中科大摈弃jjj43天天影视,拿下图学习"宇宙杯"单项冠军!
由中科大王杰教师团队(MIRA Lab)建议的首个具有最优性保证的谎言语模子和图神经网络分离进修框架,在海外顶级图学习圭臬 OGB(Open Graph Benchmark)挑战赛的卵白质功能瞻望任务上斩获「第又名」,该记录从 2023 年 9 月 27 日起保握于今。
OGB 是当今公认的图学习基准数据集"标杆",由图学习范围的海外顶级学者斯坦福大学 Jure Leskovec 教师团队开发,于 2019 年海外顶级学术会议 NeurIPS 上隆重开源。
最近,该论文发表在东说念主工智能顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI 2024)。
TPAMI 是当今诡计机类别中影响因子最高(影响因子 20.8)的期刊之一。
该次第引入了一个尽头新颖的图神经网络的逆运算,并建议标签反卷积算法来快速近似它,进而构建一个等价的亏蚀函数,从而摈弃了传统话语模子和图神经网络微调次第的学习偏差。
论文和代码均放出。
小引
图平淡期骗于很多紧迫范围,举例引文网络、商品网络和卵白质相互作用网络。在很多骨子期骗中,图中的节点具有丰富且有用的属性信息。举例,引文华聚集的节点(论文)、商品采聚集的节点(商品)以及卵白质相互作用采聚集的节点(卵白质)分别包含着标题 / 选录、商品的文本模样和卵白质序列等紧迫信息,这些信息对下贱任务只管紧迫。而连年来兴起的很多雄伟的预进修模子是从这些复杂属性中拿获节点特色的紧迫用具之一。
为了同期编码这些属性和图结构,一个常见的架构是将预进修模子与图神经网络 GNN(Graph Neural Network)串联集成在沿途,其中预进修模子算作节点编码器 NE(Node Encoder)对属性进行编码。如下图所示,该架构通过节点编码器将这些复杂的节点属性酿成定长的低维镶嵌,再将其算作节点特征输入到图神经网络以结合图结构信息。
然而,算作 NE 的预进修模子自己无数参数且 GNN 的邻居爆炸问题(neighbor explosion),两大进修艰辛的肖似让平直端到端聚集进修 NEs 和 GNN 在骨子中并不行行的。有计划者们运行有计划分离 NEs 和 GNNs 分离进修的范式,即先固定 NEs 的参数进修 GNNs 一定步数(GNN 的进修阶段),再固定 GNNs 的参数进修 NEs 一定步数(NE 的进修阶段),两步轮换迭代进行。
本使命对现存的 NEs 和 GNNs 分离进修的范式进行有计划,指出了现存使命在 NE 进修阶段,它们莫得议论 GNN 中的特征卷积,导致它们建议的近似亏蚀函数与原始聚集进修的经营函数并不等价,存在显耀的学习偏差,进而无法拘谨到最优解(详包涵论文举的反例)。
为了应付这一挑战,咱们建议了一种有用的标签正则化时期,即标签反卷积 LD (Label Deconvolution),通过对 GNN 逆映射得到一种新颖的、可扩张性强的近似标签。逆映射有用地将 GNN 纳入 NE 的进修阶段以克服学习偏差,进而产生了与聚集进修等效的经营函数。于是咱们也进一步讲授了 LD 拘谨到了最优经营函数值,为建议的 LD 次第提供了表面保证。通过实验考据,LD显耀优于当下源流进的次第,在海外顶级图学习圭臬 OGB(Open Graph Benchmark)挑战赛的卵白质功能瞻望任务上斩获「第又名」,该记录从 2023 年 9 月 27 日起保握于今。
布景先容大范围属性图上的节点示意学习重心有计划了具有丰富裕用的节点属性的图上的节点示意学习,其中是通盘节点的集会, 是通盘边的集会。由于原始节点属性频繁是高维的文本、图像或卵白质序列,常用的搞定次第是从中提真金不怕火出维的节点特征,如下所示:
式中示意节点编码器(NE)的参数。由于大型的预进修模子(如:用于卵白质序列的 ESM2, 用于文本的 Bert)具有雄伟的特征提真金不怕火技艺,故将其算作节点编码器 f。
为了进一步编码图结构,图神经网络将节点特征和连结矩阵算作如下输入:
式中:示意的第 i 行,θ 示意图神经网络的参数。若,则,不然。GNNs 输出节点示意 H。
为了简便起见,咱们界说如下标记 . 给定一组节 B,令
示意由构成的矩阵,通盘,其中为 M 的第 i 行。给定一个向量函数,令示意一个矩阵函数,其中。
可扩张的图神经网络结合预进修节点编码器的难点
大多可扩张的图神经网络可分为基于数据采样和基于模子结构的两类想想。
图采样
为了诡计节点的小批量 B 中的节点示意,一种常见的搞定决议是对由 B 构造的子图进行如下采样:
其中。
然而,现存图采样次第中使用的 |G ( B ) |彰着大于预进修 NEs 中使用的 mini-batch 的大小。要是进一步减小现存图采样次第中 |B| 或 |G ( B ) | 的大小来对王人 mini-batch 的大小,它们的性能会显耀着落,如下所示。
在本实验中,预进修 NEs 最大 batch 的大小不逾越 12,彰着小于 |G ( B ) |。是以,通过图采样对 NEs 和 GNNs 进行聚集进修是难以齐全的。
从 GNN 均分离特征卷积
为了幸免 GNNs 特征卷积时的内存和时期支拨,一些可扩张的 GNNs(举例 GAMLP 和 SAGN)领先将特征卷积从 GNNs 均分离出来。然后基于固定节点特征对特征卷积进行一次预处理。然而,由于节点特征是可用 NEs 学习的,这种见解关于 NEs 和 GNNs 的聚集进修仍然是难以承受的。
预进修节点编码器结合图神经网络的常见进修范式:分离进修框架
给定节点标签 Y,优化问题为
。为了幸免特征卷积严重的可扩张性问题,现存的分离进修框架建议轮换优化θ 和 β:
式中 L 为真确经营函数的亏蚀函数 , L' 为 L 的近似。
GNNs 的进修阶段(优化 β)
当 NEs 的参数 β 固定时 GNNs 是可扩张的,可平直使用上述的图采样大要特征卷积分离时期来优化 GNNs。
NEs 的进修阶段(优化 β)
现存的颓靡进修框架忽略了 GNNs 中的特征卷积来设想新的亏蚀函数 L',举例自监督亏蚀或监督亏蚀并具有可扩张的线性层。
值得防备的是,NEs 的进修阶段不波及公式中 GNNs 的参数 θ。咱们的次第 LD 和 GLEM 基于不同的 motivation,具体来说,LD 旨在归附 GNN,而 GLEM 旨在进步伪标签
的质地,在测试节点
上进行半监督学习。因此,咱们忽略了对 Y 的校正,并假定 LD 和 GLEM 中的节点标签 Y 是交流的。
标签反卷积
针对分离进修框架中忽略 GNN 特征卷积的问题,咱们建议了一种简便高效的标签正则化时期,即标签反卷积(Label Deconvolution,LD)。设节点标签为 Y,要是任务是半监督的(指图中的部分节点标签是缺失的),即可字据预进修的 NEs 推理得到的固定节点特征进修 GNNs。
LD 是一个分离进修框架,分别对 GNNs 和 NEs 进行进修。咱们将 NEs 的进修阶段表述为:
式中:GNN-1 为 GNN 的逆映射。咱们称为反标签。在 NEs 的进修阶段参数 θ 是固定的,LD 的中枢想想是对
进行预处理,以幸免在 NEs 的进修阶段执行屡次增多内存和时期支拨的操作。因此,mini-batch 的进修经营为:
其中 B 是节点的 mini-batch。
由于非线性 GNN 的逆映射很难精准诡计,是以咱们推导 GNN 的有用近似来替代。接下来先容 GNN 的频谱公式,将线性特征卷积与 GNN 分离。然后通过 LD 参数化具有相同抒发的逆标签,进一步幸免了线性特征卷积的逆映射。
基于频谱设想的 GNNs
受到频谱滤波器的启发,近来出现了很多高效的 GNNs 架构。LD 的推导亦然基于频谱的 GNNs,即:
其中
是执行线性特征卷积的多项式谱滤波器,是归一化的相邻矩阵,
长短线性多层感知器。权紧迫么是可学习的,要么是固定的。如 [ 2 ] 所示,基于频谱的 GNN 不错在一些和气的假定下产生自便节点瞻望。这些假定也适用于很多真确宇宙的图数据。因此进修经营变为:
上述方程保留了 GNNs 的可扩张的非线性变换,并预处理了图扩散矩阵
的逆矩阵。值得防备的是,在 NEs 的进修阶段包含了 GNNs 参数 θ 的一部分。这种结合显耀缩小了 NEs 和 GNNs 聚集进修的学习偏差,同期不影响可扩张性。
标签反卷积
为了进一步幸免线性特征卷积的逆映射,咱们建议了一个可进修的标签反卷积来生成逆标签 Y ( γ ) 。标签反卷积旨在用 γ 参数化 Y ( γ ) ,使得 Y ( γ ) 的抒发技艺类似于,即:
这么,进修经营变为:
通过咱们建议的带 γ 的从头参数化次第隐式地纳入了参数。其中枢想想受到 Cayley-Hamilton 定理的启发。底下领先先容两个有用的引理。
引理 1. 设矩阵 M 的特征多项式为。若矩阵 M 可逆,则 M 的逆矩阵为:
引理 2. 若矩阵 MN ∈ Rn × n 以示意成一个次数小于 n 的矩阵多项式,即:
由此引出命题:
命题 1. 若可逆,则示意为矩阵幂的线性组合,即:
因此,咱们将逆标签 Y ( γ ) 参数化为:
其中 N 是一个超参数,变量是可进修参数。
直不雅上来看,i-hop 标签是 k-hop 邻居中标签的(加权)平均值。关于一个 N 层 GNN,节点的瞻望(示意)不仅依赖于它的特征,况兼依赖于其 N 跳邻居的特征。类似地,节点的特征不仅对其瞻望有孝敬,对其 N 跳邻居的瞻望也有孝敬。因此,i-hop 标签不错有用缓解NEs 进修阶段的学习偏差。
逆标签的小批量版块为:
式中 B 为节点的 Mini-Batch。
底下回归了 LD 算法的伪代码。
NEs 不同亏蚀函数的比较
现存的分离进修框架建议了各式亏蚀函数来迫临
,导致聚集进修产生学习偏差。咱们回归了在节点标签和图结构方面的学习偏差。图 5 展示了聚集进修、LD、GIANT 和 GLEM 的亏蚀函数。LD将图结构与节点标签和会生成逆标签,保握了与聚集进修相同的学习行动。然而,GIANT 和 GLEM 忽略了图结构或节点标签,导致了显耀的学习偏差。
天然 LD 和聚集进修有着相同的学习行动,但 LD 在特征存储上比聚集进修更高效。具体来说,为了诡计 mini-batch 节点 B 数据上的亏蚀,LD 的 NE 以 O ( |B| ) 的内存复杂度对 B 中的属性进行编码。然而,聚集进修的 NE 对大小为 G|B| 的采样子图中的属性进行编码,产生比 LD 更大的内存复杂度 O ( G|B| ) 。
底下展示了 NEs 进修阶段不同进修次第的复杂性以及 NEs 的监督信号。LD 和 GLEM 是通盘次第中速率最快、存储最高效的算法。且与 GLEM 比拟,LD 在 NEs 的监督信号中还议论到了图结构。
实验摈弃
团队对平淡使用的绽放图基准数据集 OGB(Open Graph Benchmark)中的ogbn-axiv、ogbn-product和ogbn-protein进行实验,其图数据分别为引文网络、协同购买网络和卵白质关联网络。
如下所示,LD 在不同 GNN backbone 的三个数据集上的发达都显耀优于通盘的 baseline。
逆标签分析
户外逆标签 Y ( γ ) 是真确标签与 i 跳邻居标签的加权和。图 8 画图了微调经过中的权重 γ i 的变化经过。逆标签往往是真确标签大要 i 跳邻居中 i 较小的标号。这是因为真确标签和 i 较小的 i 跳邻居标签仍然是通盘标签中对节点分类最紧迫的监督信号。此外,i 较大的 i 跳邻居标签存在过平滑问题,即跟着 i 的增多,i 跳邻居标签可能趋于不行永别。值得防备的是,权重 γ i不拘谨到频频解,其中。这证实其他跳数的标签对节点特征提真金不怕火是有匡助的。
为了进一步比较逆标签和真确标签,咱们在图 9 中展示了节点属性的相同度和标签的相同度。咱们从 ogbn-arxiv 数据聚集就地选用了几对具有高度相同文本(即文本相同度大于 0.6)但标签不同(节点 0 和 1 , 2 和 3 , 4 和 5)的节点。咱们使用TF-IDF 算法和余弦相同度分别来评估文本相同度和标签相同度。图 4a 中每对节点都具有较高的相同度,但不同对中的节点相同度较低,咱们对其进行颓靡选用。图 4b 和 4c 标明,逆标签为具有相同文本的节点提供相同的监督信号,为具有不同文本的节点提供不同的监督信号。然而真确标签无法齐全这一特色。由此可见,逆标签通过裁减图结构中的标签噪声来保留真确语义属性。
作家先容:
石志皓,2020 年赢得中国科学时期大学电子工程与信息科学系学士学位。现于中国科学时期大学电子工程与信息科学系的 MIRA Lab 实验室攻读博士有计划生,师从王杰教师。有计划意思包括图示意学习和 AI4Science。他曾以第一作家在 TPAMI、ICLR 等期刊、会议上发表论文,曾受邀在 ICLR 2023 作念罗致率约为 8% 的 Spotlight 论说。
路方华,2023 年赢得上海大学机械设想与自动化专科学士学位。现于中国科学时期大学电子工程与信息科学系的 MIRA Lab 实验室攻读硕士有计划生,师从王杰教师。有计划意思包括图示意学习和天然话语处理。
论文地址:https://www.computer.org/csdl/journal/tp/5555/01/10678812/20b3hKWQ3Ru
代码地址:https://github.com/MIRALab-USTC/LD
参考文件:
[ 1 ] Zhao J, Qu M, Li C, et al. Learning on large-scale text-attributed graphs via variational inference [ J ] . arXiv preprint arXiv:2210.14709, 2022.
[ 2 ] Wang X, Zhang M. How powerful are spectral graph neural networks [ C ] //International Conference on Machine Learning. PMLR, 2022: 23341-23362.
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 神气主页结合,以及干系样子哦
咱们会(尽量)实时回话你
点这里� � 温暖我,铭记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再见 ~