概述
目录
- 前言
- 简介
- ABSTRACT
- 1 INTRODUCTION
- 2 RELATED WORK
- 2.1 Vertex Similarity
- 2.2 Contrastive Learning
- 2.3 Graph Pre-Training
- 3 GRAPH CONTRASTIVE CODING (GCC)
- 3.1 The GNN Pre-Training Problem
- 3.2 GCC Pre-Training
- 3.3 GCC Fine-Tuning
- 4 EXPERIMENTS
- 4.1 Pre-Training
- 4.2 Downstream Task Evaluation
- 4.2.1 Node Classification
- 4.2.2 Graph Classification
- 4.2.3 Top-k Similarity Search
- 4.3 Ablation Studies
- 5 CONCLUSION
- 读后总结
- 2022/07/14 第一次阅读
- 结语
前言
Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
自我介绍 ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研。
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
唯有努力????
知其然 知其所以然!
本文仅记录自己感兴趣的内容
简介
原文链接:https://dl.acm.org/doi/10.1145/3394486.3403168
会议:KDD '20: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (CCF A类)
代码:https://github.com/THUDM/GCC
年度:2020/08/20
ABSTRACT
图表示学习已经成为解决现实问题的强大技术
各种下游图学习任务受益于其最近的发展,如节点分类、相似度搜索和图分类
然而,现有的图表示学习技术专注于领域特定的问题,并为每个图数据集训练一个专用模型,这通常不可转移到域外数据
受自然语言处理和计算机视觉在预训练方面的最新进展的启发,我们设计了图对比编码(GCC) -一个自我监督的图神经网络预训练框架,以捕获跨多个网络的通用网络拓扑属性
我们将GCC的训练前任务设计为网络中的 子图实例( subgraph instance) 判别,并利用对比学习使图神经网络能够学习内在的和可转移的结构表征
我们在三个图学习任务和十个图数据集上进行了广泛的实验
结果表明,GCC在不同的数据集上的预训练可以达到与任务特定的和从零开始训练的对手竞争或更好的性能
这表明训练前和微调范式为图表示学习提供了巨大的潜力
1 INTRODUCTION
Hypothesis
假设:具有代表性的图结构模式具有通用性和可跨网络转移性
在过去的二十年中,网络科学研究的主要焦点是发现和抽象不同网络的普遍结构特性
- 例如,Barabasi和Albert指出,几种类型的网络,如万维网、社交网络和生物网络,都具有无标度特性,即它们的度分布都遵循幂律[1]
- Leskovec等人。[28]发现很多实图都满足致密收缩定律。网络中其他常见的模式包括小世界[57]、motif分布[31]、社区组织[34]和核心-外围结构[6],在概念层面验证了我们的假设
然而,在过去的几年中,受深度学习的近期进展[4,30]的推动,图学习的范式已经从结构化模式发现转变为图表示学习
具体来说
- 图表示学习将图的顶点、边或子图转换为低维嵌入,从而保留图的重要结构信息
- 然后,从输入图中学习到的嵌入可以输入到标准的机器学习模型中,用于同一图上的下游任务。
然而,到目前为止,大多数图上的表示学习工作都集中在单个图或一组固定的图的表示学习上,非常有限的工作可以转移到域外的数据和任务上
本质上,这些表示学习模型旨在学习每个数据集专用的网络特定结构模式
例如
- [39]在Facebook社交图上学习的DeepWalk嵌入模型不能应用于其他图
鉴于(1)图表示学习的局限性和(2)常见结构模式发现的现有技术
一个自然的问题出现了:我们可以普遍地从网络中学习可转移的代表性图嵌入吗?
类似的问题也在自然语言处理[10]、计算机视觉[17]和其他领域被提出和追求
迄今为止,最强大的解决方案是在自我监督的设置下,从大型数据集预训练一个表示学习模型
预训练的思想是使用预训练模型作为一个良好的初始化,以便在看不见的数据集上对(不同)任务进行微调
例如,BERT[10]设计语言模型预训练任务,从大型语料库中学习Transformer编码器[52]
预先训练的Transformer编码器通过微调适应各种NLP任务[55]
Presented work
受此启发以及普遍图结构模式的存在,我们研究了训练前表示学习模型的潜力,特别是用于图的图神经网络(GNNs)
理想情况下,给定一组(不同的)输入图,如Facebook社交图和DBLP合著者图
我们的目标是用一个自我监督任务在这些输入图上预训练GNN,然后针对不同的图学习任务对它进行微调,如US-Airport图上的节点分类
大概意思就是:在一个非常大的数据集上先训练,得到一些模型参数,然后在其他数据集上在之前的这个参数基础之上再进行微调就好了
在这里,GNN训练前的关键问题是:如何设计训练前任务,使网络内和跨网络的通用结构模式能够被捕获和进一步传递?
在这项工作中,我们提出了图对比编码(GCC)框架来学习跨图的结构表示
在概念上,我们利用对比学习[58]的思想,设计了图形训练前任务作为实例判别
- 它的基本思想是从输入图中采样实例,将每个实例视为一个独立的类
- 并学习对这些实例进行编码和区分
具体来说,GCC要学习可转移结构模式需要回答三个问题
- (1)实例是什么?
- (2)判别规则是什么?
- (3)如何编码实例?
在GCC中,我们将训练前任务设计为子图实例判别
它的目标是根据其局部结构来区分顶点(Cf. Figure 1)
对于每个顶点,我们从其多跳ego网络中抽取子图作为实例
GCC旨在区分从某个顶点采样的子图和从其他顶点采样的子图
最后,对于每个子图,我们使用一个图神经网络(具体来说,GIN模型[59])作为图编码器,将底层结构模式映射到潜在表示
由于GCC不假设顶点和子图来自同一个图,因此图形编码器被迫在不同的输入图中捕获通用模式
给出了预训练的GCC模型,我们将其应用于不可见的图来解决下游任务。
据我们所知,迄今为止,结构图表示训练前领域的工作非常有限
- 最近的一个是设计策略,在特定域(分子图)[19]的节点属性标记图上预训练gnn
- 最近的另一项工作是InfoGraph[46],它专注于学习领域特定的图级表示,特别是用于图分类任务
- 第三项相关工作由Hu等人[20]完成,他们定义了几个图学习任务,如预测中心性分数,以在合成图上预训练GCN[25]模型
我们进行了大量的实验来证明GCC的性能和可转移性
我们在不同类型的图集合上预训练GCC模型,并将预训练模型应用于10个新的图数据集上的3个下游图学习任务
结果表明,GCC模型取得了与最先进的任务特定图表示学习模型相竞争或更好的结果,这些学习模型是从零开始训练的
例如,对于US-Airport网络的节点分类
GCC在Facebook、IMDB和DBLP图上的预训练优于直接在US-Airport图上训练的GraphWave[12]、ProNE[64]和Struc2vec[43],实证地证明了我们一开始的假设
总结起来,我们的工作有以下四个方面的贡献:
- 我们将图神经网络跨多个图进行预训练的问题形式化,并确定其设计挑战
- 我们将训练前任务设计为子图实例判别,从多个输入图中获取通用和可转移的结构模式
- 我们提出了图对比编码(GCC)框架来学习结构图表示,它利用对比学习来指导训练前的学习
- 我们进行了大量的实验,以证明对于域外任务,GCC可以提供与专用图特定模型相当或更优越的性能
2 RELATED WORK
2.1 Vertex Similarity
在过去的几年里,网络/图中顶点相似性的量化已经得到了广泛的研究
顶点相似性的目标是回答[26]之类的问题
如“这两个顶点有多相似?”或“其他哪个顶点与这些顶点最相似?”相似的定义在不同的情况下可能是不同的
我们简要回顾了以下三种类型的顶点相似性
Neighborhood similarity
邻域相似性的基本假设,即邻近性,是紧密连接的顶点应该被认为是相似的
- 早期的邻域相似性度量包括Jaccard相似性(计算共同邻域)、RWR相似性[36]和SimRank[21]等
- 最近开发的网络嵌入算法,如LINE [47], DeepWalk [39], node2vec[14],也遵循邻域相似性假设
Structural similarity
与邻域相似度通过连通性来衡量相似度不同,结构相似度甚至不假设顶点是连通的
结构相似的基本假设是具有相似局部结构的顶点应该被认为是相似的
关于结构相似性建模的研究有两种方向
- 第一行定义了基于领域知识的代表性模式。例如顶点度、结构多样性[51]、结构孔[7]、k-core[2]、motif[5,32]等。因此,这种类型的模型,如Struc2vec[43]和RolX[18],通常都包含明确的功能
- 第二项研究利用谱图理论来模拟结构相似性。最近的一个例子是GraphWave[12]
在这项工作中,我们专注于结构相似性
与上述两种类型不同的是,我们采用对比学习和图神经网络从数据中学习结构相似性
Attribute similarity
现实世界的图形数据往往具有丰富的属性,如引文网络中的文本、社会网络中的人口统计信息、分子图中的化学特征等
最近的图神经网络模型,如GCN [25], GAT [53], GraphSAGE[16,62]和MPNN[13],利用附加属性作为边信息或监督信号来学习进一步用于度量顶点相似性的表示
2.2 Contrastive Learning
对比学习是一种从数据中获取相似性的自然选择
- 在自然语言处理中,Word2vec[30]模型利用拟合词和负采样来学习词嵌入
- 在计算机视觉中,大量的工作[15,17,49,58]通过最小化同一图像的两个视图之间的距离来学习自我监督图像表示
在这项工作中,我们采用了Oord等人[35]的InfoNCE损失和Wu等人[58]的实例识别任务
2.3 Graph Pre-Training
Skip-gram based model
早期对预训练图表示的尝试是受Word2vec[30]启发的基于跳跃图的网络嵌入模型
如LINE [47], DeepWalk [39], node2vec[14]和metapath2vec[11]
它们大多数遵循邻域相似性假设
上述方法学习到的表示与用于训练模型的图捆绑在一起,不能处理样本外问题
我们的图对比编码(GCC)在两个方面不同于这些方法
- 首先,GCC关注结构相似性,结构相似性与邻域相似性正交
- 其次,GCC可以跨图形转移,甚至转移到训练前从未见过的图形
Pre-training graph neural networks
最近有几项研究将语言训练前的[10]引入了训练前的图神经网络(GNN)
- 例如,Hu等。[19]在标记图上预训练GNN,特别是分子图,其中每个顶点(原子)有一个原子类型(如C、N、O),每个边(化学键)有一个键类型(如单键和双键)。训练前的任务是恢复隐藏分子图中的原子类型和化学键类型
- 另一项相关的工作是Hu等人[20]的,它定义了几个图学习任务来预训练GCN[25]
我们的GCC框架在两个方面与上述方法有所不同
- 首先,GCC适用于一般的未标记图,特别是社会和信息网络
- 其次,GCC不涉及显式的特征化和预定义的图学习任务
3 GRAPH CONTRASTIVE CODING (GCC)
在本节中,我们形式化了图神经网络(GNN)的预训练问题
为了解决这个问题,我们提出了图形对比编码(GCC)框架
图2展示了GCC的训练前和微调阶段的概述
3.1 The GNN Pre-Training Problem
从概念上讲,给定一组来自不同领域的图,我们的目标是预先训练一个GNN模型,以一种自我监督的方式捕获这些图的结构模式
该模型应该能够受益于不同数据集上的下游任务
潜在的假设是,在不同的图中存在共同的和可转移的结构模式
如motifs,,这在网络科学文献[28,32]中很明显
一个示例场景是,我们在带有自我监督的Facebook、IMDB和DBLP图上预训练GNN模型,并将其应用于US-Airport网络进行节点分类,如图2所示
形式上,GNN预训练问题是学习一个函数 f f f,它将一个顶点映射到一个低维特征向量,使 f f f具有以下两个性质:
- 首先是结构相似性,它将具有相似局部网络拓扑的顶点在向量空间中相互靠近;
- 二是可转移性,可兼容预训练时不可见的顶点和图
因此,嵌入函数 f f f可用于各种图学习任务,如社会角色预测、节点分类、图分类等
值得注意的是,这项工作的重点是在没有节点属性和节点标签的结构表示学习,这使得它不同于图神经网络研究中常见的问题设置
此外,我们的目标是预训练一个结构表示模型并将其应用于不可见的图,这与传统的网络嵌入[14,39 - 41,47]和最近的尝试不同(将带属性的图作为输入并将其应用于特定域[19]的预训练图神经网络)
3.2 GCC Pre-Training
给定一组图,我们的目标是预先训练一个通用图神经网络编码器,以捕获这些图背后的结构模式
为了实现这一点,我们需要为图结构数据设计适当的自我监督任务和学习目标
受最近CV[17,58]和NLP[9,30]成功的对比学习的启发,我们建议使用子图实例区分作为我们的训练前任务和InfoNCE[35]作为我们的学习目标
训练前任务将每个子图实例视为自己的一个不同类,并学习区分这些实例
- 其承诺是,它可以输出捕获这些子图实例之间相似性的表示[17,58]。
- 从字典查找的角度来看,给定一个 编码查询 q q q 和一个包含 K + 1 K + 1 K+1个编码键 { k 0 , ⋅ ⋅ ⋅ , k K } {k_0,···,k_K} {k0,⋅⋅⋅,kK}的字典,对比学习查找 q q q在字典中匹配的单个键(用 k + k_+ k+表示)
在这项工作中,我们采用InfoNCE,这样:
其中
- τ τ τ为 temperature hyper-parameter
- f q f_q fq和 f k f_k fk是两个图神经网络,将查询实例 x q x^q xq和每个密钥实例 x k x^k xk 编码为 d d d维表示,用 q = f q ( x q ) q = f_q (x^q) q=fq(xq)和 k = f k ( x k ) k = f_k (x^k) k=fk(xk)表示
要在GCC中实例化每个组件,我们需要回答以下三个问题:
- Q1:如何在图中定义子图实例?
- Q2:如何在图中或图中定义(不)相似实例对,例如,对于查询 x q x^q xq,哪个键 x k x^k xk是匹配的?
- Q3:什么是合适的图形编码器 f q f_q fq和 f k f_k fk ?
值得注意的是,在我们的问题设置中,并没有假设 x q x^q xq和 x k x^k xk来自同一个图
接下来,我们通过相应的回答上述问题,提出GCC训练前框架的设计策略
Q1: Design (subgraph) instances in graphs.
对比学习框架的成功很大程度上依赖于数据实例的定义
CV和NLP任务可以直接将实例定义为图像或句子
但是,这种思想不能直接扩展到图数据,因为图中的实例没有明确的定义
此外,我们训练前的重点是纯粹的结构化表示,没有额外的输入特性/属性,这使得自然选择单个顶点作为实例是不可行的
因为它不适用于区分两个顶点
为了解决这个问题,我们建议使用子图作为对比实例,将每个单个顶点扩展到其局部结构
具体来说,对于某个顶点 v v v,我们定义一个实例为它的 r − e g o r-ego r−ego网络:
Definition 3.1. A r-ego network
设 G = ( V , E ) G = (V, E) G=(V,E)是一个图
- 其中 V V V表示顶点的集合
- E ⊆ V × V E⊆V × V E⊆V×V表示边的集合
对于一个顶点 v v v,其 r − n e i g h b o r s r-neighbors r−neighbors定义为 S v = { u : d ( u , v ) ≤ r } S_v = {u:d(u, v)≤r} Sv={u:d(u,v)≤r}
- 其中 d ( u , v ) d(u, v) d(u,v)是图 G G G中 u u u到 v v v之间的最短路径距离
- 顶点 v v v的 r − e g o r-ego r−ego网络,用 G v G_v Gv表示,是由 S v S_v Sv诱导的子图
图3的左面板显示了 2-ego 网络的两个例子
注意: r − e g o r-ego r−ego网络是 S v S_v Sv
诱导的子图
GCC将每个
r
−
e
g
o
r-ego
r−ego网络视为自己的一个不同类别
,并鼓励模型区分相似实例和不同实例
Q2: Define (dis)similar instances
接下来,我们将介绍如何定义(不)相似实例
- 一对是相似实例
- 一对是不相似实例
在计算机视觉[17]中,同一幅图像的两个随机数据增强(例如,随机裁剪、随机调整大小、随机颜色抖动、随机翻转等)被视为一个类似的实例对
在GCC中,我们将同一个 r − e g o r-ego r−ego网络的两个随机数据增强作为一个相似的实例对,并将数据增强定义为图采样[27]
图采样是一种从原始图中获得代表性子图样本的技术
假设我们想要扩充顶点 v v v的 r − e g o r-ego r−ego网络( G v G_v Gv), GCC的图采样遵循三个步骤:
- 重启随机漫步(RWR)[50]
- 子图归纳
- 匿名化[22,29]
(1) Random walk with restart.
我们从ego顶点 v v v开始在 G G G上进行随机游走,游走以与边权值成比例的概率迭代到它的邻域
此外,在每一步中,步数返回起始顶点 v v v的概率为正
每一次游走,会有一定的概率会到起点
(2) Subgraph induction
带重启的随机遍历收集了 v v v周围的一个顶点子集,用 S ~ v tilde S_v S~v表示
由 S ~ v tilde S_v S~v诱导的子图 G ~ v tilde G_v G~v 被认为是 r − e g o r-ego r−ego网络 G v G_v Gv的增强版
这一步也被称为诱导子图随机游走抽样(ISRW)
(3) Anonymization
我们匿名化采样图 G ~ v tilde G_v G~v,以任意顺序将其顶点重新标记为 { 1 , 2 , ⋅ ⋅ ⋅ , ∣ S ~ v ∣ } {1,2,···,|tilde S_v |} {1,2,⋅⋅⋅,∣S~v∣}
我们重复上述过程两次,以创建两个数据扩展
它们形成一个类似的实例对 ( x q , x k + ) (x^q, x^{k+}) (xq,xk+)
如果两个子图从不同的 r − e g o r-ego r−ego网络扩展而来,我们将它们视为具有 k ≠ k + k neq k_+ k=k+的不同实例对 ( x q , x k ) (x^q, x^{k}) (xq,xk)
值得注意的是,上述所有图操作—重启随机漫步、子图归纳和匿名化—都可以在DGL包中使用
Discussion on graph sampling.
在重启抽样的随机游走中,重启概率控制着GCC对其进行数据增广的自我网络半径(即 r r r)
在这项工作中,我们跟随邱等人[42]使用0.8作为重启概率
对于邻域采样[16]和 forest fire采样[27]等其他图形采样算法,本文提出的GCC框架具有一定的灵活性。
Discussion on anonymization
现在我们讨论上述过程中匿名化步骤背后的直觉
这一步的目的是保留底层的结构模式,并隐藏精确的顶点索引
这种设计避免了学习子图实例判别的简单解决方案,即简单地检查两个子图的顶点索引是否匹配
此外,它促进了学习模型在不同图上的转移,因为这样的模型不与特定的顶点集相关联
Q3: Define graph encoders
给定两个采样子图 x q x^q xq和 x k x^k xk, GCC分别通过两个图神经网络编码器 f q f_q fq和 f k f_k fk对其进行编码
从技术上讲,这里可以使用任何图形神经网络[4]作为编码器,并且GCC模型对不同的选择不敏感
在实际应用中,我们采用了最新的图神经网络模型——图同构网络(GIN)[59]作为我们的图编码器
回想一下,我们在训练前关注的是结构表示,而大多数GNN模型需要顶点特征/属性作为输入
为了弥补这一差距,我们建议利用每个采样子图的图结构来初始化顶点特征
Definition 3.2. Generalized positional embedding.
具体地,我们定义广义位置嵌入: 对于每个子图,其广义位置嵌入为其归一化图拉普拉斯算子的顶特征向量
形式上,假设一个子图有邻接矩阵 A A A和度矩阵 D D D,我们对其归一化图拉普拉斯 s . t . I − D − 1 / 2 A D − 1 / 2 = U Λ U T s.t. I−D^{−1/2}AD^{−1/2} = U ΛU^{T} s.t.I−D−1/2AD−1/2=UΛUT进行特征分解
- 其中
U
U
U[54]中的顶特征向量
(top eigenvectors)
定义为广义位置嵌入
广义位置嵌入的灵感来自于NLP[52]中的Transformer模型,其中使用不同频率的正弦函数和余弦函数来定义单词序列中的位置嵌入
这样的定义与图拉普拉斯式有很深的联系
事实上,当 1 ≤ k ≤ n , 1 ≤ i ≤ n 1≤k≤n, 1≤i≤n 1≤k≤n,1≤i≤n时,路径图的拉普拉斯算子有特征向量: u k ( i ) = c o s ( π k i / n − π k / 2 n ) u_k(i) =cos (πki/n−πk/2n) uk(i)=cos(πki/n−πk/2n)
- 这里 n n n是路径图中的顶点数
- u k ( i ) u_k(i) uk(i)是 U U U的第 i i i行和第 k k k列,即 U = [ u 1 ⋅ ⋅ ⋅ u n ] U = [u_1···u_n] U=[u1⋅⋅⋅un]
上述事实表明,序列模型中的位置嵌入可以看作是路径图的拉普拉斯特征向量
这启发我们将位置嵌入从路径图推广到任意图
使用归一化拉普拉斯图而不是非归一化图的原因是路径图是正则图(即,具有恒定的度),而现实世界的图往往是不规则的,并且有倾斜的度分布
除了广义的位置嵌入外,我们还加入了顶点度数[59]的一热编码和自我顶点[42]的二值指示符作为顶点特征
最终的 d d d维输出向量经过图形编码器编码后,用L2-Norm[17]进行归一化
A running example
我们在图3中展示了一个GCC预训练的运行示例
为了简单起见,我们将字典大小设置为3
- GCC首先从图3左侧的一个 2 − e g o 2-ego 2−ego网络中随机增加两个子图 x q x^q xq和 x k 0 x^{k0} xk0
- 同时,另两个子图 x k 1 x^{k1} xk1和 x k 2 x^{k2} xk2是由噪声分布生成的——在本例中,它们是由图3左侧面板上的另一个 2 − e g o 2-ego 2−ego网络随机扩展而来的
- 然后两个图形编码器 f q f_q fq和 f k f_k fk将查询和三个键映射到低维向量 q q q和 { k 0 , k 1 , k 2 } {k_0, k_1, k_2} {k0,k1,k2}
- 最后,公式1中的对比损失促使模型识别 ( x q , x k 0 ) (x^q, x^{k0}) (xq,xk0)为相似的实例对,并将它们与不同的实例(即 { x k 1 , x k 2 } ) {x^{k_1}, x^{k_2}}) {xk1,xk2})区分开来
Learning
在对比学习中,需要维护 K K K大小的字典和编码器
理想情况下,在公式1中,字典应该覆盖尽可能多的实例,使 K K K非常大
然而,由于计算的限制,我们通常设计和采用经济的策略来有效地构建和维护字典,如端到端(E2E)和动量对比(MoCo)[17]
我们讨论这两种策略如下:
- E2E对实例的小批进行采样,并将同一小批中的样本视为字典。然后根据 f q f_q fq和 f k f_k fk的参数对公式1中的目标进行优化, f q f_q fq和 f k f_k fk都可以通过反向传播一致地接受梯度更新。E2E的主要缺点是字典的大小受到批处理大小的限制
- MoCo的设计目的是在不增加反向传播成本的情况下增加字典的大小。具体地说,MoCo维护着前几小批次样品的队列。在优化过程中,MoCo只通过反向传播更新
f
q
f_q
fq的参数
θ
q
θ_q
θq。梯度下降法不更新
f
k
f_k
fk的参数
θ
k
θ_k
θk。
- He等人。[17]对 θ k θ_k θk提出了一个基于动量的更新规则
- 形式上,MoCo通过 θ k ← m θ k + ( 1 − m ) θ q θ_k←mθ_k +(1−m)θ_q θk←mθk+(1−m)θq更新 θ k θ_k θk,其中 m ∈ [ 0 , 1 ) m∈[0,1) m∈[0,1)是动量超参数。
- 上述动量更新规则将更新从 θ q θ_q θq逐渐传播到 θ k θ_k θk,使 θ k θ_k θk平稳一致地演化。
- 综上所述,MoCo以牺牲字典一致性为代价获得了更大的字典大小,即字典中的键表示使用平滑变化的键编码器进行编码
除了E2E和MoCo,还有其他的对比学习机制来维护字典,如记忆库[58]
最近,何等人。[17]表明,在计算机视觉任务中,MoCo是一种比记忆库更有效的选择
因此,我们主要关注GCC的E2E和MoCo
3.3 GCC Fine-Tuning
Downstream tasks.
图学习的下游任务通常分为图级和节点级两类,其目标分别是预测图的标签或节点的标签
- 对于图级任务,可以通过GCC对输入图本身进行编码来实现表示
- 对于节点级任务,节点表示可以通过编码其 r − e g o r-ego r−ego网络(或由其 r − e g o r-ego r−ego网络扩展而来的子图)来定义
在这两种情况下,编码后的表示将被送入下游任务,以预测特定于任务的输出
Freezing vs. full fine-tuning
GCC为下游任务提供了两种微调策略——冻结模式和完全微调模式
- 在冻结模式中,我们冻结了预训练的图形编码器 f q f_q fq的参数,并将其作为一个静态的特征提取器,然后在提取的特征上训练适合于特定下游任务的分类器
- 在全微调模式下,用预先训练的参数初始化的图形编码器 f q f_q fq与分类器一起在下游任务上进行端到端训练
关于微调的更多实现细节见第4.2节。
GCC as a local algorithm
作为一种图算法,GCC属于局部算法范畴[45,48],其中算法只涉及对输入(大规模)网络的局部探索
因为GCC是通过基于随机行走的图采样方法来探索局部结构的
这样的特性使GCC能够扩展到大规模的图学习任务,并对分布式计算设置友好
4 EXPERIMENTS
在本节中,我们评估GCC在三种图学习任务上的性能——节点分类、图分类和相似度搜索,这三种任务通常被用于图学习算法的基准测试[12,43,46,59,60]
我们首先在4.1节中介绍了自我监督的训练前设置,然后在4.2节中报告了GCC对这三个图学习任务的微调结果
4.1 Pre-Training
datasets
我们在6个图数据集上进行了自我监督的预训练,这些数据集可以分为两组:学术图和社交图。
- 对于学术图,我们分别从NetRep[44]和SNAP[61]和NetRep[44]收集了两个DBLP数据集和一个Academia数据集
- 至于社交图,我们从NetRep[44]收集Facebook和IMDB数据集,以及SNAP[3]的LiveJournal数据集
表1给出了训练前数据集的详细统计
Fine-tuning.
正如我们在3.3节中讨论的,我们对GCC采用了两种微调策略
我们选择scikit-learn[38]包中的逻辑回归或SVM作为冻结策略的线性分类器4
至于完整的微调策略,我们使用学习率为0.005的Adam优化器,学习率在前3个阶段预热,3个阶段后线性学习率衰减
4.2 Downstream Task Evaluation
4.2.1 Node Classification
基线可以分为两类。
- 在第一类中,基线模型从未标记的图数据中学习顶点/图表示,然后将它们输入逻辑回归或支持向量机。例如DGK[60]、Struc2vec[43]、GraphWave[12]、graph2vec[33]和InfoGraph[46]。具有冻结设置的GCC属于这一类
- 在第二类中,模型采用端到端监督的方式进行优化。例如DGCNN[66]和GIN[59]。具有完整微调设置的GCC属于这一类。
为了进行公平的比较,我们将除graph2vec和InfoGraph5之外的所有模型的表示维度都固定为64
4.2.2 Graph Classification
4.2.3 Top-k Similarity Search
4.3 Ablation Studies
训练的效果
目前还不清楚GCC的良好性能是由于预先训练还是由于其GIN[59]编码器的表达能力
为了回答这个问题,我们用随机初始化的GIN编码器完全微调GCC,这相当于从头开始训练一个GIN编码器
我们将这个模型命名为GCC (rand),如表2和表3所示
在除IMDB-B之外的所有数据集中,GCC (MoCo)的性能都优于随机初始化的同类
这表明预训练总是比随机初始化为微调提供了一个更好的起点
对于IMDB-B,我们将其归因于训练前数据和下游任务之间的域转移。
对比损失机制
人们普遍认为,MoCo比E2E[17]具有更强的表达能力,更大的字典大小K总是有帮助的
我们还观察到这样的趋势,如图4所示
然而,大字典大小的影响并不像在计算机视觉任务[17]中报告的那样显著
- 例如,MoCo (K = 16384)只是在精确度方面略微优于MoCo (K = 1024)——US-Airport的绝对增益为1.0,COLLAB的绝对增益为0.8
- 然而,训练MoCo比训练E2E更经济。E2E (K = 1024)需要5天16小时,而MoCo (K = 16384)只需要9小时
Momentum
正如MoCo[17]中提到的,动量 m m m在学习高质量表征方面起着微妙的作用
表5显示了不同动量值在US-Airport和COLLAB数据集上的准确性
对于US-Airport, m = 0.999达到了最好的性能,这是[17]中期望的值,表明构建一个一致的字典对于MoCo是很重要的
但是在COLLAB中,动量值似乎越大,性能越好
此外,我们没有观察到设置m = 0时[17]报告的“训练损失振荡”。GCC (MoCo)收敛性较好,但精度较差。
Pre-training datasets
我们减少了用于预训练的数据集的数量
为了避免枚举组合空间,我们对表1中的前几个数据集进行了预训练,并分别报告了US-Airport和COLLAB上10倍的验证精度得分
例如,在训练前使用一个数据集时,我们选择了学术界;
当使用两个时,我们选择学术界和DBLP (SNAP)
我们提出普通最小二乘(OLS)估计之间的关系数据集的数量和模型性能
如图5所示,我们可以观察到在使用更多的数据集进行预训练时,准确率有提高的趋势
平均而言,在US-Airport和COLLAB上,再添加一个数据集可以分别获得0.43和0.81的准确率(%)
5 CONCLUSION
在这项工作中,我们研究了图神经网络的预训练,目的是表征和转移社会和信息网络中的结构表征
我们提出了图对比编码(GCC),这是一个基于图的对比学习框架,用于从多个图数据集预训练图神经网络
在10个图数据集上的3个图学习任务中,预先训练的图神经网络达到了与从零开始监督训练的同类竞争的性能
在未来,我们计划在更多样化的图数据集上对更多的图学习任务进行基准测试,比如蛋白质-蛋白质关联网络
读后总结
2022/07/14 第一次阅读
这篇文章写的很好 思路也很清晰 值得学习!
目前理解了一点点浅层次,GCC框架主要分为两部分
- 预训练
- 针对下游任务微调
预训练思路大概是:
- 对 G G G提取 r − e g o r-ego r−ego网络,作为实例(instance),同时找出相似/不相似的实例对
- 然后再对每一个实例求其顶点特征向量,用于作为GNN的输入,得到其实例的编码
- 再利用 InfoNCE 作为 优化目标(emm, 这里还没有看,不太懂),训练GNN模型
- 这样就可以得到字典中的键值(嵌入向量),便于之后第二步(下游认为微调)的进行
感觉预训练大概就是训练出一个字典
在用于下游任务的时候,根据任务类型的不同
使用节点的 r − e g o r-ego r−ego网络编码,同时更新 f q f_q fq和 f k f_k fk的参数(此时依据新网络来调整参数)
得到最终的模型参数,得到嵌入
结语
文章仅作为个人学习笔记记录,记录从0到1的一个过程
希望对您有一点点帮助,如有错误欢迎小伙伴指正
最后
以上就是美好钢笔为你收集整理的【论文阅读|浅读】GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training前言简介ABSTRACT1 INTRODUCTION2 RELATED WORK3 GRAPH CONTRASTIVE CODING (GCC)4 EXPERIMENTS5 CONCLUSION读后总结结语的全部内容,希望文章能够帮你解决【论文阅读|浅读】GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training前言简介ABSTRACT1 INTRODUCTION2 RELATED WORK3 GRAPH CONTRASTIVE CODING (GCC)4 EXPERIMENTS5 CONCLUSION读后总结结语所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复