题名图自监督学习方法研究
作者朱彦樵
答辩日期2022-05-21
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师吴书
关键词图表达学习 自监督学习 无监督学习 对比学习 预测式学习
学位专业计算机应用技术
英文摘要

图结构是一类重要的数据类型,能够用于建模对象间复杂的交互关系。现实生活中的许多应用都可以被建模为图结构,如社交网络、化学分子结构等。在对图数据进行分析时,如何恰当地表示图数据中蕴含的信息是一个核心的问题。随着深度学习的发展,图神经网络逐渐成为图数据分析的一个标准方法。然而,大多数现有的图神经网络模型都建立在半监督或监督学习的基础上,这需要大量的有标签训练数据辅助模型的训练,而现实中,对数据进行标记往往是一项费时费力的工作。因此,如何利用丰富的无标签数据来训练图网络模型值得深入探索并且具有重要的意义。本论文围绕自监督图表达学习进行展开,针对不同类型的图数据提出不同的自监督训练策略。

论文的主要工作和创新点归纳如下:

(1)面向聚类感知的图自监督学习模型

图数据中的社群将图中具有相似功能的节点分组,其表征了图的内在语义和连接信息,因此可以作为模型训练数据的来源。基于此,本文提出一个面向聚类感知的图自监督学习框架,通过预测节点的社群标签来训练模型。之后,为了避免模型学到聚类分配的平凡解,本文提出将图学习的过程建模为一个最优传输问题,并提出一个均衡聚类策略来对社群分配结果进行规约。除此之外,为了缓解图结构中固有的连接噪声,本文提出在图表示学习的同时优化图的拓扑结构,从而学到更紧凑的隐空间,进而提高聚类算法的效果。本文在4个真实数据集上对节点分类和节点聚类两个基准任务进行了广泛的实验。实验结果证明了所提出方法的有效性。

(2)基于自适应增强的图对比学习模型

近来,对比学习在自监督图表达学习方面已经取得了不错的效果。然而,大多数现有的图对比方法都存在信息损失的问题。此外,已有工作大多利用简单的启发式图数据增强方法,忽视了数据增强对于对比学习的重要价值,在训练过程中无法保留原始数据中重要的信息。为了解决上述问题,本文提出了基于自适应数据增强的图对比学习模型。本文首先提出在节点级别上的对比学习目标函数,通过最大化数据增强视图中节点表达向量的相似度来训练模型。这一方法避免了对要求单射性质的读出函数的依赖。在此基础上,本文还提出了自适应的图数据增强方法。该方法结合了拓扑和语义两方面的先验信息。基于网络科学中的中心性度量,该方法能够使得模型学到图数据中结构上的重要连接关系和节点特征层面上关键的语义信息。本文在5个真实数据集上进行的实验表明,该方法优于目前现有的无监督训练模型。值得注意的是,在部分数据集上本文方法甚至超过了几个有监督的模型。

(3)基于结构增强的异构图对比学习模型

许多实际生活中的问题都可以被建模为带有不同类型节点和边的异构图。然而,已有的图对比学习方法却不能很好地应用在异构图上。针对异构图的特点,本文提出了基于结构增强的异构图对比学习模型。首先,为了捕捉不同元路径中的丰富信息,本文提出了一个基于多视图的对比聚合损失函数,通过优化节点在不同元路径视图下的表达一致性对每个中的视图的信息进行适应性编码。此外,本文提出显式地利用节点的结构信息,通过结构表达向量来表征节点的局部结构模式,并据此提出使用结构增强的负样本挖掘策略,通过对真实、难分负样本进行加权来增强对比学习的表达能力。本文针对3个真实场景中的异构数据集进行了深入实验,实验结果证明了所提方法的有效性。

语种中文
页码126
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/48462]  
专题自动化研究所_智能感知与计算研究中心
推荐引用方式
GB/T 7714
朱彦樵. 图自监督学习方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace