软件所提出基于模型融合的异构图表示学习方法

文章来源:  |  发布时间:2025-01-09  |  【打印】 【关闭

  

近日,软件所天基综合信息系统全国重点实验室研究团队在CCF-A类人工智能顶级学术会议the 39th AAAI Conference on Artificial Intelligence(AAAI-25)上发表题为Bootstrapping Heterogeneous Graph Representation Learning via Large Language Models: A Generalized Approach的论文。论文面向复杂异构的图学习任务,结合异构图神经网络模型和大语言模型,提出了一种处理异构图数据的通用化解决方案。论文共同第一作者为工程师高航和硕士生章晨昊,通讯作者为副研究员吴凤鸽。

图表示学习方法作为机器学习领域处理异构图数据的强大工具,能够通过捕获图数据中的复杂结构和语义信息,为各种应用场景提供有效的解决方案。其中,基于异构图神经网络模型的图表示学习方法尽管表现良好,但由于依赖节点和边类型的先验知识以及统一的节点特征格式,对应用场景具有较多限制。而近年来出现的基于大语言模型的图表示学习方法,虽然有较强的数据处理能力,可以对多种图表示进行统一对齐,但预处理步骤非常耗时,而且往往忽略异构图数据的复杂特性。

研究团队结合图神经网络模型和大语言模型的优势,提出了一种新的图表示学习方法GHGRL,能够在无需显式类型信息或特殊预处理的情况下处理包含任意格式、类型的节点和边的图数据。GHGRL处理流程分三步:首先,类型生成模块负责基于节点属性识别可能的节点类型;然后通过大语言模型处理模块,自动总结和分类不同的数据格式与类型,完成节点特征对齐;最后,基于图神经网络的学习模块结合已分类的节点类型和表示,针对性学习图结构,从而生成适用于下游任务的高效图表示。

GHGRL算法框架图

研究团队将GHGRL和多种图表示学习方法在多个广泛使用的公开数据集上进行了对比实验。结果表明,GHGRL在处理异构图数据时具有显著优势。与传统异构图神经网络方法HAN、MAGNN、SeHGNN、PSHGCN相比,GHGRL不仅在精度上具有明显提升,还在处理灵活性和适应多样化数据方面表现出更高的鲁棒性。与基于大语言模型的方法TAPE、OFA和GOFA相比,GHGRL在多项任务上展现了更优性能。此外,研究团队还提出了一个复杂度增强的数据集,进一步验证了GHGRL的有效性和广泛适用性,展现出其在复杂异构图学习任务中的强大潜力。

在公开数据集上的对比实验结果

在复杂度增强数据集上的对比实验结果


论文链接:https://arxiv.org/abs/2412.08038