图结构数据也能用Transformer了!新研究提出图标记化框架,性能超越GNN
Transformer模型在自然语言处理等领域取得了巨大成功,但其核心的标记化(tokenization)过程主要针对序列数据。当面对图结构数据(如社交网络、分子结构、知识图谱)时,如何将这种非序列的、富含结构关系的数据转化为Transformer能够处理的离散符号序列,一直是AI领域的一大挑战。
近日,一项题为《Graph Tokenization for Bridging Graphs and Transformers》的研究提出了一种创新的图标记化框架,成功地将图结构数据转化为序列表示,使得像BERT这样的标准Transformer模型能够直接应用于图数据任务,而无需修改模型架构。
核心方法:可逆图序列化 + BPE
该框架的核心在于两个关键步骤的结合:
- 可逆图序列化:这一过程将图结构(节点和边)转化为一个序列。关键在于,这个过程是“可逆”的,意味着从生成的序列中可以无损地恢复出原始的图结构,从而保证了图信息的完整性不被破坏。
- 字节对编码(BPE):这是大型语言模型(如GPT系列)中广泛使用的标记化算法。BPE通过迭代合并序列中最频繁出现的相邻符号对来构建词汇表。研究团队将BPE应用于上一步生成的图序列上。
为了确保生成的序列能更好地捕捉图的结构信息,研究团队在序列化过程中引入了一个巧妙的引导机制:利用图子结构的全局统计信息。具体来说,那些在图数据集中频繁出现的子结构(例如特定的连接模式、小分子片段),会在序列化过程中被安排得更频繁地出现在序列中。这样一来,当BPE算法运行时,这些频繁出现的子结构模式就更容易被合并成有意义的、代表特定图结构的“标记”(token)。
突破性成果:性能超越GNN与专用图Transformer
该方法的有效性在实验中得到了充分验证。研究团队在14个基准数据集上进行了测试,涵盖了节点分类、图分类等经典图学习任务。
- 无需修改模型:使用该框架生成的标记序列,可以直接输入到标准的BERT等Transformer模型中进行训练和预测,无需为图数据设计特殊的模型架构。
- 性能领先:实验结果显示,这种“图标记化 + 标准Transformer”的组合,不仅取得了最先进(state-of-the-art)的结果,而且经常超越传统的图神经网络(GNN)以及专门为图数据设计的图Transformer模型。这是一个令人瞩目的成就,因为它表明通过精巧的数据预处理(标记化),通用序列模型在处理复杂结构数据上可能比专用模型更具潜力。
行业意义:弥合图数据与序列模型生态的鸿沟
这项工作的意义远不止于提出一个新的高性能方法。它更重要的价值在于**“架桥”**——弥合了图结构化数据与庞大的、成熟的序列模型(尤其是Transformer)生态系统之间的鸿沟。
- 降低应用门槛:AI开发者无需从头学习复杂的图神经网络或设计新的图专用Transformer,可以直接利用现有、优化良好的Transformer工具链(如Hugging Face库)来处理图数据任务。
- 激发新思路:它开辟了一条新路径,即通过改进数据的表示方式(标记化)来解锁通用模型的能力,而不是为每种数据类型都设计一个专用模型。这可能会启发更多关于如何将其他非序列数据(如三维点云、时间序列图)适配到Transformer框架中的研究。
- 加速跨领域融合:图数据广泛存在于生物信息学(蛋白质、分子)、社交网络分析、推荐系统等领域。这项技术有望促进这些领域与NLP等领域在模型和技术上的快速融合与借鉴。
该论文已被ICLR 2026接收为海报论文,相关代码已开源,为学术界和工业界进一步探索和应用提供了基础。
小结:这项研究通过创新的图标记化框架,巧妙地将图结构转化为序列,让强大的标准Transformer模型得以直接处理图数据,并在多项任务中展现出超越专用模型的性能。这不仅是图学习领域的一项重要技术进步,也为AI模型架构的通用化发展提供了新的思路。