图标记化框架发布：让Transformer直接处理图数据，性能超GNN

Transformer模型在自然语言处理等领域取得了巨大成功，但其核心的标记化（tokenization）过程主要针对序列数据。当面对图结构数据（如社交网络、分子结构、知识图谱）时，如何将这种非序列的、富含结构关系的数据转化为Transformer能够处理的离散符号序列，一直是AI领域的一大挑战。

近日，一项题为《Graph Tokenization for Bridging Graphs and Transformers》的研究提出了一种创新的图标记化框架，成功地将图结构数据转化为序列表示，使得像BERT这样的标准Transformer模型能够直接应用于图数据任务，而无需修改模型架构。

核心方法：可逆图序列化 + BPE

该框架的核心在于两个关键步骤的结合：

可逆图序列化：这一过程将图结构（节点和边）转化为一个序列。关键在于，这个过程是“可逆”的，意味着从生成的序列中可以无损地恢复出原始的图结构，从而保证了图信息的完整性不被破坏。
字节对编码（BPE）：这是大型语言模型（如GPT系列）中广泛使用的标记化算法。BPE通过迭代合并序列中最频繁出现的相邻符号对来构建词汇表。研究团队将BPE应用于上一步生成的图序列上。

为了确保生成的序列能更好地捕捉图的结构信息，研究团队在序列化过程中引入了一个巧妙的引导机制：利用图子结构的全局统计信息。具体来说，那些在图数据集中频繁出现的子结构（例如特定的连接模式、小分子片段），会在序列化过程中被安排得更频繁地出现在序列中。这样一来，当BPE算法运行时，这些频繁出现的子结构模式就更容易被合并成有意义的、代表特定图结构的“标记”（token）。

突破性成果：性能超越GNN与专用图Transformer

该方法的有效性在实验中得到了充分验证。研究团队在14个基准数据集上进行了测试，涵盖了节点分类、图分类等经典图学习任务。

无需修改模型：使用该框架生成的标记序列，可以直接输入到标准的BERT等Transformer模型中进行训练和预测，无需为图数据设计特殊的模型架构。
性能领先：实验结果显示，这种“图标记化 + 标准Transformer”的组合，不仅取得了最先进（state-of-the-art）的结果，而且经常超越传统的图神经网络（GNN）以及专门为图数据设计的图Transformer模型。这是一个令人瞩目的成就，因为它表明通过精巧的数据预处理（标记化），通用序列模型在处理复杂结构数据上可能比专用模型更具潜力。

行业意义：弥合图数据与序列模型生态的鸿沟

这项工作的意义远不止于提出一个新的高性能方法。它更重要的价值在于**“架桥”**——弥合了图结构化数据与庞大的、成熟的序列模型（尤其是Transformer）生态系统之间的鸿沟。

降低应用门槛：AI开发者无需从头学习复杂的图神经网络或设计新的图专用Transformer，可以直接利用现有、优化良好的Transformer工具链（如Hugging Face库）来处理图数据任务。
激发新思路：它开辟了一条新路径，即通过改进数据的表示方式（标记化）来解锁通用模型的能力，而不是为每种数据类型都设计一个专用模型。这可能会启发更多关于如何将其他非序列数据（如三维点云、时间序列图）适配到Transformer框架中的研究。
加速跨领域融合：图数据广泛存在于生物信息学（蛋白质、分子）、社交网络分析、推荐系统等领域。这项技术有望促进这些领域与NLP等领域在模型和技术上的快速融合与借鉴。

该论文已被ICLR 2026接收为海报论文，相关代码已开源，为学术界和工业界进一步探索和应用提供了基础。

小结：这项研究通过创新的图标记化框架，巧妙地将图结构转化为序列，让强大的标准Transformer模型得以直接处理图数据，并在多项任务中展现出超越专用模型的性能。这不仅是图学习领域的一项重要技术进步，也为AI模型架构的通用化发展提供了新的思路。

图结构数据也能用Transformer了！新研究提出图标记化框架，性能超越GNN

核心方法：可逆图序列化 + BPE

突破性成果：性能超越GNN与专用图Transformer

行业意义：弥合图数据与序列模型生态的鸿沟

延伸阅读

相关资讯