Graph Transformers

# Graph Transformers

# 介绍

GCN与Transformer的融合

没有位置编码层的 Transformer 是置换不变的，并且 Transformer 还具有良好的可扩展性，因此研究人员在近期开始考虑将 Transformers 应用于图中。大多数方法的重点是通过寻找最佳特征和最佳方式来表示图形，并改变注意力以适应这种新数据。

将 Transformer 用于图在很大程度上仍处于起步阶段，但就目前来看，其前景也十分可观，它可以缓解 GNN 的一些限制，例如缩放到更大或更密集的图，或是在不过度平滑的情况下增加模型大小。

图上不同的 transformers 的主要区别在于（1）如何设计 PE，（2）如何利用结构信息（结合 GNN 或者利用结构信息去修正 attention score, etc）。

参考资料：

一文带你浏览Graph Transformers - 知乎 (zhihu.com) (opens new window)

图机器学习无处不在，用 Transformer 可缓解 GNN 限制 | 雷峰网 (leiphone.com) (opens new window)

一文带你浏览Graph Transformers_PaperWeekly的博客-CSDN博客 (opens new window)

# 综述

Transformer for Graphs: An Overview from Architecture Perspective

A Bird’s-Eye Tutorial of Graph Attention Architectures

# 文献

# GTNs（2019 NeurIPS）

Graph Transformer Networks

用于学习异构图上的节点表示，方法是将异构图转换为由元路径定义的多个新图，这些元图具有任意边类型和任意长度，通过在学习的元路径图上进行卷积来表示节点。

（非Transformer）

# GTOS（2020 AAAI）

Graph Transformer for Graph-to-Sequence Learning

论文解读：Graph Transformer for Graph-to-Sequence Learning_华师数据学院·王嘉宁的博客-CSDN博客_graph transformer (opens new window)

动机： 先前的GNN的缺陷：（1）固有的局部传播更新自然而然地排除了一些有效的全局交互，不利于大规模的图或当两个结点距离很远的情况;

假设对一个图结构进行训练，迭代次数设置为L，因此对于每个结点其只能有机会与其在L 跳数之内的所有结点实现直接的信息交互，而超过范围的结点之间信息得不到显式的交互。这类似于在RNN及其相关变体中存在的梯度消失问题。

（2）尽管两个结点能够在一定距离范围内可达，而由于过长距离信息也会被削弱；

当然第一种情况可以避免，例如增加迭代次数，另外即便在一定跳数范围内信息得不到直接交互，但通过中间部分结点也可以实现简介的信息交互，但可想而知过长的距离使得这些信息变得非常的稀疏；

（3）Transformer：完全以Attention实现对不同成分之间的进行显式的信息交互，不受到长距离的限制。但现有的Transformer模型均只在序列模型上得以验证，而并没有在图结构上进行应用。

Transformer的思想是将每个结点抽象为一个全连接图，每个结点均可以与所有结点进行信息交互，但它们的交互并没有融入实际的结点与结点见的关系relation，特别是对于像依存句法树（Dependency Tree，DP）和抽象语义表示（Abstract Mean Representation，AMR）等富含边信息。因此需要模型能够显式地学习这些边的信息的同时，不受到距离约束的影响。

本文提出一种Graph Transformer模型，主要解决两个问题： （1）先期GNN及其变种模型中没有解决的结点之间长距离信息交互问题，我们将输入的图抽象为一个全连接图，因此可以借助Transformer的特性来实现；因此每个结点都可以获得其他所有结点的信息，不会受到距离限制；（2）先前图表征模型并没有对关系边信息进行表示，部分方法将边视为一个结点，但这依然不能全面的提取图的全局信息，因此我们需要引入对关系的表征来避免信息的稀疏性；由于有些结点之间并不是单跳内可达，因此为了能够表示任意两个结点之间的关系，使用最短路径来表示，因此引用GRU来实现关系的表征。

总结： 本文提出一种图表示方法，旨在解决先前的GNN-based方法只考虑到单跳（one-hop/first-order）范围内的结点的信息聚集，而忽略对长距离的结点信息交互的问题，提出的Graph Transformer方法则可以实现每个结点之间进行显式地信息交互，并将结点之间的最短路径关系表征作为保留图结构信息的依据。 缺点则在于不适用于大规模的图训练，因为Transformer之所以速度快是因为使用可并行处理的attention，而本文将关系路径使用GRU进行编码，直接破坏了attention带来的优势，使得计算量进一步增加。

# GT（2021 AAAI Workshop）

A Generalization of Transformer Networks to Graphs

Graph Transformer——合理灌水 - 知乎 (zhihu.com) (opens new window)

Laplacian PE - 知乎 (zhihu.com) (opens new window)

graph_transformer_edge_layer介绍详细参考代码：graphtransformer/graph_transformer_edge_layer.py at main · graphdeeplearning/graphtransformer (github.com) (opens new window)

作者提出了一种适用于任意图的transformer神经网络结构的推广方法。原始的transformer是建立在全连接的图上，这种结构不能很好地利用图的连通归纳偏置——arbitrary and sparsity，即把transformer推广到任意图结构，且表现较弱，因为图的拓扑结构也很重要，但是没有融合到节点特征中。作者提出新的graph transformer，带有以下四个新特征：

在每个node的可连通临域做attention。
positional encoding用拉普拉斯特征向量表示。
用BN（batch normalization）代替LN（layer normalization），优点：训练更快，泛化性能更好。
将结构扩展到边特征表示.此架构简单而通用，作者相信它可以作为黑盒，应用在transformer和graph的application中。

# GraphTrans（2021 NeurIPS）

Representing Long-Range Context for Graph Neural Networks with Global Attention

# SAN（2021 NeurIPS）

Rethinking Graph Transformers with Spectral Attention

近年来，Transformer架构已被证明在序列处理中非常成功，但由于难以正确定义位置，它在其他数据结构（如图形）中的应用仍然有限。在这里，我们提出了光谱注意力网络（SAN），它使用学习的位置编码（LPE），可以利用全拉普拉斯谱来学习给定图中每个节点的位置。然后将此LPE添加到图形的节点特征中，并传递给完全连接的Transformer。

通过利用拉普拉斯算子的全谱，我们的模型在理论上在区分图方面是强大的，并且可以更好地从它们的共振中检测类似的子结构。此外，通过完全连接图形，Transformer不会遭受过度挤压（大多数GNN的信息瓶颈）的困扰，并能够更好地模拟物理现象，如热传递和电相互作用。

# Graphormer（2021 NeurIPS）

Do Transformers Really Perform Bad for Graph Representation？

KDD Cup 2021 | 微软亚洲研究院Graphormer模型荣登OGB-LSC图预测赛道榜首 (msra.cn) (opens new window)

# SAT（2022 ICML）

Structure-Aware Transformer for Graph Representation Learning

# GraphGPS（2022 NeurIPS）

Recipe for a General, Powerful, Scalable Graph Transformer

# GRPE（2022 ICLR Oral）

GRPE: Relative Positional Encoding for Graph Transformer

# NodeFormer （2022 NeurIPS）

NodeFormer: A Scalable Graph Structure Learning Transformer for Node Classification

# TokenGT（2022 NeurIPS）

Pure Transformers are Powerful Graph Learners

# EGT（2022 KDD）

Global Self-Attention as a Replacement for Graph Convolution

# ANS-GT（2022 NeurIPS）

Hierarchical Graph Transformer with Adaptive Node Sampling

# Matformer（2022 NeurIPS）

Periodic Graph Transformers for Crystal Material Property Prediction

# Relational Attention（2023 ICLR）

Relational Attention: Generalizing Transformers for Graph-Structured Tasks

编辑

#Transformer #GCN #论文解读

上次更新: 2023/05/26, 03:03:27

← LLM-Agents Diffusion Model→