机器之心报导
机器之心编辑部
图神经网络开展到什么程度了?现在咱们有了专用的 Benchmark 东西来进行评测。
近期的许多研讨现已让咱们正真看到了图神经网络模型(GNN)的强壮潜力,许多研讨团队都在不断改进和构建根底模块。但大多数研讨运用的数据集都很小,如 Cora 和 TU。在这种状况下,即便对错图神经网络的功能也是可观的。假如进行进一步的比较,运用中等巨细的数据集,图神经网络的优势才干显现出来。
在斯坦福图神经网络大牛 Jure 等人发布《Open Graph Benchmark》之后,又一个旨在构建「图神经网络的 ImageNet」的研讨出现了。近来,来自南洋理工大学、洛约拉马利蒙特大学、蒙特利尔大学和 MILA 等组织的论文被提交到了论文预印版渠道上,并且这一新的研讨有深度学习前驱 Yoshua Bengio 的参加,也得到了 Yann LeCun 的重视。
论文链接:https://arxiv.org/abs/2003.00982
在该研讨中,作者一次引入了六个中等巨细的基准数据集(12k-70k 图,8-500 节点),并对一些有代表性的图神经网络进行了测验。除了只用节点特征的基准线模型之外,图神经网络分红带或不带对边对注意力两大类。GNN 研讨社区一直在寻求一个一起的基准以对新模型的才能进行评测,这一东西或许能够让咱们完成方针。
现在,假如你想测验一下自己的图神经网络模型,能够正常的运用它的开源项目进行测验了。
项目地址:https://github.com/graphdeeplearning/benchmarking-gnns
不同使命上的测验脚本,每一个 Notebook 都会手把手教你怎么测验不同的图神经网络。
该敞开基准架构依据 DGL 库,DGL 由 AWS 上海 AI 研讨院、纽约大学、上海纽约大学敞开和保护,是业界抢先的图神经网络练习渠道,并无缝支撑干流深度网络渠道。Benchmarking gnn 建立在 DGL 的 PyTorch 版别之上。
AWS 上海 AI 研讨院首任院长、上海纽约大学张峥教授评论说:「这篇论文来得很及时,也有含义。榜首,阐明现有的数据集太小、致使成为行进的妨碍,渐渐的变成了学界的一致。值得赞扬的是这篇文章的作者并没有由于 OGB 的发布就搁下不弄了。在我看来,他们的数据集和 OGB 有很强的互补性,出现了图神经网络更丰厚的运用场景,比方把图画数据转换成图数据,尽管是从 MNIST 和 CIFAR 开端,也隐含了推翻或改动依据卷积网络 CNN 的解决方案,再比方游览推销员问题是一个经典的优化问题,等等。」
「别的,依据这一系列的数据得到的定论有比较高的可信度,比方数据多起来图神经网络更能发挥优势,比方带注意力的图神经网络尽管参数更多,但功能也更好。总归,这些成果对鼓励更多的模型研讨和拓宽运用场景十分有含义。」张教授说
图神经网络已成为剖析和学习图形数据的规范东西,并已成功地运用在许多范畴中,包含化学、物理、社会科学、常识图谱、引荐体系以及神经科学等。跟着各范畴的开展,确认架构类型以及要害的机制显得特别的重要,这些架构与机制能够在跨图形巨细的状况下进行泛化,使得咱们也能够处理更多更大更杂乱的数据集以及范畴。
可是,在缺少具有一致性的试验设置和许多数据集没有规范化基准的状况下,衡量新的 GNN 有用性以及比照模型渐渐的变困难。在本论文中,作者提出了一个可仿制化的 GNN 基准测验结构,能够让研讨人员方便地增加新的数据集以及模型。从数学建模、计算机视觉、化学和组合问题等多方面将这一基准结构运用至最新的中规范图形数据集里,以便于在规划有用的 GNN 时建立起要害的操作。更精确的来说,图卷积、各项异性分散、残差衔接、归一化层是开发鲁棒性以及可扩展性 GNN 的通用构件。
基准测验的数据集和构建图的办法
这项作业的方针之一是供给一个易于运用的中等规划数据集,在这些数据集上,面向曩昔几年中所提出的不同 GNN 架构在功能体现上有显着的差异。一起,这些差异从计算的视点上来说是具有适当的含义,该基准包含 6 个数据集,如表 1:
提议基准数据集的汇总计算信息。
关于这两个计算机视觉数据集,来自经典的 MNIST (LeCun et al., 1998) 以及 CIFAR10 (Krizhevsky et al., 2009) 数据会集的每个图画都运用了所谓的超像素转换成图。
而接下来的使命是将这些图形分类。在 PATTERN 和 CLUSTER 数据会集,图形是依据随机块模型生成的。这些使命包含辨认特定的子图结构 (PATTERN 数据集) 或许辨认集群 ( CLUSTER 数据集)。这些都属所以节点分类使命。
Tsp 数据集是依据出售人员游览的问题 (假定给定一个城市列表,拜访每个城市并回来原始城市的最短途径是什么?)
将随机欧氏图上的 TSP 问题作为一个鸿沟分类或是衔接猜测的使命看待,其间 Concorde Solver 给出的 TSP 游览中每一鸿沟的真实状况值都属所以在实际国际中已存在的分子数据集。每个分子可被转换成一个图形: 其间每个原子可成为一个节点,每个键可成为一个边。
基准测验设置
GatedGCN-门控图卷积网络 (Bresson & Laurent,2017) 是考虑中的最终一个 GNN。假如在数据会集可用的状况下,其间 GatedGCN-e 表明运用边际特点/特征的版别。别的,作者也完成了一个简略的不运用图结构的基线模型,它处于并行状况下对每个节点的特征向量运用一个 MLP,且独立于其他节点。
这是后续可选的一个门控机制,用以以取得门控 MLP 基线 (概况见弥补资料)。作者对 MNIST,CIFAR10,ZINC 以及 TSP 在 Nvidia 1080Ti GPU 上进行试验,对 PATTERN 和 CLUSTER 在 Nvidia 2080Ti GPU 上进行试验。
图分类和超像素数据集
这一部分运用了计算机视觉范畴里最盛行的 MNIST 和 CIFAR10 图画分类数据集。超分辨率格局为 SLIC(Knyazev et al., 2019)。MNIST 具有 55000 练习/5000 验证/10000 测验图,节点为 40-75 之间(即超像素的数量),CI-FAR10 有 45000 练习/5000 验证/10000 测验图,节点数为 85-150。
图 1. 示例图和超像素图。SLIC 的超像素图(其间 MNIST 最多 75 节点,CIFAR10 最多 150 节点)是欧几里得空间中的 8 个最近邻图形,节点色彩表明均匀像素强度。
表 3. 不同办法在依据 MNIST 和 CI-FAR10 的规范测验集上的测验成果(数值越高越好)。该成果是运用 4 个不同种子运转四次成果的均匀值。赤色为最佳水平,紫色为高水平。粗体则表明残差链接和非残差衔接之间的最佳模型(如两个模型水平相同则皆为粗体显现)。
图回归和分子数据集
ZINC 分子数据集被用于对受限溶解度分子特性进行回归剖析。在这里 ZINC 有 10000 练习/1000 验证/1000 测验图,节点数/原子数为 9-37。关于每个分子图,节点特征是原子的类型,边际特征是边际的类型。
在 SBM 数据集上进行节点分类
研讨者考虑了节点等级的图形式辨认使命和半监督图聚类使命。图形式辨认时为了找到一个固定的图形式 P,嵌入于更大的图 G 中。
而半监督聚类使命则是网络科学中的另一个重要使命。研讨者针对以上两个使命别离生成了相应的数据集。
表 5:在规范测验集 PATTERN 和 CLUSTER SBM 图上的功能体现。
TSP 数据集上的边分类
TSP(Travelling Salesman Problem)指的是游览推销员问题:给定一个 2D 的欧几里得图,算法需求找到一个最优的序列节点,名为 Tour。它应当有着最少的边权重。TSP 的大规划特性使得它成为一个具有挑战性的图使命,需求对部分节点的近邻和大局图结构进行推理。
更重要的是,组合优化问题也是 GNN 中有研讨含义的一个运用场景。研讨这类问题,不只仅在实际中有着广泛的运用,还关于了解图模型的优化和学习进程,图网络自身的局限性等有重要含义。
在基准测验中,研讨者采用了依据学习的办法,建立了一 GNN 作为骨架网络,来给每个边和是否所属猜测成果集进行概率猜测。这一概率经由图查找技能被转换为离散决议计划。研讨者别离创建了 10000 个练习实例和 1000 个验证、1000 个测验实例。
图 2:TSP 数据集的样本图。节点以蓝色表明,赤色表明 groundtruth 的边。
测验成果
表 6:TSP 测验集的图功能体现,分为有/无残差衔接杰出总状况。赤色表明最好的模型功能,紫色表明模型作用不错。
表 7:在 TSP 测验集图上的功能体现。模型是深度 GNN,有 32 层。模型分为运用残差衔接和没有残差衔接两种状况。L 表明层数,B 表明最好的成果(有残差衔接和无残差衔接的状况)。
表 8:ZINC、CIFAR10 和 CLUSTER 测验集图在有或许没有 BN、GN 的状况下的功能体现。
本文为机器之心报导,转载请联络本大众号取得授权。
------------------------------------------------
参加机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报导:content@jiqizhixin.com
广告 & 商务协作:bd@jiqizhixin.com