当前位置：首页 > news >正文

贵阳网站建设外包做网站还有前景么

news 2025/11/15 5:32:14

贵阳网站建设外包,做网站还有前景么,免费行情网站推荐,php英文网站源码文 | iven自从图卷积神经网络#xff08;GCN#xff09;面世以来#xff0c;图神经网络#xff08;GNN#xff09;的热潮一瞬间席卷 NLP。似乎在一切 NLP 任务上#xff0c;引入一个图结构#xff0c;引入一个 GNN#xff0c;就能让模型拥有推理能力。更重要的是#… 文 | iven自从图卷积神经网络GCN面世以来图神经网络GNN的热潮一瞬间席卷 NLP。似乎在一切 NLP 任务上引入一个图结构引入一个 GNN就能让模型拥有推理能力。更重要的是似乎在实验结果上也能证明 GNN NLP 的有效性。具体地GNN NLP 可以分成以下两类任务在本来就需要图的任务上比如知识图谱问答KBQA大家从问题和答案中抽取关键实体从知识图谱中将这些实体以及及所有路径提取出来作为知识图谱针对这个问题提取出的子图在这上使用 GNN 进行推理。在本来没有图的任务上比如文档级的抽取或者理解任务大家将文档中的关键实体作为节点并用一些简单的规则连边比如在同一个句子里的实体连边、指代同一个概念的实体连边等等得到一张文档对应的图在上面用 GNN 推理。看起来建图是有用的可接下来为啥一定要用 GNN 呢最近的文章里人们都说 GNN 有“推理能力”即 GNN 在图上的信息传播过程相当于在图上找路径这些路径可以解释答案得到的推理步骤。在 KBQA 任务里GNN 能在图中挑选出从问题实体到答案的推理路径。比如这里提问哪里能找到有电梯的地下室呢衣柜、教堂、办公楼三选一答案显然是办公楼。在这个 case 里模型预测出了 elevator → building → office building 和 basement → building → office building 两条路径这看起来都能解释答案的选择逻辑。在文档级关系抽取任务里GNN 的推理路径就表示了关系的传递。比如图中右边是文本大概讲的是二战中几个国家军队的故事下划线的是实体左边是 World War II 这个实体在两层 GNN 中分别对所有实体的注意力权重。这样我们也能得到与前一个例子相似的一些推理路径World War II → New Ireland → Japan 和 World War II → New Ireland → Imperial Japanesae Army。这也解释了为什么 Japan 与 World War II 是“参与者”的关系。但是问题来了推理的必要条件其实只有一张图我们真的需要 GNN 中复杂的节点与边的表示、复杂的信息聚集和传播才能“推理”吗今天我们带来一篇杨迪一老师领衔的文章 GNN is a Counter? Revisiting GNN for Question Answering。这篇文章表明GNN 被我们滥用了推理真的不需要 GNN简简单单的一个计数器就足够论文题目: GNN is a Counter? Revisiting GNN for Question Answering论文链接: https://arxiv-download.xixiaoyao.cn/pdf/2110.03192.pdfGNN 真的有用吗在介绍这篇文章之前我们还是先来回顾下在 KBQA 问题上大家用 GNN 的做法。KBQA 的主要知识来源有两个方面预训练模型中隐含的知识、知识图谱中显式的知识。为了用上预训练模型的知识大家用预训练模型作为 encoder得到实体和问题的表示为了用上知识图谱中的知识大家从知识图谱中抽取问题相关的子图。接下来将节点表示、边的表示作为输入过几层 GNN得到优化的节点表示最后送给分类器分类。为了探究有没有必要使用 GNN作者使用 Sparse Variational Dropout (SparseVD) 给 GNN 的网络结构解剖。SparseVD 原本是用来寻找网络结构中哪些参数是不重要的以此对模型进行剪枝和压缩。在这篇文章中作者使用 SparseVD 探寻 GNN 中各层对推理过程的贡献sparse ratio 越低代表这些参数越没用。作者在之前的 SOTA QA-GNN[1] 上进行剪枝得到的结果令人震惊随着训练的推进GNN 前面节点的 embedding 层越来越没用但边的表示一直对最后的预测准确率有很大影响。这张图表明不仅节点 embedding 层参数没用节点的初始化也没用。甚至作者在其他模型中也对节点初始化剪枝发现所有方法里都没用在第二层 GNN 上图注意力模块中的 key 和 query 完全没用只有 value 比较有用。那么图注意力计算注意力权重不也就完全无效了吗注意力模块注意不到任何元素这和一个线性变换又有什么区别呢综上所述似乎 GNN 里面很多部分都是不需要的为了证明这一点作者设计了一个 GNN 的简化版本 —— graph soft counter。简单的 counter一样有效通过上面的实验我们可以发现GNN 中边的表示以及信息传递和聚合都是很重要的其它诸如图注意力、节点表示都可有可无。于是作者只留下两个结构Edge encoder 用来构建边的表示Graph Soft Counter layer 用来做信息传递和聚合。Edge encoder 是最简单的两层 MLP输入边的 1-hot 表示。其中表示四种节点类别表示 38 种边的类别这里的 38 种是 17 种关系类别加上问题/答案的边以及所有类别的反向。MLP 最后就输出一个 [0,1] 之间的 float 数字作为边的表示。Graph Soft Counter layerGSC 完全遵照了 MPNN 信息聚合与传播的思路并且这是无参数的具体步骤如下图所示一层 GSC 包含两步即先将节点的值加到边上再将边的值加到节点上。对就是这么简单的一个模型参数还不到 GNN 的 1%边的表示的维度是 1因此这个表示就可以被看做边的重要性分数GSC 的信息聚集因此也能被看做“数数”数一数边两端的结点有多重要数一数结点周围的边有多重要。实验作者们在 CommonsenseQA 和 OpenBookQA 两个数据集进行了实验。CommonsenseQA 需要模型对常识进行推理而 OpenBookQA 需要对科学知识进行推理。作者们不仅在这两个数据集的 leaderboard 上进行了评测还基于同一个预训练模型与前人所有基于 GNN 推理的模型进行了对比。在 CommonsenseQA 上GSC本方法超过了所有基于 GNN 的方法在 dev 和 test 上分别由 2.57% 和 1.07% 的提升。在 CommonsenseQA 的 Leaderboard 上GSC 排名也非常靠前。这里排在首位的 UnifiedQA其参数量是 GSC 的 30 倍。在 OpenBookQA 上GSC 也有相似的惊人效果甚至在 leaderboard 上超过了 30 倍参数的 UnifiedQA怎么才能证明 GSC 也有推理的能力呢作者们采用了这样的一个假设如果 GSC 的预测结果和基于 GNN 推理的模型预测结果比较一致那么就说明 GSC 也有与 GNN 差不多的推理能力。实验发现两次 GSC 的结果与 ground truth 的交集有 69% 的重合率下图第一个而 GSC 与前面不同 baseline 和 ground truth 也有 60% 左右的重合率且与基于 GNN 推理的模型重合率更大。这表明 GSC 与 GNN 有差不多的推理能力。此外作者还举出一个例子来演示 GSC 的推理过程。直接通过每一步的分数我们就能得到推理路径最终答案节点也得到一个分数在不同的答案之间就用这个分数做出选择。思考和总结这篇文章表明 GNN 中很多模块对于推理都是可有可无的。但似乎这和我们之前的印象有些不同大家一直都说信息在图上传播的路径就是推理路径。GAT 的 attention 权重就是传播信息的一个权重因此大家在 case study 上看信息传播路径的时候都是找 attention score 大的看做信息传播的下一跳。然而本文却表明attention 这部分参数对于结果几乎没有用另外在基于 counter 的模型上case study 中依然能复现出信息传播的过程。那这是不是说节点之间的 attention score 没有必要节点自己的表示就足够了那 GAT 为什么又会比 GCN 好呢GNN 里面到底哪些是有用的参数推理真正需要什么模块这些都需要更多的研究和思考。萌屋作者在北大读研目前做信息抽取对低资源、图网络都非常感兴趣。希望大家在卖萌屋玩得开心ヾ(ω)o作品推荐老板让我用少量样本 finetune 模型我还有救吗急急急在线等谷歌CNN 击败 Transformer有望成为预训练界新霸主LeCun 却沉默了...中文 BERT 上分新技巧多粒度信息来帮忙恕我直言很多小样本学习的工作就是不切实际的后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1] Michihiro Yasunaga, et.al., QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering, NAACL 2021, https://arxiv-download.xixiaoyao.cn/pdf/2104.06378.pdf[2] Guoshun Nan, et.al., Reasoning with Latent Structure Refinement for Document-Level Relation Extraction, ACL 2020, https://arxiv-download.xixiaoyao.cn/pdf/2005.06312.pdf

查看全文

http://www.pierceye.com/news/677370/