当前位置：首页 > news >正文

关于旅游网站建设的摘要Wordpress 域名授权插件

news 2025/12/20 10:30:30

关于旅游网站建设的摘要,Wordpress 域名授权插件,wordpress登入地址,水墨风格网站源码本文转载自公众号#xff1a;浙大KG。本文作者#xff1a;陈卓#xff0c;浙江大学在读博士#xff0c;主要研究方向为图神经网络和知识图谱表示学习我们生活在一个多模态的世界中。视觉的捕捉与理解#xff0c;知识的学习与感知#xff0c;语言的交流与表达#xff0c;… 本文转载自公众号浙大KG。本文作者陈卓浙江大学在读博士主要研究方向为图神经网络和知识图谱表示学习我们生活在一个多模态的世界中。视觉的捕捉与理解知识的学习与感知语言的交流与表达诸多方面的信息促进着我们对于世界的认知。作为多模态领域一个典型的场景VQA视觉问答顾名思义也就是结合视觉的信息来回答所提出的问题。其于15年首次被提出[1]涉及的方法从最开始的联合编码到双线性融合注意力机制组合模型场景图再到引入外部知识进行知识推理以及使用图网络近年来取得了长足发展。传统的VQA仅凭借视觉与语言信息的组合来回答问题而近年来许多研究者开始探索外部信息对于解决VQA任务的重要性。如上图所示这里的VQA pair中要回答问题“地面上的红色物体能用来做什么”要想做出正确的回答“灭火”所依靠的信息不仅来源于图片上所识别出的“消防栓”还必须考虑到来自外部的事实知识“消防栓能灭火”作为支撑。这就是一个典型的VQA上应用外部知识的场景。接下来我将按时间顺序结合5篇论文简述在VQA上应用外部知识的方法做相应的梳理。Ask Me Anything: Free-Form Visual Question Answering Based on Knowledge From External Sources发表会议CVPR 2016论文链接https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Wu_Ask_Me_Anything_CVPR_2016_paper.html推理与知识的实际存储进行分离是基于外部知识VQA相关论文所持的观点。该论文核心思想是将自动生成的图像描述与外部的Knowledge bases融合以实现对问题的预测。其中生成图像描述的方法借鉴了同年作者发表的了一篇文章[5]给定一张图像先预测图像中各种属性然后再将这些属性代替之前的 CNN 图像特征输入到 RNN 当中生成语句。这个简单的操作使他们的图像标注模型在当年 COCO图像标注大赛上排名第一。添加中介属性减小双模态鸿沟的方法也用在了本文中。对于一个给定的V-Q pair首先用CNN提取图片特征属性然后利用这些检测到的属性使用sparql查询语句从knowledge base比如DBpedia中提取出图像相关描述的一个段落利用Doc2Vec对这些段落编码。同时根据图片特征属性使用Sota的image caption方法形成图像对应的段落特征表达。最后将上面两种信息以及编码的属性结合在一起并输入作为一个Seq2Seq模型的初始初始状态同时将问题编码作为LSTM的输入利用最大似然方法处理代价函数预测答案。该方法的可解释性相对于端到端的模型而言强了许多这也是后续许多模型采用的思想即各种特征融合到一起然后丢到一个递归网络例如LSTM中。最后在COCO-QA数据集上取得了Sota效果。FVQA: Fact-Based Visual Question Answering发表会议TPAMI 2018论文链接https://ieeexplore.ieee.org/abstract/document/8046084既然knowledge 和 reasoning 对 VQA 都很重要那么就可以考虑将它们两个结合在一起进行显示推理。和以往直接把图像加问题直接映射到答案不同作者提出的Ahab[3]模型的答案是可追溯的就是通过查询语句在KG中的搜索路径可以得到一个显式的逻辑链。这也是一种全新的能够进行显式推理的 VQA 模型。并且他们提出了一种涉及外部知识的VQA任务。它首先会通过解析将问题映射到一个 KB 查询语句从而能够接入到已有知识库中。同时将提取的视觉概念左侧的图链接到DBpedia右侧里面如下图所示。同期发表的FVQA是对其的改进和梳理并且贡献了这方面很重要的数据集除了一般的图片、问题、回答以外这个数据集还提供了支撑这一回答的事实Facts事实集合参考数据来源于DBpedia, Conceptnet, WebChild三个数据库共包括4216个fact。某种意义上来说该数据集是基于fact去针对性构建的。具体如下在实际的数据中fact以关系三元组的形式表示其中的relationship使用来自于数据库中已有的定义。模型的第一部分和ahab类似检测图像中的视觉概念然后将他们与知识库对齐并连接到subgraph中。第二步将自然语言式的问题映射到一个查询类型然后相应地确定关键的关系类型视觉概念和答案源。再根据上面的信息构建一个特殊的查询会去请求上一步当中建立好的图找到所有满足条件的事实。最后通过关键词筛选得到对应问题的答案。OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge发表会议CVPR 2019论文链接https://openaccess.thecvf.com/content_CVPR_2019/html/Marino_OK-VQA_A_Visual_Question_Answering_Benchmark_Requiring_External_Knowledge_CVPR_2019_paper.html该文章[6]的问题背景是对于已有的小部分需要外部知识的数据集依赖于结构化知识例如上文提到的FVQA。而已有的VQA数据集问题难度普遍不高标准VQA数据集超过78%的问题能够被十岁以下儿童回答。于是作者提出并构建了一个最大规模的需要外部知识的数据集 Outside Knowledge VQA 并且在OK-VQA数据集上就目前最好的VQA模型提供了benchmark实验。与此同时提出了一种ArticleNet的方法可以处理互联网上的非结构化数据来辅助回答其中的问题。数据集大小和对比如下因为标准VQA数据集质量不高难度低所以作者自行请MTurk工人从COCO数据集中进行了数据采集、问题搜集、问题质量筛选、问题回答。同时通过过滤操作降低了bias的影响减少文本对于某些回答的偏差如 Is there ...。同时考虑了长尾效应。就数据分类而言划分了101other个类别保证问题类型的互斥。图片场景覆盖了COCO总共的365个场景中的350.。保证了覆盖率和分布的合理性。就ArticleNet模型而言其分为三步1从图片pre-trained scene classiﬁers和问题pair中搜集关键字并组合成可能的query 2使用wiki的API进行检索获得排名最高的几个文章。3基于query 的单词在这几篇文章中得到最有可能的句子。4【可选】从句子中得到最有可能的词作为答案。ArticleNet模型可以与许多已有的VQA模型进行拼接以提升模型在外部知识VQA场景下性能。作者进行了相应实验其中ArticleNet的结合方法是将sentence与具体模型中某一层的输出向量进行一个向量拼接以捕获外部信息。ArticleNet单独作用的方法可能一般依赖于互联网数据比较死板但是如何和其他模型结合e.g. mutan、banend-2-end效果都会有提升。同时其并不是和VQA模型一起训练可以单独训练。如下是ArticleNet在其中起作用的例子Out of the Box: Reasoning with Graph Convolution Nets for Factual Visual Question Answering发表会议NeurIPS 2020论文链接http://papers.nips.cc/paper/7531-out-of-the-box-reasoning-with-graph-convolution-nets-for-factual-visual-question-answering前文提出的方法大多类似于组合模型。此外近几年也有涉及到图来解决外部知识VQA问题的方法[7]。该文章的作者基于FVQA数据集把之前深度网络筛选事实的这一训练过程用图卷积网络代替成为一个端到端的推理系统用于具有知识库的视觉问题解答。一共分为七个步骤给定图像和问题首先使用相似性评分技术根据图像和问题从事实空间获得相关事实。使用LSTM模型从问题预测关系筛选fact来进一步减少相关事实及其实体的集合。然后分别进行图像视觉概念提取问题的LSTM嵌入以及事实词组的的LSTM嵌入将图像的视觉概念multi-hot向量和问题的lstm嵌入向量组合并与每一个实体的LSTM嵌入拼接作为一个实体的特征表示同时也是作为GCN模型里图上的一个节点。图中的边代表实体之间的关系。最后将GCN输出的每一个实体节点特征向量作为多层感知机二元分类模型的输入最后输出的结果通过argmax得到最终的决策结果。模型在双层GCN以及top3 relation的设定下超过了FVQA的方法大概10%。(58.7%-69.3)结果如下Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering发表会议IJCAI 2020论文链接https://arxiv.org/pdf/2006.09073作者对比了前人的工作一个方向是将问题转化成关键词然后在候选事实中根据关键词匹配检索出对应的支撑事实的pineline方式比如前文所提的FVQA但是如果视觉概念没有被问题完全提及(比如同义词和同形异义词)或者事实图中未捕获提及的信息(比如它问红色的柱子是什么却没有提到消防栓)那这类方法就会因为匹配而产生误差。另一个方向将视觉信息引入到知识图中通过GCN推导出答案就比如前文提到的out of the box模型。虽然解决了上面的问题但是每个节点都引入了相同且全部的视觉信息而只有一部分的视觉信息和当前节点是相关的这样会引入噪声。并且每个节点都是固定形式的的视觉-问题-实体的嵌入表示这使得模型无法灵活地从不同模态中捕获线索。而本文[8]则较好地解决了上述问题。文章的出发点是将图像表示成一个多模态的异构图其中包含来自不同模态三个层次的信息分别是视觉图、语义图和事实图来互相补充和增强VQA任务的信息。具体来说视觉图包含了图像中的物体及其位置关系的表示语义图包含了用于衔接视觉和知识的高层语义信息事实图则包含图像对应的外部知识它的构造思想参考了out of the box 模型。然后进行每个模态内的知识选择在问题的引导下确定每个节点和边在内部图卷积过程中的分数权重占比然后进行常规的update操作。也就是说在跨模态之前先独立选择单个模态内有价值的证据让和问题相关性强的节点及边在图内部卷积过程中占更大的权重。这三个模态内部的卷积操作都是相同的只是节点和边的表示不同。最后跨模态的知识推理是基于part2模态内的知识选择的结果。考虑到信息的模糊性不同图很难显式地对齐所以作者采用一种隐式的基于注意力机制的异构图卷积网络方法来关联不同模态的信息从不同层的图中自适应地收集互补线索并进行汇聚。包括视觉到事实的卷积和语义到事实的卷积。比如视觉到事实的卷积场景中对于事实图中的每个节点vi计算视觉图中每个节点vj和它在问题引导下的相似度注意力分数越互补的节点它的相似度分数就越高然后根据这个分数对视觉图加权求和得到事实图中每个节点来自视觉图层的事实互补信息。分别迭代地执行Part2模态内的知识选择和Part3跨模态的知识推理执行多个step可以获得最终的fact实体表示并将其传到一个二元分类器输出概率最高的实体当做预测的答案。模型在三个数据集上验证了实验结果。该模型在FVQA上表现很好另外一个数据集Visual7W KB也和FVQA类似问题是直接根据Conceptnet生成的。不同点在于他不提供fact。可以看到结果也明显好于Sota。第三个数据集OK-VQA比较特殊没有知识库作为参考知识跨度大难度高sota只有30%不到。该模型在其上表现的不太好不过还是比Sota要高大概0.7%。原因猜测是光凭借单一的外部知识库可能不足以对ok-vqa达到较大提升所以ok-vqa问题在未来实际上还有很大的提升空间。该模型另外一个优点是结果具有比较好的解释性。上图是FVQA数据下测试的结果。把fact graph中最重要fact所对应的top2视觉和语义对象节点用虚线连接虚线上的值表示了跨模态卷积中不同层哪些节点对结果影响重要性更大结果比较直观。热力条根据最后特征融合时的gate值得到密度越大则代表对应位置通道的重要性越高。可以发现在大多数的情况下事实信息会更重要也就是密度最大。因为FVQA中97.3%的问题都是需要额外知识才能回答的。而密度第二大的区域往往会由问题的类型决定是视觉更重要还是问题更重要。比如第二个图中问题里面的hold by这个词无法在图片中具体体现所以所以语义信息的占比会更大一些。而第一个图的话则视觉信息占比更大。总而言之形形色色的方法各有千秋。在实际应用中可以根据不同方法的优劣和实际场景的条件选择合适的VQA模型。目前来说解决VQA问题主要方向主要是三个大方向改善模型对于文本与图像的表达能力可解释性与视觉推理外部知识其中KG而言在这三个方向中都有涉及。起到的作用分别对应于用图网络来捕捉信息联系通过三元组来提供与描述事实并进行解释与答案追溯以及引入外部语料库组织实体关系和spaql查询语句。当然未来还有许多潜在的方法和应用等待挖掘欢迎大家补充和交流。参考文献[1] Stanislaw Antol, Aishwarya Agrawal, et al. VQA: Visual Question Answering. ICCV 2015: 2425-2433[2] Wu Q, et al. Ask me anything: Free-form visual question answering based on knowledge from external sources. CVPR. 2016[3] Wang P, Wu Q, Shen C, et al.Explicit Knowledge-based Reasoning for Visual Question Answering. IJCAI 2017: 1290-1296[4] Wang P, Wu Q, Shen C, et al.FVQA: Fact-Based Visual Question Answering. IEEE Trans. Pattern Anal. Mach. Intell. 40(10): 2413-2427 (2018)[5] Wu Q, Shen C, Liu L, et al. What value do explicit high level concepts have in vision to language problems? . CVPR. 2016[6] Marino K, Rastegari M, Farhadi A, et al. OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge. CVPR 2019: 3195-3204[7] Narasimhan M, Lazebnik S, Schwing A. Out of the box: Reasoning with graph convolution nets for factual visual question answering. NIPS. 2018[8] Zhu Z, Yu J, Wang Y, et al.Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering. IJCAI. 2020 浙江大学知识引擎实验室 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。

查看全文

http://www.pierceye.com/news/455826/