当前位置：首页 > news >正文

烟台网站排名系统上海公共信息服务平台

news 2025/12/23 23:32:35

烟台网站排名系统,上海公共信息服务平台,博客网站建设方案,网站访问者qq文 | 子龙曾几何时#xff0c;多模态预训练已经不是一个新的话题#xff0c;各大顶会诸多论文仿佛搭上Visual和BERT#xff0c;就能成功paper1#xff0c;VisualBERT、ViLBERT层出不穷#xff0c;傻傻分不清楚......这些年NLPer在跨界上忙活的不亦乐乎#xff0c;提取视觉… 文 | 子龙曾几何时多模态预训练已经不是一个新的话题各大顶会诸多论文仿佛搭上Visual和BERT就能成功paper1VisualBERT、ViLBERT层出不穷傻傻分不清楚......这些年NLPer在跨界上忙活的不亦乐乎提取视觉特征后和文本词向量一同输入到万能的Transformer中加大力度预训练总有意想不到的SOTA。如何在多模态的语境中更细致准确地利用Transformer强大的表达能力呢Facebook最新的 Transformer is All You Need 也许可以给你答案。这篇貌似标题党的文章开宗明义针对文本视觉的多模态任务用好Transformer就够了与许多前作不同这次提出的模型一个模型可以解决多个任务目标检测、自然语言理解、视觉问答各个模型板块各司其职、条理清晰视觉编码器、文本编码器、特征融合解码器都是建立在多层Transformer之上最后添加为每个任务设计的处理器通过多任务训练一举刷新了多个任务的榜单。论文题目: Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer论文链接: https://arxiv.org/pdf/2102.10772.pdfArxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【0318-1】下载论文PDF~文本编码器用Transformer提取文本特征是个老生常谈的问题从BERT石破天惊开始纯文本领域近乎已被Transformer蚕食殆尽所以该文也不能免俗直接借用BERT的结构提取文本内容区别在于为了解决多个任务在文本序列前添加了一个针对不同任务的参数向量在最后输出隐藏状态到解码器时再去掉。视觉编码器本文将Transformer强大的表达能力运用到视觉特征的提取中由于图片像素点数量巨大首先通过基于卷积神经网络的ResNet-50提取卷积特征极大程度上地降低了特征数量最终得到的feature map大小为然后用全联接层调整单个特征的维度到再利用多层Transformer中的注意力机制提取各个feature之间的关系由于Transformer的输入是序列文章将拉成一条长为的序列另外和文本编码器类似同样添加了与下游任务相关的。其中是调整维度的全联接层是多层Transformer编码器。模态融合解码器多模态的关键之一就在于怎么同时利用多个模态在本文中是通过Transformer的解码器实现的这个解码器首先将任务相关的query做self-attention再将结果与文本编码器和视觉编码器的结果做cross-attention针对单一模态的任务选取对应编码器的输出即可针对多模态的任务取两个编码器输出的拼接。任务处理器(task-specific output head)之前多模态预训练模型往往只针对某一项任务而本文提出的一个模型可以解决多个文本视觉任务与BERT可以解决多个文本任务类似本文的模型在模态融合解码器的结果上添加为每个任务设计的处理器这个处理器相对简单用于从隐藏状态中提取出与特定任务相匹配的特征。目标检测添加box_head和class_head两个前馈神经网络从最后一层隐藏状态中提取特征用来确定目标位置和预测目标类型。自然语言理解、视觉问答通过基于全联接层的分类模型实现将模态融合解码器结果的第一位隐藏状态输入到两层全联接层并以GeLU作为激活函数最后计算交叉熵损失。实验与总结本文提出的多模态预训练模型各个板块划分明确通过多层Transformer分别提取特征再利用解码器机制融合特征并完成下游任务同时借助最后一层任务相关的处理器可以通过一个模型解决多个任务同时也让多任务预训练成为可能并在实验中的各个数据集上得到了论文主要进行了两部分实验多任务学习这里的多任务涉及目标检测和视觉问答两个任务在目标检测上运用COCO和VG两个数据集在视觉问答上运用VQAv2数据集。对比了单一任务和多任务同时训练的结果同时对比了不同任务共用解码器的结果。从结果中我们可以看出单纯的使用多任务训练并不一定可以提高结果不同任务间虽然相关但是却不完全相同这可能是任务本身差异或者数据集的特性所导致第二行和第五行可以很明显地看出COCO上的目标检测和VQAv2的视觉问答相结合后结果有显著的下降然而VG上的目标检测却能够和视觉问答很好地结合通过三个数据集上的共同训练可以得到最高的结果。多模态学习这一实验中为了体现所提出模型能够有效解决多个多种模态的不同任务论文作者在之前COCO、VG、VQAv2的基础上增加了单一文本任务GLUE的几个数据集QNLI、QQP、MNLI、SST-2和视觉推断数据集SNLI-VE从数据集的数量上可以看出本文模型的全能性。与本文对比的有纯文本的BERT、基于Transformer的视觉模型DETR、多模态预训练模型VisualBERT。仔细看各个数据集上的结果不难看出本文提出的模型其实并不能在所有数据集多上刷出SOTA比如COCO上逊色于DETRSNLI-VE逊色于VisualBERTSST-2逊色于BERT其他数据集上都有一定的提高但是模型却胜在一个“全”字模型的结构十分清晰明了各个板块的作用十分明确同时针对不同任务的处理器也对后续多模态任务富有启发性。萌屋作者子龙(Ryan)本科毕业于北大计算机系曾混迹于商汤和MSRA现在是宅在家里的UCSD(Social Dead)在读PhD主要关注多模态中的NLP和data mining也在探索更多有意思的Topic原本只是贵公众号的吃瓜群众被各种有意思的推送吸引就上了贼船希望借此沾沾小屋的灵气paper早日成为有猫的程序员作品推荐1.别再搞纯文本了多模文档理解更被时代需要2.Transformer哪家强Google爸爸辨优良后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集

查看全文

http://www.pierceye.com/news/945436/