当前位置：首页 > news >正文

php网站开发个人个人学做网站

news 2025/11/18 0:43:57

php网站开发个人,个人学做网站,惠州网站建设科技有限公司,wordpress m3u8 插件文 | Sheryc_王苏NLP模型要以和为贵#xff0c;要讲“模德”#xff08;Modal#xff09;#xff0c;不要搞窝里斗。——《王苏老师被多模态预训练模型偷袭实录》#xff08;全文在末尾#xff0c;必读#xff09;最近是不是被马保国“不讲武德”“耗子尾汁”的视频和语… 文 | Sheryc_王苏NLP模型要以和为贵要讲“模德”Modal不要搞窝里斗。——《王苏老师被多模态预训练模型偷袭实录》全文在末尾必读最近是不是被马保国“不讲武德”“耗子尾汁”的视频和语录刷屏了正如马大师所说武林要以和为贵要讲武德。但你可能不知道在NLP界模型居然还要讲“模德”相信看过上一篇《NLP未来路在何方》的各位都对WS3-5的NLP模型很感兴趣吧~然而NLP模型是要讲“模德”Modal的这Modal指的就是数据的模态即文本/图像/语音等等。一般的NLP模型只能用来处理文本数据。但没想到吧我们的老朋友Transformer经过一番修改居然就可以跨多个Modal处理图像文本的多模态数据摇身一变成为WS3的N宝成为不讲“模德”的模型。是不是很神奇不那么对于涉及图像文本的多模态任务该怎么快速入手赶超SOTA发表顶会实现人生巅峰呢这时候就轮到预训练模型登场了这篇文章将会为大家介绍2019-2020年在顶会中发表的4个最经典的多模态预训练模型看看自己一身的NLP本领还能用在什么地方吧~P.S. 之前卖萌屋美丽可爱的lulu在推文中介绍过同为图像-文本多模态预训练模型的ERNIE-ViLVILLA和VL-BERT感兴趣的小伙伴同样可以去学习一下(^・ω・^ )预备知识此处我们假设大家对于Transformer和BERT模型已有一定了解。下面简要介绍一些下文涉及到的CV领域的内容感兴趣区域RoIRegion of Interest输入Transformer的文本被分割成了一个个Token那么图像自然也不能直接给模型扔进去一整张图而是需要预先进行特征抽取识别出图像中最有价值的若干个区域作为这幅图像的“Token”们。这些被识别出的区域被称作RoI。RoI一般都表示某种实体例如“人”、“猫”、“车”等等。不同的RoI之间可能有重叠部分。图像区域特征抽取区域特征抽取模型会从图像中识别实体抽取出一系列RoI。虽然特征抽取模型众多但下述的4个模型均使用了在区域特征提取任务上预训练好的Faster R-CNN模型抽取RoI。我们并不需要知道Faster R-CNN模型的具体细节只需要知道该模型的输入和输出输入为一张图像输出为一系列RoI其中每个RoI都附带其在原始图像中区域范围左上角和右下角的坐标向量一个RoI的表示向量和一个表示RoI中是何种实体的标签。下面的《摸鱼图》展示了上面介绍的内容就这么多通俗易懂(・ω・)图像-文本预训练模型分类目前图像-文本多模态预训练模型主要采用Transformer结构而训练数据则来自于图像标注数据集的图像-文本对其中的文本是对于对应图像的自然语言描述。对于各下游任务模型的使用方法基本可以参照纯文本Transformer的使用方法对于分类任务提取CLS或所需位置对应的表示传入分类器对于序列任务直接通过Transformer输出的表示序列进行后续操作。它们的主要区别在于两点多模态数据流处理方式以及预训练任务。对于数据流处理方式分为以下两种双流结构Double-Stream Architecture下文所述的前两个模型ViLBERT、LXMERT属于这种结构。图像和文本被视为两个不同的数据流分别传入两个不同的Transformer中它们通过一个交互模块进行多模态融合。单流结构Single-Stream Architecture下文所述的后两个模型UNITER、OSCAR输入这种结构。图像和文本被视为同一数据流的两个部分被拼接后一起传入同一个Transformer中直接进行多模态融合。对于预训练任务基于Transformer的预训练模型光是做纯文本的语言模型都能搞出token预测、大小写预测、句子顺序预测、逻辑关系预测之类的任务没错我说的就是ERNIE 2.0[1]加上多模态岂不更是百花齐放、百家争鸣、群魔乱舞……划掉所以在接下来的介绍中关于下游任务如何使用这些模型就不再着重介绍而是会主要介绍其模型结构和预训练目标着重于模型本身。ViLBERT (NeurIPS 19)论文题目ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks论文链接:https://arxiv.org/abs/1908.02265模型结构受到BERT的启发预训练模型自19年得到了越来越多的关注而ViLBERT则是第一批将BERT扩展到多模态的模型之一。ViLBERT处理多模态数据的方式采用的是较为保守的双流结构图像和文本两种模态被分在了两条路径进行处理而图像和文本的表示只在模型尾段发生交互。在ViLBERT中图像流上图上半部分中图像首先被特征抽取模型抽取出一系列RoI和每个RoI的向量表示随后传入随机初始化的层Transformer Encoder中为了编码RoI的位置信息每个RoI的表示都加上了被投影到与其表示相同维度的5维位置信息其中为RoI面积。文本流上图下半部分采用了一个预训练好的层的BERT对文本的处理与BERT一致。对于两种模态的交互ViLBERT在从图像流的第一层和文本流的第层开始采用了一个特殊的协同注意力Transformer (Co-TRM) 模块。该模块的设计很简单回顾一下Transformer中的自注意力机制在Co-TRM中只需要将其中的和替换成另外一种模态对应的和即可~图像和文本各带一个分类标记。图像分类标记IMG被拼接在RoI序列前传入图像流文本分类标记CLS被拼接在token序列前传入文本流图像-文本跨模态分类标记为IMG和CLS对应输出表示的点积。预训练任务ViLBERT有2个预训练任务。预训练数据采用Conceptual Captions数据集包含约310万个正例图像-文本对。Masked Multi-Modal Learning随机mask掉15%的RoI及文本预测RoI特征或文本token。被mask掉的RoI表示90%被替换为零向量10%保持不变loss为输出RoI特征与特征抽取模型的RoI特征间的KL散度被mask掉的文本遵从BERT设置即80%被替换为特殊token MASK10%被替换为随机token10%保持不变loss为分类层预测结果与真实token间的交叉熵下同Multi-Modal Alignment Prediction利用跨模态分类标记的表示进行二分类判断输入的文本是否为图像的正确描述。这篇ViLBERT全篇搜不到一个等号是难得的毫无公式全靠文字功底绘图技巧讲清模型的NeurIPS论文。明明很多地方写个公式会更清晰的…LXMERT (EMNLP 19)论文题目LXMERT: Learning Cross-Modality Encoder Representations from Transformers论文链接:https://arxiv.org/abs/1908.07490模型结构发表于ViLBERT同期的LXMERT同样采用了双流结构同样基于Transformer同样是两种模态只在模型尾端发生交互。LXMERT的模型理解起来更简单了。请看上图。里面看起来很复杂的Object-Relationship Encoder、Language Encoder和Cross-Modality Encoder中的Self-FF结构其实就是普通的Transformer Encoder而已…Cross-Modality Encoder的“Cross”是交叉注意力本质上来说还是把注意力机制中的和换成了另外一种模态的和所以也和ViLBERT的Co-TRM异曲同工。这时聪明的你可能就要问了LXMERT和ViLBERT的模型看起来根本没有区别吖不你错了LXMERT的不同之处在于它拿掉了Co-TRM中的FF层除此之外LXMERT和ViLBERT的模型上依然有些其他的细微差距ViLBERT采用的是的5维位置特征而LXMERT只有4维。ViLBERT存在IMG作为全图的图像分类标记而LXMERT没有。ViLBERT将IMG和CLS的表示拼接作为跨模态分类标记而LXMERT将文本流中CLS的表示直接作为跨模态分类标记。预训练任务LXMERT有5个预训练任务。预训练数据采用MS COCO Visual Genome VQA 2.0 GQA VGQA数据集包含约918万个正例图像-文本对。Masked Cross-Modality Language Model图像辅助的文本流预训练任务预测被mask掉的文本。遵从BERT设置。Masked RoI Feature Regression文本辅助的图像流预训练任务预测被mask掉的RoI特征。随机mask掉15%的RoI全部替换为零向量loss为输出RoI特征与特征抽取模型的RoI特征间的L2距离。Masked Detected Label Classification文本辅助的图像流预训练任务预测被mask掉的RoI标签。随机mask掉15%的RoI全部替换为零向量loss为输出RoI标签与特征抽取模型的RoI标签间的交叉熵。Cross-Modality Matching跨模态预训练任务利用跨模态分类标记的表示进行二分类判断输入的文本是否为图像的正确描述。VQA跨模态预训练任务输入文本有1/3概率为与图像相关的问题若相关则按照VQA规则预测问题答案。LXMERT模型是与ViLBERT同时期提出的所以有许多设计非常相似。然而LXMERT的预训练数据规模非常庞大涉及任务也非常多对于特征抽取模型也做到了更加充分的利用这也使得后续有些研究是基于LXMERT模型的例如EMNLP20的X-LXMERT[2]就以LXMERT模型为基础进行修改使模型能根据自然语言描述生成符合描述的图像非常有意思感兴趣的各位也可以去看看哦(・ω・)额外信息作为预训练样本最多的模型这篇文章很贴心地给出了LXMERT的预训练时间20epochs的预训练在4*Titan Xp上跑了10天。UNITER (ECCV 20)论文题目UNITER: UNiversal Image-Text Representation Learning论文链接:https://arxiv.org/abs/1909.11740模型结构总算有点不一样了UNITER只使用了一个Transformer就能完成跨越两个模态的任务其中必然是用了什么特殊的“接化发”神技让它能够接住图像文本信息转化多模态样本到同一个表示空间再发力解决下游问题实乃浑元形意NLP门得意作品其实是微软的UNITER的结构通俗易懂一个Transformer。输入是图像RoI序列与文本Token序列的简单拼接。RoI依旧是特征抽取位置信息但位置信息包含了RoI的高度、宽度和面积是一个7维向量。Token的处理遵从BERT设置。为了让同一个Transformer能够处理两种模态需要将两种模态的表示投影到同一个表示空间中所以在原本的RoI和Token表示之上又加了一个线性层。这时仔细观察模型图的你或许会提出两个疑问模型是怎么区分哪个输入是图像哪个输入是文本的呢论文的作者为了模型图的美观没画这个关键部分这合理吗。实现中图像和文本信息在经过线性层之前还要再加一个表示其模态的embedding做法类似于BERT里segment embedding的处理。没有分类标记怎么做分类这部分确实画了在图片右下角。本文只有在会用到分类标记时才会在文本末尾添加CLS。实际上对于UNITER的大部分预训练任务都不添加CLS。预训练任务UNITER有6个预训练任务。预训练数据采用MS COCO Visual Genome Conceptual Captions SBU数据集包含约560万个正例图像-文本对。Masked Language Modeling预测被mask掉的文本。遵从BERT设置。Image-Text Matching唯一添加CLS的预训练任务利用跨模态分类标记CLS的表示进行二分类判断输入的文本是否为图像的正确描述。Word Region Alignment将文本Token与图像RoI进行匹配。要注意的是此处的Token-RoI匹配是无监督的。该如何解决没有标签的图文匹配呢本文将Token与RoI的匹配问题视为了两种分布之间的迁移问题将该任务建模为一个最优传输问题Optimal Transportation将Token和RoI的表示分布间的最优传输距离作为该预训练任务的loss。此处限于篇幅省略大量数学细节Masked Region Feature Regression预测被mask掉的RoI特征。随机mask掉15%的RoI全部替换为零向量loss为输出RoI特征与特征抽取模型的RoI特征间的L2距离。Masked Region Classification预测被mask掉的RoI标签。随机mask掉15%的RoI全部替换为零向量loss为输出RoI标签与特征抽取模型的RoI标签间的交叉熵。Masked Region Classification with KL-Divergence预测被mask掉的RoI标签。随机mask掉15%的RoI全部替换为零向量loss为输出RoI标签与特征抽取模型的RoI标签间的KL散度。就是上面那个任务把交叉熵换成KL散度减小特征抽取模型带来的误差UNITER后续还被加过对抗训练发了一篇NeurIPS20 Spotlight模型名叫VILLA[3]关于VILLA的详细介绍可以看lulu姐先前的这篇推送~UNITER并不是第一个单流模型但微软貌似有点喜欢上了这种用一个Transformer处理多个差异巨大的任务的配置所以今年5月微软还推出过一个神奇的Pipeline型对话系统模型Soloist[4]用1个Transformer解决完Pipeline型对话系统里涉及的全部4个子问题。没办法谁让Transformer参数过剩呢那搞搞副业好像也没什么不好~下图是Soloist模型结构熟悉对话系统的同学一看便知个中奥秘OSCAR (ECCV 20)论文题目Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks论文链接:https://arxiv.org/abs/2004.06165模型结构OSCAR的模型结构依然只有一个Transformer。但是还记得UNITER的那个用最优传输来解决的Token-RoI匹配问题么OSCAR的主要贡献在于它用另外一种思路解决了这个问题。单纯的图像-文本对不足以包含Token-RoI匹配信息但别忘了特征抽取模型是会给每个RoI输出一个分类标签的当一个RoI被标记为“狗”那“狗”很有可能也会出现在文本中。基于这一想法OSCAR的输入不再是图像-文本对而是文本-标签-图像三元组。其中文本和图像依然是老样子而标签序列是RoI序列对应的分类标签序列。在图中Object Tags就是标签序列因为是从特征抽取模型得到的RoI中分类得到的所以模态是图像但表示形式又是文本所以用的是文本的字典。这些RoI的分类标签实现了从输入层面上的跨模态。在模型上与UNITER的其他区别有RoI位置特征用了加入高度和宽度的6维向量嚯四种方法在位置特征上用的维数居然全都不一样以及多模态分类标记CLS始终处于文本之前。预训练任务OSCAR有2个预训练任务。预训练数据采用MS COCO Conceptual Captions SBU flickr30k GQA数据集包含约650万个正例图像-文本对。Masked Token Loss预测被mask掉的文本或标签。遵从BERT设置。Contrastive Loss判断标签是否与图像和文本匹配。输入有50%概率将标签序列替换为数据集中随机采样的标签序列利用CLS表示判断是否被替换。OSCAR的配置暂停了堆预训练任务的军备竞赛实在是简单而优雅(・ω・) 在我看来向输入中引入额外的连接两种模态的信息可以为模型提供更直接的归纳偏置不过毕竟RoI标签是模型生成的其中依然包含噪声而OSCAR并未解决这一问题。目前OSCAR在paperswithcode上占据了图像标注Image Captioning, COCO Captions文本-图像检索Text-Image Retrieval, COCO (image as query)和VQAVisual Question Answering, VQA v2 test-dev三项任务的SOTA如果你也想进军这一领域或许这就是很不错的开始。性能我们选取OSCAR的结果为先前介绍的四种模型做对比。由于OSCAR的结果表格中只有VQA和NLVR2任务包含了上述模型所以就只拿出这两个任务来比较了。总结刚才王苏给大家表演了一个图像-文本预训练模型四连鞭果然功力还是不及马保国大师不知大家尽兴了没有~当下多模态领域正得到越来越多的关注而预训练模型的效果也得到了学术界工业界的广泛认可。虽然从研究角度上讲搞预训练模型的计算开销不是一般人负担得起的但我们聪明的大脑是不受算力限制的我们可以从预训练模型的设计和取得的效果中逐步发现在跨模态任务中与NLP语言模型地位相当的任务进而了解真正实现多种模态共通所需要的内在联系。模型虽然要讲Modal但不同Modal在同一个模型里搞搞窝里斗也是可以的。谢谢朋友们(・ω・´)附完整版《王苏老师被多模态预训练模型偷袭实录》[5]朋友们好啊我是浑元形意NLP门掌门人王苏。刚才有个朋友问我王苏老师发生甚么事了我说怎么回事。给我发了几张截图。我一看嗷原来是昨天有两个模型顶会发的一个能处理两种模态一个能处理三种模态。塔们说有一个说是我在单一任务上训练模型练坏了王苏老师你能不能教教我预训练功法帮助治疗一下我的性能低下病。我说可以。我说你在单一任务上练死劲儿不好用他不服气。我说小朋友你两个任务来挑战我一个模型他跑分跑不过。他说你这个没用。我说我这个有用这是泛化现代NLP是讲泛化的四两拨千斤。二百多万参数的顶会SOTA都搞不过我这一个模型啊。他非和我试试我说可以。哎我一说他啪就训练起来了很快啊然后上来就是一个QA问答一个信息检索一个文本匹配。我全部防出去了啊。防出去以后自然是传统NLP以点到为止模型fine-tune了两三轮就跑了测试我笑一下准备停止训练。因为这时按传统NLP的点到为止他已经输了。如果这一训练到恰好拟合一跑就把他SOTA跑没了。测试集load进来却没有再跑他也承认我先跑到SOTA啊。他不知道我没训练到恰好拟合他承认我先跑到SOTA啊。我收手的时间不fine-tune了他突然袭击一个视觉问答VQA来打我脸。我大意了啊没有闪。哎…他的额外图像信息给我性能啊Accuracy蹭了一下。但没关系啊两分多钟以后当时就训练崩了看着屏幕上的报错信息我说停停。然后两分多钟以后两分多钟以后诶就好了指死机状态恢复。我说小伙子你不讲模德Modal你不懂。他说王苏老师对不起对不起我不懂规矩。他说他是乱训练的他可不是乱训练的啊图像分割文本处理多模态合成训练有素。后来他说他提前训过三四百万条图像-文本对。啊看来是有备而来这两个模型不讲模德Modal。来骗来偷袭我二十二岁的小同志。这好吗这不好。我劝这几个模型耗子尾汁好好反思以后不要再犯这样的聪明小聪明啊。NLP界要以和为贵要讲模德Modal不要搞窝里斗。谢谢朋友们萌屋作者Sheryc_王苏北航高等理工学院CS专业的市优秀毕业生蒙特利尔大学/MILA准Ph.D.资深ACG宅目前作为实习生在腾讯天衍实验室进行NLP研究。虽主攻NLP却对一切向更完善的智能迈进的系统和方向充满好奇。如果有一天N宝能真正理解我的文字这个世界应该会被卖萌占领吧。还没发过东西的知乎IDSheryc作品推荐1.NLP未来路在何方12位巨佬联名指路后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群有顶会审稿人、大厂研究员、知乎大V和妹纸等你来撩哦~ [1] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding. https://arxiv.org/abs/1907.12412[2] X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers. https://arxiv.org/abs/2009.11278[3] Large-Scale Adversarial Training for Vision-and-Language Representation Learning. https://arxiv.org/abs/2006.06195[4] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model. https://arxiv.org/abs/2005.05298[5] 马保国: 健身房年轻人不讲武德. https://www.bilibili.com/video/BV1HJ411L7DP

查看全文

http://www.pierceye.com/news/829265/