怎么建立网站数据库连接,wordpress分类目录归档,江西省网站开发,做影视网站 片源从哪里来文 | 子龙编 | 小轶自多模态大火以来#xff0c;井喷式地出现了许多工作#xff0c;通过改造预训练语言模型#xff0c;用图像信息来增强语义信息#xff0c;但主要集中在几个 NLU 任务上#xff0c;在 NLG 上的研究比较少。今天要介绍的这篇 paper Multimodal Conditiona… 文 | 子龙编 | 小轶自多模态大火以来井喷式地出现了许多工作通过改造预训练语言模型用图像信息来增强语义信息但主要集中在几个 NLU 任务上在 NLG 上的研究比较少。今天要介绍的这篇 paper Multimodal Conditionality for Natural Language Generation 研究的任务场景则是以多模态信息作为条件做 conditional 的 NLG任务。这种任务设置有许多实际的应用场景。比如生成商品介绍文案时仅仅基于该商品的文字标题是不够的。如果能结合商品的图片必然能够得到更贴切的文案。这篇工作的模型基于 GPT2而多模态信息则是以一种类似 prompt 的方式来使用。虽然方法比较简单直观但具备一定通用性未来或许有进一步挖掘的可能。论文题目: Multimodal Conditionality for Natural Language Generation论文链接: https://arxiv.org/pdf/2109.01229.pdf原理作者的想法其实十分简单一切语言模型都是为了衡量一段文字序列的概率即而如果引入了多模态的输入就相当于在生成时多了一个条件即条件概率为其中为多模态输入序列。以文中生成商品文案的运用场景为例这里的Product Title和Product Images就是作为生成Product Description时的“条件”。那么如何将多模态序列引入到自然语言生成模型呢本文使用了一个十分直观的方法称作MANTIS将作为条件的多模态序列作为前缀放置到decoder输入序列的前面进而中解码过程中分享多模态信息。其中图片输入借助ResNet-152将最后一层输出用线性层映射到语言模型同一个空间中。而作为条件的文本输入即这里的product title和生成序列一同进行编码。效果数据集采用FACAD提供了商品的标题和图片目标是生成产品描述效果如下文中提出的模型在所有指标中都取得了最优结果相比于baseline将BLEU4提升了0.8CIDEr提升了7.2METEOR提升了0.8ROUGE-L提升了1.0。同时由于衡量生成文本质量具有主观性作者也进行了人工评分结果表明MANTIS依然取得了最优结果。从生成效果来看生成的描述成功地结合了图片信息使得描述更加准确而非笼统的介绍。总结这篇文章方法十分直观但是结合最近火热的 Prompt似乎又有了更多的启发。同样是生成同样是加前缀似乎给定条件的生成就是加上编码好的前缀那么多模态未来能不能成为一种新的prompt呢作者认为他们的模型可以借助各种不同的多模态条件生成然而不得不说本文的方法对模态融合的部分做的马虎了些。本文只是单纯借助解码器进行融合并没有在编码阶段就分享跨模态的信息。萌屋作者子龙(Ryan)本科毕业于北大计算机系曾混迹于商汤和MSRA现在是宅在UCSD(Social Dead)的在读PhD主要关注多模态中的NLP和data mining也在探索更多有意思的Topic原本只是贵公众号的吃瓜群众被各种有意思的推送吸引就上了贼船希望借此沾沾小屋的灵气paper早日成为有猫的程序员作品推荐1.别再搞纯文本了多模文档理解更被时代需要2.Transformer哪家强Google爸爸辨优良3.预训练语言真的是世界模型后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集