英文网站搜索,关于网站开发的技术博客,财政网站平台建设不足,午夜做网站文 | Yimin_饭煲从2020年的初出茅庐#xff0c;到2021年的日趋火热#xff0c;再到2022年的大放异彩#xff0c;扩散模型(Diffusion Models) 正在人工智能学术界和工业界获取越来越多的关注。如果还不是特别了解扩散模型的朋友#xff0c;可以阅读卖萌屋的几篇历史推文《扩… 文 | Yimin_饭煲从2020年的初出茅庐到2021年的日趋火热再到2022年的大放异彩扩散模型(Diffusion Models) 正在人工智能学术界和工业界获取越来越多的关注。如果还不是特别了解扩散模型的朋友可以阅读卖萌屋的几篇历史推文《扩散模型在图像生成领域大火风头超过GAN》《年末回顾2021年 AI 领域十大研究趋势及必读论文》。扩散模型最早在图像生成领域大火随后扩展到了其他连续域例如语音、视频、点云数据最近Google发布的用于文本到图像生成的GLIDE模型更是让扩散模型从AI圈内火到了圈外。不过虽然扩散模型的热度极高但是面向离散变量的扩散模型的性能一直欠佳特别是在语言图等结构当中。最近斯坦福大学自然语言处理研究组在利用扩散模型解决自然语言处理问题中取得了新的进展。具体说来在可控自然语言生成任务上研究者们利用连续扩散模型对预训练的语言生成模型进行可插拔的操控就能够在许多任务上达到甚至超过Fine-Tuning的效果大幅度超越了之前的工作。这篇工作从方法和实验上都非常的新颖和扎实短短一周就已经在Twitter上收获了千赞在Github上收获了140个stars。下面就让我们一起来了解这篇扩散模型在语言领域的应用工作吧说不定也能给你的领域带来启发呢~论文标题:Diffusion-LM Improves Controllable Text Generation论文链接:https://arxiv.org/pdf/2205.14217.pdf问题背景首先我们先来了解一下可控语言生成任务。语言生成任务指的是给定语言模型, 其中是词汇的序列自回归语言模型可以表示为402 Payment Required可控语言生成指的是给定控制变量例如语法结构情感生成词汇序列。一般来说估计的方式是训练一个从词汇序列到控制变量的分类器然后利用贝叶斯公式。优化的作用是使得输出流利优化的作用是使得满足控制变量的约束。主要方法扩散模型的基本设置将数据定义为定义为一个满足高斯分布的随机变量。定义一个马尔可夫过程状态转移方程为402 Payment Required其中和由U-Net或者Transformer估计。为了训练扩散模型我们需要定义前向和后向两个过程前向过程为加噪声过程, 其中表示在第步扩散时添加的噪声前向过程不包含可训练的参数只提供一个将原始数据扩散为噪声的过程。扩散模型的优化目标是最大化边缘概率分布, 可以转化为变分下界损失函数402 Payment Required不过这一变分下届在实际中优化比较不稳定因此一般使用如下的简化方式进行优化其中是后验分布的平均值而是利用神经网络预测的的均值。已有的工作已经说明了这一优化目标的有效性。Diffusion LM的端到端训练为了将连续的扩散模型应用到离散文本上首先定义离散文本的Embedding函数将每个词语映射到一个连续向量。因此在扩散模型训练在前向过程中需要多加入一步从离散词汇映射到连续向量, 在反向过程中加入一步从连续向量映射到离散词汇, 这一步通过Softmax分类实现。最后可以将Diffusion LM的训练目标转换为如下的形式402 Payment RequiredDiffusion LM的解码和生成Diffusion LM的可控生成等价于从后验分布中解码, 在每一步扩散中优化目标为402 Payment Required由于马尔科夫链的一阶相关性在第步可以使用如下的梯度优化方式为了保证生成文本的流利性作者们还使用了一些正则化的技巧402 Payment Required为了提升生成的输出的质量作者们还使用了在机器翻译中常用的最小贝叶斯风险MBR解码方式。实验结果作者们在情感控制可控语法生成等任务上开展了实验和PPLMFUDGE等可插拔式方法进行对比可以发现Diffusion-LM相比之前的同类方法有极为显著的提升特别是在部分任务上甚至可以达到和微调相似的结果。组合控制是可控文本生成的另一个常见场景。给定关于多个独立任务的控制条件要求模型生成满足多个控制条件的文本。Diffusion LM在这一场景下也表现出了更好的控制成功率。在句子填充任务给定左边文本和右边文本输出中间的内容连接两段文本)上Diffusion LM显著超越了之前的工作COLD和Delorean, 并且达到了和从头训练的自回归语言模型相近的效果。结语扩散模型受到了非平衡热力学的启发具有良好的数学表达形式。在图像生成任务上优秀的性能证实了其不是徒有虚表的“花瓶”而是深度学习时代的一大杀器。尽管扩散模型仍然具有计算时间长等问题我们仍可以期待其在更多模态的数据和任务上取得惊人的表现萌屋作者Yimin_饭煲在微软NLC组搬砖的联培博士生爱好摄影和运动希望卖萌屋早日开通视频业务我来当摄影师作品推荐学完文本知识我就直接看懂图片了别再Prompt了谷歌提出tuning新方法强力释放GPT-3潜力大模型炼丹无从下手谷歌、OpenAI烧了几百万刀总结出这些方法论…后台回复关键词【入群】加入卖萌屋NLP、CV、搜广推与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集