简单个人网站源码,建筑企业网站设计,网站空间单位,1高端网站建设来自 论文《 Denoising Diffusion Probabilistic Model》#xff08;DDPM#xff09; 论文链接#xff1a; https://arxiv.org/abs/2006.11239 Hung-yi Lee 课件整理 讲到这里还没有解决的问题是#xff0c;为什么这里还要多加一个噪声。Denoise模型算出来的是高斯分布的均…来自 论文《 Denoising Diffusion Probabilistic Model》DDPM 论文链接 https://arxiv.org/abs/2006.11239 Hung-yi Lee 课件整理 讲到这里还没有解决的问题是为什么这里还要多加一个噪声。Denoise模型算出来的是高斯分布的均值做sample的时候考虑需要加上一个噪声代表说考虑高斯分布的方差这一项。为什么不直接取均值呢 同样的问题你也可以问为什么语言模型在产生问句的时候一定要做sample为什么我们先产生一个有可能的分布再从这个分布中sample出文字呢取概率最大的就行有人说做sample的好处是你每次问同一个问题chatgpt的答案都不一样当你问某个人有没有打疫苗chatgpt有时候会说有有时候会说没有就可以制造很多假新闻。 为什么一定要这样呢为什么不能固定住去概率最大的呢让模型每次都回答概率最大的句子为什么需要有随机性 这个问题之前就有人提出来了这篇文章发现如果取概率最大的句子和词汇那么输出的结果会是不断重复的句子机器就会不断地跳帧讲重复的话虽然做sampling机器会说一些奇怪的话和跳帧比起来sample的结果更好为什么呢他做了一个分析。 我们来看看人写的句子吧橙色的线代表的是人写的句子右边是人写的一篇文章用我们的语言模型来计算人写的每一个单词的概率发现人写出来的文章用字遣词并不是选概率最大的词汇。 我们让机器每一步都产生概率最大的词汇发现它一直在不断地讲重复的话。 在做生成模型的时候概率最大的结果未必是最好的结果。 这是在文字上的观察。 实际上在语音合成模型上也有类似的规律。 在语音合成模型的推理阶段使用dropout效果很好这个和我们想象的不太一样我们一般是在训练阶段过拟合的时候才加dropout。 这篇文章里写到为了引入输出结果的多变性在推理的某一层加了dropout。 diffusion 模型其实是一种自回归模型自回归的模型是一次到位这样通常产生的结果不够好我们把它改成N次到位这就是diffusion模型的概念。 所以在做Denoise的时候就好比是自回归里面的一个step在做自回归的时候每个step我们都要加一点噪声加一点随机性结果才会好所以在做Denoise的时候我们要加一点随机性这样结果才会好。 李教授找助教做实验验证了如果像论文里一样加噪声会生成小女孩头像这样正常的图片把噪声去掉就只会产生一张黄色的图片。 到这里就是diffusion模型的全部玄机了。 训练的时候为什么不是一次一次地加噪声顺便讲了什么sampling的时候需要加噪声。 diffusion模型不是只用在图像上在语音合成任务上也可以。 这里没有什么好讲的和图像几乎是一样的图像的输入是2维的在语音上变成了1维的从一个完全高斯的杂训一步一步做Denoise把它变成一段声音。 其中比较知名的方法就是WavGrad 基本上和DDPM没有什么差别。 但是把diffusion模型直接用在文字上就很困难了我们没办法直接在文字上加噪声文字是描述性的没把法在描述性的东西上加噪声让它看不出来是什么。 有一些提法是把噪声加在word embedding上就这样。 有几篇论文这样做的比如diffusion-LM。 还有这篇论文 DiffuSeq它是一个seq2seq的模型是在latent representation上加噪声。 还有这篇论文假设加高斯噪声是不行的能不能加其他类型的噪声加到文字上 这篇论文里面的噪声分布全部都是 [ m a s k ] [mask] [mask]然后再慢慢把有 [ m a s k ] [mask] [mask]的地方填充回来。
写在最后 diffusion模型最大的成功是把自回归的一步到位改为了N步到位。