做一个网站团队需要哪些人员,广安网站建设,wordpress VIP系统,网站备案过户1 基本框架 ①#xff1a;文字变成向量 ②#xff1a;喂入噪声文字encoder#xff0c;产生中间产物 ③#xff1a;decoder 还原图片
2 text encoder 这张图越往右下表示效果越好#xff0c;可以看到text encoder尺寸越大#xff0c;对后续生成图片的增益越多
3 评价图…1 基本框架 ①文字变成向量 ②喂入噪声文字encoder产生中间产物 ③decoder 还原图片
2 text encoder 这张图越往右下表示效果越好可以看到text encoder尺寸越大对后续生成图片的增益越多
3 评价图片生成好坏的标准
3.1 FID 现有一个训练好的CNN 模型可以生成真实影像和生成图像的representation这两组表征的分布越近效果越好——我们sample 一堆图片然后生成一组同语义的图片计算他们分布的distance
3.2 CLIP 如果图片和文字是成对的那么他们的representation越近表示生成的图片效果越好
4 decoder 训练一个auoto encoder训练完把decoder拿出来用即可
5 噪声加的位置 之前defusion model 中noise是加在图片上但现在产生的东西已经不是图片了 ——noise 加在中间产物上 大体上和diffusion model 类似这里就是最后多接一个decoder将中间产物变成图片