当前位置: 首页 > news >正文

建材网站建设 南宁车务网站开发

建材网站建设 南宁,车务网站开发,做全景图的网站,聊天app开发制作pix2pix-zero#xff1a;零样本图像到图像转换 论文介绍 Zero-shot Image-to-Image Translation 关注微信公众号: DeepGoAI 项目地址#xff1a;https://github.com/pix2pixzero/pix2pix-zero 论文地址#xff1a;https://arxiv.org/abs/2302.03027 本文介绍了一种名为…pix2pix-zero零样本图像到图像转换 论文介绍 Zero-shot Image-to-Image Translation 关注微信公众号: DeepGoAI 项目地址https://github.com/pix2pixzero/pix2pix-zero 论文地址https://arxiv.org/abs/2302.03027 本文介绍了一种名为pix2pix-zero的图像到图像的翻译方法它基于扩散模型允许用户即时指定编辑方向例如将猫转换为狗同时保持原始图像的结构。该方法自动发现文本嵌入空间中反映所需编辑的编辑方向并采用跨注意力引导以在编辑过程中保留输入图像的一般内容结构。重要的是这种方法不需要针对每种编辑类型和图像进行额外的训练可以直接使用预训练的文本到图像的扩散模型。通过广泛的实验证明了pix2pix-zero在真实和合成图像编辑方面超越了现有和同时期的工作。 上图展示了论文方法能让用户指定转换方向例如从猫变为狗。该方法在处理真实图像上两行和合成图像下两行的翻译任务时都能保留输入图像的结构。这种技术不需要为每个输入图像或每个任务进行手动文本提示或昂贵的微调。图中显示了不同的翻译示例如从猫变成狗、从马变成斑马、从素描变为油画质感、给狗加上眼镜以及将狗变成跳跃的狗。 上图展示了pix2pix-zero方法的概述这是一个将图片从猫变成狗的图像到图像的翻译例子。首先使用规范化的DDIM反转来得到一个反转的噪声映射这是由BLIP图像字幕caption网络和CLIP文本嵌入模型自动生成的文本嵌入引导的。然后使用原始文本嵌入去噪以获得交叉注意力图作为输入图像结构的参考顶部行。接下来使用编辑后的文本嵌入去噪通过损失函数确保这些交叉注意力图与参考交叉注意力图相匹配第二行。这确保了编辑图像的结构与原始图像相比不会发生剧烈变化。没有交叉注意力引导的去噪示例显示在第三行导致结构上的大偏差。此可视化强调了在编辑过程中保持图像原始结构的交叉注意力的重要性。 方法概述 文章提出了一种无需额外训练即可编辑真实图像的方法核心技术包括 规范化的DDIM反演和噪声规范化 文章采用确定性DDIM逆过程进行真实图像反演并在反演过程中使噪声图保持接近高斯分布以提高可编辑性。 自动编辑方向发现 为了能够利用文本语义进行编辑作者首先提出一种在文本嵌入空间自动找到编辑方向的方法具体通过计算包含原始词和编辑词的句子组的CLIP嵌入方向。 交叉注意力引导 为了保持编辑后内容的结构方法采用了交叉注意力引导这涉及到在扩散过程中保持输入图像的交叉注意力图。 规范化的DDIM反演和噪声规范化 确定性反演 反演的意思就是说我们想要编辑一张图像。如果想利用预训练的生成模型对其进行编辑那么就需要先把图像嵌入到生成模型的隐空间。这个是目前比较流行的做法。 反演涉及到寻找噪声映射 x inv x_{\text{inv}} xinv​在生成模型中的编码表示该噪声映射能够在采样时重建输入的潜在代码 x 0 x_0 x0​输入图像或对应的编码表示。在DDPM中这对应于固定的正向加噪声过程然后通过反向过程去噪。然而DDPM的正向和反向过程都是随机的不会得到一致的重建。因此作者采用如下所示的确定性DDIM反向过程 x t 1 α ‾ t 1 f θ ( x t , t , c ) 1 − α ‾ t 1 ϵ θ ( x t , t , c ) x_{t1} \sqrt{\overline{\alpha}_{t1}}f_{\theta}(x_t, t, c) \sqrt{1 - \overline{\alpha}_{t1}}\epsilon_{\theta}(x_t, t, c) \quad xt1​αt1​ ​fθ​(xt​,t,c)1−αt1​ ​ϵθ​(xt​,t,c) 其中 x t x_t xt​ 是时间步 t t t 的噪声潜在代码 ϵ θ ( x t , t , c ) \epsilon_\theta(x_t, t, c) ϵθ​(xt​,t,c) 是基于UNet的去噪器它在给定时间步和编码的文本特征 c c c 的条件下预测添加到 x t x_t xt​ 中的噪声 α ‾ t 1 \overline{\alpha}_{t1} αt1​ 是DDIM中定义的噪声缩放因子 f θ ( x t , t , c ) f_\theta(x_t, t, c) fθ​(xt​,t,c) 预测最终去噪的潜在代码 x 0 x_0 x0​。 f θ ( x t , t , c ) x t − 1 − α ‾ t ϵ θ ( x t , t , c ) α ‾ t f_{\theta}(x_t, t, c) \frac{x_t - \sqrt{1 - \overline{\alpha}_t}\epsilon_{\theta}(x_t, t, c)}{\sqrt{\overline{\alpha}_t}} \quad fθ​(xt​,t,c)αt​ ​xt​−1−αt​ ​ϵθ​(xt​,t,c)​ 通过DDIM过程逐渐向初始潜在代码 x 0 x_0 x0​添加噪声并在反转结束时最后的噪声潜在代码 x T x_T xT​被分配为 x i n v x_{inv} xinv​. 噪声规范化 通过DDIM反演生成的反演噪声图通常不遵循不相关高斯白噪声的统计属性导致可编辑性差。一个高斯白噪声图应该满足(1) 任意两个随机位置之间没有相关性(2) 每个空间位置的均值为零方差为一这在其自相关函数中反映为克罗内克函数。基于此作者引导反演过程使用由成对项 L pair L_{\text{pair}} Lpair​ 和在单个像素位置的KL散度项 L KL L_{\text{KL}} LKL​ 组成的自相关目标。 作者遵循文献[29]的方法构建一个金字塔其中初始噪声水平 η 0 ∈ R 64 × 64 × 4 \eta_0 \in \mathbb{R}^{64 \times 64 \times 4} η0​∈R64×64×4 是预测的噪声图每个后续噪声图通过2x2的领域平均池化并乘以2以保持期望的方差。作者在特征大小8x8处停止创建4个噪声图形成集合 { η 0 , η 1 , η 2 , η 3 } \{\eta_0, \eta_1, \eta_2, \eta_3\} {η0​,η1​,η2​,η3​}。 在金字塔级别 p p p 的成对正则化是可能的 δ \delta δ 偏移处自相关系数平方和归一化过噪声图大小 S p S_p Sp​。 L pair ∑ p 1 S p 2 ∑ δ 1 S p − 1 ∑ x , y , c η x , y , c p ( η x − δ , y , c p η x , y − δ , c p ) , \mathcal{L}_{\text{pair}} \sum_{p} \frac{1}{S_p^2} \sum_{\delta1}^{S_p-1} \sum_{x,y,c} \eta^{p}_{x,y,c} \left( \eta^{p}_{x-\delta,y,c} \eta^{p}_{x,y-\delta,c} \right), Lpair​p∑​Sp2​1​δ1∑Sp​−1​x,y,c∑​ηx,y,cp​(ηx−δ,y,cp​ηx,y−δ,cp​), 其中 η x y c p \eta_{xyc}^p ηxycp​ 在使用圆形索引和通道的空间位置中索引。 为了使反转噪声图更接近理想的高斯白噪声作者引入了一个自相关目标函数它由两部分组成一个成对项 L pair L_{\text{pair}} Lpair​ 和一个在单个像素位置上的KL散度项 L KL L_{\text{KL}} LKL​。这个自相关正则化的目的是确保在噪声图中的每一对随机位置之间没有相关性并且每个空间位置的噪声值都有零均值和单位方差。这种方法有助于在编辑过程中保持图像质量并确保编辑后的图像更加自然和真实。总目标函数如下 L auto L pair λ L KL L_{\text{auto}} L_{\text{pair}} \lambda L_{\text{KL}} Lauto​Lpair​λLKL​ 在拿到确定性的噪声映射 x inv x_{\text{inv}} xinv​之后就可以考虑对其进行编辑了。接下来我们讨论如何利用零样本实现语义层面的编辑。 自动编辑方向发现 给定源文本和目标文本例如猫和狗作者使用 GPT-3 生成大量不同的句子。作者计算它们的 CLIP 嵌入并取均值差来获得编辑方向 $\Delta_{edit} $。 具体来说作者自动计算从源到目标的对应文本嵌入方向向量$\Delta_{edit} 。他们为源 。他们为源 。他们为源s 和目标 和目标 和目标t$生成了一大批多样化的句子这些句子要么使用现成的句子生成器如GPT-3生成要么使用围绕源和目标的预定义提示生成。然后他们计算句子的CLIP嵌入的平均差异。通过向文本提示嵌入添加方向可以生成编辑后的图像。 该方法计算编辑方向只需要大约5秒钟并且只需预先计算一次。接下来作者将编辑方向整合到图像到图像的翻译方法中。这种方法的优点是使用多个句子确定文本方向比使用单个单词更为稳健。 通过交叉注意力引导的编辑 近期的大规模扩散模型通过在去噪网络中增加交叉注意力层来引入条件化。作者使用基于潜在扩散模型LDM构建的开源稳定扩散模型Stable Diffusion。该模型使用CLIP文本编码器产生文本嵌入 c c c。为了根据文本条件生成图像模型计算编码文本和去噪器中间特征之间的交叉注意力 Attention ( Q , K , V ) M ⋅ V \text{Attention}(Q, K, V) M \cdot V Attention(Q,K,V)M⋅V 其中 M Softmax ( Q K T d ) M \text{Softmax}\left(\frac{QK^T}{\sqrt{d}}\right) MSoftmax(d ​QKT​) 查询 Q W Q ϕ ( x t ) Q W^Q\phi(x_t) QWQϕ(xt​)键 K W K c K W^Kc KWKc值 V W V c V W^Vc VWVc是通过在去噪UNet的中间空间特征 ϕ ( x t ) \phi(x_t) ϕ(xt​)和文本嵌入 c c c上应用学习到的投影 W Q , W K , W V W^Q, W^K, W^V WQ,WK,WV计算得出 d d d是投影键和查询的维度。 特别关注的是交叉注意力图 M M M它与图像的结构有紧密的联系。交叉注意力图的每个条目 M i j M_{ij} Mij​代表第 j j j个文本标记对第 i i i个空间位置的贡献。此外交叉注意力图是特定于时间步的对于每个时间步 t t t我们会得到不同的注意力图 M t M_t Mt​。 为了应用一个编辑朴素的方式是将预先计算的编辑方向 Δ c e d i t \Delta c_{edit} Δcedit​ 应用到 c c c 上使用 c e d i t c Δ c e d i t c_{edit} c \Delta c_{edit} cedit​cΔcedit​ 进行采样过程以生成 x e d i t x_{edit} xedit​。这种方法能够根据编辑成功地改变图像但无法保留输入图像的结构。如图3所示采样过程中交叉注意力图的偏差导致图像结构的偏差。因此作者提出了一种新的交叉注意力引导来鼓励交叉注意力图的一致性。 首先重建图像不应用编辑方向只使用输入文本 c c c 来获取每个时间步骤 t t t 的参考交叉注意力图 M t r e f M_t^{ref} Mtref​。这些交叉注意力图对应于我们希望保留的原始图像的结构 e e e。接下来作者应用编辑方向使用 c e d i t c_{edit} cedit​ 来生成交叉注意力图 M t e d i t M_t^{edit} Mtedit​。然后作者采取梯度步骤与 x t x_t xt​ 匹配参考 M t r e f M_t^{ref} Mtref​减少下面的交叉注意力损失 L x a L_{xa} Lxa​ L x a ∣ ∣ M t e d i t − M t r e f ∣ ∣ 2 2 L_{xa} ||M_t^{edit} - M_t^{ref}||_2^2 \quad Lxa​∣∣Mtedit​−Mtref​∣∣22​ 这个损失鼓励 M t e d i t M_t^{edit} Mtedit​ 不偏离 M t r e f M_t^{ref} Mtref​在应用编辑的同时保留原始结构。 实验结果 这里进一步展示了更多的编辑。可以看到编辑结果还是非常逼真且自然的。 当然了这个算法也有缺陷。比如说非常复杂的图可能还是没办法实现高质量编辑。另一问题是他对原始的结构姿态保持的不是很完美。原因是算法是在低尺度的特征图上进行编辑所以对原来结构的保持并不完美。 总结 本文介绍了一种基于扩散的图像到图像的翻译方法可以在不需要手动文本提示的情况下保持原始图像的内容。它自动发现反映所需编辑的文本嵌入空间中的编辑方向并通过交叉注意力引导来保持编辑后的内容结构。此方法无需为每次编辑额外训练可直接使用预训练的文本到图像扩散模型。实验表明该方法在真实和合成图像编辑方面优于现有和同时期的工作。 其他更多细节请参阅论文原文 关注微信公众号: DeepGoAI
http://www.pierceye.com/news/738781/

相关文章:

  • 武城网站建设费用网页设计试题及答案
  • 郑州外贸网站建设公司搜索引擎排名的三大指标
  • 温州专业微网站制作电台 主题 wordpress
  • wordpress做网站过程阳江网上车管所
  • 网站抓取qq上海自贸区注册公司流程
  • 深圳网站设计推荐刻烟台制作网站有哪些
  • 网站注册系统源码卢松松博客源码 wordpress博客模板
  • 网站开发进阶实训报告廊坊安次区网站建设公司
  • jquery插件网站推荐打开网站自动跳转代码
  • 佛山顺德容桂网站制作写作平台
  • 网站源码下载pdf文件品质好房
  • 山网站建设长沙网站开发湖南微联讯点不错
  • 网站建设的方案模板邢台123今天的招聘信息
  • 一个网站做app网站如何做收款二维码
  • 济南seo网站优化网站开发源代码 百度文库
  • 东西湖区建设局网站制作网站需要钱吗
  • 自己买服务器能在wordpress建网站欧美色影网站
  • 网站支付页面设计金华企业网站建设公司
  • wordpress评论模块临沂seo网站管理
  • 四川法制建设网站产品推广步骤
  • 服务器 网站建设比较容易做流量的网站
  • 网站建设基础实训报告天津滨海新区地图全图
  • 兰西网站建设深圳58同城招聘网
  • 兰州网站建设程序烟台赶集网网站建设
  • 自己建立网站后怎么做淘客wordpress需要npv
  • 简单网站建设推荐wordpress主题ashley
  • 单页网站开发实例下载电商营销渠道有哪些
  • 沈阳科技网站首页东营市做网站
  • 网站移动端开发公司客户评价网站建设
  • 有没有做问卷还能赚钱的网站鲜花网站数据库建设