当前位置：首页 > news >正文

网站要怎么样做排名才上得去网站制作公司优势

news 2025/11/21 13:26:41

网站要怎么样做排名才上得去,网站制作公司优势,网页游戏大厅免费,手机网站优化指南在当今人工智能大火的时代#xff0c;AIGC 可以帮助用户完成各种任务。作为 AIGC 主流模型的 DDPM#xff0c;也时常在各种论文中被提起。DDPM 本质就是一种扩散模型#xff0c;可以用来生成图片或者为图片去噪。扩散模型定义了一个扩散的马尔科夫过程#xff0c;每一步逐…在当今人工智能大火的时代AIGC 可以帮助用户完成各种任务。作为 AIGC 主流模型的 DDPM也时常在各种论文中被提起。DDPM 本质就是一种扩散模型可以用来生成图片或者为图片去噪。扩散模型定义了一个扩散的马尔科夫过程每一步逐渐将随机噪声添加到数据中然后通过学习逆扩散过程恢复数据以实现从噪声中构建所需的数据样本。本文不再按照论文解读的方式逐段记录并且略过其中繁杂的数学证明只专注于介绍 diffusion 模型本身主要基于 DDPM。本文参考 What are Diffusion Models?、扩散模型Diffusion Model——由浅入深的理解更多参考资料如下模型图解十分钟读懂Diffusion图解Diffusion扩散模型模型总结由浅入深了解Diffusion Model、AIGC爆火的背后——扩散模型DDPM浅析公式推导Diffusion扩散模型大白话讲解看完还不懂不可能源码解读【深度学习模型】扩散模型(Diffusion Model)基本原理及代码讲解领域现状读了14篇论文终于会拿捏Diffusion了、扩散模型(Diffusion Model)首篇综述-Diffusion Models: A Comprehensive Survey of Methods and Applications、扩散模型Diffusion Model最新综述目录一. 背景二. Diffusion 模型1. 扩散过程2. 逆扩散过程3. 训练方法三. 图片生成四. 实验五. 总结一. 背景随着人工智能生成能力的不断进步内容生产已经从用户生成内容 (UGC) 到专业生成内容 (PGC) 再到人工智能生成内容 (AIGC, AI generated content)。从 AI 作画到 AI 视频等各种 AI 生成任务层出不穷预示着 AIGC 时代已然拉开帷幕。 AIGC 主要依赖一些生成式模型如 GAN、VAE、Flow-based model 等但这些模型都有一些自身的局限性难以稳定且高质量地完成 AIGC 的任务。现在 AIGC 的主流模型使用的基本都是 DDPM这是一种经典的扩散模型 (diffusion model)。扩散模型定义了一个扩散的马尔科夫过程每一步逐渐将随机噪声添加到数据中然后通过学习逆扩散过程恢复数据以实现从噪声中构建所需的数据样本。与 VAE 和流模型不同扩散模型是通过固定程序学习的并且隐变量都具有与原始数据相同的维度。马尔科夫过程指具有马尔科夫性质的随机过程即下一个状态的发生仅依赖于当前状态而与过去状态的序列无关。这一性质也被称为 “无记忆性” 或 “马尔科夫性”。具体来说考虑一个随机过程其状态在不同时间点可以取不同的值。如果这个过程满足马尔科夫性那么给定当前时刻的状态未来的状态只与当前状态有关而与过去状态的历史路径无关。这种性质可以表示为 P ( X n 1 x ∣ X n x n , X n − 1 x n − 1 , … , X 0 x 0 ) P ( X n 1 x ∣ X n x n ) P(X_{n1} x | X_n x_n, X_{n-1} x_{n-1}, \ldots, X_0 x_0) P(X_{n1} x | X_n x_n) P(Xn1x∣Xnxn,Xn−1xn−1,…,X0x0)P(Xn1x∣Xnxn) 其实生成式建模的扩散思想早在 2015 年就在 diffusion probabilistic models 1 中被提出但直到 2019 年斯坦福大学发布的 noise-conditioned score network 2 和 2020 年 Google Brain 发布的 denoising diffusion probabilistic models 3 改进了模型方法才引发了 diffusion 模型的热潮。目前包括 OpenAI 的 GLIDE 和 DALL-E 2海德堡大学的 Latent Diffusion 和 Google Brain 的 ImageGen都基于 diffusion 模型。二. Diffusion 模型 Diffusion 模型的灵感来自非平衡热力学通过定义一个扩散步骤的马尔科夫链缓慢地将具有高斯分布的随机噪声添加到数据中原始图片随着噪声的不断加入最后变为一个纯噪声图片然后学习优化逆扩散过程最终实现从噪声中构建所需的数据样本反向过程可以用来生成图片。如图所示diffusion 模型包括前向和反向两个过程无论是前向过程还是反向过程都是一个参数化的马尔科夫链 (Markov chain) 前向过程 (forward process)又称为扩散过程图中 x 0 → x T x_0 \rightarrow x_T x0→xT 的过程表示对图片逐渐加噪反向过程 (reverse process)又称为逆扩散过程图中 x T → x 0 x_T \rightarrow x_0 xT→x0 的过程表示对图片去噪复原可以用来生成图像 1. 扩散过程如上文所说扩散过程 x 0 → x T x_0 \rightarrow x_T x0→xT 对图片逐渐加噪。 x 0 x_0 x0 是从真实数据集中采样得到的一张图片对 x 0 x_0 x0 逐渐添加具有高斯分布的噪声图片逐会变得模糊当 T T T 足够大时 x T x_T xT 为标准正态分布。由于每次添加的噪声是已知的即 q ( x t 1 ∣ x t ) q (x_{t1} \mid x_t) q(xt1∣xt) 是已知的因此可以根据马尔科夫过程的性质递归得到 q ( x T ∣ x t ) q (x_{T} \mid x_t) q(xT∣xt) 。此处不再赘述公式推导的过程详见 What are Diffusion Models?、扩散模型Diffusion Model——由浅入深的理解、由浅入深了解Diffusion Model、AIGC爆火的背后——扩散模型DDPM浅析、Diffusion扩散模型大白话讲解看完还不懂不可能等。 2. 逆扩散过程如上文所说逆扩散过程 x T → x 0 x_T \rightarrow x_0 xT→x0 对图片去噪复原来生成图像。由于扩散过程的 T T T 取足够大时 x T x_T xT 为标准正态分布因此要想生成图片可以直接从标准正态分布的图像逆扩散回去就可以得到想要的图像。于是问题的关键就是学习逆扩散过程。逆扩散不像前向过程每一步是固定的逆扩散很难从后一张图像中去噪得到前一张图像即 q ( x t − 1 ∣ x t ) q (x_{t-1} \mid x_t) q(xt−1∣xt) 是未知的。因此只能用 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 来近似代替 q ( x t − 1 ∣ x t ) q (x_{t-1} \mid x_t) q(xt−1∣xt)于是逆扩散的学习过程就成了训练 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 网络文中称为 U-Net。虽然 q ( x t − 1 ∣ x t ) q (x_{t-1} \mid x_t) q(xt−1∣xt) 是未知的但 q ( x t − 1 ∣ x 0 x t ) q (x_{t-1} \mid x_0x_t) q(xt−1∣x0xt) 是可知的。因此我们可以用 q ( x t − 1 ∣ x 0 x t ) q (x_{t-1} \mid x_0x_t) q(xt−1∣x0xt) 来指导 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 进行训练。此处不赘述公式推导的过程。 3. 训练方法 Diffusion 的损失函数进行了大量的数学推导此处概述为一句话对 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 的监督就是最小化 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 和 q ( x t − 1 ∣ x 0 x t ) q (x_{t-1} \mid x_0x_t) q(xt−1∣x0xt) 的 KL 散度。三. 图片生成训练完 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 后就可以通过逆扩散过程生成图像四. 实验详见 https://arxiv.org/pdf/2006.11239.pdf 。网上有很多 DDPM 的实现代码包括论文中基于 tensorflow 的实现还有基于 pytorch 的实现感兴趣的可以自行复现。五. 总结 Diffusion 其实就是一个扩散和逆扩散的过程先给一张图片逐步加噪声直到变成纯粹的噪声然后再对噪声进行去噪得到真实的图片。所谓的扩散模型就是让神经网络学习这个去除噪声的方法。Diffusion 和其他模型最大的区别是它的隐空间特征数和原图是同尺寸大小的当然后面也有基于压缩的 latent diffusion model 4 。现在大火的最 GLIDE5、DALLE26、Imagen7以及一系列的 Image Editing 方法也都是基于 diffusion。 Sohl-Dickstein J, Weiss E, Maheswaranathan N, et al. Deep unsupervised learning using nonequilibrium thermodynamics[C]//International conference on machine learning. PMLR, 2015: 2256-2265. ↩︎ Song Y, Ermon S. Generative modeling by estimating gradients of the data distribution[J]. Advances in neural information processing systems, 2019, 32. ↩︎ Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851. ↩︎ Rombach, Robin, et al. “High-Resolution Image Synthesis with Latent Diffusion Models.” arXiv preprint arXiv:2112.10752 (2021). ↩︎ Nichol, Alex, et al. “Glide: Towards photorealistic image generation and editing with text-guided diffusion models.” arXiv preprint arXiv:2112.10741 (2021). ↩︎ Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 (2022). ↩︎ Saharia, Chitwan, et al. “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding.” arXiv preprint arXiv:2205.11487 (2022). ↩︎

查看全文

http://www.pierceye.com/news/776373/