当前位置: 首页 > news >正文

什么网站做聚乙烯醇好的wordpress 后台乱码

什么网站做聚乙烯醇好的,wordpress 后台乱码,做网站的分辨率,百度推广业务员电话了解整个流程#xff1a; 【第一部分】输入图像 x #xff08;W*H*3的RGB图像#xff09;【第一部分】x 经过编码器 生成 (latent 空间的表示) h*w*c (具体设置多少有实验)【第二部分】 逐步加噪得到 #xff0c;和噪声标签【第二部分】由 Unet#xff08; #xff… 了解整个流程 【第一部分】输入图像 x W*H*3的RGB图像【第一部分】x 经过编码器 生成   (latent 空间的表示) h*w*c (具体设置多少有实验)【第二部分】 逐步加噪得到 和噪声标签【第二部分】由 Unet 预测噪声与噪声标签得到loss, 训练【第三部分】由 Clip 得到 文本编码或者图像编码 。以改变K和V的方式添加到Unet【第二部分】训练后 Unet 随机高斯 文本等条件得到 z【第一部分】解码器D将 z  重建成RGB图像 本文将分为3个部分讲解生成模型全过程 第一部分VAE 编码器第二部分diffusion 扩散模型第三部分多模态提示微调 第一部分VAE 代码https://github.com/AntixK/PyTorch-VAE 论文Auto-Encoding Variational Bayes 如图所示是VAE部分的训练过程 图像编码得到 均值 (m1,m2,m3)方差(σ1,σ2,σ3)exp(σi)的目的是为了保证这个预测的方差是个正值按标准正态分布随机生成采样点(e1,e2,e3)重参数后相当于用预测出的高斯分布随机采样VAE在encode层的输出结果(c1,c2,c3)。以(c1,c2,c3)重建原图重建原图和原图计算MSE loss外加惩罚项loss,使得预测分布接近标准正态分布 VAE的原理推导及代码 对于生成模型而言主流的理论模型可以分为 隐马尔可夫模型HMM朴素贝叶斯模型NB高斯混合模型GMM而VAE的理论基础就是高斯混合模型。 什么是高斯混合模型呢就是说任何一个数据的分布都可以看作是若干高斯分布的叠加。 代码实现 GMM 模型 VAE foreward: def forward(self, input: Tensor, **kwargs) - List[Tensor]:mu, log_var self.encode(input)# mu : (B,128) 均值# log_var :(B,128) 方差z self.reparameterize(mu, log_var) # 重参数return [self.decode(z), input, mu, log_var] # 解码 从代码可以看出来mu 和 log_var 就是上图的若干个高斯分布,可以由均值和方差生成任意位置概率值 其中重参数定义如下 def reparameterize(self, mu: Tensor, logvar: Tensor) - Tensor:std torch.exp(0.5 * logvar)eps torch.randn_like(std) # 返回与输入张量大小相同的张量其中填充了均值为0 方差为1 的正态分布的随机值z eps * std mureturn z 可以看到为每一对均值方差都生成个随机采样 正态分布-标准正态分布 y ( x - mu ) / std 标准正态分布- 正态分布: x y * std mu 解码网络根据若干个高斯分布参数和 随机的样本 x 得到最终的原图 VAE decoder代码 def decode(self, z: Tensor) - Tensor:Maps the given latent codesonto the image space.:param z: (Tensor) [B x D]:return: (Tensor) [B x C x H x W]result self.decoder_input(z)result result.view(-1, 512, 2, 2)result self.decoder(result)result self.final_layer(result)return result 损失两部分重建损失和KL损失 kld_weight kwargs[M_N] # Account for the minibatch samples from the datasetrecons_loss F.mse_loss(recons, input) kld_loss torch.mean(-0.5 * torch.sum(1 log_var - mu ** 2 - log_var.exp()))loss recons_loss kld_weight * kld_loss 公式推导 通过本部分的学习可以明白以下问题 为什么是随机采样高斯分布上的点重建原图为什么是kl loss?为什么kl loss 复杂表达式怎么来的 如下图: 隐变量 z, 观测数据 x 是 生成模型参数 是预测的分布参数实线表示生成模型虚线表示难以处理的后验 的变分近似 变分参数φ与生成模型参数θ联合学习隐变量 z (由一些先验分布 pθ 生成x从一些条件分布 pθ(x|z)  生成 我们通过能观测到的数据x,预测实际的分布参数z采用最大似然函数的方法 最大似然函数样本 公式省略参数 取log: 当似然函数取得最大值时为所求 实际网络中函数是非凸函数通过解析的方式直接求解非常困难因此采用迭代的方法逐步逼近最大值。那么这个迭代的方法称为EM算法(最大化期望)给定的训练样本 样例间独立我们想找到每个样例隐含的类别z能使得p(x,z)最大。因此表达式就变成如下 EM是一种两步迭代的方法 1、初始化对参数 进行一次猜测 2、通过这个 得到 最大似然 的新表达---期望步骤 3、对这个新表达求解最大值---------------最大化步骤 当迭代的数据量是一张图时n1时 初始化一个参数 。为了表示方便就不按迭代取名了 根据EM算法最大似然 的新表达 拆成3部分后 最后最大似然函数求分布的参数。变成使得等式右边最大值时分布的参数。 等号右边第三个等式近似值与真实后验值的KL散度,KL散度大于0。剩余部分是下界最大值问题又变成最大下界问题。 等号右边第一个等式 反映自动编码器的Auto-Encoder-Decoder性能 xi→z→xi即经过编码    和  解码    的概率最大化如果能重建的越好说明这部分取值最大因此这部分就是Loss1MSE。 等号右边第二个等式 是两个分布的相似度分布q是 预测的高斯分布 分布p是标准正态分布这部分越小两个分布越相似最终的似然函数越大。这部分就是Loss2 kl惩罚项。 q~N(u,σ^2)p~N(0,1) 等号右边第一个式子是常数项是概率积分×常数 等号右边第二个式子可以拆成三个不同的期望求解 由于高斯分布的一阶矩、二阶矩表达式如下 代入上式 等号右边第三个式子可以看到就是二阶矩因此 代入三部分的化简最后KL散度的值为 到此KL散度的loss推导结果 对比代码部分完全一致 kld_loss torch.mean(-0.5 * torch.sum(1 log_var - mu ** 2 - log_var.exp())) -----------------------------------------------------vae end---------------------------------------- 第二部分扩散模型 论文https://arxiv.org/abs/2112.10752 代码GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models 本部分分两个模块讲解 训练阶段推理生成阶段网络结构 2.1 训练阶段 由VAE编码器得到高维特征z,扩散模型训练、推理的维度都在这个空间进行 如下图所示是把z逐渐加噪的过程 有加噪系数 随着加噪次数增多加噪力度也越来越大实际代码 取值范围[0.00001,0.002] z 加噪到第 t 次 ,特征变成 Xt,它是由Xt-1生成的表达式如下 可以看到由于 越来越大 越来越小也就是 Xt-1影响权重越来越小噪音权重越来越大。 由于这个逐步加噪的过程都是常数因此可以直接生成某次加噪的结果和噪音标签。但是具体怎么生成呢 其中噪声 是均随机采样自 标准正态分布 N(0,1). 因此: 服从 N( 0, ) 服从 N(  0, ) 看原式后两项是两个分布相加就是一个新的高斯分布 N(  0, ) 化简后N(  0, ) 换成由标准正太分布表示的形式,带回原式子 一直的递归下去直到x0,可以得到其中z是标准正态分布做的随机噪声 那么这个 就是我们想得到的任意时刻的加噪图片。 因此训练流程 repeat: 1、数据集采样 2、随机选取一个时刻 t (1~2000) 3、制作标签 t 时刻 图像上加的噪声 ~N(0,1 4、计算梯度由如下损失 是噪声预测网络 2.2 生成过程 现在再看逆向的过程由 逐渐得到 扩散模型的预测噪声是一步一步预测的也就是一步一步 逆向 先看由 到 ,那么由概率表示就是 而我们已知 因此对其进行贝叶斯替换后(第一行省略x0方便理解 其中等式右边的概率均可由前向推理表达出来一切均由x0得到上面第一行省略条件x0,由于下式子的展开需要用到x0因此不省略了 就是迭代加噪 服从 由 前向加噪到 服从 由 前向加噪到 服从 因此逆向的 就可以由三个高斯分布重新表示 由于已知三个高斯分布的均值和方差因此其概率密度就可以表示出来带回到原贝叶斯公式 可以看到等号右边的所有exp前都有常数项因此上面等式可以化简为正比于 其中C是常数项不用管。 对于任意高斯分布都有 通过平方项和一次项参数求解 均值方差 因此 令为  ;   令为 上面得到分布 的均值和方差可以看到均值里面包含由于推理阶段是未知的但是可以由 表达出来 由 得到逆向一下那么也可以由表示: 将 重新代入均值表达式 到此 的均值和方差都是已知的了使用重采样方法得到 x t-1其中z~N(0,1) 将均值和方差代入(方差是固定值暂时由σ表示) 到此已经得到所有公式的推导。 因此推理流程        1、随机生成个高斯噪声 ~N(0,1)噪声预测模型 2、 for   t   in   [T,T-1,......1]: z ~N(0,1)    if t1 else z0 3、return 下图理解起来更容易 网络结构         噪声预测模型的网络结构总体是UNet的形状其中的block是crossAttention 去噪的过程就是重复执行Unet,逐步降噪 具体网络结构如下 可以看到每个block都有次数 t 的位置编码加入本来代表加噪次数的 t 在模型中是正余弦位置编码 上图是Unet网络中的Time Embedding crossAttention可以看到代表次数的位置编码Time Embedding是通过线性变换后直接加到原特征图上。 下图是具体的Block结构 第三部分 微调方法 上图可以看出其他模态的数据条件均通过交叉注意力中的K和V添加进网络 四种模型训练方法 Textual InversionEmbeddings只训练成对的目标词语和图像,其他部分全部冻结Hypernetwork附加到Diffusion model的小型神经网络用于修改其风格LoRA(Low-Rank Adaptation of Large Language Models) 改变权重来修改交叉注意力DreamBooth几张图像进行训练来更新整个扩散模型 Textual InversionEmbeddings 代码GitHub - rinongal/textual_inversion # 训练如图少量图像 和 新的词语 成对微调网络其他词语冻结 # 这样就可以使用模型原有的能力在我们提供的图像类别上了风格角度等等 python main.py --base configs/latent-diffusion/txt2img-1p4B-finetune.yaml -t --actual_resume /path/to/pretrained/model.ckpt -n run_name --gpus 0, --data_root /path/to/directory/with/images # 训练集图像--init_word initialization_word # 初始化提示词注释 txt2img-1p4B-finetune.yaml 配置文件中的↓ 需要修改placeholder_strings: [*] # 为训练集图像类别initializer_words: [sculpture] # 初始化提示词推理时可以使用文字提示 a photo of * 来生成图像 通常适用于转换图像风格 模型关键字尽量是不常见的词语 Hypernetwork 它是一个附加到Stable Diffusion model的小型神经网络用于修改其风格。 原扩散模型的交叉注意力模块 添加了附加网络的交叉注意力模块 # 训练过程中 原本的stable Diffusion冻结不训练 # 仅训练 Hypernetwork-1Hypernetwork-2 # 大约几十MB # 通常训练艺术风格 # 推荐训练画风 LoRA LoRA 模型类似Hypernetwork,它们都很小并且只修改交叉注意力模块。区别在于他们如何修改它。 LoRA 模型通过改变权重来修改交叉注意力。超网络通过插入额外的网络来实现这一点。 用户普遍发现 LoRA 模型能产生更好的结果。它们的文件大小相似通常低于 200MB并且比检查点模型小得多。 DreamBooth base:embeding改的https://github.com/XavierXiao/Dreambooth-Stable-Diffusion 是一种训练技术通过对某个主题或风格的几张图像进行训练来更新整个扩散模型。它的工作原理是将提示中的特殊单词与示例图像相关联。 作者希望将输入图片中的物体与一个特殊标识符绑定在一起即用这个特殊标记符来表示输入图片中的物体。因此作者为微调模型设计了一种prompt格式 a [identifier] [class noun] 即:将所有输入图片的prompt都设置成这种形式 其中 identifier 是一个与输入图片中物体相关联的特殊标记符class noun 是对物体的类别描述。 这里之所以在prompt中加入类别是因为作者想利用预训练模型中关于该类别物品的先验知识并将先验知识与特殊标记符相关信息进行融合这样就可以在不同场景下生成不同姿势的目标物体 作者提出的方法大致如下图所示即仅仅通过3到5张图片去微调文生图模型使得模型能将输入图片中特定的物品和prompt中的特殊标记符关联起来。
http://www.pierceye.com/news/561467/

相关文章:

  • 廊坊网站建设设计wordpress上传后如何访问
  • 禅城网站制作网站推广优化技巧大全
  • xampp做的网站能搜索吗广州外贸公司集中地
  • 茶网站建设网站的基础建设
  • 大型机械网站建设公司免费的cms视频网站
  • 杭州做网站哪家好在线设计平台都有哪些比较好用的
  • 内外网网站栏目建设方案专门做电容的网站
  • 一般网站字体多大有没有做公司网站的
  • 做国外进口衣服的网站好怎么推广公众号
  • 安县建设局网站网站建设分金手指排名一
  • 社区网站制作教程社交媒体营销
  • 云南省建设工程质量监督管理站网站房产网站推广
  • 做网站挣钱吗营销导向的企业网站建设步骤
  • 优化网站 优帮云网站是意识形态建设
  • 网站内容建设运维服务wordpress envato主题
  • 响应式网站的几种尺寸推广网站的几种方法
  • php 打开网站东莞网站建设网页推广
  • 正品海外购网站有哪些公司网站开发费用兴田德润在哪儿
  • 怎样做编辑发到网站自由建网站的网络程序
  • 网站开发 卡片cms建站系统 下载
  • 新浪门户网站是谁做的科技网站建设
  • 免费网站建设合同书山西网站建设企业
  • 网站建设空间什么意思学做网站什么语言合适
  • 网站开发的形式有( )友情链接英文
  • 帝国网站管理系统前台免费photoshop下载
  • 深圳一百讯网站建设wordpress汉化包
  • 建设一个班级网站的具体步骤自己的网站源代码一片空白
  • 初创公司 建网站wordpress 模板获取数据库
  • 怎么在网站做推广不要钱六安网约车平台
  • 申晨推荐的营销网站做卖挖掘机的网站