当前位置: 首页 > news >正文

北辰正方建设集团有限公司网站云南网站开发

北辰正方建设集团有限公司网站,云南网站开发,相亲网站用什么做的,湖北聚四方建设有限公司网站文章目录 Wav2lip前言Lip-sync Expert DiscriminatorGeneratorvisual quality discriminator生成器总损失函数 论文 Wav2lip 前言 Wav2Lip 是第一个通用说话者的模型#xff0c;可生成与真实同步视频相匹配的口型同步精度的视频#xff0c;它的核心架构概括为“通过向训练有… 文章目录 Wav2lip前言Lip-sync Expert DiscriminatorGeneratorvisual quality discriminator生成器总损失函数 论文 Wav2lip 前言 Wav2Lip 是第一个通用说话者的模型可生成与真实同步视频相匹配的口型同步精度的视频它的核心架构概括为“通过向训练有素的口型同步专家学习生成准确的口型同步”。基于此理念Wav2lip包括一个生成器和两个判别器。 一个可以准确判别真实视频中声音和嘴型同步的专家唇同步鉴别器expert lip-sync discriminator一个负责生成包含目标口型人脸图像的生成器(generator)一个视觉质量判别器(visual quality discriminator)用于提升图片质量。wav2lip中的两个判别器一个为了准确的lip-sync一个为了更好的视觉质量。 Lip-sync Expert Discriminator 专家口型同步判别器由SyncNet改进而来。 SyncNet包括一个人脸编码器和音频编码器这两个编码器均是由一系列2D卷积层组成。人脸编码器的输入是一个由连续 T u T_{u} Tu​个下半部分人脸帧组成的窗口 V V V;音频编码器的输入是一个大小为 T a × D T_{a} \times D Ta​×D的语音片段 S S S。其中 T u T_{u} Tu​和 T a T_{a} Ta​分别是视频和音频时间步长。通过随机采样 T a × D T_{a} \times D Ta​×D大小的音频窗口【此窗口要么与视频对齐in-sync要么来自不同的时间步out-of-sync】进行训练从而来区分音频和视频之间的同步。损失函数选择的是L2距离最小化两个编码器输出的嵌入特征之间的L2距离。 SyncNet的网络架构代码如下所示 class SyncNet_color(nn.Module):def __init__(self):super(SyncNet_color, self).__init__()self.face_encoder nn.Sequential(*)self.audio_encoder nn.Sequential(*)def forward(self, audio_sequences, face_sequences):# print(faudio_sequences: {audio_sequences.size()}) # audio_sequences : (B, dim, T)face_embedding self.face_encoder(face_sequences)audio_embedding self.audio_encoder(audio_sequences)audio_embedding audio_embedding.view(audio_embedding.size(0), -1)face_embedding face_embedding.view(face_embedding.size(0), -1)audio_embedding F.normalize(audio_embedding, p2, dim1)face_embedding F.normalize(face_embedding, p2, dim1)return audio_embedding, face_embeddingwav2lip为了能够训练得到更精确的口型同步判别器对SyncNet进行了三个方面的改进。 人脸编码器以RGB图像替换灰度图作为输入增加模型的深度损失函数更改为余弦相似度二元交叉熵损失 # wav2lip损失函数 logloss nn.BCELoss() def cosine_loss(a, v, y):d nn.functional.cosine_similarity(a, v)loss logloss(d.unsqueeze(1), y)return loss训练细节如下所示 数据集约29个小时的LRS2训练集 batch size 64 T u T_{u} Tu​ 5 优化器Adam 初始学习率0.001 准确率91% 有了更精确的口型同步判别器后可以在训练过程中利用它来对生成器进行优化提高生成器生成口型的准确性。 Generator 生成器 G G G负责生成目标口型的人脸图像由三部分组成身份编码器Identity Encoder、语音编码器Speech Encoder和人脸解码器Face Decoder这三部分均是由堆叠的2D卷积层组成。概括来说生成器是一个2D卷积的编码器-解码器结构。 身份编码器的把随机参考帧 R R R与先验姿势 P P P(下半部分被mask的目标脸)按通道维度拼接作为输入编码身份特征。先验姿势帧的下半部分被mask但是提供了目标人脸的姿态信息参考帧则包含目标人脸的完整外观用于唇部形状和运动的合成。语音编码器用于编码输入的语音片段人脸解码器以编码后的音频特征与身份特征的拼接为输入通过反卷积进行上采样重建人脸图像。 生成器通过最小化生成帧 L g L_{g} Lg​与真实帧 L G L_{G} LG​之间的L1重构损失来进行训练。 wav2lip生成器独立地生成每一帧然后将连续生成的帧序列输入到专家口型同步判别器。因为专家口型同步判别器一次处理 T u 5 T_{u}5 Tu​5个连续帧因此训练过程中需要生成器也生成 T u 5 T_{u}5 Tu​5个连续帧。原先生成器独立处理每一帧输入形状为 ( N , H , W , 3 ) \left(N, H,W, 3\right) (N,H,W,3) 现在沿批量维度堆叠时间步长输入形状为 ( N ⋅ T u , H , W , 3 ) \left(N \cdot T_{u}, H,W, 3\right) (N⋅Tu​,H,W,3)。但是在将生成的帧馈送给专家口型同步判别器时时间步长沿着通道维度连接就像在专家判别器训练期间所做的那样输入形状为 ( N , H / 2 , W , 3 ⋅ T u ) \left(N, H / 2,W, 3 \cdot T_{u} \right) (N,H/2,W,3⋅Tu​)。因为只有下半部分的生成人脸被用于专家判别器所以高度为 H / 2 H/2 H/2。 生成器通过最小化来自专家判别器的同步损失来提高生成的帧的口型同步质量同步损失函数为上述的余弦相似度二元交叉熵损失。 专家判别器在生成器训练期间不参与训练。基于从真实视频中学到的唇形同步概念的强烈辨别力迫使生成器也实现逼真的唇形同步以最大限度地减少唇形同步损失。 通过这种生成器和专家判别器的联合设计能够生成具有良好口型与语音同步性的人脸对象。然而由于LRS2数据集的图像清晰度较低导致生成的图像脸部较为模糊特别是牙齿部分的还原度有待提高。为了改善这一情况可以考虑采用具有更高清晰度的数据集或者增大输入图像的大小wav2lip288x288或者利用超分模型来提升脸部图像的清晰度。此外当参考人脸图片为侧脸时可能会引发脸部的不协调问题。 visual quality discriminator 使用强大的唇形同步鉴别器会使得生成器生成准确的唇形。然而它有时会导致变形区域稍微模糊或包含轻微的伪影。为了减轻这种轻微的质量损失在 GAN 设置中与生成器一起训练一个简单的视觉质量鉴别器。视觉质量鉴别器不对口型同步执行任何检查并且仅惩罚不切实际的面部生成因此它是在生成的面部上进行训练的。 此判别器也是由堆叠的卷积块组成它通过最大化目标函数 L d i s c L_{disc} Ldisc​进行训练。其中 L G L_{G} LG​为真实图像 L g L_{g} Lg​则为生成器生成的图像。 生成器总损失函数 生成器的最终优化目标由重建损失、同步损失和对抗损失三部分组成用公式表示如下 s w s_{w} sw​ 是同步惩罚权重 s g s_{g} sg​ 是对抗损失在所有的实验中,根据经验分别设置为 0.03 和 0.07。 训练细节 数据集LRS2训练集 batch size 80 优化器Adam 初始学习率0.0001 β 1 0.5 , β 2 0.999 \beta_{1} 0.5, \beta_{2}0.999 β1​0.5,β2​0.999 论文 A Lip Sync Expert Is All You Need for Speech to Lip Generation In The WildWav2Lip
http://www.pierceye.com/news/688109/

相关文章:

  • 网站推荐你了解我意思吧深圳响应式设计企业网站
  • 网站后期增加产品东平网页设计
  • 免费网站模板的制作方法石台做网站
  • 温州建设网站公司哪家好游戏外包公司要不要去
  • 动力无限西安网站建设wordpress图片到本地
  • 重庆微信营销网站建设seo快照推广
  • dedecms小说网站模板如何以目录形式访问网站
  • 有哪些可以做网站的平台怎样把录的视频做一下传到网站
  • 网站域名如何续费福建建筑人才服务中心
  • 站长平台怎么添加网站网站中文名注册
  • 唐四薪php网站开发答案想制作一个网站要多少钱
  • ppt网站建设答案东台网页定制
  • 做网站 侵权如何制作手机版网站
  • 代发网站建设app网站软件
  • 家居企业网站建设如何国家企业信息公示系统全国
  • 网站平台如何推广wordpress登录页面显示ip
  • 如何做网站百度排名优化推广的目的是什么
  • 重庆忠县网站建设公司哪家专业芷江建设局的工作人员网站
  • 戴尔电脑网站建设方案范文室内设计方案图
  • 餐厅网站建设策划方案网站建设存在的具体问题
  • 竞价页面网站做优化广告商对接平台
  • 网站后台如何修改密码wordpress调整页面布局
  • 东莞热点网站建设莱州人才网
  • 线上渠道推广网站的优化哪个好
  • 群晖可以做网站服务器微信朋友圈怎么发链接那种网页怎么制作
  • wordpress 公司网站网站和公众号的区别
  • 数据库跟网站seo流程
  • 网站首页关键词设置网站的整体风格
  • wordpress源码站整站源码制作wordpress插件
  • 海口网站建设就q479185700上墙网站空间后台怎么进入