太原模板建站定制,网站建设的人员预期,方法数码做的网站怎么样,linux wordpress lnmp最近「图片生成视频系列」层出不穷#xff0c;我拜读并结合实践#xff08;对#xff0c;就是手撕代码#xff0c;有开源就撕#xff09;#xff0c;并对以下几篇文章的相似点以及关键点稍微做个总结#xff1a;
一. 生成视频中图像的一致性
在图像生成视频的这个过程…最近「图片生成视频系列」层出不穷我拜读并结合实践对就是手撕代码有开源就撕并对以下几篇文章的相似点以及关键点稍微做个总结
一. 生成视频中图像的一致性
在图像生成视频的这个过程中维持生成视频中图像的一致性是个很大的挑战毕竟我们都不是很能接受随着视频播放画风逐渐不对劲。。。
因此“八仙过海各显神通”。
1.1 LivePhoto通过引入Reference latent, 并与输入Unet的噪声在通道维度cat操作同时利用Content Encoder 把输入图片信息注入到Unet网络的每一层down block, mid block, up block中利用‘双保险’来维持生成视频中图像的一致性。 LivePhoto: Real Image Animation with Text-guided Motion Control
1.2 DreaMoving利用Content Guider把人脸信息注入到Unet网络的每一层down block, mid block, up block中。其实这里Content Guider的作用与之前腾讯的工作IPAdapter 有点类似利用IPAdapter的保持“概念”一致的能力来稳住生成视频中图像的一致性。 DreaMoving: A Human Dance Video Generation Framework based on Diffusion Models
1.3 MagicAnimate提出一个Appearance Encoder来专门保留人物的ID 信息并把相关信息注入到Unet网络的mid block 和up block层以此保证生成视频中人物ID一致性。 MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model
1.4 Animate Anyone 的做法和MagicAnimate类似, 也是专门训练了一个ReferenceNet, 用来维持Reference Image的人物形象的。
和MagicAnimate不同的是这里ReferenceNet的Spatial-Attention层和Cross-Attention是逐层注入到对应的Unet网络所有层包括down block, mid block, up block层。 Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character
二. 生成视频中的运动控制注入
2.1 LivePhoto 把视频中的运动划分为10级在训练的时候把运动对应的map与输入噪声latent作cat操作一起送入Unet网络去噪。待训练完成在推理阶段就可以通过输入运动的强度来控制生成视频中人物的运动幅度大小。
2.2 DreaMoving 则是专门训练了一个Video ControlNet, 注入控制信息到Unet网络的mid block 和up block 中。这里的控制信息可以在姿态图比如openpose或者DW pose也可以是深度图。
2.3 MagicAnimate 和DreaMoving 类似也是利用自己训练的Video ControlNet来控制人物的运动不同的是MagicAnimate 只能利用Densepose sequence来作为控制条件。不知为啥MagicAnimate 这么独特控制方式与众不同。
2.4 Animate Anyone 和DreaMoving 以及MagicAnimate 又有所不同虽然也是利用姿态来作为控制条件但并不是类似文本注入的方式直接注入到Unet网络结构中而是与噪声一起作为输入进入到Unet网络中。 欢迎加入AI杰克王的免费知识星球海量干货等着你一起探讨学习AIGC! 移步公众号 「AI杰克王」更多干货
喜欢的话就点个【赞】呗您的鼓励和认可是我继续创作的动力。
喜欢就点个赞呗您的鼓励和认可是我继续创作的动力。