什么是网站源码,百度网站推广电话,做网站是什么行业,自贡市城市建设投资开发集团有限公司网站本项工作介绍了MagicVideo-V2#xff0c;将文本到图像模型、视频运动生成器、参考图像embedding模块和帧内插模块集成到端到端的视频生成流程中。由于这些架构设计的好处#xff0c;MagicVideo-V2能够生成具有极高保真度和流畅度的美观高分辨率视频。通过大规模用户评估…
本项工作介绍了MagicVideo-V2将文本到图像模型、视频运动生成器、参考图像embedding模块和帧内插模块集成到端到端的视频生成流程中。由于这些架构设计的好处MagicVideo-V2能够生成具有极高保真度和流畅度的美观高分辨率视频。通过大规模用户评估它在性能上表现优越超过了领先的文本到视频系统如Runway、Pika-1.0、Morph、Moon Valley和Stable Video Diffusion模型。
github链接https://magicvideov2.github.io/
引言
文本到视频T2V模型的大量涌现标志着领域的重大进步这得益于最近传播的基于扩散的模型。这项工作提出了MagicVideo-V2这是一个新颖的多阶段T2V框架将文本到图像T2I、图像到视频I2V、视频到视频V2V和视频帧插值VFI模块集成到端到端视频生成流程中。 T2I 模块通过从文本提示生成一个初始图像捕捉输入的美学要素为视频生成奠定基础。然后 I2V 模块以图像为输入输出生成视频的低分辨率关键帧。随后的 V2V 模块增加了关键帧的分辨率并增强了其细节。最后帧插值模块在视频中添加平滑的运动。
MagicVideo-V2
MagicVideo-V2 是一个多阶段端到端视频生成流程能够从文本描述生成高美学水平的视频。它包括以下关键模块 「Text-to-Image 模型」从给定的文本提示生成具有高保真度的美学图像。 「Image-to-Video 模型」使用文本提示和生成的图像作为条件生成关键帧。 「Video to Video 模型」对关键帧进行细化和超分辨率处理生成高分辨率视频。 「Video Frame Interpolation 模型」在关键帧之间插入帧以平滑视频运动最终生成高分辨率、流畅、高度美学的视频。
下面的小节将详细解释每个模块。 Text-to-Image 模块
T2I 模块以用户提供的文本提示为输入并生成一张 1024 × 1024 的图像作为视频生成的参考图像。参考图像有助于描述视频内容和美学风格。MagicVideo-V2 兼容不同的 T2I 模型。具体而言在 MagicVideo-V2 中使用了一个内部开发的基于扩散的 T2I 模型该模型能够输出高美学的图像。
Image-to-Video 模块
I2V 模块基于高美学的 SD1.5模型该模型利用人类反馈来提高在视觉质量和内容一致性方面的能力。I2V 模块通过受[10]启发的运动模块对高美学的 SD1.5 进行了扩展两者都在内部数据集上进行了训练。 I2V 模块还增加了一个参考图像embedding模块用于利用参考图像。具体而言采用外观编码器来提取参考图像embedding 并通过交叉注意力机制将其注入到 I2V 模块中。通过这种方式图像提示可以有效地与文本提示解耦并提供更强的图像调节。此外采用了潜在噪声先验策略以在起始噪声潜变量中提供布局条件。帧是从标准高斯噪声初始化的其均值从零移向参考图像潜变量的值。通过适当的噪声先验技巧可以部分保留图像布局并改善帧之间的时间一致性。为了进一步增强布局和空间调节部署了一个 ControlNet 模块直接从参考图像中提取 RGB 信息并将其应用于所有帧。这些技术使帧与参考图像很好地对齐同时允许模型生成清晰的运动。
采用图像-视频联合训练策略来训练 I2V 模块其中将图像视为单帧视频。联合训练的动机在于利用内部高质量和美学的图像数据集以提高生成视频的帧质量。图像数据集部分还可以弥补视频数据集在多样性和数量上的不足。
Video to Video模块
V2V 模块的设计与 I2V 模块类似。它与 I2V 模块共享相同的主干和空间层。它的运动模块是使用高分辨率视频子集进行单独微调以进行视频超分辨率的。图像外观编码器和 ControlNet 模块也在这里使用。这是至关重要的因为生成的视频帧具有更高的分辨率。利用参考图像的信息有助于通过减少结构错误和故障率来引导视频扩散步骤。此外它还可以增强更高分辨率生成的细节。
视频帧插值VFI
VFI 模块使用一个内部训练的基于 GAN 的 VFI 模型。它采用了增强型可变分离卷积EDSC头 与基于 VQ-GAN 的架构配对类似于 [8] 所进行的研究中使用的自动编码器模型。为了进一步提高其稳定性和流畅性使用了[13]中提出的预训练轻量级插值模型。
实验
人工评估
为了评估 MagicVideo-V2邀请人工评估员进行与当代最先进的 T2V 系统的比较分析。61 名评估员小组对 MagicVideo-V2 和另一种 T2V 方法之间的 500 次并行比较进行了评分。每个选民在每一轮比较中基于相同的文本提示被呈现一对随机视频其中包括我们的一个与竞争对手的一个。他们被提供了三个评估选项 - 好、相同或差 - 分别表示对 MagicVideo-V2 的偏好、无偏好或对竞争 T2V 方法的偏好。评估员被要求根据他们在三个标准上的总体偏好投票
1哪个视频具有更高的帧质量和整体视觉吸引力。
2哪个视频在时间上更一致具有更好的运动范围和运动有效性。
3哪个视频具有更少的结构错误或不良情况。
这些试验的统计数据可以在下表 1 中找到其偏好比例显示在下图 2 中。结果清楚地表明 MagicVideo-V2 更受青睐从人类视觉感知的角度证明了其卓越的性能。 定性示例
在下图3中呈现了 MagicVideo-V2 的精选定性示例。为了更好的观看体验邀请读者在我们的项目网站上观看附带的视频。如前所述MagicVideo-V2 的 I2V 和 V2V 模块擅长矫正和改进 T2I 模块的缺陷生成流畅而富有审美的视频。 下图4中展示了一些例子。 结论
MagicVideo-V2 提出了一种新的文本到视频生成流程。综合评估得到了人类裁判的支持证实了 MagicVideo-V2 超越了现有技术方法。MagicVideo-V2 的模块化设计整合了文本到图像、图像到视频、视频到视频和视频帧插值为生成流畅且高审美的视频提供了一种新的策略。
参考文献
[1] MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation 多精彩内容请关注公众号AI生成未来