二手房交易网站排行,wordpress 主题类型,wordpress 修改ip,html电影网站模板下载今天分享的是人工智能系列深度研究报告#xff1a;《人工智能专题#xff1a; Sora#xff0c;世界模拟器的视频生成器》。
#xff08;报告出品方#xff1a;华泰证券#xff09;
报告共计#xff1a;16页
来源#xff1a;人工智能学派
Sora 能做什么#xff1f;…今天分享的是人工智能系列深度研究报告《人工智能专题 Sora世界模拟器的视频生成器》。
报告出品方华泰证券
报告共计16页
来源人工智能学派
Sora 能做什么60s 文生视频功能惊艳可以理解和模拟真实世界
根据 OpenAI 官方介绍目前 Sora 具备生成包括多个角色、特定类型的运动、准确细节的 主体和复杂场景的能力。同时还能够创建多个镜头模拟复杂的摄像机运镜效果使得 生成的视频更加生动。此外由于 OpenAI 将扩散模型与 LLM 相结合使得 Sora 具备了 理解和模拟真实世界的能力因此 Sora 所生成的视频中已经可以展现出空间以及空间内物 体之间的真实物理关系。目前 Sora 除了文生视频功能外还具备图生视频、视频扩展、视频拼接、视频编辑、图像生成等功能具体功能如下
文生视频基于用户的自然语言描述准确地生成相应视频内容。以 OpenAI 官方发布的范例视频为例输入提示词“一位时尚的女士漫步在东京街头街上充满了温暖的霓虹灯和 生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子手中提着一个黑色手提包。 她戴着太阳镜涂着红色口红。走路时自信而随意。街道潮湿且反光形成了彩色灯光的 镜面效果许多行人来来往往。”输出作品参考下图。 图生视频基于用户提供的参考图片及文本指令衍生出视频内容。
视频扩展Sora 具备了能够将视频沿着时间线向过去或未来扩展的功能。即从一个生成视频的片段出发向时间的倒退或前进方向进行延伸从而生成视频的开头或结尾部分。
视频拼接用户可以使用 Sora 在两个输入视频之间逐渐进行插入补充视频从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
视频编辑Sora 可以将用户输入的基础视频基于用户的文本指令在零样本的情况下改变原视频的风格、环境、拍摄手法等。 图像生成根据给出的文本提示Sora 可通过将高斯噪点的补丁安排在一个空间网格中 时间维度设为单一帧进而生成不同尺寸的图像分辨率最高可达 2048x2048。例如下列图片的提示词为“一个女人在秋天的特写肖像每一个细节都被捕捉得淋漓尽致浅景深 的应用使得主体脱颖而出”“充满生机的珊瑚礁吸引了五颜六色的鱼类和海洋生物”。 Sora 有何优势视频质量优势显著突破视频时长及镜头切换限制
Sora 生成视频质量较 Pika、Runway 具有显著优势。相较于 Pika、Runway 等之前的 AI 文生视频工具Sora 除了拥有视频向前扩展、视频拼接等功能外还可以通过多镜头等方 式生成相较于其他 AI 文生视频工具更加复杂的视频同时在时长、流畅度以及逻辑性方面 表现出了显著的优势并且初步具备了理解和模拟真实物理世界的能力。OpenAI 认为视 频生成模型是构建通用物理世界模拟器的一条有前景的道路它使人工智能理解和模拟运 动中的物理世界迈向了一个新的高度。Sora 的发布也意味着 AGI 有望加速到来是 AGI 实现过程里的重大里程碑事件而不仅仅只是视频生成。Sora 具体优势如下 突破视频时长及镜头切换限制由于受到 AI 算法和学习能力的限制RunWay、Pika 等之 前的头部 AI 文生视频工具无法完成镜头切换后的衔接因此生成的作品往往都局限于 10 秒内的单一镜头视频。而 Sora 不仅可以实现不同镜头之前流畅的切换还能生成 60 秒的 超长视频。
更加自由的视频尺寸基于 OpenAI 公布的 Sora 技术报告Sora 模型可以生成 1920x1080 与 1080x1920 之间所有尺寸的视频。而 Runway Gen2仅支持长宽比为 4:3、3:4、16:9、 9:16、1:1、21:9 的视频。
背景角色稳定过往的 AI 文生视频工具通常会出现背景角色不稳定的情况即在背景中有 许多的人或动物的情况下画面经常出现失真、混乱的情况。而这个问题在 Sora 的视频中 也得到了改善以“东京漫步的女士”视频为例在 Runway 中输入同样的提示词后背 景人物会做出一些怪异的走路姿势而 Sora 视频中背景角色表现非常稳定。
理解和模拟真实世界由于 Sora 初步具备了理解和模拟真实世界的能力因此 Sora 生成 的视频通常具备一些新兴特征主要包括 3D 一致性、物体持久性、模拟物理交互等这些 特征也使得 Sora 生成的视频更加的生动、逼真。 报告共计16页
来源人工智能学派