订单拆单在电商网站建设,海口快速建站公司推荐,西安互联网公司,wordpress页面布局这份技术报告主要关注两个方面#xff1a;#xff08;1#xff09;我们的方法将各种类型的视觉数据转化为统一的表示形式#xff0c;从而实现了大规模生成模型的训练#xff1b;#xff08;2#xff09;对Sora的能力和局限性进行了定性评估。报告中不包含模型和实现细节…这份技术报告主要关注两个方面1我们的方法将各种类型的视觉数据转化为统一的表示形式从而实现了大规模生成模型的训练2对Sora的能力和局限性进行了定性评估。报告中不包含模型和实现细节。
在以往的研究中人们使用了多种方法对视频数据进行生成建模包括循环网络、生成对抗网络、自回归变换器和扩散模型等。然而这些方法通常只针对特定类型、较短长度或固定分辨率的视觉数据进行研究。Sora是一种通用的视觉数据模型它能够生成跨越不同持续时间、宽高比和分辨率的视频和图像甚至可以生成一分钟的高清视频。
将视觉数据转化为补丁
我们受到大型语言模型的启发这些模型通过在互联网规模的数据上进行训练获得了通用能力。语言模型的成功部分得益于优雅地统一了文本的多种形式如代码、数学和各种自然语言。在这项工作中我们考虑了如何使视觉数据的生成模型也能继承这些优势。与语言模型使用文本标记不同Sora使用视觉“补丁”。之前的研究已经证明补丁是一种对视觉数据模型而言有效的表示形式。我们发现补丁是一种高度可扩展且有效的表示形式适用于对多种类型的视频和图像进行生成模型的训练。 从较高层次上来说我们将视频转化为补丁的过程是先将视频压缩为低维潜变量空间然后将表示分解为时空补丁。
视频压缩网络
我们训练了一个网络来降低视觉数据的维度。这个网络以原始视频作为输入并输出一个时空压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练并生成视频。我们还训练了一个相应的解码器模型将生成的潜在表示映射回像素空间。
时空潜在补丁
对于压缩的输入视频我们提取了一系列时空补丁这些补丁充当了Transformer的标记。由于图像只是单帧的视频所以这个方案也适用于图像。我们基于补丁的表示使得Sora能够在具有不同分辨率、持续时间和纵横比的视频和图像上进行训练。在推理阶段我们可以通过将随机初始化的补丁按照适当大小的网格排列来控制生成视频的尺寸。
为视频生成扩展Transformer
Sora是一个扩散模型通过输入噪声补丁以及类似文本提示的条件信息它被训练来预测原始的“清晰”补丁。重要的是Sora是一个扩散的Transformer。Transformer在各个领域都展示了卓越的可扩展性包括语言建模、计算机视觉和图像生成。 在这项工作中我们发现扩散Transformer在作为视频模型时也能有效地进行扩展。下面我们展示了在训练进行时使用固定种子和输入的视频样本的比较。随着训练计算的增加样本的质量显著提高。
可变的持续时间、分辨率和纵横比
过去处理图像和视频生成的方法通常会将视频调整大小、裁剪或修剪为标准尺寸例如256x256分辨率的4秒视频。然而我们发现对原始尺寸的数据进行训练会带来几个优势。
采样灵活性
Sora能够采样宽屏的1920x1080p视频、垂直的1080x1920视频以及介于两者之间的各种尺寸。这使得Sora可以直接按照原生纵横比为不同设备创建内容。它还使我们能够在生成全分辨率内容之前通过较低的尺寸快速原型开发内容而所有这些都是使用同一个模型实现的。
构图和组图的改进
我们基于实证发现以原生纵横比训练视频可以改善构图和组图效果。我们将Sora与将所有训练视频裁剪为正方形的模型进行了比较这是训练生成模型时常见的做法。以正方形裁剪训练的模型左图有时会生成只有主体部分可见的视频。相比之下Sora生成的视频右图具有改善的构图。
语言理解
训练文本到视频生成系统需要大量带有相应文本标题的视频。我们应用了DALL·E 3中引入的重新标题技术来处理视频。我们首先训练一个高度描述性的标题模型然后使用该模型为我们训练集中的所有视频生成文本标题。我们发现训练基于高度描述性视频标题的模型不仅可以提高文本的准确性还可以提高视频的整体质量。
与DALL·E 3类似我们还利用GPT将短用户提示转化为更详细的标题并将其发送到视频模型中。这使得Sora能够生成高质量的视频准确地遵循用户的提示。
使用图像和视频进行提示
以上所有结果以及我们 首页中的示例都展示了文本到视频的样本。但是Sora也可以通过其他输入进行提示例如预先存在的图像或视频。这种能力使得Sora能够执行各种图像和视频编辑任务例如创建完美循环的视频将静态图像动画化将视频向前或向后扩展等。
DALL·E图像的动画化
Sora能够根据输入的图像和提示生成视频。下面我们展示基于DALL·E 2[^31]和DALL·E 3[^30]图像生成的示例视频。 一只戴着贝雷帽和黑色高领衫的柴犬。 平面设计风格的怪物插画描绘了一个多样化的怪物家族。这个家族包括一只毛茸茸的棕色怪物一只带有天线的光滑黑色怪物一只斑点绿色怪物还有一只带有小圆点的微小怪物它们都在一个充满趣味的环境中互动。 一张以逼真的云朵形状拼写“SORA”字样的图片。 在一个装饰华丽的历史大厅里一个巨大的海浪达到高峰并开始崩溃。两名冲浪者抓住这个机会巧妙地驾驭着这个波浪的面前行驶。
扩展生成的视频
Sora还能够扩展视频无论是向前还是向后。下面是四个视频它们都是从一个生成的视频片段开始向后扩展的。结果是这四个视频的开头都不同但最终都会达到相同的结尾。
我们可以使用这种方法来前后扩展视频以产生一个无缝的无限循环。
视频到视频编辑
扩散模型为根据文本提示编辑图像和视频提供了大量的方法。下面我们将其中一种方法SDEdit[^32]应用到Sora上。这个技术使得Sora能够零样本地转换输入视频的风格和环境。
视频连接
我们还可以使用Sora逐渐插值两个输入视频之间创建完全不同主题和场景构图的视频之间的无缝过渡。在下面的示例中中间的视频是左边和右边对应视频之间的插值结果。
图像生成能力
Sora还可以生成图像。我们通过在时空范围为一个帧的空间网格中排列高斯噪声的块来实现这一点。该模型可以生成不同大小的图像分辨率高达2048x2048。
一张女性秋天的特写肖像照极致细节浅景深。
充满活力的珊瑚礁繁盛着五彩斑斓的鱼类和海洋生物
以哑光绘画风格呈现的数字艺术作品描绘了一只年轻的老虎在一棵苹果树下。作品细节精美绚丽多彩。
一座被雪覆盖的山间村庄拥有舒适的小木屋和北极光的展示。使用高精度和逼真的数码单反相机以50mm f/1.2镜头拍摄。
新兴的模拟能力
我们发现在大规模训练的视频模型中出现了一些有趣的新兴能力。这些能力使得Sora能够模拟物理世界中的人、动物和环境的一些方面。这些特性在没有明确的对3D、物体等的归纳偏见的情况下出现它们纯粹是规模现象。
三维一致性。 Sora能够生成具有动态摄像机运动的视频。随着摄像机的移动和旋转人物和场景元素在三维空间中保持一致的运动。
长期连贯性和物体永久性。 视频生成系统面临的一个重要挑战是在采样长视频时保持时间上的一致性。我们发现Sora通常能够有效地模拟短期和长期依赖关系尽管并不总是如此。例如我们的模型可以在物体被遮挡或离开画面时保持人物、动物和物体的存在。同样它可以在单个样本中生成同一角色的多个镜头并在整个视频中保持它们的外观。
与世界互动。 Sora有时可以模拟对世界状态产生简单影响的行为。例如一位画家可以在画布上留下持续存在的新笔触或者一个人可以吃掉一个汉堡并留下咬痕。
模拟数字世界。 Sora还能够模拟人工过程比如视频游戏。Sora可以同时以基本策略控制Minecraft中的玩家同时以高保真度渲染世界及其动态。通过在提示中提到“Minecraft”可以从Sora中引发这些能力。
这些能力表明继续对视频模型进行扩展是开发高度能力的物理世界和数字世界以及其中的物体、动物和人的模拟器的有希望的路径。
讨论
目前作为模拟器Sora存在许多限制。例如它不能准确地模拟许多基本交互的物理学比如玻璃破碎。其他交互比如吃东西并不总是能正确地改变物体状态。我们在 我们的主页中详细列举了模型的其他常见故障模式比如在长时间采样中出现的不连贯性或物体的突然出现。
我们相信Sora目前的能力表明继续对视频模型进行扩展是开发能力强大的物理世界和数字世界以及其中的物体、动物和人的模拟器的有希望的路径。
通过虚拟卡 WildCard 的方式来升级 GPT 4.0 最快了大概2分钟就可以升级完成, 而且升级 GPT 4.0 价钱也不贵虚拟卡一年10美元GPT4 每个月也才 20美元。如果你觉得 GPT 4.0 对你可能有帮助那就赶快来升级吧 GPT-4.0 升级教程