营销网站 app开发,成都网页开发,上海网约车平台,WordPress购物车纯代码一.能力 我们正致力于让 AI 掌握理解和模拟物理世界动态的能力#xff0c;旨在培养能够协助人们解决现实世界互动问题的模型。 介绍 Sora——我们开发的文本到视频转换模型。Sora 能够根据用户的输入提示#xff0c;生成最长达一分钟的高质量视频内容。 目前#xff0c;Sora…一.能力 我们正致力于让 AI 掌握理解和模拟物理世界动态的能力旨在培养能够协助人们解决现实世界互动问题的模型。 介绍 Sora——我们开发的文本到视频转换模型。Sora 能够根据用户的输入提示生成最长达一分钟的高质量视频内容。 目前Sora 正在被红队人员用于评估可能存在的风险和潜在危害。同时我们也邀请了视觉艺术家、设计师和电影制作人等创意行业的专业人士通过他们的反馈来进一步完善模型使其更好地服务于创意产业。 通过提前公开我们的研究进展我们希望能够与社会各界人士建立合作收集外部反馈同时让公众对 AI 技术的未来方向有一个直观的了解。 Sora 能够创建包含多个角色、特定运动类型和详细精确的主题及背景的复杂场景。它不仅能理解用户的文字提示还能准确捕捉这些元素在现实世界中的表现。 得益于对语言的深入理解Sora 能够精确解读用户的指令生成展现丰富情绪的生动角色并在一个视频中呈现出连贯的视觉风格和角色持续性。 然而Sora 目前还存在一些局限。比如在模拟复杂场景的物理动态时可能会遇到难题或在理解特定因果关系时显得不足。举个例子视频中的人物可能会咬下饼干一角但视频中的饼干可能并未显示出相应的咬痕。 此外Sora 在处理空间细节时也可能出现混淆如左右方向的错误识别或在描述一系列随时间展开的事件时如追踪特定的摄影机动作轨迹时可能不够精确。
二.安全 在将Sora纳入OpenAI产品之前我们将采取几个重要的安全措施。我们正在与红队成员合作——在错误信息、仇恨内容和偏见等领域的领域专家——他们将对模型进行敌对测试。 我们还在开发工具来帮助检测误导性内容比如一个检测分类器能够识别出视频是由Sora生成的。如果我们在OpenAI产品中部署该模型我们计划将来包括C2PA元数据。 除了我们开发新技术为部署做准备外我们还利用了我们为使用DALL·E 3的产品构建的现有安全方法这些方法也适用于Sora。 例如一旦在OpenAI产品中我们的文本分类器将检查并拒绝违反我们使用政策的文本输入提示如那些请求极端暴力、性内容、仇恨图像、名人肖像或他人的知识产权的提示。我们还开发了强大的图像分类器用于审查生成的每个视频帧以帮助确保它遵守我们的使用政策然后才向用户显示。 我们将与全球的政策制定者、教育工作者和艺术家进行接触了解他们的担忧并为这项新技术识别积极的使用案例。尽管进行了广泛的研究和测试但我们无法预测人们将以所有有益的方式使用我们的技术也无法预测人们会以所有的方式滥用它。这就是为什么我们相信从现实世界的使用中学习是随着时间的推移创建和发布越来越安全的AI系统的一个关键组成部分。
三.研究 Sora是一个扩散模型通过从看起来像静态噪声的视频开始逐步通过多个步骤去除噪声来生成视频。 Sora能够一次性生成整个视频或者扩展生成的视频使其更长。通过让模型一次预见多个帧我们解决了确保即使主题暂时离开视线也保持不变的挑战性问题。 类似于GPT模型Sora使用了transformer架构解锁了卓越的扩展性能能。 我们将视频和图像表示为称为补丁的较小数据单位的集合每个补丁类似于GPT中的一个令牌。通过统一我们表示数据的方式我们可以在以前不可能的更广泛的视觉数据上训练扩散transformer涵盖不同的持续时间、分辨率和长宽比。 Sora基于DALL·E和GPT模型的过去研究。它使用了DALL·E 3的重新标注技术该技术涉及为视觉训练数据生成高度描述性的标题。因此模型能够更忠实地遵循用户在生成的视频中的文本指令。 除了能够仅根据文本指令生成视频外该模型还能够获取现有的静态图像并从中生成视频准确地并且注重细节地动画化图像内容。模型还可以取一个现有的视频并扩展它或填充缺失的帧。在我们的技术报告中了解更多信息。 Sora为能够理解和模拟现实世界的模型奠定了基础我们认为这将是实现AGI的一个重要里程碑。 参考文献
[1] https://openai.com/sora