广州网站建设 骏域网站建设,网站开发 cms,网上有卖网站链接的吗,软件技术可以从事什么工作蠢蠢欲动#xff0c;惴惴不安#xff0c;朋友们我又来了#xff0c;这个春节真的过的是像过山车#xff0c;Gemini1.5 PRO还没过劲#xff0c;OpenAI又放大招#xff0c;人类真的要认输了吗#xff0c;让我忍不住想要再探究竟#xff0c;到底是什么让文生视频发生了质的…蠢蠢欲动惴惴不安朋友们我又来了这个春节真的过的是像过山车Gemini1.5 PRO还没过劲OpenAI又放大招人类真的要认输了吗让我忍不住想要再探究竟到底是什么让文生视频发生了质的跃迁再次不仅止不住唏嘘那些老板们辛辛苦苦创起来的业恐怕又被降维打击了一波
这里主要介绍一下OpenAI的又一大作Sora之所以不做产品体验是目前人家还没全量开放我们就先研究研究人家的开放内容 报告链接https://openai.com/research/video-generation-models-as-world-simulators 零、科技前沿资讯
刚刚也就是2月16日奥特曼发布OpenAI首个视频生成模型Sora完美继承DALL·E 3的画质和遵循指令能力能生成长达1分钟的高清视频。一石激起千层浪我们先看看Sora能做到什么程度再看看技术界大佬的回复
对此特斯拉CEO马斯克发推表示gg人类要愿赌服输。 360集团董事长周鸿祎认为AGI可能已经不远了从此前预测的10年缩短到2~3年内。 影眸科技的CTO张启煊则评价Sora是我目前看到唯一能跳脱出空镜头生成真正有意义片段的视频生成工具。在他看来Sora跟Pika、Runway产生了代差视频生成领域终于被OpenAI支配。 网友们更是被震惊到失语——
「一切都结束了我的饭碗要丢了。」 「整个电影工业都会随着这次发布的成果而消亡。」 「AI电影制作人和他们正在制作的项目Be Like」……
一、产品简介
文生视频模型Sora。据介绍Sora可以直接输出长达60秒的视频并且包含高度细致的背景、复杂的多角度镜头以及富有情感的多个角色。
二、效果演示
48个视频Demo动漫电影、逼真自然、魔幻大片OpenAI一共放出了48个视频来展示Sora模型的强大之处。这里我剪辑了一个视频完整呈现这些生成视频的视觉效果。 OpenAI发布革命性视频生成工具Sora48段视频搭配提示词展示效果令人震撼 三、技术剖析
总的来说Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型同时采用了Transformer架构也就是一种“扩散型Transformer”。
技术报告解读
关于技术细节官方报告简单提了以下6点深入的细节尚未公开
1. 视觉数据的“创新转化”。
与大语言模型中的token不同Sora采用的是“Patches补片”来统一不同的视觉数据表现形式。如下图所示在具体操作中模型先将视频压缩到低维潜空间中然后将它们表示分解为时空补片从而将视频转换为补片。
2. 训练了一个视频压缩网络。
它可以降低视觉数据维度输入视频输出时空上压缩的潜表示。Sora就在这上面完成训练。相应地OpenAI也训练了一个专门的解码器。
3. 时空补片技术Spacetime latent patches。
给定一个压缩的输入视频模型提取一系列时空补片充当Transformer的token。正是这个基于补片的表示让Sora能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时模型则通过在适当大小的网格中排列随机初始化的补片来控制生成视频的大小。
在“ChatGPT是第一个真正意义的人工通用智能”中笔者总结过大语言模型借助Embedding将人类的语言 “编码”成自己的语言然后通过注意力Attention从中提取各种丰富的知识和结构加权积累与关联生成自己的语言然后“编码”回人类的语言。
与ChatGPT首先引入Token Embedding 思路一致针对视觉数据的建模方法则作为构建Sora最重要的第一步。碎片Patch已经被证明是一个有效的视觉数据表征模型且高度可扩展表征不同类型的视频和图像。将视频压缩到一个低维的潜变量空间然后将其拆解为时空碎片Spacetime Latent Patches。笔者觉得时空碎片是时空建模的关键统一了时空分割的语言。
有了时空碎片这一统一的语言Sora 自然解锁了多种技能
自然语言理解采用DALLE3 生成视频文本描述用GPT丰富文本prompts 作为合成数据训练Sora, 架起了GPT 与 Sora语言空间的更精确关联等于在Token与Patch 之间统一了“文字”图像视频作为prompts用户提供的图像或视频可以自然的编码为时空碎片Patch用于各种图像和视频编辑任务 – 静态图动画、扩展生成视频、视频连接或编辑等。
4. 扩展Transformer也适用于视频生成的发现
OpenAI在这项研究中发现扩散型Transformer同样能在视频模型领域中完成高效扩展。
5. 视频多样化上的一些揭秘
和其他模型相比Sora能够hold住各种尺寸的视频包括不同分辨率、时长、宽高比等等。也在构图和布局上优化了更多很多业内同类型模型都会盲目裁剪输出视频为正方形造成主题元素只能部分展示但Sora可以捕捉完整的场景报告指出这都要归功于OpenAI直接在视频数据的原始尺寸上进行了训练。
6. 语言理解方面上的功夫
OpenAI采用了DALL·E 3中引入的一种重新标注技术将其应用于视频。除了使用描述性强的视频说明进行训练OpenAI也用GPT来将用户简短的提示转换为更长的详细说明然后发送给Sora。这一系列使得Sora的文字理解能力也相当给力。
关于技术的介绍报告没提太多剩下的大篇幅都是围绕Sora的一系列效果展示包括文转视频、视频转视频以及图片生成。
四、总结
4.1 不足难以模拟复杂场景混淆提示词的空间细节
OpenAI坦言当前Sora目前存在许多局限性可能难以准确地模拟复杂场景的物理属性比如玻璃破碎也可能无法理解因果关系的具体实例。例如一个人咬了一口饼干但之后饼干上可能没有咬痕。
该模型还可能混淆提示的空间细节例如混淆左和右并且可能难以精确描述随时间发生的事件例如跟随特定的摄像机轨迹。
OpenAI强调说在将Sora应用于OpenAI的产品之前他们将采取一些重要的安全措施包括与红队专家合作进行对抗性测试、构建检测分类器等工具来帮助检测误导性内容、计划在未来包含C2PA元数据等。
除了开发新技术为部署做准备外OpenAI还利用了其为使用DALL·E 3的产品构建的现有安全方法这些方法也适用于Sora。
4.2 未来OpenAI终于下场视频生成模型迎来重磅玩家
随着OpenAI首款文生视频大模型Sora推出去年已经如火如荼展开的文生视频大模型大战今年俨然要通过卷向更强性能开启落地之年。
其研究团队相信Sora今天所拥有的能力表明视频模型的持续扩展是一条很有前途的道路可以开发出物理和数字世界的模拟器以及生活在其中的物体、动物和人。
OpenAI承诺将与世界各地的政策制定者、教育工作者和艺术家接触了解他们的担忧并确定这项新技术的积极用例。
尽管进行了广泛的研究和测试但OpenAI团队无法预测人们使用其技术的所有有益方式也无法预测人们滥用它的所有方式。该团队相信随着时间的推移从现实世界的使用中学习是创建和发布越来越安全的AI系统的关键组成部分。
如果Sora能够真正意义上实现文生视频可能会带来哪些影响呢
没有演员的影视作品出现对演员来说是个小挑战将出现真正的“虚拟偶像”此前的二次元人物并没有真正达到“偶像”的级别。利好编剧行业剧本、文本创作力成为核心竞争力。Sora可能才是真正的文生视频此前的文生视频大多只有2秒仅仅是对象的小幅度移动。OpenAI继续拉大领先程度对众多还在进行大模型测试打分pk的厂商构成压力。直接的影响是影视行业特别是特效行业。使用AI来制作一些特效和高风险的镜头可以大幅降低拍摄成本也可以避免很多危险。摄影师行业也会受到影响用文本来生成一些视频可以省去很多拍摄工作。短视频流行开以后视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替可能会有很多视频剪辑师失业。对于很多短视频创作者来说用AI来替代繁琐的剪辑工作可以大幅提高工作效率。很多歌手拍摄MV都是大成本制作如果可以用AI来生成所需要的MV画面也可以省去很大一部分制作成本。另外如果真正意义上的文生视频得以实现可能会有不法份子利用这项技术实施新手段的违法犯罪。
不过从Sora官网目前展示的视频画面效果来看效果还没那么逼近真实短期内不会产生让行业失业但会有辅助作用做个动画片应该问题不大。OpenAI表示Sora是能够理解和模拟现实世界的模型的基础OpenAI相信这一能力将是实现AGI的重要里程碑。
五、参考资料 刘润OpenAI全新发布的Sora到底意味着什么 解读OpenAI Sora文生视频技术原理 人人都能看懂的Sora技术报告