google网站搜索,哈尔滨网站建设丿薇,html5模板开发wordpress主题,wordpress主题修改图片大家好#xff0c;我是herosunly。985院校硕士毕业#xff0c;现担任算法研究员一职#xff0c;热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名#xff0c;CCF比赛第二名#xff0c;科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的… 大家好我是herosunly。985院校硕士毕业现担任算法研究员一职热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名CCF比赛第二名科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。 本文主要介绍了文生视频大模型Sora的复现经验希望能够对学习大模型的同学们有所帮助。 文章目录 1. 前言2. 类 Sora 模型3. 先于 DiT 的技术架构创新4. VDT5. Sora 是世界模型吗6. 嘉宾阵容7. 视频生成技术与应用 \- Sora 时代8. 活动亮点 1. 前言 2月16日OpenAI 发布了视频生成领域的重磅模型 —— Sora。 Sora 对 Scaling Law 的信仰及其突破性的技术创新使它持续保持领先地位。同时也再次证明了“大力出奇迹”依然适用于文生视频领域。 Sora 披露的技术细节远远不足以窥其全貌。同时 Sora 目前也未正式对外开放。源于此针对 Sora 的思考和讨论从未停止过。OpenAI 发布的技术报告如下图所示 Sora 给整个 AI 领域带来的最大冲击莫过于如何优化和校正现有的视频生成思路和框架。而由此也引发了持续至今的复现 Sora 的热潮。 复现 Sora 的动力一方面来自技术人员的技术执着与技术理想另一方面也来自于未来可预期的商业价值。 另外不容忽视的是这家持续被戏称为 CloseAI 的人工智能技术研究机构已然成为了行业内的标杆几乎每次发布的产品都能带来颠覆式的创新。但是 OpenAI 似乎在坚持闭源的道路上越走越远这更加点燃了大众对复现 Sora 的激情。我们可以相信未来的几个月内多个类 Sora 模型将会陆续发布并将开源出来。 Sora 发布后的这一个多月来其相关技术创新的讨论和复现的进度如何呢下面我们一起来看看。 关于复现 Sora本文从以下三方面展开 距离 Sora 发布一个多月了目前复现的进度如何 复现的可能性有多大国内有什么技术基础 Sora 到底是不是世界模型能否帮助我们抵达 AGI有没有必要复现
2. 类 Sora 模型
目前已经推出且讨论较多的三个模型分别是 Snap Video、Open-Sora 1.0以及 Mora。
Snap Video Snap Video 是2月29日发布的类 Sora 模型它使用到了可扩展的时空 Transformer来自开发出 SnapChat 图片分享软件的 Snap 公司以及特伦托大学等机构。
传送门《首批类Sora模型出现色拉布上线Snap Video效果优于Pika、不输Gen-2
Open-Sora 1.0 Open-Sora 1.0 是3月18日全面开源的首个类 Sora 模型来自 Colossal-AI 团队该开源模型涵盖了整个训练流程包括数据处理、所有训练细节和模型权重。
传送门《没等来OpenAI等来了Open-Sora全面开源》
Mora Mora 是几天前由理海大学、微软研究院的研究者提出的多智能体框架该框架整合了几种先进的视觉 AI 智能体以复制 Sora 所展示的通用视频生成能力。 传送门《复刻Sora的通用视频生成能力开源多智能体框架Mora来了》 尽管目前的模型复现效果依然无法企及 Sora但是短短一月有余已经有明显的技术突破出现不失为一个乐观的信号。据不完全统计国内已有近 10 支团队在复现 Sora让我们拭目以待。
3. 先于 DiT 的技术架构创新 Sora 使用的 DiTDiffusion Transformer 架构目前来看是其最大的技术创新但追溯来看也许国内相关的进度更早一些。
U-ViT 架构 2022年9月清华团队提交的名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文比 DiT 还要早 2 个月。该论文提出用基于 Transformer 的网络架构 U-ViT 替代基于 CNN 的 U-Net这与 Sora 将 Transfomer 和扩散模型融合的思路不谋而合。 传送门《国内公司有望做出Sora吗这支清华系大模型团队给出了希望》
4. VDT 2023年5月在 arXiv 网站上公开的 Video Diffusion Transformer (VDT)是由中国人民大学研究团队主导并与加州大学伯克利分校、香港大学等进行合作的基于 Transformer 的 Video 统一生成框架。对采用 Transformer 架构的原因也给出了详细的解释。 传送门《国内高校打造类Sora模型VDT通用视频扩散Transformer被ICLR 2024接收》 也许在核心技术的创新上国内的探索并不落后而是走在了前面。不过囿于资源限制以及技术路线规划等其他原因没能在之前实现类似 Sora 的效果。 Sora 无疑验证出了一条技术可行性的道路而我们本身在技术架构上的领先探索将更有利于我们复现出 Sora甚至可以更加乐观地相信在某些领域内超越 Sora 的效果。
5. Sora 是世界模型吗 由 Sora 引发的另一个热点讨论是关于世界模型的。 Sora 生成的视频无疑对物理世界有了一定了解比如经典的“海盗船在咖啡杯里纠缠”肉眼可见能涉及到专业的流体动力学、光线等物理世界的特征。 但是以 Yann LeCun 为代表的一部分科学家力证 Sora 的训练方式和世界模型没有关系。 那 Sora 是不是世界模型到底懂不懂物理世界关于这个讨论已经蔓延至各个论坛和直播中。可见对于究竟什么是世界模型这个话题大家也是见仁见智的。 而我们能明确的是如果 Sora 是世界模型那通往通用人工智能AGI的理想可能比我们预计的还要早到达。那复现 Sora 就有了一定的必要性。 关于 Sora我们保持着好奇并持续探求以下问题的可能答案。 Sora 之前的视频生成架构/技术还能不能用如何用 Sora 之后谁是被遗忘的谁又是被仰望的 Sora 之外其他创业公司/团队要如何做做什么 Sora 会改变主流的技术架构吗以 DiT 为代表的架构是以后主流的架构选择吗 国内技术力量应不应该复现 Sora为什么 已知有近 10 支团队在复现 Sora我们可能看到的未来格局是什么 为什么是 OpenAI? OpenAI 的模式能否复刻 Sora 之后全球的视频生成格局是怎样的又将如何发展和变化 如何看待一些明星创业公司公开表示不做 Sora? 多模态大模型的未来在哪里 不同视角下如何看待 Sora 的冲击投资人、非技术人、央国企、AI 创业者、从业者等视角 OpenAI 扮演着什么样的社会角色你如何看待这家公司 ……
Sora 带来的冲击是颠覆式的因此对以上问题的求解将持续进行着。而作为聚焦于 AI 前沿技术探索和应用实践的团队机器之心 AI 技术论坛再次将视线放在了视频生成领域。 4月13日在北京六道口我们策划了一期技术论坛聚焦 Sora 发布后的技术创新、思考与应用实践。活动现场汇聚多位重磅嘉宾同时我们也会更加深入地探讨上面提到的问题。 在可预见的未来相信本次活动能产生一定的积极作用和启发以期推动我国 AI 开源社区的技术发展和传播。
6. 嘉宾阵容 本次论坛的嘉宾阵容强大我们邀请到了 业内的知名技术专家张俊林老师来一场 Sora 核心技术的深度拆解 爆火的视频生成模型 PixelDance 的作者来自字节跳动的曾妍老师分享 PixelDance 背后的技术创新和应用 类 Sora 模型 VDT 的团队负责人来自中国人民大学孵化的创业公司——智子引擎的 CEO 高一钊博士详细拆解 VDT 的技术创新和实践 投资人是 AI 领域离不开的重要角色陈石老师作为峰瑞资本的投资合伙人将带来投资人/机构视角下的独特观察 国央企在 Sora 发布后迅速响应占据了 AI 领域一席之地来自中移动信息技术有限公司的算法技术负责人童同老师将会分享他的全新思考 类 Sora 模型 Open-Sora 1.0 的技术负责人来自潞晨科技的 CTO 卞正达老师更是会详细拆解如何复现 Sora以及来自他们团队的独特思考与实践 还有更多重磅嘉宾陆续邀请中…… 张俊林
中国中文信息学会理事中科院软件所博士
目前担任新浪微博新技术研发负责人此前在阿里巴巴担任资深技术专家负责新技术团队。技术书籍《这就是搜索引擎核心技术详解》、《大数据日知录架构与算法》作者。 曾妍
ByteDance Research 算法工程师
专注于视频生成和多模态预训练等领域的前沿研究。主导研发的模型为字节跳动的视频生成、短视频审核、电商客服、今日头条、教育解题等业务提供了有力服务并以第一作者身份将相关的八篇论文发表在 TPAMI, ICML, CVPR, ACL 等国际顶级会议和期刊同时也担任了 TPAMI, ICML, NIPS, ICLR 等会议的审稿人。主导研发的 PixelDance 视频生成基础模型在业界首次实现了高动态性和稳定性的结合并首次生成了3分钟的连续剧情动画。 陈****石
峰瑞资本 投****资合伙人
专注于科技、软件、互联网、消费等领域的投资。加入峰瑞资本前拥有 5 年阿里巴巴管理层经历曾担任阿里巴巴移动事业群副总裁、阿里巴巴文化娱乐集团高管、优酷和 UC 国际班委深度参与 UC、高德、优酷、土豆、神马搜索、UC 国际等产品线的业务决策和管理执行。
15 年连续创业作为核心管理团队成员深度参与 UC全球最大第三方手机浏览器2014 年被阿里巴巴收购和拉卡拉中国知名第三方支付公司SZ:300773的创业过程分别担任副总裁和 CTO曾经是一名快乐的程序员用户增长专家科技热爱者。
拥有北京航空航天大学机电工程系本科和硕士学历。2023 年获评 EqualOcean「2023年出海全球化投资TOP30人」、甲子光年「2022-2023 年度人工智能与大数据最佳投资人TOP20」。 高一钊
智子引擎 CEO
中国人民大学高瓴人工智能学院博士。多模态大模型专家发表多篇顶级期刊、会议论文曾带领多人团队完成文澜大模型训练。全程参与智子引擎相关模型、产品的开发与推广。 卞正达
潞晨科技 CTO
毕业于新加坡国立大学曾在全球超算最顶尖会议 SC 上发表一作论文拥有 7 年高性能 AI 系统经验Colossal-AI 系统核心开发者。 童同
中移动信息技术有限公司 算法技术负责人
中国科学院自动化研究所 AI 博士。目前在中移动信息技术有限公司负责多模态大模型、数字人、智能体等领域研发工作实现了文生图、文生视频、大模型动作识别与目标检测等关键技术的落地应用。共发表论文 12 篇、公司专利 12 项、软著 4 项。
更多专家正在确认中敬请期待。
7. 视频生成技术与应用 - Sora 时代 机器之心 AI 技术论坛时刻保持对 AI 领域技术突破的敏感追踪为了深入探究 Sora 对技术的冲击和对各行各业带来的影响我们特别策划了「视频生成技术与应用 — Sora 时代」AI 技术论坛。 希望助力广大企业和从业者紧跟技术发展潮流全面了解 Sora、视频生成技术、多模态大模型等前沿领域的技术突破和应用实践。 面对扑面而来的 AI 视频生成积极拥抱学习并敢于尝试才能抓住技术潮流破局而生。 期待 2024.04.13在北京海淀区和你相遇。 论坛报名通道正式开启扫描海报中二维码可直达活动页面。由于嘉宾介绍发布时间较晚本场论坛的早鸟优惠期有所延长。 即日起至04月07日23:55购票参会即可直减 200 元 享受 699 元早鸟特惠门票原价 899 元。五人团购更有专属优惠详见活动详情页。
8. 活动亮点 赠送永久观看上一期「视频生成前沿研究与应用」论坛活动视频及课件上期活动已购请联系 Alice 扣减本期购买后记得找 Alice 兑换上一期视频 永久观看本期「视频生成技术与应用 - Sora 时代」论坛活动会后视频及课件 汇聚高校教授及产业界重磅技术专家掌握最新技术拓宽技术视野 和技术大牛面对面交流会后深度连接 覆盖核心技术拆解、明星产品最佳实践、技术未来探讨及展望 全流程助力学习会前会后学习资料大礼包 加入视频生成高质量技术交流社群及时跟进行业前沿技术与资讯 机器之心旗下相关付费活动享购票八五折优惠 关于本次活动商务合作、团购、发票、内容等相关问题欢迎私信 或通过邮件进行咨询。 邮箱jiayaningjiqizhixin.com
关于发票 报名成功后可于活动结束后在活动行 App 上自行申请发票发票为电子版增值税普票开票成功后会发送到报名邮箱中。
成为论坛志愿者 参与活动现场的具体事项执行如签到、引导、秩序管理等包工作餐。在校学生优先。