当前位置: 首页 > news >正文

泉州市建设系统培训中心网站2018年网站建设的数据

泉州市建设系统培训中心网站,2018年网站建设的数据,网店代运营服务,国外做灯的网站我自己的原文哦~ https://blog.51cto.com/whaosoft/13115290 #GPT-5、 Opus 3.5为何迟迟不发 新猜想#xff1a;已诞生#xff0c;被蒸馏成小模型来卖 「从现在开始#xff0c;基础模型可能在后台运行#xff0c;让其他模型能够完成它们自己无法完成的壮举——就像一个老…我自己的原文哦~   https://blog.51cto.com/whaosoft/13115290 #GPT-5、 Opus 3.5为何迟迟不发 新猜想已诞生被蒸馏成小模型来卖 「从现在开始基础模型可能在后台运行让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧。」 最近几个月从各路媒体、AI 社区到广大网民都在关注 OpenAI 下一代大模型「GPT-5」的进展。 我们都知道 OpenAI 在研究新模型新模型可能遭遇了困难无法按计划推出但如果有人说 GPT-5 已经在某个地方塑造世界了你会怎么想 假设如下OpenAI 已经构建了 GPT-5但将其应用在了内部因为这样做投资回报远高于将其发布给数百万 ChatGPT 用户。此外他们获得的投资回报不是金钱。如你所见这个想法很简单难就难在如何将那些细枝末节的线索联系起来。最近技术分析师 Alberto Romero 深入探讨了这个思路。 首先澄清一下这并不是 100% 可靠的猜测。证据是公开的但没有泄密或内幕传言证实该想法是对的。作者没有获得独家信息 —— 如果有也无论如何都会签署保密协议。不过至少从逻辑上讲这个猜想看起来很有说服力。 让我们看看这篇文章是怎么说的。 原文地址https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything 一、Opus 3.5 的神秘消失 在介绍 GPT-5 之前我们必须先去拜访它的远亲同样失踪的 Anthropic 的 Claude Opus 3.5。 如您所知海外三大人工智能实验室 OpenAI、Google DeepMind 和 Anthropic 提供了一系列覆盖各价位段、延迟与性能范围的大模型服务。OpenAI 提供了 GPT-4o、GPT-4o mini 以及 o1 和 o1-mini 等Google DeepMind 提供 Gemini Ultra、Pro 和 Flash而 Anthropic 有 Claude Opus、Sonnet 和 Haiku。 他们的目标很明确迎合尽可能多的客户。有些人优先考虑顶级性能而另一些人则寻求负担得起、足够好的解决方案至此一切都很好。 但 2024 年 10 月发生了一件奇怪的事情。每个人都期待 Anthropic 宣布推出 Claude Opus 3.5 以回应 GPT-4o于 2024 年 5 月推出。然而到 10 月 22 日他们发布了 Claude Sonnet 3.5 的更新版本人们开始称之为 Sonnet 3.6。Opus 3.5 却不见了似乎 Anthropic 没有了 GPT-4o 的直接竞争对手。到这里研究进度似乎出现了问题。以下是人们所说的内容以及 Opus 3.5 实际发生的事情 10 月 28 日有传言称 Sonnet 3.6 是…… 备受期待的 Opus 3.5 训练失败的中间检查点。r/ClaudeAI subreddit 上出现了一篇文章称 Claude 3.5 Opus 已被废弃并附有指向 Anthropic 模型页面的链接。截至今天该页面没有提及 Opus 3.5。有人猜测删除 Opus 3.5 是为了在即将到来的融资轮之前保持投资者的信任而采取的战略举措。11 月 11 日Anthropic 首席执行官 Dario Amodei 在 Lex Fridman 播客上否认他们已经放弃 Opus 3.5从而消除了谣言「没有给出确切的日期但据我们所知计划仍然是推出 Claude 3.5 Opus。」态度谨慎但是确认。11 月 13 日彭博社的报道证实了之前的传言「经过训练后Anthropic 发现 3.5 Opus 在评估中的表现优于旧版本但考虑到模型的大小以及构建和运行的成本其优势并没有达到应有的程度。」Dario 似乎没有给出日期因为尽管 Opus 3.5 的训练运行没有失败但其结果却不尽如人意。请注意重点是相对于性能的成本而不仅仅是性能。12 月 11 日半导体专家 Dylan Patel 和他的 Semianalysis 团队给出了最后的情节转折提出了一个将所有数据点编织成一个连贯故事的解释「Anthropic 完成了对 Claude 3.5 Opus 的训练它表现良好并且能够适当扩展…… 但 Anthropic 并没有发布它。这是因为 Anthropic 没有公开发布而是使用 Claude 3.5 Opus 来生成合成数据并进行奖励建模从而与用户数据一起显著改进了 Claude 3.5 Sonnet。」 简而言之Anthropic 确实训练了 Claude Opus 3.5 大模型。他们放弃了这个名字因为它还不够好。Dario 相信不同的训练尝试可以改善结果因此避免给出发布日期。彭博社证实结果比现有模型更好但不足以证明推理成本是合理的。Dylan 和他的团队发现了神秘的 Sonnet 3.6 和失踪的 Opus 3.5 之间的联系后者正在内部用于生成合成数据以提高前者的性能。 二、更好的模型变得更小更便宜 使用强大、昂贵的模型生成数据来提升略弱但更便宜的模型性能的过程被称为蒸馏。这是一种常见做法。这种技术允许 AI 实验室将他们的小型模型提升到仅靠额外预训练无法达到的水平。 蒸馏有多种方法但我们不会深入讨论。你需要记住的是作为「教师」的强大模型将「学生」模型从 [小、便宜、快速] 弱变成 [小、便宜、快速] 强大。蒸馏将强大模型变成金矿。Dylan 解释了为什么 Anthropic 对 Opus 3.5-Sonnet 3.6 这对模型这样做是有意义的 推理成本新 Sonnet 与旧 Sonnet 相比没有显著变化但模型性能提升了。为什么要发布 3.5 Opus 呢从成本角度来看相比发布经过 3.5 Opus 进一步后训练的 3.5 Sonnet这样做在经济上是不合理的。 我们又回到了成本问题蒸馏能在保持推理费用低廉的同时提升性能。这立即解决了彭博社报道的主要问题。Anthropic 选择不发布 Opus 3.5 不仅仅是因为性能不佳而是因为它在内部更有价值。Dylan 说这就是为什么开源社区能这么快赶上 GPT-4—— 他们直接从 OpenAI 的金矿中获取黄金。 最惊人的发现是Sonnet 3.6 不仅仅是好 —— 它达到了 SOTA 水平比 GPT-4o 更好。由于从 Opus 3.5 蒸馏可能还有其他原因五个月在 AI 时间里很长Anthropic 的中端模型超越了 OpenAI 的旗舰产品。突然间高成本作为高性能的代理指标被证明是错误的。 「bigger is better」怎么了OpenAI 的 CEO Sam Altman 警告说这个时代结束了。一旦顶级实验室变得神秘小心翼翼地保护他们珍贵的知识他们就停止分享数字。参数数量不再是可靠的衡量标准我们明智地将注意力转向基准性能。OpenAI 最后一次正式披露的模型大小是 2020 年的 GPT-3拥有 1750 亿参数。到 2023 年 6 月有传闻称 GPT-4 是一个专家混合模型总计约 1.8 万亿参数。Semianalysis 后来在详细评估中证实了这一点得出 GPT-4 有 1.76 万亿参数的结论。这是 2023 年 7 月的事。 直到 2024 年 12 月那是在一年半后EpochAI一个专注于 AI 未来影响的组织的研究员 Ege Erdil 在文章《Frontier language models have become much smaller》中估计领先的 AI 模型包括 GPT-4o 和 Sonnet 3.6比 GPT-4 小得多尽管两者在基准测试中都优于 GPT-4 ……GPT-4o 和 Claude 3.5 Sonnet 等当前的前沿模型的参数量可能比 GPT-4 小一个数量级4o 大约有 2000 亿参数3.5 Sonnet 大约有 4000 亿参数…… 考虑到我得出这个数字的粗略方式这些估计值可能有 2 倍的误差。 他为什么能在实验室没有发布任何架构细节的情况下得出这些数值他深入解释了原因。但这个原因对我们来说并不重要。重要的是迷雾正在散去Anthropic 和 OpenAI 似乎都在遵循类似的轨迹。他们最新的模型不仅更好而且比上一代更小更便宜。我们知道 Anthropic 的做法是将 Opus 3.5 蒸馏成 Sonnet 3.6。但 OpenAI 是怎么做的呢 三、AI 实验室背后的推动力普遍存在 人们可能认为 Anthropic 的蒸馏方法源自自身特有的情况 —— 即 Opus 3.5 训练结果令人失望。但实际上Anthropic 的情况绝不是特例。Google DeepMind 和 OpenAI 也报告称他们最新的训练结果不太理想。需要强调不理想并不等于模型更差。对我们来说造成这种情况的原因并不重要数据不足导致的收益递减、Transformer 架构固有的限制、预训练 Scaling Law 陷入停滞等。无论如何Anthropic 的特有情况实际上相当普遍。 但还记得彭博社的报道吗只有把成本放在一起考虑时才能判断性能指标的好坏是的Ege Erdil 解释了原因ChatGPT/GPT-4 热潮之后对 AI 的需求激增。 生成式 AI 的普及速度如此之快以至于实验室难以跟上导致亏损不断增长。这种状况促使他们所有人都要降低推理成本训练运行只做一次但推理成本会随着用户数量和使用量的增加而成比例增长。如果每周有 3 亿人使用你的 AI 产品运营支出可能突然会要了你的命。 促使 Anthropic 将 Sonnet 3.6 从 Opus 3.5 中蒸馏出来的原因不管是什么都会以好几倍的程度压在 OpenAI 身上。蒸馏之所以有用是因为它能将两个普遍存在的难题变成一个优势通过向用户提供更小的模型可以解决推理成本问题同时还能避免在不发布更大模型时因为性能不佳而被公众苛责。 Ege Erdil 认为 OpenAI 可能选择了另一种方法过度训练overtraining。也就是使用超过计算最优compute-optimal程度的数据量来训练小型模型「当推理成为你在模型上支出的主要或主导部分时更好的做法是…… 在更多的 token 上训练较小的模型。」但过度训练不再可行。AI 实验室已经在预训练上把高质量数据源消耗一空。伊隆・马斯克和 Ilya Sutskever 最近几周都承认了这一点。 回到蒸馏Ege Erdil 总结说「我认为 GPT-4o 和 Claude 3.5 Sonnet 很可能都是从更大模型中蒸馏出来的。」 到目前为止所有证据都表明 OpenAI 正在以同样的方式蒸馏出于同样的原因性能不佳 / 成本控制做 Anthropic 对 Opus 3.5 所做的事情训练和隐藏。这是一个重要发现。但先别急Opus 3.5 仍在隐藏。OpenAI 的类似模型在哪里它在该公司的地下室里藏着吗你能猜出它的名字吗... 四、深入无人踏足之地必须自己开路 我的分析始于 Anthropic 的 Opus 3.5 故事因为有很多关于它的信息。然后我用蒸馏的概念搭建了通向 OpenAI 的桥梁并解释了为什么推动 Anthropic 的潜在力量也在推动 OpenAI。然而我们的理论中出现了一个新障碍因为 OpenAI 是先驱他们可能面临着 Anthropic 等竞争对手尚未遇到的障碍。 其中一大障碍便是训练 GPT-5 的硬件要求。Sonnet 3.6 与 GPT-4o 相当但发布时间滞后了五个月。我们应该假设 GPT-5 处于另一个层次。更强大也更庞大。推理成本也更高训练成本也是如此。可能运行一次训练就需要 5 亿美元。用现有的硬件有可能完成这样的事情吗 Ege 的答案是可以。为 3 亿人提供服务是难以承受之重但训练却是小菜一碟 「理论上即使我们现有的硬件也足以支持比 GPT-4 大得多的模型例如一个放大 50 倍的 GPT-4 版本拥有大约 100 万亿参数可能每百万输出 token 的成本为 3000 美元输出速度为每秒 10-20 个 token。然而要实现这一点这些大型模型必须为使用它们的客户带来大量经济价值。」 然而即使是微软、谷歌和亚马逊分别是 OpenAI、DeepMind 和 Anthropic 的投资方也无法为这种推理成本找到合理理由。那么他们如何解决这个问题的很简单只有当他们计划向公众提供数万亿参数的模型时他们才需要「释放大量经济价值」。所以他们选择不放出那些模型。 他们训练它。他们意识到它「比他们目前的产品表现更好。」但他们必须接受它「还没有进步到足以证明保持它运行的巨大成本是合理的。」听起来熟悉吗这是《华尔街日报》一个月前关于 GPT-5 的报道。与彭博社关于 Opus 3.5 的说法惊人地相似。 他们报告并不太好的结果或多或少准确他们总是可以在这里把玩叙事。他们将其作为大型教师模型保留在内部用于蒸馏更小的学生模型。然后他们发布这些更小模型。我们得到了 Sonnet 3.6 和 GPT-4o 以及 o1并且非常高兴它们便宜且相当好。即使我们越来越不耐烦但对 Opus 3.5 和 GPT-5 的期待依然没有改变。而他们的口袋就继续像金矿一样闪闪发光。 五、微软、OpenAI 与 AGI 当我在调查中达到这一点时我仍然不太相信。当然所有的证据都表明这对 OpenAI 来说是完全合理的但在合理 —— 甚至可能 —— 和真实之间存在着 gap。我不会为你填补这个 gap—— 毕竟这只是推测。但我可以进一步加强论据。 有什么额外的证据表明 OpenAI 是这样运作的吗除了性能不佳和亏损增加之外他们还有其他理由扣留 GPT-5 吗从 OpenAI 高管关于 GPT-5 的公开声明中我们能得出什么反复推迟模型发布他们不是在冒着牺牲声誉的风险吗毕竟OpenAI 是 AI 革命的代表而 Anthropic 在其阴影下运作。Anthropic 可以负担得起这些举动但 OpenAI 呢也许这么做并非没有代价。 说到钱让我们挖出一些关于 OpenAI - 微软合作关系的相关细节。首先是每个人都知道的AGI 条款。在 OpenAI 关于其结构的博客文章中他们有五个治理条款描述了其运作方式、与非营利组织的关系、与董事会的关系以及与微软的关系。第五条将 AGI 定义为「在大多数具有经济价值的工作中超越人类的高度自主系统」并规定一旦 OpenAI 董事会声称已经实现 AGI「这样的系统将被排除在与微软的 IP 许可和其他商业条款之外这些条款只适用于 AGI 之前的技术。」 不用说两家公司都不希望合作关系破裂。OpenAI 设定了这个条款但会做任何必要的事情来避免遵守它。其中一种方式是推迟发布可能被标记为 AGI 的系统。「但 GPT-5 肯定不是 AGI」你会说。而我会说这里有第二个事实几乎没有人知道OpenAI 和微软对 AGI 有一个秘密定义AGI 是一个「可以产生至少 1000 亿美元利润的 AI 系统。」这个定义虽然在科学目的上无关紧要但在法律术语上构建了他们的合作关系。 如果 OpenAI 假设性地以「还没有准备好」为借口扣留 GPT-5除了控制成本和防止公众反弹外他们还能多做一件事他们会回避宣布它是否达到了被归类为 AGI 的门槛。虽然 1000 亿美元的利润是一个非凡的数字但没有什么能阻止雄心勃勃的客户在此基础上创造更多的利润。另一方面让我们说清楚如果 OpenAI 预测 GPT-5 每年能带来 1000 亿美元的经常性收入他们不会介意触发 AGI 条款并与微软分道扬镳。 对于 OpenAI 不发布 GPT-5 的大多数公众反应都基于这样的假设他们不这样做是因为它不够好。即使这是真的也没有怀疑者停下来想一想 OpenAI 可能有比他们从外部获得的更好的内部用例。创建一个优秀的模型与创建一个可以廉价地服务于 3 亿人的优秀模型之间存在巨大差异。如果你做不到你就不做。但同样如果你不需要你也不做。他们之前给我们访问他们最好的模型是因为他们需要我们的数据。现在不那么需要了。他们也不追逐我们的钱。想要钱的是微软而不是他们。他们想要 AGI然后是 ASI。他们想要一个遗产。 六、从山洞中传递智慧的老隐士 文章接近尾声了。我相信我已经列出了足够的论据来建立一个坚实的案例OpenAI 很可能在内部拥有正在运行的 GPT-5就像 Anthropic 拥有 Opus 3.5 一样。OpenAI 永远不会发布 GPT-5 也是有可能的。公众现在将性能与 o1/o3 进行对比而不仅仅是 GPT-4o 或 Claude Sonnet 3.6。随着 OpenAI 探索测试时 scaling lawGPT-5 需要跨越的门槛不断提高。他们如何能发布一个真正超越 o1、o3 和即将到来的 o 系列模型的 GPT-5 呢特别是考虑到他们生产这些模型的速度此外他们不再需要我们的钱或数据了。 训练新的基础模型 ——GPT-5、GPT-6 及以后的模型 —— 对 OpenAI 内部来说永远有意义但不一定作为产品。这可能结束了。现在对他们来说唯一重要的目标是继续为下一代模型生成更好的数据。从现在开始基础模型可能在后台运行让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧只是这个山洞是一个巨大的数据中心。而无论我们能否见到他我们都将经历他的智慧带来的后果。 即使 GPT-5 最终发布这个事实突然显得几乎无关紧要。如果 OpenAI 和 Anthropic 确实启动了递归自我改进行动尽管仍然有人类参与其中那么他们公开给我们什么并不重要。他们将越走越远 —— 就像宇宙膨胀得如此之快以至于远处星系的光再也无法到达我们这里。 也许这就是 OpenAI 如何在短短三个月内从 o1 跳到 o3 的原因以及他们将如何跳到 o4 和 o5。这可能也是为什么他们最近在社交媒体上如此兴奋。因为他们已经实施了一种新的改进后的运作模式。 你真的认为接近 AGI 意味着你能随时使用越来越强大的 AI 吗他们会发布每一个进展让我们使用当然你不会相信这个。当他们说他们的模型会让他们远远领先于任何人以至于无法追赶时他们是认真的。每一代新模型都是逃逸速度的引擎。从平流层开始他们已经在向我们挥手告别。 他们是否会回来还有待观察。 #豆包Kimi通义现身搅动江湖 一觉醒来在逆水寒里被AI娘包围了 作为一家专业的人工智能媒体AI 竞技场我们熟呀。目前 AI 领域最热门的竞技场当属 LMSYS Org 的 Chatbot Arena其玩法也很简单评估者与两个匿名模型互动然后盲评这两个模型给出的响应。根据评估者反馈的胜负情况LMSYS Org 还制作了一个动态更新的排行榜。可以看到目前 Chatbot Arena 语言模型板块已经积累了 250 余万投票同时暂居冠亚军的都是 Gemini 模型。 Chatbot Arena 语言模型排行榜前 10 名截取自 1 月 14 日 当然AI 大模型开发者乐于「打榜」的排行榜可不只 Chatbot Arena 一个你能在网上找到大量基于各种不同基准的 AI 排行榜如会全面比较性能、质量、价格、速度等多因素的 Artificial Analysis  LLM Leaderboard、曾经很热门但现在可能有点过时的 SuperGLUE Leaderboard 和 ImageNet/COCO 挑战赛以及前段时间因为 OpenAI ο3 发布而备受关注的 ARC-AGI-PUB。 虽然许多排行榜已经不再是 AI 研究者的「热榜」但它们为 AI 进步所做出的贡献却已经实在地印刻在了 AI 发展史中毕竟新诞生的有效方法最早改变的往往都是排行榜。因此排行榜的变化往往预示着新技术方法的诞生乃至范式上的转变。 不过将 AI 竞技场部署在游戏中我们真还是第一次听说尤其是《逆水寒》这个拥有上亿玩家的「国民级手游」。看来我们得去上手研究一番了而且我们也确实对「AI 娘」这个关键词非常感兴趣于是我们拿起手机回到了阔别日久的江湖。 我们回到了上次离开的地方万松书院。一抬头却见旁边的二楼上多了一位正在放声大笑的姑娘。她看起来有点……呃……中二。她说自己名叫「越之安」乃是一位从修仙世界穿越至此的魔尊 惊讶之中我们赶忙传送不觉竟来到汴京虹桥。翻身上马在神侯府的街角我们遇到了两位仙姿玉骨的姑娘她们姓童姐姐叫做「千问」妹妹名唤「星尘」。 星尘姑娘灵动活泼喜爱扮演而姐姐千问乃是一位书院夫子谈吐如珠玑落盘并且文采斐然。 而倘若你选择往皇城方向走来到戏曲杂耍艺人云集的曲院街你还能在戏台下面遇见一位会让你猜她是姐姐还是妹妹的宇小星而她的当事姐妹则正在杭州薛妙手的药铺前方思考着如何帮助他人给人带去温暖。 我们还在江湖游历之时遇到过窦豆包和窦包包姐妹以及白文心和文一言…… 千问、星尘、星野、豆包、越之安面、文心一言…… 她们的名字其实就已经暗示了她们的来历。我们也向《逆水寒》确认了这一点这些 NPC 背后正是阿里、百度、MiniMax、月之暗面、字节跳动这五家国内头部 AI 厂商的大模型。这一次他们一共带来了九位 AI 娘 确切地说这些 AI 娘都是这五家公司的 AI 大模型的拟人化形象同时这些大模型也是最早入驻《逆水寒》AI 大模型竞技场的「参赛者」。 经常闯荡《逆水寒》江湖的玩家都知道这款国民级手游一诞生便是实打实的「AI 游戏」。玩家早就可以在 AI 的帮助下给角色捏脸与网易伏羲自研 AI 驱动的 NPC 交流用 AI 剧组拍戏甚至捏出「AI 智能生命体」作为自己的门客……看起来九位 AI 娘的到来以及 AI 大模型竞技场的设立其实是《逆水寒》「AI游戏」战略的进一步延续向外部模型开放也可说是迈出了划时代一大步并且他们还会继续前进。 《逆水寒》告诉「未来我们还希望通过竞技场和更多服务商合作在游戏中创造更多的与 AI 深度结合的场景推动技术变革和『东部世界』的到来。」 聚集五大厂商全球首次在游戏内开设 AI 大模型竞技场 其实《逆水寒》的 AI 大模型竞技场在去年 11 月份就已经上线了其被设置成了「游历」中一种有概率触发的玩法。进入「游历」玩法之后玩家有可能会遇到两位诗人正在竞比才情。你可以出题让他们各自赋诗一首看看谁的作品更胜一筹。 也有可能你会如孔子东游一样遇到两小儿辩斗。同样你也能通过自由形式的交谈对他们进行一番考验看看哪位小朋友的回答更好玩。 你还可能遇到两位侠士在争论怎样才能更具大侠气质。如果他们让你来帮忙你完全可以提一个离奇又刁钻的问题如果外星人入侵地球大侠该怎么做 熟悉 AI 评估的读者可能一下子便能看出这就是典型的 AI 竞技场机制。《逆水寒》 AI 大模型竞技场采用了盲评机制也就说在竞技游戏结束前玩家无法得知他们背后究竟是什么模型。 虽然 AI 竞技场早已有之但将 AI 竞技场放在游戏中《逆水寒》真正做到了世界首创再考虑到这款游戏巨大的玩家规模其所带来的影响必定不小。据我们了解去年 11 月 AI 大模型竞技场上线后不到半个月就已经跃升成了参与人数达到千万级与有效投票数均为全球第一的 AI 竞技场。相较之下业内知名的 AI 竞技场 Chatbot Arena 语言模型板块的总投票数目前也仅有 250 多万。这似乎也从侧面验证了《逆水寒》开设 AI 竞技场玩法的合理性 —— 竞技场模式与游戏场景可说是天然适配。并且《逆水寒》作为一款 MMORPG 游戏看起来尤其适合做这件事。 首先RPG角色扮演游戏中通常有很多可与玩家互动的 NPC而大型语言模型LLM天生就非常适合角色扮演。在通过提示词让 LLM 执行任务时一种常用的提示词工程方法就是给 LLM 设定一个身份比如「你是一位想象力超乎寻常的科幻电影剧本作家」或「你是一位经验丰富的心理医生」。而《逆水寒》这种充满多变的情节和复杂决策的 RPG 游戏又正好可以为 LLM 提供一个表演的舞台让开发者或 AI 厂商可以在更多样化和更复杂的情境中对 AI 进行测试。 时长01:38 AI 大模型扮演两位官员接受了玩家的三连问其中包括一个常识性问题、一个常被用来考验大模型的基础数学题9.11 和 9.8 哪个大和一个哲学问题。 第二RPG 游戏往往能创造一个沉浸式的交互体验。我们知道RPG 游戏强调叙事和角色互动玩家常常沉浸在虚拟世界中愿意花费大量时间与游戏中的角色互动有效地解决传统 AI 竞技场用户参与不足的瓶颈。这种高度沉浸式的环境可为 AI 提供理想的测试和展示场景。AI 在这样的世界中能够表现得更自然玩家也能通过互动深入体验其能力真正参与到 AI 竞技场的竞赛中而不仅仅是数据或表面展示。 MMORPG 游戏中的社交功能如公会、组队、竞赛等也能够促使玩家与其他玩家或 AI 进行大量的互动。这能比 Chatbot Arena 等传统模式的 AI 竞技场更能吸引用户的持续和长期参与。同时在社交能力的加持下玩家可能会集体参与、分享经验、讨论策略甚至形成社区支持帮助开发者发现潜在的问题并提供创新的解决方案。而相对地传统 AI 竞技场可能更多是个体的比较。 另外由于玩家群体的多样性游戏中的 AI 竞技场往往能比传统 AI 竞技场通常仅能吸引 AI 技术爱好者吸引更广泛的用户参与。这样一来就能从多个维度、从多种角度对 AI 进行评价。这种多元化反馈的重要性已经在 AI 对齐和社会影响等相关研究中被强调了无数次。《逆水寒》自然也明白这一点所以其 AI 大模型竞技场没有规定玩家应该以什么标准来评价 AI 的响应而是将评估指标交给了玩家并且玩家还可以自行编写点评。 当然《逆水寒》巨大的玩家规模对 AI 大模型厂商来说也极具吸引力。目前这个 AI 大模型竞技场已经吸引了阿里、百度、MiniMax、月之暗面、字节跳动这五家国内头部 AI 厂商带着自家 AI 模型入驻即通义、文心、abab、Kimi 和豆包。《逆水寒》也表示大门会持续开放因此可以预见不久后还能看到更多 AI 智能体踏足这片江湖。 最后对于玩家AI 的加入也大大有利。最起码的它们能让游戏更加好玩 —— 有头脑的 AI NPC 可比只会重复固定台词的传统 NPC 有趣多了AI 还能随着游戏的更新而不断演进优化其行为表现给玩家提供持续的新鲜感和挑战。《逆水寒》也表示会基于 AI 大模型竞技场开发更多玩法。 具体技术上《逆水寒》表示这个 AI 大模型竞技场是基于网易伏羲 AOP 框架构建的即面向智能体编程Agent Oriented Programming。该框架可将大模型建模为统一的智能体从而极大简化了 AI 接入到《逆水寒》游戏的流程。 另外我们还向网易伏羲提出了一个数据上疑问假如玩家胡乱提问或者随意投票和点评该怎么办网易伏羲当然早就考虑到了这一点并已部署一些应对措施。他们表示为了验证数据的有效性网易伏羲进行了大规模的数据分析和实验综合性地评估了玩家多样性的选择对数据有效性的影响基于这些实验结果他们部署了可以滤除无效信息的过滤机制从而可以保证最终结果的客观和有效。 可以说在如此受欢迎的游戏中开设 AI 大模型竞技场是一项极具开创性的举措。这不仅能展现 AI 技术在实时互动和复杂决策中的潜力还能推进「AI娱乐」的边界为行业探索新的商业模式和创新方向提供灵感。《逆水寒》的这一创举正好在游戏与科技的交汇点上可为双方都开辟出更多可能性。 在逆水寒的江湖中 AI 已无处不在 AI 娘或温柔婉约或直爽洒脱各擅奇艺尽展风华。除了她们你还能在街头巷尾偶遇其他网易自家大模型驱动的 AI NPC。 在汴京的虹桥附近就有不少 AI NPC 聚集在这里等着玩家们与他们互动。不仅如此他们之间还能彼此互动。有一次当我路过此处时正巧遇见了 AI NPC 孙小溪与僧人弥乐发生了争执。 时长01:01 此外这些 AI NPC 也能流畅地回答玩家的离题话题 —— 你甚至能与他们讨论宇宙飞船和人工智能。《逆水寒》为这些角色配置的音色也非常合适如果以后能配置上实时语音能力或许还能更加好玩。 据逆水寒介绍这些 AI NPC 都有自己独特的性格、喜好、目的会遵循人情世故、大宋律法、江湖法礼、是非善恶等观念和规则。 他们会自主游历江湖主动结交好友不断产生新的记忆反过来迭代进化自己的各种观念…… 比如之前我在虹桥附近向孙皓等 NPC 散播了杭州城郊外有一艘宇宙飞船的假消息后来我遇到「风流先生」时他竟然主动说起了宇宙飞船还添油加醋地说那里有陨石。 伴随着 AI NPC 逐渐成长为一个个有着自己思想和情感的「数字生命」逆水寒的世界也将形成动态发展、自我更新的江湖社会网络。 更令人激动的是每个人都能为这个社会添砖加瓦。在《逆水寒》你可以自己捏智能 NPC并为自己的「自捏江湖友人」量身打造独一无二的外貌与声音。还能根据《逆水寒》独一档的 AI 功能赋予其智商、情商、性格等「灵魂特征」令其成为一个「完整的人」与你一起行走江湖。 除了 AI NPC在网易伏羲 AI 技术加持下《逆水寒》中还整合了其它许多 AI 能力包括 AI 副本队友、AI 捏脸染色、AI 自定义语音、AI 大宋头条、AI 作诗作画、AI 离线玩家、AI 剧组模式、AI 翻拍等等。 时长00:23 新上线的剧组模式 - 智能翻拍 大宋头条 在《逆水寒》江湖中闯荡一番后我们的整体感受就是 AI 已经无处不在并已经深刻嵌入到这个江湖世界的底层叙事和玩法之中。纵观当今的游戏行业《逆水寒》在「AI游戏」之路上是走得最激进的游戏甚至可能没有之一。网易 CEO 丁磊曾表示「要牢牢抓住 AI 这个百年不遇机遇。」从《逆水寒》以及其它网易系游戏的 AI 浓度来看网易确实非常努力想要做到这一点并且已经取得了不错的成绩。 前段时间AI游戏赛道爆出了几个大新闻无需游戏引擎视频模型直出实时交互可玩的游戏 Oasis谷歌推出了会「自己生长」的《模拟人生》式游戏 Unbounded。然而与这些仍在实验阶段的项目不同《逆水寒》选择了一条更贴近玩家的渐进式路径将 AI 技术无缝融入 MMO 生态从玩法到体验全面革新了传统 MMORPG 的可能性。 AI游戏的前景甚至让伊隆・马斯克也按捺不住了表示下一步计划是「创立 AI 游戏工作室让游戏再次伟大」。但他可能不知道《逆水寒》早已引领在前。据说马斯克发布下面这条推文后有很多玩家后台私信《逆水寒》「这下逆子真的遥遥领先了建国同志没通知马厂长 AI 游戏已经做出来了而且已经让 MMO 再次伟大了马厂长进度落后起码快 2 年了。」 引领时代 逆水寒将继续书写 AI游戏新传奇 《逆水寒》通过 AI 技术的深入应用正在重新定义游戏世界的边界。从九位 AI 娘的活灵活现到竞技场玩法的趣味横生再到无处不在的智能互动这片江湖早已不只是人的江湖也是 AI 的江湖。 AI 与游戏的结合不仅仅是娱乐体验的提升更是一次产业模式的深刻变革。通过 AI 技术游戏能够更加贴近玩家需求提供个性化、沉浸式的体验。这种技术与内容的双向驱动让游戏不再是单纯的娱乐工具而是一种动态发展的艺术形式。 据我们了解《逆水寒》游戏中的各式 AI 能力主要由网易伏羲提供支持并且这些能力也并不局限于这一款游戏。《永劫无间》、《倩女幽魂》、《全明星街球派对》等多款网易系游戏都已上线自己各具特色的 AI 玩法包括 AI 队友、AI 萌娃、AI 对抗竞赛等。在前些天的 CES 2025 上英伟达还宣布将与网易雷火和伏羲实验室合作使用 NVIDIA ACE 技术在《永劫无间手游》PC 版中部署基于本地推理的 AI 队友其不仅支持实时语音沟通还能实时观察战场局势并与玩家一起制定战术 对于 AI 行业来说游戏基本上已经成为研发和测试 AI 的最主流平台之一。从围棋等棋盘游戏到《毁灭战士》、《星际争霸 II》等视频游戏在游戏环境中诞生和优化的新技术数不胜数。比如AlphaGo 不仅改变了围棋的竞技格局还推动了深度强化学习的发展。又如OpenAI Five 在《Dota 2》中的出色表现展现了多智能体合作和长时间决策的能力又启发了自动化决策和机器人技术的进步。《我的世界》更是早已成为低成本测验各种 AI 技术的平台。前段时间斯坦福还搭建了一个智能体小镇 Smallville 来研究多智能体交互与人类行为模拟。 AI 行业之外诺奖级 AlphaFold 是一大经典案例。另一个例子是游戏引擎 Unity 在自动驾驶和机器人开发中的应用。Unity 提供的 AI 训练环境可让开发者模拟不同的物理环境以便训练和测试智能体极大助力了机器人导航和决策技术的发展。此外基于 OpenAI GPT-3 开发的互动式文字冒险游戏《AI Dungeon》也在教育中得到了应用可帮助学生通过互动式故事提高语言表达能力和创造力甚至被用作语言学习工具。这样的例子不胜枚举。从数据处理到人机交互游戏 AI 的技术实践正影响更广泛的社会领域。 未来当 AI 技术更加成熟游戏世界可能会成为人类与智能共创的最佳平台。无论是生成独特的故事线还是构建自适应的虚拟生态玩家与 AI 的协作将为我们打开通往未知可能性的大门。 江湖未远未来已来。《逆水寒》的探索也只是起点属于「AI游戏」的精彩篇章还在书写之中。 #Multi-matrix Factorization Attention 阶跃公开了自家新型注意力机制KV缓存消耗直降93.7%性能不减反增 虽然业界已有 MQA、GQA、MLA 等多种注意力机制变体试图解决这一问题但这些方案要么难以在严格的显存限制下保持理想性能要么在模型结构上引入额外复杂度带来巨大的工程挑战和生态兼容性问题。 在近期由阶跃星辰、清华大学等机构完成的论文《Multi-matrix Factorization Attention》中研究人员提出新型注意力机制架构 —— 多矩阵分解注意力MFA及其变体 MFA-Key-Reuse在大幅降低语言模型推理成本的同时还实现了性能的显著提升。 链接https://arxiv.org/abs/2412.19255 实验中MFA 和 MFA-KR 不仅超越了 MLA 的性能还在减少了高达 93.7% 的 KV Cache 使用量的情况下与传统的 MHA 性能相当。于此同时MFA 实现简单容易复现对超参敏感度低且兼容各种 Pos-embedding。 MFA 方法与分析 研究团队通过研究 Attention 机制的一般性设计和容量分析明确了 Attention 机制的容量最相关的两个维度并且提出了一系列的分析方法和设计原则。 为了更好地理解注意力机制的本质研究团队提出了广义多头注意力GMHA的概念框架为理解不同的 MHA 变种注意力机制提供了一个统一的视角。进一步地研究团队分别从推理角度研究键值的计算和存储方式从分解角度探讨模型的容量特征。这种创新的分析方法为理解不同策略如何在模型性能和计算效率之间取得平衡提供了全新视角。 在此基础上研究者们确立了完全参数化双线性注意力FPBA作为理论上的性能上限标准。他们发现目前广泛使用的 MHA 及其各种变体实际上都可以被视为 FPBA 的低秩分解版本。研究团队在分析现有解决方案时重点考察了两个代表性的改进方案多查询注意力MQA和多头潜在注意力MLA。 对于 MQA研究人员发现它采用了一种更激进的参数共享策略。不同于 MHA 在头部之间保持独立的参数MQA 让所有注意力头共享同一组键值参数。这种设计虽然将内存使用降到了极低的水平但可能会影响模型的表达能力。研究团队指出这种权衡实际上反映了一个更普遍的设计困境如何在保持模型性能的同时减少资源消耗。 而对于更新的 MLA 方案研究人员发现它采用了更为复杂的架构设计。MLA 引入了一个共享的潜在空间通过在这个空间中进行参数压缩来节省内存。虽然这种设计看似提供了更大的灵活性因为中间维度可以设置得更大但研究团队的理论分析揭示了一个关键问题模型的实际表达能力仍然受限于最小维度的约束这意味着 MLA 的设计中增加中间维度并不能真正提升模型的性能上限。 在深入分析现有方案的基础上研究团队提出了一个雄心勃勃的目标开发一种新的注意力机制既能最大限度地节省资源又能尽可能接近理论性能上限。这个目标促使他们开发出了多矩阵分解注意力MFA。 MFA 的设计体现了研究团队的三个关键创新 首先他们突破传统设计的局限显著增加了注意力头的数量和维度极大增加了注意力模块的模型容量。其次研究团队在矩阵分解方面实现了创新性突破采用激进的低秩分解策略成功地在扩展模型注意力头的数量和维度时保持了极高的参数效率。最后研究团队采用单键值头设计这个设计确保了即使在增加模型复杂度的情况下内存使用仍然保持在最低水平。 为了进一步分析 MFA 和其他注意力机制的不同研究团队提供了一个清晰的对比表格。研究人员首先引入两个关键指标来度量 GMHA 系列模型的容量模型总有效秩 TER Total Effective Rank 和 共享隐空间维度 SLSDShared latent subspace dim。总有效秩 TER 定义为注意力头数量与每个头部分解秩Factorization rank per head简称 FRH的乘积而共享隐空间维度 SLSD 则代表了所有注意力头共同使用的隐空间维度注意到 TER 和  SLSD 越大模型具有更高的容量。同时注意到每个头的分解秩FRH不超过 SLSD而 KV Cache 的占用受制于 FRH 和 SLSD 之间的较大值这构成了容量和效率之间的关键权衡。 通过这个框架进行分析可以发现与 MQA 相比MFA 同时实现了更高的 SLSD 和更高的 TER与 MLA 相比在相似的参数预算下MFA 不仅达到了更小的 KV cache 尺寸还实现了更高的 TER同时保持了相当的 SLSD与传统的 MHA 相比虽然 MFA 的 SLSD 较小但它的 TER 更高这解释了为什么在实验中 MFA 能够获得更好的性能。 实验结果 为了研究新架构在可能的更大规模上的表现研究团队开展了一系列深入的扩展性实验系统地测试了从 1B 到 7B 参数的不同规模的模型训练数据量从 10B 扩展到 1T。在性能扩展方面研究团队的 MFA 方案展现出与传统 MHA 完全相当的扩展能力。这意味着即使在更大规模下MFA 依然能保持其优异的性能。而 MFA-KR 虽然在性能上略有降低但其扩展趋势与 MHA 保持一致。而随着模型规模的增加MFA 和 MFA-KR 在内存节省方面的优势不仅得到保持还呈现出进一步扩大的趋势。在最大规模模型上MFA 实现了 87.5% 的内存节省而 MFA-KR 更是将内存使用降低到原来的 6.25%。 研究人员还进行了一系列的消融实验证明 MFA 和 MFA-KR 的设计的有效性并在其他的主流的位置编码上也验证了 MFA 和 MFA-KR 的性能优势。 展望 MFA 用最简洁的设计带来了最显著的提升在不增加额外工程复杂度的前提下优雅地解决了 LLM 的高效推理显存瓶颈问题并能无缝集成到现有的 Transformer 生态中。这种简单而强大的创新必将加速大语言模型在更多场景中的落地应用。 #2025 AAAI Fellow公布 港科大广州熊辉、华盛顿大学陈一昕等四位华人入选 含金量极高。 AAAIAssociation for the Advancement of Artificial Intelligence是国际人工智能领域最权威的学术组织之一Fellow 是该学会给予会员的最高荣誉仅颁给对人工智能做出「非同寻常的卓越贡献者」而且评价时间以十年计。 由于其评判极其严格历届 AAAI Fellow 入选会士均为人工智能领域公认的著名学者每年严格限制入选人数因此被誉为国际人工智能领域的名人堂。 今天AAAI 公布了 2025 年度的 Fellow 评选结果共有 16 位 AI 学者入选其中有 4 位华人学者。 陈一昕 机构华盛顿大学入选理由因在机器学习领域做出重要贡献开创了广泛使用的图神经网络架构和轻量级深度神经网络算法。 陈一昕Yixin Chen是圣路易斯华盛顿大学计算机科学与工程系的教授。自 2005 年加入该校以来他一直致力于数据挖掘、机器学习、人工智能和优化领域的研究曾在 AAAI (2010)、AMIA (2015) 和 IDEAL (2016) 等顶级会议上斩获最佳论文奖。他是《可解释人工智能导论》一书的作者之一。2022 年陈一昕凭借其研究成果和学术影响力荣获 IEEE Fellow 的称号。 付昀 机构美国东北大学入选理由在计算机视觉、增强人机交互方面的变革性技术创新以及在 AI 技术商业化而做出了重大贡献。 付昀Yun Raymond Fu既是人工智能专家又是成功的连续创业者。目前他是东北大学的杰出教授。他在计算机视觉、增强现实、人机交互等前沿领域做出了开创性贡献发表了 500 多篇科研论文拥有 40 多项专利。 他曾四度创业将先进的 AI 技术应用于化妆品电商、电视广告分析等行业。他领导的初创公司 Giaran 被日本化妆品巨头资生堂收购获得 5800 万美元风投。他还获得了众多重要奖项如 IEEE、ACM、IAPR 等会议的 12 项最佳论文奖以及谷歌、亚马逊、三星、Adobe 等知名企业评选的行业大奖。此外他已入选 IEEE、AAAI、OSA 等学会的 Fellow。 熊辉 机构香港科技大学广州入选理由对人工智能和移动计算领域做出了重大贡献并开发了广泛使用的 Informer 算法。 熊辉Hui Xiong现为香港科技大学广州协理副校长人工智能学域讲座教授Chair Professor。熊辉教授长期从事数据挖掘与人工智能方面的科研工作在 Nature Communications、TKDE、TOIS、KDD、VLDB、AAAI、IJCAI、NeurIPS 等国际顶级期刊和会议上发表论文 400 余篇。 熊辉教授曾任美国罗格斯 - 新泽西州立大学杰出终身教授及百度研究院副院长。他获得的荣誉包括 AAAS Fellow、IEEE Fellow、ACM 杰出科学家、中国人工智能学会会士、2017 IEEE ICDM Outstanding Service Award、ICDM-2011 最佳研究论文奖、AAAI 2021 最佳论文奖等等。 杨明玄 机构加州大学默塞德分校、 Google DeepMind入选理由为视觉跟踪、低级视觉和视觉学习方面做出了重大贡献提供了广泛使用的基准数据集和开源代码。 杨明玄Ming-Hsuan Yang是加州大学电气工程与计算机科学教授2000 年获得了伊利诺伊大学厄巴纳 — 香槟分校的计算机科学博士学位。他的主要研究兴趣包括计算机视觉、模式识别、人工智能、机器人和机器学习他在目标跟踪算法评测方面做出了重要贡献提出了广泛认可的基准数据集。 他曾担任 ACCV 2014 程序共同主席、ACCV 2016 大会共同主席和 ICCV 2019 程序共同主席此外还担任 ICCV、CVPR、ECCV、NeurIPS、ICLR、AAAI、 IJCAI、WACV、FG 等学术会议的领域主席。 以下是其他 12 位入选今年 AAAI Fellow 的简要介绍 Maria-Florina (Nina) Balcan机构卡内基梅隆大学入选理由对机器学习的基础及其在多智能体系统和现代算法设计中的应用做出了重大贡献。Mohit Bansal机构北卡罗来纳大学教堂山分校入选理由对多模态 AI 基础以及忠实的语言生成和总结做出了重大贡献。J. Christopher Beck机构多伦多大学入选理由对规划和调度、约束规划以及运筹学和人工智能在组合优化中的整合做出了重大贡献。Emma Brunskill机构斯坦福大学入选理由对强化学习领域以及社会福利应用尤其是教育 AI 做出了重大贡献。Ernest Davis机构纽约大学入选理由对自动常识推理特别是空间和物理推理做出了重大贡献并撰写了向普通观众解释 AI 的著作。Emilio Ferrara机构南加州大学入选理由对计算社会科学和在线信息传播与操纵研究做出了开创性贡献。Gal Kaminka机构巴伊兰大学入选理由在规划和目标识别、协作多机器人系统以及展示社交智能的多智能体系统方面做出了重大贡献。Kate Larson机构滑铁卢大学入选理由在多智能体系统基础以及为更广泛的 AI 社区提供服务方面做出了重大贡献。Karen Myers机构SRI International入选理由在 AI 规划领域做出了重大贡献包括以人为本的规划技术的开发和应用。Sriraam Natarajan机构德克萨斯大学达拉斯分校入选理由在统计关系 AI、医疗保健适应以及为 AAAI 社区提供服务方面做出了重大贡献。Roberto Navigli机构罗马大学入选理由在多语言自然语言理解以及开发广泛认可的知识资源构建、文本消歧和语义解析方法方面做出了重大贡献。Balaraman Ravindran机构印度理工学院马德拉斯分校入选理由在强化学习基础和应用方面做出了重大贡献。 参考内容 ​​https://aaai.org/about-aaai/aaai-awards/the-aaai-fellows-program/elected-aaai-fellows/​​​ #OpenAI可能已经突破 游戏结束了跨过起飞的最后临界阈值 OpenAI 的研究达到了可以自我递归改进的程度 刚刚X 上的一则帖子爆火浏览量达到 30 多万。 该推文涉及引领 AI 潮流的 OpenAI。内容显示「OpenAI 递归式自我改进目前在一个盒子里准确的说是在一个无法破解的盒子」 我们不难看出帖子内容突出了 OpenAI 的发展态势AI可以自我改进并且很难有人短期内破解。还有一则帖子表示 「OpenAI 可能已经获得了突破并最终跨越了临界点达到一个起飞状态 —— 即智能达到了可以自我递归改进的程度o4 或 o5 将能够自动化 AI 研发并完成其余工作。 像 o1 这样的模型的大部分意义不在于部署它而在于为下一个模型生成训练数据。o1 解决的每一个问题现在都是 o3 的训练数据点。 实际上我们有点惊讶于 OpenAI 竟然费心的部署了 o1-pro而不是将其保持私密并投资计算资源进行更多的 o3 训练等。这显然与 Anthropic 和 Claude-3.6-opus 的开发不同这个模型没有研发失败只是 Anthropic 选择将其保持私密并将其蒸馏成一个小而便宜但很智能的 Claude-3.6-sonnet。 如果你想知道为什么 OpenAI 的人突然在 X 上变得几乎是狂喜地乐观认真观察从原始 4o 模型到 o3 的改进可能就是原因。 这就像观看 AlphaGo 的 Elo 曲线它只是不断 up……up……up…… 这给我们一种感觉他们已经获得突破终于跨越了临界点即从仅仅是尖端 AI 工作其他机构将在几年内才能复制到起飞破解智能以至于 o4 或 o5 将能够自动化 AI 研发并完成其余工作。」 在这条推文下大家的讨论格外热烈。 有人表示「如果这是真的如果模型不需要人类进行训练那么《黑客帝国》的结果就不再有效了。」 「我一直是这么想的OpenAI 没有向公众发布他们最新的优秀模型他们总是在内部领先 1 或 2 代因为这为他们提供了开发优势。」 「也许最可怕的不是上述观点是否正确而是我们无法判断他是否错误。」 就连 OpenAI 研究员 Jason Wei 也跑到评论区发言魔法就是当一个不可阻挡的强化学习RL优化算法在充足的计算资源驱动下遇到一个无法被攻破的强化学习环境时奇迹就发生了。 Andrej Karpathy 也发表了自己的观点魔法就是当优化技巧破解了那个环境时就会出现。 对于上述观点你怎么看欢迎评论区留言。 参考链接 ​​https://x.com/AISafetyMemes/status/1879624959934497078​​ ​​https://x.com/AISafetyMemes/status/1879938756334977117​​ #Uni-AdaFocus 视频理解框架让AI学会「划重点」计算效率提升4-23倍 本文介绍刚刚被 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用的一篇文章Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition会议版本 AdaFocus V1/V2/V3 分别发表于 ICCV-2021 (oral)、CVPR-2022、ECCV-2022。 论文链接https://arxiv.org/abs/2412.11228项目链接https://github.com/LeapLabTHU/Uni-AdaFocus Uni-AdaFocus 是一个通用的高效视频理解框架实现了降低时间、空间、样本三维度冗余性的统一建模。代码和预训练模型已开源还有在自定义数据集上使用的完善教程请访问项目链接。 Uni-AdaFocus 的关键思想与设计思路在于它建立了一个统一的框架实现了降低时间、空间、样本冗余性的统一建模并且使用一些数学方法处理了时空动态计算不可微分的问题可以方便地进行高效端到端训练无需强化学习等更为复杂的方法。 具体而言 降低时间冗余性动态定位和聚焦于任务相关的关键视频帧降低空间冗余性动态定位和聚焦于视频帧中的任务相关空间区域降低样本冗余性将计算资源集中于更加困难的样本在不同样本间差异化分配 在长视频理解上Uni-AdaFocus 比现有最好的同类 baseline 加速了 5 倍。它可以兼容于现有的高效 backbone利用动态计算的思想进一步提升其效率例如将 TSM 和 X3D 各自加速了 4 倍左右。在上述加速情形中Uni-AdaFocus 基本上都在加速的同时实现了比较显著的准确性提升。 在 7 个学术数据集ActivityNet, FCVID, Mini-Kinetics, Sth-Sth V1V2, Jester, Kinetics-400和 3 个应用场景使用脑 MRI 诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测上进行了验证Uni-AdaFocus 发挥稳定特定典型情况下可实现多达 23 倍的性能无损推理加速或高达 7.7% 的准确性提升。 在 CPU/GPU 实测速度、吞吐量上Uni-AdaFocus 与理论结果高度一致。 接下来我们一起来看看该研究的细节。 研究背景和动机 相较于图像视频理解是一个分布范围更广、应用场景更多的任务。例如每分钟即有超过 300 小时的视频上传至 YouTube超过 82% 的消费互联网流量由在线视频组成。 自动识别这些海量视频中的人类行为、交互、事件、紧急情况等内容对于视频推荐、视频监控、智能编辑与创作、教育与培训、健康医疗等受众广泛的应用具有重要意义。 同时面向视频数据的视觉理解技术在具身智能、自动驾驶、机器人等物理世界的实际场景中也有广泛的应用空间。 近年来已有很多基于深度神经网络的视频理解算法取得了较佳的性能如 TSM、SlowFast、I3D、X3D、ViViT 等。然而一个严重的问题是相较于图像使用深度神经网络处理视频通常会引入急剧增长的计算开销。如下图所示将 ResNet-50 应用于视频理解将使运算量FLOPs扩大 8-75 倍。 因此一个关键问题在于如何降低视频理解模型的计算开销。一个非常自然的想法是从视频的时间维度入手一方面相邻的视频帧之间往往具有较大的相似性逐帧处理将引入冗余计算。另一方面并非全部视频帧的内容都与理解任务相关。现有工作大多从这一时间冗余性出发动态寻找视频中的若干关键帧进行重点处理以降低计算成本如下图第二行 (b) 所示。 然而值得注意的一点是该团队发现目前尚未有工作关注于视频中的空间冗余性。具体而言在每一帧视频中事实上只有一部分空间区域与任务相关如图中的运动员、起跳动作、水花等。 受此启发该团队提出了 AdaFocus 方法来动态定位每帧中的任务相关区域并将最多的计算资源分配到这些区域以实现高效处理如上图第三行 (c) 所示。 以 AdaFocus 为基础该团队进一步实现了时间、空间、样本三个维度的统一动态计算提出了一个通用于大多数骨干网络backbone的 Uni-AdaFocus 框架。 Uni-AdaFocus 能够自适应地关注于视频中任务相关的关键帧、关键帧中任务相关的重要区域、以及将计算资源更多地分配给更为困难的样本如上图第四行 (d) 所示。 模型简介 如上图所示Uni-AdaFocus 首先使用全局编码器 f_G轻量化的特征提取网络例如 MobileNet-V2 等用低成本对均匀采样的视频帧进行粗略处理获得视频整体的时空分布信息即全局特征。 一个策略网络 π 基于 f_G 提取的全局特征自适应地采样关键帧以及其中的关键区域得到值得关注的 patchespatch 的形状和大小根据视频帧的具体特性自适应地决定。局部编码器 f_L参数量大的大容量神经网络准确率高但计算开销较大仅处理策略网络 π 选择出的 patches即局部特征。 最后分类器 f_C 逐帧聚合全局特征和局部特征以得到最优的视频理解结果同时通过早退机制实现对样本维度计算冗余性的建模。 关于 Uni-AdaFocus 模型设计和训练方法的更多细节由于比较繁杂可以移步参阅论文。 实验结果 使用 MobileNet-V2 和 ResNet-50 为 backbone Uni-AdaFocus 在 ActivityNetFCVID 和 Mini-Kinetics 上的实验结果以及与现有最佳同类方法的比较。 蓝色文字表示基于 baseline 模型的提升幅度 使用 MobileNet-V2-TSM 和 ResNet-50-TSM 为 backboneUni-AdaFocus 在 Something-Something-V1 / V2 和 Jester 上的实验结果。 使用 X3D-S 和 X3D-L 为 backboneUni-AdaFocus 在 Kinetics-400 上的实验结果。 Uni-AdaFocus 在 3 个应用场景使用脑 MRI 诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测上的实验结果。 Uni-AdaFocus 的可视化结果。所示的视频帧为 Uni-AdaFocus 所选取的任务相关帧浅蓝色方块表示 Uni-AdaFocus 在每一帧选择的 patch。可以看到 Uni-AdaFocus 成功定位到任务相关视频帧中的任务相关区域例如长笛、小狗、圣诞树、马术运动员等并能自适应地调整 patch 的大小和形状、以及任务相关视频帧的数目。 #xx #xx #xx #xx #xx #xx
http://www.pierceye.com/news/302588/

相关文章:

  • 网站标题怎么做游戏推广工作好做吗
  • 网页设计制作网站模板免费静态网页设计模板免费
  • 成都的网站建设开发公司黄石网站建
  • 便宜的做网站公司网上下载的网页模板怎么用
  • 网站开发制作软件网站运营推广主要做什么的
  • 网页设计怎么建立网站网站馆店精准引流怎么推广
  • iis6建设网站上海到北京飞机航班查询
  • 做网站 创业 流程什么是网站标题
  • 怎么查询菠菜网站做没作弊沙朗做网站公司
  • 网站的建设周期与阶段广州王牌seo
  • 连江建设局网站手机网站建设套餐内容
  • 收录网站排名wordpress 搜索过滤
  • 上海网站建设代码长春又出现一例
  • 国外包装设计欣赏网站wordpress4.9.4环境要求
  • 免费域名网站查询好的营销网站设计公司
  • 网站说服力在百度上怎么建立网站
  • 医疗网站模板下载qq音乐的网站建设信息
  • 商务网站开发的的基本流程网站 设计 趋势
  • php mysql网站开发实例卖货平台排名前十
  • 房地产管理局网站建设银行北京市分行网站
  • 无锡哪家网站做的好黄骅市人事考试网
  • 芜湖seo网站优化淘宝官网首页手机版
  • 用付费网站做推广ui网站一般建好大
  • 四川建设行业网站有哪些最新体育新闻头条
  • 湘潭网站优化公司wordpress会员积分邀请
  • 腾讯网静态网站建设西宁网站建设公司排行
  • pc网站优势买完网站怎么建设
  • 网站设计与制作用什么软件外包加工网官网下载安装
  • 商城网站设计企业建一个o2o网站
  • 营销型网站创建php源码资源网