当前位置：首页 > news >正文

城市介绍网站模板大学做网站

news 2025/11/23 7:01:38

城市介绍网站模板,大学做网站,网页设计培训机构哪家好,一屏展示网站我自己的原文哦~ https://blog.51cto.com/whaosoft/14174587 #LaV-CoT 超越GPT-4o#xff0c;蚂蚁集团与南洋理工大学提出#xff1a;首个语言感知的视觉思维链随着大型视觉语言模型#xff08;VLM#xff09;的飞速发展#xff0c;它们在处理复杂的视…我自己的原文哦~ https://blog.51cto.com/whaosoft/14174587 #LaV-CoT 超越GPT-4o蚂蚁集团与南洋理工大学提出首个语言感知的视觉思维链随着大型视觉语言模型VLM的飞速发展它们在处理复杂的视觉问答任务时展现出惊人的能力。其中思维链Chain-of-Thought, CoT技术通过模拟人类一步一步的思考过程极大地增强了模型的推理能力和可解释性。然而当面临真实世界中更复杂的多语言视觉问答multilingual VQA, mVQA场景时现有的CoT方法开始捉襟见肘——它们大多是纯文本的并且以英语为中心常常导致推理过程与视觉信息脱节或在回答非英语问题时出现“语言错乱”例如用英语回答阿拉伯语问题。为了解决这一痛点来自蚂蚁集团和南洋理工大学的研究者们提出了一个名为 LaV-CoT 的全新框架。这是首个具备语言感知能力的视觉思维链Language-aware Visual CoT并引入了多维度奖励优化机制。LaV-CoT不仅在多个公开基准测试中取得了SOTA性能准确率相比同等规模的开源模型提升了约9.5%甚至超越了GPT-4o、Gemini-2.5-flash等顶尖专有模型其在真实世界在线A/B测试中的优异表现也证明了其巨大的工业应用潜力。论文标题: LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA作者: Jing Huang, Zhiya Tan, Shutao Gong, Fanwei Zeng, Jianshu Li机构: 蚂蚁集团、南洋理工大学论文地址: https://arxiv.org/abs/2509.10026代码地址: https://github.com/HJNVR/LaV-CoT 研究背景当CoT遇上多语言VQA的挑战思维链CoT让VLM在回答问题前先生成一个详细的推理步骤这使得模型的决策过程更加透明也更能处理复杂逻辑。但现有方法在多语言VQA场景下存在三大核心问题语言不一致模型可能无法识别问题的语言导致用一种语言提问却用另一种语言通常是英语回答。视觉-文本未对齐纯文本的CoT推理过程可能忽略或错误地解读了图像中的关键视觉信息。多语言推理能力有限模型在非英语语境下的复杂推理能力显著弱于英语。从直接回答(a)到普通CoT(b)再到LaV-CoT(c)模型的回答在语言一致性和准确性上逐步提升。 LaV-CoT正是为了系统性地解决这些问题而设计的它旨在创建一个既“看得懂图”又“说得对语言”的、结构化的推理框架。 LaV-CoT数据、流程与训练的“三位一体”创新 LaV-CoT的创新体现在三个层面定义了全新的语言感知视觉CoT推理流程设计了自动化的CoT数据生成管线并采用了基于多维度奖励的二阶段训练范式。 1. 语言感知的视觉CoT推理流程这是LaV-CoT的核心。它将复杂的推理过程分解为四个可解释、可验证的阶段带边界框的文本摘要 (Text Summary with BBox) 首先模型会检测并识别图像中的所有文本并用边界框BBox标出其位置然后对文本内容进行摘要。语言识别 (Language Identification) 接着模型会明确地识别出用户问题的所属语言并打上标签如\lang{Thai}。这是实现“语言感知”的关键一步。空间对象级描述 (Spatial Object-level Captioning) 模型会描述图像中与问题相关的关键对象及其空间位置关系并统计对象数量如\obj{5}。步进式逻辑推理 (Step-by-step Logical Reasoning) 最后模型综合以上所有信息用目标语言进行一步一步的逻辑推理最终得出答案。 2. 自动化的多语言CoT数据生成高质量的CoT训练数据是稀缺且昂贵的。LaV-CoT设计了一套自动化数据策划方法来解决这个问题。它利用一个强大的VLM如GPT-4o作为“生成器”遵循上述四阶段流程生成初始的CoT标注。然后再利用一个“评估器”对生成的每一步进行打分和校验。对于不合格的步骤系统会定位错误并调用生成器进行修正如此迭代生成、纠错、精炼直至产出完全通过验证的高质量多语言CoT数据为后续的模型训练提供了可扩展的数据基础。 3. 基于多维度奖励的二阶段训练为了让模型能完美地学习和执行LaV-CoT流程研究者设计了独特的两阶段训练范式阶段一监督微调 (SFT) 首先在自动生成的CoT数据集上对基础VLM进行SFT让模型学会LaV-CoT的四阶段推理结构。阶段二语言感知的分组相对策略优化 (GRPO) 这是LaV-CoT性能起飞的关键。它是一种强化学习优化方法模型会针对一个问题生成多个候选的CoT推理路径。然后一个多维度奖励函数会从多个方面对这些路径进行打分包括语言一致性奖励推理和答案的语言是否与问题一致结构准确性奖励CoT是否严格遵循了四阶段格式文本和对象的计数是否正确语义对齐奖励最终答案是否正确通过与标准答案的编辑距离等计算这种精细化的奖励机制引导模型不仅仅是“答对问题”更是要“以正确、一致、可解释的方式答对问题”。实验结果全面超越效果惊人 LaV-CoT在MMMB、Multilingual MMBench、MTVQA等多个权威的多语言VQA基准上进行了广泛评测。性能大幅领先基于Qwen2.5-VL-3B训练的LaV-CoT模型相比同等规模的开源基线平均准确率提升了约9.5%。更惊人的是它甚至比两倍参数规模的Qwen2.5-VL-7B等模型还高出约2.6%。超越顶尖专有模型在多个语言特别是阿拉伯语、土耳其语等的任务上LaV-CoT的表现超越了GPT-4o和Gemini-2.5-flash。对于一个阿拉伯语问题Qwen2.5-VL-7B虽然进行了推理但语言错乱且答案错误而LaV-CoT则能全程使用阿拉伯语进行正确推理。真实世界验证研究团队还将LaV-CoT集成到企业级的智能文档处理系统中进行了在线A/B测试。结果显示相比原有的生产管线LaV-CoT使答案采纳率提升了8.7%用户满意度提升了12.4%充分证明了其在工业界部署的巨大价值。总结与价值 LaV-CoT的提出为多语言、多模态人机交互领域树立了新的标杆。其核心贡献在于首创语言感知的视觉CoT框架通过结构化的多阶段推理流程有效解决了VLM在多语言场景下的语言不一致和视觉-文本对齐问题。可扩展的自动化数据方案创新的“生成-验证-修正”数据闭环为训练高质量的CoT模型提供了一种可规模化、低成本的解决方案。精细化的多维度奖励优化设计的GRPO训练范式和多方面奖励函数为模型学习复杂、结构化的推理能力提供了强有力的引导。SOTA的性能与工业价值无论是在学术基准还是真实的工业场景LaV-CoT都展现了卓越的性能和巨大的应用潜力。 CV君认为LaV-CoT不仅是一个强大的VQA模型更重要的是它为如何构建更鲁棒、更可信、更能适应全球化应用的多模态AI系统提供了一套完整且极具启发性的方法论。 .. #LayerLock DeepMind与牛津大学提出用渐进式层冻结实现高效、无崩溃的自监督视觉表征学习在自监督学习领域如何让模型在没有标签的情况下学到有用的视觉表征一直是核心挑战。其中掩码自编码MAE是一个明星方法但它依赖于繁重的像素重建任务。另一条路是预测网络自身的“潜在特征”这更高效却极易陷入“表征崩溃”的陷阱——即模型学会了一个无用的、平凡的解。本文介绍一篇来自 Google DeepMind 和牛津大学的最新研究该研究已被 ICCV 2025 接收。论文提出了一种名为 LayerLock 的方法它通过一个简单而巧妙的“渐进式层冻结”策略成功解决了潜在预测中的表征崩溃问题同时提升了训练效率。简而言之LayerLock就像一个聪明的课程表引导模型从“学习像素”平滑过渡到“学习特征”最终培养出更强大的视觉能力。该方法已成功扩展至 40亿参数的大模型。论文标题: LayerLock: Non-collapsing Representation Learning with Progressive Freezing作者: Goker Erdogan, Nikhil Parthasarathy, Catalin Ionescu, Drew Hudson, Alexander Lerchner, Andrew Zisserman, Mehdi Sajjadi, Joao Carreira机构: Google DeepMind, 牛津大学论文地址: https://arxiv.org/abs/2509.10156录用信息: ICCV 2025 研究背景与动机自监督学习旨在让模型从无标签数据中“自我教育”。其中掩码自编码Masked Auto-Encoding, MAE 是一种主流范式它随机遮挡输入如视频帧的一部分然后让模型去重建被遮挡的内容。这种“完形填空”式的任务迫使模型学习到底层视觉规律。然而直接重建像素计算成本高且可能过于关注低级纹理细节。一个更高效的替代方案是潜在预测Latent Prediction即不预测原始像素而是预测网络自身在某个中间层产生的特征潜在表征。这种方法的挑战在于极易发生 “表征崩溃”Representation Collapse。想象一下如果模型的“学生”部分解码器要预测“老师”部分编码器的输出最简单的“作弊”方法就是让老师输出一个常数学生也跟着输出一个常数损失函数瞬间降为零但模型什么有用的东西都没学到。为了防止这种“躺平”现象现有方法通常需要引入复杂的机制如非对称架构、停止梯度、目标编码器等。而LayerLock则提出或许只需要一个更聪明的训练流程。 LayerLock从一个惊人发现到优雅解决方案 LayerLock的灵感来源是一个简单而关键的观察在训练基于ViT的视频MAE模型时网络层的收敛存在明确的先后顺序——浅层网络总是比深层网络更早收敛。上图清晰地展示了这一点横轴是冻结操作开始的训练步数纵轴是最终的损失。可以看到浅层如Layer 3即使在训练早期如2000步就被冻结最终的性能也几乎不受影响。而深层如Layer 12如果过早冻结性能就会大打折扣。这说明浅层特征学习得非常快。基于这一观察研究者提出了 LayerLock 策略其核心思想是设计一个课程学习Curriculum Learning方案初始阶段预测像素。训练开始时模型执行标准的MAE任务即重建被遮挡的像素。这为模型提供了一个稳定且有意义的初始学习信号使其学到基础的视觉特征。渐进冻结与目标切换。根据一个预设的时间表schedule在训练的特定阶段逐步冻结已经收敛的浅层网络。关键操作是每当冻结网络的某一层比如第k层时就将预测目标从原始像素切换为该层第k层的输出特征。持续推进。随着训练的进行冻结的层数越来越多预测的目标也越来越“深入”网络内部从低级特征平滑过渡到高级、抽象的语义特征。上图直观地展示了这个过程左图初始状态无冻结层模型预测像素 x。中图冻结第一层后模型转而预测第一层的输出 h1。右图继续冻结前两层模型的目标变为预测第二层的输出 h2。这个过程不断持续直到大部分编码器层都被冻结。CV君认为LayerLock的巧妙之处在于它将“层收敛的先后顺序”这一经验观察转化为了一个动态的、从易到难的学习课程。通过先让模型稳定地学会预测浅层特征再逐步增加难度去预测深层特征自然而然地避免了“表征崩溃”的发生因为模型在任何阶段都有一个非平凡non-trivial的学习目标。 LayerLock前向传播伪代码实验结果与分析研究者在高达10亿视频片段的数据集上对最大 40亿参数的4DS模型家族应用了LayerLock并在动作识别SSv2, Kinetics-700和深度估计ScanNet等任务上进行了评估。 1. LayerLock显著提升性能实验结果下表表明无论是在基于像素预测的MAE模型4DS-G, 4DS-e上还是在基于潜在预测的V-JEPA模型上应用LayerLock都带来了显著的性能提升尤其是在需要高级语义理解的动作识别任务上。 2. 渐进式冻结是防止崩溃的关键为了证明“渐进式冻结”的必要性研究者进行了一项关键的消融实验在标准的MAE模型上不使用冻结策略而是直接添加潜在损失即同时预测像素和中间层特征。结果如下表所示模型的性能急剧下降出现了明显的“表征崩溃”现象。这有力地证明了LayerLock中的渐进式冻结和目标切换机制是防止崩溃的核心所在。 3. 提升训练效率节省计算和内存除了提升性能LayerLock还带来了实实在在的效率增益。由于网络层被逐渐冻结反向传播需要计算的梯度越来越少。实验表明简单的逐层冻结策略可以在性能几乎无损的情况下节省9%的总计算量FLOPs和16%的峰值内存占用。对于动辄需要数百上千卡时训练的大模型而言这是非常可观的优化。 4. 其他消融研究研究者还进行了详尽的消融实验探讨了冻结时间表、目标选择、损失函数加温等超参数的影响为方法的有效性提供了坚实支撑。例如实验发现 3D RoPE位置编码新颖的3D旋转位置编码能独立地提升基线和LayerLock的性能。单一预测目标足够在每个阶段只预测最新冻结层的输出就足以达到良好性能无需同时预测多个历史目标。冻结时间表更平滑、渐进的冻结计划通常比激进的计划效果更好。总结与贡献 LayerLock 提出了一种简单、通用且高效的自监督视觉表征学习方法。其核心贡献在于揭示了ViT层序贯收敛的现象首次明确指出并利用了视频MAE训练中“浅层先收敛深层后收敛”的规律。提出了渐进式冻结的学习框架通过动态地将预测目标从像素平滑过渡到不同深度的潜在特征有效解决了潜在预测中的“表征崩溃”问题增强了训练的稳定性。提升了训练效率通过冻结部分网络减少了反向传播的计算量和内存占用为训练更大、更深的视频模型开辟了道路。验证了其通用性和可扩展性该方法不仅适用于多种模型MAE, V-JEPA还在高达40亿参数的大模型上取得了成功并在多个下游任务上超越了基线性能。总而言之LayerLock为自监督学习社区提供了一个优雅而实用的新“配方”有时候解决棘手的“表征崩溃”问题并不需要复杂的模型设计而可能只需要一个更懂模型学习动态的训练策略。 .. #Ark 告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架近年来机器人技术在硬件领域取得了显著突破 —— 无论是 DARPA 机器人挑战赛还是首届人形机器人自由搏击表演都展示了令人瞩目的进展。然而机器人的自主能力仍明显落后于机器学习的发展步伐。造成这一差距的关键瓶颈在于软件层面现有的机器人技术栈学习门槛较高仍大量依赖 C/C 进行底层开发工具链分散且硬件集成复杂。相比之下推动现代人工智能发展的生态系统以 Python 为核心文档完善、易于使用 —— 两者形成了鲜明对比。为应对这些挑战来自华为诺亚方舟实验室德国达姆施塔特工业大学英国伦敦大学学院帝国理工学院和牛津大学的研究者们联合推出了 Ark —— 一个基于 Python 的机器人开发框架支持快速原型构建并可便捷地在仿真和真实机器人系统上部署新算法。 Ark 与主流机器学习工作流深度兼容能够从仿真环境或实际机器人中采集和预处理数据并支持使用如 ACT、Diffusion Policy 等前沿模仿学习方法进行策略训练。该框架采用类似 OpenAI Gym 风格的主接口设计极大降低了机器学习研究者的上手门槛便于集成与实验。在架构层面Ark 使用基于网络的 Python 节点实现发布 / 订阅通信机制同时也提供 C/C 工具以兼容高性能需求场景。框架还内置了对 ROS 的原生支持包含底层控制、数据工具、可视化、系统辨识、移动底盘导航等多个核心模块并配备完整的文档与实用示例。图 1: Ark 的整体框架论文链接https://arxiv.org/pdf/2506.21628代码链接https://github.com/Robotics-Ark教程链接https://arkrobotics.notion.site/Ark-Home-22be053d9c6f8096bcdbefd6276aba61 图 2: Ark 目前的下载量 Ark 框架概述为推进xx智能研究的发展Ark 应运而生。该框架致力于与典型机器学习工作流深度整合使用户能够快速构建原型并将其部署至物理机器人。其设计秉持三大理念 D1兼容主流机器学习生态 Ark 提供与广泛使用的机器学习库一致的用户接口降低机器学习背景研究者参与机器人开发的门槛弥补机器人学习系统在成熟度与标准化方面的不足。 D2支持仿真 - 实机无缝切换 Ark 着力打通模拟环境与真实系统之间的壁垒既保障开发阶段的安全性也显著降低从仿真迁移到实机过程中的复杂度和错误率。 D3以 Python 为中心兼顾高性能需求 Ark 以 Python 作为核心开发语言依托其丰富的生态系统支持快速迭代与实验。同时针对高频任务如底层运动控制也提供了便捷的 C/C 接口扩展能力确保关键模块的执行效率。下文将具体介绍 Ark 的核心功能与实现特点。 Ark 网络模块化是机器人软件系统设计的一项基本原则通过将系统拆分为数据采集、状态估计、任务规划与控制等独立模块可有效提升可维护性和扩展性。Ark 框架将每个模块实现为独立的 Python 进程称为 “节点”节点之间通过异步消息通道进行通信采用灵活的发布 / 订阅机制实现数据交换。用户可通过形如 NODE_NAME/CHANNEL_NAME 的命名方式定义通道并动态创建发布端和订阅端。我们遵循 LCM 类型规范语言定义消息类型每个消息通道通过名称和消息类型标识。Ark 提供名为 ark_types 的消息类型库包含多种机器常用类型如 joint_state_t 或 transform_t。当前版本中Ark 使用 LCM 作为底层通信后端其轻量化架构和丰富的配套工具如日志记录、调试和内省支持特别适用于机器人系统中的数据记录与开发调试。同时网络层被设计为可插拔结构便于未来扩展如分布式训练与推理等复杂机器学习工作流。使用 LCM 的另一优势是易于集成 C/C/Java 等底层语言。由于 Ark 节点通过 LCM 消息通道通信其他语言编写的脚本也可利用标准 LCM 接口进行网络通信。这对于仅支持厂商提供的 C/C/Java API 的硬件设备如力反馈接口非常有用。用户可通过实现相应的 LCM 发布 / 订阅接口将设备接入 Ark。然而基于 Ark 在仿真与真实环境间协调的架构设计后文讨论以 LCM 作为其他语言与 Python 之间的桥梁并非总是最佳选择。为此Ark 提供一系列工具和辅助函数 / 类帮助用户直接将 C/C 功能封装到 Python。 Ark 还提供以下功能 Services为需明确请求 - 响应的操作如机械臂标定触发提供支持基于 LCM 类型系统定义请求与响应结构Registry作为轻量级的网络协调与服务发现枢纽支持运行时可视化与故障隔离Launcher允许用户在单一 YAML 格式配置文件中定义整个网络通过一次终端执行自动启动所有指定子进程。观测与动作通道 Ark 采用 GymnasiumOpenAI Gym风格的接口设计reset () 方法返回初始观测值和环境信息step () 方法则返回下一步的观测值、奖励、终止 / 截断标志以及信息字典。每个环境在初始化时通过一个字典结构分别定义其观测空间与动作空间所依赖的消息通道观测空间通过订阅多个消息通道获取数据动作空间则通过向指定通道发布指令来控制机器人。不同观测通道可支持不同的采样频率环境在每一步执行时自动返回各通道最新的一条消息。这种设计使研究者能够快速原型化不同的策略输入输出组合灵活适配多种算法与任务结构。真实世界与物理仿真 Ark 的一大能力是通过单个配置开关在仿真与真实机器人之间切换sim True/False。Ark 以分布式节点架构把机器人与传感器无论真实还是仿真都实现为独立节点仿真端由一份 YAML 配置驱动使仿真与真实系统接口的节点保持一致从而可以在仿真模拟和现实部署中轻松切换。在仿真后端上Ark 并不是绑定单一模拟器而是提供后端抽象层以便按需对接。当前 Ark 已支持 PyBullet 与 MuJoCo后续计划集成 Isaac Sim 等仿真 / 现实的切换和后端选择全部通过 YAML 配置完成Ark 自动初始化相应驱动保证消息模式、通道命名与执行流程保持一致。图 2: Ark 使用统一配置文件来实例化反映真实世界部署的分布式模拟系统机器人与传感器驱动 Ark 虽然在用户接口层面如类 Gym 的交互方式提供了标准化的设计但整个框架在架构上保持了高度的可扩展性。自设计之初我们就以广泛的机器人及传感器兼容性为目标致力于支持多样化的硬件生态。与近年出现的某些仅针对特定机型如 LeRobot、PyRobot的框架不同Ark 旨在支持更多的硬件并通过多种灵活的对接机制实现通用化集成。 Python 驱动接口 Ark 提供了抽象基类 ComponentDriver用于统一硬件组件与框架的集成方式。用户在实现具体驱动时只需继承该类并重写标准抽象方法例如传感器的 get_data 或机器人的 send_command。每个驱动均可与 Ark 的 “仿真 - 现实” 开关无缝集成系统会根据全局配置自动将消息路由到真实硬件或对应的仿真节点。 C 驱动支持在很多实际场景中仍然需要依赖 C/C 实现底层驱动例如某些设备仅提供原生 C/C 接口或需要高采样率以满足实时控制需求如足式机器人的步行控制。为此Ark 提供基于 pybind11 的 C 封装工具使得仅具备 C 接口的硬件也能够以与 Python 驱动一致的方式接入 Ark在保持性能的同时实现系统一体化。 ROS–Ark 桥接目前 ROS 仍是机器人领域应用最广泛的中间件体系部分机器人如 ViperX 机械臂仅提供基于 ROS 的官方接口。为兼容此类系统Ark 提供专用的 ROS–Ark 桥接驱动可实现 ROS topic 与 Ark 消息通道之间的双向通信。用户可在不改动原有 ROS 代码的前提下实现 ROS 与 Ark 的混合运行这也为从 ROS 逐步迁移至 Ark 提供了平滑过渡路径。根据我们与多家机器人实验室的实际使用反馈目前桥接器主要支持 ROS 1对 ROS 2 的支持将根据社区需求进一步评估和推进。内省与调试工具机器人系统通常由多个进程构成模块间耦合复杂因此一套完善的可视化与调试工具对快速定位和解决问题至关重要。Ark 为此提供了以下核心工具 Ark Graph实时显示系统中所有活跃节点、它们发布与订阅的消息通道以及当前可用的服务帮助用户快速理解系统拓扑和通信关系。Ark Plot支持对任意数值型消息通道进行实时绘图可用于观察变量随时间的变化趋势例如整定控制参数或诊断传感器数据行为。Ark Viewer实时可视化任意基于 LCM 传输的图像消息通道适用于相机标定、运行监控和图像算法调试。此外Ark 选择 LCM 作为通信中间件的另一个重要原因在于其原生提供的调试与内省工具套件。例如 lcm-spy 能够以图形化方式查看网络中流通的消息提供类似于 Wireshark 或 tcpdump 的抓包分析体验用户可以查看各通道的详细统计信息包括接收消息数量、消息频率Hz、网络抖动ms等关键指标极大增强了系统的可观测性与调试效率。图 3: Ark 可视化调试工具用例本节将通过一系列典型用例展示如何使用 Ark 快速构建常见的机器人学习工作流。所有示例均提供完整代码以便读者复现和实践。在仿真与现实之间切换将训练好的策略部署至真实机器人往往伴随显著的安全与工程化挑战而许多现有框架缺乏端到端的一体化流程导致解决方案分散、难以系统化和泛化。Ark 通过一层高度可配置的抽象机制基于统一的 Python/C 驱动架构实现了从仿真到真实系统的无缝部署。用户只需在完成环境包括机器人、传感器、物体等的统一定义后于配置文件中切换 simTrue/False即可切换至目标运行环境。我们在 ViperX 300s 固定基座机械臂上进行了抓取 - 放置任务的实例验证。整个环境通过一份 YAML 配置文件统一指定包括物体的初始位置、相机与机器人的位姿以及物理参数。观测值为当前关节位置指令动作为目标关节速度。仿真和真实环境均使用同一人工编写的专家策略进行控制。在向真实机器人迁移时仅需修改一个配置变量 simArk 便在内部自动将消息通道从仿真驱动程序切换至物理硬件驱动其余所有代码及数据结构均无需变更。图 4: 基于统一配置的 Ark 分布式仿真系统架构通过 YAML 文件定义机器人、传感器及组网参数实现与真实部署一致的多节点仿真支持策略无缝迁移模仿学习的数据采集模仿学习通常需要大规模的高质量演示数据目前常见的采集方式主要包括以下两种徒手示教Kinesthetic Teaching操作者直接通过物理引导机械臂完成动作任务。这种方式直观自然但存在设备安全与人员操作风险遥操作Teleoperation通过 VR 头显与手柄、游戏手柄等设备在安全距离外对机器人进行控制。该方法避免了直接接触但可能受限于视觉反馈质量和运动映射准确性对操作者技能有一定要求。得益于 Ark 高度模块化的架构和强类型消息通道机制用户可以灵活接入不同类型的示教接口。我们利用 LCM 提供的 lcm-logger 工具实时记录所有通道的数据至日志文件。Ark 内置从日志中提取数据并转换为 CSV 格式的工具并支持沿用环境中已定义的观测与动作通道配置从而确保数据格式在采集、训练与最终部署阶段完全一致。徒手示教以 ViperX 300s 机械臂为例操作者可直接牵引机械臂完成目标任务LCM 同步记录完整的关节轨迹与系统状态。尽管在该示例中相机未参与控制回路但仍可用于录制视觉数据以供后续分析。演示结束后记录的数据既可用于策略训练也可通过 lcm-logplayer 进行逐帧回放这对于处理包含人体影像可能引入视觉偏置或复杂物理交互的任务尤为有用。Ark 还提供了一键重置服务例如将 “重置” 操作绑定至键盘按键极大方便了连续多次示教与系统评估。遥操作 Ark 支持多种输入设备如 VR 控制器与游戏手柄如 PS4 手柄。在一种典型配置中用户通过 VR 控制器实时发送 6 自由度位姿指令系统通过逆运动学IK节点将其转化为关节速度目标另一种配置则使用手柄直接控制机械臂末端位姿。整个数据采集流程由一系列可复用的 Ark 节点协同完成包括手柄控制节点、环境转换节点将手柄信号转为末端目标、IK 解算节点将位姿转为关节指令以及用于发布图像和关节状态的传感器节点。凭借 LCM 强类型和通道隔离的特性更换相机或控制器时无需修改其他模块。采集完成后用户可使用相同的通道配置从日志中提取标准化数据直接用于训练。操作者还可通过手柄的 “X” 键快捷保存当前轨迹并触发机械臂复位至中立姿态。图 5: lcm-logger 通过记录来自多种控制接口的演示实现高效的数据采集模仿学习在本节中我们展示了若干实现模仿学习的应用案例重点介绍如何使用 Ark 进行数据采集、训练和策略部署。我们将展示了两种模仿学习方法iDiffusion PolicyiiACTArk 作为核心基础设施提供模块化组件、标准化接口和实时通信机制显著简化了从数据收集到策略部署的整个流程。 Diffusion Policy 实现与部署示例我们在 ViperX 300s 机械臂与 Intel RealSense RGB 相机上完成了推动任务pushingDiffusion Policy 实验。该任务的观测空间包括机器人关节位置及连续的 RGB 图像流动作空间为关节位置指令。在部署阶段系统完全复用了数据采集时的架构仅将原本的 “手柄控制节点” 替换为 “策略节点”。该策略节点从观测通道读取图像和关节状态并通过同一动作通道发布目标末端位姿。由于执行通路与采集阶段保持一致用户无需修改任何底层基础设施即可直接验证学习到的策略。图 6: Viper X 300s 机械臂执行扩散策略的连续动作序列 ACT 实现与部署示例除扩散策略外我们还基于 OpenPyro-A1 人形机器人平台实现了 ACT 方法的示例。通过 VR 设备进行遥操作收集了包括 “衣服整理” 与 “物体接力” 在内的多类任务数据。通过训练得到的策略能够生成精细且包含丰富接触交互的操作行为展现出较强的泛化与实物操作能力。图 7: OpenPyro 使用 ACT 策略执行衣服整理和物体接力任务移动机器人许多现实任务如设备巡检要求机器人能够在环境中自主移动至多个目标点。实现该能力需同时解决两个问题构建环境地图建图并在地图中实时定位自身定位这一过程合称为同步定位与建图SLAM。当地图构建完成且定位稳定可靠后机器人即可通过路径规划算法实现导航。我们在 Ark 中实现了一套完整的移动机器人导航流程首先通过遥操作控制机器人运动并利用机载 LiDAR 数据构建地图建图完成后使用 A* 算法进行全局路径规划并结合距离变换技术确保与障碍物保持安全距离最后通过 PD 控制器跟踪路径点生成差速驱动所需的轮速指令。建图为实现建图与定位Ark 提供了一套 “遥操作辅助 SLAM” 流程包含两个核心节点遥操作控制器与概率 SLAM 模块两者通过消息通道通信。用户通过遥操作节点发送线速度和角速度指令这些指令经 Ark 动作通道发送至底层控制器转换为左右轮速。同时LiDAR 数据与控制指令被实时发送至 SLAM 节点用于融合估计机器人位姿并构建地图。我们采用基于 Rao–Blackwellized 粒子滤波的 FastSLAM 方法每个粒子同时维护位姿估计和一个占据栅格地图栅格概率取值从 0空闲到 1占据。系统结构如图 8 所示。图 8Husky 机器人在 Ark 工具支持下于厨房环境实现 SLAM 建图与导航导航在已知地图且能可靠定位的基础上机器人可进行运动规划。我们集成 A* 算法作为全局规划器。规划器接收目标点位置和 SLAM 生成的占据栅格地图。首先通过阈值将地图二值化再计算距离变换图以获取每个栅格到最近障碍物的距离确保路径满足 “半车宽安全裕量” 的避障要求。A* 输出一条平滑的避障路径表示为一系列笛卡尔路标点 (x,y)并按设定分辨率进行下采样以提高执行效率。控制子系统根据实时位姿和路径点序列逐点跟踪先调整机器人朝向再沿直线移动至当前路标进入容差范围后自动切换下一目标。最终输出线速度和角速度并转换为差速驱动的轮速指令。 xx智能大语言模型LLM与视觉 - 语言模型VLM显著提升了机器人的高层推理能力。Ark 凭借其模块化设计与 Python 优先的架构天然适合将 LLM/VLM 作为高层策略选择器集成到机器人控制回路中。我们在 Viper 机械臂上构建了一个基于 LLM 的智能体系统图 9采用 DeepSeek-R1 作为底层模型遵循 “代码即策略code-as-policy” 范式将 “抓取”“按位置放置”“移除物体” 等操作封装为可参数化的策略函数。这些函数组成策略库供 LLM 调用模型根据任务上下文从库中选择合适技能并生成代码执行。 Ark 将整个系统解耦为感知、语言推理与运动执行等多个独立节点。DeepSeek 被封装为一个服务节点接收结构化提示词包含场景观测、可用函数和任务描述并返回推理结果。每一步决策中感知节点将棋盘状态、图像等观测数据发布到消息通道经整理后通过服务调用发送至 LLM 节点触发一次策略生成。图 9Ark 框架通过集成 DeepSeek 大模型赋予 Viper 机械臂国际象棋对弈能力未来工作和总结展望未来Ark 计划重点发展两大方向一是强化强化学习RL基础设施通过原生集成 Stable Baselines3 和 RLlib 等主流框架支持并行环境执行并提供统一的环境抽象接口实现在仿真与真实机器人之间高效训练、评估和部署 RL 策略二是提升高保真仿真能力在现有 PyBullet 和 MuJoCo 支持的基础上进一步引入域随机化、可微物理等关键特性增强策略的鲁棒性和仿真到现实的迁移效果同时与高性能仿真后端深度集成构建更精确、可扩展且功能丰富的模拟环境。 Ark 以现代化、模块化和用户友好的架构致力于在机器人学与机器学习之间建立高效桥梁既大幅降低了真实机器人部署的技术门槛又保持了面向前沿研究的灵活性与扩展性。随着仿真性能的提升、RL 生态融合的深化以及工具链的持续完善Ark 有望发展成为支撑xx智能研究的重要通用平台推动机器人学习社区不断向前迈进。表 1Ark 与同类框架的功能对比红色圆圈表示该框架不支持该特性 .... #Optical generative models 用光学生成图像几乎0耗电浙大校友一作研究登Nature 见过省电的模型但这么省电的还是第一次见。在《自然》杂志发表的一篇论文中加州大学洛杉矶分校 Shiqi Chen 等人描述了一种几乎不消耗电量的 AI 图像生成器的开发。该生成器是一种受扩散模型启发的光学生成模型。其工作原理如下首先通过数字编码器使用公开数据集训练生成最终构成图像的静态噪声这一过程仅需消耗极少能量。随后一种被称为空间光调制器SLM的液晶屏幕会将这种噪声模式刻印到激光束上。该激光束再通过第二台解码 SLM 装置将光束中的噪声模式转化为最终图像。与传统 AI 依赖数百万次计算机运算不同该系统利用光完成所有核心工作因此几乎不消耗电能。论文第一作者 Shiqi Chen 表示「我们的光学生成模型几乎无需算力就能合成海量图像为数字 AI 模型提供了可扩展且高能效的替代方案。」研究人员采用多种 AI 训练图像对系统进行测试包括名人肖像、蝴蝶图像以及梵高风格的全彩画作。结果显示光学系统生成的图像效果与传统图像生成器相当但能耗显著降低。该技术还具有广泛的应用前景。凭借其超高速和超低能耗特性该系统可用于生成 VR、AR 显示的图像视频也适用于智能手机、AI 眼镜等可穿戴电子设备的小型化终端。论文标题Optical generative models论文地址https://www.nature.com/articles/s41586-025-09446-5#MOESM1 不过该模型目前仍处于物理实验阶段离实用还有一段距离。方法概览本文提出的光学生成模型能够根据目标数据分布合成单色或彩色图像 —— 即通过光学方法生成特定数据分布中前所未见的新图像。受扩散模型启发该方案采用浅层数字编码器将随机二维高斯噪声模式快速转换为代表光学生成种子的二维相位结构。这种光学种子的产生是一次性的它涉及一个作用于随机二维噪声模式的浅而快速的相位空间编码器。根据目标分布即时生成图像或输出数据的过程可通过随机调用这些预先计算好的光学生成种子按需实现。这一广义概念可通过不同光学硬件实现集成光子学或基于自由空间的实现。即时图像生成图 1 展示了作者研发的单色图像即时生成模型的原理示意图。如图 1a 所示遵循正态分布的随机二维输入首先通过数字编码器转换为二维相位模式该编码器可快速提取潜在特征并将其编码至相位通道以供后续模拟处理。这些由随机噪声生成的相位编码输入作为光学生成种子被加载到 SLM 中为衍射光学生成模型提供信息输入。在相干光照下携带编码相位模式的光场继续传播并通过为特定目标数据分布优化的衍射解码器进行处理。最终生成的图像由图像传感器捕获这些图像符合目标数据分布特征。图 1b 展示了训练流程作者首先基于去噪扩散概率模型DDPM训练教师数字生成模型以学习目标数据分布。完成训练后冻结该 DDPM 模型并持续生成用于训练即时光学生成模型的噪声 - 图像数据对。浅层数字相位编码器与光学生成模型通过联合训练使模型能够以简洁可重构的架构高效学习目标分布。图 1c 呈现了盲推理过程由数字编码器从随机噪声模式产生的编码相位模式即光学种子是预先计算的光学生成模型则使用固定的静态解码器在自由空间中对这些生成相位种子进行解码。为实现从随机高斯噪声快速合成光学生成相位种子数字编码器包含三个全连接层其中前两层采用非线性激活函数详见方法部分。可重构衍射解码器通过 400 × 400 个可调相位特征每个特征覆盖 0-2π 范围进行优化完成优化后针对每个目标数据分布保持静态。图 1 迭代式光学生成模型作者还设计了一种迭代式光学通用模型可从高斯噪声中递归重建目标数据分布。如图 2a 所示该迭代光学生成模型同样工作在三个照明波长下通过浅层数字相位编码器编码的多通道相位图案被顺序加载到同一 SLM 上。为展示这种迭代光学模型的生成能力作者采用 Lₒ5 个联合优化并固定的解码层来处理目标数据分布。与前述即时光学生成模型的不同之处在于当图像传感器平面记录初始强度图像后测量结果会按设计方差添加高斯噪声该噪声扰动结果将作为下一时间步的迭代光学输入。图 2b 展示了这种迭代光学生成模型的训练过程采样一批时间步并相应地向原始数据添加噪声获得噪声样本。这些噪声样本经过浅层数字编码器和迭代光学生成模型处理得到连续输出。与标准 DDPM 实现不同该迭代光学生成模型直接预测去噪样本其损失函数根据原始数据计算。图 2c 概述了迭代式光学生成模型的盲推理过程已训练的光学模型对从最终时间步到初始时间步的扰动样本递归执行去噪操作最终生成的图像在传感器平面捕获详见方法部分。图 2 实验及结果在初步实验中研究者分别基于 MNIST 和 Fashion-MNIST 数据集训练了两个不同的模型用于生成手写数字和时尚商品图像。图 3c 为两个模型的结果生成的图片在 MNIST 和 Fashion-MNIST 数据集上分别达到了 131.08 和 180.57 的 FID 实验评分。这表明生成的图片符合这两个数据集的目标分布充分体现了所设计系统的多样性进一步验证了快照式光学生成模型的可行性。时长00:30 生成手写数字时长00:30 生成时尚商品研究者进一步将实验结果拓展至更高分辨率的梵高风格艺术作品生成。图 4 与图 5 分别展示了使用 5.8 亿参数数字编码器实现的高分辨率单色及彩色RGB图像生成实验结果。其中梵高风格单色图像采用 520 纳米波长照明生成而彩色图像则依次使用 {450, 520, 638} 纳米波长分别对应蓝、绿、红三通道。在多色梵高风格艺术图像生成实验中研究者为每个波长通道生成了相应的相位编码生成种子图案并依次加载到空间光调制器SLM上。在对应波长的照明下利用固定或静态的衍射解码器生成多彩图像并通过数字方式进行融合。换言之在所有波长照明下的图像生成过程中系统共享同一个解码器状态。图 5 展示了多色梵高风格艺术作品的生成结果其中既包含与教师数字扩散模型输出高度吻合的案例也包含具有差异性输出的示例该教师模型需使用 10.7 亿可训练参数并通过 1000 次迭代步骤生成单幅图像。尽管观察到轻微的色差现象生成的高分辨率彩色图像仍保持了优异的质量。作者介绍 Shiqi Chen加州大学洛杉矶分校UCLA博士后研究员导师为 Aydogan Ozcan 教授。此前他在浙江大学获得博士学位师从冯华君教授和徐之海教授。 Shiqi Chen 在博士期间主要研究重点是应用光学和计算机视觉以实现更清晰的计算成像其中部分研究成果已应用于最新的移动终端设备。个人主页https://tangeego.github.io/ ... #OpenVision 2 大道至简的生成式预训练视觉编码器本文来自加州大学圣克鲁兹分校UCSC、苹果公司Apple与加州大学伯克利分校UCB的合作研究。第一作者刘彦青本科毕业于浙江大学现为UCSC博士生研究方向包括多模态理解、视觉-语言预训练与视觉基础模型。其余作者包括李先航UCSC、张乐天USCS、王子瑞Apple、郑泽宇UCB、周郁音UCSC。通讯作者为UCSC的谢慈航教授。在多模态大模型快速演进的浪潮中视觉模块一直是支撑整个体系的关键基石。长期以来CLIP 式的图文对比学习几乎成为视觉预训练的默认思路。从 OpenAI 的 CLIP 到 Google 的 SigLIP再到一系列开源复现业界普遍认为想要获得强大的视觉编码器就必须依赖对比学习。近日来自加州大学圣克鲁兹分校、苹果公司、加州大学伯克利的研究者提出了 OpenVision 2一种极简的生成式视觉预训练新方向。这项工作在保持最优性能的同时大幅提升了训练效率并在生成式框架下实现了 10 亿参数规模的可扩展训练。 ✍️论文标题OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning 论文地址arXiv:2509.01644 项目主页https://ucsc-vlaa.github.io/OpenVision2 代码与模型GitHub · UCSC-VLAA/OpenVision Hugging Face 模型库OpenVision 2 on HuggingFace 从 OpenVision 到 OpenVision 2 今年早些时候研究团队在 ICCV 发布了 OpenVision这是一个完全基于公开数据和开源代码训练的视觉编码器家族旨在为社区提供真正开放、透明、可复现的视觉骨干。该项目一次性开源了超过 25 个预训练模型参数量从 590 万到 6 亿覆盖多种 patch size 与分辨率设置成为学术界和产业界构建多模态模型时的重要替代方案。实验显示OpenVision 在多个多模态基准任务上已经可以媲美甚至超越 OpenAI 的 CLIP 以及 Google 的 SigLIP为社区提供了可靠的开源替代。然而OpenVision 的训练管线仍然偏复杂。为了充分利用高质量的合成描述它在 CLIP 的基础上引入了两方面额外设计双重对比目标每张图像既要和 web caption 对齐又要和部分合成 caption 对齐导致文本编码器的计算量几乎翻倍训练成本也随之显著增加。生成式 caption 预测模型还需要在图像和原始 alt-text 的条件下生成完整的合成描述这进一步增加了解码器的计算开销。这些设计确实提升了表征质量但也让训练过程变得更重计算成本更高扩展到更大规模时受到明显限制。极简思路生成式的 OpenVision 2 在 OpenVision 2 中研究者们做出了大胆简化直接移除文本编码器与对比学习只保留「图像 → 描述」的生成目标。由此形成的框架仅包含两个模块图像编码器文本解码器。没有对比学习的双塔结构没有额外的文本塔开销依赖高质量合成描述作为唯一监督信号除此之外OpenVision 2 还引入了一个关键技巧在预训练阶段随机丢弃约 2/3 的视觉 token仅用剩下的 1/3 token 来生成完整描述。一方面这大幅减少了文本解码器的计算负担显著提升了训练效率另一方面这种「稀疏提示」迫使模型在有限条件下仍要还原出完整的 caption从而提升了表征的抽象能力。这种「以少胜多」的思路使得 OpenVision 2 在保持性能的同时实现了更高的效率也印证了「少即是多」的理念。实验表明这一简化设计不仅没有削弱模型能力反而在效率与扩展性上表现突出性能在 TextVQA、ChartQA、OCR、MME 等主流多模态基准上OpenVision 2 与 OpenVision 几乎持平甚至在部分细粒度任务上表现更佳。同时相较于 OpenAI-CLIP、LAION-CLIP、MetaCLIP 等主流对比学习模型OpenVision 系列在同等规模下整体表现更强特别是在 OCR 与文本相关任务上优势明显。效率训练时间缩短 1.5——2 倍显存占用减少近一半单卡批大小从 2k 扩展到 8k例如在 ViT-L/14 上从约 83 小时缩短到 57 小时在 SoViT-400M 上从约 241 小时缩短到 121 小时。这些改进使得模型在生成式框架下成功扩展到 10 亿参数规模并保持高效训练也为进一步探索更大规模的生成式视觉预训练奠定了基础。为什么有效研究者总结了 OpenVision 2 作为生成式视觉编码器能够成功的三点关键原因生成式监督更贴近下游生成任务与多模态大模型如 LLaVA的推理方式一致减少了预训练与下游任务间的「目标错位」。高质量合成描述在 Recap-DataComp-1B v2 中caption 的生成同时结合了图像和原始文本使得描述更细致、更贴合语义为预训练提供了更可靠的监督信号。视觉 token 随机掩码少即是多仅保留部分视觉 token 进行生成既降低算力开销又让模型在「信息不完整」的条件下学会抽取核心特征从而提升泛化与鲁棒性。对社区的意义 OpenVision 2 展示了一个重要事实对比学习并非不可或缺。通过生成式的简洁框架同样能够训练出强大的视觉编码器并在效率和可扩展性上具备显著优势。这项研究不仅挑战了长期以来的对比学习主导范式也为未来多模态基础模型的发展提供了新的方向。正如作者们所强调的「大道至简」的设计理念展示了生成式视觉预训练在未来发展的潜力。从 OpenVision 到 OpenVision 2研究团队已经开源了超过 25 个不同规模和配置的模型并完整公开了训练代码与数据管线为学术界和产业界提供了可复现、可扩展的资源基础加速社区在生成式视觉预训练方向上的探索。研究团队长期欢迎学界和业界的同学和朋友联系、交流、合作。 .. #gPass 数字生活的原生入口蚂蚁集团发布AI眼镜全新技术框架日前在 2025 Inclusion・外滩大会上蚂蚁集团发布了全球首个智能眼镜可信连接技术框架 ——gPass。该技术具备「安全、交互、连接」三大核心能力致力于实现 AI 眼镜与智能体之间安全、可信、即时信息交互为用户打造自然无感的服务体验同时构建起面向眼镜厂商和开发者的安全 AI 数字服务生态。 AI 眼镜的核心价值在于它将成为「AI 原生入口」彻底重构数字生活服务模式。这种重构体现在三个维度第一服务形态从「平面感知」走向「空间认知」—— 依托空间计算技术数字信息与物理环境深度融合让服务不再局限于屏幕而是融入现实场景比如高德地图与 AI 眼镜合作的导航让路线指引直接叠加在真实街道上数字信息与物理环境深度融合第二交互方式从「线性指令」走向「感官交互」—— 基于多模态交互与理解让人与设备的沟通更自然、更高效比如蚂蚁发布的看一下支付功能通过目光与语音即可完成交易真正实现所见即所得第三体验模式从「垂直场景」走向「生活服务」—— 通过环境感知在博物馆参观时自动推送展品讲解在商场购物时实时显示商品评价设备能提供个性化、主动式服务让每一位用户都能获得专属的智能体验。但 AI 眼镜的生态目前仍存在「缺角」—— 要通向成熟的数字服务生态还缺少关键的「基石」与「桥梁」。具体来说行业面临三大难题一是端到端软硬件能力碎片化基础设施薄弱整体软硬件架构尚未形成统一标准软硬件研发难度大成本高。二是用户需求日益多元化但针对 AI 眼镜的原生应用却严重缺乏难以满足场景化需求三是移动互联网服务向智能化服务升级难度大延缓了技术普及速度。为此蚂蚁集团推出 AI 眼镜可信连接技术框架 gPass正是为解决这些生态痛点而生。gPass 的核心目标是为 AI 眼镜产业链的各个合作伙伴 —— 包括智能体开发者、ODM/OEM 厂商、芯片厂商、品牌厂商、AI 服务厂商 —— 提供「安全可信的服务连接」。该技术具备「安全、交互、连接」三大核心能力致力于实现 AI 眼镜与智能体之间安全、可信、即时信息交互为用户打造自然无感的服务体验同时构建起 AI 眼镜上的可信的 AI 数字服务生态。从「安全」维度来看gPass 实现了基于生物核身的可信身份流转在用户使用 AI 眼镜调用各项服务时设备与用户身份都具有唯一的、可信的绑定关系如此一来设备更了解用户从而提升用户体验。此外gPass 还构建了基于硬件可信根的端到端安全通信连接打造全链路跨多端的软硬结合可信终端方案根据不同设备的软硬件环境gPass 在手机端和眼镜端都构建了一套可信隐私沙盒体系在用户通过 gPass 使用各类数字服务时首先会在用户的眼镜和手机之间建立一条数据传输的安全通道相关的数据传输包括用户账户信息、用户声纹等都由这条安全通道保障数据传输的机密性和完整性同时眼镜端和手机端的用户账户信息、付款码信息都通过可信隐私沙盒进行安全存储防止数据泄露。从交互维度来看gPass 提供视频图像声音多模态理解技术声纹作为核心验证因子首次实现智能眼镜端支付功能通过持续语音交互完成无感核验虹膜技术凭借眼镜天然搭载优势实现非接触式无感核身在未来的数字生活服务场景中具有十分广阔的应用空间指纹验证作为底层基础能力已积累十亿级数据模型。除此之外gPass 还研发了跨 Android 与 RTOS 的渲染解决方案弥补当前基础设施层面的不足确保不同设备间的交互流畅自然gPass 还与诸多科研团队和行业伙伴共同探索面向未来的手势识别等技术成熟一个就会集成一个通过 gPass 技术架构面向行业开放。比如未来在远程会议场景中AI 眼镜能同时处理语音指令、手势操作和屏幕内容让沟通效率倍增。跨端精准同步的消息推送则解决了多设备信息不同步的痛点重要通知总能在最合适的终端及时呈现。最后也是对于 AI 眼镜生态来说最重要的就是「连接」既包含了以 AI 眼镜为核心的多端互联也包含了 AI 眼镜上未来最有可能的服务载体 ——Agent 之间的连接。 gPass 能实现多端互联通过 AI 完成对用户需求识别后顺畅连接手机、智能汽车、智能家居智能可穿戴设备保障服务与身份在多终端下可信、丝滑流转支持多模态大模型的原生交互让 AI 能力无缝融入更关键的是它能接入蚂蚁生态下的海量智能体涵盖支付、出行、文旅、金融、医疗等多个高频生活场景为 AI 眼镜补足服务生态短板。通过 gPass 的跨端同步、消息优化及多模态提醒等功能AI 眼镜能够快速的帮助用户完成一个复杂任务的闭环带来更高效自然的体验。目前gPass 已率先应用于 rokid、小米、夸克、雷鸟等眼镜品牌实现「看一下支付」未来还将在文旅、出行、医疗等场景中释放更多技术潜能。比如在医疗健康场景通过 gPass用户可通过 AI 眼镜便捷地使用健康咨询、AI 问诊、就诊提醒、药品解读等服务在保障隐私的前提下实现无感、伴随式的健康陪伴新体验。蚂蚁集团表示希望 gPass 能成为 AI 眼镜行业的「加速器」—— 通过与全产业链伙伴深度协作一起把成熟、易用的 AI 眼镜快速带给每一位大众消费者。最终我们将与整个行业携手为用户提供更便捷、更自然、更安全的数字生活服务推动 AI 眼镜完成从「单一工具」到「完整生态」的质变让这项技术真正能够给用户带来如丝般顺滑的数字生活服务新体验。 .. #Kling-Avatar 从「对口型」到「会表演」刚进化的可灵AI数字人技术公开了让数字人的口型随着声音一开一合早已不是新鲜事。更令人期待的是当明快的旋律响起它会自然扬起嘴角眼神含笑当进入说唱段落它会随着鼓点起伏肩膀与手臂有节奏地带动气氛。观众看到的不再只是嘴在动而是整个人在表演。这种表现不仅限于几个片段而是能够稳定地延续到分钟级长视频中在整段时间里保持动作自然、镜头流畅。近日快手可灵团队把这一构想带到了现实。全新数字人功能已在可灵平台开启公测目前逐步放量中。技术报告 Kling-Avatar 与项目主页也已同步发布。报告系统解析了可灵数字人背后的技术路径阐明如何让一个只能跟着声音对口型的模型进化为能够按照用户意图进行生动表达的解决方案。可灵数字人产品界面。网址https://app.klingai.com/cn/ai-human/image/new 论文地址https://arxiv.org/abs/2509.09595项目主页https://klingavatar.github.io/ 首先看一些效果时长00:19 时长00:32 时长00:05 实现这些惊艳效果的背后是快手可灵团队精心设计的一套多模态大语言模型赋能的两阶段生成框架。多模态理解让指令变成可执行的故事线借助多模态大语言模型在生成与理解一体化上的能力Kling-Avatar 设计了一个多模态导演模块MLLM Director把三类输入组织成一条清晰的故事线从音频中提取语音内容与情感轨迹从图像中识别人像特征与场景元素将用户的文字提示融入动作方式、镜头语言、情绪变化等要素。导演模块产出的结构化剧情描述通过文本跨注意力层注入到视频扩散模型中生成一段全局一致的蓝图视频明确整段内容的节奏、风格与关键表达节点。 Kling-Avatar 方案框架。由多模态大语言模型 (MLLMs) 赋能的 MLLM Director 首先将多模态指令解释为全局语义和连贯的故事线基于该全局规划生成一个蓝图视频然后从蓝图视频中提取首尾帧作为条件控制并行生成子段视频。两阶段级联生成的长视频生成框架蓝图视频生成后系统在视频流中根据身份一致性、动作多样性、避免遮挡、表情清晰等条件自动挑选若干高质量关键帧。每相邻两帧作为首尾帧条件用于生成一个子段落。所有子段落根据各自的首尾帧并行合成最后拼接得到完整视频。为避免首尾帧处画面与实际音频节拍的错位方法还引入音频对齐插帧策略保证口型与声学节奏的帧级同步。此外团队还精心设计了一系列训练和推理策略保证视频生成过程中音频与口型的对齐和身份一致性口型对齐将音频切分成与帧片段对齐的子段通过滑窗方式注入音频特征自动检测嘴部区域加权去噪损失通过对视频帧做手动扩展增强画面中人脸占比较小情况下的对齐效果进一步提升口型对齐任务在远景场景下的适应能力。文本可控性冻结文本跨注意力层参数避免基座视频生成模型在专门数据上过拟合而弱化文本控制。身份一致性在推理阶段对参考图像构造 “退化负样本”作为负向 CFG抑制纹理拉花、饱和度漂移等身份漂移模式。训练与测评数据管线为了获得多样高质量的训练数据团队从演讲、对话、歌唱等高质量语料库中收集数千小时视频并训练多种专家模型用于从嘴部清晰度、镜头切换、音画同步与美学质量等多个维度检测数据的可靠性。对专家模型筛选出的视频再进行一遍人工复核得到数百小时高质量训练数据集。为了验证方法的有效性团队制作了一个包含 375 个 “参考图–音频–文本提示” 的测评基准该测评基准包含了丰富的输入样例图片涵盖真人 / AI 生成图像、不同人种、以及开放情境中的非真人数据音频涵盖中 / 英 / 日 / 韩等多种语言包含不同语速和情感的台词文本提示包含多种多样的镜头、人物动作、表达情绪控制。该测评基准为现有方法提供了极具挑战性的测试场景能够充分评估数字人像视频生成方法在多模态指令跟随方面的能力将在未来开源。实验结果对比在定量验证方面团队精心设计了一套基于用户偏好的 GSBGood/Same/Bad测评体系。对每个样本由三名评测者将 Kling-Avatar 与对比方法逐一比较给出 “更好”G)“一样”(S)“更差”(B) 的判断。最终汇报 (GS)/(BS) 作为指标用以衡量 “更好或不差” 的占比。同时在四个维度给出分项结果总体效果、口型同步、画面质量、指令响应、身份一致。对比方法选择最先进的 OmniHuman-1、HeyGen 等产品。在构建的测评基准上与 OmniHuman-1 和 HeyGen 的 GSB 可视化对比。Kling-Avatar 在绝大多数维度上取得领先。在全部 Benchmark 和各个子测评集的 GSB 指标对比。Kling-Avatar 全面超过 OmniHuman-1并在绝大部分指标上超过 HeyGen。在多种场景的对比测试中Kling-Avatar 所生成的唇形不仅在时序和形态上与音频高度一致面部表情也随着语音的起伏变化而更显自然。即使在发音难度较高的音节如 “truth”其标准发音为 [truːθ][u:] 要求双唇前突、口型小而紧或高频语音中的短暂静音段落Kling-Avatar 均能够准确还原相应的口型状态。在 “情绪、动作、镜头” 三类控制上Kling-Avatar 能够更准确地体现文本提示中的意图在歌唱、演讲等复杂场景下的动作与镜头调度更加贴合语义。下图展示了 Kling-Avatar 生成的一些视频示例其中包含了人物的情绪控制如 “兴奋”镜头控制如 “镜头缓慢上移”生成结果均有良好的响应。 Kling-Avatar 的另一大优势是长时视频生成。因为采用两阶段生成级联并行生成的框架因此在首先获得蓝图视频后可以从蓝图视频中选择任意多数量的首尾帧并行生成每个子段视频最后再完整拼接在一起总生成时间理论上与一段生成时间相当因此可以快速稳定的生成长视频。下图展示了 1 分钟长视频生成的例子生成结果在动态性身份一致性保持口型等各方面都获得了令人满意的结果。总结从 “对口型” 迈向 “会表演”快手可灵团队探索出一条全新的数字人生成范式实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar 现已集成到可灵平台欢迎移步可灵平台体验新版数字人应用看看你的声音和想法如何被一镜到底地演绎出来。近年来快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。除了 Kling-Avatar团队前不久还提出实时多模态交互控制的数字人生成框架 MIDAS二者分别在 “表达深度” 与 “响应速度” 上实现了重要突破。未来团队将持续推进高分辨率、精细动作控制、复杂多轮指令理解等方向的前沿探索致力于让数字人的每一次表达都拥有真实而动人的灵魂。 ... #xxx #xxx #xxx #xxx #xxx #xxx #xxx #xxx #xxx #xxx #xxx #xxx

查看全文

http://www.pierceye.com/news/354582/