湖南做网站 地址磐石网络,便捷网站建设费用,青海服装网站建设公司,微博推广在虚拟现实和沉浸式娱乐快速发展的今天#xff0c;视觉体验已经远远不够#xff0c;声音的沉浸感成为打动用户的关键。然而#xff0c;传统的视频配音技术往往停留在“平面”的音频层面#xff0c;难以提供真正的空间感。阿里巴巴通义实验室#xff08;Qwen Lab#xff0…在虚拟现实和沉浸式娱乐快速发展的今天视觉体验已经远远不够声音的沉浸感成为打动用户的关键。然而传统的视频配音技术往往停留在“平面”的音频层面难以提供真正的空间感。阿里巴巴通义实验室Qwen Lab旗下的语音团队最近取得了一个重大突破 —— OmniAudio 技术能够直接从360°视频中生成空间音频FOA真正实现了“所见即所听”大幅提升虚拟现实中的沉浸感。 为什么空间音频如此重要
想象一下你戴着VR头显站在一个繁忙的城市广场。如果你只听到“立体声”你可能只能感受到声音的左右方向但如果你听到一个小贩从你后方推车经过、前方的街头艺人正在唱歌、右上方的钟楼敲响你的身体会自然转向声音来源——这正是**空间音频Spatial Audio**带来的沉浸感。
**FOAFirst-order Ambisonics**是一种主流的空间音频格式它用4个声道W, X, Y, Z来描述声音的位置和方向。简单来说如果你把听觉比作摄影这种格式就像是“全景相机”可以捕捉整个空间的声音场景而不仅仅是某一个角度。 现有技术的痛点角度太“死板”
虽然空间音频的技术已存在一段时间但目前很多视频生成音频的方法都存在明显的缺陷 只处理固定视角的视频无法真正体现“环绕”音效 生成的是“普通”音频缺乏声音方向感 忽视了360°视频本身蕴含的丰富视觉线索。
而随着360°相机的普及和VR内容的兴起观众越来越期待音画一致的沉浸体验——而这正是OmniAudio所要解决的难题。 Qwen Lab 的解法360V2SA 任务 Sphere360 数据集
为了解决这个痛点研究团队提出了一个全新的任务定义360V2SA360-degree Video to Spatial Audio。意思就是让360°视频配上真正匹配其空间结构的音频。
但这里面有一个大难题——数据匮乏。
训练AI模型需要大量的视频空间音频配对数据而现实中360°视频和FOA音频的组合极其稀缺。为此团队构建了一个超大规模数据集 Sphere360 包含 103,000 真实视频片段 覆盖 288类音频事件如掌声、引擎声、鸟叫等 总时长达到 288小时 所有数据都经过严格清洗和对齐确保“看得见”的画面与“听得见”的声音严格对应。 OmniAudio 是如何学习“空间感”的
OmniAudio 的训练分为两个阶段可以类比为“先学基础再练精细”
✅ 阶段一自学成才Self-Supervised
团队利用海量的普通立体声数据先“伪造”出假FOA称为“伪FOA”让模型通过一种叫“流匹配flow-matching”的方法自己摸索声音的时间结构和空间规律。
类比一下就像你用模糊地图自学城市布局虽然不精确但能掌握大致方位和路线感。
为了让模型更强健团队还故意“打码”音频片段即随机遮住部分时间段让模型学会“脑补”缺失的信息。这一步帮助它打下了很好的“声音空间感”基础。
✅ 阶段二精雕细琢Supervised Fine-tuning
接着团队拿出真实的FOA音频数据结合视频的“双分支视觉编码器”可以同时提取场景信息和运动信息进一步精细训练模型让它能够根据画面“雕刻”出精准的空间音轨。
最终OmniAudio 能够根据画面中的视觉线索比如“汽车从左边开过来”输出与之完美匹配的空间音频。 效果如何超越所有对手
在测试阶段研究团队使用了两个测试集Sphere360-Bench 和 YT360-Test并使用了客观指标如 FD、KL、ΔAngular和主观评测人类听感打分来对比性能。
结果非常惊艳 OmniAudio 在所有指标上全面超越现有所有方法 人类主观评分中OmniAudio 的空间感、清晰度、画面与声音的同步度均高于最佳对比模型 消融实验也验证了预训练策略、双分支视觉建模、模型规模等设计对提升性能缺一不可。 虚拟世界的声音革命
OmniAudio 的出现意味着我们离真正“沉浸式音画合一”的虚拟现实更近了一步。未来无论是VR游戏、线上展览、虚拟旅游还是影视制作都将有机会用更真实、更细腻的声音打动用户。
空间音频不再是“高端专属”而是即将走入大众视野的“听觉革命”。