2016-07-13 / Voiceofvr / 0浏览

OSSIC和3D音频作为沉浸体验的下一个前沿

VR播客中的声音

主讲人介绍

我的名字是Kent Bye，欢迎收听《VR声音》播客。本周我将继续探讨音频主题。昨天我采访了Dolby Atmos，今天我带来了Jason Riggs，他是Aussik耳机的首席执行官和创始人。如果你还没听说过Aussik，它是一款能够在耳机内重现影院音效的耳机。Aussik耳机在声音专门化方面的表现远超市场上大多数耳机。在虚拟现实中，视频非常重要，但音频能真正提升场景的沉浸感和存在感。因此，Aussik刚刚完成了一项非常成功的Kickstarter众筹活动，实际上是历史上最大的VR Kickstarter，筹集了270万美元，用于将这些耳机推向市场，适用于PC和移动游戏。因此，今天我们将谈论所有这些内容，坦率地说，我们将深入探讨音频，Jason是个超级音频狂热者，所以今天的节目就从这里开始。不过首先，请听我们赞助商的快速信息。

赞助商介绍

今天的节目由虚拟现实公司（VRC）赞助。VRC正在创造很多优质的叙事体验，并探索艺术、故事和互动之间的交叉点。他们曾负责创建《火星人VR体验》，这是Sundance上最抢手的节目，叙事与互动之间的平衡非常巧妙。所以，如果你想观看一场优质的VR体验，请访问vrcompany.com。

访谈内容

与Jason Riggs的访谈发生在4月底的硅谷虚拟现实会议上。那么，让我们直接进入主题。

Jason Riggs自我介绍

你好，我是Jason Riggs，Aussik的CEO。我们正在努力推进身临其境且准确的3D音频。那么，如何在个人设备如耳机和耳塞中实现这一目标呢？

成功的Kickstarter项目

太棒了！我们超级兴奋，所有10200人都来购买了耳机。这个众筹活动最酷的一点是，它让我们能够解决比最初计划更多的平台。起初，我们只想在PC和Mac上解决全3D音频，现在我们还能够支持Android、iOS和游戏主机。

Aussik耳机的特别之处

那么，你能告诉我Aussik耳机为什么特别吗？你们做了什么让它在VR中独一无二？

几乎所有的3D音频通过耳机渲染都是基于某种头部相关传递函数模型。所有这些实际上意味着，对于空间中的一个声源，我们在每只耳朵接收到的信号是不同的，而且每个空间点的信号都不同。但有一方面很有趣，那就是头部相关传递函数因人而异。人类的耳朵在所有维度上有2:1的差异。迄今为止，所有的3D音频算法和所有做虚拟环绕声的耳机都是基于一种通用算法，这根本行不通。虽然所有耳机在侧面声音输出上都工作得相当不错，但在前后上下的方向上，它们会造成很多困惑。这是因为我们依赖于个体解剖的非对称性来区分这些平面。我们所做的独特之处在于耳机本身，我们的传感器能够测量你的头部大小、耳距，并将其校准为你的耳朵形状，这样我们就能获得你个性化的头部相关传递函数。这让音频来自正确的方向，减少了混淆，并使声音效果更好。

耳机的功能

那么，这是否意味着每次你戴上Aussik耳机时，它会扫描你的耳朵并传递一系列数字呢？实际情况是怎样的？

是的，有点像。我们合成HRTF，有不同的组成部分加在一起。比如，你的头部大小和耳距决定了口内时间延迟和口内音量差异等因素。我们处理这些方面的方式是，当你佩戴耳机时，它测量你耳朵之间的距离，这为我们提供了一个很好的代理，代表你的头部大小和耳距。这个数据会输入算法中，动态计算这些音量和延迟。耳朵的处理略有不同，我们可以测量耳朵的形状，但如果这么做，我们首先必须校正佩戴在你耳上的耳机。所以，当你佩戴耳机时，尤其是覆盖耳朵的耳机，耳机中的扬声器会与你的耳朵互动，提供一些空间声音的线索。我们还有一个高频驱动器阵列，能够实时调整高频成分，让声音从正确的角度进入你的耳朵。这使我们能够实时处理，而不需要先进行校准步骤，也不需要扫描或测量耳朵。因此，部分是测量的，但我们大部分是测量头部大小和耳距，然后耳朵部分则实时交互，以获取空间线索。

软件与SDK

那么，是否有软件组件或SDK？还是说这是一个即插即用的产品？你可以将Aussik耳机插入任何体验中，它就会听起来更好？

这要看情况。我们正在为所有游戏引擎建立SDK，这在一定程度上是解决了行业尚未普遍采用超出5声道和7声道输出的问题。有很多更高声道格式，比如Dolby Atmos和电影院里的DTSX，以及广播方面的MPEG-H，它本身是支持更多声道、更高阶的Ambisonics和基于对象的声音的混合格式。这种情况还在变化，体验内容传递3D音频的方式尚不明确。我们有一种旧的范式，比如立体声、5声道、7声道。我们所做的就是如你所描述的那样，如果你有现有游戏的5声道或7声道输出，我们将虚拟化房间和7个扬声器的位置，为你提供一种超越今日虚拟环绕声耳机的剧院耳机体验。对于现有的音乐、游戏和电影，我们就这样解决了这一问题。

高分辨率音频未来展望

今天的解决方案是将这些内容接入游戏引擎，这将是一种解决方案，但挑战在于每个人都在接入不同的东西，有些可以工作，有些则不那么好用，或者有更大的局限性。我认为，在未来，我们将开始围绕3D音频输出标准化，以便它们不再是单独的东西，而是所有游戏和体验都可以开始说“嘿，我们输出22个声道，输出对象的直接访问，输出第三阶Ambisonics”。这样我们就能统一地以更高的空间分辨率进行处理。你理想中的标准化格式是什么？

我认为我们对格式是中立的，但更高的空间分辨率是更好的。在这个最简单的情况下，我们可以将大部分音频视为在球面上映射。其实还有很多与深度相关的内容因素，因此不仅仅是球形或壳。音量、混响和反射等内容都可以在信号上编码，这些都是球形格式。声道方面，我们可以从5声道提升到11声道、22声道甚至44声道，某些位置的声源可以在球面上渲染。但要做到超过51或71声道，仅仅是平面水平混合，而现在我们可能要引入高度。Ambisonics是一种不同的方式来处理这个问题，它本质上是一种球形格式，随着阶数增加，可以提供更多的空间分辨率。因此，在没有明确标准的情况下，我们希望有一些标准能被接受或锁定，但无论如何我们想要的是更高的空间分辨率。在空间中的大多数点，我们的听觉可以在2度精度内感知，因此如果我们填满整个球体，我们可能需要大约3000个空间点才能接近我们听觉的极限。大部分内容都是立体声，尤其是在音乐中；在游戏中，最多就是51或71声道。如果我们有一个仅有2或5或7个像素的显示设备，分辨率就非常低。所以从空间分辨率的角度来看，我们需要更多的东西。

关于开放标准的思考

我认为理想的情况是采用这些格式中的某一个或正在出来的标准，以便传递有关对象的直接信息，从而使得渲染和设备、耳机等可以独立演变，而不再需要每个人在创建体验或游戏时都去解决和接入，因为那样会非常混乱。

听起来在这类媒体领域中存在大量专有解决方案，比如Dolby Atmos与他们的整个系统，考虑到在这个虚拟环境内混合各种声道，可以将其编码成某一格式，然后最终将其传递到耳机或扬声器。ASIC似乎会倡导开放标准，无论是来自虚拟化声音的游戏引擎，还是来自现场录制的Ambisonics现场录音，似乎也需要再增加一层工具集以便进行混合和传递。

关于工具及其发展

我认为在这方面确实存在一个光谱问题。如果我们看演唱会的录音，我们也可以使用Ambisonics麦克风或音场麦克风，但这并不是现在的普遍现象。所以我们可能还需要与近麦克风相结合，以便负责音频工程的人能够进行混合。这就涉及到3D实时捕捉与生产的范式，这两个方面实际上是一个光谱。而在游戏引擎方面，我们实际上是在采用很多单声道录音声音，将其物理放置在虚拟环境中并尝试重现。这是光谱的一端，纯3D捕捉是另一端。尤其在纯3D捕捉方面，我会说目前没有成熟的工具。人们经常问我们应该使用哪种3D麦克风和音场麦克风，我坦诚地说：“我们试过这些。”但问到如何将所有Ambisonics结合成某种格式时，几乎没有成熟的工作流程。是的，我们对格式是中立的，想要支持所有格式，因为我们希望能全面访问。

最后的展望

我认为，在整体潜力方面，虚拟现实最终可能能够实现的事情是巨大的。在VR和AR中会有巨大的通讯和远程呈现机会，很多我们还没有深入挖掘。很多人来找我们讨论军事、模拟和培训等各种应用，这些都需要准确的3D音频。而对于我们而言，现在主要是娱乐、VR电影和游戏，弄清楚3D音乐的潜力在哪里。

结尾

如果你想支持我们的Kickstarter项目，那将会是巨大的帮助，帮助我们进行更广泛的推广，支持不同的平台，希望能对3D音频的世界产生一些影响。如果你没有支持过，我们在网站上也有预购。我们想提升对3D音频的认识，相信音频将成为其中的重要一环。期待看到未来一年的3D音频体验，因为这些正在快速演变。

最后，感谢大家收听本期播客。保持关注，这一周我们专注于在VR中的音频。如果你喜欢这个节目，请传播给你的朋友，给我在Twitter上的账号kentbuying留言。我们即将参加国际人工智能联合会议，因此你可以关注《AI之声》播客。谢谢大家的支持！