VR播客中的声音
主讲人介绍
我的名字是Kent Bye,欢迎收听《VR声音》播客。本周我将继续探讨音频主题。昨天我采访了Dolby Atmos,今天我带来了Jason Riggs,他是Aussik耳机的首席执行官和创始人。如果你还没听说过Aussik,它是一款能够在耳机内重现影院音效的耳机。Aussik耳机在声音专门化方面的表现远超市场上大多数耳机。在虚拟现实中,视频非常重要,但音频能真正提升场景的沉浸感和存在感。因此,Aussik刚刚完成了一项非常成功的Kickstarter众筹活动,实际上是历史上最大的VR Kickstarter,筹集了270万美元,用于将这些耳机推向市场,适用于PC和移动游戏。因此,今天我们将谈论所有这些内容,坦率地说,我们将深入探讨音频,Jason是个超级音频狂热者,所以今天的节目就从这里开始。不过首先,请听我们赞助商的快速信息。
赞助商介绍
今天的节目由虚拟现实公司(VRC)赞助。VRC正在创造很多优质的叙事体验,并探索艺术、故事和互动之间的交叉点。他们曾负责创建《火星人VR体验》,这是Sundance上最抢手的节目,叙事与互动之间的平衡非常巧妙。所以,如果你想观看一场优质的VR体验,请访问vrcompany.com。
访谈内容
与Jason Riggs的访谈发生在4月底的硅谷虚拟现实会议上。那么,让我们直接进入主题。
Jason Riggs自我介绍
你好,我是Jason Riggs,Aussik的CEO。我们正在努力推进身临其境且准确的3D音频。那么,如何在个人设备如耳机和耳塞中实现这一目标呢?
成功的Kickstarter项目
太棒了!我们超级兴奋,所有10200人都来购买了耳机。这个众筹活动最酷的一点是,它让我们能够解决比最初计划更多的平台。起初,我们只想在PC和Mac上解决全3D音频,现在我们还能够支持Android、iOS和游戏主机。
Aussik耳机的特别之处
那么,你能告诉我Aussik耳机为什么特别吗?你们做了什么让它在VR中独一无二?
几乎所有的3D音频通过耳机渲染都是基于某种头部相关传递函数模型。所有这些实际上意味着,对于空间中的一个声源,我们在每只耳朵接收到的信号是不同的,而且每个空间点的信号都不同。但有一方面很有趣,那就是头部相关传递函数因人而异。人类的耳朵在所有维度上有2:1的差异。迄今为止,所有的3D音频算法和所有做虚拟环绕声的耳机都是基于一种通用算法,这根本行不通。虽然所有耳机在侧面声音输出上都工作得相当不错,但在前后上下的方向上,它们会造成很多困惑。这是因为我们依赖于个体解剖的非对称性来区分这些平面。我们所做的独特之处在于耳机本身,我们的传感器能够测量你的头部大小、耳距,并将其校准为你的耳朵形状,这样我们就能获得你个性化的头部相关传递函数。这让音频来自正确的方向,减少了混淆,并使声音效果更好。
耳机的功能
那么,这是否意味着每次你戴上Aussik耳机时,它会扫描你的耳朵并传递一系列数字呢?实际情况是怎样的?
是的,有点像。我们合成HRTF,有不同的组成部分加在一起。比如,你的头部大小和耳距决定了口内时间延迟和口内音量差异等因素。我们处理这些方面的方式是,当你佩戴耳机时,它测量你耳朵之间的距离,这为我们提供了一个很好的代理,代表你的头部大小和耳距。这个数据会输入算法中,动态计算这些音量和延迟。耳朵的处理略有不同,我们可以测量耳朵的形状,但如果这么做,我们首先必须校正佩戴在你耳上的耳机。所以,当你佩戴耳机时,尤其是覆盖耳朵的耳机,耳机中的扬声器会与你的耳朵互动,提供一些空间声音的线索。我们还有一个高频驱动器阵列,能够实时调整高频成分,让声音从正确的角度进入你的耳朵。这使我们能够实时处理,而不需要先进行校准步骤,也不需要扫描或测量耳朵。因此,部分是测量的,但我们大部分是测量头部大小和耳距,然后耳朵部分则实时交互,以获取空间线索。
软件与SDK
那么,是否有软件组件或SDK?还是说这是一个即插即用的产品?你可以将Aussik耳机插入任何体验中,它就会听起来更好?
这要看情况。我们正在为所有游戏引擎建立SDK,这在一定程度上是解决了行业尚未普遍采用超出5声道和7声道输出的问题。有很多更高声道格式,比如Dolby Atmos和电影院里的DTSX,以及广播方面的MPEG-H,它本身是支持更多声道、更高阶的Ambisonics和基于对象的声音的混合格式。这种情况还在变化,体验内容传递3D音频的方式尚不明确。我们有一种旧的范式,比如立体声、5声道、7声道。我们所做的就是如你所描述的那样,如果你有现有游戏的5声道或7声道输出,我们将虚拟化房间和7个扬声器的位置,为你提供一种超越今日虚拟环绕声耳机的剧院耳机体验。对于现有的音乐、游戏和电影,我们就这样解决了这一问题。
高分辨率音频未来展望
今天的解决方案是将这些内容接入游戏引擎,这将是一种解决方案,但挑战在于每个人都在接入不同的东西,有些可以工作,有些则不那么好用,或者有更大的局限性。我认为,在未来,我们将开始围绕3D音频输出标准化,以便它们不再是单独的东西,而是所有游戏和体验都可以开始说“嘿,我们输出22个声道,输出对象的直接访问,输出第三阶Ambisonics”。这样我们就能统一地以更高的空间分辨率进行处理。你理想中的标准化格式是什么?
我认为我们对格式是中立的,但更高的空间分辨率是更好的。在这个最简单的情况下,我们可以将大部分音频视为在球面上映射。其实还有很多与深度相关的内容因素,因此不仅仅是球形或壳。音量、混响和反射等内容都可以在信号上编码,这些都是球形格式。声道方面,我们可以从5声道提升到11声道、22声道甚至44声道,某些位置的声源可以在球面上渲染。但要做到超过51或71声道,仅仅是平面水平混合,而现在我们可能要引入高度。Ambisonics是一种不同的方式来处理这个问题,它本质上是一种球形格式,随着阶数增加,可以提供更多的空间分辨率。因此,在没有明确标准的情况下,我们希望有一些标准能被接受或锁定,但无论如何我们想要的是更高的空间分辨率。在空间中的大多数点,我们的听觉可以在2度精度内感知,因此如果我们填满整个球体,我们可能需要大约3000个空间点才能接近我们听觉的极限。大部分内容都是立体声,尤其是在音乐中;在游戏中,最多就是51或71声道。如果我们有一个仅有2或5或7个像素的显示设备,分辨率就非常低。所以从空间分辨率的角度来看,我们需要更多的东西。
关于开放标准的思考
我认为理想的情况是采用这些格式中的某一个或正在出来的标准,以便传递有关对象的直接信息,从而使得渲染和设备、耳机等可以独立演变,而不再需要每个人在创建体验或游戏时都去解决和接入,因为那样会非常混乱。
听起来在这类媒体领域中存在大量专有解决方案,比如Dolby Atmos与他们的整个系统,考虑到在这个虚拟环境内混合各种声道,可以将其编码成某一格式,然后最终将其传递到耳机或扬声器。ASIC似乎会倡导开放标准,无论是来自虚拟化声音的游戏引擎,还是来自现场录制的Ambisonics现场录音,似乎也需要再增加一层工具集以便进行混合和传递。
关于工具及其发展
我认为在这方面确实存在一个光谱问题。如果我们看演唱会的录音,我们也可以使用Ambisonics麦克风或音场麦克风,但这并不是现在的普遍现象。所以我们可能还需要与近麦克风相结合,以便负责音频工程的人能够进行混合。这就涉及到3D实时捕捉与生产的范式,这两个方面实际上是一个光谱。而在游戏引擎方面,我们实际上是在采用很多单声道录音声音,将其物理放置在虚拟环境中并尝试重现。这是光谱的一端,纯3D捕捉是另一端。尤其在纯3D捕捉方面,我会说目前没有成熟的工具。人们经常问我们应该使用哪种3D麦克风和音场麦克风,我坦诚地说:“我们试过这些。”但问到如何将所有Ambisonics结合成某种格式时,几乎没有成熟的工作流程。是的,我们对格式是中立的,想要支持所有格式,因为我们希望能全面访问。
最后的展望
我认为,在整体潜力方面,虚拟现实最终可能能够实现的事情是巨大的。在VR和AR中会有巨大的通讯和远程呈现机会,很多我们还没有深入挖掘。很多人来找我们讨论军事、模拟和培训等各种应用,这些都需要准确的3D音频。而对于我们而言,现在主要是娱乐、VR电影和游戏,弄清楚3D音乐的潜力在哪里。
结尾
如果你想支持我们的Kickstarter项目,那将会是巨大的帮助,帮助我们进行更广泛的推广,支持不同的平台,希望能对3D音频的世界产生一些影响。如果你没有支持过,我们在网站上也有预购。我们想提升对3D音频的认识,相信音频将成为其中的重要一环。期待看到未来一年的3D音频体验,因为这些正在快速演变。
最后,感谢大家收听本期播客。保持关注,这一周我们专注于在VR中的音频。如果你喜欢这个节目,请传播给你的朋友,给我在Twitter上的账号kentbuying留言。我们即将参加国际人工智能联合会议,因此你可以关注《AI之声》播客。谢谢大家的支持!