/ Voiceofvr / 0浏览

AJ Campbell讲述与Free Space Omni-Binaural麦克风和VRSFX Unity插件一起使用的360度3D音频

听觉现实(VR)播客 我的名字是AJ Campbell,我创办了vrsfx.com,为游戏开发者提供360度音频。我这里有一个全向双耳麦克风,看起来相当奇怪。它有8只耳朵,成对分布在四个方向上,北、南、东、西。它看起来就像是一块装满耳朵的大木槌。那么,是什么启发你投身虚拟现实音频领域的呢?是的,所以就在今年2月份,我看到了Beck的360度体验作品,名为《Hello Again》,网址是hellodashagain.com。这是一个非常棒的360度视频,Beck在一个圆形舞台上唱歌,周围悬挂着三个360度摄像机和麦克风,整个过程都是通过滑轮控制的,非常惊人。我特别注意到了麦克风的设计。因为我有软件和音频的背景,我看到了他们的麦克风布置后,就意识到我们可以在游戏开发中使用相同的方式,但需要编写一些额外的软件。于是我找到了一个类似的麦克风设备,并编写了软件,使得在Unity平台上对游戏开发者来说实现拖放操作变得更容易。而且希望能够尽快在虚幻引擎平台上实现。所以在视频中,如果你使用双耳音频麦克风,只需要两只耳朵就足够了,因为你总是可以根据视频的方向来定位它。但在这种情况下,你可能有一个360度视频,并使用这8对耳朵根据头部追踪的情况来推断声音。是这样吗?可以谈一谈关于这个过程,需要将头部追踪映射到不同的音频输入,并在它们之间实现声音平移的过程吗?当然,是的。有了这么多耳朵在一个麦克风上,我可以记录整个立体音景的360度声音,因为比如我们有一对面朝北的耳朵,也有一对面朝西的耳朵,如果用户面朝北方然后他们向左转,我们会进行一次淡出淡入,也就是从完全是北方的声道切换到西方的声道,并同时淡出北方的声道。所以根据你听到的声音音量,会影响你对声音方向的感知。明白了。所以,在游戏引擎中完全采用三维渲染的声音方法,使用三维的对象建模。我想知道的是,当你开始倾斜头部并进行完全定位追踪时,会有什么影响呢?因为这看起来像是一个DK一型的头部追踪,只能左右转动头部,而不能向左或向右倾斜,或者向前倾斜。那你如何处理这个问题?没错,这就是情况。三维渲染声音的第一部分通常用于视频游戏,非常准确地确定声音的方向,因为它们根据你的面向实时重新计算声音信号的定位特性,所以你可能只向左转动一点点,它就会在下一帧准确地重新计算出声音应该来自的方向,这很酷,但也非常占用处理器性能,尤其是在VR中,我们需要更高的处理器性能来保持100帧甚至120帧的帧速率,因此我们没有足够的处理器性能同时进行实时音频渲染。所以我的方法实际上可以以更高的效率达到与实时渲染相类似的效果,因为所有的音频轨道都是预渲染的,我们不再重新计算所有与定位有关的信号。我们只是改变声音的音量值,因此与其他方法相比,几乎不需要处理器性能。令人惊讶的是,虽然在北面和西面之间的节点较少,但是实时三维声音渲染器会在两个节点之间的每个点都捕捉到准确的定位质量,只是它们之间总是有一定的距离滑动。所以它们的原理是一样的,只是你需要多高的分辨率才能得到逼真的声音效果。我们发现,为了实现逼真的声音效果,实际上不需要非常高的分辨率。如果两个节点相隔90度,它仍然会听起来非常真实。而另一个问题是仰角和俯角。这款麦克风如果你左右转头是有用的,可是如果你向左或向右倾斜头,或者向前或向后倾斜头,它就无法捕获准确的声音。但有趣的是,某些头部朝向不会对声音产生影响。例如,如果声音就在你的面前,然后你将头向左或向右倾斜,声音信号不会有任何变化。基于我们对需要这些倾斜的了解,我们能够使用几个额外的麦克风来捕获不仅是周围的声音,还有上方和下方的声音。我们正在开发相关的软件,尽管还没有完全完成,但很快就会完成。因为你可以获得90度分辨率,如果你转动45度,那意味着你可以将一个节点和另一个节点的一半做交叉淡入淡出,它们会混合在一起并且仍然有意义,还是要做一个阶梯函数的分割,也就是一下子切换到另一个节点?这是个很好的问题,我们已经尝试了几种不同的淡入淡出方式。第一种是标准的线性淡入淡出,就是在一个节点和另一个节点之间切换时,将第一个节点的音量淡出50%,然后将第二个节点淡入50%,这样它们在中间位置是完全相等的。如果两者的淡入淡出速度相同,你会得到一个相当不错的效果,但总音量的波动稍微会有一些问题。所以我们正在尝试各种不同的淡入淡出比例,以找出哪一种听起来最真实。当你讲到这一点时,我在思考使用案例。大多数情况下,如果你听音乐会,你不会做太多奇怪的头部倾斜行为。你知道,在音乐会上你通常不会这样做,为什么在虚拟现实中要这样做呢?因此,我想像这种麦克风只覆盖了80%到90%的主要使用案例,你只需要设置这样一个麦克风来捕获现场活动的音频。没错,就是这样。例如,上个月我与Jump VR合作拍摄了一部音乐视频,他们使用一种不同的3D音频技术,效果也很好,但他们对我的技术很感兴趣。所以我们做了一部音乐视频,我们对比了他们的技术和我的技术。大多数人在观看音乐视频的时候,基本上不会去想要怎样倾斜或旋转头部。这是一种经历,在这种情况下,最自然的事情就是向左转向右转。由于这个麦克风本身可以捕获到所有的声音,大多数人都没有注意到上方或下方有什么不对劲。例如,如果你用我的麦克风将你的头部的顶部指向音源并稍微晃动一下,你可以在音频中听到一些瑕疵,这是我现在正在努力修复的部分。但大多数人甚至不知道那里有问题,因为他们不会想到将头的顶部对准他们正在听的艺术家。是的,这样就可以突破一般音频的固有限制,发现可能破坏视听幻境的一些事物,我们平时并不会想到这些,但思考使用这些麦克风时,就会考虑到这些边界。好吧,我把这个麦克风带到了几个不同的工作室进行了一些诊断工作,我们观察了EQ和运行低频振荡器,测试了各种频率下多个声道的输出情况,以找出最佳的淡入淡出效果,诸如此类的工作。我们已经付出了很多努力来完善软件,虽然还没有达到100%的完美,但已经非常接近了。那么接下来是什么步骤呢?会有原型机或众筹活动吗?还是直接投入市场?这款麦克风实际上已经上市销售了。我并没有自己制作这款麦克风。事实上,就在我看到Beck的360度音频作品之后,我对此充满热情,开始研究如何为自己制作一个麦克风。但后来我发现,为Beck的360度音频负责的那个人有一家麦克风公司,并且他们正在开发一款全向麦克风,这款麦克风就是由此诞生的。所以我更擅长软件,他显然更擅长硬件,于是我给他打电话,我想我是他的首批顾客。这款麦克风确实非常棒,他的名字叫Jeff Anderson,他经营着一家叫3D IO Sound的公司。那你是要开发一个出售的Unity插件对吗?对,没错。我上个月就已经准备好了我的Unity插件。有个有趣的事情,我电脑系统崩溃了,虽然我有备份,但备份也出现了一些问题。然后我给Unity打电话,因为我已经发送给他们一份副本,但结果他们那边的也出现了问题,我们不确定到底是怎么回事。但我接近重新从零开始重新创建插件,我早几天就快完成了,但实际上我已经差不多两周没能完成。每次我参加一个活动时,有人让我加入一个视频项目或游戏项目,所以很难同时处理所有这些事情。我现在正试图组建一个团队,这样就不仅仅是我自己在完成所有的工作了。在论坛上,有很多人问我,你的插件什么时候可以用?我会尽快提供的。在这个领域上,我经常看到一个首字母缩写词,HRTF。也许你可以解释一下它的含义和作用。是的,那是我们之前谈到的一种技术术语。它经常用于AAA级游戏中,你有一个普通的单声道音频信号,没有空间定位的线索,你需要实时重现这些定位信息。HRTF将来自全向人体模型麦克风的实际音频样本进行采样,然后根据这些样本计算出与普通单声道信号的差异。根据这些信息,以及采样每个方向上的节点数量,就能获得HRTF的空间定位精度。因此,很多HRTF技术在头部周围采样了数百个节点,现在还有一些最先进的技术,他们采样了头部周围的成千上万个节点,所以它们具有非常高的分辨率。但这也是所有人都在朝着的方向,通过增加节点的数目,使得听起来越来越准确。但如果你用双耳麦克风录音,效果也是非常准确的。我不知道很多人是否意识到,如果你反过来,减少而不是增加节点数目,它的效果同样好。是的,因为你在以48千赫的频率进行录音,也就是说,你可以获得很多样本,如果更新速率只有120赫兹,那么我想有很多样本,我不知道这是否与延迟有关,即以这种方式进行实时音频记录的录制频率。你明白我的意思吗?是的,不完全是,与音频信号的采样率有一些延迟问题,但我们讨论的是HRTF的实时后处理相关的问题。所以它会接收普通的音频信号,实际上会使用 CPU 的计算能力,或者如果您有独立的声卡,则可以使用声卡上的处理器来实时计算需要调整的信号。这不仅仅发生在每一帧,实际上可以在一帧内多次发生,因为物理引擎可以每帧更新多次,通常如此。但是每次物理引擎更新时,您可以根据已知物体移动的位置重新计算音频信号,以弥补该变化。在音频和虚拟现实方面,您希望解决的其他一些重大开放性问题是什么呢?好的,这是一个重大问题。因此,当您在每帧或每帧多次进行所有这些计算时,可能会消耗大量的 CPU 计算能力。而且因为我们真的,确实需要所有的 CPU 计算能力来处理物理引擎,以保持帧速率高,我希望能够使用大量的 3D 声音,这在虚拟现实中是绝对必要的。您希望所有的声音都能够呈现 3D 的效果,因为这是给您带来引人入胜的沉浸式体验的关键。如果您同时使用几十个 3D 声音,并且可能有情况下需要如此,在虚拟现实中这可能会使处理器超负荷运行。因此,您知道,现在有一种情况,只能选择一种,您可以拥有非常快的帧速率,或者您可以拥有 3D 声音,我希望能够两者兼得。这就是我开始研究的原因,您是否看到,您使用这个来进行音频样本的叠加?您知道,与其在现场环境中录制所有的音频,不如他们进入录音棚录制音频,然后进行叠加。是的,是的,绝对是。通常在实时游戏环境中,通常是这样运作的。这就是我插件的优点,您可以拥有一个样本,或者您可以同时播放 12 个样本。与实时渲染不同的是,我的东西不会影响处理器。什么?太好了。最后,当涉及到虚拟现实的时候,您认为它所能提供的最终潜力是什么?哦,它是如此之大。我是说,目前每个人都专注于游戏环境,我认为这是硬件变得价格可承受后崛起的市场。但是,我认为更大的市场是社交媒体和游戏之间的重叠。因为现在有数以百万计的人正在玩社交游戏,但他们习惯了为自己创建数字存在。但是,其中很多人尚未体验过在虚拟现实中这样做是什么感觉。因此,当这些人开始意识到当您真正感觉自己在那里时,体验会更好得多,我认为最终将会有数十亿的人使用虚拟现实头盔,与朋友实时分享体验。好的,非常感谢。没问题。

0

  1. This post has no comment yet

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注