/ Voiceofvr / 0浏览

通过物理模拟和机器学习实现自动生成音效

Voices of VR Podcast

引言

我的名字是Kent Bye,欢迎收听Voices of VR播客。在今天的节目中,我邀请到北卡罗来纳大学教堂山分校的Ming Lin博士。

Ming博士在VR领域工作了很多年,她回顾了她在物理引擎方面的工作,早期物理引擎尚未普及于各种视频游戏引擎。因此,我今天要与Ming讨论她在音频及未来音频方面所做的工作。正如我们在游戏引擎中进行实时物理模拟一样,我们将进入一个很多音频将实时模拟并从这些模拟中的材料属性生成的时代。

接下来,我将与Ming谈论她在这方面的一些倡议,以及她如何计划使用机器学习和深度学习技术来提取对象的材料属性,基于实际录音。

这就是我们今天在Voices of VR播客中要覆盖的内容。

赞助商介绍

但首先,给我们的赞助商一个简短的介绍:今天的节目由虚拟现实公司(VRC)赞助。VRC正在创建许多一流的叙事体验,探索艺术、故事和互动之间的交叉点。他们负责创造《火星人VR》体验,成为了圣丹斯影展上最热门的票务选择,并在叙事和互动之间取得了很好的平衡。

所以如果你想观看一流的VR体验,请访问vrcompany.com。

Ming Lin博士的访谈

这次与Ming的访谈发生在3月19日至23日在南卡罗来纳州格林维尔举行的IEEE AVR学术会议上。接下来,让我们直接进入主题。

Ming Lin的背景

我叫Ming Lin,是北卡罗来纳大学教堂山分校的教员。我曾在计算机图形学、虚拟现实和机器人等多个领域工作,尤其对基于物理的模拟、建模和交互感兴趣,这非常适合虚拟现实中的多模态物理交互。

我主要专注于不同形式的基于物理的模拟,重点是实时交互模拟。在早期的工作中,我专注于碰撞检测。碰撞检测是确定对象何时接触、接触发生在哪里以及接触时间的过程。然后你利用这些接触信息来真正模拟碰撞响应。这实际上是任何物理引擎的核心部分。

事实上,我们早期的一些工作在许多物理引擎和CAT Chem等商用产品中都有使用。这些技术被一些人称为“叶子技术”,因为它们可以在多种应用中使用。你可以将其插入物理引擎、机器人应用,或是虚拟环境中,让你能够与场景中的任何对象互动。

关于虚拟现实的看法

我在北卡罗来纳大学教堂山分校教书和做研究已经很多年,每年我都会关注那种需要任何类型模拟和建模的VR应用。 我喜欢将VR虚拟环境看作是实验平台。如果你有一个假设、设计或想法想要尝试,VR将为你提供一个实验的平台,因为VR或任何虚拟的东西要么是现实世界的复制,要么是想象的现实世界的同等物。

你想模拟尽可能多的现象,以测试出你希望进行的一些假设或实验或设计。因此,你真的需要能够捕捉到交互,建模物体的行为,这一直是我的关注重点。

触觉反馈与人类感知

在我早期的工作中,我做了很多模拟,触觉学(Haptics)自然成为我研究的一个领域,我有几本书籍也是关于这个领域的。触觉与触摸启用的接口有关。大多数人会想到数据手套,但实际上有计算机触觉技术,可以让你通过虚拟设备与虚拟世界中的对象互动。

许多触觉设备本质上是反向使用的机器人设备。你可以使用该设备拿起物品、移动物品,当你感觉到物体时,实际上你是在接受模拟的力,并推动你,这样可以创造出虚拟表面的感觉。因此,我在触觉方面工作了很多年,这确实是一个非常有趣的领域,想象一下你能够感受到虚拟的东西。这是在与任何虚拟环境互动的极其强大的方式。

我认为许多人在思考虚拟世界时,仍然只能拥有这种触觉互动的能力,而这也是一个难题,尚未解决。我这些年没有在使用传统触觉设备(如Phantom)方面工作,因为我觉得有点受限,通常维护实验室也昂贵,每当你有一个损坏的设备,修理费用可能轻易达到1,000美元,这笔钱可以买两个Oculus Rift。

所以,我最近有点转向了这些多点触控的桌面设备,比如你的平板电脑,在那里你可以用手指与之互动。这种交互方式更容易获得且更广泛可用。这是我最近专注的触摸式接口。

音频渲染的重要性

但更近期的工作,我实际上一直在关注音频渲染或音频生成。原因部分是因为我认为音频至关重要,因为想象一下我们日常做的事情。我们看到东西,但我们也听到东西,没有声音,你几乎无法观看电影。

所以我和我的学生以及合作者们一直在这方面工作,我们主要集中在两个方面:一个方面是声音如何在空间中传播,这很重要,因为它给你一种空间的感觉,包括空间的大小;另一个方面是,它让你知道有什么东西在你的身后、左边或右边,给你一种方向感。我认为这些东西真的非常关键。

我们一直在使用我们的耳朵,而大多数时候,耳朵只被低估。我昨天和一个人谈话,他告诉我,有视力障碍的人甚至可以仅凭听觉打网球,虽然他们的规则有所不同。他们允许网球在地面上弹跳两次,在服务前,他们会喊出他们要发球。这一切都表明,仅凭耳朵就可以打网球是多么有力,这告诉我们,听觉是多么重要。

视觉与听觉的结合

我们可以做到这一点,他们仍然可以通过耳朵打运动。实际上,我们正在努力工作,结合我们拥有的所有技术,做一些对视力障碍者有意义的事情。我们关注的除了视觉、触觉和音频外,还有交叉模拟和交通模拟,这是将所有事情结合在一起的一个项目。

我们还在从物理空间模拟中自动生成声音,因为如今有很多人在使用游戏引擎做各种事情,包括模拟与虚拟世界的交互。如果我们已经在模拟物理,为什么不再进一步,让音频从物理模拟自然生成呢?这就是我们一直在做的工作,充分利用我们已经在做的物理模拟,为虚拟环境中所有对象的交互或合理的物理行为启用声音。

音频生成与机器学习

这将音频自动生成直接从物理交互中进行,而不是尝试录制然后伪造。我不知道你们昨天听到我的演讲吗?我展示了一些人伪造音频的片段,这些伪造的声音并不是真正发生过的声音,而只是通过某种撞击物体的声音生成的,与可能想听到的其它声音足够接近。我们正在做这些事情时,实际上是在伪造,撞击的物体甚至与电影中你看到的东西不相同,为什么不让物理引擎来完成这项工作呢?这就是我们的一种原则,如果你已经有任何物理模拟,那么就让它进一步生成自然的声音,这不会是录音,也不会是伪造的,它将实际上基于物理的原理自动生成。

音频技术的现状与未来展望

这又是我们正在研究的另一个领域,这是一个艰难的问题,大多数人认为比看上去更复杂,因为有太多不同类型的交互。我们只触及到了这一领域的皮毛。我认为还有更多的事情需要完成。对我这样长期致力于基于物理的模拟的人来说,看到我们能够进一步推进物理,生成各种声音效果的可能性非常令人激动。我们还在考虑自动生成运动声音的能力。我和我的一些学生稍微研究了这一点,但这并不简单。我会说这是非常困难的;这就是为什么我们还没有做到。但是,我们一直在考虑这一点,因为爆炸就像许多电影中的特效,但此时我们尚未拥有自动生成爆炸声的技术。

音频在虚拟现实中的应用

此外,我还在与他人讨论如何应用这些技术来帮助确定扬声器的放置。忘记房屋吧,有人问我,是否考虑过汽车?我说,哦,是的,汽车内的声音效果实际上可能更容易模拟,但我们还没有做到。因此,有许多不同的应用。我对这个潜力感到非常兴奋;我们一直在考虑,能否将其应用于VR环境,以便给你一种更好的方向感、更强的沉浸感。同时,我们也在考虑如何使用这类技术来设计声学空间,但还有更多,我们仅仅开始思考我们能做什么。

其中一个我提到的领域是,如果我们有足够的这些不同技术,另外一件我们正在研究的事情是,从一个录音中自动找出对象的材料属性。根据同样的原理,我们希望,假设我们能够视觉捕捉到这个房间,那么你有来自房间的数据,可以为这个房间构建环境。如果我们可以使用视觉信息来重建环境,我们希望将我们声传播技术结合起来,自动找出房间内材料的声学属性。这将是一个非常艰难的问题,因为你将有许多不同的材料,很多不同材料的组合,能够给你创造出你想要的音效。

总结与未来的希望

但是,如果我们能够实现这一点,将有极大的应用。正如我昨天提到的,如果你能够看到房间另一侧的扬声器,且能够找到引入那个房间的声学效果,那么实际上,你可以将通过网络传输到另一端的扬声器的声音取出。接着对其进行去卷积以移除环境效果,然后将扬声器的声音带入你所在的房间,并添加你所在房间的环境效果,那么你实际上可以感觉到你正在和坐在你身边的人交谈。这就是我在这里谈论的怎样将某人带到你身边的问题。

因此,我们一直在考虑怎么提升虚拟会议的体验,你知道的,我的意思是,想想我们一周内进行了多少电话,我们做了多少次视频会议。我只是认为我可以用这项技术来帮助改善我们的虚拟会议体验,那将十分有益,帮助许多其他人拥有更好的虚拟会议体验或虚拟沉浸体验,因为我的一些同事,例如Henry Fuchs,多年来一直在致力于虚拟沉浸技术,那里我看到很多远程环境的捕捉工作取得了巨大的进展。

对未来的想象

我们可以轻松结合视觉重建的进展和音频重建。因此这就是我们一直在思考的内容。至于将来我们到底能改进什么,毫无疑问,视觉是首位的。我们视觉上主导我们,而视觉一直是主导的感官,但音频是至关重要的。我认为计算能力已经到位。我认为它被忽视的原因是我们没有让人们充分利用计算能力去解决视觉问题。我们努力解决更现实的渲染问题,但实时渲染技术现在已可行并可用。但是音频,离所有这些还远着呢。根据我所了解到的,视觉信息实际上可以帮助我们解决音频问题,因为我们可以从所接收到的视觉信息推断出更多的信息。

例如,如果我看到这个环境有地毯、墙壁,有海报和海报架,那么我就可以猜到那种材料属性。这有助于我在找出什么确切的参数时初始化我的估计,这就是基本思想。

未来的听觉引擎

想象一下,实时物理引擎以90帧每秒的速度运行,这是创建视觉连贯感所需的视觉输入速度;然而,音频的速率高达48,000赫兹,远远更高。我知道,去年Dr. Vaughn Thistle在德雷克塞尔大学的演讲中提到过,模拟木纤维破裂,试图用实时物理引擎模拟破裂声,听上去并没有那么好。比起去做一些真实的木棍断裂的现场录音,听起来并没有那么好。因此,如何克服这种保真度问题?因为在这个阶段,实时声音渲染的效果似乎还达不到足够的生成质量。

我认为这部分与材料的特征化有关。正如我之前提到的,我们有一个Xyrofoam,它听上去像Xyrofoam,但并未完全达到那种感觉。但是我展示的第二个实例,使用多点触控桌面生成的声音确实更好。原因是这种材料属性是通过单个录音自动计算得来的。这就是我强调的至关重要的部分:能够自动从真实世界的录音中获取材料属性,这样我们才能将真实的例子转化为虚拟世界。

结语

我认为,通过学习从现实中汲取信息并将这类信息带入虚拟世界,我们正在取得进展。正如我之前所说,我们仅仅触及了皮毛,仍有很多事情需要完成。然而,如果我们真的希望创建一个真实且可信的虚拟世界,能够反映我们在现实环境中所听到和感受到的情况,那么我们需要具备将这些信息转化为模拟的能力。

我相信,音频体验的创造依赖于正确的模拟参数,很多人甚至不知道如何为所有这些不同的现象生成声音。我们主要集中在物体交互带来的侵入音效,以及诸如液化等常见现象。每一种交互都有需要关注的材料属性,没有正确的参数就能生成出逼真的音效。我认为这一领域有着巨大的潜力,但问题在于,从事这方面工作的人太少,资源也不足以解决这个困难的问题。

我的玩笑是,音频渲染尚处于初期阶段。如果我们把音频看作一名婴儿,尽管它现在的能力仅仅是爬,但我们不能仅仅因为它今天还爬不起来就放弃它。音频技术有着巨大的潜力,但现实是,尚未有足够的投资。在这个领域创建丰富的音频体验需要我们共同努力。视觉技术已经取得了显著的进步。如果你回顾一下计算机图形的70年代,想象一下当时生成的图像。今天的音频正处于那个阶段,而我们尚未在音频方面取得类似的进展。

因此,这也是一个非常激动人心的研究领域,对于研究生来说,试图解决一个被忽视的问题要比试图在一个已经发展成熟的领域取得新进展要容易得多。

我知道像Unreal和Unity这样的引擎都有自己的实时物理引擎,某种程度上,我想,他们能够实时计算这些非常复杂的交互。你是否预测未来会有能够实时音频引擎的出现,能够从环境中生成逼真的音频?

我认为会有,我想在最低限度上,你会得到更好的录音效果。我认为首先会是人们获得更真实的录音,接下来人们将开始添加更真实的房间效果。接着,人们会开始考虑如何让这些更真实,使用真实材料进入虚拟环境。这是一个逐步的过程。我们会达到这一点,但需要时间,因为在这个问题上没有足够的资源和人才。

想想八十年代,几乎没有人专注于物理引擎,只有少数几个人。而如今每一个游戏引擎中都有某种形式的物理引擎。我从未想过会有这么多资源可用。因此,进展是可以且必定会取得的,我对此充满希望。我相信有一天我们会有某种音频引擎。

让我澄清一下,确实也有许多音频库,但它们主要处理数字信号处理(DSP)。所以确实存在许多DSP库,能够执行各种音频处理支持,它们主要针对特定应用,而不是生成我们在虚拟世界中可能需要的各种声音。

在你提出这些模型时,你是否预见到将会出现像录制音场的ambisonic录音,然后利用机器学习技术对实际模型进行精炼的情况?

是的,这正是我们正在研究的内容。我们已经考虑了这一点一段时间,我们正在尝试不同的学习技术,旨在从单个音频录音中学习,随后推断出一种更通用的可应用于任何虚拟对象的模型。

我认为这是自然而然的,因为近年来,令人兴奋的深度学习技术实际上是从语音识别开始的,并在语音处理上取得了良好成绩,然后这一技术被视觉界采用,进行了图像识别。因此,我想这将会全循环回到我们进行音频识别、音频鉴定和提取的过程。

所以,我认为我们会抵达那个点。我的猜测是,这将在未来五年内发生,如果我们能更顺利,或许下一年就能取得一些进展。

总结

在VR中,任何实时物理交互总是非常引人注目的。你认为为什么看到VR中的实时物理如此引人注目?

如我之前提到的,你想创建一个虚拟环境,不仅仅是为了观看,而是为了与之互动,做一些事情。因此,每次你希望有任何类型的互动时,都必须能够模拟物体间的物理互动,这恰恰在于物理法则。如果你有一个球在弹跳,你想让它反弹,你希望物体不穿透彼此,并以符合物理法则的方式相互作用。缺少这种自动模拟的行为会立即打破你的幻想。因此,能够模拟交互的能力变得至关重要。每当我们看到它时,都会意识到它的重要性,这使得虚拟环境更真实,并使你能够做你想在虚拟环境中做的事情。你希望能够接触和感受一些东西,进而能够操纵这些物体。

像我开玩笑的一样,你会发现上世纪九十年代,任何人都可以像幽灵般穿过墙壁,而这绝对不现实。你可能会觉得它丧失吸引力,没有人可以穿过墙。而你尝试拿起的每个物体都会像幽灵图像一样穿透你的手指。因此,我认为这就是物理引擎受到如此欢迎的最大原因。

展望未来

最后,你对VR的潜力怎么看,它将能够实现什么?

有太多事情,几乎是关于一切。我对虚拟环境的潜力感到惊讶的是,为什么没有更多的政府机构在虚拟环境上投入资金。我喜欢将虚拟现实视为一个平台,它允许你进行各种实验,复制你的现实,且成本更低。因为一旦你做到了,你可以在虚拟世界中设计事物,可以设置复杂结构的原型,交互也可以在虚拟世界中进行。可以查明在虚拟环境中可能存在的问题,训练一个人如何组装和拆停车集非常复杂的机械,或训练一个人如何给人类进行手术,一切都可以在虚拟环境中完成。

这对医疗模拟、医疗培训以及紧急响应人员的训练都非常有益,这对警察培训、士兵训练也同样适用。它甚至可以帮助临床医生训练有恐惧和恐惧症的人。无论是设计你想要的任何东西,建造梦想中的住房、音乐厅、教室、教堂,都可以设想。普通人也能够身临其境,去到他们无法到达的地方,例如因为身体原因无法旅行的人,他们可以通过虚拟环境存在。

当我说“在时间和空间中旅行”时,我的意思是,你可以回到过去看看你无法看到的东西。你可以重建历史遗物,你可以重建你不可能存在的时间段,这可以让人在时空中接触。这种能力是极其强大的。即使这并不是唯一的用途,但它为科学探索、太空探索等所有领域提供了巨大的潜力。

因此,我认为想象力是VR可以实现的极限。所以我喜欢认为VR的潜力远远超过我们迄今为止看到的一切。

结束语

非常感谢你们!

谢谢你再次投入时间。刚才是Ming Lin博士,她是北卡罗来纳大学教堂山分校的计算机科学教授。我从这次访谈中得到了很多启发,首先,我确实无法停止思考音频和模拟未来会如何发展。我认为截至目前,在捕捉现场录音并将其放入虚拟化环境中,然后尝试让它拥有许多不同的反射,以及重现空间的感觉方面,我们的能力是相对有限的。

回顾当下音频的状态,会让人觉得这就像是像素化的雅达利游戏一样,因为在音频的空间化体验中,这种保真度实在是太低。我认为我们在本周的Voices of VR播客中畅谈了许多不同的主题,讨论关于Aussik耳机的重要性,还有其他的专有解决方案,能够制作音频对象格式,从而通过创造虚拟化的房间来再现这种空间感。

但我对未来各项创新的进展感到兴奋,特别是在通过材料属性对音频进行实时模拟方面,包括我提到的那些机器学习和深度学习的应用,以及提取世界的材料属性的方法。这一切都让我感到激动人心。想到人工智能可以开始提供一些具体的数字,展望将AI和机器学习技术融合到VR音频中,为实现实时音频模拟的愿景而努力,我认为这将是一种更丰富的体验。

正如Pete Moss在我做的第400期访谈中提到的那样,音频确实在销售空间,因此我对此深信不疑。虽然这是一个微妙又常常被忽视的问题,但我认为,尤其是在这个引人关注的领域,优先关注音频的体验会有一个巨大的不同。如果你还没有看到Gear VR上的《6 by 9》体验,你应该去看看,并查看我在287期中与Fran Panetta的访谈。当我在圣丹斯见到她时,她进行了大量音频设计工作,并且她来自音频制作背景。因此,她是一个很好的例子,展示了重视音频的人的思路,以及在《6 by 9》这个孤独监禁体验中感受到的多层次的存在感。

Ming在IEEE VR社区做了一个主题演讲,介绍了她的一些最新研究,能够将她的想法分享给更广泛的VR社区,因为在VR社区中,强调音频实时模拟的Ming仍然是少数。希望能够推广这个即将到来的领域,期待更多关于音频和模拟的创新内容。非常感谢你们收听Voices of VR播客,如果你喜欢这个播客,请传递这个消息。你知道,直接告诉你的朋友,或者通过间接方式告诉世界,至于去iTunes上写一下评论、分享一些想法、来帮助引起更多关注,都是非常欢迎的。如果你想要在经济上帮助我们,请访问patreon.com/voicesofvr。