2025-01-29 / Voiceofvr / 0浏览

关于1618 Digital的Oliver Kadel进行的空间音频格式调查

Voices of VR 播客

大家好，我是 Kent Bye，欢迎收听 Voices of VR 播客。这个播客将探讨未来空间计算中沉浸式讲故事的结构和形式。您可以通过 patreon.com/voicesofvr 支持我们的播客。今天我们将深入探讨空间音频的问题，今天的嘉宾是 Oliver Cadell，他是一位音效设计师、声学工程师，同时也是 one six one eight digital 的创始人。他多年来一直在多个沉浸式讲故事项目中工作。我在 Fitness Immersive 见过他，过去几年中有很多不同的项目参与了这个活动，并出现在 Oculus TV 现在的 Meta Quest TV 上，还有 Apple Vision Pro。他一直致力于冒险系列的音频制作，并在这方面有广泛的经验，包括 ambisonic 格式以及所有这些新兴的格式。

讨论中还涵盖了 Google 提出的沉浸式音频模型和格式的开源格式，以及使用 Unity 和 Unreal Engine 进行游戏引擎音频的一些具体考虑。他还主持了沉浸式音频播客，并已发布超过一百集。我实际上曾采访过他，随后他又采访了我，所以我在去年年底播出的一个之前的节目中有出场。我会把链接放在节目说明中，方便你去收听。我分享了一些我自己关于空间音频的个人经历。但我想今天的节目能更深入地了解社交音频的领域。

与 Oliver Cadell 的访谈

这个与 Oliver 的访谈发生在 2024 年 12 月 11 日，接下来我们就开始吧。

Oliver Cadell 自我介绍

我叫 Oliver Cadell，是一名音效设计师和声学工程师，主要在沉浸式媒体（例如 VR、AR、混合现实、180/360 度沉浸式电影、游戏、虚拟培训和基于场所的安装）中从事空间和交互式音频工作。我是 one six one eight Digital 的创始人和音频负责人，我们在伦敦。我们已经成立了超过十年，团队很小，提供从现场声音录制到音效设计和后期制作，以及游戏引擎音效实现的完整制作流程。我们最近与 Bleed 建立了合作关系，Bleed 是一家面向客户的后期制作设施，服务于传统制作，如故事片、纪录片和电视节目，以及独立制作、音乐等，现在还包括沉浸式内容。

我还在约克大学的音频实验室进行研究生研究，研究主题是空间音频对认知负荷和记忆保留的影响，背景是在 VR 的虚拟培训情况之下。和你一样，Ken，我们也有一个非常富有想象力的播客，叫做沉浸式音频播客。我和我的共同主持人 Monica Bowles 会与行业领袖、公司、学者和艺术家谈论一切与空间音频相关的主题。播客已经运行近七年。今年早些时候，我们在南方互动节庆祝了第 100 集的播出。非常酷。

Oliver 的背景和旅程

关于我的背景，实际上我出生在拉脱维亚，成长于波罗的海地区。2004 年 2 月，我来到英国追求我的声音工程教育。最初，我是在英格兰的肯特郡，2010 年 2 月我搬到了伦敦，申请了大学。2013 年 2 月，我获得了硕士课程的奖学金。在那里，我开始了制作声音和对画面的音效工作。在我的学习过程中，我开始接触环绕声混音以及音乐和录音的录音工作。大约在那个时候，这些早期的空间音频经验让我有了参与沉浸式媒体制作的机会，早在 2015 年左右。那时，360 度电影制作很常见，我仍然称之为 360 的黄金时代。但行业很快就开始转变，更多的关注转向互动内容。线性制作和互动制作之间的比例在逐渐转变。

关于空间音频的不同格式

我知道当你开始接触空间音频时，其中一件事是，我在多年来的 XR 报道中发现，并不一定有一个标准的音频格式。如果使用游戏引擎，您可能会使用 Unity 或 Unreal。我知道有类似 ambisonics 的东西，还有 Dolby Atmos，您也在处理不同类型的格式。因此，在我们深入讨论一些项目之前，您能否告诉我您对不同格式的看法？您觉得在沉浸式音频或 ambisonics 方面，有哪些新兴标准正在出现？

我们确实看到了音频格式的演变以及新格式的出现。从几个角度来看这是有用的。正如您所提到的，我们有一个游戏引擎工作流范式，涉及到实时对象渲染专业化，其中包括耳机解码器，甚至虚拟声学等。我们还有线性后期制作范式，使用诸如 Dolby Atmos、Ambisonics 和 MPEG-H 的格式。有时我们会使用多种格式的组合。例如，Facebook 360 在 Meta 平台上支持两条平行播放流：一条是 2D，充当头锁定的音轨，可以放置非情节音乐或叙述，还有一条是多声道音轨，可以专门处理情节元素和环境音轨等。因此，就多样性而言，我们的选择更多了，这只是了解哪个格式在何处有效，选择最佳选项的一个案例，有时简单来说就是理解如何在特定平台上进行发布和分发并使用该格式。

是的，似乎根据你将要发布的内容，决定了支持哪些格式。我知道某些 ambisonics 格式在 YouTube 上得到了支持，但我看到评论说可能已经降级或不再工作。因此，您有面向对象的方法，让您可以将个别音频声音放置在三维空间中，而 Dolby Atmos 在某种程度上也在做这样的事情，但这是一个专有格式，仅在拥有许可证的情况下才能进行编码和解码。您开始在 Apple Vision Pro 上看到越来越多的这种情况。然后，Ambisonics 似乎是一个存在已久的格式，但现在在这些具有 6 自由度或 3 自由度跟踪头盔中能够实际渲染其内容时又重新受到关注。

至于 MPEG-H，我不太熟悉，您能稍微解释一下它是什么，以及它在这些不同格式中的适应方式吗？

我认为区别在于，有些格式和编解码器并非开源。因此，需要由设备制造商和软件应用开发人员获得许可证才能使用，并且这会产生费用。因此，这些编解码器的大规模采用可能会受到限制。Dolby Atmos 无疑是最普遍和成功的格式之一，因为它在电影行业得到了广泛采用，后来在 Apple Music 等也得到了使用。MPEG-H 是由 Fraunhofer 机构开发的。我不想列出当前在的应用和设备中采用的类别，因为我不想不准确，但显然，它并不像 Dolby Atmos 那样广泛普及。不过，我知道例如 Sony 的 360 格式确实使用了 MPEG-H 及其专利耳机解码器。另一方面，Ambisonics 可能是最普遍和广泛使用的格式之一，因其可以在上面整合，是任何类型的生产流程都能运用的格式。在我看来，处理这个格式是相对简单的，从现场录音到后期制作过程中的整合。

沉浸式音频的前景

我认为在音频水平上有什么优劣之处，但在技术水平上通常也会看到这些技术因特定技术公司而被采纳和推动，这些公司控制着发布和分发平台。您说的没错，YouTube 的空间音频目前是不能正常使用的。我很惊讶看到一些多年来发布的作品现在无法解码，所以它们彻底放弃了支持。但最近 Google 和其合作伙伴开发的新的编解码器——称为沉浸式音频模型和格式（IMF），我希望这个新编解码器会被重新实现，并且它将成为一个开源编解码器。因此，看到这将如何影响未来，确实很有趣。

个人经历与未来前景

我通过不同的项目经历了很多有趣的事情，这些经历让我觉得非常难忘。我曾参与不同的沉浸式经历，其中包括与大卫·阿滕伯勒合作的自然历史项目。我们制作了《首次生命》、《植物王国》、《微生物怪物》和《天空的征服》等沉浸式体验。从声音设计和创造的自由度来看，这是最棒的项目之一。将这些非人类规模的事件和对象声化，创造出悬念和惊奇的感觉，这是非常令人满足的。在录音过程中与人互动、理解故事、了解环境的情绪是这个过程中特别令人愉快的时刻。

非常期待看到未来沉浸式音频及其潜力的发展方向。这就是我想传达的最后一点。我相信在这一领域，特别是与这次播客相关的事情，将为我们的行业带来更多的机会和发展。

我是 Oliver Cadell，感谢您收听 Voices of VR 播客。