苹果专利提出混合阶Ambisonics，兼顾XR音频精度与性能

2025-04-02 / Nweon / 0浏览

苹果专利提出混合阶Ambisonics，兼顾XR音频精度与性能

（映维网Nweon 2025年04月02日）对于Ambisonics这种环绕声格式，声场可以用球面谐波函数的总和来表示。当球面谐波函数扩展到包含多阶时，声场的表示可能会变得更加详细，从而在声场的空间再现中实现更高的空间分辨率。

但对于头显等计算能力有限的设备而言，使用Ambisonics存在限制。所以在一份专利申请中，苹果就介绍了一种使用参数和非参数空间音频渲染来提高空间分辨率，同时最小化计算能力要求的空间音频处理方法。

其中音频内容的Higher-Order Ambisonics（HOA）信号和音频内容的First-Order Ambisonics（FOA）信号用于空间渲染音频。例如，声场的FOA表示与HOA表示分离。通过对FOA表示的参数化分析，系统确定自适应锐化滤波器，这比对HOA表示进行计算负担更少。

一方面，滤波器可以根据参数分析估计的参数来确定。所述滤波器可应用于所述HOA表示的空间渲染，以产生可用于驱动特定扬声器布局的扬声器的输出音频信号。产生的管道可以提供比只执行非参数空间音频渲染过程更高的分辨率渲染，同时需要的计算能力比高阶Ambisonics的参数空间音频渲染更少。

图2是使用多阶Ambisonics执行空间音频处理的播放设备14。设备14包括音频文件17、扬声器布局18和控制器20。

控制器20可以是专用处理器，并可以配置为执行音频信号处理操作，诸如空间音频处理操作和/或网络操作。

扬声器布局18可以包括一个或多个输出设备的扬声器的排列指示。例如，对于包括五个扬声器的输出设备16，扬声器布局18可以指示扬声器的数量和/或扬声器相对于彼此的放置。

可以将控制器20配置为确定用于（或正在）播放音频内容的输出设备的扬声器布局18。扬声器布局18可以存储在播放设备的存储器中。在这种情况下，扬声器布局可以由正在（或将要）播放音频内容的输出设备提供。例如，输出设备16可以通过无线数据连接向播放设备14提供扬声器布局。

在另一方面，扬声器布局18可以通过使用系统10的一个或多个传感器来确定，例如摄像头。摄像头可以捕获输出设备16的图像，并且可以基于图像识别确定该设备的扬声器的布局。

控制器20包括用于使用多阶Ambisonics执行音频空间处理的若干操作块。如图所示，所述控制器包括信号路由器22、时频（TF）transformer 24和60、声场分析仪25、滤波器估计器27、（例如音频）渲染器29和逆TF transformer 61。

控制器20可以配置为接收音频文件17，其中包括音频内容的“Q”音频信号21。音频内容可以是球形音频格式，例如HOA音频格式，其包括声场的HOA表示作为若干音频信号21。

在一个方面，控制器可以基于用户输入接收音频文件。例如，用户可以请求由控制器20执行的媒体软件应用程序以流式传输音频内容。这时候，控制器20可以通过网络13作为HOA表示接收音频内容。信号路由器22接收音频信号21，并从接收到的HOA数据中分离与FOA数据相关联的音频信号。

路由器22可以从HOA信号中提取包含一个或多个双声信道的FOA信号，HOA信号可以包含比FOA信号更多的双声信道。如本文所述，高阶双声信号可以包括与每个低阶相关联的信号。

TF transformer24可配置为接收可为时域信号的音频信号23，并将信号转换为时频域信号。所述transformer可接收音频信号23，并可基于所述时域信号产生时频信号。例如，时频信号可包括音频信号相对于时间（或作为时间的函数）的频率分量。

声场分析仪25可以配置为接收来自TFtransformer24的时频信号，并且可以对信号执行声场分析，以确定（产生）与音频内容的声场相关联的一个或多个（空间）参数26。

分析仪可以确定声场的至少一定时频信号的参数，而参数根据频率和时间量化声场的一个或多个特性。例如，分析器25可以基于至少一定的时频信号的声学分析，例如基于两个或多个信号和/或声强之间的相互关联，确定与声场的一个或多个声源相关联的DoA。

分析器25可以确定其他参数，例如通道间电平差（ICLD）、通道间时差（ICTD）和/或通道间相干性（ICC）。作为另一个示例，分析仪25可以通过识别一个或多个方向分量来确定声场的声音的直接与环境的比率，方向分量可以基于两个或多个信号之间的强相关性来识别，而环境可以基于与方向分量完全或部分不相关的声音来确定。其他参数可包括声场的扩散和声场的混响。

在一个方面，分析仪25可以使用任何方法来确定可以提供音频信号23的声场在时频域中的一个或多个定量特性的任何类型的参数。例如，分析仪可以使用多重信号分类分析来估计一个或多个声源的DoA。分析仪可以使用基于机器学习的方法进行参数估计。

滤波器估计器27接收由分析器25产生的参数26和时频域中的一个或多个音频信号23，并基于参数26和/或至少一定音频信号23估计（或确定）一个或多个自适应滤波器28。滤波器28可包括锐化滤波器，其可提供音频内容的空间渲染的空间增强。

例如，当应用于一个或多个音频信号时，锐化滤波器可以增强一个或多个信号的方向分量。这时候，滤波器可以增强声场内一个或多个声源的声音。在一方面，所述滤波器28可以是非线性和/或线性滤波器。

锐化滤波器可以是任何类型的音频滤波器，如高通滤波器、低通滤波器、带通滤波器等。另一方面，滤波器可以是信号相关。特别地，自适应滤波器可包括时频自适应权重，其可基于音频信号23的变化而自适应。

在一个方面，由估计器27产生的滤波器可以基于正在播放（或将要）播放音频文件17的音频内容的输出设备的扬声器布局18。例如，估计器27可为每个输出音频信号产生一个或多个滤波器28，输出音频信号可用于驱动输出设备的扬声器。这时候，估计器27可以根据对扬声器布局18的改动调整产生的滤波器的数量和/或类型。在另一方面，基于扬声器布局18，可通过使用音频信号23中的至少一个和/或至少一个参数26的任何方法产生自适应滤波器。

渲染器29接收所述音频信号21，并通过基于所述扬声器布局18对所述音频信号21进行空间渲染来产生一个或多个所述渲染信号。具体地，渲染器29可以对所述音频信号21中的一个或多个执行非参数空间音频渲染，以产生一个或多个驱动信号。

以头显为例，渲染器29可以产生两个驱动信号。在一个方面，渲染器29可以在空间渲染的信号上应用一个或多个空间滤波器，例如头相关传递函数HRTF。渲染器可以对双耳音频信号21执行线性空间渲染以产生两个渲染信号（左信号和右信号），并且可以应用HRTF来产生一个或多个双耳音频信号作为一个或多个输出音频信号19。

TF transformer 60接收来自渲染器29的渲染信号，并将时域信号转换为时频信号。控制器20通过对时频域中的一个或多个渲染信号施加滤波器28产生一个或多个输出音频信号19。在一个方面，控制器可以在一个或多个渲染的信号应用一个或多个滤波器，以便改进（增强）音频内容的空间分辨率。

逆TF transformer 61将输出音频信号19转换为时域。控制器20可以配置为使用输出音频信号驱动输出设备的一个或多个扬声器，例如输出设备15。具体地，控制器20可以将输出音频信号19传输到输出设备（例如，设备15和/或16），以便输出设备在空间上再现音频文件17的声场。

如本文所述，由控制器执行的操作可用于锐化由渲染器29执行的音频文件17的音频内容的混声记录的线性、非参数音频渲染的空间分辨率，滤波器使用使用音频文件的至少一部分的参数空间音频处理来估计。

特别地，可以接收并分为两个管道的音频文件：第一管道包括FOA信号的音频信号23，第二管道包括HOA的音频信号21。在包括操作块24、25和27（以及60和61）的第一管道中，控制器20可以对FOA执行参数空间音频处理，以估计一个或多个自适应滤波器28（并应用滤波器）。

第二管道可以包括渲染器29，其中控制器可以对原始HOA信号执行非参数空间音频渲染，以根据扬声器布局18组合一个或多个音频信号21来产生多个空间渲染的音频信号。控制器可以通过对空间渲染的音频信号施加自适应滤波器28来产生输出音频信号19。

在一个方面，控制器20可以并行地执行第一管道和第二管道的操作。在这种情况下，控制器可以确定滤波器28并在空间上基本上同时非参数地渲染音频内容。在某些方面，当系统10通过一个或多个输出设备播放音频内容时，可以实时地执行本文所述的操作。特别是，控制器20可以“实时”地执行空间音频处理操作，。

在一个实施例中，控制器20可以停用第一管道的参数化处理。参数化处理可对控制器20施加高计算负荷。在这种情况下，当控制器可能无法维持参数化处理的计算负荷时，控制器可以停用第一管道并可以继续以非参数化方式空间渲染音频文件17的音频内容。

在这种情况下，渲染器29可以产生空间渲染的音频信号作为输出音频信号19，绕过操作块60和61，并使用渲染的信号进行音频播放。

图3和4示出分别用于执行一个或多个音频信号处理操作。

处理30始于控制器20接收声场的HOA表示，声场包括第一组音频信号。例如，控制器20的信号路由器22可以接收音频文件17，音频文件17可以是包括一个或多个音频信号21的Ambisonics格式。HOA表示可以是用户期望的音频内容。

信号路由器22从第一组音频信号中分离（或分割）第二组音频信号，第二组音频信号具有声场的FOA表示。

控制器20确定基于第二组音频信号中的若干自适应滤波器。声场分析控制器20可以对声场的FOA表示的音频信号23执行参数空间音频处理，以确定与声场相关联的一个或多个参数26。

使用参数和四个FOA音频信号中的一个或多个，控制器20的滤波器估计器27可以根据播放音频内容的系统10的输出设备的扬声器布局产生一个或多个自适应滤波器。

对于输出设备15，扬声器布局可以指示两个扬声器，左扬声器和右扬声器，和/或它们的相对排列，其中滤波器估计器27可以为两个扬声器中的至少一个产生一个或多个滤波器。

控制器20基于第一组音频信号和自适应滤波器产生一组输出音频信号。特别是，控制器20可以通过将自适应滤波器28应用于渲染器29根据输出设备的扬声器的扬声器布局对HOA音频信号21的线性渲染来产生输出音频信号19。

控制器20使用输出音频信号驱动数个扬声器。例如，控制器20可使播放设备14将输出音频信号19传输到包括或可通信耦合到扬声器的输出设备，以使输出设备播放信号。

在一个方面，控制器20可以在播放音频内容的同时执行过程30的特定操作。例如，控制器20可以通过诸如该播放装置的电子设备通过若干扬声器播放用户所需的音频内容。为了播放音频内容，播放设备可以驱动集成扬声器，或者可以将音频内容传输到输出设备，例如输出设备16。在这种情况下，可以在通过播放设备播放用户所需音频内容的同时执行过程30的操作（例如。

图4是执行空间音频处理的过程40的另一方面流程图。

在一个方面，控制器20可以执行过程40的操作，同时对用于通过一个或多个扬声器重放的双音响记录执行空间音频处理。处理40开始于控制器20接收HOA格式的音频内容。例如，音频文件可以包括声场的三阶Ambisonics表示，例如XR环境的虚拟声场。

控制器20确定播放设备14的一个或多个设备特征。具体地，控制器可以确定可以执行空间音频处理的系统10的一个或多个设备的特征。在一方面，设备特征可以是指示播放设备上的计算或处理负载的任何属性。在一个方面，控制器可以基于所确定的设备特性确定当前计算或处理负载。

控制器20根据一个或多个设备特征确定参数处理是否（或继续）激活。具体地，控制器20可以确定是否对音频内容进行参数化处理以确定一个或多个自适应滤波器，其可应用于音频内容的非参数化渲染。

所以，控制器通过参数处理来决定是否要（继续）确定滤波器。音频内容的参数化处理可能需要处理资源，通过根据播放设备的计算或处理负载，可以打开或关闭自适应滤波器的产生和应用。

在一个方面，控制器可以根据正在由诸如播放设备的电子设备执行的一个或多个（其他）操作进程确定计算负载。在另一方面，电子设备的计算负载可以基于一个或多个设备特征，例如资源使用或资源可用性，例如内存使用或可用性等。在一方面，控制器可以将计算负载确定为播放设备的总体计算能力的值（或百分比）。

由于参数化处理在空间方面增强了音频内容的非参数化渲染，所以当计算或处理负载高于（大于）阈值时，空间增强可以停用。

一方面，控制器可以确定不再需要确定自适应滤波器。特别是，为响应于确定应停用参数处理，控制器20可以停止参数处理音频内容。

具体地说，如果已经产生特定元素以空间增强音频内容，例如在音频内容的播放期间，则控制器20可以停止产生一个或多个参数26和/或一个或多个滤波器28。在一个方面，如果在系统10开始对音频文件进行空间音频处理以进行播放之前执行处理40，则所述操作块可选。

控制器20通过非参数（线性）渲染音频内容产生空间渲染的音频信号作为输出音频信号。具体地，渲染器29可以根据扬声器布局18在空间上渲染音频信号21，以产生输出音频信号19。在这种情况下，控制器20可以不执行特定操作。

控制器20使用输出音频信号驱动多个扬声器。例如，控制器20可以使用非参数产生的输出音频信号来代替使用空间音频参数处理产生的输出音频信号来驱动耦合到播放设备14的扬声器。作为另一示例，控制器可使所述播放设备14将所述输出音频信号传输到所述输出设备，所述输出设备14可配置为使用所述信号来驱动一个或多个扬声器。

进程40返回接收（或继续接收）音频内容。在这种情况下，控制器20可以在音频内容由输出设备处理和播放的同时执行过程40，使得控制器可以根据计算或处理负载确定是否激活（或保持激活）非参数处理。这可以为系统用户提供更强的声学体验，同时确保系统不超过计算限制。

如果应该激活参数处理，则控制器20可以执行音频内容的参数空间音频处理以产生一个或多个参数。除了产生参数26之外，控制器20可以产生一个或多个自适应滤波器28。控制器20通过非参数地渲染音频内容来产生空间渲染的音频信号。

在一方面，控制器可以执行额外的音频处理操作，例如对音频内容应用一个或多个空间滤波器。控制器20通过根据一个或多个参数滤波空间渲染的音频信号来产生输出音频信号。具体地，控制器20可以基于所述参数产生一个或多个自适应滤波器，并且可以将所述滤波器应用于一个或多个空间渲染的音频信号。控制器使用输出音频信号驱动多个扬声器。

控制器20可以在接收并渲染用于播放的音频内容的同时执行过程40。在一个方面，控制器可以在播放期间一次或多次激活和停用参数处理。在这种情况下，控制器可能在非参数处理和参数处理之间交叉渐隐。

例如，一旦输出音频信号19被逆TF transformer61转换回时域，音频数据可存储在一个或多个音频缓冲器中以（无线）传输到输出设备。在确定要停用参数处理后，控制器可以停止执行参数处理，并且可以开始用来自渲染器29的非参数空间渲染输出音频信号填充音频缓冲区。所以，一旦播放设备从音频缓冲器传输参数化处理的音频信号，它将开始传输非参数化处理的空间渲染的音频信号。

相关专利：Apple Patent | Method and system for spatial audio processing using multiple orders of ambisonics

名为“Method and system for spatial audio processing using multiple orders of ambisonics”的苹果专利申请最初在2023年9月提交，并在日前由美国专利商标局公布。