CN106210990A

CN106210990A - 一种全景声音频处理方法

Info

Publication number: CN106210990A
Application number: CN201610550721.9A
Authority: CN
Inventors: 孙学京; 张晨
Original assignee: Beijing Tuoling Inc
Current assignee: Nanjing Tuoling Intelligent Technology Co., Ltd.
Priority date: 2016-07-13
Filing date: 2016-07-13
Publication date: 2016-12-07
Anticipated expiration: 2036-07-13
Also published as: CN106210990B

Abstract

本发明公开了一种全景声音频处理方法，所述方法包括：服务器端获取不同格式的音频信号，转码获得中间格式音频信号；对中间格式音频信号叠加，得到输出给客户端的中间格式音频信号；客户端从服务器端获取输出给客户端的中间格式音频信号；获取头部旋转方向；解码获得全景声双耳信号。所述方法能够有效且高质量地生成全景声，全景声在服务器端经过处理，统一为中间格式，很好地改善了全景声内容格式的兼容性，减小了网络带宽占用量并且减轻了客户端的处理复杂度，解决了现有客户端无法有效、高效地播放各种格式的全景声内容的问题。头部旋转的全景声渲染在客户端完成，也满足了头部追踪低延时的需求，尤其适用于虚拟现实的应用。

Description

一种全景声音频处理方法

技术领域

本发明涉及信号处理技术领域，具体涉及一种全景声音频处理方法。

背景技术

在用虚拟现实头戴设备(Head-Mounted Display，HMD)向用户呈现内容时，音频内容通过立体声耳机向用户播放。这时需要面临如何提高虚拟环绕声效果的问题。在虚拟现实应用中，当通过立体声耳机播放音频内容时，虚拟3D音频的目的是想要达到一种效果，让用户就像用扬声器阵列(如5.1或7.1)听一样，甚至像听现实中的声音一样真实。

在制作虚拟现实音频内容时，通常有需要几种声音元素。一种提高临场感的方法是跟踪用户头部动作(head tracking)，对声音进行相应的处理。比如，如果原始声音被用户感知为来自正前方，当用户向左转头90度后，声音应被处理使得用户感知声音来自正右方90度。

在这里虚拟现实设备可以有很多种类，比如带头部跟踪的显示设备，或者只是一部带头部跟踪传感器的立体声耳机。

实现头部跟踪也有多种方法。比较常见的是使用多种传感器。运动传感器套件通常包括加速度计、陀螺仪和磁力传感器。在运动跟踪和绝对方向方面每种传感器都有自己固有的强项和弱点。因此常用做法是采用传感器“融合”(sensor fusion)，将来自各传感器的信号组合在一起，产生一个更加精确的运动检测结果。

在得到头部旋转角度后，需要对声音进行相应的变化。生成虚拟现实声场有以下几种方法：

一种做法是是对音频对象使用HRTF(Head Related Transfer Function，头相关变换函数)滤波器进行滤波，得到虚拟环绕声。HRTF在时间域所对应的名称是HRIR(HeadRelated Impulse Response)。或者将音源与双耳房间脉冲响应(Binaural Room ImpulseResponse，BRIR)做卷积。双耳房间脉冲响应由三个部分组成：直达声、早期反射声和混响。直接将音频对象和BRIR卷积这种做法的缺点是如果场景复杂，含有大量的音频对象，则复杂度会变得非常高，特别是在虚拟现实设备上还需要根据头部的动作对音频对象的位置进行实时调整，对于很多音频播放终端，这将导致功耗过大，甚至无法播放。另外大量的音频对象数据从服务器到客户端对带宽的要求极高，不切合实际。

第二种方式是将声音转到ambisonic域，然后再通过使用旋转矩阵对信号做变换。具体做法是将音频转为B格式信号，将该B格式信号转换为虚拟扬声器阵列信号，将虚拟扬声器阵列信号通过HRTF滤波器进行滤波，得到虚拟环绕声。

第三种方法是采用人头录音，直接得到双耳的信号。通过多个方向的人头录音，进行插值，从而得到头部在任何旋转角度时的双耳信号。

可以看到，虚拟现实全景声存在多种格式，在效率以及效果上各有优缺点。现有的虚拟现实全景声客户端一般无法完全支持和兼容各种全景声格式。同时，由于复杂度和带宽的限制，客户端支持有的全景声格式会力不从心。有鉴于此，在本领域需要一种有效且高质量生成虚拟现实全景声的***解决方案。

发明内容

本发明的目的在于提供一种全景声音频处理方法，采用服务器加客户端的音频处理方式，能有效地在服务器端兼容输入的各种全景声格式，将其根据应用和内容，动态地选择兼容性好的中间格式进行转码输出，从而大大改善了客户端对全景声的兼容性，降低了客户端处理全景声的复杂度，减小了服务器到客户端传送全景声信号的带宽。客户端只需要从服务器端获取全景声的中间格式，以及虚拟现实头戴设备获取的头部方向，即可解码获得全景声双耳信号，通过立体声耳机播放，即能获得全景声体验。

为实现上述目的，本发明所述的全景声音频处理方法包括以下步骤：

服务器端获取不同格式的音频信号，对不同格式的音频信号进行转码获得中间格式音频信号；对所述中间格式音频信号叠加，得到输出给客户端的中间格式音频信号；

客户端从服务器端获取输出给客户端的中间格式音频信号；获取头部旋转方向；解码获得全景声双耳信号。

优选地，所述不同格式的音频信号包括多方向双耳录音信号、声场录音信号和音频对象信号。

优选地，所述中间格式音频信号包括多路binaural信号和Ambisonic信号。

优选地，服务器端对所述不同格式的音频信号转码为统一的中间格式音频信号，具体包括：

a、对于中间格式音频信号为多路binaural信号的情况：将输入的多方向双耳录音信号、声场录音信号和音频对象信号都统一转码成多路binaural信号；

b、对于中间格式音频信号为Ambisonic信号的情况：将输入的多方向双耳录音信号、声场录音信号和音频对象信号都统一转码成Ambisonic信号。

优选地，服务器端对所述不同格式的音频信号混合地或动态地同时转码为多种中间格式音频信号。

优选地，对所述中间格式音频信号叠加指的是将不同格式的音频信号转码得到的中间格式音频信号混合叠加在一起，得到最终输出给客户端的中间格式音频信号。

优选地，所述头部旋转方向包括头部注视方向的水平角和仰角。

优选地，所述的头部旋转方向的获取是通过虚拟现实头戴设备的传感器得到的。

优选地，所述的解码指的是将中间格式音频信号解码转换为全景声双耳信号，具体包括：

a、对于中间格式音频信号为多路binaural信号的情况：将多路binaural信号，根据头部旋转角度，插值得到全景声双耳信号；

b、对于中间格式音频信号为Ambisonic信号的情况：将Ambisonic信号，通过根据头部旋转角度得到的旋转矩阵处理得到声场旋转后的Ambisonic信号；再通过解码矩阵转换为虚拟扬声器阵列信号，将虚拟扬声器阵列信号通过对应的HRTF滤波器进行滤波，得到全景声双耳信号。

本发明具有如下优点：本发明所述全景声音频处理方法能够有效且高质量地生成全景声，主要用于配合虚拟现实头戴设备进行音频的立体声耳机播放，并且所述全景声在服务器端经过处理，统一为中间格式，很好地改善了全景声内容格式的兼容性，减小了网络带宽占用量并且减轻了客户端的处理复杂度，很好地适应了现有的基于云架构的网络类型，由云端服务器执行主要的音频处理、存储和分发，从而解决了现有客户端无法有效、高效地播放各种格式的全景声内容的问题。头部旋转的全景声渲染在客户端完成，也满足了头部追踪低延时的需求，尤其适用于虚拟现实的应用。

附图说明

图1是本发明所述全景声音频处理方法的流程示意图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本发明所述的全景声音频处理方法包括以下步骤：

服务器端获取不同格式的音频信号，将其根据应用和内容，动态选择兼容性好的中间格式进行转码，获得中间格式音频信号；对所述中间格式音频信号叠加，得到输出给客户端的中间格式音频信号；

客户端从服务器端获取(例如通过互联网)输出给客户端的中间格式音频信号；获取头部旋转方向；解码获得全景声双耳信号。

优选地，所述不同格式的音频信号包括多方向双耳录音信号(比如quadbinaural)、声场录音信号(比如Ambisonic)和音频对象信号。

优选地，所述的头部旋转方向的获取是通过虚拟现实头戴设备的传感器得到的。比如陀螺仪，加速计和指南针。

下面通过三个实施例详细说明本发明所述的全景声音频处理方法的具体步骤。

实施例一：

对于中间格式音频信号为多路binaural信号的情况的处理包括如下处理步骤(以4路，即Quad binaural为例)：

1、将服务器端的各种全景声格式统一转码为多路binaural格式。

a.将音频对象信号转码为多路binaural格式。

将音频对象通过HRTF滤波得到双耳信号B_i。因为要处理N＝4个方向的双耳信号，所以音频对象要与4个方向对应的HRTF滤波器都进行一次滤波。

B_i＝H_i·S_Obj

其中：i＝1～N；

H_i表示第i路的HRTF滤波矩阵。

S_Obj表示输入的音频对象。

b.将声场录音信号转码为多路binaural格式。

将声场录音信号通过旋转矩阵旋转得到N＝4个方向的声场信号，分别将旋转后的声场信号转换为虚拟扬声器阵列信号，将虚拟扬声器阵列信号通过HRTF滤波器进行滤波，得到N＝4个方向的双耳信号B_i。

B_i＝H_i·D_i·R_i·S_Amb

其中：i＝1～N；

H_i表示第i路的HRTF滤波矩阵。

D_i表示第i路的解码矩阵。

R_i表示第i路的旋转矩阵。

S_Amb表示输入的音频声场。

c.将人头录音信号转码为多路binaural格式。

可以通过集成多组人耳的人工头同时录N＝4个方向的录音B_i，其中：i＝1～N。

如果人头录音的多路双耳信号与服务器中间格式的多路binaural信号路数不相同，或者方向不一致，则可以通过插值拟合来进行转换。

2、将不同格式的音频信号转码成的多路binaural格式音频信号叠加，输出给客户端。

将上面三种格式(音频对象信号、声场录音信号和人头录音信号)产生的双耳信号混合(mix)成一组信号B_i，其中：i＝1～N；

3、客户端从服务器端接收到多路binaural格式音频信号，根据人头方向插值还原播放全景声场。

在客户端，根据人头方向，通过对N＝4个方向的双耳音频信号进行插值，还原出全景声场B。

B = Σ_{i = 1}^{N} G_{i} \cdot B_{i}

其中：i＝1～N；

G_i表示第i路的插值系数；

例如N＝4时，为了保持信号能量，可以采用余弦信号作为插值系数。

如果G_i<0，则令G_i＝0

其中：i＝1～N；

θ表示人头旋转的水平角度。

实施例二：

对于中间格式为Ambisonic的情况的处理包括如下处理步骤：

1.将服务器端的各种全景声格式统一转码为Ambisonic格式。

a.将音频对象转码为Ambisonic格式。

下面描述了如何将音频对象编码到ambisonic格式。

将音频对象编码到一阶ambisonic信号：

W = \frac{1}{k} Σ_{i = 1}^{k} s_{i} [\frac{1}{\sqrt{2}}];

X = \frac{1}{k} Σ_{i = 1}^{k} s_{i} [{cosθ}_{i} {cosφ}_{i}];

Y = \frac{1}{k} Σ_{i = 1}^{k} s_{i} [{sinθ}_{i} {cosφ}_{i}];

Z = \frac{1}{k} Σ_{i = 1}^{k} s_{i} [{sinφ}_{i}];

其中s_i是第i个音频对象，i＝1……k，k是音频对象的个数。θ_i是平面上的角度(方位角),φ_i是垂直方向上的角度(仰角)。W声道信号表示全方向声波，X声道信号、Y声道信号和Z声道信号分别表示沿空间三个互相垂直取向X、Y、Z的声波。

一阶Ambisonic B格式信号表示为

同理，将音频对象编码到2阶或3阶Ambisonic格式信号优选依照下表定义进行：

b.将声场录音信号转码为Ambisonic格式。

如果声场录音信号是Ambisonic A格式信号，而中间格式为Ambisonic B格式信号，则可以通过转换公式将A格式转换为B格式。

如果声场录音信号是低阶的Ambisonic信号，而中间格式为高阶Ambisonic信号，则可以通过upmix方式将低阶格式转换为高阶格式。

如果声场录音信号是高阶的Ambisonic信号，而中间格式为低阶Ambisonic信号，则可以通过downmix方式将低阶格式转换为高阶格式。

c.将人头录音信号转码为Ambisonic格式。

有两种方式可以将人头录音转码为Ambisonic格式。

一种方式是将每个耳朵的录音作为一个音频对象，耳朵相对头部中心的方位即是音频对象的方位。然后根据上面a节所述的音频对象转码为Ambisonic的方式进行转码即可。

另一种方式是从人头录音信号中抽取音频对象(object extraction)，然后估计出音频对象的方位(通过DOA方法)。然后根据上面a节所述的音频对象转码为Ambisonic的方式进行转码即可。抽取音频对象后的残差信号，可以认为是无方向的环境声，可以放在Ambisonic的全方向W声道中。

2.将不同格式转码成的Ambisonic格式信号叠加，输出给客户端。

比如，Ambisonic采用B格式信号，则将上面三种格式(音频对象、声场录音信号和人头录音信号)产生的Ambisonic信号mix成一组信号

3.客户端从服务器端接收到Ambisonic格式信号，解码并根据人头旋转方向还原播放全景声场。

a.根据所述人头旋转角度，将所述Ambisonic B格式信号旋转得到旋转后的Ambisonic B格式信号；具体来说，是根据所述旋转角度生成旋转矩阵，再根据所述旋转矩阵，对所述Ambisonic B格式信号进行旋转。所谓旋转，即将旋转矩阵与待调整信号矩阵相乘，旋转不改变音频信号矩阵分量的大小，只改变分量的方向。Ambisonic B格式的信号矩阵为[W X YZ]^T时，旋转矩阵为

则旋转后的Ambisonic B格式信号为：

[\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \\ Z_{1} \end{matrix}] = [\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & \cos (θ) & - \sin (θ) & 0 \\ 0 & \sin (θ) & \cos (θ) & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} W \\ X \\ Y \\ Z \end{matrix}]

b.将所述旋转后的Ambisonic B格式信号转换成虚拟扬声器阵列信号；

以一个一阶B格式信号[W1 X1 Y1 Z1]^T为例，转换成虚拟扬声器阵列信号[L₁ L₂… L_N]^T的过程就是进行下列运算：

[\begin{matrix} L_{1} \\ L_{2} \\ .. \\ L_{N} \end{matrix}] = [\begin{matrix} G_{w 1} & G_{x 1} & G_{y 1} & G_{z 1} \\ G_{w 2} & G_{x 2} & G_{y 2} & G_{z 2} \\ . & . & . & . \\ . & . & . & . \\ G_{w N} & G_{x N} & G_{y N} & G_{z N} \end{matrix}] [\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \\ Z_{1} \end{matrix}] = G [\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \\ Z_{1} \end{matrix}] .

其中，N为虚拟扬声器拓扑结构中包括的虚拟扬声器的数目。上式中所用的G矩阵为ambisonic解码矩阵，可以通过求伪逆矩阵来得出。

c.对音频对象的所述虚拟扬声器阵列信号基于双耳房间脉冲响应(BRIR)进行双耳转码(通常是3维，即包含高度信息)，得到音频对象的双耳输出虚拟环绕声信号。具体是：从虚拟扬声器信号转到耳机信号对应的二路立体声BRIR矩阵，将该二路立体声矩阵和虚拟扬声器阵列信号进行矩阵乘法，得到虚拟环绕声。

BRIR矩阵为则虚拟环绕声为

所述双耳房间脉冲响应优选为离线生成，可以采用真实测量或由专门的软件生成，因此不必像现有技术中采用在线生成方式时需要存储大量的BRIR，减少了内存消耗。

实施例三：

可以根据实际应用和录音内容同时混合或动态使用几种中间格式。

本发明中所述的两种中间格式各有其优缺点。

对于多路binaural格式，在双耳录音方向的效果最好。在两路双耳录音方向的中间插值区域，效果最差。一般采用性价比比较高的4路binaural格式，也就是Quad binaural格式。需要传送8轨音频，数据量不低不高。

对于Ambisonic格式，在各个方向的效果比较均匀，没有多路binaural格式最好的方向好，也没有多路binaural格式最差的方向差。另外对于1阶ambisonic格式，只需要传送4轨音频，比Quad binaural格式的数据量小了一半。当然如果要求精度和质量更高，可以采用3阶或5阶的ambisonic格式。3阶的ambisonic格式需要16轨音频。5阶的ambisonic需要36轨音频，基本达到对象音频的品质。

所以根据两种中间格式的优缺点，可以根据应用、带宽和内容动态使用其中某种中间格式，并用标志位表明当前采用了哪种中间格式，以便客户端正确解码。

比如，当前网络带宽较富裕，***可以动态调整中间格式采用高阶Ambisonic格式。如果当前网络状况不佳，***可以动态调整中间格式采用1阶Ambisonic格式。如果当前网络状况正常，并且场景中的声源主要集中在几个离散方向，场景中的感兴趣区域集中在一个方向，头部不会做经常旋转，则***采用多路binaural格式为最佳。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种全景声音频处理方法，其特征在于，所述全景声音频处理方法包括以下步骤：

2.如权利要求1所述全景声音频处理方法，其特征在于，所述不同格式的音频信号包括多方向双耳录音信号、声场录音信号和音频对象信号。

3.如权利要求1所述全景声音频处理方法，其特征在于，所述中间格式音频信号包括多路binaural信号和Ambisonic信号。

4.如权利要求1所述全景声音频处理方法，其特征在于，服务器端对所述不同格式的音频信号转码为统一的中间格式音频信号，具体包括：

5.如权利要求1所述全景声音频处理方法，其特征在于，服务器端对所述不同格式的音频信号混合地或动态地同时转码为多种中间格式音频信号。

6.如权利要求1所述全景声音频处理方法，其特征在于，对所述中间格式音频信号叠加指的是将不同格式的音频信号转码得到的中间格式音频信号混合叠加在一起，得到最终输出给客户端的中间格式音频信号。