CN106331977A

CN106331977A - 一种网络k歌的虚拟现实全景声处理方法

Info

Publication number: CN106331977A
Application number: CN201610704412.2A
Authority: CN
Inventors: 张晨; 孙学京
Original assignee: Beijing Tuoling Inc
Current assignee: Beijing Tuoling Inc
Priority date: 2016-08-22
Filing date: 2016-08-22
Publication date: 2017-01-11
Anticipated expiration: 2036-08-22
Also published as: CN106331977B

Abstract

本发明公开了一种网络K歌的虚拟现实全景声处理方法，所述虚拟现实全景声处理方法包括如下步骤：发送端音频采集装置采集音频数据，感应单元采集发送端相对于收听端人耳朝向的实时位置；第二处理单元进行叠加处理；第一处理单元进行运算处理；经处理后的信号传输至收听端的播放装置进行播放；通过采用感应单元，实时监测网络K歌演唱者相对于收听者耳朵的位置变化，实时地采用演唱者的声音相对于收听者耳朵的空间位置对演唱者的音频数据进行处理，达到逼真的网络K歌效果。

Description

一种网络K歌的虚拟现实全景声处理方法

技术领域

本发明涉及虚拟现实技术领域，具体涉及一种网络K歌的虚拟现实全景声处理方法。

背景技术

网络K歌是指将KTV搬到互联网的一种娱乐方式。在网络上播放歌曲的伴奏，显示歌曲的歌词，使用者根据伴奏和歌词演唱录音。最后将音频数据录音和歌曲伴奏混合起来，形成使用者个人演唱的歌曲。除了个人演唱外，还有两人对唱和多人合唱的方式。网络K歌除了满足个人K歌的需求外，也是一种重要的互联网社交化应用。不过，目前网络K歌应用里的个人或多人录音没有方位感，影响了音频数据的区分度和社交的娱乐化。

在用虚拟现实头戴设备(head-mounted display,HMD)向用户呈现内容时，音频内容通过立体声耳机向用户播放。我们面临提高虚拟环绕声效果的问题。在虚拟现实应用中，当通过立体声耳机播放音频内容时，虚拟3D音频目的是想要达到一种效果让用户就像用扬声器阵列环境中收听一样，甚至像听现实中的声音一样真实。

在制作虚拟现实音频内容时，通常需要多种不同方位的声音元素。通常，提高临场感的方法是跟踪用户头部动作，对声音进行相应的处理。如果原始声音被用户感知为来自正前方，当用户向左转头90度后，声音应被处理，使得用户感知声音来自正右方90度。采用这种处理方式的虚拟现实设备有很多种类，包括带头部跟踪的显示设备或带头部跟踪传感器的立体声耳机等等。实现头部跟踪也有多种方法，比较常见的是使用多种传感器。运动传感器套件通常包括加速度计、陀螺仪和磁力传感器。在运动跟踪和绝对方向方面每种传感器都有自己固有的强项和弱点，因此常用做法是采用传感器“融合”(sensor fusion)将来自各传感器的信号组合在一起，产生一个更加精确的运动检测结果。在得到头部旋转角度后，我们需要对声音进行相应的变化。网络K歌的特点在于分布于不同地理位置的多用户要互动参与，网络K歌参与者在唱歌的同时还有各种肢体动作、位置移动等，需要根据网络K歌演唱者相对于收听者耳朵的位置变化，实时地改变演唱者的声音在收听端的空间位置，才能够达到逼真的网络K歌效果。

可以看到，虚拟现实全景声对于网络K歌的音频数据空间感和社交娱乐化非常重要，但是目前在本领域尚没有合适的技术方案。有鉴于此，需要一种有效的网络K歌虚拟现实全景声的解决方案。

发明内容

本发明的目的在于提供一种网络K歌的虚拟现实全景声处理方法，用以解决现有技术无法为网络K歌提供虚拟现实全景声的问题

为实现上述目的，本发明提供了一种网络K歌的虚拟现实全景声处理方法，所述方法包括：

发送端音频采集装置采集演唱音频；

感应单元采集发送端相对于收听端人耳朝向的实时位置；

第一处理单元进行运算处理；

第二处理单元进行叠加处理；

处理后的信号传输至收听端的播放装置进行播放。

所述发送端音频采集装置采集演唱音频，包括：

所述的发送端设置于网络K歌演唱者使用的麦克风装置上；

所述的发送端音频采集装置录制演唱者的声音，并转换为数字格式的演唱音频。

所述感应单元采集发送端相对于收听端人耳朝向的实时位置，包括：

发送端和收听端都设置有感应单元；

所述感应单元之间、感应单元与第一处理单元之间通过服务器进行数据交换；

以收听端人耳的双耳连线中点为极点，极点与右耳连线为极轴正方向，设置极坐标系，感应单元实时采集发送端在该极坐标系中的极坐标变化；

所述感应单元基于GPS定位数据确定极坐标；

所述感应单元实时地将所述极坐标发送至第一处理单元。

当背景音乐为全景声时，先由第二处理单元将演唱音频与背景音乐进行叠加，然后由第一处理单元进行运算处理将所述叠加后的音频数据转换为双耳信号；

当背景音乐为立体声信号时，先由第一处理单元进行运算处理，将演唱音频转换为双耳信号，再由第二处理单元将所述双耳信号与背景音乐信号进行叠加。

所述第一处理单元进行运算处理，包括：

所述第一处理单元根据所述极坐标，将演唱音频或者叠加后的音频数据放在3D空间里的某个方向，将演唱音频或者叠加后的音频数据转换为双耳信号；

所述将演唱音频或者叠加后的音频数据转换为双耳信号的方法，为采用HRTF(Head Related Transfer Function，头相关变换函数)滤波器进行处理，或者为采用Ambisonic声场变换进行处理。

所述第二处理单元进行叠加处理，包括：

将所述来自特定发送端的演唱音频与全景声背景音乐进行叠加，得到最终的K歌歌曲内容；

将所述来自特定发送端的演唱音频双耳信号与背景音乐的信号进行叠加，得到最终的K歌歌曲内容；

所述的特定发送端可以是一个，也可以是多个；

所述多个特定发送端的演唱音频可以是同步采集的，也可以是非同步采集的。

所述处理后的信号传输至收听端的播放装置进行播放，包括：

所述处理后的信号由第一处理单元或者第二处理单元发送给服务器，由服务器进行分发传输；

所述的收听端设置于网络K歌演唱者使用的播放装置上；

所述的播放装置为耳机。

所述的第一处理单元可设置于发送端，或者设置于服务器，或者设置于收听端；所述的第二处理单元可设置于发送端，或者设置于服务器，或者设置于收听端。

所述第一处理单元根据所述极坐标，将演唱音频或者叠加后的音频数据放在3D空间里的某个方向，将演唱音频或者叠加后的音频数据转换为双耳信号，还包括：

所述的极坐标，可以由网络K歌参与者人为地在手持移动设备上进行设定或修改，并通过服务器将所述人为设定或修改的极坐标传输至第一处理单元。

每个网络K歌参与者均设置有发送端和收听端。

本发明方法具有如下优点：根据网络K歌参与者分布于不同地理位置、多用户互动参与，网络K歌参与者在唱歌的同时还有各种肢体动作及位置移动等的特点，采用感应单元，实时监测网络K歌演唱者相对于收听者耳朵的位置变化，实时地采用演唱者的声音相对于收听者耳朵的空间位置对演唱者的音频数据进行处理，达到逼真的网络K歌效果。

附图说明

图1本发明网络K歌的虚拟现实全景声处理方法流程示意图。

图2本发明以收听端人耳的双耳连线中点为极点设置的极坐标系示意图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

请参考图1，一种网络K歌的虚拟现实全景声处理方法，所述虚拟现实全景声处理方法包括如下步骤：

步骤S101：发送端音频采集装置采集演唱音频；

步骤S102：感应单元采集发送端相对于收听端人耳朝向的实时位置；

步骤S103：第二处理单元进行叠加处理；

步骤S104：第一处理单元进行运算处理；

步骤S105：处理后的信号传输至收听端的播放装置进行播放。

所述发送端音频采集装置采集演唱音频，包括：

所述的发送端设置于网络K歌演唱者使用的麦克风装置上；

发送端和收听端都设置有感应单元；

请参考图2，以收听端左耳1和右耳2的连线中点为极点，极点与右耳2连线为极轴正方向，设置极坐标系，感应单元实时采集发送端在该极坐标系中的极坐标变化，所述感应单元基于GPS定位数据确定极坐标，例如在某时间点，网路K歌参与者3在该极坐标系的坐标为(ρ₁,θ₁)，网路K歌参与者4在该极坐标系的坐标为(ρ₂,θ₂)；

所述感应单元实时地将所述极坐标发送至第一处理单元。

所述背景音乐为全景声，先由第二处理单元将演唱音频与背景音乐进行叠加，然后由第一处理单元进行运算处理将所述叠加后的音频数据转换为双耳信号；

所述第一处理单元进行运算处理，包括：

所述第一处理单元根据所述极坐标，将叠加后的音频数据放在3D空间里的某个方向，将叠加后的音频数据转换为双耳信号；

所述将叠加后的音频数据转换为双耳信号的方法，为采用HRTF(Head RelatedTransfer Function，头相关变换函数)滤波器进行处理。HRTF滤波器的选择由发送端相对于收听端人耳朝向的实时位置方向决定，处理得到的双耳信号用B表示，

B＝H·S

其中，H表示HRTF滤波矩阵，S表示采集的音频数据，这里的S可代表对应于多个演唱者的叠加后音频数据。

所述第二处理单元进行叠加处理，包括：

所述的特定发送端可以是一个，也可以是多个；

所述的收听端设置于网络K歌演唱者使用的播放装置上；

所述的播放装置为耳机。

所述的第一处理单元设置于发送端，第二处理单元设置于发送端；或者第一处理单元设置于发送端，第二处理单元设置于服务器；或者第一处理单元设置于发送端，第二处理单元设置于收听端；或者第一处理单元设置于服务器，第二处理单元设置于发送端；或者第一处理单元设置于服务器，第二处理单元设置于服务器；或者第一处理单元设置于服务器，第二处理单元设置于收听端；或者第一处理单元设置于收听端，第二处理单元设置于发送端；或者第一处理单元设置于收听端，第二处理单元设置于服务器；或者第一处理单元设置于收听端，第二处理单元设置于收听端。

所述第一处理单元根据所述极坐标，将叠加后的音频数据放在3D空间里的某个方向，将叠加后的音频数据转换为双耳信号，还包括：

所述的极坐标，可以由网络K歌参与者人为地在手持移动设备上进行设定或修改，并通过服务器将所述人为设定和修改传输至第一处理单元。

每个网络K歌参与者均设置有发送端和收听端。

实施例2

步骤S101：发送端音频采集装置采集演唱音频；

步骤S103：第二处理单元进行叠加处理；

步骤S104：第一处理单元进行运算处理；

步骤S105：处理后的信号传输至收听端的播放装置进行播放。

所述发送端音频采集装置采集演唱音频，包括：

所述的发送端设置于网络K歌演唱者使用的麦克风装置上；

发送端和收听端都设置有感应单元；

所述感应单元实时地将所述极坐标发送至第一处理单元。

所述第一处理单元进行运算处理，包括：

所述将叠加后的音频数据转换为双耳信号的方法，为采用Ambisonic声场变换进行处理。将叠加后的音频数据转换为声场信号，再将声场信号转换为虚拟扬声器阵列信号，将虚拟扬声器阵列信号通过HRTF滤波器进行滤波，得到双耳信号，处理得到的双耳信号用B表示，

B＝H·D·T·S

H表示HRTF滤波矩阵，

D表示声场解码矩阵，

T表示声场转换矩阵，

S表示叠加后的音频数据，这里的S可代表来自多个不同演唱者的音频数据。

这种处理方式的好处在于，当合唱人数较多时，这种处理方式的效率较高。

所述第二处理单元进行叠加处理，包括：

所述的特定发送端可以是一个，也可以是多个；

所述的收听端设置于网络K歌演唱者使用的播放装置上；

所述的播放装置为耳机。

每个网络K歌参与者均设置有发送端和收听端。

实施例3

步骤S101：发送端音频采集装置采集演唱音频；

步骤S104：第一处理单元进行运算处理；

步骤S103：第二处理单元进行叠加处理；

步骤S105：处理后的信号传输至收听端的播放装置进行播放。

所述发送端音频采集装置采集演唱音频，包括：

所述的发送端设置于网络K歌演唱者使用的麦克风装置上；

发送端和收听端都设置有感应单元；

所述感应单元实时地将所述极坐标发送至第一处理单元。

所述背景音乐为立体声信号，先由第一处理单元进行运算处理，将演唱音频转换为双耳信号；再由第二处理单元将所述双耳信号与背景音乐进行叠加。

所述第一处理单元进行运算处理，包括：

所述第一处理单元根据所述极坐标，将演唱音频放在3D空间里的某个方向，将演唱音频转换为双耳信号；

所述将演唱音频转换为双耳信号的方法，为采用HRTF(Head Related TransferFunction，头相关变换函数)滤波器将演唱音频转换为四路双耳(Quad binaural)信号，因为要处理4个方向的双耳信号，所以演唱音频要与4个方向对应的HRTF滤波器都进行滤波。处理得到的双耳信号用B_i表示，

B_i＝H_i·S

其中：i＝1～N，

H_i表示第i路的HRTF滤波矩阵，S表示输入的演唱音频。

所述第二处理单元进行叠加处理，包括：

将所述来自特定发送端的演唱音频双耳信号与背景音乐信号进行叠加，得到最终的K歌歌曲内容，叠加后的信号，用B'表示，

B'＝B+M

B表示演唱音频双耳信号，M表示背景音乐信号。

所述的特定发送端可以是一个，也可以是多个；

所述的收听端设置于网络K歌演唱者使用的播放装置上；

所述的播放装置为耳机。

每个网络K歌参与者均设置有发送端和收听端。

实施例4

步骤S101：发送端音频采集装置采集演唱音频；

步骤S104：第一处理单元进行运算处理；

步骤S103：第二处理单元进行叠加处理；

步骤S105：处理后的信号传输至收听端的播放装置进行播放。

所述发送端音频采集装置采集演唱音频，包括：

所述的发送端设置于网络K歌演唱者使用的麦克风装置上；

发送端和收听端都设置有感应单元；

所述感应单元实时地将所述极坐标发送至第一处理单元。

所述第一处理单元进行运算处理，包括：

所述将演唱音频转换为双耳信号的方法，为采用Ambisonic声场变换进行处理，将采集的演唱音频转换为N＝4个方向的声场信号，再将声场信号转换为虚拟扬声器阵列信号，将虚拟扬声器阵列信号通过HRTF滤波器进行滤波，得到N＝4个方向的双耳信号B_i，

B_i＝H_i·D_i·R_i·S_Amb

其中：i＝1～N，

H_i表示第i路的HRTF滤波矩阵，

D_i表示第i路的解码矩阵，

R_i表示第i路的旋转矩阵，

S_Amb表示输入的音频声场。

所述第二处理单元进行叠加处理，包括：

根据发送端相对于收听端人耳朝向的实时位置，通过对四路双耳信号进行插值，还原出全景声场信号B，

B = Σ_{i = 1}^{N} G_{i} \cdot B_{i}

其中：i＝1～N，G_i表示第i路的插值系数。

为了保持信号能量，可以采用余弦信号作为插值系数，余弦信号G_i的函数表达式为，

若G_i＜0，则G_i＝0；

其中：i＝1～N，θ表示人头旋转的水平角度。

B'＝B+M

B表示演唱音频双耳信号，M表示背景音乐信号。

所述的特定发送端可以是一个，也可以是多个；

所述的收听端设置于网络K歌演唱者使用的播放装置上；

所述的播放装置为耳机。

每个网络K歌参与者均设置有发送端和收听端。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种网络K歌的虚拟现实全景声处理方法，其特征在于，所述虚拟现实全景声处理方法包括：

发送端音频采集装置采集演唱音频；

感应单元采集发送端相对于收听端人耳朝向的实时位置；

第一处理单元进行运算处理；

第二处理单元进行叠加处理；

处理后的信号传输至收听端的播放装置进行播放。

2.根据权利要求1所述的网络K歌的虚拟现实全景声处理方法，其特征在于，所述发送端音频采集装置采集演唱音频，包括：

所述的发送端设置于网络K歌演唱者使用的麦克风装置上；

3.根据权利要求1所述的网络K歌的虚拟现实全景声处理方法，其特征在于，所述感应单元采集发送端相对于收听端人耳朝向的实时位置，包括：

发送端和收听端都设置有感应单元；

所述感应单元基于GPS定位数据确定极坐标；

所述感应单元实时地将所述极坐标发送至第一处理单元。

4.根据权利要求1所述的网络K歌的虚拟现实全景声处理方法，其特征在于，

5.根据权利要求1所述的网络K歌的虚拟现实全景声处理方法，其特征在于，所述第一处理单元进行运算处理，包括：

所述将演唱音频或者叠加后的音频数据转换为双耳信号的方法，为采用HRTF(HeadRelated Transfer Function，头相关变换函数)滤波器进行处理，或者为采用Ambisonic声场变换进行处理。

6.根据权利要求1所述的网络K歌的虚拟现实全景声处理方法，其特征在于，所述第二处理单元进行叠加处理，包括：

所述的特定发送端可以是一个，也可以是多个；

7.根据权利要求1所述的网络K歌的虚拟现实全景声处理方法，其特征在于，所述处理后的信号传输至收听端的播放装置进行播放，包括：

所述的收听端设置于网络K歌演唱者使用的播放装置上；

所述的播放装置为耳机。

8.根据权利要求1所述的网络K歌的虚拟现实全景声处理方法，其特征在于，所述的第一处理单元可设置于发送端，或者设置于服务器，或者设置于收听端；所述的第二处理单元可设置于发送端，或者设置于服务器，或者设置于收听端。

9.根据权利要求5所述的网络K歌的虚拟现实全景声处理方法，其特征在于，所述第一处理单元根据所述极坐标，将演唱音频或者叠加后的音频数据放在3D空间里的某个方向，将演唱音频或者叠加后的音频数据转换为双耳信号，还包括：

10.根据权利要求1所述的网络K歌的虚拟现实全景声处理方法，其特征在于，每个网络K歌参与者均设置有发送端和收听端。