CN103379424B

CN103379424B - 一种混音方法及多点控制服务器

Info

Publication number: CN103379424B
Application number: CN201210122891.9A
Authority: CN
Inventors: 刘智辉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-04-24
Filing date: 2012-04-24
Publication date: 2016-08-10
Anticipated expiration: 2032-04-24
Also published as: CN103379424A

Abstract

本发明的实施例提供了一种混音方法及多点控制服务器，涉及通信领域，可以提升多声道混合会议的混音效果，提高用户体验。所述方法包括：通过多点控制服务器获取M声道中各声道的语音数据及声源信息；所述声源信息包括所述M声道中L个声源对应的声道以及L个声源的方位信息，所述多点控制服务器根据所述L个声源的方位信息查询方位系数对照表获得所述L个声源的方位信息分别对应的混音系数；并按照所述L个声源的方位信息对应的混音系数，将所述M声道中L个声源对应的声道的语音数据混音成N声道的语音数据。本发明的实施例可以应用于视频会议中的混音处理。

Description

一种混音方法及多点控制服务器

技术领域

本发明涉及通信领域，尤其涉及一种混音方法及多点控制服务器。

背景技术

视频会议是现代通信中常用的一种信息交互手段。在视频会议***中参加会议的各个会场通过会场终端把本会场的语音数据发送给多点控制服务器如MCU(Multipoint Control unit，多点控制单元)，MCU对接收到的语音数据进行处理，并把处理后的语音数据发送给其他会场终端，使得其他会场终端播放接收到的处理后的语音数据，从而实现视频会议中的语音通信。

现有技术中，MCU支持的会场语音声道有单声道、双声道、三声道。在视频通信的过程中，由于发送会场发送的语音数据的语音声道数与接收该语音数据的接收会场的语音声道数不同，故MCU需要对接收到的语音数据进行混音处理，将发送会场的M声道语音数据混音成接收会场的N声道语音数据。其中，若M大于N则为下混，若M小于N则为上混。根据REC.ITU_R BS.775-1的混音方法处理如下：其中L表示左声道，R表示右声道、C表示中间声道、Mono表示单声道；

下混：三声道→双声道：L+0.7071*C→L，R+0.7071*C→R；

三声道→单声道：Mono＝0.7071*L+0.7071*R+C；

双声道→单声道：L+R→Mono；

上混：单声道→双声道：0.7071*Mono→L，0.7071*Mono→R；

双声道→三声道：L→L，C＝0，R→R；

单声道→三声道：Mono→C。

上述视频会议的实际会场的示意图如图1所示，会场中布置有麦克风1～16(图1中的为所标识的麦克风的位置)，用来拾取会场中的语音，扬声器L、扬声器C、扬声器R分别用来播放接收的语音。若所述会场为单声道语音会场，则会场终端通过麦克风1～16拾取单声道语音发送出去，并使用扬声器C来播放接收的语音；若所述会场为双声道语音会场，会场有两个拾音区，会场终端通过麦克风1～3、7～11来拾取左声道的语音，通过麦克风4～6、12～16来拾取右声道的语音，并使用扬声器L来播放接收到的、已经过混音处理的左声道语音，用扬声器R来播放接收到的、已经过混音处理的右声道语音，同理，会场为三声道语音会场时，会场有三个拾音区，分别用扬声器L、扬声器C、扬声器R来播放接收到的、已经过混音处理的左、中、右等三个声道语音。

在实现上述混音的过程中，发明人发现现有技术中至少存在如下问题：在下混的时候，如果只有一个人在讲话，而各个麦克风拾取的是一个人的声音，由于麦克风离发言人的距离不同，多声道中各声道的语音数据信号就有不同程度的延迟，这些延迟时间不同的信号叠加在一起，会引入梳状效应(所述梳妆效应为延迟时间不同的几个信号叠加后出现的在某些频率上信号加强，在某些频率上信号减弱的效应)，导致声音变混浊，清晰度下降。

或者，在上混或下混的时候，没有考虑实际声源的方位，导致声相不准，即发言人的声音输出方位和该发言人的图像呈现方位不一致，例如，图1所示的会场中，有位于麦克风3和6方位的两个说话人，他们说出的语音分别作为左声道语音和右声道语音发送给MCU，若播放所述语音的会场为三声道会场，根据上述的上混方法，位于麦克风3方位的说话人的语音将从三声道会场中的扬声器L中播放出来，即说话人在中间位置，用户听到的声音却在左边，影响用户的体验质量。

发明内容

本发明的实施例提供一种混音方法及装置，可以提升多声道混合会议的混音效果，提高用户体验。

为达到上述目的，本发明的实施例采用如下技术方案：

一种混音方法，包括：

获取M声道中各声道的语音数据及声源信息；所述声源信息包括所述M声道中L个声源对应的声道以及L个声源的方位信息；其中，M≥1；L≥1，L≤M；

根据所述L个声源的方位信息查询方位系数对照表，以获得所述L个声源的方位信息分别对应的混音系数；

按照所述L个声源的方位信息对应的混音系数，将所述M声道中L个声源对应的声道的语音数据混音成N声道的语音数据；其中，N≥1。

一种多点控制服务器，包括：

获取单元，用于获取M声道中各声道的语音数据及声源信息；所述声源信息包括所述M声道中L个声源对应的声道以及L个声源的方位信息；其中，M≥1；L≥1，L≤M；

混音系数查询单元，用于根据所述L个声源的方位信息查询方位系数对照表，以获得所述L个声源的方位信息分别对应的混音系数；

混音处理单元，用于按照所述L个声源的方位信息对应的混音系数，将所述M声道中L个声源对应的声道的语音数据混音成N声道的语音数据；其中，N≥1。

本发明实施例提供的技术方案，可以根据声源所在的具体方位获得混音系数，然后将有声源的声道输出的语音数据根据所述混音系数进行混音处理。这样根据声源的方位来进行混音可以提高多声道混合会议的混音效果，提高用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为视频会议中的会场的麦克风布置示意图；

图2为本发明实施例提供的一种混音方法流程示意图；

图3为本发明实施例提供的一种多点控制服务器的结构框图；

图4为本发明实施例提供的另一种多点控制服务器的结构框图；

图5为本发明实施例提供的一种sin/cos Pan公式计算方法示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种混音方法，如图2所示，所述方法包括以下步骤：

201、获取M声道中各声道的语音数据及声源信息，所述声源信息包括所述M声道中L个声源对应的声道以及L个声源的方位信息；其中，M≥1；L≥1，L≤M。

多点控制服务器进行混音时，首先需要获取到发送会场的M声道中各声道的语音数据及声源信息，所述声源信息包括所述M声道中L个声源对应的声道以及L个声源的方位信息；其中，M≥1；L≥1，L≤M。

可选的，所述多点控制服务器可以接收包含有所述M声道中各声道输出的语音数据及声源信息的数据包；并解码所述数据包，获取所述M声道中各声道输出的语音数据及声源信息。其中所述数据包可以是M声道的发送会场终端获得后发送给所述多点控制服务器的，所述终端获得所述数据包的方法包括以下步骤：

S1、终端在接收到各个声道的麦克风发送的每个语音数据后，按频率将每个语音数据划分为至少两个子带。

参与视频会议的每个会场中都布置有多个麦克风，每个麦克风都按照预设的方位放置在会场中。若M＝1即会场为单声道语音会场时，该会场中的每个麦克风拾取的语音以一个声道的语音数据组发送给终端；若M＝2即会场为双声道语音会场时，该会场的麦克风可分为左声道、右声道两组，每个麦克风拾取的语音按照分组分别切换出左声道麦克风语音数据组和右声道麦克风语音数据组发送给终端；若M＝3即会场为三声道语音会场时，该会场的麦克风可分为左声道、中声道、右声道三组，每个麦克风拾取的语音按照分组分别切换出左声道麦克风语音数据组、中声道麦克风语音数据组和右声道麦克风语音数据组发送给终端。

终端接收各声道的麦克风语音数据组，所述各个声道的麦克风语音数据组由各声道的每个麦克风发送的每个语音数据组成的。终端在接收到各个声道的麦克风发送的每个语音数据后，先对每个语音数据进行FFT变换，然后按频率将变换后的每个语音数据划分为至少两个子带。各声道麦克风语音数据组中的每个语音数据划分的子带数相同。

S2、对于各声道的每个语音数据，获取子带能量为各频率带中最大的子带数量。

S3、将所述子带数量最大且子带能量之和大于预设的噪声阈值的语音数据作为各声道输出的语音数据。

对于所述各声道的每个语音数据，终端计算每个语音数据中各个子带的能量，以及总的能量。每个声道中的所有语音数据都按照一定的频率划分为相同个数的子带，比对处于相同频率带的子带的能量。对于同一声道中的每个语音数据，获取子带能量为各频率带中最大的子带数量，把总能量超过噪声阈值，并且子带能量为最大的数量最多的语音数据作为该声道的输出。例如，会场为三声道语音会场时，则将左声道麦克风语音数据组中所述子带能量为最大的数量最多，并且总能量超过噪声阈值的语音数据作为左声道输出的语音数据；将中声道麦克风语音数据组中所述子带能量为最大的数量最多，并且总能量超过噪声阈值的语音数据作为中声道输出的语音数据；将右声道麦克风语音数据组中所述子带能量为最大的数量最多，并且总能量超过噪声阈值的语音数据作为右声道输出的语音数据。至此，终端已获取各声道输出的语音数据。

S4、终端获取各声道输出的语音数据的最大的5个共振峰，记为共振峰1、2、3、4、5；并记录所述共振峰对应的位置。

在步骤S3中终端已经获取到各声道输出的语音数据，根据各声道输出的语音数据可以获取各声道输出的语音数据的最大的5个共振峰，记为共振峰1、2、3、4、5；并记录所述共振峰对应的位置。共振峰的具体计算方法为现有技术，为本领域专业人员所熟知，在这里不再详述。

S5、终端获取各声道输出的语音数据中共振峰1、2、3、4、5的位置偏差，并计算位置偏差之和。

若发送会场为双声道语音会场，则分别获取左声道输出的语音数据的共振峰1、2、3、4和5和右声道输出的语音数据的共振峰1、2、3、4和5的位置偏差，即左声道输出的语音数据的共振峰1和右声道输出的语音数据的共振峰1的位置偏差，左声道输出的语音数据的共振峰2和右声道输出的语音数据的共振峰2的位置偏差等5个位置偏差，并计算5个位置偏差之和。

同理，若发送会场为三声道语音会场，则分别获取左声道和右声道、左声道和中声道以及右声道和中声道输出的语音数据中共振峰1、2、3、4和5的位置偏差并计算15个位置偏差之和。即左声道输出的语音数据的共振峰1和右声道输出的语音数据的共振峰1的位置偏差等5个位置偏差、左声道输出的语音数据的共振峰1和中声道输出的语音数据的共振峰1的位置偏差等5个位置偏差以及右声道输出的语音数据的共振峰1和中声道输出的语音数据的共振峰1的位置偏差等5个位置偏差共15个位置偏差，计算所述15个位置偏差之和。

S6、若所述位置偏差之和小于预设差值，则所述各声道输出的语音数据的子带能量之和最大的声道有声源，其他声道无声源；若所述位置偏差之和大于预设值，则所述各声道都有声源。

若所述位置偏差之和小于预设差值，则可断定各声道输出的语音数据相差很小，为同一个声源。则可判定所述各声道输出的语音数据的子带能量之和最大的语音数据对应的声道有声源，其他声道无声源。若所述位置偏差之和大于预设值，则可断定各声道输出的语音数据相差较大，不是同一个声源。则判定各声道都有声源。

S7、终端根据所述各声道中每个麦克风发送的语音数据，确定所述各声道的声源的方位，从而确定各声道输出的语音数据的声源信息。

实际上，如图1所示，视频会议中各个会场中麦克风的布置是比较固定的，每个麦克风对应的方位为已知的，可以预设在终端内；当然也可以通过自动检测的方式来确定麦克风的方位，其具体检测方法为现有技术。

在步骤S6中终端已判断出各声道是否有声源，接下来要确定所述个声道拥有的声源的方位，具体有两种方案：

方案1：根据所述各声道中每个麦克风发送的语音数据，利用2个麦克风之间的信号相关性和延迟差确定所述声道的声源的方位。具体的，根据所述声道输出的语音数据对应的麦克风的方位来获取声源的方位，进一步可以利用相邻2个麦克风之间的信号相关性和延迟差确定各声道的声源的更精细的方位。

方案2：通过摄像机和声源定位的方法确定各声道的声源的方位。此为现有技术。

所述声源信息包括所述M声道中L个声源对应的声道以及L个声源的方位信息；至此终端已确定对应的各声道的声源信息。

发送会场中的终端在获得所述各声道输出的语音数据和对应的声源信息后会将所述声源信息打包在包含所述各声道的语音数据的RTP数据包中发送给多点控制服务器。所述声源信息中，M声道的各声道是否有声源可以用1个bit来表示，1表示有声源，0表示没有声源；所述声源的方位信息可以用7个bit来表示。这样若发送会场为单声道语音会场则所述数据包只要增加一个字节来表示声源信息，这一个字节的bit1为1则表明有一个声源，bit2～bit8表示该声源的方位；若发送会场为双声道语音会场则所述数据包要增加两个字节来表示声源信息，若第一个字节的bit1为1，第二个字节的bit1为0则表明左声道有一个声源，右声道无声源，第一个字节的bit2～bit8则表示该声源的方位，即所述声源信息包括该双声道中有1个声源对应左声道及该生源的方位信息；若发送会场为三声道语音会场则要增加三个字节来表示声源信息，若三个字节的bit1都为1，则表明三声道中有三个声源分别对应左中右声道，这三个字节的bit2～bit8则表明左中右声道的声源的方位信息。所述声源信息的表示方式并不局限于此，在此不一一详述。

202、根据所述L个声源的方位信息查询方位系数对照表，以获得所述L个声源的方位信息对应的混音系数。

在这里需要说明的是，所述方位系数对照表为多点控制服务器在进行上混或下混时所述声源的方位信息和对应的混音系数的表格。所述方位系数对照表可以根据实验测得数据获得，即根据实验测得在某个方位的声源的多声道语音需要上混或下混时混音系数的最佳值。所述方位系数对照表也可以根据sin/cos Pan(声像)公式计算获得，具体计算在下文的实例中有描述，为现有技术，故在此不再详述。所述多点控制服务器可以根据所述L个声源的方位信息查询方位系数对照表，每个声源的方位信息都有其相对应的L对混音系数，故可获得与所述L个声源的方位信息对应的L对混音系数。

203、按照所述L个声源的方位信息对应的混音系数，将所述M声道中L个声源对应的声道的语音数据混音成N声道的语音数据；其中，N≥1。

多点控制服务器接收到各发送会场的终端发送过来的语音数据后，可根据现有技术确定其对应N声道的接收会场。由于所述声源信息包括所述M声道中L个声源对应的声道以及L个声源的方位信息；故多点控制服务器可将L个声源对应的声道的语音数据分别按照上步获得的对应的L对混音系数进行混音处理，将所述M声道中L个声源对应的声道的语音数据混音成N声道的语音数据。

所述各声道语音数据中无声源的声道的语音数据所述多点控制服务器可以将其清除，不进行混音处理。

依据上述方法，多点控制服务器在获取发送会场的M声道的语音数据及声源信息后，所述多点控制服务器可以根据所述声源信息中的L个声源的方位信息查询方位系数对照表获得M声道语音数据向N声道语音数据进行混音时所述M声道中的L个声源的方位信息对应的混音系数；相应的，多点控制服务器可以将所述M声道的语音数据中L个声源对应的声道的语音数据按照所述对应的L对混音系数进行混音处理，将无声源的声道的语音数据清除。

可选的，可以例举下列3个实例进行说明：

实例1：M＝3，N＝2，即所述发送会场为三声道语音会场，接收会场为双声道语音会场。

依上所述，步骤202具体为根据所述L个声源的方位信息查询方位系数对照表，以获得三声道语音数据向双声道语音数据进行下混时所述L个声源的方位信息分别对应的混音系数；步骤203具体为将所述M声道中L个声源对应的声道的语音数据按照对应的L对混音系数混音成N声道的语音数据。在这里三声道语音数据向双声道语音数据进行下混时的每对混音系数ai和bi可以根据实验测得，即在由三声道语音数据向双声道语音数据下混时，测量所述声源在某个方位时对应的最佳混音系数值ai和bi。可选的，所述混音系数ai和bi也可以根据Sin/Cos pan公式得到，参看图5，假设声源在最左边对应的是0度角，在最右边对应的是90度角，则所述声源的方位信息都对应有一个角度值p，所述混音系数ai和bi满足a＝cos(p)，b＝sin(p)。

在这里，假设LLL，CCC，RRR分别表示三声道发送会场输出的的左中右声道的语音数据，LL，RR分别表示双声道接收会场的左右声道接收的语音数据，L1～L3，R1～R3初始化为0，L1、R1分别对应三声道中左声道在左右双声道的分解，L2、R2分别对应三声道中中声道在左右双声道的分解，L3、R3分别对应三声道中右声道在左右双声道的分解。

若所述声源信息表示三声道中有1个声源对应着左声道，其他声道没有声源且所述声源的方位为最左边，则将左声道的语音数据LLL按照混音系数分配成左右双声道的语音数据，即L1＝a1*LLL，R1＝b1*LLL，因所述声源的方位为最左边则查询方位系数对照表中三声道语音数据向双声道语音数据进行下混时所述声源的方位对应的混音系数a1、b1，在这里a1＝1，b1＝0。所述方位系数对照表中的混音系数既可以根据实验测得数据获得；也可以根据sin/cos Pan公式计算获得。所述方位系数对照表会以表格的形式对应存储的多点控制服务器中以供查找。最终双声道接收会场接收并播放的语音数据为LL＝LLL，RR＝0。当然，若所述声源的方位不在最左边的话，a1和b1可根据具体方位查询方位系数对照表选择对应的值，将声相调整到相应的位置，提高混音效果，增强用户体验。

同理，若所述声源信息表示有1个声源对应着右声道，其他声道没有声源且所述声源的方位为最右边，则将右声道的语音数据RRR按照混音系数分配成左右双声道的语音数据，即L3＝a3*RRR，R3＝b3*RRR，其中a3＝0，b3＝1；则最终双声道接收会场接收并播放的语音数据为LL＝0，RR＝RRR。当然，若所述声源的方位不在最右边的话，a3和b3可根据具体方位查询方位系数对照表选择对应的混音系数，从而将声相调整到相应的位置，提高混音效果，增强用户体验。

若所述声源信息表示三声道有1个声源对应着中声道，其他声道没有声源且所述声源的方位为最中间，则将右声道的语音数据CCC按照预设的加权系数分配成左右双声道的语音数据，即L2＝a2*CCC，R2＝b2*CCC，其中a2＝0.7071，b2＝0.7071；则最终双声道接收会场接收并播放的语音数据为LL＝0.7071*CCC，RR＝0.7071*CCC。当然，若所述声源的方位不在最中间的话，a2和b2可根据具体方位选择对应的值，将声相调整到相应的位置，提高混音效果，增强用户体验。

若所述声源方位信息表示三声道中有3个声源对应着左中右声道，则根据声源方位信息分别将左中右声道的语音数据LLL、CCC以及RRR按照混音系数分配成左右双声道的语音数据，所述加权系数可根据所述声源方位信息中声源的方位在预设在多点控制服务器中的系数表格中查找，可以找到3对混音系数：a1和b1、a2和b2以及a3和b3。则最终混音而成的双声道语音数据为：LL＝L1+L2+L3＝a1*LLL+a2*CCC+a3*RRR，RR＝R1+R2+R3＝b1*LLL+b2*CCC+b3*RRR。

当然，更多声道向双声道的下混都可以借鉴此方法进行混音处理。

实例2：M＝3，N＝1，即所述发送会场为三声道语音会场，接收会场为单声道语音会场。

具体的，假设LLL，CCC，RRR分别表示三声道发送会场输出的的左中右声道的语音数据，MONO表示单声道接收会场接收的语音数据，M1～M3初始化为0，M1对应三声道中左声道在单声道的分配，M2对应三声道中中声道在单声道的分配，M3对应三声道中右声道单声道的分配。若所述声源信息表示三声道中有1个声源对应着左声道，其他声道没有声源，则对应的混音系数为a1＝1，则混音得MONO＝M1＝LLL；以此类推，若所述声源信息表示三声道中有1个声源对应着中声道，其他声道没有声源，则对应的混音系数为a2＝1，则混音得MONO＝M2＝RRR，若所述声源信息表示三声道中有1个声源对应着右声道，其他声道没有声源，则对应的混音系数为a2＝1，则混音得MONO＝M3＝CCC。这样可以避免各个声道中的有延迟的数据直接叠加导致声音混浊，同理，双声道、甚至更多声道向单声道下混都可以借鉴这个处理方法。

实例3：M＝2，N＝3，即所述发送会场为双声道语音会场，接收会场为三声道语音会场。

依上所述，步骤202具体为根据所述L个声源的方位信息查询方位系数对照表，以获得双声道语音数据向三声道语音数据进行上混时所述L个声源的方位信息分别对应的混音系数；步骤203具体为将所述M声道中L个声源对应的声道的语音数据按照对应的L对混音系数混音成N声道的语音数据。在这里双声道语音数据向三声道语音数据进行上混时的每对混音系数也可以根据实验测得；即在双声道语音数据向三声道语音数据上混时，测量所述声源在某个方位时对应的最佳混音系数值。可选的，所述混音系数也可以根据Sin/Cos pan公式得到，参看图5，假设声源在最左边对应的是0度角，在最右边对应的是90度角，则所述声源的方位信息都对应有一个角度值p，如果声源在左边，则该声源的方位信息对应的一对混音系数ai和、bi、ci满足ai＝cos(p)，bi＝sin(p)，ci＝0；如果声源在右边，则该声源的方位信息对应的一对混音系数ai、bi和ci满足ai＝cos(p)，bi＝sin(p)，ci＝0；如果声源在中间，则该声源的方位信息对应的一对所述混音系数ai、bi和ci满足ai＝cos(p)，bi＝sin(p)，ci＝1。

假设LL，RR分别表示双声道发送会场输出的的左右声道的语音数据；LLL，CCC，RRR分别表示三声道接收会场的左中右声道接收的语音数据，L1～L2，C1～C2，R1～R2初始化为0，L1、C1、R1分别对应双声道中左声道在左中右三声道的分解，L2、C2、R2分别对应双声道中右声道在左中右三声道的分解。

若所述声源信息表示双声道中有1个声源对应着左声道，该声源的方位信息对应的混音系数为a1、b1、c1，则将有声源的左声道的语音数据按照所述声源的方位对应的混音系数分配成三声道的语音数据，结果为LLL＝L 1＝a1*LL，RRR＝R1＝b1*LL，CCC＝C1＝c1*LL，若所述声源信息表示双声道中有1个声源对应着右声道，该声源的方位信息对应的混音系数为a2、b2、c2，混音结果为：LLL＝L2＝a2*RR，RRR＝R2＝b2*RR，CCC＝C2＝c2*RR，a1～a2、b1～b2、c1～c2为混音系数，可以查询方位系数对照表获得。在这里可以假设当左声道声源在靠近中间的话，查询到对应的混音系数为a1＝0，b1＝0，c1＝1，这样左声道声源就可以在三声道语音会场的中置扬声器呈现了，并且声音偏中间。如果在靠左边，则查询到对应的混音系数为a1＝1，b1＝0，c1＝0，则声源在左边扬声器呈现。同样的方法可以用来处理双声道到其他多声道的上混以及单声道到多声道的上混，在此不再详述。

本发明实施例还提供了一种多点控制服务器，如图3所示，所述多点控制服务器包括：获取单元301，混音系数查询单元302，混音处理单元302。

获取单元301，用于获取M声道中各声道的语音数据及声源信息；所述声源信息包括所述M声道中L个声源对应的声道以及L个声源的方位信息；其中，M≥1；L≥1，L≤M。

多点控制服务器进行混音时，首先需要获取单元301获取到发送会场的M声道中各声道的语音数据及声源信息，所述声源信息包括所述M声道中L个声源对应的声道以及L个声源的方位信息；其中，M≥1；L≥1，L≤M。

可选的，如图4所示，所述获取单元301包括接收子单元3011和解码子单元3012。所述接收子单元3011用于接收包含有所述M声道中各声道的语音数据及声源信息的数据包；解码子单元3012用于解码所述数据包，获取所述M声道中各声道的语音数据及声源信息。

所述终端获得所述数据包的方法包括步骤S1～S7，在此不再详述。

混音系数查询单元302，用于根据所述L个声源的方位信息查询方位系数对照表，以获得所述L个声源的方位信息对应的混音系数。

在这里需要说明的是，所述方位系数对照表为多点控制服务器在进行上混或下混时所述声源的方位信息和对应的混音系数的表格。所述方位系数对照表可以根据实验测得数据获得，即根据实验测得在某个方位的声源的多声道语音需要上混或下混时混音系数的最佳值。所述方位系数对照表也可以根据sin/cos Pan公式计算获得，具体计算在下文的实例中有描述，为现有技术，故在此不再详述。所述混音系数查询单元302可以根据所述L个声源的方位信息查询方位系数对照表，每个声源的方位信息都有其相对应的L对混音系数，故可获得与所述L个声源的方位信息对应的L对混音系数。

所述混音系数查询单元302可以根据所述声源信息中的L个声源的方位信息查询方位系数对照表获得M声道语音数据向N声道语音数据进行混音时所述M声道中的L个声源的方位信息对应的混音系数。

混音处理单元303，用于将所述各声道的语音数据中有声源的声道的语音数据按照所述对应的混音系数进行混音处理，以便于所述接收会场接收并播放混音处理后的语音数据。

可选的，所述混音处理单元303还用于将所述各声道的语音数据中无声源的声道的语音数据清除，不进行混音处理。

多点控制服务器接收到M声道的的语音数据后，可根据现有技术确定其对应的N声道接收会场。然后，多点控制服务器的混音处理单元303可将L个声源对应的声道的语音数据分别按照混音系数查询单元302获得的对应的L对混音系数进行混音处理，并将所述M声道的语音数据中无声源的声道的语音数据清除。

本发明实施例提供的一种混音方法和多点控制服务器，通过多点控制服务器获取M声道中各声道的语音数据及声源信息；所述声源信息包括所述M声道中L个声源对应的声道以及L个声源的方位信息，所述多点控制服务器根据所述L个声源的方位信息查询方位系数对照表获得所述L个声源的方位信息分别对应的混音系数；并按照所述L个声源的方位信息对应的混音系数，将所述M声道中L个声源对应的声道的语音数据混音成N声道的语音数据。这样可以提升多声道混合会议的混音效果，提高用户体验。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种混音方法，其特征在于，包括：

获取M声道中各声道的语音数据及声源信息；所述声源信息包括所述M声道中L个声源对应的一个声道以及L个声源的方位信息；其中，M＞1；L＝1；

根据所述L个声源的方位信息查询方位系数对照表，以获得所述L个声源的方位信息对应的混音系数；

2.根据权利要求1所述的方法，其特征在于，

所述获取M声道中各声道的语音数据及声源信息具体包括：

接收包含有所述M声道中各声道的语音数据及声源信息的数据包；

解码所述数据包，获取所述M声道中各声道的语音数据及声源信息。

3.根据权利要求1所述的方法，其特征在于，所述方位系数对照表根据实验测得数据获得；或根据sin/cos声像Pan公式计算获得。

4.根据权利要求1～3任一项所述的方法，其特征在于，根据所述L个声源方位信息查询方位系数对照表，以获得所述L个声源的方位信息对应的混音系数具体包括：

根据所述声源方位信息查询方位系数对照表，获得M声道向N声道进行混音时所述M声道中的L个声源的方位信息对应的混音系数。

5.根据权利要求1～3任一项所述的方法，其特征在于，所述方法还包括：

将所述M声道的语音数据中无声源的声道的语音数据清除。

6.一种多点控制服务器，其特征在于，包括：

获取单元，用于获取M声道中各声道的语音数据及声源信息；所述声源信息包括所述M声道中L个声源对应的一个声道以及L个声源的方位信息；其中，M＞1；L＝1；

混音系数查询单元，用于根据所述L个声源的方位信息查询方位系数对照表，以获得所述L个声源的方位信息对应的混音系数；

7.根据权利要求6所述的多点控制服务器，其特征在于，所述获取单元具体包括：

接收子单元，用于接收包含有所述M声道中各声道的语音数据及声源信息的数据包；

解码子单元，用于解码所述数据包，获取所述M声道中各声道的语音数据及声源信息。

8.根据权利要求6所述的多点控制服务器，其特征在于，所述方位系数对照表根据实验测得数据获得；或根据sin/cos声像Pan公式计算获得。

9.根据权利要求6～8任一项所述的多点控制服务器，其特征在于，所述混音系数查询单元，具体用于根据所述声源方位信息查询方位系数对照表，获得M声道向N声道进行混音时所述M声道中的L个声源的方位信息对应的混音系数。

10.根据权利要求6～8任一项所述的多点控制服务器，其特征在于，所述混音处理单元，还用于将所述M声道的语音数据中无声源的声道的语音数据清除。