CN104219400B

CN104219400B - 用于控制音频会议的方法和装置

Info

Publication number: CN104219400B
Application number: CN201310208248.2A
Authority: CN
Inventors: 王宾; 苗磊; 王喆
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-05-30
Filing date: 2013-05-30
Publication date: 2019-01-18
Anticipated expiration: 2033-05-30
Also published as: CN104219400A

Abstract

提供一种控制音频会议的方法和装置，能够使近端用户能够容易地从远端用户中辨识出实际说话者，该方法包括：获取音效位置调整信息，所述音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔；根据所述音效位置调整信息，确定所述远端用户在所述音频会议区域中的音效位置。

Description

用于控制音频会议的方法和装置

技术领域

本发明涉及通信领域，并且更具体地，涉及用于控制音频会议的方法和装置。

背景技术

音频会议***为处于不同地点的人们提供了方便的交流平台，减少了不必要的交通费用，同时保证了沟通的及时性。通常，在音频会议中，会存在个会议终端（例如，电话机，以下简称终端），每个终端供一个或多个用户（或者说，与会者）使用，在传统的音频会议***中，在终端回放接收到的声音时，将所有终端的声音都混音在一起，导致所有声音对于用户而言均来自同一个方向，不仅造成声音的清晰度降低，而且各终端的用户（或者说，近端用户）不能从其他终端的用户（或者说，远端用户）中辨识实际说话，即，在不熟悉远端用户的声音的情况下，无法通过声音来识别当前的说话者，严重影响会议的效果。针对这一突出问题，三维（3D，Three Dimensional）音频会议***可以提供很好的解决方案，即，对接收到的多路音频流进行3D声音方位处理，将不同远端用户的声音放到不同的声像位置（或者说，音效位置），从而使近端用户可以根据声像位置识别当前的说话者。

但是，例如，在间隔较小的两个相邻远端用户的话音特性差别较小时，近端用户仍然不能良好地辨识说话者的声像位置，因此，需要提供一种方案，能够使近端用户容易地从远端用户中辨识出实际说话者。

发明内容

本发明实施例提供一种控制音频会议的方法和装置，能够使近端用户能够容易地从远端用户中辨识出实际说话者。

第一方面，提供了一种用于控制音频会议的方法，该方法包括：获取音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。

在一种可能的实施方式中，该音效位置调整信息包括该话音识别信息，以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。

结合第一方面和第一种可能的实施方式，在第二种可能的实施方式中，该音效位置调整信息包括该发言频率信息，以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：根据该发言频率信息，确定发言频率最高的第五远端用户；增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。

结合第一方面、第一种可能的实施方式和第二种可能的实施方式，在第三种可能的实施方式中，该音效位置调整信息包括该发言顺序信息，以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一侧；增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。

结合第一方面、第一种可能的实施方式、第二种可能的实施方式和第三种可能的实施方式，在第四种可能的实施方式中，该音频会议区域包括判定区域和工作区域；该获取音效位置调整信息包括：在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。

第二方面，提供了一种用于控制音频会议的装置，该装置包括：获取单元，用于获取音效位置调整信息，并向处理单元传输该音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；处理单元，用于从该获取单元获取该音效位置调整信息，并根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。

在一种可能的实施方式中，该音效位置调整信息包括该话音识别信息，以及该处理单元具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。

结合第二方面和第一种可能的实施方式，在第二种可能的实施方式中，该音效位置调整信息包括该发言频率信息，以及该处理单元具体用于根据该发言频率信息，确定发言频率最高的第五远端用户；用于增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。

结合第二方面、第一种可能的实施方式和第二种可能的实施方式，在第三种可能的实施方式中，该音效位置调整信息包括该发言顺序信息，以及该处理单元具体用于根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一侧；用于增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。

结合第二方面、第一种可能的实施方式、第二种可能的实施方式和第三种可能的实施方式，在第四种可能的实施方式中，该音频会议区域包括判定区域和工作区域，该判定区域用于确定新加入音频会议的远端用户的话音识别信息，该工作区域用于设置已加入音频会议的远端用户的音效位置，以及该获取单元具体用于在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及该处理单元具体用于根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。

根据本发明实施例的控制音频会议的方法和装置，获取音效位置调整信息，所述音效位置调整信息包括以下中信息中的至少一个：指示至少两个远端用户的话音特性的话音识别信息、指示所述远端用户的发言频率的发言频率信息、指示所述远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息。根据所述音效位置调整信息调整远端用户的音效位置，从而能够使近端用户容易地从远端用户中辨识出实际说话者。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的控制音频会议的方法的示意性流程图。

图2a是表示根据话音识别信息调整各远端用户的音效位置前的音效位置分配情况的一例的示意图，图2b是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的示意图，图2c是表示根据话音识别信息调整各远端用户的音效位置前的音效位置分配情况的另一例的示意图，图2d是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图，图2e是表示根据话音识别信息调整各远端用户的音效位置前的音效位置分配情况的再一例的示意图，图2f是表示根据话音识别信息调整各远端用户的音效位置后的音效位置分配情况的再一例的示意图。

图3a是表示根据发言频率信息调整各远端用户的音效位置前的音效位置分配情况的一例的示意图，图3b是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的一例的示意图，图3c是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图。

图4a是表示根据发言顺序信息调整各远端用户的音效位置前的音效位置分配情况的一例的示意图，图4b是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的一例的示意图，图4c是表示根据发言频率信息调整各远端用户的音效位置后的音效位置分配情况的另一例的示意图。

图5是根据本发明实施例的控制音频会议的装置的示意性框图。

图6是根据本发明实施例的控制音频会议的设备的示意性结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了是根据本发明实施例的控制音频会议的方法100的示意性流程图。如图1所示，该方法100包括：

S110，获取音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；

S120，根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。

在本发明实施例中，参与音频会议的与会者可以通过多个（至少两个）终端设备（例如，电话机等，即，本发明实施例的控制音频会议的方法100的实施主体的一例），进行音频会议，并且，各终端设备可以通过各种通信网络相连。终端设备可以获取用户（以下，为了便于理解，称为近端用户）的语音信息，生成音频数据，并（通过服务器）将该音频数据发送给其他终端设备。

并且，终端设备可以（通过服务器）从其他终端设备获取其他与会者（以下，为了便于理解，称为远端用户）的音频数据，并通过例如3D声音方位处理等技术，还原远端用户的声音，并分别从不同音效位置向近端用户呈现各远端用户的声音。

这里，需要说明的是，在本发明实施例中，“音效位置”也可以称为声像位置，是指近端用户通过听觉感知的远端用户的虚拟位置。

可选地，在本发明实施例中，该音频会议区域包括判定区域和工作区域，该判定区域用于确定新加入音频会议的远端用户的话音识别信息，该工作区域用于设置已加入音频会议的远端用户的音效位置，以及，

该获取音效位置调整信息包括：

在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及

该根据该音效位置调整信息，调整该远端用户在音频会议区域中的音效位置，包括：

根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。

具体地说，终端设备可以将近端用户前方的区域划分为判定区域和工作区域两种，其中，判定区域可以用于获取新加入音频会议的远端用户的话音识别信息（VIF，VoiceIdentification Factor），这里，新加入音频会议的远端用户可以是在音频会议创建阶段加入的远端用户，也可以是在音频会议进行阶段加入的远端用户，本发明并未特别限定。工作区域用于设置远端用户的声像音效位置，并且，不同工作区域中的远端用户的配置可以相互独立，即，对于远端用户在一个工作区域中的音效位置分配，可以不依据其他工作区域中的远端用户的各参数。

如图2a所示，在本发明实施例中，例如，可以将在近端用户正前方的区域作为判定区域，从而是工作区域位于该判定区域的两侧。从而，可以根据该VIF将该新加入音频会议的远端用户分配至工作区域，其中，根据VIF将远端用户分配至工作区域的方法可以与现有技术相同，这里，为了避免赘述，省略其说明。

应理解，以上列举的工作区域与判定区域的音效位置关系仅为示例性说明，本发明并不限定于此，例如，判定区域也可以配置在两个工作区域之间的任一音效位置，即，判定区域不位于近端用户的正前方，从而使两个工作区域的大小可以不一致。或者，也可以将判定区域设置在最靠近近端用户的音效位置，从而仅形成一个工作区域和与其相邻的判定区域。以下，为了便于理解，以判定区域设置在近端用户正前方，工作区域位于该判定区域（或者说，近端用户）两侧为例，进行说明。

在本发明实施例中，音效位置调整信息可以包括话音识别信息（即，情况1）、发言频率信息（即，情况2）、发言顺序信息（即，情况3）和用户操作信息（即，情况4），下面，分别对各情况下的调整远端用户的音效位置的过程进行说明。应理解，以上列举的各情况仅为本发明的示例性说明，并不限定于此，例如，还可以根据以上列举的四个信息中的至少两个信息调整远端用户的音效位置。

情况1

在本发明实施例中，在会议建立阶段，可以随机地将各远端用户分配到各声像音效位置，其后，获取来自其他终端设备的音频数据；也可以预先根据现有技术中的方法将各远端用户随机分配到各声像音效位置，其后获取来自其他终端设备的音频数据；还可以不为各远端用户分配声像音效位置，而直接获取来自其他终端设备的音频数据，本发明并未特别限定。图2a示出了根据发言频率信息调整各远端用户的音效位置前的音效位置分配情况的一例。

从而，在S110a，可以从来自其他终端设备的音频数据中获取各远端用户的话音识别信息（VIF，Voice Identification Factor）。

可选地，在本发明是示例中宏，该话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。

具体地说，该VIF可以是音频数据中的声音频率（Pitch），由于人的声音频率通常具有一定程度的独特性，因此，可以使用该声音频率作为VIF，同理，该VIF也可以是声音频率的方差。该VIF可以是线性预测系数（LPC，Linear Predictive Coefficients），线性预测系数又称声道截面函数，是声道中由声门至唇部各点的横截面积，由于，人的线性预测系数通常具有一定程度的独特性，因此，可以使用该线性预测系数作为VIF。

可选地，在本发明实施例中，该音效位置调整信息包括该话音识别信息，以及

如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。

具体地说，在S120a，可以根据各远端用户的VIF，确定各相邻远端用户之间话音识别信息的差异，例如，图2a中远端用户A01的VIF（记作，VIF（A01））与远端用户A03的VIF（记作，VIF（A03））之间的差异可以表示为：|VIF（A01）－VIF（A03）|；

同理，远端用户A01的VIF与远端用户A04的VIF（记作，VIF（A04））之间的差异可以表示为：|VIF（A01）－VIF（A04）|；

远端用户A06的VIF（记作，VIF（A06））与远端用户A05的VIF（记作，VIF（A05））之间的差异可以表示为：|VIF（A06）－VIF（A05）|；

远端用户A06的VIF与远端用户A02的VIF（记作，VIF（A02））之间的差异可以表示为：|VIF（A06）－VIF（A02）|。

例如，如果|VIF（A01）－VIF（A03）|＜|VIF（A01）－VIF（A04）|，则可以使A01与A03之间的间距（P1）大于A01与A04之间的间距（P2），即如图2b所示，可以使P1＞P2。

同理，如果|VIF（A02）－VIF（A06）|＜|VIF（A06）－VIF（A05）|，则可以使A02与A06之间的间距（P4）大于A06与A05之间的间距（P5），即如图2b所示，可以使P4＞P5。

应理解，以上列举的根据话音识别信息调整各远端用户在该音频会议区域中的音效位置的方法仅为示例性说明，本发明并不限定于此，例如，，如图2c所示，音频会议的区域仅包括一个工作区域的情况下，调整各相邻远端用户之间的距离时，可以对所有相邻远端用户之间的VIF的差异，并且，可以根据差异的大小进行排序，为VIF差异最大的相邻远端用户分配最大的间距，为VIF差异最小的相邻远端用户分配最小的间距。

例如，如果|VIF（A01）－VIF（A03）|＜|VIF（A01）－VIF（A04）|，

且，|VIF（A01）－VIF（A04）|＜|VIF（A04）－VIF（A02）|，

且，|VIF（A04）－VIF（A02）|＜|VIF（A02）－VIF（A06）|，

|VIF（A02）－VIF（A06）|＜|VIF（A06）－VIF（A05）|，

则如图2d所示，可以使P1＞P2＞P3＞P4＞P5。

并且，在会议进行阶段，例如，如图2e所示，远端用户包括A01～A07，如果会议进行过程A06提前离开会议，则可以计算剩余相关远端用户（这里，是指与A06处于同一工作区域的A02、A07和A05）之间的VIF差异，并结合当前的方位音效位置分配情况进行音效位置修正调整。例如，当A06离开会议后，A07与A05成为相邻远端用户，需要计算远端用户A07的VIF（记作，VIF（A07））与VIF（A05）的差异，可以表示为：|VIF（A07）－VIF（A05）|；并且，VIF（A07）与VIF（A02）的差异，可以表示为：|VIF（A07）－VIF（A02）|；

例如，如果|VIF（A07）－VIF（A05）|＜|VIF（A07）－VIF（A02）|，则可以使A07与A05之间的间距（P6）大于A07与A02之间的间距（P7），即如图2f所示，可以使P6＞P7。

或者，还可以根据近端用户的识别能力预先设定多个阈值范围，以及与该多个阈值范围相对应的多个音效位置间隔值，并根据如上所述确定的相邻远端VIF差异所处的阈值范围，确定所适用的间隔值，并调整该远端用户的音效位置。

根据本发明实施例的控制音频会议的方法，通过扩大话音特性差别较小的相邻远端用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。

情况2

在会议进行阶段，可以记录各远端用户的发言次数以及该发言在会议中对应时间，例如，可以记录各远端用户在预设时间段内的语音帧数，以确定各远端用户在预设时间段内的发言频率（语音帧数与预设时间的比值），从而，在S110b，可以将该发言频率作为发言频率信息VAF（Voice Activity Factor）。以上，列举了将发言频率直接作为发言频率信息的实施例，但本发明并不限定于此，例如，也可以计算在预设时间段内，各远端用户的发言次数在总发言次数中的比例（或者说，发言比例，即，各远端用户的语音帧数与总语音帧数的比值），将该发言比例作为发言频率信息。

可选地，在本发明实施例中，该音效位置调整信息包括该发言频率信息，以及

根据该发言频率信息，确定发言频率最高的第五远端用户；

增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。

具体地说，在S120b，可以确定各工作区域中，在预设时间段内的发言次数最多（语音帧数最多，或者说，发言频率最大、发言比例最大）的远端用户。例如，如图3a所示，在远端用户A01、远端用户A02和远端用户A03中，将远端用户A01在预设时间段内的语音帧数记作n₁，发言频率记作m₁，发言比例记作k₁，将远端用户A02在预设时间段内的语音帧数记作n₂，发言频率记作m₂，发言比例记作k₂，将远端用户A03在预设时间段内的语音帧数记作n₃，发言频率记作m₃，发言比例记作k₃；

例如，如果，n₂＞n₁，且n₂＞n₃，或

m₂＞m₁，且m₂＞m₃，或

k₂＞k₁，且k₂＞k₃，则可以确定远端用户A02（第五远端用户的一例）在预设时间段内的发言次数最多。从而，如图3b所示，可以直接增大远端用户A02与远端用户A01之间的间隔，以及远端用户A02与远端用户A03之间的间隔，例如，可以将A01向上移动，将A02向上移动。

可选地，在本发明实施例中，该增大该第五远端用户的相邻用户与该第五远端用户之间的间隔。包括：

调换该第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大该第五远端用户调换音效位置后的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔，其中，该第六远端用户在调换音效位置前只有一个相邻用户。

并且，该调换该第五远端用户与第六远端用户在音频会议区域中的音效位置包括：

调换该第五远端用户与该第六远端用户在音频会议区域中的音效位置，其中，该第五远端用户与该第六远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧。

具体地说，例如，如图3c所示，可以调换远端用户A02与远端用户A01的音效位置，以达到增大远端用户A02与远端用户A03之间的间隔的目的，其后，可以增大远端用户A02与远端用户A01之间的间隔，即，将A02向上移动，或，将A01向下移动。

应理解，以上列举的增大该第五远端用户（远端用户A02）的相邻用户与该第五远端用户（远端用户A02）之间的间隔的方法仅为本发明的示例性说明，本发明并不限定于此，例如，还可以调换远端用户A02与远端用户A03的音效位置，其后，增大远端用户A02与远端用户A03之间的间隔。并且，当该第五远端用户（远端用户A02）所处的工作区域设置有四个以上远端用户时，可以调换第五远端用户与位于该工作区域边缘的第六远端用户的音效位置，其后，增大该第五远端用户与相邻远端用户之间的间隔。

并且，由于近端用户能够较好的区分出来自其左右两侧的声音，在会议建立阶段，例如，存在VIF差异较小的远端用户可能被分配至分别由于近端用户左右两侧的相邻音效位置的情况，即，近端用户左右两侧的工作区域彼此独立配置，因此，在本发明实施例中，例如，在第五远端用户位于近端用户左侧时，可以禁止调换第五远端用户与位于近端用户右侧的远端用户的音效位置，以避免远端用户音效位置移动前后声像音效位置差别过大影响对此远端用户的识别。

根据本发明实施例的控制音频会议的方法，通过扩大发言频率较高的远端用户与其相邻用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。

情况3

在会议进行阶段，可以记录各远端用户的发言以及该发言在会议中对应时间，从而，在S110c中，可以根据各远端用户的发言以及该发言在会议中对应时间，确定指示该远端用户的发言顺序的发言顺序信息，作为该发言顺序信息，例如，可以是交替发言频率ACF（Attendee correlation Factor），在从t1～t8时刻，如果图4a所示的远端用户A01～A05有如下所示说话顺序：

A01（t1）→A03（t2）→A04（t3）→A05（t4）→A03（t5）→A05（t6）→A03（t7）→A05（t8），

则例如，两个相邻远端用户A03、A05之间在每个时刻的ACF可以为：

0（t1）→0（t2）→0（t3）→0（t4）→1（t5）→2（t6）→3（t7）→4（t8）

可选地，在本发明实施例中，该音效位置调整信息包括该发言顺序信息，以及

根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一侧；

增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔。

具体地说，在S120c中，可以判定A03与A05之间的ACF是否大于预设的阈值（例如，3，表示两个相邻远端用户在连续的三个时刻交替发言），如果大于该阈值，则可以确定A03（第七远端用户的一例）与A05（第八远端用户的一例）为交替发言的相邻用户，从而，如图4b所示，可以直接增大该A03与A05之间的间隔，即，将A03向下移动，将A05向上移动。

可选地，在本发明实施例中，该增大该第七远端用户与该第八远端用户之间在音频会议区域中的音效位置间隔包括：

调换该第七远端用户与第九远端用户的在该音频会议区域中的音效位置，其中，该第七远端与该第九远端用户在该音频会议区域中的音效位置相邻；或

调换该第八远端用户与第十远端用户在该音频会议区域中的音效位置，其中，该第八远端与该第十远端用户在该音频会议区域中的音效位置相邻。

并且，该调换该第七远端用户与第九远端用户在音频会议区域中的音效位置包括：

调换该第七远端用户与第九远端用户在该音频会议区域中的音效位置，其中，该第七远端与该第九远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧；或

调换该第八远端用户与第十远端用户在该音频会议区域中的音效位置，其中，该第八远端与该第十远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧。

具体地说，例如，如图4c所示，可以调换远端用户A03与远端用户A01的音效位置，以达到增大远端用户A03与远端用户A05之间的间隔的目的。

并且，由于近端用户能够较好的区分出来自其左右两侧的声音，在会议建立阶段，例如，存在VIF差异较小的远端用户可能被分配至分别由于近端用户左右两侧的相邻音效位置的情况，即，近端用户左右两侧的工作区域彼此独立配置，因此，在本发明实施例中，可以禁止调换近端用户左右两侧的远端用户的音效位置，以避免远端用户音效位置移动前后声像音效位置差别过大影响对此远端用户的识别。例如，可以禁止调换图4a中A05与A02的音效位置。

同理，在本发明实施例中，如果图4a所示的各远端用户A01～A05有如下所示说话顺序：

A03（t1）→A04（t2）→A01（t3）→A03（t4）→A02（t5）→A05（t6）→A02（t7）→A05（t8），

则例如，两个相邻远端用户A02、A05之间在每个时刻的ACF可以为：

可以判定A02与A05之间的ACF大于预设的阈值（例如，3，表示两个相邻远端用户在连续的三个时刻交替发言），即，可以确定A02（第七远端用户的一例）与A05（第八远端用户的一例）为交替发言的相邻用户，但是，由于A02与A05分别位于近端用户的左右两侧，近端用户能够容易地区分出说话者，因此无需进行音效位置调整。

需要说明的是，在本发明实施例中，如果两个相邻远端用户在预设时间内未交替发言，则可以将二者之间的ACF清零。

根据本发明实施例的控制音频会议的方法，通过扩大交替发言的相邻远端用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。

情况4

在S110d中，在会议建立阶段或会议进行阶段，可以获取近端用户的针对各远端用户的音效位置分配的操作信息。

在S120d中，可以根据该操作信息调整各远端用户的音效位置。

根据本发明实施例的控制音频会议的方法，能够为近端用户提供个性化服务，使近端用户根据自己的主观判断来设置远端用户的声像音效位置，能够使近端用户能够容易地从远端用户中辨识出实际说话者。

应理解，以上分别列举了根据音识别信息（即，情况1）、发言频率信息（即，情况2）、发言顺序信息（即，情况3）和用户操作信息（即，情况4），调整远端用户的音效位置的过程。但本发明并不限定于此，上述各信息也可以组合使用，例如，在会议建立阶段根据音识别信息调整各远端用户之间的间隔后，可以根据发言顺序信息和/或发言频率信息调整该间隔。再例如，根据发言顺序信息和/或发言频率信息调整的间隔大小，可以根据用户操作信息来调整。

上文中，结合图1至图4c，详细描述了根据本发明实施例的控制音频会议的方法，下面，将结合图5，详细描述根据本发明实施例的根据本发明实施例的控制音频会议的装置。

图5示出了根据本发明实施例的控制音频会议的装置200的示意性框图。如图5所示，该装置200包括：

获取单元210，用于获取音效位置调整信息音效位置，并向处理单元220传输该音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；

处理单元220，用于从该获取单元210获取该音效位置调整信息，并根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。

在本发明实施例中，参与音频会议的与会者可以通过多个终端设备（例如，电话机等）进行音频会议，并且，各终端设备可以通过各种通信网络相连。终端设备可以获取用户（以下，为了便于理解，称为近端用户）的语音信息，生成音频数据，并（通过服务器）将该音频数据发送给其他终端设备。本发明实施例的控制音频会议的装置200可以设置在该终端设备中，也可以独立设置并与该终端设备连接，以与该终端设备传输相关处理数据（例如，音效位置调整信息、指示远端用户在音频会议区域中的音效位置的指示信息）。

可选地，在本发明实施例中，该音频会议区域包括判定区域和工作区域，该判定区域用于确定新加入音频会议的远端用户的话音识别信息，该工作区域用于设置已加入音频会议的远端用户的音效位置，以及，该获取单元210具体用于在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及

该处理单元220具体用于根据该音效位置调整信息，调整该远端用户在音频会议区域中的工作区域的音效位置。

具体地说，处理单元220可以将近端用户前方的区域划分为判定区域和工作区域两种，其中，判定区域可以用于获取新加入音频会议的远端用户的话音识别信息，这里，新加入音频会议的远端用户可以是在音频会议创建阶段加入的远端用户，也可以是在音频会议进行阶段加入的远端用户，本发明并未特别限定。工作区域用于设置远端用户的声像音效位置，并且，不同工作区域中的远端用户的配置可以相互独立，即，对于远端用户在一个工作区域中的音效位置分配，可以不依据其他工作区域中的远端用户的各参数。

可选地，该处理单元220具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整该远端用户的音效位置，使该第一远端用户与该第二远端用户之间的间隔小于该第三远端用户与该第四远端用户之间的间隔，其中，该第一远端用户与该第二远端用户相邻，该第三远端用户与该第四远端用户相邻。

具体地说，处理单元220可以根据各远端用户的VIF，确定各相邻远端用户之间话音识别信息的差异，例如，图2a中远端用户A01的VIF（记作，VIF（A01））与远端用户A03的VIF（记作，VIF（A03））之间的差异可以表示为：|VIF（A01）－VIF（A03）|；

例如，如果|VIF（A01）－VIF（A03）|＜|VIF（A01）－VIF（A04）|，则处理单元220可以使A01与A03之间的间距（P1）大于A01与A04之间的间距（P2），即如图2b所示，处理单元220可以使P1＞P2。

同理，如果|VIF（A02）－VIF（A06）|＜|VIF（A06）－VIF（A05）|，则处理单元220可以使A02与A06之间的间距（P4）大于A06与A05之间的间距（P5），即如图2b所示，处理单元220可以使P4＞P5。

以上，列举了判定区域设置在近端用户正前方而工作区域位于该判定区域两侧时，根据话音识别信息设置远端用户音效位置的实施例，在例如，如图2c所示，音频会议的区域仅包括一个工作区域的情况下，确定各相邻远端用户之间的距离时，可以对所有相邻远端用户之间的VIF的差异，并且，可以根据差异的大小进行排序，为VIF差异最大的相邻远端用户分配最大的间距，为VIF差异最小的相邻远端用户分配最小的间距。

例如，如果|VIF（A01）－VIF（A03）|＜|VIF（A01）－VIF（A04）|，

且，|VIF（A01）－VIF（A04）|＜|VIF（A04）－VIF（A02）|，

且，|VIF（A04）－VIF（A02）|＜|VIF（A02）－VIF（A06）|，

|VIF（A02）－VIF（A06）|＜|VIF（A06）－VIF（A05）|，

则如图2d所示，处理单元220可以使P1＞P2＞P3＞P4＞P5。

例如，如果|VIF（A07）－VIF（A05）|＜|VIF（A07）－VIF（A02）|，则处理单元220可以使A07与A05之间的间距（P6）大于A07与A02之间的间距（P7），即如图2f所示，处理单元220可以使P6＞P7。

根据本发明实施例的控制音频会议的装置，通过扩大话音特性差别较小的相邻远端用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。

可选地，在本发明实施例中，该处理单元220具体用于根据该发言频率信息，确定发言频率最高的第五远端用户；

用于增大该第五远端用户的相邻用户与该第五远端用户之间的间隔。

具体地说，处理单元220可以确定各工作区域中，在预设时间段内的发言次数最多（语音帧数最多，或者说，发言频率最大、发言比例最大）的远端用户。例如，如图3a所示，在远端用户A01、远端用户A02和远端用户A03中，将远端用户A01在预设时间段内的语音帧数记作n₁，发言频率记作m₁，发言比例记作k₁，将远端用户A02在预设时间段内的语音帧数记作n₂，发言频率记作m₂，发言比例记作k₂，将远端用户A03在预设时间段内的语音帧数记作n₃，发言频率记作m₃，发言比例记作k₃；

例如，如果，n₂＞n₁，且n₂＞n₃，或

m₂＞m₁，且m₂＞m₃，或

k₂＞k₁，且k₂＞k₃，则处理单元220可以确定远端用户A02（第五远端用户的一例）在预设时间段内的发言次数最多。从而，如图3b所示，处理单元220可以直接增大远端用户A02与远端用户A01之间的间隔，以及远端用户A02与远端用户A03之间的间隔，例如，处理单元220可以将A01向上移动，将A02相上移动。

可选地，在本发明实施例中，该处理单元220具体用于调换该第五远端用户与第六远端用户的音效位置，并增大该第五远端用户调换音效位置后的相邻用户与该第五远端用户之间的间隔，其中，该第六远端用户在调换音效位置前只有一个相邻用户。

并且，该处理单元220具体用于调换该第五远端用户与该第六远端用户的音效位置，其中，该第五远端用户与该第六远端用户位于该近端用户的左右两侧中的同一侧。

具体地说，例如，如图3c所示，处理单元220可以调换远端用户A02与远端用户A01的音效位置，以达到增大远端用户A02与远端用户A03之间的间隔的目的，其后，可以增大远端用户A02与远端用户A01之间的间隔，例如，处理单元220可以将A02向上移动，或者，处理单元220可以将A01向下移动。

根据本发明实施例的控制音频会议的装置，通过扩大发言频率较高的远端用户与其相邻用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。

可选地，在本发明实施例中，该处理单元220具体用于根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户相邻，且位于该近端用户的左右两侧中的同一侧；

用于增大该第七远端用户与该第八远端用户之间的间隔。

在会议进行阶段，获取单元210可以记录各远端用户的发言以及该发言在会议中对应时间，从而，获取单元210可以根据各远端用户的发言以及该发言在会议中对应时间，确定指示该远端用户的发言顺序的发言顺序信息，作为该发言顺序信息，例如，可以是交替发言频率，在从t1～t8时刻，如果图4a所示的远端用户A01～A05有如下所示说话顺序：

其后，处理单元220可以判定A03与A05之间的ACF是否大于预设的阈值（例如，3，表示两个相邻远端用户在连续的三个时刻交替发言），如果大于该阈值，则可以确定A03（第七远端用户的一例）与A05（第八远端用户的一例）为交替发言的相邻用户，从而，如图4b所示，可以直接增大该A03与A05之间的间隔，即，将A03向下移动，将A05向上移动。

可选地，在本发明实施例中，该处理单元220具体用于调换该第七远端用户与第九远端用户的音效位置，其中，该第七远端与该第九远端用户相邻；或

用于调换该第八远端用户与第十远端用户的音效位置，其中，该第八远端与该第十远端用户相邻。

并且，该处理单元220具体用于调换该第七远端用户与第九远端用户的音效位置，其中，该第七远端与该第九远端用户位于该近端用户的左右两侧中的同一侧；或

用于调换该第八远端用户与第十远端用户的音效位置，其中，该第八远端与该第十远端用户位于该近端用户的左右两侧中的同一侧。

具体地说，例如，如图4c所示，处理单元220可以调换远端用户A03与远端用户A01的音效位置，以达到增大远端用户A03与远端用户A05之间的间隔的目的。

并且，由于近端用户能够较好的区分出来自其左右两侧的声音，在会议建立阶段，例如，存在VIF差异较小的远端用户可能被分配至分别由于近端用户左右两侧的相邻音效位置的情况，即，近端用户左右两侧的工作区域彼此独立配置，因此，在本发明实施例中，可以禁止调换近端用户左右两侧的远端用户的音效位置，以避免远端用户音效位置移动前后声像音效位置差别过大影响对此远端用户的识别。。例如，处理单元220可以禁止调换图4a中A05与A02的音效位置。

处理单元220可以判定A02与A05之间的ACF大于预设的阈值（例如，3，表示两个相邻远端用户在连续的三个时刻交替发言），即，可以确定A02（第七远端用户的一例）与A05（第八远端用户的一例）为交替发言的相邻用户，但是，由于A02与A05分别位于近端用户的左右两侧，近端用户能够容易地区分出说话者，因此无需进行音效位置调整。

需要说明的是，在本发明实施例中，如果两个相邻远端用户在预设时间内未交替发言，则处理单元220可以将二者之间的ACF清零。

根据本发明实施例的控制音频会议的装置，通过扩大交替发言的相邻远端用户之间的声像距离，能够使近端用户能够容易地从远端用户中辨识出实际说话者。

可选地，在本发明实施例中，在会议建立阶段或会议进行阶段，获取单元210可以获取近端用户的针对各远端用户的音效位置分配的操作信息。

其后，处理单元220可以根据该操作信息调整各远端用户的音效位置。

根据本发明实施例的控制音频会议的装置，能够为近端用户提供个性化服务，使近端用户根据自己的主观判断来设置远端用户的声像音效位置，能够使近端用户能够容易地从远端用户中辨识出实际说话者。

根据本发明实施例的控制音频会议的装置200是本发明实施例的控制音频会议的方法100中的实施主体，并且，该控制音频会议的装置200中的各单元及模块和上述其他操作和/或功能分别为了实现图1中的方法100的相应流程，为了简洁，在此不再赘述。

上文中，结合图1至图4c，详细描述了根据本发明实施例的控制音频会议的方法，下面，将结合图6，详细描述根据本发明实施例的根据本发明实施例的控制音频会议的设备。

图6示出了根据本发明实施例的控制音频会议的设备300的示意性结构图。如图6所示，该设备300包括：

总线310；

与所述总线相连的处理器320；

与所述总线相连的存储器330；

其中，所述处理器通过所述总线，调用所述存储器中存储的程序，以用于获取音效位置调整信息，该音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息、指示该远端用户的发言频率的发言频率信息、指示该远端用户的发言顺序的发言顺序信息和指示近端用户的操作的用户操作信息中的至少一个，其中，该话音识别信息用于确定该远端用户之间在音频会议区域中的音效位置间隔；

用于根据该音效位置调整信息，调整该远端用户在该音频会议区域中的音效位置。

可选地，该音效位置调整信息包括该话音识别信息，以及

该处理器320具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在该音频会议区域中的音效位置，使该第一远端用户与该第二远端用户之间在该音频会议区域中的音效位置间隔小于该第三远端用户与该第四远端用户之间在该音频会议区域中的音效位置间隔，其中，该第一远端用户与该第二远端用户在该音频会议区域中的音效位置相邻，该第三远端用户与该第四远端用户在该音频会议区域中的音效位置相邻。

可选地，该话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。

可选地，该音效位置调整信息包括该发言频率信息，以及

该处理器320具体用于根据该发言频率信息，确定发言频率最高的第五远端用户；

用于增大该第五远端用户的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔。

可选地，该处理器320具体用于调换该第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大该第五远端用户调换音效位置后的相邻用户与该第五远端用户之间在该音频会议区域中的音效位置间隔，其中，该第六远端用户在调换音效位置前只有一个相邻用户。

可选地，该处理器320具体用于调换该第五远端用户与该第六远端用户在音频会议区域中的音效位置，其中，该第五远端用户与该第六远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧。

可选地，该音效位置调整信息包括该发言顺序信息，以及

该处理器320具体用于根据该发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，该第七远端用户与该第八远端用户在音频会议区域中的音效位置相邻，且位于该近端用户的左右两侧中的同一侧；

可选地，该处理器320具体用于调换该第七远端用户与第九远端用户的在该音频会议区域中的音效位置，其中，该第七远端与该第九远端用户在该音频会议区域中的音效位置相邻；或

可选地，该处理器320具体用于调换该第七远端用户与第九远端用户在该音频会议区域中的音效位置，其中，该第七远端与该第九远端用户在该音频会议区域中位于该近端用户的左右两侧中的同一侧；或

可选地，该音频会议区域包括判定区域和工作区域；以及

该处理器320具体用于在该音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及

该处理器320具体用于根据该音效位置调整信息，确定该远端用户在音频会议区域中的工作区域的音效位置。

在本发明实施例中，处理器320控制设备300的操作，处理器320还可以称为CPU。存储器330可以包括只读存储器和随机存取存储器，并向处理器320提供指令和数据。存储器330的一部分还可以包括非易失行随机存取存储器（NVRAM）。处理器320可以实现或者执行本发明方法实施例中的公开的各步骤及逻辑框图。通用处理器320可以是微处理器或者该处理器也可以是任何常规的处理器。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用解码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器330。该总线***310除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线310。

在实现过程中，上述方法的各步骤可以通过处理器310中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器330，处理器320读取存储器330中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

根据本发明实施例的控制音频会议的设备300是本发明实施例的控制音频会议的方法100中的实施主体，并且，该控制音频会议的设备200中的各单元及模块和上述其他操作和/或功能分别为了实现图1中的方法100的相应流程，为了简洁，在此不再赘述。

根据本发明实施例的控制音频会议的设备，通过获取指示远端用户的话音特性的话音识别信息，能够确定相邻远端用户之间的话音特性差别，通过获取指示远端用户的发言频率的发言频率信息，能够确定发言频率较高的远端用户，通过获取指示远端用户的发言顺序的发言顺序信息，能够确定交流频率较高的远端用户，通过获取指示近端用户的操作的用户操作信息，能够确定近端用户的主观感受，即近端用户是否能够从远端用户中辨识出实际说话者，从而，通过根据该话音识别信息、发言频率信息、发言顺序信息或用户操作信息，调整远端用户的音效位置，能够使近端用户容易地从远端用户中辨识出实际说话者。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于控制音频会议的方法，其特征在于，所述方法包括：

获取音效位置调整信息，所述音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息和指示近端用户的操作的用户操作信息中的至少一个，其中，所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔；

根据所述音效位置调整信息，调整所述远端用户在所述音频会议区域中的音效位置，

其中，

所述音频会议区域包括判定区域和工作区域；

所述获取音效位置调整信息包括：在所述音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及，

所述根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的音效位置，包括：根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的工作区域的音效位置。

2.根据权利要求1所述的方法，其特征在于，所述音效位置调整信息包括所述话音识别信息，以及

所述根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的音效位置，包括：

如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在所述音频会议区域中的音效位置，使所述第一远端用户与所述第二远端用户之间在所述音频会议区域中的音效位置间隔小于所述第三远端用户与所述第四远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第一远端用户与所述第二远端用户在所述音频会议区域中的音效位置相邻，所述第三远端用户与所述第四远端用户在所述音频会议区域中的音效位置相邻。

3.根据权利要求1或2所述的方法，其特征在于，所述话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。

4.根据权利要求1所述的方法，其特征在于，所述音效位置调整信息还包括发言频率信息，以及

根据所述发言频率信息，确定发言频率最高的第五远端用户；

增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔。

5.根据权利要求4所述的方法，其特征在于，所述增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔包括：

调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大所述第五远端用户调换音效位置后的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第六远端用户在调换音效位置前只有一个相邻用户。

6.根据权利要求5所述的方法，其特征在于，所述调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置包括：

调换所述第五远端用户与所述第六远端用户在音频会议区域中的音效位置，其中，所述第五远端用户与所述第六远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。

7.根据权利要求1所述的方法，其特征在于，所述音效位置调整信息包括发言顺序信息，以及

根据所述发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，所述第七远端用户与所述第八远端用户在音频会议区域中的音效位置相邻，且位于所述近端用户的左右两侧中的同一侧；

增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔。

8.根据权利要求7所述的方法，其特征在于，所述增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔包括：

调换所述第七远端用户与第九远端用户的在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中的音效位置相邻；或

调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中的音效位置相邻。

9.根据权利要求8所述的方法，其特征在于，所述调换所述第七远端用户与第九远端用户在音频会议区域中的音效位置包括：

调换所述第七远端用户与第九远端用户在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧；或

调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。

10.一种用于控制音频会议的装置，其特征在于，所述装置包括：

获取单元，用于获取音效位置调整信息，并向处理单元传输所述音效位置调整信息，所述音效位置调整信息包括指示至少两个远端用户的话音特性的话音识别信息和指示近端用户的操作的用户操作信息中的至少一个，其中，所述话音识别信息用于确定所述远端用户之间在音频会议区域中的音效位置间隔；

处理单元，用于从所述获取单元获取所述音效位置调整信息，并根据所述音效位置调整信息，调整所述远端用户在所述音频会议区域中的音效位置，

其中，

所述音频会议区域包括判定区域和工作区域，所述判定区域用于确定新加入音频会议的远端用户的话音识别信息，所述工作区域用于设置已加入音频会议的远端用户的音效位置，以及，

所述获取单元具体用于在所述音频会议区域中的判定区域，确定新加入音频会议的远端用户的话音识别信息；以及，

所述处理单元具体用于根据所述音效位置调整信息，调整所述远端用户在音频会议区域中的工作区域的音效位置。

11.根据权利要求10所述的装置，其特征在于，所述音效位置调整信息包括所述话音识别信息，以及

所述处理单元具体用于如果第一远端用户的话音识别信息与第二远端用户的话音识别信息之间的差异大于第三远端用户的话音识别信息与第四远端用户的话音识别信息之间的差异，则调整远端用户在所述音频会议区域中的音效位置，使所述第一远端用户与所述第二远端用户之间在所述音频会议区域中的音效位置间隔小于所述第三远端用户与所述第四远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第一远端用户与所述第二远端用户在所述音频会议区域中的音效位置相邻，所述第三远端用户与所述第四远端用户在所述音频会议区域中的音效位置相邻。

12.根据权利要求10或11所述的装置，其特征在于，所述话音识别信息包括声音频率、声音频率方差、共振峰的频率或线性预测系数LPC。

13.根据权利要求10所述的装置，其特征在于，所述音效位置调整信息还包括发言频率信息，以及

所述处理单元具体用于根据所述发言频率信息，确定发言频率最高的第五远端用户；

用于增大所述第五远端用户的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔。

14.根据权利要求13所述的装置，其特征在于，所述处理单元具体用于调换所述第五远端用户与第六远端用户在音频会议区域中的音效位置，并增大所述第五远端用户调换音效位置后的相邻用户与所述第五远端用户之间在所述音频会议区域中的音效位置间隔，其中，所述第六远端用户在调换音效位置前只有一个相邻用户。

15.根据权利要求14所述的装置，其特征在于，所述处理单元具体用于调换所述第五远端用户与所述第六远端用户在音频会议区域中的音效位置，其中，所述第五远端用户与所述第六远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。

16.根据权利要求10所述的装置，其特征在于，所述音效位置调整信息包括发言顺序信息，以及

所述处理单元具体用于根据所述发言顺序信息，确定第七远端用户与第八远端用户交替发言，其中，所述第七远端用户与所述第八远端用户在音频会议区域中的音效位置相邻，且位于所述近端用户的左右两侧中的同一侧；

用于增大所述第七远端用户与所述第八远端用户之间在音频会议区域中的音效位置间隔。

17.根据权利要求16所述的装置，其特征在于，所述处理单元具体用于调换所述第七远端用户与第九远端用户的在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中的音效位置相邻；或

用于调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中的音效位置相邻。

18.根据权利要求17所述的装置，其特征在于，所述处理单元具体用于调换所述第七远端用户与第九远端用户在所述音频会议区域中的音效位置，其中，所述第七远端与所述第九远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧；或

用于调换所述第八远端用户与第十远端用户在所述音频会议区域中的音效位置，其中，所述第八远端与所述第十远端用户在所述音频会议区域中位于所述近端用户的左右两侧中的同一侧。