CN112365895B

CN112365895B - 音频处理方法、装置及计算设备、存储介质

Info

Publication number: CN112365895B
Application number: CN202011072474.9A
Authority: CN
Inventors: 谭聪慧
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2024-04-19
Anticipated expiration: 2040-10-09
Also published as: CN112365895A

Abstract

本申请公开了一种音频处理方法、装置及计算设备、存储介质，在获取N个录音设备的音频数据后；针对任一录音设备Ni的音频数据，确定分帧后的音频数据的任一帧的声纹相似度，以及参考因素；参考因素包括：所述录音设备N_i远近场因素，或，音量因素；根据声纹相似度以及参考因素，确定N个录音设备各帧音频数据对应的目标用户。本申请在进行音频数据处理时，通过确定各录音设备的音频数据与各用户声纹的相似度以及参考因素来确定该音频数据对应的目标用户，可提高音频数据识别的准确度。

Description

音频处理方法、装置及计算设备、存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种音频处理方法、装置及计算设备、存储介质。

背景技术

一对一录音是指每个用户都有一个对应的录音设备，且每个用户的录音设备同步记录对应用户的音频数据。如开会时，每个用户都对应一个单独的麦克风来记录用户的音频数据，通过语音活动检测(Voice Activity Detection，VAD)判断该麦克风是否有收录声音，以确定哪个时间段内麦克风收录了声音，哪个时间段麦克风没有收录声音。

然而，在实际应用时，各麦克风不仅仅会收录其对应用户的音频数据，同时也会收录其他用户的音频数据，特别在空间比较狭小或者是麦克风收音距离比较远的情况下，某个用户的麦克风可能收录了多个用户的音频数据，仅仅通过VAD是不能区分麦克风中哪段音频数据对应哪个用户。VAD在这种情况下，根本无法根据麦克风收录的音频数据确定哪段对话对应哪个用户。

基于此，相关技术引入了声纹识别技术，并通过对一个麦克风收录的音频数据进行分帧处理，以确定各帧音频数据对应的用户，虽然该方式可以确定单一麦克风中音频数据对应的用户，但是在同一密闭空间中，存在多个麦克风，多个麦克风收录了多个用户的音频数据时，利用声纹识别技术确定各音频数据对应的用户也很易出现错误。

发明内容

本申请的主要目的在于提供一种音频处理方法、装置、设备及存储介质，旨在提高音频数据识别的准确度。

为实现上述目的，第一方面，本申请提供一种音频处理方法，所述音频处理方法包括可通过服务来执行，也可通过具有数据处理功能的智能设备来执行，在执行时可先获取N个录音设备的音频数据；所述N为整数；之后针对任一录音设备N_i的音频数据，确定分帧后的音频数据的任一帧的声纹相似度，以及参考因素；所述i取变1-N中的任意整数；所述参考因素包括：所述录音设备N_i远近场因素，或，音量因素；最后根据所述声纹相似度以及所述参考因素，确定所述N个录音设备各帧音频数据对应的目标用户。

本申请获取N个录音设备的音频数据后，确定分帧后的音频数据的任一帧的声纹相似度，以及参考因素，并基于该声纹相似度以及参考因素确定音频帧数据对应的目标用户，通过该方式可以准确确定音频帧数据对应的目标用户，提高音频数据识别的准确度。

在一种可选的实施方式中，所述录音设备N_i远近场因素表征所述录音设备N_i与用户之间的对应关系；其中，所述录音设备N_i用于录制用户i的音频数据，则所述录音设备N_i与所述用户i的远近场因素为第一关系值，所述录音设备N_i与除所述用户i以外的其他用户的远近场因素为第二关系值；所述第一关系值大于所述第二关系值。

本申请在确定各帧音频数据对应的目标用户时，在参考录音设备的远近场因素的基础上，基于远近场因素以及声纹相似度来确定各帧音频数据对应的目标用户，可以提高音频数据识别的准确度。

在一种可选的实施方式中，所述音量因素通过所述录音设备N_i各帧音频数据的音量来指示；其中，所述录音设备N_i各帧音频数据的音量通过如下方式指示：将各帧音频数据的平均音量值与第一音量值进行比例计算，确定各帧音频数据的音量；其中，所述第一音量值为所述各帧音频数据所属的录音设备的音频数据的平均音量值。

本申请在确定各帧音频数据对应的目标用户时，在参考录音设备的音量因素的基础上，基于音量因素以及声纹相似度来确定各帧音频数据对应的目标用户，可以提高音频数据识别的准确度。

在一种可选的实施方式中，针对任一录音设备N_i的音频数据，按预设时间间隔分帧处理，确定M帧音频帧数据；所述M为整数；将所述录音设备N_i第t帧音频数据分别与第k个用户的声纹数据一一进行比对，确定所述录音设备N_i第t帧音频数据与所述第k个用户的声纹数据的相似度得分a_it_k；所述t取变1-M中的任意整数；所述k取变1-N中的任意整数。

通过该方式可以准确地各音频帧数据与用户声纹数据之间的对应关系。

在一种可选的实施方式中，将所述声纹相似度的取值与所述参考因素进行加权求和计算，确定所述N个录音设备各帧音频数据对应的目标用户。

通过将声纹相似度的取值与参考因素进行加权求和计算，可以提高音频数据识别的准确度。

在一种可选的实施方式中，参考数据包括：所述录音设备N_i远近场因素，和所述音量因素；将各帧音频数据的声纹相似度的取值与所述各音频数据对应的录音设备的远近场因素进行加权求和，确定第一加权值；之后将所述第一加权值与各帧音频数据的音量因素进行乘法运算，确定第二加权值；最后将所述第二加权值最大的用户作为所述N个录音设备各帧音频数据的目标用户。

本申请在确定各帧音频数据对应的目标用户时，考虑到录音设备的远近场因素以及音量因素，并基于远近场因素、音量因素以及声纹相似度来确定各帧音频数据对应的目标用户，可以提高音频数据识别的准确度。

在一种可选的实施方式中，将所述N个录音设备中第一用户对应的各帧音频数据进行拼接，确定所述第一用户的讲话内容。

通过该方式可以拼接用户讲话的内容，并于更好地整理会议记录。

第二方面，本申请实施例提供一种音频处理装置，该音频处理装置包括：获取模块、音频帧数据确定模块以及目标用户确定模块。

其中，获取模块，用于获取N个录音设备的音频数据；所述N为整数；

音频帧数据确定模块，用于针对任一录音设备N_i的音频数据，确定分帧后的音频数据的任一帧的声纹相似度，以及参考因素；所述i取变1-N中的任意整数；所述参考因素包括：所述录音设备N_i远近场因素，或，音量因素；

目标用户确定模块，用于根据所述声纹相似度以及所述参考因素，确定所述N个录音设备各帧音频数据对应的目标用户。

针对音频处理装置的有益效果可参照第一方面中音频处理方法的描述，在此不在赘述。

第三方面，本申请提供一种音频处理设备，所述音频处理设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如第一方面中任一的音频处理方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如第一方面中任一的音频处理方法的步骤。

附图说明

图1为本申请实施例提供的音频处理方法的应用场景示意图；

图2为本申请实施例提供的音频处理方法的流程示意图；

图3为本申请实施例提供的音频处理装置的结构示意图；

图4为本申请实施例提供的音频处理设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如背景技术所述，相关技术是基于VAD进行音频数据处理的，然而VAD仅仅能够确定哪个录音设备收录了声音，哪个录音设备没有收录声音。在某个密闭空间存在多个用户的情况下，基于VAD是无法确定各录音设备采集的音频数据是哪个用户所说的话。

为了更加准确地确定音频数据所对应的用户，提出了本申请的方案，图1示出了一种音频处理方法的应用场景的示意图，包括：录音设备101、录音设备102、用户1、用户2以及服务器103，该图仅做示例性描述，在实际应用时，并不限定用户以及录音设备的数量。其中，所述录音设备101、录音设备102、用户1、用户2处于同一空间中，如：A公司的会议室、B学校的教室等。图1中假定录音设备101、录音设备102、用户1、用户2处在A公司的会议室中，将录音设备101分配给用户1使用，录音设备102分配给用户2使用。录音设备101以及录音设备102可通过有线或无线的方式将采集的音频数据传输至服务器103进行数据处理，在此不具体限定音频数据的传输方式。在服务器103接收到录音设备101以及录音设备102传输的音频数据后，可执行本申请的音频处理方法来确定录音设备101以及录音设备102各帧音频数据对应的目标用户。

接下来具体介绍本申请的音频处理方法，本申请的方案可通过具有数据处理功能的智能设备或服务器来执行，该智能设备可以为：手机、机器人等。本申请以执行主体为服务器为例进行说明，参阅图2所示的音频处理方法的流程示意图，服务器可执行：

步骤201，获取N个录音设备的音频数据；N为整数。

步骤202，针对任一录音设备N_i的音频数据，确定分帧后的音频数据的任一帧的声纹相似度，以及参考因素；所述i取变1-N中的任意整数；所述参考因素包括：所述录音设备N_i远近场因素，或，音量因素。

步骤203，根据声纹相似度以及参考因素，确定N个录音设备各帧音频数据对应的目标用户。

需要说明的是，步骤201中的录音设备处于同一空间，服务器可获取收录音频数据的多个录音设备采集的音频数据，如:A会议室中配置有10个录音设备，但是此时仅有7个用户在会议室中，且每个用户与录音设备一一对应，服务器可仅获取这7个用户对应的录音设备所采集的音频数据；亦或者A会议室中10个录音设备均处于使用状态，某些用户可能对应多个录音设备，如：A会议室的***台对应有3个录音设备，用户1恰好处于***台的位置，用户2对应有2个录音设备，其他用户各对应1个录音设备，故而服务器可获取10个录音设备采集的音频数据。

在步骤202中，对录音设备的音频数据进行分帧时可按照预设时间间隔进行分帧，也可根据用户的需求进行设置，如：设置为1秒或2秒，亦或者其他时间段；还可根据设备的具体性能设置时间间隔如：若录音设备为话筒每隔1.5秒分帧更加适配话筒的设备参数需求，则每隔1.5秒对音频数据进行分帧；若录音设备为录音笔每隔2秒分帧更加适配录音笔的设备参数需求，则每隔2秒对音频数据进行分帧；亦或者根据音频数据的具体时长进行设置如：服务器获取了5个录音设备的音频数据，各录音设备采集的音频数据的时长均5分钟，可按照1秒一帧将各录音设备对应的音频数据分成300帧音频数据。本申请在此不具体限定时间间隔的确定方式。

需要说明的是，若在会议室中具有10个用户，则指定数量为10。将步骤202中各录音设备分帧后的音频数据分别与10个用户的声纹进行比对，确定分帧后的音频数据的任一帧的声纹相似度。

此外，服务器还要确定分帧后的音频数据的参考数据，以便根据声纹相似度以及参考因素，确定N个录音设备各帧音频数据对应的目标用户。

需要说明的是，参考因素可包括：录音设备N_i远近场因素，或，音量因素；其中，录音设备N_i远近场因素表征录音设备N_i与用户之间的对应关系；录音设备N_i用于录制用户i的音频数据，则录音设备N_i与用户i的远近场因素为第一关系值，录音设备N_i与除用户i以外的其他用户的远近场因素为第二关系值；第一关系值大于第二关系值。例如，在会议室中有3个用户分别为用户1、用户2以及用户3，在会议室中有4个录音设备分别为录音设备A、录音设备B、录音设备C以及录音设备D，第一关系值为1，第二关系值为0，假定录音设备A以及录音设备B用于录制用户1的音频数据，则将录音设备A以及录音设备B与用户1的远近场因素设置为1，将录音设备A以及录音设备B与用户2、用户3的远近场因素设置为0；假定录音设备C用于录制用户2的音频数据，则将录音设备C与用户2的远近场因素设置为1，将录音设备C与用户1、用户3的远近场因素设置为0；假定录音设备D用于录制用户3的音频数据，则将录音设备D与用户3的远近场因素设置为1，将录音设备D与用户1、用户2的远近场因素设置为0。第一关系值以及第二关系值具体设置为多少可根据用户需求设置，上述第一关系值为1，第二关系值为0仅做示意性说明，本申请并不具体限定第一关系值以及第二关系值的取值。

其中，音量因素通过录音设备N_i各帧音频数据的音量来指示，服务器可将各帧音频数据的平均音量值与第一音量值进行比例计算，确定各帧音频数据的音量；其中，第一音量值为各帧音频数据所属的录音设备的音频数据的平均音量值。

需要说明的是，音量本身虽然不能单独用来判断说话人，但也能提供一定的参考价值。例如，当第i个麦克风收到的音量较大时，用户i应该有较大的概率讲话。因此，本申请通过计算音量来权衡：也即通过麦克风N_i在第t帧的平均音量/麦克风N_i在整个录音的平均音量来确定音量因素。另外，上述音量因素的确定仅与麦克风N_i的属性相关，而与其他麦克风的音量无关，主要是为了排除不同麦克风之间因为设备本身或者设置上的差异带来的额外的干扰因素，在实际应用时，可将计算的音量特征值叠加给该麦克风对应的用户。

在一个实施例中，服务器可针对任一录音设备N_i的音频数据，按预设时间间隔分帧处理，确定M帧音频帧数据；所述M为整数；将录音设备N_i第t帧音频数据分别与第k个用户的声纹数据一一进行比对，确定录音设备N_i第t帧音频数据与第k个用户的声纹数据的相似度得分a_i ^t _k；所述t取变1-M中的任意整数；所述k取变1-N中的任意整数。

服务器可将M帧音频数据分别与指定用户数量的声纹数据一一进行比对，确定各录音设备各帧音频数据与指定用户数量的声纹数据的相似度得分，在实施时可通过i-vector算法来实现，本申请在此不做具体限定。接下来通过实例进行说明：A会议室中有3个录音设备分别为录音设备1、录音设备2以及录音设备3，各录音设备分别对应用户1、用户2以及用户3。3个录音设备共采集3分钟的音频数据，按照1秒的时间间隔将各录音设备3分钟的音频数据分成180帧音频数据，并针对录音设备任一帧音频数据分别获取其与各用户声纹的相似度，确定相似度得分。

需要说明的是，表1示出了各录音设备第1帧音频数据与各用户声纹相似度得分，如：录音设备1的第1帧音频数据与用户1的声纹相似度为0.1，录音设备2的第1帧音频数据与用户1的声纹相似度为0.5，在此不再一一说明表1中的数据含义。

表1

第1帧音频数据	用户1	用户2	用户3
				录音设备1	0.1	0.4	0.5
录音设备2	0.5	0.8	0.6
				录音设备3	0.2	0.7	0.4
总分	0.8	1.9	1.5

通过上述方式确定声纹相似度后，还可在确定音频数据对应的目标用户时，引入参考因素，将音频帧数据与声纹的相似度与参考因素结合判断，使得各帧音频数据对应的目标用户判断地更加准确。在实际执行时，将相似度的取值与参考因素进行加权求和计算，确定N个录音设备各帧音频数据对应的目标用户。

另外，需要说明的是，参考因素不仅仅与录音设备N_i远近场因素相关，还与音量因素相关，凡是影响音频数据对应的目标用户确定的参数均适用于本申请，如：音频数据中的用户说话的语速(不同的用户在说话是语速可能是不同的，可结合语速进行判断)等。

接下来以参考因素包括：录音设备N_i远近场因素，和/或，音量因素为例进行说明，由于和/或，是包含3种方案的，也即参考值可能存在以下三种情况：

情况1、参考因素可包括：录音设备N_i远近场因素。

情况2、参考因素可包括：音量因素。

情况3、参考因素可包括：录音设备N_i远近场因素，和，音量因素。

例如，在场景1中，在会议室1中有甲乙丙三个人在开会，甲坐在主持人的位置，该位置设置有3个并排的麦克风分别为麦克风1、麦克风2以及麦克风3，乙的位置对应有麦克风4，丙的位置对应麦克风5，则可将麦克风1、麦克风2以及麦克风3与甲的远近场因素设置为第一关系值，将麦克风4、麦克风5与用户甲的远近场因素设置为第二关系值；可将麦克风4与乙的远近场因素设置为第一关系值，将麦克风1、麦克风2、麦克风3以及麦克风5与用户乙的远近场因素设置为第二关系值；可将麦克风5与丙的远近场因素设置为第一关系值，将麦克风1、麦克风2、麦克风3以及麦克风4与用户丙的远近场因素设置为第二关系值，如表2所示，为了示例性说明，表2中将第一关系值设置为2，将第二关系值设置为1，但是在实际应用时，第一关系值以及第二关系值可根据实际需求设置，在此不做具体限定。

表2

远近场因素	甲	乙	丙
				麦克风1	2	1	1
麦克风2	2	1	1
				麦克风3	2	1	1
麦克风4	1	2	1
				麦克风5	1	1	2

同上示例，在会议室1中有甲乙丙三个人在开会，甲坐在主持人的位置，该位置设置有3个并排的麦克风分别为麦克风1、麦克风2以及麦克风3，乙的位置对应有麦克风4，丙的位置对应麦克风5。针对各麦克风第1帧的音频数据可分别进行计算，如麦克风1在第1帧的音频数据中平均音量为0.3，麦克风1音频数据的平均音量为0.2，则获取麦克风1在第1帧音频数据中的音量为0.3/0.2，也即1.5，其他麦克风对应的音量，在此不详细说明，可参阅表3。

表3

音量	甲	乙	丙
				麦克风1	1.5	0	0
麦克风2	1.5	0	0
				麦克风3	1.5	0	0
麦克风4	0	2	0
				麦克风5	0	0	2.5

接下来结合具体示例对本申请中可能出现的三种确定音频数据对应的目标用户的方案进行简单说明。

假定在上述的场景1中，应用本申请的方案，确定的各麦克风与各用户之间的声纹相似度的取值如下表4所示。

表4

声纹相似度	甲	乙	丙
				麦克风1	0.1	0.5	0.4
麦克风2	0.1	0.5	0.3
				麦克风3	0.1	0.5	0.3
麦克风4	0.2	0.7	0.6
				麦克风5	0.2	0.5	0.4

结合情况1中的参考因素，可将表4中对应的相似度取值与远近场因素也即表2中的数据进行加权求和确定目标用户。针对用户甲，可将各麦克风与用户甲的声纹数据的相似度取值与用户甲对应关系值相乘后，进行加和计算确定第1帧音频数据对应的甲的分数值，也即1.0(0.1*2+0.1*2+0.1*2+0.2*1+0.2*1)其他用户的计算在此不再详述，可参阅表5，根据表5中的数据可知第1帧音频数据对应的目标用户为乙。

表5

	甲	乙	丙
				麦克风1	0.1*2	0.5*1	0.4*1
麦克风2	0.1*2	0.5*1	0.3*1
				麦克风3	0.1*2	0.5*1	0.3*1
麦克风4	0.2*1	0.7*2	0.6*1
				麦克风5	0.2*1	0.5*1	0.4*2
	1.0	3.4	2.4

假定在上述的场景1中，结合情况2中的参考因素，可将相似度取值与音量进行加权计算，确定音频数据对应的目标用户。针对用户乙，可将各麦克风与用户甲的声纹数据的相似度取值与用户甲对应音量因素相乘后，进行加和计算确定第1帧音频数据对应的甲的分数值，也即1.4(0.5*0+0.5*0+0.5*0+0.7*2+0.5*0)其他用户的计算在此不再详述，可参阅表6，根据表6中的数据可知第1帧音频数据对应的目标用户为乙。

表6

假定在上述的场景1中，应用本申请的方案，结合情况3中的参考因素，将各帧音频数据的声纹相似度的取值与各音频数据对应的录音设备的远近场因素进行加权求和，确定第一加权值；将第一加权值与各帧音频数据的音量因素进行乘法运算，确定第二加权值；将所述第二加权值最大的用户作为N个录音设备各帧音频数据的目标用户。也即在上述表5中获取的计算结果的基础上与音量因素进行乘法运算，确定目标用户，针对用户丙也即将相似度与关系值的第一加权值2.4与其对应的音量特征值2.5进行乘法运算，获取第二加权值也即2.4*2.5，其他用户对应的第二加权值在此不再详述，可参阅表7中的数据。由于用户乙对应的第二加权值最高，故而将第1帧音频数据对应的目标用户确定为用户乙。

表7

	甲	乙	丙
				麦克风1	0.1*2	0.5*1	0.4*1
麦克风2	0.1*2	0.5*1	0.3*1
				麦克风3	0.1*2	0.5*1	0.3*1
麦克风4	0.2*1	0.7*2	0.6*1
				麦克风5	0.2*1	0.5*1	0.4*2
第一加权值	1.0	3.4	2.4
				第二加权值	1.5(1.0*1.5)	6.8(3.4*2)	6(2.4*2.5)

需要说明的是，在确定了各录音设备各帧音频数据对应的目标用户后，可将N个录音设备中第一用户对应的各帧音频数据进行拼接，确定第一用户的讲话内容。通过该方式可整理出来个用户对应的讲话内容以便更好地整理会议纪要等，如：在场景1将麦克风1-5的音频数据分成5帧，通过上述的音频处理方法确定第1帧音频数据是用户乙所说的，第2帧是用户甲所说的，第3帧是用户丙所说的，第4帧是用户甲所说的，第5帧是用户丙所说的，那么则可将第2帧、第4帧的音频数据整理成用户甲的讲话内容；将第1帧的音频数据整理成用户乙的讲话内容；将第3帧、第5帧的音频数据整理成用户丙的讲话内容。之后可将用户甲、乙以及丙的讲话内容整理成会议纪要，以便更好地记录会议内容。

基于同样的构思，本申请实施例提供一种音频处理装置如图3所示，包括获取模块31、音频帧数据确定模块32以及目标用户确定模块33。

其中，获取模块31，用于获取N个录音设备的音频数据；所述N为整数；音频帧数据确定模块32，用于针对任一录音设备N_i的音频数据，确定分帧后的音频数据的任一帧的声纹相似度，以及参考因素；所述i取变1-N中的任意整数；所述参考因素包括：所述录音设备N_i远近场因素，或，音量因素；目标用户确定模快33，用于根据所述声纹相似度以及所述参考因素，确定所述N个录音设备各帧音频数据对应的目标用户。

在一种可选的实施方式中，所述音量因素通过所述录音设备N_i各帧音频数据的音量来指示；其中，所述音频帧数据确定模块32用于：将各帧音频数据的平均音量值与第一音量值进行比例计算，确定各帧音频数据的音量；其中，所述第一音量值为所述各帧音频数据所属的录音设备的音频数据的平均音量值。

在一种可选的实施方式中，针对任一录音设备N_i的音频数据，按预设时间间隔分帧处理，确定M帧音频帧数据；所述M为整数；音频帧数据确定模块32用于将所述录音设备N_i第t帧音频数据分别与第k个用户的声纹数据一一进行比对，确定所述录音设备N_i第t帧音频数据与所述第k个用户的声纹数据的相似度得分a_i ^t _k；所述t取变1-M中的任意整数；所述k取变1-N中的任意整数。

在一种可选的实施方式中，音频帧数据确定模块32用于将所述声纹相似度的取值与所述参考因素进行加权求和计算，确定所述N个录音设备各帧音频数据对应的目标用户。

在一种可选的实施方式中，参考数据包括：所述录音设备N_i远近场因素，和所述音量因素；音频帧数据确定模块32用于将各帧音频数据的声纹相似度的取值与所述各音频数据对应的录音设备的远近场因素进行加权求和，确定第一加权值；之后将所述第一加权值与各帧音频数据的音量因素进行乘法运算，确定第二加权值；最后将所述第二加权值最大的用户作为所述N个录音设备各帧音频数据的目标用户。

在一种可选的实施方式中，所述装置还包括数据拼接模块，用于将所述N个录音设备中第一用户对应的各帧音频数据进行拼接，确定所述第一用户的讲话内容。

在介绍了本申请示例性实施方式中的音频处理方法、装置之后，接下来，介绍本申请的另一示例性实施方式的音频处理设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为***、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

在一些可能的实施方式中，根据本申请的音频处理设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的音频处理方法中的步骤。例如，处理器可以执行如图2中所示的步骤201-步骤203。

下面参照图4来描述根据本申请的这种实施方式的音频处理设备40。图4显示的音频处理设备40仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。如图4所示，音频处理设备40以通用智能终端的形式表现。音频处理设备40的组件可以包括但不限于：上述至少一个处理器41、上述至少一个存储器42、连接不同***组件(包括存储器42和处理器41)的总线43。

总线43表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、***总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。存储器42可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)421和/或高速缓存存储器422，还可以进一步包括只读存储器(ROM)423。存储器42还可以包括具有一组(至少一个)程序模块424的程序/实用工具424，这样的程序模块424包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

音频处理设备40也可以与一个或多个外部设备44(例如键盘、指向设备等)通信，和/或与使得该音频处理设备40能与一个或多个其它智能终端进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口44进行。并且，音频处理设备40还可以通过网络适配器46与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器46通过总线43与用于音频处理设备40的其它模块通信。应当理解，尽管图中未示出，可以结合音频处理设备40使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

在一些可能的实施方式中，本申请提供的音频处理方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在计算机设备上运行时，计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的音频处理方法中的步骤。例如，处理器可以执行如图2中所示的步骤201-步骤203。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于音频处理的程序产品可采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序，并可在智能终端上运行。但本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可被指令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种音频处理方法，其特征在于，包括：

获取在同一空间中存在的N个录音设备的音频数据；所述N为整数；用户与录音设备一一对应；

针对任一录音设备N_i的音频数据，确定分帧后的音频数据的任一帧的声纹相似度，以及参考因素；所述i取变1-N中的任意整数；所述参考因素包括：所述录音设备N_i远近场因素，和音量因素；所述录音设备N_i远近场因素表征所述录音设备N_i与用户之间的对应关系；其中，所述录音设备N_i用于录制用户i的音频数据，则所述录音设备N_i与所述用户i的远近场因素为第一关系值，所述录音设备N_i与除所述用户i以外的其他用户的远近场因素为第二关系值；所述第一关系值大于所述第二关系值；

将各帧音频数据的声纹相似度的取值与所述各音频数据对应的录音设备的远近场因素进行加权求和，确定第一加权值；

将所述第一加权值与各帧音频数据的音量因素进行乘法运算，确定第二加权值；

将所述第二加权值最大的用户作为所述N个录音设备各帧音频数据的目标用户。

2.根据权利要求1所述的方法，其特征在于，所述音量因素通过所述录音设备N_i各帧音频数据的音量来指示；其中，所述录音设备N_i各帧音频数据的音量通过如下方式指示：

将各帧音频数据的平均音量值与第一音量值进行比例计算，确定各帧音频数据的音量；其中，所述第一音量值为所述各帧音频数据所属的录音设备的音频数据的平均音量值。

3.根据权利要求2所述的方法，其特征在于，所述针对任一录音设备N_i的音频数据，确定分帧后的所述音频数据的任一帧的声纹相似度，包括：

针对任一录音设备N_i的音频数据，按预设时间间隔分帧处理，确定M帧音频帧数据；所述M为整数；

将所述录音设备N_i第t帧音频数据分别与第k个用户的声纹数据一一进行比对，确定所述录音设备N_i第t帧音频数据与所述第k个用户的声纹数据的相似度得分所述t取变1-M中的任意整数；所述k取变1-N中的任意整数。

4.根据权利要求1-3任一所述的方法，其特征在于，所述方法，还包括：

将所述N个录音设备中第一用户对应的各帧音频数据进行拼接，确定所述第一用户的讲话内容。

5.一种音频处理装置，其特征在于，包括：

获取模块，用于获取在同一空间中存在的N个录音设备的音频数据；所述N为整数；用户与录音设备一一对应；

音频帧数据确定模块，用于针对任一录音设备N_i的音频数据，确定分帧后的音频数据的任一帧的声纹相似度，以及参考因素；所述i取变1-N中的任意整数；所述参考因素包括：所述录音设备N_i远近场因素，和音量因素；所述录音设备Ni远近场因素表征所述录音设备Ni与用户之间的对应关系；其中，所述录音设备Ni用于录制用户i的音频数据，则所述录音设备Ni与所述用户i的远近场因素为第一关系值，所述录音设备Ni与除所述用户i以外的其他用户的远近场因素为第二关系值；所述第一关系值大于所述第二关系值；

目标用户确定模块，用于将各帧音频数据的声纹相似度的取值与所述各音频数据对应的录音设备的远近场因素进行加权求和，确定第一加权值；

6.一种音频处理设备，其特征在于，所述音频处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-4中任一项所述的音频处理方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的音频处理方法的步骤。