WO2019080639A1

WO2019080639A1 - 一种对象识别方法、计算机设备及计算机可读存储介质

Info

Publication number: WO2019080639A1
Application number: PCT/CN2018/103255
Authority: WO
Inventors: 张明远
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-10-23
Filing date: 2018-08-30
Publication date: 2019-05-02
Also published as: JP2021500616A; JP6938784B2; CN108305615A; US11289072B2; CN108305615B; KR20200012963A; KR102339594B1; EP3614377B1; EP3614377A4; US20200058293A1; EP3614377A1

Abstract

一种对象识别方法，包括如下步骤：获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息；基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；获取所述声纹特征信息对应的声音置信度；及基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。

Description

一种对象识别方法、计算机设备及计算机可读存储介质

相关申请的交叉引用

本申请要求于2017年10月23日提交中国专利局，申请号为201710992605.7、发明名称为“一种对象识别方法及其设备、存储介质、终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种对象识别方法、计算机设备及计算机可读存储介质。

背景技术

随着科技的不断发展，声纹识别作为一种生物识别技术已经发展的越来越成熟，通过声纹识别可以从多个话说人中辨别出某一说话人，也可以通过识别某一语音的声纹特征确定该语音对应的说话人身份。例如，语音识别***中的笔录***可以通过声纹区分出在某一场景中的所有说话人(例如，通过笔录***中的声纹识别技术区分出庭审这一场景中的法官和犯人)。

传统技术中，主要是通过匹配声学模型的声纹特征(例如，语调、方言、节奏以及鼻音等)进行声纹识别，然而，当存在相似度较高的声纹特征时，容易出现声纹匹配结果差别较小，难以根据声纹匹配结果区分出说话人的情况，从而影响声纹识别结果的准确性。

发明内容

根据本申请的各种实施例提供一种对象识别方法、计算机设备及计算机可读存储介质。

一种对象识别方法，执行于计算机设备，所述计算机设备包括存储器和处理器，所述方法包括：

获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息；

基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；

获取所述声纹特征信息对应的声音置信度；及

基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。

一种计算机设备，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

获取所述声纹特征信息对应的声音置信度；及

一种非易失性的计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取所述声纹特征信息对应的声音置信度；及

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种对象识别设备的硬件架构示意图；

图2是本申请实施例提供的一种对象识别设备的***框图；

图3是本申请实施例提供的一种对象识别方法的流程示意图；

图4是本申请实施例提供的另一种对象识别方法的流程示意图；

图5是本申请实施例提供的基于波束形成方式的语音分离显示示意图；

图6是本申请实施例提供的另一种对象识别方法的流程示意图；

图7是本申请实施例提供的另一种对象识别方法的流程示意图；

图8是本申请实施例提供的另一种对象识别方法的流程示意图；

图9是本申请实施例提供的一种对象识别设备的结构示意图；

图10是本申请实施例提供的另一种对象识别设备的结构示意图；

图11是本申请实施例提供的对象信息获取模块的结构示意图；

图12是本申请实施例提供的置信度获取模块的结构示意图；

图13是本申请实施例提供的结果获取模块的结构示意图；

图14是本申请实施例提供的第二结果获取单元的结构示意图；

图15是本申请实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的对象识别方法可以应用于在多声源环境中对声源对象进行声纹识别，辨别出目标对象的场景中，例如：对象识别设备通过获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息，然后基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；最后获取所述声纹特征信息对应的声音置信度，基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，增加了获取到的对象识别结果的准确性。

本申请实施例涉及的对象识别设备可以是平板电脑、智能手机、掌上电脑以及移动互联网设备(MID)等其他可以集成麦克风阵列或可以接收麦克风阵列发送的声源方位信息且具备声纹识别功能的终端设备。所述对象识别设备的硬件架构可以如图1所示，其中，音频处理器用于降噪以及定位方向，***处理器用于连接云端并进行声纹特征分析，存储***用于存储对象识别的应用程序。所述对象识别设备的***框图可以如图2所示，其中，麦克风阵列可以识别不同方位的声源对应的语音信息，并对不同的声源进行角度定位。

下面将结合附图3-附图8，对本申请实施例提供的对象识别方法进行详细介绍。

请参见图3，为本申请实施例提供了一种对象识别方法的流程示意图。如图3所示，在一个实施例中，对象识别方法可以包括以下步骤S101-步骤S103。

S101，获取当前语音环境中目标对象的语音信息和目标对象的方位信息。

具体的，对象识别设备可以基于麦克风阵列获取当前语音环境中目标对象的语音信息，并基于麦克风阵列获取目标对象的方位信息。

在一个实施例中，目标对象可以是当前语音环境中的有效声源对象(例如，庭审案件时的法官、律师、被告以及原告)，需要说明的是，对象识别设备在当前语音环境中所获取的语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如，庭审案件时庭下听众的语音信息或者其他物体发出的噪音等)，对象识别设备获取到当前语音环境中的语音信息集合后，可以对语音信息结合进行筛选处理，获取目标对象的语音信息。

在一个实施例中，麦克风阵列可以通过多个麦克风获取从不同方位采集的同一个目标对象的语音信息，由于多个麦克风处于麦克风阵列中的不同位置，因此每个麦克风可以依据声音的大小获取该目标对象的相位信息，根据所获得的相位信息通过波束形成的方式计算出该目标对象的方位信息(即确定该目标对象在当前语音环境中的位置信息)。

S102，基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息。

具体的，对象识别设备可以基于训练后的声纹匹配模型对语音信息进行声纹特征提取。

在一个实施例中，声纹匹配模型可以是对预先采集的声纹训练语音集合中的各声纹训练语音和声纹训练语音对应的样本特征信息采用某种训练算法(例如，神经网络方法、隐马尔可夫方法或者VQ聚类方法等)进行训练后建立的模型。

在一个实施例中，声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象，并不限定特定的目标对象。声纹训练语音对应的样本特征信息可以是声纹训练语音的声纹特征信息。

在一个实施例中，对象识别设备可以获取经声纹特征提取后得到的与语音信息对应的声纹特征信息。可以理解的是，声纹特征信息可以是目标对象的语音信息中的区别特征信息，例如，可以是频谱、倒频谱、共振峰、基音、反射系数等信息。

S103，获取声纹特征信息对应的声音置信度。

具体的，对象识别设备可以获取声纹特征信息对应的声音置信度。可以理解的是，声音置信度可以指示声纹特征信息与目标对象间的对应关系的可信程度。例如，当声音置信度为90％时，可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90％。

在一个实施例中，对象识别设备可以将声纹特征信息与声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值，然后根据匹配度值确定声纹特征信息对应的声音置信度。例如，声纹特征信息与声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后，检测到声纹训练语音A的样本特征信息与声纹特征信息的匹配度最高，且最高值为90％，则对象识别设备可以确定声纹特征信息对应的声音置信度为90％。

S104，基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。

具体地，对象识别设备可以采用声纹特征信息生成对目标对象的对象识别结果，对象识别结果可以指示目标对象的语音信息所属的目标对象。例如，当前语音环境中存在至少两个目标对象，对象识别设备可以通过至少两个目标对象的声纹特征信息将至少两个目标对象的语音信息进行归类(例如，将庭审时将录音***中所有目标对象的语音分类为法官、被告和原告等)。

在一个实施例中，当声纹特征信息中存在两个相似的声纹特征时，对象识别设备可能存在不能准确地通过对上述两个相似的声纹特征得出目标对象的对象识别结果的情况。

对于上述情况，对象识别设备可以基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。具体的，对象识别设备可以基于声音置信度和预设声音置信度阈值的关系，确定用于识别目标对象的对象识别结果的对象识别信息，再根据对象识别信息获取对象识别结果，可以理解的是，对象识别信息可以是方位信息也可以是声纹特征信息。

在一个实施例中，对象识别设备可以在声音置信度大于或等于第一置信度阈值时，将声纹特征信息确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果(即采用声纹特征信息辨别目标对象，而方位信息不参与识别仅用作声源定位)；在声音置信度大于或等于第二置信度阈值且小于第一置信度阈值时，将方位信息和声纹特征信息共同确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果(即采用是声纹特征信息进行声纹辨别目标对象，同时采用方位信息定位的声源方向进一步识别目标对象)；在声音置信度小于第二置信度阈值时，将述方位信息确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果(即仅采用方位信息声源定位后的定位方向辨别目标对象)。

上述实施例中，通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息，然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息，最后获取声纹特征信息对应的声音置信度，基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，增加了获取到的对象识别结果的准确性。

需要说明的是，由于声纹识别可以是对多个说话人进行辨别也可以是对某一说话人进行身份确认，对于涉及说话人辨别的执行过程请参见下述图4所示实施例，对于涉及说话人身份确认的执行过程请参见下述图8所示实施例。

请参见图4，为本申请实施例提供了另一种对象识别方法的流程示意图。如图4所示，在一个实施例中，对象识别方法可以包括以下步骤。

S201，获取声纹训练语音集合，基于声纹训练语音集合中各声纹训练语音和声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。

具体地，在进行声纹识别之前，对象识别设备可以获取声纹训练语音集合，并基于声纹训练语音集合中各声纹训练语音和声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。可以理解的是，对象识别设备可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练。声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象，并不限定特定的目标对象，声纹训练语音对应的样本特征信息可以是声纹训练语音的声纹特征信息。

S202，基于麦克风阵列获取当前语音环境中语音信息集合，并对语音信息集合进行筛选处理，获取经筛选处理后的目标对象的语音信息。

具体的，对象识别设备可以基于麦克风阵列获取当前语音环境中语音信息集合.可以理解的是，语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如，庭审案件时庭下听众的语音信息或者其他物体发出的噪音等)，其中目标对象可以是当前语音环境中的有效声源对象(例如，庭审案件时的法官、律师、被告以及原告)。

在一个实施例中，由于语音信息集合中的语音信息并不全是目标对象的语音信息，对象识别设备可以对语音信息集合进行筛选处理，获取经筛选处理后的目标对象的语音信息。其中筛选处理可以是通过降噪处理滤除噪音、去除回音或者根据待处理的目标对象的语音信息的特征(声音响度、音色或其他特征信息)滤除非目标对象的语音，也可以是其他的语音过滤处理。

S203，获取麦克风阵列在采集语音信息集合时的相位信息，基于相位信息所指示的语音方位确定目标对象的方位信息。

可以理解的是，麦克风阵列在采集语音信息集合的同时可以获取到语音信息集合中各语音信息对应的相位信息。具体的，对象识别设备可以获取相位信息，并可以基于相位信息所指示的语音方位确定目标对象的方位信息。在一个实施例中，相位信息中的相位可以指示语音信息的语音波形在某一时刻的标度，可以描述语音信号波形变化的度量，通常以度(角度)作为单位，也称作相角。

在一个实施例中，麦克风阵列可以通过多个麦克风获取从不同方位采集的同一个目标对象的语音信息，由于多个麦克风处于麦克风阵列中的不同位置，因此每个麦克风可以依据声音的大小获取该目标对象的相位信息，根据所获得的相位信息通过波束形成的方式计算出该目标对象的方位信息(即确定该目标对象在当前语音环境中的位置信息)。其中，波束形成的方式如图5所示，可以是通过向不同方向的声源分别形成拾音波束，并且抑制其他方向的声音，来进行语音提取或分离。

S204，基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息。

具体的，对象识别设备可以基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息。可以理解的是，声纹特征信息可以是目标对象的语音信息中的区别特征信息，例如，可以是频谱、倒频谱、共振峰、基音、反射系数等信息。

S205，将声纹特征信息与声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值。

具体的，对象识别设备可以将声纹特征信息与声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值。

在一个实施例中，不同人的声纹特征是不一样的，即使是同一个人的声纹特征也会随说话人自身的身体状况或所处的环境而不同。因此，在将声纹特征信息的声纹特征与声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配时，所得到的匹配度值也会有大有小，但可以通过比较所有匹配度值从中获取特征匹配度最高时的匹配度值。

S206，根据匹配度值确定声纹特征信息对应的声音置信度。

具体的，对象识别设备可以根据匹配度值确定声纹特征信息对应的声音置信度。可以理解的是，声音置信度可以指示声纹特征信息与目标对象间的对应关系的可信程度，例如，当声音置信度为90％时，可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90％。

在一个实施例中，对象识别设备可以直接将匹配度值确定声纹特征信息对应的声音置信度。例如，声纹特征信息与声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后，检测到声纹训练语音A的样本特征信息与声纹特征信息的匹配度最高，且最高值为90％，则对象识别设备可以确定声纹特征信息对应的声音置信度为90％。

S207，基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。

在一个实施例中，对象识别设备可以采用声纹特征信息生成对目标对象的对象识别结果。其中，对象识别结果可以指示目标对象的语音信息是属于目标对象的。例如，当前语音环境中存在至少两个目标对象，对象识别设备可以通过至少两个目标对象的声纹特征信息将至少两个目标对象的语音信息进行归类(例如，将庭审时将录音***中所有目标对象的语音分类为法官、被告和原告等)。

对于上述情况，对象识别设备可以基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。可以理解的是，预设声音置信度值可以是根据多次识别过程中的经验所得，可以包括至少两个预设的声音置信度阈值。对象识别信息可以用于识别目标对象，可以包括方位信息或声纹特征信息。

在一个实施例中，基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果可以包括以下几个步骤，如图6所示：

S301，当声音置信度大于或等于第一置信度阈值时，将声纹特征信息确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。

具体的，当声音置信度大于或等于第一置信度阈值时，可以代表声纹特征信息与目标对象间的对应关系的可信程度较大，对象识别设备可以将声纹特征信息确定为所采用的对象识别信息，然后采用声纹特征信息辨别目标对象，此时的方位信息不参与识别仅用作声源定位。

在一个实施例中，可以将第一置信度阈值设为90％、95％或者其他根据实际情况所确定的值。

S302，当声音置信度大于或等于第二置信度阈值且小于第一置信度阈值时，将方位信息和声纹特征信息共同确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。

具体的，当声音置信度大于或等于第二置信度阈值且小于第一置信度阈值时，可以代表声纹特征信息与目标对象间的对应关系的可信程度处于平均水平。为更准确的识别目标对象，对象识别设备可以将方位信息和声纹特征信息共同确定为所采用的对象识别信息，然后采用声纹特征信息进行声纹识别初步识别目标对象，同时采用方位信息定位的声源方向进一步识别目标对象。

在一个实施例中，可以将第一置信度阈值设为90％、95％或者其他根据实际情况所确定的值，可以将第二置信度阈值设置为50％、55％、60％或者其他根据实际情况所确定的可以代表平均值的数据。

S303，当声音置信度小于第二置信度阈值时，将述方位信息确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。

具体的，当声音置信度小于第二置信度阈值时，可以代表声纹特征信息与目标对象间的对应关系的可信程度较低，采用声纹特征信息所识别的目标对象的准确率较低，对象识别设备可以将述方位信息确定为所采用的对象识别信息，然后采用方位信息声源定位后的定位方向辨别目标对象，实现同一语音环境下的人声分离。可以理解的是，采用方位信息作为对象识别信息时，在识别的过程中可以存在允许范围内的误差。

上述实施例中，通过声音置信度确定用于对象识别的对象识别信息，避免了在对象识别的过程中对非必要信息的识别过程，提高了对象识别的效率。

在一个实施例中，当声音置信度大于或等于第二置信度阈值且小于第一置信度阈值时，将方位信息和声纹特征信息共同确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果可以包括以下几个步骤，如图7所示：

S401，当声音置信度大于或等于第二置信度阈值、且小于第一置信度阈值时，将方位信息和声纹特征信息共同确定为所采用的对象识别信息。

可以理解的是，当声音置信度大于或等于第二置信度阈值、且小于第一置信度阈值时，可以指示声纹特征信息与目标对象间的对应关系的可信程度处于平均水平，即根据声纹特征信息识别目标对象的对象识别结果时，所确定的对象识别结果的可信程度一般，此时，对象识别设备可以将方位信息和声纹特征信息共同确定为所采用的对象识别信息。

S402，根据声纹特征信息获取目标对象的候选识别结果。

具体的，对象识别设备将方位信息和声纹特征信息共同确定为所采用的对象识别信息后，可以根据声纹特征信息获取目标对象的候选识别结果。在一个实施例中，当目标对象的声纹特征信息具有明显区别时，候选识别结果可以是最终的目标对象的对象识别结果，即对象识别设备可以将多个语音信息进行准确归类。当目标对象中存在至少两个声纹特征信息区别不明显的目标对象时，候选识别结果对应的目标对象的语言信息的归类是不准确的。例如，法官A和犯人B的声纹特征信息相似度很大，对象识别设备在对二者进行语音信息归类时，可能将法官A的语音信息归类至犯人B的语音信息，或者将犯人B的语音信息归类至法官A的语音信息。

S403，采用方位信息从候选识别结果中定位目标对象的对象识别结果。

具体的，在对象识别设备根据声纹特征信息初步识别目标对象的候选识别结果的同时，对象识别设备可以采用方位信息定位的声源方向从候选识别结果中进一步定位目标对象的对象识别结果，即对象识别设备可以对候选识别结果进行调整并最终确定目标对象的对象识别结果。例如，法官A和犯人B的声纹特征信息相似度较大，对象识别设备可以根据法官A和犯人B所在的位置，从候选识别结果即归类不准确的语音信息中进一步将二者的语音信息进行准确归类。

上述实施例中，通过方位信息和声纹特征信息同时识别目标对象的对象识别结果，进一步增加了所获得的对象识别结果的准确性。

上述对象识别方法，通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息，然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息，最后获取声纹特征信息对应的声音置信度，基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，增加了获取到的对象识别结果的准确性；通过声音置信度确定用于对象识别的对象识别信息，避免了在对象识别的过程中对非必要信息的识别过程，提高了对象识别的效率；通过方位信息和声纹特征信息同时识别目标对象的对象识别结果，进一步增加了所获得的对象识别结果的准确性。

请参见图8，为本申请实施例提供了另一种对象识别方法的流程示意图。如图8所示，本申请实施例的方法可以包括以下步骤。

S501，获取包含目标对象的训练语音的声纹训练语音集合，基于声纹训练语音集合中各声纹训练语音和声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。

可以理解的是，通过声纹识别可以确认一个语言信息对应的说话人的身份信息，与通过声纹识别从多个语言信息中辨别目标说话人的不同之处在于声纹匹配模型的建立过程。

具体的，对象识别设备可以获取包含目标对象的训练语音的声纹训练语音集合，并基于声纹训练语音集合中各声纹训练语音和声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。可以理解的是，对象识别设备可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练，声纹训练语音集合中的语音对应的语音采集者与步骤S201中的不同，此时声纹训练语音集合中的语音对应的语音采集者必须包含目标对象，声纹训练语音对应的样本特征信息可以是声纹训练语音的声纹特征信息。

S502，基于麦克风阵列获取当前语音环境中语音信息集合，并对语音信息集合进行筛选处理，获取经筛选处理后的目标对象的语音信息。

S503，获取麦克风阵列在采集语音信息集合时的相位信息，基于相位信息所指示的语音方位确定目标对象的方位信息。

S504，基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息。

S505，将声纹特征信息与声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值。

S506，根据匹配度值确定声纹特征信息对应的声音置信度。

S507，基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果；

可以理解的是，对象识别设备可以采用声纹特征信息生成对目标对象的对象识别结果，对象识别结果可以指示目标对象的语音信息对应的目标对象的身份信息。例如，当前语音环境中存在至少两个目标对象，对象识别设备可以通过至少两个目标对象的声纹特征信息确定至少两个目标对象的语音信息对应的目标对象，并确定目标对象的身份信息(例如，将庭审时将录音***中所有目标对象的语音分类为法官、被告和原告后可以确定声音A是属于法官的、声音B属于被告、声音C属于原告等。)

对于上述情况，对象识别设备可以基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。

在一个实施例中，基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果可以包括以下几个步骤，具体可以参见图6所示的过程。

具体的，当声音置信度大于或等于第一置信度阈值时，可以代表根据声纹特征信息确认目标对象的身份信息的可信程度较大，对象识别设备可以将声纹特征信息确定为所采用的对象识别信息，然后采用声纹特征信息识别目标对象的身份信息，此时的方位信息不参与身份确认仅用作声源定位。

具体的，当声音置信度大于或等于第二置信度阈值且小于第一置信度阈值时，可以代表根据声纹特征信息确认目标对象的身份信息的可信程度处于平均水平。为更准确的识别目标对象的身份，对象识别设备可以将方位信息和声纹特征信息共同确定为所采用的对象识别信息，然后采用是声纹特征信息进行声纹识别，初步确定目标对象的身份，同时采用方位信息定位的声源方向进一步识别目标对象的身份。

具体的，当声音置信度小于第二置信度阈值时，可以代表根据声纹特征信息确认目标对象的身份信息的可信程度较低，采用声纹特征信息所识别的目标对象身份的准确率较低，对象识别设备可以将述方位信息确定为所采用的对象识别信息，然后采用方位信息声源定位后的定位方向确定目标对象的身份，实现同一语音环境下的人声分离。可以理解的是，采用方位信息作为对象识别信息时，在识别的过程中可以存在允许范围内的误差。需要说明的是，在此种情况下当前语音环境需要是特定的语音环境，例如，目标对象的位置都是确定的环境(例如，庭审中，法官和犯人的位置是确定的)

在一个实施例中，当声音置信度大于或等于第二置信度阈值且小于第一置信度阈值时，将方位信息和声纹特征信息共同确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果可以包括以下几个步骤，具体可以参见图7所示的过程：

S402，根据声纹特征信息获取目标对象的候选识别结果。

具体的，对象识别设备将方位信息和声纹特征信息共同确定为所采用的对象识别信息后，可以根据声纹特征信息获取目标对象的候选识别结果。在一个实施例中，当目标对象的声纹特征信息具有明显区别时，候选识别结果可以是最终的目标对象的对象识别结果，即对象识别设备可以从多个语音信息中明确识别出目标对象的语音信息；当目标对象中存在至少两个声纹特征信息区别不明显的目标对象时，候选识别结果所指示的目标对象与语音信息之间的对应关系可能是不准确的，例如，法官A和犯人B的声纹特征信息相似度很大，对象识别设备在在庭审的多个语音信息中识别法官A的语音信息时，可能将犯人B的语音信息错认为是法官A的，也可能将将法官A的语音信息错认为是犯人B的。

具体的，在对象识别设备根据声纹特征信息初步识别目标对象的候选识别结果的同时，对象识别设备可以采用方位信息定位的声源方向从候选识别结果中进一步定位目标对象的对象识别结果，即对象识别设备可以对候选识别结果进行调整并最终确定目标对象的对象识别结果。例如，法官A和犯人B的声纹特征信息相似度较大，候选识别结果指示法官A的语音信息对应犯人B，结合法官A的位置信息对象识别设备可以将法官A的语音信息对应法官A。

下面将结合附图9-附图14，对本申请实施例提供的对象识别设备进行详细介绍。需要说明的是，附图9-附图14所示的设备，用于执行本申请图3-图8所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请图3-图8所示的实施例。

请参见图9，为本申请实施例提供了一种对象识别设备的结构示意图。如图9所示，本申请实施例的对象识别设备1可以包括：对象信息获取模块11、特征信息获取模块12、置信度获取模块13和结果获取模块14。

对象信息获取模块11，用于获取当前语音环境中目标对象的语音信息和目标对象的方位信息。

具体实现中，对象信息获取模块11可以基于麦克风阵列获取当前语音环境中目标对象的语音信息，并基于麦克风阵列获取目标对象的方位信息。可以理解的是，目标对象可以是当前语音环境中的有效声源对象(例如，庭审案件时的法官、律师、被告以及原告)。需要说明的是，对象信息获取模块11在当前语音环境中所获取的语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如，庭审案件时庭下听众的语音信息或者其他物体发出的噪音等)，对象信息获取模块11获取到当前语音环境中的语音信息集合后，可以对语音信息结合进行筛选处理，获取目标对象的语音信息。

在本申请实施例中，麦克风阵列可以通过多个麦克风获取从不同方位采集的同一个目标对象的语音信息，由于多个麦克风处于麦克风阵列中的不同位置，因此每个麦克风可以依据声音的大小获取该目标对象的相位信息，根据所获得的相位信息通过波束形成的方式计算出该目标对象的方位信息(即确定该目标对象在当前语音环境中的位置信息)。

特征信息获取模块12，用于基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息。

在一个实施例中，特征信息获取模块12可以基于训练后的声纹匹配模型对语音信息进行声纹特征提取。可以理解的是，声纹匹配模型可以是对预先采集的声纹训练语音集合中的各声纹训练语音和声纹训练语音对应的样本特征信息采用某种训练算法(例如，神经网络方法、隐马尔可夫方法或者VQ聚类方法等)进行训练后建立的模型。可以理解的是，声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的目标对象，声纹训练语音对应的样本特征信息可以是声纹训练语音的声纹特征信息。

进一步的，特征信息获取模块12可以获取经声纹特征提取后语音信息对应的声纹特征信息。可以理解的是，声纹特征信息可以是目标对象的语音信息中的区别特征信息，例如，可以是频谱、倒频谱、共振峰、基音、反射系数等信息。

置信度获取模块13，用于获取声纹特征信息对应的声音置信度。

在一个实施例中，置信度获取模块13可以获取声纹特征信息对应的声音置信度。可以理解的是，声音置信度可以指示声纹特征信息与目标对象间的对应关系的可信程度，例如，当声音置信度为90％时，可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90％。

在一个实施例中，置信度获取模块13可以将声纹特征信息与声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值，然后根据匹配度值确定声纹特征信息对应的声音置信度。例如，声纹特征信息与声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后，检测到声纹训练语音A的样本特征信息与声纹特征信息的匹配度最高，且最高值为90％，则对象识别设备可以确定声纹特征信息对应的声音置信度为90％。

结果获取模块14，用于采用方位信息、声纹特征信息以及声音置信度获取目标对象的对象识别结果。

可以理解的是，对象识别设备1可以采用声纹特征信息生成对目标对象的对象识别结果，对象识别结果可以指示目标对象的语音信息所属的目标对象。例如，当前语音环境中存在至少两个目标对象，对象识别设备可以通过至少两个目标对象的声纹特征信息将至少两个目标对象的语音信息进行归类(例如，将庭审时将录音***中所有目标对象的语音分类为法官、被告和原告等)。

在一个实施例中，当声纹特征信息中存在两个相似的声纹特征时，对象识别设备1可能存在不能准确地通过对上述两个相似的声纹特征得出目标对象的对象识别结果的情况。

对于上述情况，结果获取模块14可以基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。具体实现中，结果获取模块14可以基于声音置信度和预设声音置信度阈值的关系，确定用于识别目标对象的对象识别结果的对象识别信息，再根据对象识别信息获取对象识别结果。可以理解的是，对象识别信息可以是方位信息也可以是声纹特征信息。

在本申请的具体实现方式中，结果获取模块14可以在声音置信度大于或等于第一置信度阈值时，将声纹特征信息确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果(即采用声纹特征信息辨别目标对象，而方位信息不参与识别仅用作声源定位)。在声音置信度大于或等于第二置信度阈值且小于第一置信度阈值时，将方位信息和声纹特征信息共同确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果(即采用是声纹特征信息进行声纹辨别目标对象，同时采用方位信息定位的声源方向进一步识别目标对象)。在声音置信度小于第二置信度阈值时，将述方位信息确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果(即仅采用方位信息声源定位后的定位方向辨别目标对象)。

在本申请实施例中，通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息，然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息，最后获取声纹特征信息对应的声音置信度，基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，增加了获取到的对象识别结果的准确性。

需要说明的是，由于声纹识别可以是对多个说话人进行辨别也可以是对某一说话人进行身份确认，对于涉及说话人辨别的执行过程请参见下述图10所示实施例的第一种实现方式，对于涉及说话人身份确认的执行过程请参见下述图10所示实施例的第二种实现方式。

请参见图10，为本申请实施例提供了另一种对象识别设备的结构示意图。如图10所示，本申请实施例的对象识别设备1可以包括：对象信息获取模块11、特征信息获取模块12、置信度获取模块13、结果获取模块14和模型生成模块15，在图10所示实施例的第一种实现方式中：

模型生成模块15，用于获取声纹训练语音集合，基于声纹训练语音集合中各声纹训练语音和声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。

在一个实施例中，在进行声纹识别之前模型生成模块15可以获取声纹训练语音集合，并基于声纹训练语音集合中各声纹训练语音和声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。可以理解的是，模型生成模块15可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练，声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的目标对象，声纹训练语音对应的样本特征信息可以是声纹训练语音的声纹特征信息。

在一个实施例中，对象信息获取模块11可以获取当前语音环境中目标对象的语音信息和目标对象的方位信息。

请一并参考图11，为本申请实施例提供了对象信息获取模块的结构示意图。如图11所示，对象信息获取模块11可以包括：

信息获取单元111，用于基于麦克风阵列获取当前语音环境中语音信息集合，并对语音信息集合进行筛选处理，获取经筛选处理后的目标对象的语音信息。

在一个实施例中，信息获取单元111可以基于麦克风阵列获取当前语音环境中语音信息集合。可以理解的是，语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如，庭审案件时庭下听众的语音信息或者其他物体发出的噪音等)，其中目标对象可以是当前语音环境中的有效声源对象(例如，庭审案件时的法官、律师、被告以及原告)。

在一个实施例中，由于语音信息集合中的语音信息并不全是目标对象的语音信息，信息获取单元111可以对语音信息集合进行筛选处理，获取经筛选处理后的目标对象的语音信息。其中，筛选处理具体可以是通过降噪处理滤除噪音、去除回音或者根据待处理的目标对象的语音信息的特征(声音响度、音色或其他特征信息)滤除非目标对象的语音也可以是其他的语音过滤处理。

信息确定单元112，用于获取麦克风阵列在采集语音信息集合时的相位信息，基于相位信息所指示的语音方位确定目标对象的方位信息。

在一个实施例中，麦克风阵列在采集语音信息集合的同时可以获取到语音信息集合中各语音信息对应的相位信息。具体实现中，信息确定单元112可以获取相位信息，并可以基于相位信息所指示的语音方位确定目标对象的方位信息。可以理解的是，相位信息中的相位可以指示语音信息的语音波形在某一时刻的标度，可以描述语音信号波形变化的度量，通常以度(角度)作为单位，也称作相角。

在一个实施例中，特征信息获取模块12可以基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹匹特征提取语音信息对应的声纹特征信息。可以理解的是，声纹特征信息可以是目标对象的语音信息中的区别特征信息，例如，可以是频谱、倒频谱、共振峰、基音、反射系数等信息。

具体实现中，置信度获取模块13可以获取声纹特征信息对应的声音置信度。

请一并参考图12，为本申请实施例提供了置信度获取模块的结构示意图。如图12所示，置信度获取模块13可以包括：

匹配度值获取单元131，用于将声纹特征信息与声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值。

在一个实施例中，匹配度值获取单元131可以将声纹特征信息与声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值。可以理解的是，不同人的声纹特征是不一样的，即使是同一个人的声纹特征也会随说话人自身的身体状况或所处的环境而不同，因此，在将声纹特征信息的声纹特征与声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配时，所得到的匹配度值也会有大有小，但可以通过比较所有匹配度值从中获取特征匹配度最高时的匹配度值。

置信度确定单元132，用于根据匹配度值确定声纹特征信息对应的声音置信度。

在一个实施例中，置信度确定单元132可以根据匹配度值确定声纹特征信息对应的声音置信度。可以理解的是，声音置信度可以指示声纹特征信息与目标对象间的对应关系的可信程度，例如，当声音置信度为90％时，可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90％。

在一个实施例中，置信度确定单元132可以直接将匹配度值确定声纹特征信息对应的声音置信度。例如，声纹特征信息与声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后，检测到声纹训练语音A的样本特征信息与声纹特征信息的匹配度最高，且最高值为90％，则对象识别设备可以确定声纹特征信息对应的声音置信度为90％。

结果获取模块14，具体用于基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。

在一个实施例中，对象识别设备1可以采用声纹特征信息生成对目标对象的对象识别结果。其中，对象识别结果可以指示目标对象的语音信息是属于目标对象的。例如，当前语音环境中存在至少两个目标对象，对象识别设备可以通过至少两个目标对象的声纹特征信息将至少两个目标对象的语音信息进行归类(例如，将庭审时将录音***中所有目标对象的语音分类为法官、被告和原告等)。

对于上述情况，结果获取模块14可以基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。可以理解的是，预设声音置信度值可以是根据多次识别过程中的经验所得，可以包括至少两个预设的声音置信度阈值。对象识别信息可以用于识别目标对象，可以包括方位信息或声纹特征信息。

在本申请实施例一种具体实现方式中，结果获取模块14可以包括一下几个单元，如图13所示：

第一结果获取单元141，用于当声音置信度大于或等于第一置信度阈值时，将声纹特征信息确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。

在一个实施例中，当声音置信度大于或等于第一置信度阈值时，可以代表声纹特征信息与目标对象间的对应关系的可信程度较大，第一结果获取单元141可以将声纹特征信息确定为所采用的对象识别信息，然后采用声纹特征信息辨别目标对象，此时的方位信息不参与识别仅用作声源定位。

第二结果获取单元142，用于当声音置信度大于或等于第二置信度阈值且小于第一置信度阈值时，将方位信息和声纹特征信息中确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。

在一个实施例中，当声音置信度大于或等于第二置信度阈值且小于第一置信度阈值时，可以代表声纹特征信息与目标对象间的对应关系的可信程度处于平均水平，为更准确的识别目标对象，第二结果获取单元142可以将方位信息和声纹特征信息共同确定为所采用的对象识别信息，然后采用声纹特征信息进行声纹识别初步识别目标对象，同时采用方位信息定位的声源方向进一步识别目标对象。

在一个实施例中，可以将第一置信度阈值设为90％、95％或者其他根据实际情况所确定的值，可以将第二置信度阈值设置为50％、55％或者60％等其他根据实际情况所确定的可以代表平均值的数据。

第三结果获取单元143，用于当声音置信度小于第二置信度阈值时，将述方位信息确定为所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。

在一个实施例中，当声音置信度小于第二置信度阈值时，可以代表声纹特征信息与目标对象间的对应关系的可信程度较低，采用声纹特征信息所识别的目标对象的准确率较低。第三结果获取单元143可以将述方位信息确定为所采用的对象识别信息，然后采用方位信息声源定位后的定位方向辨别目标对象，实现同一语音环境下的人声分离。可以理解的是，采用方位信息作为对象识别信息时，在识别的过程中可以存在允许范围内的误差。

在本申请实施例中，通过声音置信度确定用于对象识别的对象识别信息，避免了在对象识别的过程中对非必要信息的识别过程，提高了对象识别的效率。

在一个实施例中，第二结果获取单元142可以包括一下几个子单元，如图14所示：

信息确定子单元1421，用于当声音置信度大于或等于第二置信度阈值、且小于第一置信度阈值时，将方位信息和声纹特征信息共同确定为所采用的对象识别信息。

在一个实施例中，当声音置信度大于或等于第二置信度阈值、且小于第一置信度阈值时，可以指示声纹特征信息与目标对象间的对应关系的可信程度处于平均水平，即根据声纹特征信息识别目标对象的对象识别结果时，所确定的对象识别结果的可信程度一般，此时，信息确定子单元1421可以将方位信息和声纹特征信息共同确定为所采用的对象识别信息。

候选结果获取子单元1422，用于根据声纹特征信息获取目标对象的候选识别结果。

在一个实施例中，信息确定子单元1421将方位信息和声纹特征信息共同确定为所采用的对象识别信息后，候选结果获取子单元1422可以根据声纹特征信息获取目标对象的候选识别结果。可以理解的是，当目标对象的声纹特征信息具有明显区别时，候选识别结果可以是最终的目标对象的对象识别结果，即对象识别设备可以将多个语音信息进行准确归类。当目标对象中存在至少两个声纹特征信息区别不明显的目标对象时，候选识别结果对应的目标对象的语言信息的归类是不准确的。例如，法官A和犯人B的声纹特征信息相似度很大，对象识别设备在对二者进行语音信息归类时，可能将法官A的语音信息归类至犯人B的语音信息，或者将犯人B的语音信息归类至法官A的语音信息。

结果获取子单元1423，用于采用方位信息从候选识别结果中定位目标对象的对象识别结果。

在一个实施例中，在候选结果获取子单元1422根据声纹特征信息初步识别目标对象的候选识别结果的同时，结果获取子单元1423可以采用方位信息定位的声源方向从候选识别结果中进一步定位目标对象的对象识别结果，即结果获取子单元1423可以对候选识别结果进行调整并最终确定目标对象的对象识别结果。例如，法官A和犯人B的声纹特征信息相似度较大，对象识别设备可以根据法官A和犯人B所在的位置，从候选识别结果即归类不准确的语音信息中进一步将二者的语音信息进行准确归类。

在本申请实施例中，通过方位信息和声纹特征信息同时识别目标对象的对象识别结果，进一步增加了所获得的对象识别结果的准确性。

在本申请实施例中，通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息，然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息，最后获取声纹特征信息对应的声音置信度，基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，增加了获取到的对象识别结果的准确性；通过声音置信度确定用于对象识别的对象识别信息，避免了在对象识别的过程中对非必要信息的识别过程，提高了对象识别的效率；通过方位信息和声纹特征信息同时识别目标对象的对象识别结果，进一步增加了所获得的对象识别结果的准确性。

在图10所示实施例的第二种实现方式中：

模型生成模块15，具体用于获取包含目标对象的训练语音的声纹训练语音集合，基于声纹训练语音集合中各声纹训练语音和声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。

在一个实施例中，模型生成模块15可以获取包含目标对象的训练语音的声纹训练语音集合，基于声纹训练语音集合中各声纹训练语音和声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。可以理解的是，模型生成模块15可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练，声纹训练语音集合中的语音对应的语音采集者与图8所示实施例的第一种实现方式中模型生成模块15中的不同，此时声纹训练语音集合中的语音对应的语音采集者必须包含目标对象，声纹训练语音对应的样本特征信息可以是声纹训练语音的声纹特征信息。

在一个实施例中，信息获取单元111获取目标对象的语音信息的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

具体实现中，信息确定单元112获取目标对象的方位信息的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

具体实现中，特征信息获取模块12获取声纹特征信息的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

具体实现中，匹配度值获取单元131获取匹配度值的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

具体实现中，置信度确定单元132确定声音置信度的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

可以理解的是，对象识别设备1可以采用声纹特征信息生成对目标对象的对象识别结果，对象识别结果可以指示目标对象的语音信息对应的目标对象的身份信息。例如，当前语音环境中存在至少两个目标对象，对象识别设备1可以通过至少两个目标对象的声纹特征信息确定至少两个目标对象的语音信息对应的目标对象，并确定目标对象的身份信息(例如，将庭审时将录音***中所有目标对象的语音分类为法官、被告和原告后可以确定声音A是属于法官的、声音B属于被告、声音C属于原告等。)

对于上述情况，结果获取模块14可以基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息，并根据对象识别信息获取目标对象的对象识别结果。

在本申请实施例一种具体实现方式中，结果获取模块14可以包括一下单元如图13所示：

在一个实施例中，当声音置信度大于或等于第一置信度阈值时，可以代表根据声纹特征信息确认目标对象的身份信息的可信程度较大，第一结果获取单元141可以将声纹特征信息确定为所采用的对象识别信息，然后采用声纹特征信息识别目标对象的身份信息，此时的方位信息不参与身份确认仅用作声源定位。

在一个实施例中，当声音置信度大于或等于第二置信度阈值且小于第一置信度阈值时，可以代表根据声纹特征信息确认目标对象的身份信息的可信程度处于平均水平，为更准确的识别目标对象的身份。第二结果获取单元142可以将方位信息和声纹特征信息共同确定为所采用的对象识别信息，然后采用是声纹特征信息进行声纹识别，初步确定目标对象的身份，同时采用方位信息定位的声源方向进一步识别目标对象的身份。

在一个实施例中，当声音置信度小于第二置信度阈值时，可以代表根据声纹特征信息确认目标对象的身份信息的可信程度较低，采用声纹特征信息所识别的目标对象身份的准确率较低。第三结果获取子单元1323可以将述方位信息确定为所采用的对象识别信息，然后采用方位信息声源定位后的定位方向确定目标对象的身份，实现同一语音环境下的人声分离。可以理解的是，采用方位信息作为对象识别信息时，在识别的过程中可以存在允许范围内的误差。需要说明的是，在此种情况下当前语音环境需要是特定的语音环境，例如，目标对象的位置都是确定的环境(例如，庭审中，法官和犯人的位置是确定的)

在本申请实施例一种具体实现方式中，结果获取模块14可以包括一下子单元如图14所示：

具体实现中，信息确定子单元1421确定对象识别信息的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

具体实现中，信息确定子单元1421将方位信息和声纹特征信息共同确定为所采用的对象识别信息后，候选结果获取子单元1422可以根据声纹特征信息获取目标对象的候选识别结果。可以理解的是，当目标对象的声纹特征信息具有明显区别时，候选识别结果可以是最终的目标对象的对象识别结果，即对象识别设备可以从多个语音信息中明确识别出目标对象的语音信息。当目标对象中存在至少两个声纹特征信息区别不明显的目标对象时，候选识别结果所指示的目标对象与语音信息之间的对应关系可能是不准确的。例如，法官A和犯人B的声纹特征信息相似度很大，对象识别设备在在庭审的多个语音信息中识别法官A的语音信息时，可能将犯人B的语音信息错认为是法官A的，也可能将将法官A的语音信息错认为是犯人B的。

在一个实施例中，在候选结果获取子单元1422根据声纹特征信息初步识别目标对象的候选识别结果的同时，结果获取子单元1423可以采用方位信息定位的声源方向从候选识别结果中进一步定位目标对象的对象识别结果，即结果获取子单元1423可以对候选识别结果进行调整并最终确定目标对象的对象识别结果。例如，法官A和犯人B的声纹特征信息相似度较大，候选识别结果指示法官A的语音信息对应犯人B，结合法官A的位置信息对象识别设备可以将法官A的语音信息对应法官A。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行以下步骤：获取当前语音环境中目标对象的语音信息和目标对象的方位信息；基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息；获取声纹特征信息对应的声音置信度；及基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。

在一个实施例中，计算机可读指令被处理器执行时，使得处理器在执行获取当前语音环境中目标对象的语音信息和目标对象的方位信息的步骤时，执行以下步骤：基于麦克风阵列获取当前语音环境中语音信息集合；对语音信息集合进行筛选处理，获取经筛选处理后的目标对象的语音信息；获取麦克风阵列在采集语音信息集合时的相位信息；及基于相位信息所指示的语音方位确定目标对象的方位信息。

在一个实施例中，计算机可读指令被处理器执行时，使得处理器在执行获取当前语音环境中目标对象的语音信息和目标对象的方位信息的步骤之前，还执行以下步骤：获取声纹训练语音集合；及基于声纹训练语音集合中各声纹训练语音和声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。

在一个实施例中，计算机可读指令被处理器执行时，使得处理器在执行获取声纹特征信息对应的声音置信度的步骤时，执行以下步骤：将声纹特征信息与声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值；及根据匹配度值确定声纹特征信息对应的声音置信度。

在一个实施例中，计算机可读指令被处理器执行时，使得处理器在执行基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果的步骤时，执行以下步骤：基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息；及根据对象识别信息获取目标对象的对象识别结果。

在一个实施例中，计算机可读指令被处理器执行时，使得处理器在执行基于声音置信度和预设声音置信度阈值的关系，在方位信息和声纹特征信息中确定所采用的对象识别信息的步骤时，执行以下步骤：当声音置信度大于或等于第一置信度阈值时，将声纹特征信息确定为所采用的对象识别信息；当声音置信度大于或等于第二置信度阈值、且小于第一置信度阈值时，将方位信息和声纹特征信息共同确定为所采用的对象识别信息；及当声音置信度小于第二置信度阈值时，将述方位信息确定为所采用的对象识别信息。

在一个实施例中，当声音置信度大于或等于第二置信度阈值、且小于第一置信度阈值时，将方位信息和声纹特征信息共同确定为所采用的对象识别信息，计算机可读指令被处理器执行时，使得处理器在执行根据对象识别信息获取目标对象的对象识别结果的步骤时，执行以下步骤：根据声纹特征信息获取目标对象的候选识别结果；及采用方位信息从候选识别结果中定位目标对象的对象识别结果。

上述计算机设备，通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息，然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息，最后获取声纹特征信息对应的声音置信度，基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，增加了获取到的对象识别结果的准确性。

一种非易失性的计算机可读存储介质，存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：获取当前语音环境中目标对象的语音信息和目标对象的方位信息；基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息；获取声纹特征信息对应的声音置信度；及基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。

上述计算机可读存储介质，通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息，然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息，最后获取声纹特征信息对应的声音置信度，基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，增加了获取到的对象识别结果的准确性。

请参见图15，为本申请实施例提供了一种终端的结构示意图。如图15所示，所述终端1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及对象识别应用程序。

在图15所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；网络接口1004用于与用户终端进行数据通信；而处理器1001可以用于调用存储器1005中存储的对象识别应用程序，并具体执行以上述对象识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

一种对象识别方法，执行于计算机设备，所述计算机设备包括存储器和处理器，所述方法包括：

获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息；

基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；

获取所述声纹特征信息对应的声音置信度；及

基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。
根据权利要求1所述的方法，其特征在于，所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息，包括：

基于麦克风阵列获取当前语音环境中语音信息集合；

对所述语音信息集合进行筛选处理，获取经所述筛选处理后的所述目标对象的语音信息；

获取所述麦克风阵列在采集所述语音信息集合时的相位信息；及

基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。
根据权利要求1所述的方法，其特征在于，所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息之前，还包括：

获取声纹训练语音集合；及

基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。
根据权利要求3所述的方法，其特征在于，所述获取所述声纹特征信息对应的声音置信度，包括：

将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值；及

根据所述匹配度值确定所述声纹特征信息对应的声音置信度。
根据权利要求1所述的方法，其特征在于，所述基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果，包括：

基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息；及

根据所述对象识别信息获取所述目标对象的对象识别结果。
根据权利要求5所述的方法，其特征在于，所述基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，包括：

当所述声音置信度大于或等于第一置信度阈值时，将所述声纹特征信息确定为所采用的对象识别信息；

当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息；及

当所述声音置信度小于第二置信度阈值时，将所述述方位信息确定为所采用的对象识别信息。
根据权利要求6所述的方法，其特征在于，当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，所述根据所述对象识别信息获取所述目标对象的对象识别结果，包括：

根据所述声纹特征信息获取所述目标对象的候选识别结果；及

采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果。
一种计算机设备，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息；

基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；

获取所述声纹特征信息对应的声音置信度；及

基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。
根据权利要求8所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息的步骤时，执行以下步骤：

基于麦克风阵列获取当前语音环境中语音信息集合；

对所述语音信息集合进行筛选处理，获取经所述筛选处理后的所述目标对象的语音信息；

获取所述麦克风阵列在采集所述语音信息集合时的相位信息；及

基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。
根据权利要求8所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息的步骤之前，还执行以下步骤：

获取声纹训练语音集合；及

基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。
根据权利要求10所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述获取所述声纹特征信息对应的声音置信度的步骤时，执行以下步骤：

将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值；及

根据所述匹配度值确定所述声纹特征信息对应的声音置信度。
根据权利要求8所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果的步骤时，执行以下步骤：

基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息；及

根据所述对象识别信息获取所述目标对象的对象识别结果。
根据权利要求12所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息的步骤时，执行以下步骤：

当所述声音置信度大于或等于第一置信度阈值时，将所述声纹特征信息确定为所采用的对象识别信息；

当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息；及

当所述声音置信度小于第二置信度阈值时，将所述述方位信息确定为所采用的对象识别信息。
根据权利要求13所述的计算机设备，其特征在于，当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述根据所述对象识别信息获取所述目标对象的对象识别结果的步骤时，执行以下步骤：

根据所述声纹特征信息获取所述目标对象的候选识别结果；及

采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果。
一种非易失性的计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息；

基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；

获取所述声纹特征信息对应的声音置信度；及

基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息的步骤时，执行以下步骤：

基于麦克风阵列获取当前语音环境中语音信息集合；

对所述语音信息集合进行筛选处理，获取经所述筛选处理后的所述目标对象的语音信息；

获取所述麦克风阵列在采集所述语音信息集合时的相位信息；及

基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息的步骤之前，还执行以下步骤：

获取声纹训练语音集合；及

基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述获取所述声纹特征信息对应的声音置信度的步骤时，执行以下步骤：

将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值；及

根据所述匹配度值确定所述声纹特征信息对应的声音置信度。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果的步骤时，执行以下步骤：

基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息；及

根据所述对象识别信息获取所述目标对象的对象识别结果。
根据权利要求19所述的计算机可读存储介质，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息的步骤时，执行以下步骤：

当所述声音置信度大于或等于第一置信度阈值时，将所述声纹特征信息确定为所采用的对象识别信息；

当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息；及

当所述声音置信度小于第二置信度阈值时，将所述述方位信息确定为所采用的对象识别信息。