CN113593579A

CN113593579A - 一种声纹识别方法、装置和电子设备

Info

Publication number: CN113593579A
Application number: CN202110838405.2A
Authority: CN
Inventors: 陈燕丽; 蒋宁; 吴海英; 王洪斌; 刘敏; 孟庆林
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-11-02
Anticipated expiration: 2041-07-23
Also published as: CN113593579B

Abstract

本申请实施例提供了一种声纹识别方法、装置和电子设备，在进行声纹识别时，可以先获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度，并充分考虑到语音质量因子可以声纹识别结果的影响，因此，结合待识别语音对应的语音质量因子对第一相似度进行调整，得到第二相似度；再根据第二相似度对待识别语音进行声纹识别，这样可以解决因未考虑到语音质量因子而导致的声纹识别结果的准确度较低的问题，从而有效地提高了声纹识别结果的准确度。

Description

一种声纹识别方法、装置和电子设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种声纹识别方法、装置和电子设备。

背景技术

为了保证业务的安全性，在很多场景中，通常都需要采用身份识别技术，对用户身份进行识别。例如，面部识别技术、指纹识别技术或者声纹识别技术等。其中，声纹识别，是把声信号转换成电信号，再用计算机通过声纹识别模型根据说话者的声学特征识别出说话者的身份。

在通过声纹识别对用户身份进行识别时，通常是在采集到用户输入的语音数据后，从语音数据中提取出对应的声纹特征，并将提取的声纹特征与预先存储的语音数据对应的声纹特征进行计算，并根据计算得到的余弦距离，确定当前用户与预先存储的语音数据所属的用户是否为同一用户，从而通过声纹识别技术完成对用户身份的识别。

但是，采用现有的声纹识别方法，会使得声纹识别结果的准确度较低。

发明内容

本申请实施例提供了一种声纹识别方法、装置和电子设备，提高了声纹识别结果的准确度。

第一方面，本申请实施例提供了一种声纹识别方法，该声纹识别方法可以包括：

获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度。

根据所述待识别语音对应的语音质量因子调整所述第一相似度，得到第二相似度，所述语音质量因子用于表征所述待识别语音的语音质量。

根据所述第二相似度对所述待识别语音进行声纹识别。

第二方面，本申请实施例还提供了一种声纹特征提取模型的训练方法，该声纹特征提取模型的训练方法可以包括：

获取多个语音样本对、和所述多个语音样本对中各语音样本对对应的标记信息；其中，所述各语音样本对包括通过第一通道采集的第一语音样本和通过第二通道采集的第二语音样本，所述标记信息用于表征所述第一语音样本和所述第二语音样本是否属于同一个用户。

将所述各语音样本对输入预设的初始声纹特征提取模型，得到所述各语音样本对中包括的第一语音样本对应的第一声纹特征和第二语音样本对应的第二声纹特征。

根据所述各语音样本对对应的第一声纹特征、第二声纹特征和所述标记信息，对所述初始声纹特征提取模型进行训练，得到所述声纹特征提取模型。

第三方面，本申请实施例还提供了一种相似度调整参数的确定方法，该相似度调整参数的确定方法可以包括：

确定多个语音样本对中各语音样本对的第一语音样本的第一声纹特征和第二语音样本的第二声纹特征之间的第一相似度。

将所述第一相似度和目标语音质量因子输入相似度预测函数中，得到各语音样本对的预测结果，所述预测结果用于表征所述第一语音样本和所述第二语音样本属于同一个用户的概率，所述目标语音质量因子为基于所述第一语音样本的语音质量因子和所述第二语音样本的语音质量因子确定的。

根据所述各语音样本对的预测结果和所述各语音样本对的标记信息，确定目标相似度调整参数，所述标记信息用于表征所述第一语音样本和第二语音样本是否属于同一个用户。

第四方面，本申请实施例还提供了一种用户身份识别方法，该用户身份识别方法可以包括：

获取待识别用户输入的待识别语音。

将所述待识别语音和预设语音输入至声纹特征提取模型中，得到所述待识别语音对应的第一声纹特征和所述预设语音对应的第二声纹特征。

确定所述第一声纹特征和所述第二声纹特征之间的第一相似度；根据所述待识别语音对应的语音质量因子调整所述第一相似度，得到第二相似度，所述语音质量因子用于表征所述待识别语音的语音质量。

根据所述第二相似度对所述待识别用户的身份进行识别。

第五方面，本申请实施例还提供了一种声纹识别装置，该声纹识别装置包括：

获取单元，用于获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度。

处理单元，用于根据所述待识别语音对应的语音质量因子调整所述第一相似度，得到第二相似度，所述语音质量因子用于表征所述待识别语音的语音质量。

识别单元，用于根据所述第二相似度对所述待识别语音进行声纹识别。

第六方面，本申请实施例还提供了一种声纹特征提取模型的训练装置，该声纹特征提取模型的训练装置可以包括：

获取单元，用于获取多个语音样本对、和所述多个语音样本对中各语音样本对对应的标记信息；其中，所述各语音样本对包括通过第一通道采集的第一语音样本和通过第二通道采集的第二语音样本，所述标记信息用于表征所述第一语音样本和所述第二语音样本是否属于同一个用户。

处理单元，用于将所述各语音样本对包括的第一语音样本对应的第一频谱特征和第二语音样本对应的第二频谱特征输入至预设的初始声纹特征提取模型，得到所述第一语音样本对应的第一声纹特征和第二语音样本对应的第二声纹特征。

训练单元，用于根据所述各语音样本对对应的第一声纹特征、第二声纹特征和所述标记信息，对所述初始声纹特征提取模型进行训练，得到所述声纹特征提取模型。

第七方面，本申请实施例还提供了一种相似度调整参数的确定装置，该相似度调整参数的确定装置可以包括：

获取单元，用于确定多个语音样本对中各语音样本对的第一语音样本的第一声纹特征和第二语音样本的第二声纹特征之间的第一相似度。

处理单元，用于将所述第一相似度和目标语音质量因子输入相似度预测函数中，得到各语音样本对的预测结果，所述预测结果用于表征所述第一语音样本和所述第二语音样本属于同一个用户的概率，所述目标语音质量因子为基于所述第一语音样本的语音质量因子和所述第二语音样本的语音质量因子确定的。

确定单元，用于根据所述各语音样本对的预测结果和所述各语音样本对的标记信息，确定目标相似度调整参数，所述标记信息用于表征所述第一语音样本和第二语音样本是否属于同一个用户。

第八方面，本申请实施例还提供了一种用户身份识别装置，该用户身份识别装置可以包括：

获取单元，用于获取待识别用户输入的待识别语音。

处理单元，用于将所述待识别语音和预设语音输入至声纹特征提取模型中，得到所述待识别语音对应的第一声纹特征和所述预设语音对应的第二声纹特征。

确定单元，用于确定所述第一声纹特征和所述第二声纹特征之间的第一相似度；根据所述待识别语音对应的语音质量因子调整所述第一相似度，得到第二相似度，所述语音质量因子用于表征所述待识别语音的语音质量。

识别单元，用于根据所述第二相似度对所述待识别用户的身份进行识别。

第九方面，本申请实施例还提供了一种电子设备，该电子设备可以包括：存储器，处理器；

存储器；用于存储计算机程序。

所述处理器，用于读取所述存储器存储的计算机程序，并根据所述存储器中的计算机程序执行上述第一方面所述的声纹识别方法，或者，用于执行上述第二方面所述的声纹特征提取模型的训练方法，或者，用于执行上述第三方面所述的相似度调整参数的确定方法，或者，用于执行上述第四方面所述的用户身份识别方法。

第十方面，本申请实施例还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述第一方面所述的声纹识别方法，或者，用于实现上述第二方面所述的声纹特征提取模型的训练方法，或者，用于实现上述第三方面所述的相似度调整参数的确定方法，或者，用于实现上述第四方面所述的用户身份识别方法。

第十一方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现上述第一方面所述的声纹识别方法，或者，用于实现上述第二方面所述的声纹特征提取模型的训练方法，或者，用于实现上述第三方面所述的相似度调整参数的确定方法，或者，用于实现上述第四方面所述的用户身份识别方法。

本申请实施例提供的声纹识别方法、装置和电子设备，在进行声纹识别时，可以先获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度，并充分考虑到语音质量因子可以声纹识别结果的影响，因此，结合待识别语音对应的语音质量因子对第一相似度进行调整，得到第二相似度；再根据第二相似度对待识别语音进行声纹识别，这样可以解决因未考虑到语音质量因子而导致的声纹识别结果的准确度较低的问题，从而有效地提高了声纹识别结果的准确度。

附图说明

图1为本申请实施例提供的一种声纹识别方法的流程示意图；

图2为本申请实施例提供的一种双网络架构模型的架构示意图；

图3为本申请实施例提供的一种声纹特征提取模型的训练方法的流程示意图；

图4为本申请实施例提供的一种Ecapa网络模型的结构示意图；

图5为本申请实施例提供的一种初始声纹特征提取模型的结构示意图；

图6为本申请实施例提供的一种相似度调整参数的确定方法的流程示意图；

图7为本申请实施例提供的一种用户身份识别方法的流程示意图；

图8为本申请实施例提供的一种声纹识别装置的结构示意图；

图9为本申请实施例提供的一种声纹特征提取模型的训练装置的结构示意图；

图10为本申请实施例提供的一种相似度调整参数的确定装置的结构示意图；

图11为本申请实施例提供的一种用户身份识别装置的结构示意图；

图12为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本申请的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本申请的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的技术方案可以应用于声纹识别的场景中。声纹识别作为可信的声纹特征认证技术，在身份认证、安全核身等诸多领域和场景中都有广阔的应用前景，是众多呼叫中心首选的身份认证方案之一。

现有技术中，在通过声纹识别对用户身份进行识别时，是计算用户当前输入的语音数据对应的声纹特征与预先存储的语音数据对应的声纹特征之间的余弦距离，若计算得到的余弦距离大于或等于预设阈值，则确定当前用户与预先存储的语音数据所属的用户为同一个用户；相反的，若计算得到的余弦距离小于预设阈值，则确定当前用户与预先存储的语音数据所属的用户为不同用户，从而通过声纹识别技术完成对用户身份的识别。

但是，鉴于现有的声纹识别方法，是直接根据声纹特征与声纹特征之间的余弦距离确定声纹识别结果，并未考虑到其他因素对声纹识别结果的影响，例如，语音的时长、信噪比、音量等信息，因此，采用现有的声纹识别方法确定声纹识别结果时，会使得声纹识别结果的准确度较低。

为了提高声纹识别结果的准确度，可以在确定声纹识别结果的过程中，充分考虑语音的时长、信噪比、音量等这些语音质量因子对声纹识别的影响，这样就可以解决因未考虑到语音的时长、信噪比、音量等这些语音质量因子，导致的声纹识别结果的准确度较低的问题，从而有效地提高了声纹识别结果的准确度。

下面，将通过具体的实施例对本申请提供的声纹识别方法进行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本申请实施例提供的一种声纹识别方法的流程示意图，该声纹识别方法可以由软件和/或硬件装置执行，例如，该硬件装置可以为声纹识别装置。示例的，请参见图1所示，该声纹识别方法可以包括：

S101、获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度。

其中，待识别语音可以理解为当前需要验证的语音，预设语音可以理解为预先存储的用于作为验证依据的语音。

示例的，在获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度时，可以包括至少两种可能的实现方式：

在一种可能的实现方式中，可以直接通过相似度模型提取待识别语音的第一声纹特征与预设语音的第二声纹特征，并确定第一声纹特征与预设语音的第二声纹特征的第一相似度，从而获取到该第一相似度。

在该种可能的实现方式中，相似度模型具有声纹特征提取的能力，以及确定声纹特征相似度的能力，该相似度模型的输入为两个语音，输出为两个语音各自的声纹特征之间的相似度。

在另一种可能的实现方式中，可以先通过声纹特征提取模型先分别提取出待识别语音的第一声纹特征和预设语音的第二声纹特征，再计算第一声纹特征与预设语音的第二声纹特征的第一相似度，从而获取到该第一相似度。

在该种可能的实现方式中，在获取通过声纹特征提取模型先分别提取出待识别语音的第一声纹特征和预设语音的第二声纹特征时，可以结合两种场景进行描述。

在一种场景下：若待识别语音和预设语音通过同一个通道采集，例如都是通过网络通道采集的，或者都是通过电话通道采集的，不存在通道差异，则可以直接通过现有的单网络架构的声纹特征提取模型，分别提取待识别语音的第一声纹特征和预设语音的第二声纹特征。其中，单网络架构是指只有一个网络模型的网络架构。

在另一种场景下：若待识别语音和预设语音通过不同通道采集，例如，待识别语音是通过电话通道采集的，预设语音是通过网络通道采集的。例如现有的企业呼叫中心场景，在注册环节中，用户可以根据企业应用程序的提示文本进行朗读，在朗读过程中，可以通过网络通道采集用户的语音，该语音即为后续作为匹配依据的预设语音；注册完成后，用户后续再通过呼叫中心办理业务时，在业务办理过程中，需要对用户的身份进行验证。在验证环节，可以通过电话通道采集用户的语音，该语音即为待识别语音，两种语音通过不同的通道采集。

由于不同通道对应的编解码算法不同，若通过同一声纹特征提取模型提取通过不同通道采集的语音的声纹特征，则会导致提取出的声纹特征的准确度较低。因此，为了提高提取出的声纹特征的准确度，可以构建双网络架构的声纹特征提取模型，该双网络架构的声纹特征提取模型可以包括两个网络架构相同的第一网络模型和第二网络模型，可参见现有的伪孪生网络模型，示例的，可参见图2所示，图2为本申请实施例提供的一种双网络架构模型的架构示意图，其中，第一网络模型可以通过电话通道采集的语音样本训练得到，后续可以用于提取通过电话通道采集的语音的声纹特征；第二网络模型可以通过网络通道采集的语音样本训练得到，后续可以用于提取通过网络通道采集的语音的声纹特征，且第一网络模型和第二网络模型通过相同的损失函数训练得到。至于其具体如何训练得到双网络架构的声纹特征提取模型，后面将通过图3所示的实施例二，对如何训练得到双网络架构的声纹特征提取模型进行详细地描述。

在通过双网络架构的声纹特征提取模型分别提取待识别语音的第一声纹特征和预设语音的第二声纹特征时，可以先从待识别语音中提取第一频谱特征，并从预设语音中提取第二频谱特征，将第一频谱特征和第二频谱特征输入至声纹特征提取模型中，通过声纹特征提取模型中的第一网络模型得到第一声纹特征，通过声纹特征提取模型中的第二网络模型得到第二声纹特征，从而提取出待识别语音的第一声纹特征和预设语音的第二声纹特征。这样通过双网络架构的声纹特征提取模型提取通过不同通道采集的待识别语音和预设语音的声纹特征时，通过区分通道，有针对性地提取声纹特征，这样可以解决因通道差异导致的声纹识别结果的准确度较低的问题，从而提高了声纹识别结果的准确度。

示例的，从待识别语音中提取第一频谱特征时，可以对待识别语音做预加重，分帧、加窗、傅里叶变换，滤波器、对数运算等处理，得到80*T的fbank频谱特征，并将该80*T的fbank频谱特征确定为第一频谱特征；从预设语音中提取第二频谱特征时，同样的，也可以对预设语音做预加重，分帧、加窗、傅里叶变换，滤波器、对数运算等处理，得到80*T的fbank频谱特征，并将该80*T的fbank频谱特征确定为第二频谱特征，具体可以根据实际需要进行设置，在此，本申请实施例只是以该种方法提取频谱特征为例进行说明，但并不代表本申请实施例仅局限于此。

在分别提取到第一声纹特征与第二声纹特征后，就可以计算第一声纹特征与第二声纹特征之间的第一相似度。需要注意的是，本申请实施例中，与现有技术不同的是，不是直接根据第一相似度对待识别语音进行声纹识别，而是充分考虑到了语音质量因子对声纹识别结果的影响，因此，可以先根据待识别语音对应的语音质量因子调整第一相似度，得到第二相似度，即执行下述S102：

S102、根据待识别语音对应的语音质量因子调整第一相似度，得到第二相似度，语音质量因子用于表征待识别语音的语音质量。

示例的，语音质量因子可以包括语音时长、信噪比、音量等与语音质量相关的因子，具体可以根据实际需要进行设置。

示例的，在根据待识别语音对应的语音质量因子调整第一相似度，得到第二相似度时，可以先获取相似度调整参数，相似度调整参数包括第一相似度的权重、语音质量因子的权重和偏置；并根据第一相似度的权重、语音质量因子的权重、偏置和语音质量因子调整第一相似度，得到第二相似度。这样通过获取相似度调整参数，并在充分考虑到语音质量因子的基础上，结合相似度调整参数共同对第一相似度进行调整，可以有效地提高获取到的第二相似度的准确度。其中，偏置用于使第二相似度和第一相似度的差值小于预设值。

示例的，在获取相似度调整参数时，可以从本地获取预先学习的相似度调整参数，也可以从其它设备获取预先学习的相似度调整参数，具体可以根据实际需要进行设置。需要说明的是，至于如何预先学习得到这三个相似度调整参数，后续将通过图6所示的实施例三，对如何学习得到这三个相似度调整参数进行详细地描述。

在获取到相似度调整参数和语音质量因子后，就可以根据下述公式1：

对第一相似度进行调整，得到调整后的第二相似度。其中，l(s)表示第二相似度，ω_s表示第一相似度的权重，s表示第一相似度，W_q表示语音质量因子的权重，q表示语音质量因子，b表示偏置，

表示W_q的转置。这样通过获取相似度调整参数，并结合相似度调整参数和语音质量因子共同对第一相似度进行调整，可以有效地提高获取到的第二相似度的准确度。

需要说明的是，利用第一相似度的权重、语音质量因子的权重、偏置和语音质量因子对第一相似度进行调整的公式不局限于公式1的方式，可以在公式1的基础上做各种变形或调整，或者是以这几个参数为基础构建新的调整公式。

在通过S102获取到调整后的第二相似度后，就可以根据第二相似度对待识别语音进行声纹识别，即执行下述S103：

S103、根据第二相似度对待识别语音进行声纹识别。

示例的，在根据第二相似度对待识别语音进行声纹识别时，若第二相似度大于或等于预设值，则确定待识别语音所属的用户和预设语音所属的用户为同一个用户；若第二相似度小于预设值，则确定待识别语音所属的用户和预设语音所属的用户为不同用户，从而完成声纹识别。

可以看出，本申请实施例中，在进行声纹识别时，可以先获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度，并充分考虑到语音质量因子对声纹识别结果的影响，因此，结合待识别语音对应的语音质量因子对第一相似度进行调整，得到第二相似度；再根据第二相似度对待识别语音进行声纹识别，这样可以解决因未考虑到语音质量因子而导致的声纹识别结果的准确度较低的问题，从而有效地提高了声纹识别结果的准确度。

图3为本申请实施例提供的一种声纹特征提取模型的训练方法的流程示意图，该声纹特征提取模型的训练方法可以由软件和/或硬件装置执行，例如，该硬件装置可以声纹特征提取模型的训练装置。示例的，请参见图3所示，该声纹特征提取模型的训练方法可以包括：

S301、获取多个语音样本对、和多个语音样本对中各语音样本对对应的标记信息。

其中，各语音样本对包括通过第一通道采集的第一语音样本和通过第二通道采集的第二语音样本，标记信息用于表征第一语音样本和第二语音样本是否属于同一个用户。第一通道和第二通道为不同的通道。示例的，第一通道可以为电话通道，第二通道可以为网络通道；第一通道也可以为网络通道，第二通道可以为电话通道，只要第一通道和第二通道为不同的通道即可。

示例的，在获取多个语音样本对时，可以先获取一个第一语音样本集，并通过第一语音样本集中包括的各语音样本对应的通道，对第一语音样本集中的语音样本进行分类，将第一语音样本集中，通过第一通道采集的语音样本划分至一个语音样本训练集中，记为第一语音样本训练集；通过第二通道采集的语音样本划分至一个语音样本训练集中，记为第二语音样本训练集；再根据第一语音样本训练集和第二语音样本训练集构建多个语音样本对。

示例的，在获取语音样本集时，可以先获取初始语音样本集，并对初始语音样本集中的语音样本进行增广处理，并将增广处理后的语音样本集确定上述第一语音样本集。其中，增广处理包括增加噪声处理，变换音量处理，语速处理、或者速率处理至少一种，具体可以根据实际需要进行设置，在此，本申请实施例只是以增广处理包括增加噪声处理，变换音量处理，语速处理、或者速率处理至少一种为例进行说明，但并不代表本申请实施例仅局限于此。

可以理解的是，在本申请实施例中，在获取第一语音样本集时，通过对初始语音样本集中的语音样本进行增广处理，其目的在于：提高基于第一语音样本集训练得到的声纹特征提取模型的鲁棒性，使其可以适用更多的声纹识别场景。

此外，鉴于单个说话人较少的语音样本和时长较短的语音样本，在用于训练声纹特征提取模型时，其参考价值较小，因此，在对初始语音样本集中的语音样本进行增广处理之前，可以先对初始语音样本集中的语音样本进行筛选，从初始语音样本集中剔除掉单个说话人较少的语音样本和时长较短的语音样本，例如单个说话人的语句小于5条和时长小于2s的语音，这样通过剔除掉参考价值较小的语音样本，可以减少增广处理的数据量，从而提高了增广处理效率。

在根据第一语音样本训练集和第二语音样本训练集构建多个语音样本对时，可以从第一语音样本训练集中任意选择一个通过第一通道采集的语音样本，作为语音样本对中的第一语音样本，并从第二语音样本训练集中任意选择一个通过第二通道采集的语音样本，作为语音样本对中的第二语音样本，选择出的第一语音样本和第二语音样本就可以构建一个语音样本对。采用类似的方法，就可以构建得到多个语音样本对。假设第一语音样本训练集中包括通过第一通道采集的M个第一语音样本，第二语音样本训练集中包括通过第二通道采集的N个第二语音样本，则通过第一语音样本训练集和第二语音样本训练集，可以构建出M*N个语音样本对。

此外，可以理解的是，在获取语音样本集中的每一个语音样本时，可以一并获取每一个语音样本属于的用户信息，这样在构建语音样本对时，就可以根据该语音样本对中包括的第一语音样本和第二语音样本各自对应的用户信息，确定该语音样本对对应的标记信息。

示例的，若根据该语音样本对中包括的第一语音样本和第二语音样本各自对应的用户信息，确定第一语音样本和第二语音样本属于同一用户，则可以将标记信息记为1，相反的，若根据该语音样本对中包括的第一语音样本和第二语音样本各自对应的用户信息，确定第一语音样本和第二语音样本属于不同的用户，则可以将标记信息记为0。

可以理解的是，在本申请实施例中，为了进一步提高训练得到的声纹特征提取模型的准确度，该多个语音样本对可以为声纹特征提取模型应用场景下的语音样本对，这样有针对性地通过应用场景下的语音样本对，训练声纹特征提取模型，可以使得训练的声纹特征提取模型更能适用该应用场景下的声纹特征提取，可以进一步提高提取出的声纹特征的准确度。例如，当声纹特征提取模型应用于企业呼叫中心场景时，该多个语音样本对可以包括注册环节中，通过网络通道采集用户的语音样本，和业务办理过程中通过电话通道采集用户的语音样本。当声纹特征提取模型应用于银行业务场景时，该多个语音样本对可以包括银行业务注册环节中，通过网络通道采集用户的语音样本，和银行业务办理过程中通过电话通道采集用户的语音样本。

这样在获取多个语音样本对、和多个语音样本对中各语音样本对对应的标记信息后，就可以执行下述S302：

S302、将各语音样本对输入预设的初始声纹特征提取模型，得到各语音样本对中包括的第一语音样本对应的第一声纹特征和第二语音样本对应的第二声纹特征。

示例的，在获取初始声纹特征提取模型时，可以基于迁移学习的训练方法，借助大量开源的语音样本集，训练基础声纹特征提取模型，并基于训练得到的声纹特征提取模型获取初始声纹特征提取模型。

示例的，在借助于大量开源的语音样本集训练基础声纹特征提取模型时，可以先获取大量开源的语音样本集，可记为第二语音样本集。与上述第一语音样本集的获取方法类似，可以先获取初始语音样本集，并对初始语音样本集中的语音样本进行增广处理，并将增广处理后的语音样本集确定第二语音样本集。其中，增广处理包括增加噪声处理，变换音量处理，语速处理、或者速率处理至少一种，具体可以根据实际需要进行设置，在此，本申请实施例只是以增广处理包括增加噪声处理，变换音量处理，语速处理、或者速率处理至少一种为例进行说明，但并不代表本申请实施例仅局限于此。

可以理解的是，在本申请实施例中，在获取第二语音样本集时，通过对初始语音样本集中的语音样本进行增广处理，其目的在于：提高基于第二语音样本集训练得到的基础声纹特征提取模型的鲁棒性，使其可以适用更多的声纹识别场景。

此外，鉴于单个说话人较少的语音样本和时长较短的语音样本，在用于训练声纹特征提取模型时，其参考价值较小，因此，在对初始语音样本集中的语音样本进行增广处理之前，可以先对初始语音样本集中的语音样本进行筛选，从初始语音样本集中剔除掉单个说话人较少的语音样本和时长较短的语音样本，这样通过剔除掉参考价值较小的语音样本，可以减少增广处理的数据量，从而提高了增广处理效率。

在通过第二语音样本集训练基础声纹特征提取模型时，可以先提取第二语音样本集中各语音样本的频谱特征，例如fbank频谱特征，或者mfcc频谱特征等，并将各语音样本的频谱特征作为输入，输入至初始基础声纹特征提取模型进行训练，若损失函数收敛，并将损失函数收敛时的声纹特征提取模型，确定为基础声纹特征提取模型。

示例的，初始基础声纹特征提取模型可以为Ecapa网络模型，ResNet网络模型、或者Tdnn网络模型等网络模型中的任一种。在本申请实施例中，以初始基础声纹特征提取模型为Ecapa网络模型为例，该Ecapa网络模型的网络结构可参见图4所示，图4为本申请实施例提供的一种Ecapa网络模型的结构示意图，Ecapa是一种基于注意力机制的神经网络结构，该Ecapa网络模型包括：一层一维度卷积层、四个SE-Res2NetBlock(SE-Res2块)结构、并将四个SE-Res2NetBlock输出的特征进行连接作为最后一个一维卷积的输出，后再连接一个带注意力机制的统计池化(attentive static pooling)层+BN层，用于输出声纹特征。其中，第一层一维度卷积，卷积核为5，时间上下文的扩张间隔为1；SE-Res2NetBlock结构，SE-Res2NetBlock卷积核为k，时间上下文的扩张间隔为s，k决定输出的通道数。SENet网络更加注重通道之间的关系，使得基础声纹特征提取模型可以较好地学习到不同通道特征，s取值越大，越能够学习语音样本上下文之间的特征。

结合图4可以看出，在本申请实施例中，四个SE-Res2NetBlock中，由上到下的顺序，第一个SE-Res2NetBlock中k＝3，d＝2；第二个SE-Res2NetBlock中k＝3，d＝3；第三个SE-Res2NetBlock中k＝3，d＝4；第四个SE-Res2NetBlock中k＝3，d＝5。在通过该四个SE-Res2NetBlock进行多层次特征聚合时，可以将浅层的SE-Res2NetBlock结构的特征进行聚合，聚合的方式可以包括两种。在一种方式中：可以将四层SE-Res2NetBlock输出的特征进行串联，特征的输入为4倍的特征。在另一种方式中，可以将四层SE-Res2NetBlock输出的特征进行求和。在本申请实施例中，可以采用串联的方式将浅层的SE-Res2NetBlock结构的特征进行聚合。此外，Ecapa网络模型中的带注意力机制的统计池化层+BN层，可以利用注意机制为不同的帧提供不同的权重，不仅可以生成加权平均值，而且可以生成加权标准偏差。通过这种方式，可以更有效地捕捉声纹特性的长期变化，带注意力机制的统计池化层+BN层的输出即为提取出的声纹特征。在基于初始基础声纹特征提取模型训练基础声纹特征提取模型时，可以在带注意力机制的统计池化层+BN层后增加一个FC层和AAM-Softmax层，作为分类器，并通过分类结果构造的损失函数不断迭代优化初始基础声纹特征提取模型中的网络参数，直至损失函数收敛，并将损失函数收敛时的声纹特征提取模型，确定为基础声纹特征提取模型。

在训练得到基础声纹特征提取模型后，鉴于初始声纹特征提取模型包括两个网络架构相同的第一网络模型和第二网络模型，因此，可以基于两个训练得到基础声纹特征提取模型，构建初始声纹特征提取模型。继续以基础声纹特征提取模型为Ecapa网络模型为例，该初始声纹特征提取模型的网络结构可参见图5所示，图5为本申请实施例提供的一种初始声纹特征提取模型的结构示意图，可以看出，初始声纹特征提取模型包括了两个结构完全相同的Ecapa网络模型，其中，一个Ecapa网络模型可以用于训练得到声纹特征提取模型中的第一网络模型，另一个Ecapa网络模型可以用于训练得到声纹特征提取模型中的第二网络模型。需要注意的是，这两个结构完全相同的Ecapa网络模型并不是单独割裂的，而是具有同一个损失函数，这样就可以获取到双网络架构的初始声纹特征提取模型。

这样在分别获取到多个语音样本对，以及初始声纹特征提取模型后，就可以先获取各语音样本对包括的第一语音样本对应的第一频谱特征和第二语音样本对应的第二频谱特征；并将各语音样本对包括的第一语音样本对应的第一频谱特征和第二语音样本对应的第二频谱特征输入至预设的初始声纹特征提取模型，得到各语音样本对包括的第一语音样本对应的第一声纹特征和第二语音样本对应的第二声纹特征。

结合图5所示，在将各语音样本对包括的第一语音样本对应的第一频谱特征和第二语音样本对应的第二频谱特征作为初始声纹特征提取模型的两个输入，输入至初始声纹特征提取模型时，若将第一语音样本对应的第一频谱特征输入左侧的Ecapa网络模型中，将第二语音样本对应的第二频谱特征输入右侧的Ecapa网络模型中，则后续基于该左侧的Ecapa网络模型训练得到的第一网络模型，可用于提取第一语音样本对应的通道采集的语音中的声纹特征；后续基于该右侧的Ecapa网络模型训练得到的第二网络模型，可用于提取第二语音样本对应的通道采集的语音中的声纹特征；相反的，若将第一语音样本对应的第一频谱特征输入右侧的Ecapa网络模型中，将第二语音样本对应的第二频谱特征输入左侧的Ecapa网络模型中，则后续基于该左侧的Ecapa网络模型训练得到的第一网络模型，可用于提取第二语音样本对应的通道采集的语音中的声纹特征；后续基于该右侧的Ecapa网络模型训练得到的第二网络模型，可用于提取第一语音样本对应的通道采集的语音中的声纹特征，具体可以根据实际需要进行设置。这样通过区分通道，有针对性地提取声纹特征，可以解决因通道差异导致的声纹识别结果的准确度较低的问题，从而提高了声纹识别结果的准确度。

在通过初始声纹特征提取模型提取出各语音样本对对应的第一声纹特征和第二声纹特征后，就可以执行下述S303：

S303、根据各语音样本对对应的第一声纹特征、第二声纹特征和标记信息，对初始声纹特征提取模型进行训练，得到声纹特征提取模型。

示例的，在根据各语音样本对对应的第一声纹特征、第二声纹特征和标记信息，对初始声纹特征提取模型进行训练时，可以包括：

先确定各语音样本对对应的第一声纹特征和第二声纹特征之间的欧式距离；并根据欧式距离、语音样本对对应的标记信息和差距，确定语音样本对对应的第一损失函数；再根据各语音样本对对应的第一损失函数，对初始声纹特征提取模型进行训练，若第一损失函数收敛，则将第一损失函数收敛时的声纹特征提取模型作为声纹特征提取模型；若第一损失函数不收敛，则修改训练过程中声纹特征提取模型的网络参数，直至第一损失函数收敛，将第一损失函数收敛时的声纹特征提取模型作为声纹特征提取模型；这样根据两个声纹特征之间的欧式距离、语音样本对对应的标记信息和差距计算第一损失函数时，并将第一损失函数收敛时的声纹特征提取模型作为声纹特征提取模型，可以让同一用户通过不同通道输入的语音的声纹特征尽可能相似，不同用户通过不同通道输入的语音的声纹特征尽可能远离，从而提高声纹特征提取模型的准确度。

此外，在训练过程中，可以不断降低第一网络模型输出的第一声纹特征，与第二网络模型输出的第二声纹特征之间的欧式距离，这样根据两个声纹特征之间的欧式距离计算第一损失函数时，可以使得第一损失函数的取值最小，直至第一损失函数收敛，将第一损失函数收敛时的声纹特征提取模型作为声纹特征提取模型。这样可以让同一用户通过不同通道输入的语音的声纹特征尽可能相似，不同用户通过不同通道输入的语音的声纹特征尽可能远离，从而提高声纹识别结果的准确度。

示例的，在计算第一声纹特征和第二声纹特征之间的欧式距离时，假设第一声纹特征为x1维度的特征向量[N,C,H,W]，第二声纹特征均为x2维度的特征向量[M,C,H,W]，则可以通过torch.pairwise_distance(x1,x2)，计算第一声纹特征和第二声纹特征之间的欧式距离。其中，N＝M or N＝1or M＝1。

可以理解的是，本申请实施例只是以通过torch.pairwise_distance(x1,x2)，计算第一声纹特征和第二声纹特征之间的欧式距离为例进行说明，也可以通过现有的其它方式计算第一声纹特征和第二声纹特征之间的欧式距离，具体可以根据实际需要进行设置，在此，对于如何计算第一声纹特征和第二声纹特征之间的欧式距离，本申请实施例不做进一步地限制。

在计算得到第一声纹特征和第二声纹特征之间的欧式距离后，就可以进一步根据欧式距离、语音样本对对应的标记信息和差距，确定语音样本对对应的损失函数，具体可以参见下述公式2：

其中，L1表示语音样本对应的损失函数，Y表示语音样本对对应的标记信息，D_W表示欧式距离，m表示差距。m的取值与D_W的取值相关，通常情况下，m的取值为D_W的2倍，当然，也可以为1.9倍或者2.1倍，具体可以根据实际需要进行设置，在此，本申请实施例只是以m的取值为D_W的2倍为例进行说明，但并不代表本申请实施例仅局限于此。

需要说明的是，利用欧式距离、语音样本对对应的标记信息和差距确定语音样本对对应的损失函数的公式不局限于公式2的方式，可以在公式2的基础上做各种变形或调整，或者是以这几个参数为基础构建新的调整公式。

结合公式2所示，这样结合两个声纹特征之间的欧式距离、语音样本对对应的标记信息和差距共同确定第一损失函数，使得后续基于确定出的第一损失函数调整声纹特征提取模型时，可以有效地提高声纹特征提取模型的准确度。

示例的，在本申请实施例中，可以通过三个条件确定损失函数L1是否收敛，该三个条件满足其中一个即可确定损失函数L1收敛。其中，条件1为：根据损失函数对声纹特征提取模型的迭代次数达到预设次数阈值，则可以确定损失函数L1收敛；条件2为：损失函数的损失值小于预设损失阈值，且保持稳定不变，则可以确定损失函数L1收敛；条件3为：将声纹特征提取模型的训练样本集按照8:2划分为训练数据集和测试数据集，若损失函数值在测试数据集上保持稳定，且不再下降时，则可以确定损失函数L1收敛。

若损失函数收敛，则将第一损失函数收敛时的声纹特征提取模型作为声纹特征提取模型；若第一损失函数不收敛，则修改训练过程中声纹特征提取模型的网络参数，直至第一损失函数收敛，则将第一损失函数收敛时的声纹特征提取模型作为声纹特征提取模型，从而训练得到双网络架构的声纹特征提取模型。

可以看出，本申请实施例中，在获取声纹特征提取模型时，可以先获取多个语音样本对、和多个语音样本对中各语音样本对对应的标记信息；并将各语音样本对包括的第一语音样本对应的第一频谱特征和第二语音样本对应的第二频谱特征输入至预设的初始声纹特征提取模型，得到第一语音样本对应的第一声纹特征和第二语音样本对应的第二声纹特征；再根据各语音样本对对应的第一声纹特征、第二声纹特征和标记信息，对初始声纹特征提取模型进行训练，这样通过多个语音样本中包括的第一通道采集的第一语音样本和通过第二通道采集的第二语音样本训练声纹特征提取模型，使得训练得到的声纹特征提取模型具有区分通道，有针对性地提取声纹特征的能力，这样在提取声纹特征时，可以区分通道，有针对性地提取声纹特征，解决了因通道差异导致的声纹识别结果的准确度较低的问题，从而提高了声纹识别结果的准确度。

图6为本申请实施例提供的一种相似度调整参数的确定方法的流程示意图，该相似度调整参数的确定方法可以由软件和/或硬件装置执行，例如，该硬件装置可以仍为相似度调整参数的确定装置。示例的，请参见图6所示，该相似度调整参数的确定方法可以包括：

S601、确定多个语音样本对中各语音样本对的第一语音样本的第一声纹特征和第二语音样本的第二声纹特征之间的第一相似度。

示例的，在确定第一语音样本的第一声纹特征和第二语音样本的第二声纹特征之间的第一相似度s时，可以通过现有的相似度模型，确定第一声纹特征和第二声纹特征之间的第一相似度s，也可以通过其它声纹识别模型确定第一声纹特征和第二声纹特征之间的第一相似度s，具体可以根据实际需要进行设置，在此，对于如何确定第一声纹特征和第二声纹特征之间的第一相似度，本申请实施例不做具体限制。

S602、将第一相似度和目标语音质量因子输入相似度预测函数中，得到各语音样本对的预测结果。

其中，预测结果用于表征第一语音样本和第二语音样本属于同一个用户的概率，取值范围可以为[0,1]，目标语音质量因子为基于第一语音样本的语音质量因子和第二语音样本的语音质量因子确定的。

示例的，相似度预测函数可参见下述公式3：

其中，h(s，q)表示相似度预测函数，h(s，q)的取值表示语音样本对的预测结果，l(s)表示各语音样本对中第一语音样本的声纹特征和第二语音样本的声纹特征之间的第二相似度，

表示第一相似度的权重，s表示各语音样本对中第一语音样本的声纹特征和第二语音样本的声纹特征之间的第一相似度，W_q表示目标语音质量因子的权重，q表示目标语音质量因子，b表示偏置，

表示W_q的转置。

示例的，在确定目标语音质量因子时，可以将第一语音样本的语音质量因子和第二语音样本的语音质量因子之间的差值确定为目标语音质量因子；或者，也可以将第一语音样本的语音质量因子和第二语音样本的语音质量因子之间的平均值确定为目标语音质量因子；或者，也可以将第一语音样本和第二语音样本中，语音质量最差的语音样本的语音质量因子确定为目标语音质量因子，具体可以根据实际需要进行设置，在此，本申请实施例不做进一步地限制。这样通过第一语音样本的语音质量因子和第二语音样本的语音质量因子之间的差值、平均值或者语音质量最差的语音质量因子确定目标语音质量因子，使得可以通过目标语音质量因子为相似度预测函数的调整提供语音质量条件，可以更好地通过相似度预测函数，学习目标相似度调整参数，以获取到目标相似度调整参数。

在分别获取到第一相似度和目标语音质量因子后，就可以将第一相似度和目标语音质量信息输入相似度预测函数中，得到各语音样本对的预测结果，并根据各语音样本对的预测结果执行下述S603：

S603、根据各语音样本对的预测结果和各语音样本对的标记信息，确定目标相似度调整参数，标记信息用于表征第一语音样本和第二语音样本是否属于同一个用户。

示例的，根据各语音样本对的预测结果和各语音样本对的标记信息，确定目标相似度调整参数时，可以先基于各语音样本对的预测结果和各语音样本对的标记信息，确定各语音样本对对应的第二损失函数，示例的，可参见下述公式4：

其中，L2表示各语音样本对对应的第二损失函数，y表示各语音样本对的标记信息，y＝1表示第一语音样本和第二语音样本属于同一用户，y＝0表示第一语音样本和第二语音样本属于不同的用户，h(s，q)表示相似度预测函数，h(s，q)的取值表示各语音样本对的预测结果。这样结合各语音样本对的标记信息和预测结果共同确定第二损失函数，可以让预测结果和标记信息尽可能相似，提高相似度预测函数的准确度。

其中，

l(s)表示各语音样本对中第一语音样本的声纹特征和第二语音样本的声纹特征之间的第二相似度，

ω_s表示第一相似度的权重，s表示各语音样本对中第一语音样本的声纹特征和第二语音样本的声纹特征之间的第一相似度，W_q表示目标语音质量因子的权重，q表示目标语音质量因子，b表示偏置，

表示W_q的转置。

需要说明的是，利用各语音样本对的预测结果和各语音样本对的标记信息，确定各语音样本对对应的第二损失函数的公式不局限于公式4的方式，可以在公式4的基础上做各种变形或调整，或者是以这几个参数为基础构建新的调整公式。

在结合上述公式4确定第二损失函数L2时，可以先对第一相似度的权重ω_s、语音质量因子的权重W_q，以及偏置b进行随机初始赋值，例如，ω_s赋值0到1之间的小数，W_q为全部由1构成的向量，b设置为0；这样将每一个语音样本对对应的语音质量和第一相似度输入至上述公式4中，就可以得到每一个语音样本对对应的第二损失函数；鉴于多个语音样本对为执行一次训练操作的同一批样本，因此，可以计算多个语音样本对对应的第二损失函数的平均损失函数，并基于平均损失函数确定目标相似度调整参数，直至平均损失函数收敛，将收敛时的相似度调整参数的作为目标相似度调整参数；这样通过多个语音样本对对应的平均损失函数确定目标相似度调整参数，与通过一个语音样本对对应的第二损失函数确定目标相似度调整参数相比，可以达到较好的调整效果，为目标相似度调整参数提供更多的调整依据，从而可以有效地提高确定出的目标相似度调整参数的准确度。

示例的，在本申请实施例中，可以通过三个条件确定平均损失函数是否收敛，该三个条件满足其中一个即可确定平均损失函数收敛。其中，条件1为：根据平均损失函数对上述公式3所示的相似度预测函数的迭代次数达到次数阈值，则可以确定平均损失函数收敛；条件2为：平均损失函数的损失值小于损失阈值，且保持稳定不变，则可以确定平均损失函数收敛；条件3为：将相似度预测函数的训练样本集按照8:2划分为训练数据集和测试数据集，若平均损失函数值在测试数据集上保持稳定，且不再下降时，则可以确定平均损失函数收敛。

若平均损失函数收敛，则将平均损失函数收敛时的相似度调整参数确定为目标相似度调整参数。若平均损失函数不收敛，则修改训练过程中相似度调整参数，直至平均损失函数收敛，将平均损失函数收敛时的相似度调整参数的作为目标相似度调整参数。

可以看出，本申请实施例中，在确定相似度调整参数时，可以先确定多个语音样本对中各语音样本对的第一语音样本的第一声纹特征和第二语音样本的第二声纹特征之间的第一相似度；并将第一相似度和目标语音质量因子输入相似度预测函数中，得到各语音样本对的预测结果；再根据各语音样本对的预测结果和各语音样本对的标记信息，确定目标相似度调整参数，这样可以训练得到目标性相似度调整参数，使得后续在进行声纹识别时，可以根据目标性相似度调整参数和语音质量因子共同调整第一相似度，从而有效地提高了声纹识别结果的准确度。

通过上述实施例训练得到的声纹特征提取模型，可以应用于基于声纹特征进行用户身份识别的场景中。在基于声纹特征进行用户身份识别时，可以通过声纹特征提取模型提取声纹特征，并将提取的声纹特征作为识别依据进行身份识别，在身份认证、安全核身等诸多领域和场景中都有广阔的应用前景，是众多呼叫中心首选的身份认证方案之一。

图7为本申请实施例提供的一种用户身份识别方法的流程示意图，该用户身份识别方法可以由软件和/或硬件装置执行。示例的，请参见图7所示，该用户身份识别方法可以包括：

S701、获取待识别用户输入的待识别语音。

其中，待识别语音可以理解为当前需要进行身份验证的用户输入的语音。

示例的，在获取待识别用户输入的待识别语音时，可以通过电子设备的麦克风直接获取待识别用户输入的待识别语音，也可以接收其它电子设备发送的待识别语音，也可以通过其它方式获取待识别用户输入的待识别语音，具体可以根据实际需要进行设置，在此，对于获取待识别用户输入的待识别语音的方式，本申请实施例不做具体限制。

S702、将待识别语音和预设语音输入至声纹特征提取模型中，得到待识别语音对应的第一声纹特征和预设语音对应的第二声纹特征。

其中，预设语音可以理解为预先存储的用于在进行用户身份验证时，作为验证依据的语音。

S703、确定第一声纹特征和第二声纹特征之间的第一相似度；根据待识别语音对应的语音质量因子调整第一相似度，得到第二相似度，语音质量因子用于表征待识别语音的语音质量。

需要说明的是，在该步骤S703中，确定第一声纹特征和第二声纹特征之间的第一相似度的方法，与上述S101中获取待识别用户输入的待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度的方法类似，可参见上述S101中的相关描述，在此，本申请实施例不再进行赘述。

此外，在该步骤S703中，根据待识别语音对应的语音质量因子调整第一相似度，得到第二相似度的方法，与上述S102中根据待识别语音对应的语音质量因子调整第一相似度，得到第二相似度的方法类似，可参见上述S102中的相关描述，在此，本申请实施例不再进行赘述。

S704、根据第二相似度对待识别用户的身份进行识别。

示例的，根据第二相似度对待识别用户的身份进行识别时，若第二相似度大于或等于预设相似度阈值，说明待识别语音和预设语音属于同一用户，则确定待识别用户身份验证成功，该待识别用户为合法的用户；相反的，若第二相似度小于预设相似度阈值，说明待识别语音和预设语音属于不同用户，则确定待识别用户身份验证失败，该待识别用户为非法的用户。

可以看出，本申请实施例中，在进行身份识别时，可以先将待识别用户的待识别语音和预设语音输入至声纹特征提取模型中，得到待识别语音对应的第一声纹特征和预设语音对应的第二声纹特征；确定第一声纹特征和第二声纹特征之间的第一相似度；根据待识别语音对应的语音质量因子调整第一相似度，得到第二相似度；根据第二相似度对待识别用户的身份进行识别；这样结合待识别语音对应的语音质量因子共同确定第二相似度，提高了第二相似度的准确度，使得再根据准确度较高的第二相似度进行身份识别，进一步提高了身份识别的准确度。

图8为本申请实施例提供的一种声纹识别装置80的结构示意图，示例的，请参见图8所示，该声纹识别装置80包括：

获取单元801，用于获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度。

处理单元802，用于根据待识别语音对应的语音质量因子调整第一相似度，得到第二相似度，语音质量因子用于表征待识别语音的语音质量。

识别单元803，用于根据第二相似度对待识别语音进行声纹识别。

可选的，处理单元802，具体用于获取相似度调整参数，相似度调整参数包括第一相似度的权重、语音质量因子的权重和偏置；其中，偏置用于使第二相似度和第一相似度的差值小于预设值；根据第一相似度的权重、语音质量因子的权重、偏置和语音质量因子调整第一相似度，得到第二相似度。

可选的，处理单元802，具体用于根据

确定第二相似度；其中，l(s)表示第二相似度，ω_s表示第一相似度的权重，s表示第一相似度，W_q表示语音质量因子的权重，q表示语音质量因子，b表示偏置，W_q ^T表示W_q的转置。

可选的，处理单元802，还用于从待识别语音中提取第一频谱特征，并从预设语音中提取第二频谱特征；将第一频谱特征和第二频谱特征输入至声纹特征提取模型中，通过声纹特征提取模型中的第一网络模型得到第一声纹特征，通过声纹特征提取模型中的第二网络模型得到第二声纹特征；其中，第一网络模型和第二网络模型通过相同的损失函数训练得到。

本申请实施例所示的声纹识别装置80，可以执行上述实施例中的声纹识别方法的技术方案，其实现原理以及有益效果与声纹识别方法的实现原理及有益效果类似，可参见声纹识别方法的实现原理及有益效果，此处不再进行赘述。

图9为本申请实施例提供的一种声纹特征提取模型的训练装置90的结构示意图，示例的，请参见图9所示，该声纹特征提取模型的训练装置90可以包括：

获取单元901，用于获取多个语音样本对、和多个语音样本对中各语音样本对对应的标记信息；其中，各语音样本对包括通过第一通道采集的第一语音样本和通过第二通道采集的第二语音样本，标记信息用于表征第一语音样本和第二语音样本是否属于同一个用户。

处理单元902，用于将各语音样本对包括的第一语音样本对应的第一频谱特征和第二语音样本对应的第二频谱特征输入至预设的初始声纹特征提取模型，得到第一语音样本对应的第一声纹特征和第二语音样本对应的第二声纹特征。

训练单元903，用于根据各语音样本对对应的第一声纹特征、第二声纹特征和标记信息，对初始声纹特征提取模型进行训练，得到声纹特征提取模型。

可选的，训练单元903，具体用于确定各语音样本对对应的第一声纹特征和第二声纹特征之间的欧式距离；根据欧式距离、语音样本对对应的标记信息和差距，确定语音样本对对应的第一损失函数；根据各语音样本对对应的第一损失函数，对初始声纹特征提取模型进行训练，直至损失函数收敛，将第一损失函数收敛时的声纹特征提取模型作为声纹特征提取模型。

可选的，训练单元903，具体用于根据

确定语音样本对应的第一损失函数。

其中，L1表示语音样本对应的损失函数，Y表示语音样本对对应的标记信息，D_W表示欧式距离，m表示差距。

本申请实施例所示的声纹特征提取模型的训练装置90，可以执行上述实施例中的声纹特征提取模型的训练方法的技术方案，其实现原理以及有益效果与声纹特征提取模型的训练方法的实现原理及有益效果类似，可参见声纹特征提取模型的训练方法的实现原理及有益效果，此处不再进行赘述。

图10为本申请实施例提供的一种相似度调整参数的确定装置100的结构示意图，示例的，请参见图10所示，该相似度调整参数的确定装置100可以包括：

获取单元1001，用于确定多个语音样本对中各语音样本对的第一语音样本的第一声纹特征和第二语音样本的第二声纹特征之间的第一相似度。

处理单元1002，用于将第一相似度和目标语音质量因子输入相似度预测函数中，得到各语音样本对的预测结果，预测结果用于表征第一语音样本和第二语音样本属于同一个用户的概率，目标语音质量因子为基于第一语音样本的语音质量因子和第二语音样本的语音质量因子确定的。

确定单元1003，用于根据各语音样本对的预测结果和各语音样本对的标记信息，确定目标相似度调整参数，标记信息用于表征第一语音样本和第二语音样本是否属于同一个用户。

可选的，确定单元1003，具体用于根据各语音样本对的预测结果和各语音样本对的标记信息，确定各语音样本对对应的第二损失函数；根据所述各语音样本对对应的第二损失函数确定平均损失函数；若所述平均损失函数收敛，则将所述平均损失函数收敛时的相似度调整参数确定为所述目标相似度调整参数。

可选的，确定单元1003，具体用于根据

确定各语音样本对对应的第二损失函数。

其中，L2表示各语音样本对对应的第二损失函数，y表示各语音样本对的标记信息，h(s，q)表示相似度预测函数，h(s，q)的取值表示各语音样本对的预测结果，

l(s)表示各语音样本对中第一语音样本的声纹特征和第二语音样本的声纹特征之间的第二相似度，s表示各语音样本对中第一语音样本的声纹特征和第二语音样本的声纹特征之间的第一相似度，q表示目标语音质量因子。

可选的，处理单元1002，还用于将第一语音样本的语音质量因子和第二语音样本的语音质量因子之间的差值确定为目标语音质量因子；或者，将第一语音样本的语音质量因子和第二语音样本的语音质量因子之间的平均值确定为目标语音质量因子；或者，将第一语音样本和第二语音样本中，语音质量最差的语音样本的语音质量因子确定为目标语音质量因子。

本申请实施例所示的相似度调整参数的确定装置100，可以执行上述实施例中的相似度调整参数的确定方法的技术方案，其实现原理以及有益效果与相似度调整参数的确定方法的实现原理及有益效果类似，可参见相似度调整参数的确定方法的实现原理及有益效果，此处不再进行赘述。

图11为本申请实施例提供的一种用户身份识别装置110的结构示意图，示例的，请参见图11所示，该用户身份识别装置110可以包括：

获取单元1101，用于获取待识别用户输入的待识别语音。

处理单元1102，用于将待识别语音和预设语音输入至声纹特征提取模型中，得到待识别语音对应的第一声纹特征和预设语音对应的第二声纹特征。

确定单元1103，用于确定第一声纹特征和第二声纹特征之间的第一相似度；根据待识别语音对应的语音质量因子调整第一相似度，得到第二相似度，语音质量因子用于表征待识别语音的语音质量。

识别单元1104，用于根据第二相似度对待识别用户的身份进行识别。

本申请实施例所示的用户身份识别装置110，可以执行上述实施例中的用户身份识别方法的技术方案，其实现原理以及有益效果与用户身份识别方法的实现原理及有益效果类似，可参见用户身份识别方法的实现原理及有益效果，此处不再进行赘述。

图12为本申请实施例提供的一种电子设备120的结构示意图，示例的，请参见图12所示，该电子设备120可以包括处理器1201和存储器1202；其中，

所述存储器1202，用于存储计算机程序。

所述处理器1201，用于读取所述存储器1202存储的计算机程序，并根据所述存储器1202中的计算机程序执行上述实施例中的声纹识别方法，或者，执行上述实施例中的声纹特征提取模型的训练方法，或者，执行上述实施例中的相似度调整参数的确定方法，或者，执行上述实施例中的用户身份识别方法。

可选地，存储器1202既可以是独立的，也可以跟处理器1201集成在一起。当存储器1202是独立于处理器1201之外的器件时，电子设备120还可以包括：总线，用于连接存储器1202和处理器1201。

可选地，本实施例还包括：通信接口，该通信接口可以通过总线与处理器1201连接。处理器1201可以控制通信接口来实现上述电子设备120的获取和发送的功能。

示例的，在本申请实施例中，电子设备120可以为终端，也可以为服务器，具体可以根据实际需要进行设置。

本申请实施例所示的电子设备120，可以执行上述实施例中的声纹识别方法的技术方案，其实现原理以及有益效果与声纹识别方法的实现原理及有益效果类似，可参见声纹识别方法的实现原理及有益效果，或者，执行上述实施例中的声纹特征提取模型的训练方法的技术方案，其实现原理以及有益效果与声纹特征提取模型的训练方法的实现原理及有益效果类似，可参见声纹特征提取模型的训练方法的实现原理及有益效果，或者，执行上述实施例中的相似度调整参数的确定方法的技术方案，其实现原理以及有益效果与相似度调整参数的确定方法的实现原理及有益效果类似，可参见相似度调整参数的确定方法的实现原理及有益效果，或者，执行上述实施例中的用户身份识别方法的技术方案，其实现原理以及有益效果与用户身份识别方法的实现原理及有益效果类似，可参见用户身份识别方法的实现原理及有益效果，此处不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述实施例中的声纹识别方法的技术方案，其实现原理以及有益效果与声纹识别方法的实现原理及有益效果类似，可参见声纹识别方法的实现原理及有益效果，或者，实现上述实施例中的声纹特征提取模型的训练方法的技术方案，其实现原理以及有益效果与声纹特征提取模型的训练方法的实现原理及有益效果类似，可参见声纹特征提取模型的训练方法的实现原理及有益效果，或者，实现上述实施例中的相似度调整参数的确定方法的技术方案，其实现原理以及有益效果与相似度调整参数的确定方法的实现原理及有益效果类似，可参见相似度调整参数的确定方法的实现原理及有益效果，或者，实现上述实施例中的用户身份识别方法的技术方案，其实现原理以及有益效果与用户身份识别方法的实现原理及有益效果类似，可参见用户身份识别方法的实现原理及有益效果，此处不再进行赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现上述实施例中的声纹识别方法的技术方案，其实现原理以及有益效果与声纹识别方法的实现原理及有益效果类似，可参见声纹识别方法的实现原理及有益效果，或者，实现上述实施例中的声纹特征提取模型的训练方法的技术方案，其实现原理以及有益效果与声纹特征提取模型的训练方法的实现原理及有益效果类似，可参见声纹特征提取模型的训练方法的实现原理及有益效果，或者，实现上述实施例中的相似度调整参数的确定方法的技术方案，其实现原理以及有益效果与相似度调整参数的确定方法的实现原理及有益效果类似，可参见相似度调整参数的确定方法的实现原理及有益效果，或者，实现上述实施例中的用户身份识别方法的技术方案，其实现原理以及有益效果与用户身份识别方法的实现原理及有益效果类似，可参见用户身份识别方法的实现原理及有益效果，此处不再进行赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所展示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元展示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例方法的部分步骤。

应理解的是，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital SignalProcessor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种声纹识别方法，其特征在于，包括：

获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度；

根据所述待识别语音对应的语音质量因子调整所述第一相似度，得到第二相似度，所述语音质量因子用于表征所述待识别语音的语音质量；

根据所述第二相似度对所述待识别语音进行声纹识别。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别语音对应的语音质量因子调整所述第一相似度，得到第二相似度，包括：

获取相似度调整参数，所述相似度调整参数包括所述第一相似度的权重、所述语音质量因子的权重和偏置；其中，所述偏置用于使所述第二相似度和所述第一相似度的差值小于预设值；

根据所述第一相似度的权重、所述语音质量因子的权重、所述偏置和所述语音质量因子调整所述第一相似度，得到所述第二相似度。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一相似度的权重、所述语音质量因子的权重、所述偏置和所述语音质量因子调整所述第一相似度，得到所述第二相似度，包括：

根据

确定所述第二相似度；

其中，l(s)表示所述第二相似度，ω_s表示所述第一相似度的权重，s表示所述第一相似度，W_q表示所述语音质量因子的权重，q表示所述语音质量因子，b表示所述偏置，

表示W_q的转置。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

从所述待识别语音中提取第一频谱特征，并从所述预设语音中提取第二频谱特征；

将所述第一频谱特征和所述第二频谱特征输入至声纹特征提取模型中，通过所述声纹特征提取模型中的第一网络模型得到所述第一声纹特征，通过所述声纹特征提取模型中的第二网络模型得到所述第二声纹特征；其中，所述第一网络模型和所述第二网络模型通过相同的损失函数训练得到。

5.一种声纹特征提取模型的训练方法，其特征在于，包括：

获取多个语音样本对、和所述多个语音样本对中各语音样本对对应的标记信息；其中，所述各语音样本对包括通过第一通道采集的第一语音样本和通过第二通道采集的第二语音样本，所述标记信息用于表征所述第一语音样本和所述第二语音样本是否属于同一个用户；

将所述各语音样本对包括的第一语音样本对应的第一频谱特征和第二语音样本对应的第二频谱特征输入至预设的初始声纹特征提取模型，得到所述第一语音样本对应的第一声纹特征和第二语音样本对应的第二声纹特征；

6.根据权利要求5所述的方法，其特征在于，所述根据所述各语音样本对对应的第一声纹特征、第二声纹特征和标记信息，对所述初始声纹特征提取模型进行训练，包括：

确定所述各语音样本对对应的第一声纹特征和第二声纹特征之间的欧式距离；

根据所述欧式距离、所述语音样本对对应的标记信息和差距，确定所述语音样本对对应的第一损失函数；

根据所述各语音样本对对应的第一损失函数，对所述初始声纹特征提取模型进行训练，直至所述第一损失函数收敛，将所述第一损失函数收敛时的声纹特征提取模型作为所述声纹特征提取模型。

7.根据权利要求6所述的方法，其特征在于，所述根据所述欧式距离、所述语音样本对对应的标记信息和差距，确定所述语音样本对对应的第一损失函数，包括：

根据

确定所述语音样本对应的第一损失函数；

8.一种相似度调整参数的确定方法，其特征在于，包括：

确定多个语音样本对中各语音样本对的第一语音样本的第一声纹特征和第二语音样本的第二声纹特征之间的第一相似度；

将所述第一相似度和目标语音质量因子输入相似度预测函数中，得到各语音样本对的预测结果，所述预测结果用于表征所述第一语音样本和所述第二语音样本属于同一个用户的概率，所述目标语音质量因子为基于所述第一语音样本的语音质量因子和所述第二语音样本的语音质量因子确定的；

9.根据权利要求8所述的方法，其特征在于，所述根据所述各语音样本对的预测结果和所述各语音样本对的标记信息，确定目标相似度调整参数，包括：

根据所述各语音样本对的预测结果和所述各语音样本对的标记信息，确定所述各语音样本对对应的第二损失函数；

根据所述各语音样本对对应的第二损失函数确定平均损失函数；

若所述平均损失函数收敛，则将所述平均损失函数收敛时的相似度调整参数确定为所述目标相似度调整参数。

10.根据权利要求9所述的方法，其特征在于，所述根据所述各语音样本对的预测结果和所述各语音样本对的标记信息，确定所述各语音样本对对应的第二损失函数，包括：

根据

确定所述各语音样本对对应的第二损失函数；

11.根据权利要求8-10任一项所述的方法，其特征在于，所述方法还包括：

将所述第一语音样本的语音质量因子和所述第二语音样本的语音质量因子之间的差值确定为所述目标语音质量因子；或者，

将所述第一语音样本的语音质量因子和所述第二语音样本的语音质量因子之间的平均值确定为所述目标语音质量因子；或者，

将所述第一语音样本和所述第二语音样本中，语音质量最差的语音样本的语音质量因子确定为所述目标语音质量因子。

12.一种用户身份识别方法，其特征在于，包括：

获取待识别用户输入的待识别语音；

将所述待识别语音和预设语音输入至声纹特征提取模型中，得到所述待识别语音对应的第一声纹特征和所述预设语音对应的第二声纹特征；

确定所述第一声纹特征和所述第二声纹特征之间的第一相似度；根据所述待识别语音对应的语音质量因子调整所述第一相似度，得到第二相似度，所述语音质量因子用于表征所述待识别语音的语音质量；

根据所述第二相似度对所述待识别用户的身份进行识别。

13.一种声纹识别装置，其特征在于，包括：

获取单元，用于获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度；

处理单元，用于根据所述待识别语音对应的语音质量因子调整所述第一相似度，得到第二相似度，所述语音质量因子用于表征所述待识别语音的语音质量；

14.一种声纹特征提取模型的训练装置，其特征在于，包括：

获取单元，用于获取多个语音样本对、和所述多个语音样本对中各语音样本对对应的标记信息；其中，所述各语音样本对包括通过第一通道采集的第一语音样本和通过第二通道采集的第二语音样本，所述标记信息用于表征所述第一语音样本和所述第二语音样本是否属于同一个用户；

处理单元，用于将所述各语音样本对包括的第一语音样本对应的第一频谱特征和第二语音样本对应的第二频谱特征输入至预设的初始声纹特征提取模型，得到所述第一语音样本对应的第一声纹特征和第二语音样本对应的第二声纹特征；

15.一种相似度调整参数的确定装置，其特征在于，包括：

获取单元，用于确定多个语音样本对中各语音样本对的第一语音样本的第一声纹特征和第二语音样本的第二声纹特征之间的第一相似度；

处理单元，用于将所述第一相似度和目标语音质量因子输入相似度预测函数中，得到各语音样本对的预测结果，所述预测结果用于表征所述第一语音样本和所述第二语音样本属于同一个用户的概率，所述目标语音质量因子为基于所述第一语音样本的语音质量因子和所述第二语音样本的语音质量因子确定的；

16.一种用户身份识别装置，其特征在于，包括：

获取单元，用于获取待识别用户输入的待识别语音；

处理单元，用于将所述待识别语音和预设语音输入至声纹特征提取模型中，得到所述待识别语音对应的第一声纹特征和所述预设语音对应的第二声纹特征；

确定单元，用于确定所述第一声纹特征和所述第二声纹特征之间的第一相似度；根据所述待识别语音对应的语音质量因子调整所述第一相似度，得到第二相似度，所述语音质量因子用于表征所述待识别语音的语音质量；

17.一种电子设备，其特征在于，包括：存储器，处理器；

存储器；用于存储计算机程序；

所述处理器，用于读取所述存储器存储的计算机程序，并根据所述存储器中的计算机程序执行上述权利要求1-4任一项所述的声纹识别方法，或者，用于执行上述权利要求5-7任一项所述的声纹特征提取模型的训练方法，或者，用于执行上述权利要求8-11任一项所述的相似度调整参数的确定方法；或者，用于执行上述权利要求12所述的用户身份识别方法。

18.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-4任一项所述的声纹识别方法，或者，用于实现如权利要求5-7任一项所述的声纹特征提取模型的训练方法，或者，用于实现如权利要求8-11任一项所述的相似度调整参数的确定方法；或者，用于实现如权利要求12所述的用户身份识别方法。