CN111081256A

CN111081256A - 数字串声纹密码验证方法及***

Info

Publication number: CN111081256A
Application number: CN201911416538.XA
Authority: CN
Inventors: 黄厚军; 项煦; 钱彦旻
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-04-28

Abstract

本发明公开一种数字串声纹密码验证方法及***，方法包括：训练并获取背景模型。获取注册者音频中的数字串信息。获取当前解码音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理注册者音频获取当前音频的xvector声纹特征。若不匹配设定数字串信息，则结束或重新获取本步骤中当前解码音频中的数字串信息。根据说话人库中的对应注册xvector声纹特征对当前xvector声纹特征打分，获取打分值。根据打分值判断验证结果。本发明只需简单调整数字分类头，就可能可以在文本相关和文本无关声纹识别任务上使用，做成通用的声纹识别方案。

Description

数字串声纹密码验证方法及***

技术领域

本发明属于音频处理技术领域，尤其涉及数字串声纹密码验证方法及***。

背景技术

相关技术中，先将注册音频和测试音频中0～9十个数字对应的音频分开，分别提取表征向量如ivector，相同数字的上ivector进行相似度打分，所有数字的分数求平均得到注册音频和测试音频的说话人相似度得分。

目前市场上使用的这些技术，比较明显的缺陷有两个：一是容易造成注册音频中的信息利用不全；二是不能很好利用不同数字之间的联合信息。目前市场上的数字串声纹密码***是逐个数字进行的相似度打分，当测试音频中包含的不重复数字不同于注册音频时，必然会有些数字的ivector没有被利用，影响***性能。另外，背景模型的训练时是每个数字训练一个背景模型，每个数字的音频采用对应数字的背景模型提取ivector都没有联合到不同数字之间的信息，因而***难以达到最优性能。

发明人在实现本申请的过程中发现：本业内同行通常能想到的做法是用深度嵌入技术提取xvector替代ivector，提高表征向量的建模能力；同时注册音频里所有数字的xvector取平均，注册音频里所有数字提取的xvector取均值，两个均值向量进行说话人相似度打分。我们的方案在背景模型训练时，会用到多任务训练，联合多数字信息提取xvector，整个方案不容易实现。

发明内容

本发明实施例提供一种数字串声纹密码验证方法及***，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种数字串声纹密码验证方法，包括：

步骤S101，训练并获取背景模型。

步骤S102，获取注册者音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理注册者音频获取注册xvector声纹特征，根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息，则结束或重新获取本步骤中当前注册者音频中的数字串信息。

步骤S103，获取当前解码音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理测试者者音频获取当前xvector声纹特征。若不匹配设定数字串信息，则结束或重新获取本步骤中当前解码音频中的数字串信息。

步骤S104，根据说话人库中的对应注册xvector声纹特征对当前测试者xvector声纹特征打分，获取打分值。

步骤S105，判断打分值是否超过设定阈值，若是，则生成验证通过信息，若否，则生成验证失败信息。

在一种优选的实施方式中，步骤S101中训练并获取背景模型的步骤包括：

步骤S1011，获取训练集音频，训练集音频为具有多人语音的训练集音频。获取每个数字对应的多个时间段并获取数字标签。

步骤S1012，从训练集音频中根据多个时间段提取特征并通过深度卷积神经网络训练。将卷积训练后的结果经过第一全连接层输出，第一全连接层具有0～9个数字定义节点。将第一全连接层输出归一化并对应每个定义节点映射到多个超向量。

步骤S1013，对多个超向量求均值，再经过第二全连接层获取设定维度的xvector声纹特征。

在一种优选的实施方式中，步骤S1013中还包括：对于多人语音中的每个人的设定维度的xvector声纹特征，通过交叉熵损失函数将相同说话人的xvector之间的距离变小，不同说话人的xvector之间的距离变大。

在一种优选的实施方式中，步骤S1011中还包括：通过数字标签获取数字分类头损失函数。

通过训练集音频获取说话人标签。根据说话人标签获取说话人分类损失函数。

步骤S1013后还包括：

步骤S1014，通过数字分类头损失函数及说话人分类损失函数获取***总损失函数。

第二方面，本发明实施例提供一种数字串声纹密码的验证***，其包括：

训练单元，其配置为训练并获取背景模型。

注册单元，其配置为获取注册者音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理注册者音频获取注册xvector声纹特征，根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息，则结束或重新获取本步骤中当前注册者音频中的数字串信息。

验证单元，其配置为获取当前解码音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理测试者音频获取当前xvector声纹特征。若不匹配设定数字串信息，则结束或重新获取本步骤中当前解码音频中的数字串信息。

打分单元，其配置为根据说话人库中的对应注册xvector声纹特征对当前测试者xvector声纹特征打分，获取打分值。

结果输出单元，其配置为判断打分值是否超过设定阈值，若是，则生成验证通过信息，若否，则生成验证失败信息。

在本***的一种优选的实施方式中，训练单元还配置为：

获取训练集音频，训练集音频为具有多人语音的训练集音频。获取每个数字对应的多个时间段并获取数字标签。

从训练集音频中根据多个时间段提取特征并通过深度卷积神经网络训练。将卷积训练后的结果经过第一全连接层输出，第一全连接层具有0～9个数字定义节点。将第一全连接层输出归一化并对应每个定义节点映射到多个超向量。

对多个超向量求均值，再经过第二全连接层获取设定维度的xvector声纹特征。

在本***的一种优选的实施方式中，训练单元还配置为：对于多人语音中的每个人的设定维度的xvector声纹特征，通过交叉熵损失函数将相同说话人的xvector之间的距离变小，不同说话人的xvector之间的距离变大。

在本***的一种优选的实施方式中，训练单元还配置为：通过数字标签获取数字分类头损失函数。

通过数字分类头损失函数及说话人分类损失函数获取***总损失函数。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本发明任一实施例的方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行本发明任一实施例的方法的步骤。

本申请目前只是在数字串声纹密码***上使用，而实际上唤醒词相关声纹，只是将0～9十个数字换成了唤醒词内容。文本无关声纹也可以将音频中所有字枚举出来。从这样的角度来看，该方案只需简单调整数字分类头，就可能可以在文本相关和文本无关声纹识别任务上使用，做成通用的声纹识别方案。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种数字串声纹密码验证方法的流程图；

图2为本发明一实施例提供的数字串声纹密码***方案流程图；

图3为本发明一实施例提供的说话人识别中的背景模型示意图；

图4为本发明一实施例提供的一种数字串声纹密码验证***的组成框图；

图5是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面，先介绍本申请的实施方式，之后将用实验数据证实本申请的方案与现有技术相比有什么不同，能实现什么有益效果。

请参考图1，其示出了本申请的数字串声纹密码验证方法的流程图。

步骤S101，训练并获取背景模型。

步骤S102，获取注册xvector声纹特征。

本步骤中，获取注册者音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理注册者音频获取注册xvector声纹特征，根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息，则结束或重新获取本步骤中当前注册者音频中的数字串信息。

步骤S103，获取当前xvector声纹特征。

本步骤中，获取当前解码音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理测试者音频获取当前xvector声纹特征。若不匹配设定数字串信息，则结束或重新获取本步骤中当前解码音频中的数字串信息。

步骤S104，获取打分值。

本步骤中，根据说话人库中的对应注册xvector声纹特征对当前测试者xvector声纹特征打分，获取打分值。

步骤S105，判断打分值是否超过设定阈值。

判断打分值是否超过设定阈值，若是，则生成验证通过信息，若否，则生成验证失败信息。

步骤S1013后还包括：

采用以下的技术方案解决问题：本方案中，采用深度卷积神经网络和批量归一化操作，将卷积操作后的结果经过一个全连接层，该全连接层的输出节点表示0～9十个数字，输出进行softmax。根据每个卷积层输出向量在这10个节点上的输出，将它们映射到一个超向量，对这些超向量求均值，再经过另一个全连接层得到固定维度的xvector，采用交叉熵损失函数将相同说话人的xvector之间的距离变小，不同说话人的xvector之间的距离变大。然后对注册音频的xvector和测试音频的xvector求余弦距离，表示他们之间的说话人相似度。

整个***的流程图如图2所示，声纹识别***分为声纹注册过程和声纹识别过程。

在声纹注册阶段，***提示用户一个随机生成的数字串，用户读出该数字串。设备端麦克风采集到用户语音后，采用语音活动点检测(Voice Activity detection，VAD)截出用户说话的音频，送入数字串识别器。如果数字串识别器识别结果与***提示数字串一致，则将音频送入xvector提取模块，提取出xvector放入说话人数据库；否则注册失败，注册流程结束。

在声纹识别阶段，***提示用户一个随机生成的数字串，用户读出该数字串，设备端麦克风采集到用户语音后，采用VAD截出用户说话的音频，送入数字串识别器。如果数字串识别器识别结果与***提示数字串不一致，测试流程结束。如果数字串识别器识别结果与***提示数字串一致，将音频送入xvector提取器提取xvector，然后与数据库中说话人注册人speakerA的xvector进行余弦距离打分，如果得分高于阈值则判断当前测试人是speakerA，否则不是。

整个***中的核心组件是xvector提取器,即说话人识别中的背景模型示意图图如图3所示。

如图3所示，在训练背景模型过程中，每条训练数据需要包含音频、音频中每个数字对应的时间段和说话人标签。我们的模型包含两个分类头，分别如图3中91框中部分，其中一个头对音频中的数字进行分类，另外一个头则是对说话人进行分类。背景模型训练过程中，数字分类头的损失函数与说话人分类都的损失函数的和作为***总损失函数进行优化。

说话人注册和测试时，音频提取的FBANK特征，先经过多层卷积神经网络，然后根据数字分类的输出和卷积层输出联合计算超向量，再经过一个全连接层映射到xvector，在这个过程中可以很好的联合利用不同数字的信息，提高说话人识别的效果。

请参考图4，其示出了本发明一实施例提供的一种数字串声纹密码的验证***，其包括：

训练单元101，其配置为训练并获取背景模型。

注册单元102，其配置为获取注册者音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理注册者音频获取注册xvector声纹特征，根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息，则结束或重新获取本步骤中当前注册者音频中的数字串信息。

验证单元103，其配置为获取当前解码音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理测试者者音频获取当前xvector声纹特征。若不匹配设定数字串信息，则结束或重新获取本步骤中当前解码音频中的数字串信息。

打分单元104，其配置为根据说话人库中的对应注册xvector声纹特征对当前xvector声纹特征打分，获取打分值。

结果输出单元105，其配置为判断打分值是否超过设定阈值，若是，则生成验证通过信息，若否，则生成验证失败信息。

在本***的一种优选的实施方式中，训练单元还配置为：

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音信号处理和使用方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

训练并获取背景模型。

获取注册者音频中的数字串信息。若匹配设定数字串信息，则通过背景模型识别注册者音频获取注册xvector声纹特征，根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息，则结束或重新获取本步骤中当前注册者音频中的数字串信息。

获取当前解码音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理注册者音频获取当前xvector声纹特征。若不匹配设定数字串信息，则结束或重新获取本步骤中当前解码音频中的数字串信息。

根据说话人库中的对应注册xvector声纹特征对当前测试者xvector声纹特征打分，获取打分值。

基于训练并获取背景模型的步骤包括：步骤S1011，获取训练集音频，训练集音频为具有多人语音的训练集音频。获取每个数字对应的时间段并获取数字标签。步骤S1012，从训练集音频中根据时间段提取特征并通过深度卷积神经网络训练。将卷积训练后的结果经过第一全连接层输出，第一全连接层具有0～9个数字定义节点。将第一全连接层输出归一化并对应每个定义节点映射到多个超向量。步骤S1013，对多个超向量求均值，再经过第二全连接层获取设定维度的xvector声纹特征。

基于步骤S1013中还包括：对于多人语音中的每个人的设定维度的xvector声纹特征，通过交叉熵损失函数将相同说话人的xvector之间的距离变小，不同说话人的xvector之间的距离变大。

基于步骤S1011中还包括：通过数字标签获取数字分类头损失函数。

通过训练集音频获取说话人标签。根据说话人标签获取说话人分类损失函数。步骤S1013后还包括：步骤S1014，通过数字分类头损失函数及说话人分类损失函数获取***总损失函数。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的数字串声纹密码验证方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的数字串声纹密码验证方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据语音信号处理装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音信号处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项数字串声纹密码验证方法。

图5是本发明实施例提供的电子设备的结构示意图，如图5所示，该设备包括：一个或多个处理器510以及存储器520，图5中以一个处理器510为例。数字串声纹密码验证方法的设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例数字串声纹密码验证方法。输入装置530可接收输入的数字或字符信息，以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备可以应用于智能语音对话平台中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

训练并获取背景模型。

获取注册者音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理注册者音频获取注册xvector声纹特征，根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息，则结束或重新获取本步骤中当前注册者音频中的数字串信息。

获取当前解码音频中的数字串信息。若匹配设定数字串信息，则通过背景模型处理测试者音频获取当前xvector声纹特征。若不匹配设定数字串信息，则结束或重新获取本步骤中当前解码音频中的数字串信息。

基于训练并获取背景模型的步骤包括：步骤S1011，获取训练集音频，训练集音频为具有多人语音的训练集音频。获取每个数字对应的多个时间段并获取数字标签。步骤S1012，从训练集音频中根据多个时间段提取特征并通过深度卷积神经网络训练。将卷积训练后的结果经过第一全连接层输出，第一全连接层具有0～9个数字定义节点。将第一全连接层输出归一化并对应每个定义节点映射到多个超向量。步骤S1013，对多个超向量求均值，再经过第二全连接层获取设定维度的xvector声纹特征。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数字串声纹密码的验证方法，包括：

步骤S101，训练并获取背景模型；

步骤S102，获取注册者音频中的数字串信息；若匹配设定数字串信息，则通过所述背景模型处理所述注册者音频获取注册xvector声纹特征，根据所述注册xvector声纹特征建立说话人库；若不匹配所述设定数字串信息，则结束或重新获取本步骤中所述当前注册者音频中的数字串信息；

步骤S103，获取当前解码音频中的数字串信息；若匹配所述设定数字串信息，则通过所述背景模型处理所述测试者音频获取当前xvector声纹特征；若不匹配所述设定数字串信息，则结束或重新获取本步骤中所述当前解码音频中的数字串信息；

步骤S104，根据所述说话人库中的对应注册xvector声纹特征对所述当前测试者xvector声纹特征打分，获取打分值；

步骤S105，判断所述打分值是否超过设定阈值，若是，则生成验证通过信息，若否，则生成验证失败信息。

2.根据权利要求1所述的验证方法，其中，所述步骤S101中所述训练并获取背景模型的步骤包括：

步骤S1011，获取训练集音频，所述训练集音频为具有多人语音的训练集音频；获取每个数字对应的时间段并获取数字标签；

步骤S1012，从所述训练集音频中根据所述时间段提取特征并通过深度卷积神经网络训练；将卷积训练后的结果经过第一全连接层输出，所述第一全连接层具有0～9个数字定义节点；将所述第一全连接层输出归一化并对应每个定义节点映射到多个超向量；

步骤S1013，对所述多个超向量求均值，再经过第二全连接层获取设定维度的xvector声纹特征。

3.根据权利要求2所述的验证方法，其中，所述步骤S1013中还包括：对于多人语音中的每个人的设定维度的xvector声纹特征，通过交叉熵损失函数将相同说话人的xvector之间的距离变小，不同说话人的xvector之间的距离变大。

4.根据权利要求2或3所述的验证方法，其中，所述步骤S1011中还包括：通过所述数字标签获取数字分类头损失函数；

通过训练集音频获取说话人标签；根据所述说话人标签获取说话人分类损失函数；

所述步骤S1013后还包括：

步骤S1014，通过数字分类头损失函数及所述说话人分类损失函数获取***总损失函数。

5.一种数字串声纹密码的验证***，其包括：

训练单元，其配置为训练并获取背景模型；

注册单元，其配置为获取注册者音频中的数字串信息；若匹配设定数字串信息，则通过所述背景模型处理所述注册者音频获取注册xvector声纹特征，根据所述注册xvector声纹特征建立说话人库；若不匹配所述设定数字串信息，则结束或重新获取本步骤中所述当前注册者音频中的数字串信息；

验证单元，其配置为获取当前解码音频中的数字串信息；若匹配所述设定数字串信息，则通过所述背景模型处理所述测试者音频获取当前xvector声纹特征；若不匹配所述设定数字串信息，则结束或重新获取本步骤中所述当前解码音频中的数字串信息；

打分单元，其配置为根据所述说话人库中的对应注册xvector声纹特征对所述当前测试者xvector声纹特征打分，获取打分值；

结果输出单元，其配置为判断所述打分值是否超过设定阈值，若是，则生成验证通过信息，若否，则生成验证失败信息。

6.根据权利要求5所述的验证***，其中，所述训练单元还配置为：

获取训练集音频，所述训练集音频为具有多人语音的训练集音频；获取每个数字对应的时间段并获取数字标签；

从所述训练集音频中根据所述时间段提取特征并通过深度卷积神经网络训练；将卷积训练后的结果经过第一全连接层输出，所述第一全连接层具有0～9个数字定义节点；将所述第一全连接层输出归一化并对应每个定义节点映射到多个超向量；

对所述多个超向量求均值，再经过第二全连接层获取设定维度的xvector声纹特征。

7.根据权利要求6所述的验证***，其中，所述训练单元还配置为：对于多人语音中的每个人的设定维度的xvector声纹特征，通过交叉熵损失函数将相同说话人的xvector之间的距离变小，不同说话人的xvector之间的距离变大。

8.根据权利要求6或7所述的验证***，其中，所述训练单元还配置为：通过所述数字标签获取数字分类头损失函数；

通过数字分类头损失函数及所述说话人分类损失函数获取***总损失函数。