CN112712099B

CN112712099B - 一种基于双层知识蒸馏说话人模型压缩***和方法

Info

Publication number: CN112712099B
Application number: CN202011079752.3A
Authority: CN
Inventors: 李入云; 宋丹丹; 欧阳鹏
Original assignee: Jiangsu Qingwei Intelligent Technology Co ltd
Current assignee: Jiangsu Qingwei Intelligent Technology Co ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2024-04-12
Anticipated expiration: 2040-10-10
Also published as: CN112712099A

Abstract

本发明公开一种基于双层知识蒸馏说话人模型压缩***和方法，属于立体匹配算法的实现方式技术领域。包括：Embedding层知识蒸馏指导学生网络模仿教师网络的段级说话人表示(说话人表征)，它捕获了每个说话人特征的基本分布。Logit层知识蒸馏引导学生网络模仿教师网络的说话人后验概率分布，利用了说话人类别之间的相似性。此方法从教师网络那里迁移了说话人表征分布的层次结构。本发明解决了现有技术中学生网络不能实现较小的说话人类内差异和较大的说话人类间差异，且相同说话人和不同说话人验证***的准确性较低的问题。

Description

一种基于双层知识蒸馏说话人模型压缩***和方法

技术领域

本发明属于基于双层知识蒸馏技术的模型压缩技术领域，尤其涉及一种基于双层知识蒸馏说话人模型压缩***和方法。

背景技术

近年来，随着计算资源和数据资源的日益丰富。基于深度神经网络的机器学***。然而，现有的说话人识别技术依赖于深度神经网络，昂贵的计算量和大量的内存占用阻碍了它们在内存资源较低的嵌入式设备中部署。因此，越来越多的研究关注在不显著降低模型性能的情况下，对深层网络进行模型压缩和加速。

为了压缩这些网络，知识蒸馏是一种常用的方法，其中大型网络(教师)提供加权目标以指导小型网络(学生)的训练。尽管事实证明知识蒸馏是在各种任务(例如图像分类，语音识别和说话者验证)中进行模型压缩的实用方法，但是以前的研究人员仅研究了单层知识蒸馏对说话人表征性能的影响，并且当压缩比例越来越大，这些方法不足以弥补大小模型之间的性能差距，要获得一名性能优于教师网络的学生网络仍然是一个挑战。

发明内容

本发明的目的是提供一种基于双层知识蒸馏说话人模型压缩***和方法，以解决现有技术中学生网络不能实现较小的说话人类内差异和较大的说话人类间差异，且相同说话人和不同说话人验证***的准确性较低的问题。

为了实现上述目的，本发明提供如下技术方案：

一种基于双层知识蒸馏说话人模型压缩方法，包括：

S101，训练一个教师模型，教师模型能够提取教师网络学习的说话人表征，教师模型能够预测教师网络学习的说话人后验概率分布。

S102，教师模型包括一个教师网络，教师网络包括表征层和后验概率层。

S103，通过知识蒸馏，利用教师模型对学生模型进行训练。学生模型包括一个学生网络，学生模型能够提取学生网络学习的说话人表征。

S104，双层知识蒸馏能够从教师网络中同时提取表征层和后验概率层的知识。

S105，通过教师网络学习的说话人表征进行表征层知识蒸馏。

S106，表征层知识蒸馏指导学生网络模仿教师网络的说话人表征。

S107，通过教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏。

S108，后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布。

S109，双层知识蒸馏能够将学生网络和教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中。

S110，双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性。通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异，从而最终提高说话人建模的准确性。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步地，表征层知识蒸馏能够得到教师网络对每个说话人表征的总体分布，从而直接指导学生网络说话人类内表征的收敛。

进一步地，从教师网络后验概率层的输出中提取知识，后验概率层知识蒸馏通过教师模型能够预测的后验分布指导学生模型的优化。后验概率层知识蒸馏能够学到说话人类别之间的相似性。

进一步地，从教师网络后验概率层的输出中提取知识。

进一步地，将教师网络后验概率层的输出作为标准，纳入学生网络损失函数的计算，引导学生模型参数的更新。

进一步地，后验概率层知识蒸馏通过教师模型预测的后验概率分布指导学生模型的优化。

进一步地，学生模型通过分类函数AM-loss引入参数m控制角度余量，学生模型在不同说话人类别的表征之间生成角度分类余量，学生模型能够使得正确分类的要求更为严格。

进一步地，总分类损失为表征层知识蒸馏的余弦距离损失、后验概率层知识蒸馏的KL散度损失和用于说话人分类的softmax损失。

一种基于双层知识蒸馏说话人模型压缩***，包括：

训练一个教师模型，教师模型能够提取教师网络学习的说话人表征，教师模型能够预测教师网络学习的说话人后验概率分布。

教师模型包括一个教师网络，教师网络包括表征层和后验概率层。

通过知识蒸馏，利用教师模型对学生模型进行训练。学生模型包括一个学生网络，学生模型能够提取学生网络学习的说话人表征。

双层知识蒸馏能够从教师网络中同时提取表征层和后验概率层的知识。

通过教师网络学习的说话人表征进行表征层知识蒸馏。

表征层知识蒸馏指导学生网络模仿教师网络的说话人表征。

通过教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏。

后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布。

双层知识蒸馏能够将学生网络和教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中。

双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性。通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异，从而最终提高说话人建模的准确性。

本发明具有如下优点：

本发明中的基于双层知识蒸馏说话人模型压缩***，Embedding层知识蒸馏指导学生网络模仿教师网络的段级说话人表示(说话人表征)，它捕获了每个说话人特征的基本分布。Logit层知识蒸馏引导学生网络模仿教师网络的说话人后验概率分布，利用了说话人类别之间的相似性。此方法从教师网络那里迁移了说话人表征分布的层次结构。双层知识蒸馏可以帮助学生网络实现较小的说话人类内差异和较大的说话人类间差异，并进一步提高相同说话人和不同说话人验证***的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于双层知识蒸馏说话人模型压缩方法的流程图。

图2为本发明的双层知识蒸馏方法流程图。

图3为本发明的双层知识蒸馏原理示意图。

图4为本发明的双层知识蒸馏原理示意图。

图5为本发明的双层知识蒸馏和原始单层知识蒸馏的对比数据示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-5所示，本发明实施例提供了一种基于双层知识蒸馏说话人模型压缩***，包括：

知识蒸馏的基本数学模型。知识蒸馏旨在将知识从大型教师网络T转移到小型学生网络S。训练学生网络来模仿教师网络的行为。这里HT和HS分别表示教师网络和学生网络的行为函数。这个行为函数将网络输入转换为一种信息表达，具体来说就是网络中任何层的输出。例如,HlS表示学生网络中层l的输出。学生网络的层l以通过映射函数f(l)，与教师网络中的层l’匹配，这意味着学生网络的层l可以从教师网络的层l’中学习信息。最后，通过最小化学生输出和教师输出的差异，学生可以很好的模仿教师网络的行为:

其中$x_{i}$表示第i个训练集样本。$\mathcal{L}_{l}$是指损失函数，它限制了学生的$l$层的输出与老师的$f(l)$层的输出之间的差异(例如，嵌入层或l_ogit层)。$\lambda_{l}$表示超参数，它表示第l$层进行蒸馏的重要性。$N$是训练样本的数量。$L$是指学生的总层数。

在学生网络和教师网络之间匹配适当的层以进行知识蒸馏并非易事。在大多数情况下，我们必须应对它们在宽度和深度上的差异。

S101，训练一个教师模型。

本步骤中，训练一个教师模型10，教师模型10能够提取教师网络学习的说话人表征，教师模型10能够预测教师网络学习的说话人后验概率分布。

基于双层知识蒸馏的模型压缩方法，将大的说话人模型作为教师模型10，蒸馏得到极小的学生模型20，同时保留教师模型10的性能。

S102，教师模型包括一个教师网络。

本步骤中，教师模型10包括一个教师网络，教师网络包括表征层和后验概率层。基于x-vector结构，从教师网络中选择表征层和后验概率层进行知识蒸馏。

S103，通过知识蒸馏，利用教师模型对学生模型进行训练。

本步骤中，通过知识蒸馏，利用教师模型10对学生模型20进行训练，学生模型20包括一个学生网络，学生模型20能够提取学生网络学习的说话人表征。

S104，双层知识蒸馏从教师网络中同时提取表征层和后验概率层的知识。

本步骤中，双层知识蒸馏能够从教师网络中同时提取表征层和后验概率层的知识。

S105，通过教师网络学习的说话人表征进行表征层知识蒸馏。

本步骤中，通过教师网络学习的说话人表征进行表征层知识蒸馏。

本步骤中，表征层知识蒸馏指导学生网络模仿教师网络的说话人表征。

本步骤中，通过教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏。

本步骤中，后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布。

本步骤中，双层知识蒸馏能够将学生网络和教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中。

S110，双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性。

本步骤中，双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性。通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异，从而最终提高说话人建模的准确性。

假设学生和教师网络产生相同维度的说话人表征，则Embedding表征层知识蒸馏通过余弦相似度，限制从教师和学生模型20中学到的说话人表征的相似性：

其中$H^{T}_{embd}(x_{i})$代表教师网络为第$i$个样本提取的嵌入。$H^{S}_{embd}(x_{i})$表示由学生网络计算的嵌入。符号的其他定义类似于公式\ref{eq：kd}。

如图5所示本发明的双层知识蒸馏和和原始单层知识蒸馏(Wang,Shuai,YexinYang,Tianzhe Wang,Yanmin Qian,and Kai Yu."Knowledge distillation for smallfoot-print deep speaker embedding."In ICASSP 2019-2019IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP),pp.6021-6025.IEEE,2019.)的对比数据如图5，测试集为小爱同学。

表征层知识蒸馏能够得到教师网络对每个说话人表征的总体分布，从而直接指导学生网络说话人类内表征的收敛。

对于说话人i，受到余弦相似度的限制，学生模型20提取的说话人表征Sspki向教师模型10提取的说话人表征Tspki收敛，从而使得学生模型20实现更小的类内差异。

从教师网络后验概率层的输出中提取知识，后验概率层知识蒸馏通过教师模型10能够预测的后验分布指导学生模型20的优化。后验概率层知识蒸馏能够学到说话人类别之间的相似性。

通过最小化教师网络和学生网络后验概率之间的KL散度：

其中$C$是训练集中的说话者人数。$\tilde{y}^i$是教师网络预测的第$i$个样本的后验者。${y}^i$是学生网络预测的第$i$个样本的后验者。符号的其他定义类似于公式\ref{eq：cos}。

后验概率是有价值的信息，可对不同类别之间的相关性进行编码。因而后验概率层知识蒸馏可以学到说话人类别之间的相似性。

如图2-3所示，可以看到后验概率层知识蒸馏增大了学生网络的类间差异。相似性高的说话人聚成一个子类。

从教师网络后验概率层的输出中提取知识。

将教师网络后验概率层的输出作为标准，纳入学生网络损失函数的计算，引导学生模型20参数的更新。

后验概率层知识蒸馏通过教师模型10预测的后验概率分布指导学生模型20的优化。

学生模型20通过分类函数AM-loss引入参数m控制角度余量，学生模型20在不同说话人类别的表征之间生成角度分类余量，学生模型20能够使得正确分类的要求更为严格。

总分类损失为表征层知识蒸馏的余弦距离损失、后验概率层知识蒸馏的KL散度损失和用于说话人分类的softmax损失。其中α和β是用于平衡这些损失的超参数，之后将在实验中对超参数的取值进行优化。

L_total＝L_A-softmax+αL_KLD+βL_COS

一种基于双层知识蒸馏说话人模型压缩***，包括：

训练一个教师模型10，教师模型10能够提取教师网络学习的说话人表征，教师模型10能够预测教师网络学习的说话人后验概率分布。

教师模型10包括一个教师网络，教师网络包括表征层和后验概率层。

通过知识蒸馏，利用教师模型10对学生模型20进行训练。学生模型20包括一个学生网络，学生模型20能够提取学生网络学习的说话人表征。

通过教师网络学习的说话人表征进行表征层知识蒸馏。

表征层知识蒸馏指导学生网络模仿教师网络的说话人表征。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于双层知识蒸馏说话人模型压缩方法，其特征在于，包括：

S101，训练一个教师模型，所述教师模型能够提取教师网络学习的说话人表征，所述教师模型能够预测教师网络学习的说话人后验概率分布；

S102，所述教师模型包括一个教师网络，所述教师网络包括表征层和后验概率层；

S103，通过知识蒸馏，利用所述教师模型对学生模型进行训练；所述学生模型包括一个学生网络，所述学生模型能够提取学生网络学习的说话人表征；

S104，所述双层知识蒸馏能够从所述教师网络中同时提取表征层和后验概率层的知识；

S105，通过所述教师网络学习的说话人表征进行表征层知识蒸馏；

S106，所述表征层知识蒸馏指导学生网络模仿教师网络的说话人表征；

S107，通过所述教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏；

S108，所述后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布；

S109，所述双层知识蒸馏能够将所述学生网络和所述教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中；

S110，所述双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性；通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异，从而最终提高说话人建模的准确性。

2.如权利要求1所述的基于双层知识蒸馏说话人模型压缩方法，其特征是，所述表征层知识蒸馏能够得到所述教师网络对每个说话人表征的总体分布，从而直接指导学生网络说话人类内表征的收敛。

3.如权利要求2所述的基于双层知识蒸馏说话人模型压缩方法，其特征是，从所述教师网络后验概率层的输出中提取知识，所述后验概率层知识蒸馏通过所述教师模型能够预测的后验分布指导所述学生模型的优化；所述后验概率层知识蒸馏能够学到说话人类别之间的相似性。

4.如权利要求3所述的基于双层知识蒸馏说话人模型压缩方法，其特征是，从所述教师网络后验概率层的输出中提取知识。

5.如权利要求4所述的基于双层知识蒸馏说话人模型压缩方法，其特征是，将所述教师网络后验概率层的输出作为标准，纳入所述学生网络损失函数的计算，引导所述学生模型参数的更新。

6.如权利要求5所述的基于双层知识蒸馏说话人模型压缩方法，其特征是，所述后验概率层知识蒸馏通过教师模型预测的后验概率分布指导所述学生模型的优化。

7.如权利要求6所述的基于双层知识蒸馏说话人模型压缩方法，其特征是，所述学生模型通过分类函数AM-loss引入参数m控制角度余量，所述学生模型在不同说话人类别的表征之间生成角度分类余量，所述学生模型能够使得正确分类的要求更为严格。

8.如权利要求7所述的基于双层知识蒸馏说话人模型压缩方法，其特征是，所述总分类损失为表征层知识蒸馏的余弦距离损失、后验概率层知识蒸馏的KL散度损失和用于说话人分类的softmax损失。

9.一种基于双层知识蒸馏说话人模型压缩***，其特征在于，包括：

训练一个教师模型，所述教师模型能够提取教师网络学习的说话人表征，所述教师模型能够预测教师网络学习的说话人后验概率分布；

所述教师模型包括一个教师网络，所述教师网络包括表征层和后验概率层；

通过知识蒸馏，利用所述教师模型对学生模型进行训练；所述学生模型包括一个学生网络，所述学生模型能够提取学生网络学习的说话人表征；

所述双层知识蒸馏能够从所述教师网络中同时提取表征层和后验概率层的知识；

通过所述教师网络学习的说话人表征进行表征层知识蒸馏；

所述表征层知识蒸馏指导学生网络模仿教师网络的说话人表征；

通过所述教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏；

所述后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布；

所述双层知识蒸馏能够将所述学生网络和所述教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中；

所述双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性；通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异，从而最终提高说话人建模的准确性。