CN112712099B - 一种基于双层知识蒸馏说话人模型压缩***和方法 - Google Patents

一种基于双层知识蒸馏说话人模型压缩***和方法 Download PDF

Info

Publication number
CN112712099B
CN112712099B CN202011079752.3A CN202011079752A CN112712099B CN 112712099 B CN112712099 B CN 112712099B CN 202011079752 A CN202011079752 A CN 202011079752A CN 112712099 B CN112712099 B CN 112712099B
Authority
CN
China
Prior art keywords
speaker
layer
teacher
network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011079752.3A
Other languages
English (en)
Other versions
CN112712099A (zh
Inventor
李入云
宋丹丹
欧阳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Qingwei Intelligent Technology Co ltd
Original Assignee
Jiangsu Qingwei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Qingwei Intelligent Technology Co ltd filed Critical Jiangsu Qingwei Intelligent Technology Co ltd
Priority to CN202011079752.3A priority Critical patent/CN112712099B/zh
Publication of CN112712099A publication Critical patent/CN112712099A/zh
Application granted granted Critical
Publication of CN112712099B publication Critical patent/CN112712099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于双层知识蒸馏说话人模型压缩***和方法,属于立体匹配算法的实现方式技术领域。包括:Embedding层知识蒸馏指导学生网络模仿教师网络的段级说话人表示(说话人表征),它捕获了每个说话人特征的基本分布。Logit层知识蒸馏引导学生网络模仿教师网络的说话人后验概率分布,利用了说话人类别之间的相似性。此方法从教师网络那里迁移了说话人表征分布的层次结构。本发明解决了现有技术中学生网络不能实现较小的说话人类内差异和较大的说话人类间差异,且相同说话人和不同说话人验证***的准确性较低的问题。

Description

一种基于双层知识蒸馏说话人模型压缩***和方法
技术领域
本发明属于基于双层知识蒸馏技术的模型压缩技术领域,尤其涉及一种基于双层知识蒸馏说话人模型压缩***和方法。
背景技术
近年来,随着计算资源和数据资源的日益丰富。基于深度神经网络的机器学***。然而,现有的说话人识别技术依赖于深度神经网络,昂贵的计算量和大量的内存占用阻碍了它们在内存资源较低的嵌入式设备中部署。因此,越来越多的研究关注在不显著降低模型性能的情况下,对深层网络进行模型压缩和加速。
为了压缩这些网络,知识蒸馏是一种常用的方法,其中大型网络(教师)提供加权目标以指导小型网络(学生)的训练。尽管事实证明知识蒸馏是在各种任务(例如图像分类,语音识别和说话者验证)中进行模型压缩的实用方法,但是以前的研究人员仅研究了单层知识蒸馏对说话人表征性能的影响,并且当压缩比例越来越大,这些方法不足以弥补大小模型之间的性能差距,要获得一名性能优于教师网络的学生网络仍然是一个挑战。
发明内容
本发明的目的是提供一种基于双层知识蒸馏说话人模型压缩***和方法,以解决现有技术中学生网络不能实现较小的说话人类内差异和较大的说话人类间差异,且相同说话人和不同说话人验证***的准确性较低的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于双层知识蒸馏说话人模型压缩方法,包括:
S101,训练一个教师模型,教师模型能够提取教师网络学习的说话人表征,教师模型能够预测教师网络学习的说话人后验概率分布。
S102,教师模型包括一个教师网络,教师网络包括表征层和后验概率层。
S103,通过知识蒸馏,利用教师模型对学生模型进行训练。学生模型包括一个学生网络,学生模型能够提取学生网络学习的说话人表征。
S104,双层知识蒸馏能够从教师网络中同时提取表征层和后验概率层的知识。
S105,通过教师网络学习的说话人表征进行表征层知识蒸馏。
S106,表征层知识蒸馏指导学生网络模仿教师网络的说话人表征。
S107,通过教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏。
S108,后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布。
S109,双层知识蒸馏能够将学生网络和教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中。
S110,双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性。通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异,从而最终提高说话人建模的准确性。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,表征层知识蒸馏能够得到教师网络对每个说话人表征的总体分布,从而直接指导学生网络说话人类内表征的收敛。
进一步地,从教师网络后验概率层的输出中提取知识,后验概率层知识蒸馏通过教师模型能够预测的后验分布指导学生模型的优化。后验概率层知识蒸馏能够学到说话人类别之间的相似性。
进一步地,从教师网络后验概率层的输出中提取知识。
进一步地,将教师网络后验概率层的输出作为标准,纳入学生网络损失函数的计算,引导学生模型参数的更新。
进一步地,后验概率层知识蒸馏通过教师模型预测的后验概率分布指导学生模型的优化。
进一步地,学生模型通过分类函数AM-loss引入参数m控制角度余量,学生模型在不同说话人类别的表征之间生成角度分类余量,学生模型能够使得正确分类的要求更为严格。
进一步地,总分类损失为表征层知识蒸馏的余弦距离损失、后验概率层知识蒸馏的KL散度损失和用于说话人分类的softmax损失。
一种基于双层知识蒸馏说话人模型压缩***,包括:
训练一个教师模型,教师模型能够提取教师网络学习的说话人表征,教师模型能够预测教师网络学习的说话人后验概率分布。
教师模型包括一个教师网络,教师网络包括表征层和后验概率层。
通过知识蒸馏,利用教师模型对学生模型进行训练。学生模型包括一个学生网络,学生模型能够提取学生网络学习的说话人表征。
双层知识蒸馏能够从教师网络中同时提取表征层和后验概率层的知识。
通过教师网络学习的说话人表征进行表征层知识蒸馏。
表征层知识蒸馏指导学生网络模仿教师网络的说话人表征。
通过教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏。
后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布。
双层知识蒸馏能够将学生网络和教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中。
双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性。通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异,从而最终提高说话人建模的准确性。
本发明具有如下优点:
本发明中的基于双层知识蒸馏说话人模型压缩***,Embedding层知识蒸馏指导学生网络模仿教师网络的段级说话人表示(说话人表征),它捕获了每个说话人特征的基本分布。Logit层知识蒸馏引导学生网络模仿教师网络的说话人后验概率分布,利用了说话人类别之间的相似性。此方法从教师网络那里迁移了说话人表征分布的层次结构。双层知识蒸馏可以帮助学生网络实现较小的说话人类内差异和较大的说话人类间差异,并进一步提高相同说话人和不同说话人验证***的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于双层知识蒸馏说话人模型压缩方法的流程图。
图2为本发明的双层知识蒸馏方法流程图。
图3为本发明的双层知识蒸馏原理示意图。
图4为本发明的双层知识蒸馏原理示意图。
图5为本发明的双层知识蒸馏和原始单层知识蒸馏的对比数据示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-5所示,本发明实施例提供了一种基于双层知识蒸馏说话人模型压缩***,包括:
知识蒸馏的基本数学模型。知识蒸馏旨在将知识从大型教师网络T转移到小型学生网络S。训练学生网络来模仿教师网络的行为。这里HT和HS分别表示教师网络和学生网络的行为函数。这个行为函数将网络输入转换为一种信息表达,具体来说就是网络中任何层的输出。例如,HlS表示学生网络中层l的输出。学生网络的层l以通过映射函数f(l),与教师网络中的层l’匹配,这意味着学生网络的层l可以从教师网络的层l’中学习信息。最后,通过最小化学生输出和教师输出的差异,学生可以很好的模仿教师网络的行为:
其中$x_{i}$表示第i个训练集样本。$\mathcal{L}_{l}$是指损失函数,它限制了学生的$l$层的输出与老师的$f(l)$层的输出之间的差异(例如,嵌入层或logit层)。$\lambda_{l}$表示超参数,它表示第l$层进行蒸馏的重要性。$N$是训练样本的数量。$L$是指学生的总层数。
在学生网络和教师网络之间匹配适当的层以进行知识蒸馏并非易事。在大多数情况下,我们必须应对它们在宽度和深度上的差异。
S101,训练一个教师模型。
本步骤中,训练一个教师模型10,教师模型10能够提取教师网络学习的说话人表征,教师模型10能够预测教师网络学习的说话人后验概率分布。
基于双层知识蒸馏的模型压缩方法,将大的说话人模型作为教师模型10,蒸馏得到极小的学生模型20,同时保留教师模型10的性能。
S102,教师模型包括一个教师网络。
本步骤中,教师模型10包括一个教师网络,教师网络包括表征层和后验概率层。基于x-vector结构,从教师网络中选择表征层和后验概率层进行知识蒸馏。
S103,通过知识蒸馏,利用教师模型对学生模型进行训练。
本步骤中,通过知识蒸馏,利用教师模型10对学生模型20进行训练,学生模型20包括一个学生网络,学生模型20能够提取学生网络学习的说话人表征。
S104,双层知识蒸馏从教师网络中同时提取表征层和后验概率层的知识。
本步骤中,双层知识蒸馏能够从教师网络中同时提取表征层和后验概率层的知识。
S105,通过教师网络学习的说话人表征进行表征层知识蒸馏。
本步骤中,通过教师网络学习的说话人表征进行表征层知识蒸馏。
S106,表征层知识蒸馏指导学生网络模仿教师网络的说话人表征。
本步骤中,表征层知识蒸馏指导学生网络模仿教师网络的说话人表征。
S107,通过教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏。
本步骤中,通过教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏。
S108,后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布。
本步骤中,后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布。
S109,双层知识蒸馏能够将学生网络和教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中。
本步骤中,双层知识蒸馏能够将学生网络和教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中。
S110,双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性。
本步骤中,双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性。通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异,从而最终提高说话人建模的准确性。
假设学生和教师网络产生相同维度的说话人表征,则Embedding表征层知识蒸馏通过余弦相似度,限制从教师和学生模型20中学到的说话人表征的相似性:
其中\(H^{T}_{embd}(x_{i})\)代表教师网络为第$i$个样本提取的嵌入。\(H^{S}_{embd}(x_{i})\)表示由学生网络计算的嵌入。符号的其他定义类似于公式\ref{eq:kd}。
如图5所示本发明的双层知识蒸馏和和原始单层知识蒸馏(Wang,Shuai,YexinYang,Tianzhe Wang,Yanmin Qian,and Kai Yu."Knowledge distillation for smallfoot-print deep speaker embedding."In ICASSP 2019-2019IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP),pp.6021-6025.IEEE,2019.)的对比数据如图5,测试集为小爱同学。
表征层知识蒸馏能够得到教师网络对每个说话人表征的总体分布,从而直接指导学生网络说话人类内表征的收敛。
对于说话人i,受到余弦相似度的限制,学生模型20提取的说话人表征Sspki向教师模型10提取的说话人表征Tspki收敛,从而使得学生模型20实现更小的类内差异。
从教师网络后验概率层的输出中提取知识,后验概率层知识蒸馏通过教师模型10能够预测的后验分布指导学生模型20的优化。后验概率层知识蒸馏能够学到说话人类别之间的相似性。
通过最小化教师网络和学生网络后验概率之间的KL散度:
其中\(C\)是训练集中的说话者人数。\(\tilde{y}^i\)是教师网络预测的第$i$个样本的后验者。\({y}^i\)是学生网络预测的第$i$个样本的后验者。符号的其他定义类似于公式\ref{eq:cos}。
后验概率是有价值的信息,可对不同类别之间的相关性进行编码。因而后验概率层知识蒸馏可以学到说话人类别之间的相似性。
如图2-3所示,可以看到后验概率层知识蒸馏增大了学生网络的类间差异。相似性高的说话人聚成一个子类。
从教师网络后验概率层的输出中提取知识。
将教师网络后验概率层的输出作为标准,纳入学生网络损失函数的计算,引导学生模型20参数的更新。
后验概率层知识蒸馏通过教师模型10预测的后验概率分布指导学生模型20的优化。
学生模型20通过分类函数AM-loss引入参数m控制角度余量,学生模型20在不同说话人类别的表征之间生成角度分类余量,学生模型20能够使得正确分类的要求更为严格。
总分类损失为表征层知识蒸馏的余弦距离损失、后验概率层知识蒸馏的KL散度损失和用于说话人分类的softmax损失。其中α和β是用于平衡这些损失的超参数,之后将在实验中对超参数的取值进行优化。
Ltotal=LA-softmax+αLKLD+βLCOS
一种基于双层知识蒸馏说话人模型压缩***,包括:
训练一个教师模型10,教师模型10能够提取教师网络学习的说话人表征,教师模型10能够预测教师网络学习的说话人后验概率分布。
教师模型10包括一个教师网络,教师网络包括表征层和后验概率层。
通过知识蒸馏,利用教师模型10对学生模型20进行训练。学生模型20包括一个学生网络,学生模型20能够提取学生网络学习的说话人表征。
双层知识蒸馏能够从教师网络中同时提取表征层和后验概率层的知识。
通过教师网络学习的说话人表征进行表征层知识蒸馏。
表征层知识蒸馏指导学生网络模仿教师网络的说话人表征。
通过教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏。
后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布。
双层知识蒸馏能够将学生网络和教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中。
双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性。通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异,从而最终提高说话人建模的准确性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于双层知识蒸馏说话人模型压缩方法,其特征在于,包括:
S101,训练一个教师模型,所述教师模型能够提取教师网络学习的说话人表征,所述教师模型能够预测教师网络学习的说话人后验概率分布;
S102,所述教师模型包括一个教师网络,所述教师网络包括表征层和后验概率层;
S103,通过知识蒸馏,利用所述教师模型对学生模型进行训练;所述学生模型包括一个学生网络,所述学生模型能够提取学生网络学习的说话人表征;
S104,所述双层知识蒸馏能够从所述教师网络中同时提取表征层和后验概率层的知识;
S105,通过所述教师网络学习的说话人表征进行表征层知识蒸馏;
S106,所述表征层知识蒸馏指导学生网络模仿教师网络的说话人表征;
S107,通过所述教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏;
S108,所述后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布;
S109,所述双层知识蒸馏能够将所述学生网络和所述教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中;
S110,所述双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性;通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异,从而最终提高说话人建模的准确性。
2.如权利要求1所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,所述表征层知识蒸馏能够得到所述教师网络对每个说话人表征的总体分布,从而直接指导学生网络说话人类内表征的收敛。
3.如权利要求2所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,从所述教师网络后验概率层的输出中提取知识,所述后验概率层知识蒸馏通过所述教师模型能够预测的后验分布指导所述学生模型的优化;所述后验概率层知识蒸馏能够学到说话人类别之间的相似性。
4.如权利要求3所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,从所述教师网络后验概率层的输出中提取知识。
5.如权利要求4所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,将所述教师网络后验概率层的输出作为标准,纳入所述学生网络损失函数的计算,引导所述学生模型参数的更新。
6.如权利要求5所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,所述后验概率层知识蒸馏通过教师模型预测的后验概率分布指导所述学生模型的优化。
7.如权利要求6所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,所述学生模型通过分类函数AM-loss引入参数m控制角度余量,所述学生模型在不同说话人类别的表征之间生成角度分类余量,所述学生模型能够使得正确分类的要求更为严格。
8.如权利要求7所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,所述总分类损失为表征层知识蒸馏的余弦距离损失、后验概率层知识蒸馏的KL散度损失和用于说话人分类的softmax损失。
9.一种基于双层知识蒸馏说话人模型压缩***,其特征在于,包括:
训练一个教师模型,所述教师模型能够提取教师网络学习的说话人表征,所述教师模型能够预测教师网络学习的说话人后验概率分布;
所述教师模型包括一个教师网络,所述教师网络包括表征层和后验概率层;
通过知识蒸馏,利用所述教师模型对学生模型进行训练;所述学生模型包括一个学生网络,所述学生模型能够提取学生网络学习的说话人表征;
所述双层知识蒸馏能够从所述教师网络中同时提取表征层和后验概率层的知识;
通过所述教师网络学习的说话人表征进行表征层知识蒸馏;
所述表征层知识蒸馏指导学生网络模仿教师网络的说话人表征;
通过所述教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏;
所述后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布;
所述双层知识蒸馏能够将所述学生网络和所述教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中;
所述双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性;通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异,从而最终提高说话人建模的准确性。
CN202011079752.3A 2020-10-10 2020-10-10 一种基于双层知识蒸馏说话人模型压缩***和方法 Active CN112712099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011079752.3A CN112712099B (zh) 2020-10-10 2020-10-10 一种基于双层知识蒸馏说话人模型压缩***和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011079752.3A CN112712099B (zh) 2020-10-10 2020-10-10 一种基于双层知识蒸馏说话人模型压缩***和方法

Publications (2)

Publication Number Publication Date
CN112712099A CN112712099A (zh) 2021-04-27
CN112712099B true CN112712099B (zh) 2024-04-12

Family

ID=75541647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011079752.3A Active CN112712099B (zh) 2020-10-10 2020-10-10 一种基于双层知识蒸馏说话人模型压缩***和方法

Country Status (1)

Country Link
CN (1) CN112712099B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361396B (zh) * 2021-06-04 2023-12-26 思必驰科技股份有限公司 多模态的知识蒸馏方法及***
CN113849641B (zh) * 2021-09-26 2023-10-24 中山大学 一种跨领域层次关系的知识蒸馏方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637546A (zh) * 2018-12-29 2019-04-16 苏州思必驰信息科技有限公司 知识蒸馏方法和装置
GB201908574D0 (en) * 2019-06-14 2019-07-31 Vision Semantics Ltd Optimised machine learning
EP3598343A1 (en) * 2018-07-17 2020-01-22 Nokia Technologies Oy Method and apparatus for processing audio data
CN111599373A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种降噪模型的压缩方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3598343A1 (en) * 2018-07-17 2020-01-22 Nokia Technologies Oy Method and apparatus for processing audio data
CN109637546A (zh) * 2018-12-29 2019-04-16 苏州思必驰信息科技有限公司 知识蒸馏方法和装置
GB201908574D0 (en) * 2019-06-14 2019-07-31 Vision Semantics Ltd Optimised machine learning
CN111599373A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种降噪模型的压缩方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Knowledge Distillation and Random Erasing Data Augmentation for Text-Dependent Speaker Verification;Victoria Mingote 等;ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);全文 *
Knowledge Distillation for Small Foot-print Deep Speaker Embedding;Shuai Wang 等;ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);全文 *

Also Published As

Publication number Publication date
CN112712099A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN112071329B (zh) 一种多人的语音分离方法、装置、电子设备和存储介质
Settle et al. Discriminative acoustic word embeddings: Tecurrent neural network-based approaches
Zhang et al. Top-down tree long short-term memory networks
Huang et al. Speech emotion recognition from variable-length inputs with triplet loss function.
Markov et al. Robust speech recognition using generalized distillation framework.
CN108255805A (zh) 舆情分析方法及装置、存储介质、电子设备
CN111353029B (zh) 一种基于语义匹配的多轮对话口语理解方法
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN110110318B (zh) 基于循环神经网络的文本隐写检测方法及***
Fang et al. Channel adversarial training for cross-channel text-independent speaker recognition
CN112712099B (zh) 一种基于双层知识蒸馏说话人模型压缩***和方法
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN105139864A (zh) 语音识别方法和装置
CN104217226A (zh) 基于深度神经网络与条件随机场的对话行为识别方法
CN104200814A (zh) 基于语义细胞的语音情感识别方法
Chen et al. Distilled binary neural network for monaural speech separation
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
Zhou et al. ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN116341558A (zh) 一种基于多层级图神经网络的多模态情感识别方法及模型
CN110633689A (zh) 基于半监督注意力网络的人脸识别模型
CN116205227A (zh) 一种基于变分推断理论的关键词生成方法及***
CN115795010A (zh) 一种外部知识辅助的多因素层次建模共情对话生成方法
CN116229939A (zh) 基于Transformer的视听融合机器人唤醒词识别方法及装置
CN114758676A (zh) 一种基于深度残差收缩网络的多模态情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Ruyun

Inventor after: Song Dandan

Inventor after: OuYang Peng

Inventor before: Li Ruyun

Inventor before: Song Dandan

Inventor before: OuYang Peng

Inventor before: Yin Shouyi

GR01 Patent grant
GR01 Patent grant