CN114067819B - 基于跨层相似性知识蒸馏的语音增强方法 - Google Patents

基于跨层相似性知识蒸馏的语音增强方法 Download PDF

Info

Publication number
CN114067819B
CN114067819B CN202111385676.3A CN202111385676A CN114067819B CN 114067819 B CN114067819 B CN 114067819B CN 202111385676 A CN202111385676 A CN 202111385676A CN 114067819 B CN114067819 B CN 114067819B
Authority
CN
China
Prior art keywords
model
layer
distillation
student
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111385676.3A
Other languages
English (en)
Other versions
CN114067819A (zh
Inventor
谢跃
程佳鸣
梁瑞宇
王青云
唐闺臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN202111385676.3A priority Critical patent/CN114067819B/zh
Publication of CN114067819A publication Critical patent/CN114067819A/zh
Application granted granted Critical
Publication of CN114067819B publication Critical patent/CN114067819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于跨层相似性知识蒸馏的语音增强方法,包括提取深度神经网络的输入特征,再构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,接着根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型,再利用预训练好的教师模型对学生模型进行蒸馏;本发明提出了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,能够有效的提升低复杂度语音增强模型的效果,具有良好的应用前景。

Description

基于跨层相似性知识蒸馏的语音增强方法
技术领域
本发明涉及语音增强技术领域,具体涉及基于跨层相似性知识蒸馏的语音增强方法。
背景技术
得益于深度学***稳噪声)。在最近的深度噪声抑制(DNS)系列挑战赛上,众多基于深度学习的语音增强模型在实时和非实时赛道上均报告了优良的表现。但若想取得理想的性能,一般需要一个较大的深度神经网络(DNN)模型,也即需要耗费较多计算资源和存储空间。即使这样的模型能够满足DNS挑战赛的实时要求,在一些低延时的应用场景或资源限制的设备上(比如耳机)也会出现部署困难的问题。因此,降低模型的存储和计算量在促进实时应用中的深度学习***的实用性方面显得越来越重要。
目前主流的模型压缩方法,比如剪枝、量化和知识蒸馏,均在降低模型的复杂度方面有一定成效;第一类是网络剪枝方法,这类方法通过一定的策略选择并删除具有高冗余度的参数,仅保留信息量最大,最重要的参数,同时对剩余的参数进行一定的微调以保证一致性,另一类网络量化的方法通过减少表示每个权重所需的位数来压缩原始网络;然而,现有的知识蒸馏方法大多应用于分类任务,在语音增强这样的回归任务上的相关工作并不多见,并且应用于语音领域的知识蒸馏技术多专注于拉近师生模型的输出距离,而未对模型的中间表示做研究;通过上述的描述,如何利用知识蒸馏技术对语音增强模型进行压缩,是提高语音增强效率和实时性的关键,是当前需要解决的问题;因此,需要设计基于跨层相似性知识蒸馏的语音增强方法。
发明内容
本发明的目的是克服现有的语音(单通道)增强方法在现实场景的部署中常常会遇到的硬件资源受限或低延迟要求的挑战,为更好的有效解决该问题,本发明提供了一种基于跨层相似性知识蒸馏的语音增强方法,首先基于跨层相似性知识蒸馏的语音增强方法,提出了跨级路径连接的策略,并融合多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,方法巧妙新颖,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
基于跨层相似性知识蒸馏的语音增强方法,包括以下步骤,
步骤(A),提取深度神经网络的输入特征;
步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型;
步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型;
步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,并产生蒸馏输出结果;
步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离;
步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(A),提取深度神经网络的输入特征,其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征,并将理想复值掩蔽作为训练目标。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,其中深度复卷积循环语音增强网络结构是基于复卷积编码器-解码器架构构建的;而蒸馏基础模型包括编码器、中间层和解码器,其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练含有大规模参数的蒸馏基础模型作为教师模型,其中师生学习框架包括教师模型和学生模型,教师模型和学生模型使用相同的蒸馏基础模型架构,但教师模型的每个对应层通道数为学生模型的四倍;多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递,其中特征融合变换层包括两层正向卷积层和一层卷积层,且特征融合的成对相似度能作为蒸馏损失。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,其中蒸馏的位置设置在编码器、中间层和解码器,且整个蒸馏过程呈对称式进行,以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合,而特征融合的具体步骤如下,
步骤(D1),特征融合操作在编码器和解码器阶段进行,由于教师和学生各层的特征表示维度有差异,因此要对特征进行维度转换,设教师模型和学生模型第i层的特征分别为和/>,那么知识蒸馏损失/>如公式(1)所示,
其中,I表示待蒸馏多层学生模型的中间表示特征集,是特征的维度变换操作,表示师生模型中间特征的距离;
步骤(D2),要避免多层特征的相互干扰和减少冗余的计算,设对n层的特征进行蒸馏,并将变换后的学生特征记为/>,对公式(1)交换求和顺序,如公式(2)所示,
接着将多个距离对的和等效近似为融合特征的距离,如公式(3)所示,
其中,表示递归函数;
步骤(D3),特征融合的过程是通过渐进的方式进行的,特征融合操作定义为一个递归函数,并令/>表示从/>到/>的特征融合,特征融合蒸馏损失/>的计算是从第n-1层开始进行的,如公式(4)所示,
步骤(D4),计算每个连接路径的递归函数,并利用采样的方法将高层次特征重划定为低层次特征的尺寸,再将来自不同层次的两个特征连接在一起,利用1×1卷积对当前层特征和递归累积特征进行注意力加权并生成最终的蒸馏输出结果。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离,其具体步骤如下,
步骤(E1),对于第l层融合后的特征图为OT∈Rb×c×t×f,要先进行帧级别的切分,再把特征压平为两个维度,即第j帧变换后为
其中,b是批量大小,c是输出通道数,t是语音帧数,f则是特征维度,帧级特征维度为f′=c·f,下标T和S分别表示教师和学生;
步骤(E2),分别计算教师和学生的相似度矩阵,再对矩阵的每一行[i,:]应用L2规范化,如公式(5)所示,
其中,每帧计算得到的相似度矩阵维度大小为b×b,上标T表示矩阵的转置操作;
步骤(E3),第l层相似度蒸馏损失定义为所有帧的相似度距离叠加,如公式(6)所示,
其中,||·||F表示Frobenius规范化。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形,其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱,再通过逆傅里叶变换还原时域波形,接着通过相似度距离叠加算法合成得到增强语音波形具体步骤如下,
步骤(F1),在使用理想复值掩蔽重建估计语音的过程中,首先取出网络输出的实部和虚部/>,并以极坐标形式计算出幅度谱和相位谱的掩蔽/>和/>如公式(7)所示,
步骤(F2),利用带噪语音的幅度谱Ymag和相位谱Yphase重建预测语音频谱并得到增强语音复频谱,如公式(8)所示,
本发明的有益效果是:本发明的基于跨层相似性知识蒸馏的语音增强方法,利用模型的中间特征表示进行知识转移,为适应编码器解码器结构的语音增强框架进行了针对性的设计,首先引入了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,其次提出了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以实现知识转移,接着通过保留模型中间表示的跨层相似性进行知识转移,稳定有效地提升了低复杂度学生模型的效果,有效的实现了该方法能够提升低复杂度语音增强模型的效果,且方法巧妙新颖,具有良好的应用前景。
附图说明
图1是本发明的基于跨层相似性知识蒸馏的语音增强方法的流程图;
图2是本发明训练阶段和增强阶段的示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的基于跨层相似性知识蒸馏的语音增强方法,包括以下步骤,
步骤(A),提取深度神经网络的输入特征,其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征,并将理想复值掩蔽作为训练目标。
步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,其中深度复卷积循环语音增强网络结构(DCCRN)是基于复卷积编码器-解码器架构构建的;而蒸馏基础模型包括编码器、中间层和解码器,其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层;
其中,复数LSTM层含有建模语音的长时相关性。
步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练含有大规模参数的蒸馏基础模型作为教师模型,其中师生学习框架包括教师模型和学生模型,教师模型和学生模型使用相同的蒸馏基础模型架构,但教师模型的每个对应层通道数为学生模型的四倍;多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递,其中特征融合变换层包括两层正向卷积层和一层卷积层,且特征融合的成对相似度能作为蒸馏损失;
其中,两层正向卷积层用于维度的变换,一层卷积层用于当前特征和递归特征的加权;整个蒸馏过程不会为学生模型的推断过程引入额外的参数,因此可以零负担地提升学生模型的效果。
步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,其中蒸馏的位置设置在编码器、中间层和解码器,且整个蒸馏过程呈对称式进行,以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合,而特征融合的具体步骤如下,
其中,蒸馏的位置选择是为了适应基础模型DCCRN对称式设计的编码器-解码器结构;
步骤(D1),特征融合操作在编码器和解码器阶段进行,由于教师和学生各层的特征表示维度有差异,因此要对特征进行维度转换,设教师模型和学生模型第i层的特征分别为和/>,那么知识蒸馏损失/>如公式(1)所示,
其中,I表示待蒸馏多层学生模型的中间表示特征集,是特征的维度变换操作,表示师生模型中间特征的距离;为了不损伤教师模型包含的有效信息,我们仅对学生模型的特征进行变换;且对于编码器层,使用教师模型前i层的特征对学生模型的当前层进行蒸馏,而对于解码器层则是后i层;
步骤(D2),要避免多层特征的相互干扰和减少冗余的计算,设对n层的特征进行蒸馏,并将变换后的学生特征记为/>,对公式(1)交换求和顺序,如公式(2)所示,
接着将多个距离对的和等效近似为融合特征的距离,如公式(3)所示,
其中,表示递归函数;
步骤(D3),特征融合的过程是通过渐进的方式进行的,特征融合操作定义为一个递归函数,并令/>表示从/>到/>的特征融合,特征融合蒸馏损失/>的计算是从第n-1层开始进行的,如公式(4)所示,
其中,对于第n层的特征仅进行维度的变换。
步骤(D4),计算每个连接路径的递归函数,并利用采样的方法将高层次特征重划定为低层次特征的尺寸,再将来自不同层次的两个特征连接在一起,利用1×1卷积对当前层特征和递归累积特征进行注意力加权并生成最终的蒸馏输出结果。
步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离,其具体步骤如下,
步骤(E1),对于第l层融合后的特征图为OT∈Rb×c×t×f,要先进行帧级别的切分,再把特征压平为两个维度,即第j帧变换后为
其中,b是批量大小,c是输出通道数,t是语音帧数,f则是特征维度,帧级特征维度为f′=c·f,下标T和S分别表示教师和学生;
步骤(E2),分别计算教师和学生的相似度矩阵,再对矩阵的每一行[i,:]应用L2规范化,如公式(5)所示,
其中,每帧计算得到的相似度矩阵维度大小为b×b,上标T表示矩阵的转置操作;
步骤(E3),第l层相似度蒸馏损失定义为所有帧的相似度距离叠加,如公式(6)所示,
其中,||·||F表示Frobenius规范化。
步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形,其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱,再通过逆傅里叶变换还原时域波形,接着通过相似度距离叠加算法合成得到增强语音波形,具体步骤如下,
步骤(F1),在使用理想复值掩蔽重建估计语音的过程中,首先取出网络输出的实部和虚部/>,并以极坐标形式计算出幅度谱和相位谱的掩蔽/>和/>如公式(7)所示,
步骤(F2),利用带噪语音的幅度谱Ymag和相位谱Yphase重建预测语音频谱并得到增强语音复频谱,如公式(8)所示,
为了充分比较算法的蒸馏效果,下面介绍本发明的一个具体实施例,实验设置在公开数据集DNS Challenge上进行对比实验,且数据集包含来自2150个说话人的500小时干净语料和总计约180小时的65000条噪声剪辑,并随机切分语料库成训练集和验证集各60000和1000条语音;训练集和验证集中的带噪语音是通过从语音集和噪声集中随机选择片段,并在-5dB到15dB之间的随机SNR下进行混合来生成的;测试集对应的性能指标如表1,其中对比算法选取同样在DNS数据集上公开结果的实时语音增强算法NSNet,RNNoise和DTLN;DCCRN-S为未蒸馏的学生模型,而CLSKD为采用本发明算法进行蒸馏的学生模型;从性能指标上看,所提出的模型在各项指标上均具有较大优势,且相比于原学生模型,两种指标WB-PESQ和STOI分别提升0.122和0.0031。
表1算法性能对比
综上所述,本发明的基于跨层相似性知识蒸馏的语音增强方法,利用模型的中间特征表示进行知识转移,为适应编码器解码器结构的语音增强框架进行了针对性的设计,首先引入了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,其次提出了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以实现知识转移,接着通过保留模型中间表示的跨层相似性进行知识转移,稳定有效地提升了低复杂度学生模型的效果,有效的实现了该方法能够提升低复杂度语音增强模型的效果,且方法巧妙新颖,具有良好的应用前景,具有方法科学合理、适用性强和效果佳等优点。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.基于跨层相似性知识蒸馏的语音增强方法,其特征在于:包括以下步骤,
步骤(A),提取深度神经网络的输入特征;
步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型;
步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型,其中师生学习框架包括教师模型和学生模型,教师模型和学生模型使用相同的蒸馏基础模型架构,但教师模型的每个对应层通道数为学生模型的四倍;多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递,其中特征融合变换层包括两层正向卷积层和一层卷积层,且特征融合的成对相似度能作为蒸馏损失;
步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,并产生蒸馏输出结果;
步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离;
步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形。
2.根据权利要求1所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(A),提取深度神经网络的输入特征,其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征,并将理想复值掩蔽作为训练目标。
3.根据权利要求2所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,其中深度复卷积循环语音增强网络结构是基于复卷积编码器-解码器架构构建的;而蒸馏基础模型包括编码器、中间层和解码器,其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层。
4.根据权利要求3所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,其中蒸馏的位置设置在编码器、中间层和解码器,且整个蒸馏过程呈对称式进行,以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合,而特征融合的具体步骤如下,
步骤(D1),特征融合操作在编码器和解码器阶段进行,由于教师和学生各层的特征表示维度有差异,因此要对特征进行维度转换,设教师模型和学生模型第i层的特征分别为和/>那么知识蒸馏损失/>如公式(1)所示,
其中,I表示待蒸馏多层学生模型的中间表示特征集,是特征的维度变换操作,/>表示师生模型中间特征的距离;
步骤(D2),要避免多层特征的相互干扰和减少冗余的计算,设对n层的特征进行蒸馏,并将变换后的学生特征记为/>对公式(1)交换求和顺序,如公式(2)所示,
接着将多个距离对的和等效近似为融合特征的距离,如公式(3)所示,
其中,表示递归函数;
步骤(D3),特征融合的过程是通过渐进的方式进行的,特征融合操作定义为一个递归函数并令/>表示从/>到/>的特征融合,特征融合蒸馏损失/>的计算是从第n-1层开始进行的,如公式(4)所示,
步骤(D4),计算每个连接路径的递归函数,并利用采样的方法将高层次特征重划定为低层次特征的尺寸,再将来自不同层次的两个特征连接在一起,利用1×1卷积对当前层特征和递归累积特征进行注意力加权并生成最终的蒸馏输出结果。
5.根据权利要求4所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离,其具体步骤如下,
步骤(E1),对于第l层融合后的特征图为OT∈Rb×c×t×f,要先进行帧级别的切分,再把特征压平为两个维度,即第j帧变换后为
其中,b是批量大小,c是输出通道数,t是语音帧数,f则是特征维度,帧级特征维度为f′=c·f,下标Τ和S分别表示教师和学生;
步骤(E2),分别计算教师和学生的相似度矩阵,再对矩阵的每一行[i,:]应用L2规范化,如公式(5)所示,
其中,每帧计算得到的相似度矩阵维度大小为b×b,上标T表示矩阵的转置操作;
步骤(E3),第l层相似度蒸馏损失定义为所有帧的相似度距离叠加,如公式(6)所示,
其中,||·||F表示Frobenius规范化。
6.根据权利要求5所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形,其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱,再通过逆傅里叶变换还原时域波形,接着通过相似度距离叠加算法合成得到增强语音波形,具体步骤如下,
步骤(F1),在使用理想复值掩蔽重建估计语音的过程中,首先取出网络输出的实部和虚部/>并以极坐标形式计算出幅度谱和相位谱的掩蔽/>和/>如公式(7)所示,
步骤(F2),利用带噪语音的幅度谱Ymag和相位谱Yphase重建预测语音频谱并得到增强语音复频谱,如公式(8)所示,
CN202111385676.3A 2021-11-22 2021-11-22 基于跨层相似性知识蒸馏的语音增强方法 Active CN114067819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111385676.3A CN114067819B (zh) 2021-11-22 2021-11-22 基于跨层相似性知识蒸馏的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111385676.3A CN114067819B (zh) 2021-11-22 2021-11-22 基于跨层相似性知识蒸馏的语音增强方法

Publications (2)

Publication Number Publication Date
CN114067819A CN114067819A (zh) 2022-02-18
CN114067819B true CN114067819B (zh) 2024-06-21

Family

ID=80278945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111385676.3A Active CN114067819B (zh) 2021-11-22 2021-11-22 基于跨层相似性知识蒸馏的语音增强方法

Country Status (1)

Country Link
CN (1) CN114067819B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028891B (zh) * 2023-02-16 2023-07-14 之江实验室 一种基于多模型融合的工业异常检测模型训练方法和装置
CN117351997B (zh) * 2023-12-05 2024-02-23 清华大学 基于反向知识蒸馏的合成音频检测方法及***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111803B (zh) * 2019-05-09 2021-02-19 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法
US20200402497A1 (en) * 2019-06-24 2020-12-24 Replicant Solutions, Inc. Systems and Methods for Speech Generation
CN110390950B (zh) * 2019-08-17 2021-04-09 浙江树人学院(浙江树人大学) 一种基于生成对抗网络的端到端语音增强方法
CN111599373B (zh) * 2020-04-07 2023-04-18 云知声智能科技股份有限公司 一种降噪模型的压缩方法
CN112365886B (zh) * 2021-01-18 2021-05-07 深圳市友杰智新科技有限公司 语音识别模型的训练方法、装置和计算机设备
CN113610146B (zh) * 2021-08-03 2023-08-04 江西鑫铂瑞科技有限公司 基于中间层特征提取增强的知识蒸馏实现图像分类的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Cross-Layer Similarity Knowledge Distillation for Speech Enhancement;jiaming Cheng;《Interspeech 2022》;20220922;全文 *

Also Published As

Publication number Publication date
CN114067819A (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
Yin et al. Phasen: A phase-and-harmonics-aware speech enhancement network
CN114067819B (zh) 基于跨层相似性知识蒸馏的语音增强方法
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN111768795A (zh) 语音信号的噪声抑制方法、装置、设备及存储介质
CN111541900B (zh) 基于gan的安防视频压缩方法、装置、设备及存储介质
CN115101085A (zh) 一种卷积增强外部注意力的多说话人时域语音分离方法
CN112331224A (zh) 轻量级时域卷积网络语音增强方法与***
CN115602152B (zh) 一种基于多阶段注意力网络的语音增强方法
CN112669874B (zh) 基于量子傅里叶变换的语音特征提取方法
CN112309411A (zh) 相位敏感的门控多尺度空洞卷积网络语音增强方法与***
CN113823308A (zh) 一种使用单个带噪语音样本进行语音去噪的方法
CN116363560A (zh) 一种视频掩码自编码方法及***
CN109344751A (zh) 一种车内噪声信号的重构方法
US20220207321A1 (en) Convolution-Augmented Transformer Models
CN115295002B (zh) 一种基于交互性时频注意力机制的单通道语音增强方法
CN116682444A (zh) 一种基于波形频谱融合网络的单通道语音增强方法
Makki et al. Unaligned training for voice conversion based on a local nonlinear principal component analysis approach
Shen Application of transfer learning algorithm and real time speech detection in music education platform
CN112116062A (zh) 一种基于张量串分解的多层感知机非线性压缩方法
Li et al. Research on voiceprint recognition technology based on deep neural network
Wei et al. IIFC-Net: A Monaural Speech Enhancement Network With High-Order Information Interaction and Feature Calibration
Patel et al. A Performance Study: Convolutional Deep Belief Networks and Convolutional Neural Networks for Audio Classification
Yu et al. An End-to-End Speech Separation Method Based on Features of Two Domains
Wan et al. ABC-KD: Attention-Based-Compression Knowledge Distillation for Deep Learning-Based Noise Suppression
Xia et al. Attention and DCT based global context modeling for text-independent speaker recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant