CN115295001B - 一种基于渐进式融合校正网络的单通道语音增强方法 - Google Patents

一种基于渐进式融合校正网络的单通道语音增强方法 Download PDF

Info

Publication number
CN115295001B
CN115295001B CN202210885817.6A CN202210885817A CN115295001B CN 115295001 B CN115295001 B CN 115295001B CN 202210885817 A CN202210885817 A CN 202210885817A CN 115295001 B CN115295001 B CN 115295001B
Authority
CN
China
Prior art keywords
complex
spectrum
branch
feature
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210885817.6A
Other languages
English (en)
Other versions
CN115295001A (zh
Inventor
叶中付
于润祥
赵紫微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210885817.6A priority Critical patent/CN115295001B/zh
Publication of CN115295001A publication Critical patent/CN115295001A/zh
Application granted granted Critical
Publication of CN115295001B publication Critical patent/CN115295001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于渐进式融合校正网络的单通道语音增强方法,用来弥补双支路幅度谱与复数谱单通道语音增强方法由于交互信息利用不足,使得各分支机构缺乏补偿和整改能力的问题。渐进式融合校正网络是一种基于编码器‑解码器的双分支结构,具有交互式的改进的实数和复数变换模块。在本发明中,提出融合整流块并嵌入到两个分支中,逐步提取和融合两个分支的特征,对每个分支的信息进行校正。交互式时频改进的实数复数变换模块可以更好地利用时频域的长期相关性。本发明在语音质量和可理解性方面优于目前最先进的双分支语音增强方法和以往的先进***。

Description

一种基于渐进式融合校正网络的单通道语音增强方法
技术领域
本发明涉及语音增强领域,尤其涉及一种基于渐进式融合校正网络的单通道语音增强方法。
背景技术
单通道语音增强是指在单个麦克风的条件下,消除或抑制背景噪声以获得更高的语音质量和可懂度。近年来,基于深度学***稳噪声以及低信噪比条件等这种具有挑战性的场景下,深度学习方法要显著优于传统的单通道语音增强算法。卷积神经网络和循环神经网络是两种被广泛用于语音增强的方法。
2020年,提出了复数卷积神经网络与LSTM神经网络相结合的一种深度复数神经网络,获得了2020年DNS(Deep Noise Suppression)挑战赛实时降噪赛道(Real-Time Track,RT)的第一名(参见Y.Hu,Y.Liu,S.Lv,M.Xing,and L.Xie,“Dccrn:Deep complexconvolution recurrent network for phase-aware speech enhancement,”inProc.Interspeech,2020,pp.2472–2476)。然而,上述单支路语音增强***无法有效消除幅度谱与相位谱之间的补偿问题。
为了克服这一瓶颈,人们提出了多级语音增强***,将传统的优化问题分解为多个相互关联的子问题。同时,随着基于变换模块的序列模型的广泛应用,一些方法迁移了变换模块来构建语音增强***,并取得了显著的性能。此外,受多任务学习策略的启发,双支路变换网络通过将双路径策略与变换模型相结合,显著提高了语音质量和可读性。然而,这些方法都不能充分模拟幅谱分支与复谱分支的相位隐式表达式之间的制导关系。同样,只在瓶颈层中利用复谱分支中丰富的幅值信息,或直接计算与幅值分支的简单交互融合特征。这些方法忽略了逐层校正的过程,阻碍了两个支路之间的动态信息调整,最终会影响增强后的语音主观与客观可懂度。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于渐进式融合校正网络的单通道语音增强方法,在增强效果和上比一般的语音增强神经网络有明显的优势,能够解决平稳或非平稳噪声干扰下的语音降噪问题。
本发明涉及一种基于渐进式融合校正网络的单通道语音增强方法,该方法用来弥补双支路幅度谱与复数谱单通道语音增强方法由于交互信息利用不足,使得各分支机构缺乏补偿和整改能力的问题。渐进式融合校正网络是一种基于编码器-解码器的双分支结构,具有交互式的改进的实数和复数变换模块。在本发明中,提出融合整流块并嵌入到两个分支中,逐步提取和融合两个分支的特征,对每个分支的信息进行校正。交互式时频改进的实数复数变换模块可以更好地利用时频域的长期相关性。该方法在语音质量和可理解性方面优于目前最先进的双分支语音增强方法和以往的先进***。
本发明的目的是通过以下技术方案实现的:一种基于渐进式融合校正网络的单通道语音增强方法,包括:
步骤1:将带噪语音信号做短时傅里叶变换STFT后得到带噪语音信号频谱中每一帧复数谱以及幅度谱,复数谱输入双支路网络中的复数谱支路,幅度谱输入双支路网络中的幅度谱支路;
幅度谱支路由实数卷积编码器、实数时频注意力模型及实数卷积解码器组成;实数卷积编码器对输入的带噪语音信号的幅度谱输入进行深度特征提取,得到一个具有深度特征信息的特征图,将所述特征图输入实数时频注意力模型中用以捕捉时域上的长程相关性与频域上的跨频带相关性,得到经过实数时频注意力模型调节后特征图;再经过实数卷积解码器恢复增强后的语音信号的幅度谱,用以重构增强后的语音信号;实数时频注意力模型由时域变换模块和频域变换模块组成;实数时域变换模块用于在幅度域捕捉时域上的长程相关性,实数变换模块用于在幅度域获得频域上的跨频带相关性;
复数谱支路由复数卷积编码器、复数时频注意力模型及复数卷积解码器组成;复数卷积编码器对输入的带噪语音信号的复数谱输入进行深度特征提取,得到一个具有深度特征信息的特征图,把这个特征图输入复数时频注意力模型中用以捕捉时域上的长程相关性与频域上的跨频带相关性,得到经过复数时频注意力模型调节后特征图,再经过复数卷积解码器恢复增强后的带噪语音信号的复数谱,用以对幅度谱支路输出的增强后的语音信号的幅度谱行修正;复数时频注意力模型由复数时域变换模块和复数频域变换模块以及时域复数变换模块与频域复数变换模块之间的交互模块组成,复数时域变换模块用于在复数域捕捉时域上的长程相关性,频域复数变换模块用于在复数域获得频域上的跨频带相关性,交互模块用于对时域复数变换模块和频域复数变换模块之间的信息进行互补;
在幅度谱支路和复数谱支路之间引入渐进融合校正模块,分别得到幅度谱支路和复数谱支路经过渐进融合校正模块之后的特征图,具体实现为:三个阶段,即特征提取阶段、特征融合阶段和特征投影阶段;特征提取阶段的复数谱特征提取路径对复数谱支路进行深层特征提取,得到复数谱特征提取路径的特征图;幅度谱特征提取路径对幅度谱进行深层特征提取,得到幅度谱特征提取路径的特征图;特征融合阶段对幅度谱特征提取路径的特征图和复数谱特征提取路径的特征图进行融合,得到一个融合张量;特征投影阶段将融合张量分别投影到幅度谱支路和复数谱支路上;最终分别得到幅度谱支路和复数谱支路经过渐进融合校正模块之后的特征图;
特征提取阶段的复数谱特征提取路径对复数谱支路进行深层特征提取,得到复数谱特征提取路径的特征图;幅度谱特征提取路径对幅度谱进行深层特征提取,得到幅度谱特征提取路径的特征图;特征融合阶段对幅度谱特征提取路径的特征图和复数谱特征提取路径的特征图进行融合,得到一个融合张量;特征投影阶段将融合张量分别投影到幅度谱支路和复数谱支路上,最终分别得到幅度谱支路和复数谱支路经过渐进融合校正模块之后的特征图;
在幅度谱支路与复数谱支路之间***多个渐进融合校正模块后,模型根据每一个经过渐进融合校正模块之后的特征图对带噪语音信号进行渐进增强,最终,幅度谱支路输出的最后一个输出特征图表示估计出的理想比例掩模,复数谱支路的最后一个输出特征图表示实部和虚部的频谱校正信息;
步骤2:将步骤1的输出的理想比例掩模和实部与虚部的频谱校正信息以复数谱对幅度谱的补偿方式联合起来,用以重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
进一步,所述步骤1中,短时傅里叶变换STFT包括:
对带噪语音进行降采样,使得所有音频信号的采样率均为16KHz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
Y(t,f)=S(t,f)+N(t,f) (1)
式中,
Y=Yr+jYi
S=Sr+jSi
其中,Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。
进一步,所述步骤1中,复数卷积编码器包括:
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到的,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的GRU层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=GRUr(Xr) Fir=GRUr(Xi)
Fri=GRUi(Xr) Fii=GRUi(Xi) (3}
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linearr(Xr) Fir=Linearr(Xi)
Fri=Lineari(Xr) Fii=Lineari(Xi) (4)
式中,GRU和Linear分别表示GRU神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
进一步,所述步骤1中:
步骤(11)时域复数变换模块与频域变换模块均由复数形式的层归一化层、多头复数注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的层归一化层顺序连接而成;
多头复数注意力机制模块中,复数形式的输入信号X=A+jB,查询矩阵Q=Qr+jQi,密钥矩阵K=Kr+jKi,价值矩阵V=Vr+jVi的计算方法如下,
Q=XWQ (5)
K=XWK (6)
V=XWV (7)
式中,WQ,WK,WV均是有待学习的复数形式的系数矩阵,Qr,Kr,Vr分别表示Q,K,V三个矩阵的实部,Qi,Ki,Vi分别表示Q,K,V三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
单头复数注意力机制模块的输出:
其中,QKTV为单头复数注意力机制模块的矩阵,其公式为:
Softmax表示Softmax激活函数,dk表示尺度因子,是Q和K的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
式中,Concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,WO表示投影矩阵;
当多头复数注意力机制模块中的Q=K=V时,多头复数注意力机制模块则退化为多头复数自注意力机制模块(是Q=K=V时的情况下,多头复数注意力机制模块退化为了多头复数自注意力机制模块);
最终多头复数自注意力机制模块的输出表示为:
ComplexAttention(X)=[MultiHeadAttention(A,A,A)-MultiHeadAttention(A,B,B)-MultiHeadAttention(B,A,B)-MultiHeadAttention(B,B,A)]+j[MultiHeadAttention(A,A,B)+MultiHeadAttention(A,B,A)+MultiHeadAttention(B,A,A)-MultiHeadAttention(B,B,B)] (11);
(8)式是多头复数自注意力机制模块的输出,(7)式是多头复数注意力机制模块的输出,(8)式是当(Q=K=V)时把X=A+jB代入(7)式后的化简结果。
给定输入特征图X,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、ReLU激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
步骤(12)频域复数变换模块与时域复数变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的层归一化层按步骤(11)的方式组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;频域实数变换模块是频域复数变换模块的实数表达形式。
步骤(13)时域复数变换模块与频域复数变换模块之间的交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的Sigmoid层组成的一个卷积块,用于对时域复数交互模块与频域复数交互模块中的信息进行互补。设输入复数形式的特征图为 则交互模块的输出表达式为:
式中,表示级联、复数卷积层、复数层归一化层与复数Sigmoid层组成的网络,/>表示元素对应相乘。
进一步,所述步骤1中,
步骤(14)在特征提取阶段,为双路径网络,由并联的复数谱特征提取路径和幅度谱特征提取路径构成;为了对幅度谱进行补偿,复数谱特征提取路径在保留部分相位信息的情况下,从复数谱支路中提取丰富的隐式幅度信息,对幅度谱支路中的幅度信息进行微调,相应地,为了调整相位谱,利用幅度谱特征提取路径提取的特征指导复数谱支路中的相位信息的调整;
设幅度谱支路和复数谱支路的输入分别为UM和UP,UM和UP分别包含C个通道、T个时间帧和F个频率窗,fm(·)和fp(·)分别是幅度谱特征提取路径和复数谱特征提取路径所代表的映射函数;幅度谱特征提取路径的映射函数fm(·)由二维卷积层、门控二维卷积层、二维卷积层依次连接形成,复数谱特征提取路径的映射函数fp(·)由两个复数卷积块级联得到,每一个复数卷积块由一个复数形式的二维卷积层,复数形式的层归一化层与复数形式的PReLU激活函数组成,则特征提取阶段的输出的幅度谱隐式特征VM与复数谱隐式特征VP表示为:
VP=fp(UP) (14)
VM=fm(UM) (15)
步骤(15)在特征融合阶段,将复数谱特征提取路径和幅度谱特征提取路径的幅度谱隐式特征VM与复数谱隐式特征VP,VM和VP分别包含C个通道、T个时间帧和F个频率窗,作为两个张量承载从两个分支即幅度谱支路和复数谱支路中提取的信息,这两个张量通过下面的特征融合方法得到融合张量K在整个时间轴上反映每对频率点之间的相关关系,融合张量中包含了幅值修正信息和用于相位修正信息;
融合张量K的计算公式如下:
式中,Kc,i,j表示融合张量K的第c个通道的第(i,j)点的值,表示幅度谱隐式特征VM的第c个通道、第i个时间帧、第l个频率窗的值,/>表示复数谱隐式特征VP的第c个通道、第l个时间帧、第j个频率窗的值;
步骤(16)在特征投影阶段,两个线性变换张量xP和xM将融合张量K分别投影到幅度谱支路和复数谱支路上,分别得到两个支路在频率维度的注意力张量AP和AM,计算公式如下:
AP=σ(LayerNorm(KxP)) (17)
AM=σ(LayerNorm(KTxM)) (18)
式中,σ表示S激活函数,(·)T表示在张量的后两个维度上进行转置;通过新的注意力张量AP和AM与原支路第t帧的特征和/>进行融合校正,第t帧的校正过程如下:
式中,与/>分别是第t帧经过融合校正之后的输出,*表示元素对应相乘;最终得到的/>与/>分别是幅度谱支路和复数谱支路经过渐进融合校正模块后的特征图。
进一步,所述步骤2中,复数谱对幅度谱的补偿方式包括:
给定幅度谱支路的理想比例掩模的预测输出与复数谱支路的校正输出/>最终的频谱重构方式如下:
式中,表示增强后语音信号的复数谱,|X|为待增强语音的幅度,∠θX代表带噪语音信号的相位谱,这样的重构策略有效地消除幅度和相位之间的补偿问题。
进一步,所述步骤2中,理想比例掩模IRM如下:
理想比例掩模IRM作为训练目标重构待增强语音的时频图,是一种定义的理想掩码,|X|为待增强语音的幅度谱,|S|为纯净语音信号的复数谱。
本发明与现有技术相比的优点在于:
(1)本发明采用复数形式的时域变换模块与频域变换模块以及改进的复数通道注意力模块分别在时域、频域、通道域捕捉语音信号中长期的上下文关系,这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足,又通过频域注意力机制捕捉不同频带之间的相互关系,还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强。
(2)本发明在复数谱分支与幅度谱分支中引入融合修正模块嵌入到两个分支中,完全利用了幅度谱支路和复数谱支路之间每层的隐含相关性。一方面,渐进融合校正模块通过逐步引导幅度谱支路为复数谱支路提供有用的相位信息;另一方面,渐进融合校正模块可以更充分地利用复数谱支路中丰富的幅度信息,逐步微调幅度谱支路中的幅度信息。这样就使得传统双支路神经网络两条支路特征之间的关系更加紧密,互补作用更加明显。
(3)本发明中提出了一种新的时频谱重构方式用以解决传统神经网络幅度谱与相位谱在训练过程中的补偿问题(即步骤2的内容)。首先通过幅度谱支路预测理想比例掩模,在通过复数谱支路对相位谱和幅度谱同时进行调整,可以有效缓解引入相位估计对幅度估计带来的影响。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图和附表作简单的介绍,显而易见地,下面描述中的附图和表仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明的整体网络结构;
图2为本发明中时域复数变换模块和频域复数变换模块的具体结构;
图3为本发明中时域复数变换模块与频域复数变换模块之间的交互模块的具体结构;
图4为本发明中的渐进融合校正模块的具体结构。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明实施例提供的基于渐进式融合校正网络的单通道语音增强方法,包括如下步骤:
步骤1:将带噪语音信号做短时傅里叶变换STFT后得到带噪语音信号频谱中每一帧复数谱以及幅度谱,复数谱输入双支路网络中的复数谱支路,幅度谱输入双支路网络中的幅度谱支路;
幅度谱支路由实数卷积编码器、实数时频注意力模型及实数卷积解码器组成;实数卷积编码器对输入的带噪语音信号的幅度谱输入进行深度特征提取,得到一个具有深度特征信息的特征图,将所述特征图输入实数时频注意力模型中用以捕捉时域上的长程相关性与频域上的跨频带相关性,得到经过实数时频注意力模型调节后特征图;再经过实数卷积解码器恢复增强后的语音信号的幅度谱,用以重构增强后的语音信号;实数时频注意力模型由时域变换模块和频域变换模块组成;实数时域变换模块用于在幅度域捕捉时域上的长程相关性,实数变换模块用于在幅度域获得频域上的跨频带相关性;
复数谱支路由复数卷积编码器、复数时频注意力模型及复数卷积解码器组成;复数卷积编码器对输入的带噪语音信号的复数谱输入进行深度特征提取,得到一个具有深度特征信息的特征图,把这个特征图输入复数时频注意力模型中用以捕捉时域上的长程相关性与频域上的跨频带相关性,得到经过复数时频注意力模型调节后特征图,再经过复数卷积解码器恢复增强后的带噪语音信号的复数谱,用以对幅度谱支路输出的增强后的语音信号的幅度谱行修正;复数时频注意力模型由复数时域变换模块和复数频域变换模块以及时域复数变换模块与频域复数变换模块之间的交互模块组成,复数时域变换模块用于在复数域捕捉时域上的长程相关性,频域复数变换模块用于在复数域获得频域上的跨频带相关性,交互模块用于对时域复数变换模块和频域复数变换模块之间的信息进行互补;
在幅度谱支路和复数谱支路之间引入渐进融合校正模块,分别得到幅度谱支路和复数谱支路经过渐进融合校正模块之后的特征图,具体实现为:三个阶段,即特征提取阶段、特征融合阶段和特征投影阶段;特征提取阶段的复数谱特征提取路径对复数谱支路进行深层特征提取,得到复数谱特征提取路径的特征图;幅度谱特征提取路径对幅度谱进行深层特征提取,得到幅度谱特征提取路径的特征图;特征融合阶段对幅度谱特征提取路径的特征图和复数谱特征提取路径的特征图进行融合,得到一个融合张量;特征投影阶段将融合张量分别投影到幅度谱支路和复数谱支路上;最终分别得到幅度谱支路和复数谱支路经过渐进融合校正模块之后的特征图;
特征提取阶段的复数谱特征提取路径对复数谱支路进行深层特征提取,得到复数谱特征提取路径的特征图;幅度谱特征提取路径对幅度谱进行深层特征提取,得到幅度谱特征提取路径的特征图;特征融合阶段对幅度谱特征提取路径的特征图和复数谱特征提取路径的特征图进行融合,得到一个融合张量;特征投影阶段将融合张量分别投影到幅度谱支路和复数谱支路上,最终分别得到幅度谱支路和复数谱支路经过渐进融合校正模块之后的特征图;
在幅度谱支路与复数谱支路之间***多个渐进融合校正模块后,模型根据每一个经过渐进融合校正模块之后的特征图对带噪语音信号进行渐进增强,最终,幅度谱支路输出的最后一个输出特征图表示估计出的理想比例掩模,复数谱支路的最后一个输出特征图表示实部和虚部的频谱校正信息;
上述短时傅里叶变换STFT包括:
对带噪语音进行降采样,使得所有音频信号的采样率均为16KHz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
Y(t,f)=S(t,f)+N(t,f) (1)
式中,
Y=Yr+jYi
S=Sr+jSi
其中,Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。
上述复数卷积编码器包括:
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到的,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的GRU层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=GRUr(Xr) Fir=GRUr(Xi)
Fri=GRUi(Xr) Fii=GRUi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linearr(Xr) Fir=Linearr(Xi)
Fri=Lineari(Xr) Fii=Lineari(Xi) (4)
式中,GRU和Linear分别表示GRU神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
如图2所示,本发明实施例提供的基于渐进式融合校正网络的单通道语音增强方法中的时域复数变换模块与频域复数变换模块的具体结构,包括如下步骤:
上述时域复数变换模块与频域复数变换模块均由复数形式的层归一化层、多头复数注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的层归一化层顺序连接而成;
多头复数注意力机制模块中,复数形式的输入信号X=A+jB,查询矩阵Q=Qr+jQi,密钥矩阵K=Kr+jKi,价值矩阵V=Vr+jVi的计算方法如下,
Q=XWQ (5)
K=XWK (6)
V=XWV (7)
式中,WQ,WK,WV均是有待学习的复数形式的系数矩阵,Qr,Kr,Vr分别表示Q,K,V三个矩阵的实部,Qi,Ki,Vi分别表示Q,K,v三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
单头复数注意力机制模块的输出:
其中QKTV为单头复数注意力机制模块的矩阵,其公式为:
Softmax表示Softmax激活函数,dk表示尺度因子,是Q和K的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
式中,Concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,WO表示投影矩阵;
当多头复数注意力机制模块中的Q=K=V时,多头复数注意力机制模块则退化为多头复数自注意力机制模块;
最终多头复数自注意力机制模块的输出表示为:
ComplexAttention(X)=[MultiHeadAttention(A,A,A)-MultiHeadAttention(A,B,B)-MultiHeadAttention(B,A,B)-MultiHeadAttention(B,B,A)]+j[MultiHeadAttention(A,A,B)+MultiHeadAttention(A,B,A)+MultiHeadAttention(B,A,A)-MultiHeadAttention(B,B,B)] (11);
给定输入特征图X,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、ReLU激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
频域复数变换模块与时域复数变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的层归一化层按上述的方式组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;频域实数变换模块是频域复数变换模块的实数表达形式。
如图3所示,本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的时域复数变换模块与频域复数变换模块之间的交互模块的具体结构,包括如下步骤:
步骤(13)上述时域复数变换模块与频域复数变换模块中之间的交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的Sigmoid层组成的一个卷积块,用于对时域复数交互模块与频域复数交互模块中的信息进行互补。设输入复数形式的特征图为则交互模块的输出表达式为:
式中,表示级联、复数卷积层、复数层归一化层与复数Sigmoid层组成的网络,/>表示元素对应相乘。
如图4所示,本发明实施例提供的基于渐进式融合校正网络的单通道语音增强方法中的渐进融合校正模块的具体结构,包括如下步骤:
步骤(14)在特征提取阶段,为双路径网络,由并联的复数谱特征提取路径和幅度谱特征提取路径构成;为了对幅度谱进行补偿,复数谱特征提取路径在保留部分相位信息的情况下,从复数谱支路中提取丰富的隐式幅度信息,对幅度谱支路中的幅度信息进行微调,相应地,为了调整相位谱,利用幅度谱特征提取路径提取的特征指导复数谱支路中的相位信息的调整;
设幅度谱支路和复数谱支路的输入分别为UM和UP,UM和UP分别包含C个通道、T个时间帧和F个频率窗,fm(·)和fp(·)分别是幅度谱特征提取路径和复数谱特征提取路径所代表的映射函数;幅度谱特征提取路径的映射函数fm(·)由二维卷积层、门控二维卷积层、二维卷积层依次连接形成,复数谱特征提取路径的映射函数fp(·)由两个复数卷积块级联得到,每一个复数卷积块由一个复数形式的二维卷积层,复数形式的层归一化层与复数形式的PReLU激活函数组成,则特征提取阶段的输出的幅度谱隐式特征VM与复数谱隐式特征VP表示为:
VP=fp(UP) (14)
VM=fm(UM) (15)
步骤(15)在特征融合阶段,将复数谱特征提取路径和幅度谱特征提取路径的幅度谱隐式特征VM与复数谱隐式特征VP,VM和VP分别包含C个通道、T个时间帧和F个频率窗,作为两个张量承载从两个分支即幅度谱支路和复数谱支路中提取的信息,这两个张量通过下面的特征融合方法得到融合张量K在整个时间轴上反映每对频率点之间的相关关系,融合张量中包含了幅值修正信息和用于相位修正信息;
融合张量K的计算公式如下:
式中,Kc,i,j表示融合张量K的第c个通道的第(i,j)点的值,表示幅度谱隐式特征VM的第c个通道、第i个时间帧、第l个频率窗的值,/>表示复数谱隐式特征VP的第c个通道、第l个时间帧、第j个频率窗的值;
步骤(16)在特征投影阶段,两个线性变换张量xP和xM将融合张量K分别投影到幅度谱支路和复数谱支路上,分别得到两个支路在频率维度的注意力张量AP和AM,计算公式如下:
AP=σ(LayerNorm(KxP)) (17)
AM=σ(LayerNorm(KTxM)) (18)
式中,σ表示S激活函数,(·)T表示在张量的后两个维度上进行转置;通过新的注意力张量AP和AM与原支路第t帧的特征和/>进行融合校正,第t帧的校正过程如下:
式中,与/>分别是第t帧经过融合校正之后的输出,*表示元素对应相乘;最终得到的/>与/>分别是幅度谱支路和复数谱支路经过渐进融合校正模块后的特征图。
步骤2:将步骤1的输出的理想比例掩模和实部与虚部的频谱校正信息以复数谱对幅度谱的补偿方式联合起来,用以重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
上述复数谱对幅度谱的补偿方式包括:
给定幅度谱支路的理想比例掩模的预测输出与复数谱支路的校正输出/>最终的频谱重构方式如下:
式中,表示增强后语音信号的复数谱,|X|为待增强语音的幅度,∠θX代表带噪语音信号的相位谱,这样的重构策略有效地消除幅度和相位之间的补偿问题。
理想比例掩模IRM如下:
理想比例掩模IRM作为训练目标重构待增强语音的时频图,是一种定义的理想掩码,|X|为待增强语音的幅度谱,|S|为纯净语音信号的复数谱。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围。

Claims (7)

1.一种基于渐进式融合校正网络的单通道语音增强方法,其特征在于,包括以下步骤:
步骤1:将带噪语音信号做短时傅里叶变换STFT后得到带噪语音信号频谱中每一帧复数谱以及幅度谱,复数谱输入双支路网络中的复数谱支路,幅度谱输入双支路网络中的幅度谱支路;
幅度谱支路由实数卷积编码器、实数时频注意力模型及实数卷积解码器组成;实数卷积编码器对输入的带噪语音信号的幅度谱输入进行深度特征提取,得到一个具有深度特征信息的特征图,将所述特征图输入实数时频注意力模型中用以捕捉时域上的长程相关性与频域上的跨频带相关性,得到经过实数时频注意力模型调节后特征图;再经过实数卷积解码器恢复增强后的语音信号的幅度谱,用以重构增强后的语音信号;实数时频注意力模型由时域变换模块和频域变换模块组成;实数时域变换模块用于在幅度域捕捉时域上的长程相关性,实数变换模块用于在幅度域获得频域上的跨频带相关性;
复数谱支路由复数卷积编码器、复数时频注意力模型及复数卷积解码器组成;复数卷积编码器对输入的带噪语音信号的复数谱输入进行深度特征提取,得到一个具有深度特征信息的特征图,把这个特征图输入复数时频注意力模型中用以捕捉时域上的长程相关性与频域上的跨频带相关性,得到经过复数时频注意力模型调节后特征图,再经过复数卷积解码器恢复增强后的带噪语音信号的复数谱,用以对幅度谱支路输出的增强后的语音信号的幅度谱行修正;复数时频注意力模型由复数时域变换模块和复数频域变换模块以及时域复数变换模块与频域复数变换模块之间的交互模块组成,复数时域变换模块用于在复数域捕捉时域上的长程相关性,频域复数变换模块用于在复数域获得频域上的跨频带相关性,交互模块用于对时域复数变换模块和频域复数变换模块之间的信息进行互补;
在幅度谱支路和复数谱支路之间引入渐进融合校正模块,分别得到幅度谱支路和复数谱支路经过渐进融合校正模块之后的特征图,具体实现为:三个阶段,即特征提取阶段、特征融合阶段和特征投影阶段;特征提取阶段的复数谱特征提取路径对复数谱支路进行深层特征提取,得到复数谱特征提取路径的特征图;幅度谱特征提取路径对幅度谱进行深层特征提取,得到幅度谱特征提取路径的特征图;特征融合阶段对幅度谱特征提取路径的特征图和复数谱特征提取路径的特征图进行融合,得到一个融合张量;特征投影阶段将融合张量分别投影到幅度谱支路和复数谱支路上;最终分别得到幅度谱支路和复数谱支路经过渐进融合校正模块之后的特征图;
特征提取阶段的复数谱特征提取路径对复数谱支路进行深层特征提取,得到复数谱特征提取路径的特征图;幅度谱特征提取路径对幅度谱进行深层特征提取,得到幅度谱特征提取路径的特征图;特征融合阶段对幅度谱特征提取路径的特征图和复数谱特征提取路径的特征图进行融合,得到一个融合张量;特征投影阶段将融合张量分别投影到幅度谱支路和复数谱支路上,最终分别得到幅度谱支路和复数谱支路经过渐进融合校正模块之后的特征图;
在幅度谱支路与复数谱支路之间***多个渐进融合校正模块后,模型根据每一个经过渐进融合校正模块之后的特征图对带噪语音信号进行渐进增强,最终,幅度谱支路输出的最后一个输出特征图表示估计出的理想比例掩模,复数谱支路的最后一个输出特征图表示实部和虚部的频谱校正信息;
步骤2:将步骤1的输出的理想比例掩模和实部与虚部的频谱校正信息以复数谱对幅度谱的补偿方式联合起来,用以重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
2.根据权利要求1所述的基于渐进式融合校正网络的单通道语音增强方法,其特征在于:所述步骤1中,短时傅里叶变换STFT包括:
对带噪语音进行降采样,使得所有音频信号的采样率均为16KHz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
Y(t,f)=S(t,f)+N(t,f) (1)
式中,
Y=Yr+jYi
S=Sr+jSi
其中,Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。
3.根据权利要求1所述的基于渐进式融合校正网络的单通道语音增强方法,其特征在于:所述步骤1中,复数卷积编码器包括:
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到的,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的GRU层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=GRUr(Xr) Fir=GRUr(Xi)
Fri=GRUi(Xr) Fii=GRUi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linearr(Xr) Fir=Linearr(Xi)
Fri=Lineari(Xr) Fii=Lineari(Xi) (4)
式中,GRU和Linear分别表示GRU神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
4.根据权利要求1所述的基于渐进式融合校正网络的单通道语音增强方法,其特征在于,所述步骤1中:
步骤(11)时域复数变换模块与频域变换模块均由复数形式的层归一化层、多头复数注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的层归一化层顺序连接而成;
多头复数注意力机制模块中,复数形式的输入信号X=A+jB,查询矩阵Q=Qr+jQi,密钥矩阵K=Kr+jKi,价值矩阵V=Vr+jVi的计算方法如下,
Q=XWQ (5)
K=XWK (6)
V=XWV (7)
式中,WQ,WK,WV均是有待学习的复数形式的系数矩阵,Qr,Kr,Vr分别表示Q,K,V三个矩阵的实部,Qi,Ki,Vi分别表示Q,K,V三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
单头复数注意力机制模块的输出:
其中,QKTV为单头复数注意力机制模块的矩阵,其公式为:
Softmax表示Softmax激活函数,dk表示尺度因子,是Q和K的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
式中,Concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,Wo表示投影矩阵;
当多头复数注意力机制模块中的Q=K=V时,多头复数注意力机制模块则退化为多头复数自注意力机制模块;
最终多头复数自注意力机制模块的输出表示为:
ComplexAttention(X)=[MultiHeadAttention(A,A,A)-MultiHeadAttention(A,B,B)-MultiHeadAttention(B,A,B)-MultiHeadAttention(B,B,A)]+j[MultiHeadAttention(A,A,B)+MultiHeadAttention(A,B,A)+MultiHeadAttention(B,A,A)-MultiHeadAttention(B,B,B)] (11)
给定输入特征图X,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、ReLU激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
步骤(12)频域复数变换模块与时域复数变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的层归一化层按步骤(11)的方式组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;频域实数变换模块是频域复数变换模块的实数表达形式;
步骤(13)时域复数变换模块与频域复数变换模块之间的交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的Sigmoid层组成的一个卷积块,用于对时域复数交互模块与频域复数交互模块中的信息进行互补;设输入复数形式的特征图为 则交互模块的输出表达式为:
式中,表示级联、复数卷积层、复数层归一化层与复数Sigmoid层组成的网络,/>表示元素对应相乘。
5.根据权利要求1所述的基于渐进式融合校正网络的单通道语音增强方法,其特征在于:所述步骤1中,
步骤(14)在特征提取阶段,为双路径网络,由并联的复数谱特征提取路径和幅度谱特征提取路径构成;为了对幅度谱进行补偿,复数谱特征提取路径在保留部分相位信息的情况下,从复数谱支路中提取丰富的隐式幅度信息,对幅度谱支路中的幅度信息进行微调,相应地,为了调整相位谱,利用幅度谱特征提取路径提取的特征指导复数谱支路中的相位信息的调整;
设幅度谱支路和复数谱支路的输入分别为UM和UP,UM和UP分别包含C个通道、T个时间帧和F个频率窗,fm(·)和fp(·)分别是幅度谱特征提取路径和复数谱特征提取路径所代表的映射函数;幅度谱特征提取路径的映射函数fm(·)由二维卷积层、门控二维卷积层、二维卷积层依次连接形成,复数谱特征提取路径的映射函数fp(·)由两个复数卷积块级联得到,每一个复数卷积块由一个复数形式的二维卷积层,复数形式的层归一化层与复数形式的PReLU激活函数组成,则特征提取阶段的输出的幅度谱隐式特征VM与复数谱隐式特征VP表示为:
VP=fp(UP) (14)
VM=fm(UM) (15)
步骤(15)在特征融合阶段,将复数谱特征提取路径和幅度谱特征提取路径的幅度谱隐式特征VM与复数谱隐式特征VP,VM和VP分别包含C个通道、T个时间帧和F个频率窗,作为两个张量承载从两个分支即幅度谱支路和复数谱支路中提取的信息,这两个张量通过下面的特征融合方法得到融合张量K在整个时间轴上反映每对频率点之间的相关关系,融合张量中包含了幅值修正信息和用于相位修正信息;
融合张量K的计算公式如下:
式中,Kc,i,j表示融合张量K的第c个通道的第(i,j)点的值,表示幅度谱隐式特征VM的第c个通道、第i个时间帧、第l个频率窗的值,/>表示复数谱隐式特征VP的第c个通道、第l个时间帧、第j个频率窗的值;
步骤(16)在特征投影阶段,两个线性变换张量xP和xM将融合张量K分别投影到幅度谱支路和复数谱支路上,分别得到两个支路在频率维度的注意力张量AP和AM,计算公式如下:
AP=σ(LayerNorm(KxP)) (17)
AM=σ(LayerNorm(KTxM)) (18)
式中,σ表示S激活函数,(·)T表示在张量的后两个维度上进行转置;通过新的注意力张量AP和AM与原支路第t帧的特征和/>进行融合校正,第t帧的校正过程如下:
式中,与/>分别是第t帧经过融合校正之后的输出,*表示元素对应相乘;最终得到的/>与/>分别是幅度谱支路和复数谱支路经过渐进融合校正模块后的特征图。
6.根据权利要求1所述的基于渐进式融合校正网络的单通道语音增强方法,其特征在于:所述步骤2中,复数谱对幅度谱的补偿方式包括:
给定幅度谱支路的理想比例掩模的预测输出与复数谱支路的校正输出/>最终的频谱重构方式如下:
式中,表示增强后语音信号的复数谱,|X|为待增强语音的幅度,∠θX代表带噪语音信号的相位谱,这样的重构策略有效地消除幅度和相位之间的补偿问题。
7.根据权利要求1所述的基于渐进式融合校正网络的单通道语音增强方法,其特征在于:所述步骤2中,理想比例掩模IRM如下:
理想比例掩模IRM作为训练目标重构待增强语音的时频图,是一种定义的理想掩码,|X|为待增强语音的幅度谱,|S|为纯净语音信号的复数谱。
CN202210885817.6A 2022-07-26 2022-07-26 一种基于渐进式融合校正网络的单通道语音增强方法 Active CN115295001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210885817.6A CN115295001B (zh) 2022-07-26 2022-07-26 一种基于渐进式融合校正网络的单通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210885817.6A CN115295001B (zh) 2022-07-26 2022-07-26 一种基于渐进式融合校正网络的单通道语音增强方法

Publications (2)

Publication Number Publication Date
CN115295001A CN115295001A (zh) 2022-11-04
CN115295001B true CN115295001B (zh) 2024-05-10

Family

ID=83825220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210885817.6A Active CN115295001B (zh) 2022-07-26 2022-07-26 一种基于渐进式融合校正网络的单通道语音增强方法

Country Status (1)

Country Link
CN (1) CN115295001B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588437B (zh) * 2022-12-13 2023-04-07 南方电网数字电网研究院有限公司 语音增强方法、装置、设备和存储介质
CN116994564B (zh) * 2023-09-26 2023-12-19 深圳市龙芯威半导体科技有限公司 一种语音数据的处理方法及处理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及***
CN114242099A (zh) * 2021-12-15 2022-03-25 南京邮电大学 基于改进相位谱补偿和全卷积神经网络的语音增强算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881631B2 (en) * 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
US11244696B2 (en) * 2019-11-06 2022-02-08 Microsoft Technology Licensing, Llc Audio-visual speech enhancement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及***
CN114242099A (zh) * 2021-12-15 2022-03-25 南京邮电大学 基于改进相位谱补偿和全卷积神经网络的语音增强算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合深度卷积循环网络和时频注意力机制的单通道语音增强算法;闫昭宇;王晶;;信号处理;20200625(第06期);77-84 *

Also Published As

Publication number Publication date
CN115295001A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN115295001B (zh) 一种基于渐进式融合校正网络的单通道语音增强方法
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN103531205A (zh) 基于深层神经网络特征映射的非对称语音转换方法
CN113470671B (zh) 一种充分利用视觉与语音联系的视听语音增强方法及***
CN112802491B (zh) 一种基于时频域生成对抗网络的语音增强方法
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN112927709B (zh) 一种基于时频域联合损失函数的语音增强方法
CN115602152B (zh) 一种基于多阶段注意力网络的语音增强方法
CN113823308B (zh) 一种使用单个带噪语音样本进行语音去噪的方法
CN111968666A (zh) 基于深度域自适应网络的助听器语音增强方法
CN111899750A (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
Watcharasupat et al. End-to-end complex-valued multidilated convolutional neural network for joint acoustic echo cancellation and noise suppression
CN115295002B (zh) 一种基于交互性时频注意力机制的单通道语音增强方法
CN116682444A (zh) 一种基于波形频谱融合网络的单通道语音增强方法
CN114283829A (zh) 一种基于动态门控卷积循环网络的语音增强方法
CN113782011A (zh) 频带增益模型的训练方法及用于车载场景的语音降噪方法
CN113936680B (zh) 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN115273884A (zh) 基于频谱压缩和神经网络的多阶段全频带语音增强方法
Wan et al. Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement
CN115798497B (zh) 一种时延估计***及装置
CN115547362B (zh) 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法
Wei et al. IIFC-Net: A Monaural Speech Enhancement Network With High-Order Information Interaction and Feature Calibration
US20240161766A1 (en) Robustness/performance improvement for deep learning based speech enhancement against artifacts and distortion
CN116913303A (zh) 一种基于逐级幅度补偿网络的单通道语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant