CN113611323B - 一种基于双通道卷积注意力网络的语音增强方法及*** - Google Patents
一种基于双通道卷积注意力网络的语音增强方法及*** Download PDFInfo
- Publication number
- CN113611323B CN113611323B CN202110999879.5A CN202110999879A CN113611323B CN 113611323 B CN113611323 B CN 113611323B CN 202110999879 A CN202110999879 A CN 202110999879A CN 113611323 B CN113611323 B CN 113611323B
- Authority
- CN
- China
- Prior art keywords
- channel
- voice
- representing
- input
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000001228 spectrum Methods 0.000 claims abstract description 62
- 238000009432 framing Methods 0.000 claims abstract description 19
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 238000011176 pooling Methods 0.000 claims description 73
- 230000006870 function Effects 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 37
- 230000004913 activation Effects 0.000 claims description 30
- 238000010586 diagram Methods 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 210000004027 cell Anatomy 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 235000019580 granularity Nutrition 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000007792 addition Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 31
- 230000015654 memory Effects 0.000 abstract description 20
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于双通道卷积注意力网络的语音增强方法,包括以下步骤:首先对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征作为模型的输入特征;然后将输入特征分别送入卷积神经网络通道和长短时记忆网络通道中进行深层特征提取,并在两个通道中分别添加卷积注意力模块和空间注意力模块,用于对两个通道中产生的特征图自适应调整;进一步完成增强语音对数幅度谱特征的预测;最后将预测结果和带噪语音相位结合得到增强语音的频域表示,并通过逆傅里叶变换转换回时域,再利用重叠相加的方法完成增强语音的整体合成。本发明能够有效提高了增强语音的质量和可懂度。
Description
技术领域
本发明涉及语音信号处理领域,特别是涉及一种基于双通道卷积注意力网络的语音增强方法及***。
背景技术
随着经济水平以及科技能力的不断进步,越来越多的智能设备在各个领域逐步应用起来,新型智能设备的使用正不断改善人们的生活质量。现如今人机交互的方式正逐步摆脱传统的键盘式方法,而开始使用语音交互方式,并逐步应用在各种平台,如:微软的语音助手小娜;小米的语音助手小爱同学;苹果的语音助手Siri以及讯飞的语音输入法等。这些语音助手的出现极大方便了人们的生产生活,然而这些交互方式都存在一定的问题,如在环境嘈杂时,设备的唤醒率低的现象,严重情况下也会导致语音信号的失真,如何降低由于周围环境带来的不良影响是当前的首要的任务。因此,对包含环境噪声的语音信号进行增强是对现实生活都有益的一项工作。
语音增强的主要任务是通过去除带噪语音中的噪声来提升语音的质量和可懂度的技术。目前语音增强的方法主要有两种,基于统计学的传统语音增强方法和基于深度学***稳噪声和高信噪比的前提下,增强语音取得了比较好的效果。但是实际应用中,这些假设很难得到满足,尤其是在低信噪比和非平稳噪声的环境中,增强效果往往不尽人意。基于深度学***稳噪声以及低信噪比的环境中。
使用传统方法进行语音增强的时候,都是对语音信号进行不合理的假设,但是这些假设并不满足现实条件。而如今的深度学习方法中大多是通过构建单独使用CNN或者LSTM等单通道的网络模型进行语音增强,这些方法在不可见噪声中的性能受到一定的约束,同时随着网络层数的增加,其性能也将受到影响,无法充分提取语音信号的深层特征。另外常见的卷积操作对训练中产生的特征图处理方式是一致的,并没有在通道以及空间维度对有益的特征信息进行区分,无法分辨带噪语音中关键信息,从而导致增强结果中受噪声等非关键信息的影响很大。
发明内容
针对上述问题,本发明提供了一种可提高增强语音的质量的基于双通道卷积注意力网络的语音增强方法及***。
为了解决上述技术问题,本发明第一方面提供的技术方案为:一种基于双通道卷积注意力网络的语音增强方法,所述语音增强方法包括以下步骤:
将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出特征图在空间维度的重构,得到第二输出结果;
将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测;
将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法完成合成增强语音并输出。
优选的,所述带噪语音的对数幅度谱特征向量的提取方式包括:对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征向量。
优选的,所述对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征的步骤具体包括:
对带噪语音降采样到8000Hz,然后采用窗长为32ms、采样点位256个的汉明窗进行分帧处理,帧与帧之间有50%的重叠,即帧移为16ms、采样点位128个,之后对每一帧结果进行256点的傅里叶变换,将时域信号转换到频域;
对得到的每一帧的频域信号依次进行取模、取对数操作,表示如下:
Yt=ln(|X(t,d)|)
其中,Yt代表第t时间帧、第d个对应的特征维度的带噪语音X(t,d)的对数幅度谱特征;
对带噪语音的对数幅度谱特征进行帧扩展,表示如下:
Y=[Yt-n,Yt-n+1…Yt-1,Yt,Yt+1…Yt+n-1,Yt+n]
其中,Y代表对数幅度谱特征进行帧扩展值,t-n,t-n+1,…,t+n代表时间帧(t,n=1,2,…,N,且t≠n,),Y∈R(2n+1)×d,R代表特征图集合,2n+1代表输入网络的时间帧数,取值为15,d代表对应的特征维度,取值129;
对经过帧扩展的特征向量按照均值为0,方差为1进行归一化处理,表示如下:
其中,Y′代表帧扩展的特征向量,Y代表对数幅度谱特征进行帧扩展值,μ代表输入数据Y的均值,s代表输入数据Y的方差。
优选的,所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在卷积层后添加卷积注意力模块,完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括:
对输入的带噪语音特征向量连续进行两次二维卷积操作,卷积操作表示如下:
Mi=f(W·Yi+b)
上式中,Yi代表第i个输入的特征图,b为对应的偏置项,W为相应的局部权值矩阵,卷积核的大小依次为16、32,其中大小为1×3,步长为1×1,f为ReLU激活函数,公式表示如下:
f(x)=max(0,x)
再经过两次连续的卷积操作后生成特征图为M∈RC*H*W,其中,R代表特征图集合,C代表特征图的通道数,H代表特征图的高度,W代表特征图的宽度;
生成的特征图M,作为卷积注意力模块的输入,所述卷积注意力模块包括通道和空间两种注意力模块;首先进行通道维度的特征图计算,采用全局平均池化和全局最大池化两种池化方式,将输入特征图M维度压缩成一维,分别为和/>之后使用两个卷积核大小为3×3,步长为1×1的卷积层对池化结果进行调整,这里卷积核的个数分别为C/8和C,其中C为通道数;然后对输出结果进行逐点相加生成通道注意力权重,同时使用Sigmoid激活函数对通道注意力权重进行归一化;最后将通道注意力权重与该模块输入特征图M进行逐元素相乘完成通道维度的特征图重构,其计算过程为:
Mchan=σ(fconv×ReLU(fconv×Gavgpool(M))+fconv×ReLU(fconv×Gmaxpool(M)))
其中,表示逐元素相乘,σ代表Sigmoid激活函数,Mchan代表通道注意力权重,Mout1代表通道注意力特征图,fconv表示卷积操作,Gavgpool(·)以及Gmaxpool(·)分别对应全局平均池化和全局最大池化;
生成的特征图Mout1,作为空间注意力模块的输入;首先通道注意力特征图Mout1分别经过最大池化和平均池化,完成通道维度的压缩,池化输出结果依次为以及之后在通道维度对池化输出结果进行拼接,拼接后的特征图通道数为2;然后采用卷积核大小为3×3,步长为1×1的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对空间注意力权重进行归一化处理;最后将空间注意力权重与该模块输入Mout1进行逐元素相乘完成空间维度的特征图重构,其计算过程为:
Mspat=σ(fconv[Avgpool(Mout1);Maxpool(Mout1)])
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,Mout1代表通道注意力特征图,表示逐元素相乘,Mspat代表空间注意力权重,Mout2代表空间注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均池化和最大池化;
将重构后的空间注意力特征图Mout2送入最大池化层来降低特征维度,最大池化函数表示为:
Mp=max(Mout2)
其中,Mp代表最大池化的特征图,Mout2代表空间注意力特征图,池化层的大小和步长依次为1×3和1×2;
连续重复两次上述操作。
优选的,所述将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的序列信息,并在该通道中添加空间注意力模块,完成序列信息输出特征图的空间维度的重构的步骤包括:
将带噪语音的特征向量作为LSTM通道的输入,经过连续两个LSTM层的训练,最终得到LSTM网络的隐层状态输出ht,其计算过程为:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+Whoht-1+bo)
其中,σ表示Sigmoid激活函数,表示元素乘积,it代表输入门,ft代表遗忘门,/>代表节点更新状态,ct代表单元状态,ot代表输出门,ht代表隐层状态输出,xt为当前时刻的输入值,ht-1代表上一时刻的输出值,W代表权重,b代表偏置,bi、bf、bc、bo分别代表it、ft、/>ot对应的偏置项;Wxi、Wxf、Wxc Wxo分别代表it、ft、/>ot对应的权重,其中输入门it控制当前时刻输入xt有多少信息保存到单元状态ct;遗忘门ft控制上一时刻单元状态ct-1中有多少信息保留到ct;输出门ot则是控制当前时刻单元状态ct有多少信息需要输出到ht中;
对输出ht进行空间维度的计算;首先分别经过最大池化和平均池化,完成通道维度的压缩,池化输出结果依次为以及/>之后对池化结果沿着通道维度进行拼接;然后对拼接结果进行二维的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对生成结果进行归一化处理;最后将空间注意力权重与输入ht进行逐元素相乘完成空间维度的重构,其计算过程为:
hspat=σ(fconv[Avgpool(ht);Maxpool(ht)])
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,ht代表隐层状态输出,表示逐元素相乘,hspat代表空间注意力权重,hout代表空间注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均池化和最大池化。
优选的,所述将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测的步骤包括:
将引入卷积注意力模块的CNN通道的输出特征图沿着通道维度进行重构,重构结果和引入空间注意力模块的LSTM通道的输出结果进行逐点相加,并将融合结果展开为一维,作为全连接层的输入,公式如下:
其中,表示逐元素相加,Flatten代表对融合结果的展开操作,OutC代表CNN通道重构后的输出结果,OutL代表LSTM通道输出结果,OutD代表全连接层的输入;
对融合结果依次送入两层神经元个数分别为1024、1024的全连接层中,并使用Dropout技术进行模型训练,得到输出结果,其中,设定Dropout率为0.2;
对输出结果送入神经元个数为129的全连接层中,并使用Linear线性激活函数进行增强语音的对数幅度谱特征的预测。
优选的,所述将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法合成增强语音的步骤包括:
对增强语音对数幅度谱特征的预测结果进行标准化还原;
将增强语音的第t帧的对数幅度谱特征与带噪语音的第t帧的相位分量αt进行结合,并使用傅里叶逆变换将其转换为时域,表示如下:
其中,代表增强语音第t帧的时域表示;ISTFT代表傅里叶逆变换;exp代表自然常数e为底的指数函数;αt代表带噪语音的第t帧的相位分量;
采用重叠相加的方法完成增强语音的重构,过程如下所示:
其中,表示增强语音的整体时域表示,w(k)表示对应的汉明窗,其参数与预处理一致,窗函数的表达式为:
其中,L代表帧长,其长度与窗长一致。
本发明第二方面提供了一种基于双通道卷积注意力网络的语音增强***,包括:
卷积神经网络模块:所述的卷积神经网络模块用于将带噪语音的对数幅度谱特征向量作为CNN通道的输入,学习输入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
长短时记忆网络模块:所述的长短时记忆网络模块用于将带噪语音的对数幅度谱特征向量作为LSTM通道的输入,学习输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出特征图在空间维度的重构,得到第二输出结果;
特征融合模块:所述的特征融合模块用于将将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测;
增强语音模块:所述的增强语音模块用于将将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法合成增强语音并输出。
与现有技术相比,本发明具有的有益效果为:本发明构建了一种双通道卷积注意力神经网络(Dual-Channel Convolution Attention Neural Network,DC_CANN)模型。首先对一维时域带噪语音使用短时傅里叶变换(Short-time Fouriertransform,STFT)的方法转换到二维时频域,同时提取带噪语音的对数幅度谱特征作为模型的输入特征;然后将输入特征分别送入卷积神经网络(CNN)通道和长短时记忆(LSTM)网络通道中进行深层特征提取,并在两个通道中分别添加卷积注意力模块和空间注意力模块,用于对卷积操作后产生的特征图自适应调整;之后将两个通道的输出特征进行融合,融合后的增强特征作为全连接层的输入,完成增强语音的对数幅度谱特征的预测;最后将预测结果和带噪语音相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法完成增强语音的整体合成。该方法主要将CNN和LSTM网络的各自优势进行结合,即提取了语音的局部特征,也考虑了语音的时间序列信息,除此之外,注意力模块的使用能够加大特征图内的关键特征信息的权重,进而增强重要信息的影响力,减少噪声的特征信息的干扰,从而提高增强语音的质量以及可懂度。
附图说明
图1为本发明实施例提供的一种基于双通道卷积注意力网络的语音增强方法的流程图。
图2本发明实施例提供的对带噪语音进行对数幅度谱特征向量的提取,并依次进行帧扩展的流程示意图。
图3为本发明实施例提供的CNN特征提取通道的流程示意图。
图4为本发明实施例提供的LSTM特征提取通道的流程示意图。
图5为本发明实施例提供的两个通道的输出结果进行特征融合,并进行增强语音的对数幅度谱特征预测的流程示意图。
图6为本发明实施例提供的使用本发明得到的增强语音的语谱图。
图7为本发明实施例提供的一种基于双通道卷积注意力网络的语音增强***结构示意图。
图8为本发明实施例提供的一种计算机设备的结构框图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所举实例用于解释说明,并非限定本发明的实施方式,本发明也可以通过其它不同的具体实施方式实施。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
语音增强的主要任务是通过去除带噪语音中的噪声来提升语音的质量和可懂度的技术。目前语音增强的方法主要有两种,基于统计学的传统语音增强方法和基于深度学习的语音增强方法。使用传统方法进行语音增强的时候,都是对语音信号进行不合理的假设,但是这些假设并不满足现实条件。而如今的深度学习方法中大多是通过构建单独使用CNN或者LSTM等单通道的网络模型进行语音增强,这些方法在不可见噪声中的性能受到一定的约束,同时随着网络层数的增加,其性能也将受到影响,无法充分提取语音信号的深层特征。另外常见的卷积操作对训练中产生的特征图处理方式是一致的,并没有在通道以及空间维度对有益的特征信息进行区分,无法分辨带噪语音中关键信息,从而导致增强结果中受噪声等非关键信息的影响很大。
请参阅图1,本发明提供了一种基于双通道卷积注意力网络的语音增强方法,所述语音增强方法包括以下步骤:
步骤S1、将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
在本发明实施例步骤S1中,所述带噪语音的对数幅度谱特征向量的提取方式包括:对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征向量。
图2为对带噪语音进行对数幅度谱特征向量的提取,并依次进行帧扩展的流程示意图,如图2所示,在本发明实施例中,所述对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征的步骤具体包括:
步骤S11、对带噪语音降采样到8000Hz,然后采用窗长为32ms、采样点位256个的汉明窗进行分帧处理,帧与帧之间有50%的重叠,即帧移为16ms、采样点位128个,之后对每一帧结果进行256点的傅里叶变换,将时域信号转换到频域;
步骤S12、对步骤S11得到的每一帧的频域信号依次进行取模、取对数操作,表示如下:
Yt=ln(|X(t,d)|)
其中,Yt代表第t时间帧、第d个对应的特征维度的带噪语音X(t,d)的对数幅度谱特征;
步骤S13、为了充分利用带噪语音在时间和频率两个维度的相关性,需要对带噪语音的对数幅度谱特征进行帧扩展,表示如下:
Y=[Yt-n,Yt-n+1…Yt-1,Yt,Yt+1…Yt+n-1,Yt+n]
其中,Y代表对数幅度谱特征进行帧扩展值,t-n,t-n+1,…,t+n代表时间帧(t,n=1,2,…,N,且t≠n,),Y∈R(2n+1)×d,R代表特征图集合,2n+1代表输入网络的时间帧数,取值为15,d代表对应的特征维度,取值129;
步骤S14、对步骤S13中经过帧扩展的特征向量按照均值为0,方差为1进行归一化处理,表示如下:
其中,Y′代表帧扩展的特征向量,Y代表对数幅度谱特征进行帧扩展值,μ代表输入数据Y的均值,s代表输入数据Y的方差。
图3为CNN特征提取通道的流程示意图,如图3所示,在本发明实施例中,将带噪语音数据进行降采样、分帧加窗、傅里叶变换及帧的拓展为输入的语音特征提供更多的语音数据。
步骤S2、将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出特征图在空间维度的重构,得到第二输出结果;
在本发明实施例中,所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在卷积层后添加卷积注意力模块,完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括:
步骤S21、对输入的带噪语音特征向量连续进行两次二维卷积操作,卷积操作表示如下:
Mi=f(W·Yi+b)
上式中,Yi代表第i个输入的特征图,b为对应的偏置项,W为相应的局部权值矩阵,卷积核的大小依次为16、32,其中大小为1×3,步长为1×1,f为ReLU激活函数,公式表示如下:
f(x)=max(0,x)
再经过两次连续的卷积操作后生成特征图为M∈RC*H*W,其中,R代表特征图集合,C代表特征图的通道数,H代表特征图的高度,W代表特征图的宽度;
步骤S22、将步骤S21中生成的特征图M,作为卷积注意力模块的输入,所述卷积注意力模块包括通道和空间两种注意力模块;首先进行通道维度的特征图计算,采用全局平均池化和全局最大池化两种池化方式,将输入特征图M维度压缩成一维,分别为和/>之后使用两个卷积核大小为3×3,步长为1×1的卷积层对池化结果进行调整,这里卷积核的个数分别为C/8和C,其中C为通道数;然后对输出结果进行逐点相加生成通道注意力权重,同时使用Sigmoid激活函数对通道注意力权重进行归一化;最后将通道注意力权重与该模块输入特征图M进行逐元素相乘完成通道维度的特征图重构,其计算过程为:
Mchan=σ(fconv×ReLU(fconv×Gavgpool(M))+fconv×ReLU(fconv×G max pool(M)))
其中,表示逐元素相乘,σ代表Sigmoid激活函数,Mchan代表通道注意力权重,Mout1代表通道注意力特征图,fconv表示卷积操作,Gavgpool(·)以及Gmaxpool(·)分别对应全局平均池化和全局最大池化;
步骤S23、将步骤S22中生成的特征图Mout1,作为空间注意力模块的输入;首先通道注意力特征图Mout1分别经过最大池化和平均池化,完成通道维度的压缩,池化输出结果依次为以及/>之后在通道维度对池化输出结果进行拼接,拼接后的特征图通道数为2;然后采用卷积核大小为3×3,步长为1×1的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对空间注意力权重进行归一化处理;最后将空间注意力权重与该模块输入Mout1进行逐元素相乘完成空间维度的特征图重构,其计算过程为:
Mspat=σ(fconv[Avgpool(Mout1);Maxpool(Mout1)])
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,Mout1代表通道注意力特征图,表示逐元素相乘,Mspat代表空间注意力权重,Mout2代表空间注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均池化和最大池化;
步骤S24、完成步骤S22、S23后,将重构后的空间注意力特征图Mout2送入最大池化层来降低特征维度,最大池化函数表示为:
Mp=max(Mout2)
其中,Mp代表最大池化的特征图,Mout2代表空间注意力特征图,池化层的大小和步长依次为1×3和1×2;
步骤S25、连续重复两次上述步骤S21至步骤S24的操作。两次重复过程中步骤S21的卷积核个数依次设置为64,128,128,128,其大小均为1×3,步长均为1×1,步骤S22至步骤S23中卷积注意力模块参数设置保持不变,步骤S24最大池化层除最后一次的步长设置为1×3,其余参数均保持不变,至此完成CNN通道的整体计算。
在本发明实施例中,CNN通道通过添加卷积注意力模块,实现通道维度的特征图重构。
步骤S3、将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测;
图4为LSTM通道提取特征流程示意图,如图4所示,步骤S3中将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的序列信息,并在该通道中添加空间注意力模块,完成序列信息输出特征图的空间维度的重构的步骤包括:
步骤S31、将带噪语音的特征向量作为LSTM通道的输入,经过连续两个LSTM层的训练,最终得到LSTM网络的隐层状态输出ht,其计算过程为:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+Whoht-1+bo)
其中,σ表示Sigmoid激活函数,表示元素乘积,it代表输入门,ft代表遗忘门,/>代表节点更新状态,ct代表单元状态,ot代表输出门,ht代表隐层状态输出,xt为当前时刻的输入值,ht-1代表上一时刻的输出值,[ht-1,xt]表示将当前时刻输入xt和上一时刻的输出ht-1进行拼接,W代表权重,b代表偏置,bi、bf、bc、bo分别代表it、ft、/>ot对应的偏置项;Wxi、Wxf、Wxc Wxo分别代表it、ft、/>ot对应的权重,其中输入门it控制当前时刻输入xt有多少信息保存到单元状态ct;遗忘门ft控制上一时刻单元状态ct-1中有多少信息保留到ct;输出门ot则是控制当前时刻单元状态ct有多少信息需要输出到ht中;
步骤S32、对步骤S31中的输出ht进行空间维度的计算;首先分别经过最大池化和平均池化,完成通道维度的压缩,池化输出结果依次为以及/>之后对池化结果沿着通道维度进行拼接;然后对拼接结果进行二维的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对生成结果进行归一化处理;最后将空间注意力权重与输入ht进行逐元素相乘完成空间维度的重构,其计算过程为:
hspat=σ(fconv[Avgpool(ht);Maxpool(ht)])
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,ht代表隐层状态输出,表示逐元素相乘,hspat代表空间注意力权重,hout代表空间注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均池化和最大池化。
在本发明实施例中,LSTM通道可以充分利用上下文信息,可以提升语音信号识别的准确度,所述注意力模块的使用能够加大特征图内的关键特征信息的权重,进而增强重要信息的影响力,减少噪声的特征信息的干扰。
步骤S4、将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法完成合成增强语音并输出。
图5为两个通道的输出结果进行特征融合,并进行增强语音的对数幅度谱特征预测的流程示意图,如图5所示,在本发明实施例中,将步骤S2和步骤S3的第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测的步骤包括:
步骤S41、将引入卷积注意力模块的CNN通道的输出特征图沿着通道维度进行重构,重构结果和引入空间注意力模块的LSTM通道的输出结果进行逐点相加,并将融合结果展开为一维,作为全连接层的输入,公式如下:
其中,表示逐元素相加,Flatten代表对融合结果的展开操作,OutC代表CNN通道重构后的输出结果,OutL代表LSTM通道输出结果,OutD代表全连接层的输入;
步骤S42、对步骤S41的融合结果依次送入两层神经元个数分别为1024,1024,的全连接层中,并使用Dropout技术,防止训练过程中容易出现的过拟合问题,Dropout的主要思想是在模型训练时,随机地选择一部分将其从网络中暂时的丢弃,即这些神经单元暂时失活,不再参与参数的更新运算,设定Dropout率为0.2(只在训练时起作用),即每次迭代有20%的神经元不参与计算;
步骤S43、对步骤S42的输出结果送入神经元个数为129的全连接层中,并使用Linear线性激活函数进行增强语音的对数幅度谱特征的预测。
在本发明实施例中,所述将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法合成增强语音的步骤包括:
对增强语音对数幅度谱特征的预测结果进行标准化还原;
将增强语音的第t帧的对数幅度谱特征与带噪语音的第t帧的相位分量αt进行结合,并使用傅里叶逆变换将其转换为时域,表示如下:
其中,代表增强语音第t帧的时域表示;ISTFT代表傅里叶逆变换;exp代表自然常数e为底的指数函数;αt代表带噪语音的第t帧的相位分量;
采用重叠相加的方法完成增强语音的重构,过程如下所示:
其中,表示增强语音的整体时域表示,w(k)表示对应的汉明窗,其参数与预处理一致,窗函数的表达式为:
其中,L代表帧长,其长度与窗长一致。
在本发明实施例中,通过傅里叶逆变换和重叠相加的方法精确的计算,使得两个通道能够进行融合,并增强了语音信号。
本发明实施例构建了一种双通道卷积注意力神经网络(Dual-ChannelConvolution Attention Neural Network,DC_CANN)模型。首先对一维时域带噪语音使用短时傅里叶变换(Short-time Fourier transform,STFT)的方法转换到二维时频域,同时提取带噪语音的对数幅度谱特征作为模型的输入特征;然后将输入特征分别送入卷积神经网络(CNN)通道和长短时记忆(LSTM)网络通道中进行深层特征提取,并在两个通道中分别添加卷积注意力模块和空间注意力模块,用于对卷积操作后产生的特征图自适应调整;之后将两个通道的输出特征进行融合,融合后的增强特征作为全连接层的输入,完成增强语音的对数幅度谱特征的预测;最后将预测结果和带噪语音相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法完成增强语音的整体合成。该方法主要将CNN和LSTM网络的各自优势进行结合,即提取了语音的局部特征,也考虑了语音的时间序列信息,除此之外,注意力模块的使用能够加大特征图内的关键特征信息的权重,进而增强重要信息的影响力,减少噪声的特征信息的干扰,从而提高增强语音的质量以及可懂度。
实施例2
请参阅图7,本发明实施例2提供了一种基于双通道卷积注意力网络的语音增强***,包括:
提取带噪语音特征模块201:所述的提取带噪语音特征模块用于对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,进一步提取带噪语音的对数幅度谱特征作为模型的输入特征;
卷积神经网络模块202:所述的卷积神经网络模块用于将带噪语音的对数幅度谱特征向量作为CNN通道的输入,学习输入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块完成特征图在通道以及空间两个维度的重构;
长短时记忆网络模块203:所述的长短时记忆网络模块用于将带噪语音的对数幅度谱特征向量作为LSTM通道的输入,学习输入特征的序列信息,并在该通道内添加空间注意力模块完成输出特征图在空间维度的重构;
特征融合模块204:所述的特征融合模块用于将两个通道的输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测;
增强语音模块205:所述的增强语音模块用于将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法完成增强语音的合成。
实施例3
本发明实施例3提供了一种基于双通道卷积注意力网络的语音增强方法,其利用干净语音和噪声按照不同信噪比进行合成的带噪语音,使用基于双通道卷积注意力网络的语音增强方法对带噪语音进行降噪,具体步骤如下所示:
(1-1)对数据集进行预处理,使用窗长为32ms(256个采样点)的汉明窗对语音信号进行分帧,帧与帧之间有50%的重叠,即帧移为16ms(128个采样点),然后对每一帧信号进行256点的傅里叶变换,最终得到特征维度为129。
(1-2)获得语音信号的幅度谱特征之后,需要依次对其进行取对数和帧扩展操作,即以当前帧为中心的相邻7帧的带噪语音对数幅度谱特征作为输入特征。
(1-3)将帧扩展之后的带噪语音对数特征向量作为CNN通道以及LSTM通道的输入特征。对于CNN通道,卷积核个数依次为16,32,64,128,128,128,每个卷积层的卷积核大小均为1×3,步长均为1×1,激活函数为ELU函数,除最后一个最大池化层步长为1×3,其余池化层的大小均为1×3,步长均为1×2。对于LSTM通道其隐层神经元个数设置为1024,激活函数为Tanh函数。
(1-4)分别在CNN和LSTM通道中添加卷积注意力模块以及空间注意力模块,注意力模块的输出大小与该通道所提取特征大小一致。
(1-5)将两个通道的输出进行特征融合后接入全连接层完成干净语音的对数幅度谱特征预测,全连接层的神经元设置依次是1024,1024,129,并且设定Dropout率为0.2,除最后一层使用的线性激活函数外,前两层均使用ReLU激活函数。
(1-6)得到增强语音的对数幅度谱估计,之后结合带噪语音的相位进行傅里叶逆变换得到增强语音的时域表示,最后经过重叠相加的方法进行增强语音的合成。
在本发明实施例中,图6是信噪比为0dB,且被machinegun(机枪噪声)噪声污染后的带噪语音,使用不同方法进行语音增强后的语谱图。其中图(a)为干净语音的语谱图,图(b)为带噪语音的语谱图,图(c)、(d)、(e)依次为单独使用DNN,LSTM,CNN结构的增强语音语谱图,图(f)为不包含注意力模块的双通道模型增强语音语谱图,图(g)是将LSTM层替换为GRU层的增强语音语谱图,图(h)为提出的DC_CANN模型的增强语音语谱图。从语谱图上可以看出,带噪语音的能量主要集中在低频部分,双通道卷积注意力网络的方法较其他方法增强效果显著,尤其是低频部分。
实施例4
请参阅图8,在本发明实施例4提供了一种计算机设备600,本发明实施例提供的计算机设备600可以执行基于双通道卷积注意力网络的语音增强方法实施例提供的处理流程,如图8所示,计算机设备600包括存储器601、处理器602、计算机程序;其中,计算机程序存储在存储器601中,并被配置为由处理器602执行上述实施例中基于双通道卷积注意力网络的语音增强方法。
此外,计算机设备600可具有通讯接口603,用于接收控制指令。
实施例5
本发明实施例5还提供一种计算机可读存储介质,采用了如下所述的技术方案:所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述基于双通道卷积注意力网络的语音增强方法的步骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
在本发明实施例的一个典型的配置中,终端、服务网络的设备和计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于双通道卷积注意力网络的语音增强方法,其特征在于,所述语音增强方法包括以下步骤:
将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出特征图在空间维度的重构,得到第二输出结果;
将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测;
将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法完成合成增强语音并输出;
所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在卷积层后添加卷积注意力模块,完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括:
对输入的带噪语音特征向量连续进行两次二维卷积操作,卷积操作表示如下:
Mi=f(W·Yi+b)
上式中,Yi代表第i个输入的特征图,b为对应的偏置项,W为相应的局部权值矩阵,卷积核的大小依次为16、32,其中大小为1×3,步长为1×1,f为ReLU激活函数,公式表示如下:
f(x)=max(0,x)
再经过两次连续的卷积操作后生成特征图为M∈RC*H*W,其中,R代表特征图集合,C代表特征图的通道数,H代表特征图的高度,W代表特征图的宽度;
生成的特征图M,作为卷积注意力模块的输入,所述卷积注意力模块包括通道和空间两种注意力模块;首先进行通道维度的特征图计算,采用全局平均池化和全局最大池化两种池化方式,将输入特征图M维度压缩成一维,分别为和/>之后使用两个卷积核大小为3×3,步长为1×1的卷积层对池化结果进行调整,这里卷积核的个数分别为C/8和C,其中C为通道数;然后对输出结果进行逐点相加生成通道注意力权重,同时使用Sigmoid激活函数对通道注意力权重进行归一化;最后将通道注意力权重与该模块输入特征图M进行逐元素相乘完成通道维度的特征图重构,其计算过程为:
Mchan=σ(fconv×ReLU(fconv×Gavgpool(M))+fconv×ReLU(fconv×Gmaxpool(M)))
其中,表示逐元素相乘,σ代表Sigmoid激活函数,Mchan代表通道注意力权重,Mout1代表通道注意力特征图,fconv表示卷积操作,Gavgpool(·)以及Gmaxpool(·)分别对应全局平均池化和全局最大池化;
生成的特征图Mout1,作为空间注意力模块的输入;首先通道注意力特征图Mout1分别经过最大池化和平均池化,完成通道维度的压缩,池化输出结果依次为以及之后在通道维度对池化输出结果进行拼接,拼接后的特征图通道数为2;然后采用卷积核大小为3×3,步长为1×1的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对空间注意力权重进行归一化处理;最后将空间注意力权重与该模块输入Mout1进行逐元素相乘完成空间维度的特征图重构,其计算过程为:
Mspat=σ(fconv[Avgpool(Mout1);Maxpool(Mout1)])
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,Mout1代表通道注意力特征图,表示逐元素相乘,Mspat代表空间注意力权重,Mout2代表空间注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均池化和最大池化;
将重构后的空间注意力特征图Mout2送入最大池化层来降低特征维度,最大池化函数表示为:
Mp=max(Mout2)
其中,Mp代表最大池化的特征图,Mout2代表空间注意力特征图,池化层的大小和步长依次为1×3和1×2;
连续重复两次上述操作。
2.根据权利要求1所述的基于双通道卷积注意力网络的语音增强方法,其特征在于,所述带噪语音的对数幅度谱特征向量的提取方式包括:对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征向量。
3.根据权利要求2所述的基于双通道卷积注意力网络的语音增强方法,其特征在于,所述对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征的步骤具体包括:
对带噪语音降采样到8000Hz,然后采用窗长为32ms、采样点位256个的汉明窗进行分帧处理,帧与帧之间有50%的重叠,即帧移为16ms、采样点位128个,之后对每一帧结果进行256点的傅里叶变换,将时域信号转换到频域;
对得到的每一帧的频域信号依次进行取模、取对数操作,表示如下:
Yt=ln(|X(t,d)|)
其中,Yt代表第t时间帧、第d个对应的特征维度的带噪语音X(t,d)的对数幅度谱特征;
对带噪语音的对数幅度谱特征进行帧扩展,表示如下:
Y=[Yt-n,Yt-n+1…Yt-1,Yt,Yt+1…Yt+n-1,Yt+n]
其中,Y代表对数幅度谱特征进行帧扩展值,t-n,t-n+1,…,t+n代表时间帧(t,n=1,2,…,N,且t≠n,),Y∈R(2n+1)×d,R代表特征图集合,2n+1代表输入网络的时间帧数,取值为15,d代表对应的特征维度,取值129;
对经过帧扩展的特征向量按照均值为0,方差为1进行归一化处理,表示如下:
其中,Y′代表帧扩展的特征向量,Y代表对数幅度谱特征进行帧扩展值,μ代表输入数据Y的均值,s代表输入数据Y的方差。
4.根据权利要求1所述的基于双通道卷积注意力网络的语音增强方法,其特征在于,所述将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的序列信息,并在该通道中添加空间注意力模块,完成序列信息输出特征图的空间维度的重构的步骤包括:
将带噪语音的特征向量作为LSTM通道的输入,经过连续两个LSTM层的训练,最终得到LSTM网络的隐层状态输出ht,其计算过程为:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+Whoht-1+bo)
其中,σ表示Sigmoid激活函数,表示元素乘积,it代表输入门,ft代表遗忘门,/>代表节点更新状态,ct代表单元状态,ot代表输出门,ht代表隐层状态输出,xt为当前时刻的输入值,ht-1代表上一时刻的输出值,W代表权重,b代表偏置,bi、bf、bc、bo分别代表it、ft、/>ot对应的偏置项;Wxi、Wxf、Wxc Wxo分别代表it、ft、/>ot对应的权重,其中输入门it控制当前时刻输入xt有多少信息保存到单元状态ct;遗忘门ft控制上一时刻单元状态ct-1中有多少信息保留到ct;输出门ot则是控制当前时刻单元状态ct有多少信息需要输出到ht中;
对输出ht进行空间维度的计算;首先分别经过最大池化和平均池化,完成通道维度的压缩,池化输出结果依次为以及/>之后对池化结果沿着通道维度进行拼接;然后对拼接结果进行二维的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对生成结果进行归一化处理;最后将空间注意力权重与输入ht进行逐元素相乘完成空间维度的重构,其计算过程为:
hspat=σ(fconv[Avgpool(ht);Maxpool(ht)])
其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,ht代表隐层状态输出,表示逐元素相乘,hspat代表空间注意力权重,hout代表空间注意力特征图,fconv表示卷积操作,Avgpool(·)以及Maxpool(·)分别对应平均池化和最大池化。
5.根据权利要求4所述的基于双通道卷积注意力网络的语音增强方法,其特征在于,所述将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测的步骤包括:
将引入卷积注意力模块的CNN通道的输出特征图沿着通道维度进行重构,重构结果和引入空间注意力模块的LSTM通道的输出结果进行逐点相加,并将融合结果展开为一维,作为全连接层的输入,公式如下:
其中,表示逐元素相加,Flatten代表对融合结果的展开操作,OutC代表CNN通道重构后的输出结果,OutL代表LSTM通道输出结果,OutD代表全连接层的输入;
对融合结果依次送入两层神经元个数分别为1024、1024的全连接层中,并使用Dropout技术进行模型训练,得到输出结果,其中,设定Dropout率为0.2;
对输出结果送入神经元个数为129的全连接层中,并使用Linear线性激活函数进行增强语音的对数幅度谱特征的预测。
6.根据权利要求5所述的基于双通道卷积注意力网络的语音增强方法,其特征在于,所述将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法合成增强语音的步骤包括:
对增强语音对数幅度谱特征的预测结果进行标准化还原;
将增强语音的第t帧的对数幅度谱特征与带噪语音的第t帧的相位分量αt进行结合,并使用傅里叶逆变换将其转换为时域,表示如下:
其中,代表增强语音第t帧的时域表示;ISTFT代表傅里叶逆变换;exp代表自然常数e为底的指数函数;αt代表带噪语音的第t帧的相位分量;
采用重叠相加的方法完成增强语音的重构,过程如下所示:
其中,表示增强语音的整体时域表示,w(k)表示对应的汉明窗,其参数与预处理一致,窗函数的表达式为:
其中,L代表帧长,其长度与窗长一致。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110494561 | 2021-05-07 | ||
CN2021104945611 | 2021-05-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113611323A CN113611323A (zh) | 2021-11-05 |
CN113611323B true CN113611323B (zh) | 2024-02-20 |
Family
ID=78342224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110999879.5A Active CN113611323B (zh) | 2021-05-07 | 2021-08-26 | 一种基于双通道卷积注意力网络的语音增强方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611323B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114326639B (zh) * | 2021-12-30 | 2024-06-25 | 杭州电子科技大学 | 基于混合注意力卷积神经网络的工业过程性能评估方法 |
CN115295001B (zh) * | 2022-07-26 | 2024-05-10 | 中国科学技术大学 | 一种基于渐进式融合校正网络的单通道语音增强方法 |
CN115295002B (zh) * | 2022-07-26 | 2024-05-14 | 中国科学技术大学 | 一种基于交互性时频注意力机制的单通道语音增强方法 |
CN115648215B (zh) * | 2022-11-04 | 2024-01-26 | 北京能创科技有限公司 | 基于注意力机制和孪生反卷积的服务机器人抓取检测方法 |
CN115602152B (zh) * | 2022-12-14 | 2023-02-28 | 成都启英泰伦科技有限公司 | 一种基于多阶段注意力网络的语音增强方法 |
CN116504259B (zh) * | 2023-06-30 | 2023-08-29 | 中汇丰(北京)科技有限公司 | 一种基于自然语言处理的语义识别方法 |
CN116584902B (zh) * | 2023-07-18 | 2024-05-07 | 山东大学 | 基于特征选优及可视化的心音分类装置 |
CN116741202B (zh) * | 2023-08-10 | 2023-11-10 | 北京边锋信息技术有限公司 | 一种语音信号处理方法、装置和可读存储介质 |
CN117237749A (zh) * | 2023-09-15 | 2023-12-15 | 上海谱希和光基因科技有限公司 | 一种眼轴长度预测方法、***、设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101175122A (zh) * | 2006-11-01 | 2008-05-07 | 中兴通讯股份有限公司 | 通信网语音增强通道的选配方法 |
CN109948658A (zh) * | 2019-02-25 | 2019-06-28 | 浙江工业大学 | 面向特征图注意力机制的对抗攻击防御方法及应用 |
CN110383377A (zh) * | 2017-03-13 | 2019-10-25 | 三菱电机株式会社 | 语音识别*** |
CN110739003A (zh) * | 2019-10-23 | 2020-01-31 | 北京计算机技术及应用研究所 | 基于多头自注意力机制的语音增强方法 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN111179920A (zh) * | 2019-12-31 | 2020-05-19 | 中国科学院声学研究所 | 一种端到端远场语音识别方法及*** |
CN111524519A (zh) * | 2020-05-28 | 2020-08-11 | 中国科学技术大学 | 采用高级特征融合的端到端多通道语音识别方法 |
WO2020232180A1 (en) * | 2019-05-14 | 2020-11-19 | Dolby Laboratories Licensing Corporation | Method and apparatus for speech source separation based on a convolutional neural network |
CN112116920A (zh) * | 2020-08-10 | 2020-12-22 | 北京大学 | 一种说话人数未知的多通道语音分离方法 |
CN112151059A (zh) * | 2020-09-25 | 2020-12-29 | 南京工程学院 | 面向麦克风阵列的通道注意力加权的语音增强方法 |
CN112331224A (zh) * | 2020-11-24 | 2021-02-05 | 深圳信息职业技术学院 | 轻量级时域卷积网络语音增强方法与*** |
CN112735456A (zh) * | 2020-11-23 | 2021-04-30 | 西安邮电大学 | 一种基于dnn-clstm网络的语音增强方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070135952A1 (en) * | 2005-12-06 | 2007-06-14 | Dts, Inc. | Audio channel extraction using inter-channel amplitude spectra |
US11170761B2 (en) * | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
-
2021
- 2021-08-26 CN CN202110999879.5A patent/CN113611323B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101175122A (zh) * | 2006-11-01 | 2008-05-07 | 中兴通讯股份有限公司 | 通信网语音增强通道的选配方法 |
CN110383377A (zh) * | 2017-03-13 | 2019-10-25 | 三菱电机株式会社 | 语音识别*** |
CN109948658A (zh) * | 2019-02-25 | 2019-06-28 | 浙江工业大学 | 面向特征图注意力机制的对抗攻击防御方法及应用 |
WO2020232180A1 (en) * | 2019-05-14 | 2020-11-19 | Dolby Laboratories Licensing Corporation | Method and apparatus for speech source separation based on a convolutional neural network |
CN110739003A (zh) * | 2019-10-23 | 2020-01-31 | 北京计算机技术及应用研究所 | 基于多头自注意力机制的语音增强方法 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN111179920A (zh) * | 2019-12-31 | 2020-05-19 | 中国科学院声学研究所 | 一种端到端远场语音识别方法及*** |
CN111524519A (zh) * | 2020-05-28 | 2020-08-11 | 中国科学技术大学 | 采用高级特征融合的端到端多通道语音识别方法 |
CN112116920A (zh) * | 2020-08-10 | 2020-12-22 | 北京大学 | 一种说话人数未知的多通道语音分离方法 |
CN112151059A (zh) * | 2020-09-25 | 2020-12-29 | 南京工程学院 | 面向麦克风阵列的通道注意力加权的语音增强方法 |
CN112735456A (zh) * | 2020-11-23 | 2021-04-30 | 西安邮电大学 | 一种基于dnn-clstm网络的语音增强方法 |
CN112331224A (zh) * | 2020-11-24 | 2021-02-05 | 深圳信息职业技术学院 | 轻量级时域卷积网络语音增强方法与*** |
Non-Patent Citations (1)
Title |
---|
CBAM Convolutional Block Attention Module;Sanghyun Woo etal.;《Proceedings of the European Conference on Computer Vision (ECCV)》;第3-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113611323A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113611323B (zh) | 一种基于双通道卷积注意力网络的语音增强方法及*** | |
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
Qian et al. | Speech Enhancement Using Bayesian Wavenet. | |
Sun et al. | Multiple-target deep learning for LSTM-RNN based speech enhancement | |
US20180182410A1 (en) | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments | |
Takeuchi et al. | Real-time speech enhancement using equilibriated RNN | |
CN111971743A (zh) | 用于改进的实时音频处理的***、方法和计算机可读介质 | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
Koizumi et al. | DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement | |
CN110223708B (zh) | 基于语音处理的语音增强方法及相关设备 | |
CN113096682B (zh) | 基于掩码时域解码器的实时语音降噪方法和装置 | |
Mundodu Krishna et al. | Single channel speech separation based on empirical mode decomposition and Hilbert transform | |
Richter et al. | Speech Enhancement with Stochastic Temporal Convolutional Networks. | |
CN113808602A (zh) | 语音增强方法、模型训练方法以及相关设备 | |
Sun et al. | A model compression method with matrix product operators for speech enhancement | |
WO2019014890A1 (zh) | 一种通用的单声道实时降噪方法 | |
WO2016050725A1 (en) | Method and apparatus for speech enhancement based on source separation | |
Li et al. | A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN | |
CN113808607A (zh) | 基于神经网络的语音增强方法、装置及电子设备 | |
Le et al. | Inference skipping for more efficient real-time speech enhancement with parallel RNNs | |
Malek et al. | Block‐online multi‐channel speech enhancement using deep neural network‐supported relative transfer function estimates | |
Kantamaneni et al. | Speech enhancement with noise estimation and filtration using deep learning models | |
US11404055B2 (en) | Simultaneous dereverberation and denoising via low latency deep learning | |
CN116705056A (zh) | 音频生成方法、声码器、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |