CN114694670A - 一种基于多任务网络的麦克风阵列语音增强***及方法 - Google Patents

一种基于多任务网络的麦克风阵列语音增强***及方法 Download PDF

Info

Publication number
CN114694670A
CN114694670A CN202210353984.6A CN202210353984A CN114694670A CN 114694670 A CN114694670 A CN 114694670A CN 202210353984 A CN202210353984 A CN 202210353984A CN 114694670 A CN114694670 A CN 114694670A
Authority
CN
China
Prior art keywords
network
voice
sub
module
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210353984.6A
Other languages
English (en)
Inventor
张军
赖志鹏
宁更新
冯义志
余华
陈芳炯
温淼文
季飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210353984.6A priority Critical patent/CN114694670A/zh
Publication of CN114694670A publication Critical patent/CN114694670A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种基于多任务网络的麦克风阵列语音增强***及方法,该***由语音预处理模块、多任务网络模块、多任务损失统计模块、网络权重计算模块和语音重构模块组成。其中,语音预处理模块获取阵列语音、参考回声语音和各个任务目标语音作为输入语音并进行预处理;多任务网络模块完成阵列语音各声道的去混响、回声消除、降噪任务,并将多声道语音融合输出为增强后的语音;多任务损失统计模块用于计算多任务网络模块中各任务的损失值,并统计网络的总损失;网络权重计算模块根据网络的总损失计算梯度,将梯度反向传播,计算得到更新后网络的权重;语音重构模块完成从频域特征到时域语音的映射,得到增强后的干净语音。

Description

一种基于多任务网络的麦克风阵列语音增强***及方法
技术领域
本发明涉及语音增强技术领域,具体涉及一种基于多任务网络的麦克风阵列语音增强***及方法。
背景技术
基于麦克风阵列的语音增强是语音通信***中抑制干扰的有效方法之一。现有的麦克风阵列语音增强技术主要可以分为传统的增强技术和基于深度神经网络的增强技术两类。传统的增强技术通常针对回声消除、空间混响、环境噪声的相关特性分别设计对应的滤波器,对硬件算力要求较低,可以做到较好的实时性,但是传统的增强技术还存在以下不足:(1)不能很好的消除非线性的噪声分量,使得输出语音有非线性回声残余;(2)对非平稳突发性噪声的抑制能力较差,输出语音质量不高。
近年来,得益于计算机硬件算力的快速提升,深度神经网络技术得到广泛应用,相较于传统的增强技术,基于深度神经网络的增强技术不需要估计噪声,对于非平稳的噪声有更强的适应性。目前的研究中,通常通过设计一体化的深度神经网络来同时完成回声消除、去混响和去噪声等工作,一体化的网络模型能够在较为单一的干扰环境下达到比较好的效果,但是这些网络还存在以下不足:(1)在多种类型干扰并存时,网络的训练难度大大增加,网络难以学习输入特征与标签之间的映射关系;(2)网络训练目标单一时,容易陷入局部极小值,从而达不到较好的增强效果;(3)在测试阶段,针对不同的降噪任务,泛化性能不足。
发明内容
本发明的目的是针对现有基于深度神经网络的麦克风阵列语音增强技术的不足,提供一种基于多任务网络的麦克风阵列语音增强***及方法。该***与方法针对现有网络***难训练、易陷入局部极小值等缺陷,按语音增强***的功能对深度神经网络的结构进行了细化,提供了一种由回声消除子网络、去混响子网络和降噪子网络构成的多任务语音增强网络模型,有效降低网络训练难度,弥补单一网络目标带来的缺陷,能显著改善语音增强的效果。本发明可以广泛应用于在线语音会议,车载电话,移动通话终端等场合。
本发明的第一个目的可以通过采取如下技术方案达到:
一种基于多任务的麦克风阵列语音增强***,该***由语音预处理模块、多任务网络模块、多任务损失统计模块、网络权重计算模块和语音重构模块组成。其中,语音预处理模块分别与多任务网络模块和多任务损失统计模块连接,该模块获取阵列语音、参考回声语音和各个任务目标语音作为输入语音,对这些输入语音进行预处理,预处理工作包含语音信号的归一化,提取各声道语音和参考回声语音的对数幅度谱;多任务网络模块分别与语音预处理模块、多任务损失统计模块、网络权重计算模块和语音重构模块连接连接,完成阵列语音各声道的去混响、回声消除、降噪任务,并将多声道语音融合输出为增强后的语音;多任务损失统计模块分别与多任务网络模块和网络权重计算模块连接,计算多任务网络模块中各任务的损失值,并统计网络的总损失;网络权重计算模块分别与多任务网络模块和多任务损失统计模块连接,根据网络的总损失计算梯度,将梯度反向传播,计算得到更新后网络的权重;语音重构模块与多任务网络模块连接,完成从频域特征到时域语音的映射,得到增强后的干净语音。
进一步地,多任务网络模块,包括M条并联的声道分支网络和1个分别与上述M条声道分支网络连接的声道融合子网络,上述每条声道分支网络包括依次顺序连接的1个去混响子网络、1个回声消除子网络和1个降噪子网络,其中M与语音预处理模块中麦克风阵列的阵元数目相同,每条声道分支网络中去混响子网络与回声消除子网络、所述多任务损失统计模块和所述语音预处理模块连接,完成对该声道的混响去除任务;每条声道分支网络中的回声消除子网络与去混响子网络、降噪子网络、所述语音预处理模块和所述多任务损失统计模块连接,利用参考的回声信号,消除该声道的回声分量;每条声道分支网络中的降噪子网络与回声消除子网络、声道融合子网络和所述多任务损失统计模块连接,消除该声道中的噪声分量;声道融合子网络分别与M条声道分支网络中的降噪子网络、所述多任务损失统计模块和所述网络权重计算模块连接,利用阵列语音各声道包含的空间信息进行二次增强。多任务网络模块中利用各声道分支网络对阵列语音的各声道信号进行增强,增强输出并行通过声道融合子网络以获得增强后的单通道语音。上述每条声道分支网络利用语音增强***中的不同功能,将网络划分为去混响、回声消除和降噪任务的子网络,使得子网络任务清晰化,网络更加便于训练。
进一步地,上述多任务损失统计模块,由去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和总损失统计模块共同构成。其中,所述去混响损失统计模块分别与上述语音预处理模块、上述各声道的去混响子网络和总损失统计模块连接,利用去混响子网络的输出和去混响标签计算各声道去混响子网络的损失值;所述回声消除损失统计模块分别与上述语音预处理模块、上述各声道的回声消除子网络和总损失统计模块连接,利用回声消除子网络的输出和去混响去回声标签计算各声道回声消除子网络的损失值;所述降噪损失统计模块分别与上述语音预处理模块、上述各声道的降噪子网络和总损失统计模块连接,利用降噪子网络的输出和无噪声标签计算各声道降噪子网络的损失值;所述声道融合损失统计模块分别与上述语音预处理模块、上述声道融合子网络和总损失统计模块连接,利用声道融合子网络的输出和干净语音标签计算声道融合子网络的损失值;所述总损失统计模块分别与去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和上述网络权重计算模块连接,接收各任务损失统计模块的损失值,统计网络的总损失值。多任务损失统计模块包括上述各子网络的损失统计模块,该模块为各子网络的输出计算目标损失,统计得到总网络的损失值。多任务损失统计模块使得训练时各子网络能够按照预设的任务调整网络参数。
本发明的另一个目的可以通过采取如下技术方案达到:
一种基于多任务网络的麦克风阵列语音增强方法,所述语音增强方法包括以下步骤:
S1、构建阵列语音训练集,对语音进行预处理,分别得到每一个声道的输入特征和去混响任务、回声消除任务、降噪任务、融合任务的标签;
S2、将各声道预处理得到的特征输入多任务网络模块,依次通过与每条声道对应的去混响子网络、回声消除子网络和降噪子网络后,在声道融合子网络进行融合,从上述各子网络的输出端分别得到各声道已去混响的目标输出、已去混响去回声目标输出、无噪声目标输出和融合后干净语音目标输出;
S3、将各任务的网络输出和各任务的标签输入多任务损失统计模块,计算各声道中回声消除子网络的损失值、混响子网络的损失值、降噪子网络的损失值和声道融合子网络的损失值,并根据上述损失值计算网络总损失;
S4、计算网络总损失的梯度,采用反向传播法更新网络的权重;
S5、重复步骤S2、S3、S4,直到网络的总损失低于预设阈值,保存此时的网络参数;
S6、将测试语音进行预处理,计算每一个声道的输入特征,将待增强的语音特征输入步骤S5中保存的多任务网络,得到增强后的语音特征,将增强后的语音特征输入语音重构模块,得到增强后的语音。
进一步地,所述步骤S1中的阵列语音训练集的构建过程如下:
S1.1、构建带噪阵列语音与相应的已去混响的阵列语音、已去混响去回声的阵列语音和无噪声的阵列语音:
带噪阵列语音为x(n)=[x1(n),x2(n),...,xm(n),...,xM(n)]T,m∈[1,M],其中
Figure BDA0003582025410000051
xm(n)为第m个阵元接收到的带噪语音信号,M为麦克风阵列的阵元数目,s′(n)为包含混响的源语音分量,d(n)为包含混响的回声分量,v(n)为环境噪声,s(n)为源语音,e(n)为参考的回声语音,τm(θ)是阵元m收到方向角为θ的声源产生的信号时刻相对参考阵元的时延,*代表卷积操作,h(n)为房间内的多径传播信道参数,ser为随机分布的信号回声比,snr为随机分布的信噪比。训练集带噪语音的分布应尽可能覆盖各种噪声种类和各种强度的干扰,使网络尽可能学习多的噪声语音特征,不容易陷入过拟合的情况;
已去混响的阵列语音为
ydereb(n)=[y1_dereb(n),y2_dereb(n),...,ym_dereb(n),...,yM_dereb(n)]T,m∈[1,M],其中
ym_dereb(n)=s(n-τm(θ))+e(n-τm(θ))+v(n) (2)
已去混响去回声的阵列语音为
ydecho(n)=[y1_decho(n),y2_decho(n),...,ym_decho(n),...,yM_decho(n)]T,m∈[1,M],其中
ym_decho(n)=s(n-τm(θ))+v(n) (3)
无噪声的阵列语音为
yenh(n)=[y1_enh(n),v2_enh(n),...,ym_enh(n),...,yM_enh(n)]T,m∈[1,M],其中
ym_enh(n)=s(n-τm(θ)) (4)
其中,ym_dereb(n)为第m个阵元的已去混响语音,ym_enh(n)为第m个阵元的已去混响去回声语音,ym_enh(n)为第m个阵元的无噪声语音,构造上述三种语音将用于后续制作声道支路网络中各子网络的标签;
S1.2、提取网络的输入特征:将阵元m接收的语音信号xm(n)进行短时傅里叶变换,得到每帧的对数幅度谱Xm(i,k),k为离散频率序号,i∈[0,N]为帧的序号,N为总帧数,将第i帧与其前l帧的对数幅度谱组合得到第m声道第i帧的网络输入特征
Figure BDA0003582025410000061
参考回声语音e(n)经过相同的处理后获得参考回声的对数幅度谱E(i,k)。将输入拓展前l帧是为了使网络获取更多过去时间帧的信息,以助于网络恢复当前第i帧的语音信号;
S1.3、构建第m声道各任务的标签:将ym_dereb(n)、ym_decho(n)、ym_enh(n)和s(n)语音进行短时傅里叶变换得到每帧的幅度谱
Figure BDA0003582025410000062
Figure BDA0003582025410000063
和S(i,k),k为离散频率序号,i∈[0,N]为帧的序号,N为总帧数,采用目标理想比值掩蔽(Ideal RatioMask,IRM)作为各任务的标签,IRM采用下式计算,
Figure BDA0003582025410000064
其中Tm(i,k)为期待得到目标语音的幅度谱,β为可调节尺度因子,Mm(i,k)=exp(Xm(i,k))为带噪语音的幅度谱,k为离散频率序号,i为帧序号,将上述得到的
Figure BDA0003582025410000065
Figure BDA0003582025410000066
替换式(5)中的Tm(i,k),得到去已去混响的标签
Figure BDA0003582025410000067
已去除混响和回声的标签
Figure BDA0003582025410000068
和去噪后的标签
Figure BDA0003582025410000069
此外,将S(i,k)做对数变换得到干净语音的对数幅度谱标签Slms
进一步地,所述步骤S2中将特征输入多任务网络模块得到各任务子网络得到目标输出的过程如下:
S2.1、将
Figure BDA0003582025410000071
输入第m声道的去混响子网络,得到期望去除混响语音的IRM输出
Figure BDA0003582025410000072
采用IRM作为网络的目标可以同时利用带噪语音和干净语音两者的信息,使网络学习到更多特征;
S2.2、将
Figure BDA0003582025410000073
和E(i,k)输入第m声道的回声消除子网络,得到期望去除混响和回声语音的IRM输出
Figure BDA0003582025410000074
回声消除子网络的输入有带噪语音和参考信号两种信息,网络利用参考回声信号的幅度谱特征E(i,k),消除带噪语音中的回声分量;
S2.3、第m声道的降噪子网络包含两个输出层,一个输出层输出降噪后语音的对数幅度谱,另一个输出层输出降噪后语音的IRM,将
Figure BDA0003582025410000075
输入降噪子网络,得到对数幅度谱输出
Figure BDA0003582025410000076
和IRM输出
Figure BDA0003582025410000077
降噪子网络采用两个输入层结构,使得网络能从不同维度提取数据特征得到不同的输出,为后续声道融合子网络提供更高纬度的输入;
S2.4、构建声道融合子网络的输入
Figure BDA0003582025410000078
其中
Figure BDA0003582025410000079
采用一个
Figure BDA00035820254100000710
层的卷积层作为声道融合子网络,M为总阵元数,d为卷积核的宽度,对于输入Xfuse_in其维度可以表示为Xfuse_in∈R2×M×k,将矩阵沿M维度方向作卷积,得到声道融合子网络增强后的单声道对数幅度谱
Figure BDA00035820254100000711
声道融合子网络的卷积结构能够重点学习声道之间的特征信息,在尽可能保持原有各声道的增强结果情况下,将各声道输出融合为单声道,完成二次增强。
进一步地,所述步骤S3中多任务损失统计模块得到总损失值的流程如下:
S3.1、将去混响子网络的输出
Figure BDA0003582025410000081
和已去除混响语音的IRM标签
Figure BDA0003582025410000082
通过下式计算各声道去混响子网络的总损失值Ldereb。每个声道的去混响子网络的损失重要程度是相同的,因此采用直接累加方式,采用相同的权重;
Figure BDA0003582025410000083
S3.2、将回声消除子网络的输出
Figure BDA0003582025410000084
和已去除混响和回声语音的标签
Figure BDA0003582025410000085
通过下式计算得到各声道回声消除子网络损失值Ldecho,此处各声道回声消除子网络采用相同损失权重,直接累加;
Figure BDA0003582025410000086
S3.3、将降噪子网络输出
Figure BDA0003582025410000087
和无噪声标签
Figure BDA0003582025410000088
通过下式计算得到各声道降噪子网络的损失值Lenh,此处各声道降噪子网络采用相同损失权重,直接累加;
Figure BDA0003582025410000089
S3.4、将声道融合子网络得到的输出
Figure BDA00035820254100000810
和干净语音的对数幅度谱Slms通过下式计算声道融合子网络的损失Lfuse。Log-Cosh函数对于数据中的异常值容忍度较高,并且它在最小值附近时梯度会减小,不同于均方误差损失始终使用一样的损失,可能导致最小值的遗漏;
Figure BDA00035820254100000811
S3.5、将得到的各个任务模块的损失值Ldereb、Ldecho、Lenh和Lfuse计算网络的总损失loss如下。其中各子网络未加权重参数,目标损失权重相同,将各任务视为同等重要:
loss=Ldereb+Ldecho+Lenh+Lfuse (11)。
进一步地,所述步骤S6中采用如下方法将增强后的语音特征重构为增强后的语音:
将声道融合子网络输出的对数幅度谱
Figure BDA0003582025410000091
转换为线性幅度谱
Figure BDA0003582025410000092
然后对
Figure BDA0003582025410000093
与xm(n)的相位谱
Figure BDA0003582025410000094
相乘得到增强后语音的复数表示
Figure BDA0003582025410000095
Figure BDA0003582025410000096
进行短时傅里叶变换逆变换和重叠相加,得到增强后语音的时域波形。通过重叠相加的方法可以复原在特征提取时为了做短时傅里叶变换而分帧的各帧语音。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明在声道分支网络中采用了串联的多个增强任务子网络,对噪声中包含的多种噪声分量进行针对性的降噪,缓解了单一目标网络模型面对多种类噪声类型时,网络难以拟合和训练困难的问题,从而拥有更强的降噪性能。
(2)本发明中充分利用不同降噪任务之间的相关性,设计了回声消除任务目标、去混响目标、降噪目标和声道融合目标,通过不同任务任务之间相互作用,避免单一任务网络在梯度的反向传播倾向于容易陷入局部最小值问题。
(3)本发明中采用声道支路网络对阵列语音各个声道进行独立处理,并采用声道融合子网络对各声道增强后的特征进行二次增强,可以在不需要获取说话人语音来波方向和噪声的先验信息的情况下,实现对语音的增强,克服了传统麦克风阵列性能上的不足。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例中公开的基于多任务网络的麦克风阵列语音增强***的结构框图;
图2是本发明实施例中多任务网络模块网络结构图;
图3是本发明实施例中多任务网络的阵列语音增强方法的训练测试流程图;
图4为本发明实施例中带噪语音的生成示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例公开了一种基于多任务网络的麦克风阵列语音增强***,该***结构如图1所示,该***由语音预处理模块、多任务网络模块、多任务损失统计模块、网络权重计算模块和语音重构模块组成。其中语音预处理模块与多任务网络模块和多任务损失统计模块连接,该模块获取阵列语音、参考回声语音和各个任务目标语音作为输入语音,对这些输入语音进行预处理,预处理工作包含语音信号的归一化,提取各声道语音和参考回声语音的对数幅度谱;多任务网络模块与语音预处理模块、多任务损失统计模块和网络权重计算模块连接,完成阵列语音各声道的去混响、回声消除、降噪任务,并将多声道语音融合输出为增强后的语音;多任务损失统计与多任务网络模块和网络权重计算模块连接,计算多任务网络模块中各任务的损失值,并统计网络的总损失;网络权重计算模块与多任务网络模块和多任务损失统计模块连接,根据网络的总损失计算梯度,将梯度反向传播,计算得到更新后网络的权重;语音重构模块与多任务网络模块连接,完成从频域特征到时域语音的映射,得到增强后的干净语音。
本实施例中,上述多任务网络模块网络结构如图2所示,包含4条声道分支网络和1个声道融合子网络,上述声道融合子网络由3层全卷积神经网络搭建而成,每条声道分支网络由1个去混响子网络、1个回声消除子网络、1个降噪子网络共同构成,其中4条声道分支网络对应麦克风阵列的4个阵元,其中去混响子网络由2层单向长短时记忆网络(Long short-term memory,LSTM)和一个全连接输出层搭建而成,回声消除子网络由2层双向LSTM搭建和一个全连接输出层而成,降噪子网络由2层单向LSTM和两个全连接输出层搭建而成。每条声道分支网络中的去混响子网络与回声消除子网络、上述多任务损失统计模块和上述语音预处理模块连接,完成对该声道的混响去除任务;每条声道分支网络中的回声消除子网络与去混响子网络、降噪子网络、上述语音预处理模块和上述多任务损失统计模块连接,利用参考的回声信号,消除该声道的回声分量;每条声道分支网络中的降噪子网络与回声消除子网络、声道融合子网络和上述多任务损失统计模块连接,除去该声道中的噪声分量;多声道融合子网络与4条声道分支网络中的降噪子网络、上述多任务损失统计模块和上述网络权重计算模块连接,利用阵列语音各声道包含的空间信息进行二次增强。
上述多任务损失统计模块,由去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和总损失统计模块共同构成。去混响损失统计模块与上述语音预处理模块、上述各声道的去混响子网络和总损失统计模块连接,利用去混响子网络的输出和去混响标签计算各声道去混响子网络的损失值;回声消除损失统计模块与上述语音预处理模块、上述各声道的回声消除子网络和总损失统计模块连接,利用回声消除子网络的输出和去混响去回声标签计算各声道回声消除子网络的损失值;降噪损失统计模块与上述语音预处理模块、上述各声道的降噪子网络和总损失统计模块连接,利用降噪子网络的输出和无噪声标签计算各声道降噪子网络的损失值;声道融合损失统计模块与上述语音预处理模块、上述声道融合子网络和总损失统计模块连接,利用声道融合子网络的输出和干净语音标签计算声道融合子网络的损失值;总损失统计模块与去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和上述网络权重计算模块连接,接收各任务损失统计模块的损失值,统计网络的总损失值。
实施例2
基于上述实施例公开的一种基于多任务网络的麦克风阵列语音增强***,本实施例继续公开一种基于多任务网络的麦克风阵列语音增强方法,该方法采用以下步骤完成训练和测试,训练和测试流程如图3所示:
S1、构建阵列语音训练集,对语音进行预处理,得到每一个声道的输入特征和去混响任务、回声消除任务、降噪任务、融合任务的标签;过程如下:
S1.1、构建带噪阵列语音与相应的已去混响的阵列语音、已去混响去回声的阵列语音和无噪声的阵列语音:
带噪阵列语音为x(n)=[x1(n),x2(n),...,xm(n),...,xM(n)]T,m∈[1,M],其中M=4为总阵元数,带噪语音的生成如图4所示,xm(n)为第m个阵元接收到的带噪语音信号,
Figure BDA0003582025410000121
s′(n)为包含混响的源语音分量,d(n)为包含混响的回声分量,v(n)为环境噪声,s(n)为源语音,e(n)为参考的回声语音,τm(θ)是阵元m收到方向角为θ的声源产生的信号时刻相对参考阵元的时延,*代表卷积操作,信号回声比ser∈[-10,10]取值随机分布,信噪比snr∈[-5,15]取值随机分布,h(n)为房间内的多径传播信道参数,通过混响时间、房间大小、声源和阵列位置确定,本实施例中混响时间随机取0.2s/0.3s/0.4s/0.5s/0.6s,房间大小通过长5/7/9/11/13m、宽4/6/8/10m、高3m随机组合,阵列位置在房间中随机选取5个位置。
已去混响的阵列语音为
ydereb(n)=[y1_dereb(n),y2_dereb(n),...,ym_dereb(n),...,yM_dereb(n)]T,m∈[1,M],其中
ym_dereb(n)=s(n-τm(θ))+e(n-τm(θ))+v(n) (2)
已去混响去回声的阵列语音为
ydecho(n)=[y1_decho(n),y2_decho(n),...,ym_decho(n),...,yM_decho(n)]T,m∈[1,M],其中
ym_decho(n)=s(n-τm(θ))+v(n) (3)
无噪声的阵列语音为yenh(n)=[y1_enh(n),v2_enh(n),...,ym_enh(n),...,yM_enh(n)]T,m∈[1,M],其中
ym_enh(n)=s(n-τm(θ)) (4)
S1.2、提取网络的输入特征:将阵元m接收的语音信号xm(n)进行短时傅里叶变换,得到每帧的对数幅度谱Xm(i,k),k为离散频率序号,i∈[0,N]为帧的序号,N为总帧数,将第i帧与其前l帧的对数幅度谱组合得到第m声道第i帧的网络输入特征
Figure BDA0003582025410000131
参考回声语音e(n)经过相同的处理后获得参考回声的对数幅度谱E(i,k)。本实例中xm(n)和e(n)以帧长256和帧移192分帧,并用汉明窗窗函数加窗后,进行短时傅里叶变换,离散频率序号k∈[0,128],对数幅度谱上文帧数l=4。
S1.3、构建第m声道各任务的标签:将ym_dereb(n)、ym_decho(n)、ym_enh(n)和s(n)语音进行短时傅里叶变换得到每帧的幅度谱
Figure BDA0003582025410000132
Figure BDA0003582025410000133
和S(i,k),k为离散频率序号,i∈[0,N]为帧的序号,N为总帧数。采用目标理想比值掩蔽(Ideal RatioMask,IRM)作为各任务的标签,IRM采用下式计算,
Figure BDA0003582025410000141
其中Tm(i,k)为期待得到目标语音的幅度谱,可调节尺度因子β=0.5,Mm(i,k)=exp(Xm(i,k))为带噪语音的幅度谱,将上述得到的
Figure BDA0003582025410000142
Figure BDA0003582025410000143
Figure BDA0003582025410000144
替换式(5)中的Tm(i,k),得到去已去混响的标签
Figure BDA0003582025410000145
已去除混响和回声的标签
Figure BDA0003582025410000146
和去噪后的标签
Figure BDA0003582025410000147
此外,将S(i,k)做对数变换得到干净语音的对数幅度谱标签Slms
S2、将各声道预处理得到的特征输入多任务网络模块,本实例中采用4条声道支路网络,各支路网络参数独立,各声道特征依次通过与每条声道对应的去混响子网络、回声消除子网络和降噪子网络后,在声道融合子网络进行融合,从上述各子网络的输出端分别得到各声道已去混响的目标输出、已去混响去回声目标输出、无噪声目标输出和融合后干净语音目标输出;过程如下:
S2.1、混响子网络采用两层单向LSTM网络,输入维度为129,隐藏层宽度为512,网络输出层的激活函数采用Softmax函数,将
Figure BDA0003582025410000148
输入第m声道的去混响子网络,得到期望去除混响语音的IRM输出
Figure BDA0003582025410000149
S2.2、回声消除子网络采用两层双向LSTM网络,输入维度为258,隐藏层宽度为512,网络输出层的激活函数采用Softmax函数,将
Figure BDA00035820254100001410
和E(i,k)输入第m声道的回声消除子网络,得到期望去除混响和回声语音的IRM输出
Figure BDA00035820254100001411
S2.3、降噪子网络采用两层单向LSTM网络,输入维度为129,隐藏层宽度为512,第m声道的降噪子网络包含两个输出层,一个输出层采用ReLu激活函数,输出降噪后语音的对数幅度谱,另一个输出层采用softmax激活函数,输出降噪后语音的IRM。将
Figure BDA0003582025410000151
输入降噪子网络,得到对数幅度谱输出
Figure BDA0003582025410000152
和IRM输出
Figure BDA0003582025410000153
S2.4、构建声道融合子网络的输入
Figure BDA0003582025410000154
其中
Figure BDA0003582025410000155
采用一个3层的卷积层作为声道融合子网络,其中每层的卷积核大小为2×9、2×19、2×129,每层的输入输出维度为(1,16)、(16,16)、(16,1),对于输入Xfuse_in其维度可以表示为Xfuse_in∈R2×4×129,将矩阵沿第二维度方向即通道方向作卷积,得到声道融合子网络增强后的单声道对数幅度谱
Figure BDA0003582025410000156
S3、将各任务的网络输出和各任务的标签输入多任务损失统计模块,计算各声道中回声消除子网络的损失值、混响子网络的损失值、降噪子网络的损失值和声道融合子网络的损失值,并根据上述损失值计算网络总损失;过程如下:
S3.1、将去混响子网络的输出
Figure BDA0003582025410000157
和已去除混响语音的IRM标签
Figure BDA0003582025410000158
通过下式计算各声道去混响子网络的总损失值Ldereb
Figure BDA0003582025410000159
S3.2、将回声消除子网络的输出
Figure BDA00035820254100001510
和已去除混响和回声语音的标签
Figure BDA00035820254100001511
通过下式计算得到各声道回声消除子网络损失值Ldecho
Figure BDA00035820254100001512
S3.3:将降噪子网络输出
Figure BDA00035820254100001513
和无噪声标签
Figure BDA00035820254100001514
通过下式计算得到各声道降噪子网络的损失值Lenh
Figure BDA0003582025410000161
S3.4、将声道融合子网络得到的输出
Figure BDA0003582025410000162
和干净语音的对数幅度谱Slms通过下式计算声道融合子网络的损失Lfuse
Figure BDA0003582025410000163
S3.5、将得到的各个任务模块的损失值Ldereb、Ldecho、Lenh和Lfuse计算网络的总损失loss如下:
loss=Ldereb+Ldecho+Lenh+Lfuse (11)
S4、将S3获取的总损失计算梯度,使用Adam优化器,计算并更新网络的权重;
S5、训练批次大小为1000,学习率为0.001,训练总轮次为200,每轮重复步骤S2、S3、S4,直到网络的总损失低于预设阈值,保存此时的网络参数;
S6、将测试语音进行预处理,计算每一个声道的输入特征,将待增强的语音特征输入步骤S5中保存的多任务网络,得到增强后的语音特征,将增强后的语音特征输入语音重构模块,得到增强后的语音,具体重构流程如下;
将声道融合子网络输出的对数幅度谱
Figure BDA0003582025410000164
转换为线性幅度谱
Figure BDA0003582025410000165
取第1声道的语音相位谱e
Figure BDA0003582025410000166
相乘得到增强后语音的复数表示
Figure BDA0003582025410000167
Figure BDA0003582025410000168
进行短时傅里叶变换逆变换和重叠相加,得到增强后语音的时域波形。
实施例3
基于上述实施例公开的一种基于多任务网络的麦克风阵列语音增强***,本实施例继续公开一种基于多任务网络的麦克风阵列语音增强方法,该方法采用以下步骤完成训练和测试,训练和测试流程如图3所示:
S1、构建阵列语音训练集,对语音进行预处理,得到每一个声道的输入特征和去混响任务、回声消除任务、降噪任务、融合任务的标签;过程如下:
S1.1、构建带噪阵列语音与相应的已去混响的阵列语音、已去混响去回声的阵列语音和无噪声的阵列语音:
带噪阵列语音为x(n)=[x1(n),x2(n),...,xm(n),...,xM(n)]T,m∈[1,M],其中M=4为总阵元数,带噪语音的生成如图4所示,xm(n)为第m个阵元接收到的带噪语音信号,
Figure BDA0003582025410000171
s′(n)为包含混响的源语音分量,d(n)为包含混响的回声分量,v(n)为环境噪声,s(n)为源语音,e(n)为参考的回声语音,τm(θ)是阵元m收到方向角为θ的声源产生的信号时刻相对参考阵元的时延,*代表卷积操作,信号回声比ser∈[-10,10]取值随机分布,信噪比snr∈[-5,15]取值随机分布,h(n)为房间内的多径传播信道参数,通过混响时间、房间大小、声源和阵列位置确定,本实施例中混响时间随机取0.2s/0.3s/0.4s/0.5s/0.6s,房间大小通过长5/7/9/11/13m、宽4/6/8/10m、高3m随机组合,阵列位置在房间中随机选取5个位置。
已去混响的阵列语音为
ydereb(n)=[y1_dereb(n),y2_dereb(n),...,ym_dereb(n),...,yM_dereb(n)]T,m∈[1,M],其中
ym_dereb(n)=s(n-τm(θ))+e(n-τm(θ))+v(n) (2)
已去混响去回声的阵列语音为
ydecho(n)=[y1_decho(n),y2_decho(n),...,ym_decho(n),...,yM_decho(n)]T,m∈[1,M],其中
ym_decho(n)=s(n-τm(θ))+v(n) (3)
无噪声的阵列语音为yenh(n)=[y1_enh(n),v2_enh(n),...,ym_enh(n),...,yM_enh(n)]T,m∈[1,M],其中
ym_enh(n)=s(n-τm(θ)) (4)
S1.2、提取网络的输入特征:将阵元m接收的语音信号xm(n)进行短时傅里叶变换,得到每帧的对数幅度谱Xm(i,k),k为离散频率序号,i∈[0,N]为帧的序号,N为总帧数,将第i帧与其前l帧的对数幅度谱组合得到第m声道第i帧的网络输入特征
Figure BDA0003582025410000181
参考回声语音e(n)经过相同的处理后获得参考回声的对数幅度谱E(i,k)。本实例中xm(n)和e(n)以帧长256和帧移192分帧,并用汉明窗窗函数加窗后,进行短时傅里叶变换,离散频率序号k∈[0,128],对数幅度谱上文帧数l=4。
S1.3、构建第m声道各任务的标签:将ym_dereb(n)、ym_decho(n)、ym_enh(n)和s(n)语音进行短时傅里叶变换得到每帧的幅度谱
Figure BDA0003582025410000182
Figure BDA0003582025410000183
和S(i,k),k为离散频率序号,i∈[0,N]为帧的序号,N为总帧数。采用目标理想比值掩蔽(Ideal RatioMask,IRM)作为各任务的标签,IRM采用下式计算,
Figure BDA0003582025410000184
其中Tm(i,k)为期待得到目标语音的幅度谱,可调节尺度因子β=0.5,Mm(i,k)=exp(Xm(i,k))为带噪语音的幅度谱,将上述得到的
Figure BDA0003582025410000185
Figure BDA0003582025410000186
Figure BDA0003582025410000187
替换式(5)中的Tm(i,k),得到去已去混响的标签
Figure BDA0003582025410000188
已去除混响和回声的标签
Figure BDA0003582025410000191
和去噪后的标签
Figure BDA0003582025410000192
此外,将S(i,k)做对数变换得到干净语音的对数幅度谱标签Slms
S2、将各声道预处理得到的特征输入多任务网络模块,本实例中采用一条声道支路网络,4条声道共享该支路网络参数,各声道特征串行输入该支路网络,依次通过去混响子网络、回声消除子网络和降噪子网络后,串行输出在声道融合子网络进行融合,从上述各子网络的输出端分别得到各声道已去混响的目标输出、已去混响去回声目标输出、无噪声目标输出和融合后干净语音目标输出;过程如下:
S2.1、混响子网络采用两层单向LSTM网络,输入维度为129,隐藏层宽度为512,网络输出层的激活函数采用Softmax函数,将
Figure BDA0003582025410000193
输入第m声道的去混响子网络,得到期望去除混响语音的IRM输出
Figure BDA0003582025410000194
S2.2、回声消除子网络采用两层双向LSTM网络,输入维度为258,隐藏层宽度为512,网络输出层的激活函数采用Softmax函数,将
Figure BDA0003582025410000195
和E(i,k)输入回声消除子网络,得到期望去除混响和回声语音的IRM输出
Figure BDA0003582025410000196
S2.3、降噪子网络采用两层单向LSTM网络,输入维度为129,隐藏层宽度为512,降噪子网络包含两个输出层,一个输出层采用ReLu激活函数,输出降噪后语音的对数幅度谱,另一个输出层采用softmax激活函数,输出降噪后语音的IRM。将
Figure BDA0003582025410000197
输入降噪子网络,得到对数幅度谱输出
Figure BDA0003582025410000198
和IRM输出
Figure BDA0003582025410000199
S2.4、构建声道融合子网络的输入
Figure BDA00035820254100001910
其中,
Figure BDA00035820254100001911
采用一个3层的卷积层作为声道融合子网络,其中每层的卷积核大小为2×9、2×19、2×129,每层的输入输出维度为(1,16)、(16,16)、(16,1),对于输入Xfuse_in其维度可以表示为Xfuse_in∈R2×4×129,将矩阵沿第二维度方向即通道方向作卷积,得到声道融合子网络增强后的单声道对数幅度谱
Figure BDA0003582025410000201
S3、将各任务的网络输出和各任务的标签输入多任务损失统计模块,计算各声道中回声消除子网络的损失值、混响子网络的损失值、降噪子网络的损失值和声道融合子网络的损失值,并根据上述损失值计算网络总损失;过程如下:
S3.1、将去混响子网络的输出
Figure BDA0003582025410000202
和已去除混响语音的IRM标签
Figure BDA0003582025410000203
通过下式计算各声道去混响子网络的总损失值Ldereb
Figure BDA0003582025410000204
S3.2、将回声消除子网络的输出
Figure BDA0003582025410000205
和已去除混响和回声语音的标签
Figure BDA0003582025410000206
通过下式计算得到各声道回声消除子网络损失值Ldecho
Figure BDA0003582025410000207
S3.3:将降噪子网络输出
Figure BDA0003582025410000208
和无噪声标签
Figure BDA0003582025410000209
通过下式计算得到各声道降噪子网络的损失值Lenh
Figure BDA00035820254100002010
S3.4、将声道融合子网络得到的输出
Figure BDA00035820254100002011
和干净语音的对数幅度谱Slms通过下式计算声道融合子网络的损失Lfuse
Figure BDA00035820254100002012
S3.5、将得到的各个任务模块的损失值Ldereb、Ldecho、Lenh和Lfuse计算网络的总损失loss如下:
loss=Ldereb+Ldecho+Lenh+Lfuse (11)
S4、将S3获取的总损失计算梯度,使用Adam优化器,计算并更新网络的权重;
S5、训练批次大小为1000,学习率为0.001,训练总轮次为200,每轮重复步骤S2、S3、S4,直到网络的总损失低于预设阈值,将1条声道支路网络拓展为4条声道支路网络,4条声道支路网络共享相同的参数,保存此时的网络参数;
S6、将测试语音进行预处理,计算每一个声道的输入特征,将待增强的语音特征输入步骤S5中保存的多任务网络,得到增强后的语音特征,将增强后的语音特征输入语音重构模块,得到增强后的语音,具体重构流程如下;
将声道融合子网络输出的对数幅度谱
Figure BDA0003582025410000211
转换为线性幅度谱
Figure BDA0003582025410000212
取第1声道的语音相位谱e
Figure BDA0003582025410000213
相乘得到增强后语音的复数表示
Figure BDA0003582025410000214
Figure BDA0003582025410000215
进行短时傅里叶变换逆变换和重叠相加,得到增强后语音的时域波形。
为验证本发明的技术效果,将上述实施例2和实施例3与已有的基线***(详见:Westhausen N L,Meyer B T.Acoustic echo cancellation with the dual-signaltransformation LSTM network[C]//ICASSP 2021-2021IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP).IEEE,2021:7138-7142.)进行对比,评价指标使用语音质量感知评估PESQ。训练集的源语音和参考回声语音选自TIMIT训练集,加性噪声选用Babble噪声。测试集源语音和参考回声选自TIMIT测试集。分别在信噪比:-3dB、2dB、7dB、12dB和信号回声比:-2dB、3dB、8dB上完成测试。
基线***的测试结果由原文提供的预训练的模型测试得到。对比结果如表1和表2所示。可以看到在不同信噪比下本专利的实施方案相对于带噪语音PESQ平均有0.6的提高,相对于基线***PESQ平均有0.2的提高。在不同的回声信号比下,本专利的实施方案相对于带噪语音PESQ平均提升25%到50%,相对基线***PESQ平均提高约11%。
表1.不同信噪比条件下的PESQ对比表
-3dB 2dB 7dB 12dB
带噪语音 1.358 1.445 1.517 1.561
基线*** 1.529 1.828 1.986 2.058
本实施例2 1.868 2.013 2.122 2.186
本实施例3 1.853 1.991 2.104 2.170
表2.不同信号回声比条件下的PESQ对比表
-2dB 3dB 8dB
带噪语音 1.263 1.477 1.671
基线*** 1.703 1.869 1.979
本实施例2 1.862 2.067 2.213
本实施例3 1.852 2.048 2.189
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于多任务网络的麦克风阵列语音增强***,其特征在于,所述麦克风阵列语音增强***包括语音预处理模块、多任务网络模块、多任务损失统计模块、网络权重计算模块和语音重构模块,其中,
所述语音预处理模块分别与多任务网络模块和多任务损失统计模块连接,用于获取阵列语音、参考回声语音和各个任务目标语音作为输入语音,对输入语音进行预处理,所述预处理工作包含语音信号的归一化、提取各声道语音和参考回声语音的对数幅度谱;
所述多任务网络模块分别与语音预处理模块、多任务损失统计模块、网络权重计算模块和语音重构模块连接,完成阵列语音各声道的去混响、回声消除、降噪任务,并将多声道语音融合输出为增强后的语音;
所述多任务损失统计模块分别与多任务网络模块和网络权重计算模块连接,计算多任务网络模块中各任务的损失值,并统计网络的总损失;
所述网络权重计算模块分别与多任务网络模块和多任务损失统计模块连接,根据网络的总损失计算梯度,将梯度反向传播,计算得到更新后网络的权重;
所述语音重构模块与多任务网络模块连接,完成从频域特征到时域语音的映射,得到增强后的干净语音。
2.根据权利要求1所述的一种基于多任务网络的麦克风阵列语音增强***,其特征在于,所述多任务网络模块,包括M条并联的声道分支网络和1个声道融合子网络,上述每条声道分支网络包括依次顺序连接的1个去混响子网络、1个回声消除子网络和1个降噪子网络,其中M与语音预处理模块中麦克风阵列的阵元数目相同,每条声道分支网络中去混响子网络与回声消除子网络、所述多任务损失统计模块和所述语音预处理模块连接,完成对该声道的混响去除任务;每条声道分支网络中的回声消除子网络与去混响子网络、降噪子网络、所述语音预处理模块和所述多任务损失统计模块连接,利用参考的回声信号,消除该声道的回声分量;每条声道分支网络中的降噪子网络与回声消除子网络、声道融合子网络和所述多任务损失统计模块连接,消除该声道中的噪声分量;所述声道融合子网络分别与M条声道分支网络中的降噪子网络、所述多任务损失统计模块和所述网络权重计算模块连接,利用阵列语音各声道包含的空间信息进行二次增强。
3.根据权利要求2所述的一种基于多任务网络的麦克风阵列语音增强***,其特征在于,
所述多任务损失统计模块包括去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和总损失统计模块,其中,所述去混响损失统计模块分别与上述语音预处理模块、上述各声道的去混响子网络和总损失统计模块连接,利用去混响子网络的输出和去混响标签计算各声道去混响子网络的损失值;所述回声消除损失统计模块分别与上述语音预处理模块、上述各声道的回声消除子网络和总损失统计模块连接,利用回声消除子网络的输出和去混响去回声标签计算各声道回声消除子网络的损失值;所述降噪损失统计模块分别与上述语音预处理模块、上述各声道的降噪子网络和总损失统计模块连接,利用降噪子网络的输出和无噪声标签计算各声道降噪子网络的损失值;所述声道融合损失统计模块分别与上述语音预处理模块、上述声道融合子网络和总损失统计模块连接,利用声道融合子网络的输出和干净语音标签计算声道融合子网络的损失值;所述总损失统计模块分别与去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和上述网络权重计算模块连接,接收各任务损失统计模块的损失值,统计网络的总损失值。
4.一种根据权利要求1至3任一所述的基于多任务网络的麦克风阵列语音增强***的语音增强方法,其特征在于,所述语音增强方法包括以下步骤:
S1、构建阵列语音训练集,对语音进行预处理,分别得到每一个声道的输入特征和去混响任务、回声消除任务、降噪任务、融合任务的标签;
S2、将各声道预处理得到的特征输入多任务网络模块,依次通过与每条声道对应的去混响子网络、回声消除子网络和降噪子网络后,在声道融合子网络进行融合,从上述各子网络的输出端分别得到各声道已去混响的目标输出、已去混响去回声目标输出、无噪声目标输出和融合后干净语音目标输出;
S3、将各任务的网络输出和各任务的标签输入多任务损失统计模块,计算各声道中回声消除子网络的损失值、混响子网络的损失值、降噪子网络的损失值和声道融合子网络的损失值,并根据上述损失值计算网络总损失;
S4、计算网络总损失的梯度,采用反向传播法更新网络的权重;
S5、重复步骤S2、S3、S4,直到网络的总损失低于预设阈值,保存此时的网络参数;
S6、将测试语音进行预处理,计算每一个声道的输入特征,将待增强的语音特征输入步骤S5中保存的多任务网络,得到增强后的语音特征,将增强后的语音特征输入语音重构模块,得到增强后的语音。
5.根据权利要求4所述的一种基于多任务网络的麦克风阵列语音增强方法,其特征在于,所述步骤S1中的阵列语音训练集的构建过程如下:
S1.1、构建带噪阵列语音与相应的已去混响的阵列语音、已去混响去回声的阵列语音和无噪声的阵列语音:
带噪阵列语音为x(n)=[x1(n),x2(n),...,xm(n),...,xM(n)]T,m∈[1,M],其中
Figure FDA0003582025400000041
xm(n)为第m个阵元接收到的带噪语音信号,M为麦克风阵列的阵元数目,s′(n)为包含混响的源语音分量,d(n)为包含混响的回声分量,v(n)为环境噪声,s(n)为源语音,e(n)为参考的回声语音,τm(θ)是阵元m收到方向角为θ的声源产生的信号时刻相对参考阵元的时延,*代表卷积操作,h(n)为房间内的多径传播信道参数,ser为随机分布的信号回声比,snr为随机分布的信噪比;
已去混响的阵列语音为
ydereb(n)=[y1_dereb(n),y2_dereb(n),...,ym_dereb(n),...,yM_dereb(n)]T,m∈[1,M],其中
ym_dereb(n)=s(n-τm(θ))+e(n-τm(θ))+v(n) (2)
已去混响去回声的阵列语音为
ydecho(n)=[y1_decho(n),y2_decho(n),...,ym_decho(n),...,yM_decho(n)]T,m∈[1,M],其中
ym_decho(n)=s(n-τm(θ))+v(n) (3)
无噪声的阵列语音为
yenh(n)=[y1_enh(n),v2_enh(n),...,ym_enh(n),...,yM_enh(n)]T,m∈[1,M],其中
ym_enh(n)=s(n-τm(θ)) (4)
其中,ym_dereb(n)为第m个阵元的已去混响语音,ym_enh(n)为第m个阵元的已去混响去回声语音,ym_enh(n)为第m个阵元的无噪声语音;
S1.2、提取网络的输入特征:将阵元m接收的语音信号xm(n)进行短时傅里叶变换,得到每帧的对数幅度谱Xm(i,k),k为离散频率序号,i∈[0,N]为帧的序号,N为总帧数,将第i帧与其前l帧的对数幅度谱组合得到第m声道第i帧的网络输入特征
Figure FDA0003582025400000051
参考回声语音e(n)经过相同的处理后获得参考回声的对数幅度谱E(i,k);
S1.3、构建第m声道各任务的标签:将ym_dereb(n)、ym_decho(n)、ym_enh(n)和s(n)语音进行短时傅里叶变换得到每帧的幅度谱
Figure FDA0003582025400000052
Figure FDA0003582025400000053
和S(i,k),k为离散频率序号,i∈[0,N]为帧的序号,N为总帧数,采用目标理想比值掩蔽IRM作为各任务的标签,IRM采用下式计算,
Figure FDA0003582025400000054
其中,Tm(i,k)为期待得到目标语音的幅度谱,β为可调节尺度因子,Mm(i,k)=exp(Xm(i,k))为带噪语音的幅度谱,k为离散频率序号,i为帧序号,将上述得到的
Figure FDA0003582025400000055
Figure FDA0003582025400000056
替换式(5)中的Tm(i,k),得到去已去混响的标签
Figure FDA0003582025400000057
已去除混响和回声的标签
Figure FDA0003582025400000058
和去噪后的标签
Figure FDA0003582025400000059
此外,将S(i,k)做对数变换得到干净语音的对数幅度谱标签Slms
6.根据权利要求5所述的一种基于多任务网络的麦克风阵列语音增强方法,其特征在于,所述步骤S2中将特征输入多任务网络模块得到各任务子网络得到目标输出的过程如下:
S2.1、将
Figure FDA00035820254000000510
输入第m声道的去混响子网络,得到期望去除混响语音的IRM输出
Figure FDA00035820254000000511
S2.2、将
Figure FDA0003582025400000061
和E(i,k)输入第m声道的回声消除子网络,得到期望去除混响和回声语音的IRM输出
Figure FDA0003582025400000062
S2.3、第m声道的降噪子网络包含两个输出层,一个输出层输出降噪后语音的对数幅度谱,另一个输出层输出降噪后语音的IRM,将
Figure FDA0003582025400000063
输入降噪子网络,得到对数幅度谱输出
Figure FDA0003582025400000064
和IRM输出
Figure FDA0003582025400000065
S2.4、构建声道融合子网络的输入
Figure FDA0003582025400000066
其中
Figure FDA0003582025400000067
采用一个
Figure FDA0003582025400000068
层的卷积层作为声道融合子网络,M为总阵元数,d为卷积核的宽度,对于输入Xfuse_in其维度可以表示为Xfuse_in∈R2×M×k,将矩阵沿M维度方向作卷积,得到声道融合子网络增强后的单声道对数幅度谱
Figure FDA0003582025400000069
7.根据权利要求6所述的一种基于多任务网络的麦克风阵列语音增强方法,其特征在于,所述步骤S3中多任务损失统计模块得到总损失值的流程如下:
S3.1、将去混响子网络的输出
Figure FDA00035820254000000610
和已去除混响语音的IRM标签
Figure FDA00035820254000000611
通过下式计算各声道去混响子网络的总损失值Ldereb
Figure FDA00035820254000000612
S3.2、将回声消除子网络的输出
Figure FDA00035820254000000613
和已去除混响和回声语音的标签
Figure FDA00035820254000000614
通过下式计算得到各声道回声消除子网络损失值Ldecho
Figure FDA00035820254000000615
S3.3、将降噪子网络输出
Figure FDA0003582025400000071
和无噪声标签
Figure FDA0003582025400000072
通过下式计算得到各声道降噪子网络的损失值Lenh
Figure FDA0003582025400000073
S3.4、将声道融合子网络得到的输出
Figure FDA0003582025400000074
和干净语音的对数幅度谱Slms通过下式计算声道融合子网络的损失Lfuse
Figure FDA0003582025400000075
S3.5、将得到的各个任务模块的损失值Ldereb、Ldecho、Lenh和Lfuse计算网络的总损失loss如下:
loss=Ldereb+Ldecho+Lenh+Lfuse (11)。
8.根据权利要求6所述的一种基于多任务网络的麦克风阵列语音增强方法,其特征在于,所述步骤S6中采用如下方法将增强后的语音特征重构为增强后的语音:
将声道融合子网络输出的对数幅度谱
Figure FDA0003582025400000076
转换为线性幅度谱
Figure FDA0003582025400000077
然后对
Figure FDA0003582025400000078
与xm(n)的相位谱
Figure FDA0003582025400000079
相乘得到增强后语音的复数表示
Figure FDA00035820254000000710
Figure FDA00035820254000000711
进行短时傅里叶变换逆变换和重叠相加,得到增强后语音的时域波形。
CN202210353984.6A 2022-04-06 2022-04-06 一种基于多任务网络的麦克风阵列语音增强***及方法 Pending CN114694670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210353984.6A CN114694670A (zh) 2022-04-06 2022-04-06 一种基于多任务网络的麦克风阵列语音增强***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210353984.6A CN114694670A (zh) 2022-04-06 2022-04-06 一种基于多任务网络的麦克风阵列语音增强***及方法

Publications (1)

Publication Number Publication Date
CN114694670A true CN114694670A (zh) 2022-07-01

Family

ID=82142944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210353984.6A Pending CN114694670A (zh) 2022-04-06 2022-04-06 一种基于多任务网络的麦克风阵列语音增强***及方法

Country Status (1)

Country Link
CN (1) CN114694670A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999519A (zh) * 2022-07-18 2022-09-02 中邮消费金融有限公司 一种基于双重变换的语音实时降噪方法及***
CN115240648A (zh) * 2022-07-18 2022-10-25 四川大学 一种面向语音识别的管制员语音增强方法及装置
CN117594056A (zh) * 2024-01-18 2024-02-23 深圳市龙芯威半导体科技有限公司 一种基于sift的rnn语音降噪与去混响方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999519A (zh) * 2022-07-18 2022-09-02 中邮消费金融有限公司 一种基于双重变换的语音实时降噪方法及***
CN115240648A (zh) * 2022-07-18 2022-10-25 四川大学 一种面向语音识别的管制员语音增强方法及装置
CN115240648B (zh) * 2022-07-18 2023-04-07 四川大学 一种面向语音识别的管制员语音增强方法及装置
CN117594056A (zh) * 2024-01-18 2024-02-23 深圳市龙芯威半导体科技有限公司 一种基于sift的rnn语音降噪与去混响方法及***

Similar Documents

Publication Publication Date Title
Kinoshita et al. Improving noise robust automatic speech recognition with single-channel time-domain enhancement network
ES2347760T3 (es) Procedimiento y dispositivo de reduccion de ruido.
CN114694670A (zh) 一种基于多任务网络的麦克风阵列语音增强***及方法
US8010355B2 (en) Low complexity noise reduction method
Zhao et al. A two-stage algorithm for noisy and reverberant speech enhancement
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
CN106340292A (zh) 一种基于连续噪声估计的语音增强方法
CN104835503A (zh) 一种改进gsc自适应语音增强方法
Zhang et al. FT-LSTM based complex network for joint acoustic echo cancellation and speech enhancement
CN112700786B (zh) 语音增强方法、装置、电子设备和存储介质
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN115132215A (zh) 一种单通道语音增强方法
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
Ambikairajah et al. Wavelet transform-based speech enhancement
Cao et al. Multichannel speech separation by eigendecomposition and its application to co-talker interference removal
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
Hong et al. Independent component analysis based single channel speech enhancement
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Özen Acarbay et al. Performance analysis of the speech enhancement application with wavelet transform domain adaptive filters
Schwartz et al. RNN-based step-size estimation for the RLS algorithm with application to acoustic echo cancellation
CN112652321A (zh) 一种基于深度学习相位更加友好的语音降噪***及方法
Jung et al. Noise Reduction after RIR removal for Speech De-reverberation and De-noising
Ramesh Babu et al. Speech enhancement using beamforming and Kalman Filter for In-Car noisy environment
Boyko et al. Using recurrent neural network to noise absorption from audio files.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination