CN110739004B - 一种用于wasn的分布式语音噪声消除*** - Google Patents
一种用于wasn的分布式语音噪声消除*** Download PDFInfo
- Publication number
- CN110739004B CN110739004B CN201911025413.4A CN201911025413A CN110739004B CN 110739004 B CN110739004 B CN 110739004B CN 201911025413 A CN201911025413 A CN 201911025413A CN 110739004 B CN110739004 B CN 110739004B
- Authority
- CN
- China
- Prior art keywords
- signal
- module
- frame
- distributed
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008030 elimination Effects 0.000 title abstract description 18
- 238000003379 elimination reaction Methods 0.000 title abstract description 18
- 230000000694 effects Effects 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 230000003595 spectral effect Effects 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000005070 sampling Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种用于WASN的分布式语音噪声消除***,包括相位对齐模块、离散傅里叶变换模块、语音活动检测模块、噪声功率谱密度估计模块、分布式参数多通道维纳滤波模块、分布式算法迭代模块和离散傅里叶反变换模块。在用于阵列的参数多通道维纳滤波算法的基础上,提出一种可以用于WASN的分布式语音噪声消除技术,它是一种可以应用在任意拓扑网络连接下的分布式语音噪声消除技术,本方法通过使用Metropolis权矩阵,在一定迭代次数下使每个节点处麦克风的输出信号均与含有数据处理中心的结果一致,并具有一定的鲁棒性。
Description
技术领域
本发明涉及音频处理技术领域,尤其涉及一种用于WASN的分布式语音噪声消除***。
背景技术
在实际应用中,音频处理设备正常接收的语音信号经常会被各种噪声干扰,从而严重破坏接收到的语音信号质量,导致工作设备的输出语音性能下降。为了避免噪声给输出语音带来的不利影响,需要从含有干扰噪声的语音信号中提取出纯净的语音信号,其中提取纯净语音信号的方法也被称为语音噪声消除技术。从麦克风数量而言,语音噪声消除技术分为基于单通道的(单麦克风)和基于多通道的(多麦克风)。其中单通道因无法凭借单个麦克风获取空间信息而限制噪声消除后的语音性能;多通道的麦克风阵列技术虽然可以通过利用空间信息克服单通道的弊端,但是它只能在阵列结构规则(阵列几何信息已知)的情况下应用。
随着无线传感器技术的飞速发展,无线声传感器网络(WASN)的应用越来越广泛。因为WASN由独立的节点(每个节点可以是一个或多个麦克风传感器)组成,所以麦克风之间无法满足空间采样定理,从而导致已有的阵列技术不能直接应用到WASN中。尽管如此,WASN能够保证在同时利用时间和空间信息的前提下,可以克服阵列的一些局限性,所以用于WASN的分布式语音噪声消除技术开始兴起。现实生活中就可以利用WiFi(或蓝牙)将多个智能手机或笔记本电脑构建成一个WASN。
在现有技术中研究了用于阵列的最小方差无失真响应算法,利用加权值控制噪声功率谱密度中非对角元素的能量值,通过广义线性坐标下降(generalized linearcoordinate-descent)算法执行节点之间的信息传递功能,提出了最小方差无失真响应算法分布式实现的技术方案。该技术虽然实现了分布式最小方差无失真响应算法,但是该技术对语音噪声消除后的噪声残留依然很严重,语音质量的感知评估(PESQ)值和短期客观清晰度(STOI)值提高不大。
另外现有技术中存在研究了Gossip算法的使用,提出一种分布式延迟求和波束形成语音噪声消除技术。并且该技术在WASN任意拓扑连接的情景下提出了改进的通用分布式同步平均(improved general distributed synchronous averaging)方法交换每个节点处麦克风的数据,使每个节点的输出与含有数据处理中心的效果相同。虽然该技术提出了新的分布式算法,并且可以使最终的输出结果与含有数据处理中心实现的效果相同,但是该技术的输出效果和技术二的输出效果基本一样,性能较差。
在WASN没有数据处理中心的情况下,每个节点只能和附近的节点通信(通信半径之内的节点),并且网络节点的能源有限,这就使得须用分布式算法实现信号的语音噪声消除,以期消噪后的效果能够达到把所有传感器的数据汇集到数据处理中心统一处理的效果(含有数据处理中心的算法不能直接应用到WASN中)。现存的分布式语音噪声消除技术,有一些是无法达到含有数据处理中心的输出效果,还有一些虽然达到了含有数据处理中心的输出效果,但是每个节点麦克风的输出性能并不是很高,噪声残留依然很大。
发明内容
根据现有技术存在的问题,本发明公开了一种用于WASN的分布式语音噪声消除***,
相位对齐模块,确定每个节点到声源的距离,将距离声源最远的节点定义为参考节点,将其余节点接收的信号与参考节点接收的信号进行相位对齐获得同相位节点信号;
离散傅里叶变换模块,将相位对齐模块传送的各个节点信号分别进行分帧加窗处理、对每一帧信号进行离散傅里叶变换获得离散频谱信号;
语音活动检测模块,接收离散傅里叶变换模块传送的离散频谱信号、通过离散频谱信号进行语音活动检测、判断每一帧信号有无语音;
噪声功率谱密度估计模块,接收所述语音活动检测模块传送的检测结果、根据无语音帧信号的离散频谱信息计算噪声功率谱密度;
分布式参数多通道维纳滤波模块,接收离散傅里叶变换模块传送的离散频谱信号以及噪声功率谱密度估计模块传送的噪声功率谱密度信息、采用分布式参数多通道维纳滤波方法获得分布式参数多通道维纳滤波器系数;将分布式参数多通道维纳滤波器系数与离散频谱信号组合形成输出信号Yp;
分布式算法迭代模块,接收分布式参数多通道维纳滤波模块传送的输出信号Yp,将输出信号Yp处理为求平均值的形式、根据Metropolis权矩阵多次迭代求得初始状态值的平均值得到每个节点的输出信号Yp;
离散傅里叶反变换模块,接收分布式算法迭代模块传送的输出信号Yp,通过对输出信号Yp进行离散傅里叶反变换得到时域当前帧输出语音信号,并将时域每帧输出信号进行重叠相加得到最终的输出信号。
作为优选的方式,所述分布式参数多通道维纳滤波器系数采用如下方式获取:
由于采用了上述技术方案,本发明提供的一种用于WASN的分布式语音噪声消除***,该***通过对用于阵列的参数多通道维纳滤波器系数进行了修改,使得噪声消除后的语音信号性能甚至优于修改前用于阵列输出的语音信号性能。在用于阵列的参数多通道维纳滤波算法的基础上,提出一种可以用于WASN的分布式语音噪声消除技术,它是一种可以应用在任意拓扑网络连接下的分布式语音噪声消除技术,本方法通过使用Metropolis权矩阵,在一定迭代次数下使每个节点处麦克风的输出信号均与含有数据处理中心的结果一致,并具有一定的鲁棒性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明***的结构示意图;
图2为本发明中无线声传感器网络示意图;
图3为本发明实施例中每种方法语音噪声消除后的STOI值示意图:图3(a)
为无混响;图3(b)为混响时间为300ms;
图4为本发明实施例中每种方法语音噪声消除后的PESQ值:图4(a)为无混响;图4(b)为混响时间为300ms
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种用于WASN的分布式语音噪声消除***,包括相位对齐模块、离散傅里叶变换模块、语音活动检测模块、噪声功率谱密度估计模块、分布式参数多通道维纳滤波模块、分布式算法迭代模块和离散傅里叶反变换模块。
其中相位对齐模块的作用是确定每个节点到声源的距离,将距离声源最远的节点定义为参考节点,将其余节点接收的信号与参考节点接收的信号进行相位对齐获得节点信号。
作为优选的方式,相位对齐模块的工作原理是:在WASN中,在距声源某个已知距离为d的位置放一个参考麦克风,利用该麦克风接收到的信号能量和其它节点处麦克风接收到的信号能量可以估计出WASN中每个节点到声源的距离di。其中角标i=1,2,...,I,I表示WASN中节点的数量。距离估计公式如下:
其中,E和Ei分别是参考信号和WASN中每个节点处麦克风信号的能量,ε和εi是背景噪声的能量,能量公式如下:
其中,N是节点处麦克风接收信号对应的总采样点数,fs是采样频率,即一秒信号对应的点数。该公式利用语音第一秒大部分是无语音段的特点,估计背景噪声的能量。
由上述方法确定出每个节点到声源的距离后,定义距离声源最远的那个节点为参考节点,此时该节点的输入信号定义为x”a(n),其余节点的待对齐输入信号为x”b(n)。令x”b(n)循环通过一个单位延迟器,并且同时与x”a(n)做互相关运算,表达式如下:
Rab(τ)=E[x”a(n)x”b(n-τ)],τ=0,1,...,T (3)
进一步的,离散傅里叶变换模块的作用是将相位对齐模块传送的各个节点的信号分别进行分帧加窗处理、对每一帧信号进行离散傅里叶变换获得离散频谱信号。
作为优选的方式,离散傅里叶变换模块的工作原理是接收相位对齐模块传送的节点信号,对各路信号分别进行分帧加窗处理,对每一帧信号进行离散傅里叶变换DFT,具体实施中在验证时语音信号的采样频率fs是16kHz,用的是汉宁窗,帧移为50%,每帧数据长度为M=320点。其中汉宁窗的表达式如下:
ω(m)=0.5-0.5cos(2πm/M),m=0,1,...,M-1 (5)
根据汉宁窗表达式可以得到加窗后的信号为:
xi(m)=xi'(n)ω(m) (6)
然后对各路信号加窗后的每一帧信号进行DFT,变换后可得离散频谱为:
其中,k表示频点索引,l表示当前帧。
语音活动检测模块的作用是:接收离散傅里叶变换模块传送的离散频谱信号、通过离散频谱信号进行语音活动检测、判断每一帧信号有无语音。
作为优选的方式:语音活动检测模块进行语音活动检测时:同样利用语音第一秒大部分是无语音段的特点,并结合分帧加窗的处理过程,语音信号最初始的无语音帧的数量为NIS帧,其中NIS=fs/(50%×M)-1=99。那么,利用这NIS帧估计的噪声平均频谱为:
式(8)表示每一帧信号的对应频点先求和再取平均。进一步,噪声帧的对数频谱估计有如下表示:
其中|·|是取模运算。然后,计算每帧信号的对数频谱:
由公式(9)和公式(10)可以得出每帧信号与噪声信号的对数频谱距离,对数频谱距离公式如下:
综上,可以得出语音活动检测的判断方法:首先,设置一个无语音段计数器,该计数器初始值可以设置为100,同时设置一个对数谱距离阈值为3。然后计算每一帧信号与噪声帧的对数谱距离dspec,判断dspec是否小于该对数谱距离阈值,如果是,则该帧是无语音帧,无语音段计数器加1,如果不是,则该帧是有语音帧,且无语音段计数器不论是多少,必须归零。最后还需要注意的是如果无语音段计数器在归零之前的值小于最小无语音长度,则认为无语音段计数器上一次归零后到这一次归零前是无语段的帧均为有语音帧。这里令最小无语音长度为10。
噪声功率谱密度估计模块的作用是接收所述语音活动检测模块传送的检测结果、根据无语音帧信号的离散频谱信息计算噪声功率谱密度。
作为优选的方式,噪声功率谱密度仅在无语音帧进行更新。每个节点处的噪声功率谱密度更新公式如下:
δi=(1-β)|Xi,noise(k,l)|2+β|Xi,noise(k,l-1)|2 (12)
其中,β=0.997,δi表示第i个节点的噪声功率谱密度估计值,它对应到每个频点都会有一个估计值。如果当前帧是噪声帧,该值就会被上式更新。|Xi,noise(k,l)|2表示当前第l帧是噪声帧对应的频点模值的平方。
进一步的,分布式参数多通道维纳滤波模块作用是接收离散傅里叶变换模块传送的离散频谱信号以及噪声功率谱密度估计模块传送的噪声功率谱密度信息、采用分布式参数多通道维纳滤波方法获得分布式参数多通道维纳滤波器系数;将分布式参数多通道维纳滤波器系数与离散频域信号组合形成滤波信号。其中具体的计算方式是:
其中,H是一个向量,即分布式参数多通道维纳滤波器系数;由于δi和|Xi|2的存在,它的每一个向量值都会对应到具体的频点,[]T表示向量或矩阵的转置,是由δi取倒数得到的,α是该算法中提到的参数,在本专利中,该参数值的取值分别为1、3、5。|Xi|2表示信号功率谱密度,同δi一样,每个频点都会被更新,更新公式如下:
其中,l表示当前帧。上式在每一帧都要更新,即不论是有语音帧还是无语音帧都要更新。根据式(13)可以得到第p个节点的输出信号Yp’(即该模块的输出)的表达式:
其中,[]H表示向量或矩阵的共轭转置,X=[X1(k,l),X2(k,l),...,XI(k,l)]T。
分布式算法迭代模块作用是接收分布式参数多通道维纳滤波模块传送的滤波信号,将滤波信号处理为求平均值的形式、根据Metropolis权矩阵多次迭代求得初始状态值的平均值得到每个节点的输出信号Yp。作为优选的方式:实现之前需要先将Yp的表达式写成求平均值的形式:
其中,和观察式(16)可知DPMWF-α的结果只需要每个节点的麦克风获得所有节点麦克风初始状态值的平均值,就可以获得和上式同样的输出结果。在分布式算法下,是通过令每个节点之间交换特定数据的方式,将初始状态值不断迭代更新求得该初始状态值的平均值,迭代公式如下:
其中,ξ(t)=[ξ1(t),ξ2(t),...,ξI(t)]T,ζ(t)=[ζ1(t),ζ2(t),...,ζI(t)]T,t表示迭代次数。W是Metropolis权矩阵,定义如下:
式(18)中E代表两个不同节点处麦克风可以互相通信的连接集合,即(i,j)∈E(i,j=1,2,…,I,i≠j)。ηi表示第i个节点可以与附近节点通信的数量。在上述迭代计算使得每个节点处麦克风的输出信号收敛时,输出信号的结果可以达到含有数据处理中心的解。本专利在验证时设置迭代次数上限为100次,当迭代到上限时默认收敛。
离散傅里叶反变换模块的作用是接收分布式算法迭代模块传送的输出信号Yp,通过对输出信号Yp进行离散傅里叶反变换得到时域当前帧输出语音信号,并将时域每帧输出信号进行重叠相加得到最终的输出信号。作为优选的方式:进行IDFT得到时域当前帧输出语音信号yp(m,l)。IDFT公式如下:
因为本专利在模块2对各路信号进行了分帧加窗处理,且帧移是50%,所以从得到第一帧输出语音信号yp(m,1)时,就要与第二帧输出语音信号yp(m,2)进行重叠相加运算,重叠部分占50%,具体公式如下:
其中[·]是取整运算,[a]表示不超过数a的最大整数。
本发明公开的一种用于WASN的分布式语音噪声消除***,为验证本发明方法的有效性,通过Imgae模型模拟了一个5×5×3的封闭式房间,该房间分为无混响和混响时间为300ms两种情况。在该WASN中随机分布了10个节点,每个节点是1个麦克风,声源分别设置了5个不同的位置,节点与声源的高度均设置为1米。仿真模拟的二维WASN如图2所示,节点之间的通信距离上限设为2.2米。
声源是从TIMIT数据库[https://download.csdn.net/download/sdhyfxh/4086482]随机选取的一个6秒纯净语音信号,采样频率是16kHz。在每个节点处麦克风接收到的语音信号同时加上了一个互不相关的高斯白噪声作为输入噪声信号,该噪声可导致节点接收信号的信噪比在5dB左右。
此时,采用本***所提出的DPMWF-α(其中α值分别为1、3、5)语音噪声消除技术对每个节点处麦克风接收信号进行降噪,同时采用文献[1]和文献[3]中的方法对该实验也进行了语音噪声消除。实验结果表明,不论哪种方法都能使WASN中每个节点的输出结果达到一致。图3、图4给出了这三种方法在声源位置分别位于Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ时的性能比较。其中图3表示的是分别在无混响和有混响条件下,语音噪声消除后STOI值的性能比较,图4表示的是分别在无混响和有混响条件下,语音噪声消除后PESQ值的性能比较。可以看出不论是在无混响条件下还是有混响条件下,亦或是声源位于哪个位置,在STOI值和PESQ值性能方面,本专利所提方法和文献[1]、文献[3]中的方法相比,要占据绝大优势。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
附件:
[1]A.Bertrand,J.Callebaut and M.Moonen,"Adaptive distributed noisereduction for speech enhancement in wireless acoustic sensor networks,"inProc.of the International Workshop on Acoustic Echo and Noise Control(IWAENC),Tel Aviv,Israel,Aug.2010.
[2]R.Heusdens,G.Zhang,R.C.Hendriks,Y.Zeng and W.B.Kleijn,``Distributed MVDR Beamforming for(Wireless)Microphone Networks Using MessagePassing,”presented at the em IWAENC 2012;International Workshop on AcousticSignal Enhancement,Aachen,Germany,2012,pp.1-4.
[3]Y.Zeng and R.C.Hendriks,"Distributed Delay and Sum Beamformer forSpeech Enhancement via Randomized Gossip,"in IEEE/ACM Transactions on Audio,Speech,and Language Processing,vol.22,no.1,pp.260-273,Jan.2014.
Claims (1)
1.一种用于WASN的分布式语音噪声消除***,其特征在于包括:
相位对齐模块,确定每个节点到声源的距离,将距离声源最远的节点定义为参考节点,将其余节点接收的信号与参考节点接收的信号进行相位对齐获得同相位节点信号;
离散傅里叶变换模块,将相位对齐模块传送的各个节点信号分别进行分帧加窗处理、对每一帧信号进行离散傅里叶变换获得离散频谱信号;
语音活动检测模块,接收离散傅里叶变换模块传送的离散频谱信号、通过离散频谱信号进行语音活动检测、判断每一帧信号有无语音;
噪声功率谱密度估计模块,接收所述语音活动检测模块传送的检测结果、根据无语音帧信号的离散频谱信息计算噪声功率谱密度;
噪声功率谱密度仅在无语音帧进行更新,每个节点处的噪声功率谱密度更新公式如下:
δi=(1-β)|Xi,noise(k,l)|2+β|Xi,noise(k,l-1)|2 (12)
其中,β=0.997,δi表示第i个节点的噪声功率谱密度估计值,它对应到每个频点都会有一个估计值,如果当前帧是噪声帧,该值就会被上式更新,|Xi,noise(k,l)|2表示当前第l帧是噪声帧对应的频点模值的平方;
分布式参数多通道维纳滤波模块,接收离散傅里叶变换模块传送的离散频谱信号以及噪声功率谱密度估计模块传送的噪声功率谱密度信息、采用分布式参数多通道维纳滤波方法获得分布式参数多通道维纳滤波器系数;将分布式参数多通道维纳滤波器系数与离散频谱信号组合形成输出信号Yp,其中具体的计算方式是:
其中,H是一个向量,即分布式参数多通道维纳滤波器系数,由于δi和|Xi|2的存在,它的每一个向量值都会对应到具体的频点,[]T表示向量或矩阵的转置,δi -1是由δi取倒数得到的,α是该算法中提到的参数,该参数值的取值分别为1、3、5,|Xi|2表示信号功率谱密度,同δi一样,每个频点都会被更新,更新公式如下:
其中,l表示当前帧,上式在每一帧都要更新,即不论是有语音帧还是无语音帧都要更新,根据式(13)可以得到第p个节点的输出信号Yp的表达式:
其中,[]H表示向量或矩阵的共轭转置,X=[X1(k,l),X2(k,l),...,XI(k,l)]T;
分布式算法迭代模块,接收分布式参数多通道维纳滤波模块传送的输出信号Yp,将输出信号Yp处理为求平均值的形式、根据Metropolis权矩阵多次迭代求得初始状态值的平均值得到每个节点的输出信号Yp’;
离散傅里叶反变换模块,接收分布式算法迭代模块传送的输出信号Yp’,通过对输出信号Yp’进行离散傅里叶反变换得到时域当前帧输出语音信号,并将时域每帧输出信号进行重叠相加得到最终的输出信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025413.4A CN110739004B (zh) | 2019-10-25 | 2019-10-25 | 一种用于wasn的分布式语音噪声消除*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025413.4A CN110739004B (zh) | 2019-10-25 | 2019-10-25 | 一种用于wasn的分布式语音噪声消除*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110739004A CN110739004A (zh) | 2020-01-31 |
CN110739004B true CN110739004B (zh) | 2021-12-03 |
Family
ID=69271461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911025413.4A Active CN110739004B (zh) | 2019-10-25 | 2019-10-25 | 一种用于wasn的分布式语音噪声消除*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110739004B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312275B (zh) * | 2020-02-13 | 2023-04-25 | 大连理工大学 | 一种基于子带分解的在线声源分离增强*** |
CN113763984B (zh) * | 2021-09-23 | 2023-10-31 | 大连理工大学 | 一种用于分布式多说话人的参数化噪声消除*** |
CN114724571B (zh) * | 2022-03-29 | 2024-05-03 | 大连理工大学 | 一种鲁棒的分布式说话人噪声消除*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101263734A (zh) * | 2005-09-02 | 2008-09-10 | 丰田自动车株式会社 | 麦克风阵列用后置滤波器 |
CN102938254A (zh) * | 2012-10-24 | 2013-02-20 | 中国科学技术大学 | 一种语音信号增强***和方法 |
CN103152820A (zh) * | 2013-02-06 | 2013-06-12 | 长安大学 | 一种无线传感器网络声源目标迭代定位方法 |
CN110289011A (zh) * | 2019-07-18 | 2019-09-27 | 大连理工大学 | 一种用于分布式无线声传感器网络的语音增强*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101934999B1 (ko) * | 2012-05-22 | 2019-01-03 | 삼성전자주식회사 | 잡음을 제거하는 장치 및 이를 수행하는 방법 |
-
2019
- 2019-10-25 CN CN201911025413.4A patent/CN110739004B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101263734A (zh) * | 2005-09-02 | 2008-09-10 | 丰田自动车株式会社 | 麦克风阵列用后置滤波器 |
CN102938254A (zh) * | 2012-10-24 | 2013-02-20 | 中国科学技术大学 | 一种语音信号增强***和方法 |
CN103152820A (zh) * | 2013-02-06 | 2013-06-12 | 长安大学 | 一种无线传感器网络声源目标迭代定位方法 |
CN110289011A (zh) * | 2019-07-18 | 2019-09-27 | 大连理工大学 | 一种用于分布式无线声传感器网络的语音增强*** |
Non-Patent Citations (4)
Title |
---|
Analysis of rate constraints for MWF-based noise reduction in acoustic sensor networks;T Christian etc;《Acoustics,Speech and Signal Processing(ICASSP),2011 IEEE International Conference on》;20110712;第269-272页 * |
Analysis of the average performance of the multi-channel;Toby Christian Lawin-Ore ect;《Signal Processing》;20140218;第1-13页 * |
Efficient computation of microphone utility in a wireless acoustic sensor network with multi-channel Wiener filter based noise reduction;J Szurley etc;《IEEE International Conference on Acoustics》;20121231;第2657-2660页 * |
无线声学传感器网络中分布式语音增强方法研究;李达;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第03期);第6-50页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110739004A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios | |
Kjems et al. | Maximum likelihood based noise covariance matrix estimation for multi-microphone speech enhancement | |
CN110739004B (zh) | 一种用于wasn的分布式语音噪声消除*** | |
Gannot et al. | Subspace methods for multimicrophone speech dereverberation | |
EP2063419B1 (en) | Speaker localization | |
Xiao et al. | Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation | |
Xu et al. | Generalized spatio-temporal RNN beamformer for target speech separation | |
Ito et al. | Designing the Wiener post-filter for diffuse noise suppression using imaginary parts of inter-channel cross-spectra | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
Jin et al. | Multi-channel noise reduction for hands-free voice communication on mobile phones | |
Song et al. | An integrated multi-channel approach for joint noise reduction and dereverberation | |
Parchami et al. | Speech dereverberation using weighted prediction error with correlated inter-frame speech components | |
Hoang et al. | Joint maximum likelihood estimation of power spectral densities and relative acoustic transfer functions for acoustic beamforming | |
Lee et al. | Improved mask-based neural beamforming for multichannel speech enhancement by snapshot matching masking | |
Nabi et al. | A dual-channel noise reduction algorithm based on the coherence function and the bionic wavelet | |
CN113763984B (zh) | 一种用于分布式多说话人的参数化噪声消除*** | |
Schwartz et al. | A recursive expectation-maximization algorithm for online multi-microphone noise reduction | |
Ruiz et al. | Cascade algorithms for combined acoustic feedback cancelation and noise reduction | |
Cheng et al. | Speech Enhancement Based on Beamforming and Post-Filtering by Combining Phase Information. | |
KR101537653B1 (ko) | 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템 | |
Kawase et al. | Automatic parameter switching of noise reduction for speech recognition | |
Fox et al. | A subband hybrid beamforming for in-car speech enhancement | |
Chetupalli et al. | Clean speech AE-DNN PSD constraint for MCLP based reverberant speech enhancement | |
Ranjbaryan et al. | Distributed speech presence probability estimator in fully connected wireless acoustic sensor networks | |
CN114724571B (zh) | 一种鲁棒的分布式说话人噪声消除*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |