CN112530451A - 基于去噪自编码器的语音增强方法 - Google Patents
基于去噪自编码器的语音增强方法 Download PDFInfo
- Publication number
- CN112530451A CN112530451A CN202011128458.7A CN202011128458A CN112530451A CN 112530451 A CN112530451 A CN 112530451A CN 202011128458 A CN202011128458 A CN 202011128458A CN 112530451 A CN112530451 A CN 112530451A
- Authority
- CN
- China
- Prior art keywords
- speech
- signal
- noise
- voice
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 241000712899 Lymphocytic choriomeningitis mammarenavirus Species 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000001427 coherent effect Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000001934 delay Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明的一种基于去噪自编码器的语音增强方法,其特点是,包括的内容有:构建去噪自编码器训练模型,多麦克风阵列获取时域差值,重构原声预测模型进行去噪处理,能够有效的降低噪声对语音信号的干扰,显著提高语音信号的信噪比,具有科学合理、结构简单、去噪效果好、适用范围广等优点。
Description
技术领域
本发明属于语音信号处理技术领域,涉及一种基于去噪自编码器的语音增强方法。
背景技术
语音降噪是语音处理***的重要前端。背景噪音和人声干扰会降低语音信号的质量及可懂度,并在实际应用中导致性能下降,包括语音通信、助听器和语音识别。语音降噪的一个关键目标是提高干扰噪声存在时的质量和可懂度。
在语音降噪算法中,最常用的方法就是谱减法。谱减法具有算法简单、运算量小的特点。该算法的不足之处是处理后会产生听上去类似音乐的“音乐噪声”。基于自适应滤波器法的语音降噪算法,可以利用前一帧的滤波器参数和滤波结果,自动调整当前帧的滤波器参数,它对干净语音信号和噪声的先验知识要求较低。从而适应干净语音信号和噪声未知的随机变化和统计性,所以降噪后的语音无论在信噪比和听感上都有明显的进步。但这类算法往往存在收敛速度慢、不适用于非平稳噪声问题。基于最小均方误差估计法(MMSE)语音降噪算法能够有效抑制残留的“音乐噪声”。但是这种方法在低信噪比的情况下,对语音帧和非语音帧的识别极容易出错,导致降噪后的语音严重失真。基于子空间的语音降噪算法是通过空间分解将整个空间分为纯噪声子空间和纯语音子空间。通过设计一个既要保证残差信号谱的同时,还要考虑使语音失真最小化的估计器,来去除噪声子空间并估计语音信号特征值从而实现语音降噪。其中一种最常用的基于最优约束估计器的子空间语音降噪,但该语音降噪算法复杂度很高,很难在嵌入式平台上实现。小波变换方法是一种新型变换分析方法,能够在时间或空间上进行频率的局部分析。通过伸缩和平移运算对信号进行逐步尺度细化,具有多分辨率分析的特性,能够自适应信号分析的要求,现已被广泛运用在音频、图像处理领域中。依据小波变换能够有效去除数据的相关性特点,使得干净语音信号能量集中在小波域中的较大的小波系数中,噪声能量则集中在较小的小波系数中。其本质上是一种小波域滤波算法,选择适当的阈值是关系到***表现的关键所在。但是阈值获取困难且算法复杂度越来越高,较难用于实时通信。深度神经网络(DNN)应用于语音降噪工作变得越来越流行。基于深度神经网络的语音降噪算法是通过堆叠自动编码器,形成一个深层神经网络,输入为含噪语音的对数功率谱,对应输出干净语音信号的对数功率谱。该网络虽然较传统单通道语音算法有较好的降噪效果,但存在网络训练困难、在低信噪比条件下表现能力欠佳的问题。
发明内容
本发明的目的是,为了降低噪声对语音信号的干扰,提高语音信号的信噪比,提出一种基于去噪自编码器的语音增强方法,实现语音信号的增强。
本发明的目的是由以下技术方案来实现的:一种基于去噪自编码器的语音增强方法,其特征是,它包括的内容有:构建去噪自编码器训练模型,多麦克风阵列获取时域差值,重构原声预测模型进行去噪处理,
1)构建去噪自编码器训练模型
去噪自编码器训练模型设计为三层网络模型,第一层为输入层,中间层为隐藏层,设计节点个数为1024个,第三层为输出层,将输出层与原始无损数据进行比对,最小化损失值:
式中,是样本x经过损坏过程后得到的损坏样本,通常分布pdecoder是因子的分布,平局参数由前馈网络给出,这里对负对数释然进行基于梯度下降法的近似最小化,即是样本的概率分布,这样构成了确定的自编码器,也就是一个前馈的网络,并且能够使用与其他前馈网络完全相同的方式进行训练,因此整个自动编码器就可类比为下一个期望的梯度下降:
2)多麦克风阵列获取时域差值
麦克风阵列的语音增强方法的优势在于考虑了声源的位置信息,能够实现空间滤波,所以对具有方向性的噪声具有优良的抑制效果,因此,将麦克风阵列的技术应用在抑制干扰语音中,具体实现是对期望方向的语音信号进行保留;
首先,不同的麦克风由于位置不同,所以接收的语音信号必定存在着时间偏差,因此利用抽头延迟线结构(Tapped Delay-lines,TDLs)来实现对宽带语音信号的波束形成,TDLs结构的固定波束形成算法,通过多抽头的延迟来产生不同频率的分量,然后通过滤波系数描述来约束各麦克风的输入信号,使得期望方向上的信号得到保留,并在非期望方向上形成零陷,从而实现对固定声源方向的波束形成,TDLs结构的固定波束形成算法能够对固定噪声源方向的信号进行抑制,并且对相干和非相干噪声都能实现有效地抑制,其表达式为式(3):
F=WD (3)
式中,矩阵D为方向矩阵,用来对不同角度的语音信号进行频域对齐,W为不同入射角度的语音信号,ω0,…,ωJ-1,分别代表了不同的频率分量,矩阵F是目标响应矩阵,同样地,每一个分量对应着不同入射角度信号的目标响应,通过设置目标响应矩阵F,就能够决定固定波束形成结构对哪些方向的语音信号进行保留,又对哪些方向的语音信号进行抑制,矩阵W是权重系数矩阵,也是TDLs结构需要设计的部分,通过求解式(3),得到的矩阵系数解ωi,j,便是最终需要的设计的滤波器系数;
然后利用信号的输出来自适应地调整类似TDLs结构中的权重系数ωi,j,来达到对声学环境的变化具有一定鲁棒性的目的,在自适应的波束形成算法中,使用LCMV结构进行调整,LCMV结构是在式(3)的基础上进行调整,调整为式(4):
其中,Ryy为输入信号Y的自相关矩阵的期望,用Ryy≈YYH来进行估算,argminWWHRyyW表示通过最小化输出功率来自适应地调整权重系数W,从而使干扰目标方向的信号得到抑制,求解式(3)与式(4),便得到系数矩阵W的值:
根据上述解系数矩阵W的值,计算出时域上的差值;
3)重构原声预测模型进行去噪处理
在计算出时域差值后,得出的语音信号为失真的语音信号,因为单独使用多麦克风阵列算法的结构,将存在同频语音相减低消的情况,同时对于不同域的语音信号,存在风噪声消除不彻底,导致“音乐噪声”的问题,处理到此处的模型并不具有良好的鲁棒性,因此需要对失真的语音信号进行重新预测,将失真语音作为输入层传入第一步的自编码器模型之前,还需要进行一步滤波去噪处理:
是噪声的功率谱,是通过Cohen提出的OMLSA方法求得的,对比γ(t,d)和预先设定的阈值Tr,如果大于这个阈值,则语音的存在的索引I(d)设为1,否则为0,其实这有点类似理想二值掩蔽的概念,即如果是语音主导的就设定为1,否则就是设定为0,那么语音存在概率就能够通过以下方式进行估计:
p(t,d)=0.95p(t-1,d)+0.05I(d) (8)
能够看出语音存在概率是通过前一时刻的语音存在概率和当前频段的语音存在索引的迭代平均结果,最终先验信噪比能够通过如下方式进行估计:
先验信噪比有三部分构成,第一部分是前一时刻的先验信噪比,第二部分是通过DNN估计得到的语音和通过OMLSA方法估计得到的噪声谱而算得的先验信噪比,最后一部分是利用后验信噪比对先验信噪比的最大似然估计,得到结果后再重新输入第一步的自编码器模型,结果为最终的降噪语音。
本发明的一种基于去噪自编码器的语音增强方法,它包括的内容有:构建去噪自编码器训练模型,多麦克风阵列获取时域差值,重构原声预测模型进行去噪处理等步骤,能够有效的降低噪声对语音信号的干扰,提高语音信号的信噪比,具有科学合理、结构简单、去噪效果好、适用范围广等优点。
附图说明
图1为一种基于去噪自编码器的语音增强方法流程图。
具体实施方式
下面利用附图和具体实施方式对本发明作进一步说明。
参照图1,本发明的基于去噪自编码器的语音增强方法,它包括的内容有:构建去噪自编码器训练模型,多麦克风阵列获取时域差值,重构原声预测模型进行去噪处理。
1)构建去噪自编码器训练模型
去噪自编码器训练模型设计为三层网络模型,第一层为输入层,中间层为隐藏层,设计节点个数为1024个,第三层为输出层,将输出层与原始无损数据进行比对,最小化损失值:
式中,是样本x经过损坏过程后得到的损坏样本,通常分布pdecoder是因子的分布,平局参数由前馈网络给出,这里对负对数释然进行基于梯度下降法的近似最小化,即是样本的概率分布,这样构成了确定的自编码器,也就是一个前馈的网络,并且能够使用与其他前馈网络完全相同的方式进行训练,因此整个自动编码器就可类比为下一个期望的梯度下降:
2)多麦克风阵列获取时域差值
麦克风阵列的语音增强方法的优势在于考虑了声源的位置信息,能够实现空间滤波,所以对具有方向性的噪声具有优良的抑制效果,因此,将麦克风阵列的技术应用在抑制干扰语音中,具体实现是对期望方向的语音信号进行保留;
首先,不同的麦克风由于位置不同,所以接收的语音信号必定存在着时间偏差,因此利用抽头延迟线结构(Tapped Delay-lines,TDLs)来实现对宽带语音信号的波束形成,TDLs结构的固定波束形成算法,通过多抽头的延迟来产生不同频率的分量,然后通过滤波系数描述来约束各麦克风的输入信号,使得期望方向上的信号得到保留,并在非期望方向上形成零陷,从而实现对固定声源方向的波束形成,TDLs结构的固定波束形成算法能够对固定噪声源方向的信号进行抑制,并且对相干和非相干噪声都能实现有效地抑制,其表达式为式(3):
F=WD (3)
式中,矩阵D为方向矩阵,用来对不同角度的语音信号进行频域对齐,W为不同入射角度的语音信号,ω0,…,ωJ-1,分别代表了不同的频率分量,矩阵F是目标响应矩阵,同样地,每一个分量对应着不同入射角度信号的目标响应,通过设置目标响应矩阵F,就能够决定固定波束形成结构对哪些方向的语音信号进行保留,又对哪些方向的语音信号进行抑制,矩阵W是权重系数矩阵,也是TDLs结构需要设计的部分,通过求解式(3),得到的矩阵系数解ωi,j,便是最终需要的设计的滤波器系数;
然后利用信号的输出来自适应地调整类似TDLs结构中的权重系数ωi,j,来达到对声学环境的变化具有一定鲁棒性的目的,在自适应的波束形成算法中,使用LCMV结构进行调整,LCMV结构是在式(3)的基础上进行调整,调整为式(4):
其中,Ryy为输入信号Y的自相关矩阵的期望,用Ryy≈YYH来进行估算,argminWWHRyyW表示通过最小化输出功率来自适应地调整权重系数W,从而使干扰目标方向的信号得到抑制,求解式(3)与式(4),便得到系数矩阵W的值:
根据上述解系数矩阵W的值,计算出时域上的差值。
3)重构原声预测模型进行去噪处理
在计算出时域差值后,得出的语音信号为失真的语音信号,因为单独使用多麦克风阵列算法的结构,将存在同频语音相减低消的情况,同时对于不同域的语音信号,存在风噪声消除不彻底,导致“音乐噪声”的问题,处理到此处的模型并不具有良好的鲁棒性,因此需要对失真的语音信号进行重新预测,将失真语音作为输入层传乳第一步的自编码器模型之前,还需要进行一步滤波去噪处理:
这里的是估计的先验信噪比(a prior SNR),所以整个求解的过程都是围绕如何求解这个先验信噪比进行的,而在这之前,先要估计后验信噪比和(aposteriorSNR)和语音存在概率,后验信噪比的定义如下:
这里的是噪声的功率谱,是通过Cohen提出的OMLSA方法求得的(Cohen,2003),对比γ(t,d)和预先设定的阈值Tr,如果大于这个阈值,则语音的存在的索引I(d)设为1,否则为0,其实这有点类似理想二值掩蔽的概念,即如果是语音主导的就设定为1,否则就是设定为0,那么语音存在概率就能够通过以下方式进行估计:
p(t,d)=0.95p(t-1,d)+0.05I(d) (8)
可以看出语音存在概率是通过前一时刻的语音存在概率和当前频段的语音存在索引的迭代平均结果,最终先验信噪比能够通过如下方式进行估计:
这里的先验信噪比有三部分构成,第一部分是前一时刻的先验信噪比,第二部分是通过DNN估计得到的语音和通过OMLSA方法估计得到的噪声谱而算得的先验信噪比,最后一部分是利用后验信噪比对先验信噪比的最大似然估计,得到结果后再重新输入第一步的自编码器模型,结果为最终的降噪语音。
本发明的软件程序依据自动化、网络和计算机处理技术编制,是本领域技术人员所熟悉的技术。
本发明实施例仅用于对本发明作进一步的说明,并非穷举,并不构成对权利要求保护范围的限定,本领域技术人员根据本发明实施例获得的启示,不经过创造性劳动就能够想到其它实质上等同的替代,均在本发明保护范围内。
Claims (1)
1.一种基于去噪自编码器的语音增强方法,其特征是,它包括的内容有:构建去噪自编码器训练模型,多麦克风阵列获取时域差值,重构原声预测模型进行去噪处理,
1)构建去噪自编码器训练模型
去噪自编码器训练模型设计为三层网络模型,第一层为输入层,中间层为隐藏层,设计节点个数为1024个,第三层为输出层,将输出层与原始无损数据进行比对,最小化损失值:
式中,是样本x经过损坏过程后得到的损坏样本,通常分布pdecoder是因子的分布,平局参数由前馈网络给出,这里对负对数释然进行基于梯度下降法的近似最小化,即是样本的概率分布,这样构成了确定的自编码器,也就是一个前馈的网络,并且能够使用与其他前馈网络完全相同的方式进行训练,因此整个自动编码器就可类比为下一个期望的梯度下降:
2)多麦克风阵列获取时域差值
麦克风阵列的语音增强方法的优势在于考虑了声源的位置信息,能够实现空间滤波,所以对具有方向性的噪声具有优良的抑制效果,因此,将麦克风阵列的技术应用在抑制干扰语音中,具体实现是对期望方向的语音信号进行保留;
首先,不同的麦克风由于位置不同,所以接收的语音信号必定存在着时间偏差,因此利用抽头延迟线结构(Tapped Delay-lines,TDLs)来实现对宽带语音信号的波束形成,TDLs结构的固定波束形成算法,通过多抽头的延迟来产生不同频率的分量,然后通过滤波系数描述来约束各麦克风的输入信号,使得期望方向上的信号得到保留,并在非期望方向上形成零陷,从而实现对固定声源方向的波束形成,TDLs结构的固定波束形成算法能够对固定噪声源方向的信号进行抑制,并且对相干和非相干噪声都能实现有效地抑制,其表达式为式(3):
F=WD (3)
式中,矩阵D为方向矩阵,用来对不同角度的语音信号进行频域对齐,W为不同入射角度的语音信号,ω0,…,ωJ-1,分别代表了不同的频率分量,矩阵F是目标响应矩阵,同样地,每一个分量对应着不同入射角度信号的目标响应,通过设置目标响应矩阵F,就能够决定固定波束形成结构对哪些方向的语音信号进行保留,又对哪些方向的语音信号进行抑制,矩阵W是权重系数矩阵,也是TDLs结构需要设计的部分,通过求解式(3),得到的矩阵系数解ωi,j,便是最终需要的设计的滤波器系数;
然后利用信号的输出来自适应地调整类似TDLs结构中的权重系数ωi,j,来达到对声学环境的变化具有一定鲁棒性的目的,在自适应的波束形成算法中,使用LCMV结构进行调整,LCMV结构是在式(3)的基础上进行调整,调整为式(4):
其中,Ryy为输入信号Y的自相关矩阵的期望,用Ryy≈YYH来进行估算,argminwWHRyyW表示通过最小化输出功率来自适应地调整权重系数W,从而使干扰目标方向的信号得到抑制,求解式(3)与式(4),便得到系数矩阵W的值:
根据上述解系数矩阵W的值,计算出时域上的差值;
3)重构原声预测模型进行去噪处理
在计算出时域差值后,得出的语音信号为失真的语音信号,因为单独使用多麦克风阵列算法的结构,将存在同频语音相减低消的情况,同时对于不同域的语音信号,存在风噪声消除不彻底,导致“音乐噪声”的问题,处理到此处的模型并不具有良好的鲁棒性,因此需要对失真的语音信号进行重新预测,将失真语音作为输入层传入第一步的自编码器模型之前,还需要进行一步滤波去噪处理:
是噪声的功率谱,是通过Cohen提出的OMLSA方法求得的,对比γ(t,d)和预先设定的阈值Tr,如果大于这个阈值,则语音的存在的索引I(d)设为1,否则为0,其实这有点类似理想二值掩蔽的概念,即如果是语音主导的就设定为1,否则就是设定为0,那么语音存在概率就能够通过以下方式进行估计:
p(t,d)=0.95p(t-1,d)+0.05I(d) (8)
能够看出语音存在概率是通过前一时刻的语音存在概率和当前频段的语音存在索引的迭代平均结果,最终先验信噪比能够通过如下方式进行估计:
先验信噪比有三部分构成,第一部分是前一时刻的先验信噪比,第二部分是通过DNN估计得到的语音和通过OMLSA方法估计得到的噪声谱而算得的先验信噪比,最后一部分是利用后验信噪比对先验信噪比的最大似然估计,得到结果后再重新输入第一步的自编码器模型,结果为最终的降噪语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011128458.7A CN112530451A (zh) | 2020-10-20 | 2020-10-20 | 基于去噪自编码器的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011128458.7A CN112530451A (zh) | 2020-10-20 | 2020-10-20 | 基于去噪自编码器的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112530451A true CN112530451A (zh) | 2021-03-19 |
Family
ID=74979054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011128458.7A Pending CN112530451A (zh) | 2020-10-20 | 2020-10-20 | 基于去噪自编码器的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112530451A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345469A (zh) * | 2021-05-24 | 2021-09-03 | 北京小米移动软件有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
CN115662444A (zh) * | 2022-12-14 | 2023-01-31 | 北京惠朗时代科技有限公司 | 基于人工智能的电子***语音交互式应用方法及*** |
CN117349603A (zh) * | 2023-12-06 | 2024-01-05 | 小舟科技有限公司 | 脑电信号的自适应降噪方法及装置、设备、存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1633121A1 (en) * | 2004-09-03 | 2006-03-08 | Harman Becker Automotive Systems GmbH | Speech signal processing with combined adaptive noise reduction and adaptive echo compensation |
US9813808B1 (en) * | 2013-03-14 | 2017-11-07 | Amazon Technologies, Inc. | Adaptive directional audio enhancement and selection |
CN107396158A (zh) * | 2017-08-21 | 2017-11-24 | 深圳创维-Rgb电子有限公司 | 一种声控交互装置、声控交互方法和电视机 |
CN108922554A (zh) * | 2018-06-04 | 2018-11-30 | 南京信息工程大学 | 基于对数谱估计的lcmv频率不变波束形成语音增强算法 |
EP3462452A1 (en) * | 2012-08-24 | 2019-04-03 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
CN109994120A (zh) * | 2017-12-29 | 2019-07-09 | 福州瑞芯微电子股份有限公司 | 基于双麦的语音增强方法、***、音箱及存储介质 |
CN111755013A (zh) * | 2020-07-07 | 2020-10-09 | 苏州思必驰信息科技有限公司 | 去噪自动编码器训练方法和说话人识别*** |
-
2020
- 2020-10-20 CN CN202011128458.7A patent/CN112530451A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1633121A1 (en) * | 2004-09-03 | 2006-03-08 | Harman Becker Automotive Systems GmbH | Speech signal processing with combined adaptive noise reduction and adaptive echo compensation |
EP3462452A1 (en) * | 2012-08-24 | 2019-04-03 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
US9813808B1 (en) * | 2013-03-14 | 2017-11-07 | Amazon Technologies, Inc. | Adaptive directional audio enhancement and selection |
CN107396158A (zh) * | 2017-08-21 | 2017-11-24 | 深圳创维-Rgb电子有限公司 | 一种声控交互装置、声控交互方法和电视机 |
CN109994120A (zh) * | 2017-12-29 | 2019-07-09 | 福州瑞芯微电子股份有限公司 | 基于双麦的语音增强方法、***、音箱及存储介质 |
CN108922554A (zh) * | 2018-06-04 | 2018-11-30 | 南京信息工程大学 | 基于对数谱估计的lcmv频率不变波束形成语音增强算法 |
CN111755013A (zh) * | 2020-07-07 | 2020-10-09 | 苏州思必驰信息科技有限公司 | 去噪自动编码器训练方法和说话人识别*** |
Non-Patent Citations (3)
Title |
---|
ROHITH MARS: "A frequency-invariant fixed beamformer for speech enhancement", <SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA), 2014 ASIA-PACIFIC> * |
杨蕾: "麦克风阵列语音增强方法研究", 《中国优秀硕士学位论文全文数据库》 * |
陈鑫源: "自适应双数据流语音增强方法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345469A (zh) * | 2021-05-24 | 2021-09-03 | 北京小米移动软件有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
CN115662444A (zh) * | 2022-12-14 | 2023-01-31 | 北京惠朗时代科技有限公司 | 基于人工智能的电子***语音交互式应用方法及*** |
CN115662444B (zh) * | 2022-12-14 | 2023-04-07 | 北京惠朗时代科技有限公司 | 基于人工智能的电子***语音交互式应用方法及*** |
CN117349603A (zh) * | 2023-12-06 | 2024-01-05 | 小舟科技有限公司 | 脑电信号的自适应降噪方法及装置、设备、存储介质 |
CN117349603B (zh) * | 2023-12-06 | 2024-03-12 | 小舟科技有限公司 | 脑电信号的自适应降噪方法及装置、设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108831495B (zh) | 一种应用于噪声环境下语音识别的语音增强方法 | |
CN108922554B (zh) | 基于对数谱估计的lcmv频率不变波束形成语音增强算法 | |
CN107993670B (zh) | 基于统计模型的麦克风阵列语音增强方法 | |
CN109727604A (zh) | 用于语音识别前端的频域回声消除方法及计算机储存介质 | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及*** | |
US9558755B1 (en) | Noise suppression assisted automatic speech recognition | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
US11373667B2 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
JP2013527493A (ja) | 複数のマイクによるロバストな雑音抑制 | |
CN105280193B (zh) | 基于mmse误差准则的先验信噪比估计方法 | |
CN112581973B (zh) | 一种语音增强方法及*** | |
WO2009097413A1 (en) | Enhanced blind source separation algorithm for highly correlated mixtures | |
CN104835503A (zh) | 一种改进gsc自适应语音增强方法 | |
CN112331226B (zh) | 一种针对主动降噪***的语音增强***及方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN107360497B (zh) | 估算混响分量的计算方法及装置 | |
CN113658605B (zh) | 一种基于深度学习辅助rls滤波处理的语音增强方法 | |
CN111933169B (zh) | 一种二次利用语音存在概率的语音降噪方法 | |
CN113763984A (zh) | 一种用于分布式多说话人的参数化噪声消除*** | |
Sasaoka et al. | Speech enhancement based on adaptive filter with variable step size for wideband and periodic noise | |
Kothapally et al. | Monaural Speech Dereverberation Using Deformable Convolutional Networks | |
CN112687285B (zh) | 回声消除方法和装置 | |
AU2019321519B2 (en) | Dual-microphone methods for reverberation mitigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210319 |
|
WD01 | Invention patent application deemed withdrawn after publication |