CN112530451A - 基于去噪自编码器的语音增强方法 - Google Patents

基于去噪自编码器的语音增强方法 Download PDF

Info

Publication number
CN112530451A
CN112530451A CN202011128458.7A CN202011128458A CN112530451A CN 112530451 A CN112530451 A CN 112530451A CN 202011128458 A CN202011128458 A CN 202011128458A CN 112530451 A CN112530451 A CN 112530451A
Authority
CN
China
Prior art keywords
speech
signal
noise
voice
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011128458.7A
Other languages
English (en)
Inventor
张世强
胡显秋
张婷娟
于乐
顾雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yichun Power Supply Co Of State Grid Heilongjiang Electric Power Co ltd
State Grid Corp of China SGCC
Northeast Electric Power University
Original Assignee
Yichun Power Supply Co Of State Grid Heilongjiang Electric Power Co ltd
State Grid Corp of China SGCC
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yichun Power Supply Co Of State Grid Heilongjiang Electric Power Co ltd, State Grid Corp of China SGCC, Northeast Dianli University filed Critical Yichun Power Supply Co Of State Grid Heilongjiang Electric Power Co ltd
Priority to CN202011128458.7A priority Critical patent/CN112530451A/zh
Publication of CN112530451A publication Critical patent/CN112530451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明的一种基于去噪自编码器的语音增强方法,其特点是,包括的内容有:构建去噪自编码器训练模型,多麦克风阵列获取时域差值,重构原声预测模型进行去噪处理,能够有效的降低噪声对语音信号的干扰,显著提高语音信号的信噪比,具有科学合理、结构简单、去噪效果好、适用范围广等优点。

Description

基于去噪自编码器的语音增强方法
技术领域
本发明属于语音信号处理技术领域,涉及一种基于去噪自编码器的语音增强方法。
背景技术
语音降噪是语音处理***的重要前端。背景噪音和人声干扰会降低语音信号的质量及可懂度,并在实际应用中导致性能下降,包括语音通信、助听器和语音识别。语音降噪的一个关键目标是提高干扰噪声存在时的质量和可懂度。
在语音降噪算法中,最常用的方法就是谱减法。谱减法具有算法简单、运算量小的特点。该算法的不足之处是处理后会产生听上去类似音乐的“音乐噪声”。基于自适应滤波器法的语音降噪算法,可以利用前一帧的滤波器参数和滤波结果,自动调整当前帧的滤波器参数,它对干净语音信号和噪声的先验知识要求较低。从而适应干净语音信号和噪声未知的随机变化和统计性,所以降噪后的语音无论在信噪比和听感上都有明显的进步。但这类算法往往存在收敛速度慢、不适用于非平稳噪声问题。基于最小均方误差估计法(MMSE)语音降噪算法能够有效抑制残留的“音乐噪声”。但是这种方法在低信噪比的情况下,对语音帧和非语音帧的识别极容易出错,导致降噪后的语音严重失真。基于子空间的语音降噪算法是通过空间分解将整个空间分为纯噪声子空间和纯语音子空间。通过设计一个既要保证残差信号谱的同时,还要考虑使语音失真最小化的估计器,来去除噪声子空间并估计语音信号特征值从而实现语音降噪。其中一种最常用的基于最优约束估计器的子空间语音降噪,但该语音降噪算法复杂度很高,很难在嵌入式平台上实现。小波变换方法是一种新型变换分析方法,能够在时间或空间上进行频率的局部分析。通过伸缩和平移运算对信号进行逐步尺度细化,具有多分辨率分析的特性,能够自适应信号分析的要求,现已被广泛运用在音频、图像处理领域中。依据小波变换能够有效去除数据的相关性特点,使得干净语音信号能量集中在小波域中的较大的小波系数中,噪声能量则集中在较小的小波系数中。其本质上是一种小波域滤波算法,选择适当的阈值是关系到***表现的关键所在。但是阈值获取困难且算法复杂度越来越高,较难用于实时通信。深度神经网络(DNN)应用于语音降噪工作变得越来越流行。基于深度神经网络的语音降噪算法是通过堆叠自动编码器,形成一个深层神经网络,输入为含噪语音的对数功率谱,对应输出干净语音信号的对数功率谱。该网络虽然较传统单通道语音算法有较好的降噪效果,但存在网络训练困难、在低信噪比条件下表现能力欠佳的问题。
发明内容
本发明的目的是,为了降低噪声对语音信号的干扰,提高语音信号的信噪比,提出一种基于去噪自编码器的语音增强方法,实现语音信号的增强。
本发明的目的是由以下技术方案来实现的:一种基于去噪自编码器的语音增强方法,其特征是,它包括的内容有:构建去噪自编码器训练模型,多麦克风阵列获取时域差值,重构原声预测模型进行去噪处理,
1)构建去噪自编码器训练模型
去噪自编码器训练模型设计为三层网络模型,第一层为输入层,中间层为隐藏层,设计节点个数为1024个,第三层为输出层,将输出层与原始无损数据进行比对,最小化损失值:
Figure BDA0002734310050000021
式中,
Figure BDA0002734310050000022
是样本x经过损坏过程
Figure BDA00027343100500000213
后得到的损坏样本,通常分布pdecoder是因子的分布,平局参数由前馈网络给出,这里对负对数释然
Figure BDA0002734310050000023
进行基于梯度下降法的近似最小化,
Figure BDA0002734310050000024
即是样本
Figure BDA0002734310050000025
的概率分布,这样构成了确定的自编码器,也就是一个前馈的网络,并且能够使用与其他前馈网络完全相同的方式进行训练,因此整个自动编码器就可类比为下一个期望的梯度下降:
Figure BDA0002734310050000026
其中,
Figure BDA0002734310050000027
是训练数据的分布,
Figure BDA0002734310050000028
表示对
Figure BDA0002734310050000029
分布的期望值,
Figure BDA00027343100500000210
表示对
Figure BDA00027343100500000211
样本
Figure BDA00027343100500000212
在全量x上的下一个期望值;
2)多麦克风阵列获取时域差值
麦克风阵列的语音增强方法的优势在于考虑了声源的位置信息,能够实现空间滤波,所以对具有方向性的噪声具有优良的抑制效果,因此,将麦克风阵列的技术应用在抑制干扰语音中,具体实现是对期望方向的语音信号进行保留;
首先,不同的麦克风由于位置不同,所以接收的语音信号必定存在着时间偏差,因此利用抽头延迟线结构(Tapped Delay-lines,TDLs)来实现对宽带语音信号的波束形成,TDLs结构的固定波束形成算法,通过多抽头的延迟来产生不同频率的分量,然后通过滤波系数描述来约束各麦克风的输入信号,使得期望方向上的信号得到保留,并在非期望方向上形成零陷,从而实现对固定声源方向的波束形成,TDLs结构的固定波束形成算法能够对固定噪声源方向的信号进行抑制,并且对相干和非相干噪声都能实现有效地抑制,其表达式为式(3):
F=WD (3)
式中,矩阵D为方向矩阵,用来对不同角度的语音信号进行频域对齐,W为不同入射角度的语音信号,ω0,…,ωJ-1,分别代表了不同的频率分量,矩阵F是目标响应矩阵,同样地,每一个分量对应着不同入射角度信号的目标响应,通过设置目标响应矩阵F,就能够决定固定波束形成结构对哪些方向的语音信号进行保留,又对哪些方向的语音信号进行抑制,矩阵W是权重系数矩阵,也是TDLs结构需要设计的部分,通过求解式(3),得到的矩阵系数解ωi,j,便是最终需要的设计的滤波器系数;
然后利用信号的输出来自适应地调整类似TDLs结构中的权重系数ωi,j,来达到对声学环境的变化具有一定鲁棒性的目的,在自适应的波束形成算法中,使用LCMV结构进行调整,LCMV结构是在式(3)的基础上进行调整,调整为式(4):
Figure BDA0002734310050000031
其中,Ryy为输入信号Y的自相关矩阵的期望,用Ryy≈YYH来进行估算,argminWWHRyyW表示通过最小化输出功率来自适应地调整权重系数W,从而使干扰目标方向的信号得到抑制,求解式(3)与式(4),便得到系数矩阵W的值:
Figure BDA0002734310050000032
根据上述解系数矩阵W的值,计算出时域上的差值;
3)重构原声预测模型进行去噪处理
在计算出时域差值后,得出的语音信号为失真的语音信号,因为单独使用多麦克风阵列算法的结构,将存在同频语音相减低消的情况,同时对于不同域的语音信号,存在风噪声消除不彻底,导致“音乐噪声”的问题,处理到此处的模型并不具有良好的鲁棒性,因此需要对失真的语音信号进行重新预测,将失真语音作为输入层传入第一步的自编码器模型之前,还需要进行一步滤波去噪处理:
Figure BDA0002734310050000033
Figure BDA0002734310050000034
是估计的先验信噪比(a prior SNR),所以整个求解的过程都是围绕如何求解这个先验信噪比进行的,而在这之前,先要估计后验信噪比和语音存在概率,后验信噪比的定义如下:
Figure BDA0002734310050000035
Figure BDA0002734310050000036
是噪声的功率谱,是通过Cohen提出的OMLSA方法求得的,对比γ(t,d)和预先设定的阈值Tr,如果大于这个阈值,则语音的存在的索引I(d)设为1,否则为0,其实这有点类似理想二值掩蔽的概念,即如果是语音主导的就设定为1,否则就是设定为0,那么语音存在概率就能够通过以下方式进行估计:
p(t,d)=0.95p(t-1,d)+0.05I(d) (8)
能够看出语音存在概率是通过前一时刻的语音存在概率和当前频段的语音存在索引的迭代平均结果,最终先验信噪比能够通过如下方式进行估计:
Figure BDA0002734310050000041
先验信噪比有三部分构成,第一部分是前一时刻的先验信噪比,第二部分是通过DNN估计得到的语音和通过OMLSA方法估计得到的噪声谱而算得的先验信噪比,最后一部分是利用后验信噪比对先验信噪比的最大似然估计,得到结果后再重新输入第一步的自编码器模型,结果为最终的降噪语音。
本发明的一种基于去噪自编码器的语音增强方法,它包括的内容有:构建去噪自编码器训练模型,多麦克风阵列获取时域差值,重构原声预测模型进行去噪处理等步骤,能够有效的降低噪声对语音信号的干扰,提高语音信号的信噪比,具有科学合理、结构简单、去噪效果好、适用范围广等优点。
附图说明
图1为一种基于去噪自编码器的语音增强方法流程图。
具体实施方式
下面利用附图和具体实施方式对本发明作进一步说明。
参照图1,本发明的基于去噪自编码器的语音增强方法,它包括的内容有:构建去噪自编码器训练模型,多麦克风阵列获取时域差值,重构原声预测模型进行去噪处理。
1)构建去噪自编码器训练模型
去噪自编码器训练模型设计为三层网络模型,第一层为输入层,中间层为隐藏层,设计节点个数为1024个,第三层为输出层,将输出层与原始无损数据进行比对,最小化损失值:
Figure BDA0002734310050000042
式中,
Figure BDA0002734310050000043
是样本x经过损坏过程
Figure BDA0002734310050000044
后得到的损坏样本,通常分布pdecoder是因子的分布,平局参数由前馈网络给出,这里对负对数释然
Figure BDA0002734310050000045
进行基于梯度下降法的近似最小化,
Figure BDA0002734310050000046
即是样本
Figure BDA0002734310050000047
的概率分布,这样构成了确定的自编码器,也就是一个前馈的网络,并且能够使用与其他前馈网络完全相同的方式进行训练,因此整个自动编码器就可类比为下一个期望的梯度下降:
Figure BDA0002734310050000048
其中,
Figure BDA0002734310050000051
是训练数据的分布,
Figure BDA0002734310050000052
表示对
Figure BDA0002734310050000053
分布的期望值,
Figure BDA0002734310050000054
表示对
Figure BDA0002734310050000055
样本
Figure BDA0002734310050000056
在全量x上的下一个期望值。
2)多麦克风阵列获取时域差值
麦克风阵列的语音增强方法的优势在于考虑了声源的位置信息,能够实现空间滤波,所以对具有方向性的噪声具有优良的抑制效果,因此,将麦克风阵列的技术应用在抑制干扰语音中,具体实现是对期望方向的语音信号进行保留;
首先,不同的麦克风由于位置不同,所以接收的语音信号必定存在着时间偏差,因此利用抽头延迟线结构(Tapped Delay-lines,TDLs)来实现对宽带语音信号的波束形成,TDLs结构的固定波束形成算法,通过多抽头的延迟来产生不同频率的分量,然后通过滤波系数描述来约束各麦克风的输入信号,使得期望方向上的信号得到保留,并在非期望方向上形成零陷,从而实现对固定声源方向的波束形成,TDLs结构的固定波束形成算法能够对固定噪声源方向的信号进行抑制,并且对相干和非相干噪声都能实现有效地抑制,其表达式为式(3):
F=WD (3)
式中,矩阵D为方向矩阵,用来对不同角度的语音信号进行频域对齐,W为不同入射角度的语音信号,ω0,…,ωJ-1,分别代表了不同的频率分量,矩阵F是目标响应矩阵,同样地,每一个分量对应着不同入射角度信号的目标响应,通过设置目标响应矩阵F,就能够决定固定波束形成结构对哪些方向的语音信号进行保留,又对哪些方向的语音信号进行抑制,矩阵W是权重系数矩阵,也是TDLs结构需要设计的部分,通过求解式(3),得到的矩阵系数解ωi,j,便是最终需要的设计的滤波器系数;
然后利用信号的输出来自适应地调整类似TDLs结构中的权重系数ωi,j,来达到对声学环境的变化具有一定鲁棒性的目的,在自适应的波束形成算法中,使用LCMV结构进行调整,LCMV结构是在式(3)的基础上进行调整,调整为式(4):
Figure BDA0002734310050000057
其中,Ryy为输入信号Y的自相关矩阵的期望,用Ryy≈YYH来进行估算,argminWWHRyyW表示通过最小化输出功率来自适应地调整权重系数W,从而使干扰目标方向的信号得到抑制,求解式(3)与式(4),便得到系数矩阵W的值:
Figure BDA0002734310050000058
根据上述解系数矩阵W的值,计算出时域上的差值。
3)重构原声预测模型进行去噪处理
在计算出时域差值后,得出的语音信号为失真的语音信号,因为单独使用多麦克风阵列算法的结构,将存在同频语音相减低消的情况,同时对于不同域的语音信号,存在风噪声消除不彻底,导致“音乐噪声”的问题,处理到此处的模型并不具有良好的鲁棒性,因此需要对失真的语音信号进行重新预测,将失真语音作为输入层传乳第一步的自编码器模型之前,还需要进行一步滤波去噪处理:
Figure BDA0002734310050000061
这里的
Figure BDA0002734310050000062
是估计的先验信噪比(a prior SNR),所以整个求解的过程都是围绕如何求解这个先验信噪比进行的,而在这之前,先要估计后验信噪比和(aposteriorSNR)和语音存在概率,后验信噪比的定义如下:
Figure BDA0002734310050000063
这里的
Figure BDA0002734310050000064
是噪声的功率谱,是通过Cohen提出的OMLSA方法求得的(Cohen,2003),对比γ(t,d)和预先设定的阈值Tr,如果大于这个阈值,则语音的存在的索引I(d)设为1,否则为0,其实这有点类似理想二值掩蔽的概念,即如果是语音主导的就设定为1,否则就是设定为0,那么语音存在概率就能够通过以下方式进行估计:
p(t,d)=0.95p(t-1,d)+0.05I(d) (8)
可以看出语音存在概率是通过前一时刻的语音存在概率和当前频段的语音存在索引的迭代平均结果,最终先验信噪比能够通过如下方式进行估计:
Figure BDA0002734310050000065
这里的先验信噪比有三部分构成,第一部分是前一时刻的先验信噪比,第二部分是通过DNN估计得到的语音和通过OMLSA方法估计得到的噪声谱而算得的先验信噪比,最后一部分是利用后验信噪比对先验信噪比的最大似然估计,得到结果后再重新输入第一步的自编码器模型,结果为最终的降噪语音。
本发明的软件程序依据自动化、网络和计算机处理技术编制,是本领域技术人员所熟悉的技术。
本发明实施例仅用于对本发明作进一步的说明,并非穷举,并不构成对权利要求保护范围的限定,本领域技术人员根据本发明实施例获得的启示,不经过创造性劳动就能够想到其它实质上等同的替代,均在本发明保护范围内。

Claims (1)

1.一种基于去噪自编码器的语音增强方法,其特征是,它包括的内容有:构建去噪自编码器训练模型,多麦克风阵列获取时域差值,重构原声预测模型进行去噪处理,
1)构建去噪自编码器训练模型
去噪自编码器训练模型设计为三层网络模型,第一层为输入层,中间层为隐藏层,设计节点个数为1024个,第三层为输出层,将输出层与原始无损数据进行比对,最小化损失值:
Figure FDA0002734310040000011
式中,
Figure FDA0002734310040000012
是样本x经过损坏过程
Figure FDA0002734310040000013
后得到的损坏样本,通常分布pdecoder是因子的分布,平局参数由前馈网络给出,这里对负对数释然
Figure FDA00027343100400000114
进行基于梯度下降法的近似最小化,
Figure FDA0002734310040000015
即是样本
Figure FDA00027343100400000113
的概率分布,这样构成了确定的自编码器,也就是一个前馈的网络,并且能够使用与其他前馈网络完全相同的方式进行训练,因此整个自动编码器就可类比为下一个期望的梯度下降:
Figure FDA0002734310040000016
其中,
Figure FDA0002734310040000017
是训练数据的分布,
Figure FDA0002734310040000018
表示对
Figure FDA0002734310040000019
分布的期望值,
Figure FDA00027343100400000110
表示对
Figure FDA00027343100400000111
样本
Figure FDA00027343100400000112
在全量x上的下一个期望值;
2)多麦克风阵列获取时域差值
麦克风阵列的语音增强方法的优势在于考虑了声源的位置信息,能够实现空间滤波,所以对具有方向性的噪声具有优良的抑制效果,因此,将麦克风阵列的技术应用在抑制干扰语音中,具体实现是对期望方向的语音信号进行保留;
首先,不同的麦克风由于位置不同,所以接收的语音信号必定存在着时间偏差,因此利用抽头延迟线结构(Tapped Delay-lines,TDLs)来实现对宽带语音信号的波束形成,TDLs结构的固定波束形成算法,通过多抽头的延迟来产生不同频率的分量,然后通过滤波系数描述来约束各麦克风的输入信号,使得期望方向上的信号得到保留,并在非期望方向上形成零陷,从而实现对固定声源方向的波束形成,TDLs结构的固定波束形成算法能够对固定噪声源方向的信号进行抑制,并且对相干和非相干噪声都能实现有效地抑制,其表达式为式(3):
F=WD (3)
式中,矩阵D为方向矩阵,用来对不同角度的语音信号进行频域对齐,W为不同入射角度的语音信号,ω0,…,ωJ-1,分别代表了不同的频率分量,矩阵F是目标响应矩阵,同样地,每一个分量对应着不同入射角度信号的目标响应,通过设置目标响应矩阵F,就能够决定固定波束形成结构对哪些方向的语音信号进行保留,又对哪些方向的语音信号进行抑制,矩阵W是权重系数矩阵,也是TDLs结构需要设计的部分,通过求解式(3),得到的矩阵系数解ωi,j,便是最终需要的设计的滤波器系数;
然后利用信号的输出来自适应地调整类似TDLs结构中的权重系数ωi,j,来达到对声学环境的变化具有一定鲁棒性的目的,在自适应的波束形成算法中,使用LCMV结构进行调整,LCMV结构是在式(3)的基础上进行调整,调整为式(4):
Figure FDA0002734310040000021
其中,Ryy为输入信号Y的自相关矩阵的期望,用Ryy≈YYH来进行估算,argminwWHRyyW表示通过最小化输出功率来自适应地调整权重系数W,从而使干扰目标方向的信号得到抑制,求解式(3)与式(4),便得到系数矩阵W的值:
Figure FDA0002734310040000022
根据上述解系数矩阵W的值,计算出时域上的差值;
3)重构原声预测模型进行去噪处理
在计算出时域差值后,得出的语音信号为失真的语音信号,因为单独使用多麦克风阵列算法的结构,将存在同频语音相减低消的情况,同时对于不同域的语音信号,存在风噪声消除不彻底,导致“音乐噪声”的问题,处理到此处的模型并不具有良好的鲁棒性,因此需要对失真的语音信号进行重新预测,将失真语音作为输入层传入第一步的自编码器模型之前,还需要进行一步滤波去噪处理:
Figure FDA0002734310040000023
Figure FDA0002734310040000024
是估计的先验信噪比(a prior SNR),所以整个求解的过程都是围绕如何求解这个先验信噪比进行的,而在这之前,先要估计后验信噪比和语音存在概率,后验信噪比的定义如下:
Figure FDA0002734310040000025
Figure FDA0002734310040000026
是噪声的功率谱,是通过Cohen提出的OMLSA方法求得的,对比γ(t,d)和预先设定的阈值Tr,如果大于这个阈值,则语音的存在的索引I(d)设为1,否则为0,其实这有点类似理想二值掩蔽的概念,即如果是语音主导的就设定为1,否则就是设定为0,那么语音存在概率就能够通过以下方式进行估计:
p(t,d)=0.95p(t-1,d)+0.05I(d) (8)
能够看出语音存在概率是通过前一时刻的语音存在概率和当前频段的语音存在索引的迭代平均结果,最终先验信噪比能够通过如下方式进行估计:
Figure FDA0002734310040000031
先验信噪比有三部分构成,第一部分是前一时刻的先验信噪比,第二部分是通过DNN估计得到的语音和通过OMLSA方法估计得到的噪声谱而算得的先验信噪比,最后一部分是利用后验信噪比对先验信噪比的最大似然估计,得到结果后再重新输入第一步的自编码器模型,结果为最终的降噪语音。
CN202011128458.7A 2020-10-20 2020-10-20 基于去噪自编码器的语音增强方法 Pending CN112530451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011128458.7A CN112530451A (zh) 2020-10-20 2020-10-20 基于去噪自编码器的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011128458.7A CN112530451A (zh) 2020-10-20 2020-10-20 基于去噪自编码器的语音增强方法

Publications (1)

Publication Number Publication Date
CN112530451A true CN112530451A (zh) 2021-03-19

Family

ID=74979054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011128458.7A Pending CN112530451A (zh) 2020-10-20 2020-10-20 基于去噪自编码器的语音增强方法

Country Status (1)

Country Link
CN (1) CN112530451A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345469A (zh) * 2021-05-24 2021-09-03 北京小米移动软件有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN115662444A (zh) * 2022-12-14 2023-01-31 北京惠朗时代科技有限公司 基于人工智能的电子***语音交互式应用方法及***
CN117349603A (zh) * 2023-12-06 2024-01-05 小舟科技有限公司 脑电信号的自适应降噪方法及装置、设备、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1633121A1 (en) * 2004-09-03 2006-03-08 Harman Becker Automotive Systems GmbH Speech signal processing with combined adaptive noise reduction and adaptive echo compensation
US9813808B1 (en) * 2013-03-14 2017-11-07 Amazon Technologies, Inc. Adaptive directional audio enhancement and selection
CN107396158A (zh) * 2017-08-21 2017-11-24 深圳创维-Rgb电子有限公司 一种声控交互装置、声控交互方法和电视机
CN108922554A (zh) * 2018-06-04 2018-11-30 南京信息工程大学 基于对数谱估计的lcmv频率不变波束形成语音增强算法
EP3462452A1 (en) * 2012-08-24 2019-04-03 Oticon A/s Noise estimation for use with noise reduction and echo cancellation in personal communication
CN109994120A (zh) * 2017-12-29 2019-07-09 福州瑞芯微电子股份有限公司 基于双麦的语音增强方法、***、音箱及存储介质
CN111755013A (zh) * 2020-07-07 2020-10-09 苏州思必驰信息科技有限公司 去噪自动编码器训练方法和说话人识别***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1633121A1 (en) * 2004-09-03 2006-03-08 Harman Becker Automotive Systems GmbH Speech signal processing with combined adaptive noise reduction and adaptive echo compensation
EP3462452A1 (en) * 2012-08-24 2019-04-03 Oticon A/s Noise estimation for use with noise reduction and echo cancellation in personal communication
US9813808B1 (en) * 2013-03-14 2017-11-07 Amazon Technologies, Inc. Adaptive directional audio enhancement and selection
CN107396158A (zh) * 2017-08-21 2017-11-24 深圳创维-Rgb电子有限公司 一种声控交互装置、声控交互方法和电视机
CN109994120A (zh) * 2017-12-29 2019-07-09 福州瑞芯微电子股份有限公司 基于双麦的语音增强方法、***、音箱及存储介质
CN108922554A (zh) * 2018-06-04 2018-11-30 南京信息工程大学 基于对数谱估计的lcmv频率不变波束形成语音增强算法
CN111755013A (zh) * 2020-07-07 2020-10-09 苏州思必驰信息科技有限公司 去噪自动编码器训练方法和说话人识别***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ROHITH MARS: "A frequency-invariant fixed beamformer for speech enhancement", <SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA), 2014 ASIA-PACIFIC> *
杨蕾: "麦克风阵列语音增强方法研究", 《中国优秀硕士学位论文全文数据库》 *
陈鑫源: "自适应双数据流语音增强方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345469A (zh) * 2021-05-24 2021-09-03 北京小米移动软件有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN115662444A (zh) * 2022-12-14 2023-01-31 北京惠朗时代科技有限公司 基于人工智能的电子***语音交互式应用方法及***
CN115662444B (zh) * 2022-12-14 2023-04-07 北京惠朗时代科技有限公司 基于人工智能的电子***语音交互式应用方法及***
CN117349603A (zh) * 2023-12-06 2024-01-05 小舟科技有限公司 脑电信号的自适应降噪方法及装置、设备、存储介质
CN117349603B (zh) * 2023-12-06 2024-03-12 小舟科技有限公司 脑电信号的自适应降噪方法及装置、设备、存储介质

Similar Documents

Publication Publication Date Title
CN108831495B (zh) 一种应用于噪声环境下语音识别的语音增强方法
CN108922554B (zh) 基于对数谱估计的lcmv频率不变波束形成语音增强算法
CN107993670B (zh) 基于统计模型的麦克风阵列语音增强方法
CN109727604A (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及***
US9558755B1 (en) Noise suppression assisted automatic speech recognition
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN112530451A (zh) 基于去噪自编码器的语音增强方法
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
JP2013527493A (ja) 複数のマイクによるロバストな雑音抑制
CN105280193B (zh) 基于mmse误差准则的先验信噪比估计方法
CN112581973B (zh) 一种语音增强方法及***
WO2009097413A1 (en) Enhanced blind source separation algorithm for highly correlated mixtures
CN104835503A (zh) 一种改进gsc自适应语音增强方法
CN112331226B (zh) 一种针对主动降噪***的语音增强***及方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN107360497B (zh) 估算混响分量的计算方法及装置
CN113658605B (zh) 一种基于深度学习辅助rls滤波处理的语音增强方法
CN111933169B (zh) 一种二次利用语音存在概率的语音降噪方法
CN113763984A (zh) 一种用于分布式多说话人的参数化噪声消除***
Sasaoka et al. Speech enhancement based on adaptive filter with variable step size for wideband and periodic noise
Kothapally et al. Monaural Speech Dereverberation Using Deformable Convolutional Networks
CN112687285B (zh) 回声消除方法和装置
AU2019321519B2 (en) Dual-microphone methods for reverberation mitigation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210319

WD01 Invention patent application deemed withdrawn after publication