CN111986660A - 一种神经网络子带建模的单通道语音增强方法、***及存储介质 - Google Patents

一种神经网络子带建模的单通道语音增强方法、***及存储介质 Download PDF

Info

Publication number
CN111986660A
CN111986660A CN202010872886.4A CN202010872886A CN111986660A CN 111986660 A CN111986660 A CN 111986660A CN 202010872886 A CN202010872886 A CN 202010872886A CN 111986660 A CN111986660 A CN 111986660A
Authority
CN
China
Prior art keywords
neural network
band
sub
module
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010872886.4A
Other languages
English (en)
Inventor
刘明
孙冲武
周彦兵
赵学华
李欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN202010872886.4A priority Critical patent/CN111986660A/zh
Publication of CN111986660A publication Critical patent/CN111986660A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种神经网络子带建模的单通道语音增强方法、***及存储介质,该单通道语音增强方法包括执行以下步骤:步骤1:采集带噪语音信号,并发送给数功率谱提取模块和巴克倒谱系数提取模块;步骤2:采用对数功率谱提取模块和巴克倒谱系数提取模块接收步骤1的带噪语音信号,再由对数功率谱提取模块和巴克倒谱系数提取模块对带噪语音信号进行特征提取,最后将提取的特征发送给频带特征划分模块;步骤3:采用频带特征划分模块接收步骤2提取的特征,再由频带特征划分模块对提取的特征进行子带特征的分配。本发明的有益效果是:本发明对语音信号的各子频带进行单独的神经网络建模,降低了神经网络的任务难度,减少了模型的参数。

Description

一种神经网络子带建模的单通道语音增强方法、***及存储 介质
技术领域
本发明涉及数据处理领域,尤其涉及一种神经网络子带建模的单通道语音增强方法、***及存储介质。
背景技术
目前,市场上的一系列语音类电子产品中,如通讯类产品、人机交互类产品都会受到各式各样噪声干扰的影响。嘈杂的背景噪声不仅会影响人与人之间交流通讯的质量,也会给人机交互带来很大的挑战。例如,对于智能音箱、智能电视、车载设备等语音交互类的电子设备而言,语音识别是不可或缺的技术,并且在安静环境下语音识别的准确率已经完全可以满足人们使用的要求。但是,当有一定的背景噪声存在时,机器的识别准确率就会受到很大的影响。因此,需要使用语音增强技术进行语音信号的降噪处理,减轻干扰噪声的影响,提高语音的质量,使机器能够在复杂的声学环境中也能实现较高的识别准确率。此外,对于一些对降噪和时延都有严格要求的语音产品,如助听器、对讲机、耳返等,语音增强算法不仅要保证较好的降噪效果,还要具备低运算量、低延时的特点。
发明内容
本发明提供了一种神经网络子带建模的单通道语音增强方法,包括执行以下步骤:
步骤1:采集带噪语音信号,并发送给对数功率谱提取模块和巴克倒谱系数提取模块;
步骤2:采用对数功率谱提取模块和巴克倒谱系数提取模块接收步骤1的带噪语音信号,再由对数功率谱提取模块和巴克倒谱系数提取模块对带噪语音信号进行特征提取,最后将提取的特征发送给频带特征划分模块;
步骤3:采用频带特征划分模块接收步骤2提取的特征,再由频带特征划分模块对提取的特征进行子带特征的分配,并将每个子频带上的特征输入到各自对应的神经网络映射模块进行先验信噪比的估计,最后组合所有子带上估计的先验信噪比,发送给全频带维纳滤波模块;
步骤4:采用全频带维纳滤波模块接收和处理步骤3的所有子带上估计的先验信噪比,得到了增强后的语音信号。
作为本发明的进一步改进,在所述步骤2中,所述对数功率谱特征提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
第一步骤:对麦克风采集到的语音信号x(n)进行分帧加窗的预处理;
第二步骤:进行快速傅里叶变换得到信号的频谱,并求取频域的功率谱S2(k);
第三步骤:进行自然对数运算;
第四步骤:对功率谱进行对数域压缩,便得到了提取的对数功率谱特征Ylog(k),如下式(1)所示:
Ylog(k)=ln(S2(k)),k=1,2,...,N (1)
其中,k为频率索引,N为一帧语音信号的帧长,在该单通道语音增强方法中,采用16kHz的采样率,每帧帧长16ms,帧移8ms,N为129。
作为本发明的进一步改进,在所述步骤2中,所述巴克倒谱系数提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
步骤S1:对输入的语音信号x(n)进行分帧加窗的预处理;
步骤S2:进行快速傅里叶变换将数据由时域变换到频域;
步骤S3:计算出频域功率谱S2(k);
步骤S4:将计算得到的频域功率谱S2(k)经过巴克滤波器,计算出滤波后的能量谱,如式(2)所示:
Figure BDA0002651691870000021
其中,b为巴克能量谱的阶数索引,B为巴克滤波器的个数,这里取24,每一个滤波器都对应着一个巴克域的频带,Bark频率滤波器的传递函数表达式如下式(3)所示:
Figure BDA0002651691870000022
步骤S5:对每帧的巴克能量谱取对数,并作离散余弦变换(DCT),如式(4)所示,就得到了巴克倒谱系数特征,
Figure BDA0002651691870000023
其中,Ybark(n)为提取的BFCC特征,n为特征的频带索引,特征的维度与巴克滤波器的个数一致,取24维。
作为本发明的进一步改进,在所述步骤3中,所述频带特征划分模块还包括依次执行以下步骤:
子带划分步骤:将0-8000Hz的频域范围划分成8个子带,并根据每个子带对应的LPS特征和BFCC特征个数的不同分别给出了不同子带上特征的索引;
特征拼接步骤:将每个子带上的LPS和BFCC特征拼接起来分别送到各自的神经网络映射模块进行先验信噪比的估计。
作为本发明的进一步改进,在所述步骤3中,所述神经网络映射模块包括5层神经层,其中第一层和最后一层均为前馈神经网络层,中间的三层为GRU神经层,前馈神经网络层中以全连接的方式进行加权求和,并进行非线性激活,如下式(5)所示:
h=g(W·X+b) (5)
其中,W和b分别是神经元的权重和偏置,h代表前馈神经网络层的输出,X为前馈神经网络层的输入,g(·)代表非线性的激活运算,这里的前馈神经网络层1采用ReLU激活函数,而前馈神经网络层2需要进行先验信噪比的估计,所以不进行激活操作,只进行线性加权求和。
作为本发明的进一步改进,所述神经网络映射模块GRU层中的记忆更新机理具体如下:
GRU单元将当前帧输入的特征xt与之前保留的上一帧的输出ht-1进行组合,经过更新门和重置门的处理,产生一个当前帧的输出ht,如此反复一直迭代下去,各个门以及输出的计算式如下,
rt=σ(Wr·[ht-1,xt]) (6)
zt=σ(Wz·[ht-1,xt]) (7)
Figure BDA0002651691870000031
Figure BDA0002651691870000032
其中σ(·)和tanh(·)分别代表Sigmoid激活函数和双曲正切激活函数,rt表示当前帧更新门的输出,zt表示当前帧遗忘门的输出。
作为本发明的进一步改进,在所述步骤3中,经所述神经网络映射模块估计出的各子带上的先验信噪比值进行组合得到129维输出。
作为本发明的进一步改进,在所述步骤4中,所述全频带维纳滤波模块还包括执行以下步骤:
步骤Y1:计算出用于滤波的增益函数,表达形式如下式(10)所示:
Figure BDA0002651691870000041
其中,
Figure BDA0002651691870000042
为神经网络映射模输出的先验信噪比值;
步骤Y2:利用估计的增益函数对输入的带噪语音进行滤波,最后进行反傅里叶变换,得到降噪后的语音信号
Figure BDA0002651691870000043
公式如下:
Figure BDA0002651691870000044
Figure BDA0002651691870000045
公式(11)为维纳滤波的频域滤波过程,其中S(k)为输入的带噪语音信号的频谱,N为每一帧的频点个数,这里取129,
Figure BDA0002651691870000046
为增强后的语音信号频谱,进行公式(12)中的反傅里叶变换就得到了最后的时域信号输出
Figure BDA0002651691870000047
本发明还公开了一种神经网络子带建模的单通道语音增强***,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的单通道语音增强方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的单通道语音增强方法的步骤。
本发明的有益效果是:1.本发明的单通道语音增强方法对语音信号的各子频带进行单独的神经网络建模,降低了神经网络的任务难度,减少了模型的参数,实现了较低的算法复杂度;2.本发明的单通道语音增强方法采用神经网络模型进行信号的先验信噪比估计,再结合传统滤波的方法进行降噪,有效地提高了神经网络降噪算法的泛化能力;3.本发明的单通道语音增强方法针对每个子带单独训练的神经网络模型,映***度更高,可以实现更好的语音降噪效果。
附图说明
图1是本发明单通道语音增强方法原理框图;
图2是本发明单通道语音增强方法对数功率特征的提取原理框图;
图3是本发明单通道语音增强方法BFCC特征的提取原理框图;
图4是本发明单通道语音增强方法神经网络映射模块各子带的结构图;
图5是本发明单通道语音增强方法GRU层中的记忆更新原理框图。
具体实施方式
如图1所示,本发明公开了一种神经网络子带建模的单通道语音增强方法,该单通道语音增强方法以神经网络模型为基础,利用对数功率谱特征(Log power spectrum,LPS)和巴克倒谱系数特征(Bark-frequency cepstral coefficients,BFCC)对目标语音的先验信噪比进行估计,并与维纳滤波方法相结合,实现了降噪效果与运算复杂度的良好折衷。该单通道语音增强方法包括执行以下步骤:
步骤1:由单个麦克风采集带噪语音信号,并发送给对数功率谱提取模块和巴克倒谱系数提取模块;
步骤2:采用对数功率谱提取模块和巴克倒谱系数提取模块接收步骤1的带噪语音信号,再由对数功率谱提取模块和巴克倒谱系数提取模块对带噪语音信号进行特征提取,最后将提取的特征发送给频带特征划分模块;
步骤3:采用频带特征划分模块接收步骤2提取的特征,再由频带特征划分模块对提取的两组特征进行子带特征的分配,并将每个子频带上的特征输入到各自对应的神经网络映射模块进行先验信噪比的估计,最后组合所有子带上估计的先验信噪比,发送给全频带维纳滤波模块;
步骤4:采用全频带维纳滤波模块接收和处理步骤3的所有子带上估计的先验信噪比,得到了增强后的语音信号。
本发明的单通道语音增强方法中,我们挑选了Aishell中文数据集[1]中4800句话(24男24女,每人说100句话)作为训练集的纯净语音数据,然后与Freesound网站[2]上挑选出的100种不同的噪声类型,进行随机混合,混合的信噪比符合区间范围为[-5,20]的均匀分布,总共获得带噪训练数据时长约为100个小时。随后,提取出各子带的BFCC特征和对数功率谱特征,并构建出它们对应的理想先验信噪比值,然后采用反向传播算法对各个神经网络进行训练,并从所有训练数据中划分出10%作为验证集,当训练集和验证集上的损失最小时保存模型,便得到了不同子频带对应的神经网络映射模型。以上便是对整个单通道语音增强方法的处理流程和神经网络模型的训练过程,接下来将对各个关键模块进行详细介绍。
如图2所示,在所述步骤2中,所述对数功率谱特征提取模块,用来提取语音信号的频域对数功率特征,所述数功率谱特征提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
第一步骤:对麦克风采集到的语音信号x(n)进行分帧加窗的预处理;
第二步骤:进行快速傅里叶变换(FFT)得到信号的频谱,并求取频域的功率谱S2(k);
第三步骤:进行自然对数运算;
第四步骤:对功率谱进行对数域压缩,便得到了提取的对数功率谱特征Ylog(k),如下式(1)所示:
Ylog(k)=ln(S2(k)),k=1,2,...,N (1)
其中,k为频率索引,N为一帧语音信号的帧长,在该单通道语音增强方法中,采用16kHz的采样率,每帧帧长16ms,帧移8ms,因此N为129。
如图3所示,在所述步骤2中,所述巴克倒谱系数特征提取模块,以Bark尺度在频域进行特征提取,模拟了人类听觉***对声音的掩蔽效应,并且充分利用了人耳对声音信号的低频分辨率高于其对高频分辨率的特性,提取出了一种非常接近人类主观感受的频谱特征。所述巴克倒谱系数提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
步骤S1:对输入的语音信号x(n)进行分帧加窗的预处理;
步骤S2:进行快速傅里叶变换将数据由时域变换到频域;
步骤S3:计算出频域功率谱S2(k);
步骤S4:将计算得到的频域功率谱S2(k)经过巴克滤波器,计算出滤波后的能量谱,如式(2)所示:
Figure BDA0002651691870000061
其中,b为巴克能量谱的阶数索引,B为巴克滤波器的个数,这里取24,每一个滤波器都对应着一个巴克域的频带,Bark频率滤波器的传递函数表达式如下式(3)所示:
Figure BDA0002651691870000062
步骤S5:对每帧的巴克能量谱取对数,并作离散余弦变换(DCT),如式(4)所示,就得到了巴克倒谱系数特征,
Figure BDA0002651691870000071
其中,Ybark(n)为提取的BFCC特征,n为特征的频带索引,特征的维度与巴克滤波器的个数一致,取24维。
在所述步骤3中,所述频带特征划分模块,将对提取的每帧信号的巴克倒谱系数特征和对数功率谱特征进行子带的划分,每个子带只包含其频率范围内的BFCC特征和LPS特征,如表1所示。
表1频域子带的特征分配
Figure BDA0002651691870000072
所述频带特征划分模块还包括依次执行以下步骤:
子带划分步骤:将0-8000Hz的频域范围划分成8个子带,并且考虑到大部分语音信号集中在低频范围,因此对低频的子带划分的更细。此外,根据每个子带对应的LPS特征和BFCC特征个数的不同分别给出了不同子带上特征的索引,如表1所示;
特征拼接步骤:将每个子带上的LPS和BFCC特征拼接起来分别送到各自的神经网络映射模块进行先验信噪比的估计。
在所述步骤3中,所述神经网络映射模块,对每个子带特征进行建模,定制了应用于不同子带的专用降噪模型。考虑到语音信号的时序相关特性,在所述神经网络映射模块中以门控递归神经单元(Gated recurrent unit,GRU)为基础,构建具备映射先验信噪比能力的模型。
如图4所示,经过子带划分模块的分配以后,将各子带的特征输入到所设计的神经网络结构中,进行先验信噪比
Figure BDA0002651691870000081
的估计。所述神经网络映射模块包括5层神经层,其中第一层和最后一层均为前馈神经网络层,中间的三层为GRU神经层,前馈神经网络层中以全连接的方式进行加权求和,并进行非线性激活,如下式(5)所示:
h=g(W·X+b) (5)
其中,W和b分别是神经元的权重和偏置,h代表前馈神经网络层的输出,X为前馈神经网络层的输入,g(·)代表非线性的激活运算,这里的前馈神经网络层1采用ReLU激活函数,而前馈神经网络层2需要进行先验信噪比的估计,所以不进行激活操作,只进行线性加权求和。
如图5所示,所述神经网络映射模块GRU层中的记忆更新机理具体如下:
GRU单元将当前帧输入的特征xt与之前保留的上一帧的输出ht-1进行组合,经过更新门和重置门的处理,产生一个当前帧的输出ht,如此反复一直迭代下去,各个门以及输出的计算式如下,
rt=σ(Wr·[ht-1,xt]) (6)
zt=σ(Wz·[ht-1,xt]) (7)
Figure BDA0002651691870000082
Figure BDA0002651691870000083
其中σ(·)和tanh(·)分别代表Sigmoid激活函数和双曲正切激活函数,rt表示当前帧更新门的输出,zt表示当前帧遗忘门的输出。
另外,由于每个子带上的特征数量不同,虽然每个子带上的神经网络结构是一样的,但是考虑到每个子带的任务难度不同,所以每个子带所对应的神经网络模型的神经元个数是不同的,如下表2所示。
表2不同子带神经网络模块的神经元配置
Figure BDA0002651691870000091
在所述步骤3中,经所述神经网络映射模块估计出的各子带上的先验信噪比值进行组合得到129维输出。
在所述步骤4中,所述全频带维纳滤波模块还包括执行以下步骤:
步骤Y1:计算出用于滤波的增益函数,表达形式如下式(10)所示:
Figure BDA0002651691870000092
其中,
Figure BDA0002651691870000093
为神经网络映射模输出的先验信噪比值;
步骤Y2:利用估计的增益函数对输入的带噪语音进行滤波,最后进行反傅里叶变换,就得到了降噪后的语音信号
Figure BDA0002651691870000094
公式如下:
Figure BDA0002651691870000095
Figure BDA0002651691870000096
公式(11)为维纳滤波的频域滤波过程,其中S(k)为输入的带噪语音信号的频谱,N为每一帧的频点个数,这里取129,
Figure BDA0002651691870000097
为增强后的语音信号频谱,进行如公式(12)中的反傅里叶变换就得到了最后的时域信号输出
Figure BDA0002651691870000098
本发明的有益效果是:1.本发明的单通道语音增强方法对语音信号的各子频带进行单独的神经网络建模,降低了神经网络的任务难度,减少了模型的参数,实现了较低的算法复杂度;2.本发明的单通道语音增强方法采用神经网络模型进行信号的先验信噪比估计,再结合传统滤波的方法进行降噪,有效地提高了神经网络降噪算法的泛化能力;3.本发明的单通道语音增强方法针对每个子带单独训练的神经网络模型,映***度更高,可以实现更好的语音降噪效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种神经网络子带建模的单通道语音增强方法,其特征在于,包括执行以下步骤:
步骤1:采集带噪语音信号,并发送给对数功率谱提取模块和巴克倒谱系数提取模块;
步骤2:采用对数功率谱提取模块和巴克倒谱系数提取模块接收步骤1的带噪语音信号,再由对数功率谱提取模块和巴克倒谱系数提取模块对带噪语音信号进行特征提取,最后将提取的特征发送给频带特征划分模块;
步骤3:采用频带特征划分模块接收步骤2提取的特征,再由频带特征划分模块对提取的特征进行子带特征的分配,并将每个子频带上的特征输入到各自对应的神经网络映射模块进行先验信噪比的估计,最后组合所有子带上估计的先验信噪比,发送给全频带维纳滤波模块;
步骤4:采用全频带维纳滤波模块接收和处理步骤3的所有子带上估计的先验信噪比,得到了增强后的语音信号。
2.根据权利要求1所述的单通道语音增强方法,其特征在于,在所述步骤2中,所述对数功率谱特征提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
第一步骤:对麦克风采集到的语音信号x(n)进行分帧加窗的预处理;
第二步骤:进行快速傅里叶变换得到信号的频谱,并求取频域的功率谱S2(k);
第三步骤:进行自然对数运算;
第四步骤:对功率谱进行对数域压缩,便得到了提取的对数功率谱特征Ylog(k),如下式(1)所示:
Ylog(k)=ln(S2(k)),k=1,2,...,N (1)
其中,k为频率索引,N为一帧语音信号的帧长,在该单通道语音增强方法中,采用16kHz的采样率,每帧帧长16ms,帧移8ms,N为129。
3.根据权利要求1所述的单通道语音增强方法,其特征在于,在所述步骤2中,所述巴克倒谱系数提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
步骤S1:对输入的语音信号x(n)进行分帧加窗的预处理;
步骤S2:进行快速傅里叶变换将数据由时域变换到频域;
步骤S3:计算出频域功率谱S2(k);
步骤S4:将计算得到的频域功率谱S2(k)经过巴克滤波器,计算出滤波后的能量谱,如式(2)所示:
Figure FDA0002651691860000021
其中,b为巴克能量谱的阶数索引,B为巴克滤波器的个数,这里取24,每一个滤波器都对应着一个巴克域的频带,Bark频率滤波器的传递函数表达式如下式(3)所示:
Figure FDA0002651691860000022
步骤S5:对每帧的巴克能量谱取对数,并作离散余弦变换(DCT),如式(4)所示,就得到了巴克倒谱系数特征,
Figure FDA0002651691860000023
其中,Ybark(n)为提取的BFCC特征,n为特征的频带索引,特征的维度与巴克滤波器的个数一致,取24维。
4.根据权利要求1所述的单通道语音增强方法,其特征在于,在所述步骤3中,所述频带特征划分模块还包括依次执行以下步骤:
子带划分步骤:将0-8000Hz的频域范围划分成8个子带,并根据每个子带对应的LPS特征和BFCC特征个数的不同分别给出了不同子带上特征的索引;
特征拼接步骤:将每个子带上的LPS和BFCC特征拼接起来分别送到各自的神经网络映射模块进行先验信噪比的估计。
5.根据权利要求4所述的单通道语音增强方法,其特征在于,在所述步骤3中,所述神经网络映射模块包括5层神经层,其中第一层和最后一层均为前馈神经网络层,中间的三层为GRU神经层,前馈神经网络层中以全连接的方式进行加权求和,并进行非线性激活,如下式(5)所示:
h=g(W·X+b) (5)
其中,W和b分别是神经元的权重和偏置,h代表前馈神经网络层的输出,X为前馈神经网络层的输入,g(·)代表非线性的激活运算,这里的前馈神经网络层1采用ReLU激活函数,而前馈神经网络层2需要进行先验信噪比的估计,所以不进行激活操作,只进行线性加权求和。
6.根据权利要求5所述的单通道语音增强方法,其特征在于,所述神经网络映射模块GRU层中的记忆更新机理具体如下:
GRU单元将当前帧输入的特征xt与之前保留的上一帧的输出ht-1进行组合,经过更新门和重置门的处理,产生一个当前帧的输出ht,如此反复一直迭代下去,各个门以及输出的计算式如下,
rt=σ(Wr·[ht-1,xt]) (6)
zt=σ(Wz·[ht-1,xt]) (7)
Figure FDA0002651691860000031
Figure FDA0002651691860000032
其中σ(·)和tanh(·)分别代表Sigmoid激活函数和双曲正切激活函数,rt表示当前帧更新门的输出,zt表示当前帧遗忘门的输出。
7.根据权利要求1所述的单通道语音增强方法,其特征在于,在所述步骤3中,经所述神经网络映射模块估计出的各子带上的先验信噪比值进行组合得到129维输出。
8.根据权利要求7所述的单通道语音增强方法,其特征在于,在所述步骤4中,所述全频带维纳滤波模块还包括执行以下步骤:
步骤Y1:计算出用于滤波的增益函数,表达形式如下式(10)所示:
Figure FDA0002651691860000041
其中,
Figure FDA0002651691860000042
为神经网络映射模输出的先验信噪比值;
步骤Y2:利用估计的增益函数对输入的带噪语音进行滤波,最后进行反傅里叶变换,得到降噪后的语音信号
Figure FDA0002651691860000043
公式如下:
Figure FDA0002651691860000044
Figure FDA0002651691860000045
公式(11)为维纳滤波的频域滤波过程,其中S(k)为输入的带噪语音信号的频谱,N为每一帧的频点个数,这里取129,
Figure FDA0002651691860000046
为增强后的语音信号频谱,进行公式(12)中的反傅里叶变换就得到了最后的时域信号输出
Figure FDA0002651691860000047
9.一种神经网络子带建模的单通道语音增强***,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-8中任一项所述的单通道语音增强方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的单通道语音增强方法的步骤。
CN202010872886.4A 2020-08-26 2020-08-26 一种神经网络子带建模的单通道语音增强方法、***及存储介质 Pending CN111986660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010872886.4A CN111986660A (zh) 2020-08-26 2020-08-26 一种神经网络子带建模的单通道语音增强方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010872886.4A CN111986660A (zh) 2020-08-26 2020-08-26 一种神经网络子带建模的单通道语音增强方法、***及存储介质

Publications (1)

Publication Number Publication Date
CN111986660A true CN111986660A (zh) 2020-11-24

Family

ID=73440930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010872886.4A Pending CN111986660A (zh) 2020-08-26 2020-08-26 一种神经网络子带建模的单通道语音增强方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN111986660A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077806A (zh) * 2021-03-23 2021-07-06 杭州朗和科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN113096679A (zh) * 2021-04-02 2021-07-09 北京字节跳动网络技术有限公司 音频数据处理方法和装置
CN113516988A (zh) * 2020-12-30 2021-10-19 腾讯科技(深圳)有限公司 一种音频处理方法、装置、智能设备及存储介质
CN113571075A (zh) * 2021-01-28 2021-10-29 腾讯科技(深圳)有限公司 音频处理的方法、装置、电子设备和存储介质
CN116403594A (zh) * 2023-06-08 2023-07-07 澳克多普有限公司 基于噪声更新因子的语音增强方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240401A1 (en) * 2004-04-23 2005-10-27 Acoustic Technologies, Inc. Noise suppression based on Bark band weiner filtering and modified doblinger noise estimate
CN102124518A (zh) * 2008-08-05 2011-07-13 弗朗霍夫应用科学研究促进协会 采用特征提取处理音频信号用于语音增强的方法和装置
CN107680610A (zh) * 2017-09-27 2018-02-09 安徽硕威智能科技有限公司 一种语音增强***及方法
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110120225A (zh) * 2019-04-01 2019-08-13 西安电子科技大学 一种基于gru网络的结构的音频降噪***及方法
CN110310656A (zh) * 2019-05-27 2019-10-08 重庆高开清芯科技产业发展有限公司 一种语音增强方法
WO2020107269A1 (zh) * 2018-11-28 2020-06-04 深圳市汇顶科技股份有限公司 自适应语音增强方法和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240401A1 (en) * 2004-04-23 2005-10-27 Acoustic Technologies, Inc. Noise suppression based on Bark band weiner filtering and modified doblinger noise estimate
CN102124518A (zh) * 2008-08-05 2011-07-13 弗朗霍夫应用科学研究促进协会 采用特征提取处理音频信号用于语音增强的方法和装置
CN107680610A (zh) * 2017-09-27 2018-02-09 安徽硕威智能科技有限公司 一种语音增强***及方法
WO2020107269A1 (zh) * 2018-11-28 2020-06-04 深圳市汇顶科技股份有限公司 自适应语音增强方法和电子设备
CN110120225A (zh) * 2019-04-01 2019-08-13 西安电子科技大学 一种基于gru网络的结构的音频降噪***及方法
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110310656A (zh) * 2019-05-27 2019-10-08 重庆高开清芯科技产业发展有限公司 一种语音增强方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516988A (zh) * 2020-12-30 2021-10-19 腾讯科技(深圳)有限公司 一种音频处理方法、装置、智能设备及存储介质
CN113516988B (zh) * 2020-12-30 2024-02-23 腾讯科技(深圳)有限公司 一种音频处理方法、装置、智能设备及存储介质
CN113571075A (zh) * 2021-01-28 2021-10-29 腾讯科技(深圳)有限公司 音频处理的方法、装置、电子设备和存储介质
CN113077806A (zh) * 2021-03-23 2021-07-06 杭州朗和科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN113077806B (zh) * 2021-03-23 2023-10-13 杭州网易智企科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN113096679A (zh) * 2021-04-02 2021-07-09 北京字节跳动网络技术有限公司 音频数据处理方法和装置
CN116403594A (zh) * 2023-06-08 2023-07-07 澳克多普有限公司 基于噪声更新因子的语音增强方法和装置
CN116403594B (zh) * 2023-06-08 2023-08-18 澳克多普有限公司 基于噪声更新因子的语音增强方法和装置

Similar Documents

Publication Publication Date Title
CN107845389B (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN111292759B (zh) 一种基于神经网络的立体声回声消除方法及***
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
CN111986660A (zh) 一种神经网络子带建模的单通道语音增强方法、***及存储介质
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN110600050B (zh) 基于深度神经网络的麦克风阵列语音增强方法及***
CN110120227B (zh) 一种深度堆叠残差网络的语音分离方法
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及***
CN112331224A (zh) 轻量级时域卷积网络语音增强方法与***
CN112863535A (zh) 一种残余回声及噪声消除方法及装置
CN111986679A (zh) 一种应对复杂声学环境的说话人确认方法、***及存储介质
CN112885375A (zh) 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法
Barros et al. Estimation of speech embedded in a reverberant and noisy environment by independent component analysis and wavelets
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
CN113053400A (zh) 音频信号降噪模型的训练方法、音频信号降噪方法及设备
Li et al. Multi-resolution auditory cepstral coefficient and adaptive mask for speech enhancement with deep neural network
CN112397090B (zh) 一种基于fpga的实时声音分类方法及***
CN116052706B (zh) 一种基于神经网络的低复杂度语音增强方法
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN113571074B (zh) 基于多波段结构时域音频分离网络的语音增强方法及装置
Radha et al. Enhancing speech quality using artificial bandwidth expansion with deep shallow convolution neural network framework
CN115312073A (zh) 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法
Azam et al. Urdu spoken digits recognition using classified MFCC and backpropgation neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination