CN111986660A - 一种神经网络子带建模的单通道语音增强方法、***及存储介质 - Google Patents
一种神经网络子带建模的单通道语音增强方法、***及存储介质 Download PDFInfo
- Publication number
- CN111986660A CN111986660A CN202010872886.4A CN202010872886A CN111986660A CN 111986660 A CN111986660 A CN 111986660A CN 202010872886 A CN202010872886 A CN 202010872886A CN 111986660 A CN111986660 A CN 111986660A
- Authority
- CN
- China
- Prior art keywords
- neural network
- band
- sub
- module
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000001228 spectrum Methods 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000013507 mapping Methods 0.000 claims description 25
- 238000001914 filtration Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 description 12
- 230000006872 improvement Effects 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供了一种神经网络子带建模的单通道语音增强方法、***及存储介质,该单通道语音增强方法包括执行以下步骤:步骤1:采集带噪语音信号,并发送给数功率谱提取模块和巴克倒谱系数提取模块;步骤2:采用对数功率谱提取模块和巴克倒谱系数提取模块接收步骤1的带噪语音信号,再由对数功率谱提取模块和巴克倒谱系数提取模块对带噪语音信号进行特征提取,最后将提取的特征发送给频带特征划分模块;步骤3:采用频带特征划分模块接收步骤2提取的特征,再由频带特征划分模块对提取的特征进行子带特征的分配。本发明的有益效果是:本发明对语音信号的各子频带进行单独的神经网络建模,降低了神经网络的任务难度,减少了模型的参数。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种神经网络子带建模的单通道语音增强方法、***及存储介质。
背景技术
目前,市场上的一系列语音类电子产品中,如通讯类产品、人机交互类产品都会受到各式各样噪声干扰的影响。嘈杂的背景噪声不仅会影响人与人之间交流通讯的质量,也会给人机交互带来很大的挑战。例如,对于智能音箱、智能电视、车载设备等语音交互类的电子设备而言,语音识别是不可或缺的技术,并且在安静环境下语音识别的准确率已经完全可以满足人们使用的要求。但是,当有一定的背景噪声存在时,机器的识别准确率就会受到很大的影响。因此,需要使用语音增强技术进行语音信号的降噪处理,减轻干扰噪声的影响,提高语音的质量,使机器能够在复杂的声学环境中也能实现较高的识别准确率。此外,对于一些对降噪和时延都有严格要求的语音产品,如助听器、对讲机、耳返等,语音增强算法不仅要保证较好的降噪效果,还要具备低运算量、低延时的特点。
发明内容
本发明提供了一种神经网络子带建模的单通道语音增强方法,包括执行以下步骤:
步骤1:采集带噪语音信号,并发送给对数功率谱提取模块和巴克倒谱系数提取模块;
步骤2:采用对数功率谱提取模块和巴克倒谱系数提取模块接收步骤1的带噪语音信号,再由对数功率谱提取模块和巴克倒谱系数提取模块对带噪语音信号进行特征提取,最后将提取的特征发送给频带特征划分模块;
步骤3:采用频带特征划分模块接收步骤2提取的特征,再由频带特征划分模块对提取的特征进行子带特征的分配,并将每个子频带上的特征输入到各自对应的神经网络映射模块进行先验信噪比的估计,最后组合所有子带上估计的先验信噪比,发送给全频带维纳滤波模块;
步骤4:采用全频带维纳滤波模块接收和处理步骤3的所有子带上估计的先验信噪比,得到了增强后的语音信号。
作为本发明的进一步改进,在所述步骤2中,所述对数功率谱特征提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
第一步骤:对麦克风采集到的语音信号x(n)进行分帧加窗的预处理;
第二步骤:进行快速傅里叶变换得到信号的频谱,并求取频域的功率谱S2(k);
第三步骤:进行自然对数运算;
第四步骤:对功率谱进行对数域压缩,便得到了提取的对数功率谱特征Ylog(k),如下式(1)所示:
Ylog(k)=ln(S2(k)),k=1,2,...,N (1)
其中,k为频率索引,N为一帧语音信号的帧长,在该单通道语音增强方法中,采用16kHz的采样率,每帧帧长16ms,帧移8ms,N为129。
作为本发明的进一步改进,在所述步骤2中,所述巴克倒谱系数提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
步骤S1:对输入的语音信号x(n)进行分帧加窗的预处理;
步骤S2:进行快速傅里叶变换将数据由时域变换到频域;
步骤S3:计算出频域功率谱S2(k);
步骤S4:将计算得到的频域功率谱S2(k)经过巴克滤波器,计算出滤波后的能量谱,如式(2)所示:
其中,b为巴克能量谱的阶数索引,B为巴克滤波器的个数,这里取24,每一个滤波器都对应着一个巴克域的频带,Bark频率滤波器的传递函数表达式如下式(3)所示:
步骤S5:对每帧的巴克能量谱取对数,并作离散余弦变换(DCT),如式(4)所示,就得到了巴克倒谱系数特征,
其中,Ybark(n)为提取的BFCC特征,n为特征的频带索引,特征的维度与巴克滤波器的个数一致,取24维。
作为本发明的进一步改进,在所述步骤3中,所述频带特征划分模块还包括依次执行以下步骤:
子带划分步骤:将0-8000Hz的频域范围划分成8个子带,并根据每个子带对应的LPS特征和BFCC特征个数的不同分别给出了不同子带上特征的索引;
特征拼接步骤:将每个子带上的LPS和BFCC特征拼接起来分别送到各自的神经网络映射模块进行先验信噪比的估计。
作为本发明的进一步改进,在所述步骤3中,所述神经网络映射模块包括5层神经层,其中第一层和最后一层均为前馈神经网络层,中间的三层为GRU神经层,前馈神经网络层中以全连接的方式进行加权求和,并进行非线性激活,如下式(5)所示:
h=g(W·X+b) (5)
其中,W和b分别是神经元的权重和偏置,h代表前馈神经网络层的输出,X为前馈神经网络层的输入,g(·)代表非线性的激活运算,这里的前馈神经网络层1采用ReLU激活函数,而前馈神经网络层2需要进行先验信噪比的估计,所以不进行激活操作,只进行线性加权求和。
作为本发明的进一步改进,所述神经网络映射模块GRU层中的记忆更新机理具体如下:
GRU单元将当前帧输入的特征xt与之前保留的上一帧的输出ht-1进行组合,经过更新门和重置门的处理,产生一个当前帧的输出ht,如此反复一直迭代下去,各个门以及输出的计算式如下,
rt=σ(Wr·[ht-1,xt]) (6)
zt=σ(Wz·[ht-1,xt]) (7)
其中σ(·)和tanh(·)分别代表Sigmoid激活函数和双曲正切激活函数,rt表示当前帧更新门的输出,zt表示当前帧遗忘门的输出。
作为本发明的进一步改进,在所述步骤3中,经所述神经网络映射模块估计出的各子带上的先验信噪比值进行组合得到129维输出。
作为本发明的进一步改进,在所述步骤4中,所述全频带维纳滤波模块还包括执行以下步骤:
步骤Y1:计算出用于滤波的增益函数,表达形式如下式(10)所示:
本发明还公开了一种神经网络子带建模的单通道语音增强***,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的单通道语音增强方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的单通道语音增强方法的步骤。
本发明的有益效果是:1.本发明的单通道语音增强方法对语音信号的各子频带进行单独的神经网络建模,降低了神经网络的任务难度,减少了模型的参数,实现了较低的算法复杂度;2.本发明的单通道语音增强方法采用神经网络模型进行信号的先验信噪比估计,再结合传统滤波的方法进行降噪,有效地提高了神经网络降噪算法的泛化能力;3.本发明的单通道语音增强方法针对每个子带单独训练的神经网络模型,映***度更高,可以实现更好的语音降噪效果。
附图说明
图1是本发明单通道语音增强方法原理框图;
图2是本发明单通道语音增强方法对数功率特征的提取原理框图;
图3是本发明单通道语音增强方法BFCC特征的提取原理框图;
图4是本发明单通道语音增强方法神经网络映射模块各子带的结构图;
图5是本发明单通道语音增强方法GRU层中的记忆更新原理框图。
具体实施方式
如图1所示,本发明公开了一种神经网络子带建模的单通道语音增强方法,该单通道语音增强方法以神经网络模型为基础,利用对数功率谱特征(Log power spectrum,LPS)和巴克倒谱系数特征(Bark-frequency cepstral coefficients,BFCC)对目标语音的先验信噪比进行估计,并与维纳滤波方法相结合,实现了降噪效果与运算复杂度的良好折衷。该单通道语音增强方法包括执行以下步骤:
步骤1:由单个麦克风采集带噪语音信号,并发送给对数功率谱提取模块和巴克倒谱系数提取模块;
步骤2:采用对数功率谱提取模块和巴克倒谱系数提取模块接收步骤1的带噪语音信号,再由对数功率谱提取模块和巴克倒谱系数提取模块对带噪语音信号进行特征提取,最后将提取的特征发送给频带特征划分模块;
步骤3:采用频带特征划分模块接收步骤2提取的特征,再由频带特征划分模块对提取的两组特征进行子带特征的分配,并将每个子频带上的特征输入到各自对应的神经网络映射模块进行先验信噪比的估计,最后组合所有子带上估计的先验信噪比,发送给全频带维纳滤波模块;
步骤4:采用全频带维纳滤波模块接收和处理步骤3的所有子带上估计的先验信噪比,得到了增强后的语音信号。
本发明的单通道语音增强方法中,我们挑选了Aishell中文数据集[1]中4800句话(24男24女,每人说100句话)作为训练集的纯净语音数据,然后与Freesound网站[2]上挑选出的100种不同的噪声类型,进行随机混合,混合的信噪比符合区间范围为[-5,20]的均匀分布,总共获得带噪训练数据时长约为100个小时。随后,提取出各子带的BFCC特征和对数功率谱特征,并构建出它们对应的理想先验信噪比值,然后采用反向传播算法对各个神经网络进行训练,并从所有训练数据中划分出10%作为验证集,当训练集和验证集上的损失最小时保存模型,便得到了不同子频带对应的神经网络映射模型。以上便是对整个单通道语音增强方法的处理流程和神经网络模型的训练过程,接下来将对各个关键模块进行详细介绍。
如图2所示,在所述步骤2中,所述对数功率谱特征提取模块,用来提取语音信号的频域对数功率特征,所述数功率谱特征提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
第一步骤:对麦克风采集到的语音信号x(n)进行分帧加窗的预处理;
第二步骤:进行快速傅里叶变换(FFT)得到信号的频谱,并求取频域的功率谱S2(k);
第三步骤:进行自然对数运算;
第四步骤:对功率谱进行对数域压缩,便得到了提取的对数功率谱特征Ylog(k),如下式(1)所示:
Ylog(k)=ln(S2(k)),k=1,2,...,N (1)
其中,k为频率索引,N为一帧语音信号的帧长,在该单通道语音增强方法中,采用16kHz的采样率,每帧帧长16ms,帧移8ms,因此N为129。
如图3所示,在所述步骤2中,所述巴克倒谱系数特征提取模块,以Bark尺度在频域进行特征提取,模拟了人类听觉***对声音的掩蔽效应,并且充分利用了人耳对声音信号的低频分辨率高于其对高频分辨率的特性,提取出了一种非常接近人类主观感受的频谱特征。所述巴克倒谱系数提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
步骤S1:对输入的语音信号x(n)进行分帧加窗的预处理;
步骤S2:进行快速傅里叶变换将数据由时域变换到频域;
步骤S3:计算出频域功率谱S2(k);
步骤S4:将计算得到的频域功率谱S2(k)经过巴克滤波器,计算出滤波后的能量谱,如式(2)所示:
其中,b为巴克能量谱的阶数索引,B为巴克滤波器的个数,这里取24,每一个滤波器都对应着一个巴克域的频带,Bark频率滤波器的传递函数表达式如下式(3)所示:
步骤S5:对每帧的巴克能量谱取对数,并作离散余弦变换(DCT),如式(4)所示,就得到了巴克倒谱系数特征,
其中,Ybark(n)为提取的BFCC特征,n为特征的频带索引,特征的维度与巴克滤波器的个数一致,取24维。
在所述步骤3中,所述频带特征划分模块,将对提取的每帧信号的巴克倒谱系数特征和对数功率谱特征进行子带的划分,每个子带只包含其频率范围内的BFCC特征和LPS特征,如表1所示。
表1频域子带的特征分配
所述频带特征划分模块还包括依次执行以下步骤:
子带划分步骤:将0-8000Hz的频域范围划分成8个子带,并且考虑到大部分语音信号集中在低频范围,因此对低频的子带划分的更细。此外,根据每个子带对应的LPS特征和BFCC特征个数的不同分别给出了不同子带上特征的索引,如表1所示;
特征拼接步骤:将每个子带上的LPS和BFCC特征拼接起来分别送到各自的神经网络映射模块进行先验信噪比的估计。
在所述步骤3中,所述神经网络映射模块,对每个子带特征进行建模,定制了应用于不同子带的专用降噪模型。考虑到语音信号的时序相关特性,在所述神经网络映射模块中以门控递归神经单元(Gated recurrent unit,GRU)为基础,构建具备映射先验信噪比能力的模型。
如图4所示,经过子带划分模块的分配以后,将各子带的特征输入到所设计的神经网络结构中,进行先验信噪比的估计。所述神经网络映射模块包括5层神经层,其中第一层和最后一层均为前馈神经网络层,中间的三层为GRU神经层,前馈神经网络层中以全连接的方式进行加权求和,并进行非线性激活,如下式(5)所示:
h=g(W·X+b) (5)
其中,W和b分别是神经元的权重和偏置,h代表前馈神经网络层的输出,X为前馈神经网络层的输入,g(·)代表非线性的激活运算,这里的前馈神经网络层1采用ReLU激活函数,而前馈神经网络层2需要进行先验信噪比的估计,所以不进行激活操作,只进行线性加权求和。
如图5所示,所述神经网络映射模块GRU层中的记忆更新机理具体如下:
GRU单元将当前帧输入的特征xt与之前保留的上一帧的输出ht-1进行组合,经过更新门和重置门的处理,产生一个当前帧的输出ht,如此反复一直迭代下去,各个门以及输出的计算式如下,
rt=σ(Wr·[ht-1,xt]) (6)
zt=σ(Wz·[ht-1,xt]) (7)
其中σ(·)和tanh(·)分别代表Sigmoid激活函数和双曲正切激活函数,rt表示当前帧更新门的输出,zt表示当前帧遗忘门的输出。
另外,由于每个子带上的特征数量不同,虽然每个子带上的神经网络结构是一样的,但是考虑到每个子带的任务难度不同,所以每个子带所对应的神经网络模型的神经元个数是不同的,如下表2所示。
表2不同子带神经网络模块的神经元配置
在所述步骤3中,经所述神经网络映射模块估计出的各子带上的先验信噪比值进行组合得到129维输出。
在所述步骤4中,所述全频带维纳滤波模块还包括执行以下步骤:
步骤Y1:计算出用于滤波的增益函数,表达形式如下式(10)所示:
本发明的有益效果是:1.本发明的单通道语音增强方法对语音信号的各子频带进行单独的神经网络建模,降低了神经网络的任务难度,减少了模型的参数,实现了较低的算法复杂度;2.本发明的单通道语音增强方法采用神经网络模型进行信号的先验信噪比估计,再结合传统滤波的方法进行降噪,有效地提高了神经网络降噪算法的泛化能力;3.本发明的单通道语音增强方法针对每个子带单独训练的神经网络模型,映***度更高,可以实现更好的语音降噪效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种神经网络子带建模的单通道语音增强方法,其特征在于,包括执行以下步骤:
步骤1:采集带噪语音信号,并发送给对数功率谱提取模块和巴克倒谱系数提取模块;
步骤2:采用对数功率谱提取模块和巴克倒谱系数提取模块接收步骤1的带噪语音信号,再由对数功率谱提取模块和巴克倒谱系数提取模块对带噪语音信号进行特征提取,最后将提取的特征发送给频带特征划分模块;
步骤3:采用频带特征划分模块接收步骤2提取的特征,再由频带特征划分模块对提取的特征进行子带特征的分配,并将每个子频带上的特征输入到各自对应的神经网络映射模块进行先验信噪比的估计,最后组合所有子带上估计的先验信噪比,发送给全频带维纳滤波模块;
步骤4:采用全频带维纳滤波模块接收和处理步骤3的所有子带上估计的先验信噪比,得到了增强后的语音信号。
2.根据权利要求1所述的单通道语音增强方法,其特征在于,在所述步骤2中,所述对数功率谱特征提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
第一步骤:对麦克风采集到的语音信号x(n)进行分帧加窗的预处理;
第二步骤:进行快速傅里叶变换得到信号的频谱,并求取频域的功率谱S2(k);
第三步骤:进行自然对数运算;
第四步骤:对功率谱进行对数域压缩,便得到了提取的对数功率谱特征Ylog(k),如下式(1)所示:
Ylog(k)=ln(S2(k)),k=1,2,...,N (1)
其中,k为频率索引,N为一帧语音信号的帧长,在该单通道语音增强方法中,采用16kHz的采样率,每帧帧长16ms,帧移8ms,N为129。
3.根据权利要求1所述的单通道语音增强方法,其特征在于,在所述步骤2中,所述巴克倒谱系数提取模块对带噪语音信号进行特征提取还包括执行以下步骤:
步骤S1:对输入的语音信号x(n)进行分帧加窗的预处理;
步骤S2:进行快速傅里叶变换将数据由时域变换到频域;
步骤S3:计算出频域功率谱S2(k);
步骤S4:将计算得到的频域功率谱S2(k)经过巴克滤波器,计算出滤波后的能量谱,如式(2)所示:
其中,b为巴克能量谱的阶数索引,B为巴克滤波器的个数,这里取24,每一个滤波器都对应着一个巴克域的频带,Bark频率滤波器的传递函数表达式如下式(3)所示:
步骤S5:对每帧的巴克能量谱取对数,并作离散余弦变换(DCT),如式(4)所示,就得到了巴克倒谱系数特征,
其中,Ybark(n)为提取的BFCC特征,n为特征的频带索引,特征的维度与巴克滤波器的个数一致,取24维。
4.根据权利要求1所述的单通道语音增强方法,其特征在于,在所述步骤3中,所述频带特征划分模块还包括依次执行以下步骤:
子带划分步骤:将0-8000Hz的频域范围划分成8个子带,并根据每个子带对应的LPS特征和BFCC特征个数的不同分别给出了不同子带上特征的索引;
特征拼接步骤:将每个子带上的LPS和BFCC特征拼接起来分别送到各自的神经网络映射模块进行先验信噪比的估计。
5.根据权利要求4所述的单通道语音增强方法,其特征在于,在所述步骤3中,所述神经网络映射模块包括5层神经层,其中第一层和最后一层均为前馈神经网络层,中间的三层为GRU神经层,前馈神经网络层中以全连接的方式进行加权求和,并进行非线性激活,如下式(5)所示:
h=g(W·X+b) (5)
其中,W和b分别是神经元的权重和偏置,h代表前馈神经网络层的输出,X为前馈神经网络层的输入,g(·)代表非线性的激活运算,这里的前馈神经网络层1采用ReLU激活函数,而前馈神经网络层2需要进行先验信噪比的估计,所以不进行激活操作,只进行线性加权求和。
7.根据权利要求1所述的单通道语音增强方法,其特征在于,在所述步骤3中,经所述神经网络映射模块估计出的各子带上的先验信噪比值进行组合得到129维输出。
9.一种神经网络子带建模的单通道语音增强***,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-8中任一项所述的单通道语音增强方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的单通道语音增强方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010872886.4A CN111986660A (zh) | 2020-08-26 | 2020-08-26 | 一种神经网络子带建模的单通道语音增强方法、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010872886.4A CN111986660A (zh) | 2020-08-26 | 2020-08-26 | 一种神经网络子带建模的单通道语音增强方法、***及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111986660A true CN111986660A (zh) | 2020-11-24 |
Family
ID=73440930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010872886.4A Pending CN111986660A (zh) | 2020-08-26 | 2020-08-26 | 一种神经网络子带建模的单通道语音增强方法、***及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986660A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077806A (zh) * | 2021-03-23 | 2021-07-06 | 杭州朗和科技有限公司 | 音频处理方法及装置、模型训练方法及装置、介质和设备 |
CN113096679A (zh) * | 2021-04-02 | 2021-07-09 | 北京字节跳动网络技术有限公司 | 音频数据处理方法和装置 |
CN113516988A (zh) * | 2020-12-30 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、智能设备及存储介质 |
CN113571075A (zh) * | 2021-01-28 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 音频处理的方法、装置、电子设备和存储介质 |
CN116403594A (zh) * | 2023-06-08 | 2023-07-07 | 澳克多普有限公司 | 基于噪声更新因子的语音增强方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050240401A1 (en) * | 2004-04-23 | 2005-10-27 | Acoustic Technologies, Inc. | Noise suppression based on Bark band weiner filtering and modified doblinger noise estimate |
CN102124518A (zh) * | 2008-08-05 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 采用特征提取处理音频信号用于语音增强的方法和装置 |
CN107680610A (zh) * | 2017-09-27 | 2018-02-09 | 安徽硕威智能科技有限公司 | 一种语音增强***及方法 |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110120225A (zh) * | 2019-04-01 | 2019-08-13 | 西安电子科技大学 | 一种基于gru网络的结构的音频降噪***及方法 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
WO2020107269A1 (zh) * | 2018-11-28 | 2020-06-04 | 深圳市汇顶科技股份有限公司 | 自适应语音增强方法和电子设备 |
-
2020
- 2020-08-26 CN CN202010872886.4A patent/CN111986660A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050240401A1 (en) * | 2004-04-23 | 2005-10-27 | Acoustic Technologies, Inc. | Noise suppression based on Bark band weiner filtering and modified doblinger noise estimate |
CN102124518A (zh) * | 2008-08-05 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 采用特征提取处理音频信号用于语音增强的方法和装置 |
CN107680610A (zh) * | 2017-09-27 | 2018-02-09 | 安徽硕威智能科技有限公司 | 一种语音增强***及方法 |
WO2020107269A1 (zh) * | 2018-11-28 | 2020-06-04 | 深圳市汇顶科技股份有限公司 | 自适应语音增强方法和电子设备 |
CN110120225A (zh) * | 2019-04-01 | 2019-08-13 | 西安电子科技大学 | 一种基于gru网络的结构的音频降噪***及方法 |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516988A (zh) * | 2020-12-30 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、智能设备及存储介质 |
CN113516988B (zh) * | 2020-12-30 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、智能设备及存储介质 |
CN113571075A (zh) * | 2021-01-28 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 音频处理的方法、装置、电子设备和存储介质 |
CN113077806A (zh) * | 2021-03-23 | 2021-07-06 | 杭州朗和科技有限公司 | 音频处理方法及装置、模型训练方法及装置、介质和设备 |
CN113077806B (zh) * | 2021-03-23 | 2023-10-13 | 杭州网易智企科技有限公司 | 音频处理方法及装置、模型训练方法及装置、介质和设备 |
CN113096679A (zh) * | 2021-04-02 | 2021-07-09 | 北京字节跳动网络技术有限公司 | 音频数据处理方法和装置 |
CN116403594A (zh) * | 2023-06-08 | 2023-07-07 | 澳克多普有限公司 | 基于噪声更新因子的语音增强方法和装置 |
CN116403594B (zh) * | 2023-06-08 | 2023-08-18 | 澳克多普有限公司 | 基于噪声更新因子的语音增强方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN111292759B (zh) | 一种基于神经网络的立体声回声消除方法及*** | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN111986660A (zh) | 一种神经网络子带建模的单通道语音增强方法、***及存储介质 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN110600050B (zh) | 基于深度神经网络的麦克风阵列语音增强方法及*** | |
CN110120227B (zh) | 一种深度堆叠残差网络的语音分离方法 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及*** | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与*** | |
CN112863535A (zh) | 一种残余回声及噪声消除方法及装置 | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、***及存储介质 | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
Barros et al. | Estimation of speech embedded in a reverberant and noisy environment by independent component analysis and wavelets | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
CN113053400A (zh) | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 | |
Li et al. | Multi-resolution auditory cepstral coefficient and adaptive mask for speech enhancement with deep neural network | |
CN112397090B (zh) | 一种基于fpga的实时声音分类方法及*** | |
CN116052706B (zh) | 一种基于神经网络的低复杂度语音增强方法 | |
CN117219102A (zh) | 一种基于听觉感知的低复杂度语音增强方法 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
CN113571074B (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
Radha et al. | Enhancing speech quality using artificial bandwidth expansion with deep shallow convolution neural network framework | |
CN115312073A (zh) | 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 | |
Azam et al. | Urdu spoken digits recognition using classified MFCC and backpropgation neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |