CN114023352A - 一种基于能量谱深度调制的语音增强方法及装置 - Google Patents
一种基于能量谱深度调制的语音增强方法及装置 Download PDFInfo
- Publication number
- CN114023352A CN114023352A CN202111340547.2A CN202111340547A CN114023352A CN 114023352 A CN114023352 A CN 114023352A CN 202111340547 A CN202111340547 A CN 202111340547A CN 114023352 A CN114023352 A CN 114023352A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- noise
- speech
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000001228 spectrum Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012937 correction Methods 0.000 claims abstract description 13
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 230000002401 inhibitory effect Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开一种基于能量谱深度调制的语音增强方法及装置,涉及语音增强技术。针对现有技术中实时性低等问题提出本方案。输入作为训练样本的纯净语音信号和噪声信号;获取纯净语音信号和噪声信号的能量比值得到修正增益g1;将纯净语音信号和噪声信号合成带噪声语音信号;提取带噪声语音信号的特征参数;获取通过能量谱深调制得到的初始增益g0;周期追踪纯净语音信号和噪声信号得到时间差;将修正增益g1、初始增益g0、特征参数和时间差作为训练参数对RNN网络进行训练。优点在于,实现对有效语音信号进行增强,对噪声进行抑制,实现低延时,低资源占用的语音增强技术。对于助听器等要求低延时,低硬件资源使用的智能设备来说具有广泛的应用场景。
Description
技术领域
本发明涉及语音增强技术,尤其涉及一种基于能量谱深度调制的语音增强方法及装置。
背景技术
随着时代的快速发展,人们对于智能手机,可穿戴式设备如耳机,助听器等智能设备,大型会议,人机交互的使用要求越来越高。而往往在现实生活的使用过程中会受到来自环境的干扰。如对于耳弱患者来说需要佩戴助听器来获取外界的语音信息的时候,由于助听器的算法并不能实现很人性化的要求,经常在放大有效语音的同时也会将噪音一同放大,导致患者的听觉感受十分不舒适。同样的对于视频会议来说,会议现场的人门进行的动作,如摆动桌子,东西掉落,低声聊天等声音也会通过麦克风都传播到远处的线上会议上,让对面的听众听到很多嘈杂的声音干扰到对会议内容的了解学习。语音增强技术是为了能够准确的从复杂的背景噪声中提取出有效语音并进行增强,成为了语音领域一个重要且具有挑战性的研究课题。
在现如今,语音增强技术主要分为两个方法,一个基于传统的统计学原理,如谱减法,维拉滤波法,子空间算法等算法具有广泛的应用。这些方法都是基于语音和噪声信号的统计特性,通常假设噪声是平稳或缓变。在使用场景满足假设条件的情况下,这些方法能取得一个良好得增强效果。但同时在复杂的真实使用过程中,多种多样的噪声使得这些方法失效,反而容易产生令人困扰的音乐噪声。
而另外一个领域则是随着深度学习的发展,人们将深度学习应用于语音增强,在某程度上可以提高算法的不同噪声的抗干扰性,提高鲁棒性。但深度学习的方法存在一个问题就是依赖于庞大的训练数据,测试数据的训练,由训练数据的多样不同,决定了算法的降噪能力。同时由于大量数据的训练迭代,使得需要花大量时间用于数据训练上。对于运行算法的硬件有较高的要求,并不能广泛推广应用。而对于语音增强技术的应用往往要求低延时,才不会给使用者带来不适。
公开号为CN201910406078.6的专利中描述的语音增强方法是一种深度学习的方法,通过获取语音数据集,对语音数据进行预处理并进行频域处理。其后还需要基于深层循环神经网络的模型进行字典训练,从而去提取语音特征参数,并结合非负矩阵分解算法和深度学习的方法去实现语音增强。虽然可以对带噪语音进行增强的效果。但该方法,计算过程依旧需要耗费大量的硬件资源,无法做到低延时的要求。
发明内容
鉴于现有技术的占用资源多,算法耗时长,无法适用复杂的噪声环境的缺陷。本发明目的在于提供一种基于能量谱深度调制的语音增强方法及装置,以解决上述现有技术存在的问题。在保证语音增强质量有保证的同时,可以实现低延时及低占用硬件资源使用。
本发明所述一种基于能量谱深度调制的语音增强方法,包括以下步骤:
S1、将训练完毕的RNN网络封装至语音增强计算模块的步骤;
S2、待处理带噪语音经过所述语音增强计算模块后输出增强语音的步骤;
所述的RNN网络通过以下子步骤训练完成:
S11、输入作为训练样本的纯净语音信号和噪声信号;
S12、获取纯净语音信号和噪声信号的能量比值得到修正增益g1;
S13、将所述纯净语音信号和噪声信号合成带噪声语音信号;
S14、提取所述带噪声语音信号的特征参数;
S15、获取通过能量谱深调制得到的初始增益g0;
S16、周期追踪所述纯净语音信号和噪声信号得到时间差;
S17、将所述修正增益g1、初始增益g0、特征参数和时间差作为训练参数对RNN网络进行训练;
其中步骤S14的特征参数在数字处理电路中完成。
训练RNN网络是,将连续的中低频带量化划分为K个频带;根据K的数量不同得到不同级别的语言增益;其中K为大于10且小于25的自然数;频带数K越大,语音增强效果越好。
所述的频带数K为18或22。
所述步骤S12中,将纯净语音信号的时域信号x(i)转化频域信号X(i),将噪声信号的时域信号n(i)转化为频域信号N(i);其中i为K个频带中的序号,即i∈[1,K]。
所述的修正增益g1=EX(i)/EN(i),其中EX(i)是频域信号X(i)的能量值,EN(i)是频域信号N(i)的能量值。
所述步骤S13中,将带噪声语音信号的时域信号y(i)转化为频域信号Y(i)。
所述的初始增益g0=EX(i)/EY(i),其中,EY(i)是频域信号Y(i)的能量值。
开始步骤S2前,先对待处理带噪语音通过语音活动检测,判断语音是否静默;当判断为非静默时才开始步骤S2,否则继续等待下一次待处理带噪语音的输入。
训练RNN网络过程中保存修正增益g1,在RNN网络完成了步骤S17的训练后,利用修正增益g1对RNN网络进行二次修正。
本发明所述的一种基于能量谱深度调制的语音增强装置,包括依次信号连接的语音输入单元、FPGA芯片和语音输出单元;
所述的FPGA芯片设有工程钟模块,所述的工程钟模块被配置为所述方法中的语音增强计算模块。
本发明所述一种基于能量谱深度调制的语音增强方法及装置,其优点在于,将语音增强算法中的特征提取部分与神经网络训练部分分隔开来,使用传统的数字信号处理方法去完成数据的特征提取,同时结合能量谱深度调制进行修正,提高特征参数据值的表征意义。而后通过循环神经网络对特征参数进行训练学习,得出基于能量谱调制的语音增强计算模块。进而实现对有效语音信号进行增强,对噪声进行抑制,实现低延时,低资源占用的语音增强技术。对于助听器等要求低延时,低硬件资源使用的智能设备来说具有广泛的应用场景。
附图说明
图1是本发明所述一种基于能量谱深度调制的语音增强方法的流程示意图;
图2是本发明所述RNN网络的结构示意图。
具体实施方式
本发明所述一种基于能量谱深度调制的语音增强装置至少包括了语音输入单元、FPGA芯片以及语音输出单元。FPGA芯片通过所述语音输入单元拾取原始声音信号,通过其内置的工程钟模块对语音进行增强并通过语音输出单元对用户输出。所述的工程钟模块被配置为语音增强计算模块,而语音增强计算模块封装有用于增强语音的RNN网络。所述的语音输入单元可以是麦克风,属于输出单元可以是喇叭、耳机等放音设备。FPGA芯片得到语音增强后的频谱信号,将得到的增强语音的频谱图经逆傅里叶变换IFFT至时域信号输出成增强语音。
如图1-2所示,本发明所述一种基于能量谱深度调制的语音增强方法通过以下步骤实现,而且训练出所述用于增强语音的RNN网络。
将0—20kHz的语音信号进行划分处理,根据人耳对声音的音高响应进行划分,由于人耳对中低频带的语音信号更加敏感反应,而且日常交流中也是中低频语音信号占主体。
分两种可选模式:
其一是默认正常交流情况下的使用,将0-20kHz的频率阈值划分成中低频的18个频带,即K=18。得出18个初始增益g0,再将该18个初始增益g0传输至下一层能量谱深度调制中进行参数修正,再作为特征参数之一进入循环神经网络(RNN)训练得出最终增益修正。参考中低频增益以一定的权重估计高频的增益,可大幅度的降低训练网络的权重参数;
其二是特殊处理情况,该算法的使用场景不单纯是普通的日常交流场景,还存在高频语音信号需要处理。故需要计算完整的22个频带增益估算值,即K=22。再将该22个初始增益传输至能量谱深度调制在进行参数修正,再进入后续的循环神经网络训练。虽相差只为4个增益值,但经过多次训练之后,神经网络的权重相差可达近30%。
语音增强操作之前,先对待处理带噪语音通过语音活动检测VAD,判断语音是否静默。当判断为非静默时才开始步骤S2,否则继续等待下一次待处理带噪语音的输入。对待处理的语音信号的能量进行检测,当能量值小于设定阈值时,将其定为非语音段,将增益修正为0,进行噪声抑制。当能量值大于设定阈值,将其传输至语音增强计算模块进行语音增强。
所述的RNN网络通过以下步骤训练完成:
将噪声数据集中的所有噪声组合成一个wav音频文件,将纯净语音数据集中的所以语音信号组合成另一个wav音频文件。分别以两个不同的通道向算法端口传输该两组数据,并对其进行预处理,加窗分帧。由于在语音信号处理领域中,语音信号具有短时平稳性,即10ms-30ms的语音信号可以看作是短时稳定信号,故本发明中采用汉明窗为20ms,帧移为10ms。在语音信号处理领域有效的语音信号一般位于200Hz-4000Hz的频域范围内,故需对传入的语音信号先进行低通滤波过滤高频噪声信号并加窗分帧处理。
分帧预处理后,纯净语音信号为时域信号x(i),噪声信号为时域信号n(i)。之后同时进行三步处理:
第一,进行傅里叶变换,即短时FFT,将分别将时域信号x(i)转化为频域信号X(i),将时域信号n(i)转为频域信号N(i)。其中i为K个频带中的序号,即i∈[1,K]。计算对应频带的能量值:频域信号X(i)的能量值EX(i),频域信号N(i)的能量值EN(i)。得到修正增益g1=EX(i)/EN(i)。纯净语音信号的频带能量与噪声信号的频带能量的比值意为能量深度调制,将语音信号从带噪信号中调制出来。
为进一步保证估算初始增益的可靠性,将修正增益保存下来,待训练完成之后,进行二次修正,使训练后的频带增益对语音增强效果更好。
第二,将两路时域信号x(i)和n(i),在时域上按帧进行叠加混合成带噪语音信号,得到时域信号y(i)。进行傅里叶变换,将时域信号y(i)转化为频域信号Y(i),并计算对应的能量值EY(i)。通过MFCC(梅尔倒谱系数)进行特征参数的提取,包括K个频带能量的倒谱系数。对每一频带定义初始增益g0=EX(i)/EY(i)。
第三,将两路时域信号x(i)和n(i)进行基音分析追踪,得到时间差。由于在说活过程中,人声是会出现明显的共振特征的。再加上语音信号的短时平稳性,可以知道在很短的时间内,声带振动的频率是比较平稳的。因此具备稳定的基频,通过在时域中去寻找追踪该周期信号,通过现有技术中的自相关算法去检测得出共振信号出现的时间差。
然后将修正增益g1和特征参数组合成数组,将其传输至循环神经网络RNN的入口参数中,结合初始增益g0及时间差对RNN网络进行训练。本发明中所述的RNN网络设定如图2所示,组成包括输入特征,三个GRU层,输入输出的全连接层dense层。进行训练最后输出K个频带增益参数。对频带增益进行插值,得出480个频点增益。
在经过训练集训练后可得出最终频带增益值,形成语音增强计算模块,并将该模块封装,留下参数入口及参数出口。参数入口可以连接前置的频谱分析单元,参数出口可以连接后置的短时IFFT单元。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (10)
1.一种基于能量谱深度调制的语音增强方法,包括以下步骤:
S1、将训练完毕的RNN网络封装至语音增强计算模块的步骤;
S2、待处理带噪语音经过所述语音增强计算模块后输出增强语音的步骤;
其特征在于,
所述的RNN网络通过以下子步骤训练完成:
S11、输入作为训练样本的纯净语音信号和噪声信号;
S12、获取纯净语音信号和噪声信号的能量比值得到修正增益g1;
S13、将所述纯净语音信号和噪声信号合成带噪声语音信号;
S14、提取所述带噪声语音信号的特征参数;
S15、获取通过能量谱深调制得到的初始增益g0;
S16、周期追踪所述纯净语音信号和噪声信号得到时间差;
S17、将所述修正增益g1、初始增益g0、特征参数和时间差作为训练参数对RNN网络进行训练;
其中步骤S14的特征参数在数字处理电路中完成。
2.根据权利要求1所述一种基于能量谱深度调制的语音增强方法,其特征在于,训练RNN网络是,将连续的中低频带量化划分为K个频带;根据K的数量不同得到不同级别的语言增益;其中K为大于10且小于25的自然数;频带数K越大,语音增强效果越好。
3.根据权利要求2所述一种基于能量谱深度调制的语音增强方法,其特征在于,所述的频带数K为18或22。
4.根据权利要求2所述一种基于能量谱深度调制的语音增强方法,其特征在于,所述步骤S12中,将纯净语音信号的时域信号x(i)转化频域信号X(i),将噪声信号的时域信号n(i)转化为频域信号N(i);其中i为K个频带中的序号,即i∈[1,K]。
5.根据权利要求4所述一种基于能量谱深度调制的语音增强方法,其特征在于,所述的修正增益g1=EX(i)/EN(i),其中EX(i)是频域信号X(i)的能量值,EN(i)是频域信号N(i)的能量值。
6.根据权利要求5所述一种基于能量谱深度调制的语音增强方法,其特征在于,所述步骤S13中,将带噪声语音信号的时域信号y(i)转化为频域信号Y(i)。
7.根据权利要求6所述一种基于能量谱深度调制的语音增强方法,其特征在于,所述的初始增益g0=EX(i)/EY(i),其中,EY(i)是频域信号Y(i)的能量值。
8.根据权利要求1所述一种基于能量谱深度调制的语音增强方法,其特征在于,开始步骤S2前,先对待处理带噪语音通过语音活动检测,判断语音是否静默;当判断为非静默时才开始步骤S2,否则继续等待下一次待处理带噪语音的输入。
9.根据权利要求1所述一种基于能量谱深度调制的语音增强方法,其特征在于,训练RNN网络过程中保存修正增益g1,在RNN网络完成了步骤S17的训练后,利用修正增益g1对RNN网络进行二次修正。
10.一种基于能量谱深度调制的语音增强装置,其特征在于,包括依次信号连接的语音输入单元、FPGA芯片和语音输出单元;
所述的FPGA芯片设有工程钟模块,所述的工程钟模块被配置为权利要求1-9任一所述方法中的语音增强计算模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111340547.2A CN114023352B (zh) | 2021-11-12 | 2021-11-12 | 一种基于能量谱深度调制的语音增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111340547.2A CN114023352B (zh) | 2021-11-12 | 2021-11-12 | 一种基于能量谱深度调制的语音增强方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114023352A true CN114023352A (zh) | 2022-02-08 |
CN114023352B CN114023352B (zh) | 2022-12-16 |
Family
ID=80063849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111340547.2A Active CN114023352B (zh) | 2021-11-12 | 2021-11-12 | 一种基于能量谱深度调制的语音增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114023352B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862657A (zh) * | 2023-02-22 | 2023-03-28 | 科大讯飞(苏州)科技有限公司 | 随噪增益方法和装置、车载***、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5768473A (en) * | 1995-01-30 | 1998-06-16 | Noise Cancellation Technologies, Inc. | Adaptive speech filter |
WO2005031708A1 (en) * | 2003-10-01 | 2005-04-07 | Siemens Aktiengesellschaft | Speech coding method applying noise reduction by modifying the codebook gain |
CN102347028A (zh) * | 2011-07-14 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及方法 |
CN104867498A (zh) * | 2014-12-26 | 2015-08-26 | 深圳市微纳集成电路与***应用研究院 | 一种移动通讯终端及其语音增强方法和模块 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
US20190378531A1 (en) * | 2016-05-30 | 2019-12-12 | Oticon A/S | Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal |
CN111429932A (zh) * | 2020-06-10 | 2020-07-17 | 浙江远传信息技术股份有限公司 | 语音降噪方法、装置、设备及介质 |
CN111696568A (zh) * | 2020-06-16 | 2020-09-22 | 中国科学技术大学 | 一种半监督瞬态噪声抑制方法 |
CN111833896A (zh) * | 2020-07-24 | 2020-10-27 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、***、装置和存储介质 |
-
2021
- 2021-11-12 CN CN202111340547.2A patent/CN114023352B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5768473A (en) * | 1995-01-30 | 1998-06-16 | Noise Cancellation Technologies, Inc. | Adaptive speech filter |
WO2005031708A1 (en) * | 2003-10-01 | 2005-04-07 | Siemens Aktiengesellschaft | Speech coding method applying noise reduction by modifying the codebook gain |
CN102347028A (zh) * | 2011-07-14 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及方法 |
CN104867498A (zh) * | 2014-12-26 | 2015-08-26 | 深圳市微纳集成电路与***应用研究院 | 一种移动通讯终端及其语音增强方法和模块 |
US20190378531A1 (en) * | 2016-05-30 | 2019-12-12 | Oticon A/S | Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN111429932A (zh) * | 2020-06-10 | 2020-07-17 | 浙江远传信息技术股份有限公司 | 语音降噪方法、装置、设备及介质 |
CN111696568A (zh) * | 2020-06-16 | 2020-09-22 | 中国科学技术大学 | 一种半监督瞬态噪声抑制方法 |
CN111833896A (zh) * | 2020-07-24 | 2020-10-27 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、***、装置和存储介质 |
Non-Patent Citations (1)
Title |
---|
JEAN-MARC VALIN等: "《A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement》", 《 2018 IEEE 20TH INTERNATIONAL WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING (MMSP)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862657A (zh) * | 2023-02-22 | 2023-03-28 | 科大讯飞(苏州)科技有限公司 | 随噪增益方法和装置、车载***、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114023352B (zh) | 2022-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
CN111292759B (zh) | 一种基于神经网络的立体声回声消除方法及*** | |
Lai et al. | Deep learning–based noise reduction approach to improve speech intelligibility for cochlear implant recipients | |
CN111833896B (zh) | 融合反馈信号的语音增强方法、***、装置和存储介质 | |
CN111489760B (zh) | 语音信号去混响处理方法、装置、计算机设备和存储介质 | |
Li et al. | ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network | |
Stern et al. | Hearing is believing: Biologically inspired methods for robust automatic speech recognition | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
CN102157156B (zh) | 一种单通道语音增强的方法和*** | |
CN109493877B (zh) | 一种助听装置的语音增强方法和装置 | |
CN110648678A (zh) | 一种用于具有多麦克风会议的场景识别方法和*** | |
CN111696567B (zh) | 用于远场通话的噪声估计方法及*** | |
CN111192598A (zh) | 一种跳变连接深度神经网络的语音增强方法 | |
CN114203163A (zh) | 音频信号处理方法及装置 | |
Sun et al. | A supervised speech enhancement method for smartphone-based binaural hearing aids | |
CN112786064A (zh) | 一种端到端的骨气导语音联合增强方法 | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
CN114023352B (zh) | 一种基于能量谱深度调制的语音增强方法及装置 | |
CN117321681A (zh) | 嘈杂环境中的语音优化 | |
CN116962934B (zh) | 一种拾音降噪方法及*** | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及*** | |
Bhat et al. | Smartphone based real-time super gaussian single microphone speech enhancement to improve intelligibility for hearing aid users using formant information | |
Shifas et al. | End-to-end neural based modification of noisy speech for speech-in-noise intelligibility improvement | |
CN112614502B (zh) | 基于双lstm神经网络的回声消除方法 | |
CN113327589B (zh) | 一种基于姿态传感器的语音活动检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |