CN112242147B - 一种语音增益控制方法及计算机存储介质 - Google Patents
一种语音增益控制方法及计算机存储介质 Download PDFInfo
- Publication number
- CN112242147B CN112242147B CN202011098089.1A CN202011098089A CN112242147B CN 112242147 B CN112242147 B CN 112242147B CN 202011098089 A CN202011098089 A CN 202011098089A CN 112242147 B CN112242147 B CN 112242147B
- Authority
- CN
- China
- Prior art keywords
- voice
- neural network
- network model
- signal
- domain signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000001228 spectrum Methods 0.000 claims abstract description 70
- 238000003062 neural network model Methods 0.000 claims abstract description 51
- 230000001052 transient effect Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000012937 correction Methods 0.000 claims abstract description 13
- 238000009432 framing Methods 0.000 claims abstract description 9
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 210000002569 neuron Anatomy 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 20
- 230000001629 suppression Effects 0.000 claims description 19
- 238000009499 grossing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 abstract description 9
- 238000013135 deep learning Methods 0.000 abstract description 7
- 230000003321 amplification Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 abstract description 4
- 238000003199 nucleic acid amplification method Methods 0.000 abstract description 4
- 230000002401 inhibitory effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
- Telephone Function (AREA)
Abstract
本发明涉及语音通话技术领域,公开了一种语音增益控制方法及计算机存储介质,包括步骤:对语音信号进行分帧和傅立叶变换,得到频域信号的原始幅度谱和原始相位谱;通过神经网络模型对所述原始幅度谱进行预处理,抑制所述原始幅度谱中的瞬时噪声幅度谱分量,得到语音增强幅度谱;对所述时域信号进行AGC处理和修正处理,包括所述时域信号分帧求包络,对包络进行AGC处理得到增益系数;最后将增益系数施加到所述时域信号,完成对所述语音信号的增益控制。本发明通过深度学习神经网络模型预处理后,瞬时噪声幅值极大减小,远低于AGC中的增益放大阈值,增益修正处理又能够减小瞬时噪声被AGC算法误放大的风险,提高语音通话质量。
Description
技术领域
本发明涉及语音通话技术领域,特别是涉及语音通话中语音增益控制方法及存储介质。
背景技术
在会议通话中,瞬时噪声的出现会分散听众的注意力,如何妥善处理瞬时噪声,是会议通话中亟需解决的技术问题。在公知的开源算法webrtc中,会议通话中采用了自动增益控制算法(AGC)。例如在申请号为CN201010181204.1,名称为一种语音降噪装置的发明专利中,公开了利用AGC进行噪声控制,其利用AGC在目标语音不存在时,通过减小增益,进一步抑制噪声强度,目标语音存在概率的判决有语音检测单元给出。又如在申请号为CN201910860097.6,名称为一种麦克风自动增益控制方法、装置及存储介质的发明中,也公开了通过AGC控制麦克风的音量,实现噪声抑制。
现有的AGC算法主要原理是根据输入信号的幅值大小,取信号时域幅值包络,判断其幅值和给定的目标幅值之间的差距,计算相应的增益,使得高于目标幅值的信号被衰减,低于目标信号的幅值被提升。但是现有的算法有一个缺陷,就是当语音中出现瞬时噪声时,容易干扰幅值判断,使未达到目标幅值的语音信号,由于瞬时噪声的出现,而被判定为高于目标幅值的信号,从而获得衰减。并且算法中存在的平滑处理,使得瞬时噪声出现后的一小端语音信号都被抑制,听感上出现语音音量不连贯,降低通话质量。
发明内容
为此,需要提供一种语音增益控制方法,用于解决以上所述现有语音噪声处理效果不佳的技术问题。
为实现上述目的,本发明提供了一种语音增益控制方法,包括步骤:
对语音信号进行分帧和傅立叶变换,然后转极坐标形式,得到频域信号的原始幅度谱和原始相位谱;
通过神经网络模型对所述原始幅度谱进行预处理,所述预处理包括抑制所述原始幅度谱中的瞬时噪声幅度谱分量,得到语音增强幅度谱;将预处理后的所述语音增强幅度谱结合所述原始相位谱还原为时域信号;
并计算预处理前所述语音信号和预处理后的时域信号的能量比值;
对所述时域信号进行AGC处理和修正处理,包括所述时域信号分帧求包络,对包络进行AGC处理得到增益系数,若所述能量比值大于第一预设阈值时,增益系数不做修正,若所述能量比值小于第一预设阈值且大于第二预设阈值时,增益系数修正为不超过增益系数的一半,若所述能量比值小于第二预设阈值时,增益系数修正为增益系数和能量比值的乘积结果;
最后将所述增益系数施加到所述时域信号,完成对所述语音信号的增益控制。
进一步的,所述神经网络模型结构包括:输入层、输出层、第一全连接层第二全连接层,第一LSTM层和第二LSTM层,通过开源和自研数据集训练而成。
进一步的,所述输入层具有128个神经元,所述128个神经元对应128个幅度谱值;所述输出层具有128个神经元,所述128个神经元对应128语音增强幅度谱值,第一全连接层具有64个神经元,第二全连接层具有128个神经元,第一LSTM层具有64个神经元,第二LSTM层具有128个神经元。
进一步的,所述修正处理中的所述能量比值为所述语音信号预处理前后的能量比值取对数再和预设阈值进行对比,通过神经网络模型预处理后,所述能量比值小于所述修正处理中的所述第二预设阈值,若所述能量比值小于第二预设阈值时,所述能量比值需要先转换回线性刻度,再和所述增益系数进行乘积。
进一步的,所述步骤通过神经网络模型对所述频域信号进行预处理,抑制所述频域信号中的噪声信号,包括步骤:
将所述频域信号分为包含人声的语音段和不包含人声的无语音段,在所述语音段中对所述噪声信号的抑制强度大于或等于12dB,在无语音段中对所述噪声信号的抑制强度大于或等于24dB。
进一步的,在得到语音增强幅度谱之后,还包括步骤:帧与帧之间的所述语音增强幅度谱需要进行平滑处理,平滑系数低于0.1
进一步的,所述平滑系数为0。
进一步的,所述神经网络模型为通过深度训练的LSTM神经网络模型,在不同训练阶段,采用不同的数据集,所述LSTM神经网络模型深度训练包括,:
使用没有瞬时噪声的语音和所述没有瞬时噪声的语音的特征同时作为LSTM神经网络模型的输入和输出进行训练,待LSTM神经网络模型收敛后得到参数A;
使用所述带噪声的语音特征作为LSTM神经网络模型的输入,使用没有瞬时噪声的语音特征作为LSTM神经网络模型的输出,基于所述参数A继续训练神经网络模型,待LSTM神经网络模型收敛后得到参数B,将所述参数B定为所述LSTM神经网络模型的参数。
为解决上述技术问题,本发明还提供了一种技术方案:
一种计算机存储介质,所述存储介质中存储有程序,所述程序被处理器运行时执行以上任一技术方案中所述的语音增益控制方法。
区别于现有技术,上述技术方案提出了一种基于神经网络模型的语音增益控制方法,在本方案中对语音信号进行分帧和傅立叶变换后转换为极坐标形式,得到对应的频域信号的原始幅度谱和原始相位谱;并在进行AGC处理前,通过神经网络模型检测瞬时噪声,并在检测到瞬时噪声时对原始幅度谱中的瞬时噪声分量进行抑制,使瞬时噪声幅值降低,不会影响语音信号的正常AGC处理。进一步的,通过深度学习神经网络模型处理后的瞬时噪声幅值极大减小,远低于AGC中的增益放大阈值(即AGC处理中的所述第二预设阈值),通过增益修正处理又能够减小瞬时噪声被AGC算法误放大的风险,提高语音通话质量。
附图说明
图1为具体实施方式所述语音增益控制方法的流程图;
图2为具体实施方式所述神经网络模型的示意图;
图3为具体实施方式所述计算机存储介质的示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
现有的AGC算法主要通过语音信号的幅值特征,并结合当前帧的语音信号存在概率(VAD)计算出当前帧的增益;其中在不包含人声的语音信号片段中,若存在瞬时噪声,则进行衰减,以免噪声误放大。在包含人声的语音信号片段中,若存在瞬时噪声,往往很难被VAD检测到,即使检测到也很难通过AGC进行抑制。原因在于,瞬时噪声的时长通常在5~50ms,周期很短,短时傅立叶变换片段也是10ms到20ms,瞬时噪声频谱和语音频谱重合比较高,从频谱很难将瞬时噪声剥离开。
另外,AGC的常见处理是根据输入信号的幅值变化进行响应的调整,当语音中存在瞬时噪声时,增益系数会减小,使语音音量级别达到目标级别,这时瞬时噪声所在的语音信号片段会被抑制,加上平滑策略,抑制效果会持续一小段时间,在听感上,语音在瞬时噪声出现后会变小,影响实际通话体验。
针对瞬时噪声对AGC的干扰,本实施方式提供了一种语音增益控制方法,对AGC算法进行预处理。请参阅图1和图2,该语音增益控制方法可用于会议通话等语音通信中,用于对语音信号进行噪声抑制和自动增益控制,提高语音通话质量。如图1所示,所述语音增益控制方法包括步骤:
S101、对语音信号进行分帧和傅立叶变换,然后后转极坐标形式,得到频域信号的原始幅度谱S102和原始相位谱S103;
S104、通过神经网络模型对所述原始幅度谱进行预处理,抑制所述原始幅度谱中的瞬时噪声幅度谱分量,得到语音增强幅度谱;
S105、将预处理后的所述语音增强幅度谱结合原始相位谱还原为时域信号,并计算所述语音信号经过预处理前后的能量比值;
S106、对所述时域信号进行AGC处理和修正处理,包括将所述时域信号分帧求包络,对包络进行AGC处理得到增益系数,若所述能量比值大于第一预设阈值时,增益系数不做修正,若所述能量比值小于第一预设阈值且大于第二预设阈值时,增益系数修正为不超过增益系数的一半,若所述能量比值小于第二预设阈值时,增益系数修正为增益系数和能量比值的乘积结果;
最后将增益系数施加到所述时域信号,完成对所述语音信号的增益控制。
在本实施方式中,在进行AGC算法处理前,通过深度学习的神经网络模型判断当前语音信号帧是否包括瞬时噪声,若是,则进行抑制,否则不处理,从而规避瞬态噪声对通话的干扰,改善通话体验。
在步骤S101中,先对输入的语音信号进行分帧,并进行傅立叶变换,得到对应的频域信号,转成极坐标形式,得到原始的幅度谱和原始的相位谱信息,只对原始的幅度谱进行修改,原始相位谱保持不变。在步骤S101之后进行步骤S104。
在步骤S104中通过神经网络模型对所述原始幅度谱进行预处理,即进行AGC预处理,抑制所述原始幅度谱中的瞬时噪声幅度谱分量,得到语音增强幅度谱。
优选的,如图2所示,上述神经网络模型为通过深度学习的LSTM神经网络模型(但并不仅限于LSTM神经网络模型),LSTM神经网络模型又叫做长短期记忆网络模型,与传统的循环神经网络相比,LSTM对内部的结构进行了更加精心的设计,加入了输入门it、遗忘门ft以及输出门ot三个门和一个内部记忆单元ct。输入门控制当前计算的新状态以多大程度更新到记忆单元中;遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉;输出门控制当前的输出有多大程度上取决于当前的记忆单元。
在本实施方式中,所述LSTM神经网络模型包括:输入层、输出层、第一全连接层第二全连接层,第一LSTM层和第二LSTM层。所述输入层具有128个神经元,所述128个神经元对应128个幅度谱值;所述输出层具有128个神经元,输出层的128个神经元对应128语音增强幅度谱值,第一全连接层具有64个神经元,第二全连接层具有128个神经元,第一LSTM层具有64个神经元,第二LSTM层具有128个神经元。
上述深度学习的LSTM神经网络模型,分为训练和使用两部分。在使用将需要事先使用数据集进行训练,所述LSTM神经网络模型经过深度学习训练即可用于对所述频域信号进行预处理,抑制所述频域信号中的噪声信号。对所述LSTM神经网络模型的学习训练包括:
1)采集干净的语音,并提取这些语音中的特征,特征为信号频谱,将这些语音和特征作为神经网络模型的输入和输出,待收敛后,得到参数A;
2)在参数A的基础上,更换数据集,采集带噪声的语音信号,并提取这些语音中的特征,特征为信号频谱,将带噪声的语音信号和特征作为网络模型的输入,同时使用干净的语音和对应的特征,作为网络模型输出,基于所述参数A继续训练神经网络模型,待模型收敛,得到参数B。
参数B即为最终参数,该训练方式的好处是可以加快收敛速度,减小训练花费的时间。
LSTM神经网络模型的训练包括前向传递和反向回馈两部分,待LSTM神经网络模型损失函数收敛时,提取权重参数;使用时直接用权重进行前向传递得到期望特征,不需要反向回馈。
在以上实施方式中,所述语音信号可采用全频带语音信号。现有的基于深度学习的音频算法,梅尔频谱系数(MFCC)被作为特征值之一,其将语音全频带划分成若干个子频带,用子频带的对数能量和表征该子带特征,是一种粗分辨率的分析方式,在语义分析、语音识别中具有较好的效果。但是对于瞬时噪声并不能够精细抑制,原因是瞬时噪声和语音信号的频谱重叠度比较高,具体表现为:在包含有语音的信号中,仍然会残留较多的瞬时噪声,噪声从有到无、从无到有人耳感知比较明显。所以以上实施方式采用了完整的频谱作为语音特征,能够有效增强瞬时噪声的抑制效果,削弱人耳对瞬时噪声的感知。
并且在以上实施方式中,可采用全频带的幅度谱作为信号特征。若采用全频带的复频谱,假设傅立叶变换点数是256,则有效频谱数是128个复频谱,包括了实部和虚部共256个特征。根据人耳对噪声相位感知不明显,区别于复频谱特征,本实施方式中采用幅度谱作为信号特征,即128个幅度值,减小了输入特征数量至原来的一半,相位信息仍采用原来的相位信息。
在上述学习训练过程,具体的,包括带噪的语音信号的频谱作为输入特征,干净语音信号频谱作为期望特征。特征为信号频谱,具体的,傅立叶变换结果转换成极坐标表示,由于人耳对相位信息不敏感,使用幅度值作为输入特征,丢弃相位信息。
在步骤S104之后进行步骤S105,在步骤S105中对所述时域信号进行AGC处理和修正处理。其中,将预处理后的所述语音增强幅度谱结合原始相位谱转换为时域信号,将所述时域信号分帧求包络,对包络进行AGC处理得到增益系数,若所述能量比值大于第一预设阈值时,增益系数不做修正,若所述能量比值小于第一预设阈值且大于第二预设阈值时,增益系数修正为不超过增益系数的一半,若所述能量比值小于第二预设阈值时,增益系数修正为增益系数和能量比值的乘积结果。通过AGC处理(即自动增益控制算法),使语音信号的音量更一致和连贯,提高通话质量。并且在本实施方式中,由于在AGC处理之前进行了预处理,有效避免语音信号中出现瞬时噪声时,有效语音信号被抑制,同时又减小了瞬时噪声的能量值,修正处理避免瞬时噪声在AGC处理时被误放大。
优选的,在上述实施方式中,为了有效抑制瞬时噪声的干扰,在上述步骤S104中,通过神经网络模型预处理后,所述能量比值小于所述修正处理中的所述第二预设阈值。
在一实施方式中,所述步骤通过神经网络模型对所述频域信号进行预处理,抑制所述频域信号中的噪声信号,包括步骤:
将所述频域信号分为包含人声的语音段和不包含人声的无语音段,在所述语音段中对所述噪声信号的抑制强度大于或等于12dB,在无语音段中对所述噪声信号的抑制强度大于或等于24dB。
在本实施方式中,在进行AGC处理前,先进行瞬时噪声抑制,在不包含人声的无语音段将其抑制超过24dB,避免其被AGC误放大,在包含人声的语音段抑制12dB以上,避免噪声被当作语音信号,影响AGC中对语音幅值的判断,从而抑制有瞬时噪声的语音信号,听感上造成断续。
进一步的,在以上实施方式中,在步骤对预处理后的所述频域信号进行AGC处理中,对增益抑制系数和增益放大的系数不进行平滑处理。针对稳态噪声的抑制,采用增益平滑操作,可以使处理后的语音平稳自然,不会因为帧与帧之间增益差距过大而产生的噪音。但是瞬时噪声的出现频率是远远低于稳态噪声的,采用平滑操作会降低瞬时噪声的抑制效果,具体的,在连续出现瞬时噪声(如敲击桌子)场景中,前几次的敲击声抑制效果比较弱,原因就是因为平滑操作对瞬时噪声的抑制产生了延迟效果。
如图3所示,在另一实施方式中提供了一种计算机存储介质300,所述存储介质中存储有程序,所述程序被处理器运行时执行以上任意一实施方式中所述的语音增益控制方法。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
Claims (9)
1.一种语音增益控制方法,其特征在于,包括步骤:
对语音信号进行分帧和傅立叶变换,然后转极坐标形式,得到频域信号的原始幅度谱和原始相位谱;
通过神经网络模型对所述原始幅度谱进行预处理,所述预处理包括抑制所述原始幅度谱中的瞬时噪声幅度谱分量,得到语音增强幅度谱;将预处理后的所述语音增强幅度谱结合所述原始相位谱还原为时域信号;
计算预处理前所述语音信号和预处理后的时域信号的能量比值;
对所述时域信号进行AGC处理和修正处理,包括:对所述时域信号分帧求包络,对所述包络进行AGC处理得到增益系数;若所述能量比值大于第一预设阈值时,增益系数不做修正,若所述能量比值小于第一预设阈值且大于第二预设阈值时,所述增益系数修正为不超过增益系数的一半,若所述能量比值小于所述第二预设阈值时,所述增益系数修正为增益系数和能量比值的乘积结果;
最后将所述增益系数施加到所述时域信号,完成对所述语音信号的增益控制。
2.根据权利要求1所述的语音增益控制方法,其特征在于,所述神经网络模型结构包括:输入层、输出层、第一全连接层第二全连接层,第一LSTM层和第二LSTM层,通过开源和自研数据集训练而成。
3.根据权利要求2所述的语音增益控制方法,其特征在于,所述输入层具有128个神经元,所述128个神经元对应128个幅度谱值;所述输出层具有128个神经元,所述128个神经元对应128语音增强幅度谱值;第一全连接层具有64个神经元,第二全连接层具有128个神经元,第一LSTM层具有64个神经元,第二LSTM层具有128个神经元。
4.根据权利要求1所述的语音增益控制方法,其特征在于,所述修正处理中的所述能量比值为所述语音信号预处理前后的能量比值取对数,再和第二预设阈值进行对比,通过神经网络模型预处理后,所述能量比值小于所述修正处理中的所述第二预设阈值,若所述能量比值小于第二预设阈值时,所述能量比值需要先转换回线性刻度,再和所述增益系数进行乘积。
5.根据权利要求1所述的语音增益控制方法,其特征在于,所述步骤通过神经网络模型对所述频域信号进行预处理,抑制所述频域信号中的噪声信号,包括步骤:
将所述频域信号分为包含人声的语音段和不包含人声的无语音段,在所述语音段中对所述噪声信号的抑制强度大于或等于12dB,在无语音段中对所述噪声信号的抑制强度大于或等于24dB。
6.根据权利要求1所述的语音增益控制方法,其特征在于,在得到语音增强幅度谱之后,还包括步骤:帧与帧之间的所述语音增强幅度谱需要进行平滑处理,平滑系数低于0.1。
7.根据权利要求6所述的语音增益控制方法,其特征在于,所述平滑系数为0。
8.根据权利要求1所述的语音增益控制方法,其特征在于,所述神经网络模型为通过深度训练的LSTM神经网络模型,在不同训练阶段,不同训练阶段采用不同的数据集所述LSTM神经网络模型深度训练包括:
使用没有瞬时噪声的语音和所述没有瞬时噪声的语音的特征分别作为LSTM神经网络模型的输入和输出进行训练,待LSTM神经网络模型收敛后得到参数A;
使用带噪声的语音的特征作为LSTM神经网络模型的输入,使用没有瞬时噪声的语音特征作为LSTM神经网络模型的输出,基于所述参数A继续训练神经网络模型,待LSTM神经网络模型收敛后得到参数B,将所述参数B定为所述LSTM神经网络模型的参数。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有程序,所述程序被处理器运行时执行以上权利要求1至8任一所述的语音增益控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098089.1A CN112242147B (zh) | 2020-10-14 | 2020-10-14 | 一种语音增益控制方法及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098089.1A CN112242147B (zh) | 2020-10-14 | 2020-10-14 | 一种语音增益控制方法及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112242147A CN112242147A (zh) | 2021-01-19 |
CN112242147B true CN112242147B (zh) | 2023-12-19 |
Family
ID=74169185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011098089.1A Active CN112242147B (zh) | 2020-10-14 | 2020-10-14 | 一种语音增益控制方法及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112242147B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571080A (zh) * | 2021-02-08 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN113823312B (zh) * | 2021-02-19 | 2023-11-07 | 北京沃东天骏信息技术有限公司 | 语音增强模型生成方法和装置、语音增强方法和装置 |
CN113436640B (zh) * | 2021-06-28 | 2022-11-25 | 歌尔科技有限公司 | 一种音频降噪方法、装置、***及计算机可读存储介质 |
CN113470691A (zh) * | 2021-07-08 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种语音信号的自动增益控制方法及其相关装置 |
CN113823309B (zh) * | 2021-11-22 | 2022-02-08 | 成都启英泰伦科技有限公司 | 一种降噪模型构建和降噪处理方法 |
CN113921030B (zh) * | 2021-12-07 | 2022-06-07 | 江苏清微智能科技有限公司 | 一种基于加权语音损失的语音增强神经网络训练方法及装置 |
CN114566152B (zh) * | 2022-04-27 | 2022-07-08 | 成都启英泰伦科技有限公司 | 一种基于深度学习的语音端点检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105515597A (zh) * | 2015-12-02 | 2016-04-20 | 中国电子科技集团公司第四十一研究所 | 一种接收机自动增益控制电路 |
CN108877775A (zh) * | 2018-06-04 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN110036440A (zh) * | 2016-10-18 | 2019-07-19 | 弗劳恩霍夫应用研究促进协会 | 用于处理音频信号的装置和方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9173025B2 (en) * | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US10536773B2 (en) * | 2013-10-30 | 2020-01-14 | Cerence Operating Company | Methods and apparatus for selective microphone signal combining |
US11017798B2 (en) * | 2017-12-29 | 2021-05-25 | Harman Becker Automotive Systems Gmbh | Dynamic noise suppression and operations for noisy speech signals |
-
2020
- 2020-10-14 CN CN202011098089.1A patent/CN112242147B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105515597A (zh) * | 2015-12-02 | 2016-04-20 | 中国电子科技集团公司第四十一研究所 | 一种接收机自动增益控制电路 |
CN110036440A (zh) * | 2016-10-18 | 2019-07-19 | 弗劳恩霍夫应用研究促进协会 | 用于处理音频信号的装置和方法 |
CN108877775A (zh) * | 2018-06-04 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于稀疏性的相位谱补偿语音增强算法;张天骐 等;《信号处理》;第36卷(第11期);第1867-1876页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112242147A (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112242147B (zh) | 一种语音增益控制方法及计算机存储介质 | |
EP2860730B1 (en) | Speech processing | |
EP3866165B1 (en) | Method for enhancing telephone speech signals based on convolutional neural networks | |
US9076456B1 (en) | System and method for providing voice equalization | |
CN103238183B (zh) | 噪音抑制装置 | |
US20120123769A1 (en) | Gain control apparatus and gain control method, and voice output apparatus | |
US10115411B1 (en) | Methods for suppressing residual echo | |
JPH08221093A (ja) | 音声信号の雑音低減方法 | |
WO2013019562A2 (en) | Adaptive voice intelligibility processor | |
EP3929919A1 (en) | Voice signal processing method and device, apparatus, and readable storage medium | |
KR101855969B1 (ko) | 오디오 신호를 압축하는 디지털 압축기 | |
JP5752324B2 (ja) | 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制 | |
US11128954B2 (en) | Method and electronic device for managing loudness of audio signal | |
CN113539285B (zh) | 音频信号降噪方法、电子装置和存储介质 | |
KR20160113224A (ko) | 오디오 신호를 압축하는 오디오 압축 시스템 | |
JP2024517721A (ja) | ノイズの多い環境における音声最適化 | |
GB2536727B (en) | A speech processing device | |
US20190348060A1 (en) | Apparatus and method for enhancing a wanted component in a signal | |
CN112151060B (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
KR101993003B1 (ko) | 잡음 제거 장치 및 방법 | |
CN117995215B (zh) | 语音信号的处理方法、装置、计算机设备及存储介质 | |
CN104703108A (zh) | 一种处于噪声条件下的数字助听器宽动态压缩算法 | |
CN113409812B (zh) | 一种语音降噪训练数据的处理方法及其装置、训练方法 | |
CN111711881B (zh) | 一种根据环境音自适应音量调节方法及无线耳机 | |
US11527232B2 (en) | Applying noise suppression to remote and local microphone signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |