CN113012710A - 一种音频降噪方法及存储介质 - Google Patents
一种音频降噪方法及存储介质 Download PDFInfo
- Publication number
- CN113012710A CN113012710A CN202110118683.0A CN202110118683A CN113012710A CN 113012710 A CN113012710 A CN 113012710A CN 202110118683 A CN202110118683 A CN 202110118683A CN 113012710 A CN113012710 A CN 113012710A
- Authority
- CN
- China
- Prior art keywords
- noise
- voice
- signal
- channel
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000009467 reduction Effects 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 230000005236 sound signal Effects 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 238000001228 spectrum Methods 0.000 claims description 40
- 238000000926 separation method Methods 0.000 claims description 19
- 230000007613 environmental effect Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种音频降噪方法及存储介质,所述方法包括:获取待降噪音频信号;将待降噪音频信号进行分类预处理,去除第一噪声信号,得到混合语音信号;所述第一噪声信号包括语音采集设备噪声和用户行为噪声;所述混合语音信号包括目标对象语音和第二噪声信号;将混合语音信号进行过滤,得到降噪后的目标对象的目标对象语音。本发明通过将场景降噪和语音信号降噪分开处理,对于场景降噪,通过场景噪声的不同采取不同的抑噪方法;对语音信号降噪,通过过滤抑制,实现尽可能大的抑制噪声,能有效去除语音会议***中的噪声,解决传统的语音会议***中存在背景噪声以及其他说话人噪声比较大的问题。
Description
技术领域
本发明涉及音频技术领域,具体涉及一种音频降噪方法及存储介质。
背景技术
在语音会议***中,常常需要对周围背景噪声进行必要的抑制,以避免背景噪声对话音质量的影响,保证在各种环境条件下都能够听到清晰的话音。
传统的语音会议噪声处理方法对于每一个与会人的背景噪声的抑制程度不够,可能会使原本背景噪声大的与会人语音信号中残留较大的噪声,而且残留的噪声会在语音会议***中被说话人检测模块误检为当前说话人,而导致整个语音会议***的噪声较大,进而影响整个会议的通话质量。而且语音会议***中,说话人周围往往还存在其他非与会人的说话声,容易被当成当前说话人的通话内容被误播。
发明内容
鉴于以上技术问题,本发明的目的在于提供一种音频降噪方法及存储介质,解决传统的语音会议***中存在背景噪声以及其他说话人噪声比较大的问题。
本发明采用以下技术方案:
本发明的一种音频降噪方法,包括:
获取待降噪音频信号;
将待降噪音频信号进行分类预处理,去除第一噪声信号,得到混合语音信号;所述第一噪声信号包括语音采集设备噪声和用户行为噪声;所述混合语音信号包括目标对象语音和第二噪声信号;
将混合语音信号进行过滤,得到降噪后的目标对象的目标对象语音。
进一步的,所述将待降噪音频信号进行分类预处理,去除第一噪声信号的步骤包括:
根据第一噪声信号与语音信号在时域波形图和语谱图上的区别对待降噪音频信号进行分类预处理,利用双MIC降噪方法去除语音采集设备噪声,利用小波降噪方法去除用户行为噪声。
进一步的,将混合语音信号进行过滤,得到降噪后的目标对象的目标对象语音的步骤之前,包括:
分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号;所述第二噪声信号用于对所述混合语音信号进行降噪;所述分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号的步骤包括:
获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征;
通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象语音与其他对象语音之间是否存在空间上的重叠;
根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各对象的语音频谱掩码矩阵。
进一步的,所述全语音频段包括K个子频段,其中K为大于等于2的正整数;所述获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征的步骤包括:
从所述全语音频段的单通道频谱特征和多通道方位特征中,提取K个子频段的单通道频谱特征和多通道方位特征。
进一步的,所述重叠判断模型包括K个第一神经网络和第一预测网络,所述通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果的步骤包括:
通过所述K个第一神经网络对K个子频段的单通道频谱特征和多通道方位特征进行处理,获得K个第一特征向量;
根据所述K个第一特征向量生成合并特征向量;
将所述合并特征向量输入所述第一预测网络,输出所述判断结果。
进一步的,所述将混合语音信号进行过滤,得到降噪后的目标对象的目标对象语音的步骤包括:
根据第一预设广义权重滤波器过滤所述混合语音信号中的所述第二噪声信号,其中,所述第一预设广义权重滤波器根据所述混合语音信号的第一先验信噪比与第一后验信噪比进行构造,所述第一先验信噪比为目标人声信号的功率与所述第二噪声信号的功率之间的比值,所述第一后验信噪比为所述混合语音信号的功率与所述第二噪声信号的功率之间的比值。
进一步的,根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各对象的语音频谱掩码矩阵的步骤包括:
若所述判断结果为目标对象语音与其他对象语音之间不存在重叠,则通过所述多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中各对象的目标语音频谱掩码矩阵。
若所述判断结果为目标对象语音与其他对象语音之间存在重叠,则通过所述单通道分离网络对所述单通道频谱特征进行处理,获得所述混合语音信号中各对象的目标语音频谱掩码矩阵。
进一步的,所述双MIC降噪方法包括:所述语音采集设备包括用于采集环境噪音的副麦克风和用于采集环境噪音及用户语音的主麦克风;
将副麦克风采集的语音信号与主麦克风采集的语音信号进行对比,分出环境噪声与语音信号,然后将环境噪声清除,语音信号保留。
进一步的,所述小波降噪方法去除用户行为噪声方法包括:
采用三层小波变换架构,选用设定的阈值函数和阈值去除语音信号中的高频分量;最后对小波变换后的频率分量执行重构信号操作,将噪声信号清除,语音信号保留。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时,实现所述的音频降噪方法。
相比现有技术,本发明的有益效果在于:
本发明通过将场景降噪和语音信号降噪分开处理,对于场景降噪,通过场景噪声的不同采取不同的抑噪方法;对语音信号降噪,通过过滤抑制,实现尽可能大的抑制噪声,能有效去除语音会议***中的噪声,解决传统的语音会议***中存在背景噪声以及其他说话人噪声比较大的问题。
进一步的,将混合语音信号进行分离,分离出目标对象语音和包含其他对象语音的第二噪声信号,再通过权重幅度谱滤波器进行过滤,进一步主观上减少噪声,实现有效去除语音会议***中的噪声,提高语音会议***中的语音质量。
附图说明
图1为本发明一实施例提供的一种音频降噪方法的流程示意图;
图2为本发明一实施例提供的一种音频降噪方法的流程示意图;
图3为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例:
实施例一:
参照图1,示出了本发明一实施例提供的一种音频降噪方法,包括:
步骤S1:获取待降噪音频信号;
其中,待降噪音频信号包含一个或多个人物对象的混合语音信号和会议场景引起的第一噪声信号。
步骤S2:将待降噪音频信号进行分类预处理,去除第一噪声信号,得到混合语音信号;所述第一噪声信号包括语音采集设备噪声和用户行为噪声;所述混合语音信号包括目标对象语音和第二噪声信号;
其中,混合语音信号中除了目标对象的目标对象语音外,还存在会议场景中周边其他人的语音引起的第二噪声信号。
步骤S3:将混合语音信号进行过滤,得到降噪后的目标对象的目标对象语音。
在该步骤中,通过将混合语音信号进行过滤,能主观上减少噪声,实现有效去除语音会议***中的噪声,提高语音会议***中的语音质量。
本发明通过将场景降噪和语音信号降噪分开处理,对于场景降噪,通过场景噪声的不同采取不同的抑噪方法;对语音信号降噪,通过过滤抑制,实现尽可能大的抑制噪声,能有效去除语音会议***中的噪声。
实施例二:
参照图2,示出了本发明另一实施例提供的一种音频降噪方法,包括:
步骤S21:获取待降噪音频信号;
在具体应用中,通过语音采集设备采集语音会议***中的音频信号,得到待降噪音频信号。
步骤S22:根据第一噪声信号与语音信号在时域波形图和语谱图上的区别对待降噪音频信号进行分类预处理,利用双MIC降噪方法去除语音采集设备噪声,利用小波降噪方法去除用户行为噪声,得到混合语音信号;
其中,所述第一噪声信号包括语音采集设备噪声和用户行为噪声;
在具体应用中,可采用控制变量法,人为制造单一种类的噪声,采集该噪声存在条件下的带噪语音信号,并通过程序得到语音信号的时域波形图和语谱图,从而获得不同种类噪声与目标说话人语音之间在时域波形图和语谱图上的区别。
一般的,语音信号的共振峰频率和带宽非常容易被确定,清音与浊音的分隔线也非常明显,基音频率也非常高,并且能量分布的时间间隔非常明显;用户行为噪声的能量主要集中在300Hz以下的范围内,不会形成任何的“横纹”与“竖纹”;在语谱图中,采集设备噪声的能量主要分布在1000Hz以下的频率范围内,幅值的变化非常连贯,起伏很小,时域能量比较集中;然后根据第一噪声信号与语音信号在时域波形图和语谱图上的区别对待降噪音频信号进行分类预处理。
具体的,所述双MIC降噪方法包括:所述语音采集设备包括用于采集环境噪音的副麦克风和用于采集环境噪音及用户语音的主麦克风;
将副麦克风采集的语音信号与主麦克风采集的语音信号进行对比,分出环境噪声与语音信号,然后将环境噪声清除,语音信号保留。
具体的,所述小波降噪方法去除用户行为噪声方法包括:
采用三层小波变换架构,选用设定的阈值函数和阈值去除语音信号中的高频分量;最后对小波变换后的频率分量执行重构信号操作,将噪声信号清除,语音信号保留。
步骤S23:分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号;所述第二噪声信号用于对所述混合语音信号进行降噪;所述分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号的步骤包括:
步骤S231:获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征;
可选的,所述全语音频段包括K个子频段,其中K为大于等于2的正整数;所述获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征的步骤包括:
从所述全语音频段的单通道频谱特征和多通道方位特征中,提取K个子频段的单通道频谱特征和多通道方位特征。
其中,所述重叠判断模型包括K个第一神经网络和第一预测网络,所述通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果的步骤包括:
通过所述K个第一神经网络对K个子频段的单通道频谱特征和多通道方位特征进行处理,获得K个第一特征向量;
根据所述K个第一特征向量生成合并特征向量;
将所述合并特征向量输入所述第一预测网络,输出所述判断结果。
其中,所述K个第一神经网络中的各第一神经网络可以包括LSTM、DNN、CNN等中的任意一个或者多个。K个第一神经网络中的各个第一神经网络可以分别采用不同的神经网络,例如第一个第一神经网络采用LSTM,第二个第一神经网络采用DNN,第三个第一神经网络采用CNN。所述第一预测网络可以为MLP(Multi-Layer Perception,多层感知器)、LSMT、CNN、LSTM+MLP、CNN+LSTM+MLP等任意单一形态的神经网络或者多种形态的混合网络。
通过训练好的多通道分离网络,使得各个第一神经网络可以在不同频段上各自学习到单通道频谱特征和多通道方位特征的相关关系,再将不同频段学习的结果进行融合,提升多通道语音分离的效果和性能。
步骤S232:通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象语音与其他对象语音之间是否存在空间上的重叠;
步骤S233:根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各对象的语音频谱掩码矩阵。
具体的,若所述判断结果为目标对象语音与其他对象语音之间不存在重叠,则通过所述多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中各对象的目标语音频谱掩码矩阵。
若所述判断结果为目标对象语音与其他对象语音之间存在重叠,则通过所述单通道分离网络对所述单通道频谱特征进行处理,获得所述混合语音信号中目标对象的目标语音频谱掩码矩阵。
步骤S24:根据第一预设广义权重滤波器过滤所述混合语音信号中的所述第二噪声信号,其中,所述第一预设广义权重滤波器根据所述混合语音信号的第一先验信噪比与第一后验信噪比进行构造,所述第一先验信噪比为目标人声信号的功率与所述第二噪声信号的功率之间的比值,所述第一后验信噪比为所述混合语音信号的功率与所述第二噪声信号的功率之间的比值。
在从混合语音信号中分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号后,通过第一预设广义权重滤波器过滤所述混合语音信号中的所述第二噪声信号。
值得说明的是,广义权重幅度谱滤波器的实现原理如下:
人耳听觉模型不容易分辨频谱高能量区域的量化噪声,因此可以掩蔽效应通过修正损失函数,使得共振峰附近少一些加重,而在任何一点噪声都可听出来的谱谷多一些加重,参数为β。同时,对损失函数的权重p也根据掩蔽效应进行相应的自适应。通过定义损失函数并对损失函数求导,求得滤波器,通过增加计算,能主观上减少噪声,可以通过增大抑制系数,尽可能的抑制语音信号的噪声。
本发明通过将场景降噪和语音信号降噪分开处理,对于场景降噪,通过场景噪声的不同采取不同的抑噪方法;对语音信号降噪,通过先分离出第二噪声信号后通过权重幅度谱滤波器抑制,实现尽可能大的抑制噪声,使传统的语音会议***中存在背景噪声以及其他说话人噪声比较大的问题得到有效改善。
实施例三:
图3为本申请实施例提供的一种电子设备的结构示意图,在本申请中可以通过图3所示的示意图来描述用于实现本申请实施例的本发明一种音频降噪方法的电子设备100。
如图3所示的一种电子设备的结构示意图,电子设备100包括一个或多个处理器102、一个或多个存储装置104,这些组件通过总线***和/或其它形式的连接机构(未示出)互连。应当注意,图3所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备可以具有图3示出的部分组件,也可以具有图3未示出的其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本申请实施例中(由处理器实现)的功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
本发明还提供一种计算机存储介质,其上存储有计算机程序,本发明的方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在该计算机存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机存储介质不包括电载波信号和电信信号。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (10)
1.一种音频降噪方法,其特征在于,包括:
获取待降噪音频信号;
将待降噪音频信号进行分类预处理,去除第一噪声信号,得到混合语音信号;所述第一噪声信号包括语音采集设备噪声和用户行为噪声;所述混合语音信号包括目标对象语音和第二噪声信号;
将混合语音信号进行过滤,得到降噪后的目标对象的目标对象语音。
2.根据权利要求1所述的音频降噪方法,其特征在于,所述将待降噪音频信号进行分类预处理,去除第一噪声信号的步骤包括:
根据第一噪声信号与语音信号在时域波形图和语谱图上的区别对待降噪音频信号进行分类预处理,利用双MIC降噪方法去除语音采集设备噪声,利用小波降噪方法去除用户行为噪声。
3.根据权利要求1所述的音频降噪方法,其特征在于,将混合语音信号进行过滤,得到降噪后的目标对象的目标对象语音的步骤之前,还包括:
分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号;所述第二噪声信号用于对所述混合语音信号进行降噪;所述分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号的步骤包括:
获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征;
通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象语音与其他对象语音之间是否存在空间上的重叠;所述其他对象语音指除目标对象外的其他对象的语音;
根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各对象的语音频谱掩码矩阵。
4.根据权利要求3所述的音频降噪方法,其特征在于,所述全语音频段包括K个子频段,其中K为大于等于2的正整数;所述获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征的步骤包括:
从所述全语音频段的单通道频谱特征和多通道方位特征中,提取K个子频段的单通道频谱特征和多通道方位特征。
5.根据权利要求4所述的音频降噪方法,其特征在于,所述重叠判断模型包括K个第一神经网络和第一预测网络,所述通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果的步骤包括:
通过所述K个第一神经网络对K个子频段的单通道频谱特征和多通道方位特征进行处理,获得K个第一特征向量;
根据所述K个第一特征向量生成合并特征向量;
将所述合并特征向量输入所述第一预测网络,输出所述判断结果。
6.根据权利要求3所述的音频降噪方法,其特征在于,所述将混合语音信号进行过滤,得到降噪后的目标对象的目标对象语音的步骤包括:
根据第一预设广义权重滤波器过滤所述混合语音信号中的所述第二噪声信号,其中,所述第一预设广义权重滤波器根据所述混合语音信号的第一先验信噪比与第一后验信噪比进行构造,所述第一先验信噪比为目标人声信号的功率与所述第二噪声信号的功率之间的比值,所述第一后验信噪比为所述混合语音信号的功率与所述第二噪声信号的功率之间的比值。
7.根据权利要求3所述的音频降噪方法,其特征在于,根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各对象的语音频谱掩码矩阵的步骤包括:
若所述判断结果为目标对象语音与其他对象语音之间不存在重叠,则通过所述多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中各对象的目标语音频谱掩码矩阵;
若所述判断结果为目标对象语音与其他对象语音之间存在重叠,则通过所述单通道分离网络对所述单通道频谱特征进行处理,获得所述混合语音信号中各对象的目标语音频谱掩码矩阵。
8.根据权利要求2所述的音频降噪方法,其特征在于,所述双MIC降噪方法包括:所述语音采集设备包括用于采集环境噪音的副麦克风和用于采集环境噪音及用户语音的主麦克风;
将副麦克风采集的语音信号与主麦克风采集的语音信号进行对比,分出环境噪声与语音信号,然后将环境噪声清除,语音信号保留。
9.根据权利要求2所述的音频降噪方法,其特征在于,所述小波降噪方法去除用户行为噪声步骤包括:
采用三层小波变换架构,选用设定的阈值函数和阈值去除语音信号中的高频分量;最后对小波变换后的频率分量执行重构信号操作,将噪声信号清除,语音信号保留。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时,实现如权利要求1至9任一项所述的音频降噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110118683.0A CN113012710A (zh) | 2021-01-28 | 2021-01-28 | 一种音频降噪方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110118683.0A CN113012710A (zh) | 2021-01-28 | 2021-01-28 | 一种音频降噪方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113012710A true CN113012710A (zh) | 2021-06-22 |
Family
ID=76385287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110118683.0A Pending CN113012710A (zh) | 2021-01-28 | 2021-01-28 | 一种音频降噪方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113012710A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377331A (zh) * | 2021-07-05 | 2021-09-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及存储介质 |
CN115022108A (zh) * | 2022-06-16 | 2022-09-06 | 深圳市欢太科技有限公司 | 会议接入方法、装置、存储介质及电子设备 |
CN118101812A (zh) * | 2024-04-29 | 2024-05-28 | 深圳固特讯科技有限公司 | 防爆工业电话机的通讯降噪方法及相关设备 |
CN118101812B (zh) * | 2024-04-29 | 2024-06-25 | 深圳固特讯科技有限公司 | 防爆工业电话机的通讯降噪方法及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920434A (zh) * | 2019-03-11 | 2019-06-21 | 南京邮电大学 | 一种基于会议场景的噪声分类去除方法 |
CN110070882A (zh) * | 2019-04-12 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及电子设备 |
CN111128214A (zh) * | 2019-12-19 | 2020-05-08 | 网易(杭州)网络有限公司 | 音频降噪方法、装置、电子设备及介质 |
CN111627457A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 语音分离方法、***及计算机可读存储介质 |
-
2021
- 2021-01-28 CN CN202110118683.0A patent/CN113012710A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920434A (zh) * | 2019-03-11 | 2019-06-21 | 南京邮电大学 | 一种基于会议场景的噪声分类去除方法 |
CN110070882A (zh) * | 2019-04-12 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及电子设备 |
CN111128214A (zh) * | 2019-12-19 | 2020-05-08 | 网易(杭州)网络有限公司 | 音频降噪方法、装置、电子设备及介质 |
CN111627457A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 语音分离方法、***及计算机可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377331A (zh) * | 2021-07-05 | 2021-09-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及存储介质 |
CN113377331B (zh) * | 2021-07-05 | 2023-04-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及存储介质 |
CN115022108A (zh) * | 2022-06-16 | 2022-09-06 | 深圳市欢太科技有限公司 | 会议接入方法、装置、存储介质及电子设备 |
CN118101812A (zh) * | 2024-04-29 | 2024-05-28 | 深圳固特讯科技有限公司 | 防爆工业电话机的通讯降噪方法及相关设备 |
CN118101812B (zh) * | 2024-04-29 | 2024-06-25 | 深圳固特讯科技有限公司 | 防爆工业电话机的通讯降噪方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Das et al. | Fundamentals, present and future perspectives of speech enhancement | |
CN110111769B (zh) | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 | |
CN112565981B (zh) | 啸叫抑制方法、装置、助听器及存储介质 | |
CN113012710A (zh) | 一种音频降噪方法及存储介质 | |
US20220059114A1 (en) | Method and apparatus for determining a deep filter | |
CN110992967A (zh) | 一种语音信号处理方法、装置、助听器及存储介质 | |
CN105679321B (zh) | 语音识别方法、装置及终端 | |
Lim et al. | Harmonic and percussive source separation using a convolutional auto encoder | |
CN112151055B (zh) | 音频处理方法及装置 | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
EP3696815B1 (en) | Nonlinear noise reduction system | |
CN116132875B (zh) | 一种辅听耳机的多模式智能控制方法、***及存储介质 | |
CN108899041B (zh) | 语音信号加噪方法、装置及存储介质 | |
CN114333912B (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
US20230360662A1 (en) | Method and device for processing a binaural recording | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
KR101682796B1 (ko) | 소음 환경에서 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법 및 이를 기록한 기록매체 | |
Shanmugapriya et al. | Evaluation of sound classification using modified classifier and speech enhancement using ICA algorithm for hearing aid application | |
CN112118511A (zh) | 耳机降噪方法、装置、耳机及计算机可读存储介质 | |
KR101096091B1 (ko) | 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법 | |
CN111933111A (zh) | 语音唤醒方法、装置、电子设备和存储介质 | |
Upadhyay et al. | A perceptually motivated stationary wavelet packet filterbank using improved spectral over-subtraction for enhancement of speech in various noise environments | |
CN117153192B (zh) | 音频增强方法、装置、电子设备和存储介质 | |
Wang et al. | Sub-band noise reduction in multi-channel digital hearing aid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 238, room 406, 1 Yichuang street, Huangpu District, Guangzhou, Guangdong 510700 Applicant after: Guangzhou langguo Electronic Technology Co.,Ltd. Address before: Room 238, room 406, 1 Yichuang street, Huangpu District, Guangzhou, Guangdong 510700 Applicant before: GUANGZHOU LANGO ELECTRONIC SCIENCE & TECHNOLOGY Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210622 |