CN110853664A - 评估语音增强算法性能的方法及装置、电子设备 - Google Patents
评估语音增强算法性能的方法及装置、电子设备 Download PDFInfo
- Publication number
- CN110853664A CN110853664A CN201911157422.9A CN201911157422A CN110853664A CN 110853664 A CN110853664 A CN 110853664A CN 201911157422 A CN201911157422 A CN 201911157422A CN 110853664 A CN110853664 A CN 110853664A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice signal
- voice
- noise
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000009467 reduction Effects 0.000 claims abstract description 54
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 230000003595 spectral effect Effects 0.000 claims description 34
- 238000001228 spectrum Methods 0.000 claims description 32
- 230000000875 corresponding effect Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 28
- 238000009432 framing Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本公开是关于一种评估语音增强算法性能的方法及装置、电子设备。一种评估语音增强算法性能的方法,包括:获取近端音频采集设备采集的第一带噪语音信号和远端音频采集设备采集的第二带噪语音信号;基于所述第一带噪语音信号和所述第二带噪语音信号估计出类纯净语音信号,将所述类纯净语音信号作为参考语音信号;以及利用预设的语音增强算法对所述第二带噪语音信号进行语音增强,获得待测降噪语音信号;基于所述参考语音信号和所述待测降噪语音信号评估所述语音增强算法。本实施例中利用类纯净语音信号作为参考语音信号,可以更逼近机器成功识别的阈值,有利于提升评估结果的准确度。
Description
技术领域
本公开涉及控制技术领域,尤其涉及一种评估语音增强算法性能的方法及装置、电子设备。
背景技术
自动语音识别(ASR,Automatic Speech Recognition)是实现人机交互最为关键的技术,其所要解决的根本问题是让计算机识别出人类的语音,将语音转化为文本。为提高语音识别率,最重要的一步就是语音增强,即对语音进行降噪处理,例如让低信噪比的语音变成高信噪比,进而提高语音质量,降低识别错误率。因此,非常有必要利用语音质量评价算法去评估语音增强算法的性能参数。
以语音质量评价算法采用短时可懂度(STOI,Short-Time ObjectiveIntelligibility Measure)为例,该STOI是通过比较纯净语音和待测降噪语音信号的频谱关系,建立了符合人耳听觉感知的语音质量客观评价模型。其中,纯净语音是指没有失真也没有噪音污染的语音。
需要说明的是,STOI是针对人耳听觉的,以预测听者对目标信号的理解能力,其与主观听音测试能够达成较好的相关性,由于听者的主观听觉感受和机器识别存在差异,使STOI预测结果和后端机器识别结果两者的相关度不高。这是因为,现有STOI没有考虑到语音增强算法的特点,即语音增强算法一般无法得到完全纯净的语音参考信号,使得语音增强后的语音信号中噪声仍然过大或语音信号削弱的情况,这样后续的语音识别模型会存在一定的鲁棒性适应该特点。换言之,当参考语音信号为纯净语音时,对语音增强算法的评估结果会存在一定的误差,不利于语音增强算法性能的判断。
发明内容
本公开提供一种评估语音增强算法性能的方法及装置、电子设备,以解决相关技术的不足。
根据本公开实施例的第一方面,提供一种评估语音增强算法性能的方法,包括:
获取第一带噪语音信号和第二带噪语音信号,其中第一带噪语音信号由靠近发声源的近端音频采集设备采集,第二带噪语音信号由远离所述发声源的远端音频采集设备采集;
基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号,将所述类纯净语音信号作为参考语音信号;
利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理,获得待测降噪语音信号;
获取所述参考语音信号和所述待测降噪语音信号的相关系数,所述相关系数用于评估所述语音增强算法。
可选地,基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号,将所述类纯净语音信号作为参考语音信号包括:
分别对所述第一带噪语音信号和所述第二带噪语音信号进行预处理;所述预处理包括分帧和加窗;
分别对预处理后的所述第一带噪语音信号和所述第二带噪语音信号作傅里叶变换,得到所述第一带噪语音信号和所述第二带噪语音信号的时频单元;
获取类纯净语音信号;所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关;
确定所述总残差最小时的类纯净语音信号作为最终的类纯净语音信号;
将所述最终的类纯净语音信号进行逆傅里叶变换,得到所述参考语音信号。
可选地,所述获取所述参考语音信号和所述待测降噪语音信号的相关参数包括:
获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号;
对所述待测降噪语音信号的频谱包络信号进行处理,得到目标频谱包络信号;
基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数。
可选地,所述获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号包括:
分别对所述参考语音信号和所述待测降噪语音信号进行分帧、加窗和傅里叶变换,得到第一频域信号和第二频域信号;
从所述第一频域信号中选取能量最大帧,得到第一能量值;所述第一能量值为所述能量最大帧对应能量值减去设定分贝后得到;
分别过滤所述第一频域信号和所述第二频域信号小于所述第一能量值的帧;
分别对所述第一频域信号和所述第二频域信号进行频带划分;
分别获取所述第一频域信号和所述第二频域信号的频谱包络,并采用向量表示所述频谱包络,得到频谱包络信号。
可选地,所述基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数包括:
计算每个时频单元的相关系数;
计算所有帧对应的所有频带的相关系数的平均值,所述平均值即是所述参考语音信号和所述待测降噪语音信号的相关系数。
可选地,还包括:
获取预设的关键词唤醒模型的输出概率;
获取所述相关系数和所述输出概率的相关程度,所述相关程度用于表征语音质量评分和所述语音识别率的相关性。
根据本公开实施例的第二方面,提供一种评估语音增强算法性能的装置,包括:
语音信号获取模块,用于获取第一带噪语音信号和第二带噪语音信号,其中第一带噪语音信号由靠近发声源的近端音频采集设备采集,第二带噪语音信号由远离所述发声源的远端音频采集设备采集;
参考信号获取模块,用于基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号,将所述类纯净语音信号作为参考语音信号;
降噪信号获取模块,用于利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理,获得待测降噪语音信号;
语音增强评估模块,用于获取所述参考语音信号和所述待测降噪语音信号的相关系数,所述相关系数用于评估所述语音增强算法。
可选地,所述参考信号获取模块包括:
预处理单元,用于分别对所述第一带噪语音信号和所述第二带噪语音信号进行预处理;所述预处理包括分帧和加窗;
时频获取单元,用于分别对预处理后的所述第一带噪语音信号和所述第二带噪语音信号作傅里叶变换,得到所述第一带噪语音信号和所述第二带噪语音信号的时频单元;
残差获取单元,用于获取类纯净语音信号;所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关;
类纯净信号确定单元,用于确定所述总残差最小时的类纯净语音信号作为最终的类纯净语音信号;
参考信号获取单元,用于将所述最终的类纯净语音信号进行逆傅里叶变换,得到所述参考语音信号。
可选地,所述语音增强评估模块包括:
包络获取单元,用于获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号;
包络处理单元,用于对所述待测降噪语音信号的频谱包络信号进行处理,得到目标频谱包络信号;
系数获取单元,用于基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数。
可选地,所述包络获取单元包括:
变换子单元,用于分别对所述参考语音信号和所述待测降噪语音信号进行分帧、加窗和傅里叶变换,得到第一频域信号和第二频域信号;
选取子单元,用于从所述第一频域信号中选取能量最大帧,得到第一能量值;所述第一能量值为所述能量最大帧对应能量值减去设定分贝后得到;
过滤子单元,用于分别过滤所述第一频域信号和所述第二频域信号小于所述第一能量值的帧;
划分子单元,用于分别对所述第一频域信号和所述第二频域信号进行频带划分;
获取子单元,用于分别获取所述第一频域信号和所述第二频域信号的频谱包络,并采用向量表示所述频谱包络,得到频谱包络信号。
可选地,所述系数获取单元包括:
系数计算子单元,用于计算每个时频单元的相关系数;
平均值计算子单元,用于计算所有帧对应的所有频带的相关系数的平均值,所述平均值即是所述参考语音信号和所述待测降噪语音信号的相关系数。
可选地,还包括:
概率获取模块,用于获取预设的关键词唤醒模型的输出概率;
相关度获取模块,用于获取所述相关系数和所述输出概率的相关程度,所述相关程度用于表征语音质量评分和所述语音识别率的相关性。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储可执行指令的存储器;
所述处理器被配置为执行所述存储器中的可执行指令以实现上述所述方法的步骤。
根据本公开实施例的第四方面,提供一种可读存储介质,其上存储有可执行指令,该可执行指令被处理器执行时实现上述所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本公开实施例中通过近端和远端的音频采集设备采样带噪语音信号,并基于第一带噪语音信号和第二带噪语音信号来获取远端的类纯净语音信号;然后,将该类纯净语音信号作为参考语音信号,来对语音增强算法的性能进行评估。该类纯净语音信号可以接近实际场景中的高信噪比和低混响的类纯净语音信号。这样,本实施例中利用类纯净语音信号作为参考语音信号,可以更逼近机器成功识别的阈值,有利于提升评估结果的准确度。另外,本实施例中因类纯净语音信号更倾向于机器识别场景而非人耳预测场景,能够提升评估结果与语音识别结果的相关性,从而可以根据唤醒率来评估语音增强效果,评估效果更准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种评估语音增强算法性能的方法的流程图。
图2是根据一示例性实施例示出的获取参考语音信号的流程图。
图3是根据一示例性实施例示出的获取相关系数的流程图。
图4是根据一示例性实施例示出的获取频谱包络信号的流程图。
图5是根据一示例性实施例示出的获取评估结果和识别结果相关性的流程图。
图6是根据一示例性实施例示出的一种评估语音增强算法性能的方法的流程框图。
图7~图12是根据一示例性实施例示出的一种评估语音增强算法性能的装置的框图。
图13是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。
目前,现有STOI是通过比较纯净语音和待测降噪语音信号的频谱关系,建立了符合人耳听觉感知的语音质量客观评价模型。其中,纯净语音是指没有失真也没有噪音污染的语音。
在实现本公开方案的过程中,发明人发现:现有STOI是针对人耳听觉而设计的,用于预测听者对目标语音信号的理解能力。但是,听者的主观听觉感受和机器识别是存在差异的,这是因为,现有STOI没有考虑到语音增强算法的特点,即语音增强算法一般无法得到完全纯净的语音参考信号,使得语音增强后的语音信号中噪声仍然过大或语音信号削弱的情况,这样后续的语音识别模型会存在一定的鲁棒性适应该特点。换言之,当参考语音信号为纯净语音时,对语音增强算法的评估结果会存在一定的误差,最终影响到语音增强效果的调整。
为解决上述技术问题,本公开实施例提供了一种评估语音增强算法性能的方法,适应于电子设备,图1是根据一示例性实施例示出的一种评估语音增强算法性能的方法的流程图。参见图1,一种评估语音增强算法性能的方法,包括步骤101~步骤104,其中:
在步骤101中,获取第一带噪语音信号和第二带噪语音信号。
本实施例中,电子设备可以与近端音频采集设备和远端音频采集设备连接,用于获取两者采集的带噪语音信号。其中,近端音频采集设备是指靠近发声源的音频采集设备,远端音频采集设备是指远离发声源的音频采集设备。近端语音采集设备、远端语音采集设备与发声源的距离可以根据具体场景进行设置,例如,近端语音采集设备与发声源的距离小于30cm,远端语音采集设备与发声源的距离大于200cm。需要说明的是,音频采集设备的数量可以根据具体场景进行设置。
本实施例中,在发声源(用户或者播放设备)输出语音时,近端音频采集设备可以采集语音,得到带噪语音信号,后续称之为第一带噪语音信号;远端音频采集设备可以采集语音,得到带噪语音信号,后续称之为第二带噪语音信号。需要说明的是,本实施例中,近端音频采集设备距离发声源较近,因此第一带噪语音信号相对于第二带噪语音信号其信噪比更高,且混响程度更低。
在步骤102中,基于所述第一带噪语音信号和所述第二带噪语音信号估计出类纯净语音信号,将所述类纯净语音信号作为参考语音信号。本实施例中,电子设备可以基于第一带噪语音信号和第二带噪语音信号估计出类纯净语音信号,将类纯净语音信号作为参考语音信号。参见图2,电子设备可以分别对第一带噪语音信号和第二带噪语音信号进行预处理,预处理可以包括分帧、加窗(对应图2中步骤201)。需要说明的是,在加窗过程中,窗口的长度、窗口的移动步长以及窗口的类型可以根据具体场景进行选择,在此不作限定。然后,电子设备可以分别对预处理后的第一带噪语音信号和第二带噪语音信号作傅里叶变换处理,得到第一带噪语音信号和第二带噪语音信号的时频单元(对应图2中步骤202)。需要说明的是,上述傅里叶变换可以为DFT、FFT、STFT等,可以根据具体场景进行选取,在此不作限定。之后,电子设备可以获取类纯净语音信号,该类纯净语音信号与第一带噪语音信号、第一带噪语音信号和第二带噪语音信号的每个时频单元的总残差相关(对应图2中步骤203)。再者,电子设备可以确定总残差最小时的类纯净语音信号作为最终的类纯净语音信号(对应图2中步骤204)。最后,将最终的类纯净语音信号进行逆傅里叶变换,得到参考语音信号(对应图2中步骤205)。
在步骤103中,利用预设的语音增强算法对所述第二带噪语音信号进行语音增强,获得待测降噪语音信号。
本实施例中,电子设备可以利用预设的语音增强算法对第二带噪语音信号进行语音增强处理,获得待测降噪语音信号。其中,语音增强算法可以包括但不限于以下一种:基本谱减法、维纳滤波降噪法、LMS自适应滤波器降噪、LMS自适应陷波器、基于深度学习的语音增强方法。技术人员可以根据具体场景选择合适的语音增强算法,在此不作限定。
在步骤104中,获取所述参考语音信号和所述待测降噪语音信号的相关系数,所述相关系数用于评估所述语音增强算法。
本实施例中,电子设备可以基于参考语音信号和待测降噪语音信号评估语音增强算法。参见图3,电子设备可以获取参考语音信号和待测降噪语音信号的频谱包络信号(对应图3中步骤301)。例如,参见图4,电子设备可以分别对参考语音信号和待测降噪语音信号进行分帧、加窗和傅里叶变换,得到第一频域信号和第二频域信号(对应图4中步骤401)。然后,电子设备可以从第一频域信号中选取能量最大帧,得到第一能量值;所述第一能量值为所述能量最大帧对应能量值减去设定分贝(如40分贝,可调整)后得到(对应图4中步骤402)。之后,电子设备可以电子设备可以分别过滤第一频域信号和第二频域信号中小于第一能量值的帧(对应图4中步骤403)。再者,电子设备可以分别对所述第一频域信号和所述第二频域信号进行频带划分(对应图4中步骤404)。最后,电子设备可以分别获取第一频域信号和第二频域信号的频谱包络,并采用向量表示所述频谱包络,得到频谱包络信号(对应图4中步骤405)。
继续参见图3,电子设备可以对所述待测降噪语音信号的频谱包络信号进行处理,得到目标频谱包络信号(对应图3中步骤302)。其中,处理包括但不限定归一化裁剪,则目标频谱包络信号是指归一化裁剪后的频谱包络信号。
继续参见图3,电子设备可以基于参考语音信号的频谱包络信号和目标频谱包络信号获取参考语音信号和待测降噪语音信号的相关系数,相关系数用于评估所述语音增强算法的性能(对应图3中步骤303)。参见图5,电子设备可以计算每个时频单元的相关系数(对应图5中步骤501)。然后,电子设备可以计算所有帧对应的所有频带的相关系数的平均值,其中平均值即是参考语音信号和待测降噪语音信号的相关系数(对应图5中步骤502)。
需要说明的是,相关系数是一个分数,取值范围为[0,1],其中,相关系数的取值越靠近1,则说明语音增强算法对语音信号的增强效果越好。
至此,本公开实施例中通过近端和远端的音频采集设备采样带噪语音信号,并基于第一带噪语音信号和第二带噪语音信号来获取远端的类纯净语音信号;然后,将该类纯净语音信号作为参考语音信号,来对语音增强算法的性能进行评估。该类纯净语音信号可以接近实际场景中的高信噪比和低混响的类纯净语音信号。这样,本实施例中利用类纯净语音信号作为参考语音信号,可以更逼近机器成功识别的阈值,有利于提升评估结果的准确度。另外,本实施例中因类纯净语音信号更倾向于机器识别场景而非人耳预测场景,能够提升评估结果与语音识别结果的相关性。
为了对本公开实施例提供的技术方案进行详细描述,提供下列实施例,参见图6:
本实施例中,录音房间相关参数如表1所示。并且,测试数据集包含1300条测试音频:覆盖3个房间混响,4种距离,3种信噪比和5类噪声。其中,T60(混响)的单位为秒,距离、长、宽和高的单位为米。
表1录音房间相关参数
步骤1,电子设备与近端麦克风和远端麦克风连接,近端麦克风和远端麦克风可以录制带噪语音信号,电子设备可以接收到近端麦克风采集的第一带噪语音信号,以及远端麦克风采集的第二带噪语音信号,并对第二带噪语音信号进行语音增强处理,得到待测降噪语音信号。
步骤2,电子设备可以通过最小化第一带噪语音信号和第二带噪语音信号的总残差,可以获取类纯净语音信号,并将该类纯净语音信号作为参考语音信号,包括:
步骤2.1,电子设备可以对第一带噪语音信号和第二带噪语音信号分别做分帧、加窗、傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引。
步骤2.2,估计类纯净语音为Sid(n,f),计算每个时频单元的残差Rid(n,f),计算公式如下:
Rid(n,f)=Xi(n,f)-Sid(n,f);
其中Lmin=-3,Lmax=8,Gi(l,f)由最小化总残差可推出,计算公式如下:
步骤2.3:将估计的类纯净语音Sid(n,f)做逆傅里叶变换,从频域转化到时域上,得到参考语音信号。
步骤3:过滤待测降噪语音信号和参考语音信号的静音帧,
并进行时频转换、划分频带,计算频谱包络信息,包括:
步骤3.1:对参考语音信号和待测降噪语音信号进行分帧、加窗,做傅里叶变换,将语音信号从时域转换到频域。
步骤3.2:确定参考语音信号中的能量最大帧,去掉参考语音信号和待测降噪语音信号中低于该能量最大帧40db以下的信号,然后分别对参考语音信号和待测降噪语音信号进行频带划分;其中频带划分可选择倍频程、梅尔频带或临界频带等划分方法等,在此不作限定。
其中k1和k2表示频带的区间端点。
同样的,将待测降噪语音也做同样的处理,得到对应的Yj(m)。
步骤3.3:计算参考语音信号和待测降噪语音信号的频谱包络,并用向量表示。其中,
参考语音的频谱包络用向量表示如下:
xj,m=[Xj(m-N+1),Xj(m-N+2),...,Xj(m)]T;
同理可得,待测降噪语音信号的频谱包络yj,m也可以用类似的方式表示。在本实施例中,N取裁剪之后的全部帧。
步骤4:将待测降噪语音做归一化裁剪,即直接对频谱包络信号yj,m进行如下计算:
其中n∈{1,2,...,N},||·||表示二范数,β为信号失真(SDR)的下界,表示如下:
步骤5:计算语音增强算法的性能参数,即待测降噪语音信号和参考语音信号的相关系数。
步骤5.1:计算每个时频单元的相关系数,即xj,m和yj,m的相关系数,计算公式如下:
其中μ(·)为对应向量的样本均值。
步骤5.2:计算所有帧对应的所有频带对应的相关系数的平均值:
其中d为语音增强算法的最终性能参数,从0到1,越靠近1,性能越好。
本实施例中,采用采用皮尔逊相关系数来测试上述步骤5所得的相关系数与基于深度学习的关键词唤醒模型Softmax输出概率的相关性。初步测试结果表明:相关技术中,STOI评分与唤醒率呈现极弱相关。本实施例中,相关系数与唤醒率可达到中度相关,本实施例可以较准确地评估增强后的语音质量。即,本实施例中不是单纯以人耳主观可懂度为测度,而是针对唤醒算法的结果来对语音增强效果来进行评测,能够在一定范围内提升语音质量评分和语音识别率的相关性,从而得到更准确的质量评分。
图7是根据一示例性实施例示出的一种评估语音增强算法性能的装置框图。参见图7,一种评估语音增强算法性能的装置,包括:
语音信号获取模块701,用于获取第一带噪语音信号和第二带噪语音信号,其中第一带噪语音信号由靠近发声源的近端音频采集设备采集,第二带噪语音信号由远离所述发声源的远端音频采集设备采集;
参考信号获取模块702,用于基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号,将所述类纯净语音信号作为参考语音信号;
降噪信号获取模块703,用于利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理,获得待测降噪语音信号;
语音增强评估模块704,用于基于所述参考语音信号和所述待测降噪语音信号的相关系数,所述相关系数用于评估所述语音增强算法。
需要说明的是,图7中参考信号获取模块702与语音增强评估模块704虚线连接,用于区别于语音信号获取模块701和降噪信号获取模块703之间的实线连接。
在一实施例中,参见图8,所述参考信号获取模块702包括:
预处理单元801,用于分别对所述第一带噪语音信号和所述第二带噪语音信号进行预处理;所述预处理包括分帧和加窗;
时频获取单元802,用于分别对预处理后的所述第一带噪语音信号和所述第二带噪语音信号作傅里叶变换,得到所述第一带噪语音信号和所述第二带噪语音信号的时频单元;
残差获取单元803,用于获取类纯净语音信号;所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关;
类纯净信号确定单元804,用于确定所述总残差最小时的类纯净语音信号作为最终的类纯净语音信号;
参考信号获取单元805,用于将所述最终的类纯净语音信号进行逆傅里叶变换,得到所述参考语音信号。
在一实施例中,参见图9,所述语音增强评估模块704包括:
包络获取单元901,用于获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号;
包络处理单元902,用于对所述待测降噪语音信号的频谱包络信号进行处理,得到目标频谱包络信号;
系数获取单元903,用于基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数。
在一实施例中,参见图10,所述包络获取单元901包括:
变换子单元1001,用于分别对所述参考语音信号和所述待测降噪语音信号进行分帧、加窗和傅里叶变换,得到第一频域信号和第二频域信号;
选取子单元1002,用于从所述第一频域信号中选取能量最大帧,得到第一能量值;所述第一能量值为所述能量最大帧对应能量值减去设定分贝后得到;
过滤子单元1003,用于分别过滤所述第一频域信号和所述第二频域信号小于所述第一能量值的帧;
划分子单元1004,用于分别对所述第一频域信号和所述第二频域信号进行频带划分;
获取子单元1005,用于分别获取所述第一频域信号和所述第二频域信号的频谱包络,并采用向量表示所述频谱包络,得到频谱包络信号。
在一实施例中,参见图11,所述系数获取单元903包括:
系数计算子单元1101,用于计算每个时频单元的相关系数;
平均值计算子单元1102,用于计算所有帧对应的所有频带的相关系数的平均值,所述平均值即是所述参考语音信号和所述待测降噪语音信号的相关系数。
在一实施例中,参见图12,一种评估语音增强算法性能的装置还包括:
概率获取模块1201,用于获取预设的关键词唤醒模型的输出概率;
相关度获取模块1202,用于获取所述相关系数和所述输出概率的相关程度,所述相关程度用于表征语音质量评分和所述语音识别率的相关性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
至此,本公开实施例中通过近端和远端的音频采集设备采样带噪语音信号,并基于第一带噪语音信号和第二带噪语音信号来估计远端的类纯净语音信号;然后,将该类纯净语音信号作为参考语音信号,来对语音增强算法的性能进行评估。该类纯净语音信号可以接近实际场景中的高信噪比和低混响的类纯净语音信号。这样,本实施例中利用类纯净语音信号作为参考语音信号,可以更逼近机器成功识别的阈值,有利于提升评估结果的准确度。另外,本实施例中因类纯净语音信号更倾向于机器识别场景而非人耳预测场景,能够提升评估结果与语音识别结果的相关性,从而可以根据唤醒率来评估语音增强效果,评估效果更准确。
图13是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备1300可以是智能手机,计算机,数字广播终端,平板设备,医疗设备,健身设备,个人数字助理等。
参照图13,电子设备1300可以包括以下一个或多个组件:处理组件1302,存储器1304,电源组件1306,多媒体组件1308,音频组件1310,输入/输出(I/O)的接口1312,传感器组件1314,通信组件1316,以及图像采集组件1318。
处理组件1302通常电子设备1300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1302可以包括一个或多个处理器1320来执行指令。此外,处理组件1302可以包括一个或多个模块,便于处理组件1302和其他组件之间的交互。例如,处理组件1302可以包括多媒体模块,以方便多媒体组件1308和处理组件1302之间的交互。
存储器1304被配置为存储各种类型的数据以支持在电子设备1300的操作。这些数据的示例包括用于在电子设备1300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1306为电子设备1300的各种组件提供电力。电源组件1306可以包括电源管理***,一个或多个电源,及其他与为电子设备1300生成、管理和分配电力相关联的组件。
多媒体组件1308包括在所述电子设备1300和目标对象之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示屏(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自目标对象的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件1310被配置为输出和/或输入音频信号。例如,音频组件1310包括一个麦克风(MIC),当电子设备1300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中,音频组件1310还包括一个扬声器,用于输出音频信号。
I/O接口1312为处理组件1302和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。
传感器组件1314包括一个或多个传感器,用于为电子设备1300提供各个方面的状态评估。例如,传感器组件1314可以检测到电子设备1300的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1300的显示屏和小键盘,传感器组件1314还可以检测电子设备1300或一个组件的位置改变,目标对象与电子设备1300接触的存在或不存在,电子设备1300方位或加速/减速和电子设备1300的温度变化。
通信组件1316被配置为便于电子设备1300和其他设备之间有线或无线方式的通信。电子设备1300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1316经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
在示例性实施例中,还提供了一种包括指令的非临时性可读存储介质,例如包括指令的存储器1304,上述指令可由电子设备1300的处理器1320执行。例如,所述非临时性可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (14)
1.一种评估语音增强算法性能的方法,其特征在于,包括:
获取第一带噪语音信号和第二带噪语音信号,其中第一带噪语音信号由靠近发声源的近端音频采集设备采集,第二带噪语音信号由远离所述发声源的远端音频采集设备采集;
基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号,将所述类纯净语音信号作为参考语音信号;
利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理,获得待测降噪语音信号;
获取所述参考语音信号和所述待测降噪语音信号的相关系数,所述相关系数用于评估所述语音增强算法。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号,将所述类纯净语音信号作为参考语音信号包括:
分别对所述第一带噪语音信号和所述第二带噪语音信号进行预处理;所述预处理包括分帧和加窗;
分别对预处理后的所述第一带噪语音信号和所述第二带噪语音信号作傅里叶变换,得到所述第一带噪语音信号和所述第二带噪语音信号的时频单元;
获取类纯净语音信号;所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关;
确定所述总残差最小时的类纯净语音信号作为最终的类纯净语音信号;
将所述最终的类纯净语音信号进行逆傅里叶变换,得到所述参考语音信号。
3.根据权利要求1所述的方法,其特征在于,所述获取所述参考语音信号和所述待测降噪语音信号的相关系数包括:
获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号;
对所述待测降噪语音信号的频谱包络信号进行处理,得到目标频谱包络信号;
基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数。
4.根据权利要求3所述的方法,其特征在于,所述获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号包括:
分别对所述参考语音信号和所述待测降噪语音信号进行分帧、加窗和傅里叶变换,得到第一频域信号和第二频域信号;
从所述第一频域信号中选取能量最大帧,得到第一能量值;所述第一能量值为所述能量最大帧对应能量值减去设定分贝后得到;
分别过滤所述第一频域信号和所述第二频域信号小于所述第一能量值的帧;
分别对所述第一频域信号和所述第二频域信号进行频带划分;
分别获取所述第一频域信号和所述第二频域信号的频谱包络,并采用向量表示所述频谱包络,得到频谱包络信号。
5.根据权利要求3所述的方法,其特征在于,所述基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数包括:
计算每个时频单元的相关系数;
计算所有帧对应的所有频带的相关系数的平均值,所述平均值即是所述参考语音信号和所述待测降噪语音信号的相关系数。
6.根据权利要求3所述的方法,其特征在于,还包括:
获取预设的关键词唤醒模型的输出概率;
获取所述相关系数和所述输出概率的相关程度,所述相关程度用于表征语音质量评分和所述语音识别率的相关性。
7.一种评估语音增强算法性能的装置,其特征在于,包括:
语音信号获取模块,用于获取第一带噪语音信号和第二带噪语音信号,其中第一带噪语音信号由靠近发声源的近端音频采集设备采集,第二带噪语音信号由远离所述发声源的远端音频采集设备采集;
参考信号获取模块,用于基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号,将所述类纯净语音信号作为参考语音信号;
降噪信号获取模块,用于利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理,获得待测降噪语音信号;
语音增强评估模块,用于获取所述参考语音信号和所述待测降噪语音信号的相关系数,所述相关系数用于评估所述语音增强算法。
8.根据权利要求7所述的装置,其特征在于,所述参考信号获取模块包括:
预处理单元,用于分别对所述第一带噪语音信号和所述第二带噪语音信号进行预处理;所述预处理包括分帧和加窗;
时频获取单元,用于分别对预处理后的所述第一带噪语音信号和所述第二带噪语音信号作傅里叶变换,得到所述第一带噪语音信号和所述第二带噪语音信号的时频单元;
残差获取单元,用于获取类纯净语音信号;所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关;
类纯净信号确定单元,用于确定所述总残差最小时的类纯净语音信号作为最终的类纯净语音信号;
参考信号获取单元,用于将所述最终的类纯净语音信号进行逆傅里叶变换,得到所述参考语音信号。
9.根据权利要求7所述的装置,其特征在于,所述语音增强评估模块包括:
包络获取单元,用于获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号;
包络处理单元,用于对所述待测降噪语音信号的频谱包络信号进行处理,得到目标频谱包络信号;
系数获取单元,用于基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数。
10.根据权利要求9所述的装置,其特征在于,所述包络获取单元包括:
变换子单元,用于分别对所述参考语音信号和所述待测降噪语音信号进行分帧、加窗和傅里叶变换,得到第一频域信号和第二频域信号;
选取子单元,用于从所述第一频域信号中选取能量最大帧,得到第一能量值;所述第一能量值为所述能量最大帧对应能量值减去设定分贝后得到;
过滤子单元,用于分别过滤所述第一频域信号和所述第二频域信号小于所述第一能量值的帧;
划分子单元,用于分别对所述第一频域信号和所述第二频域信号进行频带划分;
获取子单元,用于分别获取所述第一频域信号和所述第二频域信号的频谱包络,并采用向量表示所述频谱包络,得到频谱包络信号。
11.根据权利要求9所述的装置,其特征在于,所述系数获取单元包括:
系数计算子单元,用于计算每个时频单元的相关系数;
平均值计算子单元,用于计算所有帧对应的所有频带的相关系数的平均值,所述平均值即是所述参考语音信号和所述待测降噪语音信号的相关系数。
12.根据权利要求9所述的装置,其特征在于,还包括:
概率获取模块,用于获取预设的关键词唤醒模型的输出概率;
相关度获取模块,用于获取所述相关系数和所述输出概率的相关程度,所述相关程度用于表征语音质量评分和所述语音识别率的相关性。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储可执行指令的存储器;
所述处理器被配置为执行所述存储器中的可执行指令以实现权利要求1~6任一项所述方法的步骤。
14.一种可读存储介质,其上存储有可执行指令,其特征在于,该可执行指令被处理器执行时实现权利要求1~6任一项所述方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911157422.9A CN110853664B (zh) | 2019-11-22 | 2019-11-22 | 评估语音增强算法性能的方法及装置、电子设备 |
US15/930,938 US11069366B2 (en) | 2019-11-22 | 2020-05-13 | Method and device for evaluating performance of speech enhancement algorithm, and computer-readable storage medium |
EP20177249.8A EP3826012B1 (en) | 2019-11-22 | 2020-05-28 | Method and device for evaluating performance of speech enhancement algorithm, electronic device and computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911157422.9A CN110853664B (zh) | 2019-11-22 | 2019-11-22 | 评估语音增强算法性能的方法及装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110853664A true CN110853664A (zh) | 2020-02-28 |
CN110853664B CN110853664B (zh) | 2022-05-06 |
Family
ID=69603842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911157422.9A Active CN110853664B (zh) | 2019-11-22 | 2019-11-22 | 评估语音增强算法性能的方法及装置、电子设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11069366B2 (zh) |
EP (1) | EP3826012B1 (zh) |
CN (1) | CN110853664B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785298A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 声学性能测试方法及装置、电子设备、计算机可读介质 |
CN112233693A (zh) * | 2020-10-14 | 2021-01-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音质评估方法、装置和设备 |
CN112530460A (zh) * | 2020-11-30 | 2021-03-19 | 厦门亿联网络技术股份有限公司 | 语音增强质量评估方法、装置、终端及存储介质 |
CN113473314A (zh) * | 2020-03-31 | 2021-10-01 | 华为技术有限公司 | 音频信号处理方法以及相关设备 |
CN113593591A (zh) * | 2021-07-27 | 2021-11-02 | 北京小米移动软件有限公司 | 语料降噪方法及装置、电子设备和存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206620B (zh) * | 2023-05-05 | 2023-07-07 | 北京和熵通信科技有限公司 | 训练场景的语音通信干扰效果评估方法及其装置 |
CN116705025A (zh) * | 2023-08-02 | 2023-09-05 | 泉州市三川通讯技术股份有限责任公司 | 一种车载终端通信方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070055508A1 (en) * | 2005-09-03 | 2007-03-08 | Gn Resound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
CN101853666A (zh) * | 2009-03-30 | 2010-10-06 | 华为技术有限公司 | 一种语音增强的方法和装置 |
US20130024194A1 (en) * | 2010-11-25 | 2013-01-24 | Goertek Inc. | Speech enhancing method and device, and nenoising communication headphone enhancing method and device, and denoising communication headphones |
CN102969002A (zh) * | 2012-11-28 | 2013-03-13 | 厦门大学 | 一种可抑制移动噪声的麦克风阵列语音增强装置 |
CN105513605A (zh) * | 2015-12-01 | 2016-04-20 | 南京师范大学 | 手机麦克风的语音增强***和语音增强方法 |
CN107123430A (zh) * | 2017-04-12 | 2017-09-01 | 广州视源电子科技股份有限公司 | 回声消除方法、装置、会议平板及计算机存储介质 |
CN107316648A (zh) * | 2017-07-24 | 2017-11-03 | 厦门理工学院 | 一种基于有色噪声的语音增强方法 |
CN107408394A (zh) * | 2014-11-12 | 2017-11-28 | 美国思睿逻辑有限公司 | 确定在主信道与参考信道之间的噪声功率级差和声音功率级差 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10397711B2 (en) * | 2015-09-24 | 2019-08-27 | Gn Hearing A/S | Method of determining objective perceptual quantities of noisy speech signals |
EP3220661B1 (en) * | 2016-03-15 | 2019-11-20 | Oticon A/s | A method for predicting the intelligibility of noisy and/or enhanced speech and a binaural hearing system |
US10812915B2 (en) * | 2017-10-27 | 2020-10-20 | Starkey Laboratories, Inc. | Electronic device using a compound metric for sound enhancement |
-
2019
- 2019-11-22 CN CN201911157422.9A patent/CN110853664B/zh active Active
-
2020
- 2020-05-13 US US15/930,938 patent/US11069366B2/en active Active
- 2020-05-28 EP EP20177249.8A patent/EP3826012B1/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070055508A1 (en) * | 2005-09-03 | 2007-03-08 | Gn Resound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
CN101853666A (zh) * | 2009-03-30 | 2010-10-06 | 华为技术有限公司 | 一种语音增强的方法和装置 |
US20130024194A1 (en) * | 2010-11-25 | 2013-01-24 | Goertek Inc. | Speech enhancing method and device, and nenoising communication headphone enhancing method and device, and denoising communication headphones |
CN102969002A (zh) * | 2012-11-28 | 2013-03-13 | 厦门大学 | 一种可抑制移动噪声的麦克风阵列语音增强装置 |
CN107408394A (zh) * | 2014-11-12 | 2017-11-28 | 美国思睿逻辑有限公司 | 确定在主信道与参考信道之间的噪声功率级差和声音功率级差 |
CN105513605A (zh) * | 2015-12-01 | 2016-04-20 | 南京师范大学 | 手机麦克风的语音增强***和语音增强方法 |
CN107123430A (zh) * | 2017-04-12 | 2017-09-01 | 广州视源电子科技股份有限公司 | 回声消除方法、装置、会议平板及计算机存储介质 |
CN107316648A (zh) * | 2017-07-24 | 2017-11-03 | 厦门理工学院 | 一种基于有色噪声的语音增强方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113473314A (zh) * | 2020-03-31 | 2021-10-01 | 华为技术有限公司 | 音频信号处理方法以及相关设备 |
CN111785298A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 声学性能测试方法及装置、电子设备、计算机可读介质 |
CN112233693A (zh) * | 2020-10-14 | 2021-01-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音质评估方法、装置和设备 |
CN112233693B (zh) * | 2020-10-14 | 2023-12-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音质评估方法、装置和设备 |
CN112530460A (zh) * | 2020-11-30 | 2021-03-19 | 厦门亿联网络技术股份有限公司 | 语音增强质量评估方法、装置、终端及存储介质 |
CN113593591A (zh) * | 2021-07-27 | 2021-11-02 | 北京小米移动软件有限公司 | 语料降噪方法及装置、电子设备和存储介质 |
CN113593591B (zh) * | 2021-07-27 | 2024-06-11 | 北京小米移动软件有限公司 | 语料降噪方法及装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110853664B (zh) | 2022-05-06 |
US11069366B2 (en) | 2021-07-20 |
EP3826012A1 (en) | 2021-05-26 |
US20210158832A1 (en) | 2021-05-27 |
EP3826012B1 (en) | 2022-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853664B (zh) | 评估语音增强算法性能的方法及装置、电子设备 | |
CN111418010B (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
US9812147B2 (en) | System and method for generating an audio signal representing the speech of a user | |
WO2021196905A1 (zh) | 语音信号去混响处理方法、装置、计算机设备和存储介质 | |
EP2643981B1 (en) | A device comprising a plurality of audio sensors and a method of operating the same | |
RU2376722C2 (ru) | Способ многосенсорного улучшения речи на мобильном ручном устройстве и мобильное ручное устройство | |
Jeub et al. | Noise reduction for dual-microphone mobile phones exploiting power level differences | |
US9524735B2 (en) | Threshold adaptation in two-channel noise estimation and voice activity detection | |
CN113766073B (zh) | 会议***中的啸叫检测 | |
US20060224382A1 (en) | Noise reduction and audio-visual speech activity detection | |
EP3757993B1 (en) | Pre-processing for automatic speech recognition | |
WO2022253003A1 (zh) | 语音增强方法及相关设备 | |
CN112053702B (zh) | 一种语音处理的方法、装置及电子设备 | |
CN111986693A (zh) | 音频信号的处理方法及装置、终端设备和存储介质 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN115482830B (zh) | 语音增强方法及相关设备 | |
Shankar et al. | Influence of MVDR beamformer on a Speech Enhancement based Smartphone application for Hearing Aids | |
CN112201267A (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
JP7383122B2 (ja) | 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 | |
CN111667842B (zh) | 音频信号处理方法及装置 | |
Shankar et al. | Smartphone-based single-channel speech enhancement application for hearing aids | |
GB2580655A (en) | Reducing a noise level of an audio signal of a hearing system | |
Agrawal et al. | Performance analysis of speech enhancement using spectral gating with U-Net | |
CN116320872A (zh) | 耳机的模式切换方法、装置、电子设备及存储介质 | |
CN118038853A (zh) | 一种音质评估模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |