CN109637553A - 一种语音去混响的方法及装置 - Google Patents
一种语音去混响的方法及装置 Download PDFInfo
- Publication number
- CN109637553A CN109637553A CN201910016620.7A CN201910016620A CN109637553A CN 109637553 A CN109637553 A CN 109637553A CN 201910016620 A CN201910016620 A CN 201910016620A CN 109637553 A CN109637553 A CN 109637553A
- Authority
- CN
- China
- Prior art keywords
- speech
- reverberation
- frequency response
- signal
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001228 spectrum Methods 0.000 claims abstract description 115
- 230000004044 response Effects 0.000 claims abstract description 112
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000010606 normalization Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 22
- 238000012805 post-processing Methods 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 12
- 230000003247 decreasing effect Effects 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 abstract description 19
- 238000005286 illumination Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000002207 retinal effect Effects 0.000 description 5
- 230000001629 suppression Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000002310 reflectometry Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供了一种语音去混响的方法及装置,涉及语音信号处理技术领域。该语音去混响的方法,包括:获取混响语音的语谱信号;对所述混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图;对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响;对所述类混响***频响进行后处理,获取混响***频响估计;根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱;根据所述去混响语音信号的语谱,获取时域去混响语音信号。上述方案,可以节省去混响的计算资源,降低了去混响成本,可以实现有效的去混响,即使在严重混响的环境中,自动语音识别的性能也有明显的提高。
Description
技术领域
本发明涉及语音信号处理技术领域,特别涉及一种语音去混响的方法及装置。
背景技术
众所周知,语音去混响技术已广泛应用于免提电话、助听器、电话会议***、高保真语音控制***和自动语音识别***。语音去混响方法又称混响消除法,通常大致分为有三大类,但是现有的语音去混响方法又分别存在下列问题:
第一类基于麦克风阵列处理的去混响技术,其性能受限于阵列的麦克风数目,要获得令人满意的去混响结果,势必需要大量的麦克风,这便导致实际产品的成本提高和结构设计的困难增加。第二类在频域对后混响信号进行抑制处理的去混响技术需要首先估计出工作环境的混响时间参数(RT60),但由于目前尚缺乏关于工作环境中与频率关联的混响时间参数(RT60)的高精度实时估计算法,故该技术的去混响性能受限。第三类基于逆滤波思想的去混响技术中能实际应用的WPE方法涉及一个高阶观测数据相关矩阵的伪逆运算,因而在商用DSP上实现时通常耗费较多的计算资源。
发明内容
本发明实施例提供一种语音去混响的方法及装置,以解决现有的语音去混响技术存在成本较高、结构设计较为复杂、去混响能力受限、实现耗费较多计算资源的问题。
为了解决上述技术问题,本发明实施例提供一种语音去混响的方法,包括:
获取混响语音的语谱信号;
对所述混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图;
对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响;
对所述类混响***频响进行后处理,获取混响***频响估计;
根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱;
根据所述去混响语音信号的语谱,获取时域去混响语音信号。
可选地,所述对所述混响语音的语谱信号进行归一化处理,得到混响语音归一化语谱图,包括:
根据公式:获取混响语音的归一化语谱图;
其中,Xnorm(k,t)为混响语音的归一化语谱图;X(k,t)为混响语音的语谱信号;Xmax为X(k,t)的最大值;M为预设的正整数,且M为灰度电平等级的个数;为向下取整函数;k为离散频率的索引;t为时域信号帧索引。
可选地,所述对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响,包括:
根据公式:H(k,t)=Xnorm(k,t)*G(k,t),获取类混响***频响;
其中,H(k,t)为类混响***频响;Xnorm(k,t)为混响语音的归一化语谱图;*为线性卷积算平;G(k,t)为平滑核,且∫∫G(k,t)dtdk=1,β为归一化系数常数,且β使得的全积分等于1;α为滤波半径,且α越大,图像越锐化;k为离散频率的索引;t为时域信号帧索引。
可选地,所述对所述类混响***频响进行后处理,获取混响***频响估计,包括:
根据公式:获取混响***频响估计;
其中,为混响***频响估计;H(k,t)为类混响***频响;为的最小值;为的最大值;Hmin为H(k,t)的最小值;Hmax为H(k,t)的最大值;Φ{·}为递减函数;k为离散频率的索引;t为时域信号帧索引。
可选地,所述根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱,包括:
根据公式:获取去混响语音信号的语谱;
其中,为去混响语音信号的语谱;X(k,t)为混响语音的语谱信号;为混响***频响估计;k为离散频率的索引;t为时域信号帧索引。
本发明实施例还提供一种语音去混响的装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其中,所述处理器执行所述计算机程序时实现以下步骤:
获取混响语音的语谱信号;
对所述混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图;
对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响;
对所述类混响***频响进行后处理,获取混响***频响估计;
根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱;
根据所述去混响语音信号的语谱,获取时域去混响语音信号。
可选地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取混响语音的归一化语谱图;
其中,Xnorm(k,t)为混响语音的归一化语谱图;X(k,t)为混响语音的语谱信号;Xmax为X(k,t)的最大值;M为预设的正整数,且M为灰度电平等级的个数;为向下取整函数;k为离散频率的索引;t为时域信号帧索引。
可选地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:H(k,t)=Xnorm(k,t)*G(k,t),获取类混响***频响;
其中,H(k,t)为类混响***频响;Xnorm(k,t)为混响语音的归一化语谱图;*为线性卷积算子;G(k,t)为平滑核,且∫∫G(k,t)dtdk=1,β为归一化系数常数,且β使得的全积分等于1;α为滤波半径,且α越大,图像越锐化;k为离散频率的索引;t为时域信号帧索引。
可选地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取混响***频响估计;
其中,为混响***频响估计;H(k,t)为类混响***频响;为的最小值;为的最大值;Hmin为H(k,t)的最小值;Hmax为H(k,t)的最大值;Φ{·}为递减函数;k为离散频率的索引;t为时域信号帧索引。
可选地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取去混响语音信号的语谱;
其中,为去混响语音信号的语谱;X(k,t)为混响语音的语谱信号;为混响***频响估计;k为离散频率的索引;t为时域信号帧索引。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述的语音去混响的方法中的步骤。
本发明实施例还提供一种语音去混响的装置,包括:
第一获取模块,用于获取混响语音的语谱信号;
第二获取模块,用于对所述混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图;
第三获取模块,用于对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响;
第四获取模块,用于对所述类混响***频响进行后处理,获取混响***频响估计;
第五获取模块,用于根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱;
第六获取模块,用于根据所述去混响语音信号的语谱,获取时域去混响语音信号。
可选地,所述第二获取模块,用于:
根据公式:获取混响语音的归一化语谱图;
其中,Xnorm(k,t)为混响语音的归一化语谱图;X(k,t)为混响语音的语谱信号;Xmax为X(k,t)的最大值;M为预设的正整数,且M为灰度电平等级的个数;为向下取整函数;k为离散频率的索引;t为时域信号帧索引。
可选地,所述第三获取模块,用于:
根据公式:H(k,t)=Xnorm(k,t)*G(k,t),获取类混响***频响;
其中,H(k,t)为类混响***频响;Xnorm(k,t)为混响语音的归一化语谱图;*为线性卷积算子;G(k,t)为平滑核,且∫∫G(k,t)dtdk=1,β为归一化系数常数,且β使得的全积分等于1;α为滤波半径,且α越大,图像越锐化;k为离散频率的索引;t为时域信号帧索引。
可选地,所述第四获取模块,用于:
根据公式:获取混响***频响估计;
其中,为混响***频响估计;H(k,t)为类混响***频响;为的最小值;为的最大值;Hmin为H(k,t)的最小值;Hmax为H(k,t)的最大值;Φ{·}为递减函数;k为离散频率的索引;t为时域信号帧索引。
可选地,所述第五获取模块,用于:
根据公式:获取去混响语音信号的语谱;
其中,为去混响语音信号的语谱;X(k,t)为混响语音的语谱信号;为混响***频响估计;k为离散频率的索引;t为时域信号帧索引。
本发明的有益效果是:
上述方案,通过对混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图,在对混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响,然后对类混响***频响进行后处理,获取混响***频响估计,最后得到时域去混响语音信号,此种方式,可以节省去混响的计算资源,降低了去混响成本,可以实现有效的去混响,即使在严重混响的环境中,自动语音识别的性能也有明显的提高。
附图说明
图1表示本发明实施例的语音去混响的方法的流程示意图;
图2表示应用SR模型来进行语音信号去混响处理的原理示意图;
图3表示变换函数ψ的第一种实现方式示意图;
图4表示变换函数ψ的第二种实现方式示意图;
图5表示本发明实施例的语音去混响的装置的模块示意图;
图6表示本发明实施例的语音去混响的装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
在进行本发明实施例的说明时,首先对下面描述中所用到的一些概念进行解释说明。
语音去混响方法又称混响消除法,通常大致分为有三大类:
第一类是采用麦克风阵列处理技术,该技术首先估计声源相对麦克风阵列的方位(Direction of Arrival,DOA),通过控制麦克风阵列的方向性来增强来自声源方向的直达信号成分,并减小和消除来自其它方向的声源反射信号成分,从而达到去混响的目的,为了获得满意的去混响效果,该技术通常需要大量数目的麦克风,以便阵列获得充分的方向性增益。
第二类去混响技术则是在频域对后混响信号进行抑制处理的方法,该方法首先估计出工作环境的混响时间参数(RT60),并据此估计出后混响信号的功率谱,然后应用噪声抑制中的谱减法对后混响信号进行抑制处理,尽管该技术不涉及信号的相位信息而使其处理性能具有较好的鲁棒性,但由于目前尚缺乏关于工作环境中与频率关联的混响时间参数(RT60)的高精度实时估计算法,故该技术的去混响性能受限。
第三类去混响技术则是基于逆滤波的思想,其目标是估计出引发混响的室内冲激响应(Room Impulse Response,RIR)的逆滤波器,用其对混响语音信号进行滤波处理以恢复源信号,在声源到麦克风的室内传递函数(Room Transfer Function,RTF)已知的情况下,用RTF的逆滤波器可以从观测的混响信号中精确地恢复出其源信号,业已证明:在麦克风数目大于已激活的声源数目、并且每个声源到每个麦克风的RTF不存在共同的零点的条件下,上述功能的逆滤波器解是存在的。然而在实际应用中,RTF(或其等效的逆滤波器)是时变的、未知的,需要从已获的观测数据中估计出。为此,大量学者致力于该领域的探索和研究,提出了许多方法,最为引人注目的便是基于延时的线性预测(Delayed LinearPrediction,DLP)的后混响抑制技术,该技术能有效地抑制后混响成分而未明显地损伤语音的短时相关性,但它要求DLP的滤波器阶数很高(滤波器通常有数千个系数),因而需要很长的观测数据,由此导致该技术具有很高的计算负荷,难以在商用的数字信号处理器(Digital Signal Processor,DSP)芯片上实时实现。
此外,人们还提出将时变语音信号源模型与多声道线性预测相结合来进行去混响的方法,该方法可以基于较短的观测数据有效地抑制后混响,而且对前混响也有抑制的效果,但它固有的计算复杂度致使其无法在实际中应用。最近,人们将基于DLP的去混响技术拓展到处理时变语音信号的场景,提出了一种称之为方差归一化延时的线性预测(NDLP)去混响技术,NDLP的频域实现即为著名的加权预测误差(Weighted Prediction Error,WPE)去混响算法,尽管WPE性能具有较好的鲁棒性,但它涉及一个高阶观测数据相关矩阵的伪逆运算,因而在商用DSP上实现时通常耗费较多的计算资源。
正如上面所述,本发明针对现有的语音去混响技术存在成本较高、结构设计较为复杂、去混响能力受限、实现耗费较多计算资源的问题,提供一种语音去混响的方法及装置。
具体地,本发明基于环绕视网膜皮层(Surround Retinex,SR)模型,提出了一种新颖实用的去混响方法。该方法与上述传统的去混响技术相比,具有更合理的计算复杂度,可以实现有效的去混响,即使在严重混响的环境中,自动语音识别(Automatic SpeechRecognition,ASR)的性能也有所提高。
下面对本发明实施例的实现原理进行说明如下。
本发明基于环绕视网膜皮层(Surround Retinex,SR)模型,提出了一种新颖实用的去混响技术。与上述传统的去混响技术相比,具有更合理的计算复杂度,可以实现有效的去混响,即使在严重混响的环境中,自动语音识别(Automatic Speech Recognition,ASR)的性能也有所提高。
本发明的主要思想是:既然环绕视网膜皮层(SR)模型已被证明是一种有效的图像增强工具,它能够从退化图像中估计出图像照明源,那么鉴于作为混响语音信号时-频域有效表征的“语谱图”(Spectrogram)可以看成类似于具有被污染的场景照明图像,一种自然的想法便是应用SR模型从混响语音信号的“语谱图”中估计出去混响的语音信号“语谱图”,进而获得时域去混响语音信号。
一、SR模型简介:
“视网膜皮层”模型是著名学者E.H.Land和J.J.McCann于1971年提出的一种基于人视觉***的图像增强理论,这一理论指出:尽管到达眼睛的视觉光量取决于反射率和光照,但是一个自然场景中感知的图像与反射率有很强的相关性。换言之,即使在困难的光照情况下,人类视觉***也能通过依靠场景的反射率和忽视场景照明的方式能感知颜色。这个理论是基于反射率图像模型,在数学上可以表述为:
公式一、F(x,y)=R(x,y)·I(x,y)
其中,F(x,y)表示一个自然场景的感知图像;R(x,y)表示一个反射图像,它仅取决于场景表面的反射率,对应于高频的反射亮度;I(x,y)表示一个光照图像,它由照明光源决定并与照明量有关,对应于低频的亮度。
SR模型的关键技术是基于感知图像F(x,y)来估计光照图像I(x,y)。D.J.Jobson等人建议:光照图像I(x,y)可以估计为感知图像F(x,y)的一种模糊方案,即利用公式二表示为:
公式二:
其中,*为线性卷积算子,G(x,y)为平滑核,G(x,y)通常取为下述公式三的Gauss核形式:
公式三:∫∫G(x,y)dxdy=1
其中,α是滤波半径,α越大,图像越锐化;β是为归一化系数常数,使得公式后半部分的全积分等于1。因此,反射图像R(x,y)的估计可用公式四表达为:
公式四:
其中,为反射图像R(x,y)的估计,这里恢复的是独立于光照的成分。
二、基于SR模型的语音信号去混响技术
通常情况下,一个混响时域数字语音信号x(n)数学上可表征为:
公式五:x(n)=s(n)*h(n)
其中,*为线性卷积算子,s(n)为源语音数字信号,h(n)为信号源与麦克风间的信道冲激响应。可见,混响语音信号x(n)是“干净”语音信号s(n)和冲击响应h(n)的线性卷积。
对公式五两边进行短时离散傅里叶变化(STDFT)便得:
公式六:X(k,t)=S(k,t)·H(k,t)
其中X(k,t)、S(k,t)和H(k,t)分别为信号x(n)、s(n)和h(n)的STDFT,k为离散频率的索引,t为时域信号帧索引。
比较公式一和公式六,我们可以看出SR模型和混响语音模型之间存在表1所示的对应关系。
数学模型 | 环绕视网膜皮层模型 | 混响语音模型 |
信号类别 | 图像 | 语音 |
模型 | F(x,y)=R(x,y)·I(x,y) | X(k,t)=S(k,t)·H(k,t) |
获取的信号 | 退化图像:F(x,y) | 混响语音语谱:X(k,t) |
源信号 | “干净”图像:R(x,y) | “干净”语音语谱:S(k,t) |
退化源 | 光照图像:I(x,y) | 混响***频响:H(k,t) |
表1 SR模型和混响语音模型之间的对应关系
由此我们提出应用SR模型来进行语音信号去混响处理的算法,其原理框图如图1所示,其中“STDFT”模块将时域混响语音x(n)转化为语谱信号X(k,t);“语谱归一化处理”模块将语谱信号X(k,t)归一化为具有M个灰度电平等级的信号Xnorm(k,t),然后用公式三推理得到的Gauss平滑核G(k,t)(注:这里取x=k,y=t)对Xnorm(k,t)进行时-频域二维滤波获得类似于SR模型中“光照图像”的类混响***频响H(k,t)。
作为一个实施例,我们给出混响语音语谱图的一种归一化方法如下:
对混响语音信号语谱图X(k,t)而言,记max{|X(k,t)|}为Xmax,那么X(k,t)对应的具有M个灰度电平的归一化语谱图Xnorm(k,t)定义为:
公式七:
其中表示不大于x的最大整数。
考虑到光照图像中的重要信息(例如人脸图像中眼和嘴)通常由低灰度值像素来表征,而语音信号语谱图中的高灰度值像素则代表了重要的语音信息,那么我们需要对估计的“光照图像”H(k,t)进行后处理以便完成这种对应关系的转换,“后处理变换器ψ”模块便是为实现这种转化而设计的,这里将转换函数Ψ定义为:
公式八:
其中为H(k,t)的最大值,为H(k,t)的最小值,函数Φ{·}为递减函数,知分别为预设的最小值和最大值参数。
如图2所示,为公式八的一种可选地实现形式,采用图2中的抛物线曲线的左半部实现部作为变换函数ψ,其中,图2中的抛物线曲线的具体定义函数为:A1为预设常数;B1为预设常数,H0为抛物线曲线的最小值。
如图3所示,为公式八的另一种可选地实现形式,采用图3中的一段直线作为变换函数ψ,其中,图3中的直线的具体定义函数为: A2为预设常数;B2为预设常数。
根据已求得的X(k,t)与“去混响语音语谱估计器”模块按公式九计算去混响语信号的语谱
公式九:
最后应用“逆短时离散傅里叶变换(ISTDFT)”模块将去混响语音信号的语谱变换回时域即得时域去混语音信号
下面对本发明实施例的具体实现过程说明如下。
如图4所示,本发明实施例提供一种语音去混响的方法,包括:
步骤41,获取混响语音的语谱信号;
步骤42,对所述混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图;
步骤43,对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响;
步骤44,对所述类混响***频响进行后处理,获取混响***频响估计;
步骤45,根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱;
步骤46,根据所述去混响语音信号的语谱,获取时域去混响语音信号。
具体地,所述步骤42的实现方式为:
根据上述公式七:获取混响语音的归一化语谱图;
其中,Xnorm(k,t)为混响语音的归一化语谱图;X(k,t)为混响语音的语谱信号;Xmax为X(k,t)的最大值;M为预设的正整数,且M为灰度电平等级的个数;为向下取整函数;k为离散频率的索引;t为时域信号帧索引。
具体地,所述步骤43的实现方式为:
根据公式十:H(k,t)=Xnorm(k,t)*G(k,t),获取类混响***频响;
其中,H(k,t)为类混响***频响;Xnorm(k,t)为混响语音的归一化语谱图;*为线性卷积算子;G(k,t)为平滑核,且∫∫G(k,t)dtdk=1,β为归一化系数常数,且β使得的全积分等于1;α为滤波半径,且α越大,图像越锐化;k为离散频率的索引;t为时域信号帧索引。
具体地,所述步骤44的实现方式为:
根据上述公式八:
获取混响***频响估计;
其中,为混响***频响估计;H(k,t)为类混响***频响;为的最小值;为的最大值;Hmin为H(k,t)的最小值;Hmax为H(k,t)的最大值;Φ{·}为递减函数;k为离散频率的索引;t为时域信号帧索引。
具体地,所述步骤45的实现方式为:
根据公式十一:获取去混响语音信号的语谱;
其中,为去混响语音信号的语谱;X(k,t)为混响语音的语谱信号;为混响***频响估计;k为离散频率的索引;t为时域信号帧索引。
需要说明的是,步骤46的具体实现方式为:应用逆短时离散傅里叶变换(ISTDFT)将去混响语音信号的语谱变换回时域,便可得到时域去混语音信号。
本发明实施例通过对比图像增强技术中的SR模型与混响语音信号的语谱图模型,给出了两者之间的对应关系,据此将SR模型的相关算法应用于混响语音语谱图以便完成混响语音信号的去混响任务;为便于应用SR模型,本发明实施例首先将混响语音信号的语谱图X(k,t)转化为一个M级灰度的语谱图Xnorm(k,t),然后用Gauss平滑核函数对之进行时-频域二维滤波处理而获得“光照图像”H(k,t);考虑到图像中重要信息表征与语音语谱图中重要信息表征的逆对应关系(即:图像中重要信息由低灰度级的像素来表征,而语音语谱图中的重要信息由高灰度级的像素来表征),采用后处理变换的方式将H(k,t)转化为所需的混响***频响并根据混响***频响和混响语音的语谱信号来计算去混响语音信号的语谱,从而获得去混响的时域去混响语音信号。
本发明实施例可以节省去混响的计算资源,降低去混响成本,进而实现有效的去混响,即使在严重混响的环境中,自动语音识别的性能也有明显的提高。
如图5所示,本发明实施例还提供一种语音去混响的装置,包括:
第一获取模块51,用于获取混响语音的语谱信号;
第二获取模块52,用于对所述混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图;
第三获取模块53,用于对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响;
第四获取模块54,用于对所述类混响***频响进行后处理,获取混响***频响估计;
第五获取模块55,用于根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱;
第六获取模块56,用于根据所述去混响语音信号的语谱,获取时域去混响语音信号。
进一步地,所述第二获取模块52,用于:
根据公式:获取混响语音的归一化语谱图;
其中,Xnorm(k,t)为混响语音的归一化语谱图;X(k,t)为混响语音的语谱信号;Xmax为X(k,t)的最大值;M为预设的正整数,且M为灰度电平等级的个数;为向下取整函数;k为离散频率的索引;t为时域信号帧索引。
进一步地,所述第三获取模块53,用于:
根据公式:H(k,t)=Xnorm(k,t)*G(k,t),获取类混响***频响;
其中,H(k,t)为类混响***频响;Xnorm(k,t)为混响语音的归一化语谱图;*为线性卷积算子;G(k,t)为平滑核,且∫∫G(k,t)dtdk=1,β为归一化系数常数,且β使得的全积分等于1;α为滤波半径,且α越大,图像越锐化;k为离散频率的索引;t为时域信号帧索引。
进一步地,所述第四获取模块54,用于:
根据公式:获取混响***频响估计;
其中,为混响***频响估计;H(k,t)为类混响***频响;为的最小值;为的最大值;Hmin为H(k,t)的最小值;Hmax为H(k,t)的最大值;Φ{·}为递减函数;k为离散频率的索引;t为时域信号帧索引。
进一步地,所述第五获取模块55,用于:
根据公式:获取去混响语音信号的语谱;
其中,为去混响语音信号的语谱;X(k,t)为混响语音的语谱信号;为混响***频响估计;k为离散频率的索引;t为时域信号帧索引。
需要说明的是,该装置的实施例是与上述方法实施例一一对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
如图6所示,本发明实施例还提供一种语音去混响的装置,包括处理器61、存储器62及存储在所述存储器62上并可在所述处理器61上运行的计算机程序;其中,所述处理器61用于读取存储器中的程序,执行下列过程:
获取混响语音的语谱信号;
对所述混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图;
对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响;
对所述类混响***频响进行后处理,获取混响***频响估计;
根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱;
根据所述去混响语音信号的语谱,获取时域去混响语音信号。
需要说明的是,在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器61代表的一个或多个处理器和存储器62代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。针对不同的装置,处理器61负责管理总线架构和通常的处理,存储器62可以存储处理器61在执行操作时所使用的数据。
可选地,所述处理器61执行所述计算机程序时实现以下步骤:
根据公式:获取混响语音的归一化语谱图;
其中,Xnorm(k,t)为混响语音的归一化语谱图;X(k,t)为混响语音的语谱信号;Xmax为X(k,t)的最大值;M为预设的正整数,且M为灰度电平等级的个数;为向下取整函数;k为离散频率的索引;t为时域信号帧索引。
可选地,所述处理器61执行所述计算机程序时实现以下步骤:
根据公式:H(k,t)=Xnorm(k,t)*G(k,t),获取类混响***频响;
其中,H(k,t)为类混响***频响;Xnorm(k,t)为混响语音的归一化语谱图;*为线性卷积算子;G(k,t)为平滑核,且∫∫G(k,t)dtdk=1,β为归一化系数常数,且β使得的全积分等于1;α为滤波半径,且α越大,图像越锐化;k为离散频率的索引;t为时域信号帧索引。
可选地,所述处理器61执行所述计算机程序时实现以下步骤:
根据公式:获取混响***频响估计;
其中,为混响***频响估计;H(k,t)为类混响***频响;为的最小值;为的最大值;Hmin为H(k,t)的最小值;Hmax为H(k,t)的最大值;Φ{·}为递减函数;k为离散频率的索引;t为时域信号帧索引。
可选地,所述处理器61执行所述计算机程序时实现以下步骤:
根据公式:获取去混响语音信号的语谱;
其中,为去混响语音信号的语谱;X(k,t)为混响语音的语谱信号;为混响***频响估计;k为离散频率的索引;t为时域信号帧索引。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音去混响的方法。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。
Claims (16)
1.一种语音去混响的方法,其特征在于,包括:
获取混响语音的语谱信号;
对所述混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图;
对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响;
对所述类混响***频响进行后处理,获取混响***频响估计;
根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱;
根据所述去混响语音信号的语谱,获取时域去混响语音信号。
2.根据权利要求1所述的语音去混响的方法,其特征在于,所述对所述混响语音的语谱信号进行归一化处理,得到混响语音归一化语谱图,包括:
根据公式:获取混响语音的归一化语谱图;
其中,Xnorm(k,t)为混响语音的归一化语谱图;X(k,t)为混响语音的语谱信号;Xmax为X(k,t)的最大值;M为预设的正整数,且M为灰度电平等级的个数;为向下取整函数;k为离散频率的索引;t为时域信号帧索引。
3.根据权利要求1所述的语音去混响的方法,其特征在于,所述对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响,包括:
根据公式:H(k,t)=Xnorm(k,t)*G(k,t),获取类混响***频响;
其中,H(k,t)为类混响***频响;Xnorm(k,t)为混响语音的归一化语谱图;*为线性卷积算子;G(k,t)为平滑核,且∫∫G(k,t)dtdk=1,β为归一化系数常数,且β使得的全积分等于1;α为滤波半径,且α越大,图像越锐化;k为离散频率的索引;t为时域信号帧索引。
4.根据权利要求1所述的语音去混响的方法,其特征在于,所述对所述类混响***频响进行后处理,获取混响***频响估计,包括:
根据公式:获取混响***频响估计;
其中,为混响***频响估计;H(k,t)为类混响***频响;为的最小值;为的最大值;Hmin为H(k,t)的最小值;Hmax为H(k,t)的最大值;Φ{·}为递减函数;k为离散频率的索引;t为时域信号帧索引。
5.根据权利要求1所述的语音去混响的方法,其特征在于,所述根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱,包括:
根据公式:获取去混响语音信号的语谱;
其中,为去混响语音信号的语谱;X(k,t)为混响语音的语谱信号;为混响***频响估计;k为离散频率的索引;t为时域信号帧索引。
6.一种语音去混响的装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取混响语音的语谱信号;
对所述混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图;
对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响;
对所述类混响***频响进行后处理,获取混响***频响估计;
根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱;
根据所述去混响语音信号的语谱,获取时域去混响语音信号。
7.根据权利要求6所述的语音去混响的装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取混响语音的归一化语谱图;
其中,Xnorm(k,t)为混响语音的归一化语谱图;X(k,t)为混响语音的语谱信号;Xmax为X(k,t)的最大值;M为预设的正整数,且M为灰度电平等级的个数;为向下取整函数;k为离散频率的索引;t为时域信号帧索引。
8.根据权利要求6所述的语音去混响的装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:H(k,t)=Xnorm(k,t)*G(k,t),获取类混响***频响;
其中,H(k,t)为类混响***频响;Xnorm(k,t)为混响语音的归一化语谱图;*为线性卷积算子;G(k,t)为平滑核,且∫∫G(k,t)dtdk=1,β为归一化系数常数,且β使得的全积分等于1;α为滤波半径,且α越大,图像越锐化;k为离散频率的索引;t为时域信号帧索引。
9.根据权利要求6所述的语音去混响的装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取混响***频响估计;
其中,为混响***频响估计;H(k,t)为类混响***频响;为的最小值;为的最大值;Hmin为H(k,t)的最小值;Hmax为H(k,t)的最大值;Φ{·}为递减函数;k为离散频率的索引;t为时域信号帧索引。
10.根据权利要求6所述的语音去混响的装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取去混响语音信号的语谱;
其中,为去混响语音信号的语谱;X(k,t)为混响语音的语谱信号;为混响***频响估计;k为离散频率的索引;t为时域信号帧索引。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的语音去混响的方法中的步骤。
12.一种语音去混响的装置,其特征在于,包括:
第一获取模块,用于获取混响语音的语谱信号;
第二获取模块,用于对所述混响语音的语谱信号进行归一化处理,得到混响语音的归一化语谱图;
第三获取模块,用于对所述混响语音的归一化语谱图进行时频域二维滤波,获取类混响***频响;
第四获取模块,用于对所述类混响***频响进行后处理,获取混响***频响估计;
第五获取模块,用于根据所述混响语音的语谱信号和所述混响***频响估计,获取去混响语音信号的语谱;
第六获取模块,用于根据所述去混响语音信号的语谱,获取时域去混响语音信号。
13.根据权利要求12所述的语音去混响的装置,其特征在于,所述第二获取模块,用于:
根据公式:获取混响语音的归一化语谱图;
其中,Xnorm(k,t)为混响语音的归一化语谱图;X(k,t)为混响语音的语谱信号;Xmax为X(k,t)的最大值;M为预设的正整数,且M为灰度电平等级的个数;为向下取整函数;k为离散频率的索引;t为时域信号帧索引。
14.根据权利要求12所述的语音去混响的装置,其特征在于,所述第三获取模块,用于:
根据公式:H(k,t)=Xnorm(k,t)*G(k,t),获取类混响***频响;
其中,H(k,t)为类混响***频响;Xnorm(k,t)为混响语音的归一化语谱图;*为线性卷积算子;G(k,t)为平滑核,且∫∫G(k,t)dtdk=1,β为归一化系数常数,且β使得的全积分等于1;α为滤波半径,且α越大,图像越锐化;k为离散频率的索引;t为时域信号帧索引。
15.根据权利要求12所述的语音去混响的装置,其特征在于,所述第四获取模块,用于:
根据公式:获取混响***频响估计;
其中,为混响***频响估计;H(k,t)为类混响***频响;为的最小值;为的最大值;Hmin为H(k,t)的最小值;Hmax为H(k,t)的最大值;Φ{·}为递减函数;k为离散频率的索引;t为时域信号帧索引。
16.根据权利要求12所述的语音去混响的装置,其特征在于,所述第五获取模块,用于:
根据公式:获取去混响语音信号的语谱;
其中,为去混响语音信号的语谱;X(k,t)为混响语音的语谱信号;为混响***频响估计;k为离散频率的索引;t为时域信号帧索引。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910016620.7A CN109637553A (zh) | 2019-01-08 | 2019-01-08 | 一种语音去混响的方法及装置 |
PCT/CN2020/070922 WO2020143670A1 (zh) | 2019-01-08 | 2020-01-08 | 语音去混响的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910016620.7A CN109637553A (zh) | 2019-01-08 | 2019-01-08 | 一种语音去混响的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109637553A true CN109637553A (zh) | 2019-04-16 |
Family
ID=66060276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910016620.7A Pending CN109637553A (zh) | 2019-01-08 | 2019-01-08 | 一种语音去混响的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109637553A (zh) |
WO (1) | WO2020143670A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143670A1 (zh) * | 2019-01-08 | 2020-07-16 | 电信科学技术研究院有限公司 | 语音去混响的方法及装置 |
CN111785292A (zh) * | 2020-05-19 | 2020-10-16 | 厦门快商通科技股份有限公司 | 一种基于图像识别的语音混响强度估计方法、装置及存储介质 |
CN114283827A (zh) * | 2021-08-19 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 音频去混响方法、装置、设备和存储介质 |
CN117995193A (zh) * | 2024-04-02 | 2024-05-07 | 山东天意装配式建筑装备研究院有限公司 | 一种基于自然语言处理的智能机器人语音交互方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485674A (zh) * | 2016-09-20 | 2017-03-08 | 天津大学 | 一种基于融合技术的弱光图像增强方法 |
CN109637553A (zh) * | 2019-01-08 | 2019-04-16 | 电信科学技术研究院有限公司 | 一种语音去混响的方法及装置 |
-
2019
- 2019-01-08 CN CN201910016620.7A patent/CN109637553A/zh active Pending
-
2020
- 2020-01-08 WO PCT/CN2020/070922 patent/WO2020143670A1/zh active Application Filing
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143670A1 (zh) * | 2019-01-08 | 2020-07-16 | 电信科学技术研究院有限公司 | 语音去混响的方法及装置 |
CN111785292A (zh) * | 2020-05-19 | 2020-10-16 | 厦门快商通科技股份有限公司 | 一种基于图像识别的语音混响强度估计方法、装置及存储介质 |
CN114283827A (zh) * | 2021-08-19 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 音频去混响方法、装置、设备和存储介质 |
CN114283827B (zh) * | 2021-08-19 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 音频去混响方法、装置、设备和存储介质 |
CN117995193A (zh) * | 2024-04-02 | 2024-05-07 | 山东天意装配式建筑装备研究院有限公司 | 一种基于自然语言处理的智能机器人语音交互方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020143670A1 (zh) | 2020-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020143670A1 (zh) | 语音去混响的方法及装置 | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN109643554B (zh) | 自适应语音增强方法和电子设备 | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及*** | |
JP6153142B2 (ja) | 音響信号を処理する方法 | |
CN111445919B (zh) | 结合ai模型的语音增强方法、***、电子设备和介质 | |
CN102739886B (zh) | 基于回声频谱估计和语音存在概率的立体声回声抵消方法 | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
US20130294611A1 (en) | Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation | |
US11373667B2 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN110875049A (zh) | 语音信号的处理方法及装置 | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
US11252517B2 (en) | Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility | |
CN108876736A (zh) | 一种基于fpga的图像阶梯效应消除方法 | |
Vincent | An experimental evaluation of Wiener filter smoothing techniques applied to under-determined audio source separation | |
WO2020078210A1 (zh) | 混响语音信号中后混响功率谱的自适应估计方法及装置 | |
CN107393553B (zh) | 用于语音活动检测的听觉特征提取方法 | |
Zheng et al. | Guided spectrogram filtering for speech dereverberation | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering | |
CN113870884B (zh) | 单麦克风噪声抑制方法和装置 | |
US20240079018A1 (en) | Adaptive echo cancellation | |
Zhang et al. | Frequency-domain dereverberation on speech signal using surround retinex |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |