CN106601249A - 一种基于听觉感知特性的数字语音实时分解/合成方法 - Google Patents

一种基于听觉感知特性的数字语音实时分解/合成方法 Download PDF

Info

Publication number
CN106601249A
CN106601249A CN201611026399.6A CN201611026399A CN106601249A CN 106601249 A CN106601249 A CN 106601249A CN 201611026399 A CN201611026399 A CN 201611026399A CN 106601249 A CN106601249 A CN 106601249A
Authority
CN
China
Prior art keywords
formula
filter
voice
gamma
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611026399.6A
Other languages
English (en)
Other versions
CN106601249B (zh
Inventor
李冬梅
杨有为
贾瑞
刘润生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201611026399.6A priority Critical patent/CN106601249B/zh
Publication of CN106601249A publication Critical patent/CN106601249A/zh
Application granted granted Critical
Publication of CN106601249B publication Critical patent/CN106601249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于听觉感知特性的数字语音实时分解/合成方法,涉及语音信号处理领域。本方法包括用N级级联的二阶带通滤波器构成一个N阶的伽马通滤波器再构建任意阶的伽马通数字滤波器模型及其参数,语音分解阶段用M路伽马通滤波器采用浮点算法或定点算法将输入语音分解为M路信号;语音合成阶段在伽马通滤波器组中引入延时,以更加符合人耳特性,人耳基底膜延时与频率成反比关,最后进行语音合成操作。本发明参考了人耳的等响度曲线特性,改进了语音分解合成方法,使得最终语音合成效果接近了理想带通滤波器的效果。本发明可应用在手机、人工耳蜗、助听器等语音设备中。

Description

一种基于听觉感知特性的数字语音实时分解/合成方法
技术领域
本发明属于数字语音信号处理领域,具体涉及一种基于听觉感知特性的数字语音实时分解/合成方法。
背景技术
在日常生活中,存在各种各样的噪声。语音增强和语音识别等设备的性能在噪声环境下会明显恶化,限制了其应用场景。由于人耳在噪声环境下仍能正常工作,且对声音具有较强的灵敏度和抗干扰能力。因此在语音信号处理***中迫切需要实现人耳尤其是基底膜的听觉感知特性。人耳基底膜的感知特性有:
1.频率选择特性:不同的频率在基底膜上都有相应的共振点,频率较高的声音,在靠近基底膜底部位置会引起较大幅度的振动;对于频率较低的声音,响应最强烈的位置在基底膜的顶部。
2.频率分析特性:它能够将声音中的各种频率分解映射到基底膜的不同位置来感知,得到频率分布图;同时还能够将声音强度转化为对应基底膜位置上的振动幅度。最终,基底膜将声音中具有不同幅度不同频率的声音分离出来,并产生相应的神经信息,相当于对频率和强度等进行了编码,这样大脑就能够对这些信息进行分析归纳,形成不同的听觉感受。
3.带宽特性:人耳基底膜每个位置的滤波特性各不相同。人耳基底膜顶部对低频比较敏感,且在低频的分辨率较高、带宽小;基底膜底部对高频敏感,且在高频的分辨率高、带宽大。
人耳基底膜每个位置的滤波特性都可以用一个听觉滤波器来描述,于是听觉***处理语音的过程可以用一组听觉滤波器来模拟,听觉滤波器是通过拟合听觉***的心理声学实验数据而被提出来的一类滤波器。使用上述听觉滤波器组可以将语音分解到不同的子带上面,进而实现对语音的分解和合成。
为了描述听觉滤波器的带宽,研究中经常使用等价矩形带宽(ERB)这一概念,ERB是指:对于相同的白噪声输入,当矩形滤波器和被测滤波器通过相同能量时,矩形滤波器的带宽即为等价矩形带宽。ERB与听觉滤波器的中心频率fc大致呈线性关系,具体关系可用表达式如式(1-1)所示来描述:
ERB(fc)=24.7(1+4.37fc/1000) (1-1)
M组滤波器的中心频率fc对应着人耳基底膜上的M个位置,它们在基底膜上是均匀分布的。为了更好的描述这种分布,ERB域(ERBs)的概念,首先通过表达式如式(1-2)所示得到ERBs域上的值,再将ERBs值均分,最后在回推出中心频率fc的值。
一种典型的听觉滤波器组是由M个伽马通滤波器(Gammatone Filterbank)构成,每个伽马通滤波器的时域表达式为:
其中,u(t)是阶跃函数;参数A一般是固定值,主要用于归一化处理;N代表滤波器的阶数,控制着Gammatone函数包络的相对形状,一般设置N=4;b代表函数的带宽,控制着函数时域的波动越大,函数波动的范围就越小,b=ERB(fc)。fc代表滤波器的中心频率;代表初始相位,由于对滤波器性能影响较小,并且人耳对相位不敏感,因此一般被设置为0。
将表达式(1-3)中进行Laplace变换,得到s域表达式为:
其中,Bc=2πb,wc=2πfc
gn为归一化参数;
对表达式(1-4)使用冲激响应不变法,
可得到数字滤波器的z域表达式:
由表达式(1-9)可得到其时域迭代方程式(1-13),滤波器结构如图1所示,由四级级联结构组成,其中a1~a4,b1,b2分别为各级滤波器的抽头系数,g1~g4分别为各级的归一化系数,方框中表示在变换域Z域进行延时操作,每一级的输入信号经过各抽头系数的加权、延时、相加等操作后传入下一级。
x1(k)=x(k) (1-12)
yn(k)=xn(k)+anx(k-1)-b1y(k-1)-b2y(k-2) (1-13)
xn+1(k)=gnyn(k) (1-14)
y(k)=g4y4(k) (1-15)
经过上述M个伽马通滤波器,输入语音被分解为M路语音信号,每路输出为ym(k),m代表各个伽马通滤波器的序号,上述(1-12)至(1-15)公式中省略了序号m。
在实际应用中,***有时还需要将分解后的语音(已经过降噪、识别等处理)恢复原始语音。由于每个通道都有群延时,因此可以获取群延时Dm,然后调整各通道延时,最后合成语音,计算表达式如下:
该方法的转移函数的幅度响应特性如图2所示,可以看到在低频阶段幅度较高,随着频率的升高幅度缓慢下降,其中合成语音中的各通道权重均相同,通道数目M=64,通道中心频率分布为50Hz~7500Hz。
上述方法的缺点是:
1.该方法限制了伽马通函数的阶数N=4,它仅仅是伽马通滤波器的一个特例,没有给出伽马通滤波器在N为其它值时的实现方法。
2.该方法的一些关键参数是通过仿真获取的,缺乏理论计算依据,主要包括参数b、归一化参数gn和通道群延时Dm,这降低了方法可操作性和可重复性。
3.该方法中的各个伽马通滤波器的幅度是相等,即合成语音时各个通道的权值均设成了1。然而人耳对于不同通道上的语音感知到的响度是不同,如图3中的人耳等响度曲线所示,横坐标为频率,单位是Hz,纵坐标为声压等级,单位为dB,要达到相同的响度,高频需要较高的幅值,低频需要较低的幅值。这样最终就导致合成语音有些频率上的语音被抑制了。
发明内容
本发明的目的是针对现有技的不足,提出一种基于听觉感知特性的数字语音实时分解/合成方法。该方法给出了任意阶数的伽马通滤波器的实现方法,同时推导出了伽马通滤波器中的归一化参数gn;并根据人耳基底膜延时特性,给出了各个的通道延时Dm。最后本发明参考了人耳的等响度曲线特性,改进了语音分解合成方法,使得最终语音合成效果接近了理想带通滤波器的效果。
本发明提出的一种基于听觉感知特性的数字语音实时分解/合成方法,其特征在于,该方法具体步骤如下:
1)构建任意阶的伽马通数字滤波器模型:
假设滤波器组数目为M,该M组滤波器对应着人耳基底膜上的M个位置,并在人耳基底膜上是均匀分布的,在频域上是对数分布的;具体包括:
1.1)已知输入语音的采样率为fs
设通过滤波器的语音频率范围为[fL,fH],0≤fL<fH≤fs/2;
1.2)根据表达式(1-2):得出中心频率fc在ERBs域上的值分布为[ERBs(fL),ERBs(fH)],将其均分成M-1份得到等间距的M个ERBs值如式(1)所示:
其中,m∈[1,M],代表通道号;
1.3)根据式(1)的计算结果得到M组滤波器的中心频率fc在ERBs域上的值如式(2)所示:
1.4)针对b(fc)与ERB(fc)的关系:基于b=ERB(fc),根据帕塞瓦尔(Paseval)定理,得出N阶伽马通滤波器中滤波器的中心频率fc的带宽函数b(fc)表达式如式(2a)所示:
其中,b代表函数的带宽,N为任意正整数;
1.5)用N级级联的二阶带通滤波器构成一个N阶的伽马通滤波器;对每个伽马通滤波器的时域表达式(1-3):进行Laplace变换得到s域表达式如式(2b)所示:
将式(2b)分解成零极点相乘得到如表达式(2c)所示:
使用冲激响应不变法得到N阶伽马通数字滤波器的z域表达式(2d):
其中n=1,2,…,N,sn为表达式分子的零点,an、b1、b2的含义分别为各级滤波器的抽头系数;
an的表达式如(1-10)所示:b1、b2的表达式如(1-11)所示:
1.6)计算归一化参数gn:伽马通滤波器各级的二阶滤波器的最大增益如式(2e)所示:
归一化参数gn如式(2f)所示:
1.7)根据步骤1.5)中得到的N级级联的二阶带通滤波器来构成任意阶的伽马通数字滤波器模型,并获取模型的各参数值:用m表示第m组伽马通滤波器组,则由表达式(1-10)、(1-11)、(2e)和(2f)分别得出各个滤波器组的参数的值,其中是各个通道的滤波器抽头系数,为各个通道的归一化系数,如式(3)-式(6)所示:
2)语音分解阶段;
利用步骤1)构建的伽马通数字滤波器模型,模仿人耳基底膜对语音进行分解:将输入语音实时地分解到M个子带上,使用M路伽马通滤波器采用浮点算法或定点算法将输入语音分解为M路信号;
3)语音合成阶段;
在伽马通滤波器组中引入延时,以更加符合人耳特性,人耳基底膜延时与频率成反比关系,伽马通滤波器的群延时用表达式(16)来描述:
式中,m通道群延时tm的单位是秒,第m组滤波器的中心频率fc的单位是Hz;
具体步骤包括:
3.1)计算各通道延时:语音的采样率为fs,则采样后的各个通道的延时dm用如表达式(17)、(18)来进行计算:
dm=D-[fstm] (17)
其中D为[fstm]中的最大值;
3.2)对各个通道在总滤波器中所占比重进行加权,则合成语音用表达式(8)来计算;设m通道的权重为wm,该权重合并到gN中,调增后的gN用如下表达式计算:
此时,最终合成语音输出如式(20)所示:
其中,当k≤dm时ym(k-dm)=0;语音实时分解、合成任务完成。
本发明的特点及有益效果在于:
1)本发明有***详细的理论推导过程,给出了各参数的理论计算方法,增强了算法实现的可操作性。
2)本发明不仅能完成语音分解操作,而且还提供了语音分解的逆变换过程,即支持后续对语音的合成操作。
3)本发明的所有操作均在时域上完成,避免了使用傅里叶变换以及逆变换等操作。
4)本发明解决了实时性问题,能实时对语音进行分解、综合操作,扩大了其应用范围。
5)针对计算复杂度过高、不利于算法硬件实现的问题,本发明提出了一套完整的定点化方案,为算法的硬件实现节约了大量资源。此外还使用了流水线技术,降低了关键路径延时,降低了方法的计算复杂度。
附图说明
图1为现有方法中语音分解阶段使用的伽马通数字滤波方框图。
图2为现有方法中合成语音阶段的总幅度响应曲线。
图3为人耳的等响度曲线。
图4为本发明使用的定点化滤波算法的方框图
图5本发明中合成语音阶段的总幅度响应曲线。
具体实施方式
本发明提出的一种基于听觉感知特性的数字语音实时分解/合成方法,下面结合附图及具体实施例进一步说明如下:
本方法的与已有技术的主要区别是使用一组伽马通滤波器来模拟人耳的基底膜,基底膜上每个位置的滤波特性都可以用一个伽马通滤波器来描述,同时该方法参考了人耳基底膜延时特性和等响度曲线特性,进而实现对语音的分解和合成。
该方法的具体步骤如下:
1)构建任意阶的伽马通数字滤波器模型(包括每个滤波器的带宽、中心频率即位置参数信息):
假设滤波器组数目为M,该M组滤波器对应着人耳基底膜上的M个位置,并在人耳基底膜上是均匀分布的,在频域上是对数分布的;具体包括:
1.1)已知输入语音的采样率为fs
设通过滤波器的语音频率范围为[fL,fH],0≤fL≤fH≤fs/2;
1.2)由表达式(1-2):得出中心频率fc在ERBs域上的值分布为[ERBs(fL),ERBs(fH)],将其均分成M-1份得到等间距的M个ERBs值如式(1)所示:
其中,m∈[1,M],代表通道号;
1.3)根据式(1)的计算结果得到M组滤波器的中心频率fc在ERBs域上的值如式(2)所示:
1.4)针对b(fc)与ERB(fc)的关系:基于b=ERB(fc),根据帕塞瓦尔(Paseval)定理,得出N阶伽马通滤波器中滤波器的中心频率fc的带宽函数b(fc)表达式如式(2a)所示:
其中,b代表函数的带宽,N为任意正整数;
1.5)用N级级联的二阶带通滤波器构成一个N阶的伽马通滤波器;对每个伽马通滤波器的时域表达式(1-3):进行Laplace变换得到s域表达式如式(2b)所示:
将式(2b)分解成零极点相乘得到如表达式(2c)所示:
使用冲激响应不变法得到N阶伽马通数字滤波器的z域表达式(2d):
其中n=1,2,…,N,sn为表达式分子的零点,an、b1、b2的含义分别为各级滤波器的抽头系数;
an的表达式如(1-10)所示:b1、b2的表达式如(1-11)所示:
由此将表达式(1-4)和(1-9)推广到了N为任意正整数的情况。以上结果将一个N阶的伽马通滤波器用N级级联的二阶带通滤波器来构成。
1.6)计算归一化参数gn:(由于伽马通滤波器的幅度响应曲线是近似对称的,伽马通滤波器的幅度最大值在中心频率fc处取得,)因此伽马通滤波器各级的二阶滤波器的最大增益如式(2e)所示:
归一化参数gn如式(2f)所示:
1.7)根据步骤1.5)中得到的N级级联的二阶带通滤波器来构成任意阶的伽马通数字滤波器模型,并获取模型的各参数值:用m表示第m组伽马通滤波器组,则由表达式(1-10)、(1-11)、(2e)和(2f)分别得出各个滤波器组的参数的值,其中是各个通道的滤波器抽头系数,为各个通道的归一化系数,如式(3)-式(6)所示:
2)语音分解阶段;
利用步骤1)构建的伽马通数字滤波器模型,模仿人耳基底膜对语音进行分解:将输入语音实时地分解到M个子带上,最小处理单位是单个语音采样点,同时该处理过程均是在时域上进行的(不需要将语音变换到频域上),得到M路的语音数据;
首先假设输入语音为x(k),采样率为fs,使用M路伽马通滤波器采用浮点算法或定点算法将输入语音分解为M路信号,每一路的输出信号用ym(k)表示,具体包括:
用于软件仿真时采用浮点算法将输入语音依次通过M路伽马通滤波器得到M组语音输出信号,如式(7)-式(10)所示:
其中,m∈[1,M]代表通道号,n∈[1,4]指明表达式描述的是四级级联结构中的具体级数;ym(k)代表每一路的语音输出。代表每个通道的语音输入,是各个通道的滤波器抽头系数,为各个通道的归一化系数;
用于硬件实现时采用定点算法将输入语音依次通过M路伽马通滤波器得到M租语音输出信号
(针对计算复杂度过高、不利于算法硬件实现的问题,本发明提出了一套完整的定点化方案,为算法的硬件实现节约了大量资源;该算法同样将输入语音依次通过M路伽马通滤波器得到M租语音输出信号。图4为本发明使用的定点化滤波算法的方框图,流程与图1相似,但其中所有参数均为定点化处理后的结果,改进后,算法的计算时间周期缩短到原来的1/4,将算法的计算能力提升了4倍,从而达到减少运算资源消耗、降低功耗的目的。具体包括以下步骤:
2.1)对各个滤波器组的各参数进行定点化处理,即使参数扩大E=2p倍,然后分别取整数,如式(11)-(14)所示:
各式中[·]表示最接近·的整数;
2.2)对分别表示第m路伽马通滤波器中第n级的输入语音信号和输入语音信号的中间运算数据进行定点化处理:即根据表达式(2e)得到最大增益Gain值随着中心频率fc的变化关系,由此得出最大增益Gainmax,因此当输入语音为L比特时,中间运算结果的位宽设为Q比特,则Q的值为:
Q=L+[log2(Gainmax)] (15)
其中[·]代表取不小于Q的最小整数;由此得到如图4所示的定点化滤波算法,以及每一路语音的输入输出;
3)语音合成阶段;
在步骤2)中语音信号通过N阶Gammatone滤波器,被分解到N个子带上,可对分解后的语音信号进行语音增强、语音识别等处理(例如使用波束形成、计算听觉场景分析等常用语音增强算法);处理后各路信号可通过直接叠加的操作重新合成,进而更好地还原语音。
本发明在合成阶段参考了人耳基底膜神经延时特性,给出了伽马通滤波器的通道延时(时域延时)。人耳基底膜神经延时是指人耳基底膜接收语音信号,到将语音信号传递给大脑所需时间对于不同频率的声音是不一样的,因此在伽马通滤波器组中引入一定量的延时,更加符合人耳特性,人耳基底膜延时与频率成反比关系,基于以上分析,伽马通滤波器的群延时(相位变化随着频率变化的快慢程度)用表达式(16)来描述:
式中,m通道群延时tm的单位是秒,第m组滤波器的中心频率fc的单位是Hz。
本发明的语音合成过程参考了人耳基底膜的延时特性,在语音合成前对各通道的输出分别引入适当的延时,然后再直接相加,这样可以极大地减弱各通道间的相互干扰,使得语音能够逐点计算各个数字语音的合成与分解,从而到达实时处理的目的。具体步骤包括:
3.1)计算各通道延时:语音的采样率为fs,则采样后的各个通道的延时dm用如表达式(17)、(18)来进行计算:
dm=D-[fstm] (17)
其中D为[fstm]中的最大值。
3.2)(根据图3所示的人耳的等响度曲线,要达到相同的响度,高频需要较高的幅值,低频需要较低的幅值。)对各个通道在总滤波器中所占比重进行加权,则合成语音用表达式(8)来计算;设m通道的权重为wm,在实际操作中,该权重可以合并到gN中,调增后的gN用如下表达式计算:
此时,最终合成语音输出如式(20)所示:
其中,当k≤dm时ym(k-dm)=0;语音实时分解、合成任务完成。
图5为采用本发明方法改进后语音合成阶段的幅度响应曲线。根据人耳等响度曲线调整通道权重后,合成语音方法的总幅度响应曲线接近理想带通滤波器效果,其中通道数目M=64,通道中心频率分布为50Hz~7500Hz,在7500Hz以内的频率范围内幅度响应较大,超过频率上限之后幅度衰减较快。

Claims (3)

1.一种基于听觉感知特性的数字语音实时分解/合成方法,其特征在于,该方法具体步骤如下:
1)构建任意阶的伽马通数字滤波器模型:
假设滤波器组数目为M,该M组滤波器对应着人耳基底膜上的M个位置,并在人耳基底膜上是均匀分布的,在频域上是对数分布的;具体包括:
1.1)已知输入语音的采样率为fs
设通过滤波器的语音频率范围为[fL,fH],0≤fL<fH≤fs/2;
1.2)根据表达式(1-2):得出中心频率fc在ERBs域上的值分布为[ERBs(fL),ERBs(fH)],将其均分成M-1份得到等间距的M个ERBs值如式(1)所示:
ERBs m = E R B s ( f L ) + ( m - 1 ) E R B s ( f H ) - E R B s ( f L ) M - 1 - - - ( 1 )
其中,m∈[1,M],代表通道号;
1.3)根据式(1)的计算结果得到M组滤波器的中心频率fc在ERBs域上的值如式(2)所示:
f c ( FRBs m ) = 1000 4.37 × ( 10 ERBs m 21.4 - 1 ) - - - ( 2 )
1.4)针对b(fc)与ERB(fc)的关系:基于b=ERB(fc),根据帕塞瓦尔(Paseval)定理,得出N阶伽马通滤波器中滤波器的中心频率fc的带宽函数b(fc)表达式如式(2a)所示:
b ( f c ) = ( N - 1 ) ! 2 π ( 2 N - 2 ) ! 2 - ( 2 N - 2 ) E R B ( f c ) - - - ( 2 a )
其中,b代表函数的带宽,N为任意正整数;
1.5)用N级级联的二阶带通滤波器构成一个N阶的伽马通滤波器;对每个伽马通滤波器的时域表达式(1-3):进行Laplace变换得到s域表达式如式(2b)所示:
将式(2b)分解成零极点相乘得到如表达式(2c)所示:
G ( s ) = Π n = 1 N g n H n ( s ) = Π n = 1 N g n s - s n ( s + B c ) 2 + w c 2 - - - ( 2 c )
使用冲激响应不变法得到N阶伽马通数字滤波器的z域表达式(2d):
G ( z ) = Π n = 1 N g n H n ( z ) = Π n = 1 N g n a n z - 1 + 1 b 2 z - 2 + b 1 z - 1 + 1 - - - ( 2 d )
其中n=1,2,…,N,sn为表达式分子的零点,an、b1、b2的含义分别为各级滤波器的抽头系数;
an的表达式如(1-10)所示:b1、b2的表达式如(1-11)所示:
1.6)计算归一化参数gn:伽马通滤波器各级的二阶滤波器的最大增益如式(2e)所示:
Gain n = H n ( z ) × H n * ( z ) | z = e - jw c T = b 2 2 + b 1 2 + 2 b 2 cos ( 2 w c T ) + 2 ( b 2 + 1 ) b 1 cos ( w c T ) a n 2 + 1 + 2 a n cos ( w n T ) - - - ( 2 e )
归一化参数gn如式(2f)所示:
g n = 1 Gain n - - - ( 2 f )
1.7)根据步骤1.5)中得到的N级级联的二阶带通滤波器来构成任意阶的伽马通数字滤波器模型,并获取模型的各参数值:用m表示第m组伽马通滤波器组,则由表达式(1-10)、(1-11)、(2e)和(2f)分别得出各个滤波器组的参数的值,其中是各个通道的滤波器抽头系数,为各个通道的归一化系数,如式(3)-式(6)所示:
a n m = a n ( f c ( ERBs m ) ) - - - ( 3 )
b 1 m = b 1 ( f c ( ERBs m ) ) - - - ( 4 )
b 2 m = b 2 ( f c ( ERBs m ) ) - - - ( 5 )
g n m = g n ( f c ( ERBs m ) ) - - - ( 6 )
2)语音分解阶段;
利用步骤1)构建的伽马通数字滤波器模型,模仿人耳基底膜对语音进行分解:将输入语音实时地分解到M个子带上,使用M路伽马通滤波器采用浮点算法或定点算法将输入语音分解为M路信号;
3)语音合成阶段;
在伽马通滤波器组中引入延时,以更加符合人耳特性,人耳基底膜延时与频率成反比关系,伽马通滤波器的群延时用表达式(16)来描述:
t m = N - 1 2 π b ( f c ) - - - ( 16 )
式中,m通道群延时tm的单位是秒,第m组滤波器的中心频率fc的单位是Hz;
具体步骤包括:
3.1)计算各通道延时:语音的采样率为fs,则采样后的各个通道的延时dm用如表达式(17)、(18)来进行计算:
dm=D-[fstm] (17)
D = m a x 1 ≤ m ≤ M [ f s t m ] - - - ( 18 )
其中D为[fstm]中的最大值;
3.2)对各个通道在总滤波器中所占比重进行加权,则合成语音用表达式(8)来计算;设m通道的权重为wm,该权重合并到gN中,调增后的gN用如下表达式计算:
g N = w m / Gain N = w m a N 2 + 1 + 2 a N c o s ( w c T ) b 2 2 + b 1 2 + 2 b 2 cos ( 2 w c T ) + 2 ( b 2 + 1 ) b 1 c o s ( w c T ) - - - ( 19 )
此时,最终合成语音输出如式(20)所示:
x ‾ ( k ) = Σ m = 1 M y m ( k - d m ) - - - ( 20 )
其中,当k≤dm时ym(k-dm)=0;语音实时分解、合成任务完成。
2.如权利要求1所述数字语音实时分解/合成方法,其特征在于,所述步骤2)用于软件仿真时采用浮点算法,具体包括:
将输入语音依次通过M路伽马通滤波器得到M组语音输出信号,如式(7)-式(10)所示:
x 1 m ( k ) = x ( k ) - - - ( 7 )
y n m ( k ) = x n m ( k ) + a n m x n m ( k - 1 ) - b 1 m y n m ( k - 1 ) - b 2 m y n m ( k - 2 ) - - - ( 8 )
x n + 1 m ( k ) = g n m × y n m ( k - 1 ) - - - ( 9 )
y m ( k ) = x N + 1 m ( k ) - - - ( 10 )
其中,m∈[1,M]代表通道号,n∈[1,4]指明表达式描述的是四级级联结构中的具体级数;ym(k)代表每一路的语音输出;代表每个通道的语音输入,是各个通道的滤波器抽头系数,为各个通道的归一化系数。
3.如权利要求1所述数字语音实时分解/合成方法,其特征在于,所述步骤2)用于硬件实现时采用定点算法将输入语音依次通过M路伽马通滤波器得到M租语音输出信号,具体包括以下步骤:
2.1)对各个滤波器组的各参数进行定点化处理,即使参数扩大E=2p倍,然后分别取整数,如式(11)-(14)所示:
A n m = [ a n m × E ] - - - ( 11 )
B 1 m = [ b 1 m × E ] - - - ( 12 )
B 2 m = [ b 2 m × E ] - - - ( 13 )
G n m = [ g n m × E ] - - - ( 14 )
各式中[·]表示最接近·的整数;
2.2)对分别表示第m路伽马通滤波器中第n级的输入语音信号和输入语音信号的中间运算数据进行定点化处理:即根据表达式(2e)得到最大增益Gain值随着中心频率fc的变化关系,由此得出最大增益Gainmax,因此当输入语音为L比特时,中间运算结果的位宽设为Q比特,则Q的值为:
Q=L+[log2(Gainmax)] (15)
其中[·]代表取不小于Q的最小整数;由此得到每一路语音的输入输出。
CN201611026399.6A 2016-11-18 2016-11-18 一种基于听觉感知特性的数字语音实时分解/合成方法 Active CN106601249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611026399.6A CN106601249B (zh) 2016-11-18 2016-11-18 一种基于听觉感知特性的数字语音实时分解/合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611026399.6A CN106601249B (zh) 2016-11-18 2016-11-18 一种基于听觉感知特性的数字语音实时分解/合成方法

Publications (2)

Publication Number Publication Date
CN106601249A true CN106601249A (zh) 2017-04-26
CN106601249B CN106601249B (zh) 2020-06-05

Family

ID=58592464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611026399.6A Active CN106601249B (zh) 2016-11-18 2016-11-18 一种基于听觉感知特性的数字语音实时分解/合成方法

Country Status (1)

Country Link
CN (1) CN106601249B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459235A (zh) * 2019-08-15 2019-11-15 深圳乐信软件技术有限公司 一种混响消除方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN102456351A (zh) * 2010-10-14 2012-05-16 清华大学 一种语音增强的***
US8311812B2 (en) * 2009-12-01 2012-11-13 Eliza Corporation Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel
CN102881289A (zh) * 2012-09-11 2013-01-16 重庆大学 一种基于听觉感知特性的语音质量客观评价方法
CN103325381A (zh) * 2013-05-29 2013-09-25 吉林大学 一种基于模糊隶属函数的语音分离方法
US20130297299A1 (en) * 2012-05-07 2013-11-07 Board Of Trustees Of Michigan State University Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
CN103440871A (zh) * 2013-08-21 2013-12-11 大连理工大学 一种语音中瞬态噪声抑制的方法
CN103714810A (zh) * 2013-12-09 2014-04-09 西北核技术研究所 基于Gammatone滤波器组的车型特征提取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311812B2 (en) * 2009-12-01 2012-11-13 Eliza Corporation Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel
CN102456351A (zh) * 2010-10-14 2012-05-16 清华大学 一种语音增强的***
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
US20130297299A1 (en) * 2012-05-07 2013-11-07 Board Of Trustees Of Michigan State University Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
CN102881289A (zh) * 2012-09-11 2013-01-16 重庆大学 一种基于听觉感知特性的语音质量客观评价方法
CN103325381A (zh) * 2013-05-29 2013-09-25 吉林大学 一种基于模糊隶属函数的语音分离方法
CN103440871A (zh) * 2013-08-21 2013-12-11 大连理工大学 一种语音中瞬态噪声抑制的方法
CN103714810A (zh) * 2013-12-09 2014-04-09 西北核技术研究所 基于Gammatone滤波器组的车型特征提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
W. Q. ONG等: ""Robust voice activity detection using gammatone filtering and entropy"", 《2016 INTERNATIONAL CONFERENCE ON ROBOTICS, AUTOMATION AND SCIENCES (ICORAS)》 *
YOUWEI YANG等: ""A Realtime Analysis/Synthesis Gammatone Filterbank"", 《2015 IEEE INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING, COMMUNICATIONS AND COMPUTING (ICSPCC)》 *
贾瑞 等: ""实时的Gammatone听感知滤波器组的FPGA实现"", 《微电子学与计算机》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459235A (zh) * 2019-08-15 2019-11-15 深圳乐信软件技术有限公司 一种混响消除方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106601249B (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN107845389B (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN102576542B (zh) 从窄频带信号确定上频带信号的方法和设备
CN105957537B (zh) 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和***
CN103714810B (zh) 基于Gammatone滤波器组的车型特征提取方法
CN111128209B (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN107967920A (zh) 一种改进的自编码神经网络语音增强算法
CN102456351A (zh) 一种语音增强的***
CN102157156A (zh) 一种单通道语音增强的方法和***
CN108564965B (zh) 一种抗噪语音识别***
CN108630209A (zh) 一种基于特征融合与深度置信网络的海洋生物识别方法
CN103325381A (zh) 一种基于模糊隶属函数的语音分离方法
CN105225672A (zh) 融合基频信息的双麦克风定向噪音抑制的***及方法
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及***
CN103903632A (zh) 一种多声源环境下的基于听觉中枢***的语音分离方法
CN116994564B (zh) 一种语音数据的处理方法及处理装置
Shi et al. Fusion feature extraction based on auditory and energy for noise-robust speech recognition
CN107248414A (zh) 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
CN101646123A (zh) 一种模拟听觉感知模型的滤波器组
Peng et al. Auditory-inspired end-to-end speech emotion recognition using 3D convolutional recurrent neural networks based on spectral-temporal representation
CN113782044B (zh) 一种语音增强方法及装置
CN112397090B (zh) 一种基于fpga的实时声音分类方法及***
CN114141237A (zh) 语音识别方法、装置、计算机设备和存储介质
CN106601249A (zh) 一种基于听觉感知特性的数字语音实时分解/合成方法
CN112863517A (zh) 基于感知谱收敛率的语音识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant