CN101266798B - 一种在语音解码器中进行增益平滑的方法及装置 - Google Patents

一种在语音解码器中进行增益平滑的方法及装置 Download PDF

Info

Publication number
CN101266798B
CN101266798B CN 200710088039 CN200710088039A CN101266798B CN 101266798 B CN101266798 B CN 101266798B CN 200710088039 CN200710088039 CN 200710088039 CN 200710088039 A CN200710088039 A CN 200710088039A CN 101266798 B CN101266798 B CN 101266798B
Authority
CN
China
Prior art keywords
fixed codebook
frame
speech
codebook gain
speech frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 200710088039
Other languages
English (en)
Other versions
CN101266798A (zh
Inventor
许剑峰
许丽净
张清
李伟
桑盛虎
杜正中
胡晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN 200710088039 priority Critical patent/CN101266798B/zh
Priority to PCT/CN2008/070458 priority patent/WO2008110109A1/zh
Publication of CN101266798A publication Critical patent/CN101266798A/zh
Application granted granted Critical
Publication of CN101266798B publication Critical patent/CN101266798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种在语音解码器中进行增益平滑的方法,该方法包括:计算当前语音帧的语音参数变化因子,并对所述当前语音帧的固定码本增益进行初始化修正;按照所述语音参数变化因子确定当前语音帧的状态;利用所述初始化修正后的固定码本增益以及为该状态的语音帧设置的平滑因子,对该当前语音帧的固定码本增益进行平滑。同时,本发明还公开了一种在语音解码中进行增益平滑的装置。本发明实施例不需记录连续多帧的固定码本增益,因此存储复杂度较小,而且,也不需要同时计算稳定性因子和浊音因子,只需要计算语音变化因子,因此算法复杂度也降低。

Description

一种在语音解码器中进行增益平滑的方法及装置
技术领域
本发明涉及语音解码技术领域,更具体地说,涉及一种在语音解码器中进行增益平滑的方法及装置。
背景技术
参见图1所示,在语音通信***中,编码器将输入的语音信号进行编码,然后通过通信信道将编码后的比特流发送;解码器对从通信信道中接收到比特流进行解码后,合成为语音信号。
以下将对语音信号进行编码的编码器称为语音编码器。语音编码器常用的编码原理是代数码本激励线性预测(ACELP,Algebraic Code Excited LinearPrediction),这类编码器包括G.729、EVRC、AMR、AMR-WB、AMR-WB+等。其中G.729是国际电信联盟(ITU-T)的语音编码标准;EVRC是第三代移动通信合作伙伴计划2(3GPP-2,3rd Generation Partnership Project2)的语音编码标准;AMR、AMR-WB、AMR-WB+是第三代移动通信合作伙伴计划(3GPP,3rd Generation Partnership Project)的语音编码标准。
基于ACELP的语音编码器生成的码流都是以语音帧为单位的,有些将帧分为若干子帧,如AMR,以子帧为单位。对于每一帧的输入数据,通常为几十毫秒PCM格式数据,发送端的语音编码器要将其编码为一组参数。这些参数一般要经过量化并且传输。接收端的解码器则要将这些参数重新合成为语音信号,常见为PCM格式数据。
基于ACELP的语音编码器生成的语音帧的参数一般包括谱参数、自适应码本参数、代数码本参数、自适应码本增益和代数码本增益等。
由于编码过程中会产生量化噪声,降低了语音质量,因此在解码器端重新合成语音信号时,一般会进行一些后处理,如固定码本增益平滑和增强周期性,以改善的合成语音质量。其中固定码本增益平滑的目的是为了避免稳态语音的能量不自然波动。
目前语音解码器有两种方法对固定码进行增益平滑。一种是基于短期LSP(线谱对,Linear Spectral Pair)的稳定性对固定码本进行增益平滑,另一种是基于语音的稳定性和浊音特性对固定码本进行增益平滑。
基于短期LSP的稳定性对固定码本进行增益平滑处理步骤如下:
(1)对于每个帧,计算平均LSP。
q ‾ ( n ) = 0.84 · q ‾ ( n - 1 ) + 0.16 · q ^ 4 ( n )
其中是当前帧的第4子帧的LSP,q(n-1)是上一帧的平均LSP,q(n)是当前帧的LSP。
(2)对于子帧m,计算平均LSP向量和子帧m的LSP的差分;
diff m = Σ j | q ‾ ( j ) ( n ) - q ^ m ( j ) ( n ) | q ‾ ( j ) ( n )
(3)计算平滑因子km
km=min(0.25,max(0,diffm-0.4))/0.25
(4)利用计算最近5个子帧的固定码本平均增益;
g ‾ ( m ) = 1 5 Σ i = 0 4 g ^ c ( m - i )
(5)对当前子帧的固定码本增益进行平滑;
g ^ c = g ^ c · k m + g ‾ c · ( 1 - k m )
上述进行增益平滑的的缺点是:需要记录过去多个子帧的固定码本平均增益,因此,存储复杂度较大。
基于语音的稳定性和浊音特性对固定码本进行增益平滑是处理步骤如下:
(1)计算浊音因子λ=0.5(1-rv),rv=(Ev-Ec)/(Ev+Ec)
其中,Ev是自适应码本的能量,Ec是固定码本的能量。
(2)计算稳定性因子θ,并且将范围限制在0≤θ≤1,计算公式为
θ = 1.25 - Σ i ( isf _ new i - isf _ old i ) 2 400000
其中isf_new是当前帧的ISF(导谱频率,Immitance Spectral Frequency),isf_old是上一帧的ISF。
(3)计算增益平滑因子Sm,Sm=λθ;
(4)对固定码本增益
Figure S07188039320070327D000032
进行初始化修正;
g ^ c > g - 1 时, g 0 = max ( g - 1 , g ^ c / 1.19 )
g ^ c ≤ g - 1 时, g 0 = min ( g - 1 , g ^ c · 1.19 )
其中,g0表示当前帧经过初始化修正后的固定码本增益。
(5)最后对固定码本增益进行平滑。
g ^ c = S m g 0 + ( 1 - S m ) g ^ c
第二种进行增益平滑方法的缺点是:需要计算稳定性因子和浊音因子,算法复杂度较大。
综上所述,现有技术中,语音编码器对固定码进行增益平滑时,由于需要记录过去多个子帧的固定码本平均增益,或者需要计算稳定性因子和浊音因子,因此,语音编码过程非常复杂。
发明内容
本发明的主要目的时提供一种在语音解码器中进行增益平滑的方法及装置,用以简化语音编码中增益的平滑处理。
本发明实施例提供的一种在语音解码中进行增益平滑的方法是这样实现的:
A.计算当前语音帧的语音参数变化因子,并对所述当前语音帧的固定码本增益进行初始化修正;
B.按照所述语音参数变化因子确定当前语音帧的状态;
C.利用所述初始化修正后的固定码本增益以及该状态的语音帧对应的平滑因子,对所述当前语音帧的固定码本增益进行平滑。
本发明实施例提供的一种在语音解码中进行增益平滑的装置包括:
语音参数变化因子获取单元,用于获取当前帧的语音参数变化因子;
固定码本增益初始化修正单元,用于对所述当前语音帧的固定码本增益进行初始化修正;
语音帧状态确定单元,用于根据获得的所述当前帧的语音参数变化因子确定当前语音帧的状态;
所述固定码本增益平滑单元,用于根据所述进行初始化修正后的固定码本增益以及该状态的语音帧对应的平滑因子,对所述当前语音帧的固定码本增益进行平滑。
通过上述本发明实施例的技术方案可知,本发明实施例只需要记录上一帧的经过修正的固定码本增益,而不需记录连续多帧的固定码本平均增益,因此存储简单。而且,本发明实施例只需要利用一个当前语音帧的语音参数变化因子即可实现增益的平滑,而不需要同时计算稳定性因子和浊音因子,因此算法复杂度也降低。
附图说明
图1为语音通信***示意图;
图2为本发明实施例的对固定码本增益进行平滑的流程示意图;
图3为本发明实施例的基于谱参数变化因子对固定码本增益进行平滑的流程示意图;
图4为另一本发明实施例的基于谱参数变化因子对固定码本增益进行平滑的流程示意图;
图5为本发明实施例的基于基音延迟参数变化因子对固定码本增益进行平滑的流程示意图;
图6为本发明实施例在语音解码器中进行增益平滑的装置的结构示意图;
图7为本发明装置的一具体实施例结构示意图。
具体实施方式
本发明实施例是在语音通信***中,需要计算所述当前语音帧的语音参数变化因子,对所述当前语音帧的固定码本增益进行初始化修正;按照所述语音参数变化因子确定当前语音帧的状态;利用所述初始化修正后的固定码本增益以及为该状态的语音帧设置的平滑因子,对该当前语音帧的固定码本增益进行平滑。
这里,当前语音帧的语音参数变化因子可以利用所述当前帧的语音参数以及上一帧的语音参数计算出。语音参数可以为谱参数、基音延迟参数或浊音因子。
平滑因子可以利用一定的公式计算得到,也可以根据仿真结果得到。
参见图2所示,本发明实施例对固定码本增益进行平滑的具体流程如下:
步骤201:利用当前帧的语音参数以及上一帧的语音参数计算所述当前语音帧的语音参数变化因子,并对所述当前语音帧的固定码本增益进行初始化修正;
如果语音参数变化因子为谱参数变化因子,则步骤201中可以利用当前帧的谱参数以及上一帧的谱参数计算出当前帧的语音参数变化因子。如果语音参数变化因子为基音延迟参数变化因子,则步骤201中可以利用当前帧的基音延迟参数以及上一帧的基音延迟参数计算得出。
比如:如果当前帧的固定码本增益大于上一语音帧经过初始化修正后的固定码本增益,则在进行初始化修正时,需要将当前帧的固定码本增益设置为:上一语音帧经过初始化修正后的固定码本增益,以及固定码本增益与增益缩放因子的比值中的最大值;
如果当前帧的固定码本增益小于等于上一语音帧经过初始化修正后的固定码本增益,则进行初始化修正时,需要将当前帧的固定码本增益设置为:上一语音帧经过初始化修正后的固定码本增益,以及固定码本增益与增益缩放因子的乘积中的最小值。
步骤202:根据语音参数变化因子确定当前语音帧的状态。
这里,可以预先根据语音参数变化因子将语音帧分为若干种状态,并设置每种语音帧的状态与语音参数变化范围的对应关系,则步骤202中确定当前语音帧的状态可以这样实现:
确定所述语音帧参数变化因子所处于的语音参数变化范围;根据所述语音帧的状态与语音参数变化范围的对应关系,获得所述语音参数变化范围所对应的当前语音帧的状态。
步骤203:利用所述初始化修正后的固定码本增益以及该状态的语音帧对应的平滑因子,对该当前语音帧的固定码本增益进行平滑。
例如:进行平滑处理的公式为 g ^ c = S m · g 0 + ( 1 - S m ) · g ^ c ,其中,Sm为该状态的语音帧设置的平滑因子,为当前语音帧的固定码本增益。
参见图3所示,本发明实施例基于谱参数变化因子对固定码本增益进行平滑的具体流程如下:
步骤301:利用当前帧的谱参数和上一帧的谱参数,计算当前帧的谱参数变化因子s_diff。计算公式如下:
s_diff=f(s_newi,s_oldi)
其中,s_new是当前帧的谱参数,s_old是上一帧的谱参数,f为s_new和s_old的函数。
谱参数可以是ISF或ISP或LSP或LSF或LPC,不同的语音编解码器可能采用ISF、ISP、LSP、LSF、LPC的一种或多种来表示语音信号的短时相关性。
步骤302:对当前语音帧的固定码本增益
Figure 2007100880393100002S07188039320070327D00006191822QIETU
进行初始化修正。这里,可以利用上一语音帧经过初始化修正后的固定码本增益,对当前语音帧的固定码本增益
Figure S07188039320070327D000071
进行初始化修正,
g ^ c > g - 1 时,通过公式 g 0 = f a ( g - 1 , g ^ c ) 进行初始化修正:
g ^ c ≤ g - 1 时,通过公式 g 0 = f b ( g - 1 , g ^ c ) 进行初始化修正,
其中,g0表示当前语音帧经过初始化修正后的固定码本增益,g-1表示上一语音帧经过初始化修正后的固定码本增益,
Figure S07188039320070327D000076
Figure S07188039320070327D000077
为关于g-1的函数,
Figure S07188039320070327D000079
为当前语音帧的固定码本增益。
步骤303:根据语音参数变化因子确定当前语音帧的状态。
比如:预先根据语音参数变化因子将语音帧分为n+1种状态,n为自然数t1......tn为语音帧状态阈值,因此,可以将语音参数变化范围设置为小于t1,大于t1小于t2.....以及大于tn-1n+1个语音参数变化范围,每个语音参数变化范围对应一种语音帧的状态;
因此,这里可以根据语音变化因子,确该定当前语音帧所处的语音参数变化范围内,进而再确定的语音参数变化范围所对应的当前语音帧的状态。
步骤304:利用所述初始化修正后的固定码本增益以及该状态对应的平滑因子,对该当前语音帧的固定码本增益进行平滑。
这里,平滑因子的值可以是根据仿真结果确定。还需要预先设置语音参数变化范围与平滑因子的对应关系。
例如:
Figure 2007100880393100002S07188039320070327D00006191822QIETU
为当前语音帧的固定码本增益,s_diff为谱参数变化因子,
当语音参数变化因子小于t1时,为第一种状态,该状态下的平滑因子为S1
当语音参数变化因子大于等于t1且小于t2时,为第二种状态,该状态下的平滑因子为S2
……
当语音参数变化因子大于等于tm-1且小于tm时,为第二种状态,该状态下的平滑因子为Sm
当语音参数变化因子大于等于tn-1时,为第二种状态,该状态下的平滑因子为Sn
如果进行平滑处理的公式为 g ^ c = S m · g 0 + ( 1 - S m ) · g ^ c , 其中,Sm为该状态的语音帧设置的平滑因子,为当前语音帧的固定码本增益。
因此,当s_diff>t1时,可以根据公式 g ^ c = S 1 · g 0 + ( 1 - S 1 ) · g ^ c 对该类语音帧的固定码本增益进行平滑:
当t2<s_diff≤t1时,根据公式 g ^ c = S 2 &CenterDot; g 0 + ( 1 - S 2 ) &CenterDot; g ^ c 对该类语音帧的固定码本增益进行平滑;
当s_diff≤tn-1时,根据公式 g ^ c = S n &CenterDot; g 0 + ( 1 - S n ) &CenterDot; g ^ c 对该类语音帧的固定码本增益进行平滑;
参见图4所示,另一本发明实施例的基于谱参数变化因子对固定码本增益进行平滑的方法包括以下步骤:
步骤401:利用当前帧的谱参数和上一帧的谱参数,计算谱参数变化因子s_diff,谱参数变化因子可以是LSF、ISF、LPC、ISP、LSP等的变化因子,计算公式可以为:
s _ diff = &Sigma; i ( s _ new i - s _ old i ) 2 s _ scale
其中s_new是当前帧的谱参数,s_old是上一帧的谱参数。s_scale是归一化因子,可以是一个常数,例如可以取值为40000。
步骤402:利用上一语音帧经过初始化修正后的固定码本增益,或固定码本增益与增益缩放因子的比值,或固定码本增益
Figure 2007100880393100002S07188039320070327D00006191822QIETU
与增益缩放因子的乘积,作为修正后的当前帧的固定码本增益。
如果当前帧的固定码本增益
Figure S07188039320070327D000087
大于上一语音帧经过初始化修正后的固定码本增益g-1,则当前语音帧经过初始化修正后的固定码本增益为:上一语音帧经过初始化修正后的固定码本增益g-1,以及固定码本增益
Figure S07188039320070327D000091
与增益缩放因子的比值中的最大值;
如果当前帧的固定码本增益
Figure 2007100880393100002S07188039320070327D00006191822QIETU
小于等于上一语音帧经过初始化修正后的固定码本增益g-1,则当前语音帧经过初始化修正后的固定码本增益为:上一语音帧经过初始化修正后的固定码本增益g-1,以及固定码本增益
Figure 2007100880393100002S07188039320070327D00006191822QIETU
与增益缩放因子的乘积中的最小值。
具体公式可以包括:
g ^ c > g - 1 时, g 0 = max ( g - 1 , g ^ c / g _ scale )
g ^ c &le; g - 1 时, g 0 = min ( g - 1 , g ^ c &CenterDot; g _ scale )
其中,g0表示当前语音帧经过初始化修正后的固定码本增益,g-1表示上一语音帧经过初始化修正后的固定码本增益。g_scale是增益缩放因子,可以是一个常数,如1.06。
步骤403:根据语音参数变化因子确定当前语音帧的状态。
这里,可以根据仿真结果预先设置一个语音帧状态阈值,根据s_diff将语音帧分为两类:稳态和非稳态。当s_diff大于语音帧状态阈值时,表示谱参数处于非稳态,当s_diff小于等于语音帧状态阈值时,表示谱参数处于稳态,因此,可以针对根据仿真结果为稳态和非稳态分别设置固定码本平滑因子,稳态时的平滑因子小于非稳态的平滑因子,
步骤404:利用所述初始化修正后的固定码本增益以及为该状态的语音帧设置的平滑因子,对该当前语音帧的固定码本增益进行平滑。
当s_diff>thr时,则可以当前语音帧处于非稳态,根据公式 g ^ c = S 1 &CenterDot; g 0 + ( 1 - S 1 ) &CenterDot; g ^ c 对该类语音帧的固定码本增益进行平滑:
当s_diff≤thr时,可以当前语音帧处于稳态,根据公式 g ^ c = S 2 &CenterDot; g 0 + ( 1 - S 2 ) &CenterDot; g ^ c 对该类语音帧的固定码本增益进行平滑;
其中,
Figure S07188039320070327D000098
为当前语音帧的固定码本增益,thr是语音帧状态阈值,可以是一个常数,如0.58。s_diff大于thr表示谱参数处于非稳态,s_diff小于thr表示谱参数处于稳态。S1和S2是对应两种不同类型的固定码本增益平滑因子,都是常数,例如分别取值为0.17和0.83。
参见图5所示,本发明实施例基于基音延迟参数变化因子的对固定码本增益进行平滑的具体流程如下:
步骤501:根据当前帧的基音延迟参数和上一帧的基音延迟参数计算基音延迟参数变化因子delay_diff。公式可以如下:
delay_diff=f(delay_newi,delay_oldi)
其中delay_new是当前帧的基音延迟参数,s_old是上一帧的基音延迟参数,f是可以根据需要设定的函数。
步骤502:对固定码本增益
Figure S07188039320070327D000101
进行初始化修正。具体如下:
g ^ c > g - 1 时,可以通过公式 g 0 = f a ( g - 1 , g ^ c ) 进行初始化修正所述当前语音帧的固定码本增益,
g ^ c &le; g - 1 时,可以通过公式 g 0 = f b ( g - 1 , g ^ c ) 进行初始化修正所述当前语音帧的固定码本增益,
其中,g0表示当前语音帧经过初始化修正后的固定码本增益,g-1表示上一语音帧经过初始化修正后的固定码本增益,
Figure S07188039320070327D000106
Figure S07188039320070327D000107
为关于g-1的函数,为当前语音帧的固定码本增益。
步骤503:根据基音延迟参数变化因子delay_diff确定当前语音帧的状态。确定方式可以参见步骤303。
步骤504:根据该状态对应的平滑因子,对该当前语音帧的固定码本增益进行增益平滑。
当delay_diff>t1时,根据公式 g ^ c = S 1 &CenterDot; g 0 + ( 1 - S 1 ) &CenterDot; g ^ c 对该类语音帧的固定码本增益进行平滑;
当t2<delay_diff≤t1时,根据公式 g ^ c = S 2 &CenterDot; g 0 + ( 1 - S 2 ) &CenterDot; g ^ c 对该类语音帧的固定码本增益进行平滑;
当delay_diff≤tn-1时,根据公式 g ^ c = S n &CenterDot; g 0 + ( 1 - S n ) &CenterDot; g ^ c 对该类语音帧的固定码本增益进行平滑;
其中,delay_diff为当前语音帧的基音延迟参数变化因子,S1,...,Sn是对应不同类型的平滑因子,t1......tn为n个语音帧状态阈值,n为自然数,
Figure S07188039320070327D000112
为当前语音帧的固定码本增益。
参见图6所示,本发明实施例在语音解码器中进行增益平滑的装置包括:
语音参数变化因子获取单元61、固定码本增益初始化修正单元62、语音帧状态确定单元63以及固定码本增益平滑单元64。
其中,语音参数变化因子获取单元61,用于获取当前帧的语音参数变化因子;固定码本增益初始化修正单元62,用于对所述当前语音帧的固定码本增益进行初始化修正;语音帧状态确定单元63,用于根据获得的所述当前帧的语音参数变化因子确定当前语音帧的状态;所述固定码本增益平滑单元64,用于根据所述进行初始化修正后的固定码本增益以及该状态的语音帧对应的平滑因子,对该当前语音帧的固定码本增益进行平滑。
参见图7所示,所述语音参数变化因子获取单元61可以包括:第一语音参数获取单元71、第二语音参数获取单元72以及语音参数变化因子计算单元73。
其中,第一语音参数获取单元71,用于获取当前帧的语音参数;第二语音参数获取单元72,用于获取上一帧的语音参数;语音参数变化因子计算单元73,用于根据所述当前帧的语音参数和上一帧的语音参数计算所述当前帧的语音参数变化因子。
所述语音帧状态确定单元63可以包括:存储单元74和语音帧状态解析单元75。
其中,存储单元74,用于保存语音帧的状态与语音参数变化范围的对应关系;语音帧状态解析单元75,用于确定获得的所述语音帧参数变化因子所处于的语音参数变化范围;根据所述对应关系,获得所述语音参数变化范围所对应的当前语音帧的状态。
所述固定码本增益平滑单元64可以包括:平滑因子存储单元76、平滑因子获取单元77以及平滑处理单元78。
其中,平滑因子存储单元76,用于存储语音帧的状态与平滑因子的对应关系;平滑因子获取单元77,用于根据当前语音帧的状态,从所述语音帧的状态与平滑因子的对应关系中,获得该状态的语音帧对应的平滑因子;平滑处理单元78,用于根据 g ^ c = S m &CenterDot; g 0 + ( 1 - S m ) &CenterDot; g ^ c 对该当前语音帧的固定码本增益进行平滑,其中,Sm为该状态的语音帧设置的平滑因子,为当前语音帧的固定码本增益。
所述固定码本增益初始化修正单元62包括:比较单元79以及修正处理单元70。
其中,比较单元79,用于判断当前帧的固定码本增益是否大于上一语音帧经过初始化修正后的固定码本增益;修正处理单元70,用于当前帧的固定码本增益大于上一语音帧经过初始化修正后的固定码本增益,将当前帧的固定码本增益设置为:上一语音帧经过初始化修正后的固定码本增益,以及固定码本增益与增益缩放因子的比值中的最大值;当前帧的固定码本增益小于等于上一语音帧经过初始化修正后的固定码本增益,则将当前帧的固定码本增益设置为:上一语音帧经过初始化修正后的固定码本增益,以及固定码本增益与增益缩放因子的乘积中的最小值。
本发明实施例是:计算所述当前语音帧的语音参数变化因子,对所述当前语音帧的固定码本增益进行初始化修正;按照所述语音参数变化因子确定当前语音帧的状态;利用所述初始化修正后的固定码本增益以及为该状态的语音帧设置的平滑因子,对该当前语音帧的固定码本增益进行平滑。由于在本发明实施例中,平滑因子可以利用一定的公式计算得到,也可以根据仿真结果得到。在进行平滑处理时,只需要记录上一帧的经过修正的固定码本增益,并用静态配置好的平滑因子进行平滑处理,不需记录连续多帧的固定码本增益;而且还需要利用一个当前语音帧的语音参数变化因子即可实现增益的平滑,不需要同时计算稳定性因子和浊音因子,因此,相比现有技术来说,存储复杂度以及算法的复杂度都比较低。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1.一种在语音解码器中进行增益平滑的方法,其特征在于,该方法包括以下步骤:
A.计算当前语音帧的语音参数变化因子,并对所述当前语音帧的固定码本增益进行初始化修正;
B.按照所述语音参数变化因子确定当前语音帧的状态;
C.利用所述初始化修正后的固定码本增益以及该状态的语音帧对应的平滑因子,对所述当前语音帧的固定码本增益进行平滑。
2.根据权利要求1所述的方法,其特征在于,所述当前语音帧的语音参数变化因子是利用所述当前帧的语音参数以及上一帧的语音参数计算出。
3.根据权利要求2所述的方法,其特征在于,所述语音参数包括谱参数、基音延迟参数或浊音因子。
4.根据权利要求1所述的方法,其特征在于,预先将语音帧分为至少两个状态,并设置语音帧的状态与语音参数变化范围的对应关系,则步骤B包括:
确定所述语音帧参数变化因子所处于的语音参数变化范围;
根据所述语音帧的状态与语音参数变化范围的对应关系,获得所述语音参数变化范围所对应的当前语音帧的状态。
5.根据权利要求4所述的方法,其特征在于,步骤C中根据公式 
Figure RE-FSB00000477880900011
对该当前语音帧的固定码本增益进行平滑;
其中,Sm为该状态的语音帧对应的平滑因子, 
Figure RE-FSB00000477880900012
为当前语音帧的固定码本增益,g0表示当前语音帧经过初始化修正后的固定码本增益。
6.根据权利要求1所述的方法,其特征在于,如果当前帧的固定码本增益大于上一语音帧经过初始化修正后的固定码本增益,则步骤A中对所述当前语音帧的固定码本增益进行初始化修正的步骤包括:
将当前帧经过初始化修正后的固定码本增益设置为:上一语音帧经过初始化修正后的固定码本增益,以及当前帧的固定码本增益与增益缩放因子的比值中的最大值;
如果当前帧的固定码本增益小于等于上一语音帧经过初始化修正后的固定码本增益,则步骤A中对所述当前语音帧的固定码本增益进行初始化修正的步骤包括:
将当前帧经过初始化修正后的固定码本增益设置为:上一语音帧经过初始化修正后的固定码本增益,以及当前帧的固定码本增益与增益缩放因子的乘积中的最小值。
7.一种在语音解码中进行增益平滑的装置,其特征在于,该装置包括:
语音参数变化因子获取单元,用于获取当前帧的语音参数变化因子;
固定码本增益初始化修正单元,用于对所述当前语音帧的固定码本增益进行初始化修正;
语音帧状态确定单元,用于根据获得的所述当前帧的语音参数变化因子确定当前语音帧的状态;
固定码本增益平滑单元,用于根据所述进行初始化修正后的固定码本增益以及该状态的语音帧对应的平滑因子,对所述当前语音帧的固定码本增益进行平滑。
8.根据权利要求7所述的装置,其特征在于,所述语音参数变化因子获取单元包括:
第一语音参数获取单元,用于获取当前帧的语音参数;
第二语音参数获取单元,用于获取上一帧的语音参数;
语音参数变化因子计算单元,用于根据所述当前帧的语音参数和上一帧的语音参数计算所述当前帧的语音参数变化因子。
9.根据权利要求7所述的装置,其特征在于,所述语音帧状态确定单元包括:
存储单元,用于保存语音帧的状态与语音参数变化范围的对应关系; 
语音帧状态解析单元,用于确定获得的所述语音帧参数变化因子所处于的语音参数变化范围;根据所述对应关系,获得所述语音参数变化范围所对应的当前语音帧的状态。
10.根据权利要求7所述的装置,其特征在于,所述固定码本增益平滑单元包括:
平滑因子存储单元,用于存储语音帧的状态与平滑因子的对应关系;
平滑因子获取单元,用于根据当前语音帧的状态,从所述语音帧的状态与平滑因子的对应关系中,获得该状态的语音帧对应的平滑因子;
平滑处理单元,用于根据 
Figure RE-FSB00000477880900021
对该当前语音帧的固定码本增益进行平滑,其中,Sm为该状态的语音帧对应的平滑因子, 为当前语音帧的固定码本增益,g0表示当前语音帧经过初始化修正后的固定码本增益。
11.根据权利要求7所述的装置,其特征在于,所述固定码本增益初始化修正单元包括:
比较单元,用于判断当前帧的固定码本增益是否大于上一语音帧经过初始化修正后的固定码本增益;
修正处理单元,用于当前帧的固定码本增益大于上一语音帧经过初始化修正后的固定码本增益,将当前帧经过初始化修正后的固定码本增益设置为:上一语音帧经过初始化修正后的固定码本增益,以及当前帧的固定码本增益与增益缩放因子的比值中的最大值;当前帧的固定码本增益小于等于上一语音帧经过初始化修正后的固定码本增益,则将当前帧经过初始化修正后的固定码本增益设置为:上一语音帧经过初始化修正后的固定码本增益,以及当前帧的固定码本增益与增益缩放因子的乘积中的最小值。 
CN 200710088039 2007-03-12 2007-03-12 一种在语音解码器中进行增益平滑的方法及装置 Active CN101266798B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 200710088039 CN101266798B (zh) 2007-03-12 2007-03-12 一种在语音解码器中进行增益平滑的方法及装置
PCT/CN2008/070458 WO2008110109A1 (fr) 2007-03-12 2008-03-10 Procédé et appareil pour le lissage de gains dans un décodeur vocal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710088039 CN101266798B (zh) 2007-03-12 2007-03-12 一种在语音解码器中进行增益平滑的方法及装置

Publications (2)

Publication Number Publication Date
CN101266798A CN101266798A (zh) 2008-09-17
CN101266798B true CN101266798B (zh) 2011-06-15

Family

ID=39759021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710088039 Active CN101266798B (zh) 2007-03-12 2007-03-12 一种在语音解码器中进行增益平滑的方法及装置

Country Status (2)

Country Link
CN (1) CN101266798B (zh)
WO (1) WO2008110109A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106887233B (zh) * 2015-12-15 2020-01-24 广州酷狗计算机科技有限公司 音频数据处理方法及***
CN113205824B (zh) * 2021-04-30 2022-11-11 紫光展锐(重庆)科技有限公司 声音信号处理方法、装置、存储介质、芯片及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1391689A (zh) * 1999-11-18 2003-01-15 语音时代公司 宽带语音和音频信号解码器中的增益平滑
EP1688918A1 (en) * 1999-09-10 2006-08-09 Nec Corporation Speech decoding

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
JP3365360B2 (ja) * 1999-07-28 2003-01-08 日本電気株式会社 音声信号復号方法および音声信号符号化復号方法とその装置
WO2001052241A1 (en) * 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
CN1322488C (zh) * 2004-04-14 2007-06-20 华为技术有限公司 一种语音增强的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1688918A1 (en) * 1999-09-10 2006-08-09 Nec Corporation Speech decoding
CN1391689A (zh) * 1999-11-18 2003-01-15 语音时代公司 宽带语音和音频信号解码器中的增益平滑

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Bessette, B. et al..Efficient methods for high quality low bit rate wideband speech coding.《Speech Coding, 2002, IEEE Workshop Proceedings.》.2002, *

Also Published As

Publication number Publication date
WO2008110109A1 (fr) 2008-09-18
CN101266798A (zh) 2008-09-17

Similar Documents

Publication Publication Date Title
EP2224428B1 (en) Coding methods and devices
EP1959434B1 (en) Speech encoder
CN100568345C (zh) 用于人工扩展语音信号的带宽的方法和装置
CN101627426B (zh) 用于控制稳态背景噪声的平滑的方法和设备
US10482892B2 (en) Very short pitch detection and coding
KR100798668B1 (ko) 무성 음성의 코딩 방법 및 장치
EP4336500A2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
EP3352169A1 (en) Unvoiced/voiced decision for speech processing
EP2798631B1 (en) Adaptively encoding pitch lag for voiced speech
EP2202726B1 (en) Method and apparatus for judging dtx
KR102138320B1 (ko) 통신 시스템에서 신호 코덱 장치 및 방법
JP3558031B2 (ja) 音声復号化装置
US8370154B2 (en) Method and apparatus for generating an excitation signal for background noise
CN101266798B (zh) 一种在语音解码器中进行增益平滑的方法及装置
US20040181398A1 (en) Apparatus for coding wide-band low bit rate speech signal
JP2001051699A (ja) 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
Sun et al. Speech compression
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
JP3475958B2 (ja) 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
Montgomery et al. Improved noise weighting in celp coding of speech-applying the vorbis psychoacoustic model to speex
Lee et al. A study on a reduction of the transmission bit rate by u/v decision using LSP in the CELP vocoder
Hubaut et al. A new hybrid CELP-Harmonics speech coder at low bit rates
JP2004004946A (ja) 音声復号装置
JPH1185199A (ja) 音質劣化評価装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant