CN1190773A - 语音编码的波形增益估测方法 - Google Patents
语音编码的波形增益估测方法 Download PDFInfo
- Publication number
- CN1190773A CN1190773A CN97100716A CN97100716A CN1190773A CN 1190773 A CN1190773 A CN 1190773A CN 97100716 A CN97100716 A CN 97100716A CN 97100716 A CN97100716 A CN 97100716A CN 1190773 A CN1190773 A CN 1190773A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- frame
- consonant
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000000737 periodic effect Effects 0.000 claims abstract description 8
- 238000011002 quantification Methods 0.000 claims abstract description 4
- 239000002131 composite material Substances 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000001052 transient effect Effects 0.000 claims description 5
- 230000004069 differentiation Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 abstract 2
- 238000005516 engineering process Methods 0.000 description 7
- 238000007789 sealing Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000001944 accentuation Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种语音编码的波形增益估测方法,包括以下步骤:提供一解码包络资料,其包括包络形状索引值及量化增益值;一周期性语音脉冲信号经过一振荡器产生一非周期性脉冲信号至有声/无声识别单元,而噪声信号经另一路径送至有声/无声识别单元;将输入的语音信号音框分割成数个子音框,对每一子音框进行判别;提供一修正的LPC参数同时送至一合成滤波器及一后置滤波器中;由一振幅计算单元由合成滤波器处取得LPC参数及解码过的包络资料,经过增益值的计算,将增益值送至增益单元,以控制合成语音的电位,最后由后置滤波器输出一平滑的语音信号。
Description
本发明涉及一种语音编码技术,特别是有关于一种语音编码波形增益估测方法。
在语音合成技术中普遍使用到线性预估语音编码器LPC(Liner Predictive Coding Vocoder)技术。而在此一线性预估语音编码方法中,声码器LPC-10语音编码器被广泛地使用在低位元率的语音压缩技术中。
图1显示了该传统语音编码技术的方块图。图示所示方块中,包括有一语音脉冲产生器11(Impulse Train Generator)。一随机噪声信号产生器12(Random Noise Generator)。一有声/无声切换开关13(Voiced/unvoiced Switch)、一增益单元14(Gain Unit)、一合成滤波器(LPC Filter)15、合成滤波器控制参数设定单元16,其中增益单元14另具有一增益设定单元。
语音脉冲产生器11所产生的周期性语音脉冲信号(Periodic Impulse Train)或随机噪声信号产生器12所产生的白噪声信号(While Noise),经过一有声/无声切换开关13,依据其输入信号的类型属性,作适当切换选择之后,先经过增益单元14依据其预设的增益值,对信号的增益以调整其信号电位,再由合成滤波器15依据合成滤波器控制参数的预设LPC参数(LPC Parameters)执行滤波,最后由合成滤波器15的输出端输出语音信号S(n)。
在实际语音编码应用时,合成语音的输出信号增益值需予以设定或控制,以使其输出信号得以符合于输入语音的信号电位。在传统技术中,要达到此一增益值设定及控制目的,主要采用下述两种技术,第一种方法是依据语音信号的线性预测取样(Linear Predicted Samples)的能量来决定其增益值。另外一种增益值设定及控制的方法是依据均方根值(root-mean-square,RMS)来作增益值的计算。在此种习用技术中,对于噪声信号的音框(Unvoiced Frame)来说,其增益单纯由该均方根值予以估测,而在有语音产生(Voiced Frame)情况下,亦采用相同的均方根值估测法,但其会进一步采用一种所谓矩形窗(数个目前节距周期)的估测方法来取得更为精确增益值。采用前者习用技术所得到的增益值缘是以7位元对数值予以均量化处理。
然而,不主化采用何种习用的增益估测技术,皆无法以单一种增益估测方法精确估测出其正确的增益值,其原因在于传统LPC编码器属于开路***。
本发明的目的即是为了克服前述***滑的合成语音信号的语音编码增益估测方法。
本发明的另一目的是提供一种依据语音波形的信号包络的形状进行增益值估测的语音编码估测增益值的方法。
为在到上述目的,本发明采取如下方案:
本发明的语音编码的波形增益估测方法,包括以下步骤:
a.提供一解码过的包络资料,其经由分析典型语音信号而得到;
b.有声/无声识别单元选择由周期性语音脉冲信号经过一振荡器产生的一非周期性脉冲信号及一噪声信号二者之一;
c.将输入的语音信号音框分割成数个子音框,然后藉由所述识别单元对该输入的每一个子音框进行有声/无声的判别;
d.提供一修正地过的LPC参数同时送至一合成滤波器及一后置滤波器中;
e.由一振幅计算单元由合成滤波器处取得该LPC参数以及该解码过的包络资料,经过增益值的计算,将该增益值送至增益单元中,以控制输出合成语音的电位;
f.由后置滤波器输出一语音信号。
配合附图及实施例予以详述如下:
附图简要说明:
图1为传统语音合成电路的基本方块图;
图2为本发明的语音合成步骤示意图;
图3为本发明较佳实施例中,以4位元码包含16种不同包络形状的对应编码表。
如图2所示,其为本发明的语音合成示意图,其主要包括有一振荡器21(Vibrator)、一有声/无声信号识别单元22(Voiced/Unvoiced Decision)、一合成滤波器24(SynthesisFilter)、一修正过的LPC参数单元23,在LSP区域***LPC(Interpolate LPC Coefficient in LSPDomain)、一振幅计算单元25(Amplitude Calculation Unit)、一解码过的信号包络资料单元26(DecodedEnvelope)、一增益单元27(Gain Unit)、一后置滤波器28(Post Filter)。合成滤波器24包括有一全极性滤波器(ALL-pole Filter)以及一解加重滤波器(De-emphasis Filter)。
周期性语音脉冲信号(Periodic Impulse Train)经过一振荡器21之后,送出一非周期性脉冲信号(Aperiodic Pulse)至有声/无声识别单元22,而白噪声信号(White Noise)则经另一路径送至有声/无声识别单元22。
有声/无声识别单元22所采用的判别方法是采用将输入的语音信号音框分割成四个子音框(Subframe),然后再对每一个子音框进行判别,在此判别方法中,首先将输入语音信号中的每一个音框分割成四个子音框(Subframe),然后针对每一个子框,依据其相关参数,综合判别每一个子框。前述的参数包括有NC、能量、线性频谱对(line Spectrum Pair,简称LSP)、以及低频段至高频段能量比值(Low to High Band Energy Ratio Value,LOH)。有关此有声/无声识别技术,同一申请人已申请另一专利。
在缓慢变化的语音输入信号中,逐一更新每一个音框的方法可以达到所需的输出信号质量。然而,若在某些瞬态状况时,会在每一个音框变化时产生瞬态失真的情形,因此为了要降低瞬态失真,故在送出LPC参数给合成滤波器24时,会藉由本发明中的修正过的LPC参数单元23来修正LSP参数(在以上之说明中LSP参数意指修正前的LPC参数)。其方法为评估音框间的中间组参数,以在不增加编码容量下,可达到使音框交会处更为平滑的目的。为了要减少LPC线性修正的计算次数,故在本发明的较佳实施例中,是将每一个语音音框分割成四个子音框,而每一个子音框的LSP参数的取得,是藉由修正目前音框与前一音框间的LSP参数值而取得。然后再将该LSP参数转换成LPC参数,最后该修正过的LPC参数会同时送到合成滤汉器24及后置滤波器28。
振幅计算单元25可以由合成滤波器24处取得LPC参数以及由解码过的包封资料单元26所送入的相关资料之后,输出增益控制信号并送至增益单元27中,最后再由后置滤波器28输出一所需的语音信号。
输入至包封资料单元26的信号包括包封形状索引值(Shape Index)以及量化增益值(Quantized Gain)。此两个参数的取得是藉由分析典型语音信号的音框而得到。在本发明的实施例中,是以4位元码来包含16种不同的包封形状,其对应表如图3所示。依据此一包封形状编码表,在进行包封编码过程中,一旦对输入的语音音框的形状,比对出最符合于该编码表中某一个包封形状的索引值之后,即以习知对数量化器的技术量化成例如7位元的增益值。以此一技术所得到的量化增益值以及包封形状索引值即可送入如图2中的包封资料单元26中。
本发明的增益值计算,是在合成语音的最大振幅恰达到解码过的包封时予以计算出。在本发明的增益值计算方法中,分别对语音及噪声子音的音框进行分析计算。
一、语音音框:
对于有声子音框而言,其是为非周期性脉冲的激发形式。在进行增益的计算时,首先计算出合成滤波器在该脉冲位置处的单元位脉冲响应。此一脉冲的增益值可以下式计算出:
αk=min(abs(Envk,i/imp_resk,i)),po≤i≤po+r其中αk表示kth脉冲的增益;
Envk,i表示在位置i处,第kth脉冲的解码包封;
imp_resk,i表示脉冲响应;
po表示脉冲的位置;
r表示搜寻长度(典型值为10);在计算出此一脉冲的增益值之后,该脉冲即被送到合成滤波器中,而合成滤波器在接收到该信号之后会将该信号乘以前述所计算出的αk值,如此即可在合成滤波器27的输出端产生一合成语音信号(Synthesized Speech)。在完成上述计算步骤之后,会重复上述步骤以计算下一个脉冲的增益值。
二、噪声子音框:
对于噪声子音框而言,是采用由噪声(White Noise)的激发形式。首先计算出合成滤波器在整个子音框中的噪声响应的位置,此 目的是为了避免合成信号在此一子音框中的振幅超过解码包络现象。整个子音框的噪声信号的增益值可以下式予以计算出:
βj=min(abs(Envj,i/noise_resj,i)),
wo≤i≤sub_leng其中βk表示整个jth子音框的噪声信号的增益;
Envj,i表示在位置i处,噪声信号的解码包络;
noise_resj,i表示噪声信号响应;
wo表示每一个子音的启始位置;
sub_leng表示子音框的长度;在计算出此一噪声信号的增益值之后,该噪声信号即被送到合成滤波器中,而合成滤波器在接收到该信号之后会将该信号乘以前述所计算出的βj值,如此即可在整个jth的子音框中,由合成滤波器27上输出端产生一无声子音合成语音信号(Unvoiced Synthesized Speech)。
综上所述,本发明的效果如下:
由于本发明采取依据语音信号包络的波形形状估测增益值的方法,可在缓慢变化的语音输入信号中逐一更新每一个音框的数据,可以减少信号的瞬态失真,因此可以取得更真实及平滑的语音合成信号。
Claims (8)
1、一种语音编码的波形增益估测方法,包括以下步骤:
a.提供一解码过的包络资料,其经由分析典型语音信号而得到;
b.有声/无声识别单元选择由周期性语音脉冲信号经过一振荡器产生的一非周期性脉冲信号及一噪声信号二者之一;
c.将输入的语音信号音框分割成数个子音框,然后藉由所述识别单元对该输入的每一个子音框进行有声/无声的判别;
d.提供一修正过的LPC参数同时送至一合成滤波器及一后置滤波器中;
e.由一振幅计算单元由合成滤波器处取得该LPC参数以及该解码过的包络资料,经过增益值的计算,将该增益值送至增益单元中,以控制输出合成语音的电位;
f.由后置滤波器输出一语音信号。
2、根据权利要求1所述的语音编码的波形增益估测方法,其特征在于,所述步骤a中的包络资料包括有语音信号的包络形状索引值以及量化增益值。
3、根据权利要求2所述的语音编码的波形增益估测方法,其特征在于,所述包络形状索引值以及量化增益值的取得是藉由分析语音信号的音框而得到,依据分析结果,以4位元码来包含16种不同的包络形状,并得到一对应表。
4、根据权利要求1所述的语音编码的波形增益估测方法,其特征在于,所述步骤d中送至合成滤波器中的修正过的LPC参数以下列步骤取得:
依据一解码过的LSP参数,藉由一修正过的LPC参数***元LSP时域中,其方法是评估音框间的中间组参数,在不增加编码容量之下,以插值方式使音框交会处更为平顺、降低瞬态失真。
5、根据权利要求4所述的语音编码波形增益估测方法,其特征在于,在所述进行***LSP时域中的LPC参数的步骤时,是将每一个语音音框分割成四个子音框,而每一个子音框的LSP参数的取得,是藉由修正目前音框与前一音框间的LSP参数值而取和,然后再将该LSP参数转换成LPC参数。
6、根据权利要求1所述的语音编码的波形增益估测方法,其特征在于,在所述步骤e中所述增益值的计算,是在合成语音的最大振幅恰达到解码过的包络时予以计算出适当的增益值,并且分别对输入语音信号的有声/无声子音音框分别进行分析计算,以分别计算出其语音及噪声子音框的增益值。
7、根据权利要求6所述的语音编码的波形增益估测方法,其特征在于,对于所述语音音框的增益值的计算包括以下步骤:
a.计算出合成滤波器在该脉冲位置处的单元脉冲响应;
b.以下式计算出此一脉冲的增益值;
αk=min(abs(Envk,i/imp_resk,i)),po≤i≤po+r
αk表示kth脉冲的增益;
Envk,i表示在位置i处,第kth脉冲的解码包络;
imp_resk,i表示脉冲响应;
po表示脉冲的位置;
r表示搜寻的长度;
c.在计算出此一脉冲的增益值之后,该脉冲即被送到合成滤波器中;
d.合成滤波器在接收到该信号之后,将该信号乘以前述所计算出的αk值,以在合成滤波器的输出端产生一合成语音信号;
e.在完成上述计算步骤之后,重复上述的步骤以计算下一个脉冲的增益值。
8、根据权利要求6所述的语音编码的波形增益估测方法,其特征在于,对于所述噪声信号子音音框的增益值的计算包括有:
a.首先计算出合成滤波器在整个子音框中的噪声信号响应的位置;
b.以下式计算出整个子音框的增益值:
βj=min(abs(Envj,i/noise_resj,i)),
wo≤i≤sub_leng其中βk表示整个jth子音框的噪声信号增益;
Envj,i表示在位置i处,噪声信号的解码包络;
noise_resj,i表示噪声信号响应;
wo表示每一个子音的启始位置;
sub_leng表示子音框的长度;
c.在计算出此一噪声信号的增益值之后,该噪声信号即被送到合成滤波器中;
d.合成滤波器在接收到该信号之后,将该信号乘以前述所计算出的βj值,如此即可在整个jth的子音框中,由合成滤波器的输出端产生一噪声信号子音合成语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN97100716A CN1190773A (zh) | 1997-02-13 | 1997-02-13 | 语音编码的波形增益估测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN97100716A CN1190773A (zh) | 1997-02-13 | 1997-02-13 | 语音编码的波形增益估测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1190773A true CN1190773A (zh) | 1998-08-19 |
Family
ID=5165266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN97100716A Pending CN1190773A (zh) | 1997-02-13 | 1997-02-13 | 语音编码的波形增益估测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1190773A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7519530B2 (en) | 2003-01-09 | 2009-04-14 | Nokia Corporation | Audio signal processing |
CN100587807C (zh) * | 1999-01-27 | 2010-02-03 | 编码技术股份公司 | 增强信源解码器的设备和增强信源解码方法的方法 |
CN101199233B (zh) * | 2005-05-18 | 2012-01-18 | 松下电器产业株式会社 | 颤噪控制装置和音响装置 |
CN103001598A (zh) * | 2011-07-19 | 2013-03-27 | 联发科技股份有限公司 | 音频处理装置以及使用该音频处理装置的音频*** |
US9252730B2 (en) | 2011-07-19 | 2016-02-02 | Mediatek Inc. | Audio processing device and audio systems using the same |
CN105355197A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 用于语音识别***的增益处理方法及装置 |
-
1997
- 1997-02-13 CN CN97100716A patent/CN1190773A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100587807C (zh) * | 1999-01-27 | 2010-02-03 | 编码技术股份公司 | 增强信源解码器的设备和增强信源解码方法的方法 |
CN101625866B (zh) * | 1999-01-27 | 2012-12-26 | 杜比国际公司 | 增强信源解码器的设备和增强信源解码方法的方法 |
US7519530B2 (en) | 2003-01-09 | 2009-04-14 | Nokia Corporation | Audio signal processing |
CN101199233B (zh) * | 2005-05-18 | 2012-01-18 | 松下电器产业株式会社 | 颤噪控制装置和音响装置 |
CN103001598A (zh) * | 2011-07-19 | 2013-03-27 | 联发科技股份有限公司 | 音频处理装置以及使用该音频处理装置的音频*** |
CN103001598B (zh) * | 2011-07-19 | 2015-10-28 | 联发科技股份有限公司 | 音频处理装置以及使用该音频处理装置的音频*** |
US9252730B2 (en) | 2011-07-19 | 2016-02-02 | Mediatek Inc. | Audio processing device and audio systems using the same |
CN105355197A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 用于语音识别***的增益处理方法及装置 |
CN105355197B (zh) * | 2015-10-30 | 2020-01-07 | 百度在线网络技术(北京)有限公司 | 用于语音识别***的增益处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8620647B2 (en) | Selection of scalar quantixation (SQ) and vector quantization (VQ) for speech coding | |
JP3483891B2 (ja) | スピーチコーダ | |
TW448417B (en) | Speech encoder adaptively applying pitch preprocessing with continuous warping | |
KR100908219B1 (ko) | 로버스트한 음성 분류를 위한 방법 및 장치 | |
US5018200A (en) | Communication system capable of improving a speech quality by classifying speech signals | |
US20060064301A1 (en) | Parametric speech codec for representing synthetic speech in the presence of background noise | |
KR20020052191A (ko) | 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법 | |
KR19990006262A (ko) | 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법 | |
US6985857B2 (en) | Method and apparatus for speech coding using training and quantizing | |
EP1420391B1 (en) | Generalized analysis-by-synthesis speech coding method, and coder implementing such method | |
CN101359978A (zh) | 一种控制变速率多模式宽带编码速率的方法 | |
CN1190773A (zh) | 语音编码的波形增益估测方法 | |
US20100153099A1 (en) | Speech encoding apparatus and speech encoding method | |
Wang et al. | Phonetic segmentation for low rate speech coding | |
EP1397655A1 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
JP3232701B2 (ja) | 音声符号化方法 | |
Wong | On understanding the quality problems of LPC speech | |
CN1189664A (zh) | 语音编码的子音识别方法 | |
Mcaulay et al. | Sinusoidal transform coding | |
EP1212750A1 (en) | Multimode vselp speech coder | |
Mao et al. | A 2000 bps LPC vocoder based on multiband excitation | |
HEIKKINEN et al. | On Improving the Performance of an ACELP Speech Coder | |
Ould-cheikh | WIDE BAND SPEECH CODER AT 13 K bit/s | |
Zhang et al. | A 2400 bps improved MBELP vocoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C53 | Correction of patent for invention or patent application | ||
CB02 | Change of applicant information |
Applicant after: Shengqun Semiconductor Co., Ltd. Applicant before: Hetai Semiconductor Co., Ltd. |
|
COR | Change of bibliographic data |
Free format text: CORRECT: APPLICANT; FROM: HETAI SEMICONDUCTOR CO., LTD. TO: SHENGQUN SEMICONDUCTOR CO., LTD. |
|
C01 | Deemed withdrawal of patent application (patent law 1993) | ||
WD01 | Invention patent application deemed withdrawn after publication |