CN1189664A

CN1189664A - 语音编码的子音识别方法

Info

Publication number: CN1189664A
Application number: CN97100494A
Authority: CN
Inventors: 林进灯; 林信安
Original assignee: HETAI SEMICONDUCTOR CO Ltd
Current assignee: HETAI SEMICONDUCTOR CO Ltd
Priority date: 1997-01-29
Filing date: 1997-01-29
Publication date: 1998-08-05

Abstract

一种语音编码的子音识别方法,首先将输入语音音框资料分割成四个子音框,再分别对每一个子音框执行有声/无声子音的判别。其判别方法包括有:将各个子音框的归一化相关值分别与一高限临界值与一低限临界值比较、执行稳定/不稳定判别步骤以分别判别子音框的能量值与线频谱对耦系数值(LSP)的大小、若能量值与LSP值大于预设临界值时,则执行该子音框的低频段至高频段能量比值LOH的判别步骤,在LOH判别步骤中判定每一个子音框的LOH值是否大于一临界值,若大于临界值,则判定该子音框为有声语音信号;若否,则判定该子音框为无声子音信号。

Description

语音编码的子音识别方法

本发明有关一种语音编码方法，特别是有关于一种语音编码技术中用来判别有声/无声的语音编码的子音识别方法。

在语音合成技术中普遍使用到线性预估语音编码器LPC(Liner Predictive Coding Vocoder)技术。而在此一线性预估语音编码方法中，LPC-10语音编码器被广泛地使用在低位元率的语音压缩技术中。对于一个LPC语音编码器而言，如何正确地判别输入语音信号究竟为有声或是无声子音乃为极为重要的课题。因为此一有声/无声子音的识别过程，会大大地影响到语音合成信号的质量。

图1显示了传统语音编码技术的方块图。如图所示，其包括有一语音脉冲产生器11(Impulse Train Generator)、一随机噪声信号产生器12(Random Noise Generator)、一有声/无声切换开关13(Voiced/unvoiced Switch)、一增益单元14(Gain Unit)、一LPC滤波器15(LPC Filter)、LPC滤波器控制参数设定单元16。

语音脉冲产生器11所产生的周期性语音脉冲信号(Periodic Impulse Train)或随机噪声信号产生器12所产生的噪声信号(While Noise)，经过一有声/无声切换开关13，依据其输入信号的类型属性，作适当切换选择之后，先经过增益单元14作信号增益以调整其信号准位，再由LPC滤波器15依据LPC滤波器控制参数的预设LPC参数(LPC Parameters)执行滤波，最后由LPC滤波器15的输出端输出语音信号S(n)。

在进行前述声音判别步骤时，该识别装置会针对每一个输入语音的音框(Speech Frame)更新其有声/无声判别方法、节距周期(PitchPeriod)、滤波器参数(LPC Parameters)以及增益值(Gain Value)，其目的是为了可以追踪输入语音的变化状况。在现有的典型技术中，每一个音框包括有160次取样，亦即，在一预定音框大小中，每0.02秒即取样一次。

在前述语音识别中，其中关于有声/无声判别方法中，传统技术中是基于相关节距的强度来作判别的依据。例如，如果归一化互相关值(Normalized Cross correlation Value，简称NC值)大于一预先设定的临界值，例如0.4以上时，则即将该音框判定是属于正常的声音信号，此时，语音合成器将会以周期脉冲来激发LPC滤波器。相反地，如果该NC值小于临界值0.4时，则会将该音框判别属于无声子音信号，语音合成器会以随机噪声信号产生器来激发该LPC滤波器。前述NC值的定义如下：

NC = \frac{Σ_{n = 0}^{N - 1} s (n) s (n - t)}{\sqrt{Σ_{n = 0}^{N - 1} s (n) s (n) Σ_{n = 0}^{N - 1} s (n - t) s (n - t)}}

然而，对于不稳定的声音信号(亦即在临界值上下不易确定准位)而言，其NC值小于临界值0.4的程度可能很小，此时，前述的简易判别方法，即无法精确判别其为声音信号或是无声信号，故在实际的应用中，很可能会有误判的状况。

为了要克服上述问题，以及增进其判别的精确度，因此在习知技术中，除了前述NC值的判别之外，必需要额外执行语音信号能量的判别，方能达到较为精确的程度。

因此，在习知技术中，发展出另外一种改良的发声/无声子音的识别方法。依据此另一种习知技术，作为语音信号能量的判别方法，其包括下列两种状况：

a、语音能量

一般而言，噪声信号的能量会较有声能量为低，其能量的均方根值(RMS)为：

RMS = \sqrt{\frac{Σ_{n = 0}^{N - 1} s (n) s (n)}{N}}

其中N代表输入语音信号的整个音框。

b、零相关率(ZC)

其定义为整个音框的零相关的次数，其定义如下：

ZC = \frac{1}{2} Σ_{i = 2}^{N} abs [sgn (s (i - 1)) - sgn (s (i))]

在前述语音编码技术中，每一个音框中包括有160次取样，每一个音框包括有34位元的LPC参数、6位元的节距、一位元的发声/无声子音以及7位元的增益值，总共为48位元。

如前所述，在语音编码中，如何正确地判别输入语音信号为有声或无声子音为极为重要的课题。因为此过程大大地影响到语音合成信号的质量。如果在该有声/无声子音判别过程中，将无声子音误判为有声语音时，则其输出的合成语音会听起来像是嗡嗡低沉的声音，而若将有声语音误判为无声子音时，则其输出的合成语音会听起来像是敲擎声。对于此问题，在前述的传统技术中无法有效解决。

再者，在前述第二种传统技术中，其是以一位元来决定音框中的有声或无声子音的状态，以意图含盖有声/无声子音间的临界状态。如此，因为其整个音框在临界区域，不是被判定为有声即是无声子音，故往往使其输出的合成语音听起来有杂音感。

本发明的主要目的在于提供一种编码准确的语音编码的子音识别方法。

本发明的另一目的在于提供一种可精确判别有声/无声子音的方法，藉由本发明的识别方法，可以精确判别出输入语音信号中音框为有声或是无声子音。

本发明的目的之三是提供一种四区段有声/无声子音的判别方法(Quarter Voiced/Unvoiced Decision Scheme)，其将输入语音信号中的每一个音框分割成四个子音框(Subframe)，然后针对每一个子音框，依据其相关参数，而综合判别该音框是有声或无声子音，因此其判别结果，可以在语音合成输出端得到一精确、自然的语音信号输出。

为达到上述目的，本发明采取如下方案：

本发明的步骤中，首先将输入语音信号的音框分割成四个子音框之后，依序判别该四个子音框的NC值(归一化互相关值)是否大于或等于一高限临界值(例如0.7)、然后再判别该NC值是否小于一低限临界值(例如0.4)，经过前述两个步骤的判别之后，即可把明显属于有声及无声子间的信号予以判别出，接下来即是判别介于前述明显有声/无声子音之间的信号，此阶段的判别步骤包括有：若在前述步骤中，判别出NC值并未小于低限临界值，则执行稳定/不稳定的判别步骤，分别判别该子音框的能量值与线频谱对耦系数(LSP)值的大小；若能量值与LSP值未大于预设的临界值时，则判定该语音信号呈稳定状态，将四个子音框的属性全部设定为与前一个音框中最后一个子音框的有声/无声子音状态相同；若在前述步骤中判别出能量值与LSP值大于预设临界值时，则执行该子音框的低频段至高频段能量比值LOH的判别步骤，判定每一个子音框的LOH值是否大于一临界值，若大于临界值，则判定该子音框为有声语音信号；若否，则判定该子音框为无声子音信号，对下一个子音框进行判别，直到四个子音框全部判别完毕为止。

配合附图及实施例对本发明详述如下：

附图简要说明：

图1为传统语音编码技术的基本方块图。

图2是本发明的判别流程图。

图3是本发明中，四个子音框以3位元予以编码的编码表。

在本发明的判别方法中，是将输入语音信号中的每一个音框分割成四个子音框(Subframe)，然后针对每一个子音框，依据其相关参数，综合判别每一个子音框为有声或是无声子音。前述参数包括有NC、能量、线频谱对耦系数(line Spectrum Pair，简称LSP)以及低频段至高频段能量比值(Low to High Band Energy RatioValue，LOH)。

以下即为本发明的判别步骤。如图2所示，其为本发明的判别流程图，其步骤包括有：在流程开始步骤101之后，首先执行步骤102，取得目前的音框资料(Current Frame)。接着首先执行判别NC值是否大于或等于一高限临界值0.7的步骤103，该NC值的定义如前述的说明。若判别结果为是，则执行步骤104，判定该输入的目前音框中之四个子音框皆属有声信号，然后判别程序即结束。

若在前述步骤102中判别出NC值，其并未大于或等于高限临界值0.7，则在步骤105中继续判别该NC值是否小于一低限临界值0.4，若是，则判定该音框中的四个子音框皆属无声子音信号，然后判别程序即结束。

经过前述两个步骤102、103判别之后，即可把明显属于有声及无声子音的信号予以判别出，接下来即是判别介于前述明显有声/无声子音之间的信号，在此一不稳定、暂态区域中，由于无法单独由步骤102及103中的NC值判断步骤来执行有声/无声子音的精确判别，因此必需藉由以下判别方法，来达到本发明预期的目的，故以下的判别步骤为本发明极为关键的步骤。

若在前述步骤105中判别出NC值并未小于0.4，则在步骤中执行稳定/不稳定的判别步骤(Stationay/nonstationary Decision，简称S/NS Decision)，此一步骤中，包括有两个判别项目，其中之一为能量判别，其判别前一个能量(Previous Energy)与目前能量(Current Energy)的差值，即dis(PrEng，CuEng)。为了要更进一步增加S/NS的判别精确度，此一步骤中更包括了LSP系数的判别，此LSP系数为由LPC等化器所取得。在此一LSP系数的判别，是取得前一个平均LSP(Past averageLSP)与目前LSP(Current LSP)的差值，即dis(PaLSP，CuLSP)。

在步骤107的S/NS判别步骤中：

a、dis(PaLSP，CuLSP)大于或等于0.45；而且

b、dis(PrEng，CuEng)大于或等于0.4；

若结果为否，表示语音信号呈稳定状态，则执行步骤108，将四个子音框的属性全部设定为与前一个音框中最后一个子音框的有声/无声子音状态相同。

相反地，若前述步骤107的差值判别步骤中，若结果为是(亦即表示能量或LSP系数的变化很快)，则执行LOH的判别步骤(包括步骤109至113)，对每一个子音框进行有声/无声子音的分类判别，以得到更精确判别结果，所谓LOH判别定义为：

LOHI (i) = \sqrt{\frac{\frac{1}{W} Σ_{k = - w / 2}^{w / 2 - 1} s^{2} lplk (k + d_{offset} (i))}{\frac{1}{W} Σ_{k = - w / 2}^{w / 2 - 1} s^{2} hplk (k + d_{offset} (i)) + T_{sil}}}

其中i代表第i个子音框

S₂1plk代表原始信号经过1k低通滤波器后所得到的信号在定义式中，语音信号中低于1KHz至高于1KHz的能量比值以一视窗长度W予以相除，其所谓视窗长度W的定义如下：

W＝pitch 若pitch大於N_subframe

W＝2*pitch 若N_subframe/2≤pitch＜N_subframe

其中pitch即为节距，而N_subframe表示受取样的子音框长度。

此外，在LOH定义中，亦选择一静音临界值Tsil作为目前音框的最大语音值，该Tsil值会被加入至经过1KHz高通滤波过的语音信号的能量中，以使低能量的有声信号倾向于被选为无声子音。

d_OffSet(j) 每一个子音框之中心位置，其定义为：

d_OffSet(j)＝N_subframe*(j-1/2)，j＝1～4

其中j表示子音框的号码。

在本发明的LOH判别流程中，步骤110首先判别第一个子音框的LOH(见前述定义)是否大于1，若大于1，则执行步骤112，判定该子音框为有声语音信号；若否，则执行步骤111，判定该子音框为无声子音信号。然后，再于步骤113及109循环中，对下一个子音框进行判别，直到四个子音框全部判别完毕为止。亦即，经过上述的LOH判别之后，对于每一个子音框的LOH值，若大于一临界值，则该子音框即被判定为有声，否则即被判定为无声子音。待一个音框的四个子音框全部判定完毕之后，即可依据结果作编码过程。在本发明中，四个子音框中只需要3位元即可予以编码，如图3所示，其中“1”表示有声，而“0”表示无声子音。

在得到图3所示的索引值之后，将对应的值予以储存，即完成编码的过程，然后，在实际的应用中，即可以习知的语音合成技术作解码，而产生所需的合成语音。

综上所述，本发明具有以下效果：

由于本发明的识别步骤中增加了稳定/不稳定的判别步骤，而增加了对语音信号能量识别的精度，这样就可提高语音信号编码的精确度。

Claims

1、一种语音编码的子音识别方法，用以识别一输入语音的音框资料属性，其特征在于，该方法包括有列步骤：

a、取得目前输入语音音框资料并将其分割成四个子音框；

b、依序判别四个子音框的NC值是否大于或等于一高限临界值，若判别结果为是，则判定该输入的目前音框中的四个子音框皆属有声信号；

c、若在步骤b中判别出子音框的NC值并未大于或等于高限临界值，则判别该NC值是否小于一低限临界值，若是，则判定该音框中的四个子音框皆属无声子音信号；

d、若在步骤c中判别出NC值并未小于低限临界值，则执行稳定/不稳定判别步骤，分别判别该子音框的能量值与线频谱对耦系数值的大小；

e、若能量值与LSP值未大于预设的临界值时，则判定语音信号呈稳定状态，将四个子音框的属性全部设定为与前一个音框中最后一个子音框的有声/无声子音状态相同；若

f、步骤e中，若能量值与LSP值大于预设临界值时，则执行该子音框的低频段至高频段能量比值LOH的判别步骤，判定每一个子音框的LOH值是否大于一临界值，若大于临限值，则判定该子音框为有声语音信号；若否，则判定该子音框为无声子音的信号，对下一个子音框进行判别，直到四个子音框全部判别完毕为止。

2、根据权利要求1所述的语音编码的子音识别方法，其特征在于，所述步骤b在判别子音框的NC值时，设定的高限临界值是为0.7。

3、根据权利要求1所述的语音编码的子音识别方法，其特征在于，所述步骤c在判别子音框的NC值时，设定的低限临界值为0.4。

4、根据权利要求1所述的语音编码的子音识别方法，其特征在于，所述步骤d的稳定/不稳定的判别步骤中，其中子音框的能量值的判别是判断前一个能量与目前能量的差值是否大于或等于一预设的临界值。

5、根据权利要求4所述的语音编码的子音识别方法，其特征在，于所述进行音框的能量值的判别步骤中，设定的临界值是为0.45。

6、根据权利要求1所述的语音编码的子音识别方法，其特征在于，所述步骤d的稳定/不稳定判别步骤中，所述子音框的LSP系数的判别是判断前一个平均LSP系数与目前LSP系数值的差值。

7、根据权利要求6所述的语音编码的子音识别方法，其特征在于，所述进行音框的LSP系数值的判别步骤中，设定的临界值为0.4。

8、根据权利要求1所述的语音编码的子音识别方法，其特征在于，所述步骤f在执行子音框的低频段至高频段能量比值LOH判别步骤中，所述LOH的定义为：

LOHI (i) = \sqrt{\frac{\frac{1}{W} Σ_{k = - w / 2}^{w / 2 - 1} s^{2} lplk (k + d_{offset} (i))}{\frac{1}{W} Σ_{k = - w / 2}^{w / 2 - 1} s^{2} hplk (k + d_{offset} (i)) + T_{sil}}}

其中i代表第i个子音框

S₂1p1k代表原始信号经过1k低通滤波器后所得到的信号，在定义式中，语音信号中低于1KHz至高于1KHz的能量比值以一视窗长度W予以相除，其视窗长度W的定义如下：

W＝pitch 若pitch大於N_subframe

W＝2*pitch 若N_subframe/2≤pitch＜N_subframe

其中pitch即为节距，而Nsubframe表示受取样的子音框长度；

其中的静音临界值Tsil作为目前音框的最大语音值，所述Tsil值会被加入至经过1KHz高通滤波过的语音信号的能量中，以使低能量的有声信号倾向于被选为无声子音；其中d_offset(j)当每一个子音框的中心位置，其定义为：

d_offset(j)＝N_subframe*(j-1/2)，j＝1～4

其中j表示子音框的号码。