CN86100298A

CN86100298A - 语音识别

Info

Publication number: CN86100298A
Application number: CN86100298.9A
Authority: CN
Inventors: 马修·伦宁; 保罗·默梅尔斯坦; 维谢瓦·纳思·古普达
Original assignee: Northern Telecom Ltd
Current assignee: Nortel Networks Ltd
Priority date: 1985-01-30
Filing date: 1986-01-20
Publication date: 1986-08-06
Also published as: JPH0797279B2; EP0192898A1; ATE51457T1; DE3576868D1; CN1009320B; KR940002437B1; JPS61177494A; KR860006083A; EP0192898B1; CA1232686A

Abstract

在识别分离字词语音或连续语音的语音识别器中，借助于用动态分量扩充增强未知语音的普通频谱表示，使识别精确度得到了提高。在与语音的频谱表示相比较的样型音中，可提供相应的动态分量。在最佳实施方案中，表示为唛耳-频率方式的倒谱，并且各动态分量包含有若干对一次参数倒谱之间的矢量差。每对一次参数倒谱之间的时间间隔最好为50ms。并且与各动态参数一起计算动态听觉响度分量也是最为可取的。

Description

本发明是关于语音识别方面的一项发明。

在已知的各种语音识别器中，语音一般经过脉冲编码调制（PCM）的格式编码后，再经过预处理，使之变换为一种与人类听觉***领悟语音的方式有更为密切关系的样式。例如，可以将语音加以处理，给出滤波器组的各通道能量、倒谱、唛耳（mel）-频率倒谱或线性预测系数。将各个识别单元，如字语或音节，与一系列代表各有效单元的各基准样型音中的每一个样型音进行比较，判认最相匹配的那一个样型音为未知的单元，並在输出端送出相应于该样型音的单元标志。

虽然这类识别器对于一些应用来说是合适的，但是，由于在于某些应用方面，特别是在要求与说话人无关、进行电话交谈或具有大词汇量的应用方面，这类识别器会产生令人不能接受的差错率，因而效果並不完全令人满意。其原因据认为是普通的表示法並不足以准确地模仿人类听觉***的响应特性。

根据本发明，用以识别语音的设备包括：

（ⅰ）用于将未知的语言发音表示为一个参数帧序列的装置，每一参数帧代表上述语音的一个相应的时间帧;

（ⅱ）用于提供许多基准样型音的装置，每一样型音包含有一个参数帧序列，並用与第一点提及的参数帧相同的各种参数予以表示。

第一点提及的一个参数帧序列（未知的）和第二点提及的一个参数帧序列（基准的）中的每一参数帧均包含一组一次参数和一组二次参数。每一个二次参数表示在相对应的各参数帧（即导出各不同时间帧的各参数帧）内各相应一次参数之间带符号的差数;以及

（ⅲ）用于将一个未知语言的参数帧序列与每个基准样型音相比较，並确定哪个基准样型音与之最相匹配的装置。

每一参数帧包含有一组根据所用的表示类型加以选定的参数，例如各滤波器组的各通道的能量、倒谱、唛耳-频率方式倒谱或线性预测系数。

所说的各不同时间帧的中心之间的时间差应优选为20ms至200ms，最好选为50ms左右。二次参数通常由前面和后面的一次参数导出，例如由±25ms或者±两帧的一次参数导出。

最好再引入一个表示幅度变化或听觉响度变化的分量，该分量既作为未知语音又作为基准样型音的一个二次参数。这样的响应分量通常不用于一次参数，因为绝对幅度或绝对响应对于区分各种字词语音是不起作用的。

因此，本发明一般来说包括用一组动态二次参数扩充增强的一组通常用以识别语音的一次短时间静态参数，其中一次参数用于语音识别，其中二次参数表示每个一次参数在一段短的时间间隔（例如20至200ms）中的变化。除了一次参数之外，述采用动态二次参数，这正与其他诸如非相关性、听觉差别等参数相反，会使可用以区别讲话声音的距离测量或概率密度函数变得对语音差别更加灵敏。

任何一种短时间谱的表示都可以用作一组一次参数。这类表示的例子有滤波器组各通道能量、倒谱、唛耳-频率倒谱、线性预测系数等等。这些表示的每一种均是借助于少数的参数（一般取为3到80之间）在一个时间帧（一般为2到50ms）中估算音量大小或功率谱。

若P_t是在时间t时计算得到的各一次参数的矢量，则时间编移a和b应选为：

20ms≤a+b≤200ms

並且动态参数矢量△P_t定义为矢量差：

△P_t＝P_t+a-P_t-b

本发明是利用各参数P_t与△P_t一起的合成效果表示时间t附近的语音信号。于是，概率密度函数和间距是利用同时包含静态（一次）和动态（二次）参数的这一扩增的参数组予以定义的。

另一方面上面的推导可以用帧数来表示。若△t＝相邻帧间的时间差，並若Pi＝第i帧内的一次参数矢量，则动态矢量△Pi可以定义为矢量差：

△Pi＝Pi+〔a/△t〕-Pi-〔b/△t〕

选用的参数最好是唛耳频率方式的倒谱系数，在这种情况下，各一次参数C1……，Cn表示功率谱的形状而各二次参数△C1……，△Cn表示在规定时间间隔内的功率谱的形状的变化。此外，在这组二次参数中可以包含有△Co，用以表示响度或幅度的变化。

下面仅以一个例子，並参照附图，对本发明的一个实施方案进行描述，在附图中：

图1是一种语音识别器的一般原理方框图;

图2是表示该语音识别器的滤波器装置特性的图形。

在图1所示的语音识别***中，信号Sn表示一种线性的脉冲编码调制（PCM）语言信号，这个信号是未知信号或要进行识别的“输入”语言信号。将信号Sn送到汉明窗口（Hammig Window）装置10，在汉明窗口装置10中，信号Sn被分割成为若干时间帧，每帧为25.6ms或204个取样的持续时间。在运行中，使每一帧均超前128ms或102个取样持续时间，因而也使相继的各帧互相重迭50%。而后用上升余弦函数对每一时间帧进行逐点相乘，並将结果送到滤波器装置12。这种汉明窗口可以衰减功率谱的各个旁瓣。

对每一时间帧进行256点的快速富利叶变换（Fast Fourier Transform），结果形成128点的实功率谱F1，……，FN，其中N＝128。

滤波器装置12实际上是由二十个三角形滤波器所组成的滤波器组。二十个三角形滤波器组可确定各相应组的二十个通道的能量。对于取样频率Fs为8KHz的PCM方式而言，二十个通道的频率范围大约为从100Hz到4000Hz。正如图2所表示的那样，各通道为唛耳排列方式，其中各通道的中心频率以100Hz为间隔，线性地排列在100Hz到1000Hz范围内，而其对数分布范围是1100Hz到4000Hz。

对于每一时间帧而言c道的输出是根据下面表达式所导出而加权的Bj：

Bj＝

Σ_{i = 1}^{N}

Wij Fi

其中Bj为第j个唛耳频率通道的输出能量;Fi为根据i取值为1≤i≤N的快速富利叶变换求得的第i个功率谱的量值;Wij为所规定的加权系数，定义如下：

当1≤i≤N且1≤j≤20时

其中△f＝fs/2N

当1≤j≤20时，其lj、kj、hj分别为每个滤波器通道的最低频率、中心频率和最高频率，並由表1给定。

信号Bj的二十个对数通道的能量在装置14中根据下面的表达式进行计算：

Lj＝Log₁₀Bj 当l≤j≤20时

滤波器装置的输出和装置14的输出都被送到装置16，分别用来计算听觉响度C₀和前七个唛耳频率方式的倒谱系数C1、C2……C7。

听觉响度C₀为各通道能量的听觉加权总和Bj的对数值，並用下式求出：

C₀＝600Log₁₀

Σ_{j = 1}^{20}

Vj Bj

其中Vj≥0，可以选得与听觉主观感觉的重要程度相符合。Vj的各种合适的取值示于下面的表1中

用以得到各个倒谱系数Ci的装置16，Ci是通过对各对数能量进行余弦变换的方法而实现的。于是，

Ci＝

Σ_{j = 1}^{20}

Lj Cos〔i（j-1/2）π/20〕

其中1≤i≤7

对于有关计算各个系数的更详细的资料，这里仅向读者推荐S.B.Davis和P.Mermelstein撰写的一篇论文，题为“Compari son of Parametric Representations for Monosyllabic Word Recognition in Continu-ously Spoken Sentences”（关于连续发音语句中单音节字词识别方面各种参量表示的比较），请参阅IEEE Transactions on Acoustics and Signal Processing，卷号为ASSP28第4期，第357-366页，1980年8月出版。

滤波器号 lj kj hj 响度加权值

No.（j） Hz Hz Hj Vj

1 0.， 100.， 200. .0016

2 100.， 200.， 300. .0256

3 200.， 300.， 400. .1296

4 300.， 400.， 500. .4096

5 400.， 500.， 600. 1.

6 500.， 600.， 700. 1.

7 600.， 700.， 800. 1.

8 700.， 800.， 900. 1.

9 800.， 900.， 1000. 1.

10 900.， 1000.， 1150. 1.

11 1000.， 1150.， 1320. 1.

12 1150.， 1320.， 1520. 1.

13 1320.， 1520.， 1750. 1.

14 1520.， 1750.， 2000. 1.

15 1750.， 2000.， 2300. 1.

16 2000.， 2300.， 2640. 1.

17 2300.， 2640.， 3040. 1.

18 2640.， 3040.， 3500. 1.

19 3040.， 3500.， 4000. 1.

20 3500.， 4000.， 4600. 1.

装置16的输出，其中包括一组一次参数C1、……，C7和听觉加权的响度参数C₀，每隔12.8ms传送给发音边界点检测器18，借助于把听觉响度C₀的最小必要持续时间和最小幅值查询为时间帧号函数的方法将字词的各语音边界点检测出来。边界点的检测可以采用各种已知方法中的一种来实现，例如在“An Improved Endpoint Detector for Isolated Word Recognition”（分离字词识别中的一种改进的边界检测器）论文中所公开的方法，作者为L.F.Lamel，L.R.Rabiner，A.E.Rosenberg和J.G.Wilpon，刊在IEEE Trans.on Acaustics，Speech and Signal Processing，卷号为Assp-29，第4期，1981年8月出版，第777-785页。

此后，在语音处理中，字词间的时间间隔或寂静时间都被删除，即仅仅传送介入的语音。每一语音参数帧的数目M，可以有选择地通过线性地隔开删除帧或重复帧实现标准化，例如M＝32。

边界点检测器18的输出是M个唛耳频率方式的倒谱序列，並用下面的矩阵来表示：

这一输出信号或识别单元表示或U被传送给动态参数计算装置20，装置20依照下式计算动态参数如下：

△Ci，j＝Ci+C，j-Ci-d，j

当d+1≤i≤M-C，0≤j≤7时，

其中C为超前帧序号，d为滞后帧序号。在特定情况下，C＝d＝2。

当1≤i＜d+1时

△Ci，j＝Ci+C，j-Ci，j;

当M-C＜i≤M时

△Ci，j＝CM，j-Ci-d，j

这些动态参数可以计及人类听觉***感知输入语音激励信号变化的习性。

M个参数帧的序列U′包含有一次（静态）参数和二次（动态）参数，可用下面的矩阵表示：

並从动态计算装置20传送到动态时间卷曲装置22。

应当注意到，与语音的静态响度相联系的矢量C₀並没有利用上。

包含各动态参数和一个动态响度分量△Ti，O的一组相应的样型音，以下面的形式由装置24导出：

用于样型音的各参数序列，同时也送到动态时间卷曲装置22上。

使“未知”的参数表示式U′与每一基准样型音T′依次进行比较，並在每一种情况下计算出时间卷曲距离，从而将未知的语音判认为相应于具有最小卷曲间距的样型音的基准语音。

在由D.Sankoff和J.B.Kruska编辑，1983年由Addison-Wesly（Reading MA）出版的版本，书名为《时间卷曲，条纹编纂和宏观分子：序列比较的理论与实践》（“Time Warps，String Edits，and Macro-molecules：The Theory and Practice of Soquence Comparison”）中第163-187页中，由Hunt，Lenning和Mermelstein所撰写的题为《在以音节为基础的连续语音中使用动态编程》（“Use of Dynamic Programming in a Syllable-Based Continuous Speech”）一章中所介绍的方法可以用作动态时间卷曲计算。

现已发现，通过在参数表示式中包含有若干个动态参数的方法，识别准确度可以得到很大提高。同时还发现，当动态参数表示在大约50ms间隔排列的各时间帧之间语音信号的变化时，可以达到特别良好的结果。

尽管仅描述了应用于分离的字词语音的识别器，但本发明也同时适用于连续字词语音的识别器。並且不论是识别经专门训练的讲话人的识别器，还是识别与讲话人无关的识别器，本发明都是很适用的。

如上所述，使用以动态参数扩充增强的参数集组合，其中一次参数为前七个唛耳-频率倒谱的系数，在公用电话交换网上进行与讲话人无关的连续数字语音识别的试验结果表明，识别差错大约减少了 20%。除使用相应于前七个唛耳-频率倒谱系数的动态参数之外，同时采用了相应于总响度变化的第八个动态参数，进一步减少了大约10%的识别差错。

Claims

1、一种识别未知语音的一种方法，其特征在于包括以下步骤：

(ⅰ)将所说的未知语音表示为一个参数帧序列，每一参数帧表示所说的语音的一个相应的时间帧；

(ⅱ)提供许多个基准样型音，每一样型音包含有一个参数帧序列，后者用与第一点提及的参数帧的同样类型参数来表示；

第一点提及的一个参数帧序列中和第二点提及的一个参数帧序列中的每一帧均包含有一组一次参数和一组二次参数，每一个二次参数表示为了导出各不同时间帧的各个对应的参数帧中各相应一次参数之间带符号的差数；以及

(ⅲ)将未知语音的参数帧序列与每一基准样型音相比较，从而判定与未知语音最为相似的那个基准样型音。

2、如在权利要求1中所限定的一种方法，其特征在于，各不同时间帧的中心之间的时间间隔在20到200ms范围内。

3、如在权利要求2中所限定的一种方法，其特征在于，所说的时间大约为50ms。

4、如在权利要求1、2及3中所限定的一种方法，其特征在于：包括计算作为二次参数的动态响度分量的步骤，並在每一所说的参数帧内提供一个相应的动态响度分量。

5、用于识别语音信号中未知语音的设备，其特征在于：

（ⅰ）用以将未知语音表示为参数帧序列的装置（14、16、18、20），每一参数帧代表所说的语音的相应的时间帧;

（ⅱ）用以提供许多个基准样型音的装置（24），每一样型音包括有一个参数帧序列，该参数帧用与第一次提及的参数帧同类型的参数表示，

第一点提及的一个参数帧序列和第二点提及的一个参数帧序列中的每一参数帧均包含有一组一次参数和一组二次参数，每一个二次参数表示在相对应的各参数帧（即导出各不同时间帧的各参数帧）内各相应的一次参数之间带符号的差数;以及

（ⅲ）装置（22）用以将语音的一个参数帧序列与每一基准样型音相比较，从而判定与未知语音最为相似的那个基准样型音。

6、如权利要求5中所限定的设备，其特征在于，前述装置（24）提供每一个上述二次参数，以表示导出以20到200ms时间间隔范围排列的各时间帧的相应参数帧内一次参数之间带符号的差数。

7、如在权利要求6中所限定的设备，其特征在于，以中心到中心约为50ms的时间间隔来排列各时间帧。

8、如在权利要求5、6或7中所限定的设备，其特征在于包括装置（16），在所说的未知语音序列和所说的样型音序列两种情况下，均用于把一个动态响度分量计算作为二次参数组中的一个二次参数。

9、如在权利要求5中所限定的设备，其特征在于，提供包括用于计算二次参数△Ci，j的装置，並按照下面的表达式进行计算：

当d+1≤i≤M-C，0≤j≤7时，

△Ci，j＝Ci+C，j-Ci-d，j

其中C为超前帧的序号，d为滞后帧的序号，二者都与确定动态参数的那一帧相关。

10、如在权利要求1中所限定的一种方法，其特征在于，二次参数按照下面的表达式计算：

当d+1≤i≤M-C，0≤j≤7时，

△Ci，j＝Ci+C，j-Ci-d，j

11、如在权利要求9中所限定的设备，其特征在于，所说的用于计算二次参数的装置，按照下列表达式计算：

当l≤i≤d+1时

△Ci，j＝Ci+C，j-Cl，j

並按照下式计算：

当M-C＜i≤M时

△Ci，j＝CM，j-Ci-d，j

12、如在权利要求10中所限定的方法，其特征在于，各二次参数按照下列表达式进行计算：

当l≤i＜d+1时

△Ci，j＝Ci+C，j-Cl，j

並按照下式计算：

当M-C＜i≤M时

△Ci，j＝CM，j-Ci-d，j