CN1153567A

CN1153567A - 基于新字建模的语音识别方法和装置

Info

Publication number: CN1153567A
Application number: CN96190450A
Authority: CN
Inventors: R·哈布-乌贝赫; P·拜尔莱因; E·特伦
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1995-05-03
Filing date: 1996-05-02
Publication date: 1997-07-02
Anticipated expiration: 2016-05-02
Also published as: CN1130688C; JPH10503033A; EP0769184B1; US5873061A; WO1996035207A1; EP0769184A1; DE69607913D1; DE69607913T2

Abstract

对于语音识别，一个新字基于子字单元模型的储存目录而得到表示。首先，大量与字相对应的发音得到表示。为了根据发音建立字模型，这些发音由特征向量序列表示。首先，发音用于训练与子字单元模型独立的全字模型。全字模型的长度等于平均发音长度。其次，马尔可夫状态序列和全字模型声学事件的联合概率密度序列可以解释为由平均特征向量串表示的参考模板。最后，通过比较特征向量串和目录中的模型，并储存充当发音模型的识别结果，使该串得到识别。

Description

基于新字建模的语音识别方法和装置

发明领域

本发明涉及用于语音识别的新字表示方法，它基于子字单元模型的储存目录，该方法包含步骤：

表示大量预期与新字相对应的发音，

利用特征向量序列表示发音，并根据发音建立字模型。

在本发明范围内，“字”应当解释为长度或多或少受到限制的任何语言实体，它可以包括简单句、人名及其它名称、和其它条目，以语音形式表示的这些字应当保证机器能够识别。特别是，本发明论述了寻找充当子字单元序列的未知字声音表示的问题，该表示在下文中称之为“改编”。这种改编可以通过提供少量的未知字发音样本及与发音者无关的子字单元模型目录来实现。

如果使用者想利用仅有的几个新字发音，通过对***进行训练而向与发音者无关的识别***添加一个或多个附加字，那么就会产生问题。如果使用特定类型***的预计发音者数目相对地较大并且/或者***相对地廉价，那么与发音者无关的识别是可以使用的。一个典型例子是语音控制电话机，它通常可以识别十个数字和少量的标准术语，此外，使用者还可以对它进行训练，使它能够识别名字或者其它与经常被呼叫的电话分机有关的标号。

在另一个可能只有有限可识别标准字组的例子中，例如二十个字，与发音者无关的语音识别***也是可以使用的。这种***应当由许多不同的发音者进行训练。现在，***可以扩展一些额外的字，它们只适用于非常有限的几个发音训练者，例如不超过三个，但是，要求它们的识别稳定性与原始字组相同。

另一个例子是字母-语音的变换，其中由键盘输入的新字被改编成声音模型。为了提高可靠性，键盘输入的同时还补充了同一个字的声音输入。这种并行表示再次提高了稳定性，在特定的范围内，它还可以解决可靠性的问题，该问题是由表声法误差产生的，或者是由于单个书写字具有两个分别表示不同含义的正确发音而产生的。

特别是，要求所需的最小训练发音数应当很小，例如不超过三个，而且仍然可以保证后续识别的可靠性。问题通常限于只允许增补有限字组，例如至多十个字的***。如果增补的字的数目过高，改编可能会产生引起混淆的结果。另一方面，标准字组可以很大，也可以很小。

发明概述

结果，及于其它事情，本发明的目的是提供一种根据前文得到的方法，其中各种训练发音之间的偏差不会产生有害的影响，因为它们不会利用使用者的错误畸形发音来训练***。结果，根据本发明的一个方面，其特征在于：

第一，利用发音，训练独立于子字单元模型的全字模型，全字模型的长度与平均发音长度相对应，

第二，把第一马尔可夫状态序列和全字模型声学事件的联合概率密度序列解释为由第二平均特征向量序列表示的参考模板，和

第三，通过比较第二序列和目录中的子字单元模型，并储存充当发音模型的识别结果，来识别第二序列。

与此相反，L.R.Bahl等所著的文章，一种构造用于字的声学马尔可夫模型的方法，IEEE语言与音频处理交流，volI，No.4，十月，1993，pp443-452(“A Method for the Construction of Acoustic Markov Models forWords”，IEEE Trans.on Speech and Audio Processing Vol I，No.4，October1993，pp.443-452)，描述了基于大量发音的用来生成改编的另一种方法。根据该参考文献，每一个发音产生各自的改编。然后，把所有的相应改编映射到所有的发音，以便寻找最佳改编，最佳改编也就意味着最佳发音。本发明人已经发现，如果全面考虑发音中的声音失真、时间扭曲、尺度变化和其它非一致性，这样的过程将需要处理大量的数据。特别是，在功能有限的设备中，例如，但并不仅仅是，手提电话，在考虑该发明的预计应用时，数据处理将长时间占用设备，在此期间该设备将不能执行其它功能。实际上，已知处理过程所需的处理时间与发音数目的平方成比例，而本发明所需的处理时间只与发音数目成线性关系。

其它相关参考文献是EP-B1-285 222，对应于有关建模的美国专利申请No.07/175,976(PHD87.073)，和/EP-A3-533 260，对应于美国专利申请No.07/944,554(PHD91.138)，它与在语音识别中所执行的树搜索操作有关，所有这些都已转让给本申请的受让人，并引入作为参考。

此外，本发明的有利实施方案利用了Bahl等的教导，因为在后续步骤中，本发明中实现的基于平均发音的改编将与根据Bahl等的方法生成的各种单音改编进行竞争。在特定范围内，这样做可以进一步改进由上文得到的结果。

本发明还涉及实现该方法的设备。更进一步的优点将在从属权利要求中陈述。

附图简述

本发明的各个方面和优点将在下文中参照优选实施方案，特别是参照附图而进行详述，附图是：

图1是实现识别的***；

图2是实现改编的***；

图3是实现改编的过程流图；

图4是实现改编的设备。

实施方案的概念基础

首先，给出了本发明方法的简化公式。处理过程的起点是提供子字模型的储存目录。现在，在本方法中，具有单密度输出概率(Single-density emissionprobabilities)的分立全字模型由给定的n个发音产生，其中n是一个适当的数值，例如三或者五。该模型可以解释为是由各种发音得到的‘平均发音’ Y，其中平均发音的观测向量是具有与状态有关输出概率密度(state-specificemission probability densities)的平均向量。未知字的改编由子字单元序列给出，该序列以最大可能性生成平均发音 Y：

Tavg＝argmaxs∈SP( Y|s)

依次地，该子字单元序列可以从连续语音识别过程中找到。特别是，所选的改编Tavg可以是子字单元序列组S中的任何一个。

在稍宽的方面，首先，本发明利用各种发音来训练全字模型，该模型独立于子字单元模型，并且其长度与平均发音长度相等。其次，全字模型用于从中产生马尔可夫状态序列和声学事件的联合概率密度序列。自然而然地，这种隐式马尔可夫过程表示法已经广泛地应用于语音识别技术。该表示法还产生了发音的子字单元辨别法，这样，解释的结果可以作为由平均特征向量序列组成的模板。依次地，后续序列的元素可以与目录中的子字单元模型相匹配，这样，识别串实际上是平均发音模型，并且可以顺序地用于识别更多的发音。

图1显示了识别口头字的***。在这里，方框20代表待识别的口头字，图中的时间是由左向右流逝的，方框内容是采样语音的时变特征向量。首先，字被划分为如小方块所示的子字单元。各种单元可以是单音、双音、部分音节、全音节、或者甚至是单个特征向量。不必要求子字单元具有声音关联性。这种划分是基于各种上述特征向量而实现的，并且可以按照传统的方法进行。划分由垂直线表示，由于混合使用长字单元和短字单元是可行的，所以这种划分不必是等间距的，如图中所示。其次，从待分析字的一端开始，子字单元与储存在目录22中的条目进行比较，该目录是通过分析大量的语音而建立起来的。自然而然地，这种分析方法在本发明范围之外，本发明只是使用它。各个连续子字单元可以生成与一个或多个与目录条目的匹配。

现在，每一种匹配还产生一个评分，该评分取决于两个匹配条目间的不相关程度，这样，低评分表示匹配较好，反之亦然。而且，评分取决于语言模型，该模型表示字的具体链接的概率。低概率产生高评分，反之亦然。根据一个策略，按照这种方式，树由各种可能的已识别子字链接而建立起来，这种链接具有智能分枝评分的能力。一种删改机制用于中止和切断树的这种分枝，该分枝利用它们的高评分表示极低的相关识别概率。当正好在某一点，对于不同的特定分配不再有类似的可能性时，那么就已经识别出了待分析的字或部分字，除非相关评分表示一种不切实际的极低概率。后者将导致放弃未识别的语音部分并且复位评分。利用符号表示法，各种方法得到显示，每一个点表示一种子字到来自存储***22相关列的条目的分配。应当清楚的是，图中的表示完全是象征性的。各种其它的评分和搜索策略也是可行的。

图2显示了实现改编的***，该***基于使用者对(假设)同一字的三种发音(30，32，34)。使用者可以是同一个人也可以不是。首先，确定发音长度，例如通过计算每个发音的均匀间隔样本数目，然后计算它的平均长度。其次，独立于子字模型目录的、具有平均发音长度的全字模型(36)利用各种发音而得到训练。这种训练可以通过标准语音识别训练方法实现。再次，这种训练结果通过马尔可夫状态序列和全字模型语音事件的联合概率密度序列而得到解释。结果(38)是表示为一系列平均特征向量的参考模板。然后，这种声音模型起到模板的作用，即作为一些平均发音。然后，后一个序列通过与目录22中的各种子字单元模型的比较而被识别，结果(40)是用于后续语音的模型。

最后，新字的改编通过寻找与平均特征向量序列匹配最佳的子字单元序列而生成，它与用于图1的过程相同。然而，与图1相反的是，通常没有语音模型可以利用，因为没有关于发音特性的先验知识：它可以是一个单字，或者是复合词，例如在上述电话***中被呼叫人的姓和名。然而在其它范围内，这种语言模型可以用于可能的子字单元序列。

声音模型可用于识别，因为声音模型通常不需要依赖于基本音节的含义。如果平均发音的识别评分特别地高，因此它表示极低的识别概率，使用者将被告知，例如通过声音消息或者指示灯：训练失败，必须进行新的训练。如果训练成功，已识别的子字单元串储存在目录中，由方框40表示，随后还是通过声音消息或者指示灯，使用者被要求指定与基于后续识别的串40相联系的电话分机号码。这种特点允许进行语音控制拨号，其中，改编用来识别正对***进行过训练的字。

图3显示了实现改编的流图。在方框60，初始化***，特别是通过提供子字模型目录和复位操作参数来初始化***。在方框62中，***检测是否接收到话音。如果是否定，等待循环使***再次返回到方框62。如果是肯定，在方框64，对发音进行采样，并且在把样本表示为特征向量之后储存发音。在方框66，***检查预期的合格发音数目是否达到适当的值，例如三个。另一个策略是检测‘执行’命令。如果是否定，***再一次返回到方框62等待另外的发音。在方框68，发音的全字模型通过各种接收到的发音而得到训练，而不依赖于目录，模型的长度是各种发音的平均值。然后，在方框70，由马尔可夫状态序列和声学事件的联合概率密度序列表示的全字模型被解释为由平均特征向量序列给出的参考模板。然后，在方框72，后一序列通过与目录中子字单元模型的比较而得到识别。然后，这允许辨别作为发音之一而在以后被接收的发音，这些发音已经由子字模型串表示。下一步，在方框76，***检测是否仍然有新发音需要接收，并依次地进行处理。如果还没有准备好，那么***返回到方框62。如果已经准备好，或者，利用一些‘结束’命令，***通过终止方框78而退出。

图4显示了实现本发明改编的设备。方框80是一些麦克风或其它用于语音输入的设备。方框82实现对接收发音的周期采样，它可以包含只在有效地接收到语音时用于实现采样的语音检测器。方框84根据样本流产生语音特征的特征向量。结果，***包含各种常规元件，例如带通滤波器、A/D改编器，这样，特征向量基本上成为后续处理的有用工具。在方框86，发音的特征向量串存储于相应的子块A、B、C。通过对该存储器的复合存取，训练块88训练长度与平均发音长度相对应的全字模型。这还需要排列各种发音表示。自然而然地，单一发音建模已经公开于上文中的引用技术。然后，方框90解释从方框88接收到的全字模型，特别是该模型包含马尔可夫状态序列和全字模型中声学事件的联合概率密度分布序列。解释的结果是包含平均特征向量序列的参考模板。最后，方框92存取方框96中的子字单元存储目录，通过与存储子字单元模型的特定序列进行比较来识别由方框90接收到的模板。方框94根据需要与各种其它设备相连。例如，它可以包含用于存储来自方框96的子字模型序列的额外存储器，该子字模型序列与用于后续识别的发音有关，这样在翻译成特征向量之后，后续接收的单个发音可以直接与特定子字单元模型比较。

一些附加的、然而是任选的用户接口设备已经显示在图中。方框98是电话键盘。通常，这是十二键设备。在储存与后续发音相关的子字单元模型序列之后，电话分机号码的键入将把这个发音和键入数字联系起来，结果，允许在相关标号发音的语音输入的控制下激活这个号码。方框100是一个字母键盘，例如字母数字混合的QWERTY。在方框102中的文本输入导致字母-语音的变换，这自然是一个常规的特点。所使用的语音已经根据目录存储器96中的子字单元建模而被模型化。变换器102的输出被提供给识别方框92。这样，字母-语音的变换可以通过本发明话音-语音的表示而得到加强，例如，在具有不同拼写的外国名字的条件下。在其它方向加强也是可能的，因为在话音中可能很难识别一个特定的字。

Claims

1 一种用于语音识别的新字表示方法，基于子字单元模型的储存目录，该法包含步骤：

表示大量与预期新字相对应的发音，

利用特征向量序列表示发音，并根据发音建立字模型，其特征在于：

2 一种用于语音识别的新字表示方法，其中建模操作被实现，因为每一个发音序列都由它自己的改编表示，所有相应的改编作为候选者被映射到所有的发音以便发现最佳改编，最佳改编还意味着最佳发音，和根据权利要求1的作为又一候选者的表示结果。

3 一种用于语音识别的新字表示设备，它基于子字单元模型的存储目录，该设备包含：

输入装置，用于接收大量的与预期字完全相应的发音，

表示装置，用于利用特征向量序列表示发音并根据发音建立字模型，其特征在于

训练装置，由输入装置提供输入，利用发音，用来训练与子字单元模型独立的全字模型，全字模型的长度与平均发音长度相对应，

解释装置，由训练装置提供输入，把第一马尔可夫状态序列和全字模型声学事件的联合概率密度序列解释为由第二平均特征向量序列表示的参考模板，和

识别装置，通过比较第二序列和目录中的子字单元模型，并储存充当发音模型的识别结果，来识别第二序列，

和第一输出装置，由识别装置提供输入，用于输出识别结果，以便作为与后续发音进行比较的基础。

4 根据权利要求4的设备，具有电话功能并允许数字智能语音激活拨号，发音表示缩写拨号的标号。

5 根据权利要求3的设备，其中目录允许标准字组的与发音者无关的识别，此外，还可以按照可与标准字组相比拟的识别稳定性来识别新字。

6 根据权利要求3的设备，具有带有第二输出装置的字母-语音变换器，该变换器向识别装置提供输入，以便在总体上确保提高字母-语音变换器的性能。