CN1202512C

CN1202512C - 用于识别连续和分立语音的语音识别***

Info

Publication number: CN1202512C
Application number: CNB988113805A
Authority: CN
Inventors: 学东·D·黄; 菲莱诺·A·阿莱瓦; 江丽; 黄梅玉
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 1997-09-19
Filing date: 1998-09-16
Publication date: 2005-05-18
Anticipated expiration: 2018-09-16
Also published as: EP1012827A2; CA2303011A1; EP1610301B1; EP1610301A3; WO1999016052A2; CN1279806A; JP4351385B2; US6076056A; EP1012827B1; DE69840115D1; DE69832393D1; EP1610301A2; JP2001517816A; WO1999016052A3; DE69832393T2

Abstract

通过接收表示多个离散地说出的训练字的分立语音训练数据(步骤98)，以及接收表示多个连续地说出的训练字的连续语音训练数据(步骤86)而执行语音识别。多个语音单元模型是根据分立语音训练数据和连续语音训练数据而训练的。语音是根据被训练的语音单元而识别的。

Description

用于识别连续和分立语音的语音识别***

本发明涉及计算机语音识别。更具体来说，本发明涉及一种识别连续和分立语音的方法。

当前最成功的语音识别***采用称为隐藏的马尔可夫模型(HMM)的概率模型。隐藏的马尔可夫模型包括多个状态，其中转移概率是为从每个状态转移到另一个状态而确定的，包括转移到相同的状态。一个观测被随机地与每个唯一的状态相关联。状态之间的转移概率(一个观测将从一个状态转变为另一个状态的概率)并不都是相同的。因此，给定状态之间的转移概率和观测概率，采用象维特比算法这样的搜索技术，以确定整体概率为最大值的最相似的状态序列。

在当前语音识别***中，语音已经被看作为通过隐藏的马尔可夫过程而产生。因此，HMM被用于模拟语音波谱的观测序列，其中特定波谱被随机地与在一个HMM中的状态相关联。换句话说，对于给定的语音波谱的观测序列，在此有一个相应HMM中的最相似序列。

因此，该相应的HMM与观测的序列相关联，该技术可以被扩展，使得如果每个在HMM中的状态的独特序列与一个子字单元相关联，该单元例如一个音素，则可以找到子字单元的最相似序列。另外，利用结合子字单元以形成字的模型，然后利用结合字以形成句子的模型，则可以实现完整的语音识别。

当实际处理声音信号时，信号一般在称为帧的连续时间间隔中采样。该帧一般包括多个样本，并且可以重叠或相邻。每个帧与该语音信号的一个唯一部分相关联。由每个帧所表示的该语音信号的部分被分析以提供一个相应的声音矢量。在语音识别过程中，执行语音单元模型的搜索以确定最可能与声音矢量的序列相关的状态序列。

为了查找对应于声音矢量序列的最相拟的状态序列，可以采用维特比算法。维特比算法执行一个计算，它以时间同步方式从第一帧开始并且在一个时刻处理一帧。对在被考虑的状态序列(即，在HMM中)中的每个状态计算一个概率值。因此，当维特比算法一帧接一帧地分析声音信号时，对每个可能状态序列连续计算累积概率值。在话音结束时，具有通过维特比算法计算的最高概率值的状态序列(或者HMM或一系列HMM)为整段话音提供最相似的状态序列。然后最相似的状态序列被转换为一个相应的说出的子字单元、字或字序列。

维特比算法把指数计算减少为一次，即与在模型中的状态和转变数与话音的长度成正比。但是，对于大的词汇量，状态和转变的数目变大，并且为所有可能状态序列在每个帧中更新在每个状态的概率值所需的计算量占用比一帧的持续时间更长的许多时间，一帧的持续时间一般约为10微秒。

因此，一种称为删减或者波束搜索的技术被研制出来以大大地减少确定最相似状态序列所需的计算量。这种类型的技术消除了为极其不可能的状态序列计算概率值的需要。这一般是在每帧中通过把对于每个所考虑的剩余状态序列(或者潜在的序列)的概率值与该帧相关的最高值相比较而实现的。如果对于一个特定潜在序列的状态的概率值足够低(当在该时间点处与其它潜在序列的最大计算的概率值相比较时)，该删减算法假设这种低分值状态序列不大可能是完整的最可能状态序列的一部分。该比较一般是通过利用最小阈值而完成的。具有落在该最小阈值之下的分值的潜在状态序列被从搜索过程中除去。该阈值可以被设在任何所需水平上，这主要根据所需的节省存储量和计算量，以及由于节省存储量和计算量所造成的所期望错误率的增加而确定。保持状态序列将被称为有效假设。

另一个用于进一步减少语音识别所需的计算量的常规技术包括使用前缀树。前缀树表示作为树型结构的语音识别***的词语，其中可能被该***所遇到的所有词被表示在该树结构中。

在这种前缀树中，每个子字单元(例如一个音素)一般由一个与特定的声音模型(例如HMM)相关联的分支所表示。该音素分支在节点处连接到后续的音素分支。在该共用相同的第一音素的词典中的所有词都共用相同的第一分支。通过比较，具有共同第一音素，但是具有不同第二音素的字共用在该前缀树中的相同第一分支，但是具有在该前缀树中在第一节点处分离的第二分支，如此等等。该树型结构按这种方式继续，使得可能被该***所遇到的所有字都由树的末端节点所表示(即，树上的叶节点)。

显然，通过采用前缀树结构，最初分支的数目将远少于在***的词典或字典中的字的一般数目。实际上，最初分支的数目不可能超过音素的总数(约为40-50个)，而与被搜索的字典或词典的大小无关。尽管如果使用音位变体的变化，则分支的最初数目可以较大，这取决于所用的音位变体。

采用上述技术的语音识别***一般可以分为两类。第一类是能够识别流畅的语音的连续语音识别***(CSR)。该CSR***被根据连续语音数据而训练(即，开发语音模型)，其中一个或多个读者用连续或流畅的方式把训练数据读到***中。在训练过程中开发的声音模型被用于识别语音。

第二类***是一般用于识别分立语音(或者离散语音)的分立语音识别***(ISR)。ISR***被根据离散或分立语音数据而训练，其中一个或多个读者被要求用在每个词之间具有停顿的离散或分立方式把训练数据读到***中。ISR***一般比连续语音识别***更加准确和有效，因为字词边界更加确定并且搜索范围相应地更加缩小。并且，分立语音识别***被认为是连续语音识别的特殊情况，因为连续语音识别***通过也可以接受分立语音。它们在识别分立语音时只是效果不那么好而已。

观察表明，CSR***的用户一般趋向于流畅的说话，直到***开始出错，或者直到用户考虑文章的结构为止。在这一点，，通常达到在字词之间停顿的时刻，用户可能减慢。在这两种情况下，用户相信通过说话更慢和更加清楚，并且在字词之间具有停顿，则将有助于该识别***，而实际上用户迫使***超出了它的能力范围。

但是，用分立语音识别***来尝试识别连续语音是不合适的。当尝试识别连续语音时，ISR***一般比CSR***差得多。这是因为在ISR训练数据中没有连读。

语音识别是通过接收表示多个离散地读出的训练字词的分立语音训练数据而完成，并且通过接收表示多个连续地读出的训练字的连续语音训练数据而完成。多个语音单元模型是根据离散语音训练数据和连续语音训练数据而训练的。语音是根据被训练的语音单元模型而识别的。

在一个优选实施例中，在要被识别的语音中的停顿被识别以确定一个短语的持续时间。多个短语假设被产生，它表示在停顿之间的输入数据所代表的相似短语。与在每个短语假设中的每个字相关的字的持续时间与对于具有与短语假设中字的数目相等的字数的短语的期望字的持续时间相比较。根据字的持续时间与期望的字的持续时间的比较，把一个分值分配给每个短语假设。

图1为根据本发明用于实现语音识别***的典型环境的方框图。

图2为图1中所示的***的一部分的更加具体的方框图。

图3为示出根据本发明一个方面的数据采集程序的流程图。

图4为示出根据本发明一个方面的声音模型的训练和使用组合训练数据的句音素(senone)映射的流程图。

图5为示出根据本发明的句音素树的产生的流程图。

图6为示出根据本发明的句音素树的示意图。

图7为示出根据本发明的字持续时间模型的产生的流程图。

图8为示出根据图7所示的程序产生的多个字持续时间模型的示意图。

图9为示出根据本发明一个方面的语音识别程序的一部分的流程图。

图10为示出根据本发明一个方面的字持续时间模型的应用的流程图。

图1和相关讨论用于提供一个可以实现本发明的适当的计算环境的简要和一般的描述。尽管不是必须的，但是本发明将至少部分地在象程序模块这样由个人计算机所执行的计算机可执行指令的一般环境中描述，通常，程序模块包括执行特定任务或实现特定的抽象数据类型的子程序、对象、组件、数据结构，等等。另外，本领域内的专业人员将认识到本发明可以用其它计算***结构实现，包括手持设备、多处理器***、基于微处理器或可编程用户电子设备、网络计算、微机、主机，等等。本发明还可以用于分布的计算环境，其中任务是通过由通信网络连接的远程处理设备所执行的。在分步计算环境中，程序模块可以位于本地和远程存储设备中。

参照图1，用于实现本发明的典型***包括常规个人计算机20形式的通用计算设备，包括处理单元21、***存储器22、以及把包括***存储器在内的多种***组件连接到处理单元21的***总线23。该***总线23可以是几种类型的总线结构，包括存储总线或存储控制器、***总线、和使用任何多个总线结构的局部总线。***存储器包括只读存储器(ROM)24和随机存取存储器(RAM)25。包括例如在启动过程中有助于在个人计算机20中的元件之间传输信息的基本例程的基本输入/输出26(BIOS)被存储在ROM 24中。个人计算机20还包括用于读写硬盘(未示出)的硬盘驱动器27、用于读写可移动磁盘29的磁盘驱动器28、以及用于读写象CD ROM或者其它光学介质这样的可移动光盘31的光盘驱动器30。硬盘驱动器27、磁盘驱动器28、和光盘驱动器30分别被硬盘驱动接口32、磁盘驱动接口33和光盘驱动接口34连接中***总线23。驱动和相关的计算机可读介质为计算机可读指令、数据结构、程序模块和其它用于个人计算机20的数据提供非易失性存储。

尽管在此描述的典型环境采用硬盘、可移动磁盘29和可移动光盘31，但是本领域内的专业人员应当知道还可以在该典型操作环境中采用能够存储数据的可以由计算所访问的其它类型的计算机可读介质，例如盒式磁盘、快速存储卡、数字视频光盘、伯努利盒式磁盘、随机存取存储器(RAM)、只读存储器(ROM)，等等。

多个程序模块可以存储在硬盘、磁盘29、光盘31、ROM 24或RAM25中，包括操作***35、一个或多个应用程序36、其它程序模块37和程序数据38。用户可以把命令和信息通过象键盘40和打印设备42这样的输入设备把命令和信息输入到个人计算机20中。其它输入设备(未示出)可以包括话筒、游戏杆、游戏盘、圆盘式卫星天线、扫描仪，等等。这些和输入设备通常通过连接到***总线的串行接口46连接到处理单元21 1196，但是可以通过其它接口连接，例如并口，游戏口或者通用串行总线(USB)。监测器47或者其它类型的显示设备还可以通过象视频适配器46这样的接口连接到***总线23。除了监测器47之外，个人计算机一般可以包括其它***输出设备(未示出)，例如扩音器和打印机。

个人计算机20可以利用逻辑连接到一个或多个远程计算机在网络环境中操作，该远程计算机例如远程计算机49。远程计算机49可以是其它个人计算机、服务器、路由器、网络PC、对等设备或者其它网络节点，并且一般包括上述与个人计算机20相关的多个或所有元件，尽管仅仅存储设备50在图1中示出。图1中所示的逻辑连接包括局域网(LAN)51和广域网(WAN)52。这种网络环境在办公室、企业计算机内部网和互联网中是共同的。

当用于LAN网络环境中时，个人计算机20通过网络接口或适配器52连接到局域网51。当用于WAN网络环境中时，个人计算机20一般包括调制解调器54或者用于通过象互连网这样的广域网52建立通信的其它装置。可能是内置或外置的解调解调器54通过串行接口46连接到***总线23。在网络环境中，示出与个人计算机20或其部件相关的程序模块可以存储在远程存储设备中。应当知道，所示的网络连接是示例性的，可以使用在计算机之间可以建立通信链路的其它装置。

另外，当图1中的环境被用作为语音识别***时，可能还需要其它组件。这种组件可能包括话筒、声卡和扩音器，在下文中更加具体地描述这些组件。

图2示出根据本发明一个方面的语音识别***60。语音识别***60包括话筒62、模数(A/D)转换器64、训练模块65、特征提取模块66、静音检测模块68、句音素树存储模块70、单音素(monophone)模型存储模块72、三音素组(triphone)映射存储模块74、前缀树存储模块76、字持续时间模型存储模块78、搜索引擎80、以及输出设备82。应当注意，可以在图1中所示的环境中实现整个***60或者***60的部分。例如，话筒62可以优选地作为一种输入设备通过适当的接口以及通过A/D转换器64提供给个人计算机20。训练模块65、特征提取模块66和静音检测模块68可以是计算机20中的硬件模块(例如作为与CPU 20相分离的处理器或者在CPU 20中实现)，或者是存储在图1中所示的任何信息存储设备中并且由CPU 20或其它适当的处理器所访问的软件模块。另外，句音素树存储模块70、单音素模型存储模块72、三音素组映射存储模块74、前缀树存储模块76和字持续时间模型存储模块78还优选地存储在图1中所示的任何适当的存储设备中。另外，搜索引擎80优选地在CPU 21(其可以包括一个或多个处理器)中实现，或者可以通过个人计算机20采用的专用语音识别处理器所执行。另外，在一个优选实施例中，输出设备82可以作为监视器47、或者作为打印机、或者任何其它适当的输出设备。

在任何情况下，***60首先利用训练数据来训练。图3和图4所示为示出用于根据本发明的一个优选实施例的训练数据采集和***训练程序的流程图。为了训练***60、训练数据首先根据图3的描述而采集。在一个优选实施例中，训练数据包括连续(或者流畅的)训练数据，其中训练字词是由朗读者以连续或者流畅的方式读到***60中的，还包括分立(或者离散)训练数据，其中训练字词是由朗读者用离散或分立的方式读到***60中的，并在字词之间具有停顿。

如此，选择第一朗读者。这由方框84表示。然后，该朗读者被要求把训练句子流畅地读到***60的话筒62中。这由方框86所示。如方框88所示，该训练句子被记录。由***60所接收的每个训练字词的音标由象键盘40这样的用户输入设备输入到训练器65和***60中。这由方框90所示。然后确定是否要求其它朗读者也朗读该训练句子。对于朗读者独立的***，最好使用多个朗读者。但是，对于朗读者独立的***，多个朗读者是可选的，并且该训练句子可以仅由单个朗读者所朗读。

在任何情况下，如果另一个朗读者以流畅的方式把训练句子读到***60中，该新的朗读者被选择，并且该处理过程重复经过方框86、88和90。这由方框92和94所示。

一旦连续的训练数据被读到***60中之后，第一朗读者被再次选择，如方框96所示。然后所选择朗读者以离散或者分立的方式把一组训练字词读到***60中，在每个字词之间具有停顿。这由方框98所示。在一个优选实施例中，该分立训练数据由在连续训练数据中的相同字词所构成。但是，分立训练数据不需要与连续训练数据相同，并且可以总体形成一个不同的字词集合。在任何情况中，每个字词在被读入***时由***60所记录。这由方框100所表示。

***60再次从象键盘40这样的用户输入设备接收读到***60中的每个训练字词的音标。这由方框102所示。

然后确定其它朗读者是否要把分立的语音训练数据提供到***60中。如果这样的，新的朗读者被选择，并且该朗读者按照第一朗读者的相同方式输入分立的语音训练数据。如果确定没有其它朗读者要把分立的训练数据输入到***60中，则数据采集处理结束。这由图3中的方框104和106所示。

还应当注意，除了由朗读者通过话筒输入之外，训练数据还可以用输入分配的形式通过象软盘驱动器这样的输入设备直接装载到***60。

当训练数据通过话筒62输入到***60中时，它能被A/D转换器转换为数字样本，然后通过特征提取模块66转换为特征矢量(或者被利用矢量量化和从训练数据推导出来的代码本量化为代码字)。该特征矢量(或者代码字)被提供给训练模块65。训练模块65还从用户输入设备接收音标。然后训练模块65使用在训练数据中的特征矢量(或者代码字)以及音标来根据该训练数据建立一组单音素模型、句音素树、三音素组映射存储器、前缀树、和字持续时间模型。这些项目都由搜索引擎80在执行识别中使用。

图4为示出由训练模块65计算单音素模型、句音素树和三音素组映射存储器的整个过程的流程图。首先，训练模块65接收组合训练数据。组合意味着包括连续和分立的语音训练数据。这由图4中的方框108所示。该训练数据被特征提取模块66按照上述方式转换为输出分配。因此，训练模块65利用特征矢量(或者代码字)为在该组合训练数据中的每个字计算一个或多个隐藏的马尔可夫模型，以及提供给它的音标。隐藏的马尔可夫模型与组合训练数据中的因素相关联，并且被用已知的方式根据对每个音素计算的输出和出现频率而计算。

根据本发明的一个优选实施例，训练模块65模拟在该训练数据集合中的每个音素作为一个单音素模型。该单音素模型包括对于在该模型中的每个状态的输出概率分布。这由图4中的方框110和112所表示。单音素模型被用于识别方案中，以在音素的句音素估计之前为输入语音发音确定最相似的匹配因素。该单音素模型然后被存储在存储器72中，如方框113所示。

然后，对于在每个音素中的每个状态，训练模块65产生一个句音素树。参照图5更加具体地描述产生句音素树的技术。句音素树的产生由图4中的方框114所表示。句音素树然后被存储在存储器70中，如图方框116所示。

一旦产生句音素树，然后训练器65把所有所需的三音素组(包括在训练数据中可见和不可见的)映射到由存储在存储器70中的句音素树所表示的句音素序列中。为此，训练器65选择所需的三音素组(对应于左右语言环境的音素)，并且遍历存储在存储器70中的句音素树。作为遍历句音素树的结果，训练模块65获得对应于在模拟的三音素组中的每个状态的句音素，从而获得表示每个单音素的一系列句音素。该系列句音素被映射到三音素组映射存储器74中的相应三音素组上。这由方框118所示。该三音素组映射序列还在下文中参照图6更加具体地描述。

然后，训练模块65构成一个前缀树，并且把该前缀树存储在存储器76中。这由方框120所示。最后，训练模块65计算字持续时间模型，并且把字持续时间模型存储在存储器78中。这由图4中所方框122所示。字持续时间模型的计算将在下文中参照图7和8更加具体地描述。

在计算单音素模型、句音素树、三音素组映射、前缀树和字持续时间模型之后，***60被配置以执行语音识别。该语音识别任务在图9和10中更加具体地描述。

图5为更加具体地示出训练模块65为包含在组合训练数据中的每个音素中的每个状态创建一个句音素树的处理的流程图。通常认为在英语中大约有50个音素。在该优选实施例中，每个音素与三个状态相关联。因此，150个句音素树必须由训练模块65所创建。并且，在优选实施例中，50个音素中的每一个将在几个不同的上下文中出现在组合训练数据内(即，连续训练数据和分立训练数据)。因此，当该音素被根据三个状态的隐藏马尔可夫模型而模拟时，与在每个隐藏的马尔可夫模型中的每个状态相关联的输出分布可能不同，这取决于出现在训练数据中的音素的上下文。根据该信息，一个句音素树被参照图5而建立。

首先，表示在训练数据中的50个音素中的一个被选择。这由方框124所示。然后，在所选音素中的第一状态被选择，如方框126所示。

对于在分组的训练数据中的音素的出现，与所选音素中的所选状态相关联的输出分布被检索和分组。这由方框28所示。然后，对于所选状态的分组输出分布被根据语言的上下文关系问题相互分离。该问题是寻求关于该句音素树被产生的特定音素的上下文关系的问题。根据对关于每个独立输出分布的问题的回答，这些输出分布被从第一(父)组分为两个(子)组。

现在描述用于选择适当的语言问题的方法。简而言之，该语言问题最好由专门的语言学家所产生，并且设计为掌握上下文作用的语言分类。例如，一组89个语言问题可以在由Hon和Lee所写的文章名为“CMU健壮的词汇独立的语音识别***”，关于声学、语音和信号处理的IEEE国际会议，多论多，加拿大，1991，pps 889-892中找到。为了把父组分为子组，训练模块65确定多个语言问题中的哪一个是对于父组的最佳问题。在一个优选实施例中，该最佳问题被确定为给出父组和子组之间的最大熵减少量的问题。所有语言问题为“是”或“否”问题，使得两个子节点从父节点推导出来。

分组根据预定的分支阈值而停止。这种阈值例如可以包括当一组中输出分布的数目低于预定值的时刻，或者当从分组中得出的熵减少量低于另一阈值的时刻。当达到预定分支阈值时，所得的结束组是表示分组的输出分布或句音素的所有叶节点组。这由方框130和132表示。还应当注意，在句音素树中的问题可以根据从父组到子组的熵减少量，被合并或结合以形成复合问题。

在为所选音素的所选状态创建句音素树之后，该句音素树被存储在存储器70中。这由方框134所表示。该处理对词汇表中的每个音素的每个状态重复进行，使得为每个音素中的每个状态创建句音素树。这由图5中的方框136和138所表示。

在为该词汇表中的每个音素的每个状态创建一个句音素树之后，要由***60所识别每个三音素组必须映射到一个特定的句音素序列。换句话说，对于要被识别的每个三音素组，在该三音素组中对于每个状态的适当句音素必须通过遍历存储在存储器70中的适当句音素树而识别。

首先，每个要被识别的三音素组的音标由***60通过象键盘40这样音标输入设备从用户接收。然后，对应于该三音素组的中央音素的每个状态的句音素树被遍历。该句音素树仅仅通过回答与句音素树的节点相关的语言问题而遍历。在对三音素组的每个连续状态识别适当的句音素之后，所识别的句音素被合并以形成一个句音素序列，其被映射到存储器74中的三音素组。

图6示出有助于理解如何创建和遍历句音素树一个实例。图6示出对于作为单词“welcome”的一部分的字母“c”的读音的音素/K/的句音素树。图6示出对于/K/音素的第一状态的句音素树。应当知道在图6中所示的/K/中的许多问题是根据上述技术所形成的复合问题。

为了对由单词“welcome”的字母“lco”所形成的三音素组/L，K，UH/确定适当的句音素序列，/K/音素的每个句音素树必须被遍历。图6中所示的句音素树与/K/音素的第一状态相关。与根节点140相关的语言问题是在该三音素组中的左音素是响音还是鼻音。由于/L/是响音，则树遍历移动到子节点142。

子节点142对应于对位于节点140处问题的肯定回答。位于节点142处的问题询问左音素(/L/)是否为一个后音素(即，该左音素是否为一个使舌位向嘴后部移动而发出的音素)。该/L/是一个后音素，所以遍历进行到节点144，这对应于对位于节点142处的问题的肯定回答。已知右音素(三音素组的/UH/音素)不是一个L或W，并且/L/音素不是任何由节点142提出的问题中所指定的任何音素，对在节点142的问题的回答是否定的。这导致一个句音素，被指定为句音素2，其被识别为对于/L，K，UH/三音素组的第一状态的适当的句音素。类似的树遍历对/K/的每个其它状态进行。对于输入到***60中的所有三音素组模型的所有马尔可夫状态，该相应的句音素树被遍历直到一个叶节点(或者句音素)。为每个三音素组所指定的句音素序列存储在存储器70中。

在该优选实施例中，其中识别器是基于音标前缀树解码器的，然后构成一个前缀树来表示要由***60所识别的字典或词典。该前缀树最好如此构成，使得它可以从根节点遍历叶节点，以到达最近似于表示该输入数据的字。在优选实施例中，前缀树包括被模拟(按照与存储在存储器72中的单音素模型相类似的方式)的多个决定于上下文的静音，使得该静音被嵌入作为词典中的部分词。在遍历该前缀树之后，***60最好保持有效假设，其构成为任何被识别的给定短语识别的最相似的字、或者字序列。

然后，在一个优选实施例中，***60构成多个字持续时间模型，其可以被用于在从前缀树解码器中出现的有效假设中进行选择。字持续时间模型被存储在存储器78中。图7为更加具体地示出字持续时间模型的结构的流程图。

输入到***60中的训练数据最好包括不同持续时间的分立字，以及由停顿所分隔的字序列(或者短语)，其中该字序列具有各种不同的每个序列的字计数值。训练模块65模拟在每个具有字计数值n的离散短语中的字平均持续时间。因此，训练模块65首先为组合的训练数据(这包括具有一个字长度的短语)中的不同长度的短语计算每个字的平均持续时间。这由图7中的方框144所示。接着，训练模块65产生由每个短语的字数作为参数的一系列字持续时间的分布。这由方框146表示。然后，训练模块65在字持续时间模型存储器78中存储一系列分布。这由方框148所表示。

图8是更加清楚地示出由训练模块65所计算的一系列分布的曲线图。图8示出绘制在图上的三个分布150、152和154，其中字持续时间在x轴上，并且n-字短语出现的次数在y轴上。分布150、152和154通常按照伽马分布的形式，其中分布150与字短语的平均持续时间相关联，分布152与两字短语中的每个字的平均持续时间相关联(其中，n是大于2的整数)。因此，图8示出在单字短语中的每个字的平均持续时间略为比在两字短语中每个字的平均持续时间更长。并且，在一个短语中的字数超过两个时，在该短语中的每个字的平均持续时间略为比单字或两字短语中的字的平均持续时间更短。

在识别过程中，在遍历前缀树之后保留的有效假设中的平均字持续时间与由训练模块65所计算的字持续时间模型相比较。然后，根据在该特定假设中的每个字的平均持续时间是否接近地(或者不接近地)与适当的字持续时间模型相匹配，而对每个假设分配一个分值(或者罚分)。这在本说明书的下文中更加具体地描述。

一旦训练模块65已经开发了单音素模型、句音素树、三音素组映射、前缀树、和字持续时间模型之后，***60被适当地配置以识别语音。

图9为示出利用***60识别语音的一个优选技术的流程图。语音首先按照由用户提供给话筒62的可听声音信号的形式输入到***60中。话筒62把该可听语音信号转换为提供给A/D转换器64的模拟电信号。A/D转换器64把该模拟语音信号转换为被提供给特征提取模块66的一系列数字信号。在一个优选实施例中，特征提取模块66是一个对该数字信号执行频谱分析并且对频谱的每个频带计算幅度值的常规阵列处理器。在一个优选实施例中，该信号被A/D转换器64按照约16KHz的采样率提供给特征提取模块66，其中A/D转换器64作为一种可从市场上购得的众所周知的A/D转换器。

特征提取模块66把从A/D转换器64接收的数字信号分为包括多个数字样本的帧。每个帧约为具有10微秒的持续时间。然后每个帧优选地被特征提取模块66解码为反映多个频带的频谱特性的一个特征矢量。特征提取模块66还可以根据矢量量化技术和从训练数据推导出来的代码本(没有分别示出)把该特征矢量编码为代码字。依靠隐藏的马尔可夫模型利用被分析的特定帧的特征矢量(或者代码字)可以计算输出分布。该特征提取模块66最好以约每10微秒一组的速率提供特征矢量(代码字)。

当特征提取模块66正在处理来自A/D转换器64的数字样本时，静音(或者边界)检测模块68也正在处理该样本。静音检测模块68可以在与用于实现特征提取模块66的处理器相同或不同的处理器上实现，静音检测模块68按照公知的方式操作。简而言之静音检测模块68处理由A/D转换器所提供的数字样本，以检测静音(或者停顿)以便于确定由用户所发出的字或短语之间的边界。然后静音检测模块68把该边界检测信号提供给搜索引擎80，它是字或短语边界的检测的指示。因此，搜索引擎按照与要被识别的目标字相关的输出分布的形式接收语音数据。这由图9中的方框156所表示。

然后搜索引擎80把所接收的输出分布与存储在单音素存储器72中的单音素模型相比较。对于每个读出的目标字的连续目标音素，以及对于目的音素的每个连续的目标状态，搜索引擎80把对于目标状态的输出分布与存储在存储器72中的每个音素单音素模型的相应状态相比较。然后，搜索引擎80选择状态最靠近匹配该目标状态的预定数目的音素单音素模型，以获得由该目标音素所表示的相似的音素。这由图9中的方框158所表示。

然后，搜索引擎80选择一个最相似的音素，并且选择在该音素中的第一状态。这由方框160和162所表示。然后搜索引擎80检索由句音素树为每个所选状态产生的句音素。

接着，搜索引擎80把第一目标状态的目标输出分布与对应于所选音素模型的第一状态的句音素树的每个句音索相比较。然后，搜索引擎80选择任何最接近匹配目标状态的输出分布的句音素作为最匹配的句音素，并且为该匹配的句音素计算并存储匹配的概率值。这由方框164和166所表示。

如果所选音素具有一个以上的状态，则搜索引擎80为所选音素中的每个剩余状态执行相同的步骤。因此，搜索引擎80为所选音素中的每个状态选择最接近匹配的句音素，并且为该最匹配的句音素计算和存储一个匹配概率值。这由方框168所表示。在所选音素中的所有状态被比较之后，搜索引擎80将根据所确定的概率值为所选音素识别一个相似的句音素序列。这由方框170所表示。然后，搜索引擎80访问存储在存储器74中的信息，并且检索被映射到所确定的相似句音素序列的一个相似的三音素组。这由方框172所表示。

然后，搜索引擎80确定是否所有相似音素已经被处理。如果还没有，则搜索引擎80根据在比较过程中确定的概率值重复该处理并且到达对于每个相似音素的相似句音素序列(并且因此到达要与目标音素相关联的N个相似三音素组)。这由方框174和176所表示。

一旦N个相似三音素组已经被识别，则搜索引擎80访问存储器76中的前缀树。在遍历该前缀树之后，搜索引擎80识别有效假设。在一个优选实施例中，搜索引擎80仅仅访问一个词典和一个语言模型，例如从北美商业新闻文集推导出来的60000个字的三字母组的语言模型，并且这在由语言数据协会在1994年所出版的宾夕法尼亚大学的名为CSR-III文本语言模型的出版物中有更加具体地描述。该语言模型被用于识别由输入数据所表示的最相似字或字序列，并且这由搜索引擎80提供给输出装置82。

但是，根据本发明的另一个方面和另一个优选实施例，搜索引擎80还利用存储器78中的字持续时间模型以更加精确地由输入数据所表示的最相似字或字序列。图10为示出该持续模型如何被用于区别多字短语和单字短语的流程图。为了该描述的目的，字计数值X的离散短语是一系列以静音开始和结束的Y个流利读出的字。

该持续模型的应用最好在离散短语的边界处执行。短语是通过检测在该输入数据中的停顿而检测的。首先，在输入数据中的停顿是通过静音检测模块68所检测的。这由方块180所表示。接着，搜索引擎80确定所检测的停顿是否具有比阈值持续时间d(p)更小的持续时间d(P)。该阈值持续时间d(p)是根据训练数据通过经验确定的，以避免检测错误停顿，或者检测不精确地反映短语之间的边界的停顿。这由方框182所表示。如果d(P)小于d(p)，则处理转回到方框80，等待另一个停顿检测。

但是，如果d(P)不小于d(p)，则搜索引擎80计算表示当前停顿时间的持续时间的短语持续时间(或者片段持续时间)d(S)，以及超过阈值持续时间d(p)的以前最近的停顿。这由方块184所表示。然后，搜索引擎80确定片段持续时间d(S)是否大于阈值片段持续时间d(s)。对于d(p)，d(s)是根据训练数据而经验确定的，以保证该片段持续时间d(S)不会长得不应该应用探试法。换句话说，与应用于较长持续时间的短语相比，当应用于较短持续时间的短语时，认为字持续时间模型最有效。如果片段持续时间d(S)大于片段阈值d(s)，则处理过程回到方框180，等待另一个停顿检测。

但是，如果d(S)小于阈值片段持续时间d(s)，则搜索80选择表示由输入数据所代表的n最相似字或字短语中的一个的当前短语假设H。这由方框188所表示。然后，搜索引擎80确定在H(wc(H))中的字计数值，并且根据wc(H)和d(S)计算H中的每个字的平均持续时间，并且把其与存储在存储器78中对应于具有等于wc(H)的字计数值的短语的字持续分布相比较。这由方框190所表示。

根据该比较，然后搜索引擎80根据表示H中的平均字持续时间如何接近匹配相应字持续时间模型的一个函数ip(wc(H)，d(S))把一个分值分配给该假设H(或者对其罚分)。在一个优选实施例中，ip(wc(H)，d(S)是一个根据输入到***60中的训练数据而经验确定的梯度下降函数。这由方框192所表示。搜索引擎80对每个有效假设重复该过程，如方框194所表示，并且利用该信息选择最相似的假设。然后，搜索引擎80把最相似的假设提供给输出设备82，作为由该输出数据所表示的最相似端。这由方框194和196所表示。

因此，可以看出本发明比现有的***具有明显的优点。本发明利用采集分立语音数据和连续语音数据作为训练数据集的数据采集方法。通过扩充通常的数据采集方法，以要求朗读者在字与字之间停顿，以及流利地朗读，与离散语音相关的静音上下文以及与连续语音相关的非静音也被用于训练该***中的声学模型。应当指出，对于连续语音训练数据和分立语音训练数据的训练数据可以包含相同或不同的字。该组合训练数据集被用于训练音素模型，产生句音素树和训练数据句音素，以及把三音素组映射到适当的句音素序列。

还应当指出，不同类型的训练数据(连续和分立)的效果可以根据在识别过程中期望的语音类型而不同地加权。该加权可以通过分配加权系数而实现，或者简单地通过提供给训练数据集中的***的每种数据的量而实现。在一个优选实施例中，两种训练数据都被均等地加权。

另外，在一个优选实施例中，本发明采用字持续时间模型。该字持续时间模型最好在训练数据过程中形成，并且应用于短语边界上，以进一步增加识别***的精度。

本技术还可以应用于把其它类型的训练数据导入该***。例如，不但用户可以被指导来输入作为分立和连续语音的训练数据，而而用户还可以被指导来大声、柔和、更加缓慢、或者更加快、或者用其它变化方式来输入训练数据。然后所有这些训练数据可以按照与上文所述相类似的方式来用于训练用在该***中的声学模型，以获得更加健壮的识别***。

尽管本发明已经参照优选实施例进行了描述，但是本领域内的专业技术人员将认识到可以在形式和细节上作出改变而不脱离本发明的精神和范围。

Claims

1.一种实现语音识别***的方法，包括：

接收表示多个离散地读出的训练字的分立语音训练数据；

接收表示多个连续地读出的训练字的连续语音训练数据；

提供包括表示连续和分立语音训练数据中的语音单元的输出概率分布的多个语音单元模型，其中根据分立语音训练数据和连续语音训练数据来训练所述语音单元模型；以及

提供一个根据训练的语音单元模型识别语音的识别器。

2.根据权利要求1所述的方法，其特征在于，接收分立语音训练数据包括接收第一组声音信号，其中接收连续语音训练数据包括接收第二组声音信号，并且其中提供多个语音单元模型包括：

根据第一和第二组声音信号开发多个声学模型。

3.根据权利要求2所述的方法，其特征在于，开发多个声学模型包括：

根据第一和第二组语音信号，开发表示在连续和分立语音训练数据中的音素的多个输出概率分布。

4.根据权利要求1所述的方法，其特征在于，接收分立语音训练数据包括：接收包括与多个离散地读出的训练字相关的静音上下文信息的分立语音数据。

5.根据权利要求4所述的方法，其特征在于，接收分立语音数据包括：

接收表示用户离散地读出多个训练字的分立语音数据，在多个训练字的每一个之间具有停顿。

6.根据权利要求1所述的方法，其特征在于，接收连续语音训练数据包括：接收表示用户流畅读出多个训练字的连续语音数据。

7.根据权利要求1所述的方法，其中还包括：

在训练语音单元模型之前，根据要被识别的所希望语音对连续语音训练数据和分立语音训练数据加权。

8.根据权利要求1所述的方法，其中还包括：

接收表示用户用不同方式读出多个训练字的其它语音训练数据。

9.根据权利要求8所述的方法，其特征在于，接收其它语音训练数据包括：

接收表示用户以第一幅度和第二幅度读出多个训练字的其它语音训练数据，该第二幅度大于第一幅度。

10.根据权利要求8所述的方法，其特征在于，接收其它语音训练数据包括：

接收表示用户以第一速度和第二速度流利读出多个训练字的其它语音训练数据，该第二速度比第一速度更快。

11.根据权利要求3所述的方法，其特征在于，提供多个语音单元模型，还包括：

把每个输出分布与形成一个训练字的至少一部分的音素中的预定数目的状态中的一个相关联。

12.根据权利要求11所述的方法，其中还包括：

对于每个音素，从所有包含所选音素的训练字中分组出与一个所选音素相关的输出分布，以形成一个输出分布组；以及

对于每个音素中的每个状态，通过根据与所选音素相关联的语言环境信息把与在输出分布组中的所选状态相关联的输出分布分为句音素，而为所选音素中的所选状态产生一个句音素树。

13.根据权利要求12所述的方法，其特征在于，提供一个用于识别语音的识别器，包括配置该语音识别器，以执行如下步骤：

接收对于要被识别的目标字中的每个连续目标音素的每个连续状态的输出分布；

对于每个目标音素，识别作为目标音素的最近似表示的多个相似音素；

把与相似音素状态相关的句音素与相关于目标音素的相应状态的输出分布相比较；以及

识别具有最接近匹配目标音素的输出分布的句音素的最相似音素。

14.根据权利要求13所述的方法，其特征在于，该比较包括：

根据目标音素的语言环境信息，遍历与在每个相似音素中的每个状态相关的句音素树，以对目标音素中的每个状态识别一个句音素；以及

把相关于在目标音素中的状态的输出分布与相关于在相似音素中的所识别句音素的输出分布相比较。

15.根据权利要求13所述的方法，其特征在于，识别多个相似音素包括：

根据分立语音训练数据和连续语音训练数据，形成多个单音素模型，表示训练字中的音素；

把相关于目标音素的输出分布与该单音素模型相比较；以及

识别具有接近匹配相关于该目标音素的输出分布的单音素模型的多个相似音素。

16.根据权利要求1所述的方法，其中还包括：

根据分立语音训练数据和连续语音训练数据，提供多个字持续时间模型，表示包含在变化长度的字短语中的字的大约字持续时间，该长度由字短语中的字计数值所确定。

17.根据权利要求16所述的方法，其特征在于，提供一个用于识别语音的语音识别器，包括配置该识别器以执行该如下步骤：

接收多个要被识别的目标字；

检测表示在目标字中的目标字短语的短语边界；

确定目标字短语的大约持续时间；

获得表示由目标字短语所代表的相似字短语的多个字短语假设；

为该字短语假设中的字确定大约的字计数值和持续时间；以及

把该字短语假设中的字的字持续时间与具有等于在该字短语假设的字数的字计数值的字持续时间模型相比较，以根据在该字短语假设中的字持续时间接近匹配该字持续时间模型的程度，而获得一个相似字短语假设。

18.根据权利要求16所述的方法，其特征在于，提供多个字持续时间模型，包括：

在分立语音训练数据和连续语音训练数据中检测训练字短语；

确定在该训练字短语中的字数；

确定在多个检测的训练字短语中的字的大约字持续时间；以及

确定以该训练字短语中的字数和在训练字短语中的字的持续时间作为参数的多个字持续时间分布。

19.一种执行语音识别的方法，其中包括：

接收表示多个离散地说出的训练字的分立语音训练数据，该分立语音训练数据包括第一组输出分布，每个输出分布与形成至少一个离散地说出的训练字的一部分的音素中的预定数目的状态中的一个相关；

接收表示多个连续地说出的训练字的连续语音训练数据，该连续语音训练数据包括第二组输出分布，该第二组输出分布中的每一个与形成至少一个离散地说出的训练字的一部分的音素中的预定数目的状态中的一个相关；

把与从所有包括所选音素的训练字中选择的音素相关联的输出分布分组，以形成一个输出分布组；以及

通过根据与所选音素相关的语言环境信息，在输出分布组中分离与该所选状态相关联的输出分布，而在该所选音素中创建一个句音素树。