CN102254555A

CN102254555A - 改进依赖上下文的语音识别器对环境变化的鲁棒性

Info

Publication number: CN102254555A
Application number: CN2011100310042A
Authority: CN
Inventors: X.梅宁德斯-皮达尔; R.陈
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2010-05-21
Filing date: 2011-01-28
Publication date: 2011-11-23
Anticipated expiration: 2031-01-28
Also published as: JP5174937B2; US8719023B2; CN103280216A; CN103280216B; KR20110128229A; JP2011248360A; US20110288869A1; EP2388778B1; KR101237799B1; EP2388778A1; CN102254555B

Abstract

本发明涉及改进依赖上下文的语音识别器对环境变化的鲁棒性。一种改进用于应用的依赖上下文的语音识别器对环境变化的鲁棒性的装置，其包括存储用于语音识别训练的声音的训练数据库，存储语音识别器所支持的单词的字典，以及利用训练数据库和字典对一个或多个多状态隐马尔可夫模型（HMM）的集合进行训练的语音识别器训练模块。所述语音识别器训练模块对每个HMM的每个状态执行非统一状态集群化过程，其中包括对每个HMM的至少一些状态使用不同的非统一集群阈值以更重度地集群化并相应减少在经验上受一种或多种上下文依赖性影响较小的每个HMM的状态中的那些状态的观察分布数目。

Description

改进依赖上下文的语音识别器对环境变化的鲁棒性

技术领域

本发明的实施例涉及语音识别领域；更具体地，涉及改进语音识别器对环境变化的鲁棒性。

背景技术

许多通用语音识别器使用隐马尔可夫模型（HMM）进行构建并且以语音单位水平（例如，音素（phone）、单词、功能词、音节、开始和最终音节等）处理语音。典型地，音素语音单位是已经从单词中所分解的在感知上唯一的声音序列的音频（例如，语音）的一部分。例如，短语“I Want”可以包括五个不同音素（在TIMIT音素***中为ay、w、ao、n和t）。每个音素可以包括在多个特征或帧中（其数目典型地依赖于音素的长度，并且其典型地对于不同讲话者、语音速度、感情状态等而有所不同）。典型地，HMM包括多个状态以处理每个音素的不同部分。例如，三状态HMM分别在初始、主体（body）和最终状态中处理每个音素的开头、核心和结尾。在语音识别中使用从左到右的HMM，其中初始HMM状态被定义为入口(entry)模型状态，其不连接自除其自身之外的任何其它入口状态，最终HMM状态为终点（terminal）模型状态，其并不连接到除其自身之外的任何其它状态，并且主体HMM状态为任意的其它中间状态。之前的定义还覆盖了具有跳过连接的状态的从左到右的HMM。

典型的语音识别器使用独立于上下文的HMM（例如，单音HMM）或依赖上下文的HMM（例如，双音（左或右）HMM、半音HMM、三音HMM等）。独立于上下文的HMM在处理每个基本语音单位时并不考虑相邻的语音单位。相反，依赖于上下文的HMM在处理每个基本语音单位时考虑相邻的语音单位。例如，典型的双音HMM考虑单个相邻音素（在左双音HMM中考虑之前的音素，而在右双音HMM中考虑后续的音素）。典型的三音HMM中的每个状态考虑之前和后续的音素。之前对初始状态、主体状态和最终状态的定义对于所有从左至右的HMM单音、双音和三音都是有效的。其它依赖上下文的HMM包括半音，其是两个相连接的子音素上下文单位。半音包括左半音部分和右半音部分。每个半音部分对音素的一部分进行建模，仅具有一种上下文依赖性，并且是正常HMM。左半音部分对音素开头进行建模并且考虑之前的音素，而右半音部分对音素结尾进行建模并且考虑后续的音素。半音能够对音素区域进行均匀或非均匀建模。当半音对音素区域进行非均匀建模时，半音部分之一是支配性的（dominant）并且具有比其它部分更多的状态。例如，在左支配性半音中，左半音部分具有比右半音部分更多的状态。在右支配性半音中，右半音部分具有比左半音部分更多的状态。半音的初始状态是左半音部分中的入口模型状态，并且不连接自除其自身之外的任何其它入口状态。半音的最终状态是右半音部分中的终点模型状态并且不连接到除其自身之外的任何其它状态。半音的（一个或多个）主体状态是半音的（不同于初始状态和最终状态）的其它状态，并且可以包括在左半音部分和/或右半音部分中。

以下表格使用典型的独立于上下文的TIMIT单音，以及典型的依赖上下文的左双音、右双音、三音和半音说明了句子“I want”的音素标音。

每个基本语音单位可以利用状态转移概率{Aip}和输出概率观察分布{Bip(Ot)}来表示。所述输出观察分布典型地为高斯分布的多元混合形式，并且确定了在时间t生成观察Ot（或输入帧）的概率。输出观察由状态索引i和语音单位索引p以及在时间t的输入观察来标识。

在独立于上下文的HMM中，每个语音单位（例如，音素单位、单词单位、功能词单位、音节单位、开头和最终音节单位等）对于每个状态具有单个观察分布。因此，对于使用40种唯一音素以及每个音素三状态的独立于上下文的HMM的英语语音识别器而言，***使用总共120种观察分布。由于依赖上下文的HMM考虑了相邻的（一个或多个）语音单位，则它们比独立于上下文的HMM使用更多的观察分布。在典型的依赖上下文的HMM语音识别器中，输出观察分布的数目达到1000至5000之间的范围并非是不同寻常的。可以通过应用统一决策树集群化（clustering）算法或统一数据驱动集群化算法来限制依赖上下文的HMM的观察分布的数目，然而这些算法使用跨每个音素状态都相同的统一集群阈值。

典型地，使用依赖上下文的HMM的语音识别器比使用独立于上下文的HMM的语音识别器更加准确，然而它们通常也需要比使用独立于上下文的HMM的语音识别器更多的存储器和计算资源。此外，训练依赖上下文的HMM明显比训练独立于上下文的HMM需要更多的训练数据。此外，训练三音HMM所需的训练数据比训练双音HMM所需的数据更大。

一些语音识别器在***被释放之前在训练环境中进行训练，这减少或排除了***的终端用户对语音识别***进行训练。通常，这样的训练环境对于语音识别而言是最优的，典型地在其中获得高准确度。然而，实际商业情形的环境（例如，语音识别***被商业化使用的环境）通常与所述训练环境有所不同，（例如，不同的噪声等）并且语音识别器的准确度由此有所降低。可以在训练环境中考虑不同的环境变量（例如，不同的噪声、回声、信道效应等）。然而，终端用户最终使用的环境可能有所不同或者无法在训练期间被纳入考虑。

使用典型的依赖上下文的双音的语音识别器在匹配条件下（其中环境在训练和使用期间基本上是相同的）是准确的，但是在不匹配条件下（其中训练和使用的环境不同）则不准确。虽然可以使用噪声鲁棒的前端或后端技术（例如，特征转换和归一化、噪声衰减、语音增强、HMM后端噪声补偿等）来改进准确度，但是不匹配条件下的准确度也可能是无法接受的。然而，虽然不如原始训练环境中准确，但是与使用典型的依赖上下文的双音HMM的语音识别器相比，使用典型的独立于上下文的HMM（例如，单音）的语音识别器对于环境变化更加鲁棒。

发明内容

描述了一种用于在保持低存储器占用（footprint）且计算高效的同时改进依赖上下文的语音识别器对环境变化的鲁棒性的方法和装置。在一个实施例中，定义或训练增强型多状态依赖上下文的隐马尔可夫模型（HMM）以具有减少的受（一种或多种）上下文依赖性影响较小的那些状态的可能观察分布的数目。

在一些实施例中，使用非统一状态的集群化过程，其对不同状态使用不同集群阈值。对于受上下文依赖性影响较小的那些状态而言，作为所执行的非统一状态的集群化过程的结果，集群阈值的数值使得观察分布更加被结合（tie）（集群化），由此减少了那些状态的可能观察分布的总数。在其它实施例中，多状态依赖上下文的HMM的受上下文依赖性影响较小的一个或多个状态被定义为独立于上下文，由此将那些状态的可能观察分布的数目减少为单独一个。

对于受上下文依赖性影响较小的那些状态减少HMM的观察分布数目改进了语音识别器在不匹配条件下的准确度（它提高了其对环境变化的鲁棒性），以及减少了语音识别所需的存储器和CPU资源。

附图说明

通过参见以下用来说明本发明实施例的描述和附图可以以最佳方式理解本发明。其中：

图1是图示根据一个实施例的用来为语音识别应用训练数据的计算设备的示例性组件的框图；

图2是图示根据一个实施例的在HMM训练期间所执行的示例性操作的流程图；

图3图示了根据一个实施例的示例性增强型右双音HMM；

图4图示了根据一个实施例的示例性增强型左双音HMM；

图5图示了根据一个实施例的可替代示例性增强型右双音HMM；

图6图示了根据一个实施例的可替代示例性增强型左双音HMM；

图7图示了根据一个实施例的示例性增强型右支配性半音HMM；

图8图示了根据一个实施例的示例性增强型左支配性半音HMM；

图9图示了根据一个实施例的示例性增强型三音HMM；

图10图示了根据一个实施例的示例性并行***组合HMM，其组合了单音、左双音、右双音和三音；

图11是根据一个实施例的示例性计算设备，其包括用于为应用识别语音的语音识别器；

图12是图示根据一个实施例的在语音识别期间所执行的示例性操作的流程图；和

图13是图示可以在一些实施例中使用的示例性数据处理***的框图。

具体实施方式

在以下描述中，阐述了多个特定细节。然而，所要理解的是，本发明的实施例可以在没有这些细节的情况下进行实践。在其它实例中，没有详细示出已知电路、结构和技术以免混淆对该描述的理解。本领域技术人员利用所包括的描述将能够实施适当功能而无需不必要的实验。

该说明书中对“一个实施例”、“实施例”、“示例性实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但是并非每个实施例都必需包括所述特定特征、结构或特性。此外，这样的短语不一定涉及相同的实施例。此外，当结合实施例描述特定特征、结构或特性时，无论是否明确描述，均认为本领域技术人员了解结合其它实施例来运用这样的特征、结构或特性。

在以下描述和权利要求中，可以使用术语“耦合”和“连接”及其派生词。应当理解的是，这些术语并非彼此作为同义词。“耦合”被用于指示两个或更多组件（所述组件可以或不必彼此直接物理或电接触）彼此协同或交互。“连接”则被用来指示彼此耦合的两个或更多组件之间的通信建立。

这里描述了一种用于在保持低存储器占用且计算高效的同时改进语音识别器对环境变化的鲁棒性的方法和装置。在一个实施例中，定义或训练增强型多状态依赖上下文的隐马尔可夫模型（HMM）以具有减少的受（一种或多种）上下文依赖性影响较小的那些（一种或多种）状态的可能观察分布数目。这在本文中称为增强型HMM以便与典型HMM区分开。减少受（一种或多种）上下文依赖性影响较小的那些（一种或多种）状态的可能观察分布数目提高了在不匹配条件下的语音识别准确度，由此改进了语音识别器对环境变化的鲁棒性，同时降低了语音识别器所需的计算要求（例如，存储器、CPU资源等）。

在一些实施例中，增强型多状态依赖上下文的HMM包括一种或多种独立于上下文的状态（例如，受（一种或多种）上下文依赖性影响较小的HMM的那些（一个或多个）状态）与一种或多种依赖上下文的状态的组合。

在一些实施例中，使用非统一状态的集群化过程，其对不同状态使用不同集群阈值。对于受上下文依赖性影响较小的那些状态而言，作为所执行的非统一状态的集群化过程的结果，集群阈值的值使得更多观察分布被结合（集群化），由此减少了那些状态的观察分布的总数。在其它实施例中，多状态依赖上下文的HMM的受上下文依赖性影响较小的一个或多个状态被定义为独立于上下文，由此将那些状态的可能观察分布的数目减少为单独一个。

在一些实施例中，定义或训练增强型依赖上下文的HMM的一个或多个状态以从那些状态除去（一种或多种）上下文依赖性（由此仅具有单个观察分布）。在一些实施例种，这些状态完全被结合（集群化）从而仅具有单个观察分布。例如，在一些实施例中，定义或训练增强型N状态右双音HMM以使得初始状态独立于上下文，并由此仅具有单个观察分布，其中N至少为2，所述初始状态受到上下文依赖性的影响小于其它（一个或多个）状态。可以根据典型的统一决策树集群化算法或统一数据驱动集群化算法将（一个或多个）主体状态和/或最终状态相结合，或者能够根据非统一集群化对其进行结合（这将在随后更为详细地描述），并且将比初始状态具有更多的输出观察分布。因此在该实施例中，增强型N状态右双音HMM的初始状态是独立于上下文的，而（一个或多个）主体状态和最终状态是依赖上下文的。

在一些实施例中，定义或训练增强型N状态左双音HMM以使得最终状态独立于上下文，并由此仅具有单个观察分布，其中N至少为2，所述最终状态受到上下文依赖性的影响小于其它（一个或多个）状态。可以根据典型的统一决策树集群化算法或统一数据驱动集群化算法将初始状态和/或（一个或多个）主体状态相结合，或者可以根据非统一集群化对其进行结合（这将在随后更为详细地描述），并且将比最终状态具有更多的输出观察分布。因此在这些实施例中，增强型N状态左双音HMM的最终状态是独立于上下文的，而初始状态和（一个或多个）主体状态是依赖上下文的。因此，在一些实施例中，对增强型双音HMM进行修改以组合独立于上下文的HMM和依赖上下文的HMM的元素。

在一些实施例中，对右支配性N状态半音进行增强以大大减少（一个或多个）主体状态的可能观察分布的数目。例如，可以将所述（一个或多个）主体状态定义或训练为独立于上下文，或者可以比典型的右支配性半音的（一个或多个）主体状态进行更重度地（heavily）集群化。类似地，在一些实施例中，对左支配性N状态半音进行增强以基本上减少（一个或多个）主体状态的可能观察分布的数目。例如，可以将所述（一个或多个）主体状态定义或训练为独立于上下文，或者可以比典型的左支配性半音的（一个或多个）主体状态进行更重度地集群化。

在一些实施例中，增强型N状态三音HMM被定义为具有仅上下文依赖于之前音素的初始状态（不同于初始状态上下文依赖于之前音素和后续音素的典型三音）；一个或多个主体状态上下文依赖于之前音素和后续音素；并且最终状态仅上下文依赖于后续音素（不同于最终状态上下文依赖于之前音素和后续音素这二者的典型三音）。

在一些实施例中，使用并行***组合N状态三音HMM，其将以下中的一个或多个进行组合：N状态左双音（典型或增强型）、N状态右双音（典型或增强型）、N状态三音（典型或增强型）以及单音。在并行***组合N状态三音HMM中，建立了新的状态连接以允许语音训练模块为匹配和/或不匹配条件自动搜索和选择最佳的依赖上下文的HMM拓扑；并且允许语音识别器动态确定跨不同HMM的最佳路径。

图1是图示根据一个实施例的计算设备110的示例性组件的框图，所述计算设备110被用来为语音识别应用训练数据。根据一个实施例，训练在实验室条件下执行并且不需要由终端用户来执行（然而，可以由终端用户执行训练以使得所述训练与其特定环境相适应）。

计算设备110包括语音识别器训练模块150，其对HMM进行训练以供语音识别器使用。所述语音识别器训练模块150基于训练数据为HMM生成多个观察分布。在一些实施例中，语音识别器训练模块150执行标准训练算法（例如，Expectation Maximization、Baum Welch、区别性训练等）。语音识别器训练模块150与训练数据库120、数字信号处理器125、字典130、单词标音135、HMM配置规范存储140以及经训练HMM存储145相耦合。训练数据库120存储预先录制的声音，其可以包括一般对话、通用阅读语音、专用于语音识别应用的声音。在一些实施例中，训练数据库120的数据已经被转录为特定的语音单位集合（例如，转录为音素、单词、功能词、音节等）。

在一些实施例中，由于环境条件的变化，数字信号处理器125在试图考虑特定环境条件时对训练数据库120中的声音进行增强或修改以增加语音识别器的鲁棒性。例如，数字信号处理器125可以执行鲁棒技术，其中包括对训练数据库120中的数据进行特征转换和归一化、噪声衰减、语音增强和/或HMM后端噪声补偿等。此外，数字信号处理器125可以执行特征提取以从训练数据库120中提取特征矢量（一定时间段内的音频部分）。

字典130包括***所支持用于语音识别的单词、句子、命令、指令或其它可听声音。单词标音135包括训练数据库120中的语音数据的单词标音。HMM配置规范存储140包括配置规范，所述配置规范包括定义模型拓扑、转换参数和输出分布参数的一个或多个HMM的配置信息。在一些实施例中，配置信息包括以下中的一个或多个：HMM的每个状态的状态配置（例如，对于每个状态标识其是独立于上下文还是依赖上下文（以及依赖什么上下文）、状态连接、所需混合高斯的数目，以及一个或多个状态的非统一集群阈值）。所述非统一集群阈值随音素状态可以有所不同。所述非统一集群阈值在结合观察分布以减少观察分布数目时使用。完全结合的状态仅具有单个观察分布（实质上产生了单音状态）。在一些实施例中，HMM的不同状态的非统一集群阈值的值是可以配置的。在一些实施例中，HMM的其它参数也是可以配置的（例如，状态配置、状态连接、状态数目、左-右双音、半音、三音、状态数目、音素定义等）。

在一个实施例中，选择用于训练的特定HMM（例如，增强型左或右双音、增强型三音等），并且语音识别器训练模块150训练HMM以估计所述HMM的参数并且将经训练的HMM存储在经训练HMM存储145中。在一个实施例中，语音识别器训练模块150包括非统一状态集群模块155，其使用非统一集群阈值对听上去相似的观察分布进行集群化以便减少状态中观察分布的数目，所述集群化在这里有时也被称作结合。

在一个实施例中，所述非统一状态集群化是非统一基于树的集群化机制。在其它实施例中，所述非统一状态集群化使用非统一数据驱动集群化算法来进行。在非统一基于树的集群化和非统一数据驱动集群化中，对HMM的至少一些状态定义非统一集群阈值，并且该HMM的至少一个非统一集群阈值具有与该HMM的其它（一个或多个）非统一集群阈值不同的值。

在非统一基于树的集群化的一个实施例中，决策树为二叉树，其中是/否的语音学问题与每个节点相关联。每个问题包括音素特征（诸如“元音”、“鼻音”、“辅音”等）以及相应的依赖性特征（诸如“左”或“右”）。每个节点处的问题被设计为使得对数可能性增益最大化，这描述了训练数据表述能力的改进。继续该过程直至对数可能性增益落到低于非统一集群阈值。根据对所述问题的回答，共享相同叶节点的状态由此被结合。在一个实施例中，非统一状态集群化过程为每个状态构建的决策树，并且每个状态（例如，每个初始状态、（一个或多个）主体状态和/或最终状态）可以有不同的非统一集群阈值。

在一个实施例中，非统一状态集群化为非统一数据驱动集群化技术。使用上下的分层过程来执行所述非统一数据驱动集群化技术从而以非统一的方式对每个状态进行集群化。在非统一数据驱动集群化技术的一个实施例中，最初所有可能的状态都被置于单独集群中。使用距离量度反复将最为接近的集群融合在一起。重复该过程直至两个集群之间的距离达到所定义的每个状态的非统一阈值或者直至获得每个状态的非统一集群数目。

在一些实施例中，计算设备110是具有受限资源的设备（例如，游戏机、蜂窝电话、智能电话、膝上电脑、掌上电脑、图形输入板、工作站、个人计算机、娱乐机器人、机顶盒、电视机、音频接收器、GPS设备或具有有限资源的其它电子设备），而在其它实施例中，计算设备110被用于对具有受限资源的语音识别***所使用的HMM进行训练。

图2是图示根据一个实施例的在HMM的训练期间所执行的示例性操作的流程图。图2的操作将参考图1的示例性实施例进行描述。然而，应当理解的是，图2的操作可以由与参见图2所讨论的那些实施例所不同的实施例来执行，并且参见图1所讨论的实施例可以执行与参见图2所讨论的那些操作所不同的操作。

在框210，语音识别器训练模块150接收训练HMM（例如，增强型左或右双音HMM、增强型三音HMM、增强型半音HMM、并行***组合HMM等）的选择。该选择可以从人接收，或者其可以从自动程序接收。例如，虽然出于简要原因而没有在图1中示出，但是训练***可以包括允许用户对训练进行配置（包括选择要进行训练的HMM）的界面（例如，命令行界面、图形用户界面）。根据一个实施例，HMM在HMM配置规范存储140中进行定义。根据本发明实施例的示例性HMM将参见图3-10进行描述。流程接着进行至框220。

在框220，语音识别器训练模块150从HMM配置规范存储140获取所选择HMM的HMM配置规范。在一些实施中，所述HMM配置规范包括以下中的一个或多个：状态数目、HMM的每个状态的状态配置（例如，对于每个状态标识其是独立于上下文还是依赖上下文（以及依赖于什么上下文）、状态连接、所需混合高斯的数目，以及非统一状态集群化过程中所使用的一个或多个状态的非统一集群阈值）。

在一些实施例中，定义或训练右和/或左双音HMM以大大减少在经验上关于（一种或多种）上下文音素依赖性不明显（insignificant）的那些状态的可能观察分布的数目（例如，通过消除那些状态的那些上下文依赖性或者更重度地结合那些状态）。如通过三音集群化决策树的分析所指示的，三音HMM的初始状态主要依赖于之前的音素，而最终状态则主要依赖于后续音素。此外，通过光谱分析，音素的结尾更明显地依赖于后续音素，而音素的开头则依赖于之前的音素。

因此，在经验上不明显的上下文音素依赖性通常对于右双音出现在初始状态中，而对于左双音出现在最终状态中。因此，在本发明的一些实施例中，对于增强型右双音而言，消除初始状态中的上下文音素依赖性（例如，将初始状态定义为独立于上下文或者通过非统一状态集群化过程完全结合），或者对初始状态进行更重度地结合（与（一个或多个）主体状态、最终状态，以及典型右双音的初始状态相比）以大大减少初始状态的可能观察分布的数目；并且对于增强型左双音而言，消除最终状态中的上下文音素依赖性（例如，将最终状态定义为独立于上下文或者通过非统一状态集群化过程完全结合），或者对最终状态进行更重度地结合（与初始状态、（一个或多个）主体状态，以及典型左双音的最终状态相比）以大大减少最终状态的可能观察分布的数目。

在对增强型右双音执行非统一状态集群化过程的实施例中，定义初始和/或主体状态的（一个或多个）非统一集群阈值以使得那些（一个或多个）状态的观察分布的数目为1（例如，其被完全结合）或者与最终状态相比，并且与典型右双音的相应初始和（一个或多个）主体状态相比被大大减少。在对增强型左双音执行非统一状态集群化过程的实施例中，定义最终和/或主体状态的（一个或多个）非统一集群阈值以使得那些（一个或多个）状态的观察分布的数目为1（例如，其被完全结合），或者与初始状态相比，并且与典型左双音的相应（一个或多个）主体状态和最终状态相比被大大减少。

对于三音而言，在经验上不明显的上下文音素依赖性通常出现在初始状态（后续的音素依赖性在经验上不明显）和最终状态（之前的音素依赖性在经验上不明显）中。因此，在本发明的一些实施例中，通过消除初始状态中对后续音素的上下文音素依赖性以及消除最终状态中对之前音素的上下文音素依赖性来对三音进行增强。例如，在一些实施例中，定义增强型三音HMM以使得初始状态仅上下文依赖于之前音素，（一个或多个）主体状态上下文依赖于之前音素和后续音素，而最终状态仅上下文依赖于后续音素。

也可以通过减少在经验上具有不明显的上下文音素依赖性的那些状态的可能观察分布的数目来对半音进行增强。例如，在经验上不明显的上下文音素依赖性通常出现在半音（非支配性半音以及右和左支配性半音）的（一个或多个）主体状态中。因此，在一些实施例中，消除右支配性半音的（一个或多个）主体状态中后续音素的上下文音素依赖性，或者与增强型右支配性半音的最终状态以及典型右支配性半音的（一个或多个）主体状态相比大大减少（一个或多个）主体状态的观察分布的数目。例如，在一些实施例中，将右支配性半音的（一个或多个）主体状态定义为独立于上下文（初始状态保持上下文依赖于之前音素，而最终状态保持上下文依赖于后续音素）。在其它实施例中，执行非统一集群化过程，其使用对所述（一个或多个）主体状态所定义的非统一集群阈值并且将所述（一个或多个）主体状态的观察分布的数目减少为1（例如，其被完全结合），或者与增强型右支配性半音的最终状态以及典型右支配性半音的（一个或多个）主体状态相比对它们进行大大减少（例如，其比典型右支配性半音更为完全地结合，并且比增强型右支配性半音的最终状态更为完全地结合）。

类似地，在一些实施例中，消除左支配性半音的（一个或多个）主体状态中之前音素的上下文音素依赖性，或者与增强型左支配性半音的初始状态以及典型左支配性半音的（一个或多个）主体状态相比大大减少（一个或多个）主体状态的观察分布的数目。例如，在一些实施例中，将左支配性半音的（一个或多个）主体状态定义为独立于上下文（初始状态保持上下文依赖于之前音素，而最终状态保持上下文依赖于后续音素）。在其它实施例中，执行非统一集群化过程，其使用对所述（一个或多个）主体状态所定义的非统一集群阈值并且将所述（一个或多个）主体状态的观察分布的数目减少为1（例如，其被完全结合），或者与增强型左支配性半音的初始状态以及典型左支配性半音的（一个或多个）主体状态相比对它们进行大大减少（例如，其比典型左支配性半音更为完全地结合，并且比增强型左支配性半音的初始状态更为完全地结合）。

在一些实施例中，所选择的HMM是将两个或更多不同HMM（例如，（增强型或典型的）左双音、（增强型或典型的）右双音、单音、（增强型或典型的）三音等）相组合的并行***组合HMM。所述并行***组合HMM包括新的状态连接，所述新的状态连接允许训练模块150为匹配和/或不匹配条件自动搜索和选择最佳的依赖上下文的HMM。训练模块150可以从并行***组合HMM删除（除去）在训练期间没有选择的那些状态。

回去参见图2，流程从框220进行至框230，其中语音识别器训练模块150（例如，从训练数据库120）获取语音数据。所述语音数据可以是预先录制的或者可以在试图考虑特定环境条件（例如，不同类型的噪声、回声、噪声衰减、特征变换、HMM后端噪声补偿等）时进行增强和/或修改。

流程接着进行至框240，其中语音识别器训练模块150使用来自训练数据库120和字典130的语音数据根据HMM配置规范中所定义的参数对HMM进行训练。

在HMM配置规范包括（一个或多个）非统一集群阈值的实施例中，所述训练包括非统一状态集群化模块155执行非统一状态集群化过程以大大减少其上下文音素依赖性在经验上不明显的那些状态的观察分布的数目。给定状态在执行所述非统一状态集群化过程之后的可能观察分布的数目取决于与该状态相关联的非统一集群阈值的值。给定足够高的非统一集群阈值，可能观察分布的数目可以被减少为1，这消除了该状态的上下文依赖性。在一些实施例中，所选择HMM的至少一些状态的非统一集群阈值被用来将HMM的受到上下文依赖性影响较小的那些状态进行更为重度地结合。减少输出观察的数目降低了语音识别***所需的计算要求（例如，其减少了语音识别器的存储器占用，其需要较少的CPU资源等），并且还改进了不匹配条件下的语音识别准确度。

在所选择的HMM为并行***组合HMM的实施例中，训练模块150的并行***组合模块160使用状态连接为匹配和/或不匹配条件自动搜索并选择最佳的依赖上下文的HMM拓扑。所述并行***组合模块160可以从并行***组合HMM删除（除去）训练期间没有选择的那些状态（这取决于语音训练数据）。

在训练完成之后，流程从框240进行至框250，其中经训练的HMM存储在经训练HMM存储145中，其将在语音识别期间由语音识别器所使用，这将参见图11和12进行更为详细地描述。

图3图示了根据一个实施例的示例性增强型右双音HMM 310。HMM 310包括初始状态315、主体状态320和最终状态325。三状态HMM 310分别对音素的开头、核心和结尾进行了建模。虽然HMM 310包括三个状态，但是应当理解的是，状态数目在不同实施例可以更多或更少。如图3所示，每个基本音素利用状态转移概率{Aip}和输出概率观察分布{Bip(Ot)}来表示。所述输出观察分布典型地为高斯分布的多元混合形式，并且确定了在时间t生成观察Ot的概率。输出观察由状态索引i和音素索引p以及在时间t的输入观察所标识。

标准右双音HMM中对特定基本音素p进行建模的每个状态上下文依赖于后续的相邻音素r（在基本语音p的右侧邻居）。标准右双音HMM中每个状态的观察分布与基本音素和后续音素相关联。虽然可以通过应用统一决策树集群化算法或统一数据驱动集群化算法来限制观察分布的数目，但是这些算法跨每个状态使用相同的统一集群阈值。结果，这些算法会导致观察分布的数目对于一些状态而言过大（例如，如果统一集群阈值相对小），进而在受上下文依赖性影响较小的状态中产生不必要且冗余的观察分布，这降低了语音识别器在不匹配状态下的准确度（例如，其可能针对本地训练条件过度训练）并且增加了其存储器占用；或者这会导致观察分布的数目对于一些状态而言过小（例如，如果统一集群阈值相对大），这会使得受到上下文依赖性影响较大的那些状态过于一般化，导致语音识别器在匹配和不匹配条件下的准确度降低。

双音HMM的初始状态（表示音素的开头）主要依赖于之前的音素。因此，对于初始状态而言，与后续音素的上下文依赖性可能是不明显的。这样，在增强型右双音HMM 310中，初始状态315的上下文音素依赖性已经被消除并且基本上被看作单音状态。因此，初始状态315仅有单个观察分布。如图3所示，主体状态320和最终状态325中所表示的基本音素依赖于后续的音素（由p+r所指示）。减少右双音HMM 310的初始状态的观察分布数目不仅减少了语音识别器的存储器占用且需要更少的CPU资源，而且还提高了语音识别器在不匹配条件下（实际使用的环境不同于训练期间的环境和/或仿真环境的情形）的准确度。

在一个实施例中，为了将初始状态315的观察分布数目减少为单个观察分布，作为执行非统一集群化过程的结果，定义非统一集群阈值350以使得初始状态315将被完全结合（即，具有单个观察分布）。例如，非统一集群阈值350被设置为无限大或非常大的值。主体状态320和最终状态325的非统一集群阈值355和360分别将减少那些状态的观察分布数目并且与非统一集群阈值350有所不同。非统一集群阈值355和360可以为相同或不同的值（例如，阈值355可以大于或小于阈值360）。在一个实施例中，非统一集群阈值355和360的数值为使得最终状态325比主体状态320多大约三分之二的观察分布。

在另一个实施例中，在HMM配置规范中将右双音HMM 310的初始状态315定义为独立于上下文，由此将可能观察分布的数目减少为单独一个。在这样的实施例中，无需定义非统一阈值350，然而可以定义非统一阈值355和360（所述阈值可以为相同或不同的值）。

根据一个实施例，可以使用类似机制来增强左双音HMM。图4图示了根据一个实施例的示例性增强型左双音HMM 410。HMM 410包括初始状态415、主体状态420和最终状态425。三状态HMM 410分别表示音素的开头、核心和结尾。虽然HMM 410包括三个状态，但是应当理解的是，在不同实施例中可以有更多或更少的状态数目。

标准左双音HMM中对特定基本音素p进行建模的每个状态上下文依赖于之前的相邻音素l（在基本音素p的左侧邻居）。因此，标准左双音HMM中每个状态的观察分布与基本音素及其在前的音素相关联。虽然可以通过应用统一决策树集群化算法或统一数据驱动集群化算法来限制观察分布的数目，但是这些算法跨每个状态使用相同的统一集群阈值。结果，这些算法会导致观察分布的数目对于一些状态而言过大（例如，如果统一集群阈值相对小），进而在受上下文依赖性影响较小的状态中产生不必要且冗余的观察分布，这降低了语音识别器在不匹配状态下的准确度（例如，其可能针对本地训练条件过度训练）并且增加了其存储器占用；或者这会导致观察分布的数目对于一些状态而言过小（例如，如果统一集群阈值相对大），这会使得受到上下文依赖性影响较大的那些状态过于一般化，导致语音识别器在匹配和不匹配条件下的准确度降低。

然而，双音HMM的最终状态（对音素的结尾进行建模）主要依赖于后续的音素。因此，对于最终状态而言，与之前音素的上下文依赖性可能是不明显的。这样，在增强型左双音HMM 410中，最终状态415的上下文音素依赖性已经被消除并且基本上被看作单音状态。因此，最终状态415仅有单个观察分布。如图4所示，初始状态415和主体状态420中所表示的基本音素依赖于之前的音素（由l-p所指示）。减少左双音HMM的最终状态的观察分布数目不仅减少了语音识别器的存储器占用，而且还提高了语音识别器在不匹配条件下（实际使用的环境不同于训练期间的环境和/或仿真环境的情形）的准确度。

在一个实施例中，为了将最终状态425的观察分布数目减少为单个观察分布，作为执行非统一集群化过程的结果，选择非统一集群阈值460以使得最终状态425将被完全结合（即，具有单个观察分布）。例如，非统一集群阈值460被设置为无限大或非常大的值。初始状态415和主体状态420的非统一集群阈值450和455分别将减少那些状态的观察分布数目并且与非统一集群阈值460有所不同。非统一集群阈值450和455可以为相同或不同的值（例如，阈值450可以大于或小于阈值455）。在一个实施例中，非统一集群阈值450和455的值为使得最终状态415比主体状态420多大约三分之二的观察分布。

在另一个实施例中，在HMM配置规范中将左双音HMM 410的最终状态425定义为独立于上下文，由此将可能观察分布的数目减少为单独一个。在这样的实施例中，无需定义非统一阈值460，然而可以定义非统一阈值450和455（所述阈值可以为相同值或它们可以不同）。

图5图示了根据一个实施例的可替代的示例性增强型右双音HMM 510。增强型右双音HMM 510与右双音HMM 310的不同之处在于初始状态515具有多于一个的观察分布并且上下文依赖于后续音素。此外，主体状态520具有比初始状态515更多但是比最终状态525更少的观察分布。如图5所示，符号“+”表示所结合状态的相对量。因此，初始状态515比主体状态520结合程度更大，而主体状态520比最终状态525结合程度更大。因此，右双音hmm 510中状态的观察分布的数目随着上下文音素依赖性变得不明显而逐渐减少。换句话说，对受到上下文依赖性影响较小的状态执行更为重度地集群化。

作为执行非统一集群化过程的结果，非统一集群阈值550的值使得初始状态515中的观察分布数目与典型右双音相比大大减少（例如，所述阈值高于典型右双音中的典型统一集群阈值）。非统一集群阈值555大于非统一集群阈值560（二者都小于非统一集群阈值550）。在一个实施例中，非统一集群阈值555和560的值使得最终状态525将具有比主体状态520多大约三分之二的观察分布。虽然图5图示了主体状态520比最终状态525结合程度更大，但是实施例并不局限于此。例如，主体状态520和最终状态525可以等同地结合（例如，主体状态520和最终状态525的非统一集群阈值可以为相同值）。虽然图5图示了三个状态，但是应当理解的是，不同实施例中可以有更多或更少的状态。

图6图示了根据一个实施例的可替代的示例性增强型左双音HMM 610。增强型左双音HMM 610与左双音HMM 410的不同之处在于最终状态625具有多于一个的观察分布并且上下文依赖于之前音素。此外，主体状态620具有比最终状态625更多但是比初始状态615更少的观察分布。如图6所示，符号“+”表示所结合状态的相对量。因此，最终状态625比主体状态620结合程度更大，而主体状态620比初始状态615结合程度更大。因此，左双音hmm 610的状态的观察分布的数目随着上下文音素依赖性变得不明显而逐渐减少。换句话说，对受到上下文依赖性影响较小的状态执行更为重度地集群化。

作为执行非统一集群化过程的结果，非统一集群阈值660的值使得最终状态625中的观察分布数目与典型左双音相比大大减少（例如，所述阈值高于典型左双音中的典型阈值）。非统一集群阈值655大于非统一集群阈值660（二者都小于非统一集群阈值660）。在一个实施例中，非统一集群阈值650和655的值使得初始状态615将具有比主体状态620多大约三分之二的观察分布。虽然图6图示了主体状态620比初始状态615结合程度更大，但是实施例并不局限于此。例如，主体状态620和初始状态615可以等同结合（例如，主体状态620和初始状态615的非统一集群阈值可以为相同值）。虽然图6图示了三个状态，但是应当理解的是，不同实施例中可以有更多或更少的状态。

本发明的实施例并不局限于双音HMM。图7图示了根据一个实施例的示例性增强型右支配性半音HMM。增强型右支配性半音HMM 710包括初始状态715、主体状态720和最终状态725。初始状态715被包括在左半音部分712中，而主体状态720和最终状态725包括在右半音部分714中。初始状态715上下文依赖于之前音素，而最终状态725上下文依赖于后续音素。在一些实施例中，主体状态720是独立于上下文的（例如，其被完全结合并且仅具有单个观察分布）。在其它实施例中，主体状态720上下文依赖于后续音素，但是比最终状态725更为重度地结合（例如，非统一集群阈值755大于非统一集群阈值760）。因此，在这些实施例中，最终状态725比主体状态720具有更多的观察分布。应当理解的是，在典型的右支配性半音中，集群阈值跨每个状态是相同的（因此对主体状态和最终状态应用相同阈值）。在一些实施例中，非统一集群阈值750具有与非统一集群阈值760相同的值，而在其它实施例中它们可以有所不同。虽然图7图示了三种状态，但是应当理解的是，不同实施例中可以有更多或更少的状态。

在另一个实施例中，右支配性半音HMM 710的主体状态720在HMM配置规范中被定义为独立于上下文，由此将可能观察分布的数目减少为单独一个。在这样的实施例中，不需要定义非统一阈值755，然而可以定义非统一阈值750和760（所述阈值可以为相同值或它们可以不同）。

可以对左支配性半音HMM执行类似机制。图8图示了根据一个实施例的示例性增强型左支配性半音HMM。增强型左支配性半音HMM 810包括初始状态815、主体状态820和最终状态825。初始状态815和主体状态820包括在左半音部分812中，而最终状态825包括在右半音部分814中。初始状态815上下文依赖于之前音素，而最终状态825上下文依赖于后续音素。在一些实施例中，主体状态820是独立于上下文的（例如，其被完全结合并且仅具有单个观察分布）。在其它实施例中，主体状态820上下文依赖于之前音素，但是比初始状态815更为重度地结合（例如，非统一集群阈值855大于非统一集群阈值850）。因此，在这些实施例中，初始状态815比主体状态820具有更多的观察分布。应当理解的是，在典型的左支配性半音中，初始状态和主体状态的非统一集群阈值是相同的。在一些实施例中，非统一集群阈值850具有与非统一集群阈值860相同的值，而在其它实施例中它们可以有所不同。虽然图8图示了三种状态，但是应当理解的是，不同实施例中可以有更多或更少的状态。

在另一个实施例中，左支配性半音HMM 810的主体状态820在HMM配置规范中被定义为独立于上下文，由此将可能观察分布的数目减少为单独一个。在这样的实施例中，不需要定义非统一阈值855，然而可以定义非统一阈值850和860（所述阈值可以为相同值或它们可以不同）。

虽然图7和8图示了右和左支配性半音，但是本发明的实施例并不局限于右或左支配性半音。例如，可以通过以关于一些实施例中增强型右和左支配性半音所描述的类似方式减少（一个或多个）主体状态中的可能观察分布的数目来增强并非右或左支配性的半音。

在一些实施例中，通过消除在经验上不明显的上下文音素依赖性来增强三音HMM。图9图示了根据一个实施例的示例性增强型三音HMM。增强型三音HMM 910通过消除初始状态915中后续音素依赖性以及最终状态925中之前音素的依赖性而减少了在经验上不明显的上下文音素依赖性。在一个实施例中，定义了三音HMM 910的HMM配置规范，其中初始状态915仅上下文依赖于之前音素（而不像典型三音状态那样对后续音素也是如此），主体状态920上下文依赖于之前和后续音素，而最终状态925仅上下文依赖于后续音素（而不像典型三音状态那样对之前音素也是如此）。因此，与每个状态都依赖于之前音素和后续音素的典型三音不同，初始状态915仅依赖于之前音素（由l-p所指示），而最终状态仅依赖于后续音素（由p+r所指示）。主体状态保持依赖于之前音素和后续音素（由l-p+r所指示）。因此，初始状态915和最终状态925的可能观察分布数目与标准三音相比有所减少。虽然图9图示了每个状态在至少一种上下文上是依赖上下文的，但是在其它实施例中，一个或多个状态可以是独立于上下文的。虽然图9图示了三种状态，但是应当理解的是，不同实施例中可以有更多或更少的状态。此外，也可以如之前所描述的在非统一集群化过程期间使用初始状态915、主体状态920和最终状态925的非统一集群阈值。

在一些实施例中，可以使用不同HMM的并行***组合来改进所有条件（匹配条件和不匹配条件）下的准确度。图10图示了根据一个实施例的示例性并行***组合HMM 1010，其组合了增强型左和右双音、单音和三音。此外，定义了不同HMM之间新的状态连接以允许训练模块150为匹配和/或不匹配条件自动搜索和选择最佳的依赖上下文的HMM拓扑。训练模块150可以从并行***组合HMM 1010的拓扑中删除（消除）训练期间不太可能被选择的那些状态。例如，图10将并行***组合HMM 1010图示为如其相应HMM配置规范中所定义的那样。然而，根据训练期间所使用的语音数据，训练模块150可以删除在训练期间选择概率低的那些状态并且将所产生的经训练的并行***组合HMM存储在经训练HMM存储145中。在一些实施例中，反复执行训练过程，其中选择并重复训练并行***组合HMM 1010中的最佳状态（例如，使用标准期望最大化、Baum Welch、区别性训练算法等）以优化那些状态的训练以进一步改进并行***组合HMM 1010的***准确度和性能。语音识别器使用经训练的并行***组合HMM动态地确定经训练并行***组合的拓扑的最佳可能路径。

如图10所示，并行***组合HMM 1010组合了单音HMM（包括初始状态1020、主体状态1030和最终状态1040）、右双音HMM（包括初始状态1022、主体状态1032和最终状态1042）、左双音HMM（包括初始状态1024、主体状态1034和最终状态1044）以及三音HMM（包括初始状态1026、主体状态1036和最终状态1046）。初始状态1020是独立于上下文的，初始状态1022上下文依赖于后续音素，初始状态1024上下文依赖于之前音素，而初始状态1026则上下文依赖于之前和后续的音素。每个初始状态1020、1022、1024和1026具有到每个主体状态1030、1032、1034和1036的转移。主体状态1030是独立于上下文的，主体状态1032上下文依赖于后续音素，主体状态1034上下文依赖于之前音素，而主体状态1036则上下文依赖于之前和后续的音素。每个主体状态1030、1032、1034和1036具有到每个最终状态1040、1042、1044和1046的转移。最终状态1040是独立于上下文的，最终状态1042上下文依赖于后续音素，最终状态1044上下文依赖于之前音素，而最终状态1046则上下文依赖于之前和后续的音素。

如图10所示，典型地定义了右双音、左双音和三音。然而，实施例并不局限于此，原因在于可以如这里所描述的那样对右双音、左双音和三音中的一个或多个进行增强。应当理解的是，如图10所示的状态数目、HMM数目、状态连接、状态依赖性、每个状态的状态配置（每个状态是否独立于上下文、依赖之前上下文、依赖后续上下文、依赖之前和后续上下文）是示例性的，并且在不同实施例中可以使用不同拓扑和组合。

图11图示了根据一个实施例的示例性计算设备，其包括用于为应用识别语音的语音识别器。在一些实施例中，计算设备1105是具有受限资源的设备（例如，游戏机、蜂窝电话、智能电话、膝上电脑、掌上电脑、图形输入板、工作站、个人计算机、娱乐机器人、机顶盒、电视机、音频接收器、GPS设备或具有有限资源的其它电子设备）。应用1165的功能取决于计算设备1105的性质。例如，所述应用可以是办公套件（例如，单词处理、电子数据表处理等）、视频游戏和/或视频游戏***、操作***、多媒体应用等。在一些实施例中，计算设备110的特征可以包括在计算设备1105中（例如，计算设备1105也可以包括语音识别器训练模块），而在其它实施例中，语音识别器训练在远离计算设备1105的设备上执行。

计算设备1105使用麦克风1110来检测音频声音（例如，其可以包括与应用1165相关的命令或其它声音和/或环境声音（例如，背景噪声等））。模拟音频信号由模数转换器（ADC）1115转换为数字数据。所述数字音频数据由数字信号处理器（DSP）1120进行处理。例如，数字信号处理器1120从所述数字数据生成特征矢量（一定时间段内的音频部分）。数字信号处理器1120还可以对数字数据执行特征转换和归一化、噪声衰减、语音增强和/或HMM后端噪声补偿。

接着由语音识别器1130对未知音频数据进行处理以识别在可应用于应用1165的字典1140中所定义的语音成分（例如，单词、句子、命令、指令等）。在一个实施例中，字典1140中的每个语音成分与相应的音素串（一个或多个音素）相关联。语音识别器1130使用经训练HMM存储145中所存储的（一个或多个）经训练HMM以从输入音频数据标识一系列音素。所述（一个或多个）经训练HMM可以对应于参见图3-10所描述的增强型HMM。

语音识别器1130使用字典1140来识别与所标识音素串相对应的语音成分。语音识别器1130使用语法1145或语言模型1150将所识别的语音成分形成为单词序列、句子、短语、命令以便供应用1165所使用（例如，执行命令或动作，在屏幕上显示等）。

在一些实施例中，语音识别器1130还包括适配模块1160，其允许讲话者（应用1165的用户）将经训练HMM存储145中所存储的（一个或多个）HMM的训练与其语音和/或环境相适配。适配模块1160提高了语音识别***的准确度并且允许所述语音识别***对特定环境和/或讲话者进行训练。虽然在一个实施例中自动执行所述适配（例如，定期且没有讲话者的干预），但是在其它实施例中，可以依据请求并且与讲话者交互执行所述适配。在实施例中，适配模块1160对图3-10中所描述的增强型HMM进行适配。

图12是图示根据一个实施例的在语音识别期间所执行的示例性操作的流程图。将参见图11的示例性实施例对图12的操作进行描述。然而，应当理解的是，图12的操作可以由与参见12所讨论的那些实施例不同的实施例来执行，并且参见图11所讨论的实施例能够执行与参见12所讨论的那些操作所不同的操作。

在框1210，计算设备1105在麦克风1110接收音频信号。所述音频信号可以包括应用1165的语音成分和/或环境声音。流程进行至框1215，其中ADC 1115将所述音频信号转换为数字音频数据。流程接着进行至框1220，其中DSP 1120从所述数字音频数据生成特征矢量。在一些实施例中，DSP 1120还对所述数字音频数据执行特征变换和归一化、噪声衰减、语音增强和/或HMM后端噪声补偿。流程从框1220进行至框1225。

在框1225，语音识别器1130使用来自经训练HMM存储145的一个或多个经训练的HMM从所述特征矢量标识语音单位。所述（一个或多个）经训练的HMM是参见3-10更为详细地描述的（一个或多个）增强型HMM。流程接着进行至1230，其中语音识别器1130针对字典1140对语音单位进行评估以标识单词。流程接着进行至框1235，其中语音识别器1130使用语法1145或语言模型1150将所述单词形成为句子、短语、命令等以便供应用1165使用。流程接着进行至框1240，其中应用1165基于所识别的句子、短语、命令等来执行动作。

由于语音识别器1130在语音识别期间使用增强型HMM，所以其对于环境变化更为鲁棒。此外，如果增强型HMM减少了观察分布的数目，则语音识别器将需要更少的存储器和CPU资源来执行语音识别。

图13是图示可以在一些实施例中使用的示例性数据处理***的框图。根据一个实施例，数据处理***1300的示例性架构可以包括在计算设备110和/或计算设备1105中。数据处理***1300可以是游戏机、蜂窝电话、智能电话、膝上电脑、掌上电脑、图形输入板、工作站、个人计算机、娱乐机器人、机顶盒、电视机、音频接收器、GPS设备或其它数据处理***。

数据处理***1300包括处理***1320，其可以在集成电路上包括一个或多个微处理器和/或***。处理***1320通过一个或多个总线1350与任选的高速缓存存储器1310、电源1325（其可以包括一个或多个电池）、易失性存储器1330（例如RAM）、非易失性存储器1340（例如，硬盘驱动器、闪存、PCM（相变存储器）等）、显示控制器和显示设备1370、输入/输出设备1380以及任选的（一个或多个）无线收发器1390相耦合。将要意识到的是，在特定实施例中，没有在图13中示出的额外组件也可以作为数据处理***1300的一部分，并且在特定实施例中可以使用比图13所示的更少的组件。此外，将要意识到的是，如本领域所已知的，可以使用没有在图13中示出的一个或多个总线来将各个组件进行互连。

存储器1330和/或1340可以存储数据和/或程序以便由数据处理***1300执行。例如，存储器1330和/或1340可以存储由语音识别器训练模块150和语音识别器1130所执行的指令。输入/输出设备1380可以包括麦克风和/或扬声器，例如用来接收用于语音识别的音频并且输出声音。输入/输出设备1380还可以包括小键盘、键盘、触摸板、多触摸板或者允许用户向***提供输入的其它设备。显示控制器和显示设备1370可以包括图形用户界面（GUI）。任选的无线（例如RF）收发器1390（例如，WiFi收发器、红外收发器、蓝牙收发器、无线蜂窝电话收发器等）可以被用来与其它数据处理***进行通信。

附图中所示出的技术可以使用一个或多个计算设备（例如游戏机、蜂窝电话、智能电话、膝上电脑、掌上电脑、图形输入板、工作站、个人计算机、娱乐机器人、机顶盒、电视机、音频接收器、GPS设备或其它数据处理***）上存储并执行的代码和数据来实现。这样的计算设备使用机器可读介质存储并（在内部和/或通过网络与其它电子设备）传输代码和数据，所述机器可读介质诸如机器可读存储介质（例如，磁盘、光盘、随机访问存储器、只读存储器、闪存设备、相变存储器）和机器可读通信介质（例如，电、光、声音和其它形式的传播信号－诸如载波、红外信号、数字信号等）。此外，这样的计算设备典型地包括耦合到一个或多个其它组件的一个或多个处理器的集合，所述其它组件诸如一个或多个存储设备、用户输入/输出设备（例如，麦克风、键盘、触摸屏和/或显示器）以及网络连接。所述处理器集合与其它组件的耦合典型地通过一个或多个总线和桥接设备（也被称作总线控制器）。承载网络业务的存储设备和信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因此，给定电子设备的存储设备典型地存储代码和/或数据以便在该电子设备的一个或多个处理器的集合上执行。

实施例的一个或多个部分可以使用软件、固件和/或硬件的不同组合来实现。例如，语音识别器训练模块150和语音识别器1130可以使用软件、固件和/或硬件的不同组合来实现。

虽然已经关于基于音素的识别器对实施例进行了描述，但是实施例并不局限于此，在一些实施例中可以使用其它类型的语音识别器，所述语音识别器使用不同的连接或其它类型的单位（例如，单词、功能词、音节、开头和结尾音节等）。

虽然附图中的流程图示出了本发明的特定实施例所执行操作的特定次序，但是应当理解的是，这样的次序是示例性的（例如，替代性实施例可以以不同次序执行操作、组合特定操作、将特定操作进行重叠等）。

虽然已经关于若干实施例对本发明进行了描述，但是本领域技术人员将认识到本发明并不局限于所描述的实施例，其可以利用所附权利要求精神和范围内的修改和变化进行实践。所述描述由此被看作是说明而非限定性的。

Claims

1.一种改进用于应用的依赖上下文的语音识别器对环境变化的鲁棒性的装置，包括:

存储用于语音识别训练的声音的训练数据库；

存储依赖上下文的语音识别器所支持的多个单词的字典；以及

利用训练数据库和字典对一个或多个多状态隐马尔可夫模型（HMM）的集合进行训练的语音识别器训练模块，其中所述语音识别器训练模块进一步对每个HMM的每个状态执行非统一状态集群化过程，所述非统一状态集群化过程对每个HMM的至少一些状态使用不同的非统一集群阈值以更重度地集群化并相应减少在经验上受一种或多种上下文依赖性影响较小的每个HMM的状态中的那些状态的观察分布的数目。

2.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是具有其上下文依赖性已经被消除的最终状态的左双音HMM，其中所述最终状态是左双音的终点模型状态，且并不连接到除其自身之外的左双音的任何其它状态。

3.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是具有其上下文依赖性已经被消除的初始状态的右双音HMM，其中所述初始状态是右双音的入口模型状态，并且没有来自除其自身之外的任何其它状态的连接。

4.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是具有初始状态、主体状态和最终状态的左双音HMM，所述初始状态、主体状态和最终状态均具有不同的非统一集群阈值，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态，并且其中所述非统一状态集群化过程对最终状态进行比主体状态和初始状态更重度地集群化，并且对主体状态进行比初始状态更重度地集群化。

5.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是具有初始状态、主体状态和最终状态的右双音HMM，所述初始状态、主体状态和最终状态均具有不同的非统一集群阈值，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态，并且其中所述非统一状态集群化过程对初始状态进行比主体状态和最终状态更重度地集群化，并且对主体状态进行比最终状态更重度地集群化。

6.如权利要求1所述的装置，

其中所述多状态HMM中的至少一个是至少包括初始状态、主体状态和最终状态的多状态三音，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态；并且

其中所述语音识别器训练模块对所述多状态三音进行训练以使得初始状态仅上下文依赖于之前音素，所述主体状态上下文依赖于之前音素和后续音素，并且所述最终状态仅上下文依赖于后续音素。

7.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是至少包括初始状态、主体状态和最终状态的半音，并且其中所述主体状态与非统一集群阈值相关联，其中所述非统一状态集群化过程大大减少所述主体状态的观察分布数目，其中所述初始状态是所述半音的左半音部分的入口模型状态并且不连接自除其自身之外的任何其它状态，其中所述最终状态是所述半音的右半音部分的终点模型状态并且不连接到除其自身之外的任何其它状态，并且其中所述主体状态是不同于初始状态和最终状态的状态并且被包括在左半音部分或右半音部分中。

8.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是多状态并行***组合，其组合了多状态左双音HMM、多状态右双音HMM、多状态三音，以及处于所述状态之一的至少一个单音中的一个或多个。

9.一种改进依赖上下文的语音识别器对环境变化的鲁棒性的方法，包括：

接收对隐马尔可夫模型（HMM）进行训练的选择，所述HMM具有多个状态，并且其中所述多个状态中的至少一些与不同的非统一集群阈值相关联；

对所述HMM进行训练，包括使用非统一集群阈值对所述多个状态中的每一个执行非统一状态集群化过程以更重度地集群化并相应减少在经验上受一种或多种上下文依赖性影响较小的多个状态中的那些状态的观察分布数目；以及

存储经训练的HMM。

10.如权利要求9所述的方法，其中所述HMM是右双音并且包括初始状态以及一个或多个其它状态，其中所述初始状态是不连接自一个或多个其它状态的入口模型状态，其中所述右双音的初始状态与非统一集群阈值相关联，并且其中通过在非统一状态集群化过程期间应用与所述初始状态相关联的非统一阈值来消除所述初始状态的上下文依赖性。

11.如权利要求9所述的方法，

其中所述HMM是右双音并且至少包括初始状态、主体状态和最终状态，所述初始状态、主体状态和最终状态均与不同的非统一集群阈值相关联，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态；并且

其中所述非统一状态集群化过程使用不同的非统一集群阈值以对初始状态进行比主体状态和最终状态更重度地集群化，并且对主体状态进行比最终状态更重度地集群化。

12.如权利要求9所述的方法，其中所述HMM是左双音并且包括最终状态以及一个或多个其它状态，其中所述左双音的最终状态与非统一集群阈值相关联，其中所述最终状态是并不连接到一个或多个其它状态的终点模型状态，并且其中通过在非统一状态集群化过程期间应用与所述最终状态相关联的非统一阈值来消除所述最终状态的上下文依赖性。

13.如权利要求9所述的方法，

其中所述HMM是左双音并且至少包括初始状态、主体状态和最终状态，所述初始状态、主体状态和最终状态均与不同的非统一集群阈值相关联，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态；并且

其中所述非统一状态集群化过程使用不同的非统一集群阈值以对最终状态进行比初始状态和主体状态更重度地集群化，并且对主体状态进行比初始状态更重度地集群化。

14.如权利要求9所述的方法，

其中所述HMM是至少包括初始状态、主体状态和最终状态的三音，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态；并且

其中语音识别器训练模块对所述三音进行训练以使得初始状态仅上下文依赖于之前音素，所述主体状态上下文依赖于之前音素和后续音素，并且所述最终状态仅上下文依赖于后续音素。

15.如权利要求9所述的方法，其中HMM是至少包括初始状态、主体状态和最终状态的半音，其中所述初始状态是所述半音的左半音部分的入口模型状态并且不连接自除其自身之外的任何其它状态，其中所述最终状态是所述半音的右半音部分的终点模型状态并且不连接到除其自身之外的任何其它状态，其中所述主体状态是不同于初始状态和最终状态的状态并且被包括在左半音部分或右半音部分中，并且其中所述主体状态与非统一集群阈值相关联，并且其中所述非统一状态集群化过程大大减少所述主体状态的观察分布数目。

16.一种用于语音识别的装置，包括：

一个或多个均具有多个状态的经训练隐马尔可夫模型（HMM）的集合，其中所述经训练HMM的集合通过使用非统一状态集群化过程而具有减少的在经验上受一种或多种上下文依赖性影响较小的那些状态的观察分布数目，所述非统一状态集群化过程使用对每个HMM的多个状态中的至少一些有所不同的非统一集群阈值；和

在语音识别期间使用经训练多状态HMM集合中的一个或多个并且向应用提供结果的语音识别器。

17.如权利要求16所述的装置，其中所述经训练HMM的集合之一是左双音，所述左双音包括独立于上下文的最终状态，并且包括一个或多个依赖上下文的其它状态，其中所述最终状态是左双音的终点模型状态，且并不连接到左双音HMM的除其自身之外的任何其它状态。

18.如权利要求16所述的装置，其中所述经训练HMM的集合之一是右双音，所述右双音包括独立于上下文的初始状态，并且包括一个或多个依赖上下文的其它状态，其中所述初始状态是右双音的入口模型状态，并且没有来自除其自身之外的任何其它状态的连接。

19.如权利要求16所述的装置，其中所述经训练HMM的集合之一是至少包括初始状态、主体状态和最终状态的三音，所述初始状态仅上下文依赖于之前音素，所述主体状态上下文依赖于之前音素和后续音素，并且所述最终状态仅上下文依赖于后续音素，其中初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态。

20.如权利要求16所述的装置，其中所述经训练HMM的集合之一是至少包括初始状态、主体状态和最终状态的半音，其中初始状态是所述半音的左半音部分的入口模型状态并且不连接自除其自身之外的任何其它状态，其中所述最终状态是所述半音的右半音部分的终点模型状态并且不连接到除其自身之外的任何其它状态，其中主体状态是不同于初始状态和最终状态的状态并且包括在左半音部分或右半音部分中，其中所述主体状态与非统一集群阈值相关联，并且其中所述非统一状态集群化过程大大减少所述主体状态的观察分布数目。

21.如权利要求16所述的装置，

其中所述经训练HMM的集合之一是并行***组合HMM，其在左双音HMM、右双音HMM、三音HMM和单音HMM中的两个或多个之间建立连接；并且

其中所述语音识别器动态确定跨所述并行***组合HMM中不同HMM的最佳路径。

22.一种在计算设备中用于执行语音识别的方法，包括：

接收音频信号；

将所述音频信号转换为数字音频；

从所述数字音频生成特征矢量；

使用具有多个状态的经训练隐马尔可夫模型（HMM）从所述特征矢量标识语音单位，其中所述HMM通过使用非统一状态集群化过程而具有减少的在经验上受一种或多种上下文依赖性影响较小的那些状态的观察分布数目，所述非统一状态集群化过程使用对HMM的至少一些状态有所不同的非统一集群阈值；

标识由所述语音单位所形成的语音成分；和

将所述语音成分提供给应用。

23.如权利要求22所述的方法，其中所述经训练HMM是包括独立于上下文的最终状态并且包括一个或多个依赖上下文的其它状态的左双音，其中所述最终状态是左双音的终点模型状态，且并不连接到一个或多个其它状态。

24.如权利要求22所述的方法，其中所述经训练HMM是包括独立于上下文的初始状态并且包括一个或多个依赖上下文的其它状态的右双音，其中所述初始状态是右双音的入口模型状态，并且没有来自一个或多个其它状态的连接。

25.如权利要求22所述的方法，其中所述经训练HMM是至少包括初始状态、主体状态和最终状态的三音，其中所述初始状态仅上下文依赖于之前音素，所述主体状态上下文依赖于之前音素和后续音素，并且所述最终状态仅上下文依赖于后续音素，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态。

26.如权利要求22所述的方法，其中所述经训练HMM是至少包括初始状态、主体状态和最终状态的半音，其中所述初始状态是所述半音的左半音部分的入口模型状态并且不连接自除其自身之外的任何其它状态，其中所述最终状态是所述半音的右半音部分的终点模型状态并且不连接到除其自身之外的任何其它状态，其中主体状态是不同于初始状态和最终状态的状态并且包括在左半音部分或右半音部分中，其中所述主体状态与非统一集群阈值相关联，并且其中所述非统一状态集群化过程大大减少所述主体状态的观察分布数目。

27.如权利要求22所述的方法，

其中所述经训练HMM是并行***组合HMM，其在左双音HMM、右双音HMM、三音HMM和单音HMM中的两个或多个之间建立连接；并且

在从所述特征矢量标识语音单位时动态确定跨所述并行***组合HMM中不同HMM的最佳路径。