CN102915729A

CN102915729A - 语音关键词检出、创建用于其的词典的和方法

Info

Publication number: CN102915729A
Application number: CN201110217287XA
Authority: CN
Inventors: 郭莉莉; 刘贺飞; 亓超
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-08-01
Filing date: 2011-08-01
Publication date: 2013-02-06
Anticipated expiration: 2031-08-01
Also published as: CN102915729B

Abstract

本申请涉及语音关键词检出***。其包括：输入单元，用于接收输入语音信号；特征提取单元，用于从输入语音信号提取至少一个特征；分类器单元，用于基于至少一个特征和词典将输入语音信号分类为目标关键词或者集外词；和输出单元，用于输出分类的结果。该词典包括：语法，包括目标关键词列表和用于集外词的两个标识符的至少一个序列；和词库，包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音以及代表所述至少一个序列的发音，其中一个标识符表示第一类音子，另一个标识符表示第二类音子。第一类音子和第二类音子是基于音子的固有特征聚类的。第一类音子、第二类音子和目标关键词的音子由模型描述。

Description

语音关键词检出***、创建用于其的词典的***和方法

技术领域

本发明涉及语音关键词检出(spotting)***，以及创建用于该语音关键词检出***的词典的***和方法。

背景技术

语音关键词检出技术旨在检测并且识别连续的或者分割的输入语音中的预定义语音关键词。语音关键词检出技术被用于几乎所有语音识别应用中，如呼叫中心***、语音邮件分类和按内容搜索。

在实际的语音关键词检出应用中，输入语音的大多数部分不包括关键词。这些部分称为集外词(Out-Of-Vocabulary，OOV)段(即，非关键词)。如果OOV段被错误地识别为关键词，则这被称为误警(false alarm，FA)。高误警率会引起不良的用户体验。

一般而言，丢弃OOV数据的方法之一是除了建立关键词模型之外，还建立用于OOV数据的适当的垃圾模型(garbage model)，以区分关键词和非关键词。

通常，关键词的数量是有限的。建立对于每个关键词的准确模型是相对容易的。而建立准确的垃圾模型是非常困难的，这是因为存在太多类型的OOV数据。例如，关于OOV数据，有静音数据、语音数据和不同类型的噪声等。建立垃圾模型的通用方法如下。

(1)采用一个或更多个通用垃圾模型。

例如，美国专利申请No.20030200090和No.20050256712以及Jay G.Wilpon等人的“Automatic Recognition of Keywords in Unconstrained Speech Using Hidden Markov Models”，IEEE Trans on Assp，Vol.38，No.11，November，1990，第1870-1878页描述了通过利用所有语音数据(具有或不具有关键词样本)和各种噪声来建立一个通用垃圾模型的各种方式。H.Bourlard、B.D′hoore和JM Boite，“optimizing recognition and rejection performance in word spotting systems”，Proc.ICASSP 94，第373-376页描述了通过聚类的上下文无关的音子数据来建立若干个通用垃圾模型。

这种方法易于操作并且对于提高通用语音关键词检出***的性能是有效的。但是，这样的通用垃圾模型是关键词无关的。其不能在考虑特定关键词的情况下良好地代表所有非关键词的特性。具有与关键词相似发音的OOV词倾向于被识别为关键词，因而导致大量的误警。

(2)采用关键词相关的垃圾模型。

建立与特定关键词相关的垃圾模型将降低上述的误警。例如，在美国专利No.5895448和No.6223155，以及J.Rohlicek、W.Russel、S.Rouko和H.Gish，“Continuous hidden Markov modeling for speaker independent word spotting”，in Proc，Int.Conf.Acoustics，Speech，and Signal Processing，1989，第627-630页和Makoto Yamada、Tsuneo Kato、Masaki Naito和Hisashi Kawai，”Improvement of Rejection Performance of Speech keyword spotting Using Anti-Keywords Derived from Large Vocabulary”，in INTERSPEECH2005，September，4-8，Lisbon，Portugal，第1445-1448页中，提出了建立用于关键词的垃圾模型的各种方式。

这种方法良好地区分特定关键词和OOV词。但是，因为一个关键词具有至少一个垃圾模型，因此在识别时将使用许多垃圾模型，这引起语音关键词检出***的重的计算和存储负荷。另一个缺点是一旦改变或增加关键词，用于其的垃圾模型应当被重新建立和训练。

如何在使计算和存储负荷保持低的同时有效地减小语音关键词检出的误警率是语音关键词检出技术的挑战。

发明内容

本发明的目的是提供一种使用关键词相关的垃圾模型的高度可靠的语音关键词检出***，其能够在不引起重的计算和存储负荷的情况下提高垃圾模型的区分能力。

根据本发明的一个方面，提供了一种语音关键词检出***。其包括：输入单元，用于接收输入语音信号；特征提取单元，用于从输入语音信号提取至少一个特征；分类器单元，用于基于所述至少一个特征和词典将输入语音信号分类为目标关键词或者集外词；和输出单元，用于输出分类的结果。所述词典包括：语法(grammar)，该语法包括目标关键词列表和用于集外词的两个标识符的至少一个序列；和词库(lexicon)，该词库包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音以及代表用于集外词的所述两个标识符的至少一个序列的发音，所述两个标识符中的一个标识符表示第一类音子，另一个标识符表示第二类音子。第一类音子和第二类音子是基于音子的固有特征而聚类的。第一类音子、第二类音子和用于一个或更多个目标关键词的音子分别由它们的模型描述。

根据本发明的另一方面，提供一种创建用于语音关键词检出***的词典的***。所述词典包括：具有目标关键词列表的语法；和词库，该词库包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音。所述***包括：用于基于音子的固有特征将语音数据聚类为第一类音子和第二类音子的单元；用于依赖于目标关键词列表中的目标关键词的音子序列，生成用于集外词的两个标识符的至少一个序列的单元，所述两个标识符中的一个标识符表示第一类音子，另一个标识符表示第二类音子；和用于将所述两个标识符的至少一个序列添加到语法中的单元。所述词库还包括代表用于集外词的所述两个标识符的至少一个序列的发音。第一类音子、第二类音子和用于一个或更多个目标关键词的音子分别由它们的模型描述。

根据本发明的又一方面，提供一种创建用于语音关键词检出***的词典的方法。所述词典包括：具有目标关键词列表的语法；和词库，该词库包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音。所述方法包括以下步骤：基于音子的固有特征将语音数据聚类为第一类音子和第二类音子；依赖于目标关键词列表中的目标关键词的音子序列，生成用于集外词的两个标识符的至少一个序列，所述两个标识符中的一个标识符表示第一类音子，另一个标识符表示第二类音子；和将所述两个标识符的至少一个序列添加到语法中。所述词库还包括代表用于集外词的所述两个标识符的至少一个序列的发音。第一类音子、第二类音子和用于一个或更多个目标关键词的音子分别由它们的模型描述。

根据本发明中的语音关键词检出***以及创建用于该语音关键词检出***的词典的方法和***，训练数据被在音子级别聚类为两类：第一类音子和第二类音子。利用训练库中的属于第一类音子的音子，训练第一类音子的模型，该训练库包括用于训练模型的所有训练语音数据。利用训练库中的属于第二类音子的音子，训练第二类音子的模型。第一类音子和第二类音子例如分别为辅音和元音。依赖于与目标关键词相关地生成两个标识符的至少一个序列，所述两个标识符分别表示第一类音子和第二类音子。在语音关键词检出时，通过语音关键词检出***使用两个标识符的序列来连结(concatenate)第一类音子的模型和第二类音子的模型，以创建垃圾模型。由于用于创建垃圾模型的所述两个标识符的至少一个序列是依赖于目标关键字生成的，所以误警率的改进更为优于使用一个或更多个通用垃圾模型的***。此外，由于仅建立了两个模型，即，第一类音子的模型和第二类音子的模型，所以，与使用关键词相关的许多垃圾模型的常规语音关键词检出***相比，计算和存储负荷显著降低。此外，当改变或添加目标关键词时，只需要改变或重新生成所述两个标识符的序列，而无需建立新的模型。而在使用关键词相关的许多垃圾模型的常规语音关键词检出***中，一旦改变或添加目标关键词，必需重新建立与该新的目标关键词相关的垃圾模型。

根据以下参照附图对示例性实施例的描述，本发明的其它特征将变得明显。

附图说明

图1是常规语音关键词检出***的方框图。

图2是根据本发明的语音关键词检出***的方框图。

图3是创建用于本发明的语音关键词检出***的词典的***的方框图。

图4是创建用于本发明的语音关键词检出***的词典的流程图。

图5是训练辅音模型和元音模型的流程图。

图6是根据本发明第一实施例的创建词典的流程图，该词典包括与目标关键词列表中的所有目标关键词相关的OOV词的CV序列。

图7是根据本发明第一实施例的生成与一个目标关键词相关的OOV词的CV序列的流程图。

图8是生成长度在最小长度和最大长度之间的所有CV序列的流程图。

图9是确定目标关键词KW_i的误警样本的流程图。

图10是根据本发明第二实施例的创建词典的流程图，该词典包括与目标关键词列表中的所有目标关键词相关的OOV词的CV序列。

图11是根据本发明第二实施例的生成与一个目标关键词相关的OOV词的CV序列的流程图。

图12是示出能够实现本发明的实施例的计算机***的硬件配置的方框图。

图13是示出常规语音关键词检出***和根据本发明的语音关键词检出***之间的比较的图表。

具体实施方式

现在将按照附图详细描述本发明的优选实施例。注意，实施例中的部件的相对布置以及设备的形状仅是作为示例，并不旨在将本发明的范围限制于这些示例。此外，在图中，类似的附图标记和字母指代类似的项，由此，一旦在一个图中定义了一项，无需对于随后的图讨论该项。

(常规语音关键词检出***)

图1是常规语音关键词检出***1A的方框图。

在图1中，使用关键词无关的通用垃圾模型的语音关键词检出***1A包括语音输入单元101、特征提取单元102、分类器单元103、输出单元104、声学模型单元105和词典单元106。

语音输入单元101用于接收并处理(例如，预滤波、采样、量化、加窗和预加权等)输入语音信号，该输入语音信号通常是一系列声学波形。经处理的信号被输入特征提取单元102，该特征提取单元102从经处理的信号提取特征并且获取波谱表示。通常使用的波谱表示是MFCC(梅尔倒谱系数，mel frequency cepstral coefficients)，MFCC提供输入语音信号的每帧的特征矢量。MFCC矢量被输入分类器单元103，分类器单元103识别输入语音段的帧是目标关键词还是OOV词。随后，表示输入语音信号是目标关键词还是OOV词的识别结果被发送到输出单元104，输出单元104输出该识别结果。

在分类器单元103的识别(分类)期间，词典单元106和声学模型单元105提供对于分类器单元103的输入。

具体地，常规的词典单元106包括词库和语法，在词库中，代表一个或更多个目标关键词的音子序列(例如，代表目标关键词“stop”的音子序列“S T AA P”)的所有候选关键词的发音以及代表通用垃圾的序列的发音被提供，并且在语法中，目标关键词列表和通用垃圾的序列被提供。声学模型单元105包括用于构成目标关键词的音子的模型(例如，音子“S”的模型、音子“T”的模型、音子“AA”的模型、和音子“P”的模型)，以及用于通用垃圾的音子模型。

当本申请中提到模型时，其通常是隐马尔可夫模型(Hidden Markov model，HMM)。关于HMM及其在语音识别***中的应用，可以参照清华大学出版社的“现代语音技术基础和应用”。

在图1中的常规语音关键词检出***1A中，分类器单元103按照词典单元106中的关键词列表中的目标关键词的音子序列，连结声学模型单元105中的对应的音子模型，以建立目标关键词的模型(即，目标关键词模型)。此外，分类器单元103还按照词典单元106中的通用垃圾的序列连结声学模型单元105中的用于通用垃圾的音子模型，以建立通用垃圾模型。使用这些目标关键词模型和通用垃圾模型，分类器单元103将输入语音信号分类为目标关键词或OOV词。具体地，对于输入语音信号而言，如果目标关键词的概率是最高概率，则分类器单元103将输入语音信号分类为目标关键词，如果OOV词的概率是最高概率，则将输入语音信号分类为OOV词。对于输入语音信号而言的目标关键词的概率指的是目标关键词模型与输入语音信号之间的相似度。类似地，对于输入语音信号而言的OOV词的概率指的是OOV词的通用垃圾模型与输入语音信号之间的相似度。

如上所述，由于通用垃圾模型是特定关键词无关的，所以这样的分类具有高误警率。

(根据本发明的辅音模型和元音模型)

在本发明中，为了建立关键词相关的垃圾模型，按照音子的固有特征将训练数据在音子级别聚类为两类：辅音(第一类音子)和元音(第二类音子)。辅音是利用声道的完全或部分闭合来发声的语音声音。例子有：[p]是以嘴唇来发音；[t]是以舌头的前部来发音；[k]是以舌头的后部来发音；[h]是在喉部中发音；[f]和[s]是使空气流过狭窄的通道(摩擦)来发音；并且[m]和[n]是使空气流过鼻子来发音(鼻音)。元音是利用开放的声道来发声的语音声音，例如英语的ah！[a:]，其以声道的振动来发音。这与辅音的不同在于在沿着声道的某一点处存在限制或闭合。也可以基于音子的各种固有特征按照任何其它方式对音子聚类。

基于上面的聚类，建立并且训练辅音模型和元音模型。

图5是训练辅音模型和元音模型的流程图。如图5所示，利用训练库中的辅音的音子样本对辅音模型进行训练，并且利用训练库中的元音的音子样本对元音模型进行训练。

在训练之后，分别对于辅音和元音建立HMM模型。对于辅音模型和元音模型中的每一个，获得转移概率矩阵A＝a₀₁a₀₂...a_n1...a_nn，每个a_ij代表每个子音子(一个音子由多个子音子构成)自循环或变为下一子音子的概率。获得观察值的似然度矩阵B＝b_i(o_t)，b_i(o_t)表示从一个子音子生成的在帧t处的波谱特征矢量的概率。

(根据本发明的语音关键词检出***)

图2是本发明的语音关键词检出***1B的方框图。

语音关键词检出***1B与常规语音关键词检出***1A的一个不同在于，除了用于目标关键词的音子模型和用于通用垃圾的音子模型以外，本发明的声学模型单元105A包括上述辅音模型(第一类模型)和元音模型(第二类模型)。

另一个不同在于在词典单元106A中，在语法中包括用于OOV词的至少一个CV序列(两个标识符的至少一个序列)。CV序列中的C代表辅音(第一类音子)，CV序列中的V代表元音(第二类音子)。CV序列是依赖于目标关键词及其误警样本生成的。

词库进一步包括代表用于集外(OOV)词的至少一个CV序列的发音。

除了按照目标关键词的音子序列连结目标关键词的音子模型(即，建立目标关键词模型)之外，分类器单元103按照词典单元106A中的用于OOV词的CV序列连结声学模型单元105A中的辅音模型和元音模型。在以下描述中，将通过按照CV序列连结辅音模型和元音模型生成的模型称为CV垃圾模型。分类器单元103将输入语音信号分类为目标关键词或者OOV词(即，非关键词)。具体地，如果目标关键词的概率是最高概率，则分类器单元103将输入语音信号分类为目标关键词，如果CV序列的概率或者非关键词的概率是最高概率，则将输入语音信号分类为OOV词。

注意，根据本发明的语音关键词检出***1B可以包括如图1所示的用于通用垃圾的音子模型，通用垃圾的序列以及代表通用垃圾的序列的发音。但是，本发明可以在没有该部件的情况下实现。

在语音关键词检出***1B的语法中，由于CV序列是基于特定目标关键词及其误警样本生成的，所以具有与目标关键词类似的发音的OOV词能够被识别为非关键词。由此，与使用关键词无关的通用垃圾模型的常规语音关键词检出***1A相比，能够显著地降低误警率。

此外，与使用关键词相关的许多单独的垃圾模型的常规语音关键词检出***相比，由于只建立了两个模型，即，第一类模型(辅音模型)和第二类模型(元音模型)，所以计算和存储负荷显著降低。此外，在使用关键词相关的许多单独的垃圾模型的常规语音关键词检出***中，一旦改变或添加目标关键词，用于关键词的垃圾模型必须被重新建立。然而，在本发明中，当改变或添加目标关键词时，只需要生成新的CV序列，而无需建立任何新的模型。

注意，上述单元和以下要描述的单元是用于实施以下要描述的过程的示例性的和/或优选的模块。这些单元可以是硬件单元(诸如场可编程门阵列、数字信号处理器或专用集成电路等)和/或软件模块(诸如计算机可读程序)。以上并未详尽地描述用于实现各个步骤的单元。然而，只要有执行某个处理的步骤，就可以有用于实现同一处理的对应的功能模块或单元(由硬件和/或软件实施)。通过以下描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都包括在本申请的公开内容中，只要它们构成的这些技术方案是完整并且可应用的。

此外，由各种单元构成的以上***可以作为功能模块被并入到诸如计算机之类的硬件装置中。除了这些功能模块之外，计算机当然可以具有其他硬件或者软件部件。

(创建用于语音关键词检出***的词典的***)

创建用于语音关键词检出***的词典的***200包括：聚类单元201，用于基于语音数据的固有特征将语音数据聚类为辅音和元音；CV序列生成单元202，用于依赖于目标关键词列表中的目标关键词的音子序列生成用于集外词的至少一个CV序列，C代表辅音，V代表元音；和用于将所述至少一个CV序列添加到词典中的单元203。该***200能够实现创建用于语音关键词检出***的词典的下述方法。

创建用于语音关键词检出***的词典的***200可以是孤立的形式，或者被并入本发明的语音关键词检出***1B中的分类器单元103 中。

(创建用于语音关键词检出***的词典的方法)

图4示出创建用于本发明的语音关键词检出***的词典的流程图。

在图4所示的方法中，首先基于语音数据的固有特征将语音数据聚类为辅音和元音(S301)。然后，依赖于目标关键词列表中的目标关键词的音子序列，生成集外词的至少一个CV序列(S302)。C代表辅音，V代表元音。然后，将所述至少一个CV序列添加到词典中(S303)。

在创建用于语音关键词检出***的词典的***200中实现创建用于语音关键词检出***的词典的方法。

下面是创建词典的方法的细节。

(根据本发明的第一实施例的创建包括代表目标关键词相关的OOV词的CV序列的词典)

图6是根据本发明的第一实施例的创建包括与目标关键词列表中的所有目标关键词相关的OOV词的CV序列的词典的流程图。

CV序列的生成是基于目标关键词及其误警样本创建词典的主要过程。对于目标关键词列表中的所有目标关键词执行该生成过程。

在如图3所示的***200和/或如图2所示的分类器单元103中执行CV序列的生成。例如，在下面的描述中，CV序列的生成在分类器单元103中执行。首先，获得目标关键词列表中的一个目标关键词(S401)。如果获得的目标关键词不为空(S402中的“是”)，则分类器单元103基于该目标关键词及其输入的误警样本生成用于该目标关键词的OOV词的至少一个CV序列(S403)。

随后将描述基于一个目标关键词及其输入的误警样本生成该目标关键词的OOV词的至少一个CV序列(S403)的细节。

在S403中生成CV序列之后，将生成的CV序列存储在缓冲器(未示出)中(S404)。然后，流程图返回到S401以获得目标关键词列表中的下一个目标关键词，并且如果S402中的确定为“是”，则重复步骤S403到S404。

如果在S401中获得的目标关键词为空(S402中为“否”)，这意味着目标关键词列表中的所有目标关键词已被处理，并且再没有目标关键词需要被处理。然后，分类器单元103收集在缓冲器中的所有生成的CV序列，并且删除重复的CV序列(S405)。例如，如果用于目标关键词KW₁的生成的CV序列是“CVCV”、“VCCV”和“CVC”，并且用于目标关键词KW₂的生成的CV序列是“CVVC”、“CVC”和“VCV”，那么在收集和删除之后的用于目标关键词KW₁和目标关键词KW₂两者的CV序列是“CVCV”，“VCCV”，“CVC”“CVVC”和“VCV”，删除了一个重复的序列“CVC”。所得的CV序列被添加到词典单元106A中的语法中(S406)。然后，该过程结束。

(根据第一实施例的生成代表一个目标关键词KW_i的OOV词的CV序列)

现在将参照图7描述基于一个目标关键词及其输入的误警样本生成至少一个CV序列(S403)的细节。

图7是根据本发明的第一实施例的生成与一个目标关键词KW_i相关的OOV词的CV序列的流程图。

首先，目标关键词KW_i被输入如图2所示的分类器单元103中(S501)。然后，对于目标关键词KW_i创建临时语法(S502)。

对于目标关键词KW_i的临时语法包括目标关键词KW_i本身以及长度等于或大于最小长度并且等于或小于最大长度的所有可能CV序列。最小长度和最大长度是预定义的。为了找出目标关键词KW_i的OOV词的CV序列而创建临时语法。长度等于或大于最小长度并且等于或小于最大长度的所有可能CV序列是预先确定的。确定这些所有可能CV序列的细节在图8中示出。

图8是生成长度等于或大于最小长度并且等于或小于最大长度的所有可能CV序列的流程图。

在图8中，首先获得如下CV序列的最大长度LEN_max和最小长度LEN_min，该CV序列是从词库中的所有候选关键词的音子序列转换而来的(S601)。在词库中，提供代表一个或更多个目标关键词的音子序列的所有候选关键词的发音。通过将候选关键词的音子序列聚类为两类：辅音和元音，来获得候选关键词的CV序列。如果音子序列中的一个音子是辅音，它由CV序列中的“C”代表。如果一个音子是元音，它由CV序列中的“V”代表。例如，关于候选关键词“start”，可以通过将音子序列/S/、/T/、/AA/、/R/、/T/依次聚类为辅音、辅音、元音、辅音和辅音，来获得CV序列“CCVCC”。CV序列“CCVCC”的长度是五。以相同的方式，能够计算词库中的所有候选关键词的CV序列的长度。由此，能够获得LEN_max和LEN_min。注意，也可以通过直接计数候选关键词的音子序列中的每一个中的音子的数量来获得LEN_max和LEN_min。

在生成长度等于或大于最小长度并且等于或小于最大长度的所有CV序列的过程中，设定两个参数Len_CV和Listi，Len_CV代表其范围是等于或大于最小长度并且等于或大于最大长度的一个CV序列的长度，List_i代表具有某一长度的CV序列的列表。开始时，将参数Len_CV设为LEN_min，并且将i设为1(S602)。当i＝1时，List_i代表长度Len_CV＝LEN_min的CV序列的列表。找出长度＝Len_CV的所有CV序列并将其存储在List_i中(S603)。将Len_CV和i分别递增(S604)，并且重复步骤S603和S604，直到Len_CV＞LEN_max(S605)。所有找到的列表被收集作为长度等于或大于最小长度并且等于或小于最大长度的所有可能CV序列(S606)。

该过程返回到图7中的S502。通过组合目标关键词KW_i本身和长度等于或大于最小长度并且等于或小于最大长度的所有可能CV序列，创建临时语法。

然后，执行用于从长度等于或大于最小长度并且等于或小于最大长度的所有可能CV序列中找出用于代表目标关键词KW_i的OOV词的CV序列。首先，确定是否存在目标关键词KW_i的误警样本(S503)。目标关键词KW_i的误警样本代表易于被识别为目标关键词KW_i的OOV词。能够通过图9中示出的过程预先确定误警样本。

图9是确定目标关键词KW_i的误警样本的流程图。

首先，输入训练库(S701)。然后，使用如图2中描述的通用垃圾模型和关键词模型来执行分类或识别(S702)。随后，对于每个目标关键词KW_i，找出被分类为目标关键词KW_i的OOV词(S703)。将每个OOV词确定为目标关键词KW_i的一个误警样本(S704)。使用多个找出的误警样本来生成图7的过程中的目标关键词KW_i的OOV词的CV序列。

该过程回到图7中的S503。如果存在目标关键词KW_i的预定误警样本(S503中为“是”)，则分类器单元103基于目标关键词KW_i的临时语法、如图2中所示的KW_i的关键词模型以及辅音模型和元音模型，识别输入的误警样本，并输出识别结果(S504)。找出识别结果中的识别概率满足预定条件的CV序列，作为用于OOV词的候选CV序列(S505)。随后将描述预定条件的细节。此后，与找出的CV序列一一对应的计数器被递增(S506)。然后，过程返回到S503以确定是否存在目标关键词KW_i的下一个误警样本(S503)。如果存在(S503中为“是”)，则重复步骤S504到S506。如果对于目标关键词KW_i的所有误警样本进行了该处理，即，S503中的确定为“否”，则过程进行到S507。在S507中，将候选CV序列利用它们的相应计数器的值进行排序，并且选择前N个候选CV序列，即，前N个频繁找到的候选CV序列作为目标关键词KW_i的OOV词的CV序列。优选地，1≤N≤所有目标关键词的总数。然后，图7的过程结束。

(找出候选CV序列的预定条件)

存在定义找出候选CV序列的预定条件的各种方式。

一个可能的方式是在目标关键词KW_i的一个误警样本的识别结果中，找出识别概率高于KW_i的识别概率的CV序列，作为候选CV序列。

另选地，找出候选CV序列的方式是在目标关键词KW_i的一个误警样本的识别结果中，找出具有较高识别概率的前M个CV序列，作为候选CV序列。优选地，1≤M≤所有目标关键词的总数。

另选地，找出候选CV序列的方式是在目标关键词KW_i的一个误警样本的识别结果中，找出识别概率高于诸如0.2的阈值的CV序列作为候选CV序列。

(根据本发明第二实施例的创建包括代表目标关键词相关的OOV词的CV序列的词典)

图10是根据本发明第二实施例的创建包括与目标关键词列表中的所有目标关键词相关的OOV词的CV序列的词典的流程图。

步骤S401到S402、S404和S406与图6中的一样。省略相应的描述以避免重复。

不同在于S403A中的生成用于一个目标关键词的OOV词的至少一个CV序列的处理以及S405A中的选择用于所有目标关键词的CV序列的处理。

具体地，在根据第二实施例的生成用于一个目标关键词的OOV词的至少一个CV序列的处理中，取消了选择用于目标关键词KW_i的OOV词的前N个频繁找到的CV序列的步骤(图7的S507)，如图11所示。取而代之，对于所有目标关键词在S405A中执行前N个频繁找出的CV序列的选择。

具体地，在步骤S405A中，在S404中一旦在缓冲器中存储用于每个目标关键词的OOV词的候选CV序列及其计数器，并且再没有需要处理的目标关键词，就收集所有候选CV序列并利用其计数器进行排序。如果存在用于不同目标关键词的OOV词的重复的候选CV序列，则将它们的计数器累加。例如，“CVC”序列是用于目标关键词KW₁的OOV词的候选CV序列，并且关于目标关键词KW₁的“CVC”序列的第一计数器为36。此外，“CVC”序列还是用于目标关键词KW₂的OOV词的候选CV序列，并且关于目标关键词KW₂的“CVC”序列的第二计数器为45。那么，用于目标关键词KW₁和KW₂两者的OOV词的“CVC”序列的累加计数器为81。在累加之后，利用所有候选CV序列的计数器对所有候选CV序列排序。然后，选择前N个候选CV序列，即，前N个频繁找出的CV序列，作为用于所有目标关键词的 OOV词的CV序列。优选地，1≤N≤所有目标关键词的总数。

利用第二实施例，可以限制用于所有目标关键词的OOV词的CV序列的总数。因此，能够进一步降低分类(识别)时的计算和存储负荷。

(能够实现本发明的实施例的硬件配置)

图12是示出能够实现本发明的实施例的计算机***1000的硬件配置的框图。

如图12所示，计算机***包括计算机1110。计算机1110包括经由***总线1121连接的处理单元1120、***存储器1130、不可移动非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出***接口1195。

***存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出***)1133驻留在ROM 1131中。操作***1134、应用程序1135、其它程序单元1136和某些程序数据1137驻留在RAM 1132中。

诸如硬盘之类的不可移动非易失性存储器1141连接到不可移动非易失性存储器接口1140。不可移动非易失性存储器1141例如能够存储操作***1144、应用程序1145、其它程序单元1146和某些程序数据1147。

诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如，软盘1152可以被***到软盘驱动器1151中，以及CD(光盘)1156可以被***到CD-ROM驱动器1155中。

诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110能够通过网络接口1170连接到远程计算机1180。例如，网络接口1170能够通过局域网1171连接到远程计算机1180。另选地，网络接口1170能够连接到调制解调器(调制器-解调器)1172，以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出***接口1195连接到打印机1196和扬声器1197。

图12所示的计算机***仅仅是说明性的并且决不意图对本发明、其应用或用途的任何限制。

图12所示的计算机***能够被实现于任何实施例，能够作为独立计算机，也能够作为设备中的处理***，能够移除一个或多个不必要的组件，或者向其添加一个或多个附加的组件。

(建立在根据本发明的语音关键词检出***中使用的CV垃圾模型的例子)

以下解释在如图2所示的根据本发明的语音关键词检出***中建立用于仅一个目标关键词的CV垃圾模型的示例。

·目标关键词：中文中的“开始”

·拼音发音：kai1 shi3

·关键词的音子序列：k ai sh iii

·相关元音-辅音序列：CVCV

以下是在三种语言的语音关键词检出***中的一个实施例。注意，语音关键词检出***可以是任何适当的类型，只要其可以实现语音关键词检出即可。

·目标语言：中文、英文和日文

·词库中的候选关键词：100个中文常用词、100个英文常用词和100个日文常用词

·分类器：用于孤立词识别的基于Viterbi搜索的HMM解码器(分类器)

·模型：

*通用垃圾模型：利用所有语音库训练，其为三个状态，64个混合HMM

*关键词模型：语言相关的三个状态，两个混合，800个共享状态的HMM

*5(或10)个CV垃圾模型

以下是建立5或10个CV垃圾模型的处理。

利用三种语言的训练库中的所有元音样本训练元音模型。利用三种语言的训练库中的所有辅音样本训练辅音模型。

利用基于所述300个候选关键词获得的最大长度和最小长度收集总共86个可能的CV序列。在预定条件下以所述86个可能的CV序列的出现频率对所述86个可能的CV序列排序。从86个可能的CV序列中选择前5个和前10个CV序列。按照前5个和前10个CV序列连结元音模型和辅音模型，以分别生成5个和10个CV垃圾模型。

(与常规语音关键词检出***的比较)

以下是根据本发明的语音关键词检出***与图1所示的常规语音关键词检出***之间的比较。

以下是测试集说明：

·三个语言测试集：中文、英文和日文

·语法中采用10个目标关键词，在以上示例中建立对于每个目标关键词的CV垃圾模型。

·1000个中文词、3000个英文词和3000个日文词，它们在测试集中具有相同的分布。

图13是示出基于以上测试集的、图1中所示的常规语音关键词检出***与本发明的语音关键词检出***之间的比较的图表。在图13中，RC代表召回(recall)率，其是被正确识别的关键词的数目/关键词的总数。FA代表误警率，其是(被识别为关键词的非关键词的数目+被识别为其它关键词的关键词的数目)/关键词和非关键词的总数。MD代表漏检率，其是被识别为非关键词的关键词的数目/关键词的总数。

在图13中，黑条表示使用通用垃圾模型的常规语音关键词检出***的结果。灰条表示使用一个通用垃圾模型和五个CV垃圾模型(CV序列)的根据本发明的语音关键词检出***的结果。白条表示使用一个通用垃圾模型和10个CV垃圾模型(CV序列)的根据本发明的语音关键词检出***的结果。

从图13可以看出，与使用通用垃圾模型的常规语音关键词检出***相比，本发明的语音关键词检出***以仅可忽略的RC的减小将FA减少了约30％。此外，具有5个CV垃圾模型的***的性能和具有10个CV垃圾模型的***的性能几乎相同。可以看出，5个CV垃圾模型的情况就足够了。考虑到计算和存储负荷，具有5个CV垃圾模型的***是优选的。注意，建立5个或者10个垃圾模型仅是示例。可以建立任何适当数量的CV垃圾模型。

综上所述，根据本发明的语音关键词检出***能够以可忽略的召回率的减小显著降低误警率。此外，由于在计算时仅需要考虑两个用于OOV词的模型，即，辅音模型和元音模型，所以使计算和存储负荷保持低。

可以通过各种方式执行本发明的方法和设备。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其他方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是示例性的而不限制本发明的范围。本领域技术人员应该理解，上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种语音关键词检出***，包括：

输入单元，用于接收输入语音信号；

特征提取单元，用于从输入语音信号提取至少一个特征；

分类器单元，用于基于所述至少一个特征和词典将输入语音信号分类为目标关键词或者集外词；和

输出单元，用于输出分类的结果，

其中，词典包括：语法，该语法包括目标关键词列表和用于集外词的两个标识符的至少一个序列；和词库，该词库包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音以及代表用于集外词的所述两个标识符的至少一个序列的发音，所述两个标识符中的一个标识符表示第一类音子，另一个标识符表示第二类音子，第一类音子和第二类音子是基于音子的固有特征而聚类的，并且

其中，第一类音子、第二类音子和用于一个或更多个目标关键词的音子分别由它们的模型描述。

2.根据权利要求1的语音关键词检出***，其中，

如果最高概率是目标关键词的概率，则分类器单元将输入语音信号分类为目标关键词，如果最高概率是所述两个标识符的至少一个序列的概率，则将输入语音信号分类为集外词。

3.根据权利要求1的语音关键词检出***，其中：

分类器单元包括：

用于对于每个目标关键词生成用于集外词的所述两个标识符的序列的单元；

用于对于每个目标关键词选择前N个最频繁生成的所述两个标识符的序列的单元，其中N为等于或大于1的整数；和

用于对于所有目标关键词收集对于每个目标关键词的所有选定的所述两个标识符的序列作为用于集外词的所述两个标识符的至少一个序列的单元。

4.根据权利要求1的语音关键词检出***，其中，

分类器单元包括：

用于对于所有目标关键词收集对于每个目标关键词的所有生成的所述两个标识符的序列的单元；和

用于对于所有目标关键词选择前N个最频繁生成的所述两个标识符的序列，作为用于集外词的所述两个标识符的至少一个序列的单元，其中N为等于或大于1的整数。

5.根据权利要求3或4的语音关键词检出***，其中

所述用于对于每个目标关键词生成用于集外词的所述两个标识符的序列的单元包括：

用于确定目标关键词的误警样本的单元；

用于创建目标关键词的临时语法的单元，所述临时语法包括目标关键词以及长度等于或大于最小长度并且等于或小于最大长度的所有的所述两个标识符的序列；

用于基于临时语法、目标关键词的音子序列的模型、第一类音子的模型和第二类音子的模型，识别每个误警样本的单元；和

用于找出每个误警样本的识别结果中的识别概率满足预定条件的所述两个标识符的序列的单元。

6.根据权利要求5的语音关键词检出***，其中，所述预定条件是以下条件中的一个：

1)在每个误警样本的识别结果中，所述两个标识符的序列的识别概率高于目标关键词的识别概率；

2)在每个误警样本的识别结果中，所述两个标识符的序列的识别概率高于阈值；

3)在每个误警样本的识别结果中，选出具有较高识别概率的前M个所述两个标识符的序列，其中M为等于或大于1的整数。

7.根据权利要求5的语音关键词检出***，其中，

通过以下单元生成临时语法中的长度等于或大于最小长度并且等于或小于最大长度的所有的所述两个标识符的序列：

用于获得从候选关键词转换的所述两个标识符的序列的最小长度和最大长度的单元；和

用于收集长度等于或大于最小长度并且等于或小于最大长度的所有的所述两个标识符的序列。

8.根据权利要求1-4中任一项的语音关键词检出***，其中

第一类音子是辅音，第二类音子是元音。

9.一种创建用于语音关键词检出***的词典的***，所述词典包括：具有目标关键词列表的语法；和词库，该词库包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音，所述***包括：

用于基于音子的固有特征将语音数据聚类为第一类音子和第二类音子的单元；

用于依赖于目标关键词列表中的目标关键词的音子序列，生成用于集外词的两个标识符的至少一个序列的单元，所述两个标识符中的一个标识符表示第一类音子，另一个标识符表示第二类音子；和

用于将所述两个标识符的至少一个序列添加到语法中的单元，

其中所述词库还包括代表用于集外词的所述两个标识符的至少一个序列的发音，并且

10.根据权利要求9的***，其中，

所述用于生成用于集外词的所述两个标识符的至少一个序列的单元包括：

11.根据权利要求9的***，其中，

12.根据权利要求10或11的***，其中，

用于对于每个目标关键词生成用于集外词的所述两个标识符的序列的单元包括：

用于确定目标关键词的误警样本的单元；

13.根据权利要求12的***，其中，所述预定条件是以下条件中的一个：

14.根据权利要求12的***，其中，

15.根据权利要求9-11中任一项的***，其中，

第一类音子是辅音，第二类音子是元音。

16.一种创建用于语音关键词检出***的词典的方法，所述词典包括：具有目标关键词列表的语法；和词库，该词库包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音，所述方法包括以下步骤：

基于音子的固有特征将语音数据聚类为第一类音子和第二类音子；

依赖于目标关键词列表中的目标关键词的音子序列，生成用于集外词的两个标识符的至少一个序列，所述两个标识符中的一个标识符表示第一类音子，另一个标识符表示第二类音子；和

将所述两个标识符的至少一个序列添加到语法中，

17.根据权利要求16的方法，其中，

生成用于集外词的所述两个标识符的至少一个序列的步骤包括：

对于每个目标关键词生成用于集外词的所述两个标识符的序列；

对于每个目标关键词选择前N个最频繁生成的所述两个标识符的序列，其中N为等于或大于1的整数；和

对于所有目标关键词收集对于每个目标关键词的所有选定的所述两个标识符的序列作为用于集外词的所述两个标识符的至少一个序列。

18.根据权利要求16的方法，其中，

对于所有目标关键词收集对于每个目标关键词的所有生成的所述两个标识符的序列；和

对于所有目标关键词选择前N个最频繁生成的所述两个标识符的序列，作为用于集外词的所述两个标识符的至少一个序列，其中N为等于或大于1的整数。

19.根据权利要求17或18的方法，其中，

对于每个目标关键词生成用于集外词的所述两个标识符的序列的步骤包括：

确定目标关键词的误警样本；

创建目标关键词的临时语法，所述临时语法包括目标关键词以及长度等于或大于最小长度并且等于或小于最大长度的所有的所述两个标识符的序列；

基于临时语法、目标关键词的音子序列的模型、第一类音子的模型和第二类音子的模型，识别每个误警样本；和

找出每个误警样本的识别结果中的识别概率满足预定条件的所述两个标识符的序列。

20.根据权利要求19的方法，其中，所述预定条件是以下条件中的一个：

21.根据权利要求19的方法，其中，

通过以下步骤生成临时语法中的长度等于或大于最小长度并且等于或小于最大长度的所有的所述两个标识符的序列：

获得从候选关键词转换的所述两个标识符的序列的最小长度和最大长度；和

收集长度等于或大于最小长度并且等于或小于最大长度的所有的所述两个标识符的序列。

22.根据权利要求16-18中任一项的方法，其中，

第一类音子是辅音，第二类音子是元音。