CN106816148B

CN106816148B - 语音识别设备和方法

Info

Publication number: CN106816148B
Application number: CN201611078946.5A
Authority: CN
Inventors: 李知炫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-11-30
Filing date: 2016-11-30
Publication date: 2022-04-22
Anticipated expiration: 2036-11-30
Also published as: EP3174047A1; CN106816148A; US10606947B2; KR20170063037A; EP3174047B1; KR102450853B1; US20170154033A1

Abstract

提供一种语音识别设备和方法。一种语音识别设备，包括：预测器，被配置为基于已被之前搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类；解码器，被配置为搜索与语音信号对应的候选单词，使用已被搜索的候选单词扩展之前已被搜索的单词序列，并基于预测的词类调整扩展的单词序列的概率值。

Description

语音识别设备和方法

本申请要求于2015年11月30日提交到韩国知识产权局的第10-2015-0168967号韩国专利申请的优先权，该申请的全部公开出于所有目的通过引用全部包含于此。

技术领域

下面的描述涉及一种语音识别设备和方法。

背景技术

与过去的现有技术不同，最近的语音识别技术已引起广泛的关注。这是因为语音识别技术的实现允许互联网信息、电子商务和在使用语音的各种普遍存在的环境中的操作的使用更加方便，并且甚至在用户难以使用他们的双手时也能满足用户的各种需要，诸如，启用互联网访问、实施商业事务以及使用其他服务。

发明内容

提供发明内容从而以简化的形式介绍构思的选择，其将在下面的具体实施方式中将被进一步描述。发明内容不意在确定所要求保护主题的关键特征或必要特征，也不意在用作辅助确定所要求保护的主题的范围。

在一个总体方面中，一种语音识别设备，包括：预测器，被配置为基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类；解码器，被配置为搜索与语音信号对应的候选单词，使用已被搜索的候选单词扩展之前已被搜索的单词序列，并基于预测的词类调整扩展的单词序列的概率值。

词类可为实体名或词性；实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。

预测器还可被配置为：使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。

词类预测模型可基于词典和语法以规则集的形式被构造，或者可使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。

词类预测模型可为基于递归神经网络(RNN)的模型。

解码器还可被配置为：使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型来搜索候选单词。

解码器还可被配置为：从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。

解码器还可被配置为：在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。

解码器还可被配置为：在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。

预测器还可被配置为：预测跟随之前已被搜索的单词序列的单词的词类概率分布；解码器还可被配置为：通过用每一候选单词的概率值乘以该候选单词所从属的词类的预测的概率值，调整每一候选单词的概率值。

在另一总体方面中，一种语音识别方法，包括：基于之前已被搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类；搜索与语音信号对应的候选单词；使用已被搜索的候选单词扩展之前已被搜索的单词序列；基于预测的词类调整扩展的单词序列的概率值。

所述预测词类的步骤可包括：使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。

词类预测模型可为基于递归神经网络(RNN)的模型。

所述搜索候选单词的步骤可包括：使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型搜索候选单词。

所述的语音识别方法，还可包括：从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。

所述调整扩展的单词序列的概率值的步骤可包括：在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。

所述调整扩展的单词序列的概率值的步骤可包括：在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。

所述预测词类的步骤可包括：预测跟随之前已被搜索的单词序列的单词的词类概率分布；所述调整扩展的单词序列的概率值的步骤可包括：通过将每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值，来调整每一候选单词的概率值。

在另一总体方面，一种存储当由处理器执行时导致处理器执行上面描述的方法的指令的计算机可读存储介质。

在另一总体方面中，一种词类预测模型生成设备，包括：训练数据采集器，被配置为采集包括多个单词序列和多个与所述多个单词序列的每一单词序列对应的类序列的训练数据；模型生成器，被配置为基于采集的训练数据通过学习生成词类预测模型。

类序列的每一类可为实体名或词性；实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。

模型生成器还可被配置为：基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。

模型生成器还可被配置为：使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。

在另一总体方面中，一种词类预测模型生成方法，包括：采集包括多个单词序列和多个与所述多个单词序列中的每个单词序列对应的类序列的训练数据；基于采集的训练数据通过学习来生成词类预测模型。

所述多个类序列的每一类可为实体名或词性；实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。

所述生成词类预测模型的步骤可包括：基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。

所述训练RNN的步骤可包括：使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。

在另一总体方面中，一种语音识别设备，包括：预测器，被配置为基于之前已被搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类；解码器，被配置为基于预测的词类将单词添加到之前已被搜索的单词序列。

预测器还可被配置为：基于之前已被搜索的单词序列预测多个词类的各自的概率；解码器还可被配置为：基于所述多个词类的预测的概率将单词添加到之前已被搜索的单词序列。

解码器还可被配置为：将属于在所述多个词类之中具有最高概率的词类的单词添加到之前已被搜索的单词序列。

解码器还可被配置为：搜索与语音信号对应的多个候选单词，并基于所述多个候选单词的各自的概率和所述多个预测的词类的预测的概率确定是否将所述多个候选单词中的一个候选单词添加到之前已被搜索的单词序列。

解码器还可被配置为：搜索与语音信号对应的候选单词，并基于预测的词类确定是否将候选单词添加到之前已被搜索的单词序列。

其他特征和方面从下面的具体实施方式、附图和权利要求将是清楚的。

附图说明

图1是示出语音识别设备的示例的框图。

图2是示出预测跟随单词序列的单词的词类概率分布的处理的示例的示图。

图3是示出基于一词性调整候选单词序列的概率值的处理的示例的示图。

图4是示出通过应用个性化的信息调整候选单词序列的概率值的处理的示例的示图。

图5是示出基于预测的词类概率分布调整候选单词序列的概率值的处理的示例的示图。

图6是示出语音识别设备的另一示例的框图。

图7是示出词类预测模型生成设备的示例的框图。

图8是示出生成词类预测模型的方法的示例的示图。

图9是示出语音识别方法的示例的流程图。

图10是示出语音识别方法的另一示例的流程图。

图11是示出生成词类预测模型的方法的示例的流程图。

贯穿附图和具体实施方式，除非另外被描述，否则相同的附图标记将被理解为表示相同的元件、特征和结构。附图可不按比例，并且为了清楚、说明和便利，这些元件的相对大小、比例和描写可被夸大。

具体实施方式

下面的详细描述被提供以协助读者获得对在此描述的方法、设备和/或***的全面理解。然而，在对本申请的公开的理解后，在此描述的方法、设备和/或***的各种变化、修改和等同物将是明显的。例如，在此描述的操作的顺序仅是示例，操作的顺序不被局限于在此阐述的那些顺序，而是除了必需按特定顺序发生的操作之外可被改变，在对本申请的公开理解之后将是明显的。同样，为了更加清楚和简洁，对本领域中已知的特征的描述可以被省略。

在此描述的特征可以不同的形式被实现，并且不应被解释为被局限于在此描述的示例。相反，在此描述的示例仅被提供于示出实现在此描述的执行方法、设备和/或***的许多可能方式中的一些方式，这在对本申请的公开理解之后将是明显的。

图1是示出语音识别设备的示例的框图。语音识别设备100可以以硬件芯片的形式被制造，并可在电子装置上被安装。电子装置可为(例如)电视(TV)、导航***、车辆电子装置、智能电话、平板PC、桌面计算机、笔记本PC或者可穿戴装置(例如，智能手表、智能眼镜、智能耳麦或智能耳机)，但不限于此。

参照图1，语音识别设备100可包括：预测器110和解码器120。

预测器110基于之前检测的候选单词序列预测跟随之前检测的候选单词序列的下一单词的词类。为了根据上下文确定单词是否能跟随之前检测的候选单词序列，来定义词类，并指示单词类型。例如，词类可为实体名或词性(例如，名称、动词、形容词或副词)。

实体名可为适当的名词或在句子中具有重要意义的未注册的单词(诸如，人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名)。实体名可为多个单词的短语(诸如，“纽约”或“美国专利及商标局”)。

在一个示例中，预测器110使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。可基于单词序列将词类预测模型实现为预测作为跟随单词序列的下一单词的单词的词类或词类概率分布。例如，词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类，或者可通过使用(例如)命名的实体识别方案或词性标注方案的机器学习被构造并被实现为预测词类概率分布。也就是，预测器110可使用以规则集的形式构造的词类预测模型预测词类，或者使用通过机器学习构造的词类预测模型预测词类概率分布，并且随后基于预测的词类概率分布预测词类。

机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、k最近邻(k-NN)算法、感知机、径向基函数网络、支持向量机(SVM)或深度学习(例如，递归神经网络(RNN))。

解码器120搜索与语音信号对应的候选单词，并使用已被搜索的候选单词扩展之前已被搜索的候选单词序列。换句话说，解码器120基于语音信号添加高度可能作为跟随之前识别的候选单词序列的下一单词出现的单词，以跟随候选单词序列来逐步扩展候选单词序列。

在一个示例中，解码器120使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。

声学模型是接收语音信号并输出音素(phone或subphone，音子或子音子)概率矢量的模型。可使用(例如)隐马尔科夫模型(HMM)、高斯混合模型(GMM)、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造声学模型。

发音词典是用于语音识别的单词被定义并且单词的发音符号被记录的模型。可基于从语料库或词典采集的单词预先构造发音词典。

语言模型是单词与另一单词之间的规则(也就是，一种语法)被定义的模型。可使用(例如)n-gram模型、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造语言模型，以通过参照组成单词序列的一列单词确定单词序列的概率。

在一个示例中，发音词典和语言模型以加权有限状态转换器(WFST)的形式的数据结构构造。加权有限状态转换器(WFST)的形式的数据结构可为包括音素序列的所有可能的单词序列的简短的数据结构。如果发音词典和语言模型以WFST的形式的数据结构来构造，则解码器120基于WFST形式的数据结构搜索与语音信号对应的可能的单词序列。

解码器120计算扩展的候选单词序列的概率值。例如，解码器120使用声学模型和语言模型计算已被搜索的候选单词的概率值，并基于候选单词的计算的概率值计算扩展的候选单词序列的概率值。

此外，解码器120基于由预测器110预测的词类调整扩展的候选单词序列的概率值。

在一个示例中，解码器120通过增加已被搜索的候选单词之中的属于由预测器110预测的词类的候选单词的概率值，来调整扩展的候选单词序列的概率值。例如，当预测器110将位置名预测为跟随之前已被搜索的候选单词序列的单词的词类，并且解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词时，解码器120在已被搜索的候选单词“A”、“B”和“C”之中通过将大的权重应用于属于位置名的候选单词“B”和“C”，来增加候选单词“B”和“C”的概率值。应用权重的方案可为调整语言模型和/或声学模型的权重的方案，但是该方案不限于此，并且该权重可被应用于各种方案。

在另一示例中，解码器120通过增加已被搜索的候选单词之中的属于由预测器110预测的词类的并包括在个性化的语言模型中的候选单词的概率值，调整扩展的候选单词序列的概率值。例如，如果预测器110将位置名预测为跟随之前已被搜索的候选单词序列的单词的词类，则解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词，并且位置名“C”连同位置名“D”和“E”也被包括在个性化的语言模型中，解码器120通过将大的权重应用于已被搜索的候选单词“A”、“B”和“C”之中的属于该位置名的并被包括在个性化的语言模型中的候选单词“C”，来增加候选单词“C”的概率值。

可基于个性化的语料库使用(例如)n-gram模型、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造个性化的语言模型。

在另一示例中，解码器120通过在属于类的候选单词的概率值中反映各个预测的词类的概率值，来调整扩展的候选单词序列的概率值。例如，当预测器110预测位置名为0.6以及人名为0.4作为跟随之前已被搜索的候选单词序列的单词的类概率，并且解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词时，解码器120通过用0.4乘以候选单词“A”的概率值并用0.6乘以候选单词“B”的概率值和“C”的概率值，来调整候选单词“A”、“B”和“C”的概率值。

解码器120可在已被搜索的候选单词之中通过删减不属于由预测器110预测的词类的单词来减少未来的搜索范围。换句话说，解码器120可在已被搜索的候选单词之中去除不属于由预测器110预测的词类的未来的搜索目标单词。

此外，解码器120基于候选单词序列的概率值的调整的结果选择具有最大概率值的候选单词序列，并输出选择的候选单词序列作为语音识别结果。

此外，当针对输入语音信号的语音识别没有完成时，解码器120可从扩展的/生成的候选单词序列选择预定数量的概率值大的候选单词序列，并从未来的搜索范围去除其他的候选单词序列。

图2是示出预测跟随单词序列的单词的词类概率分布的处理的示例的示图。在这个示例中，词类预测模型被假定为实现的基于RNN的模型以预测词类概率分布。

预测器110使用之前构造的词类预测模型预测跟随单词序列“How do I get to”的下一单词的词类概率分布。即，当预测器110在时间t5接收“to”时，预测器110使用之前构造的词类预测模型来预测跟随候选单词序列“How do I get to”的下一单词的词类概率分布。在示出的示例中，跟随“How do I get to”的下一单词的词类概率中，所有格为0.2、位置名为0.4，人名为0.3。在这个示例中，位置名0.4的概率为最高的概率。

图3是示出基于词性调整候选单词序列的概率值的处理的示例以及示出在语音识别处理中在特定时间点(t4)的快照的示例的视图。在这个示例中，如所示出的，假定解码器120已生成与从t1到t3的时间的语音信号对应的候选单词序列“I’m going to”。

在示出的示例中，因为根据上下文，动词高度可能作为跟随“I’m going to”的下一单词出现，所以预测器110基于候选单词序列“I’m going to”将动词预测为跟随“I’mgoing to”的单词的词类。预测器110可基于单词序列使用之前已被构造为预测跟随单词序列的单词的词类的词类预测模型。

解码器120基于声学模型、发音词典和语言模型搜索作为跟随候选单词序列“I’mgoing to”的下一单词出现的候选单词“meet”、“meat”和“minjung”，并在时间点t4扩展候选单词序列“I’m going to”以生成扩展的候选单词序列“I’m going to meet”、“I’mgoing to meat”和“I’m going to minjung”。

然后，解码器120在候选单词“meet”、“meat”和“minjung”之中增加属于动词词类的“meet”的概率值以增加“I’m going to meet”的概率值。

图4是示出通过应用个性化的信息调整候选单词序列的概率值的处理的示例并且示出在语音识别处理中在特定时间点(t5)的快照的示例的示图。在这个示例中，如所示出的，假定解码器120已生成与从t1到t4的时间上的语音信号对应的候选单词序列“I’mgoing to meet”。

在示出的示例中，因为根据上下文，人名高度可能作为“I’m going to meet”后的下一单词出现，所以预测器110基于候选单词序列“I’m going to meet”预测人名作为跟随“I’m going to meet”的单词的词类。预测器110可基于单词序列使用之前已被构造为预测跟随单词序列的单词的词类的词类预测模型。

解码器120基于声学模型、发音词典和语言模型搜索作为跟随候选单词序列“I’mgoing to meet”的下一单词出现的候选单词“heejong”、“heeja”、“minjung”和“heejung”，并在时间点t5扩展候选单词序列“I’m going to meet”以生成扩展的候选单词序列“I’mgoing to meet heejong”、“I’m going to meet heeja”、“I’m going to meet minjung”和“I’m going to meet heejung”。

然后，解码器120搜索与人名有关的个性化的语言模型(PLM)，在候选单词“heejong”、“heeja”、“minjung”和“heejung”之中增加在个性化的语言模型(PLM)中发现的“heejung”的概率值，并增加“I’m going to meet heejung”的概率值。

图5是示出基于预测的词类概率分布调整候选单词序列的概率值的处理的示例以及示出在语音识别处理中在特定时间点(t9)的快照的示例的示图。在这个示例中，如在图5中所示，假定解码器120已生成与从t1到t8的时间中的语音信号对应的候选单词序列“Iwant to make a call to David’s”和“I want to make a call to David”。

预测器110基于候选单词序列“I want to make a call to David’s”预测跟随候选单词序列“I want to make a call to David’s”的单词的词类概率分布，并基于候选单词序列“I want to make a call to David”预测跟随候选单词序列“I want to make acall to David”的单词的词类概率分布。在示出的示例中，预测器110预测名词为0.8以及所有格为0.1，以作为作为跟随候选单词序列“I want to make a call to David’s”的下一单词的单词的词类概率，并预测动词为0.01、人名为0.5和所有格为0.3，以作为作为跟随候选单词序列“I want to make a call to David”的下一单词的单词的词类概率。

然后，解码器120基于声学模型、发音词典和语言模型在时间点t9搜索作为跟随候选单词序列“I want to make a call to David’s”的下一单词出现的候选单词“office”(概率值0.3)和作为跟随候选单词序列“I want to make a call to David”的下一单词出现的候选单词“is”(概率值0.6)，并通过使用已被搜索的候选单词扩展各自的候选单词序列来生成扩展的候选单词序列“I want to make a call to David’s office”和“I wantto make a call to David is”。

然后，解码器120用名词类概率值0.8乘“office”的概率值0.3以将扩展的候选单词序列“I want to make a call to David’s office”的概率值调整为0.24，并用动词类概率值0.01乘以“is”的概率值0.6以调整扩展的候选单词序列“I want to make a callto David is”的概率值为0.006。

图6是示出语音识别设备的另一示例的框图。

参照图6，与在图1中的语音识别设备100相比，在图6中的语音识别设备600还包括：词类预测模型存储单元610、声学模型存储单元620、发音词典存储单元630、语言模型存储单元640、个性化的语言模型存储单元650、输入单元660、特征矢量提取器670和输出单元680。

词类预测模型存储单元610存储词类预测模型，声学模型存储单元620存储声学模型，发音词典存储单元630存储发音词典，语言模型存储单元640存储语言模型，个性化的语言模型存储单元650存储个性化的语言模型。

在一个示例中，词类预测模型存储单元610、声学模型存储单元620、发音词典存储单元630、语言模型存储单元640和个性化的语言模型存储单元650包括：闪存、硬盘、多媒体卡(MMC)、微型多媒体卡、存储器卡(例如，SD存储器卡或XD存储器卡)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘、光盘中的任何一个或者任何两个或更多个的任何组合作为存储器介质。

尽管存储单元610至650在示出的示例中被显示为分离的组件，但是存储单元610至650可被集成为一个存储单元。

输入单元660接收用户语音信号。为达到这个目的，输入单元660可包括(例如)麦克风。

特征矢量提取器670将输入语音信号划分为单元帧，并提取与划分的输入语音信号的部分对应的特征矢量。

在一个示例中，特征矢量提取器670通过声音活动检测(VAD)从输入语音信号检测语音部分，并在检测的语音部分中从语音信号提取语音的特征以获得适合于语音识别的信息。在一个示例中，特征矢量提取器670针对每一单元帧计算语音信号的频率特性以提取包括在语音信号中的特征矢量。为了达到这个目的，特征矢量提取器670可包括将模拟语音信号转换为数字语音信号的模数(A/D)转换器，并且可将数字语音信号划分为大约10ms的单元帧并处理该信号。

特征矢量提取器670可使用梅尔频率倒频谱系数(MFCC)特征提取方案提取特征矢量。在梅尔频率倒频谱系数(MFCC)特征提取方案中，可使用以一阶微分或二阶微分的组合的形式的梅尔倒频谱系数、对数能量和特征矢量。

此外，特征矢量提取器670可使用诸如线性预测编码(LPC)、LPC导出的倒频谱、感知线性预测(PLP)、音频模型特征提取或滤波器组的方法以提取单元帧区域中的语音信号的特征。

输出单元680输出语音识别结果。在一个示例中，输出单元680以可听的方式或可视的方式输出语音识别结果。为了达到这个目的，输出单元680可包括(例如)：扬声器或显示器。显示器可包括(例如)：液晶显示器、薄膜晶体管液晶显示器、有机发光二极管、柔性显示器、三维显示器(3D显示器)或者眼镜式显示器(例如，头戴式显示器(HMD)、面部安装的显示器(face-mounted display，FMD)、眼部安装的显示器(eye-mounted display，EMD)或眼镜显示器(EGD))。

图7是示出词类预测模型生成设备的示例的框图。

参照图7，词类预测模型生成设备700包括：训练数据采集器710和模型生成器720。

训练数据采集器710采集包括多个单词序列和多个与各自的单词序列对应的类序列的训练数据。

训练数据采集器710采集训练数据的方法没有特定的限制。也就是，训练数据采集器710能简单地从外部装置接收和采集多个单词序列和多个与每一单词序列对应的类序列，或者能从外部装置接收多个单词序列并使用词典或其他资源通过命名的实体识别方案或词性标记方案生成与每一单词序列对应的类序列。

模型生成器720基于采集的训练数据通过机器学习生成词类预测模型。机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯处理回归、线性判决分析、k最近邻(k-NN)算法、感知机、径向基函数网络、支持向量机(SVM)或深度学习(例如，递归神经网络(RNN))。

将参照图8详细描述生成词类预测模型的方法。

图8是示出生成词类预测模型的方法的示例的示图。在这个示例中，词类预测模型被假定为对序列模式学习有效的基于RNN的模型。模型生成器720在每一时间点使用作为RNN的输入或目标的下一单词的单词和词类训练RNN。在这个示例中，输入和目标可被表示为独热(one-hot)矢量。例如，输入被表示为具有单词的位置值为1且其他值为0的词典的大小的独热矢量，目标被表示为具有类的位置值为1且其他值为0的将被处理的类的大小的独热矢量。

参照图8，模型生成器720在时间点t1使用作为输入的指示单词序列的开始的单词“<s>”和作为目标的第一单词的词类“副词”来训练RNN。

然后，模型生成器720在时间点t2使用作为输入的第一单词“how”和作为目标的第二单词的词类“动词根”来训练RNN。

模型生成器720在时间点t3至时间点t5之间的每一时间点以这样的方式训练RNN，并在时间点t6使用作为输入的第五单词“to”和作为目标的第六单词的词类“位置名”来训练RNN。

模型生成器720以这样的方式学习多个训练数据项，并生成词类预测模型。

图9是示出语音识别方法的示例的流程图。

参照图1至图9，语音识别设备100基于之前已被搜索的候选单词序列预测跟随之前已被搜索的候选单词序列的单词的词类(910)。例如，语音识别设备100使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。可基于单词序列实现词类预测模型，以预测跟随单词序列的单词的词类或词类概率分布。例如，词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类，或者可使用(例如)命名的实体识别方案或词性标记方案通过机器学习来构造并被实现为预测词类概率分布。也就是，语音识别设备100可使用以规则集的形式构造的词类预测模型来预测词类，或者可使用通过机器学习构造的词类预测模型来预测词类概率分布，然后基于预测的词类概率分布预测词类。

语音识别设备100搜索与语音信号对应的候选单词(920)。例如，语音识别设备100使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。在这个示例中，发音词典和语言模型可以以加权有限状态转换器(WFST)的形式在数据结构中被构造。在这个示例中，语音识别设备100基于WFST搜索与语音信号对应的可能的单词序列。

语音识别设备100使用已被搜索的候选单词扩展之前已被搜索的候选单词序列(930)。例如，语音识别设备100添加高度可能作为跟随候选单词序列(也就是，已被搜索的候选单词)的下一单词出现的单词，以跟随候选单词序列来逐步扩展候选单词序列。

语音识别设备100基于预测的词类调整扩展的候选单词序列的概率值(940)。

在一个示例中，语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的候选单词的概率值，调整扩展的候选单词序列的概率值。

在另一示例中，语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值，调整扩展的候选单词序列的概率值。

在另一示例中，语音识别设备100在属于该类的候选单词的概率值中反映每一预测的词类的概率值，以调整扩展的候选单词序列的概率值。

图10是示出语音识别方法的另一示例的流程图。

参照图1至图10，语音识别设备100接收语音信号(1010)，并搜索与语音信号对应的候选单词(1020)。例如，语音识别设备100使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。在这个示例中，发音词典和语言模型可以以加权有限状态转换器(WFST)的形式在数据结构中被构造。在这个示例中，语音识别设备100基于WFST搜索与语音信号对应的可能的单词序列。

语音识别设备100使用已被搜索的候选单词扩展之前已被搜索的候选单词序列(1030)。例如，语音识别设备100添加高度可能作为之前识别的候选单词序列的下一单词出现的单词，以跟随候选单词序列来逐步扩展候选单词序列。

语音识别设备100计算扩展的候选单词序列的概率值(1040)。例如，语音识别设备100使用声学模型和语言模型计算扩展的候选单词序列的概率值。

语音识别设备100基于之前已被搜索的候选单词序列，预测跟随之前已被搜索的候选单词序列的单词的词类(1050)。例如，语音识别设备100使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。在这个示例中，词类预测模型可基于单词序列被实现以预测跟随单词序列的单词的词类或词类概率分布。例如，词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类，或者可使用(例如)命名的实体识别方案或词性标记方案通过机器学习被构造并被实现为预测词类概率分布。也就是，语音识别设备100可使用以规则集的形式构造的词类预测模型预测词类，或者可使用通过机器学习构造的词类预测模型预测词类概率分布，然后基于预测的词类概率分布预测词类。

语音识别设备100基于预测的词类调整扩展的候选单词序列的概率值(1060)。

在另一示例中，语音识别设备100通过在属于类的候选单词的概率值中反映每一预测的词类的概率值，调整扩展的候选单词序列的概率值。

语音识别设备100确定语音识别是否被完成(1070)，并且如果语音识别被完成，则输出具有最大概率值的候选单词作为语音识别结果(1080)。

如果语音识别结果没有被完成，则语音识别设备100选择预定数量的概率值大的候选单词序列，并从未来的搜索范围去除其他候选单词序列(1090)。

语音识别设备100可在已被搜索的候选单词之中通过删减不属于预测的词类的单词，减少未来的搜索范围。换句话说，语音识别设备100可在已被搜索的候选单词之中去除不属于预测的单词的未来的搜索目标单词。

图11是示出生成词类预测模型的方法的示例的流程图。

参照图7和图11，词类预测模型生成设备700采集包括多个单词序列和多个与各自的单词序列对应的类序列的训练数据(1110)。

词类预测模型生成设备700基于采集的训练数据通过机器学习生成词类预测模型(1120)。在这个示例中，机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯处理回归、线性判决分析、k最近邻(k-NN)算法、感知器、径向基函数网络、支持向量机(SVM)或深度学习(例如，递归神经网络(RNN))。因为词类预测模型生成设备700生成词类预测模型的特定方法与上面参照图8的描述的方法相同，所以它们的详细描述将参照图11被省略。

通过被配置为执行由硬件组件所执行的在本申请中描述的操作的硬件组件，实施执行在本申请中描述的操作的图1至图6中的预测器110、图1和图6中的解码器120、图6中的词类预测模型存储器单元610、声学模型存储器单元620、发音词典存储器单元630、语言模型存储器单元640、个性化的语言模型存储器单元650、输入单元660、特征矢量提取器670和输出单元680，以及图7中的训练数据采集器710和模型生成器720。可用于执行在本申请中的适当位置描述的操作的硬件组件的示例包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和任何其他被配置为执行在本申请中描述的操作的电子组件。在其他示例中，一个或多个执行在本申请中描述的操作的硬件组件通过计算机硬件(例如，通过一个或多个处理器或计算机)实施。处理器或计算机可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元)、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编辑门阵列、可编程逻辑阵列、微处理器或任何其他被配置为以定义的方式响应并执行指令去实现期望的结果的装置或装置的组合被实施。在一个示例中，处理器或计算机包括或被连接到，一个或多个存储有被处理器或计算机执行的指令或软件的存储器。被处理器和计算器实施的硬件组件可执行指令或软件(诸如操作***(OS)和运行在OS中的一个或多个软件应用)来执行在本申请中描述的操作。响应于指令或软件的执行，硬件组件还可访问、操纵、处理、生成和存储数据。为了简明，单数术语“处理器”或“计算机”可用于在本申请中描述的示例的描述中，但在其他示例中，多处理器或多计算机可被使用，或者一个处理器或计算机可包括多处理器元件或多种类型的处理器元件或者两者均有。例如，单个硬件组件或两个或更多个硬件组件可通过单个处理器或者两个或更多个处理器或者一个处理器和控制器实施。一个或多个硬件组件可通过一个或多个处理器，或者一个处理器和一个控制器实施，并且一个或多个其他硬件组件可通过一个或多个其他处理器，或者另一处理器和另一控制器实施。一个或多个处理器，或者一个处理器和一个控制器可实施单个硬件组件，或者两个或更多个硬件组件。硬件组件可具有任何一个或多个不同的处理配置，其示例包括：单处理器、独立的处理器、并行处理器、单指令单数据(SISD)多重处理、多指令单数据(MISD)多重处理、单指令多数据(SIMD)多重处理以及多指令多数据(MIMD)多重处理。

图9至图11中示出的执行在本申请中描述的操作的方法由如上描述的那样被实施为执行指令或软件以执行所述方法所执行的在本申请中描述的操作的计算机硬件(例如，一个或多个处理器或计算机)执行。例如，单个操作或者两个或更多个操作可通过单处理器或者两个或更多个处理器，或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器，或者处理器和控制器来执行，且一个或多个其他操作可通过一个或多个其他处理器，或者另一处理器和另一控制器来执行。一个或多个处理器，或者处理器和控制器，可执行单个操作，或者两个或更多个操作。

为了单独地或共同地指示或配置一个或多个处理器或计算机来作为机器或专用计算机执行被如上面所描述的硬件组件和方法所执行的操作，用于控制计算机硬件(例如，一个或多个处理器或计算机)以实施硬件组件并执行如上面所描述的方法的指令或软件可被写为计算机程序、代码段、指令或它们的任意组合。在一个示例中，指令或软件包括直接被一个或多个处理器或计算机执行的机器代码(诸如，被编译器产生的机器代码)。在另一示例中，指令或软件包括被一个或多个处理器或计算机使用解释器执行的高级代码。指令或软件可基于公开了用于执行被如上所述的硬件组件和方法执行的操作的算法的在附图中示出的框图和流程图和说明书的相应描述使用任意编程语言被编写。

用于控制计算机硬件(例如，一个或多个处理器或计算机)以实施硬件组件并执行如上所述的方法的指令或软件、以及任何相关的数据、数据文件以及数据结构可被记录、存储或安装在一个或多个非暂时计算机可读存储介质中或上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-Re、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、和被配置为以非暂时方式存储指令或软件、以及任何相关的数据、数据文件以及数据结构，并向一个或多个处理器或计算机提供指令或软件、以及任何相关的数据、数据文件以及数据结构以便所述一个或多个处理器和计算机能够执行指令的任何其他设备。在一个示例中，指令或软件、以及任何相关数据、数据文件以及数据结构分布在联网的计算机***上，以便指令和软件、以及任何相关的数据、数据文件以及数据结构被一个或多个处理器或计算机以分布式方式存储、访问和执行。

尽管本公开包括特定的示例，但是在不脱离权利要求和它们的等同物的精神和范围的情况下可在这些示例中做出形式和细节上各种改变，在对本申请的公开的理解后将是清楚的。在此描述的示例被认为仅是描述性的，而非为了限制的目的。在每一示例中的特征和方面的描述将被认为适用于其他示例中的相似特征和方面。如果描述的技术以不同的顺序被执行，和/或如果在描述的***、架构、装置、或电路中的组件以不同的方式组合，和/或被其他组件或者它们的等同物代替或增补，可实现合适的结果。因此，公开的范围不是通过具体实施方式所限定，而是由权利要求和它们的等同物限定，并且在权利要求和它们的等同物的范围内的所有变化将被解释为被包括在该公开之内。

Claims

1.一种语音识别设备，包括：

预测器，被配置为基于之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类概率分布；

解码器，被配置为搜索与语音信号和跟随所述之前已被搜索的单词序列的单词对应的候选单词，并使用已被搜索的候选单词扩展所述之前已被搜索的单词序列，

其中，使用已被搜索的候选单词扩展所述之前已被搜索的单词序列的处理包括：

计算与跟随所述之前已被搜索的单词序列的单词对应的候选单词的概率值；

通过预测的词类概率分布和个性化的语言模型，调整候选单词的概率值；

输出扩展单词序列，扩展单词序列包括所述之前已被搜索的单词序列和具有调整的概率值之中的最高的调整的概率值的候选单词。

2.如权利要求1所述的语音识别设备，其中，词类为实体名或词性；

实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。

3.如权利要求1所述的语音识别设备，其中，预测器还被配置为：基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类，

解码器还被配置为：基于预测的词类调整扩展的单词序列的概率值。

4.如权利要求3所述的语音识别设备，其中，词类预测模型基于词典和语法以规则集的形式被构造，或者使用命名的实体识别方案和词性标注方案中的任何一个或两者通过机器学习被构造。

5.如权利要求3所述的语音识别设备，其中，词类预测模型为基于递归神经网络RNN的模型。

6.如权利要求1所述的语音识别设备，其中，解码器还被配置为：使用以加权有限状态转换器WFST的形式在数据结构中构造的发音词典和语言模型来搜索候选单词。

7.如权利要求3所述的语音识别设备，其中，解码器还被配置为：从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。

8.如权利要求3所述的语音识别设备，其中，解码器还被配置为：在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。

9.如权利要求3所述的语音识别设备，其中，解码器还被配置为：在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。

10.如权利要求3所述的语音识别设备，其中，预测器还被配置为：使用词类预测模型预测跟随所述之前已被搜索的单词序列的单词的词类；解码器还被配置为：通过用每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值，调整每一候选单词的概率值。

11.一种语音识别方法，包括：

基于之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类概率分布；

搜索与语音信号和跟随所述之前已被搜索的单词序列的单词对应的候选单词；

使用已被搜索的候选单词扩展所述之前已被搜索的单词序列，

其中，使用已被搜索的候选单词扩展所述之前已被搜索的单词序列的步骤包括：

12.如权利要求11所述的语音识别方法，其中，词类为实体名或词性；

13.如权利要求11所述的语音识别方法，还包括：基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类；

基于预测的词类调整扩展的单词序列的概率值。

14.如权利要求13所述的语音识别方法，其中，词类预测模型基于词典和语法以规则集的形式被构造，或者使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。

15.如权利要求13所述的语音识别方法，其中，词类预测模型为基于递归神经网络RNN的模型。

16.如权利要求11所述的语音识别方法，其中，所述搜索候选单词的步骤包括：使用以加权有限状态转换器WFST的形式在数据结构中构造的发音词典和语言模型搜索候选单词。

17.如权利要求13所述的语音识别方法，还包括：从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。

18.如权利要求13所述的语音识别方法，其中，所述调整扩展的单词序列的概率值的步骤包括：在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。

19.如权利要求13所述的语音识别方法，其中，所述调整扩展的单词序列的概率值的步骤包括：在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。

20.如权利要求13所述的语音识别方法，其中，所述预测词类的步骤包括：使用词类预测模型预测跟随所述之前已被搜索的单词序列的单词的词类；

所述调整扩展的单词序列的概率值的步骤包括：通过用每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值，调整每一候选单词的概率值。

21.一种语音识别设备，包括：

解码器，被配置为搜索与语音信号和跟随所述之前已被搜索的单词序列的单词对应的多个候选单词，并将候选单词添加到所述之前已被搜索的单词序列，

其中，将候选单词添加到所述之前已被搜索的单词序列的处理包括：

计算与跟随所述之前已被搜索的单词序列的单词对应的所述多个候选单词的概率值；

通过预测的词类概率分布和个性化的语言模型，调整所述多个候选单词的概率值；

将具有调整的概率值之中的最高的调整的概率值的候选单词添加到所述之前已被搜索的单词序列。

22.如权利要求21所述的语音识别设备，其中，预测器还被配置为：基于所述之前已被搜索的单词序列预测多个词类的各自的概率；

解码器还被配置为：基于所述多个词类的预测的概率将单词添加到所述之前已被搜索的单词序列。

23.如权利要求22所述的语音识别设备，其中，预测器还被配置为：基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类；

解码器还被配置为：将属于在所述多个词类之中具有最高概率的词类的单词添加到所述之前已被搜索的单词序列。

24.如权利要求22所述的语音识别设备，其中，预测器还被配置为：基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类；

解码器还被配置为：基于所述多个候选单词的各自的概率和所述多个词类的预测的概率确定是否将所述多个候选单词中的一个候选单词添加到所述之前已被搜索的单词序列。

25.如权利要求21所述的语音识别设备，其中，预测器还被配置为：基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类；

解码器还被配置为：基于预测的词类确定是否将候选单词添加到所述之前已被搜索的单词序列。

26.一种存储当由处理器执行时导致处理器执行权利要求11所述的语音识别方法的指令的计算机可读存储介质。