CN103680498A

CN103680498A - 一种语音识别方法和设备

Info

Publication number: CN103680498A
Application number: CN201210363804.9A
Authority: CN
Inventors: 刘长娥; 张德明
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-09-26
Filing date: 2012-09-26
Publication date: 2014-03-26
Also published as: EP2860727A4; US20150134332A1; US9368108B2; WO2014048113A1; EP2860727A1

Abstract

本发明实施例公开了一种语音识别方法和设备，其中方法包括：获取用户指定的文本文件，并按照预定规则从文本文件中提取命令词得到命令词列表；将命令词列表与命令词库相比较，确认命令词列表中是否包含新命令词，所述新命令词为命令词列表中包含而命令词库中不包含的命令词；如果命令词列表中包含新命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；将新语言模型合并到与命令词库对应的语言模型库中；接收语音，根据与命令词库对应的声学模型、发声词典和语言模型库进行语音识别。以上方案，采用在线获取的命令词和在线内容紧密相关，所以命令词数量有限，远远小于常用词汇的数量，在保证命令词的高识别率并且模型文件较小。

Description

一种语音识别方法和设备

技术领域

本发明涉及电学技术领域，特别涉及一种语音识别方法和设备。

背景技术

人类利用语言相互交流信息，语言包括：语音和文字两种表现方式。通过语音相互传递信息，是人类最重要的基本功能之一。随着信息技术的发展，人与机器之间也需要进行大量的信息交换，目前计算机已经开始模拟人类交流信息的过程。

人类交流信息的过程包括：1、自然语言生成：将大脑产生的思想转换成语言；2、语音合成：将语言转换成语音；3、语音识别：识别表达语言的语音内容；4、自然语言理解：理解语音所表达的语言意义。其中前两点是说者执行过程，后两点是听者执行过程。其中，语音识别是上述过程中的“识别表达语言的语音内容”，对于设备而言就是：识别人类所说的语音，并将其转化成文字。以下将就几个方面对语音识别进行说明。

一、设备语音识别基本原理：

语音识别是一种模式识别***，语音识别包含如下步骤：

1、语言输入；

2、预处理；

3、特征提取，作为两个分支分别进入4的训练类聚以及5~7的识别操作；

4、训练类聚得到模板库；

5、使用模板库的参考模式执行相似度比较；

6、执行识别过程中对5中结果进行失真检测，然后进入7；

7、输出识别结果。

其中，预处理部分包括语音信号的采样、滤波等处理，特征提取的作用是从语音信号中提取出几组能描述其信号特征的参数，如能量、共振峰、倒谱系数等，以便于训练和识别。建立语音识别***的过程是，先用大量语音进行训练得到模板库，然后读取模板库的模板，和待识别语音进行相似度比较，得到识别结果。

以下对本申请文件提到的名词说明如下：

训练（Training）：预先分析出语音特征参数，制作语音模板（Template）并存放在语音参数库中，模板也可以叫做模型，主要有两种模型：声学模型（AM，acoustic model）和语言模型（LM，language model）。声学模型用以从声音信号中识别出“音”，而语言模型用以把音转换成“字”。

识别（Recognition）：待识语音经过与训练时相同的分析，得到语音参数，将它与库中的参考模板一一比较，并采用判决的方法找出最接近语音特征的模板，得出识别结果，这里的识别结果表现为文字的形式。

失真测度（Distortion Measures）：在进行比较时要有个标准，这就是计量语音特征参数矢量之间的“失真测度”。失真测度是语音识别过程中的比较，失真测度的计算公式有多种，例如：计算语音特征参数矢量之间的距离，更具体地：语音特征参数矢量A(x1,y1)和语音特征参数矢量B（x2,y2）间的失真测度

D = \sqrt{{(x 1 - x 2)}^{2} + (y 1 - y 2)} .

主要识别框架：基于模式匹配的动态时间规整法（DTW，Dynamic TimeWarping）和基于统计模型的隐马尔柯夫模型法（HMM，Hidden MarkovModel）。

二、语音识别的模型：

声学模型用以从声音信号中识别出“音”，而语言模型用以把音转换成“字”。

统计语音识别的最基本问题是，给定输入信号或特征序列O={O1,O2，...,On}，和词汇表V={w1,w2,…,wL}，从V中任意选择M个词构成词序列W=(w1,w2，...,wM)，求解对应特征序列O的词序列W*，使得：

W^{*} = \arg \max \underset{W}{P} (W | O)

根据贝叶斯公式，上式可写成：

W^{*} = \underset{W}{\arg \max} \frac{P (O | W) P (W)}{P (O)}

其中P(O|W)为声学模型，P(W)为语言模型，由此可见，这两个模型是自动语音识别技术（ASR，Automatic Speech Recognition）的根本。

从以上可以看到，声学模型是从特征序列到词序列的概率，需要得到大量语音数据以及对应的文本数据进行训练，得到每个词的声学模型。然而，无论在哪个语言中，词的个数都是很多的，由此导致词的声学模型数量巨大，而且也会引起识别过程中的计算量过大、时间过长。为了解决这个问题，人们想到，词是由音素（phone）构成，音素是最小发音单位，例如，汉语里的声母、韵母，英语里的音节，而音素的数据量相对很小，例如，英语约为60个。以音素为单位建立声学模型可以很好地解决问题，另一个好处是，音素的数量是固定的，当词汇表的内容变化时，不需要重新声学模型。

对于以音素为单位的声学模型，需要同时对应一个发音词典，词典里列出了词汇表里每个词的发音，对于中文则是每个词的拼音标注，例如，“中国zh ong g uo”。

语言模型是词序列本身的概率，可以分解为多个两词或三词依次出现的概率的乘积：

双词文法：每个词Wi的出现只受其前方的词Wi-1的影响：

P (W) = Π_{i = 1}^{M} P (W_{i} | W_{i - 1})

三词文法：每个词Wi的出现只受其前方的词Wi-1的影响：

P (W) = Π_{i = 1}^{M} P (W_{i} | W_{i - 2}, W_{i - 1})

可以根据需要分解为更多词的文法。语言模型的训练只需要文本数据，从中统计双词或多词出现的概率。需要注意的是，文本数据必须足以覆盖词汇表里的所有词汇，且当词汇表的内容变化时，语言模型需要不断更新，以涵盖词汇表内所有的词汇。

综上上述，一个语音识别***模型训练时需要的输入有：音素集合、词汇表和发音词典；识别时需要的输入有：发音词典、声学模型和语言模型。

三、语音识别的识别率影响因素

识别率定义为输入的语音被正确识别的百分比。识别率影响因素包括以下几个方面：

（1）词表大小

从10个词识别出一个词的正确率远大于从1000个词里认出一个词的正确率，词表越大意味着可能性越多，相似的声学和语言学内容越多，也就是音易混（acoustic confusability）和词易混（linguistic confusibility）越大，因此大词表的语音识别率较低，提高识别率的难度大。

acoustic confusability：

Chang ting长亭

Cheng qing澄清

linguistic confusability：

Shang /hai nan上海南

Shang hai/nan men上海南门

（2）特定领域的语音识别

在特定领域里，语言的语法规则相对固定，因此linguistic confusibility相对较小，识别难度相对较低。

（3）噪声

一方面，噪声降低了语音的可懂度，另一方面，噪声环境下人的发音变化很大，像声音变高，语速变慢，音调等等。

（4）训练数据量

要为每个状态的训练提供足够的数据，词表越大，所需数据量越大。对数据不够的状态，训练程序会采用tie的方法将一些状态聚集到一起，用相同的数据去训练，***识别率会受到一定影响。

四、语音命令***

语音命令***指通过语音命令识别获得文字、并根据文字执行命令指定的动作满足用户的需求的一套设备或***。语音命令是指用户用语音来作为控制的接口，例如，用户输入语音“打开收音机”来控制收音机的打开。语音命令识别将语音命令转换成文字，隶属于语音识别的一种。

用户希望***可以识别特定的语音命令集，那么需要其提供一个命令词列表，同时提供对应的发音词典，***将命令词表作为词汇表，训练出和命令词列表对应的语言模型。声学模型采用音素为单位，它的训练和用户没有关联，只需利用语音数据库进行训练。设备读入发音词典、声学模型以及语言模型；然后，设备接受用户输入的语音命令并执行语音识别，依据识别结果执行相应操作。

上述方案需要用户预置语音命令列表和发音词典。基于语音命令列表和语言模型训练出语言模型，训练过程完成后；可识别的语音命令列表、发音词典和语言模型是固定的；在进入识别过程后语音命令列表、发音词典和语言模型便不会更改。若需要更改命令词列表，则需要中止识别过程，重新开始训练过程。因此一般会提供很大的语音命令词列表和发音词典，用以训练语言模型。

发明内容

本发明实施例提供了一种语音识别方法和设备，用于在线更新发音辞典和语音模型，保证命令词的高识别率、提高***识别速度和减小响应时间以及模型文件规模。

本发明实施例一方面提供了一种语音识别方法，包括：

获取用户指定的文本文件，并按照预定规则从文本文件中提取命令词得到命令词列表；

将命令词列表与命令词库相比较，确认命令词列表中是否包含新命令词，所述新命令词为命令词列表中包含而命令词库中不包含的命令词；

如果命令词列表中包含新命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；

将新语言模型合并到与命令词库对应的语言模型库中；

接收语音，根据与命令词库对应的声学模型、发声词典和语言模型库进行语音识别。

结合一方面的实施方式，在第一种可能的实施方式中，所述获取用户指定的文本文件包括：从用户输入的指定地址获取文本文件，或者，获取用户输入的文本文件。

结合一方面的实施方式，在第二种可能的实施方式中，所述按照预定规则从文本文件中提取命令词得到命令词列表包括：

读取文本文件的内容，并对其进行分词；然后按照预定规则从分词结果中选择命令词得到命令词列表。

结合一方面的实施方式、第一种可能的实施方式中或第二种可能的实施方式，在第三种可能的实施方式中，所述方法还包括：

通过所述语音识别获得语音识别的结果，确定所述语音识别的结果是否为预设标志命令词；

若所述语音识别的结果为预设标志命令词，则获取所述预设标志命令词对应的文本文件；否则执行语音识别的结果对应的操作。

结合一方面的实施方式、第一种可能的实施方式中或第二种可能的实施方式，在第四种可能的实施方式中，在语音识别完成后，所述方法还包括：

确定所述用户指定的文本文件是否发生变化；若所述用户指定的文本文件发生变化，则获取发生变化后的文本文件；否则执行语音识别的结果对应的操作。

本发明实施例在第二方面提供了一种语音识别方法，包括：

接收语音，并依据与命令词库对应的声学模型、发声词典和语言模型库进行语音识别得到语音识别的结果；

若语音识别的结果为预设标志命令词，则获取所述预设标志命令词对应的文本文件；若语音识别的结果不是预设标志命令词，则执行语音识别的结果对应的操作；

按照预定规则从所述预设标志命令词对应的文本文件中提取命令词得到命令词列表；

如果命令词列表中包含新的命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；将新语言模型合并到与命令词库对应的语言模型库中。

结合第二方面的实施方式，在第一种可能的实施方式中，所述获取所述预设标志命令词对应的文本文件包括：从所述预设标志命令词对应的地址获取文本文件，或者，获取所述预设标志命令词对应的用户输入的文本文件。

本发明实施例在第三方面提供了一种语音识别设备，其特征在于，包括：

文本获取单元，用于获取用户指定的文本文件；

列表生成单元，用于按照预定规则从文本获取单元获取的文本文件中提取命令词得到命令词列表；

确定单元，用于将列表生成单元得到的命令词列表与命令词库相比较，确认命令词列表中是否包含新命令词，所述新命令词为命令词列表中包含而命令词库中不包含的命令词；

训练生成单元，用于如果确定单元确定结果为：命令词列表中包含新命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；将新语言模型合并到与命令词库对应的语言模型库中；

语音接收单元，用于接收语音；

识别单元，用于根据与命令词库对应的声学模型、发声词典和语言模型库对语音接收单元接收的语音进行语音识别。

结合第三方面的实施方式，在第一种可能的实施方式中，所述文本获取单元，具体用于获取用户指定的文本文件包括：从用户输入的指定地址获取文本文件，或者，获取用户输入的文本文件。

结合第三方面的实施方式，在第二种可能的实施方式中，所述列表生成单元，具体用于读取文本文件的内容，并对其进行分词；然后按照预定规则从分词结果中选择命令词得到命令词列表。

结合第三方面的实施方式、第一种可能的实施方式中或第二种可能的实施方式，在第三种可能的实施方式中，所述确定单元，还用于在识别单元进行语音识别完成后，确定语音识别的结果是否为预设标志命令词；

所述文本获取单元，还用于若确定单元确定结果为预设标志命令词，则获取所述预设标志命令词对应的文本文件；

执行单元，用于若确定单元确定结果为不是预设标志命令词，则执行语音识别的结果对应的操作。

结合第三方面的实施方式、第一种可能的实施方式中或第二种可能的实施方式，在第四种可能的实施方式中，所述确定单元，还用于在语音识别完成后，确定所述用户指定的文本文件是否发生变化；

所述文本获取单元，还用于若确定单元确定所述用户指定的文本文件发生变化，则获取发生变化后的文本文件；

执行单元，用于若确定单元确定所述用户指定的文本文件未发生变化，则执行语音识别的结果对应的操作。

本发明实施例在第四方面提供了一种语音识别设备，包括：

语音接收单元，用于接收语音；

识别单元，用于依据与命令词库对应的声学模型、发声词典和语言模型库对语音接收单元接收的语音进行语音识别得到语音识别的结果；

确定单元，用于确定识别单元得到的语音识别的结果是否为预设标志命令词；

文本获取单元，用于若确定单元确定语音识别的结果为预设标志命令词，则获取所述预设标志命令词对应的文本文件；

执行单元，用于若确定单元确定语音识别的结果不是预设标志命令词，则执行语音识别的结果对应的操作；

列表生成单元，用于按照预定规则从所述预设标识命令词对应的文本文件中提取命令词得到命令词列表；

所述确定单元，还用于将将列表生成单元得到的命令词列表与命令词库相比较，确认命令词列表中是否包含新命令词，所述新命令词为命令词列表中包含而命令词库中不包含的命令词；

训练生成单元，用于如果确定单元确定命令词列表中包含新命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；将新语言模型合并到与命令词库对应的语言模型库中。

结合第四方面的实施方式，在第一种可能的实施方式中，所述文本获取单元，具体用于若确定单元确定语音识别的结果为预设标志命令词，则从所述预设标志命令词对应的地址获取文本文件，或者，获取所述预设标志命令词对应的用户输入的文本文件。

从以上技术方案可以看出，本发明实施例具有以下优点：无需用户提前定义命令词列表和发音词典，通过检测命令词的变化，来更新命令词列表，并且无需离线更新发音词典和语言模型，在识别的过程中即可在线更新。由于在线获取的命令词和在线内容紧密相关，所以命令词数量有限，远远小于常用词汇的数量，例如，远远小于中文常用词汇量（大约50000词），所以可以保证命令词的高识别率、***识别速度高和较短的响应时间并且模型文件较小。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本发明实施例方法流程示意图；

图1B为本发明实施例另一方法流程示意图；

图2A为本发明实施例另一方法流程示意图；

图2B为本发明实施例另一方法流程示意图；

图3为本发明实施例另一方法流程示意图；

图4为本发明实施例另一方法流程示意图；

图5为本发明实施例设备结构示意图；

图6为本发明实施例另一设备结构示意图；

图7为本发明实施例另一设备结构示意图；

图8为本发明实施例另一设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是在本发明实施例中使用了“第一”和“第二”的表述方式，例如第一命令词列表和第二命令词列表，其中“第一”和“第二”仅作为区别两个命令词列表使用，不应理解为具体其它限定意义，后续实施例不再一一说明。

语音识别方法和***广泛应用于各种设备中，例如：手机、电脑等各种设备中，本发明实施例对具体使用本发明实施例方案的设备不予限定。

本发明实施例提供了一种语音识别方法，如图1A所示，包括：

101A：获取用户指定的文本文件，并按照预定规则从文本文件中提取命令词得到命令词列表；

可选地，上述获取用户指定的文本文件包括：从用户输入的指定地址获取文本文件，或者，获取用户输入的文本文件。

用户指定的文本文件可以是指定的：任意文本文件或文本文件的存储路径或文本文件的链接，例如提供网页、网页链接、网页存储路径、Word（一种文字处理器应用程序）文档、txt（一种文本格式）文档、Word文档存储路径、txt文档存储路径、Word文档链接、txt文档链接、其他形式文本文档或其存储路径或链接等。本发明实施例对于用户指定文本文件的具体表现形式不予限定。

上述预定规则可以是预先设定的任意命令词生成规则，例如：可以将分词结果中的所有名词作为命令词,也可以将分词结果中的所有动词作为命令词,或者将所有名词和动词作为命令词,或者将文本中的所有词作为命令词，本发明实施例对于具体的预定规则不予限定。

102A：将命令词列表与命令词库相比较，确认命令词列表中是否包含新命令词，上述新命令词为命令词列表中包含而命令词库中不包含的命令词；

103A：如果命令词列表中包含新命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；

104A：将新语言模型合并到与命令词库对应的语言模型库中；

105A：接收语音，根据与命令词库对应的声学模型、发声词典和语言模型库进行语音识别。

采用本发明实施例提供的方案，无需用户提前定义命令词列表和发音词典，通过检测命令词的变化，来更新命令词列表，并且无需离线更新发音词典和语言模型，在识别的过程中即可在线更新。由于在线获取的命令词和在线内容紧密相关，所以命令词数量有限，远远小于常用词汇的数量，例如，远远小于中文常用词汇量（大约50000词），所以可以保证命令词的高识别率、***识别速度高、较短的响应时间并且模型文件较小。

进一步地，上述方案中在线更新的方式可以是：在语音识别完成后，上述还包括：通过上述语音识别获得语音识别的结果，确定上述语音识别的结果是否为预设标志命令词；若上述语音识别的结果为预设标志命令词，则获取上述预设标志命令词对应的文本文件；否则执行语音识别的结果对应的操作。上述预设标志命令词属于命令词库内的标识命令词，在语音识别设备中保存有预设标识命令词与文本文件的对应关系；在线更新方式还可以是：在语音识别完成后，确定上述用户指定的文本文件是否发生变化；若上述用户指定的文本文件发生变化，则获取发生变化后的文本文件；否则执行语音识别的结果对应的操作。

本发明实施例提供了另一种语音识别方法，如图1B所示，包括：

101B：获取用户指定的文本文件，并按照预定规则从文本文件中提取命令词得到第二命令词列表；

可选地，上述按照预定规则从文本文件中提取命令词得到第二命令词列表包括：读取文本文件的内容，并对其进行分词；然后按照预定规则从分词结果中选择命令词得到第二命令词列表。

102B：确定当前是否已经存在第一命令词列表和与之对应的第一语言模型；

103B：若存在，则确定上述第二命令词列表中是否包含第一命令词列表中没有的命令词；若不存在或者上述第二命令词列表中包含第一命令词列表中没有的命令词，则依据第二命令词列表生成第二发音词典并训练得到第二语言模型；

在103B中直接依据第二命令词列表生成第二发音词典并训练得到第二语言模型，需要对第二命令词列表中所有的命令词进行生成发音词典以及训练的操作，占用处理资源会较多，因此本发明实施例还提供了一个优选的方案，仅需要对新增的命令词进行进行生成发音词典以及训练的操作：优选地，上述依据第二命令词列表生成第二发音词典并训练得到第二语言模型包括：生成上述第二命令词列表中包含的第一命令词列表中不存在的命令词训练得到语音词典和语言模型，并将上述语音词典和语言模型分别添加到上述第一发音词典和第一语言模型，得到第二发音词典和第二语言模型。

104B：接收语音，若不存在第二发音词典和第二语言模型，则依据已经存在的第一声学模型、第一发音词典以及第一语言模型进行语音识别；若存在第二发音词典和第二语言模型，则依据第一声学模型、第二发音词典以及第二语言模型进行语音识别。

采用本发明实施例提供的方案，无需用户提前定义命令词列表和发音词典，通过检测命令词的变化，来更新命令词列表，并且无需离线更新发音词典和语言模型，在识别的过程中即可在线更新。由于在线获取的命令词和在线内容紧密相关，所以命令词数量有限，远远小于常用词汇的数量，例如，远远小于中文常用词汇量（大约50000词），所以可以保证命令词的高识别率、***识别速度高和响应时间短以及模型文件较小。

进一步地，上述方案中在线更新的方式可以是：在语音识别完成后，还包括：

确定语音识别的结果是否为预设标志命令词，若是，则获取上述预设标志命令词对应的文本文件，否则执行语音识别的结果对应的操作；或者，确定文本文件是否发生变化；若是，则获取发生变化后的文本文件，否则执行语音识别的结果对应的操作。

本发明实施例还提供了另一种语音识别方法，如图2A所示，包括：

201A：接收语音，并依据与命令词库对应的声学模型、发声词典和语言模型库进行语音识别得到语音识别的结果；

202A：若语音识别的结果为预设标志命令词，则获取上述预设标志命令词对应的文本文件；若语音识别的结果不是预设标志命令词，则执行语音识别的结果对应的操作；

可选地，上述获取上述预设标志命令词对应的文本文件包括：从上述预设标志命令词对应的地址获取文本文件，或者，获取上述预设标志命令词对应的用户输入的文本文件。

203A：按照预定规则从上述预设标识命令词对应的文本文件中提取命令词得到命令词列表；

204A：将命令词列表与命令词库相比较，确认命令词列表中是否包含新命令词，上述新命令词为命令词列表中包含而命令词库中不包含的命令词；

205A：如果命令词列表中包含命令词库中不包含的命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；将新语言模型合并到与命令词库对应的语言模型库中。

以上205A执行完毕后，已经为下一次语音识别做好准备，然后可以再次执行：接收语音，根据与命令词库对应的声学模型、发声词典和语言模型库进行语音识别。

本发明实施例还提供了另一种语音识别方法，如图2B所示，包括：

201B：接收语音，并依据已经存在的第一声学模型、第一发音词典以及第一语言模型进行语音识别得到语音识别的结果；

202B：确定语音识别的结果是否为预设标志命令词，若是，则获取上述预设标志命令词对应的文本文件；若不是则执行语音识别的结果对应的操作；

203B：按照预定规则从上述文本文件中提取命令词得到第二命令词列表；

204B：确定上述第二命令词列表中是否包含当前已经存在的第一命令词列表中没有的命令词；若包含，则依据第二命令词列表生成第二发音词典并训练得到第二语言模型；

205B：接收语音，若不存在第二发音词典和第二语言模型，则依据已经存在的第一声学模型、第一发音词典以及第一语言模型进行语音识别；若存在第二发音词典和第二语言模型，则依据第一声学模型、第二发音词典以及第二语言模型进行语音识别。

为了更详细的说明以上两个实施例，本发明实施例给出了两个实施例的举例，如图3和图4所示，在图3和图4的示意图中还标注了流程的开始位置。在以下两个实施例中用“第一”标注当前已经存在的声学模型、发音词典以及语言模型；用“第二”标注设备生成的发音词典以及语言模型。

对应于图1的实施例，如图3所示，包括：

301：用户提供任意文本文件或文本文件的存储路径或文本文件的链接，例如提供网页、网页链接、网页存储路径、Word文档、txt文档、Word文档存储路径、txt文档存储路径、Word文档链接、txt文档链接、其他形式文档或其存储路径或链接等。

302：设备获取文本文件。

303：设备分析文本文件，依据文本文件获得第二命令词列表。

分析的过程包括：读取文本文件的内容，对文本文件的内容进行分词。获得命令词列表的方式则可以是：从分词结果中选择全部词或部分词作为命令词，生成第二命令词列表,例如：可以将分词结果中的所有名词作为命令词,也可以将分词结果中的所有动词作为命令词,或者将所有名词和动词作为命令词,或者将文本中的所有词作为命令词，具体方式不限定。

304：设备判断是否已存在第一命令词列表及第一命令词列表的第一语言模型。在第一语言模型中包含第一命令词表中所有命令词。若存在，进入305，若不存在，进入306。

305：将获得的第二命令词列表和第一命令词列表进行比对，判断是否有不同的命令词；如果判断结果为否，则设备可以读取已有的第一声学模型、第一发音词典、第一语言模型，进入309；如果判断结果为是，则进入306。

306：设备利用第二命令词列表，生成对应的第二发音词典，生成的方法可以采用字音转换算法进行。

词典是个文本文件，内容可以如下举例:

回复h ui fu

转发zh uan f a

307：设备利用第二命令词列表生成训练文本，并训练得到第二语言模型，可以按照语言模型训练文本的要求，将命令词转成所需的形式来完成。

训练文本的内容举例如下:

***读取第一声学模型、第二发音词典、第二的语言模型，进入309。

308：设备接收用户的语音输入。

309：设备对输入的语音进行识别。需要说明的是本步骤中使用的声学模型、发音词典以及语言模型，依据前述步骤可以是第一声学模型、第一发音词典、第一语言模型；或者是第一声学模型、第二发音词典、第二的语言模型。

310：设备输出识别结果。

311：设备判断文本文件是否发生变化；如果是，则进入302，然后执行302的后续流程；如果否，进入312。

上述文本文件发生变化可以是：用户提供的文本文件发生变化，或链接发生变化，或链接指向的内容发生变化等。

312：判断识别结果是否为预设标志命令词，如果是，则进入302，然后执行302的后续流程；如果否，进入313。

预设标志命令词可以是：“打开热点新闻”等，例如：

在302执行中可以依据预设标志命令词与文本文件或链接存在的对应关系来获取文本文件，例如：

打开热点新闻对应文本文件热点新闻.txt

打开国际新闻对应文本文件国际新闻.txt

打开谷歌对应文本文件的链接 www.***.com

313：执行识别的结果对应的操作。

对应于图2的实施例，如图4所示，包括：

401：设备接收用户的语音输入。

402：设备对输入的语音进行识别。需要说明的是初次执行本步骤或者由409转402执行语音识别使用的声学模型、发音词典以及语言模型，是第一声学模型、第一发音词典、第一语言模型。若由411转402执行语音识别使用的是第一声学模型、第二发音词典、第二的语言模型。

已存在第一命令词列表、第一发音词典、第一语言模型，***读取这些信息。例如，第一命令词列表为：

语音识别

开机

退出

刘德华

张学友

打开国际新闻

打开热点新闻

打开谷歌

第一命令词列表里的预设标志命令词和406中文本文件或文本文件的链接存在对应关系，例如：

打开热点新闻对应文件热点新闻.txt

打开国际新闻对应文件国际新闻.txt

打开谷歌对应链接 www.***.com

403：设备输出识别结果。

404：判断识别结果是否为预设标志命令词，如果是，则进入407，然后执行407的后续流程；如果否，进入405。

405：执行识别的结果对应的操作。

406：用户提供任意文本文件或文本文件的存储路径或文本文件的链接，例如提供网页、网页链接、网页存储路径、Word文档、txt文档、Word文档存储路径、txt文档存储路径、Word文档链接、txt文档链接、其他形式文档或其存储路径或链接等。

407：读取预设标志命令词指定的文本文件。

指定的文本文件可以是指定的：任意文本文件或文本文件的存储路径或文本文件的链接，例如提供网页、网页链接、网页存储路径、Word（一种文字处理器应用程序）文档、txt（一种文本格式）文档、Word文档存储路径、txt文档存储路径、Word文档链接、txt文档链接、其他形式文本文档或其存储路径或链接等。本发明实施例对指定文本文件的具体表现形式不予限定。

408：设备分析文本文件，依据文本文件获得第二命令词列表。

409：将获得的第二命令词列表和第一命令词列表进行比对，判断是否有不同的命令词；如果判断结果为否，则设备可以读取已有的第一声学模型、第一发音词典、第一语言模型，进入402；如果判断结果为是，则进入410。

410：设备利用第二命令词列表，生成对应的第二发音词典，生成的方法可以采用字音转换算法进行。

词典是个文本文件，内容可以如下举例:

回复h ui fu

转发zh uan f a

411：设备利用第二命令词列表生成训练文本，并训练得到第二语言模型，可以按照语言模型训练文本的要求，将命令词转成所需的形式来完成。

训练文本的内容举例如下:

***读取第一声学模型、第二发音词典、第二的语言模型，进入402。

采用本发明提供以上方案无需用户提前定义命令词列表和发音词典，通过检测在线内容的变化，来更新命令词列表，并且无需离线更新发音词典和语言模型，在识别的过程中即可在线更新。由于在线获取的命令词和在线内容紧密相关，所以命令词数量有限，远远小于常用词汇的数量，例如，远远小于中文常用词汇量（大约50000词），所以可以保证命令词的高识别率、***识别速度高和响应时间短以及模型文件较小。

本发明实施例还提供了一种语音识别设备，如图5所示，包括：

文本获取单元501，用于获取用户指定的文本文件；

列表生成单元502，用于按照预定规则从文本获取单元501获取的文本文件中提取命令词得到命令词列表；

确定单元503，用于将列表生成单元502得到的命令词列表与命令词库相比较，确认命令词列表中是否包含新命令词，上述新命令词为命令词列表中包含而命令词库中不包含的命令词；

训练生成单元504，用于如果确定单元503确定结果为：命令词列表中包含命令词库中不包含的命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；将新语言模型合并到与命令词库对应的语言模型库中；

语音接收单元505，用于接收语音；

识别单元506，用于根据与命令词库对应的声学模型、发声词典和语言模型库对语音接收单元505接收的语音进行语音识别。

可选地，上述文本获取单元501，具体用于获取用户指定的文本文件包括：从用户输入的指定地址获取文本文件，或者，获取用户输入的文本文件。

可选地，上述列表生成单元502，具体用于读取文本文件的内容，并对其进行分词；然后按照预定规则从分词结果中选择命令词得到命令词列表。

进一步地，本发明实施例还提供了文本文件在线更新的实现方式，如图6所示；

上述确定单元503，还用于在语音识别完成后，确定语音识别的结果是否为预设标志命令词；

上述文本获取单元501，还用于若确定单元503确定结果为预设标志命令词，则获取上述预设标志命令词对应的文本文件；

执行单元601，用于若确定单元503确定结果为不是预设标志命令词，则执行语音识别的结果对应的操作。

或者，上述确定单元503，还用于在语音识别完成后，确定上述用户指定的文本文件是否发生变化；

上述文本获取单元501，还用于若确定单元503确定上述用户指定的文本文件发生变化，则获取发生变化后的文本文件；

执行单元601，用于若确定单元503确定上述用户指定的文本文件未发生变化，则执行语音识别的结果对应的操作。

可选地，上述训练生成单元504，具体用于生成上述第二命令词列表中包含的第一命令词列表中不存在的命令词训练得到语音词典和语言模型，并将上述语音词典和语言模型分别添加到上述第一发音词典和第一语言模型，得到第二发音词典和第二语言模型。

本发明实施例还提供了另一种语音识别设备，如图7所示，包括：

语音接收单元701，用于接收语音；

识别单元702，用于依据与命令词库对应的声学模型、发声词典和语言模型库对语音接收单元701接收的语音进行语音识别得到语音识别的结果；

确定单元703，用于确定识别单元702得到的语音识别的结果是否为预设标志命令词；

文本获取单元704，用于若确定单元703确定语音识别的结果为预设标志命令词，则获取上述预设标志命令词对应的文本文件；

执行单元705，用于若确定单元703确定语音识别的结果不是预设标志命令词，则执行语音识别的结果对应的操作；

列表生成单元706，用于按照预定规则从上述预设标识命令词对应的文本文件中提取命令词得到命令词列表；

上述确定单元703，还用于将列表生成单元706得到的命令词列表与命令词库相比较，确认命令词列表中是否包含新命令词，上述新命令词为命令词列表中包含而命令词库中不包含的命令词；

训练生成单元707，用于若确定单元703确定命令词列表中包含命令词库中不包含的命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；将新语言模型合并到与命令词库对应的语言模型库中。

可选地，上述文本获取单元704，具体用于若确定单元703确定语音识别的结果为预设标志命令词，则从上述预设标志命令词对应的地址获取文本文件，或者，获取上述预设标志命令词对应的用户输入的文本文件。

本发明实施例还提供了一种语音识别设备，如图8所示，包括：

语音接收设备801，用于接收语音；

存储器802，用于存储命令词库、声学模型、发声词典以及语言模型库；

处理器803，用于获取用户指定的文本文件，并按照预定规则从文本文件中提取命令词得到命令词列表；将命令词列表与命令词库相比较，确认命令词列表中是否包含新命令词，上述新命令词为命令词列表中包含而命令词库中不包含的命令词；如果命令词列表中包含新命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；将新语言模型合并到与命令词库对应的语言模型库中；根据与命令词库对应的声学模型、发声词典和语言模型库对语音接收设备801接收的语音进行语音识别。

可选地，上述处理器803，用于按照预定规则从文本文件中提取命令词得到命令词列表包括：用于读取文本文件的内容，并对其进行分词；然后按照预定规则从分词结果中选择命令词得到命令词列表。

进一步地，上述处理器803，还用于确定语音识别的结果是否为预设标志命令词，若是，则获取上述预设标志命令词对应的文本文件，否则执行语音识别的结果对应的操作；或者，确定文本文件是否发生变化；若是，则获取发生变化后的文本文件，否则执行语音识别的结果对应的操作。

本发明实施例还提供了另一种语音识别设备，也可以参阅图8，包括：

语音接收设备801，用于接收语音；

处理器803，用于依据与命令词库对应的声学模型、发声词典和语言模型库对语音接收设备801接收的语音进行语音识别得到语音识别的结果；若语音识别的结果为预设标志命令词，则获取上述预设标志命令词对应的文本文件；若语音识别的结果不是预设标志命令词，则执行语音识别的结果对应的操作；按照预定规则从上述预设标志命令词对应的文本文件中提取命令词得到命令词列表；将命令词列表与命令词库相比较，确认命令词列表中是否包含新命令词，上述新命令词为命令词列表中包含而命令词库中不包含的命令词；如果命令词列表中包含新的命令词，则根据新命令词生成对应的新发音词典并训练得到新语言模型；将新语言模型合并到与命令词库对应的语言模型库中。

可选地，上述处理器803，用于获取上述预设标志命令词对应的文本文件包括：用于从上述预设标志命令词对应的地址获取文本文件，或者，获取上述预设标志命令词对应的用户输入的文本文件。

值得注意的是，上述设备实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

将新语言模型合并到与命令词库对应的语言模型库中；

2.根据权利要求1所述方法，其特征在于，所述获取用户指定的文本文件包括：从用户输入的指定地址获取文本文件，或者，获取用户输入的文本文件。

3.根据权利要求1所述方法，其特征在于，所述按照预定规则从文本文件中提取命令词得到命令词列表包括：

4.根据权利要求1至3任意一项所述方法，其特征在于，所述方法还包括：

5.根据权利要求1至3任意一项所述方法，其特征在于，在语音识别完成后，所述方法还包括：

6.一种语音识别方法，其特征在于，包括：

7.根据权利要求6所述方法，其特征在于，所述获取所述预设标志命令词对应的文本文件包括：从所述预设标志命令词对应的地址获取文本文件，或者，获取所述预设标志命令词对应的用户输入的文本文件。

8.一种语音识别设备，其特征在于，包括：

文本获取单元，用于获取用户指定的文本文件；

语音接收单元，用于接收语音；

9.根据权利要求8所述设备，其特征在于，

所述文本获取单元，具体用于获取用户指定的文本文件包括：从用户输入的指定地址获取文本文件，或者，获取用户输入的文本文件。

10.根据权利要求8所述设备，其特征在于，

所述列表生成单元，具体用于读取文本文件的内容，并对其进行分词；然后按照预定规则从分词结果中选择命令词得到命令词列表。

11.根据权利要求8至10任意一项所述设备，其特征在于，

所述确定单元，还用于在识别单元进行语音识别完成后，确定语音识别的结果是否为预设标志命令词；

12.根据权利要求8至10任意一项所述设备，其特征在于，

所述确定单元，还用于在语音识别完成后，确定所述用户指定的文本文件是否发生变化；

13.一种语音识别设备，其特征在于，包括：

语音接收单元，用于接收语音；

14.根据权利要求13所述设备，其特征在于，

所述文本获取单元，具体用于若确定单元确定语音识别的结果为预设标志命令词，则从所述预设标志命令词对应的地址获取文本文件，或者，获取所述预设标志命令词对应的用户输入的文本文件。