CN107644638A

CN107644638A - 语音识别方法、装置、终端和计算机可读存储介质

Info

Publication number: CN107644638A
Application number: CN201710964474.1A
Authority: CN
Inventors: 何金来; 雷宇
Original assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Current assignee: Beijing Rubu Technology Co.,Ltd.
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2018-01-30
Anticipated expiration: 2037-10-17
Also published as: CN107644638B

Abstract

本发明公开了一种语音识别方法，包括根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率；其中所述解码网络包括多组音素序列；每一组音素序列对应一个预设的命令词内容或对应噪音内容；根据所述声学相似概率，获得所述语音与所述音素序列的匹配概率；将所述语音识别为匹配概率最高的音素序列所对应的内容。相应地，本发明还公开一种语音识别装置、终端和计算机可读存储介质。本发明实现避免将噪音识别为命令词，且无需在语音识别后计算置信度，达到降低误识别率的效果。

Description

语音识别方法、装置、终端和计算机可读存储介质

技术领域

本发明实施例涉及语音识别技术，尤其涉及一种语音识别方法、装置、终端和计算机可读存储介质。

背景技术

在语音命令词识别技术中，误识别一直是一个比较难以解决的问题。命令词识别之所以误识别率比较高，是因为现有技术的命令词识别方法普遍是通过构造解码网络来实现，该解码网络中包含多组与预设的命令词对应的音素序列。输入任何语音都会根据该语音从解码网络中搜索出一个最为匹配的音素序列，因此导致误识别。

目前解决将噪音识别为命令词的方法是计算识别结果的置信度，当置信度大于预设的阈值时表示识别正确，当置信度小于该阈值时表示没有识别到命令词。由于置信度的计算依赖很多因素，尤其受环境影响会导致置信度的值变化范围很大。在嘈杂环境下，经常会出现正确的识别结果置信度很低但错误的识别结果置信度却很高的情况，使得误识别率依然很高。

发明内容

本发明提供一种语音命令的识别方法、装置、终端及计算机可读存储介质，以实现避免将噪音识别为命令词，且无需在语音识别后计算置信度，达到降低误识别率的效果。

第一方面，本发明实施例提供了一种语音识别方法，包括：

根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率；其中，所述解码网络包括多组音素序列；每一组音素序列对应一个预设的命令词内容或对应噪音内容；

根据所述声学相似概率，获得所述语音与所述音素序列的匹配概率；

将所述语音识别为匹配概率最高的音素序列所对应的内容。

第二方面，本发明还提供了一种语音识别装置，包括：

计算模块，用于根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率；其中，所述解码网络包括多组音素序列；每一组音素序列对应一个预设的命令词内容或对应噪音内容；

匹配模块，用于根据所述声学相似概率，获得所述语音与所述音素序列的匹配概率；

识别模块，用于将所述语音识别为匹配概率最高的音素序列所对应的内容。

第三方面，本发明还提供了一种终端，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例提供的语音识别方法。

第四方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例提供的语音识别方法。

本发明通过在解码网络中增加噪音内容对应的音素序列，采集到的语音可以在解码网络中搜索最匹配音素序列时就被识别为噪音或命令词，无需在解码网络搜索音素序列后对搜索结果进行置信度计算，从而解决现有技术采用受环境音素影响的置信度计算方法造成误识别率高的问题，实现避免将噪音识别为命令词，且降低误识别率的效果。

附图说明

图1是本发明实施例一提供的语音识别方法的流程图；

图2是本发明实施例二提供的语音识别方法的流程图；

图3是本发明实施例三提供的语音识别装置的结构示意图；

图4是本发明实施例四提供的终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的语音识别方法的流程图，本实施例可适用于命令词识别的情况，该方法可以由语音识别装置来执行，具体包括如下步骤：

步骤110、根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率；

其中，所述解码网络包括多组音素序列；每一组音素序列对应一个预设的命令词内容或对应噪音内容；由于本发明实施例是应用于对语音命令的识别，任意非命令词语音对于命令词识别而言都是干扰，因此都是噪音，则本发明实施例所述噪音指任意非命令词语音。具体地，解码网络可以通过多个音素节点构成互连网络，互连网络中串联的音素节点组成音素序列。在语音识别领域，一个音素与解码网络中的音素的声学相似概率，一般通过构建解码网络中的音素的声学模型来实现，声学相似概率指以语音的声学特征为输入对应的声学模型输出的概率。

步骤120、根据所述声学相似概率，获得所述语音与所述音素序列的匹配概率；

其中，为了简化识别过程的数据处理，可直接以声学相似概率作为匹配概率；但应用于识别要求高的场景，作为高识别率的语音识别方法，匹配概率除包含声学相似概率信息外，还可以包含其他的信息，例如，对于使用加权有限状态转换器构造的解码网络，匹配概率还包含音素序列的权重信息，该权重信息可涉及音素序列在实际应用中出现的概率，即语言模型概率。例如，在命令词识别场景中，部分命令词在实际应用出现的概率较高，如“音量调大”、“关机”等，而部分命令词在实际应用出现的概率较低，在两者声学特征相近的情况下，可以设置前者所对应的音素序列权重高于后者所对应的音素序列权重。此外，权重信息还可以根据语音识别方法的实施过程中的识别率来调整。步骤130、将所述语音识别为匹配概率最高的音素序列所对应的内容。

上述步骤的工作原理是在解码网络中增加噪音内容对应的音素序列，会根据录入的噪音的声学特征使得噪音与解码网络中的噪音内容对应的音素序列匹配，使得基于声学特征识别出录入的噪音，能避免将非命令词识别为命令词，且相比于现有技术采用识别后计算置信度的方法，本实施例避免将噪音识别为命令词的方案不受环境音素影响，大大降低误识别率。

为了降低误识别率，提高将噪音与解码网络中噪音内容对应的音素序列匹配的可能性，本实施例提供一种优选实施方式。具体地，步骤110、根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率，具体包括：

获取预先训练的解码网络中音素序列的声学模型；其中，训练噪音内容对应的声学模型所采用的噪音样本包括多个两两之间声学特征差值大于预设的阈值的语音样本；

根据采集到的语音的声学特征，采用所述声学模型计算所述语音与解码网络中的音素序列的声学相似概率。

在上述优选实施方式中，训练噪音声学模型的噪音样本包括多个两两之间声学特征差值大于预设的阈值的语音样本，即，噪音声学模型是采用多个差异较大的语音样本训练得到的，例如嘈杂的环境声音和大量互不相同的非命令词短语等。使用大量差异大的语音样本训练的到的声学模型所对应的音素序列会趋向于与各种声音之间差异最小化的自然声音，更容易与各种非命令词语音匹配。而训练命令词声学模型的命令词样本一般是用不同口音朗读的命令词语音，命令词样本之间的声学特征差异不大，因此仅对于命令词相近的声音声学相似概率高。因此，上述优选实施方式能提高将噪音与解码网络中噪音内容对应的音素序列匹配的可能性，降低误识别率。

进一步地，所述解码网络是使用加权有限状态转换器构造的；则步骤120、所述根据所述声学相似概率，获得所述语音与所述音素序列的匹配概率，具体包括：计算所述声学相似概率与所述音素序列的权重的和值，作为所述语音与所述音素序列的匹配概率。当然，也可以计算声学相似概率与权重的乘积作为匹配概率。

进一步地，所述解码网络还包括与静音内容对应的音素序列。增加静音内容对应的音素序列可提高用户体验。因为可以对噪音和静音做出区分，向用户反馈不一样的信号。例如，噪音可能是由于用户说错语音造成，因此可输出提示用户重说的信息，对于静音，可能是用户不小心触碰到识别装置导致录入了语音，可以设置识别输出为空，即不执行任何操作，不打扰用户，从而提高用户体验。

需要说明的是，计算声学相似概率、获得匹配概率进而搜索匹配概率最高的音素序列，可以是先计算每一音素序列与采集到的语音的匹配概率，然后比较匹配概率得到匹配概率最高的音素序列。也可以是先搜索到与采集到的语音起始音素的声学相似概率相近的解码网络中的音素，然后根据声学相似概率、权重(包括语言模型概率信息)等，判断该相近的音素所在的多组音素序列中，哪一组的下一个音素与采集到的语音的下一个音素匹配概率最高，进而确定该组音素序列的下一个音素节点与采集到的语音的下一个音素匹配。进一步地，继续执行判断搜索，最终获得的音素序列就是匹配概率最高的音素序列。

综上所述，本实施例的技术方案，在解码网络中增加噪音内容对应的音素序列，采集到的语音可以在解码网络中搜索最匹配音素序列时就被识别为噪音或命令词，无需在解码网络搜索音素序列后对搜索结果进行置信度计算，从而解决现有技术采用受环境音素影响的置信度计算方法造成误识别率高的问题，实现避免将噪音识别为命令词，且降低误识别率的效果。

实施例二

图2为本发明实施例二提供的语音识别方法的流程图，本实施例可适用于命令词识别的情况，该方法可以由语音识别装置来执行。本实施例在实施例一语音识别方法的基础上，增加了自动调整解码网络参数的步骤，使得语音识别方法可以动态修改参数，持续降低误识别率。本实施例提供的语音识别方法包括：

步骤210、根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率；其中，所述解码网络包括多组音素序列；每一组音素序列对应一个预设的命令词内容或对应噪音内容；

步骤220、根据所述声学相似概率，获得所述语音与所述音素序列的匹配概率；

步骤230、将所述语音识别为匹配概率最高的音素序列所对应的内容；

步骤240、若确认采集到的语音为噪音，且将所述语音识别为预先设定的命令词，则提高所述解码网络中噪音内容对应的音素序列的权重。

本实施例在识别语音后，还会采集确认信息(可由用户提供确认信息)，确认识别结果是否正确，若确认采集到的语音为噪音，且将语音识别为命令词，则说明误识别率仍略高，因此提高所述解码网络中噪音内容对应的音素序列的权重，以增加噪音音素序列与采集到的语音的匹配概率，使得非命令词语音更倾向于识别为噪音。进一步地，可设置确认采集到的语音为噪音且将所述语音识别为命令词的次数达到预设的阈值，才提高噪音音素序列的权重，以避免个别识别错误造成调整失衡。

优选地，还包括：若确认采集到的语音为命令词，且将所述语音识别为噪音，则降低所述解码网络中噪音内容对应的音素序列的权重。

进一步地，可设置确认采集到的语音为命令词且将所述语音识别为噪音的次数达到预设的阈值，才降低噪音音素序列的权重。为了降低误识别率，不可避免地会出现少量将命令词识别为噪音的情况，上述优选方案可提高对命令词的识别率。

进一步地，还可设置根据用户触发的指令，调整所述解码网络中噪音内容对应的音素序列的权重，以降低误识别率或提高识别率。

本实施例的技术方案，在解码网络中增加噪音内容对应的音素序列，采集到的语音可以在解码网络中搜索最匹配音素序列时就被识别为噪音或命令词，实现避免将噪音识别为命令词，且降低误识别率的效果。且根据识别结果，调整解码网络中噪音音素序列的权重，以实现动态修改参数，持续降低误识别率。

实施例三

图3为本发明实施例三提供的语音识别装置的结构示意图。该语音识别装置包括：

计算模块310，用于根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率；其中，所述解码网络包括多组音素序列；每一组音素序列对应一个预设的命令词内容或对应噪音内容；

匹配模块320，用于根据所述声学相似概率，获得所述语音与所述音素序列的匹配概率；

识别模块330，用于将所述语音识别为匹配概率最高的音素序列所对应的内容。

优选地，所述解码网络是使用加权有限状态转换器构造的。所述语音识别装置还包括：

权重调整模块340，用于若确认采集到的语音为噪音，且将所述语音识别为预先设定的命令词，则提高所述解码网络中噪音内容对应的音素序列的权重。

优选地，匹配模块320包括：

和值计算单元，用于计算所述声学相似概率与所述音素序列的权重的和值，作为所述语音与所述音素序列的匹配概率。

优选地，所述解码网络还包括与静音内容对应的音素序列。

优选地，所述计算模块包括：

模型获取单元，用于获取预先训练的解码网络中音素序列的声学模型；其中，训练噪音内容对应的声学模型所采用的噪音样本包括多个两两之间声学特征差值大于预设的阈值的语音样本；

模型运算单元，用于根据采集到的语音的声学特征，采用所述声学模型计算所述语音与解码网络中的音素序列的声学相似概率。

本发明实施例所提供的语音识别装置可执行本发明任意实施例所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种终端的结构示意图，如图4所示，该终端包括处理器410、存储器420、输入装置430和输出装置440；终端中处理器410的数量可以是一个或多个，图4中以一个处理器410为例；终端中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语音识别方法对应的程序指令/模块(例如，语音识别装置中的计算模块310、匹配模块320、识别模块330和权重调整模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行终端的各种功能应用以及数据处理，即实现上述的语音识别方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序在被计算机处理器执行时实现一种语音识别方法，该方法包括：

将所述语音识别为匹配概率最高的音素序列所对应的内容。

当然,本发明实施例所提供的一种存储计算机程序的计算机可读存储介质,其程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音识别方法，其特征在于，包括：

根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率；其中，所述解码网络包括多组音素序列，每一组音素序列对应一个预设的命令词内容或对应噪音内容；

将所述语音识别为匹配概率最高的音素序列所对应的内容。

2.如权利要求1所述的语音识别方法，其特征在于，所述解码网络是使用加权有限状态转换器构造的；

所述根据所述声学相似概率，获得所述语音与所述音素序列的匹配概率，具体包括：

计算所述声学相似概率与所述音素序列的权重的和值，作为所述语音与所述音素序列的匹配概率。

3.如权利要求2所述的语音识别方法，其特征在于，还包括：

若确认采集到的语音为噪音，且将所述语音识别为预先设定的命令词，则提高所述解码网络中噪音内容对应的音素序列的权重。

4.如权利要求1-3任一所述的语音识别方法，其特征在于，所述解码网络还包括与静音内容对应的音素序列。

5.如权利要求1-3任一所述的语音识别方法，其特征在于，所述根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率，具体包括：

6.一种语音识别装置，其特征在于，包括：

计算模块，用于根据采集到的语音的声学特征，计算所述语音与解码网络中的音素序列的声学相似概率；其中，所述解码网络包括多组音素序列，每一组音素序列对应一个预设的命令词内容或对应噪音内容；

7.如权利要求6所述的语音识别装置，其特征在于，所述解码网络是使用加权有限状态转换器构造的；

所述语音识别装置还包括：

权重调整模块，用于若确认采集到的语音为噪音，且将所述语音识别为预先设定的命令词，则提高所述解码网络中噪音内容对应的音素序列的权重。

8.如权利要求6或7所述的语音识别装置，其特征在于，所述计算模块包括：

9.一种终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的语音识别方法。