CN110556099B

CN110556099B - 一种命令词控制方法及设备

Info

Publication number: CN110556099B
Application number: CN201910862347.XA
Authority: CN
Inventors: 崔凡; 李深
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-12-21
Anticipated expiration: 2039-09-12
Also published as: CN110556099A

Abstract

本发明公开了一种命令词控制方法及设备，首先以固定帧长采集流式声音信号帧；之后对所采集的流式声音信号帧进行特征提取，得到包括命令词在内的音频特征；控制执行对应所述命令词的操作。

Description

一种命令词控制方法及设备

技术领域

本发明涉及语言识别技术，尤其涉及一种命令词控制方法及设备。

背景技术

近几年来，随着智能设备的兴起，语音交互已经成为其中必不可少的部分。在基于语音交互的控制***中多命令词控制***应用较广。然而，多命令词控制***主要采用对语音信号进行语音识别的方法，整个***难以应用到低功耗且存储空间非常有限的智能设备(如耳机)中。

发明内容

本发明实施例为了解决当前多命令词控制***所存在的以上缺陷，创造性地提供一种命令词控制方法及设备。

根据本发明的第一方面，提供一种命令词控制方法，所述方法包括：以固定帧长采集流式声音信号帧；对所采集的流式声音信号帧进行特征提取，得到包括命令词在内的音频特征；控制执行对应所述命令词的操作。

根据本发明一实施方式，所述对所采集的流式声音信号帧进行特征提取，包括：逐帧对所采集的流式音频信号帧进行特征提取；或，按特定步长跳帧对所采集的流式音频信号帧进行特征提取。

根据本发明一实施方式，所述对所采集的流式声音信号帧进行特征提取，包括：对所采集的流式声音信号帧进行Fbank特征提取；或，对所采集的流式声音信号帧进行MFCC特征提取。

根据本发明一实施方式，所述音频特征还包括区别于所述命令词的其他类词；相应的，控制执行对应所述命令词的操作，包括：对所得到的音频特征进行网络预测，得到所述命令词对应的置信度和其他类词对应的置信度；比较所述命令词对应的置信度和其他类词对应的置信度的值，得到分类判定结果；若分类判定结果表征所述命令词对应的置信度的值大于其他类词对应的置信度的值，则控制执行对应所述命令词的操作。

根据本发明一实施方式，所述对所得到的音频特征进行网络预测，包括：借助递归神经网络(Recurrent Neural Netowrk，RNN)模型或卷积神经网络(Convolutional NeuralNetwork，CNN)模型对所得到的音频特征进行网络预测。

根据本发明一实施方式，当借助CNN模型对所得到的音频特征进行网络预测时，所述方法还包括：将前N轮网络预测过程中的中间节点的结果进行缓存，N的取值为正整数；相应的，借助CNN模型对所得到的音频特征进行网络预测，包括：将缓存中前N轮网络预测过程中的中间节点的结果及当前轮的音频特征共同作为CNN模型的输入来进行网络预测。

根据本发明一实施方式，所述命令词包括多个；相应的，若分类判定结果表征所述命令词对应的置信度的值大于其他类词对应的置信度的值，则控制执行对应所述命令词的操作，包括：若分类判定结果表征所述多个命令词中第一命令词对应的置信度的值大于其余命令词及其他类词对应的置信度，则控制执行对应所述第一命令词的操作。

根据本发明的第二方面，又提供一种命令词控制设备，所述设备包括：采集模块，用于以固定帧长采集流式声音信号帧；特征提取模块，用于对所采集的流式声音信号帧进行特征提取，得到包括命令词在内的音频特征；控制模块，用于执行对应所述命令词的操作。

根据本发明一实施方式，所述特征提取模块具体用于，逐帧对所采集的流式音频信号帧进行特征提取；或，按特定步长跳帧对所采集的流式音频信号帧进行特征提取。

根据本发明一实施方式，所述特征提取模块具体用于，对所采集的流式声音信号帧进行Fbank特征提取；或，对所采集的流式声音信号帧进行MFCC特征提取。

根据本发明一实施方式，所述音频特征还包括区别于命令词的其他类词；相应的，所述控制模块包括：网络预测单元，用于对所得到的音频特征进行网络预测，得到所述命令词对应的置信度和其他类词对应的置信度；比较单元，用于比较所述命令词对应的置信度和其他类词对应的置信度的值，得到分类判定结果；控制单元，用于若分类判定结果表征所述命令词对应的置信度的值大于其他类词对应的置信度的值，则控制执行对应所述命令词的操作。

根据本发明一实施方式，所述网络预测单元具体用于，借助RNN模型或CNN模型对所得到的音频特征进行网络预测。

根据本发明一实施方式，所述网络预测单元，还用于当借助CNN模型对所得到的音频特征进行网络预测时，将前N轮网络预测过程中的中间节点的结果进行缓存，N的取值为正整数；还用于将缓存中前N轮网络预测过程中的中间节点的结果及当前轮的音频特征共同作为CNN模型的输入来进行网络预测。

根据本发明一实施方式，所述命令词包括多个；相应的，所述控制单元具体用于，若分类判定结果表征所述多个命令词中第一命令词对应的置信度的值大于其余命令词及其他类词对应的置信度，则控制执行对应所述第一命令词的操作。

根据本发明一实施方式，所述命令词控制设备为智能耳机。

本发明实施例命令词控制方法及设备，首先以固定帧长采集流式声音信号帧；之后对所采集的流式声音信号帧进行特征提取，得到包括命令词在内的音频特征；控制执行对应所述命令词的操作。这样，本发明通过在低功耗智能设备内部完成语音命令到控制命令的转换，代替现有的声学模型建模、解码器等多个语音识别模块，减少了数据训练量和参数数量，模型结构简单，能够将语音数据处理占用的存储空间降低到几十k或几k，使得在低功耗智能设备上处理转换更多的命令词成为可能。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了相关技术中多命令词控制***的组成结构示意图一；

图2示出了相关技术中多命令词控制***的组成结构示意图二；

图3示出了本发明实施例命令词控制方法的实现流程示意图一；

图4示出了本发明实施例命令词控制方法的实现流程示意图二；

图5示出了本发明一应用示例中网络预测过程前后的实现流程示意图；

图6示出了本发明实施例命令词控制设备的组成结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为使本发明更加透彻和完整，并能够将本发明的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1示出了相关技术中多命令词控制***的组成结构示意图一；图2示出了相关技术中多命令词控制***的组成结构示意图二。

现有的多命令词控制***主要采用对语音信号进行语音识别的方法，参考图1，整个多命令词控制方法通常包含特征提取，声学模型建模及解码等操作步骤，每个操作步骤之间均可以看作是独立的任务，但每个操作步骤的结构都将直接影响整个控制方法的结果；参考图2，为了得到一个具有普适性的从音频特征映射到建模单元的声学模型，一般需要大量数据训练，且模型结构较为复杂，参数量较多。这就导致此***训练过程需要更多时间，模型也将占用更多的存储空间，难以应用到低功耗且存储空间非常有限的智能耳机设备中。

为了解决现有多命令词控制***无法应用到低功率智能设备(如耳机)的问题，本发明创造性地提出了如图3所示的命令词控制方法。参考图3，本发明实施例命令词控制方法包括：操作301，以固定帧长采集流式声音信号帧；操作302，对所采集的流式声音信号帧进行特征提取，得到包括命令词在内的音频特征；操作303，控制执行对应所述命令词的操作。

在操作301，诸如耳机之类的低功耗设备可以实时采集流式声音信号。具体地，可以以固定帧长，如10ms为一帧的方式来采集流式声音信号帧。在实际应用中，帧长的取值可以根据实际需要来预先设置。

在操作302，以帧为单位，对所采集到的流式声音信号帧进行音频特征提取。具体地，可以对所采集的流式声音信号帧进行Fbank特征提取；或，对所采集的流式声音信号帧进行MFCC特征提取。当然，这里对流式声音信号帧的特征提取方式不限于Fbank和MFCC，还可以为现有的或将来所改进或创造的任意其他符合条件的特征提取方式。

根据本发明一实施方式，在操作302中，可以逐帧对所采集的流式音频信号帧进行特征提取。举例来说，可以根据实时采集流式音频信号帧的方式依次对第一帧、第二帧、第三帧…进行特征提取。这样，可以保证特征提取的完整性，进而保证后续操作的准确性，得以最终保证命令词控制方法的准确性。

根据本发明一实施方式，在操作302中，还可以按特定步长跳帧对所采集的流式音频信号帧进行特征提取。举例来说，可以根据实时采集流式音频信号帧的方式依次跳帧从第一帧，第三帧、第五帧…进行特征提取。这样，由于帧与帧之间本身存在信号重叠，故只要合理选择跳帧的步长设置，即可在节省整个命令词控制方法的复杂度的基础上，保证特征提取的完整性，进而保证后续操作的准确性，得以最终保证命令词控制方法的准确性。

这样，本发明通过在低功耗智能设备内部完成语音命令到控制命令的转换，代替现有的声学模型建模、解码器等多个语音识别模块，减少了数据训练量和参数数量，模型结构简单，能够将语音数据处理占用的存储空间降低到几十k或几k，使得在低功耗智能设备上处理转换更多的命令词成为可能。

图4示出了本发明实施例命令词控制方法的实现流程示意图二。参考图4本发明实施例命令词控制方法包括：操作301，以固定帧长采集流式声音信号帧；操作302，对所采集的流式声音信号帧进行特征提取，得到包括命令词和区别于所述命令词的其他类词的音频特征；操作3031，对所得到的音频特征进行网络预测，得到所述命令词对应的置信度和其他类词对应的置信度；操作3032，比较所述命令词对应的置信度和其他类词对应的置信度的值，得到分类判定结果；操作3033，若分类判定结果表征所述命令词对应的置信度的值大于其他类词对应的置信度的值，则控制执行对应所述命令词的操作。在操作3031，可以借助RNN模型或CNN模型对所得到的音频特征进行网络预测。这里，端到端神经网络RNN模型或CNN模型首先通过与命令词相关的标注数据训练得到，每个命令词对应一个标注类别。通过训练使得在实际使用中，当输入音频为命令词时，网络在输入命令词结束点对应的音频特征时，输出到对应命令词的置信度最高。否则，当输入为命令词无关的音频信号时，网络分类为其它类的置信度最高。

具体地，通过使用RNN模型或CNN模型来保留较多的上下文信息。为了获得较多的上下文信息，RNN模型中本身会将前一个时刻的输出状态也作为当前的输入。而对于CNN模型来说，如图5所示，则需要将前N轮网络预测过程中的中间节点的结果及当前轮的音频特征共同作为CNN模型的输入来进行网络预测，N的取值为正整数。举例来说，可以将前N个时刻(一般取决与命令词的长度，如下一首N为100帧)中间节点的结果进行缓存。这样，结合缓存中前N轮网络预测过程中的中间节点的结果及当前轮的音频特征，共同作为CNN模型的输入来进行网络预测。

在操作3032～3033，当命令词为多个时，通过比较每个命令词的置信度，得到置信度最大的类别为分类结果。当分类为命令词时，***触发相应命令；当分类为其它类时，***不做响应。相应的，若分类判定结果表征多个命令词中第一命令词对应的置信度的值大于其余命令词及其他类词对应的置信度，则控制执行对应所述第一命令词的操作。

在一示例中，如图5所示，得到分类为其它类的置信度P(garbage)和每个命令词的置信度P(命令词A)，P(命令词B)，...P(命令词D)。这样，若分类判定结果表征置信度P(命令词A)>P(命令词B)>P(命令词D)，则控制执行命令词A的操作，如播放音乐、暂停播放、下一首、调节音量等。

本发明实施例命令词控制方法，首先以固定帧长采集流式声音信号帧；之后对所采集的流式声音信号帧进行特征提取，得到包括命令词和区别于命令词的其他类词的音频特征；接着，对所得到的音频特征进行网络预测，得到命令词对应的置信度和其他类词对应的置信度；进一步比较所述命令词对应的置信度和其他类词对应的置信度的值，得到分类判定结果；若分类判定结果表征命令词对应的置信度的值大于其他类词对应的置信度的值，则控制执行对应所述命令词的操作。这样，本发明首先是在低功耗智能设备内部完成语音命令到控制命令的转换，其次在低功耗智能设备上利用的是一个端到端的网络预测模型，如CNN模型或RNN模型，代替现有的声学模型建模、解码器等多个语音识别模块，减少了数据训练量和参数数量，模型结构简单，能够将语音数据处理占用的存储空间降低到几十k或几k，使得在低功耗智能设备上处理转换更多的命令词成为可能。

而且，应用本发明实施例命令词控制方法的低功耗智能设备(例如真无线蓝牙耳机)，无需唤醒语音助手，可以直接识别用户的语音命令，即将用户的语音命令在耳机内部转换为控制移动终端进行操作的控制命令，再将该控制命令传输给移动终端，通过该控制命令直接控制移动终端的操作(例如播放音乐、暂停播放、下一首、调节音量等等)。相比现有技术中先使用唤醒词唤醒低功能智能设备，再将语音命令传送给移动终端进行识别处理转换后再进行移动终端播放控制的方案更加便捷、迅速，对用户有更好的使用体验。同时相比现有技术中的命令词识别模型，本发明网络预测的模型结构更简化，占用空间更小，能耗更低，从而延长了低功耗智能设备使用时间。

基于上文所述命令词控制方法，本发明实施例还提供一种命令词控制设备，如图6所示，所述设备60包括：采集模块601，用于以固定帧长采集流式声音信号帧；特征提取模块602，用于对所采集的流式声音信号帧进行特征提取，得到包括命令词在内的音频特征；控制模块603，用于控制执行对应所述命令词的操作。

其中，命令词控制设备60可以为诸如智能耳机在内的任意低功耗智能设备。

根据本发明一实施方式，特征提取模块602具体用于，逐帧对所采集的流式音频信号帧进行特征提取；或，按特定步长跳帧对所采集的流式音频信号帧进行特征提取。

根据本发明一实施方式，特征提取模块602具体用于，对所采集的流式声音信号帧进行Fbank特征提取；或，对所采集的流式声音信号帧进行MFCC特征提取。

根据本发明一实施方式，所述音频特征还包括区别于命令词的其他类词；相应的，控制模块603包括：网络预测单元，用于对所得到的音频特征进行网络预测，得到所述命令词对应的置信度和其他类词对应的置信度；比较单元，用于比较所述命令词对应的置信度和其他类词对应的置信度的值，得到分类判定结果；控制单元，用于若分类判定结果表征所述命令词对应的置信度的值大于其他类词对应的置信度的值，则控制执行对应所述命令词的操作。

根据本发明一实施方式，网络预测单元具体用于，借助RNN模型或CNN模型对所得到的音频特征进行网络预测。

根据本发明一实施方式，网络预测单元，还用于当借助CNN模型对所得到的音频特征进行网络预测时，将前N轮网络预测过程中的中间节点的结果进行缓存，N的取值为正整数；还用于将缓存中前N轮网络预测过程中的中间节点的结果及当前轮的音频特征共同作为CNN模型的输入来进行网络预测。

根据本发明一实施方式，所述命令词包括多个；相应的，控制单元具体用于，若分类判定结果表征所述多个命令词中第一命令词对应的置信度的值大于其余命令词及其他类词对应的置信度，则控制执行对应所述第一命令词的操作。

同样，基于如上文所述命令词控制方法，本发明实施例又提供一种计算机可读存储介质，所述计算机可读存储介质存储有程序，当所述程序被处理器执行时，使得所述处理器至少执行如下所述的操作步骤：操作301，以固定帧长采集流式声音信号帧；操作302，对所采集的流式声音信号帧进行特征提取，得到包括命令词在内的音频特征；操作303，控制执行对应所述命令词的操作。

这里需要指出的是：以上针对命令词控制设备及计算机存储介质实施例的描述，与前述图3和4所示的方法实施例的描述是类似的，具有同前述图3和4所示的方法实施例相似的有益效果，因此不做赘述。对于本发明命令词控制设备实施例中未披露的技术细节，请参照本发明前述图3和4所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种命令词控制方法，其特征在于，所述方法包括：

智能设备以固定帧长采集流式声音信号帧；

对所采集的流式声音信号帧进行特征提取，得到包括命令词和区别于所述命令词的其他类词在内的音频特征；

借助递归神经网络RNN模型或卷积神经网络CNN模型对所得到的音频特征进行网络预测，得到所述命令词对应的置信度和其他类词对应的置信度；

比较所述命令词对应的置信度和其他类词对应的置信度的值，得到分类判定结果；

若分类判定结果表征所述命令词对应的置信度的值大于其他类词对应的置信度的值，则控制执行对应所述命令词的操作。

2.根据权利要求1所述的方法，其特征在于，所述对所采集的流式声音信号帧进行特征提取，包括：

逐帧对所采集的流式音频信号帧进行特征提取；或，按特定步长跳帧对所采集的流式音频信号帧进行特征提取。

3.根据权利要求1所述的方法，其特征在于，所述对所采集的流式声音信号帧进行特征提取，包括：

对所采集的流式声音信号帧进行Fbank特征提取；或，对所采集的流式声音信号帧进行MFCC特征提取。

4.根据权利要求1所述的方法，其特征在于，当借助CNN网络模型对所得到的音频特征进行网络预测时，所述方法还包括：

将前N轮网络预测过程中的中间节点的结果进行缓存，N的取值为正整数；

相应的，借助CNN网络模型对所得到的音频特征进行网络预测，包括：

将缓存中前N轮网络预测过程中的中间节点的结果及当前轮的音频特征共同作为CNN网络模型的输入来进行网络预测。

5.根据权利要求4所述的方法，其特征在于，所述命令词包括多个；

相应的，若分类判定结果表征所述命令词对应的置信度的值大于其他类词对应的置信度的值，则控制执行对应所述命令词的操作，包括：

若分类判定结果表征所述多个命令词中第一命令词对应的置信度的值大于其余命令词及其他类词对应的置信度，则控制执行对应所述第一命令词的操作。

6.一种命令词控制设备，其特征在于，所述设备为智能设备，所述设备包括：

采集模块，用于以固定帧长采集流式声音信号帧；

特征提取模块，用于对所采集的流式声音信号帧进行特征提取，得到包括命令词和区别于所述命令词的其他类词在内的音频特征；

控制模块，用于借助递归神经网络RNN模型或卷积神经网络CNN模型对所得到的音频特征进行网络预测，得到所述命令词对应的置信度和其他类词对应的置信度；

7.根据权利要求6所述的设备，其特征在于，

所述特征提取模块具体用于，逐帧对所采集的流式音频信号帧进行特征提取；或，按特定步长跳帧对所采集的流式音频信号帧进行特征提取。

8.根据权利要求6或7所述的设备，其特征在于，所述命令词控制设备为智能耳机。