CN113692618B

CN113692618B - 一种语音命令识别的方法及装置

Info

Publication number: CN113692618B
Application number: CN201980095577.6A
Authority: CN
Inventors: 陈勰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2023-04-28
Anticipated expiration: 2039-04-30
Also published as: WO2020220345A1; CN113692618A

Abstract

提供了一种语音命令识别的方法及装置，其中该方法包括:接收待确定语音命令的第一音频信号(步骤21)；针对N个候选语音命令分别执行以下过程:在第一音频信号中，滤除第n个候选i吾音命令对应的第二音频信号，得到第三音频信号；将第三音频信号输入到预先训练完成的音频模型中，该音频模型用于识别输入的音频信号与背景音频信号的匹配度，得到第n个候选语音命令对应的匹配度(步骤22)；n取遍1‑N的每个整数，N为大于0的整数；根据N个候选语音命令对应的匹配度，确定第一音频信号中的语音命令(步骤24)。将语音命令的识别过程转换为噪音的分类问题，可以提升语音命令识别的准确性及场景适应性。

Description

一种语音命令识别的方法及装置

技术领域

本申请涉及语音识别领域，特别涉及一种语音命令识别的方法及装置。

背景技术

随着语音识别技术的发展进步，越来越多的语音识别装置安装在智能终端、家电设备、公共设施设备和工业设备上，以使各种设备能够实现语音识别，消除了人机交互的障碍。设备可通过语音命令来执行相应的功能，比如，受控设备检测到语音命令“开机”时，可以执行“开机”的操作。

而语音识别技术很容易受到人为噪音以及自然噪音的影响，且语音识别的准确率与噪音直接相关，比如当噪音较小时，语音识别率较高，但是当噪音很大时，语音识别效果将会变得很差，甚至受控设备不能识别到对应的语音命令。

基于此，在自然噪音以及人为噪音存在的场景下，如何提高语音命令识别的准确率，是需要引起重视的问题。

发明内容

本申请提供了一种语音命令识别的方法及装置，用以解决现有技术中在存在噪音时，语音命令识别准确率低的问题。

第一方面，提供了一种语音命令识别的方法，受控设备接收待确定语音命令的第一音频信号；受控设备中保存有N个候选语音命令；针对N个候选语音命令，受控设备可以分别执行以下过程：在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号，得到第三音频信号；将第三音频信号输入到预先训练完成的音频模型中，所述音频模型用于识别输入的音频信号与背景音频信号的匹配度，得到第n个候选语音命令对应的匹配度；n取遍1-N的每个整数，N为大于0的整数；受控设备可以根据N个候选语音命令分别对应的匹配度，确定所述第一音频信号中的语音命令。

通过轮询所有语音命令的方式判断当前用户想到的语音命令是什么，将语音命令的识别过程转换为一个“噪音”的分类问题，可以较好提升语音命令识别的准确性及场景适应性。

在一种可能的实现中，受控设备可以预先训练所述音频模型，受控设备可以先采集包括语音命令的第一样本背景音信号，其中，每个第一样本背景音信号中包括一个或多个语音命令的音频信号；然后可以在第一样本背景音信号中滤除所述第一样本背景音信号包括的语音命令的音频信号，得到第二样本背景音信号；还可以在所述第一样本背景音信号中滤除所述第一样本背景音信号未包括的语音命令的音频信号，得到对应的第一样本非背景音信号；还可以在所述第二样本背景音信号中滤除所述第二样本背景音信号未包括的语音命令的音频信号，得到对应的第二样本非背景音信号；最后采用多个第一样本背景音信号和对应的第一样本非背景音信号，以及多个第二样本背景音信号和对应的第二样本非背景音信号，训练得到所述音频模型。

通过CNN训练模型的方式来检测噪音，这种方法针对各种场景具有普适性，在一个新的场景中，只需要增加当前场景的训练数据，即可在新场景中有较高的识别率。

在一种可能的实现中，受控设备可以判断候选语音命令的数量N是否为1，如果所述N为1；在根据N个候选语音命令对应的匹配度，确定所述第一音频信号中的语音命令时，可以是判断所述候选语音命令对应的匹配度是否大于预设的第一匹配度阈值；如果是，则确定所述第一音频信号中的语音命令为所述候选语音命令；如果否，则确定所述第一音频信号中不包括语音命令。如果所述N大于1；在根据N个候选语音命令对应的匹配度，确定所述第一音频信号中的语音命令时，可以是在N个候选语音命令分别对应的匹配度中选择数值最大的匹配度，并判断数值最大的匹配度是否大于预设的第二匹配度阈值；如果是，则确定所述第一音频信号中的语音命令为数值最大的匹配度值对应的候选语音命令；如果否，则确定所述第一音频信号中不包括语音命令。

在一种可能的实现中，受控设备还可以判断是否采集到发出第一音频信号的用户给出的第一动作信息；如果是，在预设的语音命令库中确定出的所述第一动作信息分别对应的至少一个第一语音命令，将所述第一语音命令作为所述N个候选语音命令，所述语音命令库中预先保存有多个语音命令以及每个语音命令分别对应的动作信息；如果否，则将所述语音命令库中预先保存的多个语音命令作为所述N个候选语音命令。

通过用户的动作信息预判用户想要表达的语音命令是什么，可以进一步提高语音命令识别的准确率。

在一种可能的实现中，在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号之前，受控设备还可以根据第一音频信号，预测发出所述第一音频信号的用户的第一年龄段；在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号时，可以是在所述第一音频信号中，滤除第n个候选语音命令对应所述第一年龄段的第二音频信号。

通过预测发出语音命令的用户的年龄段，滤除对应年龄段的音频信号，可以进一步提高语音命令识别的准确率。

第二方面，提供了一种语音命令识别的装置，该装置具有实现上述第一方面和第一方面的任一种可能的实现中方法的功能模块。所述功能模块可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一种可能的实现中，该装置可以是芯片或者集成电路。

在一种可能的实现中，该装置包括音频采集器和处理器，所述装置可以通过处理器执行上述第一方面和第一方面中任一种可能的实现中的方法。其中，上述的音频采集器可以是麦克等拾音电路。

在一种可能的实现中，该装置还可以包括存储器；所述存储器，用于存储计算机程序。

第三方面，提供一种计算机可读存储介质，所述计算机存储介质中存储有计算机可读指令，当所述计算机可读指令被运行时，使得装置可以执行上述第一方面和第一方面的任一可能的实现中的方法。

第四方面，提供一种计算机程序产品，当所述计算机程序产品被运行时，使得装置可以执行上述第一方面和第一方面的任一可能的实现中的方法。

第五方面，提供一种芯片，所述芯片与存储器耦合，所述芯片用于读取并执行所述存储器中存储的软件程序，以实现上述第一方面和第一方面的任一可能的实现中的方法。

附图说明

图1A为本申请实施例中提供的一种音频信号的波形叠加效果示意图；

图1B为本申请实施例中提供的一种音频信号的波形滤除效果示意图；

图2A为本申请实施例中提供的一种语音命令的识别过程示意图；

图2B为本申请实施例中提供的一种语音命令的识别过程示意图；

图3为本申请实施例中提供的一种语音命令的识别过程示意图；

图4为本申请实施例中提供的一种语音命令的识别装置结构图；

图5为本申请实施例中提供的一种语音命令的识别装置结构图。

具体实施方式

下面将结合附图，对本申请实施例进行详细描述。

用户可以发出语音命令，对受控设备进行控制，相应的，受控设备可以接收用户发出的语音命令，并开启语音识别功能，识别出用户发出的语音命令是什么，从而根据识别出的语音命令执行相应的操作，比如用户可以通过声音信号控制电子设备开关机，或者控制电子设备中的相应APP执行相关的搜索并提示信息的功能。用户在发出语音命令时，一般都伴随着背景音即噪音的出现，对于受控设备而言，接收到的不仅是语音命令，还可能会包含背景音。

在现有的语音命令识别方法中，一般采用的方式为：受控设备接收到一段包含语音命令的音频信号后，对该音频信号进行预处理，例如进行自动增益控制(Automatic GainControl，AGC)、主动噪声消除Active Noise Cancellation，ANC)等，然后对预处理后的音频信号进行语音命令识别，一种可实施的方式为将音频信号的特征用向量表示出来，计算预处理后的音频信号的向量和语音命令的向量之间的距离，如果距离小于阈值，则说明当前接收到的音频信号中包括该距离小于阈值的语音命令。另一种可实施的方式为预先训练用于对语音命令进行分类的卷积神经网络(Convolutional Neural Network，CNN)，将预处理后的音频信号送入到CNN中，进行分类，根据CNN的分类结果确定接收到的音频信号中包含哪个语音命令。由于判断一段有噪音的音频信号是哪个语音命令是不容易的，导致现有的语音识别方法在有噪音干扰时，语音命令识别准确率较低。

基于此，本申请提供了一种在有噪音干扰时识别语音命令的方法，受控设备在接收到一段音频信号后，可以先滤除一些设定的语音命令，判断剩余的音频信号是否为噪音，如果是，则接收到的音频信号中包括滤除的至少一个语音命令，也就是识别出了音频信号中包括的语音命令。

由于，判断一段音频信号是否为噪音，相对于判断一段有噪音干扰的音频信号是哪个语音命令来说要简单，所以，本申请可以提高识别语音命令的效率和准确率。

在本申请中，可以首先训练出音频模型，所述音频模型通过CNN确定出背景音频信号的特征，当向音频模型输入一个音频信号后，所述音频模型就可以确定出输入的音频信号与背景音频信号的匹配度，匹配度越高，说明输入的音频信号越接近背景音频信号，相反，匹配度越低，说明输入的音频信号越不是背景音频信号。接下来详细说明所述音频模型的训练过程：

首先，获取训练数据，包括样本背景音频信号和样本非背景音频信号，其中，样本背景音频信号可称为正样本，样本非背景音频信号可称为负样本。

以下说明正样本的获取过程：

用户在发出语音命令时，可能周围存在其他人也在发出语音命令的情况，其他人发出的语音命令相对于要识别的语音命令来说，就是一个噪音，即背景音频信号，所以包括语音命令的音频信号也可以看作是背景音频信号。受控设备可以采集包括语音命令的第一样本背景音信号，其中，每个第一样本背景音信号中包括一个或多个语音命令的音频信号。

受控设备可以在第一样本背景音频信号中滤除所述第一样本背景音信号包括的一个或多个语音命令的音频信号，得到第二样本背景音信号。

假设受控设备采集的第一样本背景音频信号中包括的语音命令为“开机”和“换台”，则在第一样本背景音频信号中滤除“开机”的音频信号后，得到的音频信号为第二样本背景音频信号；在第一样本背景音频信号中滤除“换台”的音频信号后，得到的音频信号为第二样本背景音频信号；在第一样本背景音频信号中滤除“开机”和“换台”的音频信号后，得到的音频信号也为第二样本背景音频信号。

为了提高语音命令识别的准确率，以及提高场景适用性，当然正样本也可以包括无干扰的语音命令的音频信号。

以下说明获取负样本的过程：

负样本不是背景音频信号，受控设备可以在样本背景音信号中滤除所述样本背景音信号未包括的语音命令的音频信号，得到样本非背景音信号。具体可以是在所述第一样本背景音信号中滤除所述第一样本背景音信号未包括的语音命令的音频信号，得到对应的第一样本非背景音信号；在所述第二样本背景音信号中滤除所述第二样本背景音信号未包括的语音命令的音频信号，得到对应的第二样本非背景音信号。

假设样本背景音频信号中包括的语音命令为“关机”，该样本背景音频信号滤除“开机”的音频信号后，得到的音频信号为样本非背景音频信号，该样本背景音频信号滤除“换台”的音频信号后，得到的音频信号也为样本非背景音频信号。

假设，样本背景音频信号中不包括语音命令，该样本背景音频信号滤除“换台”或“关机”或“开机”等任一语音命令的音频信号后，得到的音频信号均为样本非背景音频信号。

假设，语音命令为Y个，针对不包括语音命令的任一正样本，其对应的负样本为Y个，如果正样本中包括一个语音命令，其对应的负样本为Y-1个，依次类推。

根据上述的过程获取到了训练数据，即正样本和负样本，同时还可以挑选CNN模型，最后，将获取到的正样本和负样本输出到CNN模型中，也就是采用采用多个第一样本背景音信号和对应的第一样本非背景音信号，以及多个第二样本背景音信号和对应的第二样本非背景音信号，训练得到音频模型。

在本申请中，有干扰的噪音包括人为噪声和自然噪声。其中，人为噪声是指由机器或其他人工装置产生的电磁噪声。自然噪声包括火山爆发、地震、雪崩和滑坡等自然现象会产生空气声、地声(在地内传播)和水声(在水中传播)；此外，自然界中还有潮汐声、雷声、瀑布声、风声、陨石进入大气层的轰声，以及动物发出的声音等非人为活动产生的声音等。

为了便于理解本申请实施例，如图1A所示，介绍一种音频信号的波形叠加效果示意图；无任何干扰的语音命令的波形与噪音的波形叠加在一起，可以看作是现场录音的波形。现场录音也就是受控设备接收到的音频信号，本申请用于识别现场录音中的语音命令，相反的，如图1B所示，现场录音的波形滤除掉语音命令的波形后可以得到噪音的波形。图1A和1B所示的波形以横坐标：时间单位秒“s”，以纵坐标幅值构建而成。

如图2A所示，提供了一种语音命令的识别过程示意图：

步骤21：受控设备接收待确定语音命令的第一音频信号。

步骤22：受控设备在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号，得到第三音频信号；将第三音频信号输入到预先训练完成的音频模型中，所述音频模型用于识别输入的音频信号与背景音频信号的匹配度，得到第n个候选语音命令对应的匹配度。

步骤23：判断n是否为N，如果是，则进行步骤24，如果否，则进行步骤25。

步骤24：根据N个候选语音命令对应的匹配度，确定所述第一音频信号中的语音命令。

步骤25：采用n+1对n进行更新，并返回步骤22。

在本申请实施例中，受控设备在接收到待确定语音命令的第一音频信号后，可以先确定待滤除的候选语音命令。一般情况下，保存有语音命令库，可以将语音命令库中的语音命令均作为候选语音命令。假设，确定出的候选语音命令为N个，N为大于0的整数，受控设备可以遍历N个候选语音命令，来判断用户当前想表达的语音命令是什么。

受控设备将N个语音命令进行排序，分别为1至N，受控设备可以先在所述第一音频信号中，滤除第1个候选语音命令对应的第二音频信号，得到一个第三音频信号；将第三音频信号输入到预先训练完成的音频模型中，所述音频模型输出第1个候选语音命令对应的一个匹配度。然后受控设备在所述第一音频信号中，滤除第2个候选语音命令对应的第二音频信号，得到另一个第三音频信号；将该第三音频信号输入到预先训练完成的音频模型中，所述音频模型输出第2个候选语音命令对应的另一个匹配度，以此类推，依次对N个语音命令中的每个剩余语音命令分别执行上述处理，直至得到第N个候选语音命令对应的匹配度。最后，根据N个候选语音命令分别对应的N个匹配度，确定所述第一音频信号中的语音命令，具体的确定过程，可参见图2B所示。

举例来说，假如语音命令库中总共包括5个语音命令，顺序分别为“开机、换台、声音调大、声音调小、关机”，首先取出“开机”的音频信号，将接收到第一音频信号与“开机”的音频信号做Eltwise减法(音频数据按位做减法)，并送入到音频模型中进行分类，记录音频模型输出的匹配度1。

然后取出“换台”的音频信号，将接收到第一音频信号与“换台”的音频信号做Eltwise减法，并送入到音频模型中进行分类，记录音频模型输出的匹配度2，以此类推，直至取出“关机”的音频信号，将接收到第一音频信号与“关机”的音频信号做Eltwise减法，并送入到音频模型中进行分类，记录音频模型输出的匹配度5。至此，得出了每个语音命令对应的匹配度。其对应关系可以如下表1所示：

语音命令	开机	换台	声音调大	声音调小	关机
						匹配度	20％	8％	2％	3％	80％

表1

本申请实施例通过轮询所有语音命令的方式判断当前用户想到的语音命令是什么，将语音命令的识别过程转换为一个“噪音”的分类问题，可以较好提升语音命令识别的准确性及场景适应性。

并且通过CNN的方式来检测噪音，这种方法对各种场景具有普适性，在一个新的场景中，只需要增加当前场景的训练数据，即可在新场景中有较高的识别率。

在本申请中，不同用户的年龄可能是不同的，本申请中可以针对语音命令库中的任一语音命令，提前录制不同年龄阶段的音频信号，可以将不同年龄阶段的音频信号进行组装，该组装的过程可看作是线性组合，不同年龄的用户发出的音频信号组装成一个音频信号。在确定正样本和负样本，以及进行语音命令的音频信号滤除时，语音命令的音频信号为不同年龄的用户发出的音频信号组装后的一个音频信号。

不同年龄段的音频信号的对应关系可以如下表2所示：

表2

针对语音命令“开机”来说，可以将其对应的音频信号1a-1e组装成一个音频信号。

当然，为了提高语音命令识别的准确性，在进行音频模型训练时，可以根据不同年龄段的音频信号确定正样本和负样本，例如，受控设备采集包括语音命令为“开机”的第一样本背景音频信号时，可以分别针对如表2所示的5个不同年龄段采集，则受控设备可以采集如表2所示的5个年龄段的用户发出“开机”的语音命令时的音频信号，作为第一样本背景音频信号。也就是采集包括音频信号1a的第一样本背景音频信号，采集包括音频信号为1b的第一样本背景音频信号，采集包括音频信号1c的第一样本背景音频信号，采集包括音频信号为1d的第一样本背景音频信号，采集包括音频信号为1e的第一样本背景音频信号。

基于此种情况，即针对任一候选语音命令，保存有多个年龄段的第二音频信号时；在上述图2A的步骤22：在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号，得到第三音频信号之前，受控设备还可以根据接收到的第一音频信号，确定发出所述音频信号的用户所处的第一年龄段；将保存的第n个候选语音命令对应的所述第一年龄段的第二音频信号作为需要滤除的音频信号。则在执行步骤22时，具体可以为在所述第一音频信号中，滤除第n个候选语音命令对应的第一年龄段的第二音频信号，得到第三音频信号。其中受控设备可以根据接收到的第一音频信号的频率信息等参数，确定发出所述音频信号的用户所处的年龄段，确定过程为现有技术，这里不再过多赘述。

本申请还可以针对任一语音命令，采集性别不同的音频信号，在进行音频模型训练，和音频模型使用时，均需要识别语音命令的不同的性别的音频信号。具体过程与上述的年龄段类似，不再进行赘述。

需要说明的是，在进行音频信号滤除时，如果是采用如图1B所示的音频信号的波形滤除方法，受控设备还可以对候选语音命令的音频信号的波形与接收的第一音频信号的波形进行时域上的调整，消除时域上的偏差，以及进行振幅的调整，将待滤除的音频信号的波形的最大振幅与接收到的第一音频信号的波形的最大振幅调成一致。

可选的，如图2A所示，在上述步骤22之前，受控设备还可以对当前会出现的语音命令进行预判，该预判语音命令的过程也可以理解为确定候选语音命令的过程，具体如下：

步骤26：判断是否采集到发出第一音频信号的用户的第一动作信息；如果是，执行步骤27；如果否，执行步骤28。

上述步骤22与步骤26的先后顺序不限。

受控设备可以对接收到第一音频信号的语音命令进行预判，预判出第一音频信号中包括的语音命令是哪个，具体可以通过发出第一音频信号的用户的动作信息进行预判，例如可以通过收集的用户的手势进行预判，也可以源于其他检测机制，例如用户的脸部表情，或者肢体动作等进行预判。

示例性地，受控设备上可以安装摄像头，受控设备在进行语音命令识别时，可以同步开启摄像头，采集用户进行语音命令输入时的图像信息，该图像信息中包括用户的手势、肢体动作或表情等信息，一般用户为了准确控制受控设备，会在规定的距离内在发出语音命令，这时，受控设备上的摄像头可以采集到发出语音命令的用户的图像信息。

步骤27：根据语音命令库中预先保存的每个语音命令对应的动作信息，确定所述第一动作信息对应的第一语音命令；将所述第一动作信息对应的第一语音命令作为步骤28中的候选语音命令。

受控设备可以针对语音命令库中的每个语音命令，提前录制其对应的动作信息，如果受控设备采集到的图像中包括第一动作信息，则可以根据语音命令库中预先保存的每个语音命令对应的动作信息，确定所述第一动作信息对应的第一语音命令，将所述第一动作信息对应的第一语音命令作为语音命令库中预先保存的候选语音命令。一般一个动作信息对应一个语音命令，则后续在执行步骤22时，一般仅会滤除一次候选语音命令。

当然也会存在即使采集到动作信息，也没有与采集到的动作信息匹配的语音命令，也相当于没有预判出候选语音命令，此时，也可以将语音命令库中的所有的语音命令均作为候选语音命令。

步骤28：将语音命令库中预先保存的每个语音命令作为候选语音命令，然后执行上述步骤22及其之后的处理过程。如果受控设备没有采集到图像信息或者采集到的图像中不包括动作信息，此时，可以将语音命令库中的所有的语音命令均作为候选语音命令。

在本申请中，用户的说话速度与语音命令库中保存的语音命令的速度可能是不同的，并且受控设备接收到的第一音频信号中的语音命令的开始时间不是第一音频信号的开始时间，例如，接收到的包括语音命令“换台”的第一音频信号的持续时间为4s，其中，语音命令“换台”的第二音频信号从第0.5s开始，第2.5s结束，语音命令库中的语音命令“换台”的第二音频信号的持续时间为0.1s。

为了消除第一音频信号与语音命令的第二音频信号的时域偏差，可以预先训练用于消除两个音频信号的时域偏差的模型，以便提高在一个音频信号中滤除另一音频信号的准确性。

首先，采集训练数据，可以是采集包括语音命令的现场音频信号，其中，每个现场音频信号中包括一个或多个语音命令的音频信号；例如采集的现场音频信号中包括语音命令“关机”和“换台”。

并确定现场音频信号中包括的任一个语音命令的音频信号开始时间和结束时间，以及语音命令库中保存的所述任一个语音命令的第二音频信号的持续时间；例如，采集的现场音频信号中包括语音命令“关机”的音频信号，用户知道“关机”从第0.2s开始，2.2s结束，即开始时间为第0.2s，结束时间为第2.2s，语音命令库中保存的语音命令“关机”的第二音频信号的持续时间为1s。采集的现场音频信号中包括语音命令“换台”的音频信号，用户知道“换台”从第0.4s开始，2.5s结束，即开始时间为第0.4s，结束时间为第2.5s，语音命令库中保存的语音命令“换台”的第二音频信号的持续时间为1s。

采用多组训练数据，训练用于消除两个音频信号的时域偏差的模型，其中一组训练数据包括：一个现场音频信号，该现场音频信号中包括的一个语音命令的音频信号的开始时间和结束时间，及所述语音命令的音频信号在语音命令库中的持续时间。

在训练出所述模型后，在接收到的所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号之前，可以先将所述第一音频信号及所述第n个候选语音命令对应的第二音频信号输入到预先训练好的用于消除两个音频信号的时域偏差的模型中，所述模型用于识别第一音频信号中的语音命令的开始时间，以及与第一音频信号中的语音命令的音频信号与第n个候选语音命令的第二音频信号的缩放比例。所述开始时间和缩放比例可以称为时域偏差信息。该缩放比例可以理解为第一音频信号中的语音命令的持续时间与第n个候选语音命令的持续时间的比值。参见上述语音命令“换台”的举例，缩放比例为(2.5-0.4)/1＝2.1。

在接收到的所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号时，可以是根据第一音频信号中的语音命令的开始时间，以及与第一音频信号中的语音命令的音频信号与第n个候选语音命令的第二音频信号的缩放比例，滤除第n个候选语音命令对应的第二音频信号。具体的，可以是根据缩放比例，对候选语音命令的音频信号的速度进行调整，并根据开始时间确定第一音频信号滤除第二音频信号的开始位，在开始位上开始滤除。

如图3所示，提供了一种语音命令识别的过程示意图；

受控设备采集用户的手势信息，以及第一音频信号(现场录音)，受控设备根据手势信息对语音命令进行预判，具体可以采用现有的手势识别网络模型进行预判。

受控设备将预判出的语音命令的第二音频信号与第一音频信号的振幅调整一致，然后将第一音频信号与第二音频信号输入到CNN1中，其中CNN1为用于消除两个音频信号的时域偏差的模型。然后根据CNN1模型的输入结果，将第一音频信号与第二音频信号做Eltwise减法，并输入到CNN2，其中CNN2为用于识别输入的音频信号与背景音频信号的匹配度的音频模型。根据CNN2模型输出的匹配度，确定第一音频信号中的语音命令是否为手势信息对应的语音命令。

受控设备在确定出N个候选语音命令对应的匹配度后，就可以根据匹配度识别第一音频信号中的语音命令了，可选的，具体过程可参见图2B所示：

步骤231：判断N是否为1；如果是，则执行步骤232，如果否，则执行步骤234。

步骤232：判断所述候选语音命令对应的匹配度是否大于预设的第一匹配度阈值；如果是，则执行步骤233，如果否，则结束，确定第一音频信号中不包括语音命令。

步骤233：确定所述第一音频信号中的语音命令为保存的一个所述候选语音命令。

步骤234：在N个候选语音命令对应的匹配度中选择数值最大的匹配度。

步骤235：判断数值最大的匹配度是否大于预设的第二匹配度阈值；如果是，则执行步骤236，如果否，则结束，确定第一音频信号中不包括语音命令。

步骤236：确定所述第一音频信号中的语音命令为数值最大的匹配度值对应的候选语音命令。

上述的第一匹配度阈值和第二匹配度阈值可以相同，也可以不同。

基于与上述语音命令识别的方法的同一构思，如图4所示，本申请实施例还提供了一种语音命令识别的装置400，该语音命令识别的装置400，用于执行上述语音命令识别的方法中受控设备执行的如图2A、图2B中的操作。

该语音命令识别的装置400包括：

采集模块402，用于接收待确定语音命令的第一音频信号；

处理模块401，用于针对N个候选语音命令分别执行以下过程：在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号，得到第三音频信号；将第三音频信号输入到预先训练完成的音频模型中，所述音频模型用于识别输入的音频信号与背景音频信号的匹配度，得到第n个候选语音命令对应的匹配度；n取遍1-N的每个整数，N为大于0的整数；

根据N个候选语音命令对应的匹配度，确定所述第一音频信号中的语音命令。

可选的，所述处理模块401，还用于：

采集包括语音命令的第一样本背景音信号，其中，每个第一样本背景音信号中包括一个或多个语音命令的音频信号；

在第一样本背景音信号中滤除所述第一样本背景音信号包括的语音命令的音频信号，得到第二样本背景音信号；

在所述第一样本背景音信号中滤除所述第一样本背景音信号未包括的语音命令的音频信号，得到对应的第一样本非背景音信号；

在所述第二样本背景音信号中滤除所述第二样本背景音信号未包括的语音命令的音频信号，得到对应的第二样本非背景音信号；

采用多个第一样本背景音信号和对应的第一样本非背景音信号，以及多个第二样本背景音信号和对应的第二样本非背景音信号，训练得到所述音频模型。

可选的，所述N为1；

所述处理模块401，在用于根据N个候选语音命令对应的匹配度，确定所述第一音频信号中的语音命令时，具体用于：

判断所述候选语音命令对应的匹配度是否大于预设的第一匹配度阈值；

如果是，则确定所述第一音频信号中的语音命令为所述候选语音命令；

如果否，则确定所述第一音频信号中不包括语音命令。

可选的，所述N大于1；

在N个候选语音命令分别对应的匹配度中选择数值最大的匹配度，并判断数值最大的匹配度是否大于预设的第二匹配度阈值；

如果是，则确定所述第一音频信号中的语音命令为数值最大的匹配度值对应的候选语音命令；

如果否，则确定所述第一音频信号中不包括语音命令。

可选的，所述处理模块401，还用于：

判断是否采集到发出第一音频信号的用户给出的第一动作信息；

如果是，将在预设的语音命令库中确定出的所述第一动作信息分别对应的至少一个第一语音命令，作为所述N个候选语音命令，所述语音命令库中预先保存有多个语音命令以及每个语音命令分别对应的动作信息；

如果否，则将所述语音命令库中预先保存的多个语音命令作为所述N个候选语音命令。

可选的，所述处理模块401，在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号之前，还用于：

根据第一音频信号，预测发出所述第一音频信号的用户的第一年龄段；

所述处理模块401，在用于在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号时，具体用于：

在所述第一音频信号中，滤除第n个候选语音命令对应所述第一年龄段的第二音频信号。

基于与上述语音命令识别的方法的同一技术构思，如图5所示，本申请实施例还提供了一种语音命令识别的装置500，该语音命令识别的装置500，用于执行上述语音命令识别的方法中受控设备执行的如图2A、图2B的操作。

该语音命令识别的装置500包括：处理器501和音频采集器502，可选的，还包括存储器503。处理器501用于调用一组程序，当程序被执行时，使得处理器501执行上述语音命令识别的方法中受控设备执行的操作。存储器503用于存储处理器501执行的程序。图4中的处理模块401均可以通过处理器501来实现，采集模块402可以通过音频采集器502来实现。

处理器可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

处理器还可以进一步包括硬件芯片或其他通用处理器。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)及其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等或其任意组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。应注意，本申请描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本申请实施例提供了一种计算机存储介质，存储有计算机程序，该计算机程序包括用于执行上述语音命令识别的方法。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述提供的语音命令识别的方法。

本申请实施例提供的任一种语音命令识别的装置还可以是一种芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音命令识别的方法，其特征在于，包括：

接收待确定语音命令的第一音频信号；

针对N个候选语音命令分别执行以下过程：在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号，得到第三音频信号；将第三音频信号输入到预先训练完成的音频模型中，所述音频模型用于识别输入的音频信号与背景音频信号的匹配度，得到第n个候选语音命令对应的匹配度；n取遍1-N的每个整数，N为大于0的整数；

2.如权利要求1所述的方法，其特征在于，预先训练所述音频模型的过程包括：

3.如权利要求1所述的方法，其特征在于，所述N为1；

所述根据N个候选语音命令对应的匹配度，确定所述第一音频信号中的语音命令，包括：

如果否，则确定所述第一音频信号中不包括语音命令。

4.如权利要求1所述的方法，其特征在于，所述N大于1；

如果否，则确定所述第一音频信号中不包括语音命令。

5.如权利要求1-4任一项所述的方法，其特征在于，还包括：

6.如权利要求1-4任一项所述的方法，其特征在于，在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号之前，还包括：

在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号，包括：

7.一种语音命令识别的装置，其特征在于，包括：

采集模块，用于接收待确定语音命令的第一音频信号；

处理模块，用于针对N个候选语音命令分别执行以下过程：在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号，得到第三音频信号；将第三音频信号输入到预先训练完成的音频模型中，所述音频模型用于识别输入的音频信号与背景音频信号的匹配度，得到第n个候选语音命令对应的匹配度；n取遍1-N的每个整数，N为大于0的整数；根据N个候选语音命令对应的匹配度，确定所述第一音频信号中的语音命令。

8.如权利要求7所述的装置，其特征在于，所述处理模块，还用于：

9.如权利要求7所述的装置，其特征在于，所述N为1；

所述处理模块，在用于根据N个候选语音命令对应的匹配度，确定所述第一音频信号中的语音命令时，具体用于：

如果否，则确定所述第一音频信号中不包括语音命令。

10.如权利要求7所述的装置，其特征在于，所述N大于1；

如果否，则确定所述第一音频信号中不包括语音命令。

11.如权利要求7-10任一项所述的装置，其特征在于，所述处理模块，还用于：

12.如权利要求7-10任一项所述的装置，其特征在于，所述处理模块，在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号之前，还用于：

所述处理模块，在用于在所述第一音频信号中，滤除第n个候选语音命令对应的第二音频信号时，具体用于：

13.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器与所述存储器耦合；

所述存储器，用于存储计算机程序；

所述处理器，用于执行计算机程序时，使得所述电子设备执行如权利要求1-6任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机存储介质中存储有计算机可读指令，当所述计算机可读指令被运行时，使得装置执行如权利要求1-6任一项所述的方法。

15.一种芯片，其特征在于，所述芯片与存储器耦合，用于读取并执行所述存储器中存储的软件程序，以实现如权利要求1-6任一项所述的方法。