CN115731923A

CN115731923A - 命令词响应方法、控制设备及装置

Info

Publication number: CN115731923A
Application number: CN202110987596.9A
Authority: CN
Inventors: 王莞尔; 匡明
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-03-03

Abstract

本申请适用于语音控制领域，提供了一种命令词响应方法、控制设备及装置。在本申请提供的方法中，控制设备在获取到控制命令词之后，可以根据该控制命令词对应的场景系数确定是否执行交互确认操作。如果控制设备根据场景系数确定执行交互确认操作，则通过本设备和/或其他设备发出交互确认提示信息。之后，当控制设备接收到上述交互确认提示信息对应的确认响应时，控制设备对该控制命令词进行响应。在本申请的命令词响应方法中，控制设备并不是对所有控制命令词都进行交互确认，而是根据场景系数对控制命令词进行区分，针对部分场景系数对应的控制命令词进行交互确认，减小了语音控制的复杂度，提高了语音控制的流畅性，具有较强的易用性和实用性。

Description

命令词响应方法、控制设备及装置

技术领域

本申请涉及语音控制领域，尤其涉及一种命令词响应方法、控制设备及装置。

背景技术

随着语音识别技术的发展，越来越多的智能家居设备可以由用户通过语音进行控制，或者实现与用户的语音交互。但是，语音识别的人声信号有可能是用户发出的人声信号，或者，也有可能是其他具备扬声器的电子设备发出的人声信号。

由于用户主动发出的人声信号和电子设备发出的人声信号的声学特征较为相似，因此，当出现后一种场景时，语音识别发生误识别的可能性较高，容易出现违背用户意图的操作，影响用户的使用体验。

为此，有的厂商提出多轮对话的方案。在这些方案中，当语音识别检测到操控类的命令词时，智能家居设备可以和用户进行多轮对话，以此确认用户的真实意图。

上述多轮对话的方案，固然可以在一定程度上减少误识别的可能性，但是，由于用户需要在语音控制的过程中进行多轮对话，这无疑会增加语音控制的复杂度，影响语音控制的流畅性。

发明内容

本申请实施例提供了一种命令词响应方法、控制设备及装置，可以解决现有的多轮对话方案复杂度高，流畅性低的问题。

第一方面，本申请实施例提供了一种命令词响应方法，应用于控制设备，所述方法包括：

获取人声信号对应的控制命令词；其中，所述人声信号是由拾音设备采集的；

获取所述控制命令词对应的场景系数；

根据所述场景系数，确定是否执行交互确认操作；

若根据所述场景系数，确定执行所述交互确认操作，则发出交互确认提示信息和/或指示其他设备发出交互确认提示信息；

在接收到所述交互确认提示信息对应的确定响应的情况下，执行所述控制命令词对应的操作和/或指示所述控制命令词对应的电子设备执行所述控制命令词对应的操作。

需要说明的是，拾音设备是指具备麦克风的电子设备。在一些场景中，控制设备和拾音设备可以是相互独立的两个电子设备；在另一些场景中，控制设备和拾音设备也可以是同一个电子设备。

当拾音设备采集到人声信号时，拾音设备可以对该人声信号进行处理，并在识别到控制命令词时，向控制设备发送控制命令词。

或者，拾音设备也可以向控制设备发送人声信号。当控制设备接收到上述人声信号时，控制设备可以对该人声信号进行处理，得到控制命令词。

控制设备在获取到控制命令词之后，可以获取该控制命令词对应的场景系数。

场景系数用于表征控制命令词的影响范围，影响范围是指控制命令词被误识别时，对用户产生的不利影响的程度。

因此，控制设备可以根据该场景系数，确定是否执行交互确认操作。

当控制设备确定执行交互确认操作时，控制设备可以通过本设备发出交互确认提示信息，和/或，控制设备也可以指示其他设备发出交互确认提示信息。

例如，假设控制设备为家庭中枢，当家庭中枢确定执行交互确认操作时，家庭中枢可以在本设备的显示屏上显示提示信息，以及，家庭中枢可以指示智能音箱通过扬声器播放提示音频。

用户在发现上述交互确认提示信息时，如果上述控制命令词是用户想要下达指令，则用户可以对该交互确认提示信息进行确认响应。

当控制设备接收到上述交互确认信息对应的确认响应时，控制设备可以执行该控制命令词对应的操作，和/或，控制设备也可以指示上述控制命令词对应的电子设备执行控制命令词对应的操作。

例如，假设控制设备为智能音箱，控制命令词为“播放电视剧”。当智能音箱接收到交互确认信息对应的确认响应时，智能音箱可以通过本设备的扬声器播放电视剧的音频，并指示智能电视播放电视剧的画面。

在本申请实施例提供的命令词响应方法中，控制设备可以通过交互确认的方式确定用户的真实意图，减少误识别的可能性。

并且，控制设备并不是对所有控制命令词都进行交互确认，而是根据场景系数对控制命令词进行区分，针对部分场景系数对应的控制命令词进行交互确认，减小了语音控制的复杂度，提高了语音控制的流畅性，具有较强的易用性和实用性。

在第一方面的一种可能的实现方式中，在确定执行所述交互确认操作的情况下，所述方法还包括：

在接收到所述交互确认提示信息对应的否定响应，或者，未接收到所述交互确认提示信息对应的响应的情况下，不执行所述控制命令词对应的操作且不指示所述控制命令词对应的电子设备执行所述控制命令词对应的操作。

需要说明的是，当上述控制命令词不是用户想要下达的指令时，用户可能会针对上述交互确认提示信息作出否定响应，或者，用户也可能不对上述交互确认提示信息作出任何响应。

此时，如果控制设备接收到上述交互确认提示信息对应的否定响应，或者，控制设备没有接收到上述交互确认信息对应的任何响应，则控制设备可以不对上述控制命令词进行响应。

控制设备不对控制命令词进行响应，是指控制设备不执行控制命令词对应的操作，且控制设备不指示控制命令词对应的电子设备执行控制命令词对应的操作。

通过上述方法，控制设备可以确定用户的否认意图，不对误识别控制命令词进行响应，避免对用户的人身财产安全造成不利影响。

在第一方面的一种可能的实现方式中，所述方法还包括：

若根据所述场景系数，确定不执行所述交互确认操作，则执行所述控制命令词对应的操作和/或指示所述控制命令词对应的电子设备执行所述控制命令词对应的操作。

需要说明的是，控制设备可以针对部分场景系数对应的控制命令词执行交互确认操作，对于其他控制命令词，控制设备可以不执行交互确认操作，直接对该控制命令词进行响应，降低语音控制的复杂性，提高语音控制的流畅性。

在第一方面的一种可能的实现方式中，所述根据所述场景系数，确定是否执行交互确认操作，具体包括：

在所述场景系数符合预先设定的场景系数阈值条件的情况下，确定执行所述交互确认操作，否则，确定不执行所述交互确认操作；

需要说明的是，场景系数用于表示控制命令词的影响范围。当场景系数符合预先设定的场景系数阈值条件时，表示该控制命令词的影响范围比较大，如果该控制命令词发生误识别，容易对用户的人身财产安全造成不利影响。此时，对于这些控制命令词，控制设备需要执行交互确认操作，识别用户的真实意图，减少误识别的情况发生。

当场景系数不符合预先设定的场景系数阈值条件时，表示该控制命令词的影响范围比较小，即使该控制命令词发生误识别，也不会对用户的人身财产安全造成严重的不利影响。此时，对于这些控制命令词，控制设备可以不执行交互确认操作，直接对该控制命令词进行响应，降低语音控制的复杂度，提高语音控制的流畅性。

场景系数阈值条件可以根据实际需求进行设置。例如，当场景系数与控制命令词的影响范围为正相关关系时，场景系数阈值条件可以设置为场景系数大于场景系数阈值；当场景系数与控制命令词的影响范围为负相关关系时，场景系数阈值条件可以设置为场景系数小于或等于场景系数阈值；或者，在另一些场景中，场景系数阈值条件也可以设置为其他内容。本申请实施例对场景系数阈值条件的具体内容不予限制。

在第一方面的一种可能的实现方式中，所述场景系数是预先设定的初始场景系数，或者，所述场景系数是根据场景调整参数调整所述初始场景系数得到的目标场景系数，所述场景调整参数是基于所述控制命令词的历史使用数据和/或其他控制命令词的历史使用数据确定的。

需要说明的是，控制设备可以将厂商预先设置的初始场景系数作为上述场景系数。或者，控制设备也可以获取场景调整参数，根据场景调整参数对初始场景系数进行调整，得到目标场景系数，将目标场景系数作为上述场景系数。

上述场景调整参数是基于控制命令词的历史使用数据和/或其他控制命令词的历史数据确定的。

上述历史使用数据可以包括以下项的一种或多种：历史使用时间段、在指定时间段内的历史使用次数、在指定时间段内的历史使用频率。

例如，假设场景调整参数包括使用频率、时间段系数和使用系数。此时，控制设备可以将上述在指定时间内的历史使用频率作为使用频率，根据历史使用时间段计算该控制命令词的时间段系数，以及，根据上述控制命令词在指定时间段内的历史使用次数和其他控制命令词在指定时间段内的历史使用次数计算该控制命令词的使用系数。

由于上述场景调整参数表示用户对该控制命令词的使用情况，因此，控制设备根据场景调整参数对初始场景系数进行动态调整，可以得到更为准确的初始场景系数，使得控制设备可以更为合理地对各个控制命令词对应的应用场景进行分级。

在第一方面的一种可能的实现方式中，所述发出交互确认提示信息包括以下项的一种或多种：通过扬声器播放提示音频、通过显示屏显示提示信息、指示灯闪烁、通过振动马达发出振动。

需要说明的是，电子设备发出交互确认提示信息的方式可以根据实际场景进行设置。

具体地，电子设备发出交互确认提示信息的方式可以是通过扬声器播放提示音频、通过显示屏显示提示信息、指示灯闪烁、通过振动马达发出振动等形式中的一种或多种。

例如，假设上述电子设备为智能电视，智能电视在发出交互确认提示信息时，可以在显示屏上显示提示信息“请确认是否打开空调”，并通过扬声器进行语音播报。

本申请实施例对电子设备发出交互确认提示信息的方式不予限制。

在第一方面的一种可能的实现方式中，所述确定响应包括以下项的一种或多种：包含确认含义的确认命令词的人声信号、对显示屏显示的确认控件的触摸操作、对确认按键的按压操作。

需要说明的是，上述确认响应的具体表现形式可以根据实际场景进行确定。

例如，在一些场景中，上述确定响应可以是包含确认含义的确定命令词的人声信号，比如，用户可以说：“我确认打开空调”。

在另一些场景中，上述确定响应可以是电子设备检测到对显示屏显示的确认控件的触摸操作。比如，假设家庭中枢设置有可触控的显示屏，家庭中枢可以在显示屏上显示文字“请确认是否打开空调”，并提供“是”的控件和“否”的控件。当用户触摸了“是”的控件时，家庭中枢检测到交互确认提示信息对应的确定响应。

在另一些场景中，上述确定响应也可以是电子设备检测到了对确认按键的按压操作。比如，假设智能音箱上设置有实体按键，当用户按压了该实体按键时，智能音箱检测到交互确认提示信息对应的确定响应。

在另一些场景中，上述确定响应也可以是其他表现形式。本申请实施例对确认响应的具体表现形式不予限制。

在第一方面的一种可能的实现方式中，在所述获取所述控制命词对应的场景系数之前，所述方法还包括：

获取所述控制命令词对应的词汇置信度和置信度阈值；

在确定所述词汇置信度大于所述置信度阈值的情况下，执行后续步骤。

需要说明的是，如果控制设备/拾音设备检测到某一控制命令词的词汇置信度大于置信度阈值，则控制设备认为检测到该控制命令词。

在第一方面的一种可能的实现方式中，在所述在确定所述词汇置信度大于所述置信度阈值的情况下，执行后续步骤之前，所述方法还包括：

根据所述控制命令词对应的置信度调整参数调整所述词汇置信度和/或所述置信度阈值。

需要说明的是，控制设备可以根据置信度调整参数对词汇置信度和/或置信度阈值进行调整，然后再将词汇置信度与置信度阈值进行比较，对该控制命令词进行校验。

当词汇置信度大于置信度阈值时，表示该控制命令词校验通过。

当词汇置信度小于或等于置信度阈值时，表示该控制命令词校验失败。

由于上述置信度阈值表示用户以往对控制命令词的使用程度，或表示控制命令词的影响范围。因此，控制设备使用置信度调整参数对控制命令词的词汇置信度或置信度阈值进行调整，可以提高控制命令词的识别准确性，降低误识别的可能性。

在第一方面的一种可能的实现方式中，所述置信度调整参数包括以下项的一种或多种：初始场景系数、在指定时间段内的历史使用频率、时间段系数、使用系数。

需要说明的是，上述使用频率是指用户在一定时间内使用控制命令词的次数，可以理解为在指定时间段内的历史使用频率。

上述时间段系数是指使用时间段对应的系数。使用时间段是指检测到上述控制命令词时所处的时间段。

上述使用系数是指上述控制命令词的使用次数占所有控制命令词的总使用次数的比例。

上述初始场景系数用于表示控制命令词的影响范围。影响范围是指控制命令词被误识别时，对用户产生的不利影响的程度。

由于上述置信度调整参数表示用户以往对控制命令词的使用程度，或表示控制命令词的影响范围。因此，当控制设备使用这些置信度调整参数对控制命令词的词汇置信度或置信度阈值进行调整，可以提高控制命令词的识别准确性，降低误识别的可能性。

第二方面，本申请实施例提供了一种命令词响应装置，应用于控制设备，所述装置包括：

命令词获取模块，用于获取人声信号对应的控制命令词；其中，所述人声信号是由拾音设备采集的；

场景系数模块，用于获取所述控制命令词对应的场景系数；

交互识别模块，用于根据所述场景系数，确定是否执行交互确认操作；

交互执行模块，用于若根据所述场景系数，确定执行所述交互确认操作，则发出交互确认提示信息和/或指示其他设备发出交互确认提示信息；

确认执行模块，用于在接收到所述交互确认提示信息对应的确定响应的情况下，执行所述控制命令词对应的操作和/或指示所述控制命令词对应的电子设备执行所述控制命令词对应的操作。

在第二方面的一种可能的实现方式中，所述装置还包括：

否认停止模块，用于在接收到所述交互确认提示信息对应的否定响应，或者，未接收到所述交互确认提示信息对应的响应的情况下，不执行所述控制命令词对应的操作且不指示所述控制命令词对应的电子设备执行所述控制命令词对应的操作。

在第二方面的一种可能的实现方式中，所述装置还包括：

直接响应模块，用于若根据所述场景系数，确定不执行所述交互确认操作，则执行所述控制命令词对应的操作和/或指示所述控制命令词对应的电子设备执行所述控制命令词对应的操作。

在第二方面的一种可能的实现方式中，所述交互识别模块，具体用于在所述场景系数符合预先设定的场景系数阈值条件的情况下，确定执行所述交互确认操作，否则，确定不执行所述交互确认操作；

在第二方面的一种可能的实现方式中，所述场景系数是预先设定的初始场景系数，或者，所述场景系数是根据场景调整参数调整所述初始场景系数得到的目标场景系数，所述场景调整参数是基于所述控制命令词的历史使用数据和/或其他控制命令词的历史使用数据确定的。

在第二方面的一种可能的实现方式中，所述历史使用数据包括以下项的一种或多种：历史使用时间段、在指定时间段内的历史使用次数、在指定时间段内的历史使用频率。

在第二方面的一种可能的实现方式中，所述发出交互确认提示信息包括以下项的一种或多种：通过扬声器播放提示音频、通过显示屏显示提示信息、指示灯闪烁、通过振动马达发出振动。

在第二方面的一种可能的实现方式中，所述确定响应包括以下项的一种或多种：包含确认含义的确认命令词的人声信号、对显示屏显示的确认控件的触摸操作、对确认按键的按压操作。

在第二方面的一种可能的实现方式中，所述装置还包括：

置信度获取模块，用于获取所述控制命令词对应的词汇置信度和置信度阈值；

置信度校验模块，用于在确定所述词汇置信度大于所述置信度阈值的情况下，执行后续步骤。

在第二方面的一种可能的实现方式中，所述装置还包括：

置信度调整模块，用于根据所述控制命令词对应的置信度调整参数调整所述词汇置信度和/或所述置信度阈值。

在第二方面的一种可能的实现方式中，所述置信度调整参数包括以下项的一种或多种：初始场景系数、在指定时间段内的历史使用频率、时间段系数、使用系数。

第三方面，本申请实施例提供了一种控制设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器被配置为执行所述计算机程序时实现如第一方面和第一方面可能的实现方式中任一所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质被配置为存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如第一方面和第一方面可能的实现方式中任一所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，其特征在于，所述计算机程序产品被配置为在控制设备上运行时，使得控制设备执行如第一方面和第一方面可能的实现方式中任一所述的方法。

第六方面，本申请实施例提供了一种芯片***，其特征在于，所述芯片***包括存储器和处理器，所述处理器被配置为执行所述存储器中存储的计算机程序，以实现如第一方面和第一方面可能的实现方式中任一所述的方法。

本申请实施例与现有技术相比存在的有益效果是：

在本申请的命令词响应方法中，控制设备在获取到控制命令词之后，可以根据该控制命令词对应的场景系数确定是否执行交互确认操作。如果控制设备根据场景系数确定执行交互确认，则通过本设备和/或其他设备发出交互确认提示信息。之后，当控制设备接收到上述交互确认提示信息对应的确认响应时，控制设备对该控制命令词进行响应。

在本申请的命令词响应方法中，控制设备可以通过交互确认的方式确定用户的真实意图，减少误识别的可能性。并且，控制设备不是对所有控制命令词都进行交互确认，而是根据场景系数对控制命令词进行区分，针对部分场景系数对应的控制命令词进行交互确认，减小了语音控制的复杂度，提高了语音控制的流畅性，具有较强的易用性和实用性。

附图说明

图1为本申请实施例提供的一种智能家居***的***架构图；

图2为本申请实施例提供的一种电子设备的结构示意图；

图3为本申请实施例提供的一种场景示意图；

图4为本申请实施例提供的另一种场景示意图；

图5为本申请实施例提供的另一种场景示意图；

图6为本申请实施例提供的另一种场景示意图；

图7为本申请实施例提供的另一种场景示意图；

图8为本申请实施例提供的另一种场景示意图；

图9为本申请实施例提供的另一种场景示意图；

图10为本申请实施例提供的另一种场景示意图；

图11为本申请实施例提供的另一种场景示意图；

图12为本申请实施例提供的另一种场景示意图；

图13为本申请实施例提供的一种命令词响应方法的流程示意图；

图14为本申请实施例提供的另一种命令词响应方法的流程示意图；

图15为本申请实施例提供的一种命令词响应装置的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在本申请说明书中描述的“多个”可以理解为“两个以上”，或者，也可以理解为“至少两个”。

随着语音识别技术的发展，越来越多的智能家居设备可以由用户通过语音进行控制，或者实现与用户的语音交互。例如，用户可以通过“小艺，小艺”这类唤醒命令词唤醒智能家居设备，以及，通过“播放音乐”、“停止播放”这类控制命令词控制智能家居设备执行相应的操作。

但是，在进行语音识别时，语音识别的人声信号有可能是用户发出的人声信号，或者，也有可能是其他具备扬声器的电子设备发出的人声信号。

例如，当智能音箱检测到人声信号“打开音乐”时，该人声信号可能是用户对智能音箱下达的指令，或者，也有可能是电视在播放节目时电视的扬声器发出的人声信号。

并且，即使上述人声信号是用户发出的人声信号，该人声信号也有可能是用户无意中发出的，并非是用户想要下达的指令。

例如，当智能音箱检测到的人声信号“听摇滚音乐”时，该人声信号可能是用户对智能音箱下达的指令；或者，该人声信号也有可能是用户和其他人聊天时无意发出的，但用户实际上并不希望智能音箱播放摇滚音乐。

为此，有的厂商提出多轮对话的方案。在这些方案中，当语音识别检测到操控类的命令词时，智能家居设备可以与用户进行多轮对话，以此确认用户的真实意图。

例如，当智能音箱检测到人声信号“打开音乐”时，智能音箱可以播报“请确认是否打开音乐”。当用户回答“确认打开音乐”时，智能音箱执行“打开音乐”的操作；当用户回答“不要打开音乐”时，智能音箱不对“打开音乐”这个命令词进行响应。

有鉴于此，本申请实施例提供了一种命令词响应方法，可以通过场景分级的方式，对部分影响范围较大的控制场景进行交互确认，对部分影响范围较小的场景不进行交互确认，从而在一定程度上降低语音控制的复杂度，增强语音控制的流畅性，具有较强的易用性和实用性。

首先，请查阅图1。图1示例性地示出了本申请实施例适用的一种智能家居***。

如图1所示，该智能家居***可以包括：一个或多个智能家居设备101(图1中示出3个)，以及，一个或多个控制设备102(图1中示出1个)。

上述智能家居设备101可以包括电脑、手机、平板电脑、智能电视、智能大屏、智能音箱、智能空调、扫地机器人、洗碗机、智能灯具、智能门锁、智能窗帘、路由器、家庭中枢等类型的电子设备中的一种或多种。

其中，家庭中枢可以是指一个专用于控制全屋智能家居设备的家庭中控电子设备，或者，家庭中枢也可以是指一个软件，可以安装在用户家中已有的智能家居设备(例如路由器、智能大屏等)中，使得已有的智能家居设备在本身已有功能的基础上可以实现对全屋智能家居设备的控制和智能决策。

并且，上述智能家居设备101可以处于同一局域网中，各个智能家居设备101可以通过局域网进行数据交互。和/或，各个智能家居101也可以通过蓝牙连接、Wi-Fi连接通用串行总线(universal serial bus，USB)连接等通讯方式中一种或多种进行数据交互。

在上述智能家居设备101中，部分智能家居设备101(例如智能电视、智能音箱等)具备扬声器，可以对外播放音频信号。在以下的描述中，将这些具备扬声器的电子设备定义为扬声器设备。

在上述智能家居设备101中，部分智能家居设备101(例如智能音箱、平板电脑等)具备麦克风，可以采集外部的音频信号。在以下的描述中，将这些具备麦克风的电子设备定义为拾音设备。

控制设备102是指可以对上述智能家居设备101进行控制的电子设备。控制设备102可以是上述智能家居设备101，和/或，控制设备102也可以是远端的服务器。

例如，在一些场景中，用户可以将智能电视设置为控制设备102，通过智能电视操控其他智能家居设备101；在另一些场景中，用户可以将智能音箱设置为控制设备102，通过智能音箱控制其他智能家居设备101；在另一些场景中，用户可以将家庭中枢设置为控制设备102，用户通过家庭中枢控制其他智能家居设备101；在另一些场景中，用户可以将远端的服务器设置为控制设备102，通过远端的服务器和广域网，对局域网内的智能家居设备101进行控制。

参考图2，图2示例性示出了本申请实施例提供的电子设备200的结构示意图，该电子设备200可以是上述智能家居设备101，和/或，该电子设备200也可以是上述控制设备102。

电子设备200可以包括处理器210，外部存储器接口220，内部存储器221，通用串行总线(universal serial bus，USB)接口230，充电管理模块240，电源管理模块241，电池242，天线1，天线2，移动通信模块250，无线通信模块260，音频模块270，扬声器270A，受话器270B，麦克风270C，耳机接口270D，传感器模块280，按键290，马达291，指示器292，摄像头293，显示屏294，以及用户标识模块(subscriber identification module，SIM)卡接口295等。其中传感器模块280可以包括压力传感器280A，陀螺仪传感器280B，气压传感器280C，磁传感器280D，加速度传感器280E，距离传感器280F，接近光传感器280G，指纹传感器280H，温度传感器280J，触摸传感器280K，环境光传感器280L，骨传导传感器280M等。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器210中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器210的等待时间，因而提高了***的效率。

在一些实施例中，处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器210可以包含多组I2C总线。处理器210可以通过不同的I2C总线接口分别耦合触摸传感器280K，充电器，闪光灯，摄像头293等。例如：处理器210可以通过I2C接口耦合触摸传感器280K，使处理器210与触摸传感器280K通过I2C总线接口通信，实现电子设备200的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器210可以包含多组I2S总线。处理器210可以通过I2S总线与音频模块270耦合，实现处理器210与音频模块270之间的通信。在一些实施例中，音频模块270可以通过I2S接口向无线通信模块260传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块270与无线通信模块260可以通过PCM总线接口耦合。在一些实施例中，音频模块270也可以通过PCM接口向无线通信模块260传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器210与无线通信模块260。例如：处理器210通过UART接口与无线通信模块260中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块270可以通过UART接口向无线通信模块260传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器210与显示屏294，摄像头293等***器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器210和摄像头293通过CSI接口通信，实现电子设备200的拍摄功能。处理器210和显示屏294通过DSI接口通信，实现电子设备200的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器210与摄像头293，显示屏294，无线通信模块260，音频模块270，传感器模块280等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口230是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口230可以用于连接充电器为电子设备200充电，也可以用于电子设备200与***设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备200的结构限定。在本申请另一些实施例中，电子设备200也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块240用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块240可以通过USB接口230接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块240可以通过电子设备200的无线充电线圈接收无线充电输入。充电管理模块240为电池242充电的同时，还可以通过电源管理模块241为电子设备供电。

电源管理模块241用于连接电池242，充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210，内部存储器221，显示屏294，摄像头293，和无线通信模块260等供电。电源管理模块241还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块241也可以设置于处理器210中。在另一些实施例中，电源管理模块241和充电管理模块240也可以设置于同一个器件中。

电子设备200的无线通信功能可以通过天线1，天线2，移动通信模块250，无线通信模块260，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块250可以提供应用在电子设备200上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块250可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块250可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块250还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块250的至少部分功能模块可以被设置于处理器210中。在一些实施例中，移动通信模块250的至少部分功能模块可以与处理器210的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器270A，受话器270B等)输出声音信号，或通过显示屏294显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器210，与移动通信模块250或其他功能模块设置在同一个器件中。

无线通信模块260可以提供应用在电子设备200上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块260可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备200的天线1和移动通信模块250耦合，天线2和无线通信模块260耦合，使得电子设备200可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯***(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位***(global positioning system，GPS)，全球导航卫星***(global navigation satellite system，GLONASS)，北斗卫星导航***(beidounavigation satellite system，BDS)，准天顶卫星***(quasi-zenith satellitesystem，QZSS)和/或星基增强***(satellite based augmentation systems，SBAS)。

电子设备200通过GPU，显示屏294，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏294和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏294用于显示图像，视频等。显示屏294包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备200可以包括1个或N个显示屏294，N为大于1的正整数。

电子设备200可以通过ISP，摄像头293，视频编解码器，GPU，显示屏294以及应用处理器等实现拍摄功能。

ISP用于处理摄像头293反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头293中。

摄像头293用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备200可以包括1个或N个摄像头293，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备200在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备200可以支持一种或多种视频编解码器。这样，电子设备200可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备200的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口220可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。外部存储卡通过外部存储器接口220与处理器210通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备200使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器221可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器210通过运行存储在内部存储器221的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备200的各种功能应用以及数据处理。

电子设备200可以通过音频模块270，扬声器270A，受话器270B，麦克风270C，耳机接口270D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块270用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中，音频模块270可以设置于处理器210中，或将音频模块270的部分功能模块设置于处理器210中。

扬声器270A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备200可以通过扬声器270A收听音乐，或收听免提通话。

受话器270B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备200接听电话或语音信息时，可以通过将受话器270B靠近人耳接听语音。

麦克风270C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风270C发声，将声音信号输入到麦克风270C。电子设备200可以设置至少一个麦克风270C。在另一些实施例中，电子设备200可以设置两个麦克风270C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备200还可以设置三个，四个或更多麦克风270C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口270D用于连接有线耳机。耳机接口270D可以是USB接口230，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器280A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器280A可以设置于显示屏294。压力传感器280A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器280A，电极之间的电容改变。电子设备200根据电容的变化确定压力的强度。当有触摸操作作用于显示屏294，电子设备200根据压力传感器280A检测所述触摸操作强度。电子设备200也可以根据压力传感器280A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器280B可以用于确定电子设备200的运动姿态。在一些实施例中，可以通过陀螺仪传感器280B确定电子设备200围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器280B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器280B检测电子设备200抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备200的抖动，实现防抖。陀螺仪传感器280B还可以用于导航，体感游戏场景。

气压传感器280C用于测量气压。在一些实施例中，电子设备200通过气压传感器280C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器280D包括霍尔传感器。电子设备200可以利用磁传感器280D检测翻盖皮套的开合。在一些实施例中，当电子设备200是翻盖机时，电子设备200可以根据磁传感器280D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器280E可检测电子设备200在各个方向上(一般为三轴)加速度的大小。当电子设备200静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器280F，用于测量距离。电子设备200可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备200可以利用距离传感器280F测距以实现快速对焦。

接近光传感器280G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备200通过发光二极管向外发射红外光。电子设备200使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备200附近有物体。当检测到不充分的反射光时，电子设备200可以确定电子设备200附近没有物体。电子设备200可以利用接近光传感器280G检测用户手持电子设备200贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器280G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器280L用于感知环境光亮度。电子设备200可以根据感知的环境光亮度自适应调节显示屏294亮度。环境光传感器280L也可用于拍照时自动调节白平衡。环境光传感器280L还可以与接近光传感器280G配合，检测电子设备200是否在口袋里，以防误触。

指纹传感器280H用于采集指纹。电子设备200可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器280J用于检测温度。在一些实施例中，电子设备200利用温度传感器280J检测的温度，执行温度处理策略。例如，当温度传感器280J上报的温度超过阈值，电子设备200执行降低位于温度传感器280J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备200对电池242加热，以避免低温导致电子设备200异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备200对电池242的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器280K，也称“触控器件”。触摸传感器280K可以设置于显示屏294，由触摸传感器280K与显示屏294组成触摸屏，也称“触控屏”。触摸传感器280K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏294提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器280K也可以设置于电子设备200的表面，与显示屏294所处的位置不同。

骨传导传感器280M可以获取振动信号。在一些实施例中，骨传导传感器280M可以获取人体声部振动骨块的振动信号。骨传导传感器280M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器280M也可以设置于耳机中，结合成骨传导耳机。音频模块270可以基于所述骨传导传感器280M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器280M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键290包括开机键，音量键等。按键290可以是机械按键。也可以是触摸式按键。电子设备200可以接收按键输入，产生与电子设备200的用户设置以及功能控制有关的键信号输入。

马达291可以产生振动提示。马达291可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏294不同区域的触摸操作，马达291也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口295用于连接SIM卡。SIM卡可以通过***SIM卡接口295，或从SIM卡接口295拔出，实现和电子设备200的接触和分离。电子设备200可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口295可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口295可以同时***多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口295也可以兼容不同类型的SIM卡。SIM卡接口295也可以兼容外部存储卡。电子设备200通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备200采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备200中，不能和电子设备200分离。

可以理解的是，本申请实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

以下，将根据图1所示的智能家居***，以及图2所示的智能家居***中电子设备的结构并结合具体的应用场景，对本申请实施例提供的命令词响应方法进行详细说明。

1、训练命令词模型。

在初始化阶段，控制设备/拾音设备可以在本地训练命令词模型，或者，控制设备/拾音设备也可以接收其他电子设备发送的经过训练的命令词模型(以下简称目标命令词模型)。

其中，当控制设备/拾音设备在本地训练命令词模型时，控制设备/拾音设备可以先获取训练样本集。上述训练样本集中包括至少一个训练样本，训练样本中包括样本音频和样本标签。

上述样本标签用于指示上述样本音频对应的命令词类型，上述命令词类型可以包括控制命令词和确认命令词。

其中，控制命令词用于表示智能家居设备需要执行的操作。例如，控制命令词可以包括“打开音乐”、“打开空调”、“打开电视”、“关闭音乐”等表示智能家居设备需要执行的操作的词汇。

确认命令词用于表示用户的意图。例如，确认命令词可以包括“是的”、“我确认”、“要”、“不是”、“不要”等表示用户意图的词汇；或者，确认命令词也可以是上述表述意图的词汇加上具体动作的组合，比如“我确认打开空调”、“我不要打开音乐”等。

上述样本标签的表现形式可以根据实际需求进行设置。例如，在一些实施例中，样本标签可以用数字进行表示，比如“01”表示“打开空调”，“02”表示“打开音乐”，“11”表示“确认”，“12”表示“不要”等等；在另一些实施例中，样本标签可以用字母进行表示，比如“a”表示“打开空调”，“b”表示“打开音乐”，“c”表示“确认”，“d”表示“不要”等等；在另一些实施例中，样本标签可以用字母和数字进行表示，比如“a1”表示“打开空调”，“a2”表示“打开音乐”，“b1”表示“确认”，“b2”表示“不要”等等；在另一些实施例中，样本标签也可以用其他形式进行表示。本申请实施例对样本标签的具体形式不予限制。

控制设备/拾音设备在获取到训练样本集之后，可以使用训练样本集对初始的命令词模型进行训练，得到目标命令词模型。

上述命令词模型的类型可以根据实际需求进行设置。例如，上述命令词模型可以为基于模板匹配的命令词模型、基于高斯混合模型-隐马尔可夫模型(Gaussian MixtureModel-Hidden Markov Model，GMM-HMM)的命令词模型、基于神经网络的命令词模型等命令词模型中的任意一种。

控制设备/拾音设备在获取到目标命令词模型之后，完成初始化阶段。

2、识别控制命令词。

当环境中出现第一人声信号时，拾音设备可以采集第一人声信号。第一人声信号可能是用户发出的人声信号，或者，第一人声信号也可以能是扬声器设备发出的人声信号。

当拾音设备采集到第一人声信号时，拾音设备可以在本地使用目标命令词模型对第一人声信号进行命令词检测。

当拾音设备检测到控制命令词时，拾音设备可以向控制设备发送该控制命令词以及该控制命令词对应的词汇置信度。词汇置信度用于表示识别到该控制命令词的可信程度。

或者，当拾音设备检测到第一人声信号时，拾音设备也可以直接向控制设备发送第一人声信号。

控制设备在接收到第一人声信号时，控制设备可以使用目标命令词模型对第一人声信号进行命令词检测。

当控制设备检测到控制命令词时，控制设备可以获取该控制命令词的词汇置信度。

控制设备在获取到控制命令词之后，控制设备可以直接根据控制命令词执行后续操作，或者，控制设备也可以对控制命令词进行校验。

在校验控制命令词的过程中，控制设备可以获取控制命令词对应的词汇置信度和控制命令词对应的置信度调整参数。

置信度调整参数可以包括使用频率、时间段系数、使用系数以及初始场景系数等参数中一种或多种。

控制设备在获取到置信度调整参数之后，可以根据置信度调整参数对控制命令词的词汇置信度和/或置信度阈值进行调整。

控制设备在调节了控制命令词的词汇置信度和/或置信度阈值之后，可以将控制命令词的词汇置信度与置信度阈值进行比较。

当词汇置信度小于或等于置信度阈值时，表示控制命令词校验失败，控制设备可以不响应上述控制命令词。

当词汇置信度大于置信度阈值时，表示控制命令词校验成功，控制设备可以对上述控制命令词执行后续的操作。

由于置信度调整参数表示用户以往对控制命令词的使用程度，或表示控制命令词的影响范围，因此，控制设备使用置信度调整参数对控制命令词的词汇置信度和/或置信度阈值进行调整，可以提高控制命令词的识别准确性，降低误识别的可能性。

以下将对上述提及的各个置信度调整参数进行详细说明。

(1)使用频率。

上述使用频率是指用户在一定时间内使用控制命令词的次数，可以理解为在指定时间段内的历史使用频率。例如，使用频率可以表示为20次/周、5次/天、1次/小时等形式。本申请实施例对使用频率的具体形式不予限制。

使用频率可以通过公式(1)进行计算：

F＝d1/t1 (1)

其中，F表示上述控制命令词的使用频率，d1表示用户在第一指定时间段内使用该控制命令词的次数，t1表示第一指定时间段的时间长度。

比如，假设控制设备根据最近30天的数据进行统计，则第一指定时间段可以为最近30天；d1表示最近30天内用户使用该控制命令词的次数；t1为30天，即最近30天的时间长度。

(2)时间段系数。

使用时间段的划分方式可以根据实际需求进行设置。例如，在一些场景中，可以按照小时划分使用时间段；在另一些场景中，可以按照天划分使用时间段；在另一些场景中，可以按照上午(比如6:00至12:00)、下午(比如12:00-18:00)、晚上(比如18:00-6:00)划分使用时间段；在另一些场景中，可以按照白天(比如6:00至18:00)、夜晚(比如18:00-6:00)划分时间段；在另一些场景中，也可以按照其他方式划分使用时间段。本申请实施例对使用时间段的具体形式不予限制。

时间段系数可以与用户在使用时间段内使用上述控制命令词的次数呈正相关关系。例如，假设用户经常在白天使用“打开音乐”的控制命令词，则“打开音乐”在白天的时间段系数可以高一些；假设用户在夜晚几乎不使用“打开音乐”这个控制命令词，则“打开音乐”在夜晚的时间段系数可以低一些。

时间段系数的计算方式可以实际需求进行设置。例如，在一些实施例中，时间段系数可以通过公式(2)进行计算。

T＝A*d2 (2)

其中，T表示使用时间段的时间段系数，A表示第一预设系数，d2表示用户在第二指定时间段的使用时间段内使用该控制命令词的次数。

比如，假设控制设备根据最近30天的数据进行统计，使用时间段为夜晚。此时，第二指定时间段可以为最近30天；假设用户在最近30天使用该控制命令词100次，其中70次是在夜晚使用的，则d2为70。

或者，在另一些实施例中，时间段系数也可以通过公式(3)进行计算。

T＝B*d2/d3 (3)

其中，d3表示用户在第二指定时间段的非使用时间段使用该控制命令词的次数，B表示第二预设系数。

比如，假设控制设备根据最近30天的数据进行统计，使用时间段为夜晚。此时，如果用户在最近30天使用该控制命令词100次，其中70次是在夜晚使用的，则d2为70，d3为30。

或者，在另一些实施例中，时间段系数也可以通过公式(4)进行计算。

T＝C*t2/t3 (4)

其中，t2表示第二指定时间段内目标时间段的数量，目标时间段为使用了控制命令词的使用时间段；t3表示第二指定时间段内非目标时间段的数量；C为第三预设系数。

比如，假设控制设备根据最近30天的数据进行统计，使用时间段为夜晚。如果在最近30天的夜晚中，用户有27个夜晚使用了该控制命令词，有3个夜晚没使用该控制命令词，则t2为27，t3为3。

或者，在另一些实施例中，时间段系数也可以通过其他公式进行计算。本申请实施例对时间段系数的具体计算方式不予限制。

(3)使用系数。

上述使用系数是指上述控制命令词的使用次数占所有控制命令词的总使用次数的比例。使用系数可以通过公式(5)进行表示：

U＝d4/n (5)

其中，d4表示在第三指定时间段内，用户使用上述控制命令词的使用次数；n表示在第三指定时间段内，用户使用所有控制命令词的总使用次数。

例如，假设控制设备根据最近30天的数据进行统计。用户在最近30天中，共使用了213次控制命令词。其中，用户使用了“打开音乐”这个控制命令词52次。此时，d4为52，n为213，“打开音乐”对应的使用系数为52/213≈0.244。

(4)初始场景系数。

例如，假设用户在洗澡时，智能电视中的节目发出语音“将水温调到80摄氏度”。此时，如果热水器真的将水温调到80摄氏度，就会烫伤用户，对用户的人身安全产生极大的不良影响。因此，“调高热水器温度”温度这个控制命令词的影响范围就会比较大。

类似地，比如“调低音量”、“播放音乐”等控制命令词，即使发生了误识别，也不会对用户的人身财产安全造成实质性不利影响。因此，“调低音量”、“播放音乐”这些控制命令词的影响范围就会比较小。

控制命令词的初始场景系数可以与影响范围呈正相关关系。控制命令词的影响范围越大，则初始场景系数越大；控制命令词的影响范围越小，则初始场景系数越小。

例如，假设“关闭空调”的影响范围会比“关闭电视”的影响范围大，“关闭电视”的影响范围会比“调低音量”的影响范围大，则厂商可以将“关闭空调”的初始场景系数设置为3，将“关闭电视”的初始场景系数设置为2，将“调低音量”的初始场景系数设置1。

此外，各个控制命令词对应的初始场景系数的数值可以根据实际需求进行设置。例如，在一些实施例中，厂商可以将“关闭空调”的初始场景系数设置为3；在另一些实施例中，厂商可以将“关闭空调”的初始场景系数设置为3.1；在另一些实施例中，厂商可以将“关闭空调”的初始场景系数设置为2.56；另一些实施例中，厂商可以将“关闭空调”的初始场景系数设置为其他数值。本申请实施例对各个控制命令词对应的初始场景系数的具体数值不予限制。

当控制设备根据置信度调整参数对控制命令词的词汇置信度进行调整时，如果置信度调整参数表示上述控制命令词有较大可能是用户发出的，或者，表示上述控制命令词的误识别后果较小，则控制设备可以适当调高词汇置信度，降低该控制命令词的识别难度。

例如，假设置信度调整参数包括使用系数。当控制命令词对应的使用系数的数值比较大时，表示用户经常使用该控制命令词，该控制命令词有较大可能是用户发出的。此时，控制设备可以适当调高词汇置信度。

假设置信度调整参数包括初始场景系数。当控制命令词对应的初始场景系数比较小时，表示该控制命令词即使误识别也不会对用户的人身财产安全造成实质性不利影响。此时，控制设备可以适当调高词汇置信度。

如果置信度调整参数表示上述控制命令词有较大可能是扬声器设备发出的，或者，表示上述控制命令词的误识别后果较严重，则控制设备可以适当调低词汇置信度，提高该控制命令词的识别难度。

例如，假设置信度调整参数包括使用系数。当控制命令词对应的使用系数的数值比较小时，表示用户不经常使用该控制命令词，该控制命令词有较大可能是扬声器设备发出的。此时，控制设备可以适当调高词汇置信度。

假设置信度调整参数包括初始场景系数。当控制命令词对应的初始场景系数比较大时，表示该控制命令词一旦发生误识别，容易对用户的人身财产安全造成实质性不利影响。此时，控制设备可以适当调高词汇置信度。

具体地，以使用频率、时间段系数、使用系数、初始场景系数为例。

词汇置信度与使用频率、时间段系数、使用系数呈正相关关系，与上述初始场景系数呈负相关关系。

使用频率、时间段系数、使用系数越高，则表示用户越喜欢使用该控制命令词，该控制命令词越有可能是用户发出的指令。因此，控制设备可以调高词汇置信度，降低该控制命令词的识别难度，降低漏识别的可能性。

使用频率、时间段系数、使用系数越低，则表示用户越不喜欢使用该控制命令词，该控制命令词越有可能是扬声器设备发出的。因此，控制设备可以调低词汇置信度，提高该控制命令词的识别难度，降低误识别的可能性。

初始场景系数越高，则表示上述控制命令词的影响范围越大，误识别的后果越严重。此时，为了减小误识别对用户的影响，控制设备可以调低词汇置信度，提高该控制命令词的识别难度，降低误识别的可能性。

初始场景系数越低，则表示上述控制命令词的影响范围越小，误识别的后果越不严重。此时，控制设备可以调高词汇置信度，降低该控制命令词的识别难度，降低漏识别的可能性。

当控制设备根据置信度调整参数对控制命令词的置信度阈值进行调整时，如果置信度调整参数表示上述控制命令词有较大可能是用户发出的，或者，表示上述控制命令词的误识别后果较小，则控制设备可以适当调低置信度阈值，降低该控制命令词的识别难度。

如果置信度调整参数表示上述控制命令词有较大可能是扬声器设备发出的，或者，表示上述控制命令词的误识别后果较严重，则控制设备可以适当调高置信度阈值，提高该控制命令词的识别难度。

置信度阈值与使用频率、时间段系数、使用系数呈负相关关系，与上述初始场景系数呈正相关关系。

使用频率、时间段系数、使用系数越高，则表示上述控制命令词越有可能是用户发出的，控制设备可以调低置信度阈值，降低该控制命令词的识别难度；使用频率、时间段系数、使用系数越低，则表示上述控制命令词越有可能是扬声器设备发出的，控制设备可以调高置信度阈值，提高该控制命令词的识别难度。

初始场景系数越高，则表示上述控制命令词的影响范围越大，误识别的后果越严重，控制设备可以调高置信度阈值，提高该控制命令词的识别难度；初始场景系数越低，则表示上述控制命令词的影响范围越小，误识别的后果越不严重，控制设备可以调低置信度阈值，降低该控制命令词的识别难度。

例如，假设置信度调整参数包括时间段系数和初始场景系数，各个控制命令词的置信度阈值均为0.95。

假设词汇置信度的计算公式为公式(6)，置信度阈值的计算公式为公式(7)。

公式(6)的表达式为：

E1＝e1+0.1*(T-0.5)-0.1*(k-2) (6)

公式(7)的表达式为：

E2＝e2-0.1*(T-0.5)+0.1*(k-2) (7)

其中，T为时间段系数；E1为上述控制命令词调整后的词汇置信度；e1为调整前的词汇置信度；k为上述控制命令词的初始场景系数；E2为调整后的置信度阈值；e2为调整前的置信度阈值。

如图3所示，在一示例中，假设智能家居***中包括家庭中枢31和智能音箱32。其中，家庭中枢31为控制设备，智能音箱32为拾音设备。

假设用户在上午出门时对智能音箱32说：“小艺小艺，关闭音乐”。此时，智能音箱32检测到“关闭音乐”这个控制命令词以及“关闭音乐”对应的词汇置信度0.97。然后，智能音箱32向家庭中枢31发送“关闭音乐”以及“关闭音乐”对应的词汇置信度。

家庭中枢31在接收到“关闭音乐”之后，获取“关闭音乐”在当前时间段对应的时间段系数以及“关闭音乐”对应的初始场景系数。

假设“关闭音乐”在白天对应的时间段系数为0.9，表示用户经常在白天使用“关闭音乐”这个控制命令词。“关闭音乐”的初始场景系数为1，表示“关闭音乐”这个控制命令词的影响范围较小。

家庭中枢31将“关闭音乐”的词汇置信度、时间段系数和初始场景系数代入公式(6)，得到更新后的词汇置信度为0.97+0.1*(0.9-0.5)-0.1*(1-2)＝1.11。

由于更新后的词汇置信度为1.11大于置信度阈值0.95，所以家庭中枢31判定“关闭音乐”这个控制命令词校验成功，继续执行后续操作。

如图4所示，在另一示例中，假设智能家居***中包括家庭中枢41、智能音箱42和智能电视43。其中，家庭中枢41为控制设备，智能音箱42为拾音设备，智能电视43为扬声器设备。

假设晚上用户在观看智能电视43的节目时，节目里正在播放对话“这么冷的天你怎么还开空调，还不快关闭空调”。此时，智能音箱42检测到“关闭空调”这个控制命令词以及“关闭空调”对应的词汇置信度0.96。然后，智能音箱42向家庭中枢41发送“关闭空调”以及“关闭空调”对应的词汇置信度。

家庭中枢41在接收到“关闭空调”之后，获取“关闭空调”在当前时间段对应的时间段系数以及“关闭空调”对应的初始场景系数。

假设“关闭空调”在夜晚对应的时间段系数为0.1，表示用户几乎不在夜晚使用“关闭空调”这个控制命令词。“关闭空调”的初始场景系数为3，表示“关闭空调”这个控制命令词的影响范围较大。

家庭中枢41将“关闭空调”的置信度阈值、时间段系数和初始场景系数代入公式(7)，得到更新后的置信度阈值为0.95-0.1*(0.1-0.5)+0.1*(3-2)＝1.09。

由于“关闭空调”的词汇置信度0.96小于更新后的置信度阈值1.09，所以家庭中枢41判定“关闭空调”这个控制命令词校验失败，家庭中枢41不对“关闭空调”这个控制命令词进行响应。

通过上述示例可知，控制设备可以通过置信度调整参数对控制命令词的词汇置信度和/或置信度阈值进行调整，并使用更新后的词汇置信度和/或更新后的置信度阈值进行校验。

3、场景分级。

控制设备在识别到控制命令词之后，可以根据初始场景系数对控制命令词的场景进行分级。

当初始场景系数小于或等于场景系数阈值时，控制设备可以不与用户进行交互确认，直接执行上述控制命令词对应的操作，或者，控制设备也可以直接向上述控制命令词对应的智能家居设备发送操作指令，以指示该智能家居设备执行上述控制命令词对应的操作。

当初始场景系数大于场景系数阈值时，控制设备可以与用户进行交互确认。

可以理解的是，控制命令词的初始场景系数象征着控制命令词的影响范围。如果不根据初始场景系数对控制命令词进行场景分级，就会导致控制设备对所有的控制命令词都一视同仁地进行交互确认，或者，都不进行交互确认。

此时，如果控制设备识别到一些影响范围比较小的控制命令词，也每次进行交互确认，就会让用户觉得烦躁，影响用户的使用体验。

例如，用户在日常生活中，可能经常使用“打开音乐”、“调高音量”、“调低音量”、“关闭灯光”等影响范围较小的控制命令词。此时，如果用户每次使用此类控制命令词，控制设备都与用户进行交互确认，用户必然会觉得不方便，甚至感到烦躁。

或者，如果控制设备识别到一些影响范围比较大的控制命令词，也均不进行对话确认，就有可能出现误识别的情况，对用户的人身财产安全造成不利影响。

例如，用户在洗澡时，智能电视中的节目发出语音“将水温调到80摄氏度”。此时，如果控制设备不与用户进行交互确认，控制热水器将水温调到80摄氏度，就会烫伤用户，对用户的人身安全产生极大的不良影响。

因此，在本申请实施例中，控制设备可以通过初始场景系数对控制命令词的场景进行分级，对影响范围较大的控制命令词进行交互确认，对影响范围较小的控制命令词不进行交互确认，从而在保障用户的人身财产安全的情况下，提高用户的语音控制流畅性，给用户较好的使用体验。

并且，控制设备在进行场景分级时，可以直接使用初始场景系数进行场景分级，或者，也可以根据调整后的初始场景系数(以下简称为目标场景系数)进行场景分级。

当控制设备根据目标场景系数进行场景分级时，控制设备可以在识别到控制命令词之后，获取控制命令词的场景调整参数。

场景调整参数可以包括使用频率、时间段系数、使用系数等参数中的一种或多种。

在获取到场景调整参数之后，控制设备可以根据场景调整参数对控制命令词的初始场景系数进行调整，得到目标场景系数。

然后，控制设备可以将目标场景系数与场景系数阈值进行比较。

当目标场景系数小于或等于场景系数阈值时，控制设备可以不与用户进行交互确认，直接执行上述控制命令词对应的操作，和/或，控制设备也可以直接向上述控制命令词对应的智能家居设备发送操作指令，以指示该智能家居设备执行上述控制命令词对应的操作。

当目标场景系数大于场景系数阈值时，控制设备可以与用户进行交互确认。

控制设备根据场景调整参数调整初始场景系数的方式可以根据实际需求进行设置。

具体地，当控制设备根据场景调整参数对初始场景系数进行调整时，如果场景调整参数表示用户经常使用该控制命令词，则控制设备可以适当调低初始场景系数，减少控制设备与用户交互的次数，提高用户操作的流畅性。

如果场景调整参数表示用户不经常使用该控制命令词，则控制设备可以适当调高初始场景系数，提高控制设备与用户交互确认的可能性，使得控制设备可以更为准确地理解用户的意图，减少误识别的概率。

以使用频率、时间段系数、使用系数为例。目标场景系数与使用频率、时间段系数、使用系数呈负相关关系。

使用频率、时间段系数、使用系数越高，则表示用户越喜欢使用该控制命令词。此时，如果控制设备频繁地与用户进行交互，会损害用户操作的流畅性，影响用户的使用体验。因此，使用频率、时间段系数、使用系数越高，控制设备可以适当调低初始场景系数。

使用频率、时间段系数、使用系数越低，则表示用户越不喜欢使用该控制命令词。此时，该控制命令词有较大的可能是扬声器设备发出的。为了避免出现违背用户意图的操作，控制设备可以适当调高初始场景系数，提高控制设备与用户交互确认的概率。通过交互确认的方式，控制设备可以更为准确地理解用户的意图，减少误操作的可能性，降低误操作对用户造成的影响。

例如，假设场景调整参数包括时间段系数，场景系数阈值为2，初始场景系数的调节公式为公式(8)。

公式(8)的表达式为：

K＝k*(1.5-T) (8)

其中，K为目标场景系数，k为初始场景系数，T为时间段系数。

如图5所示，在一示例中，假设智能家居***中包括家庭中枢51、智能音箱52和智能空调53。

在夜晚的时候，用户回到家中，对着智能音箱52说：“小艺，小艺，打开空调”。

此时，智能音箱52检测到控制命令词“打开空调”，智能音箱52向家庭中枢51传递“打开空调”这个命令词。

家庭中枢51在接收到控制命令词“打开空调”之后，获取“打开空调”对应的初始场景系数，以及“打开空调”在夜晚的时间段系数。

假设“打开空调”对应的初始场景系数为3，表示“打开空调”这个控制命令词的影响范围较大；假设“打开空调”在夜晚的时间段系数为0.9，表示用户经常在夜晚使用“打开空调”这个命令词。

此时，家庭中枢51可以将“打开空调”的初始场景系数和时间段系数代入公式(8)，得到目标场景系数为3*(1.5-0.9)＝1.8。

由于目标场景系数1.8小于场景系数阈值2，因此，家庭中枢51无需与用户进行交互确认，家庭中枢51可以直接向智能空调53发送“打开空调”对应的操作指令。

智能空调53接收到上述操作指令之后，进入工作状态，完成本次语音控制流程。

也即是说，在本示例中，虽然“打开空调”是一个影响范围较大的控制命令词，但是由于用户经常在夜晚使用该控制命令词，所以，为了提高用户的控制流畅度，家庭中枢51可以调低该控制命令词的初始场景系数，跳过交互确认的过程，直接指示智能空调53执行“打开空调”这个控制命令词对应的操作。

如图6所示，在另一示例中，假设智能家居***中包括家庭中枢61、智能音箱62和智能电视63。

在夜晚的时候，用户在家观看智能电视63的节目。节目中正在播放对话“我想听摇滚音乐”。

此时，智能音箱62检测到控制命令词“听摇滚音乐”，智能音箱62向家庭中枢61发送控制命令词“听摇滚音乐”。

家庭中枢61在接收到控制命令词“听摇滚音乐”之后，获取“听摇滚音乐”对应的初始场景系数，以及“听摇滚音乐”在夜晚的时间段系数。

假设“听摇滚音乐”对应的初始场景系数为1.5，表示“听摇滚音乐”这个控制命令词的影响范围中等；假设“听摇滚音乐”在夜晚的时间段系数为0.1，表示用户几乎不在夜晚使用“听摇滚音乐”这个命令词。

此时，家庭中枢61可以将“听摇滚音乐”的初始场景系数和时间段系数代入公式(8)，得到目标场景系数为1.5*(1.5-0.1)＝2.1。

由于目标场景系数2.1大于场景系数阈值2，因此，家庭中枢61需要根据“听摇滚音乐”这个控制命令词与用户进行交互确认。

也即是说，在本示例中，虽然“听摇滚音乐”这个控制命令词的影响范围中等，通常不需要进行交互确认。但是，由于用户几乎不在夜晚使用该控制命令词，所以，为了减少误操作给用户带来的困扰，家庭中枢61可以提高该控制命令词的初始场景系数，与用户进行交互确认，从而更为准确地理解用户的意图，提高识别控制命令词的准确性。

通过上述示例可知，本申请实施例提供的命令词识别方法中，控制设备可以根据初始场景系数对各个控制命令词对应的应用场景进行分级。

当初始场景系数小于或等于场景系数阈值时，控制设备可以不与用户进行交互确认，直接执行控制命令词对应的操作，和/或，控制设备也可以向上述控制命令词对应的智能家居设备发送操作指令，以指示该智能家居设备执行上述控制命令词对应的操作，简化控制流程，提高用户语音控制的流畅性。

当初始场景系数大于场景系数阈值时，控制设备可以与用户进行交互确认，通过交互确认的方式理解用户真正的控制意图，减少误操作的情况。

并且，控制设备还可以根据场景调整参数对初始场景系数进行动态调整。由于场景调整参数表示用户对该控制命令词的使用情况，因此，控制设备根据场景调整参数对初始场景系数进行动态调整，可以得到更为准确的初始场景系数，使得控制设备可以更为合理地对各应用场景进行分级。

4、交互确认。

控制设备与用户进行交互确认时，控制设备可以执行提示操作，提示操作用于提示用户进行二次确认。

上述提示操作可以是控制设备发出交互确认提示信息，和/或，也可以是控制设备指示其他智能家居设备发出交互确认信息。上述交互确认提示信息的表现形式可以包括声音、文字、灯光、振动等形式中的一种或多种。

例如，如图7所述，在一些场景中，假设控制设备为家庭中枢71，扬声器设备为智能音箱72。当家庭中枢71需要对“打开空调”这个控制命令词进行交互确认时，家庭中枢71可以向智能音箱72发送播报指令。智能音箱72在接收到播报指令后，通过扬声器播放“请确认是否打开空调”，以声音提示的方式提示用户进行二次确认。

如图8所示，在另一些场景中，假设控制设备为智能音箱81。当智能音箱81需要对“打开空调”这个控制命令词进行交互确认时，智能音箱81可以向智能电视82发送显示指令。智能电视82在接收到显示指令后，在显示屏上显示“请确认是否打开空调”，以文字提示的方式提示用户进行二次确认。

如图9所示，在另一些场景中，假设控制设备为智能音箱91。当智能音箱91需要对控制命令词进行交互确认时，智能音箱91可以向设置有光源的智能家居设备(即光源设备92，比如灯泡等)发送灯光指令。光源设备92在接收到灯光指令后，以灯光闪烁、发出特定颜色的光等形式，提示用户进行二次确认。

如图10所示，在另一些场景中，假设控制设备为家庭中枢1001。当家庭中枢1001需要对控制命令词进行交互确认时，家庭中枢1001可以向设置有振动马达的智能家居设备(即振动设备1002，比如遥控器等)发送振动指令。振动设备1002接收到振动指令后，以振动的形式提示用户进行二次确认。

用户在察觉到控制设备的提示操作时，用户可以执行确认操作。

此时，控制设备可以响应于用户的确认操作，确定用户的操作意图。

如果上述确认操作表达的是确认的意图(即上述确认响应)，则控制设备可以执行与上述控制命令词对应的操作，和/或，控制设备也可以向上述控制命令词对应的智能家居设备发送操作指令，以指示该智能家居设备执行上述控制命令词对应的操作。

如果上述确认操作表达的是否认的意图(即上述否认响应)，则控制设备可以不对上述控制命令词进行响应。

上述确认操作的形式可以根据实际需求进行设置。

在一些可能的实现方式中，上述确认操作可以为用户触碰的特定的按键。该按键可以为实体按键或虚拟按键。

当用户触碰的是确认按键时，控制设备可以响应于用户的操作，执行与上述控制命令词对应的操作，和/或，控制设备也可以向上述控制命令词对应的智能家居设备发送操作指令，以指示该智能家居设备执行上述控制命令词对应的操作。

当用户触碰的是否认按键时，控制设备可以响应于用户的操作，不对上述控制命令词进行响应。

例如，如图11所示，假设家庭中枢1100在本设备的显示屏显示“请确认是否打开空调”，并提供虚拟按键1101和虚拟按键1102。虚拟按键1101为“是”对应的按键，虚拟按键1102为“否”对应的按键。

当用户点击虚拟按键1101时，表示用户想要打开空调。此时，家庭中枢1100执行“打开空调”这个命令词对应的操作。

当用户点击虚拟按键1102时，表示用户不想打开空调。此时，家庭中枢1100不对“打开空调”这个命令词进行响应。

在另一些可能的实现方式中，上述确认操作可以为用户发出了包含确认命令词的第二人声信号。

在控制设备执行了提示操作之后，拾音设备可以监听周围的声音信号。

当拾音设备采集到第二人声信号时，拾音设备可以在本地使用目标命令词模型对第二人声信号进行命令词检测。

当拾音设备检测到确认命令词时，拾音设备可以向控制设备发送该确认命令词。

或者，当拾音设备检测到第二人声信号时，拾音设备也可以直接向控制设备发送第二人声信号。

控制设备在接收到第二人声信号之后，控制设备可以使用目标命令词模型对第二人声信号进行命令词检测。

当控制设备检测到确认命令词时，控制设备可以获取该确认命令词。

当上述确认命令词为确认含义的命令词时，控制设备可以执行上述控制命令词对应的操作，和/或，控制设备也可以向上述控制命令词对应的智能家居设备发送操作指令，以指示该智能家居设备执行上述控制命令词对应的操作。

当上述确认命令词为否认含义的命令词时，控制设备可以不对上述控制命令词进行响应。

例如，如图12所示，假设智能家居***中包括家庭中枢121、智能音箱122和智能空调123。

当家庭中枢121需要根据“打开空调”这个控制命令词与用户进行交互确认时，家庭中枢121可以向智能音箱122发送播报指令。

当智能音箱122接收到播报指令时，通过麦克风阵列播报“请确认是否打开空调”。

用户在听到该语音播报时，对智能音箱122说：“是的”。

此时，智能音箱122采集到用户的第二人声信号，使用上述目标命令词模型对第二人声信号进行识别，得到确认命令词“是的”。

然后，智能音箱122向家庭中枢121发送确认命令词“是的”。

家庭中枢121接收到确认命令词“是的”之后，确定该确认命令词表达的是确认含义。因此，家庭中枢121可以向智能空调123发送操作指令。

智能空调123接收到上述操作指令之后，进入工作状态，完成本次语音控制流程。

需要说明的是，在传统的多轮对话方案中，电子设备通常需要使用自动语音识别(Automatic Speech Recognition，ASR)、自然语言处理(Natural language processing，NLP)、自然语言理解(Natural-language understanding，NLU)等模型才能实现与用户对话。但是，这些模型需要占用较多的存储空间，消耗较多的算力资源。因此，这些模型通常设置在云端，本地的电子设备借用云端的算力资源实现多轮对话。

可是，当本地的电子设备处于弱网环境时，本地的电子设备难以与运动进行数据交互，会导致本地的电子设备的对话功能无法正常工作。并且，由于本地的电子设备需要与云端进行数据交互，因此，传统的多轮对话方案的延迟较高，用户体验较差。

然而，在本实施例中，控制设备/拾音设备可以通过目标命令词模型与用户进行多轮对话。本实施例提供的目标命令词模型与常规的命令词模型相比，虽然在训练的过程中增加了确认命令词，可能会增加训练过程的难度，比如训练样本集的构建难度、命令词模型的训练难度等。

但是，训练完成后，目标命令词模型与常规的命令词模型的大小相当，占用的存储空间小，可以直接布置在控制设备/拾音设备本地。

并且，因为训练的过程中增加了确认命令词，所以，目标命令词模型可以通过检测确认命令词的方式，实现与用户的多轮对话，应对各种场景的确认机制。由于目标命令词模型检测确认命令词只需消耗极小的算力资源，因此，控制设备/拾音设备无需借助云端的算力资源也可以与用户进行多轮对话。

综上，在本实施例的命令词响应方法中，控制设备/拾音设备可以直接在本地使用目标命令词模型与用户进行多轮对话，无需借助云端的算力资源，也无需与云端进行数据交互，可以在弱网甚至无网的环境中使用，且延迟较低，极大地提高用户的使用体验。

在另一些可能的实现方式中，上述确认操作也可以表现为其他形式。例如，上述确认操作还可以为手势操作等形式。本申请实施例对上述确认操作的具体形式不予限制。

此外，当控制设备检测到表示否认意图的确认操作时，控制设备还可以对上述控制命令词进行反馈调节，调低上述控制命令词的下一次的词汇置信度，和/或，调高上述控制命令词的置信度阈值。

例如，假设拾音设备在本次语音控制流程中，识别到了控制命令词“打开空调”。但是，在交互确认的过程中，控制设备检测到了表达否认含义的确认操作，表示本次识别到的控制命令词“打开空调”属于误识别的控制命令词。

因此，控制设备可以提高“打开空调”的置信度阈值，比如将置信度阈值从0.95提高到0.98。或者，控制设备也可以降低下一次识别到“打开空调”的词汇置信度，比如下一次识别到“打开空调”的词汇置信度为0.96，则控制设备可以将“打开空调的”词汇置信度降低至0.93。

通过反馈调节的方式，控制设备可以提高控制命令词的识别难度，降低后续对该控制命令词的误识别概率，避免控制设备重复识别到错误的控制命令词，提高控制命令词的识别准确性。

以下，将结合具体的流程图对上述命令词响应方法进行详细描述。

请参阅图13，当拾音设备采集到人声信号时，拾音设备可以在本地对该人声信号进行处理，并在识别得到控制命令词时，向控制设备发送控制命令词。

或者，拾音设备也可以将该人声信号发送至控制设备。控制设备接收到人声信号之后，对人声信号进行处理，识别得到控制命令词。

需要说明的是，上述识别得到控制命令词，可以理解为拾音设备/控制设备识别到该控制命令词的词汇置信度大于该控制命令词对应的置信度阈值。

在获取到控制命令词之后，控制设备可以不对控制命令词进行校验，直接执行场景分级中的步骤。

或者，控制设备也可以对控制命令词进行校验，通过校验的方式提高识别该控制命令词的准确性。

在校验的过程中，控制设备可以根据置信度调整参数对词汇置信度和/或置信度阈值进行调整。

然后，控制设备将词汇置信度与置信度阈值进行比较。

当词汇置信度小于或等于置信度阈值时，表示上述控制命令词校验失败，控制设备可以不对该控制命令词进行响应。

当词汇置信度大于置信度阈值时，表示上述控制命令词校验成功，控制设备可以执行后续场景分级中的步骤。

在场景分级的步骤中，控制设备可以直接将控制命令词的初始场景系数作为目标场景系数，或者，控制命令词也可以根据场景调整参数对上述初始场景系数进行调整，得到目标场景系数。

之后，控制设备可以判断目标场景系数是否大于场景系数阈值。

当目标场景系数小于或等于场景系数阈值时，表示上述控制命令词的影响范围较小，控制设备不需要与用户进行交互确认，控制设备可以直接执行上述控制命令词对应的操作，和/或，控制设备可以指示上述控制命令词对应的电子设备执行上述控制命令词对应的操作。

当目标场景系数大于场景系数阈值时，表示上述控制命令词的影响范围较大，控制设备需要与用户进行交互确认。此时，控制设备可以执行提示操作。

之后，如果控制设备检测到用户表示确认意图的确认操作时，表示上述控制命令词是用户想要下达的指令，控制设备可以执行上述控制命令词对应的操作，和/或，控制设备可以指示上述控制命令词对应的电子设备执行上述控制命令词对应的操作。

如果控制设备检测到用户表示否认意图的确认操作时，表示上述控制命令词不是用户想要下达的指令，控制设备可以不对上述控制命令词进行响应。

此外，控制设备在检测到用户表达否认意图的确认操作时，还可以调低该控制命令词下一次的词汇置信度，和/或，调高该控制命令词的置信度阈值，提高该控制命令词的识别难度，降低后续对该控制命令词的误识别概率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

并且，本申请实施例的实施过程中，控制设备可以实施以上描述的所有过程，或者，控制设备也可以实施以上描述的部分过程。

例如，在一些应用场景中，控制设备可以不实施第2节中对控制命令词进行校验的过程；在另一些应用场景中，控制设备可以不实施第3节中对初始场景系数进行调节的过程。

因此，控制设备在实施本申请实施例提供的命令词响应方法时，可以根据实际场景的需求，实施以上描述的部分或全部过程。以上描述的内容不应对本申请实施例的实施过程构成任何限定。

以下将从控制设备的角度，对本申请实施例提供的另一种命令词响应方法进行详细说明。请参阅图14，本实施例提供的命令词响应方法包括：

S141、获取人声信号对应的控制命令词；其中，人声信号是由拾音设备采集的。

拾音设备是指具备麦克风的电子设备。在本申请实施例中，控制设备和拾音设备可以是相互独立的两个电子设备，或者，控制设备和拾音设备也可以是同一个电子设备。

或者，拾音设备也可以向控制设备发送人声信号。当控制设备接收到上述人声信号时，控制设备对该人声信号进行处理，得到控制命令词。

S142、获取控制命令词对应的场景系数。

S143、根据场景系数，确定是否执行交互确认操作。

控制设备在获取到场景系数之后，可以根据场景系数确定是否执行交互确认操作。

具体地，在场景系数符合预先设定的场景系数阈值条件的情况下，控制设备可以确定执行交互确认操作，否则，控制设备可以确定不执行交互确认操作；

当场景系数符合预先设定的场景系数阈值条件时，表示该控制命令词的影响范围比较大，如果该控制命令词发生误识别，容易对用户的人身财产安全造成不利影响。此时，控制设备需要执行交互确认操作，识别用户的真实意图，减少误识别的情况发生。

当场景系数不符合预先设定的场景系数阈值条件时，表示该控制命令词的影响范围比较小，即使该控制命令词发生误识别，也不会对用户的人身财产安全造成实质性的不利影响。此时，控制设备可以不执行交互确认操作，直接对该控制命令词进行响应，降低语音控制的复杂度，提高语音控制的流畅性。

场景系数阈值条件可以根据实际需求进行设置。例如，当场景系数与控制命令词的影响范围为正相关关系时，场景系数阈值条件可以设置为场景系数大于场景系数阈值；当场景系数与控制命令词的影响范围为负相关关系时，场景系数阈值条件可以设置为场景系数小于或等于场景系数阈值；或者，在另一些场景中，场景系数阈值条件可以设置为其他内容。本申请实施例对场景系数阈值条件的具体内容不予限制。

S144、若根据场景系数，确定执行交互确认操作，则发出交互确认提示信息和/或指示其他设备发出交互确认提示信息。

例如，假设控制设备为家庭中枢，当家庭中枢确定执行交互确认操作时，家庭中枢可以在本设备的显示屏上显示交互确认提示信息，以及，家庭中枢可以指示智能音箱通过扬声器语音播报交互确认提示信息。

S145、在接收到交互确认提示信息对应的确定响应的情况下，执行控制命令词对应的操作和/或指示控制命令词对应的电子设备执行控制命令词对应的操作。

当控制设备接收到上述交互确认信息对应的确认响应时，控制设备可以执行该控制命令词对应的操作，和/或，控制设备可以指示上述控制命令词对应的电子设备执行控制命令词对应的操作。

可选地，在确定执行交互确认操作的情况下，上述方法还包括：

在接收到交互确认提示信息对应的否定响应，或者，未接收到交互确认提示信息对应的响应的情况下，不执行控制命令词对应的操作且不指示控制命令词对应的电子设备执行控制命令词对应的操作。

需要说明的是，当上述控制命令词不是用户想要下达的指令时，用户可能会针对上述交互确认提示信息作出否定响应，或者，用户也可能不对上述交互确认提示信息作出响应。

通过上述方法，当用户表达了否认意图时，控制设备可以不对上述控制命令词进行响应，避免对用户的人身财产安全造成实质性的不利影响。

可选地，上述方法还包括：

若根据场景系数，确定不执行交互确认操作，则执行控制命令词对应的操作和/或指示控制命令词对应的电子设备执行控制命令词对应的操作。

可选地，场景系数是预先设定的初始场景系数，或者，场景系数是根据场景调整参数调整初始场景系数得到的目标场景系数，场景调整参数是基于控制命令词的历史使用数据和/或其他控制命令词的历史使用数据确定的。

上述历史使用数据包括以下项的一种或多种：历史使用时间段、在指定时间段内的历史使用次数、在指定时间段内的历史使用频率。

例如，假设场景调整参数包括使用频率、时间段系数和使用系数。则控制设备可以将上述在指定时间内的历史使用频率作为使用频率，根据历史使用时间段计算该控制命令词的时间段系数，以及，根据上述控制命令词在指定时间段内的历史使用次数和其他控制命令词在指定时间段内的历史使用次数计算该控制命令词的使用系数。

可选地，发出交互确认提示信息包括以下项的一种或多种：通过扬声器播放提示音频、通过显示屏显示提示信息、指示灯闪烁、通过振动马达发出振动。

例如，假设上述电子设备为智能电视，智能电视在发出交互确认提示信息时，可以在显示屏上显示“请确认是否打开空调”的文字，并通过扬声器进行语音播报。

可选地，确定响应包括以下项的一种或多种：包含确认含义的确认命令词的人声信号、对显示屏显示的确认控件的触摸操作、对确认按键的按压操作。

在另一些场景中，上述确定响应可以是电子设备检测到对显示屏显示的确认控制的触摸操作。比如，假设家庭中枢设置有可触摸的显示屏，家庭中枢可以在显示屏上显示文字“请确认是否打开空调”，并提供了“是”的控件和“否”的控件。当用户触摸了“是”的控件时，家庭中枢检测到了用户的确定响应。

在另一些场景中，上述确定响应也可以是电子设备被检测到了对确认按键的按压操作。比如，假设智能音箱上设置有实体按键，当用户按压了该实体按键时，智能音箱检测到了用户的确定响应。

可选地，在获取控制命词对应的场景系数之前，上述方法还包括：

获取控制命令词对应的词汇置信度和置信度阈值；

在确定词汇置信度大于置信度阈值的情况下，执行后续步骤。

可选地，在确定词汇置信度大于置信度阈值的情况下，执行后续步骤之前，上述方法还包括：

根据控制命令词对应的置信度调整参数调整词汇置信度和/或置信度阈值。

可选地，置信度调整参数包括以下项的一种或多种：初始场景系数、在指定时间段内的历史使用频率、时间段系数、使用系数。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上述实施例所描述的命令词响应方法，图15示出了本申请实施例提供的命令词响应装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

该装置可以应用于控制设备，参照图15，该装置包括：

命令词获取模块151，用于获取人声信号对应的控制命令词；其中，人声信号是由拾音设备采集的；

场景系数模块152，用于获取控制命令词对应的场景系数；

交互识别模块153，用于根据场景系数，确定是否执行交互确认操作；

交互执行模块154，用于若根据场景系数，确定执行交互确认操作，则发出交互确认提示信息和/或指示其他设备发出交互确认提示信息；

确认执行模块155，用于在接收到交互确认提示信息对应的确定响应的情况下，执行控制命令词对应的操作和/或指示控制命令词对应的电子设备执行控制命令词对应的操作。

可选地，上述装置还包括：

否认停止模块，用于在接收到交互确认提示信息对应的否定响应，或者，未接收到交互确认提示信息对应的响应的情况下，不执行控制命令词对应的操作且不指示控制命令词对应的电子设备执行控制命令词对应的操作。

可选地，上述装置还包括：

直接响应模块，用于若根据场景系数，确定不执行交互确认操作，则执行控制命令词对应的操作和/或指示控制命令词对应的电子设备执行控制命令词对应的操作。

可选地，交互识别模块153，具体用于在场景系数符合预先设定的场景系数阈值条件的情况下，确定执行交互确认操作，否则，确定不执行交互确认操作；

可选地，上述场景系数是预先设定的初始场景系数，或者，场景系数是根据场景调整参数调整初始场景系数得到的目标场景系数，场景调整参数是基于控制命令词的历史使用数据和/或其他控制命令词的历史使用数据确定的。

可选地，上述历史使用数据包括以下项的一种或多种：历史使用时间段、在指定时间段内的历史使用次数、在指定时间段内的历史使用频率。

可选地，上述发出交互确认提示信息包括以下项的一种或多种：通过扬声器播放提示音频、通过显示屏显示提示信息、指示灯闪烁、通过振动马达发出振动。

可选地，上述确定响应包括以下项的一种或多种：包含确认含义的确认命令词的人声信号、对显示屏显示的确认控件的触摸操作、对确认按键的按压操作。

可选地，上述装置还包括：

置信度获取模块，用于获取控制命令词对应的词汇置信度和置信度阈值；

置信度校验模块，用于在确定词汇置信度大于置信度阈值的情况下，执行后续步骤。

可选地，上述装置还包括：

置信度调整模块，用于根据控制命令词对应的置信度调整参数调整词汇置信度和/或置信度阈值。

可选地，上述置信度调整参数包括以下项的一种或多种：初始场景系数、在指定时间段内的历史使用频率、时间段系数、使用系数。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种命令词响应方法，应用于控制设备，其特征在于，所述方法包括：

获取所述控制命令词对应的场景系数；

根据所述场景系数，确定是否执行交互确认操作；

2.根据权利要求1所述的方法，其特征在于，在确定执行所述交互确认操作的情况下，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述场景系数，确定是否执行交互确认操作，具体包括：

在所述场景系数符合预先设定的场景系数阈值条件的情况下，确定执行所述交互确认操作，否则，确定不执行所述交互确认操作。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述场景系数是预先设定的初始场景系数，或者，所述场景系数是根据场景调整参数调整所述初始场景系数得到的目标场景系数，所述场景调整参数是基于所述控制命令词的历史使用数据和/或其他控制命令词的历史使用数据确定的。

6.根据权利要求5所述的方法，其特征在于，所述历史使用数据包括以下项的一种或多种：历史使用时间段、在指定时间段内的历史使用次数、在指定时间段内的历史使用频率。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述发出交互确认提示信息包括以下项的一种或多种：通过扬声器播放提示音频、通过显示屏显示提示信息、指示灯闪烁、通过振动马达发出振动。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述确定响应包括以下项的一种或多种：包含确认含义的确认命令词的人声信号、对显示屏显示的确认控件的触摸操作、对确认按键的按压操作。

9.根据权利要求1-8中任一项所述的方法，其特征在于，在所述获取所述控制命词对应的场景系数之前，所述方法还包括：

获取所述控制命令词对应的词汇置信度和置信度阈值；

10.根据权利要求9所述的方法，其特征在于，在所述在确定所述词汇置信度大于所述置信度阈值的情况下，执行后续步骤之前，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述置信度调整参数包括以下项的一种或多种：初始场景系数、在指定时间段内的历史使用频率、时间段系数、使用系数。

12.一种控制设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器被配置为执行所述计算机程序时实现如权利要求1至11任一项所述的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质被配置为存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品被配置为在控制设备上运行时，使得控制设备执行如权利要求1至11任一项所述的方法。

15.一种芯片***，其特征在于，所述芯片***包括存储器和处理器，所述处理器被配置为执行所述存储器中存储的计算机程序，以实现如权利要求1至11任一项所述的方法。