WO2023093280A1

WO2023093280A1 - 语音控制方法、装置、电子设备及存储介质

Info

Publication number: WO2023093280A1
Application number: PCT/CN2022/121695
Authority: WO
Inventors: 陈科鑫; 冉茂松; 张晓帆
Original assignee: Oppo广东移动通信有限公司
Priority date: 2021-11-29
Filing date: 2022-09-27
Publication date: 2023-06-01
Also published as: CN114121005A

Abstract

一种语音控制方法、装置、电子设备及存储介质，该语音控制方法包括：获取语音指令（S110）；识别该语音指令的指令类型；当该语音指令的指令类型为非即时类型时，获取语音指令所对应的触发条件信息和目标执行信息（S120）；当满足触发条件信息所对应的触发条件时，于该目标执行信息对应的目标操作界面执行目标操作（S130）。本方法可以实现通过语音控制图形界面时的非即时指令的实现，提升用户体验。

Description

语音控制方法、装置、电子设备及存储介质

相关申请的交叉引用

本申请要求于2021年11月29日提交的申请号为202111433111.8的中国申请的优先权，其在此出于所有目的通过引用将其全部内容并入本文。

技术领域

本申请涉及电子设备技术领域，更具体地，涉及一种语音控制方法、装置、电子设备及存储介质。

背景技术

随着科技水平的快速进步，可以结合语音识别和自然语言处理技术，使电子设备通过听觉模态接收用户发出的语音指令并完成对应的交互任务。由此，用户可以通过语音输入来完成界面交互操作。然而，在一些情况下，用户可能需要在满足一定的条件时，才执行相应的界面操作，但相关技术中，并不能较好地完成该类型的非即时触发的指令，影响了用户体验。

发明内容

鉴于上述问题，本申请提出了一种语音控制方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种语音控制方法，所述方法包括：获取语音指令；识别所述语音指令的指令类型；当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息；当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。

第二方面，本申请实施例提供了一种语音控制装置，所述装置包括：指令获取模块、信息获取模块以及操作执行模块，其中，所述指令获取模块用于获取语音指令；所述信息获取模块用于当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息；所述操作执行模块用于当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述第一方面提供的语音控制方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的语音控制方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现上述第一方面提供的语音控制方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种场景示意图。

图2示出了本申请实施例提供的另一种场景示意图。

图3示出了本申请实施例提供的应用环境的一种示意图。

图4示出了本申请实施例提供的应用环境的另一种示意图。

图5示出了根据本申请一个实施例的语音控制方法流程图。

图6示出了本申请实施例提供的又一种场景示意图。

图7示出了根据本申请另一个实施例的语音控制方法流程图。

图8示出了根据本申请又一个实施例的语音控制方法流程图。

图9示出了根据本申请再一个实施例的语音控制方法流程图。

图10示出了本申请实施例提供的指令识别模型的原理示意图。

图11示出了根据本申请又另一个实施例的语音控制方法流程图。

图12示出了本申请实施例提供的指令类型识别模型的结构示意图。

图13示出了根据本申请又再一个实施例的语音控制方法流程图。

图14示出了根据本申请一个实施例的语音控制装置的一种框图。

图15是本申请实施例的用于执行根据本申请实施例的语音控制方法的电子设备的框图。

图16是本申请实施例的用于保存或者携带实现根据本申请实施例的语音控制方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

智能终端设备的普及给生活带来了种种便利。在智能终端设备诞生之初，GUI(Graphic User Interface，用户交互界面)一直作为重要的载体，用于用户与智能手机交互的载体，GUI一般也可以简称为UI。到了语音交互不断发展的今天，使用更为方便的智能语音交互与智能终端设备进行交互已经成为了重要的人机交互手段，而VGUI(Voice Graphic User Interface,语音控制图形交互界面)能够为用户提供更为便捷、直接的服务交互手段，或在用户不便于触控GUI时，为用户提供一种在有障碍情境下的一种无缝交互解决方案。

但是，发明人经过长时间的研究并发现，相关技术中，VGUI解决方案着重于立即执行的用户指令，并不能较好地对非即时指令的技术能力支持。例如，如图1所示为语音控制的一种场景，用户通过语音输入“给妈妈发短信”，智能终端设备在解析语音信息后，在GUI界面上寻找发送的应用，然后执行操作发送相应的短信，其中用户的指令是立即执行的；而如图2所示的语音控制的场景，用户通过语音输入“当我到家的时候，给妈妈发短信”，此时，用户在表达基础上添加了一个触发条件“当我到家时”，将指令变成了一个条件满足才触发的非即时的语音控制图形界面的指令，然而，智能终端可能并不会在满足该触发条件时才执行该指令，而是立即执行的，因此无法较好地实现非即时类型的语音指令，给用户带来了不便。

针对上述问题，发明人提出了本申请实施例提供的语音控制方法、装置、电子设备以及存储介质，可以实现针对用户输入的非即时类型的语音指令，识别其触发条件信息后，再根据触发条件信息执行对应的界面操作，从而能够较佳地完成非即时类型的语音指令，进而提升用户体验。其中，具体的语音控制方法在后续的实施例中进行详细的说明。

下面先对本申请实施例所涉及的应用场景进行介绍。

在本申请实施例中，本申请实施例提供的语音控制方法可以由电子设备执行。在由电子设备执行的这种方式中，本申请实施例提供的语音控制方法中所有步骤可以均由电子设备执行。例如，如图3所示，通过电子设备100的语音采集装置可以采集语音指令，然后将采集到的语音指令以及当前用户界面均传输给处理器，使得处理器对语音指令的指令类型进行识别后，再根据识别出的指令类型，执行本申请提供的语音控制方法涉及的步骤。

再者，本申请实施例提供的语音控制方法也可以由服务器(云端)进行执行。对应的，在由服务器执行的这种方式中，可以由电子设备采集语音指令，并将采集的语音指令以及当前用户界面同步发送给服务器，然后由服务器识别语音指令后，然后由服务器触发电子设备执行目标操作。

另外，还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中，本申请实施例提供的语音控制方法中的部分步骤由电子设备执行，而另外部分的步骤则由服务器来执行。

示例性的，如图4所示，电子设备100可以获取语音指令，然后将语音指令交由服务器200来识别语音指令的指令类型，并在指令类型为非即时类型时，识别语音指令对应的目标执行信息以及目标执行信息对应的触发条件信息，再返回至电子设备100；电子设备100再根据触发条件信息，于目标执行信息对应的目标界面执行目标操作。

需要说明的是，在由电子设备和服务器协同执行的这种方式中，电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式，在实际应用中，可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。

需要说明的是，该电子设备100除了可以为图1和图2中所示的智能手机外，还可以为车机设备、可穿戴设备、平板电脑、笔记本电脑、智能音箱等。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是云服务器等，在此不做限定。

下面结合附图对本申请实施例提供的语音控制方法进行详细介绍。

请参阅图5，图5示出了本申请一个实施例提供的语音控制方法的流程示意图。在具体的实施例中，所述语音控制方法应用于如图14所示的语音控制装置400以及配置有所述语音控制装置400的电子设备100(图15)。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的电子设备可以为智能手机、平板电脑、智能手表、智能眼镜、笔记本电脑等，在此不做限定。下面将针对图5所示的流程进行详细的阐述，所述语音控制方法具体可以包括以下步骤：

步骤S110：获取语音指令。

在本申请实施例中，用户可以通过向电子设备输入语音，以表达其控制意图。对应的，电子设备可以将用户发出的语音作为语音指令。其中，电子设备可以通过音频采集装置采集用户输入的语音，从而得到语音指令。音频采集装置用于进行音频信号采集。可选的，音频采集装置可以包括一个或多个音频采集器件，该音频采集器件可以为麦克风。

在一些实施方式中，电子设备可以在开启语音控制图形界面的功能的情况下，检测用户输入的语音指令，并根据检测的语音指令，执行本申请提供的语音控制方法涉及的步骤。可选地，电子设备可以在开启语音助手的情况下，通过语音采集装置采集用户输入的语音指令。例如，电子设备的语音助手开启的情况下，用户输入语音指令“小欧，在我回家的时候帮我开启NFC门禁”，则电子设备可以采集到该语音指令。

在另一些实施方式中，电子设备可以在检测到语音控制的触发操作时，采集用户输入的语音，从而得到用户输入的语音指令。可选地，电子设备的屏幕中可以显示有用于语音控制图形界面的控件，在检测到对该控件的触发操作时，则可以响应该触发操作，开启语音采集，通过语音采集装置采集用户输入的语音指令。其中，该操作可以为点击操作、按压操作、滑动操作等，在此不做限定。可选地，电子设备也可以在检测到指定实体按键的操作时，采集用户输入的语音，从而得到用户输入的语音指令。当然，电子设备获取语音指令的具体方式可以不做限定。

步骤S120：当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息。

在本申请实施例中，电子设备在获取到语音指令后，可以对该语音指令的指令类型进行识别，以便识别出用户需求的非即时控制界面的情况，进而准确地实现用户所需的控制。其中，语音指令的指令类型可以包括即时类型以及非即时类型，即时类型指的是电子设备获取到语音指令后，需立即执行的指令对应的类型；非即时类型表示电子设备获取到语音指令后不立即执行，而是在满足相应的条件才执行的指令类型。

在一些实施方式中，电子设备可以对获取到的语音指令进行识别，得到语音指令对应的文本内容。在得到语音指令对应的文本内容后，可以基于预先配置的方式对该文本内容进行语义识别，以识别出语音指令的指令类型为即时类型或者非即时类型。其中，电子设备可以基于预先配置的自动语音识别方式(Automatic Speech Recognition)将语音指令转换为对应的文本内容。

作为一种可能的实施方式，电子设备可以基于预先训练的指令类型识别模型，对语音指令对应的文本内容进行识别，从而得到语音指令对应的指令类型。其中，该指令类型识别模型可以基于被标注有指令类型的文本样本数据训练得到。

在另一些实施方式中，电子设备在得到语音指令对应的文本内容后，也可以对文本内容进行分词，然后根据分词结果，获得文本内容中的关键词；电子设备再将识别出的关键词与预设关键词进行匹配，该预设关键词为预先设置的非即时类型的语音指令对应的关键词；若识别出的关键词中任一与关键词预设关键词匹配，则确定该语音指令的指令类型为非即时类型；识别出的每个关键词与预设关键词均不匹配，则确定该语音指令的指令类型为即时类型。可选地，预设关键词包括与触发条件相关的关键词，例如，“在”、“当”、“若”、“如果”、“时”、“时候”等。示例性地，用户输入的语音指令对应的文本内容为“电池电量为10％的时候，关闭移动数据网络”，则该文本内容中的关键词“时候”与预设关键词匹配，因此将该语音指令的指令类型确定为非即时类型。

当然，电子设备识别语音指令的指令类型的具体方式可以不做限定。

在本申请实施例中，电子设备在识别语音指令的指令类型后，可以根据语音指令的指令类型，执行后续的语音控制步骤。电子设备可以确定语音指令的指令类型是否为非即时类型；若语音指令的指令类型为非即时类型，则可以识别该语音指令对应的触发条件信息和目标执行信息，以根据触发条件信息和目标执行信息，完成用户所需的语音控制。其中，目标执行信息可以理解为电子设备对语音指令进行转换后所获取的，用于表征用户对界面的控制意图的控制信息；触发条件信息可以理解为该目标执行信息所对应的执行条件，即满足何种条件时，执行该控制信息所对应的操作，从而完成用户所需的控制。

在一些实施方式中，电子设备可以获取语音指令对应的指令文本，然后获取指令文本中包含的触发条件信息和目标执行信息。

作为一种可能的实施方式，电子设备可以基于语音指令转换得到的文本内容，利用预先配置的方式对该文本内容进行语义识别，再根据语义识别结果确定出触发条件信息以及目标执行信息。

可选的，可以基于自然语言理解(NLU)的方式抽取该文本内容中的控制意图、控制对象、对象附属信息以及触发条件，整合为样式为{action,object,information，condition}的四元组，则在这种方式中，语义识别的结果为该四元组。其中，action表征控制意图，或者可以理解为控制目的，object表征控制对象，information则表征对象附属信息，condition表征触发条件。其中，控制意图、控制对象以及对象附属信息即可作为目标执行信息，触发条件即为上述的触发条件信息。

示例性地，对语音指令进行转换得到的文本内容为“妈妈来电时，回复妈妈短信暂时没空”。基于自然语言理解的方式可以理解用户意图为“发短信”，控制对象为“妈妈”，对象附属信息为“暂时没空”，控制条件为“妈妈来电时”，用四元组记为：{(发短信)，(妈妈)，(暂时没空)，(妈妈来电时)}。

作为另一种可能的实施方式，电子设备也可以通过预先训练的指令识别模型，对语音指令对应的文本内容进行识别，从而得到该语音指令对应的目标执行信息，以及目标执行信息对应的触发条件信息。其中，指令识别模型可以根据预先标注有触发条件信息以及目标执行信息的文本样本训练得到。

当然，电子设备具体识别语音指令对应的目标执行信息以及触发条件信息的具体方式可以不做限定。

步骤S130：当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。

在本申请实施例中，在上述语音指令为非即时类型，电子设备在识别得到语音指令对应的触发条件信息和目标执行信息的情况下，电子设备则可以根据该触发条件信息，执行目标执行信息。其中，电子设备可以在满足触发条件信息对应的触发条件的情况下，于目标执行信息对应的目标操作界面执行目标操作。

例如，请参阅图6，用户在语音输入“回家时，设置飞行模式”，则上述触发条件信息为“回家时”，目标执行信息为设置飞行模式”，则电子设备可以根据定位信息确定出设备位置为家庭位置的情况下，在设备模式的设置界面中，将飞行模式对应的开关控件设置为开启状态。

又例如，在上述识别语音指令对应的四元组信息的举例中，得到的四元组为：{(发短信)，(妈妈)，(暂时没空)，(妈妈来电时)}，则电子设备可以在接收到妈妈的来电时，切换为短信应用的发送界面，并在收信人编辑框写入“妈妈”，文本编辑框中写入“暂时没空”，然后执行短信发送。

在一些实施方式中，电子设备于目标执行信息对应的目标操作界面执行目标操作时，可以通过***注入(Android所支持的一种操作方式)或模拟屏幕点击的方法生成目标执行信息对应的目标界面的控制指令。例如，满足触发条件信息情况下，可以模拟用户点击操作，切换为该目标执行信息时对应的目标界面，并模拟用户点击操作，执行目标执行信息对应的目标控制。由此，实现于目标执行信息对应的目标界面，执行对应的目标操作。

在本申请实施例中，若识别出语音指令的指令类型为即时类型，则可以识别语音指令对应的目标操作信息，以完成用户所需的实时语音控制。其中，识别语音指令对应的目标操作信息，可以是识别语音指令对应的目标执行信息，识别语音指令对应的目标执行信息的方式，可以参阅前述实施例中识别界面目标执行信息的方式，在此不再赘述。需要说明的是，语音指令的指令类型为即时类型的情况下，可以是对当前用户界面进行实时语音控制，也可以是对电子设备的其他界面进行实时语音控制。

在一些实施方式中，电子设备在识别得到目标操作信息后，则可以将目标操作信息与界面可操作元素进行匹配，从而得到匹配的界面中的界面可操作元素，并于该界面中执行该界面可操作元素所对应的操作。其中，该实施方式可以参阅前述实施例的内容，在此不再赘述。

在一种可能的实施方式中，在指令类型为即时类型的情况下，可以是对当前用户界面进行实时的语音控制。其中，用户在发出语音的过程中，可能因为自己的发音习惯问题而使得所发出的语音较为随意，但是较为随意的语音所对应的语音指令可能并不能使得电子设备准确的确定用户的控制意图。例如，若语音指令本身对应的内容为“下一个”，对于该下一个可能所对应的意思可以为接来下的一个，所对应的意思也可能为下载一个。例如，在音频播放场景下一个可能所对应的意思可以为接来下的一个，例如，播放接下来的一首歌。而在软件下载场景中，下一个可能所对应的意思可以为下载一个。例如，下载一个应用程序。因此，为了能够更为准确的确定用户的真实意图，可以在根据当前用户界面对应的任务场景对语音指令对应的目标操作信息进行更新，得到场景控制指令；将场景控制指令与当前用户界面的界面可操作元素，进行匹配，以从当前用户界面的界面可操作元素中，确定目标可操作元素。上述举例中，若当前应用场景为音乐播放场景，则可以将目标操作信息“下一个音乐”更新为“播放下一首歌”，若当前应用场景为应用下载场景，可以将目标操作信息“下一个音乐”更新为“下载一个音乐播放应用”。由此，可以实现更为准确地语音控制。

本申请实施例提供的语音控制方法，可以实现对用户输入的语音指令的指令类型的识别，针对用户输入的非即时类型的语音指令，识别其触发条件信息后，再根据触发条件信息执行对应的界面操作，从而能够较佳地完成非即时类型的语音指令，进而提升用户体验。

请参阅图7，图7示出了本申请另一个实施例提供的语音控制方法的流程示意图。该语音控制方法应用于上述电子设备，下面将针对图7所示的流程进行详细的阐述，所述语音控制方法具体可以包括以下步骤：

步骤S210：获取语音指令。

步骤S220：当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息。

在本申请实施例中，步骤S210至步骤S220可以参阅其他实施例的内容，在此不再赘述。

在本申请实施例中，步骤S210以及步骤S220可以参阅其他实施例的内容，在此不再赘述。

步骤S230：当满足所述触发条件信息所对应的触发条件时，将所述目标执行信息与界面可操作元素进行匹配，得到所述目标操作界面，于所述目标操作界面执行目标操作。

在本申请实施例中，电子设备在根据触发条件信息和目标执行信息，执行语音控制时，可以在满足触发条件信息对应的触发条件的情况下，将目标执行信息与界面可操作元素进行匹配，得到目标操作界面，并于目标操作界面执行目标操作。

在一些实施方式中，电子设备可以预先识别有电子设备中多种界面的界面可操作元素。界面指的是电子设备可运行并显示的界面，其可以包括***界面、安装的各个应用程序对应的界面等，在此不做限定。电子设备可以将上述识别得到的目标执行信息与预先识别的界面的界面可操作元素进行匹配，从而得到与目标执行信息匹配的目标操作界面中匹配的界面可操作元素作为目标可操作元素，然后，于目标界面执行目标可操作元素对应的操作。例如，对于短信应用的短信发送界面而言，其包括收件人的编辑框和文本编辑框，若识别出的目标执行信息为“给妈妈发短信，说暂时没空”，则匹配的界面操作元素为：短信发送界面中收件人编辑框、文本编辑框以及发送控件，电子设备于目标界面执行目标可操作元素对应的操作时，则可以在短信发送界面中，于收件人编辑框写入“妈妈”，于文本编辑框写入“暂时没空”，然后触发发送控件，实现短信发送。

可以理解地，对于一个界面而言，可能会包括有多种用户可操作的界面可操作元素。界面可操作元素可以包括界面中某个控件，也可以是针对整个界面。例如，若用户的意图为进行页面的滑动(例如，上滑，下滑，左滑以及右滑)，或者意图为进行界面的切换，再或者是退出某个界面，那么则界面可操作元素为整个界面。再例如，若用户的意图是点击界面中的某个位置，那么界面可操作元素则可以为针对界面中某个控件。在针对界面所实施的操作可以有多种的情况下，界面所对应的界面可操作元素也可以有多个。

在一些实施方式中，电子设备对界面的界面可操作元素进行识别，可以至少包括下列识别方式中的至少一项：基于代码解析方式对界面进行识别；基于图文识别方式对界面进行识别；以及基于控件分类模型对界面进行识别。

作为一种可能的实施方式，基于代码解析方式对界面进行识别，以获取界面对应的界面可操作元素，可以理解为基于代码解析的方式，对当界面中所包括的组件或者组件进行识别，进而所得到的界面可操作元素可以包括所能识别出的组件的标识以及描述信息。对应的，基于代码解析方式对界面进行识别，则可以理解为基于代码解析的方式来获取界面中所包括的组件以及组件对应的描述信息。描述信息可以包括名称、功能、触发操作等信息。可选地，可以基于Google无障碍服务accessibility实现基于代码解析方式对界面进行识别。

作为一种可能的实施方式，基于图文识别方式对界面进行识别，可以包括OCR(Optical Character Recognition，光学字符识别)方式，对界面中的组件、控件、图标等进行识别，得到识别出的组件、控件、图标等的描述信息。具体地，可以通过OCR方式，识别出用户界面中的组件、控件、图标的位置，然后执行遍历，获取到用户界面中所有的组件、控件、图标等，再通过分析图像内容，确定出组件、控件、图标等的描述信息。

作为一种可能的实施方式，控件分类模型的训练过程包括：获取用户界面；获取从用户界面中分类出的控件；通过分类出的控件对待训练的神经网络进行训练，以得到控件分类模型。

电子设备可以将预先识别得到的多种界面的界面可操作元素进行存储，以在执行语音控制时，与语音指令对应的目标执行信息进行匹配，从而得到对应的目标操作界面中的界面可操作元素，并将其作为目标可操作元素。

在另一些实施方式中，电子设备也可以在满足触发条件信息所对应的触发条件的情况下，再识别电子设备中多种界面的界面可操作元素，然后将目标执行信息与界面可操作元素进行匹配，得到目标操作界面，并于目标操作界面执行目标操作。其中，电子设备识别界面可操作元素的方式可以参阅上述实施方式，在此不再赘述。

在一些实施方式中，触发条件信息可以包括触发条件的条件领域以及条件参数，以及目标执行信息可以包括执行领域以及执行参数。条件领域指的是非即时类型的语音指令的触发条件所属的服务类型，例如，电子设备的电池电量、电子设备所处的位置、电子设备的时间、电子设备的日期、电子设备接收到的消息通知、接收到的来电等；条件参数指的是触发非即时类型的语音指令所属服务的具体触发状态或参数值等，例如，具体的电量值、具体的时间、具体的日期、具体的位置、接收到何种消息、接收到何种来电等；执行领域指的是非即时类型的语音指令具体执行的操作所属服务领域，例如，控制家电设备、控制电子设备的参数、操作应用软件等；执行参数指的是执行领域的操作对应的具体操作参数，例如，控制智能空调的具体设置温度、电子设备的设备音量的具体数值等。

在该实施方式下，电子设备将目标执行信息与界面可操作元素进行匹配时，可以将执行领域以及执行参数与界面可操作元素进行匹配，从而得到与目标执行信息匹配的目标操作界面中的目标可操作元素。其中，电子设备可以根据执行领域，确定出对应的界面，再根据执行参数与该界面的界面可操作元素进行匹配，从而得到与目标执行信息匹配的目标可操作元素。例如，若执行领域为控制智能空调，则界面为智能家居应用程序对应的智能空调的控制界面，再根据执行参数，若执行参数为降低智能空调的温度，则可以确定出匹配的界面可操作元素为：用于降低智能空调的温度的控件。

在该实施方式中，通过将目标执行信息划分为执行领域以及执行参数，可以使电子设备在匹配界面的界面可操作元素时，能够匹配到更为准确的界面可操作元素，并且能够提升匹配效率；同样地，将触发条件信息划分为条件领域以及条件参数，可以使电子设备在根据触发条件信息执行匹配到的界面可操作元素时，能够更为准确地保证在满足触发条件信息时，于目标操作界面执行目标操作，提升语音控制的准确性。

本申请实施例提供的语音控制方法，针对用户输入的非即时类型的语音指令，识别其对应的触发条件信息以及目标执行信息后，在满足触发条件信息对应的触发条件时，将目标执行信息与界面可操作元素进行匹配，从而能够快速且准确地确定出用户所需的界面操作，再执行对应的界面操作，从而能够较佳地完成非即时类型的语音指令，进而提升用户体验。

请参阅图8，图8示出了本申请又一个实施例提供的语音控制方法的流程示意图。该语音控制方法应用于上述电子设备，下面将针对图8所示的流程进行详细的阐述，所述语音控制方法具体可以包括以下步骤：

步骤S310：获取语音指令。

步骤S320：当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息。

在本申请实施例中，步骤S310以及步骤S320可以参阅其他实施例的内容，在此不再赘述。

步骤S330：将所述目标执行信息与界面可操作元素进行匹配，得到所述目标操作界面。

与前一个实施例不同的是，在本申请实施例中，电子设备在获取到语音指令所对应的触发条件信息和目标执行信息之后，即可将目标执行信息与界面可操作元素进行匹配，得到目标操作界面，以便在满足触发条件信息所对应的触发条件时，于目标执行信息对应的目标操作界面执行目标操作。其中，电子设备将目标执行信息与界面可操作元素进行匹配的方式，可以参阅前一个实施例的内容，在此不再赘述。

步骤S340：根据所述触发条件信息以及所述目标操作界面，生成对应的控制指令。

在本申请实施例中，电子设备在识别出触发条件信息以及目标操作界面之后，则可以根据触发条件信息以及目标操作界面，进行控制指令的合成，并将合成之后的控制指令传递给图形界面进行执行。其中，电子设备可以根据触发条件信息，以及匹配到的目标操作界面中的界面可操作元素，生成对应的控制指令。可选地，可以采用IFTTT指令的生成方式，根据触发条件信息以及目标操作界面，生成对应的控制指令。

步骤S350：执行所述控制指令，所述控制指令用于当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。

在本申请实施例中，由于上述控制指令是非即时类型的指令，因此控制指令根据具体的触发条件信息以及目标操作界面的界面可操作元素，存在于应用后台；并且，通过实时的监测触发条件信息的状态，例如监测前述实施例中的条件领域以及条件参数的真实状态，并使得相应的执行模块(用于执行目标执行信息)处于待命状态(存在于内存中)；当检测到满足触发条件信息时，执行模块立即执行目标操作界面中界面可操作元素对应的操作，从而完成非即时类型的语音控制流程。

本申请实施例提供的语音控制方法，针对用户输入的非即时类型的语音指令，识别其对应的触发条件信息以及目标执行信息后，将目标执行信息与界面可操作元素进行匹配，从而能够快速且准确地确定出用户所需的界面操作，再根据触发条件信息执行对应的界面操作，从而能够较佳地完成非即时类型的语音指令，进而提升用户体验。

请参阅图9，图9示出了本申请再一个实施例提供的语音控制方法的流程示意图。该语音控制方法应用于上述电子设备，下面将针对图9所示的流程进行详细的阐述，所述语音控制方法具体可以包括以下步骤：

步骤S410：获取语音指令。

步骤S420：当所述语音指令的指令类型为非即时类型时，获取所述语音指令对应的指令文本。

步骤S430：将所述语音指令对应的指令文本，输入至预先训练的指令识别模型，得到所述指令文本中包含的触发条件信息以及目标执行信息，所述指令识别模型基于分层强化学习的方式训练得到。

在本申请实施例中，电子设备在确定出语音指令的指令类型为非即时类型的情况下，对语音指令对应的触发条件信息以及目标执行信息进行识别时，可以将语音指令对应的指令文本输入至预先基于分层强化学习的方式训练的指令识别模型，得到指令文本中包含的触发条件信息以及目标执行信息。由于需要识别触发条件信息以及目标执行信息的多种任务，因此指令识别模型采用分层强化学习的方式训练得到，能够提升识别准确性。

在一些实施方式中，该指令识别模型包括触发条件信息对应的第一子模块、目标执行信息对应的第二子模块以及协同控制模块，其中，触发条件信息对应的第一子模块用于识别触发条件信息的识别任务，目标执行信息对应的第二子模块用于识别目标执行信息的识别任务；协同控制模块用于决策对应的识别任务的动作，具体可以决策子模块的工作任务的执行顺序，为子模块分派工作任务。该方式中，通过分层强化学习的模型可以更准确地识别触发条件信息以及目标执行信息。

该方式下，指令识别模型的训练过程包括：创建用于识别触发条件信息的识别任务对应的第一子模块、用于识别目标执行信息的识别任务对应的第二子模块以及用于协调识别任务的协同控制模块，第一子模块以及所述第二子模块用于决策其对应的识别任务的动作，且所述协同控制模块的决策优先级高于第一子模块以及第二子模块的决策优先级；基于被标注有触发条件信息、目标执行信息以及所述识别任务的识别顺序的文本样本，对协同控制模块、第一子模块以及第二子模块进行深度强化学习训练，得到训练后的指令识别模型。

作为一种可能的实施方式，基于被标注有触发条件信息、目标执行信息以及所述识别任务的识别顺序的文本样本，对所述协同控制模块、所述第一子模块以及所述第二子模块进行深度强化学习训练，得到训练后的所述指令识别模型，可以包括：将所述文本样本输入至所述协同控制模块、所述第一子模块以及所述第二子模块，得到所述第一子模块以及所述第二子模块的输出结果，以及所述协同控制模块协调的执行顺序；基于所述第一子模块的输出结果以及所述文本样本被标注的触发条件信息，确定所述第一子模块对应的第一奖励；基于所述第二子模块的输出结果以及所述文本样本被标注的目标执行信息，确定所述第二子模块对应的第二奖励；基于所述协同控制模块协调的执行顺序、以及所述文本样本被标注的识别顺序，确定所述协同控制模块对应的第三奖励；基于所述第一奖励对所述第一子模块进行深度强化学习训练，基于所述第二奖励对所述第二子模块进行深度强化学习训练，以及基于所述第三奖励对所述协同控制模块进行深度强化学习训练，直至满足预设终止条件，得到训练后的所述指令识别模型。

该实施方式中，基于第一奖励对第一子模块进行深度强化学习训练，，基于第二奖励对第二子模块进行深度强化学习训练，以及基于第三奖励对协同控制模块进行深度强化学习训练，即模型训练，强化学习训练的算法可以不做限定，例如可以是优势动作评论(Advantage Actor Critic，A2C)算法、异步的优势动作评论(AsynchronousAdvantage Actor-Critic，A3C)算法或深度Q值网络(Deep Q-Network，DQN)算法等。

下面以触发条件信息包括条件领域以及条件参数，目标执行信息包括执行领域以及执行参数为例，对本申请实施例中的指令识别模型进行说明。其中，将条件领域、条件参数、执行领域以及执行参数定义为四个槽位。条件领域、条件参数、执行领域以及执行参数的定义可以参阅前述实施例的内容，在此不再赘述。

该指令识别模型如图10所示，其中Agent指的是强化学习概念中的智能体，需要通过训练数据训练得到。指令识别模型中存在一个顶层Agent和四个底层Agent，每一个底层Agent分别负责对四个具体待识别槽位的信息进行识别；顶层Agent则根据顶层Agent的状态判断应该选择哪一个底层Agent进行识别，即控制底层Agent的工作顺序。顶层Agent即可以理解为上述的协调控制模块，底层Agent即可以理解为上述的第一子模块和第二子模块，且第一子模块和第二子模块分别对应两个底层Agent。

顶层Agent的状态的含义是目前顶层Agent的工作完成状态，由于顶层Agent的工作是负责分派工作给底层Agent，因此顶层Agent的状态可以使用如下公式来进行表示，SH表示顶层Agent的状态，st1、st2、st3、st4是分别表示四个底层Agent的状态，底层Agent的状态中保存了目前需要识别的槽位识别置信度、识别内容、历史采取的Action(行动，强化学习Agent的执行步骤)等。即：

S _H＝{st ₁,st ₂,st ₃,st ₄}

底层Agent的训练目的是尽可能准确的识别所负责识别的信息(条件领域、条件参数、执行领域以及执行参数)，因此，在训练过程中，定义底层Agent的训练Reward(奖励，指强化学习中对Agent执行结果的反馈)为：

其中，st表示底层Agent的执行状态，gt为样本文本标注的信息；当执行状态与真实状态完全一致的时候，训练Reward为1，当执行状态为空的时候，训练Reward为-p，p是设定的取空惩罚；当执行状态为除上述状态的所有其他情况时候，训练Reward为-1。在训练过程中底层Agent每采取一次行动，就会计算一次训练Reward。

进一步地，由于底层槽位中的信息存在互相制约互相依赖的关系，在正确识别某一个槽位信息后，能够缩小另一个待识别槽位的信息搜索范围。例如，识别到执行领域为调节空调开关状态，那么执行函数就只能是电子设备中的智能家居控制应用，又例如，识别到执行函数为音量大小，那么执行领域就只可能是电子设备的图形界面上音量调节按钮。因此，顶层Agent的训练目的是尽可能合理高效的分配底层Agent的执行顺序，优先识别包含信息丰富的槽位。在训练过程中，定义顶层Agent的训练Reward为：

其中，

表示顶层Agent执行状态为st、真实标注为gt时候的累计训练Reward；顶层Agent的Reward是截至第i步为止，回溯N步的有效累计底层Agent的Reward总和；并且，当顶层Agent在某一步选择的底层Agent与真实标注的底层Agent(即执行顺序与标注的执行顺序)相同，才会被认定为有效累计，否则该步的Reward记为0。

另外，指令识别模型还可以包括信息规约模块。每一次底层Agent执行完毕，会更新目前的槽位识别状态，信息规约模块对槽位识别状态进行整合处理，若某一次底层Agent的识别结果概率低于设定的阈值，则信息规约模块可以对识别结果中识别的槽位信息，与界面可操作元素进行匹配，以验证该识别结果是否合理。例如识别为“把网易云音乐调整为震动模式”，则信息规约模块可以将其与界面可操作元素进行匹配，并且，通过匹配可以确定出网易云音乐为软件应用而非设备终端，不能进行该操作；信息规约模块会将该步识别结果打上识别未完成需要进一步处理的标记，反馈给顶层Agent。由此，可以提升识别的准确性。

当然，对指令识别模型进行深度强化学习训练的具体方式可以不做限定。

步骤S440：当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。

在本申请实施例中，步骤S440可以参阅其他实施例的内容，在此不再赘述。

本申请实施例提供的语音控制方法，针对用户输入的非即时类型的语音指令，通过预先根据分层强化学习的方式训练得到的指令识别模型，识别其对应的触发条件信息以及目标执行信息后，然后在满足触发条件信息所对应的触发条件时，于目标执行信息对应的目标操作界面执行目标操作，从而能够快速且准确地确定出用户所需的界面操作，再根据触发条件信息执行对应的界面操作，从而能够较佳地完成非即时类型的语音指令，进而提升用户体验。并且，由于指令识别模型是基于分层强化学习的方式训练得到的，因此能够保证识别触发条件信息以及目标执行信息的准确性，进而提升语音控制的准确性。

请参阅图11，图11示出了本申请又另一个实施例提供的语音控制方法的流程示意图。该语音控制方法应用于上述电子设备，下面将针对图11所示的流程进行详细的阐述，所述语音控制方法具体可以包括以下步骤：

步骤S510：获取语音指令。

在本申请实施例中，步骤S410可以参阅前述实施例的内容，在此不再赘述。

步骤S520：将所述语音指令对应的指令文本输入至预先训练的指令类型识别模型，得到所述语音指令的指令类型，所述指令类型识别模型用于识别输入的指令文本对应的指令类型为即使类型或非即时类型。

在本申请实施例中，对语音指令的指令类型进行识别时，可以基于预先训练的指令类型识别模型进行识别。其中，可以将语音指令对应的指令文本的文本向量输入至预先训练的指令类型识别模型，从而得到语音指令的指令类型。指令类型识别模型可以是基于BERT(Deep Bidirectional Transformers for Language Understanding，语义理解的深层双向Transformer模型)模型的文本意图二分类(是否为非即时类型)深度学习网络。

在一些实施方式中，请参阅图12，指令类型识别模型由编码模块、解码模块和BERT文本分类模型构成，其中BERT模型可以是公开预训练完成的语义模型。指令文本输入到指令类型识别模型后，首先经过编码模块转换为BERT文本分类模型接收的输入格式；编码之后会将编码后的文本向量输入到BERT网络中进行分类；然后，将分类结果向量通过解码装置进行解码，得到分类结果，分类结果包括即时类型以及非即时类型两种情况。

在一些实施方式中，在将语音指令对应的指令文本输入至上述指令类型识别模型之前，电子设备还可以对语音指令对应的指令文本进行预设校正处理；然后，将预设校正处理后的指令文本输入至上述指令类型识别模型，得到语音指令的指令类型。

可选地，预设校正处理可以包括：基于编辑距离的词汇校准、基于贝叶斯方法的常用词汇纠正等，具体的校正处理可以不做限定。

步骤S530：当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息。

步骤S540：当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。

在本申请实施例中，步骤S530以及步骤S540可以参阅前述实施例的内容，在此不再赘述。

本申请实施例提供的语音控制方法，在识别语音指令的指令类型时，通过预先训练的指令类型识别模型进行识别，得到指令类型；针对用户输入的非即时类型的语音指令，通过识别其触发条件信息以及目标执行信息，并根据触发条件信息，执行目标执行信息。由此，可以实现较佳地对语音指令的类型进行识别，并完成即时类型以及非即时类型的语音指令，进而提升用户体验。

下面再通过图13对前述实施例涉及的语音控制方法进行介绍。

如图13所示，电子设备在获取到语音指令后，对语音指令进行语音指令解析，得到语音指令对应的语音文本；再进行非即时类型的指令类型的判断；如果识别为非即时类型，则通过指令识别，识别出触发条件信息以及目标执行信息；然后根据目标执行信息以及触发条件信息进行指令合成，并交由图形界面执行；如果识别为即时类型，则直接进行界面可操作元素的匹配，从而得到对应的目标可操作元素，再合成为指令，并交由图形界面执行。

请参阅图14，其示出了本申请实施例提供的一种语音控制装置400的结构框图。该语音控制装置400应用上述的电子设备，该语音控制装置400包括：指令获取模块410、信息获取模块420以及操作执行模块430。其中，所述指令获取模块410用于获取语音指令；所述信息获取模块420用于当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息；所述操作执行模块430用于当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。

在一些实施方式中，操作执行模块430可以具体用于：当满足所述触发条件信息所对应的触发条件时，将所述目标执行信息与界面可操作元素进行匹配，得到所述目标操作界面，于所述目标操作界面执行目标操作。

作为一种可能的实施方式，操作执行模块430可以具体用于：将所述目标执行信息与界面可操作元素进行匹配，得到所述目标操作界面中匹配的界面可操作元素作为目标可操作元素；于所述目标界面执行所述目标可操作元素对应的操作。

在一些实施方式中，该语音控制装置400还可以包括界面识别模块。界面识别模块用于：在所述当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作之前，将所述目标执行信息与界面可操作元素进行匹配，得到所述目标操作界面。

作为一种可能的实施方式，操作执行模块430可以具体用于：根据所述触发条件信息以及所述目标操作界面，生成对应的控制指令；执行所述控制指令，所述控制指令用于当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。

在一些实施方式中，信息获取模块420可以具体用于：获取所述语音指令对应的指令文本；获取所述指令文本中包含的触发条件信息和目标执行信息。。

在一种可能的实施方式中，信息获取模块420可以具体用于：将所述语音指令对应的指令文本，输入至预先训练的指令识别模型，得到所述指令文本中包含的触发条件信息以及目标执行信息，所述指令识别模型基于分层强化学习的方式训练得到。

可选地，所述指令识别模型包括触发条件信息对应的第一子模块、目标执行信息对应的第二子模块以及协同控制模块。该语音控制装置400还可以包括模型训练模块。模型训练模块可以用于：创建用于识别触发条件信息的识别任务对应的第一子模块、用于识别目标执行信息的识别任务对应的第二子模块以及用于协调所述识别任务的协同控制模块，所述第一子模块以及所述第二子模块用于决策其对应的识别任务的动作，且所述协同控制模块的决策优先级高于所述第一子模块以及所述第二子模块的决策优先级；基于被标注有触发条件信息、目标执行信息以及所述识别任务的识别顺序的文本样本，对所述协同控制模块、所述第一子模块以及所述第二子模块进行深度强化学习训练，得到训练后的所述指令识别模型。

进一步地，模型训练模块可以具体用于：将所述文本样本输入至所述协同控制模块、所述第一子模块以及所述第二子模块，得到所述第一子模块以及所述第二子模块的输出结果，以及所述协同控制模块协调的执行顺序；基于所述第一子模块的输出结果以及所述文本样本被标注的触发条件信息，确定所述第一子模块对应的第一奖励；基于所述第二子模块的输出结果以及所述文本样本被标注的目标执行信息，确定所述第二子模块对应的第二奖励；基于所述协同控制模块协调的执行顺序、以及所述文本样本被标注的识别顺序，确定所述协同控制模块对应的第三奖励；基于所述第一奖励对所述第一子模块进行深度强化学习训练，基于所述第二奖励对所述第二子模块进行深度强化学习训练，以及基于所述第三奖励对所述协同控制模块进行深度强化学习训练，直至满足预设终止条件，得到训练后的所述指令识别模型。

在一些实施方式中，该语音识别装置400还可以包括：类型识别模块。类型识别模块用于在所述当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息之前，将所述语音指令对应的指令文本输入至预先训练的指令类型识别模型，得到所述语音指令的指令类型，所述指令类型识别模型用于识别输入的指令文本对应的指令类型为即时类型或非即时类型。

在一种可能的实施方式中，类型识别模块还可以具体用于：对所述语音指令对应的指令文本进行预设校正处理；将所述预设校正处理后的指令文本输入至预先训练的指令类型识别模型，得到所述语音指令的指令类型。

在一些实施方式中，信息获取模块420还可以用于在所述获取语音指令之后，若所述语音指令的指令类型为即时类型，识别所述语音指令对应的目标操作信息；操作执行模块440还可以用于响应于所述目标操作信息，于所述目标操作信息对应的界面执行所述目标操作信息对应的操作。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请提供的方案，通过获取语音指令，当该语音指令的指令类型为非即时类型时，获取该语音指令所对应的触发条件信息和目标执行信息，当满足该触发条件信息所对应的触发条件时，于该目标执行信息对应的目标操作界面执行目标操作。由此，可以实现针对用户输入的非即时类型的语音指令，识别其触发条件信息后，再根据触发条件信息执行对应的界面操作，从而能够较佳地完成非即时类型的语音指令，进而提升用户体验。

请参考图15，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、智能手表、智能眼镜、笔记本电脑等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图16，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

本申请实施例还提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现前述实施例提供的语音控制方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种语音控制方法，其特征在于，所述方法包括：

获取语音指令；

当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息；

当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。
根据权利要求1所述的方法，其特征在于，所述当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标界面执行目标操作，包括：

当满足所述触发条件信息所对应的触发条件时，将所述目标执行信息与界面可操作元素进行匹配，得到所述目标操作界面，于所述目标操作界面执行目标操作。
根据权利要求2所述的方法，其特征在于，所述将所述目标执行信息与界面可操作元素进行匹配，得到所述目标操作界面，于所述目标操作界面执行目标操作，包括：

将所述目标执行信息与界面可操作元素进行匹配，得到所述目标操作界面中匹配的界面可操作元素作为目标可操作元素；

于所述目标界面执行所述目标可操作元素对应的操作。
根据权利要求1所述的方法，其特征在于，在所述当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作之前，所述方法还包括：

将所述目标执行信息与界面可操作元素进行匹配，得到所述目标操作界面。
根据权利要求4所述的方法，其特征在于，所述当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作，包括：

根据所述触发条件信息以及所述目标操作界面，生成对应的控制指令；

执行所述控制指令，所述控制指令用于当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。
根据权利要求1-5任一项所述的方法，其特征在于，所述获取所述语音指令所对应的触发条件信息和目标执行信息，包括：

获取所述语音指令对应的指令文本；

获取所述指令文本中包含的触发条件信息和目标执行信息。
根据权利要求6所述的方法，其特征在于，所述获取所述指令文本中包含的触发条件信息和目标执行信息，包括：

将所述语音指令对应的指令文本，输入至预先训练的指令识别模型，得到所述指令文本中包含的触发条件信息以及目标执行信息，所述指令识别模型基于分层强化学习的方式训练得到。
根据权利要求7所述的方法，其特征在于，所述指令识别模型包括触发条件信息对应的第一子模块、目标执行信息对应的第二子模块以及协同控制模块，所述指令识别模型的训练过程包括：

创建用于识别触发条件信息的识别任务对应的第一子模块、用于识别目标执行信息的识别任务对应的第二子模块以及用于协调所述识别任务的协同控制模块，所述第一子模块以及所述第二子模块用于决策其对应的识别任务的动作，且所述协同控制模块的决策优先级高于所述第一子模块以及所述第二子模块的决策优先级；

基于被标注有触发条件信息、目标执行信息以及所述识别任务的识别顺序的文本样本，对所述协同控制模块、所述第一子模块以及所述第二子模块进行深度强化学习训练，得到训练后的所述指令识别模型。
根据权利要求8所述的方法，其特征在于，所述基于被标注有触发条件信息、目标执行信息以及所述识别任务的识别顺序的文本样本，对所述协同控制模块、所述第一子模块以及所述第二子模块进行深度强化学习训练，得到训练后的所述指令识别模型，包括：

将所述文本样本输入至所述协同控制模块、所述第一子模块以及所述第二子模块，得到所述第一子模块以及所述第二子模块的输出结果，以及所述协同控制模块协调的执行顺序；

基于所述第一子模块的输出结果以及所述文本样本被标注的触发条件信息，确定所述第一子模块对应的第一奖励；

基于所述第二子模块的输出结果以及所述文本样本被标注的目标执行信息，确定所述第二子模块对应的第二奖励；

基于所述协同控制模块协调的执行顺序、以及所述文本样本被标注的识别顺序，确定所述协同控制模块对应的第三奖励；

基于所述第一奖励对所述第一子模块进行深度强化学习训练，基于所述第二奖励对所述第二子模块进行深度强化学习训练，以及基于所述第三奖励对所述协同控制模块进行深度强化学习训练，直至满足预设终止条件，得到训练后的所述指令识别模型。
根据权利要求1-5任一项所述的方法，其特征在于，所述获取所述语音指令所对应的触发条件信息和目标执行信息，包括：

对所述语音指令对应的文本内容进行语义识别，得到语义识别结果；

根据所述语义识别结果，确定所述触发条件信息以及目标执行信息。
根据权利要求1-10任一项所述的方法，其特征在于，在所述当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息之前，所述方法还包括：

将所述语音指令对应的指令文本输入至预先训练的指令类型识别模型，得到所述语音指令的指令类型，所述指令类型识别模型用于识别输入的指令文本对应的指令类型为即时类型或非即时类型。
根据权利要求11所述的方法，其特征在于，在所述将所述语音指令对应的指令文本输入至预先训练的指令类型识别模型，得到所述语音指令的指令类型之前，所述方法还包括：

对所述语音指令对应的指令文本进行预设校正处理；

所述将所述语音指令对应的指令文本输入至预先训练的指令类型识别模型，得到所述语音指令的指令类型，包括：

将所述预设校正处理后的指令文本输入至预先训练的指令类型识别模型，得到所述语音指令的指令类型。
根据权利要求1-10任一项所述的方法，其特征在于，在所述当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息之前，所述方法还包括：

对所述语音指令对应的文本内容进行分词，得到分词结果；

根据所述分词结果，获取所述文本内容中的关键词；

将所述文本内容中的关键词与预设关键词匹配，所述预设关键词为预先设置的非即时类型的语音指令对应的关键词；

若所述文本内容中的关键词中任一关键词与预设关键词匹配，则确定所述语音指令的指令类型为非即时类型；

若所述文本内容中的关键词中每个关键词与预设关键词均不匹配，则确定所述语音指令的指令类型为即时类型。
根据权利要求1-13任一项所述的方法，其特征在于，在所述获取语音指令之后，所述方法还包括：

若所述语音指令的指令类型为即时类型，识别所述语音指令对应的目标操作信息；

响应于所述目标操作信息，于所述目标操作信息对应的界面执行所述目标操作信息对应的操作。
根据权利要求1-14任一项所述的方法，其特征在于，所述获取语音指令，包括：

在开启语音助手的情况下，通过语音采集装置采集用户输入的语音指令。
根据权利要求1-14任一项所述的方法，其特征在于，所述获取语音指令，包括：

显示用于语音控制图形界面的控件；

响应于对所述控件的触发操作，开启语音采集装置，并通过所述语音采集装置采集用户输入的语音指令。
一种语音控制装置，其特征在于，所述装置包括：指令获取模块、信息获取模块以及操作执行模块，其中，

所述指令获取模块用于获取语音指令；

所述信息获取模块用于当所述语音指令的指令类型为非即时类型时，获取所述语音指令所对应的触发条件信息和目标执行信息；

所述操作执行模块用于当满足所述触发条件信息所对应的触发条件时，于所述目标执行信息对应的目标操作界面执行目标操作。
一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-16任一项所述的方法。
一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-16任一项所述的方法。
一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-16任一项所述方法的步骤。