CN108538291A

CN108538291A - 语音控制方法、终端设备、云端服务器及***

Info

Publication number: CN108538291A
Application number: CN201810319653.4A
Authority: CN
Inventors: 徐礼超; 曹玉树; 肖立尚; 赵立峰; 薛向东; 周冀
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-09-14
Also published as: JP2021073567A; JP2019185733A; US11127398B2; US20190318736A1

Abstract

本发明实施例提供一种语音控制方法、终端设备、云端服务器及***。该方法包括：接收用户对终端设备进行语音控制的语音信息，向云端服务器发送语音信息，以使云端服务器根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令，接收云端服务器发送的语音控件指令，根据语音控件指令，控制终端设备相应的语音控件执行操作。本发明实施例的方法，实现了通过语音对于界面中的控件进行控制，加深了语音对于终端设备的控制程度，提升了用户体验。

Description

语音控制方法、终端设备、云端服务器及***

技术领域

本发明实施例涉及语音控制技术领域，尤其涉及一种语音控制方法、终端设备、云端服务器及***。

背景技术

随着科学技术的不断发展，终端设备越来越智能化，为人们的生活带来了极大的便利。越来越多的终端设备，如电视、音箱、冰箱、车载中控等，都搭载了智能化的操作***，集通讯、支付、娱乐、学习等功能于一身的智能手机更是成为了人们生活中的必需品。用户可以通过触摸、按键、遥控器、鼠标等方式对终端设备进行控制。

在很多应用场景下，用户无法腾出手来对终端设备进行控制，例如，正在开车的司机无法操控车载中控台，正在进行手术的主刀大夫不便于操作智能医疗仪器、满手油污的用户不便于接听来电等，此时，便需要一种更加智能化的对终端设备进行控制的方法。随着人工智能(Artificial Intelligence，简称：AI)技术的不断发展，尤其是语音交互技术的不断发展，已经出现了基于语音对终端设备进行控制的方法，例如，可以通过语音指令“打电话给张三”，控制智能手机打电话给通讯录中的联系人张三；可以通过语音指令“播放音乐”，控制智能手机打开音乐播放器等。

现有的基于语音控制终端设备的方法，仅能解决一些简单的对话式交互问题，但是还无法完全代替用户通过手指、遥控器、鼠标等对终端设备的按钮点击、列表滑动翻页、输入框文本输入等操作，即现有技术中的语音控制方法对于终端设备的控制程度较低，无法满足用户的需求，用户体验较差。

发明内容

本发明实施例提供一种语音控制方法、终端设备、云端服务器及***，用以解决现有技术中的语音控制方法对于终端设备的控制程度较低，无法满足用户的需求问题。

第一方面，本发明实施例提供一种语音控制方法，包括：

接收用户对终端设备进行语音控制的语音信息；

向云端服务器发送语音信息，以使云端服务器根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令；

接收云端服务器发送的语音控件指令；

根据语音控件指令，控制终端设备相应的语音控件执行操作。

在一种具体的实现方式中，在向云端服务器发送语音信息之前，还包括：

在终端设备的界面发生改变后，爬取当前界面中的语音控件的信息；

向云端服务器发送爬取到的当前界面中的所有的语音控件的信息。

在一种具体的实现方式中，爬取当前界面中的语音控件的信息，包括：

获取当前界面的控件结构树，对控件结构树进行遍历，获取当前界面中的语音控件的信息，控件结构树包括当前界面中的所有语音控件的信息和所有非语音控件的信息。

在一种具体的实现方式中，根据语音控件指令，控制终端设备相应的语音控件执行操作，包括：

根据语音控件指令，确定执行该指令的语音控件及控件指令，触发相应的控件行为。

在一种具体的实现方式中，还包括：

接收云端服务器发送的提示信息；

根据提示信息，通过语音和/或文字的方式，对用户进行相应的提示。

第二方面，本发明实施例提供一种语音控制方法，包括：

接收终端设备发送的语音信息，语音信息用于对终端设备进行语音控制；

根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令；

向终端设备发送语音控件指令，以使终端设备根据语音控件指令，控制终端设备相应的语音控件执行操作。

在一种具体的实现方式中，在接收终端设备发送的语音信息之前，还包括：

接收终端设备发送的当前界面中的所有的语音控件的信息。

在一种具体的实现方式中，还包括：

根据当前界面中的语音控件的信息，确定提示信息；

向终端设备发送提示信息，以使终端设备对用户进行相应的提示。

第三方面，本发明实施例提供一种终端设备，包括：

第一接收模块，用于接收用户对终端设备进行语音控制的语音信息；

第一发送模块，用于向云端服务器发送语音信息，以使云端服务器根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令；

第二接收模块还用于接收云端服务器发送的语音控件指令；

控制模块，用于根据语音控件指令，控制终端设备相应的语音控件执行操作。

在一种具体的实现方式中，还包括：

爬取模块，用于在终端设备的界面发生改变后，爬取当前界面中的语音控件的信息；

第一发送模块还用于向云端服务器发送爬取到的当前界面中的所有的语音控件的信息。

在一种具体的实现方式中，爬取模块具体用于，

在一种具体的实现方式中，控制模块具体用于，

在一种具体的实现方式中，还包括：

第二接收模块还用于接收云端服务器发送的提示信息；

提示模块，用于根据提示信息，通过语音和/或文字的方式，对用户进行相应的提示。

第四方面，本发明实施例提供一种云端服务器，包括：

第三接收模块，用于接收终端设备发送的语音信息，语音信息用于对终端设备进行语音控制；

确定模块，用于根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令；

第二发送模块，用于向终端设备发送语音控件指令，以使终端设备根据语音控件指令，控制终端设备相应的语音控件执行操作。

在一种具体的实现方式中，第三接收模块还用于，

在接收终端设备发送的语音信息之前，接收终端设备发送的当前界面中的所有的语音控件的信息。

在一种具体的实现方式中，

确定模块还用于根据当前界面中的语音控件的信息，确定提示信息；

第二发送模块还用于向终端设备发送提示信息，以使终端设备对用户进行相应的提示。

第五方面，本发明实施例提供一种终端设备，包括：

存储器；

处理器；以及

计算机程序；

其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现如上述第一方面所述的方法。

第六方面，本发明实施例提供一种云端服务器，包括：

存储器；

处理器；以及

计算机程序；

其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现如上述第二方面所述的方法。

第七方面，本发明实施例提供一种语音控制***，包括：

至少一个如上述第三方面所述的终端设备；

至少一个如上述第四方面所述的云端服务器。

第八方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述第一方面和第二方面任一项所述的方法。

本发明实施例提供的语音控制方法、终端设备、云端服务器及***，通过将用户对终端设备进行语音控制的语音信息发送至云端服务器，并接收云端服务器根据该语音信息确定的当前界面中与该语音信息匹配的语音控件及控件指令所生成的语音控件指令，根据该语音控件指令，控制终端设备相应的语音控件执行操作，实现了通过语音对终端设备的控制，尤其是能够通过语音控制界面中的控件操作，代替了用户通过手指、遥控器、鼠标等对终端设备的按钮点击、列表滑动翻页、输入框文本输入等操作，提高了语音对于终端设备的控制程度，且依托云端服务器强大的处理能力，提高了语音控制的响应速度和控制的准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明提供的语音控制方法一实施例的流程图；

图2为本发明提供的语音控制方法又一实施例的流程图；

图3A和图3B为本发明提供的语音控制方法另一实施例的界面示意图；

图4为本发明提供的语音控制方法又一实施例的流程图；

图5为本发明提供的语音控制方法一实施例的交互流程图；

图6为本发明提供的终端设备一实施例的结构示意图；

图7为本发明提供的终端设备又一实施例的结构示意图；

图8为本发明提供的云端服务器一实施例的结构示意图；

图9为本发明提供的云端服务器又一实施例的结构示意图；

图10为本发明提供的语音控制***一实施例的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明中的“第一”和“第二”只起标识作用，而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书中通篇提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

图1为本发明提供的语音控制方法一实施例的流程图。该方法的执行主体可以是终端设备，包括但不限于智能手机、平板电脑、计算机设备、智能家电、车载中控等，本实施例对此不做限制。如图1所示，本实施例提供的语音控制方法可以包括：

步骤101、接收用户对终端设备进行语音控制的语音信息。

用户对终端设备进行语音控制的语音信息可以通过终端设备的传声器(麦克风)进行采集，也可以是根据相应的语音音频文件转换获得的。

用户对终端设备进行语音控制的语音信息可以包括要操作的控件及相应的操作指令，例如在照片浏览界面，有三个按钮控件，依次为放大照片、缩小照片、删除照片，可以通过语音信息“单击放大按钮”，代替用户通过手指触摸屏幕上的放大照片的按钮，完成对照片的放大操作。此处仅为示意，用户对终端设备进行语音控制的语音信息，可以根据界面中包括的控件以及控件支持的相应操作来确定。

可选的，对于支持语音控制的终端设备，为了避免麦克风一直处于开启状态，造成终端设备功耗增加，可以在设置中增加一项是否开启语音控制功能的选项，默认设置为关闭。只有在用户开启语音控制功能时，才开启麦克风，采集用户对终端设备进行语音控制的语音信息。

步骤102、向云端服务器发送语音信息，以使云端服务器根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令。

将用户对终端设备进行语音控制的语音信息发送至云端服务器，依托云端服务器强大的处理能力，可以快速、准确的获取当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令。可以通过有线和/或无线的方式向云端服务器发送语音信息，本实施例对此不做限制。可以将用户对终端设备进行语音控制的语音信息，根据终端设备与云端服务器之间的通信协议进行封装，然后再发送至云端服务器，本实施例对此不做限制。

本实施例中的语音控件具有语音交互能力，可以通过语音对控件进行相应操作。包括但不限于：

语音按钮控件，通过语音可以控制按钮的点击、长按、双击等操作。

语音列表控件，通过语音可以控制列表的上下滚动、具体选项的点击、长按、双击等操作。

语音链接控件，通过语音可以实现在浏览器中打开链接对应网页的功能。

语音单选控件，通过语音可以实现选中某个选项的功能。

语音输入框控件，通过语音可以实现在输入框输入文本的功能。

语音标签页控件，通过语音可以控制标签页的切换。

语音自定义控件，为第三方开发者提供的可以自定义语音交互信息的控件，便于第三方开发者进行定制化功能开发。

可选的，若当前界面中不存在与语音信息匹配的语音控件时，云端服务器可以将匹配失败的信息发送至终端设备。终端设备可以根据该匹配失败的信息，通过语音和/或文字的方式提示用户，例如，可以提示用户“请重新输入语音指令”。

可选的，若当前界面中不存在与语音信息匹配的语音控件时，云端服务器还可以根据当前界面中的语音控件的信息生成相应的提示信息，并发送至终端设备。终端设备可以根据该提示信息，通过语音和/或文字的方式提示用户，例如，可以提示用户“请试一试‘单击放大按钮’”。

用户的使用习惯千差万别，仍以照片浏览界面为例，同样是想通过语音控制代替通过手指触摸屏幕上的放大照片的按钮，完成对照片的放大操作，接收到的语音信息可能是“单击放大按钮”、“触摸放大按钮”、“点击放大按钮”、“放大照片”、“增大照片”等。为了提高匹配的灵活性，避免匹配失败率过高而引起的用户体验差的问题，云端服务器根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，具体可以包括：

云端服务器首先对当前界面中的所有语音控件的信息基于语义进行泛化处理，然后采用模糊匹配的方法将接收到的语音信息与当前界面中的语音控件进行匹配。

步骤103、接收云端服务器发送的语音控件指令。

步骤104、根据语音控件指令，控制终端设备相应的语音控件执行操作。

云端服务器发送的语音控件指令包括与语音信息相匹配的语音控件及控件指令信息，因此根据语音控件指令，便可以确定执行该指令的语音控件及控件指令，触发相应的控件行为，实现对终端设备的语音控制，代替用户通过手指、遥控器、鼠标等对终端设备的按钮点击、列表滑动翻页、输入框文本输入等操作。

本实施例提供的语音控制方法，通过将用户对终端设备进行语音控制的语音信息发送至云端服务器，并接收云端服务器根据该语音信息确定的当前界面中与该语音信息匹配的语音控件及控件指令所生成的语音控件指令，根据该语音控件指令，控制终端设备相应的语音控件执行操作，实现了通过语音对终端设备的控制，尤其是能够通过语音控制界面中的控件操作，代替了用户通过手指、遥控器、鼠标等对终端设备的按钮点击、列表滑动翻页、输入框文本输入等操作，提高了语音对于终端设备的控制程度，且依托云端服务器强大的处理能力，提高了语音控制的响应速度和控制的准确度，进而提升了用户体验。

在上一实施例的基础上，为了提高可扩展性，本实施例提供的语音控制方法，在向云端服务器发送语音信息之前，还可以包括：

在终端设备的界面发生改变后，爬取当前界面中的语音控件的信息，向云端服务器发送爬取到的当前界面中的所有的语音控件的信息。

其中，终端设备的界面发生改变可以是发生了界面跳转，即由A界面跳转到B界面，如在智能手机中由通讯录界面跳转到短消息界面；也可以是界面当中的控件发生了改变，如界面中的单选控件被选中、标签页控件发生切换、输入框控件输入了新的文本信息等。语音控件的信息可以包括该语音控件的所有相关信息，如语音控件的类别、支持的操作方式、在当前界面中的功能、语音指令的描述等。

每当终端设备的界面发生改变，都会重新爬取改变后的当前界面中的语音控件的信息，并发送至云端服务器，以使云端服务器获得的语音控件的信息与终端设备保持同步。

可选的，可以根据预设的通信协议，对爬取到的语音控件信息进行封装，然后再将封装处理后的语音控件信息发送至云端服务器，以使云端服务器能够正确解析信息获取当前界面中的语音控件的信息。

可选的，爬取当前界面中的语音控件的信息，可以采用如下方法：

其中，获取当前界面的控件结构树的方法有多种，本实施例对此不作限制，作为本实施例的一种可选的方式，可以通过dump的方式获取当前界面的xml结构文件，该xml结构文件包含了当前界面的的整体布局，由布局控件和用户界面控件等组成，通过对获取的xml结构文件进行解析，便可以获取当前界面的控件结构树。

控件结构树可以包括当前界面中的所有支持语音操作的语音控件的信息和所有非语音控件的信息，如仅支持显示的文本框。对控件结构树的节点执行策略遍历，获取当前界面中的语音控件的信息。可以将获取到的语音控件的信息添加到临时数组中，并对临时数组中的所有语音控件的信息进行分析处理，如可以过滤掉一些无用信息。

本实施例提供的语音控制方法，通过在终端设备的界面发生改变后，爬取当前界面中的语音控件的信息，并发送至云端服务器，使云端服务器获得的语音控件的信息与终端设备始终保持同步，而无需人为提前规定界面语音交互的方案，如在哪些界面有哪些控件可以支持那些语音指令。即使在例如产品升级、故障修复等情况下，界面中出现了控件的调整的情况下，本实施例提供的语音控制方法也可以自动对变更后的控件进行重新配置，而不需要云端服务器再次进行修改适配，整个过程完全实现了自动化。本实施例提供的语音控制方法扩大了语音控制的使用场景，提升了使用体验。

在上述实施例的基础上，本实施例对上述实施例进行结合。本发明实施例还提供了一种语音控制方法，请参见图2所示，本发明实施例仅以图2为例进行说明，并不表示本发明仅限于此。图2为本发明提供的语音控制方法又一实施例的流程图。如图2所示，本实施例提供的语音控制方法，可以包括以下步骤：

步骤201、在终端设备的界面发生改变后，爬取当前界面中的语音控件的信息。

步骤202、向云端服务器发送爬取到的当前界面中的所有的语音控件的信息。

步骤203、接收用户对终端设备进行语音控制的语音信息。

步骤204、向云端服务器发送语音信息，以使云端服务器根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令。

步骤205、接收云端服务器发送的语音控件指令。

步骤206、根据语音控件指令，控制终端设备相应的语音控件执行操作。

本实施例提供的语音控制方法，通过在终端设备的界面发生改变后，爬取当前界面中的语音控件的信息，并发送至云端服务器，使云端服务器获得的语音控件的信息与终端设备始终保持同步，通过将用户对终端设备进行语音控制的语音信息发送至云端服务器，并接收云端服务器根据该语音信息确定的当前界面中与该语音信息匹配的语音控件及控件指令所生成的语音控件指令，根据该语音控件指令，控制终端设备相应的语音控件执行操作，实现了通过语音对终端设备的控制，尤其是能够通过语音控制界面中的控件操作，代替了用户通过手指、遥控器、鼠标等对终端设备的按钮点击、列表滑动翻页、输入框文本输入等操作，不仅提高了语音对于终端设备的控制程度，扩大了语音控制的使用场景，而且依托云端服务器强大的处理能力，提高了语音控制的响应速度和控制的准确度，进而提升了用户体验。

在上述任一实施例的基础上，为了进一步提升用户体验，规范用户对终端设备进行语音控制的语音指令，提高语音控制的准确性，本实施例提供的语音控制方法还可以包括：

接收云端服务器发送的提示信息，根据该提示信息，通过语音和/或文字的方式，对用户进行相应的提示。

该提示信息是云端服务器根据当前界面中的语音控件的信息生成的。例如，对于语音列表控件，可以生成“试试向上滚动列表”的提示信息；对于具有联系人、留言板和相册三个标签页的语音标签页控件，可以生成“试试切换到留言板”的提示信息。终端设备在接收到该提示信息后，可以在当前界面上以文字的方式进行显示，也可以通过终端设备的扬声器进行语音播报，用于提示用户。

可选的，若当前界面中存在多个语音控件时，可以根据用户的使用习惯，针对使用频率最高的语音控件生成提示信息。

可选的，该提示信息也可以是在当前界面中不存在与用户对终端设备进行语音控制的语音信息相匹配的语音控件时，云端服务器根据当前界面中的语音控件的信息生成的。在一种可能的实现方式中，云端服务器可以对用户对终端设备进行语音控制的语音信息和当前界面中的语音控件的信息进行分析，针对与用户对终端设备进行语音控制的语音信息匹配度最高的语音控件生成提示信息。

本实施提提供的语音控制方法，通过语音和/或文字的方式向用户展示接收到的云端服务器发送的提示信息，用于提示用户，规范了用户对终端设备进行语音控制的语音指令，提高了语音控制的准确性，进一步提升了用户体验。

在上述实施例的基础上，下面通过一个具体的实施例来详细说明本发明实施例提供的语音控制方法。请参见图3所示，本发明实施例仅以图3为例进行说明，并不表示本发明仅限于此。图3A和图3B为本发明提供的语音控制方法另一实施例的界面示意图。

在本实施例中，用户界面(User Interface，简称：UI)爬取器，可以理解为终端设备中通过软件和/或硬件实现的，用于获取终端设备界面中语音控件信息的装置。分发引擎可以理解为终端设备中通过软件和/或硬件实现的，用于在终端设备和云端服务器之间实现上传下达功能的装置。

当用户打开留言板应用时，终端设备会显示如图3A所示的界面。可以是从其他界面跳转至该界面，也可以是通过该界面中的标签页控件切换至该界面，无论是通过界面跳转还是通过控件切换进入该界面，UI爬取器都会获取到界面发生改变的信息，爬取当前界面中的语音控件的信息。具体的，可以通过遍历当前界面的控件结构树，获取所有语音控件的信息。如图3A所示，该界面包括一个具有联系人、留言板、相册三个标签的语音标签页控件，一个拍视频的语音按钮控件，一个语音留言的语音按钮控件，一个拍照片的语音按钮控件和一个用于显示“当前无留言”的文本控件。UI爬取器只关注语音控件的信息，即UI爬取器仅获取一个语音标签页控件和三个语音按钮控件的相关信息，例如各个控件的描述信息、支持的操作、实现的功能等。UI爬取器将爬取到的所有语音控件的信息传送给分发引擎，由分发引擎根据预设通信协议进行封装，传递给云端服务器。可见，无需预先人为规定界面中的控件的语音交互方案，通过UI爬取器便可实现该过程的自动化。

云端服务器根据接收到的当前界面中的语音控件的信息，可以生成相应的提示信息。例如，针对图3A所示的界面，提示信息可以是“切换至联系人”、“切换到相册”、“打开语音留言”、“打开照相机”、“拍摄视频”等。云端服务器通过分析可以确定在留言板界面执行频率最高的操作为打开语音留言，因此可以仅将“打开语音留言”的提示信息发送至终端设备，使终端设备根据该提示信息对用户进行相应的提示，例如，如图3A所示的可以通过文字的方式显示在界面上，对用户进行提示；也可以通过语音播报的方式进行提示。上述处理过程都是在后台执行的，可以认为用户打开留言板应用便会看到如图3A所示的界面。

当终端设备处于图3A所示的界面时，用户如果说出“切换到联系人”，终端设备便会切换至联系人界面，用户如果说出“拍照片”，终端设备便会开启照相机。下面以打开语音留言为例进行说明，当用户说出“打开语音留言”，终端设备的麦克风便会采集到该语音信息，并通过通讯组件将该语音信息发送至云端服务器。云端服务器接收到该语音信息后，首先将其识别为响应的文字信息，然后与当前界面中的语音控件的信息进行匹配，当与某个语音控件的匹配度高于预设值时，便确定该语音控件为与语音信息相匹配的语音控件，对于图3A，与语音信息“打开语音留言”匹配的语音控件为语音留言的语音按钮控件，控件指令为点击。云端服务器将生成的语音控件指令反馈给终端设备。由分发引擎负责解析并分发至语音留言的语音按钮控件。该语音按钮控件响应点击控件指令，界面便跳转至图3B所示的界面。

此时，界面又发生了改变，UI爬取器会继续爬取图3B所示界面中的语音控件的信息。后续执行过程与上述过程类似，此处不再赘述。

在上述任一实施例的基础上，为了提高语音控制的安全性，避免非法用户对终端设备进行语音控制，本实施例提供的语音控制方法，在根据语音控件指令，控制终端设备相应的语音控件执行操作之前，还可以包括：

根据用户对终端设备进行语音控制的语音信息确定声纹信息，将该声纹信息与预设声纹信息进行匹配，只有在匹配成功时，才根据语音控件指令，控制终端设备相应的语音控件执行操作。

确定声纹信息以及将声纹信息与预设声纹信息进行匹配，可以由终端设备完成，也可以由云端服务器完成，本实施例对此不做限制。

本实施例提供了一种高安全性的语音控制方法，可以应用于对安全性要求较高的场景，能够在保证安全性的前提下，加深语音对终端设备的控制程度，提升用户体验。

图4为本发明提供的语音控制方法又一实施例的流程图。该方法的执行主体可以是云端服务器。如图4所示，本实施例提供的语音控制方法可以包括：

步骤401、接收终端设备发送的语音信息，所述语音信息用于对终端设备进行语音控制。

步骤402、根据语音信息确定当前界面中与所述语音信息匹配的语音控件及控件指令，生成相应的语音控件指令。

可选的，云端服务器可以将接收到的语音信息，先识别为相应的文本信息，然后将该文本信息与当前界面中的语音控件的文本描述信息进行匹配，或者，云端服务器也可以将接收到的语音信息直接与当前界面中的语音控件的音频描述信息进行匹配，本实施例对此不做限制。

可选的，为了提高匹配的准确度，云端服务器可以首先对当前界面中的所有语音控件的信息基于语义进行泛化处理，然后采用模糊匹配的方法将接收到的语音信息与当前界面中的语音控件进行匹配。

步骤403、向终端设备发送所述语音控件指令，以使终端设备根据语音控件指令，控制终端设备相应的语音控件执行操作。

本实施例提供的语音控制方法，根据语音信息确定当前界面中与所述语音信息匹配的语音控件及控件指令，生成语音控件指令，控制终端设备相应的语音控件执行操作，提高了语音对于终端设备的控制程度，依托云端服务器强大的处理能力，提高了语音控制的响应速度和控制的准确度，进而提升了用户体验。

可选的，在接收终端设备发送的语音信息之前，还可以接收终端设备发送的当前界面中的所有的语音控件的信息，使得云端服务器获得的语音控件的信息与终端设备保持同步。

可选的，上述方法还可以包括：

根据当前界面中的语音控件的信息，确定提示信息，向终端设备发送该提示信息，以使所述终端设备对用户进行相应的提示。可以通过提示，规范用户对终端设备进行语音控制的语音指令，提高语音控制的准确性。

本发明实施例还提供了一种语音控制方法，请参见图5所示，本发明实施例仅以图5为例进行说明，并不表示本发明仅限于此。图5为本发明提供的语音控制方法一实施例的交互流程图。本实施例提供了终端设备与云端服务器交互完成语音控制的流程，如图5所示，本实施例提供的语音控制方法可以包括：

步骤501、终端设备在界面发生改变后，爬取当前界面中的语音控件的信息。

在界面发生改变后，例如发生了界面跳转、界面当中的控件发生了改变等，终端设备都会爬取当前界面中的语音控件的信息，例如可以通过遍历当前界面的控件结构树获取当前界面中的语音控件的信息。

步骤502、终端设备向云端服务器发送爬取到的当前界面中的所有的语音控件的信息。

每当界面发生改变后，终端设备都会将爬取到的当前界面的语音控件的信息发生至云端服务器，以使云端服务器获得的语音控件的信息与终端设备保持同步。

步骤503、终端设备接收用户对终端设备进行语音控制的语音信息。

终端设备通过声音采集装置如传声器(麦克风)获取用户对终端设备进行语音控制的语音信息。

步骤504、终端设备向云端服务器发送语音信息。

步骤505、云端服务器根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令。

步骤506、云端服务器向终端设备发送语音控件指令。

步骤507、终端设备根据语音控件指令，控制相应的语音控件执行操作。

本实施例中的各步骤，可以参考上述任一方法实施例所述的技术方案实现，此处不再赘述。

本实施例提供的语音控制方法，通过在终端设备的界面发生改变后，爬取当前界面中的语音控件的信息，并发送至云端服务器，使云端服务器获得的语音控件的信息与终端设备始终保持同步，通过将用户对终端设备进行语音控制的语音信息发送至云端服务器，云端服务器根据该语音信息确定当前界面中与该语音信息匹配的语音控件及控件指令，生成语音控件指令，终端设备根据该语音控件指令，控制终端设备相应的语音控件执行操作，实现了通过语音对终端设备的控制，尤其是能够通过语音控制界面中的控件操作，代替了用户通过手指、遥控器、鼠标等对终端设备的按钮点击、列表滑动翻页、输入框文本输入等操作，不仅提高了语音对于终端设备的控制程度，扩大了语音控制的使用场景，而且依托云端服务器强大的处理能力，提高了语音控制的响应速度和控制的准确度，进而提升了用户体验。

本发明实施例还提供一种终端设备，请参见图6所示，本发明实施例仅以图6为例进行说明，并不表示本发明仅限于此。图6为本发明提供的终端设备一实施例的结构示意图。如图6所示，本实施例提供的终端设备60可以包括：第一接收模块601、第一发送模块602、第二接收模块603和控制模块604。

第一接收模块601，用于接收用户对终端设备进行语音控制的语音信息；

第一发送模块602，用于向云端服务器发送语音信息，以使云端服务器根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令；

第二接收模块603，用于接收云端服务器发送的语音控件指令；

控制模块604，用于根据语音控件指令，控制终端设备相应的语音控件执行操作。

本实施例提供的终端设备可用于执行图1对应的方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，终端设备还可以包括：

爬取模块，用于在终端设备的界面发生改变后，爬取当前界面中的语音控件的信息。此时，第一发送模块还用于向云端服务器发送爬取到的当前界面中的所有的语音控件的信息。

可选的，爬取模块具体用于，获取当前界面的控件结构树，对控件结构树进行遍历，获取当前界面中的语音控件的信息，控件结构树包括当前界面中的所有语音控件的信息和所有非语音控件的信息。

可选的，控制模块具体用于，根据语音控件指令，确定执行该指令的语音控件及控件指令，触发相应的控件行为。

可选的，第二接收模块还可以用于接收云端服务器发送的提示信息，终端设备还可以包括提示模块，用于根据提示信息，通过语音和/或文字的方式，对用户进行相应的提示。

本实施例提供的终端设备可用于执行图1～图3对应的方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例还提供一种终端设备，请参见图7所示，本发明实施例仅以图7为例进行说明，并不表示本发明仅限于此。图7为本发明提供的终端设备又一实施例的结构示意图。该终端设备可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。如图7所示，本实施例提供的终端设备可以包括以下一个或多个组件：处理组件701，存储器702，电源组件704，多媒体组件706，音频组件703，输入/输出(I/O)接口708，传感器组件707，以及通信组件705。

处理组件701通常控制终端设备的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件701可以包括一个或多个处理器7011来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件701可以包括一个或多个模块，便于处理组件701和其他组件之间的交互。例如，处理组件701可以包括多媒体模块，以方便多媒体组件706和处理组件701之间的交互。

存储器702被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。本实施例中，存储器702中存储有计算机程序，该计算机程序可以由处理器7011执行，以实现图1～图3对应的方法实施例的技术方案。

电源组件704为终端设备的各种组件提供电力。电源组件704可以包括电源管理***，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件706包括在所述终端设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件706包括一个前置摄像头和/或后置摄像头。当终端设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件703被配置为输出和/或输入音频信号。例如，音频组件703包括一个麦克风(MIC)，当终端设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或经由通信组件705发送。本实施例中，可以通过麦克风采集用户对终端设备进行语音控制的语音信号，然后经由通信组件705发送至云端服务器。在一些实施例中，音频组件703还包括一个扬声器，用于输出音频信号。本实施例中，可以通过扬声器播放对用户的提示信息。

I/O接口708为处理组件701和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件707包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件707可以检测到终端设备的打开/关闭状态，组件的相对定位，例如所述组件为终端设备的显示器和小键盘，传感器组件707还可以检测终端设备或终端设备一个组件的位置改变，用户与终端设备接触的存在或不存在，终端设备方位或加速/减速和终端设备的温度变化。传感器组件707可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件707还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件707还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件705被配置为便于终端设备和其他设备之间有线或无线方式的通信。本实施例中通信组件705用于实现终端设备和云端服务器之间的交互。终端设备可以接入基于通信标准的无线网络，如WiFi，2G、3G或4G，或它们的组合。在一个示例性实施例中，通信组件705经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件705还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器702，上述指令可由终端设备的处理器7011执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明实施例还提供一种云端服务器，请参见图8所示，本发明实施例仅以图8为例进行说明，并不表示本发明仅限于此。图8为本发明提供的云端服务器一实施例的结构示意图。如图8所示，本实施例提供的云端服务器80可以包括：第三接收模块801、确定模块802和第二发送模块803。

第三接收模块801，用于接收终端设备发送的语音信息，语音信息用于对终端设备进行语音控制；

确定模块802，用于根据语音信息确定当前界面中与语音信息匹配的语音控件及控件指令，生成相应的语音控件指令；

第二发送模块803，用于向终端设备发送语音控件指令，以使终端设备根据语音控件指令，控制终端设备相应的语音控件执行操作。

本实施例提供的云端服务器可用于执行图4对应的方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，第三接收模块还用于，在接收终端设备发送的语音信息之前，接收终端设备发送的当前界面中的所有的语音控件的信息。

可选的，确定模块还用于根据当前界面中的语音控件的信息，确定提示信息，第二发送模块还用于向终端设备发送提示信息，以使终端设备对用户进行相应的提示。

本发明实施例还提供一种云端服务器，请参见图9所示，本发明实施例仅以图9为例进行说明，并不表示本发明仅限于此。图9为本发明提供的云端服务器又一实施例的结构示意图。如图9所示，本实施例提供的云端服务器90可以包括：存储器901、处理器902和总线903。其中，总线903用于实现各元件之间的连接。

存储器901中存储有计算机程序，计算机程序被处理器902执行时可以实现图4对应的方法实施例的技术方案。

其中，存储器901和处理器902之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线903连接。存储器901中存储有实现车辆仿真技术数据分析方法的计算机程序，包括至少一个可以软件或固件的形式存储于存储器901中的软件功能模块，处理器902通过运行存储在存储器901内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器901可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器901用于存储程序，处理器902在接收到执行指令后，执行程序。进一步地，上述存储器901内的软件程序以及模块还可包括操作***，其可包括各种用于管理***任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器902可以是一种集成电路芯片，具有信号的处理能力。上述的处理器902可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(Network Processor，简称：NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以理解，图9的结构仅为示意，还可以包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。图9中所示的各组件可以采用硬件和/或软件实现。

本发明实施例还提供一种语音控制***，请参见图10所示，本发明实施例仅以图10为例进行说明，并不表示本发明仅限于此。图10为本发明提供的语音控制***一实施例的结构示意图。如图10所示，本实施例提供的语音控制***100可以包括：至少一个终端设备1001和至少一个云端服务器1002。其中，终端设备1001可以执行图1-图3所示方法实施例的技术方案，云端服务器1002可以执行图4所示方法实施例的技术方案；

或者，终端设备1001可以采用图6所示实施例对应的终端设备，云端服务器1002可以采用图8所示实施例对应的云端服务器；

或者，终端设备1001可以采用图7所示实施例对应的终端设备，云端服务器1002可以采用图9所示实施例对应的云端服务器。

本实施例提供的语音控制***可用于执行图5对应的方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一方法实施例的技术方案。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音控制方法，其特征在于，包括：

接收用户对终端设备进行语音控制的语音信息；

向云端服务器发送所述语音信息，以使所述云端服务器根据所述语音信息确定当前界面中与所述语音信息匹配的语音控件及控件指令，生成相应的语音控件指令；

接收所述云端服务器发送的所述语音控件指令；

根据所述语音控件指令，控制所述终端设备相应的语音控件执行操作。

2.根据权利要求1所述的方法，其特征在于，在所述向云端服务器发送所述语音信息之前，还包括：

在所述终端设备的界面发生改变后，爬取所述当前界面中的语音控件的信息；

向所述云端服务器发送爬取到的所述当前界面中的所有的语音控件的信息。

3.根据权利要求2所述的方法，其特征在于，所述爬取所述当前界面中的语音控件的信息，包括：

获取所述当前界面的控件结构树，对所述控件结构树进行遍历，获取所述当前界面中的语音控件的信息，所述控件结构树包括所述当前界面中的所有语音控件的信息和所有非语音控件的信息。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述语音控件指令，控制所述终端设备相应的语音控件执行操作，包括：

根据所述语音控件指令，确定执行该指令的语音控件及控件指令，触发相应的控件行为。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

接收所述云端服务器发送的提示信息；

根据所述提示信息，通过语音和/或文字的方式，对用户进行相应的提示。

6.一种语音控制方法，其特征在于，包括：

接收终端设备发送的语音信息，所述语音信息用于对所述终端设备进行语音控制；

根据所述语音信息确定当前界面中与所述语音信息匹配的语音控件及控件指令，生成相应的语音控件指令；

向所述终端设备发送所述语音控件指令，以使所述终端设备根据所述语音控件指令，控制所述终端设备相应的语音控件执行操作。

7.根据权利要求6所述的方法，其特征在于，在所述接收终端设备发送的语音信息之前，还包括：

接收所述终端设备发送的所述当前界面中的所有的语音控件的信息。

8.根据权利要求6或7所述的方法，其特征在于，所述方法还包括：

根据所述当前界面中的语音控件的信息，确定提示信息；

向所述终端设备发送所述提示信息，以使所述终端设备对用户进行相应的提示。

9.一种终端设备，其特征在于，包括：

第一发送模块，用于向云端服务器发送所述语音信息，以使所述云端服务器根据所述语音信息确定当前界面中与所述语音信息匹配的语音控件及控件指令，生成相应的语音控件指令；

第二接收模块，用于接收所述云端服务器发送的所述语音控件指令；

控制模块，用于根据所述语音控件指令，控制所述终端设备相应的语音控件执行操作。

10.根据权利要求9所述的设备，其特征在于，还包括：

爬取模块，用于在所述终端设备的界面发生改变后，爬取所述当前界面中的语音控件的信息；

所述第一发送模块还用于向所述云端服务器发送爬取到的所述当前界面中的所有的语音控件的信息。

11.根据权利要求10所述的设备，其特征在于，所述爬取模块具体用于，

12.根据权利要求9-11任一项所述的设备，其特征在于，所述控制模块具体用于，

13.根据权利要求9-11任一项所述的设备，其特征在于，还包括：

所述第二接收模块还用于接收所述云端服务器发送的提示信息；

提示模块，用于根据所述提示信息，通过语音和/或文字的方式，对用户进行相应的提示。

14.一种云端服务器，其特征在于，包括：

第三接收模块，用于接收终端设备发送的语音信息，所述语音信息用于对所述终端设备进行语音控制；

确定模块，用于根据所述语音信息确定当前界面中与所述语音信息匹配的语音控件及控件指令，生成相应的语音控件指令；

第二发送模块，用于向所述终端设备发送所述语音控件指令，以使所述终端设备根据所述语音控件指令，控制所述终端设备相应的语音控件执行操作。

15.根据权利要求14所述的服务器，其特征在于，所述第三接收模块还用于，

在接收终端设备发送的语音信息之前，接收所述终端设备发送的所述当前界面中的所有的语音控件的信息。

16.根据权利要求14或15所述的服务器，其特征在于，

所述确定模块还用于根据所述当前界面中的语音控件的信息，确定提示信息；

所述第二发送模块还用于向所述终端设备发送所述提示信息，以使所述终端设备对用户进行相应的提示。

17.一种终端设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-5任一项所述的方法。

18.一种云端服务器，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求6-8任一项所述的方法。

19.一种语音控制***，其特征在于，包括：

至少一个如权利要求9-13任一项所述的终端设备；

至少一个如权利要求14-16任一项所述的云端服务器。

20.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-8任一项所述的方法。