WO2020181988A1

WO2020181988A1 - 一种语音控制方法及电子设备

Info

Publication number: WO2020181988A1
Application number: PCT/CN2020/076689
Authority: WO
Inventors: 王守诚; 吴思举; 周轩
Original assignee: 华为技术有限公司
Priority date: 2019-03-08
Filing date: 2020-02-26
Publication date: 2020-09-17
Also published as: CN110060672A

Abstract

一种语音控制方法及电子设备，涉及通信技术领域，可在运行应用的过程中提示用户执行与该应用相关的语音任务，提高电子设备的语音控制效率和用户体验。该方法包括：显示应用的第一界面，第一界面包括用于更新第一界面的控件（301）；然后采集用户的语音控制信号（302），确定与语音控制信号对应的触控事件，触控事件为对控件执行触控操作（303）；响应于语音控制信号，电子设备执行触控事件，并显示应用的第二界面，第二界面是第一界面中的控件执行触控操作后的界面（304）。

Description

一种语音控制方法及电子设备

本申请要求在2019年3月8日提交中国国家知识产权局、申请号为201910176543.1、发明名称为“一种语音控制方法及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种语音控制方法及电子设备。

背景技术

语音识别技术其目标是将人类的语音中的词汇内容转换为计算机可读的输入。目前，许多手机都安装了用于语音识别的语音助手(例如，小爱同学、Siri以及小艺等)。一般，手机会预先设置一个或多个唤醒信号(例如，敲击信号或者“你好，小E”等唤醒词)。当检测到用户输入这些唤醒信号时，说明用户此时有使用语音识别功能的意图，因此触发手机启动语音应用进行语音识别，进而执行相应的语音任务。

目前手机在出厂前会预先配置好手机能够识别并执行的语音任务，例如查询天气的语音任务、订机票的语音任务等。为了实现这些语音任务，语音助手对应的后台服务器上需要配置任务类型，然后根据任务类型设计对话流程，从而获取与该任务类型对应的信息。如图1所示，当用户对着手机发出“帮我订一张明天早上从上海到深圳的机票”的语音控制信号时，手机的语音助手采集语音控制信号，将语音控制信号发送至后台服务器，后台服务器先读取任务类型“订机票”，然后根据预配置的“订机票”任务类型所需要的关键信息“出发地”、“目的地”、“时间”来提取该语音控制信号中的关键词，生成语音用户界面(voice user interface，VUI)任务。后台服务器将VUI任务转换成相应的控制指令发送给对应的应用程序，该应用程序通过预先定制的代码进行响应，并输出查询结果。可见，现有技术需要后台服务器预先配置任务类型和关键信息，任务配置量很大，而且为了适配语音任务，开发人员还需要对支持语音交互的应用程序进行适配性地开发。

发明内容

本申请提供一种语音控制方法及电子设备，通过结合图形用户界面来支持语音控制，提升用户语音控制体验，开发工作量较小。

第一方面，本申请实施例提供了一种语音控制方法，所述方法适用于电子设备，该方法包括：电子设备显示应用的第一界面，第一界面上包括用于更新第一界面的控件，然后电子设备采集用户的语音控制信号，当确定与语音控制信号对应的触控事件时，则响应于该语音控制信号，执行与之对应的触控事件，最终显示应用的第二界面，其中第二界面是第一界面中的控件执行触控操作后的界面。

本申请实施例中，电子设备根据采集的语音控制信号确定对应的输入事件，继而复用操作***的输入事件的操作流程，不需要应用做适配性地开发，就可以完成语音任务。该方法充分利用语音控制的操作便利性，在用户不方便手动操作时使用语音控制，同时又结合图形用户界面，提升用户的语音体验。

在一种可能的设计中，电子设备先获取与所述第一界面关联的配置文件，其中，配置文件中包括所述第一界面中的控件对应的控件标识和触控事件的对应关系，因此电子设备可以确定与所述语音控制信号的文本信息相符的目标控件标识，进而从配置文件中查找与目标控件标识对应的触控事件。

本申请实施例中，在运行该应用的某一界面时，电子设备可根据该界面的配置文件确定用户输入的语音控制信号对应的触控事件，进而执行该触控事件，从而实现通过语音控制应用的界面中各个控件的功能。

在一种可能的设计中，电子设备还可以显示对第一界面中的控件执行触控操作时的动画效果。

本申请实施例中，通过显示动画效果提醒用户，当前正在响应用户的语音控制，提升用户的体验。

在一种可能的设计中，电子设备可以先响应于用户输入的唤醒信号，在后台启动语音应用；然后通过语音应用采集用户的语音控制信号。

本申请实施例中，将语音应用和当前操作***的输入事件(例如虚拟按键的输入事件、按键输入事件和屏幕触摸(Touch)事件等)相结合，确定所采集的语音控制信号对应的输入事件，继而复用操作***的输入事件的操作流程，不需要应用做适配性地开发，就可以完成语音任务。

在一种可能的设计中，当检测到用户对所述第一界面中的控件的触控操作时，电子设备还可以执行触控操作。

本申请实施例中，通过触控操作和语音控制结合，便于用户将语音控制功能与触控功能相结合，提升用户体验，提高操作效率。

第二方面，本申请实施例提供一种电子设备，包括处理器和存储器。其中，存储器用于存储一个或多个计算机程序；当存储器存储的一个或多个计算机程序被处理器执行时，使得该电子设备能够实现上述任一方面的任意一种可能的设计的方法。

第三方面，本申请实施例还提供一种装置，该装置包括执行上述任一方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

第四方面，本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得电子设备执行上述任一方面的任意一种可能的设计的方法。

第五方面，本申请实施例还提供一种包含计算机程序产品，当计算机程序产品在电子设备上运行时，使得所述电子设备执行上述任一方面的任意一种可能的设计的方法。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

图1为本申请实施例提供的一种语音控制***示意图；

图2为本申请实施例提供的一种手机结构示意图；

图3为本申请实施例提供的电子设备内操作***的架构示意图；

图4为本申请实施例提供的一种界面示意图；

图5为本申请实施例提供的一种语音控制方法的场景示意图；

图6为本申请实施例提供的另一种语音控制方法的场景示意图；

图7a为本申请实施例提供的另一种界面示意图；

图7b至图7g为本申请实施例提供的另一种语音控制方法的场景示意图；

图8为本申请实施例提供的另一种语音控制方法的场景示意图；

图9为本申请实施例提供的语音辅助功能开关和语音唤醒功能开关的界面示意图；

图10a值至图10b为本申请实施例提供的另一种语音控制方法的场景示意图；

图11为本申请实施例提供的一种语音控制方法流程示意图；

图12为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合附图对本实施例的实施方式进行详细描述。

本申请实施例提供的一种语音控制方法可应用于手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personal digital assistant，PDA)、可穿戴电子设备、虚拟现实设备等电子设备中，本申请实施例对此不做任何限制。

以电子设备是手机为例，图2示出了手机的结构示意图。

手机可以包括处理器110，外部存储器接口120，内部存储器121，USB接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及SIM卡接口195等。其中传感器模块180可以包括陀螺仪传感器180A，加速度传感器180B，接近光传感器180G、指纹传感器180H，触摸传感器180K、转轴传感器180M(当然，手机100还可以包括其它传感器，比如温度传感器，压力传感器、距离传感器、磁传感器、环境光传感器、气压传感器、骨传导传感器等，图中未示出)。

可以理解的是，本发明实施例示意的结构并不构成对手机100的具体限定。在本申请另一些实施例中，手机100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor,ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor,DSP)，基带处理器，和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，控制器可以是手机100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了***的效率。

处理器110可以运行本申请实施例提供的语音控制方法，该方法通过将语音控制信号转换成已有的触控事件，从而实现现有图形用户界面对语音交互方式的支持，减小了开发工作量，增强了电子设备的语音交互功能。当处理器110集成不同的器件，比如集成CPU和GPU时，CPU和GPU可以配合执行本申请实施例提供的语音控制方法，比如方法中部分算法由CPU执行，另一部分算法由GPU执行，以得到较快的处理效率。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，手机100可以包括1个或N个显示屏194，N为大于1的正整数。

在本申请实施例中，显示屏可以接受用户的触控操作，对图形用户界面进行显示，另外，显示屏也可以在接收语音控制信号的情况下，显示执行与该语音控制信号对应的触控事件的动画效果和执行后的界面。

摄像头193(前置摄像头或者后置摄像头)用于捕获静态图像或视频。通常，摄像头193可以包括感光元件比如镜头组和图像传感器，其中，镜头组包括多个透镜(凸透镜或凹透镜)，用于采集待拍摄物体反射的光信号，并将采集的光信号传递给图像传感器。图像传感器根据所述光信号生成待拍摄物体的原始图像。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行手机100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，应用程序(比如相机应用，微信应用等)的代码等。存储数据区可存储手机100使用过程中所创建的数据(比如相机应用采集的图像、视频等)等。

此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

下面介绍传感器模块180的功能。

陀螺仪传感器180A，可以用于确定手机100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180A确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。即陀螺仪传感器180A可以用于检测手机100当前的运动状态，比如抖动还是静止。

加速度传感器180B可检测手机100在各个方向上(一般为三轴)加速度的大小。即陀螺仪传感器180A可以用于检测手机100当前的运动状态，比如抖动还是静止。接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。手机通过发光二极管向外发射红外光。手机使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定手机附近有物体。当检测到不充分的反射光时，手机可以确定手机附近没有物体。

陀螺仪传感器180A(或加速度传感器180B)可以将检测到的运动状态信息(比如角速度)发送给处理器110。处理器110基于运动状态信息确定当前是手持状态还是脚架状态(比如，角速度不为0时，说明手机100处于手持状态)。

指纹传感器180H用于采集指纹。手机100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于手机100的表面，与显示屏194所处的位置不同。

示例性的，手机100的显示屏194显示主界面，主界面中包括多个应用(比如相机应用、微信应用等)的图标。用户通过触摸传感器180K点击主界面中相机应用的图标，触发处理器110启动相机应用，打开摄像头193。显示屏194显示相机应用的界面，例如取景界面。

手机100的无线通信功能可以通过天线1，天线2，移动通信模块151，无线通信模块152，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块151可以提供应用在终端设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块151可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块151可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块151的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块151的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块152可以提供应用在终端设备100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块152可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块152经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块152还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

另外，手机100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。手机100可以接收按键190输入，产生与手机100的用户设置以及功能控制有关的键信号输入。手机100可以利用马达191产生振动提示(比如来电振动提示)。手机100中的指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。手机100中的SIM卡接口195用于连接SIM卡。SIM卡可以通过***SIM卡接口195，或从SIM卡接口195拔出，实现和手机100的接触和分离。

应理解，在实际应用中，手机100可以包括比图1所示的更多或更少的部件，本申请实施例不作限定。

上述电子设备100的软件***可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android***为例，示例性说明电子设备100的软件结构。

图3是本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android***分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和***库，以及内核层。

应用程序层可以包括一系列应用程序包。如图3所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，蓝牙，音乐，视频，短信息等应用程序。

在本申请实施例中，应用程序层中还可以包括具有语音识别功能的语音应用。例如，语音助手小E、小爱同学以及Siri等。

语音应用开启后可采集用户发出的语音控制信号，并将该语音控制信号转换为文本并进行语义理解。一种情况下，语音应用可被转换成应用程序的触控事件，以完成该语音任务，另一种情况下，语音应用可以与后台服务器进行通信，以完成语音任务。

一般，语音应用包括两部分，一部分是运行在后台的语音服务(service)，用于采集用户输入的声音信号、对声音信号进行提取、文本转换或语音识别等，另一部分是指在手机屏幕中的显示内容，用于展示语音应用的界面，例如用户与语音应用的对话内容等。在本申请实施例中，可将手机在后台运行语音应用理解为手机在后台运行语音服务。当然，在后台运行语音服务时，手机也可以以悬浮菜单等形式显示语音APP的标识等信息，本申请实施例对此不做任何限制。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图3所示，应用程序框架层可以包括窗口管理器，内容提供器，视图***，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图***包括可视控件，例如显示文字的控件，显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

在本申请实施例中，应用程序框架层中还包括VUI(voice user interface，声音用户界面)管理器。VUI管理器可以监测语音应用的运行状态，也可作为语音应用与其他应用之间的桥梁，将语音应用识别出的语音任务传递给相关的应用执行。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

***库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子***进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动等，本申请实施例对此不做任何限制。

本申请提供一种语音控制方法，该方法将语音应用和当前操作***的输入事件(例如虚拟按键的输入事件、按键输入事件和屏幕触摸(Touch)事件等)相结合，确定所采集的语音控制信号对应的输入事件，继而复用操作***的输入事件的操作流程，不需要应用做适配性地开发，就可以完成语音任务。该方法充分利用语音控制的操作便利性，在用户不方便手动操作时使用语音控制，同时又结合图形用户界面，提升用户的语音体验。

以下将结合附图和应用场景，对本申请实施例提供的语音控制方法进行详细介绍。

场景一

手机显示的GUI(图形用户界面)中一般包括一个或多个控件。一般，可将在GUI中呈现的元素称为控件，其能够为用户提供一定的操作，控件有多种类型，例如输入框(EditText)和按钮(Button)。图4为手机电话应用中的新建联系人的GUI示意图。从图中可见，每个输入框都有一个提示文本，比如“姓名”、“工作单位”、“电话号码”、“电子邮件”、“备注”。按钮上也有对应文本信息，比如“添加其它项”。当手机的语音控制功能被打开时，手机在后台会启动语音应用。用户可以通过语音应用向手机发出语音控制信号，然后手机根据语音控制信号从当前界面中确定对应的控件和控件的类型，然后对控件执行与控件的类型对应的触控操作。

例如，在手机显示图4的界面时，若用户发出“姓名张三”的语音控制信号，语音应用使用麦克风采集用户输入的语音控制信号，并对语音控制信号进行提取、文本转换或语音识别，得到语音内容“姓名张三”，那么手机根据语音内容“姓名”从该界面的配置文件中查找到与“姓名”对应的触控事件是对控件202执行输入操作，首先将焦点落在该输入框中，然后调用输入法把语音内容“张三”作为输入内容设置到该输入框中，如图5所示。

另外，在图5a中，手机还可以将把“张三”作为输入内容进行输入操作的动画效果显示出来，从视觉上提示用户手机正在响应用户输入“张三”这一内容。

再比如，在手机显示图4的界面时，若用户发出“添加其它项”的语音控制信号，语音应用使用麦克风采集用户输入的语音控制信号，并对语音控制信号进行提取、文本转换或语音识别，得到语音内容“添加其它项”。那么手机根据语音内容“添加其它项”从配置文件中查找到对应的触控事件是对控件203执行点击操作，因此对该按钮执行点击操作，如图6所示。

其中，需要说明的是，对“添加其它项”执行点击操作以及之后的实现，可以复用电话本应用的原有实现，开发人员并不需要对电话本应用做适配性地开发。语音应用可使用预设的语音识别算法将用户输入的语音控制信号转换为文本并进行语义理解，从而根据语义理解后的语音内容查找控件。

为了避免遮挡手机正在显示的界面，手机可在后台启动语音应用。例如，如图4所示，手机在后台启动语音应用后，可在图4所示的界面中显示语音应用的图标201。该图标201用于指示语音应用正在手机后台运行。虽然语音应用在后台运行，手机仍可响应用户在该界面中的各种触控操作，例如用户点击“添加其它项”的点击操作时，手机作出响应等。当然，也可以默认设置当语音应用在后台运行时，手机不响应用户在该界面中的各种触控操作，本申请实施例对此不做限制。

场景二

图7a为票务类应用程序的界面，若手机处于图7a所示的界面时，用户发出“机票”的语音控制信号时，语音应用使用麦克风采集用户输入的语音控制信号，并对语音控制信号进行提取、文本转换或语音识别，得到语音内容“机票”。那么手机根据语音内容“机票”查找到对应的触控事件是对控件204执行点击操作，因此手机对该控件执行点击操作，如图7b所示。然后手机从图7b所示的界面切换为图7c所示的界面。若手机处于图7c所示的界面时，用户发出“出发地上海”的语音控制信号时，语音应用使用麦克风采集用户输入的语音控制信号，并对语音控制信号进行提取、文本转换或语音识别，得到语音内容“出发地上海”。那么手机根据语音内容“出发地”查找到对应的触控事件是在“出发地”对应的输入框中执行输入操作，因此首先将焦点落在该输入框中，然后调用输入法把语音内容“上海”作为输入内容设置到该输入框中，如图7d所示。

进一步地，若手机处于图7d所示的界面时，用户发出“目的地北京”的语音控制信号时，语音应用使用麦克风采集用户输入的语音控制信号，并对语音控制信号进行提取、文本转换或语音识别，得到语音内容“目的地北京”。那么手机根据语音内容“目的地”查找到对应的触控事件是在“目的地”对应的输入框中执行输入操作，因此首先将焦点落在该输入框中，然后调用输入法把语音内容“北京”作为输入内容设置到该输入框中，如图7e所示。同样地，若手机处于图7e所示的界面时，用户发出“时间3月6号”的语音控制信号时，语音应用使用麦克风采集用户输入的语音控制信号，并对语音控制信号进行提取、文本转换或语音识别，得到语音内容“时间3月6号”。那么手机根据语音内容“时间”查找到对应的触控事件是在“时间”对应的输入框中执行输入操作，因此首先将焦点落在该输入框中，然后调用输入法把语音内容“3月6号”作为输入内容设置到该输入框中，如图7f所示。

最后，若手机处于图7f所示的界面时，用户发出“搜索”的语音控制信号时，语音应用使用麦克风采集用户输入的语音控制信号，并对语音控制信号进行提取、文本转换或语音识别，得到语音内容“搜索”。那么手机根据语音内容“搜索”查找到对应的触控事件是对“搜索”控件执行点击操作，如图7g所示

可见，与现有技术相比，本申请实施例通过将语音控制功能与图形用户界面相结合，实现现有的图形用户界面支持语音控制，提升语音体验，且开发工作量较小。

场景三

参见图8，在手机显示电话本应用的新建联系人的界面时，如图8a所示，若用户发出“帮我订一张明天早上从上海到深圳的机票”的语音控制信号时，语音应用使用麦克风采集用户输入的语音控制信号，并对语音控制信号进行提取、文本转换或语音识别，得到语音内容“帮我订一张明天早上从上海到深圳的机票”。当手机根据该语音内容未从图8a所示的界面的配置文件中查找到对应的触控事件，则将该语音控制信号转发至后台服务器。后台服务器根据预配置的“订机票”任务所需要的关键信息“出发地”、“目的地”、“时间”来提取关键词，生成VUI任务。后台服务器将VUI任务转换成相应的控制指令发送给对应的应用程序，该应用程序通过预先定制的代码进行响应，并显示如图8b所示的界面。

场景四

针对盲人和视力低弱人士，本申请实施例可以提供一种将Talkback(语言辅助)功能和语音控制功能进行结合后的语音控制方法，即用户将Talkback功能开关和语音唤醒功能开关开启，如图9所示。假设用户是盲人，当盲人触控到控件202时，如图10a所示，手机会语音播报“请输入姓名”，这时焦点落在该输入框中。因此该用户可以直接在听到语音播报“请输入姓名”后，发出“张三”的语音控制信号，语音应用使用麦克风采集用户输入的语音控制信号，并对语音控制信号进行提取、文本转换或语音识别，得到语音内容“张三”，然后调用输入法把语音内容“张三”作为输入内容设置到该输入框中，如图10b所示。之后，手机还可以语音播报“张三输入完成”，以提醒用户操作成功。

可见，上述操作方式相较于传统的语言辅助功能更加简便高效，便于盲人和视力低弱人士更为方便地操作手机，进一步提升用户体验。

基于上述场景，本申请实施例提供的一种语音控制方法的流程，该方法由电子设备执行，如图11所示。

步骤301，电子设备显示应用的第一界面。其中，第一界面中包括用于更新第一界面的一个或多个控件。

例如，手机显示的第一界面为如图4所示的界面，该界面中设置有按钮“添加其它项”、以及输入框等多个控件。用户可操作这些控件更新手机的显示内容，使手机显示出更新后的第二界面。

步骤302，电子设备采集用户的语音控制信号。

示例性的，手机可将麦克风设置为常开状态(always on)。那么，手机在显示某一应用的界面(例如第一界面)的同时，手机的麦克风也在以一定的工作频率采集语音控制信号。在一种可能的实施例中，用户可以通过发出唤醒信号启动手机的语音应用，然后手机通过语音应用采集用户的语音控制信号，并对其进行提取、文本转换或语音识别。例如，用户发出“小艺小艺”的声音信号后，手机通过麦克风可采集到该声音信号。如果手该声音信号为预设的唤醒信号，手机就启动语音应用以采集语音控制信号。

步骤303，电子设备确定与该语音控制信号对应的触控事件。

其中，触控事件指的是对控件执行触控操作。在本申请实施例中，电子设备可以预先存储各个应用的配置文件，比如每个应用对应一个或多个配置文件。对一个配置文件而言，该配置文件中记录了一个应用的不同界面中各个触控事件与语音控制信号的对应关系。一个配置文件也可以只记录一个应用的一个界面中的触控事件与语音控制信号的对应关系。

基于Android的界面上的所有控件，都是挂载在当前界面的窗口下的一个DecorView节点下，当用户说出的文本时，Android的软件***可以从DecorView开始扫描每个控件标识，并与用户说出的语音控制信号的文本信息比对，从而确定语音控制信号的文本信息相对应的目标控件标识，继而从所述配置文件中查找与所述目标控件标识对应触控事件。以图4所示的电话本应用举例，开发人员可以在电话本应用的安装包中设置新建联系人界面的配置文件1。配置文件1中记录了新建联系人界面中各个触控事件和语音控制信号的对应关系，例如，“姓名”输入框的输入事件与控件标识“姓名”相对应，控件标识“姓名”与语音控制信号的文本信息相对应。“添加其它项”的点击操作与控件标识“添加其它项”相对应，控件标识“添加其它项”与语音控制信号的文本信息“添加其它项”相对应。这样，当电子设备接收到语音控制信号后，就可以从配置文件中查找到与该语音控制信号对应的触控事件。也就是说，配置文件1中记录了“语音控制信号”与点击第一界面中的第一控件这一触控事件之间的对应关系。如图5所示，对手机而言，手机接收到用户输入“姓名”的语音控制信号时，相当于手机检测到用户点击“姓名”输入框，从而焦点落在该输入框中。

需要说明的是，电子设备可以直接将配置文件安装在本地，例如手机在安装电话本应用时可将电话本应用的安装包中提供的配置文件1存储在手机的内存中。这样，手机即使不联网，也可以支持该语音控制功能。

步骤304，响应于该语音控制信号，电子设备执行所述触控事件，并显示所述应用的第二界面，所述第二界面是所述第一界面中的第一控件执行触控操作后的界面。

仍以图5所示的新建联系人为例，若手机接收到“张三”这一语音控制信号，则相当于手机检测到用户在“姓名”输入框启动输入法操作，因此手机执行图5a所示的输入事件，并显示图5b所示的界面。

可以看出，本申请实施例中可以为应用中的各个界面设置相应的配置文件，配置文件中记录了对应的界面所支持的语音控制信号，以及该语音控制信号所对应的触控事件。这样，在运行该应用的某一界面时，电子设备可根据该界面的配置文件确定用户输入的语音控制信号对应的触控事件，进而执行该触控事件，从而实现通过语音控制应用的界面中各个控件的功能。这样一来，电子设备可以应用的界面为粒度实现对界面中各个操作按钮的语音控制功能，从而提高语音控制效率和用户体验。

另外，在一种可能的实施例中，如果电子设备确定出用户输入的语音控制信号并非配置文件所支持的语音控制信号时，还可以将该语音控制信号发送至后台服务器，由后台服务器确定任务类型和提取关键信息，从而生成VUI任务。后台服务器将VUI任务转换成相应的控制指令发送给对应的应用程序，具体示例可以参见场景三。

需要说明的是，电子设备的部分应用的界面中的控件可能并没有显示该控件的名称或者文本提示信息，本申请实施例可以在界面中提供该类控件的文本提示信息。具体地，由于Android设备都支持盲人使用的语音播报功能，因此在控件中都配置有 “android:contentDescribtion”信息，这类控件可以直接复用已经配置好的android:contentDescribtion的文本描述，即将这些文本描述作为该类控件的文本提示显示在界面中。

再者，在一种可能的实施例中，为了提升语音控制功能的可操作性，本申请实施例中可以预置一些触控事件，比如：与语音控制信号“上边”对应的向上移动操作、与语音控制信号“下边”对应的向下移动操作、与语音控制信号“左边”对应的向左移动操作、与语音控制信号“右边”对应的向右移动操作，用以模拟方向杆操作或者键盘的上、下、左、右的按键操作，处理当前控件焦点的移动。

综上，本申请实施例所提供的语音控制方法的核心是根据语音控制信号确定出触控事件，即找到对应的控件，然后根据该控件的接口能力，模拟对应的触控事件(例如点击、长按)，输入法事件(例如输入文本)以及按键操作(例如上、下、左、右移动)，应用程序的GUI并不需要为实现具体地语音控制功能做适配性地开发。

如图12所示，本申请实施例公开了一种电子设备，包括：触摸屏1201，所述触摸屏1201包括触敏表面1206和显示屏1207；一个或多个处理器1202；存储器1203；通信模块1208；一个或多个应用程序(未示出)；以及一个或多个计算机程序1204，上述各器件可以通过一个或多个通信总线1205连接。其中该一个或多个计算机程序1204被存储在上述存储器1203中并被配置为被该一个或多个处理器1202执行，该一个或多个计算机程序1204包括指令，该指令可以用于执行上述实施例中的各个步骤，例如，该指令可以用于执行图11中所示的各个步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的方法。

本申请实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的方法。

其中，本申请实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种语音控制方法，其特征在于，所述方法包括：

电子设备显示应用的第一界面，所述第一界面包括用于更新所述第一界面的控件；

所述电子设备采集用户的语音控制信号；

所述电子设备确定与所述语音控制信号对应的触控事件，所述触控事件为对控件执行触控操作；

响应于所述语音控制信号，所述电子设备执行所述触控事件，并显示所述应用的第二界面，所述第二界面是所述第一界面中的控件执行触控操作后的界面。
根据权利要求1所述的方法，其特征在于，所述电子设备采集用户的语音控制信号之后，还包括：

所述电子设备获取与所述第一界面关联的配置文件，所述配置文件中包括所述第一界面中的控件对应的控件标识和触控事件的对应关系；

所述电子设备确定与所述语音控制信号对应的触控事件，包括：

所述电子设备确定与所述语音控制信号的文本信息相符的目标控件标识；

所述电子设备从所述配置文件中查找与所述目标控件标识对应的触控事件。
根据权利要求1或2所述的方法，其特征在于，所述电子设备执行所述触控事件之后，显示所述应用的第二界面之前，还包括：

所述电子设备显示对所述第一界面中的控件执行触控操作时的动画效果。
根据权利要求1至3任一项所述的方式，其特征在于，所述电子设备采集用户的语音控制信号，包括：

响应于用户输入的唤醒信号，所述电子设备在后台启动语音应用；

所述电子设备通过所述语音应用采集用户的语音控制信号。
根据权利要求1至4任一项所述的方法，其特征在于，该方法还包括：

当检测到用户对所述第一界面中的控件的触控操作时，所述电子设备执行所述触控操作。
一种电子设备，其特征在于，包括：触摸屏、处理器和存储器；

所述存储器用于存储一个或多个计算机程序；

当所述存储器存储的一个或多个计算机程序被所述处理器执行时，使得所述电子设备执行：

显示应用的第一界面，所述第一界面包括用于更新所述第一界面的控件；

采集用户的语音控制信号；

确定与所述语音控制信号对应的触控事件，所述触控事件为对控件执行触控操作；

响应于所述语音控制信号，执行所述触控事件，并显示所述应用的第二界面，所述第二界面是所述第一界面中的控件执行触控操作后的界面。
根据权利要求6所述的电子设备，其特征在于，当所述电子设备采集用户的语音控制信号之后，所述电子设备还用于执行：

获取与所述第一界面关联的配置文件，所述配置文件中包括所述第一界面中的控件对应的控件标识和触控事件的对应关系；

确定与所述语音控制信号的文本信息相符的目标控件标识；

所述电子设备从所述配置文件中查找与所述目标控件标识对应的触控事件。
根据权利要求6或7所述的电子设备，其特征在于，当所述电子设备执行所述触控事件之后，显示所述应用的第二界面之前，还使得所述电子设备执行：

显示对所述第一界面中的控件执行触控操作时的动画效果。
根据权利要求6至8任一项所述的电子设备，其特征在于，当所述电子设备执行所述触控事件时，还使得所述电子设备执行：

响应于用户输入的唤醒信号，在后台启动语音应用；

通过所述语音应用采集用户的语音控制信号。
根据权利要求6至9任一项所述的电子设备，其特征在于，还使得所述电子设备执行：

当检测到用户对所述第一界面中的控件的触控操作时，执行所述触控操作。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1至5任一项所述的语音控制方法。