CN109089140A

CN109089140A - 一种语音控制方法及装置

Info

Publication number: CN109089140A
Application number: CN201710448427.1A
Authority: CN
Inventors: 吴鹏鹏
Original assignee: BEIJING UNION VOOLE TECHNOLOGY Co Ltd
Current assignee: BEIJING UNION VOOLE TECHNOLOGY Co Ltd
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2018-12-25

Abstract

本申请涉及计算机技术及互联网领域，公开了一种语音控制方法及装置，用以形成动态语音库，从而减少语音库的数据量，减小服务器的压力。该方法为：智能终端获取当前显示的第一场景界面，并获取所述第一场景界面相关的第一语音库；所述智能终端将所述第一语音库发送给语音识别设备；所述智能终端接收第一语音指令，将所述第一语音指令发送给所述语音识别设备，所述第一语音指令用于指示所述语音识别设备在所述第一语音库中查找与所述第一语音指令匹配的第一控制指令；所述智能终端接收所述语音识别设备返回的所述第一控制指令，执行与所述第一控制指令相应的操作。

Description

一种语音控制方法及装置

技术领域

本申请实施例涉及计算机技术及互联网领域，尤其涉及一种语音控制方法及装置。

背景技术

随着智能终端技术的发展，不同种类的智能终端进入用户的应用中。例如，智能电视。近年来，智能电视上的应用程序不断丰富，且人机交互方式越来越多样化，使智能电视成为家庭娱乐的中心。目前，除了传统的电视遥控器之外，语音控制、手势操作、人脸识别、触摸控制等交互方式都在智能电视上得到了不同程度的应用，各项技术正在不断发展、日益成熟。智能电视的语音控制是采用的语音识别技术，通过麦克接受声音，然后用计算机技术对声音进行分析，根据声音的频率、频谱与预存指令进行比对，最后确定所执行的指令。

现有技术中，一种语音控制方法是：建立包含不同场景界面的云端语音服务器的语音数据库，语音控制器与云端语音服务器建立通信连接，语音控制器接收用户的语音命令，从语音数据库中调取与语音命令相匹配的场景界面，云端语音服务器接收用户的选择指令并执行选择指令对应的操作，通过语音控制器实现与智能终端的语音交互。

但是，这种方案的缺点就是，需要事先在云端语音服务器中建立不同场景界面的语音数据库，一般情况下，每个场景界面对应建立一个语音数据库，通常智能终端所应用到的场景界面比较多，这样会导致不同场景界面的语音数据库可控性较低，且调用语音数据库时执行过多的冗余代码，另外，语音数据库的数据量过于庞大，从而导致云端语音服务器的负荷较重，压力较大。

发明内容

本申请实施例提供一种语音控制方法及装置，用以解决在语音控制智能终端时语音数据库的数据量过大且服务器负荷较重的问题。

本申请实施例提供的具体技术方案如下：

一种语音控制方法，包括：智能终端获取当前显示的第一场景界面，并获取所述第一场景界面相关的第一语音库；

所述智能终端将所述第一语音库发送给语音识别设备；

所述智能终端接收第一语音指令，将所述第一语音指令发送给所述语音识别设备，所述第一语音指令用于指示所述语音识别设备在所述第一语音库中查找与所述第一语音指令匹配的第一控制指令；

所述智能终端接收所述语音识别设备返回的所述第一控制指令，执行与所述第一控制指令相应的操作。

可选的，所述智能终端将所述第一语音库发送给语音识别设备，包括：

所述智能终端响应于用于输入所述第一语音指令的事件启用操作，将所述第一语音库发送给语音识别设备；或者

所述智能终端在历史场景界面切换到所述第一场景界面时，将所述第一语音库发送给语音识别设备，其中，所述历史场景界面为所述智能终端在显示所述第一场景界面之前所显示的场景界面。

可选的，所述执行与所述第一控制指令相应的操作，包括：

所述智能终端调用与所述第一控制指令相关的脚本语言，所述脚本语言用于使服务器为所述智能终端提供所述操作所需的数据信息；

其中，所述智能终端与所述服务器服从于浏览器/服务器B/S网络结构模式的应用方式。

可选的，在执行与所述第一控制指令相应的操作之后，还包括：

智能终端获取更新显示的第二场景界面，并获取所述第二场景界面相关的第二语音库；

所述智能终端将所述第二语音库发送给语音识别设备；

所述智能终端接收第二语音指令，将所述第二语音指令发送给所述语音识别设备，所述第二语音指令用于指示所述语音识别设备在所述第二语音库中查找与所述第二语音指令匹配的第二控制指令；

所述智能终端接收所述语音识别设备返回的所述第二控制指令，执行与所述第二控制指令相应的操作。

可选的，在获取所述第一场景信息对应的第一语音库之后，还包括：

所述智能终端缓存所述第一语音库；

在执行与所述控制指令相应的操作之后，还包括：

所述智能终端若确定更新显示的场景界面仍为所述第一场景界面，则将缓存的所述第一语音库发送给语音识别设备；

所述智能终端接收第三语音指令，将所述第三语音指令发送给所述语音识别设备，所述第三语音指令用于指示所述语音识别设备在所述第一语音库中查找与所述第三语音指令匹配的第三控制指令；

所述智能终端接收所述语音识别设备返回的所述第三控制指令，执行与所述第三控制指令相应的操作。

一种语音控制装置，包括：处理单元，用于获取当前显示的第一场景界面，并获取所述第一场景界面相关的第一语音库；

发送单元，用于将所述处理单元获取的所述第一语音库发送给语音识别设备；

接收单元，用于接收第一语音指令；

所述发送单元，还用于将所述第一语音指令发送给所述语音识别设备，所述第一语音指令用于指示所述语音识别设备在所述第一语音库中查找与所述第一语音指令匹配的第一控制指令；

所述接收单元，还用于接收所述语音识别设备返回的所述第一控制指令；

所述处理单元，还用于执行与所述第一控制指令相应的操作。

可选的，所述处理单元用于：

响应于用于输入所述第一语音指令的事件启用操作，通过所述发送单元将所述第一语音库发送给语音识别设备；或者

在历史场景界面切换到所述第一场景界面时，通过所述发送单元将所述第一语音库发送给语音识别设备，其中，所述历史场景界面为所述智能终端在显示所述第一场景界面之前所显示的场景界面。

可选的，所述处理单元用于：

调用与所述第一控制指令相关的脚本语言，所述脚本语言用于使服务器为所述处理单元提供所述操作所需的数据信息；

其中，所述装置与所述服务器服从于浏览器/服务器B/S网络结构模式的应用方式。

可选的，所述处理单元还用于，在执行与所述第一控制指令相应的操作之后，获取更新显示的第二场景界面，并获取所述第二场景界面相关的第二语音库；

所述发送单元还用于，将所述第二语音库发送给语音识别设备；

所述接收单元还用于，接收第二语音指令，将所述第二语音指令发送给所述语音识别设备，所述第二语音指令用于指示所述语音识别设备在所述第二语音库中查找与所述第二语音指令匹配的第二控制指令；以及，接收所述语音识别设备返回的所述第二控制指令；

所述处理单元还用于，执行与所述第二控制指令相应的操作。

可选的，还包括：

缓存单元，用于在所述处理单元获取所述第一场景信息对应的第一语音库之后，缓存所述第一语音库；

所述处理单元还用于，在执行与所述控制指令相应的操作之后，若确定更新显示的场景界面仍为所述第一场景界面，则将所述缓存单元缓存的所述第一语音库发送给语音识别设备；

所述接收单元还用于，接收第三语音指令；

所述发送单元还用于，将所述第三语音指令发送给所述语音识别设备，所述第三语音指令用于指示所述语音识别设备在所述第一语音库中查找与所述第三语音指令匹配的第三控制指令；

所述接收单元还用于，接收所述语音识别设备返回的所述第三控制指令；

所述处理单元还用于，执行与所述第三控制指令相应的操作。

附图说明

图1为本申请实施例中应用***架构示意图；

图2为本申请实施例中语音控制方法流程示意图；

图3为本申请实施例中语音控制装置结构示意图。

具体实施方式

下面将结合附图，对本申请实施例进行详细描述。

如图1所示，本申请实施例应用的***架构中包括智能终端101、服务器102和语音识别设备103。其中，智能终端101作为中间枢纽，分别与服务器102和语音识别设备103交互。智能终端101为能够实现人机交互的设备，具体包括能够接收用户输入的语音指令，并根据该语音指令执行相关的操作。智能终端101能够显示场景界面，该场景界面包括显示的各个图标、按钮、文字等元素。例如，智能终端101可以包括智能电视、智能手机等手持设备、车载设备等。服务器102能够为智能终端101提供用户所需的各个场景界面，和各个场景界面对应的场景信息，该场景信息包括场景界面中的各个元素对应的语音指令所形成的语音库，其中，语音库也可称为语音数据库。一种可能的实现方式中，智能终端101和服务器102服从于浏览器/服务器(Browser/Server，B/S)网络结构模式的应用方式。其中，B/S网络结构模式是网络(即WEB)兴起后的一种网络结构模式。WEB浏览器是智能终端101最主要的应用软件。B/S网络结构模式将智能终端101的***功能实现的核心部分集中到服务器102上，简化了***的开发、维护和使用。智能终端101通过浏览器向服务器102进行数据交互。语音识别设备103可以看做一种语音识别工具，能够更具接收的语音指令，在语音库中进行模糊匹配，从而识别出语音指令。

基于图1所示的***架构，本申请实施例提供一种语音控制方法及装置，通过智能终端向语音识别设备提供当前显示的场景界面相关的语音库，使得语音识别设备可以在接收到的语音库中查找语音指令相关的控制指令。由于智能终端在处于当前显示的场景界面的情况下，会接收到与当前显示的场景界面相关的语音指令，因此，语音识别设备在接收到的语音库中查找语音指令相关的控制指令，可以大大缩小查找范围，更够更快更准确的查找成功。并且，智能终端动态地向语音识别设备发送当前最新的场景界面相关的语音库，能够使得最新收到的语音指令与查找范围时时强相关，形成一种动态语音库。另外，智能终端无需获取所有场景界面的相关语音库，只需要获取当前显示的场景界面相关的语音库即可，降低了服务器的压力，使得语音控制过程更加灵活可控。

下面将结合附图对本申请实施例提供的语音控制方法作进一步详细的介绍。

如图2所示，本申请实施例提供的语音控制方法的具体流程如下。

步骤201、智能终端获取当前显示的第一场景界面，并获取第一场景界面相关的第一语音库。

具体地，智能终端在获取第一场景界面相关的第一语音库之后，将第一语音库缓存在本地。

步骤202、智能终端将第一语音库发送给语音识别设备。

具体地，智能终端将第一语音库发送给语音识别设备符合以下触发条件：条件一和/或条件二。

条件一、智能终端响应于用于输入第一语音指令的事件启用操作，将第一语音库发送给语音识别设备。

例如，智能终端为智能电视，用户通过遥控器的语音按钮键输入第一语音指令，当智能终端监测到发生语音按钮键按下的操作时，将第一语音库发送给语音识别设备。

条件二、智能终端在历史场景界面切换到第一场景界面时，将第一语音库发送给语音识别设备，其中，历史场景界面为智能终端在显示第一场景界面之前所显示的场景界面。

也就是，智能终端一旦监测到显示的场景界面切换到第一场景界面，就会触发将第一语音库发送给语音识别设备。

步骤203、智能终端接收第一语音指令，将第一语音指令发送给语音识别设备，第一语音指令用于指示语音识别设备在第一语音库中查找与第一语音指令匹配的第一控制指令。

步骤204、智能终端接收语音识别设备返回的第一控制指令。

步骤205、智能终端执行与第一控制指令相应的操作。

例如，智能终端为智能电视，第一控制指令用于指示智能终端打开综艺节目，则智能终端执行打开综艺节目的操作。

一种可能的实现方式中，在B/S网络结构模式下，智能终端调用与第一控制指令相关的脚本语言，该脚本语言用于使服务器为智能终端提供操作所需的数据信息，例如，该脚本语言为Java Script代码。

一种可能的实现方式中，在执行与第一控制指令相应的操作之后，智能终端可能将当前显示的第一场景界面更替为其他场景界面，也有可能继续显示第一场景界面，即未发生场景界面的更替。按照这两种可能情况，智能终端可能执行以下操作。

第一种可能情况下，智能终端更新显示第二场景界面，并获取第二场景界面相关的第二语音库，智能终端将第二语音库发送给语音识别设备，智能终端接收第二语音指令，将第二语音指令发送给语音识别设备，第二语音指令用于指示语音识别设备在第二语音库中查找与第二语音指令匹配的第二控制指令，智能终端接收语音识别设备返回的第二控制指令，执行与第二控制指令相应的操作。

第一种可能情况下，智能终端若确定更新显示的场景界面仍为第一场景界面，则将缓存的第一语音库发送给语音识别设备，智能终端接收第三语音指令，将第三语音指令发送给语音识别设备，第三语音指令用于指示语音识别设备在第一语音库中查找与第三语音指令匹配的第三控制指令，智能终端接收语音识别设备返回的第三控制指令，执行与第三控制指令相应的操作。

综上，智能终端每次将最新的场景界面相关的语音库发送给语音识别设备，缩小了语音识别设备识别语音指令的范围，且不会加载多余的语音库，减轻了服务器的负荷，以及控制过程简单有效。

下面举例来说明图2所示的语音控制方法，假设智能终端为智能电视，智能电视与服务器基于B/S网络结构模式下。

智能电视初始化场景界面，具体地，智能电视向服务器调用需要显示的首页，并获取首页这一场景界面相关的语音库。在首页这一场景界面上，用户将遥控器的语音按钮按下，将要输入语音指令，智能电视将首页相关的语音库立即发送给语音识别设备，在语音识别设备上注册这一语音库。例如，用户输入“进入电视剧栏目”，当用户输入完成语音指令后，智能电视监测到语音按钮键抬起，将语音指令发送给语音识别设备，语音识别设备在刚刚收到的语音库中模糊匹配语音指令，将识别的结果返回智能电视，智能电视根据返回的结果获知用户需要执行的任务，即用户想要进入电视剧栏目，则智能电视调用Java Script代码，以使服务器将电视剧栏目的相关数据发送给智能电视，智能电视显示电视剧栏目相关的场景界面。

基于与图2所示的语音控制方法的同一发明构思，如图3所示，本申请实施例还提供了一种语音控制装置300，语音控制装置300用于执行图2所示的语音控制方法。语音控制装置300包括：处理单元301、发送单元302、接收单元303。其中：

处理单元301，用于获取当前显示的第一场景界面，并获取第一场景界面相关的第一语音库；

发送单元302，用于将处理单元301获取的第一语音库发送给语音识别设备；

接收单元303，用于接收第一语音指令；

发送单元302，还用于将第一语音指令发送给语音识别设备，第一语音指令用于指示语音识别设备在第一语音库中查找与第一语音指令匹配的第一控制指令；

接收单元303，还用于接收语音识别设备返回的第一控制指令；

处理单元301，还用于执行与第一控制指令相应的操作。

可选的，处理单元301用于：

响应于用于输入第一语音指令的事件启用操作，通过发送单元302将第一语音库发送给语音识别设备；或者，在历史场景界面切换到第一场景界面时，通过发送单元302将第一语音库发送给语音识别设备，其中，历史场景界面为智能终端在显示第一场景界面之前所显示的场景界面。

可选的，处理单元301用于：

调用与第一控制指令相关的脚本语言，脚本语言用于使服务器为处理单元301提供操作所需的数据信息；

其中，装置与服务器服从于浏览器/服务器B/S网络结构模式的应用方式。

可选的，处理单元301还用于，在执行与第一控制指令相应的操作之后，获取更新显示的第二场景界面，并获取第二场景界面相关的第二语音库；

发送单元302还用于，将第二语音库发送给语音识别设备；

接收单元303还用于，接收第二语音指令，将第二语音指令发送给语音识别设备，第二语音指令用于指示语音识别设备在第二语音库中查找与第二语音指令匹配的第二控制指令；以及，接收语音识别设备返回的第二控制指令；

处理单元301还用于，执行与第二控制指令相应的操作。

可选的，还包括：

缓存单元304，用于在处理单元301获取第一场景信息对应的第一语音库之后，缓存第一语音库；

处理单元301还用于，在执行与控制指令相应的操作之后，若确定更新显示的场景界面仍为第一场景界面，则将缓存单元304缓存的第一语音库发送给语音识别设备；

接收单元303还用于，接收第三语音指令；

发送单元302还用于，将第三语音指令发送给语音识别设备，第三语音指令用于指示语音识别设备在第一语音库中查找与第三语音指令匹配的第三控制指令；

接收单元303还用于，接收语音识别设备返回的第三控制指令；

处理单元301还用于，执行与第三控制指令相应的操作。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音控制方法，其特征在于，包括：

智能终端获取当前显示的第一场景界面，并获取所述第一场景界面相关的第一语音库；

所述智能终端将所述第一语音库发送给语音识别设备；

2.如权利要求1所述的方法，其特征在于，所述智能终端将所述第一语音库发送给语音识别设备，包括：

3.如权利要求1或2所述的方法，其特征在于，所述执行与所述第一控制指令相应的操作，包括：

4.如权利要求1或2所述的方法，其特征在于，在执行与所述第一控制指令相应的操作之后，还包括：

所述智能终端将所述第二语音库发送给语音识别设备；

5.如权利要求1或2所述的方法，其特征在于，在获取所述第一场景信息对应的第一语音库之后，还包括：

所述智能终端缓存所述第一语音库；

在执行与所述控制指令相应的操作之后，还包括：

6.一种语音控制装置，其特征在于，包括：

处理单元，用于获取当前显示的第一场景界面，并获取所述第一场景界面相关的第一语音库；

接收单元，用于接收第一语音指令；

7.如权利要求6所述的装置，其特征在于，所述处理单元用于：

8.如权利要求6或7所述的装置，其特征在于，所述处理单元用于：

9.如权利要求6或7所述的装置，其特征在于，所述处理单元还用于，在执行与所述第一控制指令相应的操作之后，获取更新显示的第二场景界面，并获取所述第二场景界面相关的第二语音库；

10.如权利要求6或7所述的装置，其特征在于，还包括：

所述接收单元还用于，接收第三语音指令；