CN110782889A

CN110782889A - 一种语音操作方法及相关设备

Info

Publication number: CN110782889A
Application number: CN201910778379.1A
Authority: CN
Inventors: 陈强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2020-02-11

Abstract

本申请实施例公开了一种语音操作方法及相关设备，包括：加载语音操作软件开发工具包SDK，所述语音操作SDK包括语音识别引擎和***接口操作引擎；获取用户输入的第一语音信息；通过所述语音识别引擎对所述第一语音信息进行识别，确定操作指令；响应所述操作指令，通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。采用本申请实施例，提高了操作的便捷性。

Description

一种语音操作方法及相关设备

技术领域

本申请涉及电子技术领域，尤其涉及一种语音操作方法及相关设备。

背景技术

手机***、手机应用(APP)或者物联网***，都是通过触摸屏、或者按键形式来操作IOS、安卓或物联网平台的***界面，用户可以通过手势执行打开软件、前进、后退、返回、Home键等动作。但是存在如下缺点：第一，在一些特定场合，比如开车或者双手疲劳情况下，仍然需要通过双手直接去操作控制APP或***，无法解放双手。第二，虽然***会提供一些辅助功能，但是辅助功能需要开启，同时操作不流畅，无法完全达到手动操作的效果。

发明内容

本申请实施例提供一种语音操作方法及相关设备。可以提高操作的便捷性。

第一方面，本申请实施例提供了一种语音操作方法，包括：

加载语音操作软件开发工具包SDK，所述语音操作SDK包括语音识别引擎和***接口操作引擎；

获取用户输入的第一语音信息；

通过所述语音识别引擎对所述第一语音信息进行识别，确定操作指令；

响应所述操作指令，通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。

其中，所述通过所述语音识别引擎对所述第一语音信息进行识别，确定操作指令包括：

提取所述第一语音信息的特征信息；

将所述特征信息与预设模板库中的语音模板信息进行匹配，确定所述操作指令。

其中，所述提取所述第一语音信息中的特征信息包括：

确定所述第一语音信息中的操作关键词；

提取所述操作关键词的特征信息。

获取所述第一语音信息的语音强度；

当所述语音强度大于预设阈值时，通过所述语音识别引擎对所述第一语音信息进行识别，确定所述操作指令。

其中，所述获取用户输入的第一语音信息之前，还包括：

接收用户输入的切换指令；

根据所述切换指令，启动语音控制模式，所述语音控制模式为通过语音控制所述电子设备的操作模式。

其中，所述方法还包括：

当通过所述语音识别引擎无法识别所述第一语音信息时，显示提示信息，所述提示信息用于提示用户重新输入第二语音信息。

其中，所述操作指令包括打开指令、回退指令、返回指令、前进指令以及关闭指令中的至少一项。

第二方面，本申请实施例提供了一种语音操作装置，包括：

处理模块，用于加载语音操作软件开发工具包SDK，所述语音操作SDK包括语音识别引擎和***接口操作引擎；

获取模块，用于获取用户输入的第一语音信息；

识别模块，用于通过所述语音识别引擎对所述第一语音信息进行识别，确定操作指令；

响应模块，用于响应所述操作指令，通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。

其中，所述识别模块，还用于提取所述第一语音信息的特征信息；将所述特征信息与预设模板库中的语音模板信息进行匹配，确定所述操作指令。

其中，所述识别模块，还用于确定所述第一语音信息中的操作关键词；提取所述操作关键词的特征信息。

其中，所述识别模块，还用于当所述语音强度大于预设阈值时，通过所述语音识别引擎对所述第一语音信息进行识别，确定所述操作指令。

其中，所述获取模块，还用于接收用户输入的切换指令；所述处理模块，还用于根据所述切换指令，启动语音控制模式，所述语音控制模式为通过语音控制所述电子设备的操作模式。

其中，所述响应模块，还用于当通过所述语音识别引擎无法识别所述第一语音信息时，显示提示信息，所述提示信息用于提示用户重新输入第二语音信息。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和通信总线，其中，通信总线用于实现处理器和存储器之间连接通信，处理器执行存储器中存储的程序用于实现上述第一方面提供的一种语音操作方法中的步骤。

在一个可能的设计中，本申请提供的实体识别设备可以包含用于执行上述方法中行为相对应的模块。模块可以是软件和/或硬件。

本申请实施例的又一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有多条指令，所述指令适于由处理器加载并执行上述各方面所述的方法。

本申请实施例的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

实施本申请实施例，加载语音操作软件开发工具包SDK，语音操作SDK包括语音识别引擎和***接口操作引擎；获取用户输入的第一语音信息；通过语音识别引擎对第一语音信息进行识别，确定操作指令；响应操作指令，通过***接口操作引擎调用对应的硬件接口对电子设备进行操作。通过内嵌的语音操作SDK识别出动作后，直接调用***的硬件接口，达到和双手直接操作一样的效果，提高操作的便携性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种电子设备的结构示意图；

图2是本申请实施例提供的一种语音操作方法的流程示意图；

图3是本申请实施例提供的另一种电子设备的结构示意图；

图4是本申请实施例提供的一种语音识别的示意图；

图5是本申请实施例提供的一种语音操作的示意图；

图6是本申请实施例提供的一种通过语音浏览信息的示意图；

图7是本申请实施例提供的另一种语义操作的流程示意图；

图8是本申请实施例提供的一种语音操作装置的结构示意图；

图9是本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的一种电子设备的结构示意图。电子设备100可以是指提供到用户的语音和/或数据连接的设备，也可以被连接到诸如膝上型计算机或台式计算机等的计算设备，或者其可以是诸如个人数字助理(personal digital assistant，PDA)等的独立设备。电子设备还可以称为***、用户单元、用户站、移动站、移动台、远程站、接入点、远程终端、接入终端、用户终端、用户代理或用户装置。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriberidentification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

如图2所示，图2是本申请实施例提供的一种语音操作方法的流程示意图。本申请实施例中的步骤包括：

S201，加载语音操作软件开发工具包SDK，所述语音操作SDK包括语音识别引擎和***接口操作引擎。

如图3所示，图3是本申请实施例提供的另一种电子设备的结构示意图。加载语音操作SDK之后，电子设备可以包括语音识别引擎和***接口操作引擎，其中，语音识别引擎用于对用户发出的语音信息进行识别得到操作指令，***接口操作引擎用于根据识别出的操作指令，通过调用手机硬件接口来对电子设备的业务模块进行操作。

S202，获取用户输入的第一语音信息。

具体实现中，在开启电子设备之后，在电子设备处于桌面显示状态，可以获取用户输入的第一语音信息。例如“打开XX应用”。或者，在用户操作某个应用界面时，获取用户输入的第一语音信息，例如“翻到下一页”。或者，在用户需要关机时，也可以获取用户输入的第一语音信息，例如“立刻关机”。电子设备可以在任何状态下，接收用户输入的第一语音信息。

可选的，在获取用户输入的第一语音信息之前，可以接收用户输入的切换指令；根据所述切换指令，启动语音控制模式，所述语音控制模式为通过语音控制所述电子设备的操作模式。在语音控制模式下，电子设备可以接收用户语音信息，而不接收用户输入的触控操作。也可以同时接收用户输入的语音信息和触控操作。

可选的，在接收用户输入的第一语音信息之前，可以对用户的身份信息(例如面部信息、指纹信息)进行识别，在确定该用户为特定用户时，开始接收该用户输入的第一语音信息，从而保障信息安全性。

S203，通过所述语音识别引擎对所述第一语音信息进行识别，确定操作指令。

如图4所示，图4是本申请实施例提供的一种语音识别的示意图。首先，可以提取所述第一语音信息的特征信息，然后将所述特征信息与预设模板库中的语音模板信息进行匹配，确定所述操作指令。其中，预设模板库可以包括语音信息与操作指令的对应关系。例如，当用户说出语音信息“开始开始”，通过语音识别引擎确定该语音信息“开始开始”对应控制指令“字符串start”，则确定执行start指令，当用户说出语音信息“暂停暂停”，通过语音识别引擎确定语音信息“暂停暂停”对应控制指令“字符串pause”，则确定执行pause指令。其他不再一一举例。

可选的，可以首先确定所述第一语音信息中的操作关键词；然后提取所述操作关键词的特征信息。例如，用户发出语音信息“我想打开QQ音乐”，可以从该语音信息提取操作关键词“打开”和“QQ音乐”，然后提取操作关键词“打开”和“QQ音乐”的特征信息，通过该特征信息识别得到操作指令。其中，所述操作指令包括Home键指令、打开指令、回退指令、返回指令、前进指令以及关闭指令中的至少一项。

可选的，当通过所述语音识别引擎无法识别所述第一语音信息时，可以显示提示信息，所述提示信息用于提示用户重新输入第二语音信息。，然后通过所述语音识别引擎对所述第二语音信息进行识别。如果通过语音识别引擎无法识别语音信息的次数超过预设阈值时，可以从语音控制模式切换为手动操作模式，提示用户手动操作。

S204，响应所述操作指令，通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。

如图5所示，图5是本申请实施例提供的一种语音操作的示意图。首先电子设备接收用户输入的操作关键词，然后语音识别引擎对操作关键词进行识别得到识别关键词，最后***接口操作引擎将识别关键词转化为操作指令，判断是否存在对应的硬件接口，如果存在，则调用对应的硬件接口对电子设备进行操作。如果不存在对应的硬件接口，则显示无法识别的提示信息。

例如，如图6所示，图6是本申请实施例提供的一种通过语音浏览信息的示意图。用户在浏览新闻时，如果用户发出语音信息“返回”，通过语音识别引擎对该语音信息进行识别，确定是操作指令“返回”，***接口操作引擎调用对应的硬件接口，自动点击操作界面左上角的“返回”键，返回到前一个页面。如果用户发出语音信息“下一页”，通过语音识别引擎对该语音信息进行识别，确定是操作指令“下一页”，***接口操作引擎调用对应的硬件接口，自动点击操作界面右上角的“下一页”键，显示界面显示下一个页面。整个过程无需用户手动操作。

在本申请实施例中，通过加载语音操作软件开发工具包SDK；然后获取用户输入的第一语音信息；通过语音识别引擎对第一语音信息进行识别，确定操作指令；响应操作指令，通过***接口操作引擎调用对应的硬件接口对电子设备进行操作。通过内嵌的语音操作SDK识别出动作后，直接调用***的硬件接口，达到与双手直接操作相同的效果，提高操作的便携性。

如图7所示，图7是本申请实施例提供的另一种语义操作的流程示意图。本申请实施例中的步骤包括：

S701，加载语音操作软件开发工具包SDK，所述语音操作SDK包括语音识别引擎和***接口操作引擎。

如图3所示，图3是本申请实施例提供的一种电子设备的结构示意图。加载语音操作SDK之后，电子设备可以包括语音识别引擎和***接口操作引擎，其中，语音识别引擎用于对用户发出的语音信息进行识别得到操作指令，***接口操作引擎用于根据识别出的操作指令，通过调用手机硬件接口来对电子设备的业务模块进行操作。

S702，获取用户输入的第一语音信息。

S703，获取所述第一语音信息的语音强度，判断语音强度是否大于预设阈值。若大于，执行S704，若不大于，则执行S706。只有当语音强度是否大于预设阈值时，开始对接收的语音信息处理，可以避免外界噪音的干扰，保证对特定用户的语音信息进行处理。

S704，通过所述语音识别引擎对所述第一语音信息进行识别，确定操作指令。

S705，响应所述操作指令，通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。

例如，如图6所示，图6是本申请实施例提供的一种语音浏览信息的示意图。用户在浏览新闻时，如果用户发出语音信息“返回”，通过语音识别引擎对该语音信息进行识别，确定是操作指令“返回”，***接口操作引擎调用对应的硬件接口，自动点击操作界面左上角的“返回”键，返回到前一个页面。如果用户发出语音信息“下一页”，通过语音识别引擎对该语音信息进行识别，确定是操作指令“下一页”，***接口操作引擎调用对应的硬件接口，自动点击操作界面右上角的“下一页”键，显示界面显示下一个页面。整个过程无需用户手动操作。

S706，发出提示信息。

具体实现中，可以通过语音播报方式发出提示信息，或者在电子设备的显示界面显示提示信息。其中，提示信息可以为声音强度太小，请重新输入。电子设备可以接收用户输入的其他语音信息并进行识别。

如图8所示，图8是本申请实施例提供的一种语音操作装置的结构示意图。本申请实施例中的装置可以包括：

处理模块801，用于加载语音操作软件开发工具包SDK，所述语音操作SDK包括语音识别引擎和***接口操作引擎。

获取模块802，用于获取用户输入的第一语音信息。

识别模块803，用于通过所述语音识别引擎对所述第一语音信息进行识别，确定操作指令。

可选的，可以获取所述第一语音信息的语音强度；判断语音强度是否大于预设阈值，当所述语音强度大于预设阈值时，通过所述语音识别引擎对所述第一语音信息进行识别，确定所述操作指令。当所述语音强度不大于预设阈值时，可以通过语音播报方式发出提示信息，或者在电子设备的显示界面显示提示信息。其中，提示信息可以为声音强度太小，请重新输入。电子设备可以接收用户输入的其他语音信息并进行识别

响应模块804，用于响应所述操作指令，通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。

请参见图9，图9是本申请实施例提供的一种电子设备的结构示意图。如图所示，该设备可以包括：至少一个处理器901，至少一个通信接口902，至少一个存储器903和至少一个通信总线904。

其中，处理器901可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。通信总线904可以是外设部件互连标准PCI总线或扩展工业标准结构EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信总线904用于实现这些组件之间的连接通信。其中，本申请实施例中设备的通信接口902用于与其他节点设备进行信令或数据的通信。存储器903可以包括易失性存储器，例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory，NVRAM)、相变化随机存取内存(PhaseChange RAM，PRAM)、磁阻式随机存取内存(Magetoresistive RAM，MRAM)等，还可以包括非易失性存储器，例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、闪存器件，例如反或闪存(NORflash memory)或是反及闪存(NAND flash memory)、半导体器件，例如固态硬盘(SolidState Disk，SSD)等。存储器903可选的还可以是至少一个位于远离前述处理器901的存储装置。存储器903中存储一组程序代码，且处理器901执行存储器903中的程序：

获取用户输入的第一语音信息；

可选的，处理器901还用于执行如下操作步骤：

提取所述第一语音信息的特征信息；

可选的，处理器901还用于执行如下操作步骤：

确定所述第一语音信息中的操作关键词；

提取所述操作关键词的特征信息。

可选的，处理器901还用于执行如下操作步骤：

获取所述第一语音信息的语音强度；

可选的，处理器901还用于执行如下操作步骤：

接收用户输入的切换指令；

可选的，处理器901还用于执行如下操作步骤：

进一步的，处理器还可以与存储器和通信接口相配合，执行上述申请实施例中窗口渲染装置的操作。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音操作方法，其特征在于，所述方法包括：

获取用户输入的第一语音信息；

2.如权利要求1所述的方法，其特征在于，所述通过所述语音识别引擎对所述第一语音信息进行识别，确定操作指令包括：

提取所述第一语音信息的特征信息；

3.如权利要求2所述的方法，其特征在于，所述提取所述第一语音信息中的特征信息包括：

确定所述第一语音信息中的操作关键词；

提取所述操作关键词的特征信息。

4.如权利要求1所述的方法，其特征在于，所述通过所述语音识别引擎对所述第一语音信息进行识别，确定操作指令包括：

获取所述第一语音信息的语音强度；

5.如权利要求1所述的方法，其特征在于，所述获取用户输入的第一语音信息之前，还包括：

接收用户输入的切换指令；

6.如权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.如权利要求1-5任一项所述的方法，其特征在于，所述操作指令包括打开指令、回退指令、返回指令、前进指令以及关闭指令中的至少一项。

8.一种语音操作装置，其特征在于，所述装置包括：

获取模块，用于获取用户输入的第一语音信息；

9.如权利要求8所述的装置，其特征在于，获取所述第一语音信息的语音强度；

所述识别模块，还用于当所述语音强度大于预设阈值时，通过所述语音识别引擎对所述第一语音信息进行识别，确定所述操作指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-7任一项所述的方法。