CN108597499B

CN108597499B - 语音处理方法以及语音处理装置

Info

Publication number: CN108597499B
Application number: CN201810284456.3A
Authority: CN
Inventors: 陈实
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2020-09-25
Anticipated expiration: 2038-04-02
Also published as: CN108597499A

Abstract

一种语音处理方法和装置，所述方法包括：监听第一语音输入指令；监听用户界面中触发的事件，事件包括用户界面上的一个功能被执行；将第一语音输入指令与事件进行关联，以确定第一语音输入指令与事件的映射关系；监听第二语音输入指令，第二语音输入指令为语音的非首次输入指令；基于映射关系，确定第二语音输入指令对应的事件；执行事件对应的功能。本公开实施例的语音处理方法和装置，可以借助映射关系，实现语音指令对应的功能。提高了语音输入操作的效率，方便了用户的使用。

Description

语音处理方法以及语音处理装置

技术领域

本发明实施例涉及一种语音处理方法以及与该方法对应的语音处理装置。

背景技术

随着智能终端的普及，语音作为终端入口，已经成为电子设备常见的输入模式。语音输入使得有身体障碍、视觉障碍的用户也能轻松使用电子设备。

然而，现有的语音处理方法往往需要对所有的逻辑判断都进行预处理，无法扩展语音指令的处理能力。此外，现有的语音处理方法的代码兼容性比较差。对于不同的***平台，可能需要对应不同的处理流程。

发明内容

本发明实施例的目的在于提供一种语音处理方法以及语音处理装置，以解决上述技术问题。

根据本发明的至少一个实施例，提供了一种语音处理方法，包括：监听第一语音输入指令；监听用户界面中触发的事件，事件包括用户界面上的一个功能被执行；将第一语音输入指令与事件进行关联，以确定第一语音输入指令与事件的映射关系；监听第二语音输入指令，第二语音输入指令为语音的非首次输入指令；基于映射关系，确定第二语音输入指令对应的事件；执行事件对应的功能。

根据本发明的至少一个实施例，还提供了一种语音处理装置，包括：第一语音指令监听单元，被配置为监听第一语音输入指令；事件监听单元，被配置为监听用户界面中触发的事件，事件包括用户界面上的一个功能被执行；关联单元，被配置为将第一语音输入指令与事件进行关联，以确定第一语音输入指令与事件的映射关系；第二语音输入指令监听单元，被配置为监听第二语音输入指令，第二语音输入指令为语音的非首次输入指令；确定单元，被配置为基于映射关系，确定第二语音输入指令对应的事件；执行单元，被配置为执行事件对应的功能。

本公开实施例的语音处理方法和装置，可以借助映射关系，实现语音指令对应的功能。提高了语音输入操作的效率，方便了用户的使用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本发明的示例性实施例。

图1示出了根据本公开实施例的语音处理方法流程图；

图2示出了根据本公开实施例的监听用户界面中触发的事件的流程图；

图3示出了根据本公开实施例的确定所述第一语音输入指令与所述事件的映射关系的流程图；

图4示出了根据本公开实施例的语音处理装置结构示意图。

具体实施方式

在下文中，将参考附图详细描述本发明的优选实施例。注意，在本说明书和附图中，具有基本上相同步骤和元素用相同的附图标记来表示，且对这些步骤和元素的重复解释将被省略。

在本发明的以下实施例中，语音处理方法可以应用于任何能够进行语音输入和处理的电子设备中。电子设备指的是能够与其他设备通信的设备。电子设备的具体形式包括但不限于移动电话、个人计算机、数码相机、个人数字助手、便携式计算机、游戏机等。

图1示出了根据本公开实施例的语音处理方法流程图。参见图1，语音处理方法100包括以下步骤S101-S106。

在步骤S101中，监听第一语音输入指令。根据本发明的一个示例，操作***的与语音相关的应用程序接口可以对语音输入进行实时监听，确定是否有第一语音输入。例如，与语音相关的应用程序接口例如包括辅助功能服务(Accessibility Service)接口。具有语音输入功能的即时聊天程序接口等。当有第一语音输入时，将该语音输入进行识别，第一语音输入指令例如是计算机可识别的语音指令。例如，将用户的语音输入转换为二进制编码或字符序列。可以将模拟的语音信号转换为数字语音信号，将转换后的数字语音信号作为语音输入指令。还例如，可以使用语音引擎ASR(Automatic Speech Recognition)和/或NLP(Natural Language Processing)将接收到的用户输入的语音转换为计算机可读的语音输入信号，从而可以通过该语音输入信号与计算机进行交互。此外，第一语音输入信号可以是一个用户的一种语音的首次输入，例如是作为训练电子设备进行机器学习的语音输入。当然，第一语音输入信号可以是用于电子设备进行机器学习的一组多个语音样本。

根据本发明的一个示例，可以将第一语音输入信号的语音作为训练样本对电子设备进行训练，使电子设备通过机器学习将输入的语音转为为语音指令。例如，可以采用卷积神经网络CNN(Convolution neural network)、深度神经网络DNN(Deep neural network)或递归神经网络模型RNN(recurrent neural network)进行建模。将用户输入的多个语音样本作为训练数据。此外，在机器学习阶段，用户可以对每个样本进行标注，根据标注信息对训练结果进行调整。此外，在训练中，还可以根据用户设定，更改训练模型中的标注信息。

此外，在监听到第一语音输入指令后，可以对该第一语音输入指令对应的语音进行存储。例如将语音存储到语音库中，将语音对应的语音输入指令存储到语音输入指令集中，以便后续对该语音或语音指令的分类和处理。

在步骤S102中，监听用户界面中触发的事件，事件包括用户界面上的一个功能被执行。根据本发明的一个示例，用户界面包括界面本身以及界面上的一个或多个控件，事件包括对界面或控件的模拟点击、对界面或控件的选择、对界面或控件功能的开启或关闭等等。此外，当用户界面上有多个窗口时，可以选择处于活动状态的置顶的窗口进行监听。

根据本发明的一个示例，监听用户界面中触发的事件可以包括监听用户界面中的触发事件的控件。也可以同时监听操作***的应用程序被调用的接口函数。当监听用户界面中触发事件的控件时，操作***可以监听控件被执行的操作。例如，对控件的点击、双击、拖动、开启或关闭等操作。当监听操作***的应用程序被调用的接口函数时，监听过程可以包括图2的步骤。图2示出了根据本公开实施例的监听用户界面中触发的事件的流程图200。参见图2，在步骤S201中，监听函数调用指令。在步骤S202中，当监听到至少一个接口函数被调用时，将接口函数进行记录。例如，在操作***应用程序接口设置监听桩，当某个应用程序或用户界面或控件调用应用程序接口函数时，将具体的被调用的函数记录。

根据本发明的一个示例，函数调用的类型可以是***层级的函数调用，例如：对时间的函数调用，对存储器进行分区的***级函数调用等。还可以是对应用层面的函数调用。例如对某个应用程序接口的函数调用，例如，网络应用程序接口。还可以是对一个功能模块的调用，例如对无线射频模块的调用，对语音功能模块的调用。此外，函数调用还可以是与硬件相关的函数调用，例如调用电子设备的摄像头，调用电子设备的温度传感器、光传感器等。还例如，函数的调用也可以是***存储的某个区被调用，例如对硬盘存储区域，或内存存储区域，或闪存存储芯片的函数调用。或是对操作***的安全领域的函数调用，例如对安全支付时使用的可信执行环境TEE的函数调用，对TEE***的函数调用例如包括安全隔离的存储区域的调用或是对安全芯片的函数调用。此外，函数调用还包括对软件模块的调用，例如，对杀毒软件模块的调用，对扫描磁盘软件模块的函数调用等等。

在步骤S103中，将第一语音输入指令与事件进行关联，以确定第一语音输入指令与事件的映射关系。根据本公开的一个示例，可以将前面步骤中监听到的第一语音输入指令与监听到的用户界面上触发的事件进行关联，从而得到第一语音输入指令与对应事件的映射关系。

根据本公开的另一个示例，还可以将第一语音输入指令与监听到的与事件相关的被调用的接口函数进行关联，以生成映射关系。

根据本公开的又一个示例，还可以对第一语音输入指令进行处理后，将处理后的第一语音输入指令与监听到的用户界面中的事件进行关联。图3示出了根据本公开实施例的确定所述第一语音输入指令与所述事件的映射关系的流程图300。参见图3，在步骤S301中，对第一语音输入指令进行解析。例如，对第一语音输入指令中的信号进行分解，识别等操作。在步骤S302中，获取语音指令中的关键词。例如，根据语音识别结果，获取语音指令中的文本关键词。例如，第一语音指令为“打开蓝牙设备”，那么提取的文本关键词例如可以是“打开”和“蓝牙”。关键词可以是一个，也可以是多个。在步骤S303中，将关键词与事件进行关联，确定关键词与事件的映射关系。例如，构建映射关系表，在映射关系表中，将关键词和与该关键词对应的事件一一对应，当然关键词与事件也可以是多对一的关系或一对多的映射关系。

此外，根据本公开的一个示例，上述建立的映射关系表是可以更新的。例如，映射关系表可以是一个训练模型，可以根据将每一次用户输入的语音作为训练样本来对样本库进行更新，从而根据更新的样本库对映射关系表进行更新。例如，可以基于用户输入的新的语音样本重新确定第一语音输入指令，在对第一语音输出指令进行解析的过程中，重新获取关键词，将新的语音关键词与时间进行映射，从而更新映射关系表。

此外，当多次训练后对应多个不同的结果时，可以根据训练样本的采集时间、在训练中每个结果的对应比例以及用户纠错等方式确定选择哪个结果。例如，训练样本的采集时间与当前时间的距离越短，其权重越高，例如，1个月内的训练样本比1年前的训练样本的权重高。在确定选择哪个结果时，最近的样本训练对应的结果为优选。或者，根据训练结果的对应比例来确定最终选择哪个结果，例如，在100次训练中，60次训练对应结果A，40次训练对应结果B，则可以根据对应的比例，选择当前样本的训练结果为结果B。此外，还可以根据用户设定的标准信息来确定最终的结果。

根据本公开的又一个示例，在监听到用户界面中触发事件的控件之后，还可以对该控件进行解析，确定该控件中的文本信息，并从该文本信息中提取关键词作为语音指令，将该关键词形式的语音指令与事件相关的被调用的接口函数相关联，建立映射关系。例如，关键词例如“wifi设置”“打开蓝牙”等。

此外，根据本公开的一个示例，在从控件中提取的文本信息中确定关键词之后，还可以对该关键词进行解析，生成解析模板。解析模板可以有多个。例如，根据每个控件生成一个解析模块，或根据某个事件生成一个解析模板，或者根据用户界面上实现的一个功能生成一个解析模板。例如，一个解析模板中可以包括一个关键词或多个关键词。多个关键词例如包括从文本信息中确定的关键词以及从该关键词扩展的其他关键词。例如“打开wifi”的关键词可能会有多种近似术语，例如“打开Wifi”，“打开无线设置”，“无线设置”，“设置WiFi”等等。可以将这些扩展的其他关键词与被扩展的的关键词共同存储到一个解析模板列表中，然后将一个解析模板与一个事件进行关联，建立映射关系表。或者将一个解析模板与用户界面上控件被执行的操作进行关联，建立映射关系表。还例如，将一个解析模板与事件中调用的接口函数进行关联，建立映射关系。映射关系表中包括多个映射关系，每个映射关系包括一个语音输入指令与一个解析模板的对应关系。

在步骤S104中，监听第二语音输入指令，第二语音输入指令为语音的非首次输入指令。根据本发明的一个示例，操作***应用程序接口监听语音应用程序接口报告的每一个语音输入。当用户输入一个语音输入指令时，语音应用程序接口可以判断该语音输入指令是否是一个语音的非首次输入。例如，可以将语音输入与存储的语音库中的语音进行比较，确定是一种语音的首次输入还是非首次输入。

在步骤S105中，基于映射关系，确定第二语音输入指令对应的事件。根据本发明的一个示例，电子设备可以获取前述步骤中建立的语音输入指令与相关事件的映射关系表，将第二语音输入指令与映射关系表中的语音输入指令进行匹配，确定匹配的语音输入指令对应的事件。例如，判断该事件是对用户界面中控件被执行的操作，或者该事件是对操作***的应用程序的接口函数的调用，根据对应的事件，确定执行该事件的程序代码。

在步骤S106中，执行事件对应的功能。例如，当事件为用户界面中的一个控件被双击时，则根据执行该事件的程序代码执行该双击控件操作。当事件为调用***级函数或应用程序接口函数时，则调用对应的函数。

本公开实施例的语音处理方法，用户可以预先通过***辅助功能接口，模拟操作***用户界面。获取语音指令与用户界面中的发生的事件的映射关系。当用户再次输入相同语音时，可以借助映射关系，直接实现语音指令对应的功能。提高了语音输入操作的效率，方便了用户的使用。

图4示出了根据本公开实施例的语音处理装置结构示意图。参见图4，语音处理装置400包括第一语音指令监听单元410，事件监听单元420，关联单元430，第二语音输入指令监听单元440，确定单元450以及执行单元460。

第一语音指令监听单元410监听第一语音输入指令。根据本发明的一个示例，操作***的与语音相关的应用程序接口可以对语音输入进行实时监听，确定是否有第一语音输入。例如，与语音相关的应用程序接口例如包括辅助功能服务(Accessibility Service)接口。具有语音输入功能的即时聊天程序接口等。当有第一语音输入时，将该语音输入进行识别，第一语音输入指令例如是计算机可识别的语音指令。例如，将用户的语音输入转换为二进制编码或字符序列。可以将模拟的语音信号转换为数字语音信号，将转换后的数字语音信号作为语音输入指令。还例如，可以使用语音引擎ASR(Automatic Speech Recognition)和/或NLP(Natural Language Processing)将接收到的用户输入的语音转换为计算机可读的语音输入信号，从而可以通过该语音输入信号与计算机进行交互。此外，第一语音输入信号可以是一个用户的一种语音的首次输入，例如是作为训练电子设备进行机器学习的语音输入。当然，第一语音输入信号可以是用于电子设备进行机器学习的一组多个语音样本。

事件监听单元420监听用户界面中触发的事件，事件包括用户界面上的一个功能被执行。根据本发明的一个示例，用户界面包括界面本身以及界面上的一个或多个控件，事件包括对界面或控件的模拟点击、对界面或控件的选择、对界面或控件功能的开启或关闭等等。此外，当用户界面上有多个窗口时，可以选择处于活动状态的置顶的窗口进行监听。

根据本发明的一个示例，监听用户界面中触发的事件可以包括监听用户界面中的触发事件的控件。也可以同时监听操作***的应用程序被调用的接口函数。当监听用户界面中触发事件的控件时，操作***可以监听控件被执行的操作。例如，对控件的点击、双击、拖动、开启或关闭等操作。当监听操作***的应用程序被调用的接口函数时，事件监听单元420可以监听函数调用指令。当监听到至少一个接口函数被调用时，将接口函数进行记录。例如，在操作***应用程序接口设置监听桩，当某个应用程序或用户界面或控件调用应用程序接口函数时，将具体的被调用的函数记录。

关联单元430将第一语音输入指令与事件进行关联，以确定第一语音输入指令与事件的映射关系。根据本公开的一个示例，可以将前面步骤中监听到的第一语音输入指令与监听到的用户界面上触发的事件进行关联，从而得到第一语音输入指令与对应事件的映射关系。

根据本公开的又一个示例，还可以对第一语音输入指令进行处理后，将处理后的第一语音输入指令与监听到的用户界面中的事件进行关联。关联单元430对第一语音输入指令进行解析。例如，对第一语音输入指令中的信号进行分解，识别等操作。之后，关联单元430获取语音指令中的关键词。例如，根据语音识别结果，获取语音指令中的文本关键词。例如，第一语音指令为“打开蓝牙设备”，那么提取的文本关键词例如可以是“打开”和“蓝牙”。关键词可以是一个，也可以是多个。此外，关联单元430将关键词与事件进行关联，确定关键词与事件的映射关系。例如，构建映射关系表，在映射关系表中，将关键词和与该关键词对应的事件一一对应，当然关键词与事件也可以是多对一的关系或一对多的映射关系。

第二语音输入指令监听单元440监听第二语音输入指令，第二语音输入指令为语音的非首次输入指令。根据本发明的一个示例，操作***应用程序接口监听语音应用程序接口报告的每一个语音输入。当用户输入一个语音输入指令时，语音应用程序接口可以判断该语音输入指令是否是一个语音的非首次输入。例如，可以将语音输入与存储的语音库中的语音进行比较，确定是一种语音的首次输入还是非首次输入。

确定单元450基于映射关系，确定第二语音输入指令对应的事件。根据本发明的一个示例，电子设备可以获取前述步骤中建立的语音输入指令与相关事件的映射关系表，将第二语音输入指令与映射关系表中的语音输入指令进行匹配，确定匹配的语音输入指令对应的事件。例如，判断该事件是对用户界面中控件被执行的操作，或者该事件是对操作***的应用程序的接口函数的调用，根据对应的事件，确定执行该事件的程序代码。

执行单元460执行事件对应的功能。例如，当事件为用户界面中的一个控件被双击时，则根据执行该事件的程序代码执行该双击控件操作。当事件为调用***级函数或应用程序接口函数时，则调用对应的函数。

本公开实施例的语音处理装置，用户可以预先通过***辅助功能接口，模拟操作***用户界面。获取语音指令与用户界面中的发生的事件的映射关系。当用户再次输入相同语音时，可以借助映射关系，直接实现语音指令对应的功能。提高了语音输入操作的效率，方便了用户的使用。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现。并且软件模块可以置于任意形式的计算机存储介质中。为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本领域技术人员应该理解，可依赖于设计需求和其它因素对本发明进行各种修改、组合、部分组合和替换，只要它们在所附权利要求书及其等价物的范围内。

Claims

1.一种语音处理方法，包括：

监听第一语音输入指令；

监听用户界面中触发的第一事件，所述第一事件包括用户界面上的一个功能被执行；

将所述第一语音输入指令与所述第一事件进行关联，以确定所述第一语音输入指令与所述第一事件的映射关系；

监听第二语音输入指令，所述第二语音输入指令为所述语音的非首次输入指令；

基于所述映射关系，确定所述第二语音输入指令对应的第二事件；

执行所述第二事件对应的功能。

2.根据权利要求1所述的方法，其中，用户界面包括控件，

所述监听用户界面中触发的第一事件包括：

监听用户界面中的触发所述第一事件的控件。

3.根据权利要求2所述的方法，其中，

所述监听所述用户界面中的触发所述第一事件的控件包括：

监听所述控件被执行的操作。

4.根据权利要求1所述的方法，其中，

所述监听用户界面中触发的第一事件包括：

监听操作***的应用程序被调用的接口函数；

其中，

所述监听用户界面中触发的第一事件还包括：

监听函数调用指令；

当监听到至少一个接口函数被调用时，将所述接口函数进行记录；

所述将所述第一语音输入指令与所述第一事件进行关联，以确定所述第一语音输入指令与所述第一事件的映射关系包括：

将所述第一语音输入指令与所述接口函数进行关联，以生成所述映射关系。

5.根据权利要求1所述的方法，其中，所述将所述第一语音输入指令与所述第一事件进行关联，以确定所述第一语音输入指令与所述第一事件的映射关系包括：

对所述第一语音输入指令中的语音信号进行解析，获取所述语音信号中的关键词；将所述关键词与所述第一事件进行关联，确定所述关键词与所述第一事件的映射关系。

6.根据权利要求2所述的方法，其中，所述第一事件包括以下的一种或多种：对控件的模拟点击、选择、功能的开启或关闭。

7.一种语音处理装置，包括：

第一语音指令监听单元，被配置为监听第一语音输入指令；

事件监听单元，被配置为监听用户界面中触发的事件，所述事件包括用户界面上的一个功能被执行；

关联单元，被配置为将所述第一语音输入指令与所述事件进行关联，以确定所述第一语音输入指令与所述事件的映射关系；

第二语音输入指令监听单元，被配置为监听第二语音输入指令，所述第二语音输入指令为所述语音的非首次输入指令；

确定单元，被配置为基于所述映射关系，确定所述第二语音输入指令对应的事件；

执行单元，被配置为执行所述事件对应的功能。

8.根据权利要求7所述的装置，其中，用户界面包括控件，

所述事件监听单元进一步被配置为监听用户界面中的触发所述事件的控件。

9.根据权利要求7所述的装置，其中，

所述事件监听单元进一步被配置为监听操作***的应用程序被调用的接口函数；

其中，所述事件监听单元进一步被配置为：监听函数调用指令；当监听到至少一个接口函数被调用时，将所述接口函数进行记录；

所述关联单元进一步被配置为将所述第一语音输入指令与所述接口函数进行关联，以生成所述映射关系。

10.根据权利要求7所述的装置，其中，所述关联单元进一步被配置为，对所述第一语音输入指令中的语音信号进行解析，获取所述语音信号中的关键词；将所述关键词与所述事件进行关联，确定所述关键词与所述事件的映射关系。