CN109360557A

CN109360557A - 语音控制应用程序的方法、装置和计算机设备

Info

Publication number: CN109360557A
Application number: CN201811178885.9A
Authority: CN
Inventors: 傅颖然
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2019-02-19

Abstract

本申请提供一种语音控制应用程序的方法、装置和计算机设备，其中，方法包括：采集用户的语音信息；对语音信息进行语音识别，获取语音信息对应的文本内容；对文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与语音信息对应的结果集；结果集中包括：意图词语，以及成分词语；根据结果集，查询指令表，生成与语音信息对应的操作指令；执行操作指令，获取语音信息对应的应答信息。该方法能够简化用户的操作步骤，丰富应用程序的控制方式，改善用户的使用体验。

Description

语音控制应用程序的方法、装置和计算机设备

技术领域

本申请涉及语音控制技术领域，尤其涉及一种语音控制应用程序的方法、装置和计算机设备。

背景技术

随着移动终端技术的不断发展，越来越多的应用程序(Application，简称APP)从个人电脑(Personal Computer，简称PC)端迁移到移动端。由于移动端相较于PC端，具有屏幕小、打字慢、手指灵敏度低于鼠标等特点，因此对于移动端应用程序而言，操作体验的高低是一个非常重要的指标。

目前，对于移动端应用程序的操作而言，打字速度慢极大地影响用户的操作和使用体验，为此，移动端应用程序普遍具有智能语音输入功能，通过将用户输入的语音转换为文本内容，以简化用户的操作步骤。

相关技术中，移动端应用程序仅具有智能语音输入功能，而未具有语音控制功能。当用户想要完成预设功能时，还需手动操作，操作步骤较为繁琐。

发明内容

本申请提供一种语音控制应用程序的方法、装置和计算机设备，以实现根据用户输入的语音信息，即可实现控制应用程序，可以简化用户的操作步骤，丰富应用程序的控制方式，改善用户的使用体验，用于解决现有技术中移动端应用程序仅具有智能语音输入功能，而未具有语音控制功能。当用户想要完成预设功能时，还需手动操作，操作步骤较为繁琐的技术问题。

本申请一方面实施例提供一种语音控制应用程序的方法，包括：

采集用户的语音信息；

对所述语音信息进行语音识别，获取所述语音信息对应的文本内容；

对所述文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与所述语音信息对应的结果集；所述结果集中包括：意图词语，以及成分词语；

根据所述结果集，查询指令表，生成与语音信息对应的操作指令；

执行所述操作指令，获取所述语音信息对应的应答信息。

其中在一种具体的实施方式中，所述意图库中包括：至少一个意图词语；所述成分库中包括：至少一个成分类型，以及所述成分类型对应的成分词语；

根据分词得到的词语查询预设的意图库和成分库，确定与所述语音信息对应的结果集，包括：

根据分词得到的词语，查询所述意图库，获取所述文本内容中的意图词语；

根据分词得到的词语，查询所述成分库，获取所述文本内容中的成分词语；

根据所述意图词语和所述成分词语，生成与所述语音信息对应的结果集。

其中在另一种具体的实施方式中，根据分词得到的词语查询预设的意图库和成分库，确定与所述语音信息对应的结果集，还包括：

若根据分词得到的词语，未获取到所述文本内容中的意图词语，则向用户发送第一提示信息，提示所述用户输入意图词语，或者在意图词语列表中选择意图词语；

若根据分词得到的词语，未获取到所述文本内容中的成分词语，则向用户发送第二提示信息，提示所述用户输入成分词语。

其中在另一种具体的实施方式中，所述根据所述结果集，查询指令表，生成与语音信息对应的操作指令，包括：

根据所述结果集中的意图词语，查询指令表，获取与所述意图词语对应的操作指令；

将所述结果集中的至少一个成分词语携带在所述操作指令中。

其中在另一种具体的实施方式中，所述根据所述结果集，查询指令表，生成与语音信息对应的操作指令之前，还包括：

获取所述结果集的数量；

所述根据所述结果集，查询指令表，生成与语音信息对应的操作指令，包括：

当所述结果集的数量大于1时，根据各个意图词语，查询指令表，获取与各个意图词语对应的操作指令；

从各个意图词语对应的操作指令中，选择对应的权重最高的第一操作指令；

获取所述第一操作指令对应的第一意图词语；

将包括所述第一意图词语的结果集中的至少一个成分词语携带在所述第一操作指令中。

其中在另一种具体的实施方式中，所述执行所述操作指令，包括：

获取所述用户的权限；

根据所述用户的权限，判断所述用户是否有执行所述操作指令的权限；

若所述用户有执行所述操作指令的权限，则执行所述操作指令。

其中在另一种具体的实施方式中，所述对所述文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与所述语音信息对应的结果集之前，还包括：

判断是否存在处于输入状态的文本框；

若存在处于输入状态的文本框，则将所述文本内容输入所述文本框。

本申请实施例的语音控制应用程序的方法，通过采集用户的语音信息，而后，对语音信息进行语音识别，获取语音信息对应的文本内容，接着，对文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与语音信息对应的结果集，最后根据结果集，查询指令表，生成与语音信息对应的操作指令，并执行操作指令，获取语音信息对应的应答信息。由此，根据用户输入的语音信息，即可实现控制应用程序，可以简化用户的操作步骤，丰富应用程序的控制方式，改善用户的使用体验。

本申请又一方面实施例提供一种语音控制应用程序的装置，包括：

采集模块，用于采集用户的语音信息；

识别模块，用于对所述语音信息进行语音识别，获取所述语音信息对应的文本内容；

确定模块，用于对所述文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与所述语音信息对应的结果集；所述结果集中包括：意图词语，以及成分词语；

生成模块，用于根据所述结果集，查询指令表，生成与语音信息对应的操作指令；

执行模块，用于执行所述操作指令，获取所述语音信息对应的应答信息。

所述确定模块具体用于，

其中在另一种具体的实施方式中，所述确定模块具体还用于，

其中在另一种具体的实施方式中，所述生成模块具体用于，

其中在另一种具体的实施方式中，所述装置还包括：

获取模块，用于获取所述结果集的数量；

所述生成模块具体用于，

获取所述第一操作指令对应的第一意图词语；

其中在另一种具体的实施方式中，所述执行模块具体用于，

获取所述用户的权限；

其中在另一种具体的实施方式中，所述装置还包括：

判断模块，用于在对所述文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与所述语音信息对应的结果集之前，判断是否存在处于输入状态的文本框；

输入模块，用于在存在处于输入状态的文本框时，将所述文本内容输入所述文本框。

本申请实施例的语音控制应用程序的装置，通过采集用户的语音信息，而后，对语音信息进行语音识别，获取语音信息对应的文本内容，接着，对文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与语音信息对应的结果集，最后根据结果集，查询指令表，生成与语音信息对应的操作指令，并执行操作指令，获取语音信息对应的应答信息。由此，根据用户输入的语音信息，即可实现控制应用程序，可以简化用户的操作步骤，丰富应用程序的控制方式，改善用户的使用体验。

本申请又一方面实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如上所述的语音控制应用程序的方法。

本申请又一方面实施例提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的语音控制应用程序的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例一所提供的语音控制应用程序的方法的流程示意图图；

图2为本申请实施例二所提供的语音控制应用程序的方法的流程示意图图；

图3为本申请实施例三所提供的语音控制应用程序的方法的流程示意图图；

图4为本申请实施例四所提供的语音控制应用程序的方法的流程示意图图；

图5为本申请实施例五所提供的语音控制应用程序的方法的流程示意图图；

图6为本申请实施例六所提供的语音控制应用程序的方法的流程示意图图；

图7为本申请实施例七所提供的语音控制应用程序的装置的结构示意图图；

图8为本申请实施例八所提供的语音控制应用程序的装置的结构示意图图；

图9为本申请计算机设备一个实施例的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

随着移动终端技术的不断发展，越来越多的应用程序从PC端迁移到移动端。例如，随着数字化办公趋势，对于销售人员而言，当其不在公司或者离开电脑时，通过使用移动客户关系管理***(Customer Relation Management，简称CRM)，即可实现方便快捷地开展销售工作、查看客户信息、业绩信息等等。或者，对于普通用户而言，可以随时随地使用各种应用程序。

由于移动端相较于PC端，具有屏幕小、打字慢、手指灵敏度低于鼠标等特点，因此对于移动端应用程序而言，操作体验的高低是一个非常主要的指标。例如，现有的应用程序，大多具有标识易懂、按键较大、控件的操作步骤便捷等优势，以此来提升用户的操作体验。

但是，对于移动端应用程序的操作而言，打字速度慢极大地影响用户的使用体验，为此，移动端应用程序普遍具有智能语音输入功能，通过将用户输入的语音转换为文本内容，以简化用户的操作步骤。

相关技术中，移动端应用程序仅具有智能语音输入功能，而未具有语音控制功能。当用户想要完成预设功能时，还需手动操作，操作步骤较为繁琐。例如，当用户想在移动CRM中快速查找客户A的联系信息时，用户需要首先选中“客户菜单”，切换到客户列表中，而后通过客户列表的筛选功能，筛选出所需的客户，最后再选中客户A，进入客户A的客户详情页面，获取客户A的联系信息。或者，当用户在办公类应用程序中创建或者打开预设表单时，用户需要手动点击相应的输入框，而后输入相应的内容，操作步骤极为繁琐。或者，当用户想要打开应用程序中的预设功能时，需要手动点击相应选项，操作不灵活。

本申请主要针对现有技术中移动端应用程序仅具有智能语音输入功能，而未具有语音控制功能。当用户想要完成预设功能时，还需手动操作，操作步骤较为繁琐的技术问题，提出一种语音控制应用程序的方法。

图1为本申请实施例一所提供的语音控制应用程序的方法的流程示意图图。

本申请实施例中的语音控制应用程序的方法可以由语音控制应用程序的装置实现，该语音控制应用程序的装置可以被配置于任何计算机设备或者移动设备中，以使该计算机设备或者移动设备执行语音控制应用程序的功能。移动设备可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作***、触摸屏和/或显示屏的硬件设备。

其中，应用程序是指可以运行在计算机设备或者移动设备上、为用户提供任意服务的软件程序，例如为办公类应用程序、导航类应用程序、支付类应用程序、搜索类应用程序、娱乐类应用程序、拍照类应用程序等等。

如图1所示，该语音控制应用程序的方法可以包括以下步骤：

步骤101，采集用户的语音信息。

本申请实施例中，应用程序的显示界面可以具有语音输入按键，用户可以通过触发该语音输入按键，输入语音信息，例如，用户可以通过长按语音输入按键，激活语音功能，而后输入语音信息。相应的，本申请实施例的语音控制应用程序的装置，可以通过侦听的方式，确定用户是否触发该语音输入按键，当确定用户触发该语音输入按键时，可以采集用户的语音信息。

作为一种可能的实现方式，为了便于用户一键输入语音信息，本申请中，可以在应用程序的显示界面设置有一个悬浮的语音输入按键，从而当用户在使用应用程序的过程中，无论当前处于哪一个页面，用户均可以通过触发该悬浮的语音输入按键，输入语音信息，提升用户操作的便捷性。进一步地，为了避免语音输入按键影响用户查看当前页面，该悬浮的语音输入按键可以透明化设置。

步骤102，对语音信息进行语音识别，获取语音信息对应的文本内容。

可选地，可以利用相关技术中的语音识别技术，对语音信息进行语音识别，获取语音信息对应的文本内容。例如，可以基于声道模型和语音知识的方法、模板匹配的方法、基于人工神经网络的方法等等，对语音信息进行语音识别，对此不作限制。

作为一种示例，可以提供人工智能(Artificial Intelligence，简称AI)开放平台语音识别应用程序接口(Application Program Interface，简称API)服务，用于对语音信息进行语音识别。在获取语音信息后，可以调用语音识别API接口服务，对语音信息进行语音识别，获取语音信息对应的文本内容。其中，语音信息的格式可以为PCM、WAV、ARM、SILK等，语音信息的采样率可以为16k或8k，采样位数可以为16bit，例如，待识别的语音信息的格式、参数等信息可以如表1所示。

规则	描述
		传输方式	HTTPS
请求方法	POST
		语音参数	符合16k或8k采样率、16bit采样位数、单声道
语音格式	PCM、WAV、ARM、SILK
		字符编码	统一采用UTF-8格式
响应格式	统一采用JSON格式

表1识别规则

步骤103，对文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与语音信息对应的结果集；结果集中包括：意图词语，以及成分词语。

本申请实施例中，预设的意图库和成分库为预先建立的。其中，意图库包括至少一个意图词语，成分库包括至少一个成分词语。可以理解的是，对于不同的应用程序，意图库可以不同。例如，对于办公类应用程序，比如移动CRM的应用程序而言，意图库可以包括客户、商机、业绩等等意图词语，对于其他应用程序而言，意图库可以包括打开、点击、关闭等等意图词语。同样地，对于不同的应用程序，成分库也可以不同，例如，对于移动CRM的应用程序而言，成分库可以包括客户简称、品牌名称、客户联系人员等等成分词语，对于其他应用程序而言，成分库可以包括菜单、预设按键等等成分词语。

作为一种可能的实现方式，对于每个应用程序而言，意图库可以根据相应的意图词语与意图编码预先建立，例如，对于移动CRM的应用程序而言，意图库可以如表2所示。

意图编码	意图词语
		0	未知
1	客户
		2	商机
3	业绩
		4	公告
5	待办
		6	资源

表2意图库

同样地，对于每个应用程序而言，成分库可以根据相应地成分词语与意图编码预先建立，例如，对于移动CRM的应用程序而言，意图库可以如表3所示。

表3成分库

本申请实施例中，可以基于分词算法，对文本内容进行分词，得到分词后的各个词语。例如，可以基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等等，对文本内容进行分词，对此不作限制。举例而言，当文本内容为“我要看客户联合利华的信息”时，对文本内容进行分词，得到的分词后的各个词语为：我要看客户联合利华的信息。

在得到分词后的各个词语后，可以根据分词得到的词语查询预设的意图库和成分库，确定与语音信息对应的结果集，其中，结果集中包括：意图词语，以及成分词语。

仍以上述例子示例，意图词语可以为“客户”，成分词语可以为“联合利华”，则结果集可以表示为：(意图：客户，成分：联合利华)。或者，当文本内容为“我要看客户，食品饮料类行业下的联合利华和金拱门”时，意图词语可以为“客户”，成分词语可以为“食品饮料类”、“联合利华”和“金拱门”，则结果集可以表示为：(意图：客户，成分：食品饮料类、联合利华、金拱门)、(意图：客户，成分：食品饮料类)、(意图：客户，成分：联合利华)、(意图：客户，成分：金拱门)、(意图：客户，成分：食品饮料类、联合利华)、(意图：客户，成分：食品饮料类、金拱门)、和/或、(意图：客户，成分：联合利华、金拱门)。

作为一种示例，假设用户当前使用的应用程序为社交类应用程序时，当文本内容为“打开我的收藏”时，意图词语可以为“打开”，成分词语可以为“我的收藏”，则结果集可以表示为：(意图：打开，成分：我的收藏)。

作为一种示例，可以提供AI开放平台语义解析API接口服务，用于对待分析文本进行解析。在确定待分析文本，即步骤102中的文本内容后，可以调用语义解析API接口服务，对文本内容进行解析，获取与语音信息对应的结果集。其中，请求参数可以如表4所示，相应参数可以如表5所示。

表4请求参数

参数名称	数据类型	描述
			ret	int	返回码；0表示成功，非0表示出错
msg	string	返回信息；ret非0表示出错时错误原因
			data	object	返回数据；ret为0时有意义
+text	string	API请求中的待分析文本
			+intent	int	意图编码
+com_tokens	array	成分列表
			++com_type	string	成分编码
++com_word	int	成分词语

表5响应参数

作为一种示例，当输入为：

则输出结果为：

需要说明的是，由于意图词语和成分词语之间没有关联关系，例如，比如移动CRM的应用程序而言，当成分词语为客户简称时，比如为联合利华、金拱门，此时，意图词语可以为客户、商机、业绩等等，如果根据分词得到的词语查询预设的意图库，仅获取得到成分词语，而未获取得到意图词语，此时，由于无法识别用户真正的意图，可以向用户发送第一提示信息，以提示用户输入意图词语，或者在意图词语列表中选择意图词语。

例如，当在应用程序的显示界面显示第一提示信息后，用户可以在显示界面的文本框中手动输入意图词语，或者，用户可以通过触发语音输入按键，语音输入意图词语，或者，显示界面还可以具有选择意图词语的下拉框，用户可以通过点击该下拉框，选择意图词语，或者，显示界面还可以具有意图词语列表，用户可以通过该意图词语列表，选择意图词语，对此不作限制。

同样地，如果根据分词得到的词语查询预设的意图库，仅获取得到意图词语，而未获取得到成分词语，比如文本内容为“我要看客户”，此时，仅能确定意图词语为客户，而无法确定用户具体想查看哪个客户的信息，或者文本内容为“我要看商机”，此时，仅能确定意图词语为商机，而无法确定用户具体想查看哪个客户的商机、哪个地点的商机、哪支股票的商机等等，因此，可以向用户发送第二提示信息，以提示用户输入成分词语。

可以理解的是，由于成分词语较多，此时，如果以列表形式或者下拉框的形式展示成分词语，用户将花费较多的时间选择需求的成分词语，效率较低，因此，用户可以直接语音输入成分词语或者手动输入成分词语。

步骤104，根据结果集，查询指令表，生成与语音信息对应的操作指令。

可以理解的是，每个应用程序均具有与自身关联的指令，例如，对于办公类应用程序，比如移动CRM的应用程序而言，与其关联的指令可以为：客户查看指令、商机查看指令、业绩查看指令等等，对于搜索类应用程序，比如浏览器而言，与其关联的指令可以为：链接打开指令、链接访问指令等等，并且，对于不同类型的应用程序，还可以具有通用的指令，例如为：预设按钮打开指令、预设选项打开指令、预设应用程序关闭指令、预设应用程序退出指令等等。因此，可以根据不同应用程序，预先建立该应用程序对应的指令表。

本申请实施例中，当确定结果集后，可以根据结果集，查询应用程序对应的指令表，确定指令表中是否存在与结果集对应的操作指令，当指令表中存在与结果集对应的操作指令时，可以将该结果集对应的操作指令，作为与语音信息对应的操作指令。而当指令表中未存在与结果集对应的操作指令时，则确定操作指令失效，可以在应用程序的显示界面，进行错误提示。

步骤105，执行操作指令，获取语音信息对应的应答信息。

本申请实施例中，在确定操作指令后，可以执行该操作指令，从而获取语音信息对应的应答信息。

本申请实施例中，根据用户输入的语音信息，即可实现控制应用程序，可以简化用户的操作步骤，例如，对于办公类应用程序，可以提升用户的工作效率。并且，可以丰富应用程序的控制方式，改善用户的使用体验。

为了清楚说明上一实施例，本实施例提供了另一种语音控制应用程序的方法，图2为本申请实施例四所提供的语音控制应用程序的方法的流程示意图。

如图2所示，在图1所示实施例的基础上，步骤104之后，该语音控制应用程序的方法还可以包括以下步骤：

步骤201，判断是否检测到用户对预设按键的按压操作。

本申请实施例中，预设按键具体可以指语音输入按键，具体地，可以通过侦听方式，判断是否检测到用户对预设按钮的按压操作。

步骤202，若检测到用户对预设按键的按压操作，则采集用户的语音信息。

具体地，当检测到用户对预设按钮的按压操作时，此时，用户激活了语音功能，因此，可以采集用户的语音信息。而当未检测到用户对预设按钮的按压操作时，此时，用户并未激活语音功能，因此，可以不做任何处理。

步骤203，对语音信息进行语音识别，获取语音信息对应的文本内容。

步骤203的执行过程可以参见上述实施例中步骤102的执行过程，在此不做赘述。

步骤204，根据分词得到的词语，查询意图库，确定是否获取到文本内容中的意图词语，若是，执行步骤206，若否，执行步骤205。

步骤205，向用户发送第一提示信息，提示用户输入意图词语，或者在意图词语列表中选择意图词语。

举例而言，当分词得到的词语为“我要看联合利华的信息”时，文本内容中并未包含意图词语，此时，无法确定用户想看联合利华的商机，还是还看联合利华的业绩，或者看联合利华的联系方式等等，即无法识别用户真正的意图，因此，可以向用户发送第一提示信息，提示用户输入意图词语，或者在意图词语列表中选择意图词语。

步骤206，根据分词得到的词语，查询成分库，确定是否获取到文本内容中的成分词语，若是，执行步骤208，若否，执行步骤207。

步骤207，向用户发送第二提示信息，提示用户输入成分词语。

举例而言，当分词得到的词语为“我要看商机”时，文本内容中并未包含成分词语，此时，仅能确定意图词语为商机，而无法确定用户具体想查看哪个客户的商机、哪个地点的商机、哪支股票的商机等等，因此，可以向用户发送第二提示信息，以提示用户输入成分词语。

需要说明的是，本申请实施例仅以先判断文本内容中是否具有意图词语，后判断是否具有成分词语示例，实际应用时，还可以先判断是否具有成分词语，后判断是否具有意图词语，或者，还可以同时判断是否具有成分词语和意图词语，当均未具有成分词语和意图词语时，可以同时向用户发送第一提示信息和第二提示信息，对此不作限制。

步骤208，根据意图词语和成分词语，生成与语音信息对应的结果集。

可以理解的是，文本内容中的意图词语的个数可以为至少一个，同样地，成分词语的个数也可以为至少一个。当意图词语为一个时，可以直接将意图词语和成分词语，组合得到一个结果集。而当意图词语大于一个时，可以根据意图词语与成分词语之间的位置关系，确定结果集。一般而言，距离成分词语较近的意图词语，为该意图词语对应的成分词语，因此，可以将距离成分词语较近的意图词语，与成分词语进行组合，得到结果集。

步骤209，根据结果集中的意图词语，查询指令表，获取与意图词语对应的操作指令。

本申请实施例中，可以根据结果集中的意图词语，查询指令表，获取与意图词语对应的操作指令，例如，当文本内容为“我要看客户联合利华的信息”时，意图：客户，成分：联合利华，则操作指令可以为客户查看指令，或者，当文本内容为“我要看地点A的商机”，意图：商机，成分：地点A，则操作指令可以为商机查看指令。

步骤210，将结果集中的至少一个成分词语携带在操作指令中。

本申请实施例中，操作指令是根据意图词语查询得到的，操作指令是对意图词语执行某些操作的，例如，若意图词语为客户，则意图词语对应的操作指令就是用来查询客户列表，获取某些客户信息的，可知，操作指令本身已经包含了意图词语的意图，所以操作指令中只需要携带成分词语，以确定具体查询的是哪些客户的信息。具体地，可以将结果集中的至少一个成分词语携带在操作指令中，从而在执行操作指令时，可以通过指令处理接口得到相应的服务接口，将成分词语作为参数传入，进行服务接口的调用。

需要说明的是，操作指令的个数可以为至少一个，当操作指令的个数为多个时，可以选择权重最高的操作指令，从而可以保证每次仅执行一个操作指令。

步骤211，执行操作指令，获取语音信息对应的应答信息。

作为一种示例，指令表可以如表6所示，该指令表中可以具有命令ID、命令名称、每个命令对应的权重、对应用户权限、指令处理接口等信息。

表6指令表

作为一种可能的实现方式，为了避免未具有权限的非法用户使用应用程序，以及避免用户的隐私泄露，本申请中，在执行操作指令之前，还可以确定当前用户是否具有相应的执行操作指令权限，只有当用户具有执行操作指令的权限时，才执行操作指令。下面结合图3，对上述过程进行详细说明。

图3本申请实施例三所提供的语音控制应用程序的方法的流程示意图。

如图3所示，在图1或图2所示实施例的基础上，步骤105或者步骤209具体可以包括以下子步骤：

步骤301，获取用户的权限。

可选地，用户在使用应用程序时，可以设置相应的权限，或者，用户在使用应用程序的预设功能时，可以设置相应的权限，在设置完成后，计算机设备或者移动设备中可以记录有用户的权限信息，本申请中，可以从计算机设备或者移动设备存储的信息中，获取用户的权限。

步骤302，根据用户的权限，判断用户是否有执行操作指令的权限。

具体地，根据用户的权限，确定该用户具有使用应用程序的权限时，或者，确定该用户具有使用应用程序中的预设功能时，可以确定该用户具有执行操作指令的权限，当用户具有执行操作指令的权限时，可以执行步骤303，而当用户未具有执行操作指令的权限时，此时，为了避免未具有权限的非法用户使用应用程序，保障用户的隐私安全，或者，对于支付类应用程序，为了保障用户的财产安全，可以不执行操作指令，在应用程序的显示界面，进行相关提示，例如为“您的权限不足”。

步骤303，若用户有执行操作指令的权限，则执行操作指令。

可选地，可以通过指令处理接口得到相应的服务接口，将成分词语作为参数传入，进行服务接口的调用。

作为一种示例，对于移动CRM的应用程序而言，通过在API服务接口拼装统一资源定位符(Uniform Resource Locator，简称URL)，例如，客户查看指令为客户列表的路由，商机查看指令为商机列表的路由，而后将成分词语作为查询条件，通过get参数的方式，拼接在URL的尾部。在执行操作指令时，可以调用相应服务接口，得到的为相应的URL，则切换路由，得到的为相应的控件ID，则异步运行JavaScript(JS)选中该控件。

作为另一种示例，当操作指令为处理选中控件命令时，其中，控件可以为文本框、菜单等控件，假设控件为文本框，当用户对文本框进行选中后，可以将文本框至于输入状态，从而在下次接收到语音信息，并解析得到文本内容时，可以直接将文本内容输入至文本框，具体的执行过程可以参见图4。

例如，当控件为文本框时，可以将成分词语通过如表7所示的控件查询表，查找到相应的页面控件ID，而后用过JS回调函数触发该控件的选中事件，即可实现文本框的选中效果，而后可以将文本内容输入至文本框。由此，用户无需手动点击相应的文本框，即可输入相应的内容，可以简化用户的操作步骤，改善用户的使用体验。

字段	描述	备注
			WidgetID	页面控件ID
WidgetName	页面控件名称
			Page	当前页面路由	默认值为空，可以指定值

表7控件查询表

作为一种可能的实现方式，当用户输入语音时，用户的意图可能并不是控制应用程序执行预设功能，例如，当用户选中某个文本框时，用户的意图可能为文字输入，而非指令输入，因此，参见图4，在图1所示实施例的基础上，在步骤103之前，该语音控制应用程序的方法还可以包括以下步骤：

步骤401，判断是否存在处于输入状态的文本框。

本申请实施例中，可以判断是否存在属于输入状态的文本框，例如，可以基于焦点跟随技术，确定是否存在处于输入状态的文本框，具体地，根据焦点跟随技术，可以自动跟随指针焦点，当指针焦点位于文本框内，可以确定文本框属于输入状态，此时，可以执行步骤402，而当指针焦点未位于文本框内，确定文本框未属于输入状态，则表明用户此刻并非想要输入文字信息，而为指令输入，因此，可以执行步骤103。

步骤402，若存在处于输入状态的文本框，则将文本内容输入文本框。

本申请实施例中，在存在处于输入状态的文本框时，表明用户的意图可能为文字输入，因此，可以将文本内容输入至文本框，由此，可以正确识别用户意图。

作为一种可能的实现方式，上述实施例中的结果集的数量可以为多个，此时，根据各个意图词语，查询指令表，获取的与各个意图词语对应的操作指令的个数同样可以为多个。为了保证一次只执行一个操作指令，可以从各个意图词语对应的操作指令中，选择对应的权重最高的第一操作指令。下面结合图5，对上述过程进行详细说明。

图5为本申请实施例五所提供的语音控制应用程序的方法的流程示意图。

如图5所示，当结果集的数量为多个时，参见图1，步骤104具体可以包括以下子步骤：

步骤501，当结果集的数量大于1时，根据各个意图词语，查询指令表，获取与各个意图词语对应的操作指令。

本申请实施例中，当结果集的数量大于1时，此时，具有多个意图词语，可以根据各个意图词语，查询应用程序对应的指令表，获取与各个意图词语对应的操作指令。

步骤502，从各个意图词语对应的操作指令中，选择对应的权重最高的第一操作指令。

本申请实施例中，每个指令可以预先设置对应的权重，例如，可以根据应用程序客户端用户的相关信息，确定用户对客户端中应用程序的操作信息，从而可以根据操作信息，确定每个指令相应的权重，比如，根据应用程序客户端用户的相关信息，确定多数用户普遍使用客户查看指令，其次为商机查看指令，则客户查看指令的权重可以大于商机查看指令。

具体地，在确定各个意图词语对应的操作指令后，可以将权重最高的操作指令作为第一操作指令，从而可以保证一次仅执行一条操作指令，并且，选择权重最高的操作指令，可以满足多数用户的实际需求。

步骤503，获取第一操作指令对应的第一意图词语。

本申请实施例中，在确定第一操作指令后，可以确定该第一操作指令对应的意图词语。

步骤504，将包括第一意图词语的结果集中的至少一个成分词语携带在第一操作指令中。

本申请实施例中，在确定第一意图词语后，可以查询结果集，获取与该第一意图词语对应的至少一个成分词语，而后可以将至少一个成分词语携带在第一操作指令中。从而在执行第一操作指令时，可以通过指令处理接口得到相应的服务接口，将成分词语作为参数传入，进行服务接口的调用。

作为一种应用场景，参见图6，图6为本申请实施例六所提供的语音控制应用程序的方法的流程示意图。图6以用户使用手机中的应用程序示例。

当用户长按语音按键时，可以通过手机话筒输入语音信息，而后可以对语音信息进行识别，获取对应的文本内容，而后可以确定当前文本框的选中状态，若当前文本框被选中，则将文本内容输入至文本框内，若当前文本框未被选中，则对文本内容进行语义解析以及指令解析。

判断当前用户是否具有权限，以及确定是否具有合法指令，若用户未具有权限和/或未具有合法指令，则在应用程序界面展示错误提示，若用户具有权限且具有合法指令，则执行指令，并在页面展示。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图7为本申请实施例七所提供的语音控制应用程序的装置的结构示意图。

如图7所示，该语音控制应用程序的装置100，用于实现本申请图1至图6任一实施例提供的语音控制应用程序的方法，上述语音控制应用程序的装置100可以包括：采集模块110、识别模块120、确定模块130、生成模块140，以及执行模块150。

其中，

采集模块110，用于采集用户的语音信息。

识别模块120，用于对语音信息进行语音识别，获取语音信息对应的文本内容。

确定模块130，用于对文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与语音信息对应的结果集；结果集中包括：意图词语，以及成分词语。

生成模块140，用于根据结果集，查询指令表，生成与语音信息对应的操作指令。

执行模块150，用于执行操作指令。

作为一种可能的实现方式，意图库中包括：至少一个意图词语；成分库中包括：至少一个成分类型，以及成分类型对应的成分词语。

确定模块130具体用于，

根据分词得到的词语，查询意图库，获取文本内容中的意图词语；

根据分词得到的词语，查询成分库，获取文本内容中的成分词语；

根据意图词语和成分词语，生成与语音信息对应的结果集。

作为另一种可能的实现方式，确定模块130具体还用于，

若根据分词得到的词语，未获取到文本内容中的意图词语，则向用户发送第一提示信息，提示用户输入意图词语，或者在意图词语列表中选择意图词语；

若根据分词得到的词语，未获取到文本内容中的成分词语，则向用户发送第二提示信息，提示用户输入成分词语。

作为一种可能的实现方式，生成模块140具体用于，

根据结果集中的意图词语，查询指令表，获取与意图词语对应的操作指令；

将结果集中的至少一个成分词语携带在操作指令中。

进一步地，在本申请实施例的一种可能的实现方式中，参见图8，在图7所示实施例的基础上，该语音控制应用程序的装置100还可以包括：

获取模块160，用于获取结果集的数量；

对应的，生成模块140具体用于，

当结果集的数量大于1时，根据各个意图词语，查询指令表，获取与各个意图词语对应的操作指令；

获取第一操作指令对应的第一意图词语；

将包括第一意图词语的结果集中的至少一个成分词语携带在第一操作指令中。

作为一种可能的实现方式，执行模块150具体用于，

获取用户的权限；

根据用户的权限，判断用户是否有执行操作指令的权限；

若用户有执行操作指令的权限，则执行操作指令。

判断模块170，用于在对文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与语音信息对应的结果集之前，判断是否存在处于输入状态的文本框。

输入模块180，用于在存在处于输入状态的文本框时，将文本内容输入文本框。

需要说明的是，前述对登录校验方法实施例的解释说明也适用于该实施例的语音控制应用程序的装置100，此处不再赘述。

图9为本申请计算机设备一个实施例的结构示意图，本实施例中的计算机设备可以实现语音控制应用程序的功能，上述计算机设备可以包括：一个或多个处理器；存储器，用于存储一个或多个程序；当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器采集用户的语音信息；对语音信息进行语音识别，获取语音信息对应的文本内容；对文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与语音信息对应的结果集；结果集中包括：意图词语，以及至少一个成分词语；根据结果集，查询指令表，生成与语音信息对应的操作指令；执行操作指令。

图9示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图9显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

本实施例还提供一种非临时性计算机可读存储介质，当上述存储介质中的计算机可执行指令在由计算机处理器执行时，用于执行本申请图1至图6任一实施例提供的语音控制应用程序的方法。

本实施例还提供一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，实现本申请图1至图6任一实施例提供的语音控制应用程序的方法。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field ProgrammableGate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音控制应用程序的方法，其特征在于，包括：

采集用户的语音信息；

执行所述操作指令，获取所述语音信息对应的应答信息。

2.根据权利要求1所述的方法，其特征在于，所述意图库中包括：至少一个意图词语；所述成分库中包括：至少一个成分类型，以及所述成分类型对应的成分词语；

3.根据权利要求2所述的方法，其特征在于，根据分词得到的词语查询预设的意图库和成分库，确定与所述语音信息对应的结果集，还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述结果集，查询指令表，生成与语音信息对应的操作指令，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述结果集，查询指令表，生成与语音信息对应的操作指令之前，还包括：

获取所述结果集的数量；

获取所述第一操作指令对应的第一意图词语；

6.根据权利要求1所述的方法，其特征在于，所述执行所述操作指令，包括：

获取所述用户的权限；

7.根据权利要求1所述的方法，其特征在于，所述对所述文本内容进行分词，根据分词得到的词语查询预设的意图库和成分库，确定与所述语音信息对应的结果集之前，还包括：

判断是否存在处于输入状态的文本框；

8.一种语音控制应用程序的装置，其特征在于，包括：

采集模块，用于采集用户的语音信息；

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1-7中任一所述的语音控制应用程序的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的语音控制应用程序的方法。