CN110706699A

CN110706699A - 一种采用语音识别方式实现交互任务的方法及***

Info

Publication number: CN110706699A
Application number: CN201910921533.6A
Authority: CN
Inventors: 魏涛; 胡泊; 吴秀娟
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-17

Abstract

本发明公开了一种采用语音识别方式实现交互任务的方法及***，本发明实施例终端基于当前环境下对语音识别，得到文本及语义信息，基于得到的文本及语义信息，确定对应的上下文信息，基于上下文信息划分场景，对每个场景生成语言技能推荐表；当要实现交互任务时，则直接获取得到当前环境信息确定上下文信息，根据所确定的上下文信息查询到语言技能推荐表，根据语言技能推荐表执行终端的交互任务。因此，本发明实施例简便且准确地采用语音识别方式实现交互任务。

Description

一种采用语音识别方式实现交互任务的方法及***

技术领域

本发明涉及计算机技术领域，特别涉及一种采用语音识别方式实现交互任务的方法及***。

背景技术

目前，终端能够提供各种类型的应用服务。终端在提供应用服务时，可以为用户提供语音识别助手软件，用户通过语音与终端之间进行交互，终端通过该语音识别助手软件识别语音后，提供对应的应用服务。终端识别语音的功能可以有三种方式：交互任务型、知识问答型及闲聊型。其中，交互任务型语音识别方式使得用户可以通过直接的语音输入，由终端识别该语音，完成与终端的应用服务之间的交互意图，而无需多次终端的多次语音识别界面的操作。

但是，终端提供的交互任务型语音识别方式对用户来说，使用率并不高，这是因为用户在通过语音操控终端的应用服务时，存在以下缺点：1)公众场合不适合使用语音，有隐私问题；2)终端处于嘈杂的远程环境下，语音识别的效果不佳；3)因为用户发音不准确，形同意思的表述方式多样等因素，语音识别和语音理解的准确率尚需提高；4)有些用户不习惯使用终端提供的语音识别界面。

因此，终端如何简便且准确地采用语音识别方式实现交互任务成为了一个亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供一种采用语音识别方式实现交互任务的方法，该方法能够简便且准确地采用语音识别方式实现交互任务。

本发明实施例还提供一种采用语音识别方式实现交互任务的***，该***能够简便且准确地采用语音识别方式实现交互任务。

本发明实施例是这样实现的：

一种采用语音识别方式实现交互任务的方法，包括：

终端基于当前环境下对语音识别，得到文本及语义信息，基于得到的文本及语义信息，确定对应的上下文信息，基于上下文信息划分场景，对每个场景生成语言技能推荐表；

当要实现交互任务时，获取得到当前环境信息确定上下文信息，根据所确定的上下文信息查询到所属场景的语言技能推荐表，根据所属场景的语言技能推荐表执行终端的交互任务。

所述基于上下文信息划分场景，对每个场景生成语言技能推荐表是采用机器学习方法确定的。

所述语言技能推荐表中包括多个语言技能信息，所述多个语言技能信息根据使用率进行排序的。

在执行终端的交互任务之前，还包括：

从所述语言技能推荐表中选择一个语言技能信息，根据所选择的语言技能信息执行终端的交互任务。

所述查询到所属场景的语言技能推荐表还包括：以菜单项加下拉列表的方式呈现所属场景的语言技能推荐表。

一种采用语音识别方式实现交互任务的***，包括：语音助手插件模块、上下文感知模块、语言输入信息采集模块、语言技能生成模块、语言技能推荐模块及语言技能展示模块，其中，

语音助手插件模块，用于获取语音信息进行语音识别；

上下文感知模块，用于获取当前环境信息；

语言输入信息采集模块，用于基于当前环境下对语音识别，得到文本及语义信息；

语言技能生成模块，用于基于得到的文本及语义信息，确定对应的上下文信息，生成语言技能信息；

语言技能推荐模块，用于根据上下文信息划分场景，对每个场景生成语言技能推荐表，包括语言技能信息；

语言技能展示模块，用于调用上下文感知模块得到当前环境信息后，确定上下文信息，根据所确定的上下文信息确定对应的场景，根据所确定的场景通过语言技能推荐模块调用对应的语言技能推荐表，根据对应的语言技能推荐表实现终端的交互任务及展示。

所述环境信息为：当前用户、时间、地点、界面或/和物联网IOT设备。

所述语言技能展示模块，还用于展示对应的语言技能推荐表为：以菜单项加下拉列表的方式呈现所属场景的语言技能推荐表。

如上所见，本发明实施例终端基于当前环境下对语音识别，得到文本及语义信息，基于得到的文本及语义信息，确定对应的上下文信息，基于上下文信息划分场景，对每个场景生成语言技能推荐表；当要实现交互任务时，则直接获取得到当前环境信息确定上下文信息，根据所确定的上下文信息查询到语言技能推荐表，根据语言技能推荐表执行终端的交互任务。这样，由于在通过语音执行终端的交互任务时，通过分析用户执行交互任务的历史及当前的使用习惯，进行个性化的上下文感知的语言技能推荐，从而较好的预测并命中用户的意图，本发明实施例在实现交互任务时，无需发出语音，仅通过用户少量选择操作就可以完成复杂的交互任务，因此简便且准确地采用语音识别方式实现交互任务。

附图说明

图1为本发明实施例提供的采用语音识别方式实现交互任务的方法流程图；

图2为本发明实施例提供的采用语音识别方式实现交互任务的方法例子流程图；

图3为本发明实施例提供的采用语音识别方式实现交互任务的***结构示意图；

图4为本发明实施例提供的在手机展示语言技能推荐表的展示图；

图5为本发明实施例提供的在电视上展示语言技能推荐表的展示图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

本发明实施例终端基于当前环境下对语音识别，得到文本及语义信息，基于得到的文本及语义信息，确定对应的上下文信息，基于上下文信息划分场景，对每个场景生成语言技能推荐表；当要实现交互任务时，则直接获取得到当前环境信息确定上下文信息，根据所确定的上下文信息查询到语言技能推荐表，根据语言技能推荐表执行终端的交互任务。

这样，由于在通过语音执行终端的交互任务时，通过分析用户执行交互任务的历史及当前的使用习惯，进行个性化的上下文感知的语言技能推荐，从而较好的预测并命中用户的意图，本发明实施例在实现交互任务时，无需发出语音，仅通过用户少量选择操作就可以完成复杂的交互任务，因此简便且准确地采用语音识别方式实现交互任务。

图1为本发明实施例提供的采用语音识别方式实现交互任务的方法流程图，其具体步骤为：

步骤101、终端基于当前环境下对语音识别，得到文本及语义信息，基于得到的文本及语义信息，确定对应的上下文信息，基于上下文信息划分场景，对每个场景生成语言技能推荐表；

步骤102、当要实现交互任务时，则获取得到当前环境信息确定上下文信息，根据所确定的上下文信息查询到所属场景的语言技能推荐表，根据所属场景的语言技能推荐表执行终端的交互任务。

在该方法中，所述基于上下文信息划分场景，对每个场景生成语言技能推荐表是采用机器学习方法确定的。

在该方法中，所述语言技能推荐表中包括多个语言技能信息，所述多个语言技能信息根据使用率进行排序的。

在该方法中，在执行终端的交互任务之前，还包括：

在该方法中，所述查询到所属场景的语言技能推荐表还包括：以菜单项加下拉列表的方式呈现所属场景的语言技能推荐表。

在该方法中，主要包括两个关键流程，一个是语言技能推荐表的生成过程；另一个是语言技能推荐表的展示过程。下面结合图2说明这两个关键流程的实施过程。图2为本发明实施例提供的采用语音识别方式实现交互任务的方法例子流程图。

第一个关键流程：语言技能推荐表的生成过程，结合图中的箭头1-5说明：

1、用户唤醒语音助手插件模块时，语音助手插件模块被触发，该模块通知语言输入信息采集模块启动信息采集；

2～3、语言输入信息采集模块通过上下文感知模块获取到当前的环境信息，再向语音助手插件模块发送请求，来获取语音助手插件模块从用户语音识别得到的文本，以及做自然语言理解后的语义信息；

4、语言输入信息采集模块将采集到的文本、语义信息及所述当前的环境信息传输给语言技能生成模块，据此生成或更新语言技能库，并通知语言技能推荐模块；

5、语言技能推荐模块在特定情况下(诸如语音技能库由更新或***空闲等)启动，将大量不同的上下文划分到若干类场景中，对每个场景生成相应的语言技能推荐表。

第二个关键流程：语言技能推荐表的展示过程，结合图中的箭头A～D说明：

A、用户唤醒语音助手插件模块时，语音助手插件模块被触发，该模块通知语言技能展示模块；

B～C、语言技能展示模块通过上下文感知模块获取到当前的环境信息，再以该上下文信息调用语言技能推荐模块，获取当前的环境信息所属的场景类型的语言技能推荐表，再通过图形界面展示推荐表；

D、当用户选择某项推荐的语言技能时，语言技能展示模块发送该技能的文本给语音助手插件模块，语音助手插件模块将该文本当成用户语音输入识别结果发送给语音助手插件模块来执行交互任务。

图3为本发明实施例提供的采用语音识别方式实现交互任务的***结构示意图，包括：语音助手插件模块、上下文感知模块、语言输入信息采集模块、语言技能生成模块、语言技能推荐模块及语言技能展示模块，其中，

语音助手插件模块，用于获取语音信息进行语音识别；

上下文感知模块，用于获取当前环境信息；

在该***中，所述环境信息为：当前用户、时间、地点、界面或/和物联网IOT设备。

在该***中，所述基于上下文信息划分场景，对每个场景生成语言技能推荐表是采用机器学习方法确定的。

在该***中，所述语言技能推荐表中包括多个语言技能信息，所述多个语言技能信息根据使用率进行排序的。

在该***中，所述语言技能展示模块，还用于展示对应的语言技能推荐表为：以菜单项加下拉列表的方式呈现所属场景的语言技能推荐表。

本发明实施例在手机展示语言技能推荐表的展示图如图4所示，在电视上展示语言技能推荐表的展示图如图5所示。在该实施例中，语音助手插件模块为Bixby。

如图5所示，每次调用Bixby，都会显示出语言技能推荐表，场景不同，该语言技能推荐表中的推荐技能不同。举个例子来讲，经过学习，如果用户打开了电视机，并且唤醒Bixby，则会执行一系列动作。具体过程如下。

1)语音助手插件模块通过和用户交互，实现4方面功能。

a)当该模块被用户唤醒时，触发语言输入信息的采集工作；

b)获取得到语音识别后的文本，以及自然语言理解后的语义信息，包括意图或槽等结构化信息；

c)当语音助手插件模块被用户唤醒时，触发语言技能推荐表的展示；

d)当用户选择某条推荐的语言技能时，将该语言技能推荐表中的文本用作用户语音输入识别的结果，发送给该模块。

2)上下文感知模块调用终端的应用程序编程接口(API)，来获取设备的环境信息，如当前的IOT、用户角色、时间、地点、当前的应用和当前要执行的交互任务等。

3)语言输入信息采集模块通过调用上下文告知模块获取当前的环境信息，通过调用语音助手插件模块获取当前语音输入的文本和语义信息，该模块根据当前语言输入的意图，判断是否为当前场景下的有效的交互任务。如果是当前场景下的有效的交互任务，则以采集到的语言输入信息调用语言技能生成模块。如果不是当前场景下的有效的交互任务，则直接退出。该模块并不会保存历史语言输入信息，预先输入信息的格式和示例如表1所示。为了方便后面将不同的上下文做聚类，需对上下文新的各特征值做离散化处理，如将每条的时间以2小时为单位划分。

表14)语言技能生成模块分析语言输入信息，生成并维护语言技能库，包括语言技能推荐表和上下文表。

语言技能推荐包和示例如表2所示：

表2

上下文表的格式和示例如表3所示：

表3

当获得新的语言输入信息时，语言技能生成模块根据其语义信息，在语言技能推荐表中查询相应的语言技能的标识。如果该语言技能存在，则返回其NL Skill Id；如果不存在，即根据当前的语言输入信息来新建一条语言技能记录，并返回其NL Skill Id。然后，再根据当前语言输入的上下文信息，在上下文表中查找。如果不存在相同的上下文，则建立一条上下文记录，并在其NL Skill Id History字段末尾增加之前查询得到的NL SkillId。以上对表的检索操作，可以通过建立哈希索引等方法来加速。

5)语言技能推荐模块在设置的语言技能库中有更新而***空闲时，重新产生语言技能推荐列表。首先采用机器学习方法，根据床用语言技能的不同，将大量不同的上下文聚为有代表性的若干场景。再针对每一类场景，将候选的语言技能按照使用率高低排序，生成相应的推荐列表。特别地，该模块保存有一个雀舌的设备常用语言技能表，该表可以是交互专家人工编辑的，也可以是从语音助手插件模块中获取的大数据统计结果。

A)用户在不同场景下(如非周末的上班时段，晚上看视频时，外地出差时，上下班交通时段，电视用户为小孩时等)，常用的语言技能是不同的。则将上下文按照使用语言技能的不同做聚类，可以自动挖掘出场景和用户的使用习惯。首先将每个上下文，根据其语言技能使用率来做向量化表示。架设有200个语言技能，则将一个上下文信息标识为200维度的向量。向量i个维度的值表示的是在该上下文信息中，NL Skill Id为i的语言技能的使用率。具体使用率的计算方法，会考虑该语言技能使用的频率和时间衰减因素，久未使用的语言技能，其权重值会降低。然后对所有不同的上下文做聚类，将语言技能使用率相似的上下文归为一类。语言技能相似度可有多种计算方法，一种方法是用向量间夹角的余弦值来度量。场景表的格式和示例如表4所示。

Context Id(含义见上下文表)	Scenario Id
		1	1(如非周末的上班时段)
2	1
		3	2(如晚上看视频时)
4	3(如外地出差时)
		5	4(如有IOT设备在线时)

表4b)为了能将未见过的上下文信息(没有语言技能使用的历史信息)也划分为某类场景，使用场景表的对应关系作为标注，根据各个上下文的特征值，用决策树之类的分类算法训练一个上下文的分类模型。

c)针对每一类场景，生成相应的语言技能推荐列表，并按用户点使用率高低排序。具体某类场景的语言技能的使用率，可以有多种计算方法。一种方式是，可将该类场景下所有的上下文信息的语言技能使用率的向量做累加。语言技能推荐表的格式和示例如表5所示。

表56)语言技能展示模块根据语音助手插件模块被唤醒时识别的上下文信息，调用推荐模块的上下文分类模型找到其对应的场景类型，再获取该场景的语言技能推荐表来进行展示。语言技能推荐表的展示界面集成了语音助手插件模块的界面中，当语音助手插件模块被唤醒时，以半透明方式呈现。根据实际设备的图形界面，设计相应的视觉风格和样式，以方便用户选择。如果用户选择了推荐的某项语言技能，通过语音助手插件模块的调用实现交互任务。如果用户选择直接使用语音输入，则like隐藏语言技能推荐表，由语音助手插件模块全权处理。如果某场景下推荐项较多，为提高易用性，可选择将Intent相同，而Slot值不同的语言技能，合成为一个菜单项做呈现。默认文本是使用率最高的那个语言技能，通过点击该项旁边的下拉列表，可选择Slot为其他值时的语言技能。详见图3中点击Change Contact后的做列表展开。如果某场景下推荐项很少，则用缺省的设备常用语言技能来补充。

可以看出，本发明实施例有机的结合了语音输入和图形界面输入的优点，进行个性化的上下文感知的语言技能推荐。根据用户个人的语言交互历史，采用机器学习的方法将不同上下文聚类为场景，并针对每个场景，生成相应的语言技能推荐表，并可动态学习用户的使用习惯并适应用户习惯的改变，可以无缝的嵌入语音助手插件模块的应用场景中，提升终端的交互界面的易用性，友好性和隐私性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种采用语音识别方式实现交互任务的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述基于上下文信息划分场景，对每个场景生成语言技能推荐表是采用机器学习方法确定的。

3.如权利要求1所述的方法，其特征在于，所述语言技能推荐表中包括多个语言技能信息，所述多个语言技能信息根据使用率进行排序的。

4.如权利要求4所述的方法，其特征在于，在执行终端的交互任务之前，还包括：

5.如权利要求1所述的方法，其特征在于，所述查询到所属场景的语言技能推荐表还包括：以菜单项加下拉列表的方式呈现所属场景的语言技能推荐表。

6.一种采用语音识别方式实现交互任务的***，其特征在于，包括：语音助手插件模块、上下文感知模块、语言输入信息采集模块、语言技能生成模块、语言技能推荐模块及语言技能展示模块，其中，

语音助手插件模块，用于获取语音信息进行语音识别；

上下文感知模块，用于获取当前环境信息；

7.如权利要求6所述的***，其特征在于，所述环境信息为：当前用户、时间、地点、界面或/和物联网IOT设备。

8.如权利要求6所述的***，其特征在于，所述基于上下文信息划分场景，对每个场景生成语言技能推荐表是采用机器学习方法确定的。

9.如权利要求6所述的***，其特征在于，所述语言技能推荐表中包括多个语言技能信息，所述多个语言技能信息根据使用率进行排序的。

10.如权利要求6所述的***，其特征在于，所述语言技能展示模块，还用于展示对应的语言技能推荐表为：以菜单项加下拉列表的方式呈现所属场景的语言技能推荐表。