CN112579031A

CN112579031A - 一种语音交互的方法、***和电子设备

Info

Publication number: CN112579031A
Application number: CN201910922511.1A
Authority: CN
Inventors: 杜国威
Original assignee: Beijing Anyun Century Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2021-03-30

Abstract

本发明公开了一种语音交互方法，应用于智能中控设备，包括：接收用户输入的语音信息；根据语音信息，获得目标意图槽组和辅助意图槽组；其中，目标意图槽组中包括M个目标意图槽位，辅助意图槽组中包括N个辅助意图槽位；目标意图槽组用于表征用户实际意图；辅助意图槽组用于表征用户辅助意图；获取M个目标意图槽位的目标信息和N个辅助意图槽位的辅助信息；根据目标信息进行语音播报，根据辅助信息进行屏幕显示。通过对目标意图槽位和辅助意图槽位的分组，将原先统一进行TTS播报的信息进行了区分，精简了TTS语音播报的信息，使其更能贴合用户的意图，提高了用户对目标信息的获取效率。

Description

一种语音交互的方法、***和电子设备

技术领域

本申请涉及智能家居领域，尤其涉及一种智能语音交互的方法、***和电子设备。

背景技术

随着计算机技术及人工智能领域的迅速发展，人机对话在各种智能家居上的应用愈加广泛，相关的产品层出不穷，如智能语音助手Siri，微软小冰，亚马逊智能音响echo等。完整的语音交互***包括语音识别，自然语言理解，对话管理，自然语言生成和信息输出等模块。目前上市的语音交互产品，在自然语言理解(NLU)方面已经有了一定的积累，能够良好的理解用户提问的意图，为用户提供相关的信息服务，例如：播放视频/音频，查询信息，完成订单等。但现有产品的存在同一个问题，即在识别到用户意图查询到相关信息之后，直接将全部的相关信息进行语音播报，如果相关信息内容较少还好，若相关信息内容量较大时，用户需要在一大堆语音信息中分辨出真正需要的关键信息点，如果用户此时正在处理其他的事情，还有可能导致用户错失真正关注的信息，需要重新对智能语音产品进行提问。因此，造成了信息传达的低效率，降低了人机语音交互的效率。因此，本发明从现有产品的这一问题出发，提出了一种能够在语音交互过程中，为用户提供更精准的信息应答的方法、***和电子设备。

发明内容

本发明提供了一种语音交互方法，以解决或者部分解决现有的语音交互***播报的语音信息较为冗长、繁杂，用户获取信息效率不高的技术问题。

为解决上述技术问题，本发明提供了一种语音交互方法，应用于智能中控设备，包括：

接收用户输入的语音信息；

根据语音信息，获得目标意图槽组和辅助意图槽组；其中，目标意图槽组中包括M个目标意图槽位，辅助意图槽组中包括N个辅助意图槽位，N，M大于等于1且为正整数；目标意图槽组用于表征用户实际意图；辅助意图槽组用于表征用户辅助意图；

获取M个目标意图槽位的目标信息和N个辅助意图槽位的辅助信息；

根据目标信息进行语音播报，根据辅助信息进行屏幕显示。

可选的，根据语音信息，获得目标意图槽组和辅助意图槽组，包括：

将语音信息转化为文本信息；

将文本信息输入预设神经网络模型，获得目标意图槽组和辅助意图槽组。

进一步的，将文本信息输入预设神经网络模型，获得目标意图槽组和辅助意图槽组，包括：

根据文本信息，确认用户意图；用户意图包含用户目标意图和用户辅助意图；

根据用户意图，获取用户意图的Q个意图槽位；其中，Q个意图槽位具有各自的重要程度值，Q＝M+N；

按照重要程度值大小，将Q个意图槽位划分为目标意图槽组和辅助意图槽组；其中，M个目标意图槽位中每个目标意图槽位的重要程度值大于N个辅助意图槽位中每个目标意图槽位的重要程度值。

进一步的，在按照重要程度值大小，将Q个意图槽位划分为目标意图槽组和辅助意图槽组之后，包括：

按照重要程度值的降序顺序，对M个目标意图槽位进行排序；

根据目标信息进行语音播报，包括：

根据M个目标意图槽位的排序顺序，依次播报目标信息。

可选的，根据目标信息进行语音播报，包括：

根据目标信息进行进行语音播报和屏幕显示。

可选的，根据辅助信息进行屏幕显示，包括：

判断第i辅助意图槽位是否属于第一预设意图槽位集；其中，i依次取值1,2……N；

若否，将第i辅助意图槽位对应的辅助信息按照常规方式进行屏幕显示；

若是，将第i辅助意图槽位对应的辅助信息按照特定方式进行屏幕显示。

可选的，根据目标信息进行语音播报，包括：

判断第j目标意图槽位是否属于第二预设意图槽位集；其中，j依次取值1,2……M；

若是，将第j目标意图槽位对应的目标信息进行屏幕显示；

若否，将第j目标意图槽位对应的目标信息进行语音播报。

可选的，根据目标信息进行语音播报，包括：

判断第k目标意图槽位对应的第k目标信息是否是数组格式，k依次取值1,2……M；

若是，将第k目标意图槽位对应的目标信息绘图后进行屏幕显示；

若否，将第k目标意图槽位对应的目标信息进行语音播报。

可选的，根据辅助信息进行屏幕显示，包括：

将辅助信息发送至智能中控设备通信连接的电子设备，以使电子设备根据辅助信息进行屏幕显示。

本发明还提供一种语音交互***，包括：

接收模块，用于接收用户输入的语音信息；

第一获得模块，用于根据语音信息，获得目标意图槽组和辅助意图槽组；其中，目标意图槽组中包括M个目标意图槽位，辅助意图槽组中包括N个辅助意图槽位，N，M大于等于1且为正整数；目标意图槽组用于表征用户实际意图；辅助意图槽组用于表征用户辅助意图；

第二获得模块，用于获取M个目标意图槽位的目标信息和N个辅助意图槽位的辅助信息；

应答模块：用于根据目标信息进行语音播报，根据辅助信息进行屏幕显示。

可选的，第一获得模块，包括：

转化模块，用于将语音信息转化为文本信息；

训练模块，用于将文本信息输入预设神经网络模型，获得目标意图槽组和辅助意图槽组。

进一步的，训练模块具体用于：

进一步的，语音交互***还包括：

排序模块，用于按照重要程度值的降序顺序，对M个目标意图槽位进行排序；

应答模块，具体用于：

根据M个目标意图槽位的排序顺序，依次播报目标信息。

可选的，应答模块具体用于：

根据目标信息进行进行语音播报和屏幕显示，根据辅助信息进行屏幕显示。

可选的，应答模块具体用于：

若是，将第j目标意图槽位对应的目标信息进行屏幕显示；

若否，将第j目标意图槽位对应的目标信息进行语音播报。

可选的，应答模块具体用于：

若否，将第k目标意图槽位对应的目标信息进行语音播报。

可选的，应答模块还包括：

发送模块，用于将辅助信息发送至智能中控设备通信连接的电子设备，以使电子设备根据辅助信息进行屏幕显示。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述技术方案中任一项方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述技术方案中任一项方法的步骤。

通过本发明的一个或者多个技术方案，本发明具有以下有益效果或者优点：

本发明提供了一种语音交互方法，通过用户语音信息确认出包含目标意图槽位的目标意图槽组和包含辅助意图槽位的辅助意图槽组，将拟应答用户意图的关联信息分为目标信息和辅助信息，然后将目标信息进行TTS语音播报，而辅助信息在进行屏幕显示，从而将原先统一进行TTS播报的信息进行了区分，精简了TTS语音播报的信息，使其更能贴合用户的意图，提高了用户对目标信息的获取效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的语音交互方法的流程图；

图2示出了根据本发明一个实施例的使用神经网络划分目标意图槽组和辅助意图槽组的语音交互方法的流程图；

图3示出了根据本发明一个实施例的根据神经网络输出意图槽位重要程度值进行分组的语音交互方法的流程图；

图4示出了根据本发明一个实施例的将辅助信息进行特定显示的语音交互方法的流程图；

图5示出了根据本发明一个实施例的将辅助信息进行特定显示的示意图；

图6示出了根据本发明一个实施例的将目标信息进行屏幕显示的语音交互方法的流程图；

图7示出了根据本发明一个实施例的将数组格式的目标信息进行绘图显示的语音交互方法的流程图；

图8示出了根据本发明一个实施例提供的一种语音交互***10的模块框图；

图标：

10-语音交互***；11-接收模块；12-第一获得模块；13-第二获得模块；14-应答模块。

具体实施方式

为了使本申请所属技术领域中的技术人员更清楚地理解本申请，下面结合附图，通过具体实施例对本申请技术方案作详细描述。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

人机语音交互，又称为人机对话，是利用人的自然语言的语音与智能设备或智能产品之间的信息交互。按照应用领域又可划分为开放域人机对话***和任务型人机对话***，开放域人机对话***如微软小冰，不涉及特定信息内容的交互，更偏向于闲聊式交互；任务型人机对话***，如Siri、亚马逊echo等侧重于针对用户特定的信息服务需求，为用户执行各种信息查询和动作执行。在本申请中的各个实施例，是以任务型人机对话***为应用对象。

任务导向的语音交互的主要流程包括：

语音识别ASR(Automatic Speech Recognition)：利用语音识别模块，将用户输入的语音解析为文本；

自然语言理解NLU(Natural Language Understanding)：语音交互的核心，用于识别或理解用户意图(Intent)，以及解析用户表达语句中的核心意图槽位(Slot)；一个用户意图至少对应于一组意图槽位；

对话控制和对话管理DST(Dialogue State Tracking)&DM(Dialogue Manager)：一般来说，DST和DM可视为一个整体，专用于对话状态控制和管理，例如在用户表达语句中识别到了用户意图，但是并没有获取到相关意图槽位信息，那么DST与DM模块选择预先定义好的语句询问用户获得进一步的意图槽位信息；

对话生成NLG(Natural Language Generation)：任务型导向的产品可以使用模板生成对话文本，关键回复信息采用用户表达替换；

语音播报TTS(Text To Speech)：又称文语转换，将生成的对话文本转化为语音播报给用户。

本申请涉及的一些名词解释具体如下：

意图(Intent)：用户语音指令中表达的所要实现的目的，意图识别属于一种分类方法；

槽位/意图槽位(Slot)：意图槽位是表达用户意图的参数/属性，是从用户表达语句中抽取出的特定概念；一个用户意图对应着一组意图槽位，意图槽位可随着产品迭代进行增删改操作；

填槽/槽位填充(Slot filling)：让用户意图转化为用户明确的指令而补全意图槽位信息的过程。

发明人在研究现有的任务型语音交互产品时，发现现有产品均存在一个通病：为用户播报了很多不必要或低关注度的信息，导致用户真正想要掌握的核心信息的获取效率降低。例如，以查询天气为例，用户对一个对话式的智能中控设备，如智能音响，说：“明天天气如何，热不热”。现有的智能音响接收到用户语音后，能够准确识别出用户意图是查询天气状况，然后用语音向用户回答查询结果，例如：“明天XX市XX区的天气温度为28～35℃，天气晴，很热”。问题就在这里，对于很多用户来说，询问智能设备“明天天气热不热”，可能只需要一个简单的体感状况的结论“很热”；但是智能语音设备却将用户关注的核心信息“很热”和大量低关注度的信息“XX市”，“XX区”，“28～35℃”，“天气：晴”混合在一起一并告知用户，因此，用户需要花更多时间听完这些消息，然后分辨出“很热”这一体感信息；如果用户刚好在问完问题、智能设备正在播报查询结果时起身处理其它事情，用户就很有可能听不到“很热”这个关键信息或听的不够清楚，可能还需要重新进行提问，这就造成了TTS传达信息的低效率性，同时用户体验不佳。发明人基于上述问题，提出了一种新的语音交互方法，用于提高智能语音交互产品的关键信息传达效率，具体如下：

本发明提供了一种语音交互方法，如图1所示，该方法应用于智能中控设备，包括：

S1：接收用户输入的语音信息；

S2：根据语音信息，获得目标意图槽组和辅助意图槽组；

其中，目标意图槽组中包括M个目标意图槽位，辅助意图槽组中包括N个辅助意图槽位，N，M大于等于1且为正整数；目标意图槽组用于表征用户实际意图；辅助意图槽组用于表征用户辅助意图；

S3：获取M个目标意图槽位的目标信息和N个辅助意图槽位的辅助信息；

S4：根据目标信息进行语音播报，根据辅助信息进行屏幕显示。

总的来说，现有技术中的语音交互产品在进行语音播报时，将用户意图中对应的所有意图槽位信息，结合用户表达语句的一部分或生成对话所需的必要辅助语，全部通过TTS播报给用户，并没有针对性的将用户重点关注的关键(目标)信息和关注度一般的普通(辅助)信息进行区分；而本发明提供了一种语音交互方法，通过用户语音信息确认出包含目标意图槽位的目标意图槽组和包含辅助意图槽位的辅助意图槽组，将拟应答用户意图的关联信息分为目标信息和辅助信息，然后将目标信息进行TTS语音播报，而辅助信息在进行屏幕显示，从而将原先统一进行TTS播报的信息进行了区分，精简了TTS语音播报的信息，使其更能贴合用户的意图，提高了用户对目标信息的获取效率。

本方法可以应用到多种搭载智能语音交互服务的智能中控设备上，如智能音响，智能电视，智能手机等。在接下来的实施例中，以智能音响为智能中控设备为例，对本方法具体流程步骤进行详细说明。

S1：接收用户输入的语音信息；

智能音响中设有麦克风MIC阵列，麦克风阵列由一定数目的麦克风组成，用来对声场的空间特性进行采样并处理的***。在智能音响中有较大的空间可以使用麦克风阵列而非单个麦克风，再结合专业音频处理的主板、CPU和存储器，能够在用户距离音箱较远时，依然能够正常的拾取用户的语音指令。在本实施例中，智能音响在拾取了用户的语音以后，进行后续的语音转文本、自然语言理解NLU、对话管理控制、对话生成、TTS语音播报等一系列工作。

S2：根据语音信息，获得目标意图槽组和辅助意图槽组；

上述的目标意图槽组中包括M个目标意图槽位，辅助意图槽组中包括N个辅助意图槽位，N，M大于等于1且为正整数。目标意图槽组用于表征用户实际意图；辅助意图槽组用于表征用户辅助意图。

在智能语音交互领域，用户意图代表的是用户想要达到的目的，是在语言表达中所体现出的“用户想要做什么”，解决的是人与人，人与机器之间的通讯问题。例如对用户智能音响提问：“今天天气怎么样”，那么用户意图是“查询天气”；用户提问：“请帮我查询今天下午的北京至深圳的航班”，那么用户意图是“飞机航班查询”；不同的用户意图对应着不同的一组槽位(意图槽位)。用户意图通常是可穷举的离散取值，这也是通过各种分类器能够实现将无限多种用户语言表达转化为有限的离散的用户意图的基础。然而，用户的自然语言表达不仅包括了用户意图，还隐含了重点关注的目标信息，此目标信息需要在第一时间里满足用户，对此现有智能语音交互产品体现的并非那么智能。

以“天气查询”为例，用户想要查询某时某地的天气预报，可能会给出如：“明天天气热不热？”，“明天的天气情况如何？”或“明天的气温是多少”等不同的表达，其中不仅包括了意图：“查询天气”，还隐含了：“我想知道明天体感状态(炎热，凉爽，寒冷…)如何”，“我想知道明天的天气状况(阴、晴、雨…)”或“我想查询明天的具体气温是多少”三种不同的实际意图倾向，分别对应了三种不同的意图槽位：“体感状态”、“天气状况”、“气温”。意图槽位可以根据需要进行自定义配置，可以包括用来实现用户意图相关的信息查询所必须填充信息的槽位，如“天气查询”意图中的：“时间”、“地点”等。

通常来说，智能中控设备在查询天气后获得的信息中同时包括了“体感状态”、“天气状况”、“气温”、“时间”、“地点”等全部意图槽位的信息。在现有的人机对话产品中，通常将查询到的所有意图槽位的信息都作为用户想要掌握的内容进行TTS语音播报，这就造成了信息播报的冗长和低效率。而本申请旨在根据用户语句的具体表达方式，从与用户意图对应的一组槽位中区分出与用户实际语句表达关联最紧密或最重要的意图槽位，将其作为目标意图槽位划分到目标意图槽组；然后将其他的意图槽位作为辅助意图槽位划分到辅助意图槽组。目标意图槽位是表征用户实际意图，与该用户实际意图直接关联的关键参数/属性，辅助意图槽位表征除目标意图槽位以外的，与用户实际意图关联性一般，可视为用户辅助意图的参数/属性。值得注意的是，一个意图槽位具体是目标意图槽位还是辅助意图槽位并不是一成不变的，而是根据用户实际语句表达分析后动态确认的，例如，对于“明天天气热不热？”这一表达，目标意图槽位是“体感状态”，辅助意图槽位是“气温”和“天气状况”；而对于“明天的天气情况如何？”这一表达，目标意图槽位则是“天气状况”，辅助意图槽位是“气温”和“体感状态”。

目标意图槽位和辅助意图槽位下存储对应的目标信息和辅助信息，目标信息和辅助信息的总和组成了语音交互***需要向用户应答的全部信息内容，因此，确认和划分目标意图槽组和辅助意图槽组是本申请的一个关键所在。

在一个可选的实施例中，如图2所示，S2：根据语音信息，获得目标意图槽组和辅助意图槽组，包括：

S21：将语音信息转化为文本信息；

利用智能中空设备中的语音识别模块，将用户输入的语音解析为文本，用于接下来的用户意图识别。

S22：将文本信息输入预设神经网络模型，获得目标意图槽组和辅助意图槽组。

神经网络工具可以很好的应用于用户意图识别和意图槽位的分组，先将用户的输入语句进行分词，各个分词用词向量表示，然后将词向量作为经过大量用户数据验证的RNN或CNN的输入，输出目标意图槽组和辅助意图槽组。

一种根据神经网络确定目标意图槽组和辅助意图槽组的方法可以是利用神经网路输出用户意图，然后根据预先存储在数据库中的“用户意图-意图槽位-意图槽位分组”映射关系，提取出对应目标意图槽组和辅助意图槽组。“用户意图-意图槽位-意图槽位分组”映射关系的确定方法包括人工定义，或者搜集大量用户数据进行深度学习后获得。

预设在数据库中的“用户意图-意图槽位-意图槽位分组”的映射关系数组中可以视为一个适用于大多数用户的公共预设版的解决方案。实际上还可以利用深度学习工具，根据用户的实际语句，实时分析和输出适用于特定用户的个性化意图槽位分组的解决方案，具体如下：

在另一个可选的实施例中，如图3所示，S22：将文本信息输入预设神经网络模型，获得目标意图槽组和辅助意图槽组，包括：

S23：根据文本信息，确认用户意图；用户意图包含用户目标意图和用户辅助意图；

识别用户意图的本质是对用户语音指令的一个分类，将用户的语句分到预定义的相应意图类别中去。可选的，用户意图可以采用深度神经网络(DNN)作为分类工具进行识别：首先搜集大量用户语音的文本语料并进行相应的文本预处理，并对部分文本语料进行标注，形成训练数据集和测试数据集；然后可以使用CNN(卷积神经网络)或RNN(循环神经网络)对训练数据集进行深层特征抽取和特征学习，建立分类模型；接着在训练集上完成模型的训练过程，然后使用测试数据集，对训练好的分类模型进行测试和完善。

S24：根据用户意图，获取用户意图的Q个意图槽位；其中，Q个意图槽位具有各自的重要程度值，Q＝M+N；

神经网络在输出用户意图的同时，也根据用户的语句表达，输出了预测得到的一组意图槽位和表征各个意图槽位重要性或关联程度的重要程度值。其中重要程度值是根据用户不同的语句表达和上下文的联系，智能调整中间节点的权重，给出与用户语句匹配的重要程度输出值。重要程度值可以是槽位的评估数值，可以是槽位的概率值，还可以是归一化或标准化的值，在此不做具体限定。

S25：按照重要程度值大小，将Q个意图槽位划分为目标意图槽组和辅助意图槽组；

其中，M个目标意图槽位中每个目标意图槽位的重要程度值大于N个辅助意图槽位中每个目标意图槽位的重要程度值。

在获得了各个意图槽位的重要程度值以后，就可以确定一个阈值，当意图槽位的重要程度值大于等于该阈值时，将其划分到目标意图槽组；当小于该阈值时，将其划分到辅助意图槽组。

按照重要程度值的降序顺序，对M个目标意图槽位进行排序；

根据目标信息进行语音播报，包括：

根据M个目标意图槽位的排序顺序，依次播报目标信息。

TTS语音播报与屏幕显示不同点在于用户获取语音信息必须按照先后顺序逐个接收，而屏幕显示则可以进行对槽位信息进行批量显示。通过重要程度值的降序对目标意图槽位进行排序，然后按照排序进行依次TTS播报，能够使用户最先获取到与用户实际意图关联度最高的目标信息，从而提高了用户获取信息的效率，改善了用户体验。

接下来结合“查询天气”意图为例，根据不同的用户语句表达进行目标意图槽位和辅助意图槽位的分组和排序进行说明。用户输入语句为：“明天天气热不热？”，“明天的天气情况如何？”或“明天的气温是多少”。通过应用神经网络对上述三种表达进行识别后，结合模型自适应的调整权重，输出如表1的排序后的意图槽位和意图槽位对应的重要程度值(归一化)：

表1：根据神经网络确定的意图槽位和对应的重要程度值

在获得上述表格中的数据以后，可以指定一个阈值，当意图槽位的重要程度值大于该阈值时，将其划到目标意图槽组，剩下的划到辅助意图槽组。例如，以0.8为阈值，那么目标意图槽组和辅助意图槽组的划分如下表所示。

表2：目标意图槽组和辅助意图槽组的确定

实际上，根据用户语句表达动态调整目标意图槽组和辅助意图槽组的分组是一个不断迭代的过程，根据用户对当前分组方案获取到信息以后的动作，可以判断当前分组是否满足用户需求，以动态的调整目标意图槽组和辅助意图槽组。

还是以“天气查询”意图中的“明天天气热不热”为例，用户在获取到目标意图槽位(“体感状态”)对应的目标信息的TTS播报后，没有下一步的语音指令，或者发出的是另一种和“天气查询”意图完全不同语音指令，那么说明当前的分组方案是满足用户需求的。如果用户在获取了目标信息后，紧接着追问：“那气温多少呢”，在获得这一信息以后，可以确定出对该用户而言，在查询体感状态的同时还需要了解气温的情况，“体感状态”和“气温”均应该为该用户的目标意图槽位。此时，神经网络模型将结合用户前后的语句，调整节点的权重，重新计算意图槽位输出值后划分目标意图槽组和辅助意图槽组，具体表3所示：

表3：根据用户前后语句调整意图槽位分组

在上述过程中，已经根据用户具体表达语句和用户习惯，确认了与之对应的意图槽位分组和排序的方案。可以理解，将符合用户实际表达方式的分组方案与用户信息或智能中控设备的ID绑定，在下次神经网络检测到相同用户语句输入时，可以直接调用这个分组方案，无需重复进行神经网络的训练和确认，减少服务器的工作量。

在确认了用户意图、目标意图槽组和辅助意图槽组以后，接下来是获取目标意图槽位对应的目标信息和辅助意图槽位对应的辅助信息。上述目标意图槽组和辅助意图槽组中意图槽位信息的确认包括两个过程：首先是根据用户语句中的关键词进行填槽，获得完整的用于云端信息服务的查询语句，此时完成一部分的意图槽位信息获取；然后是从云端服务中查询到相关的信息，返回到其余的意图槽位中。如此完成目标意图槽位和辅助意图槽位对应的意图槽位信息的获取。

在“天气查询”意图为例，从用户语句或其他来源中提取出“时间”和“地点”的参数进行填充，获得如表4的结果。

表4：查询信息前的填槽

接下来将填充的槽位信息和用户意图形成查询语句在云端服务进行天气查询，然后提取天气预报结果中的对应信息，填入“气温”、“体感状态”、“天气状况”等意图槽位，如表5所示：

表5：查询信息完成后的填槽

根据用户语句或查询结果进行填充意图槽位的过程也可以理解为序列标注任务，可用的方法包括最大熵马尔可夫模型(MEMMs)，条件随机场(CRFs)以及循环神经网络(RNNs)等。

在将目标意图槽位和辅助意图槽位对应的意图槽位信息确定以后，结合文本生成模板，即可生成告知用户的TTS语音信息或屏幕显示信息。

现有的智能语音交互产品在查询到天气预报信息进行TTS时，通常是将查询信息所需的意图槽位信息、查询完成后的天气预报结果信息，在辅以必要的连接语句全部进行TTS语音播报，如表6所示；没有从用户语句中确认目标意图槽组以进行针对性的TTS，因此降低了用户快速掌握关键信息的效率。

表6：现有产品的TTS方式

在本申请中根据用户表达语句，将所有意图槽位分为目标意图槽位和辅助意图槽位后，如表7所示：S41：根据目标信息进行语音播报，即只对目标意图槽位对应的目标信息进行TTS语音播报；S42：根据辅助信息进行屏幕显示，即辅助意图槽位对应的辅助信息在智能中控设备屏幕上显示，通过更针对性的对意图槽位信息的选择播报，提高了用户获取关键信息的效率。

表7：本实施例的TTS方式

为了增加目标信息的辨识度，可选的，将目标信息进行语音播报和屏幕显示。如此用户可以通过语音播报和屏幕显示两种方式获取到目标信息，提高用户对目标信息的获取效率。

在对辅助信息进行屏幕显示时，可以将特定意图槽位的信息进行突出显示，以提高该意图槽位信息的辨识度。在一个可选的实施例中，如图4所示，S42：根据辅助信息进行屏幕显示，包括：

S421：判断第i辅助意图槽位是否属于第一预设意图槽位集；其中，i依次取值1,2……N；

S422：若否，将第i辅助意图槽位对应的辅助信息按照常规方式进行屏幕显示；

S423：若是，将第i辅助意图槽位对应的辅助信息按照特定方式进行屏幕显示。

第一预设意图槽位集是从全体意图槽位中确定的有必要进行特定显示的意图槽位的集合，若某一意图槽位属于该集合，且该意图槽位划分到了辅助意图槽组中，那么在显示该意图槽位对应的辅助信息时，将自动采用特定的屏幕显示方式。可以通过对用户行为数据的挖掘或用户使用回馈调研信息的确认，对第一预设意图槽位集进行增删。常规显示方式可以是智能中控设备中预设的显示方式，而特定显示方式是使用文本居中、字体放大、字体加粗、字体标亮、更改字体配色中的至少一种差异化的处理方式，以突出信息显示效果。对特定意图槽位对应的信息的特定显示功能可以在智能中控设备中选择性的启用。

例如，一个意图槽位分组的情况如表8所示，其中辅助意图槽位中的气温和天气状况作为查询到的用户还未掌握的天气结果信息，虽然在当前的用户语句表达中被分到了辅助意图槽位，但对用户来说依然有一定的参考价值，在屏幕显示时可以进行突出显示，以方便用户获取到相应信息；而时间和地点作为用户已经掌握的信息，可以按照常规方式正常显示，一个显示效果可以如图5所示。

表8：意图槽位信息差异化显示

可选的，对于重要程度值很低的辅助意图槽位对应的信息，还可以弱化屏幕显示效果，即在正常显示模式的基础上，组合缩小字体、字体变暗、显示在屏幕次要区域等方式进行显示。

在上述的实施例中，智能中控设备将目标意图槽组中的目标信息统一进行TTS语音播报。但在一些情况下，如根据用户语句进行目标意图槽组和辅助意图槽组的划分时，可能将一些信息内容更适合屏幕显示的意图槽位分到目标意图槽组，这种信息可以是图片类数据，或者多组数值点数据，如未来7天或15天的气温变化曲线，未来24小时或48小时的降水量或降水几率，某城市各行政区域降水量雷达图等。用语音播报这类信息，显然是比较繁琐、耗时且向用户传递信息的效率很低，因此，在一个可选的实施例中，如图6所示，S41：根据目标信息进行语音播报，包括：

S411：判断第j目标意图槽位是否属于第二预设意图槽位集；其中，j依次取值1,2……M；

S412：若是，将第j目标意图槽位对应的目标信息进行屏幕显示；

S413：若否，将第j目标意图槽位对应的目标信息进行语音播报。

对于一些槽位信息，采用屏幕显示的效果可能比TTS语音播报的效果更好，例如图片类的或包含大段文字的信息。那么当这些槽位被划分到目标意图组后，采用语音播报反而有可能降低用户获取信息的效率。对于这类意图槽位，规定其采用屏幕显示的方式是有必要的，因此建立第二预设意图槽位集，用于管理槽位信息内容适合屏幕显示不适合语音播报的意图槽位。

用户可以在智能中控设备上开启“智能调整”选项，开启后设备可根据预设的意图槽位集，判断目标意图槽组中是否存在更适合屏幕显示而非语音播报的意图槽位，如果存在，则不进行语音播报，改为屏幕显示。如此能够有效的提高用户获取信息的效率，避免低效率的语音播报，节省电子设备的资源占用。由于本该语音播报的信息改为了屏幕显示，为了避免应答方式的变化导致用户错过信息，造成重复提问或者影响用户体验的情况，在将目标信息TTS语音播报完成以后，增加语音提示，以告知用户将第j目标意图槽位对应的目标信息转为屏幕显示。提示用语可以是：“未来24小时或48小时的降水量的实况预报请看屏幕”。

基于和上述实施例相似的实施原理，在目标意图槽组中，查询信息结果后获得的目标信息是多组数值点的数据格式，而这类数据采用可视化图表的显示方式比语音播报明显更优，体现为用户查阅数据时更为直观，且更容易理解信息中的隐含趋势。因此，在一个可选的实施例中，如图7所示，根据目标信息进行语音播报，包括：

S414：判断第k目标意图槽位对应的第k目标信息是否是数组格式，k依次取值1,2……M；

S415：若是，将第k目标意图槽位对应的目标信息绘图后进行屏幕显示；

S416：若否，将第k目标意图槽位对应的目标信息进行语音播报。

以“时间-相对湿度”的天气实况数据说明，云端服务返回的信息内容表9所示。对于这类数据，以趋势线的图表给用户展示效果更好，用户也更容易理解。

表9：“时间-相对湿度”预报数据

同样的，为了避免应答方式的变化导致用户错过信息，造成重复提问或者影响用户体验的情况，在将目标信息TTS语音播报完成以后，增加语音提示，以告知用户将第k目标意图槽位对应的目标信息转为屏幕显示。

可选的，根据目标信息进行语音播报，包括：将辅助信息发送至智能中控设备通信连接的电子设备，以使电子设备根据辅助信息进行屏幕显示。

上述实施例中进行屏幕显示的电子设备不局限于接收用户语音的智能中控设备，还可以将辅助意图槽组中的辅助信息发送到与智能中控设备建立了通信连接的其它电子设备上进行应答，这些电子设备可以是智能手机、智能电视、个人数字助理PDA等用户终端进行屏幕显示。此功能可以应用在一些没有搭载显示屏幕的智能中控设备上，利用与该智能中控设备建立通信连接的有屏幕的电子设备显示辅助信息；也可以应用在具备屏幕的智能中控设备，但使用与其建立通信连接，具有较大屏幕、更好显示效果的电子设备显示辅助信息。一种可选方式是将语音播报的目标信息在智能中控设备(如智能音响)上进行TTS语音播报，然后屏幕显示的辅助信息发送到智能手机上进行显示。如此既兼容了没有屏幕的智能中控设备，又可以丰富信息应答的模式，方便用户在其它电子设备终端更直观、更便捷的查看辅助信息。

上述实施例是以天气查询为例进行说明，事实上，本方法可应用于多种信息交互场景。再以“查询航班”为例进行简单说明，与“查询航班”意图对应的意图槽位可包括：“出发地”、“目的地”、“出发时间”、“到达时间”、“航空公司”、“飞机型号”、“座舱类型”、“机票价格”…….同样的，根据用户语句表达方式的不同，可以进行不同的目标意图槽组和辅助意图槽组分组，如用户提问：“帮我查询明天下午两点到三点的北京到上海的机票”，从中可以确认，用户的关键信息聚焦在具体的出发时间上，那么目标意图槽组可以包括“出发时间”、“到达时间”、“航空公司”三个目标意图槽位，那么可以将查询到的与“出发时间”、“到达时间”、“航空公司”对应的目标信息进行TTS播报，而其余的信息，如“飞机型号”、“座舱类型”、“机票价格”等作为辅助信息进行屏幕显示。如用户提问：“帮我查询明天从北京到上海的经济舱航班”，从中可以确认，用户的关键信息聚焦在“机票价格”上，对于“出发时间”和“到达时间”不是第一关注的信息，那么目标意图槽组可以包括“机票价格”、“航空公司”两个目标意图槽位，从而将查询到与之对应的目标信息进行TTS播报，而“出发时间”、“到达时间”等辅助信息在屏幕上进行显示。

基于上述实施例相同的实施原理，在另一个可选的实施例中，提供了一种语音交互***10，如图8所示，包括：

接收模块11，用于接收用户输入的语音信息；

第一获得模块12，用于根据语音信息，获得目标意图槽组和辅助意图槽组；其中，目标意图槽组中包括M个目标意图槽位，辅助意图槽组中包括N个辅助意图槽位，N，M大于等于1且为正整数；目标意图槽组用于表征用户实际意图；辅助意图槽组用于表征用户辅助意图；

第二获得模块13，用于获取M个目标意图槽位的目标信息和N个辅助意图槽位的辅助信息；

应答模块14：用于根据目标信息进行语音播报，根据辅助信息进行屏幕显示。

作为一种可选的实施例，第一获得模块12，包括：

转化模块，用于将语音信息转化为文本信息；

进一步的，训练模块具体用于：

进一步的，语音交互***10还包括：

应答模块14，具体用于：

根据M个目标意图槽位的排序顺序，依次播报目标信息。

可选的，应答模块14具体用于：

作为一种可选的实施例，应答模块14具体用于：

若是，将第j目标意图槽位对应的目标信息进行屏幕显示；

若否，将第j目标意图槽位对应的目标信息进行语音播报。

作为一种可选的实施例，应答模块14具体用于：

若否，将第k目标意图槽位对应的目标信息进行语音播报。

作为一种可选的实施例，应答模块14还包括：

基于与前述实施例中同样的发明构思，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文任一所述方法的步骤。

基于与前述实施例中同样的发明构思，本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前文任一所述方法的步骤。

电子设备可以是智能音箱、智能手机、智能电视、个人电脑、个人数字助理PDA等电子设备。

通过本发明的一个或者多个实施例，本发明具有以下有益效果或者优点：

本发明公开了一种语音交互方法，通过用户语音信息确认出包含目标意图槽位的目标意图槽组和包含辅助意图槽位的辅助意图槽组，将拟应答用户意图的关联信息分为目标信息和辅助信息，然后将目标信息进行TTS语音播报，而辅助信息在进行屏幕显示，从而将原先统一进行TTS播报的信息进行了区分，精简了TTS语音播报的信息，使其更能贴合用户的意图，提高了用户对目标信息的获取效率。

进一步的，在基于用户语音确定了目标意图槽组和辅助意图槽组后，还可以根据意图槽位的特点，动态的调整目标意图槽位的信息播报方式，如将特定的适合屏幕显示的信息主动调整为屏幕显示而非语音播报，或者将数组格式的数据自动绘图展示，从而为用户配置更佳的信息展示方式，提高了用户获取信息的效率。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、***中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明的公开了：

A1、一种语音交互方法，所述方法应用于智能中控设备，其特征在于，所述方法包括：

接收用户输入的语音信息；

根据所述语音信息，获得目标意图槽组和辅助意图槽组；其中，目标意图槽组中包括M个目标意图槽位，辅助意图槽组中包括N个辅助意图槽位，N，M大于等于1且为正整数；所述目标意图槽组用于表征用户实际意图；所述辅助意图槽组用于表征用户辅助意图；

获取所述M个目标意图槽位的目标信息和所述N个辅助意图槽位的辅助信息；

根据所述目标信息进行语音播报，根据所述辅助信息进行屏幕显示。

A2、如权利要求A1所述的方法，其特征在于，所述根据所述语音信息，获得目标意图槽组和辅助意图槽组，包括：

将所述语音信息转化为文本信息；

将所述文本信息输入预设神经网络模型，获得所述目标意图槽组和所述辅助意图槽组。

A3、如权利要求A2所述的方法，其特征在于，所述将所述文本信息输入预设神经网络模型，获得所述目标意图槽组和所述辅助意图槽组，包括：

根据所述文本信息，确认用户意图；所述用户意图包含所述用户目标意图和所述用户辅助意图；

根据所述用户意图，获取所述用户意图的Q个意图槽位；其中，所述Q个意图槽位具有各自的重要程度值，Q＝M+N；

按照重要程度值大小，将所述Q个意图槽位划分为所述目标意图槽组和所述辅助意图槽组；其中，所述M个目标意图槽位中每个目标意图槽位的重要程度值大于所述N个辅助意图槽位中每个目标意图槽位的重要程度值。

A4、如权利要求A3所述的方法，其特征在于，在所述按照重要程度值大小，将所述Q个意图槽位划分为所述目标意图槽组和所述辅助意图槽组之后，包括：

按照所述重要程度值的降序顺序，对所述M个目标意图槽位进行排序；

所述根据所述目标信息进行语音播报，包括：

根据所述M个目标意图槽位的排序顺序，依次播报所述目标信息。

A5、如权利要求A1所述的方法，其特征在于，所述根据所述目标信息进行语音播报，包括：

根据所述目标信息进行进行语音播报和屏幕显示。

A6、如权利要求A1所述的方法，其特征在于，所述根据所述辅助信息进行屏幕显示，包括：

若否，将所述第i辅助意图槽位对应的辅助信息按照常规方式进行屏幕显示；

若是，将所述第i辅助意图槽位对应的辅助信息按照特定方式进行屏幕显示。

A7、如权利要求A1所述的方法，其特征在于，所述根据所述目标信息进行语音播报，包括：

若是，将所述第j目标意图槽位对应的目标信息进行屏幕显示；

若否，将所述第j目标意图槽位对应的目标信息进行语音播报。

A8、如权利要求A1所述的方法，其特征在于，所述根据所述目标信息进行语音播报，包括：

若是，将所述第k目标意图槽位对应的目标信息绘图后进行屏幕显示；

若否，将所述第k目标意图槽位对应的目标信息进行语音播报。

A9、如权利要求A1所述的方法，其特征在于，所述根据所述辅助信息进行屏幕显示，包括：

将所述辅助信息发送至所述智能中控设备通信连接的电子设备，以使所述电子设备根据所述辅助信息进行屏幕显示。

B10、一种语音交互***，其特征在于，包括：

接收模块，用于接收用户输入的语音信息；

第一获得模块，用于根据所述语音信息，获得目标意图槽组和辅助意图槽组；其中，目标意图槽组中包括M个目标意图槽位，辅助意图槽组中包括N个辅助意图槽位，N，M大于等于1且为正整数；所述目标意图槽组用于表征用户实际意图；所述辅助意图槽组用于表征用户辅助意图；

第二获得模块，用于获取所述M个目标意图槽位的目标信息和所述N个辅助意图槽位的辅助信息；

应答模块：用于根据所述目标信息进行语音播报，根据所述辅助信息进行屏幕显示。

B11、如权利要求B10所述的***，其特征在于，所述第一获得模块，包括：

转化模块，用于将所述语音信息转化为文本信息；

训练模块，用于将所述文本信息输入预设神经网络模型，获得所述目标意图槽组和所述辅助意图槽组。

B12、如权利要求B11所述的***，其特征在于，所述训练模块，具体用于：

B13、如权利要求B12所述的语音识别***，其特征在于，还包括：

排序模块，用于按照所述重要程度值的降序顺序，对所述M个目标意图槽位进行排序；

所述应答模块，具体用于：

B14、如权利要求B10所述的***，其特征在于，所述应答模块，具体用于：

根据所述目标信息进行进行语音播报和屏幕显示，根据所述辅助信息进行屏幕显示。

B15、如权利要求B10所述的***，其特征在于，所述应答模块，具体用于：

B16、如权利要求B10所述的***，其特征在于，所述应答模块，具体用于：

B17、如权利要求B10所述的***，其特征在于，所述应答模块，具体用于：

B18、如权利要求B10所述的***，其特征在于，所述应答模块，还包括：

发送模块，用于将所述辅助信息发送至所述智能中控设备通信连接的电子设备，以使所述电子设备根据所述辅助信息进行屏幕显示。

C19、一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求A1-A9任一项所述方法的步骤。

D20、一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求A1-A9任一项所述方法的步骤。

Claims

1.一种语音交互方法，所述方法应用于智能中控设备，其特征在于，所述方法包括：

接收用户输入的语音信息；

2.如权利要求1所述的方法，其特征在于，所述根据所述语音信息，获得目标意图槽组和辅助意图槽组，包括：

将所述语音信息转化为文本信息；

3.如权利要求2所述的方法，其特征在于，所述将所述文本信息输入预设神经网络模型，获得所述目标意图槽组和所述辅助意图槽组，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述目标信息进行语音播报，包括：

根据所述目标信息进行进行语音播报和屏幕显示。

5.如权利要求1所述的方法，其特征在于，所述根据所述辅助信息进行屏幕显示，包括：

6.如权利要求1所述的方法，其特征在于，所述根据所述目标信息进行语音播报，包括：

7.如权利要求1所述的方法，其特征在于，所述根据所述辅助信息进行屏幕显示，包括：

8.一种语音交互***，其特征在于，包括：

接收模块，用于接收用户输入的语音信息；

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。