CN112908325A

CN112908325A - 语音交互方法、装置、电子设备及存储介质

Info

Publication number: CN112908325A
Application number: CN202110125141.6A
Authority: CN
Inventors: 梁源通; 杨杰
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-06-04
Anticipated expiration: 2041-01-29
Also published as: CN112908325B

Abstract

本申请适用于人工智能技术领域，提供了一种语音交互方法、装置、电子设备及存储介质，其中，一种语音交互方法，包括：若检测到语音唤醒指令，则启动语音监听功能以持续地进行语音监听；对监听到的语音信息进行语音识别处理，确定所述语音信息对应的回应信息，并输出所述回应信息；若获取到目标信息，则关闭所述语音监听功能；其中，所述目标信息为用户发出的指令信息。本申请实施例能够在提高语音交互的便捷性的同时，减少资源浪费。

Description

语音交互方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音交互方法、装置、电子设备及计算机可读存储介质。

背景技术

目前，语音交互被广泛应用于生活、工作的各种场景中，为人们生活带来极大的便利。在语音交互方法中，通常是由用户进行语音唤醒操作后，启动一次语音识别功能，对用户当前发出的语音信息进行识别。然而，这种方式在每一次语音识别之前都需要用户进行语音唤醒，即需要用户重复地进行语音唤醒才能够进行多次的语音识别。可见，这种语音交互方式的操作繁琐，且对语音交互过程的连贯性及流畅性造成影响。

发明内容

有鉴于此，本申请实施例提供了一种语音交互方法、装置、电子设备及计算机可读存储介质，以解决现有技术中如何提高语音交互的便捷性的问题。

本申请实施例的第一方面提供了一种语音交互方法，包括：

若检测到语音唤醒指令，则启动语音监听功能以持续地进行语音监听；

对监听到的语音信息进行语音识别处理，确定所述语音信息对应的回应信息，并输出所述回应信息；

若获取到目标信息，则关闭所述语音监听功能；其中，所述目标信息为用户发出的指令信息。

可选地，所述若检测到语音唤醒指令，则启动语音监听功能以持续地进行语音监听，包括：

若检测到语音唤醒指令，则拍摄当前的语音交互环境，得到环境图像；

若所述环境图像存在目标人员的人脸信息，则启动语音监听功能；其中，所述目标人员为预设的访谈对象；

对应地，所述语音交互方法，还包括：

按照预设时间间隔获取所述目标人员的人脸信息；

当获取不到所述人脸信息则关闭所述语音监听功能。

可选地，所述输出所述回应信息，包括：

若检测到目标动作，则判定当前存在语音辅助的需求，以语音的形式输出所述回应信息；其中，所述目标动作为预设的表示需要语音辅助的动作。

可选地，所述方法应用于电子设备，所述若检测到目标动作，则判定当前存在语音辅助的需求，以语音的形式输出所述回应信息，包括：

获取所述目标人员或者目标用户的人脸姿态信息和/或眼睛信息；其中，所述目标用户发出所述语音唤醒指令的用户；

若根据所述人脸姿态信息和/或所述眼睛信息确定所述目标人员或者目标用户作出注视所述电子设备的目标动作，则判定当前存在语音辅助的需求，以语音的形式输出所述回应信息。

若检测到语音唤醒指令，则获取发出所述语音唤醒指令的用户的信息；

若所述用户的信息与预设的授权用户信息相匹配，则启动语音监听功能以持续地进行语音监听；否则，返回表示拒绝所述语音唤醒指令的提示信息。

可选地，所述对监听到的语音信息进行语音识别处理，确定所述语音信息对应的回应信息，包括：

对监听到的语音信息进行语音识别处理，确定所述语音信息的声纹特征信息；

根据所述声纹特征信息，获取与所述声纹特征信息相匹配的个性化推荐信息作为回应信息。

可选地，所述语音识别处理包括语音转文本处理及意图识别处理，所述对监听到的语音信息进行语音识别处理，确定所述语音信息对应的回应信息，包括：

对监听到的语音信息进行语音转文本处理，确定所述语音信息对应的文本信息；

对所述文本信息进行意图识别处理，确定所述文本信息对应的目标服务；

从所述目标服务中获取目标资源作为所述语音信息对应的回应信息。

本申请实施例的第二方面提供了一种语音交互装置，包括：

启动单元，用于若检测到语音唤醒指令，则启动语音监听功能以持续地进行语音监听；

语音识别单元，用于若检测到语音唤醒指令，则启动语音监听功能以持续地进行语音监听；

第一关闭单元，用于若获取到目标信息，则关闭所述语音监听功能。

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方案提供的语音交互方法的各步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方案提供的语音交互方法的各步骤。

实施本申请实施例提供的语音交互方法、装置、电子设备及计算机可读存储介质具有以下有益效果：第一方面，由于只需一次语音唤醒，就可以启动语音监听功能持续地进行语音监听，持续地对监听到的语音信息进行语音识别处理，并输出对应的回应信息，因此相对于现有的语音交互方式，无需多次进行语音唤醒，操作简便，并保证了语音交互过程的连贯性及流畅性。第二方面，由于在启动语音监听功能后，当获取到目标信息时，能够关闭当前的语音监听功能，结束此次的语音交互，即能够准确地确定此次语音交互的结束时机，避免在无需继续进行语音交互时持续进行无效的语音监听和语音识别，因此能够在保证实现便捷有效的语音交互的同时，减少功耗浪费及资源浪费。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音交互方法的实现流程图；

图2是本申请另一实施例提供的一种语音交互方法的实现流程图；

图3是本申请实施例提供的一种语音交互方法的场景示意图；

图4是本申请实施例提供的一种语音交互装置的结构框图；

图5是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

目前，在语音交互过程中，常常需要用户重复地进行多次语音唤醒才能够进行多次的语音识别。这种语音交互方式操作繁琐，且对语音交互过程的连贯性及流畅性造成影响。为了解决该技术问题，本申请实施例提供了一种语音交互方法、装置、电子设备及存储介质，通过一次语音唤醒就可以启动语音监听功能持续地进行语音监听，持续地对监听到的语音信息进行语音识别处理，因此相对于现有的语音交互方式，无需多次进行语音唤醒，操作简便，并保证了语音交互过程的连贯性及流畅性。并且，在启动语音监听功能后，当获取到目标信息时，能够关闭当前的语音监听功能，结束此次的语音交互，即能够准确地确定此次语音交互的结束时机，避免在无需继续进行语音交互时持续进行无效的语音监听和语音识别，因此能够在保证实现便捷有效的语音交互的同时，避免功耗浪费及资源浪费。

本申请实施例所涉及的语音交互方法，可以由电子设备执行，该电子设备包括但不限于台式电脑、笔记本电脑、平板电脑、智能手机、服务器、机器人等。

本申请实施例涉及的语音交互方法，可以应用于“金融+科技”的场景中，例如保险业务的客户代理人与客户进行面访的场景中，可以通过该语音交互方法来辅助保险相关事宜的沟通，从而提高客户代理人与客户的沟通效率。

实施例一：

请参阅图1，图1示出了本申请实施例提供的一种语音交互方法的实现流程图，详述如下：

在S101中，若检测到语音唤醒指令，则启动语音监听功能以持续地进行语音监听。

本申请实施例中，语音唤醒指令是用于唤醒电子设备，启动电子设备的语音监听功能的指令。具体地，检测到语音唤醒指令，可以是检测到用户发出预设的语音唤醒词，也可以是检测到用户点击电子设备的第一指定触控区域、按压电子设备的第一指定按钮，还可以是检测到用户作出预设的第一手势指令。具体地，当检测到一次语音唤醒指令，启动语音监听功能后，就能够持续地对当前环境进行语音监听，而无需重复地进行语音唤醒才能够保持语音的监听与识别。

可选地，上述的步骤S101，包括：

本申请实施例中，用户的信息可以为用户的声音信息、用户的人脸图像信息、用户的指纹信息等可以唯一标识该用户的特征信息，对应地，预设的授权用户信息包括授权用户的声音信息、人脸图像信息、指纹信息。在检测到语音唤醒指令的同时或者之后，获取发出该语音唤醒指令的用户的信息，并与预设的授权用户信息比较。当该用户的信息与预设的授权用户信息相匹配，则判定该用户为授权用户，启动语音监听功能以持续地进行语音监听。当该用户的信息与预设的授权用户信息不匹配时，则判定该用户为非授权用户，此时可以返回表示拒绝该语音唤醒指令的提示信息。具体地，可以通过预设的文字、图案或者预设的动画表情来作为该提示信息。可选地，在返回表示拒绝所述语音唤醒指令的提示信息后，还可以发出警报信息来提醒管理人员当前存在非授权用户的非法使用，该警报信息可以为蜂鸣声、亮灯信息或者为发送至管理人员的终端设备的短消息。

示例性地，当前用户通过发出预设的语音唤醒词来作为语音唤醒指令，则可以获取该用户发出该语音唤醒词时的声音信息，并与预设的授权用户的声音信息作比较。若该用户的声音信息与授权用户的声音信息相匹配，则判定当前该用户为授权用户，启动语音监听功能，并返回预设的笑脸表情以通知该用户当前已开始语音交互。若该用户的声音信息与授权用户的声音信息不相符，则判定该用户为非授权用户，此时直接返回预设的哭脸表情以通知该用户当前的语音唤醒指令被拒绝。

本申请实施例中，由于能够获取发出语音唤醒指令的用户的信息，并与预设的授权用户信息比较，只有当用户的信息与预设的授权用户信息相匹配时才启动语音监听功能，从而实现了对当前的用户的权限验证，因此保证语音交互的安全性。

在S102中，对监听到的语音信息进行语音识别处理，确定所述语音信息对应的回应信息，并输出所述回应信息。

在上一步骤启动语音监听功能持续地进行语音监听后，本步骤中，对监听到的语音信息进行语音识别处理，确定语音信息对应的回应信息。该回应信息可以为与该语音信息相关的内容推荐、内容介绍或者问题回答内容等信息。例如，若监听到的语音信息为“A产品多少钱”，则该回应信息包括A产品具体的费用信息，还可以包括A产品的其它详细介绍信息等。具体地，该回应信息可以为文字、图表、数据链接(例如网页链接)、幻灯片、图像、视频、语音推荐内容等任意一种或者多种形式。具体地，在确定该回应信息后，将该回应信息输出反馈至用户。具体地，可以通过显示方式和/或语音播报等方式输出该回应信息。可选地，除了将该回应信息输出反馈至用户，还可以将该回应信息输出至自身的存储单元或者其它设备(例如服务器)进行存储，以便之后进行数据查询、数据分析等。

可选地，上述的步骤S102，包括：

本申请实施例中，在监听到语音信息后，可以将该语音信息输入预设的特征提取神经网络，确定该语音信息的声纹特征信息。之后，根据该声纹特征信息，可以确定当前发出语音信息的人员的个人信息，从而获取与该声纹特征信息相匹配的个性化推荐信息作为回应信息。可选地，根据该声纹特征信息可确定该人员的年龄、性别等个人信息，从而根据年龄、性别确定个性化推荐信息作为回应信息。可选地，本地或者第三方数据库预存了声纹特征信息与人员信息的对应关系，根据该声纹特征信息可以查找到人员信息，例如姓名、职业、历史感兴趣信息等，从而获取与人员信息相匹配的个性化推荐信息作为回应信息。

在一个实施例中，对监听到语音信息进行语音识别处理后，可以确定该语音信息的声纹特征信息及候选回应信息。例如，若当前的语音信息为“请推荐人身保险产品”，则除了获取该语音信息的声纹特征信息外，还将预存的各种人身保险产品的介绍信息作为候选回应信息。之后，根据声纹特征信息，确定发出该语音信息的人员的年龄信息，并从候选回应信息中筛选与该人员的年龄相符的信息作为个性化推荐信息，例如将适合该年龄的人身保险产品的介绍信息作为个性化推荐信息。或者，根据该声纹特征信息，确定与发出该语音信息的人员的历史感兴趣信息(例如历史购买记录)，并从候选回应信息中筛选与该历史感兴趣信息一致或者相似的信息作为个性化推荐信息。例如，获取该人员历史购买过的人身保险产品的介绍信息，或者与该历史购买过的人身保险产品类型相似的其它人身保险产品的介绍信息，作为个性化推荐信息。

本申请实施例中，由于能够根据语音信息来确定声纹特征信息，并将与该声纹特征信息相匹配的个性化推荐信息作为回应信息，因此能够提高信息回应的准确性及智能性，从而提高语音交互的效率。

可选地，本申请实施例的语音识别处理包括语音转文本处理及意图识别处理，上述的步骤S102，包括：

A1：对监听到的语音信息进行语音转文本处理，确定所述语音信息对应的文本信息；

A2：对所述文本信息进行意图识别处理，确定所述文本信息对应的目标服务；

A3：从所述目标服务中获取目标资源作为所述语音信息对应的回应信息。

在A1中，对监听到的语音信息进行语音转文本处理，例如可以通过提前训练好的神经网络，提取语音信息中的各个频谱特征信息，并将各个频谱特征信息一一匹配对应的文字，从而完成语音转文本处理，得到语音信息对应的文本信息。可选地，通过语音转文本处理得到初始的文本信息后，可以对该文本信息进行诸如纠错、敏感词过滤、分词等预处理步骤，得到更准确的文本信息。

在A2中，根据步骤A1得到的文本信息，进行意图识别处理，确定该文本信息对应的目标服务。其中，目标服务为用于执行某一项功能的功能模块，例如以为聊天服务、产品推荐服务、保险费用计算服务等。具体地，本申请实施例可以通过意图识别引擎来对该文本信息进行意图识别处理。

在一个实施例中，该意图识别引擎为预置了各个规则模板的规则引擎，其中，每个规则模板对应一个目标服务(可以理解地，每个规则模板唯一确定对应的一个目标服务，而一个目标服务可以对应存在多个规则模板)。根据该文本信息，通过规则引擎从预置的各个规则模板查找与当前文本信息相匹配的规则模板，并将该规则模板对应的服务确定为目标服务。例如，聊天服务对应的第一规则模板可以为：{0,5}(来个|讲个|说个).{0,3}笑话.{0,1}”；当检测到当前的文本信息为“给我讲个笑话”，即可根据规则引擎确定该文本信息对应的规则模板为该第一规则模板，根据该第一规则模板查找对应的目标服务，即可确定当前的目标服务为聊天服务。又如，保险费用计算服务对应的第二规则模板可以为：“{保险名}{0,3}{费用|收费|价格|多少钱|怎么收费|计费方式}”；当检测到当前的文本信息为“B保险的费用怎么算”时，即可根据该规则引擎确定该文本信息对应的规则模板为第二规则目标，根据该第二规则模板查找对应的目标服务，即可确定当前的目标服务为保险费用计算服务。

在另一个实施例中，该意图识别引擎为提前训练好的能够进行意图匹配的神经网络模型，例如可以为提前训练好的快速文本分类器fasttext。将当前的文本信息输入该神经网络模型后，即可自动对该文本信息进行特征提取及分类，从而确定该文本信息对应的确定目标服务。

可选地，还可以为每个目标服务提前预置了对应的预设文本，之后，当检测到文本信息后，与各个预设文本进行文本相似度计算，最终将与当前文本信息相似度最高的预设文本对应的目标服务，确定为当前文本信息对应的目标服务。例如，对于聊天服务阈值了一条预设文本“给我说个笑话”，之后，当检测到文本信息“说个笑话给我”后，通过文本相似度计算确定该文本信息与预设文本“给我说个笑话”的相似度较高，因此可以将该预设文本确定为与当前的文本信息相匹配的文本，并将该预设文本对应的目标服务，即聊天服务确定为当前文本信息对应的目标服务。

在步骤A3中，在确定了目标服务后，从目标服务进一步获取目标资源作为当前语音信息对应的回应信息。可选地，每个目标服务下提前存储了多个目标资源(例如聊天服务下存储了多个笑话资源)，可以进一步根据该文本信息的内容准确地从目标服务下确定对应的一个或者多个目标资源作为回应信息。可选地，可以根据目标资源使用的频繁度、历史评分信息、以及与当前文本信息的相关度等匹配数值，由高到低对当前目标服务下的各个目标资源进行排序，最终将排序最前、即匹配数值最大的目标资源作为当前的回应信息；或者将排序好的各个目标资源的名称或者链接作为每一项列表项，输出包含这些列表项的目标资源列表，将该目标资源列表作为初步的回应信息，之后，用户可以从目标资源列表中选择一个目标资源进行展示。

可选地，在上述步骤A2的意图识别处理或者步骤A3的目标资源的确定过程中，可以对文本信息进行词槽获取，从而准确地匹配对应的目标服务或者目标资源。例如，设当前检测到的文本信息为“北京天气怎么样”，则可获取“北京”这个词作为地名词槽，根据该地名进行相关资源的搜寻。进一步地，有些词槽还可以没有固定的大小及类别，可以通过词性标注(形容词、名词、动词等词性)的方式来进行一个词槽的识别，例如对于文本信息“给我来首关于春天的主题诗”，其中“春天”可以是灵活设置的任意词汇，可以通过词性标注的方式来进行词槽识别标记。

可选地，本申请实施例的语音交互方法还包括：

通过扩展接口，导入新增的目标服务和/或目标资源。

本申请实施例中，电子设备可以提前预设了扩展接口，该扩展接口提前设定了数据接入标准，该数据接入标准用于规范新增的目标服务或者目标资源的数据格式，例如输入数据格式、返回数据格式等。按照该数据接入标准，可以通过该扩展接口导入新增的目标服务和/或目标资源，从而扩充了电子设备的功能。示例性地，该新增的目标服务可以为图像识别服务，通过该图像识别服务可以扩充图像识别功能。示例性地，新增的目标资源可以为已有的聊天服务下的诗词资源、对联资源、笑话资源等。

本申请实施例中，通过语音转文本处理及意图识别处理，能够准确地确定目标服务，从目标服务中获取对应的目标资源作为当前语音信息对应的回应信息，从而实现一种准确地回应信息确定方式。

在S103中，若获取到目标信息，则关闭所述语音监听功能；其中，所述目标信息为用户发出的指令信息。

本申请实施例中，在启动语音监听功能持续地对语音监听后，还进一步地通过目标信息的获取，确定当前语音交互的结束时机，及时地关闭语音监听功能，从而避免功耗及资源浪费。具体地，该目标信息为用户发出的指令信息，可以为用户发出的指示关闭语音监听功能的语音指令信息，也可以是获取到用户点击电子设备的第二指定触控区域、按压电子设备的第二指定按钮产生的指令信息，还可以是通过摄像模块获取到的用户作出预设的第二指令手势的信息。可选地，在关闭语音监听功能后，可以将本次语音交互过程识别到的所有语音信息及对应的回应信息进行绑定存储，以便之后的数据分析及数据查看。

本申请实施例中，第一方面，由于只需一次语音唤醒，就可以启动语音监听功能持续地进行语音监听，持续地对监听到的语音信息进行语音识别处理，并输出对应的回应信息，因此相对于现有的语音交互方式，无需多次进行语音唤醒，操作简便，并保证了语音交互过程的连贯性及流畅性。第二方面，由于在启动语音监听功能后，当获取到目标信息时，能够关闭当前的语音监听功能，结束此次的语音交互，即能够准确地确定此次语音交互的结束时机，避免在无需继续进行语音交互时持续进行无效的语音监听和语音识别，因此能够在保证实现便捷有效的语音交互的同时，避免功耗浪费及资源浪费。

请参阅图2，图2是本申请另一实施例提供的一种语音交互方法的实现流程图。该语音交互方法具体可以用于谈话场景中，如图3所示，该谈话场景包括目标用户31、目标人员32以及电子设备33，其中，该电子设备33通过执行本申请实施例的语音交互方法，辅助目标用户11及目标人员之间谈话的进行。其中，目标用户可以为电子设备的主要操控者，例如销售人员、访谈主持人、客户经理、客户代理人等，目标人员可以为该目标用户的访谈对象，例如客户、被采访者等。如图2所示的语音交互方法详述如下：

在S201中，若检测到语音唤醒指令，则拍摄当前的语音交互环境，得到环境图像。

本申请实施例中，语音唤醒指令具体可以为目标用户所发出的语音指令或者动作指令。在一个实施例中，目标用户提前设定了预设手势动作作为语音唤醒指令，当电子设备识别到该预设手势动作时，判定当前检测到语音唤醒指令。由于动作指令相对语音指令来说，不会出现多余的语音干扰，能够在不引起客户或者被采访者等目标人员的注意的情况下进行语音唤醒，因此能够避免对谈话过程造成不必要的干扰。

本申请实施例中，当检测到目标用户发出的语音唤醒指令后，过电子设备通过自身携带或者第三方的摄像模块，对当前的语音交互环境进行拍摄，得到环境图像。其中，语音交互环境即当前电子设备及目标用户所处的环境。可选地，具体可以根据当前的语音唤醒指令，确定调整拍摄角度后，拍摄当前的语音交互环境。例如，可以将目标用户在作出预设手势时手指所指的方向作为当前所要拍摄的方向，调整对应的拍摄角度进行拍摄，得到环境图像。

在S202中，若所述环境图像存在目标人员的人脸信息，则启动语音监听功能；其中，所述目标人员为预设的访谈对象。

本申请实施例中，目标用户提前设定了目标人员的人脸信息，该目标人员即为当前目标用户预设的访谈对象，例如预设的面访客户。

当获取到环境图像后，进行人脸检测。若从该环境图像中检测到与提前设定的目标人员的人脸信息相符的人脸信息，即判定当前环境图像存在目标人员的人脸信息，判定当前识别到目标人员，可以开始本次的语音监听过程，并启动语音监听功能以持续地进行语音监听。可选地，若从该环境图像中未能检测到与目标人员的人脸信息相符的人脸信息，即判定当前未识别到目标人员，不启动语音监听功能。

在S203中，对监听到的语音信息进行语音识别处理，确定所述语音信息对应的回应信息，并输出所述回应信息。

本申请实施例中，对监听到的语音信息进行语音识别处理，确定语音信息对应的回应信息的过程可以与上述步骤S102的执行过程相同，具体可以参照以上对步骤S102的相关描述，此处不赘述。

进一步地，本申请实施例中，所述对监听到的语音信息进行语音识别处理，确定所述语音信息对应的回应信息，包括：

对监听到的语音信息进行语音识别处理，并根据语音识别处理的结果及所述人脸信息，确定所述语音信息对应的回应信息。

本申请实施例中，语音交互方法的服务对象主要为目标人员，因此在对监听到的语音信息进行语音识别处理确定回应信息时，可以进一步结合该目标人员的人脸信息，准确地确定与该目标人员相符的回应信息。在一个实施例中，根据当前的人脸信息，判断该目标人员的年龄、性别、职业等个人属性信息，之后，在通过从上述的目标服务获取目标资源时，具体从中获取与该个人属性信息匹配度较高的目标资源作为回应信息。在另一个实施例中，根据当前的人脸信息，从本地或者第三方数据库的存储数据中，获取该目标人员的历史感兴趣信息，之后，在从目标服务获取目标资源时，优先将与目标人员的历史感兴趣信息一致或者相似度高的目标资源作为回应信息。

本申请实施例中，由于能够目标人员的人脸信息，即根据当前的服务对象的个人特征信息，更智能地进行回应信息的确定，因此能够实现回应信息的定制化，提高回应信息反馈的准确性及智能性，从而提高语音交互的效率。

可选地，在步骤S202中，输出回应信息具体包括：

显示所述回应信息。

本申请实施例中，由于具体将语音交互方法应用于谈话场景，为了避免干扰目标用户与目标人员的谈话过程，因此本申请实施例通常可以用无干扰、静默的显示方式来输出该回应信息，之后，目标用户和目标人员在需要时，可以从显示区域自主查看该显示的回应信息。具体地，可以在电子设备的屏幕中显示该回应信息，也可以将该回应信息投影在当前场景中指定的投影区域进行显示。

本申请实施例中，通过显示回应信息的方式来进行回应信息的输出，能够在降低对目标用户和目标人员的谈话过程的干扰的同时，及时有效地辅助谈话过程的进行。

进一步地，在步骤S202中，输出回应信息，可以包括：

若检测到目标动作，则判定当前存在语音辅助的需求，以语音的形式输出所述回应信息；所述目标动作为预设的表示需要语音辅助的动作。

虽然谈话场景中，通常是以显示的方式来输出回应信息，以降低对谈话过程的干扰，但是，在谈话过程中，也存在着需要语音辅助的情况，例如，可能存在着作为客户经理的目标用户可能无法回答作为客户的目标人员提出的某些问题，此时，可以通过语音输出回应信息的方式来回答客户提出的问题，以及时辅助当前谈话的进行。具体地，当检测到目标动作时，即判定当前存在语音辅助的需求，以语音的形式输出该回应信息。其中，该目标动作可以为目标用户提前预设的表示需要语音辅助的动作(即以该动作作为语音输出回应信息的指示暗号)，该动作可以为指定的手势动作、表情动作或者其它肢体动作等。具体地，该目标动作既可以为目标用户作出的动作，也可以为目标人员作出的动作。

本申请实施例中，由于能够在检测到目标动作，判定当前存在语音辅助的需求时，以语音的形式输出回应信息，从而及时地以语音的方式来辅助谈话过程的进行，从而进一步提高语音交互的智能性。

进一步地，上述的若检测到目标动作，则判定当前存在语音辅助的需求，以语音的形式输出所述回应信息，包括：

本申请实施例中，目标动作具体为注视电子设备的动作，该注视电子设备的动作具体可以为目标用户执行的动作，也可以为目标人员执行的动作，注视动作通常能够更直接准确地反映当前目标用户/目标人员的意图，当目标用户和/或目标人员注视该电子设备时，即判定当前目标用户或者目标人员正在等待回应信息的回答，即当前存在语音辅助的需求，以语音的形式输出该回应信息，以及时辅助当前谈话的进行。

具体地，电子设备可以实时或者每隔预设时间段获取目标人员或者目标用户的人脸姿态信息和/或眼睛信息，并根据人脸姿态信息和/或眼睛信息来确定当前目标人员或者目标用户是否作出注视电子设备的动作。在一个实施例中，电子设备每隔预设时间段捕获目标人员或者目标用户的人脸图像，根据该人脸图像，通过姿态角检测模块(例如提前训练好的用于检测人脸姿态角的神经网络)，确定当前的人脸姿态信息。若根据该人脸姿态角信息判定当前目标人员或者目标用户的脸部朝向电子设备所在的位置，则判定当前目标人员或者目标用户作出注视电子设备的动作。在另一个实施例中，电子设备安装了用于眼动追踪的装置(例如眼动仪)，通过该装置可以实时获取目标人员或者目标用户的眼睛信息，根据该眼睛信息来确定当前目标人员或者目标用户的视线，通过判定该视线是否落在电子设备，判定是否存在注视电子设备的动作。示例性地，该装置具体以眼睛的内眼角为基准点，以虹膜为动点，根据该虹膜相对于内眼角的位置，检测出视线。例如，若目标人员的虹膜远离内眼角时(即虹膜与内眼角的距离超出预设距离)，则判定该目标人员看向左侧，此时，若电子设备的位置位于该目标人员的左侧，则判定该目标人员正在作出注视电子设备的动作，判定当前存在语音辅助的需求，以语音的形式输出回应信息。示例性地，该装置能够检测眼睛的瞳孔位置及角膜反射信息，根据该瞳孔位置及角膜反射信息(例如角膜反射中心、角膜反射曲率中心)，确定相应的视线，例如，角膜反射曲率中心指向瞳孔位置的方向作为视线方向。之后，根据该视线方向及电子设备的位置，判定视线是否落在电子设备上，若是，则判定当前存在语音辅助的需求，以语音的形式输出回应信息。

本申请实施例中，由于注视动作通常能够准确地反映目标用户或者目标人员的求助意图，因此以注视电子设备的动作作为目标动作，能够准确地判定当前是否存在语音辅助需求，从而在降低对面访过程的干扰的同时，及时准确地以语音的方式来辅助谈话过程的进行。

在S204中，按照预设时间间隔获取所述目标人员的人脸信息；当获取不到所述人脸信息则关闭所述语音监听功能。

本申请实施例中，本次语音交互的主要服务对象为目标人员，该目标人员的人脸信息可以作为本次标识这次语音交互正在进行的信息。因此，在步骤S202之后，本申请实施例的语音交互过程还包括，每隔预设时间间隔获取目标人员的人脸信息。当获取不到该人脸信息时，则可判定目标人员离开，判定本次的语音交互结束，自动及时地关闭语音监听功能，以避免长时间无效的语音监听造成功耗浪费及资源浪费。具体地，电子设备可以每隔预设时间间隔通过摄像模块来捕获当前的环境图像，通过该环境图像来获取目标人员的人脸信息。当根据该环境图像无法查找到与步骤S201中获取到的人脸信息相符的信息时，则判定获取不到该人脸信息，判定当前目标人员离开，此时关闭语音监听功能。结束此次的语音交互。

在S205中，若获取到目标信息，则关闭所述语音监听功能；其中，所述目标信息为用户发出的指令信息。

本申请实施例的步骤S205与上述的步骤S103相同，具体可以参见上述步骤对步骤S103的相关描述，此处不赘述。

本申请实施例中，具体考虑到语音交互方法在人员谈话场景下的具体应用，通过目标人员的人脸信息准确地进行谈话起始时机的判定，当根据该人脸信息判定目标人员离开时，及时准确地结束本次语音交互，以避免长时间无效的语音监听造成功耗浪费及资源浪费。

实施例二：

图4示出了本申请实施例提供的一种语音交互装置的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分：

该语音交互装置包括：启动单元41、语音识别单元42、第一关闭单元43。其中：

启动单元41，用于若检测到语音唤醒指令，则启动语音监听功能以持续地进行语音监听。

语音识别单元42，用于若检测到语音唤醒指令，则启动语音监听功能以持续地进行语音监听。

第一关闭单元43，用于若获取到目标信息，则关闭所述语音监听功能；其中，所述目标信息为用户发出的指令信息。

可选地，所述启动单元41，具体用于若检测到语音唤醒指令，则拍摄当前的语音交互环境，得到环境图像；若所述环境图像存在目标人员的人脸信息，则启动语音监听功能；其中，所述目标人员为预设的访谈对象；

对应地，所述语音交互装置还包括：

第二关闭单元，用于按照预设时间间隔获取所述目标人员的人脸信息；当获取不到所述人脸信息则关闭所述语音监听功能。

可选地，所述语音识别单元42，包括：

语音输出模块，用于若检测到目标动作，则判定当前存在语音辅助的需求，以语音的形式输出所述回应信息；其中，所述目标动作为预设的表示需要语音辅助的动作。

可选地，所述语音交互装置应用于电子设备，所述语音输出模块，具体用于获取所述目标人员或者目标用户的人脸姿态信息和/或眼睛信息；其中，所述目标用户发出所述语音唤醒指令的用户；若根据所述人脸姿态信息和/或所述眼睛信息确定所述目标人员或者目标用户作出注视所述电子设备的目标动作，则判定当前存在语音辅助的需求，以语音的形式输出所述回应信息。

可选地，所述启动单元41，具体用于若检测到语音唤醒指令，则获取发出所述语音唤醒指令的用户的信息；若所述用户的信息与预设的授权用户信息相匹配，则启动语音监听功能以持续地进行语音监听；否则，返回表示拒绝所述语音唤醒指令的提示信息。

可选地，所述语音识别单元42，具体用于对监听到的语音信息进行语音识别处理，确定所述语音信息的声纹特征信息；根据所述声纹特征信息，获取与所述声纹特征信息相匹配的个性化推荐信息作为回应信息。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

实施例三：

图5是本申请另一实施例提供的一种电子设备的结构框图。如图5所示，该实施例的电子设备50包括：处理器51、存储器52以及存储在所述存储器52中并可在所述处理器51上运行的计算机程序53，例如语音交互方法的程序。处理器51执行所述计算机程序73时实现上述各个语音交互方法各实施例中的步骤，例如图1所示的S101至S103，或者例如2所示的S201至S203。或者，所述处理器51执行所述计算机程序53时实现上述图4对应的实施例中各单元的功能，例如，图4所示的单元41至43的功能，具体请参阅图4对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序53可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器52中，并由所述处理器51执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序53在所述电子设备50中的执行过程。例如，所述计算机程序53可以被分割成启动单元、语音识别单元、第一关闭单元，各单元具体功能如上所述。

所述转台设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图5仅仅是电子设备50的示例，并不构成对电子设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器52可以是所述电子设备50的内部存储单元，例如电子设备50的硬盘或内存。所述存储器52也可以是所述电子设备50的外部存储设备，例如所述电子设备50上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器52还可以既包括所述电子设备50的内部存储单元也包括外部存储设备。所述存储器52用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种语音交互方法，其特征在于，包括：

2.如权利要求1所述的语音交互方法，其特征在于，所述若检测到语音唤醒指令，则启动语音监听功能以持续地进行语音监听，包括：

对应地，所述语音交互方法，还包括：

按照预设时间间隔获取所述目标人员的人脸信息；

当获取不到所述人脸信息则关闭所述语音监听功能。

3.如权利要求2所述的语音交互方法，其特征在于，所述输出所述回应信息，包括：

4.如权利要求3所述的语音交互方法，其特征在于，所述方法应用于电子设备，所述若检测到目标动作，则判定当前存在语音辅助的需求，以语音的形式输出所述回应信息，包括：

5.如权利要求1所述的语音交互方法，其特征在于，所述若检测到语音唤醒指令，则启动语音监听功能以持续地进行语音监听，包括：

6.如权利要求1所述的语音交互方法，其特征在于，所述对监听到的语音信息进行语音识别处理，确定所述语音信息对应的回应信息，包括：

7.如权利要求1至6任意一项所述的语音交互方法，其特征在于，所述语音识别处理包括语音转文本处理及意图识别处理，所述对监听到的语音信息进行语音识别处理，确定所述语音信息对应的回应信息，包括：

8.一种语音交互装置，其特征在于，包括：

第一关闭单元，用于若获取到目标信息，则关闭所述语音监听功能；其中，所述目标信息为用户发出的指令信息。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。