CN111370004A

CN111370004A - 人机交互方法、语音处理方法及设备

Info

Publication number: CN111370004A
Application number: CN201811592535.7A
Authority: CN
Inventors: 方婷
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2020-07-03

Abstract

本申请实施例提供一种人机交互方法、语音处理方法及设备。其中，方法包括如下的步骤：采集用户发出的语音信息；确定所述用户在发出所述语音信息时的脸部朝向信息；根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应。本申请实施例提供的技术方案中，不仅能够降低误识别率，还能避免现有技术中因每轮会话时需唤醒设备导致的用户与设备交流的效率低下以及自然度较差等问题。

Description

人机交互方法、语音处理方法及设备

技术领域

本申请涉及电子技术领域，尤其涉及一种人机交互方法、语音处理方法及设备。

背景技术

随着语音识别技术和自然语音处理技术的发展，与电子设备进行语音对话等方式可有效减少用户交互成本，方便用户使用。目前，市面上的智能音箱、智能手机中的语音助手都可以实现与用户进行语音对话功能。

现有技术中，为了降低误识别率，在与用户完成一轮会话后，智能音箱就会进行休眠处理，即智能音箱进入休眠状态；若用户还想继续与智能音箱进行会话，用户还需要通过唤醒词唤醒智能音箱。也就是说，用户与智能音箱的每轮会话都需要喊一下唤醒词，影响用户与设备交流的效率和自然。

发明内容

鉴于上述问题，提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的人机交互方法、语音处理方法及设备。

于是，在本申请的一个实施例中，提供了一种人机交互方法。该方法包括：

采集用户发出的语音信息；

获取所述用户在发出所述语音信息时的脸部朝向信息；

基于所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应。

于是，在本申请的又一个实施例中，提供了一种语音处理方法。该方法包括：

采集用户发出的语音信息；

确定所述用户在发出所述语音信息时的脸部朝向信息；

基于所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令。

在本申请的另一实施例中，提供了一种人机交互方法。该方法包括：

在完成一轮会话后，保持唤醒状态以等待采集用户再次发出的语音信息；

采集到所述用户再次发出的语音信息时，获取在所述用户发出所述语音信息时采集的图像信息；

基于所述图像信息，确定是否需要对所述语音信息作出相应的响应。

在本申请的又一实施例中，提供了一种电子设备。该电子设备，包括：第一存储器、第一处理器和第一音频组件，其中，

所述第一存储器，用于存储程序；

所述第一音频组件，与所述第一处理器耦合，用于采集用户发出的语音信息；

所述第一处理器，与所述第一存储器耦合，用于执行所述第一存储器中存储的所述程序，以用于：

确定所述用户在发出所述语音信息时的脸部朝向信息；

根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应。

在本申请的又一实施例中，提供了一种电子设备。该电子设备，包括：第三存储器、第三处理器和第三音频组件，其中，

所述第三存储器，用于存储程序；

所述第三音频组件，与所述第三处理器耦合，用于采集用户发出的语音信息；

所述第三处理器，与所述第三存储器耦合，用于执行所述第三存储器中存储的所述程序，以用于：

确定所述用户在发出所述语音信息时的脸部朝向信息；

在本申请的又一实施例中，提供了一种电子设备。该电子设备，包括：第二存储器、第二处理器和第二音频组件，其中，

所述第二存储器，用于存储程序；

所述第二音频组件，与所述第二处理器耦合；

所述第二处理器，与所述第二存储器耦合，用于执行所述第二存储器中存储的所述程序，以用于：

在完成一轮会话后，保持唤醒状态以由所述第二音频组件等待采集用户再次发出的语音信息；

所述第二音频组件采集到所述用户再次发出的语音信息时，获取在所述用户发出所述语音信息时采集的图像信息；

本申请实施例提供的技术方案中，在采集到用户发出的语音信息时，根据用户在发出语音信息时的脸部朝向信息，能够准确判断出用户是否有交互意愿。因此，根据脸部朝向信息来判断是否做出响应，可降低误识别率。与现有技术相比，本申请实施例提供的技术方案，不仅能够降低误识别率，还能避免现有技术中因每轮会话时需唤醒设备导致的用户与设备交流的效率低下以及自然度较差等问题。

本申请实施例提供的技术方案中，在采集到用户发出的语音信息时，根据用户在发出语音信息时的脸部朝向信息，能够准确判断出用户是否有交互意愿。因此，根据脸部朝向信息来判断采集到的语音信息是否为语音指令，可降低误识别率。与现有技术相比，本申请实施例提供的技术方案，不仅能够降低误识别率，还能避免现有技术中因每轮会话时需唤醒设备导致的用户与设备交流的效率低下以及自然度较差等问题。

本申请实施例提供的技术方案中，在与用户完成一轮会话后，会保持唤醒状态以等待采集用户再次发出的语音信息。为了避免误响应用户发出的语音信息，会结合图像来判断用户是否有交互意愿，从而确定是否响应。可见，本申请实施例提供的技术方案，不仅能保证用户与设备交流的效率和自然，还能降低误响应率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的人机交互方法的流程示意图；

图2为本申请又一实施例提供的人机交互方法的流程示意图；

图3为本申请一实施例提供的人机交互装置的结构框图；

图4为本申请又一实施例提供的人机交互装置的结构框图；

图5为本申请一实施例提供的电子设备的结构框图；

图6为本申请又一实施例提供的电子设备的结构框图；

图7为本申请又一实施例提供的语音处理方法的流程示意图；

图8为本申请又一实施例提供的语音处理装置的结构框图；

图9为本申请又一实施例提供的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

现有技术中，为了降低误识别率，在与用户完成一轮会话后，设备就会进行休眠处理，不再接受用户的语音信息，例如：用户说：智能音箱(唤醒词)，今天天气怎么样，电子设备进入唤醒状态并回答出今天天气如何后，该轮会话结束，智能音箱进入休眠状态；当用户还想继续与设备进行会话时，用户还需要再次唤醒设备才能进行语音指令输入，例如：用户还想询问：今天有什么新闻，则用户需说：智能音箱(唤醒词)，今天有什么新闻。也就是说，用户与设备的每轮会话都需要喊一下唤醒词，这必然影响用户与设备交流的效率和自然，拟人效果较差。

本申请实施例提供了一种结合摄像头来判断用户是否有交互意愿，只有在判断出用户有交互意愿时才会响应采集到的语音信息。不仅可降低误识别率，还能避免现有技术中高频使用唤醒词导致的拟人性差等问题。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出了本申请一实施例提供的人机交互方法的流程示意图。本申请实施例提供的人机交互方法的执行主体可以为语音智能设备，例如：手机、电脑、机器人、智能音箱、智能汽车等。如图1所示，该方法包括：

101、采集用户发出的语音信息。

102、确定所述用户在发出所述语音信息时的脸部朝向信息。

103、根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应。

上述101中，语音智能设备可实时采集周围环境中的声音信息，以确保能够采集到用户发出的语音信息。例如：可通过麦克风或麦克风阵列来采集周围环境中的声音信号。

上述102中，语音智能设备可结合摄像头来确定用户在发出该语音信息时的脸部朝向信息；或者，用户可在其头部佩戴一用于检测脸部朝向信息的可穿戴设备，例如：智能眼镜，佩戴在用户头部的可穿戴设备将在用户发出该语音信息时检测到的脸部朝向信息发送至语音智能设备。

上述103中，根据脸部朝向信息，判断用户是否有与语音智能设备进行交互的意愿。若有交互意愿，则确定需要对该语音信息作出相应的响应。若没有交互意愿，则确定不需要对该语音信息作出相应的响应。

通常，人与人交谈时，都是面对面，而不会背对背。若用户脸部朝向背对着语音智能设备，可判断用户没有与语音智能设备进行交互的意愿；若用户脸部朝向对着语音智能设备，可判断用户有与语音智能设备进行交互的意愿。

语音智能设备除了可以语音响应外，还可有操作响应和/或界面响应。例如：语音信息为：“帮我设置明天上午5点的闹钟”，语音智能设备的响应有：设置明天上午5点的闹钟，显示设置结果，并回答“已设置好明天上午五点的闹钟”。

在第一种可实现的方案中，所述脸部朝向信息包括：面部朝向。上述103中“根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应”，具体为：所述面部朝向为第一方向时，确定需要对所述语音信息作出相应的响应。

其中，第一方向可以是正对语音智能设备的基准方向；或者，为与正对语音智能设备的基准方向偏离小于预设角度值的任一方向。例如：预设角度值为10°，那么，与正对语音智能设备的基准方向偏离5°的方向可以为第一方向，偏离9°的方向也可以为第一方向。本领域的技术人员可根据实际需要来设定预设角度值的数值大小，只需确保用户面部朝向是朝向语音智能设备即可。

为了准确判断用户的交互意愿，上述脸部朝向信息还可包括：视觉朝向。所述面部朝向为第一方向时，确定需要对所述语音信息作出相应的响应，具体为：所述面部朝向和所述视觉朝向均为第一方向时，确定需要对所述语音信息作出相应的响应。面部朝向和视觉朝向均为第一方向，说明用户在输出语音信息时，不仅用户面部朝向语音智能设备，用户眼睛还看着语音智能设备。

在第二种可实现的方案中，所述脸部朝向信息包括：视觉朝向。上述103中“基于所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应”，具体为：所述视觉朝向为第一方向时，确定需要对所述语音信息作出相应的响应。

其中，第一方向的定义可参见上述实施例相应内容，在此不再赘述。

进一步的，上述步骤102中“确定所述用户在输入所述语音信息时的脸部朝向信息”，具体可采用如下步骤来实现：

1021、获取在所述用户发出所述语音信息时采集的图像信息。

1022、对所述图像信息进行图像识别，以得到所述脸部朝向信息。

上述1021中，若语音智能设备上设有摄像头，可由语音智能设备上的摄像头来采集图像信息；若语音智能设备上没有设摄像头，可由语音智能设备所在空间内已有的监控摄像头来获取，语音智能设备与监控摄像头通过交互来获取监控摄像头采集的图像信息。当然，还可在语音智能设备所在空间内单独设置一配合语音智能设备的摄像头。摄像头可实时采集周围环境的图像信息，以确保在用户发出该语音信息时采集到图像信息。

上述1022中，对所述图像信息进行图像识别，以得到所述脸部朝向信息。脸部朝向信息可包括：面部朝向和/或视觉朝向。可根据人物图像中用户的面部五官和来确定用户的面部朝向以及根据用户的瞳孔定位来确定用户的视觉朝向。

为了进一步降低误识别率，上述方法，还可包括：

104、在所述用户发出所述语音信息时，检测所述用户是否在第一预设范围内。

相应的，上述103中“根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应”，具体为：所述用户在所述第一预设范围内时，根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应。

上述104中，可采用红外线检测技术来检测用户与语音智能设备的距离。例如：在采集到用户发出的语音信息时，可触发语音智能设备上安装的红外距离检测单元发出红外光以测量用户与语音智能设备之间的距离。该距离小于第一预设阈值时，则说明用户在第一预设范围内。该距离大于或等于第一预设阈值时，则可说明用户不在第一预设范围内，可直接确定无需对所述语音信息作出相应的响应。第一预设阈值的数值大小可根据实际需要进行设定，在此不作具体限定。

图7示出了本申请又一实施例提供的语音处理方法的流程示意图。本申请实施例提供的人机交互方法的执行主体可以为语音智能设备，例如：手机、电脑、机器人、智能音箱、智能汽车等。如图7所示，该方法，包括：701、采集用户发出的语音信息。

702、确定所述用户在发出所述语音信息时的脸部朝向信息。

703、基于所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令。

上述701中，语音智能设备可实时采集周围环境中的声音信息，以确保能够采集到用户发出的语音信息。例如：可通过麦克风或麦克风阵列来采集周围环境中的声音信号。

上述702中，语音智能设备可结合摄像头来获取用户在发出该语音信息时的脸部朝向信息；或者，用户可在其头部佩戴一用于检测脸部朝向信息的可穿戴设备，例如：智能眼镜，佩戴在用户头部的可穿戴设备将在用户发出该语音信息时检测到的脸部朝向信息发送至语音智能设备。

上述703中，根据脸部朝向信息，判断用户是否有与语音智能设备进行交互的意愿。若有交互意愿，则确定语音信息为用户的语音指令。若没有交互意愿，则确定语音信息为用户的语音指令。

本申请实施例提供的技术方案中，在采集到用户发出的语音信息时，根据用户在发出语音信息时的脸部朝向信息，能够准确判断出用户是否有交互意愿。因此，根据脸部朝向信息来判断语音信息是否为语音指令，可降低误识别率。与现有技术相比，本申请实施例提供的技术方案，不仅能够降低误识别率，还能避免现有技术中因每轮会话时需唤醒设备导致的用户与设备交流的效率低下以及自然度较差等问题。

在第一种可实现的方案中，脸部朝向信息包括：面部朝向。上述703中“基于所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令”，具体为：所述面部朝向为第一方向时，确定所述语音信息为所述用户的语音指令。

为了准确判断用户的交互意愿，上述脸部朝向信息还可包括：视觉朝向。所述面部朝向为第一方向时，确定所述语音信息是否为所述用户的语音指令，具体为：所述面部朝向和所述视觉朝向均为第一方向时，确定所述语音信息是否为所述用户的语音指令。面部朝向和视觉朝向均为第一方向，说明用户在输出语音信息时，不仅用户面部朝向语音智能设备，用户眼睛还看着语音智能设备。

在第二种可实现的方案中，所述脸部朝向信息包括：视觉朝向。上述703中“基于所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令”，具体为：所述视觉朝向为第一方向时，确定所述语音信息为所述用户的语音指令。

为了进一步降低误识别率，上述方法，还可包括：

704、在所述用户发出所述语音信息时，检测所述用户是否在第一预设范围内。

相应的，上述703中“根据所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令”，具体为：所述用户在所述第一预设范围内时，根据所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令。

上述704中，可采用红外线检测技术来检测用户与语音智能设备的距离。例如：在采集到用户发出的语音信息时，可触发语音智能设备上安装的红外距离检测单元发出红外光以测量用户与语音智能设备之间的距离。该距离小于第一预设阈值时，则说明用户在第一预设范围内。该距离大于或等于第一预设阈值时，则可说明用户不在第一预设范围内，可直接确定该语音信息不是用户的语音指令。第一预设阈值的数值大小可根据实际需要进行设定，在此不作具体限定。

这里需要说明的是：本实施例各步骤的具体实现，在本实施例中未详细阐述的部分可参见上述各实施例中的相关内容，此处不再赘述。另外，本申请实施例提供的方法还可包括上述实施例中提及但在本实施例中未提及的步骤，在本申请实施例未提及的步骤可参见上述实施例中的相应内容，此处不再赘述。

图2示出了本申请又一实施例提供的人机交互方法的流程示意图。本申请实施例提供的人机交互方法的执行主体可以为语音智能设备，例如：手机、电脑、机器人、智能音箱、智能汽车等。如图2所示，该方法，包括：

201、在完成一轮会话后，保持唤醒状态以等待采集用户再次发出的语音信息。

202、采集到所述用户再次发出的语音信息时，获取在所述用户发出所述语音信息时采集的图像信息。

203、基于所述图像信息，确定是否需要对所述语音信息作出相应的响应。

上述201中，一轮会话指的是完成某一事件的整个交谈过程，该事件可以是询问事件、命令事件等。一轮会话中可包括至少一次语音交互。

举例来说：用户向语音智能设备发出：“请帮我设置闹钟”，语音智能设备问：“请问设置几点的闹钟”；用户向语音智能设备回复说：“5点”，语音智能设备设置五点闹钟后回复：“已帮您设置好5点闹钟”。这整个交谈过程完成了闹钟设置这一事件。完成闹钟设置这一事件的整个交谈过程就是一轮会话，该轮会话中包括了两次语音交互，一次是：用户向语音智能设备发出：“请帮我设置闹钟”，语音智能设备问：“请问设置几点的闹钟”；另一次是:用户向语音智能设备回复说：“5点”，语音智能设备设置五点闹钟后回复：“已帮您设置好5点闹钟”。

在举例来说：用户向语音智能设备发出：“请问今天天气怎么样”，语音智能设备回复：“今天天气晴朗、温度2到17摄氏度”。这整个交谈过程完成了天气询问这一事件。完成天气询问这事件的整个交谈过程就是一轮会话，该轮会话中仅包括一次语音交互。

在完成一轮会话后，保持唤醒状态以等待采集用户再次发出的语音信息。这样，当用户还想继续进行会话时，无需再次通过唤醒词来唤醒语音智能设备。

上述202中，获取在所述用户发出所述语音信息时采集的图像信息的具体实现可参见上述各实施例中相应内容，在此不再赘述。

上述203中，根据图像信息来判断用户是否有与语音智能设备进行交互的意愿。

例如：图像信息是由语音智能设备上的摄像头采集得到的；图像信息中不存在用户的人物图像，则说明用户距离语音智能设备很远或不在语音智能设备的可视范围内，用户具有与语音智能设备进行交互的意愿的概率就很小，因此，可确定无需对所述语音信息作出相应的响应。图像信息中存在用户的人物图像，则说明用户在语音智能设备的可视范围内，用户具有与语音智能设备进行交互的意愿的概率就较大，因此，可确定需要对所述语音信息作出相应的响应。

再例如：图像信息是由语音智能设备上的摄像头采集得到的；图像信息中不存在用户的人脸图像，则说明用户是背对着语音智能设备发出的语音信息，用户具有与语音智能设备进行交互的意愿的概率就很小，因此，可确定无需对所述语音信息作出相应的响应。图像信息中存在用户的人脸图像，则说明用户并没有背对着语音智能设备说话，用户具有与语音智能设备进行交互的意愿的概率就较大，因此，可确定需要对所述语音信息作出相应的响应。

在一种可实现的方案中，上述203中“基于所述图像信息，确定是否需要对所述语音信息作出相应的响应”，具体可采用如下步骤来实现：

2031、对所述图像信息进行图像识别，以得到所述用户在发出所述语音信息时的脸部朝向信息。

2032、根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应。

上述2031和2032的具体实现可参见上述各实施例中相应内容，在此不再赘述。

在第一种可实现的方案中，所述脸部朝向信息包括：面部朝向。上述2032中“根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应”，具体为：所述面部朝向为第一方向时，确定需要对所述语音信息作出相应的响应。

其中，第一方向可以是正对语音智能设备的基准方向，或者，为与正对语音智能设备的基准方向偏离小于预设角度值的任一方向。例如：预设角度值为10°，那么，与正对语音智能设备的基准方向偏离5°的方向可以为第一方向，偏离9°的方向也可以为第一方向。本领域的技术人员可根据实际需要来设定预设角度值的数值大小，只需确保用户面部朝向是朝向语音智能设备即可。

为了准确判断用户的交互意愿，上述脸部朝向信息还可包括：视觉朝向。所述面部朝向为第一方向时，确定需要对所述语音信息作出相应的响应，具体为：所述面部朝向和所述视觉朝向均为第一方向时，确定需要对所述语音信息作出相应的响应。面部朝向和视觉朝向均为第一方向时，说明用户在输出语音信息时，不仅用户面部朝向语音智能设备，用户眼睛还看着语音智能设备。

在第二种可实现的方案中，所述脸部朝向信息包括：视觉朝向。上述2032中“根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应”，具体为：所述视觉朝向为第一方向时，确定需要对所述语音信息作出相应的响应。

其中，第一方向的定义可参见上述各实施例中相应内容。

为了降低语音智能设备的功耗以及准确识别多轮对话中的第一轮对话，可在用户进行第一轮对话时通过唤醒词来唤醒语音智能设备，例如：用户在进行第一轮会话时，在发出的语音信息之前加上唤醒词。第一轮对话通过唤醒词唤醒语音智能设备的具体实现可参见现有技术，在此不再详述。

为了进一步降低误识别率，上述人机交互方法，还包括：

204、在所述用户发出所述语音信息时，检测所述用户是否在第一预设范围内。

相应的，上述202中“采集到所述用户再次发出的语音信息时，获取在所述用户发出所述语音信息时采集的图像信息”，具体为：采集到所述用户再次发出的语音信息且所述用户在所述第一预设范围内时，获取在所述用户发出所述语音信息时采集的图像信息。

上述204的具体实现可参见上述各实施例相应内容，在此不再赘述。

为了进一步减低误识别率，上述201中“在完成一轮会话后，保持唤醒状态以等待采集用户再次发出的语音信息”，具体可采用如下方式来实现：

2011、在完成一轮会话后，检测用户是否在第二预设范围内。

2012、所述用户在所述第二预设范围内时，保持唤醒状态以等待采集所述用户再次发出的语音信息。

上述2011中，可采用红外线检测技术来检测用户与语音智能设备的距离。例如：在一轮会话结束后，触发语音智能设备上安装的红外距离检测单元发出红外光以测量用户与语音智能设备之间的距离。该距离小于第二预设阈值时，判定用户在第二预设范围内。该距离大于或等于第二预设阈值时，判定用户不在第二预设范围内，且可将唤醒状态切换至休眠状态，以降低能耗，也可降低误识别率。

其中，第二预设阈值的数值大小可根据实际需要进行设置，本申请实施例对此不作具体限定。

实际应用时，若进行完一轮会话后，在很长时间段内并未采集到用户再次发出的语音信息，可表明用户已无再进行交谈的需求了，可将唤醒状态切换至休眠状态。具体地，上述方法，还包括：

205、若在完成一轮会话后预设时间段内未采集到所述用户再次发出的语音信息，则将唤醒状态切换至休眠状态。

综上所述，本申请实施例提供的技术方案，结合摄像头进行人脸检测，通过人脸面部五官和瞳孔定位来确定用户的面部朝向和视觉朝向(也即是：注视对象)，判断用户与设备是否还有互动需求(即互动意愿)，进而无需再次唤醒继续执行下一轮会话，完成跨领域的多轮对话。

采用本申请实施例提供的技术方案，用户在与设备进行多轮会话过程中，只需在第一轮会话时采用唤醒词唤醒即可，确保用户与设备交流的流畅性和自然。

图3示出了本申请一实施例提供的人机交互装置的结构框图。如图3所示，该装置包括：第一采集模块301、第一获取模块302以及第一确定模块303。

第一采集模块301，用于采集用户发出的语音信息；

第一确定模块302，用于获取所述用户在发出所述语音信息时的脸部朝向信息；

第二确定模块303，用于根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应。

进一步的，所述脸部朝向信息包括：面部朝向；第二确定模块303，具体用于：

所述面部朝向为第一方向时，确定需要对所述语音信息作出相应的响应。

进一步的，所述脸部朝向信息还包括：视觉朝向；第二确定模块303，具体用于：

所述面部朝向和所述视觉朝向均为第一方向时，确定需要对所述语音信息作出相应的响应。

进一步的，所述第一确定模块302，具体用于：

获取在所述用户发出所述语音信息时采集的图像信息；

对所述图像信息进行图像识别，以得到所述脸部朝向信息。

进一步的，上述装置，还包括：

第一检测模块，用于在所述用户发出所述语音信息时，检测所述用户是否在第一预设范围内；

所述第二确定模块303，具体用于：

所述用户在所述第一预设范围内时，根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应。

这里需要说明的是：上述实施例提供的人机交互装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图8示出了本申请又一实施例提供的语音处理装置的结构框图。如图8所示，该装置包括：

第二采集模块801，用于采集用户发出的语音信息。

第三确定模块802，用于确定所述用户在发出所述语音信息时的脸部朝向信息。

第四确定模块803，用于基于所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令。

本申请实施例提供的技术方案中，在采集到用户发出的语音信息时，根据用户在发出语音信息时的脸部朝向信息，能够准确判断出用户是否有交互意愿。因此，根据脸部朝向信息来判断语音信息是否为用户的语音指令，可降低误识别率。与现有技术相比，本申请实施例提供的技术方案，不仅能够降低误识别率，还能避免现有技术中因每轮会话时需唤醒设备导致的用户与设备交流的效率低下以及自然度较差等问题。

进一步的，所述脸部朝向信息包括：面部朝向。所述第四确定模块803，具体用于：所述面部朝向为第一方向时，确定所述语音信息为所述用户的语音指令。

进一步的，所述脸部朝向信息还可包括：视觉朝向。所述第四确定模块803，具体用于：所述面部朝向和所述视觉朝向均为第一方向时，确定所述语音信息为所述用户的语音指令。

进一步的，上述装置还可包括：

第二检测模块，用于在所述用户发出所述语音信息时，检测所述用户是否在第一预设范围内。相应的，第四确定模块803，具体用于：所述用户在所述第一预设范围内时，根据所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令。

图4示出了本申请又一实施例提供的人机交互装置的结构框图。如图4所示，该装置包括：第一保持模块401、第一获取模块402和第五确定模块403。其中，

第一保持模块401，用于在完成一轮会话后，保持唤醒状态以等待采集用户再次发出的语音信息；

第一获取模块402，用于采集到所述用户再次发出的语音信息时，获取在所述用户发出所述语音信息时采集的图像信息；

第五确定模块403，用于基于所述图像信息，确定是否需要对所述语音信息作出相应的响应。

进一步的，第五确定模块403，包括：

第一识别单元，用于对所述图像信息进行图像识别，以得到所述用户在发出所述语音信息时的脸部朝向信息；

第一确定单元，用于根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应。

进一步的，所述面部朝向信息包括：面部朝向；第一确定单元，具体用于：所述面部朝向为第一方向时，确定需要对所述语音信息作出相应的响应。

进一步的，所述脸部朝向信息还包括：视觉朝向；

第一确定单元，具体用于：所述面部朝向和所述视觉朝向均为第一方向时，确定需要对所述语音信息作出相应的响应。

进一步的，上述装置，还包括：

第二检测模块，用于在所述用户发出所述语音信息时，检测所述用户是否在第一预设范围内；

上述第一获取模块402，具体用于：

采集到所述用户再次发出的语音信息且所述用户在所述第一预设范围内时，获取在所述用户发出所述语音信息时采集的图像信息。

进一步的，所述第一保持模块401，具体用于：

在完成一轮会话后，检测用户是否在第二预设范围内；

所述用户在所述第二预设范围内时，保持唤醒状态以等待采集所述用户再次发出的语音信息。

进一步，上述装置，还包括：

第一切换模块，用于若在完成一轮会话后预设时间段内未采集到所述用户再次发出的语音信息，则将唤醒状态切换至休眠状态。

图5为本申请一实施例提供的电子设备的结构示意图。该电子设备包括：第一存储器1201、第一处理器1202和第一音频组件1206。第一存储器1201可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第一存储器1201可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述第一音频组件1206，与所述第一处理器1202耦合，用于采集用户发出的语音信息；

所述第一处理器1202，与所述第一存储器1201耦合，用于执行所述第一存储器1201中存储的所述程序，以用于：

获取所述用户在发出所述语音信息时的脸部朝向信息；

其中，第一处理器1202在执行第一存储器1201中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。

进一步，如图5所示，电子设备还包括：第一通信组件1203、第一显示器1204、第一电源组件1205、第一图像采集组件1207等其它组件。其中，所述第一图像采集组件1207(可以为摄像头)用于在所述用户发出所述语音信息时采集图像信息。图5中仅示意性给出部分组件，并不意味着电子设备只包括图5所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的人机交互方法的步骤或功能。

上述电子设备可以为智能音箱、手机、电脑、智能汽车等。

图9为本申请一实施例提供的电子设备的结构示意图。该电子设备包括：第三存储器1401、第三处理器1402和第三音频组件1406。第三存储器1401可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第三存储器1401可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述第三音频组件1406，与所述第三处理器1402耦合，用于采集用户发出的语音信息；

所述第三处理器1402，与所述第三存储器1401耦合，用于执行所述第三存储器1401中存储的所述程序，以用于：

确定所述用户在发出所述语音信息时的脸部朝向信息；

其中，第三处理器1402在执行第三存储器1401中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。

进一步，如图9所示，电子设备还包括：第三通信组件1403、第三显示器1404、第三电源组件1405、第三图像采集组件1407等其它组件。其中，所述第三图像采集组件1407(可以为摄像头)用于在所述用户发出所述语音信息时采集图像信息。图9中仅示意性给出部分组件，并不意味着电子设备只包括图9所示组件。

上述电子设备可以为智能音箱、手机、电脑、智能汽车等。

图6示出了本申请一实施例提供的电子设备的结构示意图。如图6所示，所述电子设备包括第二存储器1301、第二处理器1302和第二音频组件1306。第二存储器1301可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第二存储器1301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

第二音频组件1306，与所述第二处理器1302耦合；

所述第二处理器1302，与所述第二存储器1301耦合，用于执行所述第二存储器1301中存储的所述程序，以用于：

在完成一轮会话后，保持唤醒状态以由所述第二音频组件1306等待采集用户再次发出的语音信息；

所述第二音频组件1306采集到所述用户再次发出的语音信息时，获取在所述用户发出所述语音信息时采集的图像信息；

其中，第二处理器1302在执行第二存储器1301中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。

进一步，如图6所示，电子设备还包括：第二通信组件1303、第二显示器1304、第二电源组件1305、第二图像采集组件1307等其它组件。其中，所述第二图像采集组件1307(可以为摄像头)用于在所述用户发出所述语音信息时采集图像信息。图6中仅示意性给出部分组件，并不意味着电子设备只包括图6所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的人机交互方法步骤或功能。

上述电子设备可以为智能音箱、手机、电脑、智能汽车等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种人机交互方法，其特征在于，包括：

采集用户发出的语音信息；

确定所述用户在发出所述语音信息时的脸部朝向信息；

2.根据权利要求1所述的方法，其特征在于，所述脸部朝向信息包括：面部朝向；

根据所述脸部朝向信息，确定是否需要对所述语音信息作出相应的响应，包括：

3.根据权利要求2所述的方法，其特征在于，所述脸部朝向信息还包括：视觉朝向；

所述面部朝向为第一方向时，确定需要对所述语音信息作出相应的响应，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，确定所述用户在发出所述语音信息时的脸部朝向信息，包括：

获取在所述用户发出所述语音信息时采集的图像信息；

对所述图像信息进行图像识别，以得到所述脸部朝向信息。

5.根据权利要求1至3中任一项所述的方法，其特征在于，还包括：

在所述用户发出所述语音信息时，检测所述用户是否在第一预设范围内；

6.一种语音处理方法，其特征在于，包括：

采集用户发出的语音信息；

确定所述用户在发出所述语音信息时的脸部朝向信息；

7.根据权利要求6所述的方法，其特征在于，所述脸部朝向信息包括：面部朝向；

基于所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令，包括：

所述面部朝向为第一方向时，确定所述语音信息为所述用户的语音指令。

8.根据权利要求7所述的方法，其特征在于，所述脸部朝向信息还包括：视觉朝向；

所述面部朝向为第一方向时，确定所述语音信息是否为所述用户的语音指令，包括：

所述面部朝向和所述视觉朝向均为第一方向时，确定所述语音信息为所述用户的语音指令。

9.根据权利要求6至8任一项所述的方法，其特征在于，还包括：

根据所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令，包括：

所述用户在所述第一预设范围内时，根据所述脸部朝向信息，确定所述语音信息是否为所述用户的语音指令。

10.一种人机交互方法，其特征在于，包括：

11.根据权利要求10所述的方法，其特征在于，基于所述图像信息，确定是否需要对所述语音信息作出相应的响应，包括：

对所述图像信息进行图像识别，以得到所述用户在发出所述语音信息时的脸部朝向信息；

12.根据权利要求11所述的方法，其特征在于，所述面部朝向信息包括：面部朝向；

13.根据权利要求12所述的方法，其特征在于，所述脸部朝向信息还包括：视觉朝向；

14.根据权利要求10至13中任一项所述的方法，其特征在于，还包括：

采集到所述用户再次发出的语音信息时，获取在所述用户发出所述语音信息时采集的图像信息，包括：

15.根据权利要求10至13中任一项所述的方法，其特征在于，在完成一轮会话后，保持唤醒状态以等待采集用户再次发出的语音信息，包括：

在完成一轮会话后，检测用户是否在第二预设范围内；

16.根据权利要求10至13中任一项所述的方法，其特征在于，还包括：

若在完成一轮会话后预设时间段内未采集到所述用户再次发出的语音信息，则将唤醒状态切换至休眠状态。

17.一种电子设备，其特征在于，包括：第一存储器、第一处理器和第一音频组件，其中，

所述第一存储器，用于存储程序；

确定所述用户在发出所述语音信息时的脸部朝向信息；

18.一种电子设备，其特征在于，包括：第三存储器、第三处理器和第三音频组件，其中，

所述第三存储器，用于存储程序；

确定所述用户在发出所述语音信息时的脸部朝向信息；

19.一种电子设备，其特征在于，包括：第二存储器、第二处理器和第二音频组件，其中，

所述第二存储器，用于存储程序；

所述第二音频组件，与所述第二处理器耦合；