CN113093907B

CN113093907B - 人机交互方法、***、设备及存储介质

Info

Publication number: CN113093907B
Application number: CN202110364009.0A
Authority: CN
Inventors: 王韬; 王笑予; 徐浩洋
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-04-03
Filing date: 2021-04-03
Publication date: 2023-06-13
Anticipated expiration: 2041-04-03
Also published as: CN113093907A

Abstract

本申请实施例提供了一种人机交互方法、***、设备及存储介质，涉及计算机技术领域，所述方法包括：交互者的注意力方向进行识别，依据识别到的注意力方向获取图像进行目标检测，以得到交互者的注视目标，本申请并不局限单帧图像，而是依据注意力方向进行更广范围的注视目标识别，在增强机器的感受野的同时，解决了以往对人类进行注意力检测时需要保证注视点和人都在机器实现范围的局限，并且本申请通过关注于交互环境中较为宏观的注视目标，可以使得交互***开展有针对性的交互，使得交互更加自然与智能。

Description

人机交互方法、***、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，具体而言，涉及一种人机交互方法、***、设备及存储介质。

背景技术

在现代智能化社会中，人机交互在医疗、餐饮、家居、文旅、金融等越来越丰富的应用场景得到广泛使用。在人机交互时，人们希望和机器人交流时能够像和其他人交流时一样轻松自然，而如今市场中的人机交互方式并不能做到这一点。这是因为现有的人机交互，例如人机语音问答或者通过内置的程序在触控板上的触屏交互，和人与人之间的沟通方式有着很大的不同：例如，人与人之间的沟通交流除了依靠说话之外，还包括视觉上的交流，如包括手势、朝向、眼神等，这些都是很重要的一部分；又如，从交互内容上来看，几乎都是由人类进行主导，机器人主要负责被动回答用户的问题、完成用户的指令。

因此目前的人机交互是比较机械僵硬的，机器人也缺乏交互的主动性。为了能够实现更加和谐自然的人机交互，我们认为有必要让服务机器人学习人与人的交流方式，并且希望机器人可以像人一样分析对方关注的需求，从而主动展开交互。

发明内容

本申请实施例提供一种人机交互方法、***、设备及存储介质，旨在解决现有的人机交互过程缺乏主动性，不够和谐自然的问题。

本申请实施例第一方面提供一种人机交互方法，所述方法包括：

通过摄像头获取第一深度图像，所述第一深度图像是包括交互者人体头部信息的深度图像；

采用注意力方向检测算法检测所述第一深度图像，获得注意力方向；

依据所述注意力方向转动摄像头，获取第二深度图像；

对所述第二深度图像进行目标识别；

当所述第二深度图像中包含候选目标时，获取各候选目标所在的图像区域；

将各候选目标的图像区域的中心坐标都转换至所述第二深度图像的三维坐标系下，得到各候选目标在所述第二深度图像中的三维深度坐标；

将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标；

计算各候选目标在所述第一深度图像中的三维深度坐标与所述交互者头部的连线，比较所述连线与注意力方向的夹角；

当所述夹角小于预设阈值时，将对应候选目标确定为注视目标；

基于所述注视目标与交互者进行交互。

可选地，所述方法还包括：

当所述第二深度图像中不包含候选目标时，或当所述第二深度图像中各连线与注意力方向的夹角都大于预设阈值时；

重复执行步骤直到确定所述交互目标，所述步骤包括：

依据所述注意力方向再次转动摄像头，获取新的深度图像；

对所述新的深度图像进行目标识别；

当所述新的深度图像中包含候选目标时，获取各候选目标所在的图像区域；

将各候选目标的图像区域的中心坐标都转换至所述新的深度图像的三维坐标系下，得到各候选目标在所述新的深度图像中的三维深度坐标；

将各候选目标在所述新的深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得得到各候选目标在所述第一深度图像中的三维深度坐标；

当所述夹角小于预设阈值时，将对应候选目标确定为交互目标。

可选地，所述将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标，包括：

x＝x′·cos(-θ)+y′·sin(-θ)+a，

y＝y′·cos(-θ)-x′·sin(-θ)+b，

z＝z′，

其中，x,y,z分别表示各候选目标在第一深度图像中的长度、宽度、深度坐标值，θ表示摄像头的旋转角度，a,b分别表示第二深度图像的三维坐标系相对于第一深度图像的三维坐标系水平、竖直平移距离。

可选地，所述基于所述交互目标与交互者进行交互，包括：

通过注意强度算法对所述交互者的注意力强度进行分析，得到注意力强度权值；

基于所述注意力强度权值和所述交互目标与所述交互者进行交互。

本申请实施例基于第一方面提供的方法还提供一种人机交互方法，所述方法包括：

依据所述注意力方向转动摄像头，获取第二深度图像；

对所述第二深度图像进行目标识别；

将第一深度图像中交互者头部的中心点的三维深度坐标变换至所述第二深度图像的三维坐标系下，得到交互者头部中心在第二深度图像中的三维深度坐标；

计算各候选目标在所述第二深度图像中的三维深度坐标与交互者头部中心在第二深度图像中的三维深度坐标的连线，比较所述连线与注意力方向的夹角；

当所述夹角小于预设阈值时，将对应候选目标确定为交互目标；

基于所述交互目标与所述交互者进行交互。

本申请实施例第二方面提供一种人机交互***，所述***包括：

深度图像获取模块，用于通过摄像头获取深度图像；

注意力方向检测模块，用于采用注意力方向检测算法检测所述第一深度图像，获得注意力方向；

目标识别模块，用于对所述第二深度图像进行目标识别；

注视目标确定模块，用于将各候选目标的图像区域的中心坐标都转换至所述第二深度图像的三维坐标系下，得到各候选目标在所述第二深度图像中的三维深度坐标，将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标，计算各候选目标在所述第一深度图像中的三维深度坐标与所述交互者头部的连线，比较所述连线与注意力方向的夹角，当所述夹角小于预设阈值时，将对应候选目标确定为注视目标；

交互模块，用于基于所述注视目标与交互者进行交互。

可选地，所述注视目标确定模块将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标，包括：

x＝x′·cos(-θ)+y′·sin(-θ)+a，

y＝y′·cos(-θ)-x′·sin(-θ)+b，

z＝z′，

可选地，所述交互模块基于所述交互目标与交互者进行交互，包括：

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

采用本申请提供的人机交互方法，对交互者的注意力方向进行识别，依据识别到的注意力方向获取图像进行目标检测，以得到交互者的注视目标，本申请并不局限单帧图像，而是依据注意力方向进行更广范围的注视目标识别，在增强机器的感受野的同时，解决了以往对人类进行注意力检测时需要保证注视点和人都在机器实现范围的局限，并且本申请通过关注于交互环境中较为宏观的注视目标，可以使得交互***开展有针对性的交互，使得交互更加自然与智能。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的人机交互方法的实施环境的示意图；

图2是本申请一实施例提出的一种人机交互方法的流程图；

图3是本申请一实施例提出的另一种人机交互方法的流程图；

图4是本申请一实施例提出的人机交互***的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有的人机交互缺乏交互的主动性，导致人机交互并不自然。本申请提出为了能够实现更加和谐自然的人机交互，有必要让学习人与人的交流方式。因此，本申请提出对人类进行注意力的检测，在一定程度上可以提升机器的“智慧”，使得机器可以像人一样分析对方关注的需求，从而主动展开交互，使得人机交互更加自然。

在日常生活中，有两种方式主导了人们的注意力。一种是外显注意力(overtattention)，主要指人类的视觉注意力，视觉注意力指的就是人类视觉关注方向和焦点，我们的眼神随着某个物品移动，这样就可以专注于它，分析外显注意力，主要的方法就是分析人类的眼神指向，通过视线方向确定所关注的物体。另外一种是内隐注意力(covertattention)，主要指大脑的所思所想，这样哪怕视线范围中没有某样物品，也可以对它产生关注；而分析内隐注意力，就需要对大量的脑部信号进行分析，通常需要在人脑中植入电极，或者佩戴上相应的电极片，才能够获取到这些信号进行分析。

尽管已经有部分研究者将视觉注意力在人机交互中的应用进行了尝试，如Dipankar等人提出的Supporting Human–Robot Interaction Based on the Level ofVisual Focus of Attention，2015；其提出了一个基于人脸和头部的视觉线索的方法来检测交互者对机器人的注意力意愿，该***能有效地检测用户的视觉注意力，或者是陈雪峰等人提出的行为特征融合的视觉注意力检测技术研究；其提出了用眼神控制机器人运动方向的交互***，可以实现机器人在四个方向上行走的准确控制。但是对于现有的部署于机器人环境中的注意力定位与分析算法，其存在的缺陷有：一、是从物体角度出发，即在物体前方放置摄像头，由人与摄像头的相对距离及瞳孔位置的判断用户是否看向该目标，并非是从交互装置出发，利用交互装置的硬件，造成应用部署上来说较为繁琐，不能方便地应用到更多场景。二、对于注视点的识别工作往往都具体到某一点，而没有去关注较为宏观的注视目标，即，其只是关注注意力的方向，但是对于人机交互来说，注视目标的定位和识别才是进行交互的基础。三、只获取单帧图像，导致对于检测范围的局限，限制的机器的感受范围。

本申请主要分析人类的外显注意力，通过分析人类的视线方向，结合目标检测与识别手段，动态寻找用户注意力目标，从而能在更广的范围中进行注意力目标检测，能够使机器更好地理解用户真正的意图，分析人类关注的需求，从而主动展开交互。

参考图1，图1示出了本申请一个示例性的实施例提出的人机交互方法的实施环境的示意图，如图1所示，该实施环境包括：交互者S110、人机交互***S120、注视目标S130。

交互者S110，是用于与人机交互***进行交互的人类对象。

人机交互***S120，用于与交互者进行交互。在一个实施例中，交互***是能够进行显示、摄像、计算的集成设备如手机、计算机、服务型机器人，或者***也可以是包括显示前端、摄像端、计算端的设备集群，例如，显示前端可以是平板电脑、液晶屏等，摄像端可以是摄像头、相机等，计算端可以是服务器、服务器集群、云计算中心等。交互***可以依据需要自由选择布置位置，例如交互***或者交互***的显示前端、摄像端位于交互者正面，优选的，交互***或者交互***的显示前端、摄像端是可移动的。

在图1所示场景中，交互者正在观察目标S130，在本申请实施例中，将S130称为注视目标以将其与环境中其他目标区别，当交互者在观察注视目标S130时，可知其注意力方向位于其左侧。

当人机交互***在图像获取范围内检测到交互者时，交互***可以利用深度摄像头获取第一深度图像，并通过注意力方向检测算法检测所述第一深度图像，获得交互者注意力方向，如在图1中，通过注意力方向检测算法获得交互者注意力方向在左方。依据所述注意力方向转动摄像头，获取第二深度图像，对所述第二深度图像进行目标识别，并判断第二深度图像内候选目标是否为注视目标S130。当所述第二深度图像中不包含候选目标时，或候选目标都不是注视目标时，人机交互***持续的，转动摄像头，获取新的深度图像，对新的深度图像进行目标识别，并判断新的深图像内候选目标是否为注视目标，直到得到注视目标。

当得到注视目标后，基于所述注视目标与交互者进行交互。

【实施例一】

参考图2，如图2所示，本申请图2是本申请一实施例提出的人机交互方法的流程图。如图1所示，该方法包括以下步骤：

步骤S210、通过摄像头获取第一深度图像，所述第一深度图像是包括交互者人体头部信息的深度图像；采用注意力方向检测算法检测所述第一深度图像，获得注意力方向。

用于获取第一深度图像摄像头是具有获取深度图像功能的摄像设备，并且所述摄像头是可以旋转的。第一深度图像，是包括交互者人体头部信息的深度图像，当获取到第一深度图像后通过注意力方向检测算法检测交互者的注意力方向。所述注意力方向检测算法是预先设置的，其可以采用多种现有机器学习算法的改进，例如人工神经网络ANN、随机森林、决策树等，本申请采用的注意力方向检测算法会检测的特征包括交互者的头部姿态、普尔钦斑、眼球方向等。注意力方向检测算法依据以上特征检测交互者的注意力方向。

步骤S220、依据所述注意力方向转动摄像头，获取第二深度图像。

得到注意力方向后，依据注意力方向按照预设角度转动摄像头，摄像头转动完毕后，获取第二深度图像。

步骤S230、对所述第二深度图像进行目标识别。

对获取的第二深度图像进行目标识别，对于目标识别可以采用现有的目标检测算法如RetinaNet、YOLO、DSSD、MR-CNN等。在进行目标识别时只需要向目标识别算法输入第二深度图像中的RGB图像，因为对于由深度摄像头获取得到的深度图像，其实际包括了两部分：RGB图像(red green and blue color model image)与深度图(Depth map)，而目标识别算法在目标识别过程中需要使用到的目标特征都是被记载在RGB图像中的，目标识别算法并不需要使用到深度图的数据。

目标识别会检测输入的图像中是否包含目标，如果能够检测到目标，将检测得到的目标作为第二深度图像中的候选目标。当第二深度图像的RGB图像中检测得到目标时，并不能判断所检测得到的目标就是用户所注视的目标，只能将检测得到的目标作为此第二深度图像中的候选目标，还需要进一步对候选目标进行判断，才能确定用户真正注视的目标。

步骤S240、当所述第二深度图像中包含候选目标时，获取所在的图像区域；将各候选目标的图像区域的中心坐标都转换至所述第二深度图像的三维坐标系下，得到各候选目标在所述第二深度图像中的三维深度坐标；将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标，计算各候选目标在所述第一深度图像中的三维深度坐标与所述交互者头部的连线，计算所述连线与注意力方向的夹角，当所述夹角小于预设阈值时，将对应候选目标确定为注视目标。

当目标检测算法在第二深度图像的二维图像中检测得到候选目标时，会输出各目标的类别标签以及包含目标的矩形框。包含目标的矩形框表示了第二深度图像中包含目标的图像区域，将各候选目标的图像区域的中心点的坐标，用于代表整个候选目标的坐标。由于目标检测使用的RGB图像是二维图像，其输出的图像区域的中心坐标也是二维的坐标，因此需要将二维的中心坐标转换至第二深度图像的三维坐标系下，得到目标中心在第二深度图像中的三维深度坐标。

对于得到的目标中心的第二深度图像中的三维深度坐标，因为摄像头的移动，其与交互者分别处于两张不同深度图像的坐标系中，因此需要将二者转换至同一坐标系下，将各候选目标在第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在第一深度图像中的三维深度坐标。

得到各候选目标在第一深度图像中的三维深度坐标后，将其与交互者头部进行连线，得到各候选目标与交互者头部的连线，计算各交互目标的连线与注意力方向的夹角，当夹角小于预设阈值时，该连线对应的候选目标就是交互目标。

步骤S250、基于所述注视目标与交互者进行交互。

基于识别出来的注视目标就可以与交互者主动进行交互，例如可以依据注视目标的类别标签，查找资料库中该类别的相关数据并主动展示给交互者。

采用本申请的人机交互算法，对交互者的注意力方向进行识别，依据识别到的注意力方向获取图像进行目标检测，以得到交互者的注视目标，本申请并不局限单帧图像，而是依据注意力方向进行更广范围的注视目标识别，在增强机器的感受野的同时，解决了以往对人类进行注意力检测时需要保证注视点和人都在机器实现范围的局限，并且本申请通过关注于交互环境中较为宏观的注视目标，可以使得交互***开展有针对性的交互，使得交互更加自然与智能。

【实施例二】

参考图3，如图3所示，本申请图3是本申请一实施例提出的人机交互方法的流程图。如图3所示，该方法包括以下步骤：

步骤S310、通过摄像头获取第一深度图像，所述第一深度图像是包括交互者人体头部信息的深度图像；采用注意力方向检测算法检测所述第一深度图像，获得注意力方向。

摄像头是可以旋转的深度镜头，深度镜头其可以是结构光型、双目视觉型或者TOF飞行时间型。在本申请一个实施例中，采用Dynamixel舵机搭配Kinect V2深度摄像头来实现可旋转摄像头。

获取第一深度图像，获取得到的第一深度图像是包括交互者人体头部信息的深度图像。在本申请的一个实施例中，对于第一深度图像的获取，可以预先设置获取条件，例如，当人机交互***检测到预设的范围如1米内最近的人类，或者正在进行某项预设动作的人等，满足预设条件时，***便自动获取第一深度图像。

对于获取得到的第一深度图像，采用注意力方向检测算法检测交互者的注意力方向。本实施例采用的注意力检测算法采用基于显著图的神经网络，以第一深度图像的RGB图像作为输入，经过骨干网络卷积得到人脸的显著图，对显著图进行检测交互者的头部姿态、普尔钦斑、眼球方向等特征，最终输出视线方向。该视线方向表示在以人为中心的坐标系下，视线射出的角度，对于本实施例的神经网络可以先使用开源的人体头部模型等参数，再依据应用环境或者人机交互***属性进行调整。

步骤S320、依据所述注意力方向转动摄像头，获取第二深度图像。

得到注意力方向后，依据注意力的方向按照预设角度转动摄像头，在本申请实施例中，在得到注意力方向后，可以使用Dynamixel舵机配备的SDK来控制舵机的转动，从而实现Kinect V2深度摄像头的转动。在这一步骤中，假设该状态下，摄像头和交互者是面对面的关系，因此当交互***得出人的视线方向在人左侧时，则要驱动舵机向右转动，反之亦然。摄像头转动完后，获取第二深度图像。

步骤S330、对所述第二深度图像进行目标识别。

对获取的第二深度图像进行目标识别，对于目标识别可以采用现有的目标检测算法如YOLO v4、DETR等。在进行目标识别时，只需要向算法输入包含目标特征信息的第二深度图像的RGB图像(red green and blue color model image)，不需要将深度图像全部输入。因为获取得到的深度图像，其实际包括了两部分：RGB图像与深度图(Depth map)，DepthMap包含的是视点的场景对象表面与图像采集器距离的有关信息，其并未包含目标识别需要用到的目标的特征信息，因此，目标识别算法并不需要使用到深度图的数据。

步骤S340、当所述第二深度图像中包含候选目标时，获取各候选目标所在的图像区域；将各候选目标的图像区域的中心坐标都转换至所述第二深度图像的三维坐标系下，得到各候选目标在所述第二深度图像中的三维深度坐标；将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标；计算各候选目标在所述第一深度图像中的三维深度坐标与所述交互者头部的连线，比较所述连线与注意力方向的夹角，当所述夹角小于预设阈值时，将对应候选目标确定为注视目标。

目标检测算法在检测得到候选目标时，会输出各候选目标的类别标签以及包含候选目标的矩形框，候选目标的矩形框表示了第二深度图像中包含候选目标的图像区域，选择各候选目标的RGB图像区域的中心点的坐标(即以下所指的中心坐标)，用来代表整个候选目标的RGB图像坐标。但是由于目标检测使用的RGB图像是二维图像，其输出的图像区域的中心坐标也将是二维的坐标，二维空间下并不能准确判断交互者注意力方向与目标之间的夹角，例如当同一方向上同时存在两个物体时，二维空间并不能很好的反映交互者究竟在注视哪个，因此为了获得更加准确的识别出交互者所关注的目标，需要在三维空间进行注视目标的判断。将二维的中心坐标转换至第二深度图像的三维坐标系下，得到目标中心点的在第二深度图像中的三维深度坐标。在本申请实施例中，对于二维坐标到三维坐标的转换，可以通过寻找中心坐标在深度图中对应的坐标实现，使用深度摄像头自带的深度提取函数，深度提取函数能够依据某一位置在RGB图像中的坐标，在深度图像中获取该位置对应的三维坐标。使用各候选目标中心坐标点在第二深度图像中的三维深度坐标来表示整个候选目标在第二深度图像的三维坐标系中的位置。

因为各候选目标与交互者并不处于同一张图像中，因此二者是位于不同的坐标系下的，因此为了进行用户关注目标(即注视目标)的识别，需要得到各候选目标在第二深度图像的三维坐标系中的位置表示后，其将第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，使交互者与各候选目标共享一个坐标系。

在本申请的一个实施例中，具体的，所述将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标，包括：

x＝x′·cos(-θ)+y′·sin(-θ)+a，

y＝y′·cos(-θ)-x^′·sin(-θ)+b，

z＝z′，

采用坐标系空间变换的代数方法来解决将目标物变换到初始相机坐标系下这个问题。不考虑竖直方向上的移动，仅考虑水平的旋转和平移。假设坐标系经过旋转平移后，目标物的坐标为(x′,y′)，则需要求原始坐标系下该点的坐标，假设原始坐标系(即第一深度图像的三维坐标系)为XOY，原点沿向量(a,b)移动至O′，再以O′为中心逆时针旋转θ角度，最终坐标系为X′O′Y'，(x′,y′)即为目标物在坐标系X′O′Y下的坐标。

首先，求出目标物在坐标系XO′Y的坐标。X′O′Y'顺时针旋转θ可以变换为坐标系XO′Y，在坐标系XO′Y下，可以得到该点的坐标(x″,y″)为：

x”＝x′·cos(-θ)+y′·sin(-θ)

y”＝y′·cos(-θ)-x′·sin(-θ)

接下来求出从坐标系XO′Y到坐标系XOY的坐标变换。在XOY下，原始坐标(x,y)可以表示为：

x＝x”+a

y＝y”+b

因此在原始坐标系下的坐标值可以表示为：

x＝x′·cos(-θ)+y′·sin(-θ)+a

y＝t′·cos(-θ)-x′·sin(-θ)+b

得到各候选目标在第一深度图像中的三维深度坐标后，即可以进行注视目标的判断，将候选目标与交互者头部进行连线，为了方便计算，可以选择能够代表交互者注意力的部位例如瞳孔、眉心等的坐标来代表交互者，将其与候选目标的第一深度图像三维深度坐标进行连线，在本申请的一个实施例中，将选择交互者的头部中心与各候选目标与进行连线，因为实际中交互装置与交互者头部相比较低，选择头部中心组作为交互者的注意力，能够补偿这一偏差，使得对注视目标的判断更加准确。

计算各候选目标的连线与注意力方向的夹角，当夹角小于预设阈值时，则认为连线与视线方向重合，其即为用户所注视的目标，该连线对应的候选目标就是交互目标。在本申请的一个实施例中，摄像头的舵机旋转可能有1-2度的偏差，导致坐标变换的结果不能完全精确，判断标准为上述夹角小于5度时，即可认为该目标是用户关注的目标。

在本申请的一个实施例中，在得到候选目标的第二深度图像三维深度坐标后，选择将交互者头部中心的三维深度坐标变换至所述第二深度图像的三维坐标系下，使交互者与候选目标共享在第二深度图像的三维坐标系下，来进行注视目标的判定。即步骤S330和步骤S340可变为：对所述第二深度图像进行目标识别；当所述第二深度图像中包含候选目标时，获取各候选目标所在的图像区域；将各候选目标的图像区域的中心坐标都转换至所述第二深度图像的三维坐标系下，得到各候选目标在所述第二深度图像中的三维深度坐标；将第一深度图像中交互者头部的中心点的三维深度坐标变换至所述第二深度图像的三维坐标系下，得到交互者头部中心在第二深度图像中的三维深度坐标；计算各候选目标在所述第二深度图像中的三维深度坐标与交互者头部中心在第二深度图像中的三维深度坐标的连线，比较所述连线与注意力方向的夹角。

可以选择交互者头部的中心点来代表交互者的视线射出点，将该点的三维深度坐标转换至第二深度图像的三维坐标系下，得到交互者头部中心在第二深度图像中的三维深度坐标。

将各候选目标的第二深度图像三维深度坐标与交互者头部中心的第二深度图像三维深度坐标进行连线。对于得到连线，判断其与注意力方向的夹角，确定注视目标。

在本申请一个实施例中，所述方法还包括：

步骤S350、当所述第二深度图像中不包含候选目标时，或当所述第二深度图像中各连线与注意力方向的夹角都大于预设阈值时；

重复执行步骤直到确定所述注视目标，所述步骤包括：

依据所述注意力方向再次转动摄像头，获取新的深度图像；

对所述新的深度图像进行目标识别；

当所述新的深度图像中包含候选目标时，获取各候选目标的类别及所在的图像区域；

当所述夹角小于预设阈值时，将对应候选目标确定为注视目标。

本申请的一个实施例中，提供了一个循环过程，将循环执行上述步骤S320、S330、S340，即，循环执行：在注意力方向上按照预设角度旋转摄像头，旋转完毕后，获取新的深度图像，识别新的深度图像中是否有新的候选目标，并确认新的深度图像中的候选目标其中是否包含注视目标；直到找到注视目标。满足循环的结束条件，例如当在S340中找到注视目标时，才能退出循环。另外，循环可以设置加速条件，例如，当在步骤S330中并未识别出任何目标时，可以跳过注视目标确认过程，直接旋转，获取新的深度图像。

步骤S360、基于所述注视目标与交互者进行交互。

当通过分析人类的视线进行视觉注意力的判断，确认注视目标后，就找到了交互者的注意力所集中的目标，通过注视目标来规划机器人的交互行为。例如，服务机器人可以定位用户感兴趣的目标，从而针对这个感兴趣的目标和用户进行更加主动的交互，使得交互更加自然、便捷。

在本申请的一个实施例中，所述基于所述注视目标与交互者进行交互，包括：通过注意力强度分析算法对所述交互者的注意力强度进行分析，得到注意力强度权值；基于所述注意力强度权值和所述注视目标与所述交互者进行交互。

在得到注视目标后，通过注意力强度分析算法分析交互者的注意力停留时长、视线转换行为等，可以得到交互者的注意力权值，依据注意权值和注视目标与交互者进行交互。例如，可以识别有交互意愿的用户，比如长时间盯着机器人看的用户，机器人就可以依靠这类检测避开注意力不在自己身上的用户，而对有交互意愿的用户开展交互行为。又如，识别出用户感兴趣的目标基础上结合用户的注意力集中程度，在一些问询场合中，可以用于判断用户状态。

采用本申请的人机交互方法，对交互者的注意力方向进行识别，依据识别到的注意力方向获取图像进行目标检测，以得到交互者的注视目标，本申请并不局限单帧图像，而是依据注意力方向进行更广范围的注视目标识别，在增强机器的感受野的同时，解决了以往对人类进行注意力检测时需要保证注视点和人都在机器实现范围的局限，并且本申请通过关注于交互环境中较为宏观的注视目标，可以使得交互***开展有针对性的交互，使得交互更加自然与智能。

基于同一发明构思，本申请一实施例提供一种人机交互***。参考图4，图4是本申请一实施例提出的人机交互***的示意图。如图4所示，该装置包括：

深度图像获取模块410，用于通过摄像头获取深度图像；

注意力方向检测模块420，用于采用注意力方向检测算法检测所述第一深度图像，获得注意力方向；

目标识别模块430，用于对所述第二深度图像进行目标识别；

注视目标确定模块440，用于将各候选目标的图像区域的中心坐标都转换至所述第二深度图像的三维坐标系下，得到各候选目标在所述第二深度图像中的三维深度坐标，将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标，计算各候选目标在所述第一深度图像中的三维深度坐标与所述交互者头部的连线，比较所述连线与注意力方向的夹角，当所述夹角小于预设阈值时，将对应候选目标确定为注视目标；

交互模块450，用于基于所述注视目标与交互者进行交互。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的人机交互方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的人机交互方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种人机交互方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种人机交互方法，其特征在于，所述方法包括：

通过摄像头获取第一深度图像，所述第一深度图像是包括交互者头部的深度图像；

依据所述注意力方向转动摄像头，获取第二深度图像；

对所述第二深度图像进行目标识别；

基于所述注视目标与交互者进行交互。

2.根据权利要求1所述方法，其特征在于，所述方法还包括：

重复执行步骤直到确定所述注视目标，所述步骤包括：

依据所述注意力方向再次转动摄像头，获取新的深度图像；

对所述新的深度图像进行目标识别；

将各候选目标在所述新的深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标；

3.根据权利要求1所述方法，其特征在于，所述将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标，包括：

x＝x′·cos(-θ)+y′·sin(-θ)+a，

y＝y′·cos(-θ)-x′·sin(-θ)+b，

z＝z′，

4.根据权利要求1所述方法，其特征在于，所述基于所述注视目标与交互者进行交互，包括：

基于所述注意力强度权值和所述注视目标与所述交互者进行交互。

5.一种人机交互方法，其特征在于，所述方法包括：

依据所述注意力方向转动摄像头，获取第二深度图像；

对所述第二深度图像进行目标识别；

基于所述交互目标与所述交互者进行交互。

6.一种人机交互***，其特征在于，所述***包括：

深度图像获取模块，用于通过摄像头获取深度图像；

注意力方向检测模块，用于采用注意力方向检测算法检测第一深度图像，获得注意力方向；

目标识别模块，用于对第二深度图像进行目标识别；

注视目标确定模块，用于将各候选目标的图像区域的中心坐标都转换至所述第二深度图像的三维坐标系下，得到各候选目标在所述第二深度图像中的三维深度坐标，将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标，计算各候选目标在所述第一深度图像中的三维深度坐标与交互者头部的连线，比较所述连线与注意力方向的夹角，当所述夹角小于预设阈值时，将对应候选目标确定为注视目标；

交互模块，用于基于所述注视目标与交互者进行交互。

7.根据权利要求6所述***，其特征在于，所述注视目标确定模块将各候选目标在所述第二深度图像中的三维深度坐标都变换至所述第一深度图像的三维坐标系下，得到各候选目标在所述第一深度图像中的三维深度坐标，包括：

x＝x′·cos(-θ)+y′·sin(-θ)+a，

y＝y′·cos(-θ)-x′·sin(-θ)+b，

z＝z′，

8.根据权利要求6所述***，其特征在于，所述交互模块基于所述注视目标与交互者进行交互，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至5任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至5任一所述的方法的步骤。