CN114721509A

CN114721509A - 基于人体动作识别的人机交互方法及***

Info

Publication number: CN114721509A
Application number: CN202210227240.XA
Authority: CN
Inventors: 周鹏飞; 江励; 汤健华; 熊达明; 朱惠煜; 赖根; 刘阳; 翟雪倩; 伍昆军; 邬锦铸; 许航潇; 张云帆
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-07-08

Abstract

本发明公开了基于人体动作识别的人机交互方法及***，获取人体动作数据集；将人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型；将神经网络模型输出至机器人；通过人体姿态估计实时检测出人体关节点，根据人体关节点连成人体骨架；根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作；通过视觉对人体动作进行识别，输出识别结果；将识别结果作为控制指令传送给机器人，以使机器人根据控制指令对目标物体进行抓取。本发明根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，实现人体动作识别。利用人体动作识别直接控制机器人进行抓取，实现人机之间更加智能、自然、和谐的交互，提高交互效果。

Description

基于人体动作识别的人机交互方法及***

技术领域

本发明实施例涉及但不限于人机交互技术领域，特别是涉及一种基于人体动作识别的人机交互方法及***。

背景技术

人机交互(Human Computer Interaction，HC)是研究人与计算机之间相互理解，进行交流与通信，在最大程度上为人们完成信息管理、智能服务和多信息处理等功能的一门技术学科。人机交互技术经历了命令行界面和图形用户界面(Graphical UserInterface，GUI)之后，自然用户界面(Natural User Interface，NUI)更是体现了以用户为中心的人机交互理念。

目前的人机交互方式都是以鼠标、键盘、触摸屏为主，虽然这些往往是计算机***必备的设备，但对于学习能力不强的人来说，操作这些设备来实现与机器人的交互就变成一件困难的事情。因此，现有的人机交互方式存在着操作困难、易疲劳、体验差和学习成本高等诸多问题。尤其对于学习能力不强的老年人来说操作困难并不友好。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于人体动作识别的人机交互方法及***，能够实现人机之间更加智能、自然、和谐的交互，提高交互效果。

第一方面，本发明实施例提供了一种基于人体动作识别的人机交互方法，包括：

获取人体动作数据集；

将所述人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型；

将所述神经网络模型输出至机器人；

通过人体姿态估计实时检测出人体关节点，根据所述人体关节点连成人体骨架；

根据所述人体关节点之间的角度特征和相对距离特征来定义各种人体动作；

通过视觉对人体动作进行识别，输出识别结果；

将所述识别结果作为控制指令传送给所述机器人，以使所述机器人根据所述控制指令对目标物体进行抓取。

在一些实施例，所述人体动作数据集为MS COCO数据集，所述神经网络模型为采用Pytorch框架的深度学习网络模型。

在一些实施例，所述将所述人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型，包括：

将所述人体动作数据集输入到Openpose网络模型；

通过调整所述Openpose网络模型的权重参数，确定所述人体关节点；

通过迭代训练得到人体姿态估计的神经网络模型。

在一些实施例，所述通过调整所述Openpose网络模型的权重参数，确定所述人体关节点，包括：

输入检测目标的人体图像；

前馈网络对所述检测目标的关节点位置进行预测，得到其二维置信度映射和二维矢量向量场；

根据所述二维置信度映射和二维矢量向量场来编码所述检测目标各部间的关联向量场；

通过置信度分析所述检测目标的亲和向量场，最终标示出所述检测目标的二维人体关节点。

在一些实施例，所述将所述识别结果作为控制指令传送给所述机器人，以使所述机器人根据所述控制指令对目标物体进行抓取，包括：

所述机器人获取所述控制指令；

所述机器人根据所述控制指令确定抓取目标物体的空间位姿几何信息；

所述机器人根据所述空间位姿规划机械臂的运动路径，并根据所述运动路径对所述目标物体进行抓取。

在一些实施例，所述机器人根据所述空间位姿规划机械臂的运动路径，并根据所述运动路径对所述目标物体进行抓取，包括：

所述机器人根据所述空间位姿几何信息确定机械臂每个关节需要旋转的角度；

所述机器人根据空间位姿运动求解器规划出中间点和目标点；

所述机器人控制所述机械臂每个关节旋转到各个所述中间点直至所述目标点；

所述机器人控制所述机械臂抓取所述目标物体。

在一些实施例，所述机器人控制所述机械臂抓取所述目标物体，包括：

当所述机械臂运动到所要抓取所述目标物体的位姿状态时，通过所述机器人的三型二次开发接口对气缸夹爪进行控制，以使得所述机器人对目标物体进行抓取或者释放。

第二方面，本发明实施例提供了一种基于人体动作识别的人机交互***，包括：

获取模块，用于获取人体动作数据集；

训练模块，用于将所述人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型；

传输模块，用于将所述神经网络模型输出至机器人；

检测模块，用于通过人体姿态估计实时检测出人体关节点，根据所述人体关节点连成人体骨架；

定义模块，用于根据所述人体关节点之间的角度特征和相对距离特征来定义各种人体动作；

识别模块，用于通过视觉对人体动作进行识别，输出识别结果；

控制模块，用于将所述识别结果作为控制指令传送给所述机器人，以使所述机器人根据所述控制指令对目标物体进行抓取。

第三方面，本发明实施例提供了一种基于人体动作识别的人机交互***，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的基于人体动作识别的人机交互方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如上第一方面所述的基于人体动作识别的人机交互方法。

本发明实施例包括：获取人体动作数据集；将人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型；将神经网络模型输出至机器人；通过人体姿态估计实时检测出人体关节点，根据人体关节点连成人体骨架；根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作；通过视觉对人体动作进行识别，输出识别结果；将识别结果作为控制指令传送给机器人，以使机器人根据控制指令对目标物体进行抓取。基于此，本发明通过人体动作数据集进行动作特征的提取和学习，训练人体姿态估计的神经网络模型。经过人体姿态估计实时检测出人体关节点，再根据检测出来的关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，从而实现人体动作识别。利用人体动作识别与机器人进行人机交互，从而突破传统的键盘、鼠标等僵化的交互方式。利用人体动作识别直接控制机器人进行抓取，实现人机之间更加智能、自然、和谐的交互，提高交互效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的一种基于人体动作识别的人机交互方法的主流程图；

图2是本发明一个实施例提供的一种基于人体动作识别的人机交互方法的子流程图；

图3是本发明一个实施例提供的一种基于人体动作识别的人机交互方法的子流程图；

图4是本发明一个实施例提供的一种基于人体动作识别的人机交互方法的子流程图；

图5是本发明一个实施例提供的一种基于人体动作识别的人机交互方法的子流程图；

图6是本发明一个实施例提供的基于人体动作识别的人机交互***结构示意图；

图7是本发明另一个实施例提供的基于人体动作识别的人机交互***结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

应了解，在本发明实施例的描述中，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

动作是人类最自然的表达方式之一，因此用动作直接完成指令一直为人们所追求。动作可以通过最本能、自然且直接的方式来表达自己的意图、情绪或者想法。人体动作是一种很自然直观的人机交互手段，方便不同年龄段的人与不同知识层次的人去学习。机器人一般需要繁琐复杂的程序来控制，而利用人体动作来控制机器人，简单方便。新的人机交互方式，可以通过用户的语言、面部表情、情绪、手势和肢体动作等人的自然语言进行人机交互。摆脱了各种有形的设备进行辅助输入，从而使用上更加符合人自身特征的方式进行畅通的人机交互。正是因为如此，动作识别必然会发展成人机交互中非常重要的核心交互方式的一种。动作识别地位在不断升高，也受到众多领域的关注，这对于视觉其他方向的研究也发挥着重要的价值，推动了人机交互的新的进步。

在相关技术中，随着深度学习算法的快速发展，能够利用神经网络模型自动从动作数据集中提取特征，以此完成动作的分类识别，基于深度学习的人体动作识别研究越来越多,极大地促进了人体动作识别与人机交互的发展。

随着人机交互技术的发展，基于人体动作识别的交互方式以其自然性、通用性以及易用性成为近年来重点研究的技术之一，成为目前一个比较主流的研究方向。

目前，机器人与人类的智力水平仍有较大差距，机器人无法胜任较为复杂的工作，也无法与人进行较为智能地人机交互。同时，传统的人机交互方式都是以鼠标、键盘、触摸屏为主，操作者需要具备一定的专业操作知识，但对于学习能力不强的老年人来说，操作一些专业设备来实现与机器人的人机交互是一件困难的事情。所以，传统的人机交互方式存在着专业性强、操作困难、易疲劳、体验差和学习成本高等诸多问题，人们更加迫切地希望一种更加简单友好的人机交互方式。而动作是人类最自然的表达方式之一，动作可以通过最本能、自然且直接的方式来表达自己的意图、情绪或者想法。机器人通过视觉去学习并理解人类的情感和行为，对机器人技术的发展有很大的促进作用。研发机器人交互***,让老人通过动作与机器人进行人机交互，机器人为老人提供相应的护理照料服务。

针对现有技术中人机交互方式是以鼠标、键盘、触摸屏为主，操作者需要具备一定的专业操作知识，存在着专业性强、操作困难、易疲劳、体验差和学***，为人提供更加简单友好的人机交互方式。可以让人不用再依赖那些传统的可穿戴设备，也不需要花费时间成本来适应和学习操作机器人，而是靠人与生俱来的动作习惯来与机器人进行交互，机器人通过视觉去学习并理解人的动作意图后，为人提供相应的护理照料服务，具有广阔的市场应用前景。同时，可以通过让智能机器人去陪伴孤寡老人，来减轻老人的孤独感，保障人们的心理诉求。让机器人通过视觉去学习并理解老人的动作意图，为老人提供相应的护理照料服务，即让机器人理解老人的动作意图并提供物品抓取服务，这种自主化智能化的算法相对于传统的人工操作来说省时省力，降低人力成本，能全天候工作，具有很好的前沿性。

如图1所示，图1是本发明一个实施例提供的一种基于人体动作识别的人机交互方法的流程图。基于人体动作识别的人机交互方法包括但不限于如下步骤：

步骤101，获取人体动作数据集；

步骤102，将人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型；

步骤103，将神经网络模型输出至机器人；

步骤104，通过人体姿态估计实时检测出人体关节点，根据人体关节点连成人体骨架；

步骤105，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作；

步骤106，通过视觉对人体动作进行识别，输出识别结果；

步骤107，将识别结果作为控制指令传送给机器人，以使机器人根据控制指令对目标物体进行抓取。

可以理解的是，本发明通过获取人体动作数据集，将人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型，将神经网络模型输出至机器人，通过人体姿态估计实时检测出人体关节点，根据人体关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，通过视觉对人体动作进行识别，输出识别结果，将识别结果作为控制指令传送给机器人，以使机器人根据控制指令对目标物体进行抓取。基于此，本发明通过人体动作数据集进行动作特征的提取和学习，训练人体姿态估计的神经网络模型。经过人体姿态估计实时检测出人体关节点，再根据检测出来的关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，从而实现人体动作识别。利用人体动作识别与机器人进行人机交互，从而突破传统的键盘、鼠标等僵化的交互方式。利用人体动作识别直接控制机器人进行抓取，实现人机之间更加智能、自然、和谐的交互，提高交互效果。

可以理解的是，本发明采用视觉及深度学习进行人体动作识别：人体姿态估计又称为人体关键点检测，是人体动作识别、行为分析、人机交互等的前置任务。本发明通过开源人体骨骼库OpenPose和相关动作数据集进行动作特征的提取和学习，训练人体姿态估计的神经网络模型。经过人体姿态估计实时检测出人体关节点，再根据检测出来的关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，从而实现人体动作识别。深度学习网络模型的训练，使用Pytorch框架，学习相应的理论知识进行设计和优化。

可以理解的是，本发明基于ROS MoveIt开发程序控制真实机器人运动和抓取。使用moveit python用户接口moveit_commander，实现真实的机械臂轨迹规划与控制；通过华数机器人的三型二次开发接口对气缸夹爪进行控制，实现机器人对物品的抓取与释放。

可以理解的是，人体动作数据集为MS COCO数据集，MS COCO数据集是多人人体关键点检测数据集。COCO数据集包含多达330K张图片，200K个标注的人体，属于大规模人体关键点数据集。COCO是最大的2D姿势估计数据集，并被视为测试2D姿势估计算法的基准。COCO模型有18种分类。COCO输出格式：鼻子—0，脖子—1，右肩—2，右肘—3，右手腕—4，左肩—5，左手肘—6，左手腕—7，右臀部—8，右膝盖—9，右脚踝—10，左臀部—11，左膝—12，左脚踝—13，右眼—14，左眼—15，右耳—16，左耳—17，背景—18。

可以理解的是，经过人体姿态估计实时检测出人体关节点，再根据检测出来的关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作所代表的含义，从而实现人体动作识别。如举起右手、举起左手、举起双手、叉腰等动作的人体关节点有特定的角度特征和相对距离特征，赋予这些动作特定的含义，通过视觉完成动作的快速识别以及将识别结果作为控制指令传给机器人，从而让机器人按照人的意图执行相应动作，即机器人可以通过视觉来识别和理解人体动作意图，再做出相应的动作，从而实现人与机械臂的智能交互。

可以理解的是，本发明通过人与机器人更加简单友好地进行实时人机交互，让机器人通过视觉去学习并理解人类的行为，进而为人提供相应的物品抓取服务，尤其是老年人及手脚残疾人群使用的生活支援型机器人。人们进行简单自然的动作，机器人通过视觉去学习并理解人的动作意图后，为人提供相应的物品抓取等护理照料服务，尤其适合对于老年人，这种自主化智能化的算法相对于传统的人工操作来说省时省力，降低人力成本，能全天候工作，具有广阔的市场应用前景和前沿性。

如图2所示，步骤102可以包括但不限于如下子步骤：

步骤201，将人体动作数据集输入到Openpose网络模型；

步骤202，通过调整Openpose网络模型的权重参数，确定人体关节点；

步骤203，通过迭代训练得到人体姿态估计的神经网络模型。

可以理解的是，训练网络模型是将训练集及标注信息输入到Openpose网络模型，不断调整Openpose网络模型的权重参数，以输出实时且准确率高的二维人体骨骼关节点坐标。最后，将训练好的人体姿态估计网络模型安装到机器人***。

如图3所示，步骤202可以包括但不限于如下子步骤：

步骤301，输入检测目标的人体图像；

步骤302，前馈网络对检测目标的关节点位置进行预测，得到其二维置信度映射和二维矢量向量场；

步骤303，根据二维置信度映射和二维矢量向量场来编码检测目标各部间的关联向量场；

步骤304，通过置信度分析检测目标的亲和向量场，最终标示出检测目标的二维人体关节点。

可以理解的是，Openpose算法姿态提取算法的流程是，输入一个w×h的彩色人物图像；前馈网络对检测目标的关键点位置进行预测，并得到其二维置信度映射S以及一组2D矢量向量场L；用S和L来编码检测目标各部间的关联向量场；通过置信度分析检测目标的亲和向量场，最终标示出所有检测目标的2D关键点

可以理解的是，Openpose的整体网络结构采用VGG网络作为骨架进行预训练处理。该网络分为两个部分，两部分能同时对提取到的关键点进行预测置信图、编码相邻关键点间的关联向量场并分别回归S和L。每回归一次S和L即为完成一轮迭代预测，通过连续的t∈(1,…,T)轮迭代，就能形成整个预测网络体系结构。每一阶段统计一次反馈损失函数，并把S、L及F即原始输入连接起来，进而得到下一阶段预测训练的输入。在进行了n轮迭代之后，S能起到一定程度的区分预测网络体系左右结构的作用，迭代次数越多其区分程度越显著。

如图4所示，步骤107可以包括但不限于如下子步骤：

步骤401，机器人获取控制指令；

步骤402，机器人根据控制指令确定抓取目标物体的空间位姿几何信息；

步骤403，机器人根据空间位姿规划机械臂的运动路径，并根据运动路径对目标物体进行抓取。

可以理解的是，机器人获取控制指令，并根据控制指令确定抓取目标物体的空间位姿几何信息，再根据空间位姿规划机械臂的运动路径，并根据运动路径对目标物体进行抓取。结合前沿的深度学习的算法，让机器人通过视觉去学习并理解人类的行为，进而完成相应的物品抓取任务，实现人与机器人更加简单友好的实时人机交互，加强人类与机器人共处的能力，打破一贯传统的交互方式，让人能够更加本能地与机器进行交流和沟通。

如图5所示，步骤403可以包括但不限于如下子步骤：

步骤501，机器人根据空间位姿几何信息确定机械臂每个关节需要旋转的角度；

步骤502，机器人根据空间位姿运动求解器规划出中间点和目标点；

步骤503，机器人控制机械臂每个关节旋转到各个中间点直至目标点；

步骤504，机器人控制机械臂抓取目标物体。

可以理解的是，机器人通过视觉来识别和理解人体动作意图后，可以根据机械臂的夹爪抓取物体的空间位姿等几何信息，确定机械臂的每个关节需要旋转的角度，根据空间位姿moveit运动求解器根据实际需求出末端位姿，规划出一系列中间点，控制各个关节旋转到各个中间点直至目标点，之后机械臂的夹爪进行抓取物品或其它交互动作。

步骤504可以包括但不限于如下子步骤：

当机械臂运动到所要抓取目标物体的位姿状态时，通过机器人的三型二次开发接口对气缸夹爪进行控制，以使得机器人对目标物体进行抓取或者释放。

可以理解的是，机器人通过机械臂进行抓取控制。当机械臂运动到所要抓取的物品的位姿状态时，通过华数机器人的三型二次开发接口对气缸夹爪进行控制，第一控制输出端为true时，夹爪夹紧，实现机器人对物体的抓取；第二控制输出端为true时，夹爪松开，实现机器人对物体的抓取释放。

基于此，本发明具有如下优点：

(1)传统的人机交互方式都是以鼠标、键盘、触摸屏为主，存在着操作困难、易疲劳、体验差和学习成本高等诸多问题。动作是人类最自然的表达方式之一，让机器人通过视觉去学习并理解人类的情感和行为，对机器人技术的发展有很大的促进作用。

(2)基于深度学习算法实现人体动作识别，基于ROS机器人开发编程实现机器人的运动控制，通过三型二次开发接口对气缸夹爪进行控制，实现了机器人通过视觉去学习并理解人类的情感和行为，并提供相关物品的抓取服务，从而实现人与机械臂的智能交互。

(3)基于人体动作识别的机器人交互***，可以让人不用再依赖那些传统的可穿戴设备，也不需要花费时间成本来适应和学习操作机器人，而是靠人与生俱来的动作习惯来与机器人进行交互，让机器人通过视觉去学习并理解老人的动作意图，为老人提供相应的物品抓取服务，这种自主化智能化的算法相对于传统的人工操作来说省时省力，降低人力成本，能全天候工作，具有很好的前沿性。

以下结合具体实施例进一步介绍本发明提供的基于人体动作识别的人机交互方法。

(1)准备数据集。人体动作数据集为MS COCO数据集，MS COCO数据集是多人人体关键点检测数据集。COCO数据集包含多达330K张图片，200K个标注的人体，属于大规模人体关键点数据集。COCO是最大的2D姿势估计数据集，并被视为测试2D姿势估计算法的基准。COCO模型有18种分类。COCO输出格式：鼻子—0，脖子—1，右肩—2，右肘—3，右手腕—4，左肩—5，左手肘—6，左手腕—7，右臀部—8，右膝盖—9，右脚踝—10，左臀部—11，左膝—12，左脚踝—13，右眼—14，左眼—15，右耳—16，左耳—17，背景—18。

(2)训练网络模型。将训练集及标注信息输入到Openpose网络模型，不断调整Openpose网络模型的权重参数，以输出实时且准确率高的二维人体骨骼关节点坐标。最后，将训练好的人体姿态估计网络模型安装到机器人***。Openpose算法姿态提取算法的流程是，输入一个w×h的彩色人物图像；前馈网络对检测目标的关键点位置进行预测，并得到其二维置信度映射S以及一组2D矢量向量场L；用S和L来编码检测目标各部间的关联向量场；通过置信度分析检测目标的亲和向量场，最终标示出所有检测目标的2D关键点。Openpose的整体网络结构采用VGG网络作为骨架进行预训练处理。该网络分为两个部分，两部分能同时对提取到的关键点进行预测置信图、编码相邻关键点间的关联向量场并分别回归S和L。每回归一次S和L即为完成一轮迭代预测，通过连续的t∈(1,…,T)轮迭代，就能形成整个预测网络体系结构。每一阶段统计一次反馈损失函数，并把S、L及F即原始输入连接起来，进而得到下一阶段预测训练的输入。在进行了n轮迭代之后，S能起到一定程度的区分预测网络体系左右结构的作用，迭代次数越多其区分程度越显著。

(3)赋予动作特定的含义及识别。经过人体姿态估计实时检测出人体关节点，再根据检测出来的关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作所代表的含义，从而实现人体动作识别。如举起右手、举起左手、举起双手、叉腰等动作的人体关节点有特定的角度特征和相对距离特征，赋予这些动作特定的含义，通过视觉完成动作的快速识别以及将识别结果作为控制指令传给机器人，从而让机器人按照人的意图执行相应动作，即机器人可以通过视觉来识别和理解人体动作意图，再做出相应的动作，从而实现人与机械臂的智能交互。

(4)规划机械臂的运动路径。机器人通过视觉来识别和理解人体动作意图后，根据夹爪抓取物体的空间位姿等几何信息，确定机械臂的每个关节需要旋转的角度，根据空间位姿moveit运动求解器根据实际需求出末端位姿，规划出一系列中间点，控制各个关节旋转到各个中间点直至目标点，之后机械爪进行抓取物品或其它交互动作。

(5)机器人抓取控制。当机械臂运动到所要抓取的物品的位姿状态时，通过华数机器人的三型二次开发接口对气缸夹爪进行控制，第一控制输出端为true时，夹爪夹紧，实现机器人对物体的抓取；第二控制输出端为true时，夹爪松开，实现机器人对物体的抓取释放。

如图6所示，本发明实施例还提供了一种基于人体动作识别的人机交互***，包括：

获取模块，用于获取人体动作数据集；

训练模块，用于将人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型；

传输模块，用于将神经网络模型输出至机器人；

检测模块，用于通过人体姿态估计实时检测出人体关节点，根据人体关节点连成人体骨架；

定义模块，用于根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作；

控制模块，用于将识别结果作为控制指令传送给机器人，以使机器人根据控制指令对目标物体进行抓取。

可以理解的是，获取模块获取人体动作数据集，训练模块将人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型，传输模块将神经网络模型输出至机器人，检测模块通过人体姿态估计实时检测出人体关节点，根据人体关节点连成人体骨架，定义模块根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，识别模块通过视觉对人体动作进行识别，输出识别结果，控制模块将识别结果作为控制指令传送给机器人，以使机器人根据控制指令对目标物体进行抓取。基于此，本***通过人体动作数据集进行动作特征的提取和学习，训练人体姿态估计的神经网络模型。经过人体姿态估计实时检测出人体关节点，再根据检测出来的关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，从而实现人体动作识别。利用人体动作识别与机器人进行人机交互，从而突破传统的键盘、鼠标等僵化的交互方式。利用人体动作识别直接控制机器人进行抓取，实现人机之间更加智能、自然、和谐的交互，提高交互效果。

如图7所示，本发明实施例还提供了一种基于人体动作识别的人机交互***。

在一实施方式中，该基于人体动作识别的人机交互***可以包括：一个或多个处理器和存储器，图7中以一个处理器及存储器为例。处理器和存储器可以通过总线或者其他方式连接，图7中以通过总线连接为例。基于人体动作识别的人机交互***外部与至少一个摄像机连接，连接方式可以是无线或有线，基于人体动作识别的人机交互***可以控制摄像机运作。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如上述本发明实施例中的基于人体动作识别的人机交互方法。处理器通过运行存储在存储器中的非暂态软件程序以及程序，从而实现上述本发明实施例中的基于人体动作识别的人机交互方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储执行上述本发明实施例中的基于人体动作识别的人机交互方法所需的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该基于人体动作识别的人机交互***。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述本发明实施例中的基于人体动作识别的人机交互方法所需的非暂态软件程序以及程序存储在存储器中，当被一个或者多个处理器执行时，执行上述本发明实施例中的基于人体动作识别的人机交互方法，例如，执行以上描述的图1中的方法步骤101至步骤107，图2中的方法步骤201至步骤203，图3中的方法步骤301至步骤304，图4中的方法步骤401至步骤403，图5中的方法步骤501至步骤504，通过获取人体动作数据集，将人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型，将神经网络模型输出至机器人，通过人体姿态估计实时检测出人体关节点，根据人体关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，通过视觉对人体动作进行识别，输出识别结果，将识别结果作为控制指令传送给机器人，以使机器人根据控制指令对目标物体进行抓取。基于此，本发明通过人体动作数据集进行动作特征的提取和学习，训练人体姿态估计的神经网络模型。经过人体姿态估计实时检测出人体关节点，再根据检测出来的关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，从而实现人体动作识别。利用人体动作识别与机器人进行人机交互，从而突破传统的键盘、鼠标等僵化的交互方式。利用人体动作识别直接控制机器人进行抓取，实现人机之间更加智能、自然、和谐的交互，提高交互效果。

此外，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行程序，该计算机可执行程序被一个或多个控制处理器执行，例如，被图7中的一个处理器执行，可使得上述一个或多个处理器执行上述本发明实施例中的基于人体动作识别的人机交互方法，例如，执行以上描述的图1中的方法步骤101至步骤107，图2中的方法步骤201至步骤203，图3中的方法步骤301至步骤304，图4中的方法步骤401至步骤403，图5中的方法步骤501至步骤504，通过获取人体动作数据集，将人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型，将神经网络模型输出至机器人，通过人体姿态估计实时检测出人体关节点，根据人体关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，通过视觉对人体动作进行识别，输出识别结果，将识别结果作为控制指令传送给机器人，以使机器人根据控制指令对目标物体进行抓取。基于此，本发明通过人体动作数据集进行动作特征的提取和学习，训练人体姿态估计的神经网络模型。经过人体姿态估计实时检测出人体关节点，再根据检测出来的关节点连成人体骨架，根据人体关节点之间的角度特征和相对距离特征来定义各种人体动作，从而实现人体动作识别。利用人体动作识别与机器人进行人机交互，从而突破传统的键盘、鼠标等僵化的交互方式。利用人体动作识别直接控制机器人进行抓取，实现人机之间更加智能、自然、和谐的交互，提高交互效果。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读程序、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种基于人体动作识别的人机交互方法，其特征在于，包括：

获取人体动作数据集；

将所述神经网络模型输出至机器人；

通过视觉对人体动作进行识别，输出识别结果；

2.根据权利要求1所述的方法，其特征在于，所述人体动作数据集为MS COCO数据集，所述神经网络模型为采用Pytorch框架的深度学习网络模型。

3.根据权利要求1所述的方法，其特征在于，所述将所述人体动作数据集通过深度学习算法进行训练，得到人体姿态估计的神经网络模型，包括：

将所述人体动作数据集输入到Openpose网络模型；

通过迭代训练得到人体姿态估计的神经网络模型。

4.根据权利要求3所述的方法，其特征在于，所述通过调整所述Openpose网络模型的权重参数，确定所述人体关节点，包括：

输入检测目标的人体图像；

5.根据权利要求1所述的方法，其特征在于，所述将所述识别结果作为控制指令传送给所述机器人，以使所述机器人根据所述控制指令对目标物体进行抓取，包括：

所述机器人获取所述控制指令；

6.根据权利要求5所述的方法，其特征在于，所述机器人根据所述空间位姿规划机械臂的运动路径，并根据所述运动路径对所述目标物体进行抓取，包括：

所述机器人控制所述机械臂抓取所述目标物体。

7.根据权利要求6所述的方法，其特征在于，所述机器人控制所述机械臂抓取所述目标物体，包括：

8.一种基于人体动作识别的人机交互***，其特征在于，包括：

获取模块，用于获取人体动作数据集；

传输模块，用于将所述神经网络模型输出至机器人；

9.一种基于人体动作识别的人机交互***，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于人体动作识别的人机交互方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如权利要求1至7任意一项所述的基于人体动作识别的人机交互方法。