CN107423721A

CN107423721A - 人机交互动作检测方法、装置、存储介质及处理器

Info

Publication number: CN107423721A
Application number: CN201710670075.4A
Authority: CN
Inventors: 王志鹏; 周文明
Original assignee: Zhuhai Xi Yue Information Technology Co Ltd
Current assignee: Zhuhai Xi Yue Information Technology Co Ltd
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2017-12-01

Abstract

本发明公开了一种人机交互动作检测方法、装置、存储介质及处理器。其中，该方法包括：根据预设多层卷积神经网络对目标图片进行检测，得到目标图片中存在的至少一个目标对象对应的类别和边框坐标；确定至少一个目标对象中置信度最高的目标对象为目标检测对象；将目标检测对象对应的类别和边框坐标输入至预设多阶段回归卷积神经网络，进而对目标检测对象进行人体关节部位的位置检测，得到目标检测对象中的人体关节部位的位置坐标；对位置坐标进行归一化处理，进而根据预设多层递归神经网络对完成归一化处理之后的位置坐标进行检测，得到目标图片的类别标签。本发明解决了现有技术中存在的人机交互动作检测准确度和效率较低的技术问题。

Description

人机交互动作检测方法、装置、存储介质及处理器

技术领域

本发明涉及人机交互领域，具体而言，涉及一种人机交互动作检测方法、装置、存储介质及处理器。

背景技术

人机交互动作检测和分类是人机交互的一项基础技术，对于智能家居、安防***和病人监护等人类与电子设备交互的场景中具有重要意义。例如医疗行业，在手势识别的帮助下，聋哑病人可以在护士不在时，通过一个摄像头和简单的手势将需求传达给医院，解决了独立电子设备配置昂贵和病人不会使用计算机等问题。

当前用于人体动作识别的方法为基于two-stream卷积神经网络的方法，其将含时间信息光流场和RBG图像同时输入卷积神经网络并进行信息融合，最终输出整段视频的类别标签。由于光流场含的时间信息局限于附近几帧，限制了结果的准确性，并且由于输出为一段视频的类别标签，需要逐帧对时间窗口进行滑动，计算了大量重复信息，限制了***的效率和实时性。综上，现有技术中的人机交互动作检测存在准确度和效率较低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种人机交互动作检测方法、装置、存储介质及处理器，以至少解决现有技术中存在的人机交互动作检测准确度和效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种人机交互动作检测方法，该方法包括：根据预设多层卷积神经网络对目标图片进行检测，得到上述目标图片中存在的至少一个目标对象对应的类别以及上述至少一个目标对象对应的边框坐标；确定上述至少一个目标对象中置信度最高的上述目标对象为目标检测对象；将上述目标检测对象对应的上述类别和上述目标检测对象对应的上述边框坐标输入至预设多阶段回归卷积神经网络，进而根据上述预设多阶段回归卷积神经网络对上述目标检测对象进行人体关节部位的位置检测，得到上述目标检测对象中的上述人体关节部位的位置坐标；对上述位置坐标进行归一化处理，进而根据预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测，得到上述目标图片的检测结果，其中，上述检测结果中至少包括上述目标图片的类别标签。

进一步地，在根据预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测之前，上述方法还包括：根据预设损失函数和预设算法对上述预设多层递归神经网络进行训练，其中，上述预设损失函数为分类函数，上述预设算法为基于时间尺度的反向传播算法。

进一步地，上述根据预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测，得到上述目标图片的检测结果包括：根据上述预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测，得到上述目标图片对应的多个类别以及上述多个类别中的每个上述类别对应的多个激活值；在预设时间窗内获取每个上述类别对应的上述多个激活值的平均值；将多个上述平均值中的最大平均值对应的上述类别确定为上述目标图片的类别标签，从而得到上述检测结果。

进一步地，在根据预设多层卷积神经网络对目标图片进行检测之前，上述方法还包括：获取预设摄像头中拍摄到的人体姿态视频图像；将上述人体姿态视频图像中的任意一帧图片确定为上述目标图片。

根据本发明实施例的另一方面，还提供了一种人机交互动作检测装置，该装置包括：检测单元，用于根据预设多层卷积神经网络对目标图片进行检测，得到上述目标图片中存在的至少一个目标对象对应的类别以及上述至少一个目标对象对应的边框坐标；第一确定单元，用于确定上述至少一个目标对象中置信度最高的上述目标对象为目标检测对象；第一处理单元，用于将上述目标检测对象对应的上述类别和上述目标检测对象对应的上述边框坐标输入至预设多阶段回归卷积神经网络，进而根据上述预设多阶段回归卷积神经网络对上述目标检测对象进行人体关节部位的位置检测，得到上述目标检测对象中的上述人体关节部位的位置坐标；第二处理单元，用于对上述位置坐标进行归一化处理，进而根据预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测，得到上述目标图片的检测结果，其中，上述检测结果中至少包括上述目标图片的类别标签。

进一步地，上述装置还包括：训练单元，用于根据预设损失函数和预设算法对上述预设多层递归神经网络进行训练，其中，上述预设损失函数为分类函数，上述预设算法为基于时间尺度的反向传播算法。

进一步地，上述第二处理单元包括：检测子单元，用于根据上述预设多层递归神经网络对完成上述归一化处理之后的上述位置坐标进行检测，得到上述目标图片对应的多个类别以及上述多个类别中的每个上述类别对应的多个激活值；获取子单元，用于在预设时间窗内获取每个上述类别对应的上述多个激活值的平均值；确定子单元，用于将多个上述平均值中的最大平均值对应的上述类别确定为上述目标图片的类别标签，从而得到上述检测结果。

进一步地，上述装置还包括：获取单元，用于获取预设摄像头中拍摄到的人体姿态视频图像；第二确定单元，用于将上述人体姿态视频图像中的任意一帧图片确定为上述目标图片。

根据本发明实施例的又一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行上述的人机交互动作检测方法。

根据本发明实施例的又一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述的人机交互动作检测方法。

在本发明实施例中，采用根据预设多层卷积神经网络对目标图片进行检测，得到目标图片中存在的至少一个目标对象对应的类别以及至少一个目标对象对应的边框坐标的方式，通过确定至少一个目标对象中置信度最高的目标对象为目标检测对象；从而将目标检测对象对应的类别和目标检测对象对应的边框坐标输入至预设多阶段回归卷积神经网络，进而根据预设多阶段回归卷积神经网络对目标检测对象进行人体关节部位的位置检测，得到目标检测对象中的人体关节部位的位置坐标；达到了对位置坐标进行归一化处理，进而根据预设多层递归神经网络对完成归一化处理之后的位置坐标进行检测，得到目标图片的检测结果的目的，其中，检测结果中至少包括目标图片的类别标签。本发明实施例实现了提升人机交互动作检测的准确率、提高人机交互动作检测的效率的技术效果，进而解决了现有技术中存在的人机交互动作检测准确度和效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的人机交互动作检测方法的流程示意图；

图2是根据本发明实施例的另一种可选的人机交互动作检测方法的流程示意图；

图3是根据本发明实施例的又一种可选的人机交互动作检测方法的流程示意图；

图4是根据本发明实施例的一种可选的人机交互动作检测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种人机交互动作检测方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的人机交互动作检测方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S102，根据预设多层卷积神经网络对目标图片进行检测，得到目标图片中存在的至少一个目标对象对应的类别以及至少一个目标对象对应的边框坐标；

步骤S104，确定至少一个目标对象中置信度最高的目标对象为目标检测对象；

步骤S106，将目标检测对象对应的类别和目标检测对象对应的边框坐标输入至预设多阶段回归卷积神经网络，进而根据预设多阶段回归卷积神经网络对目标检测对象进行人体关节部位的位置检测，得到目标检测对象中的人体关节部位的位置坐标；

步骤S108，对位置坐标进行归一化处理，进而根据预设多层递归神经网络对完成归一化处理之后的位置坐标进行检测，得到目标图片的检测结果，其中，检测结果中至少包括目标图片的类别标签。

可选地，卷积神经网络技术近年来在计算机视觉方面的大量问题如物体分类、识别、检测等体现了很好的性能，它主要适合视觉信号中空间静态模式的分析。而递归神经网络近年来在机器翻译、视频分类问题上取得了领先的结果，它主要适合对时间序列的动态特性进行建模。因此，本申请实施例将深度卷积神经网络和递归神经网络进行结合，描述视觉信号中的时空动态模式，提高了动作检测和分类的准确率。

可选地，在执行步骤S102之前，可以对每帧目标图片标注类别，从而构建训练样本集。例如，人机交互动作类别可以分为6种：举手、挥手、展臂、画圆、双手交叉以及不属于这5种动作的其他动作。

可选地，在执行步骤S102的过程中，可以构造多层卷积神经网络对目标图片进行目标检测，得到多个目标的类别以及边框坐标。该网络包括进行图片空间特征提取的特征提取网络，提出可能的待检测目标边框位置的候选区域网络(Region Proposal Network)，以及对候选区域进行分类和边框回归的分类回归网络。空间特征提取网络可以选择Zeiler&Fergus网络，VGG-16/19网络或者残差神经网络。候选区域网络由3个卷积层组成，卷积核尺寸分别为512×3×3、18×1×1以及36×1×1。其中第二、三卷积层的输入均为第一卷积层，输出分别为候选区域的边框坐标和分数。分类回归网络由感兴趣区(region ofinterest)池化层，两层4096维的全连接层，以及并行的分类和回归全连接层组成。其中感兴趣区池化层将任意大小的区域特征映射为定长的向量表达，分类和回归全连接层的输出分别为对输入边框来说，各类的分数以及边框的偏移量。根据边框偏移量对边框坐标进行微调，并根据分数进行筛选后，可以得到该步骤的检测结果。

可选地，在执行步骤S106的过程中，可以构造多阶段回归卷积神经网络进行人体关节位置估计，得到重要关节位置的坐标。该网络由多个相同网络的堆叠而成，每个子网络的输入为以目标中心为均值的高斯分布、预处理网络的输出和上一子网络的输出。其中，预处理网络由四个卷积层组成，卷积核尺寸分别为128×9×9,pad＝4，128×9×9,pad＝4，128×9×9,pad＝4，32×5×5,pad＝2，前三层后均进行尺寸9×9，步长为2的最大值池化操作。子网络在预处理网络的基础上增加三层卷积层，尺寸分别为512×9×9,pad＝4，512×1×1以及512×1×1。阶段数越高，则关节估计修正的效果越好。

可选地，在执行步骤S106的过程中，预设多阶段回归卷积神经网络可以将同结构的卷积神经网络堆叠，并在多阶段分别微调输出结果，并得到头部、颈部、左右肩、左右肘、左右手腕、左右股、左右膝、左右脚腕14个关节的二维坐标。

可选地，在执行步骤S108的过程中，可以对输出的关节坐标进行归一化处理。取其第一帧的头部位置h^i，0为初始点。考虑到正面和侧面各视角竖直方向上的尺度不变，取头部到颈部、髋关节到双膝的距离之和为尺度因子sⁱ，则归一化后的坐标为：

可选地，在根据预设多层递归神经网络对完成归一化处理之后的位置坐标进行检测之前，方法还包括：根据预设损失函数和预设算法对预设多层递归神经网络进行训练，其中，预设损失函数为分类函数，预设算法为基于时间尺度的反向传播算法。具体地，该损失函数可以为softmax分类函数。

可选地，可以构建多层递归神经网络并进行训练。根据拉伊德准则选取视频长度为平均数附近3倍标准差内的视频作为训练集，并取最大帧长为递归神经网络的时间步(time step)。使用对关节坐标加随机噪声的方式进行数据增强，并使用网格搜索方法对网络层数、每层神经元个数、以及dropout的比例等超参数进行优化。

具体地，在对预设多层递归神经网络进行训练的过程中，可以根据拉伊德准则丢弃视频长度为平均数附近3倍标准差外的视频，并取最大帧长为递归神经网络的时间步(time step)进行展开。对于不足最大帧长的视频图片特征，采用全0值补齐，并将类别标签设置为0，代表不属于任何类别。将损失函数设置为softmax函数，对各帧的预测类别求损失值，并取平均作为总的损失，这也被称作perplexity。将样本集按样本数7：3随机划分为训练集和测试集，并对关节坐标加服从的噪声，以增加样本数进行数据增强。训练时使用BPTT算法进行网络权重的更新。使用网格搜索方法对网络层数、每层神经元个数、以及dropout的比例等超参数进行优化，迭代次数选为200。选取在测试集上效果最好的超参数和迭代次数下的模型用于测试。效果评价指标为F₁分数，计算方法为：其中precision为分类准确率，recall为分类召回率。

可选地，图2是根据本发明实施例的另一种可选的人机交互动作检测方法的流程示意图，如图2所示，执行步骤S108，即根据预设多层递归神经网络对完成归一化处理之后的位置坐标进行检测，得到目标图片的检测结果包括：

步骤S202，根据预设多层递归神经网络对完成归一化处理之后的位置坐标进行检测，得到目标图片对应的多个类别以及多个类别中的每个类别对应的多个激活值；

步骤S204，在预设时间窗内获取每个类别对应的多个激活值的平均值；

步骤S206，将多个平均值中的最大平均值对应的类别确定为目标图片的类别标签，从而得到检测结果。

可选地，图3是根据本发明实施例的又一种可选的人机交互动作检测方法的流程示意图，如图3所示，在执行步骤S102之前，即在根据预设多层卷积神经网络对目标图片进行检测之前，该方法还可以包括：

步骤S302，获取预设摄像头中拍摄到的人体姿态视频图像；

步骤S304，将人体姿态视频图像中的任意一帧图片确定为目标图片。

具体地，该预设摄像头可以为USB摄像头或者网络摄像头。人体姿态视频图像中一般包含多帧目标图像。

可选地，本发明通过卷积神经网络提取图像的空间视觉特征，并通过训练递归神经网络对时间序列进行动态建模，在测试时对某时刻前一定时间窗内的各类激活值进行累加，并取最大的值对应类别作为该时刻的结果。本发明可以同时完成进行人体动作检测与识别，并具有较好的实时性和鲁棒性。

可选地，本发明所涉及的基于深度时空神经网络的人机交互人体动作检测与分类方法，可以使用卷积神经网络提取了图像的空间视觉特征，并使用递归神经网络对人体动态进行建模和预测，扩展了深度学习方法的使用范围，提高了时间尺度信息的利用效率，并同时可以对人体行为的开始时刻进行检测，扩大了该技术的使用范围。

实施例2

根据本发明实施例的另一方面，还提供了一种人机交互动作检测装置，如图4所示，该装置包括：检测单元401、第一确定单元403、第一处理单元405、第二处理单元407。

其中，检测单元401，用于根据预设多层卷积神经网络对目标图片进行检测，得到目标图片中存在的至少一个目标对象对应的类别以及至少一个目标对象对应的边框坐标；第一确定单元403，用于确定至少一个目标对象中置信度最高的目标对象为目标检测对象；第一处理单元405，用于将目标检测对象对应的类别和目标检测对象对应的边框坐标输入至预设多阶段回归卷积神经网络，进而根据预设多阶段回归卷积神经网络对目标检测对象进行人体关节部位的位置检测，得到目标检测对象中的人体关节部位的位置坐标；第二处理单元407，用于对位置坐标进行归一化处理，进而根据预设多层递归神经网络对完成归一化处理之后的位置坐标进行检测，得到目标图片的检测结果，其中，检测结果中至少包括目标图片的类别标签。

可选地，该装置还可以包括：训练单元，用于根据预设损失函数和预设算法对预设多层递归神经网络进行训练，其中，预设损失函数为分类函数，预设算法为基于时间尺度的反向传播算法。

可选地，第二处理单元407可以包括：检测子单元，用于根据预设多层递归神经网络对完成归一化处理之后的位置坐标进行检测，得到目标图片对应的多个类别以及多个类别中的每个类别对应的多个激活值；获取子单元，用于在预设时间窗内获取每个类别对应的多个激活值的平均值；确定子单元，用于将多个平均值中的最大平均值对应的类别确定为目标图片的类别标签，从而得到检测结果。

可选地，该装置还可以包括：获取单元，用于获取预设摄像头中拍摄到的人体姿态视频图像；第二确定单元，用于将人体姿态视频图像中的任意一帧图片确定为目标图片。

根据本发明实施例的又一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的人机交互动作检测方法。

根据本发明实施例的又一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述的人机交互动作检测方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人机交互动作检测方法，其特征在于，包括：

根据预设多层卷积神经网络对目标图片进行检测，得到所述目标图片中存在的至少一个目标对象对应的类别以及所述至少一个目标对象对应的边框坐标；

确定所述至少一个目标对象中置信度最高的所述目标对象为目标检测对象；

将所述目标检测对象对应的所述类别和所述目标检测对象对应的所述边框坐标输入至预设多阶段回归卷积神经网络，进而根据所述预设多阶段回归卷积神经网络对所述目标检测对象进行人体关节部位的位置检测，得到所述目标检测对象中的所述人体关节部位的位置坐标；

对所述位置坐标进行归一化处理，进而根据预设多层递归神经网络对完成所述归一化处理之后的所述位置坐标进行检测，得到所述目标图片的检测结果，其中，所述检测结果中至少包括所述目标图片的类别标签。

2.根据权利要求1所述的方法，其特征在于，在根据预设多层递归神经网络对完成所述归一化处理之后的所述位置坐标进行检测之前，所述方法还包括：根据预设损失函数和预设算法对所述预设多层递归神经网络进行训练，其中，所述预设损失函数为分类函数，所述预设算法为基于时间尺度的反向传播算法。

3.根据权利要求1所述的方法，其特征在于，所述根据预设多层递归神经网络对完成所述归一化处理之后的所述位置坐标进行检测，得到所述目标图片的检测结果包括：

根据所述预设多层递归神经网络对完成所述归一化处理之后的所述位置坐标进行检测，得到所述目标图片对应的多个类别以及所述多个类别中的每个所述类别对应的多个激活值；

在预设时间窗内获取每个所述类别对应的所述多个激活值的平均值；

将多个所述平均值中的最大平均值对应的所述类别确定为所述目标图片的类别标签，从而得到所述检测结果。

4.根据权利要求1所述的方法，其特征在于，在根据预设多层卷积神经网络对目标图片进行检测之前，所述方法还包括：

获取预设摄像头中拍摄到的人体姿态视频图像；

将所述人体姿态视频图像中的任意一帧图片确定为所述目标图片。

5.一种人机交互动作检测装置，其特征在于，包括：

检测单元，用于根据预设多层卷积神经网络对目标图片进行检测，得到所述目标图片中存在的至少一个目标对象对应的类别以及所述至少一个目标对象对应的边框坐标；

第一确定单元，用于确定所述至少一个目标对象中置信度最高的所述目标对象为目标检测对象；

第一处理单元，用于将所述目标检测对象对应的所述类别和所述目标检测对象对应的所述边框坐标输入至预设多阶段回归卷积神经网络，进而根据所述预设多阶段回归卷积神经网络对所述目标检测对象进行人体关节部位的位置检测，得到所述目标检测对象中的所述人体关节部位的位置坐标；

第二处理单元，用于对所述位置坐标进行归一化处理，进而根据预设多层递归神经网络对完成所述归一化处理之后的所述位置坐标进行检测，得到所述目标图片的检测结果，其中，所述检测结果中至少包括所述目标图片的类别标签。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

训练单元，用于根据预设损失函数和预设算法对所述预设多层递归神经网络进行训练，其中，所述预设损失函数为分类函数，所述预设算法为基于时间尺度的反向传播算法。

7.根据权利要求5所述的装置，其特征在于，所述第二处理单元包括：

检测子单元，用于根据所述预设多层递归神经网络对完成所述归一化处理之后的所述位置坐标进行检测，得到所述目标图片对应的多个类别以及所述多个类别中的每个所述类别对应的多个激活值；

获取子单元，用于在预设时间窗内获取每个所述类别对应的所述多个激活值的平均值；

确定子单元，用于将多个所述平均值中的最大平均值对应的所述类别确定为所述目标图片的类别标签，从而得到所述检测结果。

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

获取单元，用于获取预设摄像头中拍摄到的人体姿态视频图像；

第二确定单元，用于将所述人体姿态视频图像中的任意一帧图片确定为所述目标图片。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求4中任意一项所述的人机交互动作检测方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至权利要求4中任意一项所述的人机交互动作检测方法。