CN111103981A

CN111103981A - 控制指令生成方法及装置

Info

Publication number: CN111103981A
Application number: CN201911329945.7A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-05
Anticipated expiration: 2039-12-20
Also published as: CN111103981B

Abstract

本发明实施例提供了控制指令生成方法、装置、电子设备及计算机可读存储介质，涉及数据处理领域。所述方法包括：获取连续的二维图像帧；计算所述连续的二维图像帧中每一帧的用户姿势关键点信息，所述用户姿势关键点信息包括：用户姿势关键点的三维坐标；根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图；根据所述控制意图，生成对应的控制指令。本申请只需基于获取的连续的二维图像帧，计算得到连续二维图像帧中每一帧的用户的各个姿势关键点的三维坐标，进一步基于连续二维图像帧中至少一帧的用户的各个姿势关键点的三维坐标确定用户的控制意图，实现了采用二维图像帧识别用户的控制意图。

Description

控制指令生成方法及装置

技术领域

本发明涉及数据处理领域，特别是涉及一种控制指令生成方法、装置、电子设备及计算机可读存储介质。

背景技术

通过图像来获取用户的控制意图，得到对应的控制指令，利于提升用户操作的便捷性和多样性，因此应用广泛。

目前，通常采用深度数据摄像头获取人的深度图像，基于该深度图像识别人的控制意图。例如，RGBD景深摄像头，除了可以采集正常的彩色图像还可以采集深度图像，基于该RGBD景深摄像头采集的深度图像，识别被拍摄人的控制意图。

但是，现有技术中无法采用普通摄像头采集的二维图像识别人的控制意图。

发明内容

本发明实施例的目的在于提供一种控制指令生成方法、装置、电子设备及计算机可读存储介质，以解决无法采用普通摄像头采集的二维图像识别人的控制意图的问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种控制指令生成方法，所述方法包括：

获取连续的二维图像帧；

计算所述连续的二维图像帧中每一帧的用户姿势关键点信息，所述用户姿势关键点信息包括：用户姿势关键点的三维坐标；

根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图；

根据所述控制意图，生成对应的控制指令。

可选的，所述根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图，包括：

将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入姿势匹配模型，得到至少一帧对应的匹配控制姿势；

根据所述至少一帧对应的匹配控制姿势，确定所述用户对应的控制意图。

可选的，所述将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入姿势匹配模型，得到至少一帧对应的匹配控制姿势，包括：

将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入所述姿势匹配模型，得到当前帧的用户姿势关键点信息与当前控制姿势对应的控制姿势关键点信息之间的匹配置信度；

若所述匹配置信度超过预设阈值，将所述当前控制姿势确定为所述至少一帧对应的匹配控制姿势。

可选的，所述根据所述至少一帧对应的匹配控制姿势，确定所述用户对应的控制意图，包括：

若所述匹配控制姿势为静态控制姿势，根据预置的静态控制姿势与控制意图的对应关系，确定所述匹配控制姿势对应的控制意图。

若所述匹配控制姿势为动态控制姿势，根据所述当前帧，以及所述当前帧时序之后的至少一帧，检测所述动态控制姿势中的控制量姿势关键点的变化量；

根据所述动态控制姿势和所述控制量姿势关键点的变化量，确定所述匹配控制姿势对应的控制意图。

可选的，所述根据所述当前帧，以及所述当前帧时序之后的至少一帧，检测所述动态控制姿势中的控制量姿势关键点的变化量，包括：

将所述当前帧，以及所述当前帧时序之后的至少一帧，输入所述动态控制姿势对应的变化量确定模型，输出所述动态控制姿势中的控制量姿势关键点的变化量。

将所述当前帧时序之后的至少一帧输入所述姿势匹配模型，得到所述当前帧时序之后的至少一帧中各帧对应的匹配控制姿势；

根据所述当前帧，以及所述当前帧时序之后的至少一帧中匹配控制姿势与所述当前帧的匹配姿势相同的目标帧，检测所述动态控制姿势中的控制量姿势关键点的变化量。

可选的，所述姿势匹配模型包括：第一全连接网络、第二全连接网络、以及第三全连接网络；所述将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入所述姿势匹配模型，得到当前帧的用户姿势关键点信息与当前控制姿势对应的控制姿势关键点信息之间的匹配置信度，包括：

将所述连续的二维图像帧中每一帧的用户姿势关键点信息输入所述第一全连接网络，以及将每一个所述预置的控制姿势对应的控制姿势关键点信息输入所述第二全连接网络；

将所述第一全连接网络和所述第二全连接网络的输出向量相加后，输入所述第三全连接网络，通过所述第三全连接网络输出所述当前帧的用户姿势关键点信息与所述当前控制姿势对应的控制姿势关键点信息之间的匹配置信度。

可选的，所述姿势关键点信息包括：手势关键点信息，所述计算所述连续的二维图像帧中每一帧的用户姿势关键点信息之前，还包括：

对所述连续的二维图像帧中每一帧进行人体关键点检测，得到人体关键点的识别结果；

根据所述人体关键点的识别结果，确定所述每一帧中的左手肘坐标，和/或，右手肘坐标；

根据所述左手肘坐标，和/或，右手肘坐标，确定所述每一帧中的手势检测区域；其中，所述手势检测区域包括左手的手指关键点和手腕关键点，和/或，右手的手指关键点和手腕关键点；

所述计算所述连续的二维图像帧中每一帧的用户姿势关键点信息，包括：

计算所述连续的二维图像帧中每一帧中手势检测区域中的用户姿势关键点信息。

可选的，所述计算所述连续的二维图像帧中每一帧的用户姿势关键点信息之前，还包括：

对所述连续的二维图像帧中每一帧进行人脸识别，确定所述连续的二维图像帧中每一帧中的授权用户；

在所述每一帧中删除非授权用户的姿势关键点，保留所述授权用户的姿势关键点；

计算所述连续的二维图像帧中每一帧中保留的授权用户的姿势关键点信息。

可选的，所述根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图之前，还包括：

根据所述连续的二维图像帧的至少一帧的用户姿势关键点信息，判断是否接收到准备姿势；

所述根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图，包括：

在接收到准备姿势的情况下，根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图。

可选的，所述方法还包括：

将所述控制指令发送给受控设备；所述受控设备用于执行所述控制指令。

在本发明实施的第二方面，还提供了一种控制指令生成装置，所述装置包括：

图像获取模块，用于获取连续的二维图像帧；

姿势关键点信息计算模块，用于计算所述连续的二维图像帧中每一帧的用户姿势关键点信息，所述用户姿势关键点信息包括：用户姿势关键点的三维坐标；

控制意图识别模块，用于根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图；

控制指令生成模块，用于根据所述控制意图，生成对应的控制指令。

可选的，所述控制意图识别模块，包括：

匹配控制姿势确定子模块，用于将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入姿势匹配模型，得到至少一帧对应的匹配控制姿势；

第一控制意图识别子模块，用于根据所述至少一帧对应的匹配控制姿势，确定所述用户对应的控制意图。

可选的，所述匹配控制姿势确定子模块，包括：

匹配置信度确定单元，用于将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入所述姿势匹配模型，得到当前帧的用户姿势关键点信息与当前控制姿势对应的控制姿势关键点信息之间的匹配置信度；

匹配控制姿势确定单元，用于若所述匹配置信度超过预设阈值，将所述当前控制姿势确定为所述至少一帧对应的匹配控制姿势。

可选的，所述第一控制意图识别子模块，包括：

第一控制意图识别单元，用于若所述匹配控制姿势为静态控制姿势，根据预置的静态控制姿势与控制意图的对应关系，确定所述匹配控制姿势对应的控制意图。

可选的，所述第一控制意图识别子模块，包括：

变化量检测单元，用于若所述匹配控制姿势为动态控制姿势，根据所述当前帧，以及所述当前帧时序之后的至少一帧，检测所述动态控制姿势中的控制量姿势关键点的变化量；

第二控制意图识别单元，用于根据所述动态控制姿势和所述控制量姿势关键点的变化量，确定所述匹配控制姿势对应的控制意图。

可选的，所述变化量检测单元，包括：

第一变化量检测子单元，用于将所述当前帧，以及所述当前帧时序之后的至少一帧，输入所述动态控制姿势对应的变化量确定模型，输出所述动态控制姿势中的控制量姿势关键点的变化量。

可选的，所述变化量检测单元，包括：

姿势确定子单元，用于将所述当前帧时序之后的至少一帧输入所述姿势匹配模型，得到所述当前帧时序之后的至少一帧中各帧对应的匹配控制姿势；

第二变化量检测子单元，用于根据所述当前帧，以及所述当前帧时序之后的至少一帧中匹配控制姿势与所述当前帧的匹配姿势相同的目标帧，检测所述动态控制姿势中的控制量姿势关键点的变化量。

可选的，所述姿势匹配模型包括：第一全连接网络、第二全连接网络、以及第三全连接网络；所述匹配置信度确定单元，包括：

输入子单元，用于将所述连续的二维图像帧中每一帧的用户姿势关键点信息输入所述第一全连接网络，以及将每一个所述预置的控制姿势对应的控制姿势关键点信息输入所述第二全连接网络；

匹配置信度确定子单元，用于将所述第一全连接网络和所述第二全连接网络的输出向量相加后，输入所述第三全连接网络，通过所述第三全连接网络输出所述当前帧的用户姿势关键点信息与所述当前控制姿势对应的控制姿势关键点信息之间的匹配置信度。

可选的，所述姿势关键点信息包括：手势关键点信息，所述装置还包括：

人体关键点识别模块，用于对所述连续的二维图像帧中每一帧进行人体关键点检测，得到人体关键点的识别结果；

手肘坐标确定模块，用于根据所述人体关键点的识别结果，确定所述每一帧中的左手肘坐标，和/或，右手肘坐标；

手势检测区域确定模块，用于根据所述左手肘坐标，和/或，右手肘坐标，确定所述每一帧中的手势检测区域；其中，所述手势检测区域包括左手的手指关键点和手腕关键点，和/或，右手的手指关键点和手腕关键点；

所述姿势关键点信息计算模块，包括：

姿势关键点信息第一计算子模块，用于计算所述连续的二维图像帧中每一帧中手势检测区域中的用户姿势关键点信息。

可选的，所述装置，还包括：

人脸识别模块，用于对所述连续的二维图像帧中每一帧进行人脸识别，确定所述连续的二维图像帧中每一帧中的授权用户；

删除模块，用于在所述每一帧中删除非授权用户的姿势关键点，保留所述授权用户的姿势关键点；

所述姿势关键点信息计算模块，包括：

姿势关键点信息第二计算子模块，用于计算所述连续的二维图像帧中每一帧中保留的授权用户的姿势关键点信息。

可选的，所述装置还包括：

准备姿势判断模块，用于根据所述连续的二维图像帧的至少一帧的用户姿势关键点信息，判断是否接收到准备姿势；

所述控制意图识别模块，包括：

第二控制意图识别子模块，用于在接收到准备姿势的情况下，根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图。

可选的，所述装置还包括：

控制指令发送模块，用于将所述控制指令发送给受控设备；所述受控设备用于执行所述控制指令。在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任一所述的控制指令生成方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的控制指令生成方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的控制指令生成方法。

本发明实施例提供的控制指令生成方法和装置，所述方法包括：获取连续的二维图像帧；计算所述连续的二维图像帧中每一帧的用户姿势关键点信息，所述用户姿势关键点信息包括：用户姿势关键点的三维坐标；根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图；根据所述控制意图，生成对应的控制指令，能够从很大程度上解决无法采用普通摄像头采集的二维图像识别人的控制意图的问题。

本发明实施例中，只需基于获取的连续的二维图像帧，计算得到连续二维图像帧中每一帧的用户的各个姿势关键点的三维坐标，进一步基于连续二维图像帧中至少一帧的用户的各个姿势关键点的三维坐标确定用户的控制意图，实现了采用二维图像帧识别用户的控制意图。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例中一种控制指令生成方法的步骤流程图；

图2是本发明实施例提供的一种人体关键点的示意图；

图3是本发明实施例提供的一种左手的手势关键点的示意图；

图4是本发明实施例中又一种控制指令生成方法的步骤流程图；

图5是本发明实施例中一种确定匹配控制姿势的步骤流程图；

图6是本发明实施例中一种姿势匹配模型的工作示意图；

图7是本发明实施例中一种计算匹配置信度的步骤流程图；

图8是本发明实施例中一种确定控制意图的步骤流程图；

图9是本发明实施例中还一种控制指令生成方法的步骤流程图；

图10是本发明实施例中一种确定手势检测区域的步骤流程图；

图11是本发明实施例中一种控制指令生成装置；

图12是本发明实施例中还一种控制指令生成装置；

图13是本发明实施例中又一种控制指令生成装置；

图14是本发明实施例中一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参照图1，图1是本发明实施例中一种控制指令生成方法的步骤流程图，该方法可以应用于终端或终端的控制器端，该终端的具体用途或类型等，在本发明实施例中，对此并做具体限定。例如，该终端可以包括：视频播放设备等。例如，该方法可以应用于电视果中。在本发明实施例中，该方法主要包括如下步骤：

步骤101：获取连续的二维图像帧。

本发明实施例中，可以基于普通的或通用的摄像头等获取连续的二维图像帧。该二维图像帧可以为彩色或黑白等，在本发明实施例中，对此并做具体限定。该二维图像帧可以包含用户的图像。该连续的二维图像帧可以为时序连续的多个二维图像帧。该连续的二维图像帧具体包括的帧数量不作具体限定。

步骤102：计算所述连续的二维图像帧中每一帧的用户姿势关键点信息，所述用户姿势关键点信息包括：用户姿势关键点的三维坐标。

在本发明实施例中，用户的姿势关键点可以为能够体现用户姿势的身体部位等。例如，该姿势关键点可以包括：用户的人体关键点、手势关键点等。人体关键点具体可以包括：头部骨骼关键点、颈部骨骼关键点、右肩骨骼关键点、左肩骨骼关键点、右手肘骨骼关键点、左手肘骨骼关键点、右手腕骨骼关键点、左手腕骨骼关键点、右胯骨骼关键点、左胯骨骼关键点、右膝盖骨骼关键点、左膝盖骨骼关键点、右脚腕骨骼关键点、左脚腕骨骼关键点。手势关键点可以为左右手的手腕关键点以及每个手指上的指尖、植根、指关节。左手、右手均可以包括21个手势关键点。如，左手的手势关键点具体可以包括：手腕关键点以及每个手指上的手势关键点。每个手指上的手势关键点又可以包括：指尖、植根以及两个指关节共4个。

例如，参照图2所示，图2是本发明实施例提供的一种人体关键点的示意图。图2中编号为1至14对应的骨骼点可以为人体关键点。人体关键点可以有14个。

例如，参照图3所示，图3是本发明实施例提供的一种左手的手势关键点的示意图。图3中编号为0至20为左手的21个手势关键点。

在本发明实施例中，用户的姿势关键点的三维坐标为能够体现各个姿势关键点之间相对位置关系的三维坐标。在本发明实施例中，可以先从连续的二维图像中的每一帧中识别出用户的各个姿势关键点，例如，可以基于Visual Geometry Group Network(视觉几何组)模型等，从上述连续的二维图像中的每一帧中识别到用户的各个姿势关键点。在本发明实施例中，对此不作具体限定。然后根据各个姿势关键点在二维图像帧中的位置信息，以及拍摄该二维图像帧的摄像头的成像参数等，计算各个姿势关键点的三维坐标。或者，提前训练用户姿势关键点三维坐标识别网络，将上述连续的二维图像中的每一帧输入上述用户姿势关键点三维坐标识别网络，进行三维建模等，计算出上述连续的二维图像中的每一帧的用户姿势关键点的三维坐标。在本发明实施例中，对此不作具体限定。

步骤103：根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图。

在本发明实施例中，用户的控制意图可以为用户想要对终端执行哪些操作等。可以提前建立用户的姿势关键点信息与用户的控制意图之间的对应关系，可以基于上述对应关系，确定前述连续的二维图像帧中至少一帧的用户姿势关键点信息对应的控制意图。

步骤104：根据所述控制意图，生成对应的控制指令。

在本发明实施例中，可以提前设定控制意图与控制指令的对应关系。在获取了用户的控制意图之后，可以在上述对应关系中，获取用户的控制意图对应的控制指令。在本发明实施例中，对此不作具体限定。

该控制指令可以用于控制上述终端执行相应的操作。如，确定的控制意图若为关闭终端，则，控制指令可以为“off”，终端在获取到该控制指令后关闭。

本发明实施例中，只需基于获取的连续的二维图像帧，计算得到连续二维图像帧中每一帧的用户的各个姿势关键点的三维坐标，进一步基于连续二维图像帧中至少一帧的用户的各个姿势关键点的三维坐标确定用户的控制意图，实现了采用二维图像帧识别用户的控制意图。普通摄像头即可以获取二维图像，无需昂贵的深度数据摄像头，降低了通过图像信息获取用户意图的成本；同时，基于用户的各个姿势关键点的三维坐标确定用户控制意图，能够避免由于拍摄视角不同造成的确定的控制意图错误，准确性高。

参照图4，图4是本发明实施例中又一种控制指令生成方法的步骤流程图，该方法同样可以应用于终端或终端的控制器端，具体参照前述记载。在本发明实施例中，该方法主要包括如下步骤：

步骤201：获取连续的二维图像帧。

本发明实施例中，该步骤201可以参照前述步骤101为了避免重复，此处不再赘述。

步骤202：计算所述连续的二维图像帧中每一帧的用户姿势关键点信息，所述用户姿势关键点信息包括：用户姿势关键点的三维坐标。

本发明实施例中，该步骤202可以参照前述步骤102，需要说明的是，在上述步骤202之前，还可以包括如下步骤：

步骤S1：对所述连续的二维图像帧中每一帧进行人脸识别，确定所述连续的二维图像帧中每一帧中的授权用户。

步骤S2：在所述每一帧中删除非授权用户的姿势关键点，保留所述授权用户的姿势关键点。

具体的，可以提前存储授权用户的人脸图像等，基于提前存储的授权用户的人脸图像等，对上述连续的二维图像帧中每一帧进行人脸识别，先识别出上述连续的二维图像帧中每一帧是否包括授权用户。若上述连续的二维图像帧中每一帧均未包括授权用户，则，重复执行前述步骤，直至在连续的二维图像中的某一帧中识别到授权用户为止。若识别到授权用户，利用提前存储的授权用户的人脸图像等，将上述连续的二维图像帧中每一帧的授权用户和非授权用户区分开来。在上述连续的二维图像帧中每一帧中删除非授权用户的姿势关键点，仅保留授权用户的姿势关键点，进而后续也仅针对授权用户进行响应，能够避免非授权用户操作终端，保护授权用户的隐私等。

在本发明实施例中，一个终端对应的授权用户可以有一个或多个，在本发明实施例中，对此不作具体限定。

在本发明实施例中，可选的，上述步骤202可以包括如下子步骤：计算所述连续的二维图像帧中每一帧中保留的授权用户的姿势关键点信息。具体的，针对连续的二维图像帧中每一帧，仅保留了授权用户的姿势关键点，仅计算连续的二维图像帧中每一帧中保留的授权用户的姿势关键点信息，而不会计算连续的二维图像帧中每一帧中非授权用户的姿势关键点信息，一方面减少了运算量，计算姿势关键点信息的速度快；另一方面，后续也仅根据连续的二维图像帧中每一帧中保留的授权用户的姿势关键点信息，识别授权用户的控制意图，忽略非授权用户的控制意图，能够避免非授权用户操作终端，保护授权用户的隐私等。

步骤203：将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入姿势匹配模型，得到至少一帧对应的匹配控制姿势。

具体的，可以提前训练得到姿势匹配模型，该姿势匹配模型主要用于输出用户姿势关键点信息之间的相似度，并将相似度超过设定相似度的两种用户姿势关键点信息确定为匹配的姿势关键点信息。可以提前预置控制姿势对应的控制姿势关键点信息。将连续的二维图像帧中每一帧的用户姿势关键点信息依次和每一个预置的控制姿势对应的控制姿势关键点信息输入姿势匹配模型，该姿势匹配模型依次计算连续的二维图像帧中每一帧的用户姿势关键点信息与每一个预置的控制姿势对应的控制姿势关键点信息之间的相似度，在连续的二维图像帧中当前帧的用户姿势关键点信息与预置的当前控制姿势对应的控制姿势关键点信息之间的相似度超过前述设定相似度的情况下，将当前控制姿势确定为连续的二维图像帧中当前帧对应的匹配控制姿势。采用上述姿势匹配模型，可以利于准确识别用户意图。

在本发明实施例中，可选的，参照图5所示，图5是本发明实施例中一种确定匹配控制姿势的步骤流程图。上述步骤203可以包括如下步骤：

步骤2031：将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入所述姿势匹配模型，得到当前帧的用户姿势关键点信息与当前控制姿势对应的控制姿势关键点信息之间的匹配置信度；

步骤2032：若所述匹配置信度超过预设阈值，将所述当前控制姿势确定为所述至少一帧对应的匹配控制姿势。

具体的，可以将连续的二维图像帧中每一帧的用户姿势关键点信息依次和每一个预置的控制姿势对应的控制姿势关键点信息输入前述姿势匹配模型，该姿势匹配模型依次计算连续的二维图像帧中每一帧的用户姿势关键点信息与每一个预置的控制姿势对应的控制姿势关键点信息之间的匹配置信度，在连续的二维图像帧中当前帧的用户姿势关键点信息与预置的当前控制姿势对应的控制姿势关键点信息之间的匹配置信度超过预设阈值的情况下，将当前控制姿势确定为连续的二维图像帧中至少一帧对应的匹配控制姿势。需要说明的是，该预设阈值可以根据实际需要进行设定，本发明实施例对此不作具体限定。将连续的二维图像帧中每一帧的用户姿势关键点信息依次和每一个预置的控制姿势对应的控制姿势关键点信息，依次确定匹配置信度，利于准确确定连续的二维图像帧中至少一帧对应的匹配控制姿势。

在本发明实施例中，若连续的二维图像帧中每一帧对应的各个匹配置信度均未超过预设置信度，可以认为该段连续的二维图像帧为无效帧，或者，可以认为该段连续的二维图像帧未找到匹配控制姿势。若连续的二维图像帧中只有一帧对应的各个匹配置信度中存在一个超过预设阈值的匹配置信度，则，将超过预设阈值的匹配置信度对应的预置的控制姿势，确定为连续的二维图像帧对应的匹配控制姿势。或者，将超过预设阈值的匹配置信度对应的预置的控制姿势，确定为连续的二维图像帧中该帧对应的匹配控制姿势。若连续的二维图像帧中有多帧均确定出了超过预设阈值的匹配置信度，若多帧超过预设阈值的匹配置信度对应的预置的控制姿势均相同，则，可以将多帧超过预设阈值的匹配置信度对应的预置的控制姿势，确定为连续的二维图像帧对应的匹配控制姿势。或者，将将多帧超过预设阈值的匹配置信度对应的预置的控制姿势，分别确定为连续的二维图像帧中多帧中每一帧分别对应的匹配控制姿势。

如，将连续的二维图像帧中第一帧的用户姿势关键点信息依次和每一个预置的控制姿势对应的控制姿势关键点信息输入前述姿势匹配模型，该姿势匹配模型依次计算该第一帧的用户姿势关键点信息与每一个预置的控制姿势对应的控制姿势关键点信息之间的各个匹配置信度。判断第一帧对应的各个匹配置信度，是否具有超过阈值的匹配置信度，若存在，将超过预设阈值的匹配置信度对应的预置的控制姿势，确定为该第一帧对应的匹配控制姿势，若不存在，则认为第一帧为无效帧，或者，认为该第一帧未找到匹配控制姿势。针对连续的二维图像帧中第二帧的用户姿势关键点信息执行类似的计算过程，依次类推，直至最后一帧计算完毕。若计算完毕后，连续的二维图像帧中只有第四帧的用户姿势关键点信息与第二个预置的控制姿势的用户姿势关键点信息之间的匹配置信度超过了预设阈值，其余帧的用户姿势关键点信息与每一个预置的控制姿势的用户姿势关键点信息之间的匹配置信度均未超过上述预设阈值，则，可以将上述第二个预置的控制姿势，确定为该段连续的二维图像帧中第四帧对应的匹配控制姿势。或者，将上述第二个预置的控制姿势，确定为该段连续的二维图像帧对应的匹配控制姿势。

在本发明实施例中，参照图6所示，图6是本发明实施例中一种姿势匹配模型的工作示意图。该姿势匹配模型可以包括：第一全连接网络、第二全连接网络、以及第三全连接网络。对该第一全连接网络、第二全连接网络、第三全连接网络的具体结构不作具体限定。参照图7所示，图7是本发明实施例中一种计算匹配置信度的步骤流程图。上述步骤2031可以包括如下步骤：

步骤20311：将所述连续的二维图像帧中每一帧的用户姿势关键点信息输入所述第一全连接网络，以及将每一个所述预置的控制姿势对应的控制姿势关键点信息输入所述第二全连接网络。

步骤20312：将所述第一全连接网络和所述第二全连接网络的输出向量相加后，输入所述第三全连接网络，通过所述第三全连接网络输出所述当前帧的用户姿势关键点信息与所述当前控制姿势对应的控制姿势关键点信息之间的匹配置信度。

具体的，可以将上述连续的二维图像帧中每一帧的用户姿势关键点信息输入第一全连接网络，以及将每一个预置的控制姿势对应的控制姿势关键点信息输入第二全连接网络。第一全连接网络对每一帧的用户姿势关键点信息进行计算，输出第一向量。第二全连接网络对每一个预置的控制姿势对应的控制姿势关键点信息进行计算，输出第二向量。将第一全连接网络和第二全连接网络的输出的第一向量和第二向量相加后，输入至第三全连接网络，通过第三全连接网络输出当前帧的用户姿势关键点信息与当前控制姿势对应的控制姿势关键点信息之间的匹配置信度。

步骤204：根据所述至少一帧对应的匹配控制姿势，确定所述用户对应的控制意图。

在本发明实施例中，可以提前建立匹配控制姿势与控制意图之间的对应关系，基于该对应关系，根据连续的二维图像帧中至少一帧对应的匹配控制姿势，确定用户对应的控制意图。

在本发明实施例中，预置的控制姿势可以包括静态控制姿势，则，匹配控制姿势也可以包括静态控制姿势。例如，敬礼姿势可以为一个静态控制姿势。

在本发明实施例中，可选的，若上述匹配控制姿势为静态控制姿势，根据预置的静态控制姿势与控制意图的对应关系，确定上述匹配控制姿势对应的控制意图。

具体的，可以提前建立静态控制姿势与控制意图的对应关系。若连续的二维图像帧中至少一帧对应的匹配控制姿势为静态控制姿势，可以根据上述预置的静态控制姿势与控制意图的对应关系，将与该静态控制姿势对应的控制意图，确定为该匹配控制姿势对应的控制意图，

在本发明实施例中，预置的控制姿势可以包括动态控制姿势，则，匹配控制姿势也可以包括动态控制姿势。动态控制姿势可以与静态控制姿势具有较大的区别，同时各个动态控制姿势之间可以具有较大的区分度。例如，大拇指与食指比出一个字母C可以为一个动态控制姿势。

在本发明实施例中，可选的，参照图8所示，图8是本发明实施例中一种确定控制意图的步骤流程图。上述步骤204可以包括如下步骤：

步骤2041：若所述匹配控制姿势为动态控制姿势，根据所述当前帧，以及所述当前帧时序之后的至少一帧，检测所述动态控制姿势中的控制量姿势关键点的变化量。

步骤2042：根据所述动态控制姿势和所述控制量姿势关键点的变化量，确定所述匹配控制姿势对应的控制意图。

具体的，动态控制姿势可以包括有控制量姿势关键点，该控制量姿势关键点可以为从该动态控制姿势中的各个姿势关键点中容易变化的姿势关键点等。该动态控制姿势中的控制量姿势关键点的个数可以为一个或多个，在本发明实施例中，对此不作具体限定。如，大拇指与食指比出一个字母C可以为一个动态控制姿势，大拇指指尖和食指指尖可以为该动态控制姿势的控制量姿势关键点。

如果连续的二维图像帧中当前帧对应的匹配控制姿势为动态控制姿势，可以比对当前帧以及当前帧时序之后的至少一帧，得出控制量姿势关键点在当前帧以及当前帧时序之后的至少一帧中的变化量。该变化量可以为控制量姿势关键点在当前帧以及当前帧时序之后的至少一帧中的位置变化量等。在本发明实施例中，对此不作具体限定。如，该变化量可以为控制量姿势关键点在当前帧以及当前帧时序之后的至少一帧中的平移量、旋转量、缩放量中的任意一种。

例如，若大拇指与食指比出一个字母C可以为一个动态控制姿势，大拇指指尖和食指指尖可以为该动态控制姿势的控制量姿势关键点。若连续的二维图像帧中当前帧对应的匹配控制姿势为该动态控制姿势。可以在当前帧以及当前帧时序之后的至少一帧中，检测大拇指指尖和食指指尖之间的距离变化量。若根据连续的二维图像帧中当前帧，以及当前帧时序之后的至少一帧，确定出用户的大拇指指尖和食指指尖之间的距离由开始的5cm逐渐增大至10cm。则，确定的上述连续二维图像帧中当前帧，以及当前帧时序之后的至少一帧的动态控制姿势中的控制量姿势关键点的变化量即为：大拇指指尖和食指指尖之间的距离由开始的5cm逐渐增大至10cm。

在本发明实施例中，可以将动态控制姿势和该动态控制姿势中控制量姿势关键点的变化量进行组合，提前设定每一个组合和控制意图的对应关系。可以基于上述对应关系，确定当前帧对应的动态控制姿势，由当前帧以及当前帧时序之后的至少一帧，检测的该动态控制姿势中的控制量姿势关键点的变化量组合对应的控制意图。

在本发明实施例中，可选的，上述步骤2041可以包括：将所述当前帧，以及所述当前帧时序之后的至少一帧，输入所述动态控制姿势对应的变化量确定模型，输出所述动态控制姿势中的控制量姿势关键点的变化量。

具体的，针对各个预置的动态控制姿势可以提前训练该动态控制姿势对应的变化量确定模型，该变化量确定模型用于接收上述连续的二维图像帧中的当前帧以及当前帧时序之后的至少一帧，比对该连续的二维图像帧中的当前帧以及当前帧时序之后的至少一帧中该动态控制姿势对应的变化量，并输出该连续的二维图像帧中的当前帧以及当前帧时序之后的至少一帧中该动态控制姿势中的控制量姿势关键点的变化量。可以将上述当前帧和当前帧时序之后的至少一帧，输入上述提前训练好的该动态控制姿势对应的变化量确定模型，输出该动态控制姿势中的控制量姿势关键点的变化量。通过该动态控制姿势对应的变化量确定模型可以准确且快速得出该动态控制姿势中的控制量姿势关键点的变化量。

在本发明实施例中，可选的，上述步骤2041可以包括：将所述当前帧时序之后的至少一帧输入所述姿势匹配模型，得到所述当前帧时序之后的至少一帧中各帧对应的匹配控制姿势；根据所述当前帧，以及所述当前帧时序之后的至少一帧中匹配控制姿势与所述当前帧的匹配姿势相同的目标帧，检测所述动态控制姿势中的控制量姿势关键点的变化量。

具体的，可以将该连续的二维图像帧中的当前帧时序之后的至少一帧输入前述的姿势匹配模型，得到该当前帧时序之后的至少一帧中各帧对应的匹配控制姿势。从当前帧时序之后的至少一帧中各帧中选取匹配控制姿势与当前帧的匹配姿势相同的目标帧，只是在该当前帧，以及与当前帧为同一动态控制姿势的目标帧中，计算该动态控制姿势中的控制量姿势关键点的变化量。当前帧以及当前帧对应的目标帧所对应的匹配控制姿势均相同，均为同一动态控制姿势，只是基于当前帧以及当前帧对应的目标帧计算该动态控制姿势中的控制量姿势关键点的变化量，能够避免变化量的误检测，利于提升变化量的准确性。

步骤205：根据所述控制意图，生成对应的控制指令。

在本发明实施例中，该步骤参照前述步骤104的相关记载为了避免重复，此处不再赘述。

步骤206：将所述控制指令发送给受控设备；所述受控设备用于执行所述控制指令。

在本发明实施例中，在该方法的执行主体与受控设备不是同一个设备的情况下，可以将上述控制指令发送给受控设备。该受控设备可以为可以执行上述操作指令的设备等。例如，该受控设备可以为视频播放终端，如，电视机等。上述步骤201至步骤205的执行主体可以与受控设备进行数据交互，该数据交互可以通过有线方式或无线方式进行等，可以将上述控制指令发送给受控设备，该受控设备执行上述制指令，以控制该受控设备。能够实现多样化操作该受控设备，并可以方便用户操作。

例如，针对上述例子，若识别得到连续的二维图像帧中至少一帧对应的匹配控制姿势为：敬礼姿势。若敬礼姿势对应的控制意图为：控制受控设备暂停播放或继续播放。根据该控制意图确定的控制指令可以为：暂停播放或继续播放。则，可以将暂停播放或继续播放的控制指令发送至受控设备如：电视机。若电视机当前处于视频正常播放状态，则，接收到该控制指令后，电视机执行暂停播放的控制指令，以停止当前视频的播放。若电视机当前处于视频暂停播放状态，则，接收到该控制指令后，电视机执行继续播放的控制指令，以继续播放当前视频。用户只需通过姿势关键点信息即可以便捷操控电视机，且增加了用户操作电视机的多样性。

再例如，针对上述例子，若识别得到连续的二维图像帧中至少一帧对应的匹配控制姿势为：大拇指与食指比出一个字母C。从连续的二维图像帧中当前帧以及当前帧之后的至少一帧，识别得到大拇指指尖和食指指尖之间的距离由开始的5cm逐渐增大至10cm。若大拇指与食指比出一个字母C，大拇指指尖和食指指尖之间的距离由开始的5cm逐渐增大至10cm组合对应的控制意图为：控制受控设备将音量调大5分贝。根据该控制意图确定的控制指令可以为：音量调大5分贝。则，可以将音量调大5分贝的控制指令发送至受控设备如：电视机。若电视机当前播放音量为20分贝，则，接收到该控制指令后，电视机执行音量调大5分贝的控制指令，将电视机的播放音量调整至25分贝。

在本发明实施例中，可选的，若上述步骤201至步骤205的执行主体和受控设备为同一个设备，则，无需执行控制指令发送操作，由该受控设备直接执行该控制指令即可。

参照图9，图9是本发明实施例中还一种控制指令生成方法的步骤流程图，该方法同样可以应用于终端或终端的控制器端，具体参照前述记载。在本发明实施例中，该方法主要包括如下步骤：

步骤301：获取连续的二维图像帧。

在本发明实施例中，该步骤301可以参照前述步骤101，为了避免重复，此处不再赘述。

步骤302：所述姿势关键点信息包括：手势关键点信息，对所述连续的二维图像帧中每一帧进行人体关键点检测，得到人体关键点的识别结果。

在本发明实施例中，姿势关键点信息包括：手势关键点信息。也就是说姿势关键点信息包括手势关键点的三维坐标。手势关键点可以为左手的手势关键点，和/或，右手的手势关键点。手势关键点具体可以参照前述记载，为了避免重复，此处不再赘述。

在本发明实施例中，可以对连续的二维图像帧中每一帧进行人体关键点检测，得到连续的二维图像帧中每一帧中的人体关键点的识别结果。即，在连续的二维图像帧中每一帧中都找出各个人体关键点。或，在连续的二维图像帧中每一帧中识别出各个人体关键点的坐标。

步骤303：根据所述人体关键点的识别结果，确定所述每一帧中的左手肘坐标，和/或，右手肘坐标。

在本发明实施例中，左手肘，和/或，右手肘为人体关键点，因此，可以基于人体关键点的识别结果，确定出每一帧中的左手肘坐标，和/或，右手肘坐标。该左手肘坐标，和/或，右手肘坐标可以为左手肘，和/或，右手肘在每一帧中的二维坐标或三维坐标等。在本发明实施例中，对此不作具体限定。

步骤304：根据所述左手肘坐标，和/或，右手肘坐标，确定所述每一帧中的手势检测区域；其中，所述手势检测区域包括左手的手指关键点和手腕关键点，和/或，右手的手指关键点和手腕关键点。

在本发明实施例中，可以根据人体关键点中的左手肘坐标，和/或，右手肘坐标，确定每一帧中包括左手的手指关键点和手腕关键点，和/或，右手的手指关键点和手腕关键点的手势检测区域。

在本发明实施例中，可选的，上述步骤304可以包括如下步骤：在所述每一帧中确定所述用户的左手腕坐标，和/或，所述用户的右手腕坐标。根据所述左手腕坐标和所述左手肘坐标，确定手势检测区域，和/或，根据所述右手腕坐标和所述右手肘坐标，确定手势检测区域。

可以在每一帧中确定用户的左手腕坐标，和/或，用户的右手腕坐标。该左手腕坐标，和/或，右手腕坐标可以为二维坐标等。由于手腕为手势关键点，可以通过手势关键点的识别结果，从每一帧中确定出左手腕坐标和/或右手腕坐标。在本发明实施例中，对此不作具体限定。

在本发明实施例中，该手势检测区域可以涵盖一只手的全部手势关键点，同时，除了上述全部手势关键点之外涵盖的其它内容较少。或者，该手势检测区域可以涵盖一只手的部分手势关键点，同时，除了上述部分手势关键点之外涵盖的其它内容较少。或者，该手势检测区域可以涵盖两只手的全部手势关键点，同时，除了上述全部手势关键点之外涵盖的其它内容较少。或者，该手势检测区域可以涵盖两只手的部分手势关键点，同时，除了上述部分手势关键点之外涵盖的其它内容较少。

例如，图3可以为从某一帧中确定的手势检测区域。

在本发明实施例中，可选的，该手势检测区域可以为正方形，用户的左手肘坐标可以包括：第一横坐标和第一纵坐标，手腕关键点可以包括：左手腕和/右手腕，用户的左手腕坐标可以包括：第三横坐标和第三纵坐标。用户的右手肘坐标可以包括：第二横坐标和第二纵坐标，用户的右手腕坐标可以包括：第四横坐标和第四纵坐标。

参照图10所示，图10是本发明实施例中一种确定手势检测区域的步骤流程图。可以包括如下步骤：

步骤S1：用5倍的所述第一横坐标减去所述第三横坐标，得到第一差值。

步骤S2：用所述第一差值除以4，得到所述手势检测区域中心的目标横坐标。

步骤S3：用5倍的所述第一纵坐标减去所述第三纵坐标，得到第二差值。

步骤S4：用所述第二差值除以4，得到所述手势检测区域中心的目标纵坐标。

步骤S5：用所述第一横坐标减去所述第三横坐标，得到第三差值。

步骤S6：用所述第三差值除以2，得到所述手势检测区域的边长。

具体的，用5倍的用户的左手肘的第一横坐标减去用户的左手腕的第三横坐标，得到第一差值，用该第一差值除以4，得到该手势检测区域中心的目标横坐标。用5倍的用户的左手肘的第一纵坐标减去用户的左手腕的第三纵坐标，得到第二差值，用该第二差值除以4，得到该手势检测区域中心的目标纵坐标。用用户的左手肘的第一横坐标减去用户的左手腕的第三横坐标，得到第三差值；用该第三差值除以2，得到该手势检测区域的边长。用左手肘坐标和左手腕坐标计算得到的手势检测区域主要用于框选左手的手势检测区域。同样的，还可以用右手肘坐标和右手腕坐标计算得到的手势检测区域主要用于框选右手的手势检测区域。由此得到的手势检测区域能够准确的将全部的手势关键点均框选在内，且除了全部的手势关键点之外框选的其它内容较少，准确性较高。

例如，在某一帧中，若用户的左手肘的第一坐标为(x1，y1)，用户的左手腕的第三坐标为(x3，y3)。手势检测区域可以为正方形。手势检测区域的中心的目标横坐标为：

手势检测区域的中心的目标纵坐标为：

该手势检测区域的边长为：

步骤305：计算所述连续的二维图像帧中每一帧中手势检测区域中的用户姿势关键点信息；所述用户姿势关键点信息包括：用户姿势关键点的三维坐标。

在本发明实施例中，可以只计算连续的二维图像帧中每一帧中的手势检测区域中的用户姿势关键点信息。由于全部手势关键点或部分手势关键点均位于该手势检测区域中，进而只需关注每一帧中手势检测区域中的用户姿势关键点信息，避免对每一帧中无关图像信息的处理，不仅能够提升获取到的姿势关键点信息的准确性，还能够提升效率。

步骤306：根据所述连续的二维图像帧的至少一帧的用户姿势关键点信息，判断是否接收到准备姿势。

在本发明实施例中，可以预先设定准备姿势，该准备姿势和预置的动态控制姿势、预置的静态控制姿势均具有较大的区分度。例如，该准备姿势可以为：握拳或五指完全伸开。

在获取到连续的二维图像帧中至少一帧的用户姿势关键点信息与上述准备姿势匹配的情况下，可以认为接收到了准备姿势。在连续的二维图像帧中每一帧的用户姿势关键点信息与上述准备姿势均不匹配的情况下，可以认为没有接收到准备姿势。在接收到上述准备姿势的情况下，说明后续用户的姿势关键点信息为用于识别控制意图的姿势关键点信息。

步骤307：在接收到准备姿势的情况下，根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图。

进而在本发明实施例中，在接收到获取到用户的对应的姿势信息为上述准备姿势信息的情况下，再根据上述连续二维图像帧中至少一帧的用户姿势关键点信息，识别用户的控制意图，进而可以避免控制意图的误检测。

步骤308：根据所述控制意图，生成对应的控制指令。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定都是本申请实施例所必须的。

图11是本发明实施例中一种控制指令生成装置，所述装置400可以包括：

图像获取模块401，用于获取连续的二维图像帧；

姿势关键点信息计算模块402，用于计算所述连续的二维图像帧中每一帧的用户姿势关键点信息，所述用户姿势关键点信息包括：用户姿势关键点的三维坐标；

控制意图识别模块403，用于根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图；

控制指令生成模块404，用于根据所述控制意图，生成对应的控制指令。

可选的，在上述图11的基础上，参照图12所示，所述控制意图识别模块403，可以包括：

匹配控制姿势确定子模块4031，用于将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入姿势匹配模型，得到至少一帧对应的匹配控制姿势；

第一控制意图识别子模块4032，用于根据所述至少一帧对应的匹配控制姿势，确定所述用户对应的控制意图。

可选的，所述匹配控制姿势确定子模块4031，可以包括：

匹配置信度确定单元40311，用于将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入所述姿势匹配模型，得到当前帧的用户姿势关键点信息与当前控制姿势对应的控制姿势关键点信息之间的匹配置信度；

匹配控制姿势确定单元40312，用于若所述匹配置信度超过预设阈值，将所述当前控制姿势确定为所述至少一帧对应的匹配控制姿势。

可选的，所述第一控制意图识别子模块4032，可以包括：

第一控制意图识别单元40321，用于若所述匹配控制姿势为静态控制姿势，根据预置的静态控制姿势与控制意图的对应关系，确定所述匹配控制姿势对应的控制意图。

可选的，所述第一控制意图识别子模块4032，可以包括：

变化量检测单元40322，用于若所述匹配控制姿势为动态控制姿势，根据所述当前帧，以及所述当前帧时序之后的至少一帧，检测所述动态控制姿势中的控制量姿势关键点的变化量；

第二控制意图识别单元40323，用于根据所述动态控制姿势和所述控制量姿势关键点的变化量，确定所述匹配控制姿势对应的控制意图。

可选的，所述变化量检测单元40322，可以包括：

第一变化量检测子单元403221，用于将所述当前帧，以及所述当前帧时序之后的至少一帧，输入所述动态控制姿势对应的变化量确定模型，输出所述动态控制姿势中的控制量姿势关键点的变化量。

可选的，所述变化量检测单元40322，可以包括：

可选的，所述姿势匹配模型包括：第一全连接网络、第二全连接网络、以及第三全连接网络；所述匹配置信度确定单元40311，可以包括：

可选的，在上述图11的基础上，参照图13所示，所述姿势关键点信息包括：手势关键点信息，所述装置还可以包括：

人体关键点识别模块405，用于对所述连续的二维图像帧中每一帧进行人体关键点检测，得到人体关键点的识别结果；

手肘坐标确定模块406，用于根据所述人体关键点的识别结果，确定所述每一帧中的左手肘坐标，和/或，右手肘坐标；

手势检测区域确定模块407，用于根据所述左手肘坐标，和/或，右手肘坐标，确定所述每一帧中的手势检测区域；其中，所述手势检测区域包括左手的手指关键点和手腕关键点，和/或，右手的手指关键点和手腕关键点；

所述姿势关键点信息计算模块402，可以包括：

姿势关键点信息第一计算子模块4021，用于计算所述连续的二维图像帧中每一帧中手势检测区域中的用户姿势关键点信息。

可选的，所述装置，还可以包括：

所述姿势关键点信息计算模块402，可以包括：

可选的，所述装置还可以包括：

准备姿势判断模块408，用于根据所述连续的二维图像帧的至少一帧的用户姿势关键点信息，判断是否接收到准备姿势；

所述控制意图识别模块403，可以包括：

第二控制意图识别子模块4033，用于在接收到准备姿势的情况下，根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图。

可选的，在上述图11的基础上，参照图12所示，所述装置还包括：

控制指令发送模块409，用于将所述控制指令发送给受控设备；所述受控设备用于执行所述控制指令。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例还提供了一种电子设备，如图14所示，包括处理器91、通信接口92、存储器93和通信总线94，其中，处理器91，通信接口92，存储器93通过通信总线94完成相互间的通信，

存储器93，用于存放计算机程序；

处理器91，用于执行存储器93上所存放的程序时，实现如下步骤：

获取连续的二维图像帧；

根据所述控制意图，生成对应的控制指令。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的控制指令生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的控制指令生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种控制指令生成方法，其特征在于，所述方法包括：

获取连续的二维图像帧；

根据所述控制意图，生成对应的控制指令。

2.根据权利要求1所述的方法，其特征在于，所述根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入姿势匹配模型，得到至少一帧对应的匹配控制姿势，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述至少一帧对应的匹配控制姿势，确定所述用户对应的控制意图，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述至少一帧对应的匹配控制姿势，确定所述用户对应的控制意图，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述当前帧，以及所述当前帧时序之后的至少一帧，检测所述动态控制姿势中的控制量姿势关键点的变化量，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述当前帧，以及所述当前帧时序之后的至少一帧，检测所述动态控制姿势中的控制量姿势关键点的变化量，包括：

8.根据权利要求3所述的方法，其特征在于，所述姿势匹配模型包括：第一全连接网络、第二全连接网络、以及第三全连接网络；所述将所述连续的二维图像帧中每一帧的用户姿势关键点信息依次与每一个预置的控制姿势对应的控制姿势关键点信息输入所述姿势匹配模型，得到当前帧的用户姿势关键点信息与当前控制姿势对应的控制姿势关键点信息之间的匹配置信度，包括：

9.根据权利要求1所述的方法，其特征在于，所述姿势关键点信息包括：手势关键点信息，所述计算所述连续的二维图像帧中每一帧的用户姿势关键点信息之前，还包括：

10.根据权利要求1所述的方法，其特征在于，所述计算所述连续的二维图像帧中每一帧的用户姿势关键点信息之前，还包括：

11.根据权利要求1所述的方法，其特征在于，所述根据所述连续的二维图像帧中至少一帧的用户姿势关键点信息，识别所述用户的控制意图之前，还包括：

12.根据权利要求1所述的方法，其特征在于，还包括：

13.一种控制指令生成装置，其特征在于，所述装置包括：

图像获取模块，用于获取连续的二维图像帧；

14.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-12任一所述的方法步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-12中任一所述的方法。