CN113536857A

CN113536857A - 目标动作识别方法、装置、服务器及存储介质

Info

Publication number: CN113536857A
Application number: CN202010313131.0A
Authority: CN
Inventors: 陈小强
Original assignee: Lumi United Technology Co Ltd
Current assignee: Shenzhen Lumi United Technology Co Ltd; Lumi United Technology Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2021-10-22

Abstract

本申请实施例公开了一种目标动作识别方法、装置、服务器及存储介质。所述方法包括：从视频数据中选取多帧图像；提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标；根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。获取每帧图像中的人体关键点以及对应的坐标，并利用人体关键点以及对应的坐标来识别目标动作，不需要消耗大量的算力，减小了动作识别的复杂程度，从而在算力不高的电子设备上也能正常进行动作识别。

Description

目标动作识别方法、装置、服务器及存储介质

技术领域

本申请涉及图像处理领域，更具体地，涉及一种目标动作识别方法、装置、服务器及存储介质。

背景技术

随着科技的发展，人机交互也随着发展升级，传统的人机交互包括键盘鼠标，显示器回传等，智能电子设备的普及增加了触摸控制交互，语音控制交互等，手势控制交互等方式。

然而，在手势控制交互中，需要对手势进行识别，在识别手势的过程的中通常会耗费较大的算力，其识别的逻辑也较为复杂。

发明内容

本申请实施例提出了一种目标动作识别方法、装置、服务器及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种目标动作识别方法，该方法包括：从视频数据中选取多帧图像；提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标；根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。

第二方面，本申请实施例提供了一种目标动作识别装置，该装置包括：选取模块，用于从视频数据中选取多帧图像；提取模块，用于提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标；识别模块，用于根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括一个或多个处理器，存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述应用于电子设备的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本申请实施例提供的目标动作识别方法、装置、服务器及存储介质，从视频数据中选取多帧图像；提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标；根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。获取每帧图像中的人体关键点以及对应的坐标，并利用人体关键点以及对应的坐标来识别目标动作，不需要消耗大量的算力，减小了动作识别的复杂程度，从而在算力不高的电子设备上也能正常进行动作识别。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例提供的目标动作识别方法的应用环境示意图。

图2示出了本申请一个实施例提供的目标动作识别方法的流程图。

图3示出了本申请另一个实施例提供的目标动作识别方法的流程图。

图4示出了本申请再一个实施例提供的目标动作识别方法的流程图。

图5示出了本申请实施例提供的人体关键点的示意图。

图6示出了在图4所提供的实施例中步骤S330的流程图。

图7示出了在图4所提供的实施例中步骤S340的流程图。

图8示出了本申请还一个实施例提供的目标动作识别方法的流程图。

图9示出了本申请一个实施例提供的目标动作识别装置的功能模块图。

图10示出了本申请实施例提出的用于执行根据本申请实施例的目标动作识别方法的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

手势控制是一种较为自然的方式，并且每个人都会的一种的交互方式，人们学习手势控制交互的成本较低，只需要学会手势，则可以实现与机器之间的交互。在智能家居中，通常需要对各种家居设备进行控制，其控制方式可以是多种，例如，语音控制，手势控制等。然而，在手势控制中，通常需要对手势进行识别，在识别出手势后才能实现对应手势控制。手势控制是通过各传感器类设备，实时的或在逐步完成对手部动作的识别过程，并转换为计算机宿主设备能够识别的命令，以实现对对应的受控设备的控制。

发明人在研究中发现，手势识别通常采用将人体关键点信息输入到卷积神经网络中，通过分类卷积网络得到输出结果。然而该种方法需要大量的数据对模型进行训练，训练的过程较为复杂，并且，在进行手势识别时，需要运行该模型，也会占用较大的算力，对电子设备的算力要求较高，一般的电子设备难以实现手势的识别。在一些对算力要求不高的方法中，通常需要利用3D图像来判断手势，则需要增加新的传感器生成3D图像，然而，增加新的传感器会导致成本偏高。

因此，发明人提出了本申请实施例的目标动作识别方法，从视频数据中选取多帧图像；提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标；根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。获取每帧图像中的人体关键点以及对应的坐标，并利用人体关键点以及对应的坐标来识别目标动作，不需要消耗大量的算力，减小了动作识别的复杂程度，从而在算力不高的电子设备上也能通过普通图像正常进行动作识别。

下面将结合附图对本申请实施例进行详细的说明。

请参阅图1，图1示出了本申请实施例提出的一种目标动作识别方法的应用环境10。

该应用环境10包括：本地服务器/云端服务器11、网关12、用户终端13、电子设备14以及受控设备15。其中，受控设备15可以是指空调，电视，电动窗帘等。电子设备14为可以进行动作识别的设备，电子设备14可以是一个单独的设备，也可以和网关12可以集成为一个设备。若电子设备14为一个单独的设备时，可以通过网关12与受控设备14相连；若电子设备14和网关12集成为一个设备时，则可以直接与受控设备14相连，其连接方式可以是蓝牙、WiFi、ZigBee等。

用户终端13可以是手机、平板电脑、PC(personal computer)电脑、笔记本电脑、智能电视、车载终端等。用户终端13可以通过2G、3G、4G、5G、WIFI等网络连接至本地服务器或云端服务器11。网关12可以通过路由器连接到本地服务器或云端服务器11，从而可以与用户终端13进行连接，并且，网关12也可以与受控设备15以及电子设备14相连。网关12和受控设备15，以及网关12和电子设备14的连接也可以是通过蓝牙、WiFi、ZigBee等方式进行连接。当然，本申请实施例中各个设备之间的连接方式以及各个设备的网络连接方式并不限定。

请参阅图2，本申请实施例提供了一种目标动作识别方法，可以应用于本地服务器/云端服务器，该方法可以包括：

步骤S110：从视频数据中选取多帧图像。

在手势识别中，通常是在一段视频数据中进行识别，或是进行实时识别。由此可以通过图像采集设备获取到视频数据，所述视频数据可以是实时的视频数据，也可以是过去的一段时间的视频数据。其中，所述图像采集设备可以是集成在电子设备上，也可以是与电子设备通信连接，将采集到的视频数据发送给所述电子设备，从而电子设备可以获取到视频数据，电子设备获取到所述视频数据可以是经过编码的H264或者H265数据流。

在获取到所述视频数据时，可以对所述视频数据进行解码的得到实时的图像序列，所述图像序列可以是同一个图像采集设备在连续的时刻采集到的图像，即将所述视频数据中的内容转换为一帧一帧连续的图像。从而，从视频数据中选取多帧图像可以从所述图像序列中选取多帧图像，以进行后续步骤。

作为一种实施方式，从所述图像序列中选取多帧图像可以选取连续的多帧图像。

作为一种实施方式，从所述图像序列中选取多帧图像可以按照预设帧数间隔抽取部分图像作为所述多帧图像，例如，预设帧数间隔为2，图像序列中一共有10帧图像，则可以抽取第1帧图像，第3帧图像，第5帧图像，第7帧图像以及第9帧图像为所述多帧图像。

作为一种实施方式，从所述图像序列中选取多帧图像可以是选取所述图像序列中包括目标物体的图像，例如，目标物体为人体，图像序列中一共有10帧图像，在第3帧之后的图像中均包括人体，则可以确定第3帧图像到第10帧图像多帧图像。

作为一种实施方式，还可以是根据所述目标动作进行测试，测试完成所述目标动作所对应的帧的数量，便于提取对应的帧数的图像。例如，在做动作1时，通常有10帧，则提取10帧图像。

具体的，提取多帧图像的数量以及方式可以根据实际的需要进行设置，在此不做具体限定。

步骤S120：提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标。

在从所述视频数据选取多帧图像之后，可以对每帧图像进行处理，提取每帧图像中的人体关键点信息。其中，人体关键点信息包括人体关键点以及对应的坐标。

人体关键点是指鼻子、颈部、四肢等主要关节部位，在提取每帧图像中的人体关键点信息时，可以是检测每帧图像中相同的人体关键点，并在每张图像中建立相同的坐标系，以确定检测到的人体关键点在所述坐标系中对应坐标，并且，由于每帧图像中建立的都是相同的坐标系，那么不同帧的图像之间坐标与可以相互比对。

具体的，在提取每帧图像中的人体关键点信息可以利用神经网络模型，将每帧图像依次输入所述神经网络模型中，得到对应每帧图像中的人体关键点以及对应的坐标。

步骤S130：根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。

在获取到每帧图像中的人体关键点以及对应的坐标后，可以依据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。由于获取到了每帧图像中的人体关键点以及对应的坐标，因此，可以通过每帧图像中的人体关键点以及对应坐标识别所述视频数据中的目标动作。

定义所述目标动作为需要识别的动作，其中所述目标动作中可以包括多个人体关键点，所述多个人体关键点的位置满足预设位置关系。其中，不同的目标动作中，选取的多个人体关键点可以相同或者不同；若不同的目标动作选取的人体关键点相同，多个人体关键点的位置满足的预设位置关系可以不一样。由此，在根据每帧图像中的人体关键点以及对应的坐标识别所述目标动作时，可以是判断每帧图像中的人体关键点是否与满足所述目标动作对应的预设位置关系。若在所述多帧图像中，不满足所述预设位置关系的图像的数量小于预设数量，表明多帧图像中所包含的动作为所述目标动作，则可以识别所述视频数据中的动作为所述目标动作。

本申请实施例提出的目标动作识别方法，视频数据中选取多帧图像；提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标；根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作，在识别出所述视频数据中的目标动作之后，查找指令对照表获取与所述目标动作对应的控制指令以及受控设备，根据所述控制指令控制所述受控设备。利用人体关键点以及对应的坐标来识别目标动作，不需要消耗大量的算力，减小了动作识别的复杂程度，从而在算力不高的电子设备上也能通过普通图像正常进行动作识别。

请参阅图3，本申请另一实施例提供了一种目标动作识别方法，在上一实施例的基础上重点描述了提取每帧图像的人体关键点信息的过程，该方法可以包括：

步骤S210：从视频数据中选取多帧图像。

步骤S210可参照前述实施例对应部分，在此不再赘述。

步骤S220：将所述视频数据中的多帧图像输入提取网络，根据所述提取网络的输出得到对应每一帧图像的人体关键点以及人体关键点的坐标。

在从视频数据中选取多帧图像之后，可以提取每帧图像中人体关键点，在提取每帧图像中的人体关键点时，可以是将所述多帧图像输入提取网络中，根据所述提取网络的输出得到对应每一帧图像的人体关键点以及关键点的坐标。其中，所述提取网络用于输入的图像输出对应的人体关键点以及坐标。

具体的，所述提取网络可以是一个卷积神经网络用于提取人体关键点，例如，openpose、pose-proposal-net等卷积神经网络。其中，在使用所述提取网络时，可以不进行预先的训练，可以直接选用训练好的网络，在提取每帧图像中的关键点时，可以将每帧图像都输入所述提取网络中，得到对应每帧图像的人体关键点以及人体关键点的坐标。

在不同帧的图像中，所包括的人体关键点可能不同。

作为一种实施方式，将每帧图像输入所述提取网络中可以是输出所述对应图像中包含的所有人体关键点，并对每帧图像建立相同坐标系，以输出提取到的所述人体关键点对应的坐标。

作为另一种实施方式，将每帧图像输入所述提取网络中，可以是输出固定的人体关键点。例如，只需要手部关键点，那么，在对应每帧图像只输出手部关键点以及对应的坐标，若在某帧图像中，不包括手部关键点，则不输出与该帧图像对应的人体关键点以及人体关键点的坐标。

步骤S230：根据每个人体关键点的坐标，判断每帧图像中的多个人体关键点是否满足所述预设位置关系。

提取每帧图像中对应的人体关键点以及人体关键点的坐标之后，可以获取所每帧图像中所需要的人体关键点以及坐标。例如，所需要的人体关键为人体手部关键点，则可以以获取每帧图像中的手部关键点以及对应的坐标，并根据手部关键点以及对应的坐标识别目标动作。

其中，目标动作中可以包括多个人体关键点，且多个人体关键点的位置满足预设位置关系。其中，在目标动作不同时，对应所述目标动作中人体关键点所需要满足的预设位置关系不同。例如，目标动作为动作1时，多个人体关键点对应的预设位置关系可以是关系1，在所述目标动作为动作2时，多个人体关键点对应的预设位置关系可以是关系2。由此可以根据想要识别的目标动作来确定每帧图像中的人体关键点所需要满足的预设位置关系。

从而可以判断每帧图像中的人体关键点是否满足目标动作所对应的预设位置关系。

所述人体关键点不局限于手部关键点，在一些实施方式中，还可以是腿部的关键点，或是综合手部以及腿部的关键点等。具体的，在判断每帧图像中的人体关键点是否满足目标动作所对应的预设位置关系时，可以是确定执行所述目标动作时，可以用来进行判断的关键点。在一些实施方式中，可以是建立与目标动作与关键点之间对应关系表，所述关键点表示可以用来判断所述目标动作的关键点，从而，可以根据需要识别的目标动作确定判断所述目标动作的关键点。

例如，在目标动作为两个手臂从合拢到张开，可以进行判断的人体关键点为手部关键点，在所述目标动作为踢腿的动作时，可以进行判断的人体关键点为腿部关键点，在所述目标动作为扭动身体时，可以进行判断的人体关键点为腰部以及颈部的关键点。因此，在识别不同的目标动作时，可以进行判断的关键点可以对应进行设置。

另外，在该对应关系表中，目标动作还可以对应有预设位置关系，表示该目标动作对应的关键点所需要满足的位置关系。

步骤S240：若多个人体关键点不满足所述预设位置关系的图像数量小于预设数量，判定视频数据中的动作为所述目标动作。

在判断所述每帧图像中的人体关键点是否满足目标动作对应的预设位置关系时，需要对不满足所述预设位置关系的图像的数量进行计数。其中，预先设置预设数量，所述预设数量表示在执行所述目标动作时对应的多帧图像中，所允许的最大的不满足目标动作对应的预设位置关系的图像的数量。例如，在做目标动作时，检测到对应的多帧图像中，最多有3帧图像不满足所述目标动作对应的预设位置关系，而在对动作进行识别时，检测到多帧图像中，有4帧图像不满足所述预设位置关系，表明没有在执行所述目标动作。

其中，所述预设数量的确定可以是经过测试得出的，例如，多次获取在做所述目标动作的多帧图像，确定里面不满足所述预设位置关系的图像的数量，根据多次测试的结果取平均值，该平均值则为所述预设数量。当然，不同的目标动作对应的所述预设数量可以是不同的，具体的，所述预设数量的值可以根据实际的需要进行设置，在此不做限定。

在检测完所述多帧图像后，可以获取所述多帧图像中人体关键点不满足所述预设位置关系的图像的数量，若人体关键点不满足所述预设位置关系的图像数量小于预设数量时，表明在执行所述目标动作，从而可以判定视频数据中的动作为所述目标动作；若人体关键点不满足所述预设位置关系的图像数量大于或等于所述预设数量，表明没有执行所述目标动作，从而可以判定视频数据中的动作不为所述目标动作。

本申请实施例提出的目标动作识别方法，从视频数据中选取多帧图像；将所述视频数据中的多帧图像输入提取网络，根据所述提取网络的输出得到对应每一帧图像的人体关键点以及人体关键点的坐标；根据每个人体关键点的坐标，判断每帧图像中的多个人体关键点是否满足预设位置关系；若多个人体关键点不满足所述预设位置关系的图像数量小于预设数量，判定所述视频数据中的动作为所述目标动作。通过每帧图像中的人体关键点以及对应的坐标，判断是否满足执行所述目标动作时对应的多个人体关键点的预设位置关系，并对不满足所述预设位置关系对应的图像数量进行计数，根据计数的大小来确定是否识别到所述目标动作，不需要消耗大量的算力，减小了动作识别的复杂程度，从而在算力不高的电子设备上也能通过普通图像正常进行动作识别。

请参阅图4，本申请再一实施例提供了一种目标动作识别方法，在上一实施例的基础上重点描述了根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作的过程，该方法可以包括：

步骤S310：从视频数据中选取多帧图像。

步骤S320：将所述视频数据中的多帧图像输入提取网络，根据所述提取网络的输出得到对应每一帧图像的人体关键点以及人体关键点的坐标。

步骤S310至步骤S320可参照前述实施例对应部分，在此不再赘述。

其中，由于人体关键点较多，在进行动作识别时，仅以人体手臂的关键点为例进行说明，因此，获取到的人体关键点可以是第一关键点，第二关键点，第三关键点，其中，所述第一关键点可以是手部关键点，第二关键点可以是手肘关键点，第三关键点可以是肩部关键点。具体的，可参阅图5，示出了人体关键点的示意图。其中，图中的黑色圆点表示人体的各个关键点。

在一些实施方式中，所述第一关键点，第二关键点，第三关键点可以是指三个关键点，即第一关键点为一个手部关键点，即图5中的4或7，第二关键点为一个手肘关键点，即图5中的3或6，第三关键点为一个肩部关键点，即图5中的2或5。

在另一些实施方式中，第一关键点可以是人体中对称的关键点中的一个或多个，第二关键点可以是人体中对称的关键点中的一个或多个，第三关键点可以是人体中对称的关键点中的一个或多个。第一关键点、第二关键点以及第三关键点分别对应的3组不同的对称关键点。如第一关键点表示所有的手部的关键点，第二关键点表示所有的手肘的关键点，第三关键点表示所有肩部的关键点。例如，人体具有两条手臂，那么第一关键点则表示两个手部的关键点，即图5中的4或7，第二关键点表示两个手肘的关键点，即图5中的3或6，第三关键点表示两个肩部的关键点，即图5中的2或5。

下面，以第一关键点表示所有的手部的关键点，第二关键点表示所有的手肘的关键点，第三关键点表示所有的肩部的关键点为例进行说明。在根据每个人体关键点的坐标，判断每帧图像中的多个人体关键点是否满足预设位置关系时，所述预设位置关系可以是包括高低关系以及距离关系，因此，需要判断所述人体关键点是否满足所述高低关系，以及需要判断所述人体关键点是否满足所述距离关系。

步骤S330：根据每个人体关键坐标判断每帧图像中各个人体关键点之间的高低位置是否满足所述高低关系。

在获取到第一关键点，第二关键点，第三关键点时，可以是通过其对应的坐标判断每帧图像中各个人体关键点之间的高低位置关系是否满所述高低关系。其中，高低位置关系可以是在执行目标动作时各个人体关键点的位置高低。

具体的，可以参阅图6，可以包括以下步骤：

步骤S331：根据每个人体关键点的坐标，判断每帧图像中各个人体关键点是否满足所述第一关键点高于所述第二关键点且所述第二关键点低于所述第三关键点。

若在执行所述目标动作时，满足的高低位置关系为第一关键点高于所述第二关键点，所述第二关键点低于所述第三关键点。那么可以根据从每帧图像中提取到第一关键点，第二关键点，第三关键点以及对应的坐标，判断是否满足所述高低关系。

例如，同一只手臂的第一关键点的坐标为(x1，y1)，第二关键点的坐标为(x2，y2)，第三关键点的坐标为(x3，y3)，对应的另一只手臂的第一关键点的坐标为(x4，y4)，第二关键点的坐标为(x5，y5)，第三关键点的坐标为(x6，y6)。

在获取高低位置关系时，只需要关注y坐标即可。对于一只手臂而言需要判断是否满足y1>y2，y2<y3，对于另一只手臂而言，需要判断是否满足y4>y5，y5<y6。从而可以判断依次判断每帧图像是否满足所述高低关系。

步骤S332：若是，判定每帧图像中各个人体关键点之间的高低位置满足所述高低关系。

在一些实施方式中，可以是在两个手臂的关键点均满足所述第一关键点高于所述第二关键点，所述第二关键点低于所述第三关键点时，判定该帧图像中各个人体关键点之间的高低位置满足所述高低关系。

在另一些实施方式中，可以在两个手臂中的任意一个手臂中的关键点满足所述第一关键点高于所述第二关键点，所述第二关键点低于所述第三关键点，则可以判定该帧图像中各个人体关键点之间的高低位置满足所述高低关系。

步骤S340：根据每个人体关键点的坐标判断每帧图像中的两手之间的欧式距离是否满足所述距离关系。

在获取到第一关键点，第二关键点，第三关键点时，可以是通过其对应的坐标判断每帧图像中两手之间的欧式距离是否满足所述距离关系。其中，所述距离关系可以是在执行目标动作时各个人体关键点的位置高低。

具体的，可以参阅图7，可以包括以下步骤：

步骤S341：根据所述第一关键点，第二关键点以及第三关键点的坐标计算每帧图像中两手之间的欧式距离。

其中，在计算两手之间的欧式距离时，第一关键点，第二关键点以及第三关键点可以是人体中3组对称的关键点，可以是计算第一关键点中的两个关键点之间的欧式距离，第二关键点中的两个关键点之间的欧式距离，以及第三关键点中的两个关键点之间的欧式距离。

在计算两手之间欧式距离时，可以得到第一关键点之间的欧式距离为

第二关键点之间的欧式距离为

第三关键点之间的欧式距离为

由此，p1，p2，p3均为该帧图像中两手之间的距离。通过该方法，可以计算出每帧图像中两手之间的欧式距离。

步骤S342：在下一帧的所述两手之间的欧式距离大于当前帧的所述两手之间的欧式距离时，判定所述下一帧满足所述距离关系。

在计算出每帧图像中第一关键点的欧式距离，第二关键点的欧式距离，以及第三关键点的欧式距离后，可以根据计算出第一关键点，第二关键点，第三关键点之间的欧式距离，判断与下一帧的第一关键点，第二关键点，第三关键点之间的欧式距离是否满足所述距离关系。

在一些实施方式中，在所述距离关系中，两手之间的距离可以用三组关键点表示，所述第一关键点之间的欧式距离的变化，第二关键点之间的欧式距离的变化，第三关键点之间的欧式距离的变化可以不同。

例如，在执行所述目标动作时，所述第一关键点之间的欧式距离可以是逐渐变大，所述第二关键点之间的欧式距离逐渐变小，所述第三关键点之间的欧式距离基本保持不变。只有在这三个关键点同时满足欧式距离的变化条件时，判定下一帧满足所述距离关系。

由此，需要依次判断当前帧图像中第一关键点，第二关键点，第三关键点，与下一帧图像中第一关键点，第二关键点，第三关键点之间的欧式距离。可以是比对当前帧图像中第一关键点之间的欧式距离与下一帧图像中第一关键点之间的欧式距离，得出第一关键点之间的欧式距离变化；比对当前帧图像中第二关键点之间的欧式距离与下一帧图像中第二关键点之间的欧式距离，得出第二关键点之间的欧式距离变化；比对当前帧图像中第三关键点之间的欧式距离与下一帧图像中第三关键点之间的欧式距离，得出第三关键点之间的欧式距离变化。在所述下一帧图像中第一关键点之间的欧式距离大于所述当前帧图像中第一关键点的欧式距离，下一帧图像中第二关键点之间的欧式距离小于所述当前帧图像中第二关键点的欧式距离，下一帧图像中第三关键点之间的欧式距离约等于所述当前帧图像中第三关键点的欧式距离时，可以判定下一帧满足所述距离关系。

可以理解的是，所述约等于可以设置为两者之间的差值不大于预设数值，例如，所述预设数值为0.5，两者之间的差值为0.4时，可以视为约等于。其中，所述预设数值可以根据实际需求进行设置，在此不做具体限定。

在另一些实施方式中，在所述距离关系中，两手之间的欧式距离可以用组关键点中的其中一组表示，可以是第一关键点，也可以是第二关键点，还可以是第三关键点。

例如，在执行所述目标动作时，所述第一关键点之间的欧式距离逐渐变大，则可以比对当前帧图像中第一关键点之间的欧式距离与下一帧图像中第一关键点之间的欧式距离，得出第一关键点之间的欧式距离变化，在所述下一帧图像中第一关键点之间的欧式距离大于所述当前帧图像中第一关键点的欧式距离时，可以认为下一帧满足所述距离关系。

步骤S350：在所述每帧图像中的多个人体关键点不满足所述高低关系或距离关系时，判定该帧图像中的多个人体关键点不满足所述预设位置关系。

其中，需要判断每帧图像中的人体关键点是否满足所述高低关系，是否满足所述距离关系，在某帧图像中的人体关键点不满足所述高低关系或是所述距离关系时，可以认为该帧图像中的人体关键点不满足所述预设位置关系。

例如，第3帧图像不满足高低关系，满足距离关系，第7帧图像满足高低关系，不满足距离关系，第10帧图像满足所述高低关系以及距离关系，第11帧图像不满所述高低关系以及距离关系，那么可以判定第3帧，第7帧，第11帧中的人体关键点不满足所述预设位置关系，第10帧图像中的人体关键点满足所述预设位置关系。

步骤S360：若多个人体关键点不满足所述预设位置关系的图像数量小于预设数量，判定所述视频数中的动作为所述目标动作。

其中，所述不满足所述预设位置关系的图像数量可以用action_miss表示，在判定有一帧图像不满足所述预设位置关系时，action_miss＝action_miss+1，从而可以获得所述不满足所述预设位置关系的图像数量。步骤S360可以与前述实施例对应部分的描述相互参照，在此不再赘述。

需要说明的是，在一些实施方式中，步骤S330和步骤S340可以不都执行。例如，可以是只执行其中的一个步骤，可以根据实际的需要识别的目标动作所需要满足的预设位置关系进行选择，在不做具体限定。

在另一些实施方式中，若在执行步骤S330之后，不满足预设位置关系的图像数量以及大于或等于预设数量了，也可以不再执行步骤S340，以加快对目标动作的识别。

本申请实施例提出的目标动作识别方法，根据每个人体关键点的坐标判断每帧图像中各个人体关键点之间的高低位置是否满足所属高低关系，判断每帧图像中的两手之间的欧氏距离是否满足所述距离关系，在所述每帧图像中的多个人体关键点不满足所述高低关系或距离关系时，判定该帧图像中的多个人体关键点不满足所述预设位置关系；若多个人体关键点不满足所述预设位置关系的图像数量小于预设数量，判定所述视频数据中的动作为所述目标动作。对应不同的目标动作，人体关键点需要满足的高低关系以及距离关系不同，从而可以直接根据提取的人体关键点的坐标进行简单的数据运算，识别出视频数据中的目标动作，减小了动作识别的复杂程度，从而在算力不高的电子设备上也能通过普通图像正常进行动作识别。

请参阅图8，本申请还一实施例提供了一种目标动作识别方法，在上一实施例的基础上重点描述了利用识别出的目标动作进行受控设备的控制的过程，该方法可以包括：

步骤S410：从视频数据中选取多帧图像。

步骤S420：提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标。

步骤S430：根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。

步骤S410至步骤S430可参照前述实施例对应部分，在此不再赘述。

在识别出所述视频数据中的目标动作之后，可以根据识别到的所述目标动作对受控设备进行进一步的控制。

步骤S440：查找指令对照表获取与所述目标动作对应的控制指令以及受控设备。

其中，预先存储有指令对照表，所述指令对照表中包括手势动作与控制指令以及受控设备的对应关系。具体的，所述指令对照表的内容可参照表1。

表1

手势动作	动作1	动作2
			控制指令	指令1	指令2
受控设备	设备1	设备2

在表1中，手势动作为动作1时对应的控制指令和受控设备分别为指令1和设备1，手势动作为动作2时对应的控制指令和受控设备分别为指令2和设备2。从而，可以根据识别到的所述目标动作，在所述手势动作中查找所述目标动作，获取与所述目标动作对应的控制指令以及受控设备。

步骤S450：根据所述控制指令控制所述受控设备。

在查找到与所述目标动作对应的控制指令时，可以根据所述控制指令控制所述受控设备。

在一些实施方式中，若所述电子设备与网关为两个不同的设备，电子设备可以将获取到的所述控制指令以及受控设备发送给所述网关，由网关将所述控制指令发送给所述受控设备，从而所述受控设备可以执行所述控制指令实现对应的功能。

在另一些实施方式中，若所述电子设备集成在网关上，可以直接将获取到的所述控制指令发送给所述受控设备，从而所述受控设备可以执行所述控制指令实现对应的功能。

例如，在检测到用户做出两只手臂从合拢到张开时，可以控制电动窗帘自动拉开。那么需要识别的目标动作则为两只手臂从合拢到张开，可以实时从所述视频数据中选取多帧图像，提取每帧图像中人体关键点以及对应的坐标，根据所述人体关键点以及对应的坐标识别两只手臂从合拢到张开的动作。在识别出两只手臂从合拢到张开的动作后，查找所述指令对照表，获取到对应两只手臂从合拢到张开的动作的控制指令为打开，受控设备为电动窗帘，从而可以控制所述电动窗帘打开。

本申请实施例提出的目标动作识别方法，从视频数据中选取多帧图像；提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标；根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。获取每帧图像中的人体关键点以及对应的坐标，并利用人体关键点以及对应的坐标来识别目标动作，不需要消耗大量的算力，减小了动作识别的复杂程度，从而在算力不高的电子设备上也能通过普通图像正常进行动作识别·，从而减小了利用动作控制智能家居复杂度。

请参阅图9，其示出了本申请实施例提供的一种目标动作识别装置500，可应用于电子设备，所述目标动作识别装置500包括选取模块510、提取模块520以及识别模块530。所述选取模块510，用于从视频数据中选取多帧图像；所述提取模块520，用于提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标；所述识别模块530，用于根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。

获取每帧图像中的人体关键点以及对应的坐标，并利用人体关键点以及对应的坐标来识别目标动作，不需要消耗大量的算力，减小了动作识别的复杂程度，从而在算力不高的电子设备上也能正常进行动作识别。

进一步的，所述提取模块520还用于将所述视频数据中的多帧图像输入提取网络，根据所述提取网络的输出得到对应每一帧图像的人体关键点以及人体关键点的坐标，所述提取网络用于根据输入的图像输出对应的人体关键点以及坐标。

利用神经网络模型提取图像中的人体关键点信息，以方便基于所述人体关键信息进行目标动作的识别。并且，仅利用神经网络提取关键点信息，省去了对神经网络的训练。

进一步的，所述目标动作中包括多个人体关键点，所述多个人体关键点的位置满足预设位置关系，所述识别模块520还用于根据每个人体关键点的坐标，判断每帧图像中的多个人体关键点是否满足所述预设位置关系；若多个人体关键点不满足所述预设位置关系的图像数量小于预设数量，判定视频数据中的动作为所述目标动作。

利用每帧图像中提取到的所述人体关键点信息判断是否满足所述栎社位置关系，并统计不满足所述预设位置关系的图像的帧的数量，在所述数量小于预设数量时，表明识别到所述目标动作。

进一步的，所述人体关键点为人体手臂关键点，所述预设位置关系包括高低关系以及距离关系，所述识别模块530还用于根据每个人体关键点坐标判断每帧图像中各个人体关键点之间的高低位置是否满足所述高低关系；根据每个人体关键点的坐标判断每帧图像中的两手之间的欧式距离是否满足所述距离关系；在所述每帧图像中的多个人体关键点不满足所述高低关系或距离关系时，判定该帧图像中的多个人体关键点不满足所述预设位置关系。

进一步的，所述人体关键点包括第一关键点，第二关键点以及第三关键点，所述目标动作中所述第一关键点高于所述第二关键点，所述第二关键点低于所述第三关键点，所述识别模块530还用于根据每个人体关键点的坐标，判断每帧图像中各个人体关键点是否满足所述第一关键点高于所述第二关键点且所述第二关键点低于所述第三关键点；若是，判定每帧图像中各个人体关键点之间的高低位置满足所述高低关系。

进一步的，所述识别模块530还用于根据所述第一关键点，第二关键点以及第三关键点的坐标计算每帧图像中两手之间的欧式距离；在下一帧的所述两手之间的欧式距离大于当前帧的所述两手之间的欧式距离时，判定所述下一帧满足所述距离关系。

其中，所述预设位置关系中可以包括高低关系，以及距离关系，在任意一个不满足时，则认为不满足所述预设位置关系，通过设置多个条件，加强对动作识别的准确性。

进一步的，所述目标动作识别装置500还包括控制模块，所述控制模块用于查找所述指令对照表获取与所述目标动作对应的控制指令以及受控设备；根据所述控制指令控制所述受控设备。

在识别出所述目标动作之后，根据所述目标动作对应的控制指令以及受控设备，对所述受控设备进行控制，从而实现利用动作来控制设备，由于在识别过程中的算力较小，在算力不高的电子设备上也能通过普通图像进行识别，使得利用动作进行设备交互的应用更加广泛。

本申请实施例提供的目标动作识别装置500能够实现图2到图7的方法实施例中服务器实现该目标动作识别方法的各个过程，为避免重复，这里不再赘述。

本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的目标动作识别方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及信息反馈。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

图10是本申请实施例提供的一种目标动作识别方法的电子设备的硬件结构框图。该电子设备可以是本地服务器/云端服务器。如图10所示，该电子设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Unit，CPU)610(处理器610可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器630，一个或一个以上存储应用程序623或数据622的存储介质620(例如一个或一个以上海量存储设备)。其中，存储器630和存储介质620可以是短暂存储或持久存储。存储在存储介质620的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质620通信，在电子设备600上执行存储介质620中的一系列指令操作。电子设备600还可以包括一个或一个以上电源660，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口640，和/或，一个或一个以上操作***621，例如WindowsServerTM，MacOSXTM，UnixTM，LinuxTM，FreeBSDTM等等。

输入输出接口640可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备600的通信供应商提供的无线网络。在一个实例中，输入输出接口640包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口640可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备600还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述目标动作识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种目标动作识别方法，其特征在于，所述方法包括：

从视频数据中选取多帧图像；

提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标；

根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。

2.根据权利要求1所述的方法，其特征在于，所述提取每帧图像中的人体关键点信息，包括：

将所述视频数据中的多帧图像输入提取网络，根据所述提取网络的输出得到对应每一帧图像的人体关键点以及人体关键点的坐标，所述提取网络用于根据输入的图像输出对应的人体关键点以及坐标。

3.根据权利要求1所述的方法，其特征在于，所述目标动作中包括多个人体关键点，所述多个人体关键点的位置满足预设位置关系，所述根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作，包括：

根据每个人体关键点的坐标，判断每帧图像中的多个人体关键点是否满足所述预设位置关系；

若多个人体关键点不满足所述预设位置关系的图像数量小于预设数量，判定所述视频数据中的动作为所述目标动作。

4.根据权利要求3所述的方法，其特征在于，所述人体关键点为人体手臂关键点，所述预设位置关系包括高低关系以及距离关系，所述根据每个人体关键点的坐标，判断每帧图像中的多个人体关键点是否满足所述预设位置关系，包括：

根据每个人体关键点坐标判断每帧图像中各个人体关键点之间的高低位置是否满足所述高低关系；

或者，根据每个人体关键点的坐标判断每帧图像中的两手之间的欧式距离是否满足所述距离关系；

在所述每帧图像中的多个人体关键点不满足所述高低关系或距离关系时，判定该帧图像中的多个人体关键点不满足所述预设位置关系。

5.根据权利要求4所述的方法，所述人体关键点包括第一关键点，第二关键点以及第三关键点，所述目标动作中所述第一关键点高于所述第二关键点，所述第二关键点低于所述第三关键点，根据每个人体关键点坐标判断每帧图像中各个人体关键点之间的高低位置是否满足所述高低关系，包括：

根据每个人体关键点的坐标，判断每帧图像中各个人体关键点是否满足所述第一关键点高于所述第二关键点且所述第二关键点低于所述第三关键点；

若是，判定每帧图像中各个人体关键点之间的高低位置满足所述高低关系。

6.根据权利要求4所述的方法，其特征在于，所述人体关键点包括第一关键点，第二关键点以及第三关键点，所述目标动作中所述第一关键点高于所述第二关键点，所述第二关键点低于所述第三关键点，根据每个人体关键点的坐标判断每帧图像中的两手之间的欧式距离是否满足所述距离关系，包括:

根据所述第一关键点，第二关键点以及第三关键点的坐标计算每帧图像中两手之间的欧式距离；

在下一帧的所述两手之间的欧式距离大于当前帧的所述两手之间的欧式距离时，判定所述下一帧满足所述距离关系。

7.根据权利要求1-6任一项所述的方法，其特征在于，预先设置有指令对照表，所述指令对照表中包括手势动作与控制指令以及受控设备的对应关系，所述根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作之后，还包括：

查找所述指令对照表获取与所述目标动作对应的控制指令以及受控设备；

根据所述控制指令控制所述受控设备。

8.一种目标动作识别装置，其特征在于，所述方法包括：

选取模块，用于从视频数据中选取多帧图像；

提取模块，用于提取每帧图像中的人体关键点信息，所述人体关键点信息包括人体关键点以及对应的坐标；

识别模块，用于根据所述人体关键点以及对应的坐标识别所述视频数据中的目标动作。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，与所述一个或多个处理器电连接；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1至7任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。