WO2018202089A1

WO2018202089A1 - 关键点检测方法、装置、存储介质及电子设备

Info

Publication number: WO2018202089A1
Application number: PCT/CN2018/085491
Authority: WO
Inventors: 张展鹏; 孙书洋; 张伟
Original assignee: 商汤集团有限公司
Priority date: 2017-05-05
Filing date: 2018-05-03
Publication date: 2018-11-08
Also published as: CN108229282A

Abstract

本申请实施例提供一种关键点检测方法、装置、存储介质及电子设备。其中，所述关键点检测方法包括：根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，视频光流数据用于指示在第二视频帧和第一视频帧之间至少一个像素的位移数据，第二视频帧包括视频序列中时序连续且位于第一视频帧之前的至少一个视频帧；根据已获得的第二视频帧中目标对象的第二关键点数据和视频光流数据，获取第一视频帧中目标对象的第一关键点数据。采用本申请的实施例，可以有效地利用连续视频帧的时序信息，实现对连续视频帧中关键点的准确定位。

Description

关键点检测方法、装置、存储介质及电子设备

本申请要求在2017年05月05日提交中国专利局、申请号为CN201710311329.3、发明名称为“关键点检测方法、装置、存储介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机视觉技术，尤其涉及一种关键点检测方法、装置、存储介质及电子设备。

背景技术

物体(如行人、动物、车辆等)关键点检测是在涉及视频内容解析和检索的应用中使用的重要技术，被广泛地应用在机器人、游戏娱乐、视频网站的内容分析和推荐等领域。目前，针对物体关键点检测的研究分为基于图像的关键点检测和基于视频的关键点检测。

发明内容

本申请实施例提供一种关键点检测技术方案。

根据本申请实施例的一方面，提供一种关键点检测方法，包括：根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，所述视频光流数据用于指示在所述第二视频帧和第一视频帧之间至少一个像素的位移数据，所述第二视频帧包括所述视频序列中时序连续且位于所述第一视频帧之前的至少一个视频帧；根据已获得的所述第二视频帧中目标对象的第二关键点数据和所述视频光流数据，获取所述第一视频帧中所述目标对象的第一关键点数据。

可选地，所述根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，包括：通过用于生成视频光流数据的深度神经网络，根据所述第一视频帧和所述第二视频帧获取视频光流数据。

可选地，所述根据已获得的所述第二视频帧中目标对象的第二关键点数据和所述视频光流数据，获取所述第一视频帧中目标对象的第一关键点数据，包括：根据已获得的所述第二视频帧中所述目标对象的第二关键点数据，以所述第二关键点为中心选取至少一个第二像素；根据所述视频光流数据所指示的所述第二视频帧和所述第一视频帧之间的所述第二像素的位移数据，获取至少一个所述第二像素在所述第一视频帧中各自对应的第一像素的数据；根据至少一个所述第一像素的数据，获取所述第一视频帧中所述目标对象的第一关键点数据。

可选地，在通过用于生成视频光流数据的深度神经网络，根据所述第一视频帧和所述第二视频帧获取视频光流数据之前，所述方法还包括：使用多个样本视频帧序列训练所述深度神经网络，所述样本视频帧序列中的每个样本视频帧含有视频光流数据的标注信息。

可选地，所述视频光流数据为光流图，所述光流图中的部分像素与所述第一视频帧中的像素和第二视频帧中的像素对应，并指示所述第一视频帧中的像素相对于所述第二视频帧中的对应像素的位移信息。

可选地，所述深度神经网络包括全卷积神经网络。

可选地，所述第一关键点和第二关键点包括：人体的关键点，和/或人脸的关键点。

根据本申请实施例的另一方面，还提供一种关键点检测装置，包括：第一获取模块，用于根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，所述视频光流数据用于指示在所述第二视频帧和第一视频帧之间至少一个像素的位移数据，所述第二视频帧包括所述视频序列中时序连续且位于所述第一视频帧之前的至少一个视频帧；第二获取模块，用于根据已获得的所述第二视频帧中目标对象的第二关键点数据和所述视频光流数据，获取所述第一视频帧中所述目标对象的第一关键点数据。

可选地，所述第一获取模块包括：第一获取单元，用于通过用于生成视频光流数据的深度神经网络，根据所述第一视频帧和所述第二视频帧获取视频光流数据。

可选地，所述第二获取模块包括：选取单元，用于根据已获得的所述第二视频帧中所述目标对象的第二关键点数据，以所述第二关键点为中心选取至少一个第二像素；第二获取单元，用于根据所述视频光流数据所指示的所述第二视频帧和所述第一视频帧之间的所述第二像素的位移数据，获取至少一个所述第二像素在所述第一视频帧中各自对应的第一像素的数据；第三获取单元，用于根据至少一个所述第一像素的数据，获取所述第一视频帧中所述目标对象的第一关键点数据。

可选地，所述第一获取模块还包括：训练单元，用于使用多个样本视频帧序列训练所述深度神经网络，所述样本视频帧序列中的每个样本视频帧含有视频光流数据的标注信息。

可选地，所述深度神经网络包括全卷积神经网络。

根据本申请实施例的又一方面，还提供一种电子设备，包括：处理器和存储器；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如本申请上述任一实施例提供的关键点检测方法对应的操作。

根据本申请实施例的再一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有用于执行如本申请上述述任一实施例提供的关键点检测方法对应的操作的可执行指令。

根据本申请实施例的再一方面，还提供了一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现如本申请上述述任一实施例提供的关键点检测方法对应的操作。

根据本申请实施例提供的关键点检测方法、装置、存储介质、程序及电子设备，通过获取视频序列的连续视频帧的视频光流数据，以确定连续视频帧之间的至少一个像素的位移数据，从而在获得前一视频帧中目标对象的关键点数据后，根据视频光流数据所指示的目标对象的关键点的位移信息，可以获取当前视频帧的关键点数据，能够有效地利用连续视频帧的时序信息，实现对连续视频帧中关键点的准确定位。此外，本实施例的关键点检测方案无需单独对连续视频帧的前后视频帧进行特征学习，而依据连续视频帧之间像素的对应关系以及前一视频帧的关键点数据，来定位后一视频帧的关键点，在保证定位准确度的同时减少了计算量，并降低了计算耗时。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1是示出根据本申请一个实施例关键点检测方案的原理图；

图2是示出根据本申请另一个实施例关键点检测方法的流程图；

图3是示出根据本申请又一个实施例关键点检测方法的流程图；

图4是示出根据本申请一个实施例关键点检测装置的逻辑框图；

图5是示出根据本申请另一个实施例关键点检测装置的逻辑框图；

图6是示出根据本申请一个应用实施例电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外可选说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和装置可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

下面结合附图详细描述本申请实施例的示例性实施例。

图1是示出根据本申请一个实施例关键点检测方案的原理图。参照图1，本申请实施例的关键点检测方案的基本思路是：通过对连续视频帧中的前一视频帧和当前视频帧进行深度光流学习，来获取连续视频帧的视频光流数据；以及，通过将获取的视频光流数据与前一视频帧的关键点的数据进行融合，根据视频光流数据所指示的连续视频帧之间至少一个像素(例如各像素)的对应关系和位移数据，来确定当前视频帧的关键点的数据，从而实现对连续视频帧中的关键点的精确定位。

图2是示出根据本申请一个实施例关键点检测方法的流程图。

参照图2，在步骤S210，根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，视频光流数据用于指示在第二视频帧和第一视频帧之间至少一个像素的位移数据，例如第二视频帧和第一视频帧之间各个像素的位移数据。其中，第二视频帧包括视频序列中时序连续且位于第一视频帧之前的至少一个视频帧。

其中，视频序列可包括但不限于直播视频、录播视频、人机交互视频、游戏视频、监控视频等。第一视频帧和第二视频帧为同一视频内容中连续的视频帧图像，第一视频帧和第二视频帧均包括多个像素，并包括一个或多个目标物体的关键点。在对视频内容进行目标对象的关键点检测的实际应用中，可以将正在检测的当前帧视频图像作为第一视频帧，以当前视频帧之前的一帧视频图像作为第二视频帧。而且，在连续视频帧之间像素的位移较小的情况下，第二视频帧还可以为之前的多帧视频图像。

在视频内容的连续视频帧中，时序连续的第一视频帧和第二视频帧中均包括目标对象，第一视频帧中目标对象的各关键点对应的像素，与第二视频帧中目标对象的各关键点对应的像素存在相互对应的位移关系。也即，在第二视频帧切换至第一视频帧的过程中，第二视频帧中目标对象的各关键点对应的像素经过位移，切换至第一视频帧中目标对象的各关键点对应的像素，以形成连续的视频帧。视频光流数据可用于指示在第二视频帧和第一视频帧之间的至少一个(例如各个)像素的位移数据，并至少包括第二视频帧和第一视频帧中目标对象的各关键点对应的像素的位移数据。

在获取视频光流数据的操作中，可以采用传统的光流计算方法，或者采用深度神经网络等方法，基于第一视频帧和第二视频帧来获取视频光流数据。可选地，采用神经网络的方法来获取视频光流数据，可以避免传动的光流计算方法带来的计算耗时较长的问题。

在一个可选示例中，该步骤S210可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一获取模块402执行。

在步骤S220，根据已获得的第二视频帧中目标对象的第二关键点数据和视频光流数据，获取第一视频帧中目标对象的第一关键点数据。

本实施例中，在对视频序列的连续视频帧进行目标对象的关键点检测的过程中，还可以从第二视频帧中检测目标对象的第二关键点。例如，采用关键点检测方式，对第二视频帧进行检测处理，以获取第二视频帧中目标对象的第二关键点数据。

在从第二视频帧中获取第二关键点数据之后，根据视频光流数据所指示的第二视频帧和第一视频帧之间至少一个像素的位移数据，也即，利用第二视频帧中目标对象的至少一个像素与第一视频帧中目标对象的至少一个像素之间对应的位移关系，来确定第二视频帧中目标对象的第二关键点在第一视频帧中所对应的关键点，从而获取第一视频帧中目标对象的第一关键点数据。

在一个可选示例中，该步骤S220可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二获取模块404执行。

在本申请实施例的关键点检测方法的实际应用中，可以循环执行上述步骤S210和S220，对连续视频帧进行关键点定位。而且，在循环检测的过程中，在执行步骤S220时，可以直接获取前一次检测过程中获取的第一视频帧中目标对象的第一关键点数据，作为当前检测过程中的第二视频帧中目标对象的第二关键点数据，无需在每次的检测过程中都对第二视频帧进行目标对象关键点检测，从而降低计算量。

例如，可以采用上述本实施例的关键点检测方法来对连续视频帧中的人体关键点进行检测。本实施例的关键点检测方法有效利用连续视频帧的时序信息，通过连续视频帧之间的各个像素的位移数据来进行关键点定位，保证了视频人体关键点定位的准确度；而且，无需单独对连续视频帧的前后视频帧进行特征学习，并依据连续视频帧之间像素的对应关系以及前一视频帧的关键点，来定位后一视频帧的关键点，在保证人体关键点定位准确的同时还减少了计算量，以及降低了计算耗时。

根据本申请实施例的关键点检测方法，通过获取视频序列的连续视频帧的视频光流数据，以确定连续视频帧之间的至少一个像素的位移数据，从而根据连续视频帧之间的目标对象的关键点的位移信息，在获得前一视频帧中目标对象的关键点数据之后，可以获取当前视频帧中目标对象的关键点数据，实现了对连续视频帧中目标对象的关键点的准确定位。

本申请各实施例的关键点检测方法可以由视频播放程序、视频直播程序等来执行，但本领域技术人员应明了，在实际应用中，任意具有相应的数据采集和处理功能的设备执行，均可以参照本实施例来执行本申请的关键点检测方法。

图3是示出根据本申请另一份实施例关键点检测方法的流程图。

参照图3，在步骤S310，通过用于生成视频光流数据的深度神经网络，根据第一视频帧和第二视频帧获取视频光流数据。

本实施例中，在对视频序列的连续视频帧进行目标对象关键点检测时，通过用于生成视频光流数据的深度神经网络来处理连续的第二视频帧和第一视频帧，从而获取视频光流数据，以指示第二视频帧和第一视频帧之间的各个像素的位移数据。

在执行该步骤时，通过将第二视频帧和第一视频帧输入至训练好的深度神经网络，即可获得深度神经网络输出的第二视频帧和第一视频帧之间的视频光流数据。其中，输入深度神经网络的第二视频帧和第一视频帧可以为视频图像，视频光流数据也可以为光流图，以降低视频光流数据的计算开销。该光流图可以与连续视频帧中的视频图像大小相同。光流图中的部分像素与第一视频帧中的像素和第二视频帧中的像素对应，并且指示第二视频帧的像素相对于第二视频帧的像素发生的位移信息，例如，第二视频帧中的像素(x，y)移动到第一视频帧中的像素(x’，y’)的位移信息。这里，部分像素对应第一视频帧中位于非边缘区域的像素，并且至少包括第一视频帧中目标对象的各关键点对应的像素。

在实际应用中，可预先训练用于生成视频光流数据的深度神经网络。例如，使用多个样本视频帧序列训练该深度神经网络，其中，样本视频帧中的每个样本视频帧均含有视频光流数据的标注信息。

在一种可选的训练方法中，从待训练的该深度神经网络获取多个样本视频帧序列的视频光流检测数据，再根据这些视频光流检测数据与视频光流数据的标注信息计算出光流检测的预测差异，如通过损失函数计算出损失值，或计算视频光流检测数据与视频光流数据的标注信息的余弦距离或欧式距离等。此后，将计算获得的预测差异反向传输给该深度神经网络，更新该深度神经网络的网络参数，从而训练获得该深度神经网络。

可选地，该训练得到的深度神经网络例如可以是全卷积神经网络，另外也可以是其他的深度神经网络。

此外，在对样本视频帧的视频光流数据进行标注时，可手工标注出至少一个像素点(例如各像素点)的位移数据，也可根据传统的光流位移方法来计算时序上相邻的样本视频帧之间像素的位移数据，将这些计算得到的像素的位移数据作为各个样本视频帧的标注信息。

在一个可选示例中，该步骤S310可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一获取单元4022执行。

在步骤S320，根据已获得的第二视频帧中目标对象的第二关键点数据，以第二关键点为中心选取若干(即至少一个)第二像素。

在该步骤，获取到第二视频帧的第二关键点数据之后，以第二关键点为中心，从第二视频帧中选取第二关键点附近的像素作为第二像素。其中，第二视频帧中的第二关键点可能为一个或多个，在第二关键点包括多个时，分别选取多个第二关键点附件的若干第二像素。

在一个可选示例中，该步骤S320可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的选取单元4042执行。

在步骤S330，根据视频光流数据所指示的第二视频帧和第一视频帧之间的第二像素的位移数据，获取若干第二像素在第一视频帧中各自对应的第一像素的数据。

在确定第二关键点对应的若干第二像素之后，根据视频光流数据所指示的第二视频帧与第一视频帧之间的第二像素的位移数据，以通过第二视频帧中的若干第二像素在第二视频帧和第一视频帧之间的位移信息，分别确定第二视频帧中的若干第二像素位移到第一视频帧中各自对应的第一像素，并获取若干第一像素的数据。

在一个可选示例中，该步骤S330可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二获取单元4044执行。

在步骤S340，根据获取到的若干第一像素的数据，获取第一视频帧中目标对象的第一关键点数据。

在确定第一视频帧中的若干第一像素之后，选取若干第一像素的中心作为第一视频帧中目标对象的第一关键点，该第一关键点与从第二视频帧中检测的第二关键点相对应。其中，第一视频帧中的第一关键点位于若干第一像素的中心，第二视频帧的第二关键点位于若干第二像素的中心，也即，第一关键点与第二关键点的对应关系，符合第二视频帧与第一视频帧之间各个像素的位移数据所表现的位移关系。

在一个可选示例中，该步骤S340可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三获取单元4046执行。

根据本实施例的关键点检测方法，可以通过预先训练全卷积神经网络处理连续视频帧，来生成连续视频帧的视频光流数据，并以光流图的形式来准确地指示连续视频帧之间各个像素的位移信息；从而根据视频光流数据所指示的位移信息，通过获取前一视频帧中目标对象的关键点周围的像素，确定当前视频帧中的符合位移信息的像素，进而确定当前视频帧中目标对象的关键点，实现了对连续视频帧中关键点的准确检测。

本实施例中，第一关键点和第二关键点可以包括人体的关键点，和/或人脸的关键点，也即，本实施例的关键点检测方法可用于进行视频人体关键点检测或者视频人脸关键点检测，或者同时进行视频人体关键点和人脸关键点检测。

例如，以网络直播场景为例进行说明。在视频主播进行网络直播的过程中，通过摄像头获取正在直播的包含主播的视频直播图像，可以通过采用人体关键点算法来检测第一帧视频图像中的主播的人体关键点(例如头部、手腕、肩部等关键点)。然后，把第一帧视频图像和第二帧视频图像输入到训练好的用于检测视频光流数据的深度神经网络，以得到两帧视频图像之间的光流数据，来指示两帧视频图像之间各个像素的位移信息。然后，根据得到的光流数据和第一帧视频图像中的人体关键点，可以相应地的确定第二帧视频图像中的人体关键点。其中，第一帧视频图像和第二帧视频图像分别相当于上述的第二视频帧和第一视频帧。

另外，在上述网络直播场景中，还可以将第二帧视频图像和第三帧视频图像数据上述深度神经网络，并结合输出的光流数据和之前得到的第二视频帧中的人体关键点，可以相应地确定第三帧视频图像中的人体关键点。

以此类推，可以准确检测到每一帧直播视频图像中的人体关键点，可用于对直播视频中的直播进行人体关键点准确跟踪。

通过本实施例的关键点检测方法来进行视频人体关键点检测，利用连续视频帧之间的光流信息来确定连续视频帧之间各个像素之间的位移信息，进而依据前一视频帧的人体关键点定位当前视频帧的人体关键点，可以有效地保证视频人体关键点定位的准确度；并且，在实际检测过程中，可以通过深度神经网络来同时处理前后视频帧以或连续视频帧的光流信息，并依据前一视频帧中确定的人体关键点来定位当前视频帧中的人体关键点，在保证定位准确度的同时减少了计算量，有效地降低了视频人体关键点检测的计算耗时。

图4是示出根据本申请一个实施例关键点检测装置的逻辑框图。

参照图4，本实施例的关键点检测装置包括第一获取模块402和第二获取模块404。第一获取模块402用于根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，所述视频光流数据用于指示在所述第二视频帧和第一视频帧之间各个像素的位移数据，所述第二视频帧包括所述视频序列中时序连续且位于所述第一视频帧之前的至少一个视频帧。第二获取模块404用于根据已获得的所述第二视频帧中目标对象的第二关键点数据和所述视频光流数据，获取所述第一视频帧中所述目标对象的第一关键点数据。

根据本申请实施例提供的关键点检测装置，通过获取视频序列的连续视频帧的视频光流数据，来确定连续视频帧之间的各个像素的位移数据，从而在获得前一视频帧中目标对象的关键点数据后，根据视频光流数据所指示的目标对象的关键点的位移信息，可以获取当前视频帧的关键点数据，能够有效地利用连续视频帧的时序信息，实现对连续视频帧中关键点的准确定位。

图5是示出根据本申请另一个实施例关键点检测装置的逻辑框图。参照图5，与图4所示的实施例相比，该实施例中，所述第一获取模块402包括第一获取单元4022，用于通过用于生成视频光流数据的深度神经网络，根据所述第一视频帧和所述第二视频帧获取视频光流数据。

可选地，所述第二获取模块404包括选取单元4042、第二获取单元4044和第三获取单元4046。选取单元4042用于根据已获得的所述第二视频帧中目标对象的第二关键点数据，以所述第二关键点为中心选取若干(即至少一个)第二像素。第二获取单元4044用于根据所述视频光流数据所指示的所述第二视频帧和所述第一视频帧之间的所述第二像素的位移数据，获取所述若干第二像素在所述第一视频帧中各自对应的第一像素的数据。第三获取单元4046用于根据若干所述第一像素的数据，获取所述第一视频帧中所述目标对象的第一关键点数据。

可选地，第一获取模块402还包括训练单元4024，用于使用多个样本视频帧序列训练所述深度神经网络，所述样本视频帧序列中的每个样本视频帧含有视频光流数据的标注信息。

可选地，所述深度神经网络可以包括但不限于全卷积神经网络。

可选地，所述第一关键点和第二关键点可以包括：人体的关键点，和/或人脸的关键点。

本申请各实施例的关键点检测装置可用于实现前述方法实施例中相应的关键点检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。

本申请实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等，该电子设备包括：处理器和存储器；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如本申请上述任一实施例所述的关键点检测方法对应的操作。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备600一个应用实施例的结构示意图。

如图6所示，电子设备600包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)601，和/或一个或多个图像处理器(GPU)613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件612和通信接口609。其中，通信组件612可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口609包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口609经由诸如因特网的网络执行通信处理。

处理器可与只读存储器602和/或随机访问存储器603中通信以执行可执行指令，通过总线604与通信组件612相连、并经通信组件612与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，所述视频光流数据用于指示在所述第二视频帧和第一视频帧之间至少一个像素的位移数据，所述第二视频帧包括所述视频序列中时序连续且位于所述第一视频帧之前的至少一个视频帧；根据已获得的所述第二视频帧中目标对象的第二关键点数据和所述视频光流数据，获取所述第一视频帧中所述目标对象的第一关键点数据。

此外，在RAM 603中，还可存储有装置操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向ROM602中写入可执行指令，可执行指令使CPU601执行上述通信方法对应的操作。输入/输出(I/O)接口605也连接至总线604。通信组件612可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口609。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

需要说明的，如图6所示的架构仅为一种可选实现方式，在实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信组件可612分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本申请的保护范围。

另外，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有用于执行如本申请上述任一实施例所述的关键点检测方法对应的操作的可执行指令。

另外，本申请实施例还提供了一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现如本申请上述任一实施例所述的关键点检测方法对应的操作。

特别地，根据本申请实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请实施例还提供一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请上述任一实施例提供的方法步骤对应的指令，例如，根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，所述视频光流数据用于指示在所述第二视频帧和第一视频帧之间至少一个像素的位移数据，所述第二视频帧包括所述视频序列中时序连续且位于所述第一视频帧之前的至少一个视频帧；根据已获得的所述第二视频帧中目标对象的第二关键点数据和所述视频光流数据，获取所述第一视频帧中所述目标对象的第一关键点数据。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请实施例的方法中限定的上述功能。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上可选描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

以上所述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

一种关键点检测方法，包括：

根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，所述视频光流数据用于指示在所述第二视频帧和第一视频帧之间至少一个像素的位移数据，所述第二视频帧包括所述视频序列中时序连续且位于所述第一视频帧之前的至少一个视频帧；

根据已获得的所述第二视频帧中目标对象的第二关键点数据和所述视频光流数据，获取所述第一视频帧中所述目标对象的第一关键点数据。
根据权利要求1所述的方法，其中，所述根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，包括：

通过用于生成视频光流数据的深度神经网络，根据所述第一视频帧和所述第二视频帧获取所述视频光流数据。
根据权利要求1或2所述的方法，其中，所述根据已获得的所述第二视频帧中目标对象的第二关键点数据和所述视频光流数据，获取所述第一视频帧中目标对象的第一关键点数据，包括：

根据已获得的所述第二视频帧中所述目标对象的第二关键点数据，以所述第二关键点为中心选取至少一个第二像素；

根据所述视频光流数据所指示的所述第二视频帧和所述第一视频帧之间的所述第二像素的位移数据，获取至少一个所述第二像素在所述第一视频帧中各自对应的第一像素的数据；

根据至少一个所述第一像素的数据，获取所述第一视频帧中所述目标对象的第一关键点数据。
根据权利要求2或3所述的方法，其中，在通过用于生成视频光流数据的深度神经网络，根据所述第一视频帧和所述第二视频帧获取视频光流数据之前，还包括：

使用多个样本视频帧序列训练所述深度神经网络，所述样本视频帧序列中的每个样本视频帧含有视频光流数据的标注信息。
根据权利要求1～4中任一项所述的方法，其中，所述视频光流数据为光流图，所述光流图中的部分像素与所述第一视频帧中的像素和第二视频帧中的像素对应，并指示所述第一视频帧中的像素相对于所述第二视频帧中的对应像素的位移信息。
根据权利要求2～5中任一项所述的方法，其中，所述深度神经网络包括全卷积神经网络。
根据权利要求1～6中任一项所述的方法，其中，所述第一关键点和第二关键点包括：人体的关键点，和/或人脸的关键点。
一种关键点检测装置，包括：

第一获取模块，用于根据视频序列包括的第一视频帧和第二视频帧获取视频光流数据，所述视频光流数据用于指示在所述第二视频帧和第一视频帧之间至少一个像素的位移数据，所述第二视频帧包括所述视频序列中时序连续且位于所述第一视频帧之前的至少一个视频帧；

第二获取模块，用于根据已获得的所述第二视频帧中目标对象的第二关键点数据和所述视频光流数据，获取所述第一视频帧中所述目标对象的第一关键点数据。
根据权利要求8所述的装置，其中，所述第一获取模块包括：

第一获取单元，用于通过用于生成视频光流数据的深度神经网络，根据所述第一视频帧和所述第二视频帧获取所述视频光流数据。
根据权利要求8或9所述的装置，其中，所述第二获取模块包括：

选取单元，用于根据已获得的所述第二视频帧中所述目标对象的第二关键点数据，以所述第二关键点为中心选取至少一个第二像素；

第二获取单元，用于根据所述视频光流数据所指示的所述第二视频帧和所述第一视频帧之间的所述第二像素的位移数据，获取至少一个所述第二像素在所述第一视频帧中各自对应的第一像素的数据；

第三获取单元，用于根据至少一个所述第一像素的数据，获取所述第一视频帧中所述目标对象的第一关键点数据。
根据权利要求9或10所述的装置，其中，所述第一获取模块还包括：

训练单元，用于使用多个样本视频帧序列训练所述深度神经网络，所述样本视频帧序列中的每个样本视频帧含有视频光流数据的标注信息。
根据权利要求8～11中任一项所述的装置，其中，所述视频光流数据为光流图，所述光流图中的部分像素与所述第一视频帧中的像素和第二视频帧中的像素对应，并指示所述第一视频帧中的像素相对于所述第二视频帧中的对应像素的位移信息。
根据权利要求9～12中任一项所述的装置，其中，所述深度神经网络包括全卷积神经网络。
根据权利要求8～13中任一项所述的装置，其中，所述第一关键点和第二关键点包括：人体的关键点，和/或人脸的关键点。
一种电子设备，包括：处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1～7中任一所述的关键点检测方法对应的操作。
一种计算机可读存储介质，所述计算机可读存储介质存储有用于执行如权利要求1～7中任一项所述的关键点检测方法对应的操作的可执行指令。
一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现如权利要求1～7中任一项所述的关键点检测方法对应的操作。