CN109977912B

CN109977912B - 视频人体关键点检测方法、装置、计算机设备和存储介质

Info

Publication number: CN109977912B
Application number: CN201910276687.4A
Authority: CN
Inventors: 张樯; 张挺; 李斌; 李司同; 崔洪
Original assignee: Beijing Institute of Environmental Features
Current assignee: Beijing Institute of Environmental Features
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2021-04-16
Anticipated expiration: 2039-04-08
Also published as: CN109977912A

Abstract

本发明涉及一种视频人体关键点检测方法，包括：提取待检测视频中的多帧待检测图像；获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图；根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图；将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点。通过提取多帧图像之间的光流场，对待检测图像进行增强，进而提高视频关键点检测的准确率。

Description

视频人体关键点检测方法、装置、计算机设备和存储介质

技术领域

本发明涉及图像处理领域，特别是涉及一种视频人体关键点检测方法、装置、计算机设备和存储介质。

背景技术

人体关键点检测研究的是如何对图像中人体的各个关键点准确地识别和定位，它是动作识别、人机交互等诸多计算机视觉应用的基础。

目前视频人体关键点检测上通常采用“自底向上”和“自顶向下”两种方法，但这两种算法都只是简单的将视频分解为若干帧，再利用单帧的处理算法进行逐帧处理，没有利用帧间的时域信息，导致人体关键点检测准确率较低。

发明内容

本发明的目的在于提供一种视频人体关键点检测方法、装置、计算机设备和可读存储介质，可以有效提高视频中人体关键点检测的准确性。

本发明的目的通过如下技术方案实现：

一种视频人体关键点检测方法，所述方法包括：

提取待检测视频中的多帧待检测图像；

获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图；

根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图；

将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点。

在一个实施例中，所述待检测图像包括当前帧图像和至少一个历史帧图像；所述提取待检测视频中的多帧待检测图像的步骤，包括：

提取所述待检测视频中的当前帧图像；

提取所述待检测视频中至少一个历史帧图像，所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻。

在一个实施例中，所述获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图的步骤，包括：

获取所述当前帧图像和所述历史帧图像之间的光流场；

获取所述当前帧图像的当前特征图，以及获取所述历史帧图像的历史特征图。

在一个实施例中，所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤，包括：

将所述当前帧图像和所述历史帧图像输入预设神经光流网络，得到所述当前帧图像和所述历史帧图像之间的光流场。

在一个实施例中，所述根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图的步骤，包括：

根据所述光流场将所述历史特征图向所述当前特征图对齐，得到对齐特征图；

将所述对齐特征图和所述当前特征图进行时域融合，得到所述增强特征图。

将所述当前帧图像和所述历史帧图像输入预设神经光流网络，得到所述当前帧图像和所述历史帧图像之间的光流场，还得到尺度场；其中，所述尺度场与所述特征图维度相同。

将所述对齐特征图和所述尺度场相乘得到细化特征图；

将所述细化特征图和所述当前特征图进行时域融合，得到所述增强特征图。

一种视频人体关键点检测装置，所述装置包括：

图像提取模块，用于提取待检测视频中的多帧待检测图像；

光流特征提取模块，用于获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图；

图像增强模块，用于根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图；

关键点检测模块，用于将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时上述步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述步骤。

本发明提供的视频人体关键点检测方法，其提取待检测视频中的多帧待检测图像；获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图；根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图；将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点。通过提取多帧图像之间的光流场，对待检测图像进行增强，进而提高视频关键点检测的准确率。

附图说明

图1为一个实施例中视频人体关键点检测方法的应用环境图；

图2为一个实施例中视频人体关键点检测方法的流程示意图；

图3为另一个实施例中视频人体关键点检测方法的流程示意图；

图4为另一个实施例中视频人体关键点检测装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本申请提供的视频人体关键点检测方法可以应用于如图1所示的应用环境中。该应用环境包括服务器104和摄像装置102，服务器104从摄像装置102中获取待检测视频，并提取待检测视频中的多帧待检测图像；服务器104获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图；服务器104根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图；服务器104将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现；摄像装置可以采用摄像头、相机、手机等等具有摄像功能的装置实现。

在一个实施例中，如图2所示，提供了一种视频人体关键点检测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，提取待检测视频中的多帧待检测图像。

在本步骤中，待检测图像包括当前帧图像和至少一个历史帧图像。

在具体实施过程中，步骤S202的提取待检测视频中的多帧待检测图像，包括：

1)提取所述待检测视频中的当前帧图像；

2)提取所述待检测视频中至少一个历史帧图像，所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻。

例如，可以提取相邻的三帧图像，将最后一帧图像作为当前帧图像，将前面两帧图像作为历史帧图像。

步骤S204，获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图。

在本步骤中，光流估计是根据两个观测瞬间之间的物体表面、形状等的变化从而计算出物体运动变化的一种方法。光流表征的是两幅图像间的运动信息，它反映的是前一帧图像中的像素运动到后一帧图像的瞬时速度。

在本实施例中，采用Flownet2S网络来进行帧间的光流估计。

如图3所示，在一个实施例中，步骤S204的获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图，包括：

步骤S410，获取所述当前帧图像和所述历史帧图像之间的光流场；

步骤S420，获取所述当前帧图像的当前特征图，以及获取所述历史帧图像的历史特征图。

在一个实施例中，步骤S410的获取所述当前帧图像和所述历史帧图像之间的光流场，可以包括：将所述当前帧图像和所述历史帧图像输入预设神经光流网络，得到所述当前帧图像和所述历史帧图像之间的光流场。

具体的，用M_i→k来表示一个通过Flownet2S而计算得到第i帧到第k帧的二维光流场。假设某一像素在第i帧位于位置p，在第k帧是该像素运动到位置q,那么则有q＝p+δp，其中δp＝M_i→k(p)；进行特征对齐前，需要通过双线性插值将光流缩放到特征图的相同尺寸；由于上式中δp大都是小数，所以需要通过式(1)来实现特征对齐。

其中c表示的是特征图f的一个通道，q遍历特征图上的每一个坐标，G是双线性插值变换核。由于G是二维的，可以分解为两个一维的变换核相乘，如式(2)所示。

G(q,p+δp)＝g(q_x,p_x+δp_x)·g(q_y,p_y+δp_y) (2)

其中g(a,b)＝max(0,1-|a-b|)；由于上式中只有很少项是非零的，所以上式的计算会很快。

在另一个实施例中，为了使得对齐后得特征能够更有利于进行检测，步骤S410的获取所述当前帧图像和所述历史帧图像之间的光流场，还可以包括：将所述当前帧图像和所述历史帧图像输入预设神经光流网络，得到所述当前帧图像和所述历史帧图像之间的光流场，还得到尺度场；其中，所述尺度场与所述特征图维度相同。

具体的，Flownet2S不仅输出光流场也同时输出一个和特征图相同维度的尺度场S_i→k。

步骤S206，根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图。

在本步骤中，采用GRU(Gated Recurrent Units，门控循环单元)进行特征图融合，具体的，采用卷积形式的GRU即ConvGRU来进行时域特征融合。

在一个实施例中，当步骤S410中仅获取光流场时，步骤S206的根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图，包括：

1)根据所述光流场将所述历史特征图向所述当前特征图对齐，得到对齐特征图；

2)将所述对齐特征图和所述当前特征图进行时域融合，得到所述增强特征图。

具体的，在一个GRU单元内部，输入信息被按照式公式(3)进行处理。GRU单元的新状态h_t是前一个状态h_t-1和记忆状态h'_t的加权和。更新门z_t决定记忆状态中有多少成分被用于计算新状态h_t，重置门r_t控制前一个状态h_t-1对记忆状态的影响程度。与全连接形式的GRU不同，这里*表示卷积，

表示对位相乘，σ是sigmoid函数，w是待学习的权重，b是偏置项。

z_t＝σ(x_t*w_xz+h_t-1*w_hz+b_z),

r_t＝σ(x_t*w_xr+h_t-1*w_hr+b_r),

在另一个实施例中，当步骤S410中获取光流场和尺度场时，步骤S206的根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图，包括：

2)将所述对齐特征图和所述尺度场相乘得到细化特征图；具体的，尺度场S_i→k和空间对齐后的对齐特征图相乘，得到细化特征图。

3)将所述细化特征图和所述当前特征图进行时域融合，得到所述增强特征图。

步骤S208，将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点。

在本步骤中，采用Mask-RCNN来进行基于图像的人体关键点检测。Mask-RCNN的网络结构主要包括底层的特征提取网络、中间层的候选框生成网络和位于头部的具体子任务网络三部分组成。

最底层特征提取网络用于从图像中提取丰富的特征，输入是原始图像，输出是特征图。为了提取更好的特征，将Faster-RCNN中使用的VGG网络替换为特征表达能力更强的残差网络。同时，由于图像中往往存在大小尺度各异的不同目标，仅从单一尺度的特征图进行检测很容易造成漏检。对于Resnet这样的主干网络来说，浅层的特征分辨率高但是语义层次较低，深层的特征语义层次较高但是分辨率低。通过使用FPN网络作为主干网络可以将不同尺度的信息融合起来，输出的多尺度特征图对于后续的目标检测、语义分割、关键点检测具有重要的意义。

中间的候选框生成网络用于区分目标与背景、生成目标候选框，之后就是根据候选框对特征图进行剪裁。在Faster-RCNN中采用的方法是RoI Pooling，实现从原图区域映射到卷积区域最后pooling到固定大小的功能，将该区域的尺寸归一化成卷积网络输入的尺寸。Mask-RCNN使用ROIAlign层对提取的特征和输入之间进行校准。避免对每一个ROI边界或者块进行数字化，使用双线性内插法计算在ROI块当中固定的四个采样位置得到的输入特征值并对结果进行融合。ROIAlign层最终输出7×7大小的特征图给后续的子任务网络。

具体任务的子网络位于最顶层，对于人体关键点检测来说，包括8层3×3卷积。由于关键点检测的准确率对于特征图的分辨率很敏感，因此通过级联一个解卷积层和一个双线性插值层使得最后输出的结果尺度为56×56。

上述的视频人体关键点检测方法，通过提取待检测视频中的多帧待检测图像；获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图；根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图；将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点。通过提取多帧图像之间的光流场，对待检测图像进行增强，进而提高视频关键点检测的准确率。

如图4所示，图4为一个实施例中视频人体关键点检测装置的结构示意图，本实施例中提供一种视频人体关键点检测装置，包括图像提取模块401、光流特征提取模块402、图像增强模块403和关键点检测模块404，其中：

图像提取模块401，用于提取待检测视频中的多帧待检测图像；

光流特征提取模块402，用于获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图；

图像增强模块403，用于根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图；

关键点检测模块404，用于将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点。

关于视频人体关键点检测装置的具体限定可以参见上文中对于视频人体关键点检测方法的限定，在此不再赘述。上述视频人体关键点检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

如图5所示，图5为一个实施例中计算机设备的内部结构示意图。该计算机设备包括通过装置总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作装置、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种视频人体关键点检测方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种视频人体关键点检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如下步骤：提取待检测视频中的多帧待检测图像；获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图；根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图；将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点。

在其中一个实施例中，处理器执行计算机程序时所述待检测图像包括当前帧图像和至少一个历史帧图像；所述提取待检测视频中的多帧待检测图像的步骤，包括：提取所述待检测视频中的当前帧图像；提取所述待检测视频中至少一个历史帧图像，所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻。

在其中一个实施例中，处理器执行计算机程序时所述获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图的步骤，包括：获取所述当前帧图像和所述历史帧图像之间的光流场；获取所述当前帧图像的当前特征图，以及获取所述历史帧图像的历史特征图。

在其中一个实施例中，处理器执行计算机程序时所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤，包括：将所述当前帧图像和所述历史帧图像输入预设神经光流网络，得到所述当前帧图像和所述历史帧图像之间的光流场。

在其中一个实施例中，处理器执行计算机程序时所述根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图的步骤，包括：根据所述光流场将所述历史特征图向所述当前特征图对齐，得到对齐特征图；将所述对齐特征图和所述当前特征图进行时域融合，得到所述增强特征图。

在其中一个实施例中，处理器执行计算机程序时所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤，包括：将所述当前帧图像和所述历史帧图像输入预设神经光流网络，得到所述当前帧图像和所述历史帧图像之间的光流场，还得到尺度场；其中，所述尺度场与所述特征图维度相同。

在其中一个实施例中，处理器执行计算机程序时所述根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图的步骤，包括：根据所述光流场将所述历史特征图向所述当前特征图对齐，得到对齐特征图；将所述对齐特征图和所述尺度场相乘得到细化特征图；将所述细化特征图和所述当前特征图进行时域融合，得到所述增强特征图。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：提取待检测视频中的多帧待检测图像；获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图；根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图；将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点。

在其中一个实施例中，计算机可读指令被处理器执行时所述待检测图像包括当前帧图像和至少一个历史帧图像；所述提取待检测视频中的多帧待检测图像的步骤，包括：提取所述待检测视频中的当前帧图像；提取所述待检测视频中至少一个历史帧图像，所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻。

在其中一个实施例中，计算机可读指令被处理器执行时所述获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图的步骤，包括：获取所述当前帧图像和所述历史帧图像之间的光流场；获取所述当前帧图像的当前特征图，以及获取所述历史帧图像的历史特征图。

在其中一个实施例中，计算机可读指令被处理器执行时所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤，包括：将所述当前帧图像和所述历史帧图像输入预设神经光流网络，得到所述当前帧图像和所述历史帧图像之间的光流场。

在其中一个实施例中，计算机可读指令被处理器执行时所述根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图的步骤，包括：根据所述光流场将所述历史特征图向所述当前特征图对齐，得到对齐特征图；将所述对齐特征图和所述当前特征图进行时域融合，得到所述增强特征图。

在其中一个实施例中，计算机可读指令被处理器执行时所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤，包括：将所述当前帧图像和所述历史帧图像输入预设神经光流网络，得到所述当前帧图像和所述历史帧图像之间的光流场，还得到尺度场；其中，所述尺度场与所述特征图维度相同。

在其中一个实施例中，计算机可读指令被处理器执行时所述根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图的步骤，包括：根据所述光流场将所述历史特征图向所述当前特征图对齐，得到对齐特征图；将所述对齐特征图和所述尺度场相乘得到细化特征图；将所述细化特征图和所述当前特征图进行时域融合，得到所述增强特征图。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频人体关键点检测方法，其特征在于，所述方法包括：

提取待检测视频中的多帧待检测图像；

将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点；

所述待检测图像包括当前帧图像和至少一个历史帧图像；所述提取待检测视频中的多帧待检测图像的步骤，包括：

提取所述待检测视频中的当前帧图像；

提取所述待检测视频中至少一个历史帧图像，所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻；

所述获取多帧所述待检测图像之间的光流场，以及获取各所述待检测图像的特征图的步骤，包括：

获取所述当前帧图像和所述历史帧图像之间的光流场；

获取所述当前帧图像的当前特征图，以及获取所述历史帧图像的历史特征图；

所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤，包括：

将所述当前帧图像和所述历史帧图像输入预设神经光流网络，得到所述当前帧图像和所述历史帧图像之间的光流场，还得到尺度场；其中，所述尺度场与所述特征图维度相同；

所述根据所述光流场将所述特征图融合，得到所述待检测图像的增强特征图的步骤，包括：

将所述对齐特征图和所述尺度场相乘得到细化特征图；

2.一种视频人体关键点检测装置，其特征在于，所述装置包括：

图像提取模块，用于提取待检测视频中的多帧待检测图像；

关键点检测模块，用于将所述增强特征图输入预设神经网络，得到所述待检测图像中的人体关键点；

所述待检测图像包括当前帧图像和至少一个历史帧图像；所述图像提取模块执行的操作，包括：

提取所述待检测视频中的当前帧图像；

所述光流特征提取模块执行的操作，包括：

获取所述当前帧图像和所述历史帧图像之间的光流场；

所述光流特征提取模块通过以下方式获取所述当前帧图像和所述历史帧图像之间的光流场：

所述图像增强模块执行的操作，包括：

将所述对齐特征图和所述尺度场相乘得到细化特征图；

3.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1所述方法的步骤。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1所述的方法的步骤。