CN109977912B - 视频人体关键点检测方法、装置、计算机设备和存储介质 - Google Patents

视频人体关键点检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109977912B
CN109977912B CN201910276687.4A CN201910276687A CN109977912B CN 109977912 B CN109977912 B CN 109977912B CN 201910276687 A CN201910276687 A CN 201910276687A CN 109977912 B CN109977912 B CN 109977912B
Authority
CN
China
Prior art keywords
frame image
detected
image
feature map
optical flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910276687.4A
Other languages
English (en)
Other versions
CN109977912A (zh
Inventor
张樯
张挺
李斌
李司同
崔洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Environmental Features
Original Assignee
Beijing Institute of Environmental Features
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Environmental Features filed Critical Beijing Institute of Environmental Features
Priority to CN201910276687.4A priority Critical patent/CN109977912B/zh
Publication of CN109977912A publication Critical patent/CN109977912A/zh
Application granted granted Critical
Publication of CN109977912B publication Critical patent/CN109977912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种视频人体关键点检测方法,包括:提取待检测视频中的多帧待检测图像;获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点。通过提取多帧图像之间的光流场,对待检测图像进行增强,进而提高视频关键点检测的准确率。

Description

视频人体关键点检测方法、装置、计算机设备和存储介质
技术领域
本发明涉及图像处理领域,特别是涉及一种视频人体关键点检测方法、装置、计算机设备和存储介质。
背景技术
人体关键点检测研究的是如何对图像中人体的各个关键点准确地识别和定位,它是动作识别、人机交互等诸多计算机视觉应用的基础。
目前视频人体关键点检测上通常采用“自底向上”和“自顶向下”两种方法,但这两种算法都只是简单的将视频分解为若干帧,再利用单帧的处理算法进行逐帧处理,没有利用帧间的时域信息,导致人体关键点检测准确率较低。
发明内容
本发明的目的在于提供一种视频人体关键点检测方法、装置、计算机设备和可读存储介质,可以有效提高视频中人体关键点检测的准确性。
本发明的目的通过如下技术方案实现:
一种视频人体关键点检测方法,所述方法包括:
提取待检测视频中的多帧待检测图像;
获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;
根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;
将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点。
在一个实施例中,所述待检测图像包括当前帧图像和至少一个历史帧图像;所述提取待检测视频中的多帧待检测图像的步骤,包括:
提取所述待检测视频中的当前帧图像;
提取所述待检测视频中至少一个历史帧图像,所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻。
在一个实施例中,所述获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图的步骤,包括:
获取所述当前帧图像和所述历史帧图像之间的光流场;
获取所述当前帧图像的当前特征图,以及获取所述历史帧图像的历史特征图。
在一个实施例中,所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤,包括:
将所述当前帧图像和所述历史帧图像输入预设神经光流网络,得到所述当前帧图像和所述历史帧图像之间的光流场。
在一个实施例中,所述根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图的步骤,包括:
根据所述光流场将所述历史特征图向所述当前特征图对齐,得到对齐特征图;
将所述对齐特征图和所述当前特征图进行时域融合,得到所述增强特征图。
在一个实施例中,所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤,包括:
将所述当前帧图像和所述历史帧图像输入预设神经光流网络,得到所述当前帧图像和所述历史帧图像之间的光流场,还得到尺度场;其中,所述尺度场与所述特征图维度相同。
在一个实施例中,所述根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图的步骤,包括:
根据所述光流场将所述历史特征图向所述当前特征图对齐,得到对齐特征图;
将所述对齐特征图和所述尺度场相乘得到细化特征图;
将所述细化特征图和所述当前特征图进行时域融合,得到所述增强特征图。
一种视频人体关键点检测装置,所述装置包括:
图像提取模块,用于提取待检测视频中的多帧待检测图像;
光流特征提取模块,用于获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;
图像增强模块,用于根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;
关键点检测模块,用于将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时上述步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述步骤。
本发明提供的视频人体关键点检测方法,其提取待检测视频中的多帧待检测图像;获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点。通过提取多帧图像之间的光流场,对待检测图像进行增强,进而提高视频关键点检测的准确率。
附图说明
图1为一个实施例中视频人体关键点检测方法的应用环境图;
图2为一个实施例中视频人体关键点检测方法的流程示意图;
图3为另一个实施例中视频人体关键点检测方法的流程示意图;
图4为另一个实施例中视频人体关键点检测装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本申请提供的视频人体关键点检测方法可以应用于如图1所示的应用环境中。该应用环境包括服务器104和摄像装置102,服务器104从摄像装置102中获取待检测视频,并提取待检测视频中的多帧待检测图像;服务器104获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;服务器104根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;服务器104将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点。其中,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现;摄像装置可以采用摄像头、相机、手机等等具有摄像功能的装置实现。
在一个实施例中,如图2所示,提供了一种视频人体关键点检测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,提取待检测视频中的多帧待检测图像。
在本步骤中,待检测图像包括当前帧图像和至少一个历史帧图像。
在具体实施过程中,步骤S202的提取待检测视频中的多帧待检测图像,包括:
1)提取所述待检测视频中的当前帧图像;
2)提取所述待检测视频中至少一个历史帧图像,所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻。
例如,可以提取相邻的三帧图像,将最后一帧图像作为当前帧图像,将前面两帧图像作为历史帧图像。
步骤S204,获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图。
在本步骤中,光流估计是根据两个观测瞬间之间的物体表面、形状等的变化从而计算出物体运动变化的一种方法。光流表征的是两幅图像间的运动信息,它反映的是前一帧图像中的像素运动到后一帧图像的瞬时速度。
在本实施例中,采用Flownet2S网络来进行帧间的光流估计。
如图3所示,在一个实施例中,步骤S204的获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图,包括:
步骤S410,获取所述当前帧图像和所述历史帧图像之间的光流场;
步骤S420,获取所述当前帧图像的当前特征图,以及获取所述历史帧图像的历史特征图。
在一个实施例中,步骤S410的获取所述当前帧图像和所述历史帧图像之间的光流场,可以包括:将所述当前帧图像和所述历史帧图像输入预设神经光流网络,得到所述当前帧图像和所述历史帧图像之间的光流场。
具体的,用Mi→k来表示一个通过Flownet2S而计算得到第i帧到第k帧的二维光流场。假设某一像素在第i帧位于位置p,在第k帧是该像素运动到位置q,那么则有q=p+δp,其中δp=Mi→k(p);进行特征对齐前,需要通过双线性插值将光流缩放到特征图的相同尺寸;由于上式中δp大都是小数,所以需要通过式(1)来实现特征对齐。
Figure BDA0002020264120000061
其中c表示的是特征图f的一个通道,q遍历特征图上的每一个坐标,G是双线性插值变换核。由于G是二维的,可以分解为两个一维的变换核相乘,如式(2)所示。
G(q,p+δp)=g(qx,px+δpx)·g(qy,py+δpy) (2)
其中g(a,b)=max(0,1-|a-b|);由于上式中只有很少项是非零的,所以上式的计算会很快。
在另一个实施例中,为了使得对齐后得特征能够更有利于进行检测,步骤S410的获取所述当前帧图像和所述历史帧图像之间的光流场,还可以包括:将所述当前帧图像和所述历史帧图像输入预设神经光流网络,得到所述当前帧图像和所述历史帧图像之间的光流场,还得到尺度场;其中,所述尺度场与所述特征图维度相同。
具体的,Flownet2S不仅输出光流场也同时输出一个和特征图相同维度的尺度场Si→k
步骤S206,根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图。
在本步骤中,采用GRU(Gated Recurrent Units,门控循环单元)进行特征图融合,具体的,采用卷积形式的GRU即ConvGRU来进行时域特征融合。
在一个实施例中,当步骤S410中仅获取光流场时,步骤S206的根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图,包括:
1)根据所述光流场将所述历史特征图向所述当前特征图对齐,得到对齐特征图;
2)将所述对齐特征图和所述当前特征图进行时域融合,得到所述增强特征图。
具体的,在一个GRU单元内部,输入信息被按照式公式(3)进行处理。GRU单元的新状态ht是前一个状态ht-1和记忆状态h't的加权和。更新门zt决定记忆状态中有多少成分被用于计算新状态ht,重置门rt控制前一个状态ht-1对记忆状态的影响程度。与全连接形式的GRU不同,这里*表示卷积,
Figure BDA0002020264120000081
表示对位相乘,σ是sigmoid函数,w是待学习的权重,b是偏置项。
zt=σ(xt*wxz+ht-1*whz+bz),
rt=σ(xt*wxr+ht-1*whr+br),
Figure BDA0002020264120000082
Figure BDA0002020264120000083
在另一个实施例中,当步骤S410中获取光流场和尺度场时,步骤S206的根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图,包括:
1)根据所述光流场将所述历史特征图向所述当前特征图对齐,得到对齐特征图;
2)将所述对齐特征图和所述尺度场相乘得到细化特征图;具体的,尺度场Si→k和空间对齐后的对齐特征图相乘,得到细化特征图。
3)将所述细化特征图和所述当前特征图进行时域融合,得到所述增强特征图。
步骤S208,将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点。
在本步骤中,采用Mask-RCNN来进行基于图像的人体关键点检测。Mask-RCNN的网络结构主要包括底层的特征提取网络、中间层的候选框生成网络和位于头部的具体子任务网络三部分组成。
最底层特征提取网络用于从图像中提取丰富的特征,输入是原始图像,输出是特征图。为了提取更好的特征,将Faster-RCNN中使用的VGG网络替换为特征表达能力更强的残差网络。同时,由于图像中往往存在大小尺度各异的不同目标,仅从单一尺度的特征图进行检测很容易造成漏检。对于Resnet这样的主干网络来说,浅层的特征分辨率高但是语义层次较低,深层的特征语义层次较高但是分辨率低。通过使用FPN网络作为主干网络可以将不同尺度的信息融合起来,输出的多尺度特征图对于后续的目标检测、语义分割、关键点检测具有重要的意义。
中间的候选框生成网络用于区分目标与背景、生成目标候选框,之后就是根据候选框对特征图进行剪裁。在Faster-RCNN中采用的方法是RoI Pooling,实现从原图区域映射到卷积区域最后pooling到固定大小的功能,将该区域的尺寸归一化成卷积网络输入的尺寸。Mask-RCNN使用ROIAlign层对提取的特征和输入之间进行校准。避免对每一个ROI边界或者块进行数字化,使用双线性内插法计算在ROI块当中固定的四个采样位置得到的输入特征值并对结果进行融合。ROIAlign层最终输出7×7大小的特征图给后续的子任务网络。
具体任务的子网络位于最顶层,对于人体关键点检测来说,包括8层3×3卷积。由于关键点检测的准确率对于特征图的分辨率很敏感,因此通过级联一个解卷积层和一个双线性插值层使得最后输出的结果尺度为56×56。
上述的视频人体关键点检测方法,通过提取待检测视频中的多帧待检测图像;获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点。通过提取多帧图像之间的光流场,对待检测图像进行增强,进而提高视频关键点检测的准确率。
如图4所示,图4为一个实施例中视频人体关键点检测装置的结构示意图,本实施例中提供一种视频人体关键点检测装置,包括图像提取模块401、光流特征提取模块402、图像增强模块403和关键点检测模块404,其中:
图像提取模块401,用于提取待检测视频中的多帧待检测图像;
光流特征提取模块402,用于获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;
图像增强模块403,用于根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;
关键点检测模块404,用于将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点。
关于视频人体关键点检测装置的具体限定可以参见上文中对于视频人体关键点检测方法的限定,在此不再赘述。上述视频人体关键点检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
如图5所示,图5为一个实施例中计算机设备的内部结构示意图。该计算机设备包括通过装置总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作装置、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种视频人体关键点检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种视频人体关键点检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如下步骤:提取待检测视频中的多帧待检测图像;获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点。
在其中一个实施例中,处理器执行计算机程序时所述待检测图像包括当前帧图像和至少一个历史帧图像;所述提取待检测视频中的多帧待检测图像的步骤,包括:提取所述待检测视频中的当前帧图像;提取所述待检测视频中至少一个历史帧图像,所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻。
在其中一个实施例中,处理器执行计算机程序时所述获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图的步骤,包括:获取所述当前帧图像和所述历史帧图像之间的光流场;获取所述当前帧图像的当前特征图,以及获取所述历史帧图像的历史特征图。
在其中一个实施例中,处理器执行计算机程序时所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤,包括:将所述当前帧图像和所述历史帧图像输入预设神经光流网络,得到所述当前帧图像和所述历史帧图像之间的光流场。
在其中一个实施例中,处理器执行计算机程序时所述根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图的步骤,包括:根据所述光流场将所述历史特征图向所述当前特征图对齐,得到对齐特征图;将所述对齐特征图和所述当前特征图进行时域融合,得到所述增强特征图。
在其中一个实施例中,处理器执行计算机程序时所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤,包括:将所述当前帧图像和所述历史帧图像输入预设神经光流网络,得到所述当前帧图像和所述历史帧图像之间的光流场,还得到尺度场;其中,所述尺度场与所述特征图维度相同。
在其中一个实施例中,处理器执行计算机程序时所述根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图的步骤,包括:根据所述光流场将所述历史特征图向所述当前特征图对齐,得到对齐特征图;将所述对齐特征图和所述尺度场相乘得到细化特征图;将所述细化特征图和所述当前特征图进行时域融合,得到所述增强特征图。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如下步骤:提取待检测视频中的多帧待检测图像;获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点。
在其中一个实施例中,计算机可读指令被处理器执行时所述待检测图像包括当前帧图像和至少一个历史帧图像;所述提取待检测视频中的多帧待检测图像的步骤,包括:提取所述待检测视频中的当前帧图像;提取所述待检测视频中至少一个历史帧图像,所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻。
在其中一个实施例中,计算机可读指令被处理器执行时所述获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图的步骤,包括:获取所述当前帧图像和所述历史帧图像之间的光流场;获取所述当前帧图像的当前特征图,以及获取所述历史帧图像的历史特征图。
在其中一个实施例中,计算机可读指令被处理器执行时所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤,包括:将所述当前帧图像和所述历史帧图像输入预设神经光流网络,得到所述当前帧图像和所述历史帧图像之间的光流场。
在其中一个实施例中,计算机可读指令被处理器执行时所述根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图的步骤,包括:根据所述光流场将所述历史特征图向所述当前特征图对齐,得到对齐特征图;将所述对齐特征图和所述当前特征图进行时域融合,得到所述增强特征图。
在其中一个实施例中,计算机可读指令被处理器执行时所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤,包括:将所述当前帧图像和所述历史帧图像输入预设神经光流网络,得到所述当前帧图像和所述历史帧图像之间的光流场,还得到尺度场;其中,所述尺度场与所述特征图维度相同。
在其中一个实施例中,计算机可读指令被处理器执行时所述根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图的步骤,包括:根据所述光流场将所述历史特征图向所述当前特征图对齐,得到对齐特征图;将所述对齐特征图和所述尺度场相乘得到细化特征图;将所述细化特征图和所述当前特征图进行时域融合,得到所述增强特征图。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种视频人体关键点检测方法,其特征在于,所述方法包括:
提取待检测视频中的多帧待检测图像;
获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;
根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;
将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点;
所述待检测图像包括当前帧图像和至少一个历史帧图像;所述提取待检测视频中的多帧待检测图像的步骤,包括:
提取所述待检测视频中的当前帧图像;
提取所述待检测视频中至少一个历史帧图像,所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻;
所述获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图的步骤,包括:
获取所述当前帧图像和所述历史帧图像之间的光流场;
获取所述当前帧图像的当前特征图,以及获取所述历史帧图像的历史特征图;
所述获取所述当前帧图像和所述历史帧图像之间的光流场的步骤,包括:
将所述当前帧图像和所述历史帧图像输入预设神经光流网络,得到所述当前帧图像和所述历史帧图像之间的光流场,还得到尺度场;其中,所述尺度场与所述特征图维度相同;
所述根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图的步骤,包括:
根据所述光流场将所述历史特征图向所述当前特征图对齐,得到对齐特征图;
将所述对齐特征图和所述尺度场相乘得到细化特征图;
将所述细化特征图和所述当前特征图进行时域融合,得到所述增强特征图。
2.一种视频人体关键点检测装置,其特征在于,所述装置包括:
图像提取模块,用于提取待检测视频中的多帧待检测图像;
光流特征提取模块,用于获取多帧所述待检测图像之间的光流场,以及获取各所述待检测图像的特征图;
图像增强模块,用于根据所述光流场将所述特征图融合,得到所述待检测图像的增强特征图;
关键点检测模块,用于将所述增强特征图输入预设神经网络,得到所述待检测图像中的人体关键点;
所述待检测图像包括当前帧图像和至少一个历史帧图像;所述图像提取模块执行的操作,包括:
提取所述待检测视频中的当前帧图像;
提取所述待检测视频中至少一个历史帧图像,所述历史帧图像的取帧时刻位于所述当前帧图像之前且与所述当前帧图像相邻;
所述光流特征提取模块执行的操作,包括:
获取所述当前帧图像和所述历史帧图像之间的光流场;
获取所述当前帧图像的当前特征图,以及获取所述历史帧图像的历史特征图;
所述光流特征提取模块通过以下方式获取所述当前帧图像和所述历史帧图像之间的光流场:
将所述当前帧图像和所述历史帧图像输入预设神经光流网络,得到所述当前帧图像和所述历史帧图像之间的光流场,还得到尺度场;其中,所述尺度场与所述特征图维度相同;
所述图像增强模块执行的操作,包括:
根据所述光流场将所述历史特征图向所述当前特征图对齐,得到对齐特征图;
将所述对齐特征图和所述尺度场相乘得到细化特征图;
将所述细化特征图和所述当前特征图进行时域融合,得到所述增强特征图。
3.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1所述方法的步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1所述的方法的步骤。
CN201910276687.4A 2019-04-08 2019-04-08 视频人体关键点检测方法、装置、计算机设备和存储介质 Active CN109977912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910276687.4A CN109977912B (zh) 2019-04-08 2019-04-08 视频人体关键点检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910276687.4A CN109977912B (zh) 2019-04-08 2019-04-08 视频人体关键点检测方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109977912A CN109977912A (zh) 2019-07-05
CN109977912B true CN109977912B (zh) 2021-04-16

Family

ID=67083370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910276687.4A Active CN109977912B (zh) 2019-04-08 2019-04-08 视频人体关键点检测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109977912B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199978A (zh) * 2019-07-08 2021-01-08 北京地平线机器人技术研发有限公司 视频物体检测方法和装置、存储介质和电子设备
CN110853074B (zh) * 2019-10-09 2023-06-27 天津大学 一种利用光流增强目标的视频目标检测网络***
CN111160237A (zh) * 2019-12-27 2020-05-15 智车优行科技(北京)有限公司 头部姿态估计方法和装置、电子设备和存储介质
CN111914756A (zh) * 2020-08-03 2020-11-10 北京环境特性研究所 一种视频数据处理方法和装置
CN112053327B (zh) * 2020-08-18 2022-08-23 南京理工大学 视频目标物检测方法、***及存储介质和服务器
CN113901909B (zh) * 2021-09-30 2023-10-27 北京百度网讯科技有限公司 基于视频的目标检测方法、装置、电子设备和存储介质
CN115909508B (zh) * 2023-01-06 2023-06-02 浙江大学计算机创新技术研究院 一种单人体育运动场景下的图像关键点增强检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529419A (zh) * 2016-10-20 2017-03-22 北京航空航天大学 视频显著性堆栈式聚合的对象自动检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8116624B1 (en) * 2007-01-29 2012-02-14 Cirrex Systems Llc Method and system for evaluating an optical device
CN108229336B (zh) * 2017-12-13 2021-06-04 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质
CN108242062B (zh) * 2017-12-27 2023-06-30 北京纵目安驰智能科技有限公司 基于深度特征流的目标跟踪方法、***、终端及介质
CN108776974B (zh) * 2018-05-24 2019-05-10 南京行者易智能交通科技有限公司 一种适用于公共交通场景的实时目标跟踪方法
CN109117701B (zh) * 2018-06-05 2022-01-28 东南大学 基于图卷积的行人意图识别方法
CN109508643A (zh) * 2018-10-19 2019-03-22 北京陌上花科技有限公司 用于***的图像数据处理方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529419A (zh) * 2016-10-20 2017-03-22 北京航空航天大学 视频显著性堆栈式聚合的对象自动检测方法

Also Published As

Publication number Publication date
CN109977912A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977912B (zh) 视频人体关键点检测方法、装置、计算机设备和存储介质
CN108960211B (zh) 一种多目标人体姿态检测方法以及***
CN107358623B (zh) 一种基于显著性检测和鲁棒性尺度估计的相关滤波跟踪方法
US11145080B2 (en) Method and apparatus for three-dimensional object pose estimation, device and storage medium
CN110765860A (zh) 摔倒判定方法、装置、计算机设备及存储介质
CN108986152B (zh) 一种基于差分图像的异物检测方法及装置
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
Jellal et al. LS-ELAS: Line segment based efficient large scale stereo matching
WO2020233427A1 (zh) 目标的特征的确定方法和装置
CN111914756A (zh) 一种视频数据处理方法和装置
JP6756406B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP6597914B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN110210480B (zh) 文字识别方法、装置、电子设备和计算机可读存储介质
CN112561879B (zh) 模糊度评价模型训练方法、图像模糊度评价方法及装置
Iqbal et al. Real-time target detection and tracking: A comparative in-depth review of strategies
CN113449586A (zh) 目标检测方法、装置、计算机设备和存储介质
CN112381107A (zh) 基于深度学习的物品x光检测方法、装置和计算机设备
Zheng et al. Hand segmentation based on improved gaussian mixture model
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN110956131B (zh) 单目标追踪方法、装置及***
CN110021036B (zh) 红外目标检测方法、装置、计算机设备和存储介质
Yang et al. Fast and accurate visual odometry from a monocular camera
CN113724237A (zh) 齿痕识别方法、装置、计算机设备及存储介质
Pawar et al. Miniscule object detection in aerial images using YOLOR: a review
CN108986135B (zh) 一种基于llc与频域残差显著度的目标跟踪方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant