CN111199207A - 基于深度残差神经网络的二维多人体姿态估计方法 - Google Patents

基于深度残差神经网络的二维多人体姿态估计方法 Download PDF

Info

Publication number
CN111199207A
CN111199207A CN201911404612.6A CN201911404612A CN111199207A CN 111199207 A CN111199207 A CN 111199207A CN 201911404612 A CN201911404612 A CN 201911404612A CN 111199207 A CN111199207 A CN 111199207A
Authority
CN
China
Prior art keywords
picture
field
network
joint
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911404612.6A
Other languages
English (en)
Other versions
CN111199207B (zh
Inventor
毛宜军
曾志超
梁早清
古万荣
徐振林
朱凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN201911404612.6A priority Critical patent/CN111199207B/zh
Publication of CN111199207A publication Critical patent/CN111199207A/zh
Application granted granted Critical
Publication of CN111199207B publication Critical patent/CN111199207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度残差神经网络的二维多人体姿态估计方法,包括步骤:1)获取基础人体姿态估计训练数据集2)将获取的图片送入预训练的深度残差神经网络,生成对应的特征向量;3)将特征向量通过两个方向的多次卷积操作生成两个分支的特征映射,生成关节点置信场和部位亲和场;4)计算真实图片的关节点置信场和部位亲和力场,组合成为真实图片的特征映射,将步骤3)中的特征映射与真实图片的特征映射之间均方误差,做网络的训练;重复步骤1)‑步骤3),生成训练后图片的关节点置信场和部位亲和力场;5)使用步骤4)中生成的关节点置信场和部位亲和场进行关节点的计算和关节点连接。本发明可以很好地应付复杂的姿态变换并且推广到多人姿态估计。

Description

基于深度残差神经网络的二维多人体姿态估计方法
技术领域
本发明涉及计算机视觉的技术领域,尤其是指一种基于深度残差神经网络 的二维多人体姿态估计方法。
背景技术
人体姿态估计长久以来一直是计算机视觉领域的一个热点问题。其主要内 容,是让计算机从图像或视频中定位出人物的关键点(也称为关节点,如肘、 手腕等)。人体姿识别计按维度可分为二维和三维两种:二维人体姿态识别通常 使用线段或者矩形来描述人体各关节在图像上的投影位置,线段的长度和角度 表示了人体的二维姿态;三维人体姿态估计通常使用树模型来描述估计的姿态, 各关节点的位置使用三维坐标确定。在实际应用中,目前获取的大多数图像仍 是二维图像,同时三维姿态估计可以使用二维预测进行推理,所以二维姿态估 计有着重要的研究价值。
自人体姿态估计的概念提出以来,国内外的学者对此做出了不懈的努力。 传统的姿态估计算法主要是基于图结构(Pictorial Structures)模型。该模型将人 或物体表示为多个部件的集合,这些部件之间含有空间约束,通过人工指定的 特征检测组件实现关节点检测。传统方法过于依赖手工设计的模板,难以应付 复杂的姿态变换并且推广到多人姿态估计。随着深度学习技术在计算机视觉领 域大放异彩,部分学者开始研究如何利用深度学习来解决人体姿态估计问题。 本文所做的研究,目的就是通过深度学习的方式来实现人体姿态识别。
人体姿态识别作为理解图像或视频中人物动作的基础,一直受到众多学者 的关注。随着计算机技术的迅猛发展,人体姿态估计已经在动作识别、人机交 互、智能安防、增强现实等领域获得了广泛应用。随着人体姿态识别的广泛普 及,对这类问题的算法研究,是意义重大的。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于深度残差 神经网络的二维多人体姿态估计方法,不再依赖手工设计的模板,可以很好地 应付复杂的姿态变换并且推广到多人姿态估计。
为实现上述目的,本发明所提供的技术方案为:基于深度残差神经网络的 二维多人体姿态估计方法,包括以下步骤:
1)获取基础人体姿态估计训练数据集,数据集包括多张图片,每张图片包 含多个人体和标注好的每个人体各关键点的位置;
2)将步骤1)中获取的图片处理成网络输入所需的形式,然后送入预训练 的深度残差神经网络中进行前向传播,生成对应的特征向量作为图片的特征;
3)将步骤2)中生成的特征向量通过两个方向的多次卷积操作生成两个分 支的特征映射,特征映射对应到两个分支的预测,一个称为部位亲和力场,用 于预测各关节点位置,另一个称为关节点置信场,用于预测关节点直接的连接;
4)计算真实图片的关节点置信场和部位亲和力场,组合成为真实图片的特 征映射,将步骤3)中输出的特征映射与真实图片的特征映射之间均方误差,并 将误差反向传播,更新每个权值,做网络的训练,最终保存训练结果的网络参 数;重复步骤1)-步骤3),生成训练后图片的关节点置信场和部位亲和力场;
5)使用步骤4)中生成的关节点置信场进行关节点的计算,并将相邻关节 点连接,使用部位亲和力场进行计算,排除相邻关节点的错误连接,保证同一 个人体相邻的关节点能进行正确的连接、非同人体的关节点不进行连接,最终 得到图片中人体的所有关节点以及正确的关节点连接,即得到完整的二维多人 体姿态结果。
在步骤1)中,获取开源数据集做网络的训练,这个数据集叫MPII,包含 多张图像,每张图片包含多个人体以及每个人体对应的各个关节点的位置,将 获取的数据存入数据库中,用于后续网络的训练。
在步骤2)中,修改所有图片尺寸为224*224以适应网络的输入,图片尺寸 224*224为深度残差神经网络的图片输入尺寸要求,构建预训练的深度残差神经 网络,将图片以及对应的标签输入到网络中,经过网络的前向运算,输出表示 图片特征的特征向量F。
在步骤3)中,将步骤2)中生成的特征映射F输入到一组自定义的由上下 两个分支的卷积神经网络构成的结构网络中,一个结构网络的前向运算称之为 一个阶段,该阶段随后会连续计算6次,次数为超参数,能够随意修改;通过 网络的第一次前向运算,上下两个分支分别产成一组关节点置信场ρ1(F)和一组 部位亲和力场
Figure BDA0002348302330000031
其中ρ1
Figure BDA0002348302330000032
表示第一阶段的两部分卷积神经网络;在随后 的每个阶段中,将前一阶段中来自两个分支的预测与原始图像特征连接起来, 并用于生成精确的预测:
Figure BDA0002348302330000033
Figure BDA0002348302330000034
其中,t表示6次前向运算中第t个阶段,ρt
Figure BDA0002348302330000035
表示第t阶段的两部分卷 积神经网络,F表示图片经过预训练的深度残差神经网络的特征向量,St和Lt表 示t阶段网络输出的特征映射,最终,经过多个卷积操作,模型输出了关节点置 信场的特征映射St和部位亲和力场的特征映射Lt,用于人体的关节点预测和关节 点连接。
在步骤4)中,生成一组与步骤3)中关节点置信场的特征映射St维度一致 的向量S*,并将S*中对应是关节点的位置置位1,非关节点位置置为0,表示真 实图片中的关节点置信场;生成一组与步骤3)中部位亲和力场的特征映射Lt维 度一致的向量L*,用于表示真实图片中的部位亲和场;对于属于特定肢体的区域 中的每个像素,2d向量对从肢体的一部分指向另一部分的方向进行编码,每种 肢体都有一个对应的亲和场,连接其两个相关的身体部位,设k为图片多人中 的第k个人,c表示肢体,xj1,k和xj2,k是人体k中肢体c的两个真实的关节点j1 和j2,
Figure BDA0002348302330000041
是一个二维向量,用于表示图片中第k个人肢体c的正确连接,即部 位亲和力场,
Figure BDA0002348302330000042
表示点p在这个二维向量的值,如果一个点p落在了肢体c 上面,向量
Figure BDA0002348302330000043
的值就是一个由j1指向j2的单位向量,而其他位置的点p的 值则为0向量;在网络训练阶段,定义真实图片中人体的部位亲和力场向量为
Figure BDA0002348302330000044
在整张图片中,所有的点p的值计算如下公式:
Figure BDA0002348302330000045
其中,limbc,k表示人体k的c肢体,v=(xj2,k-xj1,k)/||xj2,k-xj1,k||2为肢体c方向 上的单位向量;在肢体上的点的集合被定义为在某个阈值内的线段,即这些点p 所在的位置满足:0≤v·(p-xj1,k)≤lc,k和|v·(p-xj1,k)|≤σl,其中,肢体的宽度σl为像 素水平的距离,肢体的长度lc,k=||xj2,k-xj1,k||2,F表示垂直于单位向量v的向量; 在真实图片中,一个肢体的部位亲和力场的特征向量为:
Figure BDA0002348302330000046
其中,n(p)表示所有重叠在k个人的c肢体的非零向量点p,即计算不同人 的肢体重叠部分的平均值,得到所有的
Figure BDA0002348302330000047
后,将所有17个
Figure BDA0002348302330000048
合并,便得到了L*; 将St和Lt合并,得到真实图片的特征映射;最后,将步骤3)中输出的特征映射 与真实图片的特征映射之间均方误差,并将误差反向传播,更新每个权值,做 网络的训练,最终保存训练结果的网络参数;重复步骤1)-步骤3),生成训练 后图片的关节点置信场的特征向量St和部位亲和力场的特征向量Lt
在步骤5)中,使用步骤4)中生成的关节点置信场的特征向量St,取St中 的取值大于某个阈值λ的点作为网络预测的关节点,λ的大小根据网络预测情况 进行选取;使用步骤4)生成的部位亲和力场的特征向量Lt计算相应部位亲和力 场上的线积分,沿连接候选关节点位置的线段测量候选关节点检测之间的关联, 即测量预测的部位亲和力场与通过连接检测到的真实图片身体部位形成的候选 肢体的对准;具体地说,对于两个候选关节点dj2和dj1,沿着线段采样Lc以测量 它们关联中的置信度:
Figure BDA0002348302330000051
其中,Lc表示人体中所有c肢体的预测部位亲和力场二维向量,p(u)为两个 关节点dj2和dj1位置的插值,p(u)=(1-u)dj1+udj2;最终,计算出E值表示dj2和dj1两个关节点连接的可信度,E值大于零,该连接可能为正确连接,若dj2和dj1为 错误的连接,则E的值为小于零的值;通过计算所有两两关节点的E值,选E大 于0的连接为正确连接,最终得到完整的二维多人体姿态结果;
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明在多人体姿态识别中的人体重叠、交叉等问题上比传统的自顶向 下的模型有很好的效果。
2、本发明在人体数较多且人体较小的图片中有更好的性能。
3、本发明使用的深度残差神经网络能解决传统神经网络由于网络层数过深 而导致无法有效训练的问题。
4、本发明在模型结构设计上非常轻巧,避免了传统使用目标检测算法先进 行人***置检测的步骤。
附图说明
图1为本发明的总体流程图。
图2为本发明中人体关节点以及连接的预测的网络结构图。
图3为本发明人体关节点连接的示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本发明所提供的基于深度残差神经网络的二维多人体姿态估 计方法,包括以下步骤:
1)获取基础人体姿态估计训练数据集,包括多张图片,每张图片包含多个 人体和标注好的每个人体各关键点的位置。
获取开源数据集MPII做网络的训练,MPII数据集是用于评估关节式人体 姿势估计的最新基准。该数据集包含约25K图像,其中包含超过4万名带注释 的人体关节的人。使用建立的日常人类活动分类法***地收集图像。总体而言, 数据集涵盖410种人类活动,并且每个图像都带有活动标签。每个图像都是从 YouTube视频中提取的,并带有前后未注释的帧。此外,对于数据集,其中包含 了更丰富的注释,包括身体部位遮挡以及3D躯干和头部方向。
2)将步骤1)中获取的图片处理成网络输入所需的形式,然后送入预训练 的深度残差神经网络中进行前向传播,生成对应的特征向量作为图片的特征。
残差网络是由来自Microsoft Research的多位学者提出的卷积神经网络,在2015年的ImageNet大规模视觉识别竞赛(ImageNet Large Scale Visual RecognitionChallenge,ILSVRC)中获得了图像分类和物体识别的优胜。残差网 络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的 残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问 题。因此,我们有理由相信,使用残差神经网络,可以对原始图片的特征作一 个很好的表达,其网络结果如图2所示。
3)将步骤2)中生成的特征向量通过两个方向的多次卷积操作生成两个分 支的特征映射,特征映射对应到两个分支的预测,一个称为部位亲和力场,用 于预测各关节点位置,另一个称为关节点置信场,用于预测关节点直接的连接, 具体如下:
将特征映射F输入到一组自定义的由上下两个分支的卷积神经网络构成的 结构网络中,一个结构网络的前向运算称之为一个阶段,该阶段随后会连续计 算6次。如图2所示,loss表示在该处使用损失函数进行反向传播。在第一阶段, 该网络上下两个分支分别产生一组检测置信映射PIF=ρ1(F)和一组部分亲和力 场
Figure BDA0002348302330000071
其中ρ1
Figure BDA0002348302330000072
表示第一阶段的两部分卷积神经网络。在随后的每个 阶段中,将前一阶段中来自两个分支的预测与原始图像特征连接起来,并用于 生成精确的预测。
Figure BDA0002348302330000073
Figure BDA0002348302330000074
其中,ρt
Figure BDA0002348302330000075
表示第t阶段的两部分卷积神经网络。最终,经过多个卷积操 作,模型输出了St和Lt两个特征映射,用于人体的关节点预测和关节点连接。
4)计算真实图片的关节点置信场和部位亲和力场,组合成为真实图片的特 征映射,将步骤3)中输出的特征映射与真实图片的特征映射之间均方误差,并 将误差反向传播,更新每个权值,做网络的训练,最终保存训练结果的网络参 数;重复步骤1)-步骤3),生成训练后图片的关节点置信场和部位亲和力场, 具体如下:
我们将使用步骤3)中网络输出的部位亲和力场来进行人体各个关节点的连 接。部位亲和力是每个肢体的2d向量场,对于属于特定肢体的区域中的每个像 素,2d向量对从肢体的一部分指向另一部分的方向进行编码。每种肢体都有一 个对应的亲和场,连接其两个相关的身体部位。考虑下单个肢体,设xj1,k和xj2,k是 人体k中肢体c的两个真实的关节点j1和j2,如果一个点p在肢体落在了肢体 c上面,向量
Figure BDA0002348302330000081
的值就是一个由j1指向j2的单位向量,而其他位置的点p 的值则为0向量。在网络训练阶段,我们定义真实图片中人体的部位亲和力场 向量为
Figure BDA0002348302330000082
在整张图片中,所有的点p的值计算如下公式:
Figure BDA0002348302330000083
其中v=(xj2,k-xj1,k)/||xj2,k-xj1,k||2,为肢体c方向上的单位向量。在肢体上的点的集合被定义为在某个阈值内的线段,即这些点p所在的位置满足:
0≤v·(p-xj1,k)≤lc,k和|v·(p-xj2,k)<σ1|,其中,肢体的宽度σ1为像素水平的距 离,肢体的长度lc,k=||xj2,k-xj1,k||,v表示垂直于单位向量v的向量。在真实图片中,一个肢体的部位亲和力场的特征向量为:
Figure BDA0002348302330000085
其中,nc(p)表示所有重叠在k个人的c肢体的非零向量点p。即计算不同人 的肢体重叠部分的平均值。
我们通过计算相应PAF上的线积分,沿连接候选部件位置的线段测量候选 部件检测之间的关联。换句话说,我们测量预测的PAF与通过连接检测到的身 体部位形成的候选肢体的对准。具体地说,对于两个候选部件位置dj2和dj1,我 们沿着线段采样预测部件亲和场以测量它们关联中的置信度:
Figure BDA0002348302330000091
其中,p(u)为两个关节点dj2和dj1位置的插值,p(u)=(1-u)dj1+udj2。在实践 中,我们通过采样和求和u的均匀间隔的值来近似积分。最终,计算出E值最大 的连接,则为网络最终输出的关节点连接。
5)使用步骤4)中生成的关节点置信场进行关节点的计算,并将相邻关节 点连接,使用部位亲和力场作计算,排除相邻关节点的错误连接,保证同一个 人体相邻的关节点能进行正确的连接、非同人体的关节点不进行连接,最终输 出图片中人体的所有关节点以及正确的关节点连接,即得到完整的二维多人体 姿态结果,如图3所示,具体如下:
使用步骤4)中生成的关节点置信场的特征向量St,取St中的取值大于某个 阈值λ的点作为网络预测的关节点,λ的大小根据网络预测情况进行选取;使用 步骤4)生成的部位亲和力场的特征向量Lt计算相应部位亲和力场上的线积分, 沿连接候选关节点位置的线段测量候选关节点检测之间的关联,即测量预测的 部位亲和力场与通过连接检测到的真实图片身体部位形成的候选肢体的对准; 具体地说,对于两个候选关节点dj2和dj1,沿着线段采样Lc以测量它们关联中的 置信度:
Figure BDA0002348302330000092
其中,Lc表示人体中所有c肢体的预测部位亲和力场二维向量,p(u)为两个 关节点dj2和dj1位置的插值,p(u)=(1-u)dj1+udj2;最终,计算出E值表示dj2和dj1两个关节点连接的可信度,E值大于零,该连接可能为正确连接,若dj2和dj1为 错误的连接,则E的值为小于零的值;通过计算所有两两关节点的E值,选E大 于0的连接为正确连接,最终得到完整的二维多人体姿态结果。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范 围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.基于深度残差神经网络的二维多人体姿态估计方法,其特征在于,包括以下步骤:
1)获取基础人体姿态估计训练数据集,包括多张图片,每张图片包含多个人体和标注好的每个人体各关键点的位置;
2)将步骤1)中获取的图片处理成网络输入所需的形式,然后送入预训练的深度残差神经网络中进行前向传播,生成对应的特征向量作为图片的特征;
3)将步骤2)中生成的特征向量通过两个方向的多次卷积操作生成两个分支的特征映射,特征映射对应到两个分支的预测,一个称为部位亲和力场,用于预测各关节点位置,另一个称为关节点置信场,用于预测关节点直接的连接;
4)计算真实图片的关节点置信场和部位亲和力场,组合成为真实图片的特征映射,将步骤3)中输出的特征映射与真实图片的特征映射之间均方误差,并将误差反向传播,更新每个权值,做网络的训练,最终保存训练结果的网络参数;重复步骤1)-步骤3),生成训练后图片的关节点置信场和部位亲和力场;
5)使用步骤4)中生成的关节点置信场进行关节点的计算,并将相邻关节点连接,使用部位亲和力场进行计算,排除相邻关节点的错误连接,保证同一个人体相邻的关节点能进行正确的连接、非同人体的关节点不进行连接,最终得到图片中人体的所有关节点以及正确的关节点连接,即得到完整的二维多人体姿态结果。
2.根据权利要求1所述的基于深度残差神经网络的二维多人体姿态估计方法,其特征在于:在步骤1)中,获取开源数据集做网络的训练,这个数据集叫MPII,包含多张图像,每张图片包含多个人体以及每个人体对应的各个关节点的位置,将获取的数据存入数据库中,用于后续网络的训练。
3.根据权利要求1所述的基于深度残差神经网络的二维多人体姿态估计方法,其特征在于:在步骤2)中,修改所有图片尺寸为224*224以适应网络的输入,图片尺寸224*224为深度残差神经网络的图片输入尺寸要求,构建预训练的深度残差神经网络,将图片以及对应的标签输入到网络中,经过网络的前向运算,输出表示图片特征的特征向量F。
4.根据权利要求1所述的基于深度残差神经网络的二维多人体姿态估计方法,其特征在于:在步骤3)中,将步骤2)中生成的特征映射F输入到一组自定义的由上下两个分支的卷积神经网络构成的结构网络中,一个结构网络的前向运算称之为一个阶段,该阶段随后会连续计算6次,次数为超参数,能够随意修改;通过网络的第一次前向运算,上下两个分支分别产成一组关节点置信场ρ1(F)和一组部位亲和力场
Figure FDA0002348302320000024
其中ρ1
Figure FDA0002348302320000025
表示第一阶段的两部分卷积神经网络;在随后的每个阶段中,将前一阶段中来自两个分支的预测与原始图像特征连接起来,并用于生成精确的预测:
Figure FDA0002348302320000021
Figure FDA0002348302320000022
其中,t表示6次前向运算中第t个阶段,ρt
Figure FDA0002348302320000023
表示第t阶段的两部分卷积神经网络,F表示图片经过预训练的深度残差神经网络的特征向量,St和Lt表示t阶段网络输出的特征映射,最终,经过多个卷积操作,模型输出了关节点置信场的特征映射St和部位亲和力场的特征映射Lt,用于人体的关节点预测和关节点连接。
5.根据权利要求1所述的基于深度残差神经网络的二维多人体姿态估计方法,其特征在于:在步骤4)中,生成一组与步骤3)中关节点置信场的特征映射St维度一致的向量S*,并将S*中对应是关节点的位置置位1,非关节点位置置为0,表示真实图片中的关节点置信场;生成一组与步骤3)中部位亲和力场的特征映射Lt维度一致的向量L*,用于表示真实图片中的部位亲和场;对于属于特定肢体的区域中的每个像素,2d向量对从肢体的一部分指向另一部分的方向进行编码,每种肢体都有一个对应的亲和场,连接其两个相关的身体部位,设k为图片多人中的第k个人,c表示肢体,xj1,k和xj2,k是人体k中肢体c的两个真实的关节点j1和j2,
Figure FDA0002348302320000031
是一个二维向量,用于表示图片中第k个人肢体c的正确连接,即部位亲和力场,
Figure FDA0002348302320000032
表示点p在这个二维向量的值,如果一个点p落在了肢体c上面,向量
Figure FDA0002348302320000033
的值就是一个由j1指向j2的单位向量,而其他位置的点p的值则为0向量;在网络训练阶段,定义真实图片中人体的部位亲和力场向量为
Figure FDA0002348302320000034
在整张图片中,所有的点p的值计算如下公式:
Figure FDA0002348302320000035
其中,limbc,k表示人体k的c肢体,v=(xj2,k-xj1,k)/||xj2,k-xj1,k||2为肢体c方向上的单位向量;在肢体上的点的集合被定义为在某个阈值内的线段,即这些点p所在的位置满足:0≤v·(p-xj1,k)≤lc,k和|v·(p-xj1,k)|≤σl,其中,肢体的宽度σl为像素水平的距离,肢体的长度lc,k=||xj2,k-xj1,k||2,F表示垂直于单位向量v的向量;在真实图片中,一个肢体的部位亲和力场的特征向量为:
Figure FDA0002348302320000036
其中,n(p)表示所有重叠在k个人的c肢体的非零向量点p,即计算不同人的肢体重叠部分的平均值,得到所有的
Figure FDA0002348302320000037
后,将所有17个
Figure FDA0002348302320000038
合并,便得到了L*;将St和Lt合并,得到真实图片的特征映射;最后,将步骤3)中输出的特征映射与真实图片的特征映射之间均方误差,并将误差反向传播,更新每个权值,做网络的训练,最终保存训练结果的网络参数;重复步骤1)-步骤3),生成训练后图片的关节点置信场的特征向量St和部位亲和力场的特征向量Lt
6.根据权利要求1所述的基于深度残差神经网络的二维多人体姿态估计方法,其特征在于:在步骤5)中,使用步骤4)中生成的关节点置信场的特征向量St,取St中的取值大于某个阈值λ的点作为网络预测的关节点,λ的大小根据网络预测情况进行选取;使用步骤4)生成的部位亲和力场的特征向量Lt计算相应部位亲和力场上的线积分,沿连接候选关节点位置的线段测量候选关节点检测之间的关联,即测量预测的部位亲和力场与通过连接检测到的真实图片身体部位形成的候选肢体的对准;具体地说,对于两个候选关节点dj2和dj1,沿着线段采样Lc以测量它们关联中的置信度:
Figure FDA0002348302320000041
其中,Lc表示人体中所有c肢体的预测部位亲和力场二维向量,p(u)为两个关节点dj2和dj1位置的插值,p(u)=(1-u)dj1+udj2;最终,计算出E值表示dj2和dj1两个关节点连接的可信度,E值大于零,该连接可能为正确连接,若dj2和dj1为错误的连接,则E的值为小于零的值;通过计算所有两两关节点的E值,选E大于0的连接为正确连接,最终得到完整的二维多人体姿态结果。
CN201911404612.6A 2019-12-31 2019-12-31 基于深度残差神经网络的二维多人体姿态估计方法 Active CN111199207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911404612.6A CN111199207B (zh) 2019-12-31 2019-12-31 基于深度残差神经网络的二维多人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911404612.6A CN111199207B (zh) 2019-12-31 2019-12-31 基于深度残差神经网络的二维多人体姿态估计方法

Publications (2)

Publication Number Publication Date
CN111199207A true CN111199207A (zh) 2020-05-26
CN111199207B CN111199207B (zh) 2023-06-20

Family

ID=70746397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911404612.6A Active CN111199207B (zh) 2019-12-31 2019-12-31 基于深度残差神经网络的二维多人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN111199207B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001217A (zh) * 2020-06-18 2020-11-27 天津博诺智创机器人技术有限公司 基于深度学习的多人人体姿态估计算法
CN112101326A (zh) * 2020-11-18 2020-12-18 北京健康有益科技有限公司 一种多人姿态识别方法和装置
CN112418120A (zh) * 2020-11-27 2021-02-26 湖南师范大学 基于峰值置信图的人群检测方法
WO2022040994A1 (zh) * 2020-08-26 2022-03-03 深圳市大疆创新科技有限公司 手势识别方法及装置
CN111832421B (zh) * 2020-06-18 2023-09-01 西北大学 一种基于生理特征纠错的下肢关节点提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448090A (zh) * 2018-11-01 2019-03-08 北京旷视科技有限公司 图像处理方法、装置、电子设备及存储介质
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448090A (zh) * 2018-11-01 2019-03-08 北京旷视科技有限公司 图像处理方法、装置、电子设备及存储介质
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHICHAO ZENG 等: "Articulated-Motion-Aware Sparse Localized Decomposition" *
曾志超 等: "三维人体模型姿态与形状重构" *
曾志超: "基于视频的三维人体模型姿态与形状重构" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001217A (zh) * 2020-06-18 2020-11-27 天津博诺智创机器人技术有限公司 基于深度学习的多人人体姿态估计算法
CN111832421B (zh) * 2020-06-18 2023-09-01 西北大学 一种基于生理特征纠错的下肢关节点提取方法
WO2022040994A1 (zh) * 2020-08-26 2022-03-03 深圳市大疆创新科技有限公司 手势识别方法及装置
CN112101326A (zh) * 2020-11-18 2020-12-18 北京健康有益科技有限公司 一种多人姿态识别方法和装置
CN112418120A (zh) * 2020-11-27 2021-02-26 湖南师范大学 基于峰值置信图的人群检测方法
CN112418120B (zh) * 2020-11-27 2021-09-28 湖南师范大学 基于峰值置信图的人群检测方法

Also Published As

Publication number Publication date
CN111199207B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN111126272B (zh) 姿态获取方法、关键点坐标定位模型的训练方法和装置
CN111199207A (zh) 基于深度残差神经网络的二维多人体姿态估计方法
WO2017133009A1 (zh) 一种基于卷积神经网络的深度图像人体关节定位方法
CN105069413B (zh) 一种基于深度卷积神经网络的人体姿势识别方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
Tian et al. Gesture recognition based on multilevel multimodal feature fusion
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和***
CN112767554B (zh) 一种点云补全方法、装置、设备及存储介质
CN110473284B (zh) 一种基于深度学习的运动物体三维模型重建方法
Shao et al. Learning representations from skeletal self-similarities for cross-view action recognition
CN111709268B (zh) 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置
CN112258555A (zh) 实时姿态估计运动分析方法、***、计算机设备及存储介质
CN117671738B (zh) 基于人工智能的人体姿态识别***
CN114641799A (zh) 对象检测设备、方法和***
CN114036969A (zh) 一种多视角情况下的3d人体动作识别算法
CN111652047A (zh) 基于彩色图和深度图的人体姿势识别方法及存储介质
CN113989928A (zh) 一种动作捕捉和重定向方法
Wu et al. An unsupervised real-time framework of human pose tracking from range image sequences
Xue et al. Oriented localization of surgical tools by location encoding
Woo et al. A survey of deep learning methods and datasets for hand pose estimation from hand-object interaction images
Wan et al. 3D human action recognition with skeleton orientation vectors and stacked residual Bi-LSTM
CN111582058B (zh) 一种使用对抗式3d分层网络进行手部姿态估计的方法
Liu et al. Trajectory grouping with curvature regularization for tubular structure tracking
Song et al. Spatial-aware dynamic lightweight self-supervised monocular depth estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant