CN113221824B - 基于个体模型生成的人体姿态识别方法 - Google Patents

基于个体模型生成的人体姿态识别方法 Download PDF

Info

Publication number
CN113221824B
CN113221824B CN202110599861.6A CN202110599861A CN113221824B CN 113221824 B CN113221824 B CN 113221824B CN 202110599861 A CN202110599861 A CN 202110599861A CN 113221824 B CN113221824 B CN 113221824B
Authority
CN
China
Prior art keywords
human body
body region
visual
human
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110599861.6A
Other languages
English (en)
Other versions
CN113221824A (zh
Inventor
王轩瀚
周宜暄
宋井宽
高联丽
程乐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110599861.6A priority Critical patent/CN113221824B/zh
Publication of CN113221824A publication Critical patent/CN113221824A/zh
Application granted granted Critical
Publication of CN113221824B publication Critical patent/CN113221824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于个体模型生成的人体姿态识别方法,首先从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;再采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图;然后采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图;最后根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。本发明针对图像中出现的人体动态地生成对应的估计参数,能够更好地解决现实场景中人体姿态丰富和人体间差异大的问题。

Description

基于个体模型生成的人体姿态识别方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于个体模型生成的人体姿态识别方法的设计。
背景技术
人体姿态估计是计算机视觉中一个基础而又富有挑战性的问题,其目的是从单张RGB图像中,精确地识别出多个人体的位置以及骨架上的稀疏的关键点位置。随着深度卷积神经网络(CNNs)的应用和MSCOCO等大规模数据集的发布,人体姿态估计方法已经取得了较大的发展,它们大致可以分为bottom-up(即自底向上)和top-down(即自顶向下)的方法。对于top-down的方法,首先定位所有人体实例,然后对每个人体实例做姿态估计,方法主要集中在如何设计高效的单人姿态估计方法。而bottom-up方法首先检测出所有的人体关键点,然后将它们分组到不同的人体实例,现有方法主要集中在如何将候选的关节点分组到单个人体实例。相较于需要人体检测的top-down方法,bottom-up的方法通常具有更好的估计效率,且保持相近的估计准确度。
现有的人体姿态估计方法虽然在姿态估计的任务上取得了进展,但仍面临以下缺陷:
(1)top-down方法采用检测器的方式来区分人体,由于这类方法会采用到人体检测模型和人体关键点检测模型这两个模型,会带来巨额的计算代价,不利于现实场景中的应用。
(2)bottom-up方法采用卷积神经网络来生成身份特征进而区分人体,这类方法仅关注像素的表征而缺乏对全图人体数量的感知,每张图像所包含的人体数量不一致。针对人体姿态估计方法应当根据人体数量来生成对应的人体身份特征,而现有的方法没有考虑这个先验。
(3)现有的人体姿态估计方法采用统一的卷积神经网络参数来解析人体,难以应对现实场景中人体姿态丰富和人体间差异大的问题。每个人体实例需要特定的解析参数,而现有的方法忽略了这一点。
发明内容
本发明的目的是为了解决现有人体姿态估计方法存在的上述问题,提出了一种基于个体模型生成的人体姿态识别方法,基于bottom-up的方法进行扩展,依据图像内容动态地生成姿态估计的模型,进而精准地针对图像中的每个人体进行姿态估计。
本发明的技术方案为:基于个体模型生成的人体姿态识别方法,包括以下步骤:
S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;
S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图。
S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图。
S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。
进一步地,步骤S1包括以下分步骤:
S11、从待识别图像中获取大小为H×W的输入图片
Figure GDA0003587282280000021
其中
Figure GDA0003587282280000022
表示维度为3×H×W的实数域,3表示RGB三个通道。
S12、通过卷积神经网络的视觉编码器提取得到输入图片对应的视觉特征
Figure GDA0003587282280000023
其中D表示视觉特征中特征图的个数,每张特征图的大小为Hf×Wf
进一步地,步骤S2具体为:采用全局语义感知网络通过线性回归的方式从视觉特征F中解析得到人体区域特征图
Figure GDA0003587282280000024
其表达式为:
M=FWv
其中
Figure GDA0003587282280000025
为线性变换的参数,用于将每个像素的D维特征映射成1维向量,人体区域特征图M上的每个点指代该像素点是否在人体关键点的区域内。
进一步地,步骤S3包括以下分步骤:
S31、根据视觉特征F和人体区域特征图M,采用实例信息编码器得到人体的身份特征
Figure GDA0003587282280000026
S32、根据身份特征E,采用解析参数动态生成器生成用于解析人体姿态的模型参数图
Figure GDA0003587282280000027
其中K表示每个人体的关键点数量。
进一步地,步骤S31包括以下分步骤:
S311、通过实例感知网络的全局池化层将输入的视觉特征F映射成全局特征
Figure GDA0003587282280000028
S312、根据全局特征A估计待识别图像中的人体数量:
Figure GDA0003587282280000029
其中
Figure GDA00035872822800000210
Figure GDA00035872822800000211
为两个线性转换矩阵,Φ(·)表示非线性的LeakyReLU激活函数,
Figure GDA00035872822800000212
表示1维的人体数量估计结果,指代图像中可能包含的人体个数。
S313、根据人体区域特征图M上的概率值,通过双线性插值的方式将参数
Figure GDA00035872822800000213
映射回人体区域特征图M,得到初始的实例感知特征
Figure GDA0003587282280000031
S314、根据初始的实例感知特征
Figure GDA0003587282280000032
通过非线性变换方式得到人体的身份特征
Figure GDA0003587282280000033
其表达式为:
Figure GDA0003587282280000034
其中WI为变换参数。
进一步地,步骤S32包括以下分步骤:
S321、将视觉特征F和身份特征E进行融合,得到包含实例特性的视觉特征
Figure GDA0003587282280000035
其表达式为:
V=Γ(F,E)
其中Γ(·)为特征拼接函数。
S322、根据包含实例特性的视觉特征V,通过非线性变换方式得到用于解析人体姿态的模型参数图
Figure GDA0003587282280000036
其表达式为:
Wp=Φ(VWt 1)Wt 2
其中
Figure GDA0003587282280000037
Figure GDA0003587282280000038
为两个线性转换矩阵。
进一步地,步骤S4包括以下分步骤:
S41、通过设定阈值对人体区域特征图M进行过滤,得到由Np个像素点组成的人体区域
Figure GDA0003587282280000039
其中Lc表示第c个人体区域像素点的位置。
S42、根据人体区域
Figure GDA00035872822800000310
计算得到像素点之间的身份特征相似度矩阵
Figure GDA00035872822800000311
其中第i个像素点和第j个像素点之间的相似度Sij的计算公式为:
Sij=φ(Li TLj)
其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,Li和Lj分别表示第i个和第j个人体区域像素点的位置,i=1,2,...,Np;j=1,2,...,Np
S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到Np个初始的人体区域二值图。
S44、计算人体区域二值图中每两个人体区域的交并比:
Figure GDA0003587282280000041
其中IoUde表示第d个人体区域和第e个人体区域的交并比,Sit表示第i个像素点和第t个像素点之间的相似度,Sjt表示第j个像素点和第t个像素点之间的相似度。
S45、当两个人体区域的交并比大于预设交并比阈值时,将这两个人体区域合并,得到NA个人体区域
Figure GDA0003587282280000042
其中NA<Np
S46、通过位置索引的方式将各个人体区域M'映射回人体区域特征图M大小,得到NA个区域二值图
Figure GDA0003587282280000043
S47、根据区域二值图
Figure GDA0003587282280000044
计算得到NA个实例的解析参数
Figure GDA0003587282280000045
其表达式为:
Figure GDA0003587282280000046
S48、根据解析参数
Figure GDA0003587282280000047
从包含实例特性的视觉特征V中解析出NA个人体的关键点热力图
Figure GDA0003587282280000048
其表达式为:
Figure GDA0003587282280000049
S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿态识别结果。
进一步地,人体姿态识别方法的学习目标函数为:
L=αlm+βlk+θlo
其中α,β和θ均为超参数,lm,lk,lo均为中间参数且:
Figure GDA00035872822800000410
Figure GDA00035872822800000411
Figure GDA00035872822800000412
其中MSE(·)表示均方误差函数,M表示人体区域特征图,
Figure GDA00035872822800000413
表示人体区域特征图的真值,Hg表示第g个关键点热力图,
Figure GDA0003587282280000051
表示第g个关键点热力图的真值,O表示人体数量估计结果,
Figure GDA0003587282280000052
表示人体数量估计结果的真值。
本发明的有益效果是:
(1)本发明区别于现有的身份特征生成方式,即仅依赖于视觉特征,所提出的方法则是通过编码视觉信息与图像的人体计数信息来生成对应的身份特征,能够更有效地区分实例。
(2)本发明区别于现有方法采用固定的参数来解析人体姿态的方式,针对图像中出现的人体动态地生成对应的估计参数,能够更好地解决现实场景中人体姿态丰富和人体间差异大的问题。
(3)本发明基于bottom-up的方法进行扩展,依据图像内容动态地生成姿态估计的模型,进而精准地针对图像中的每个人体进行姿态估计,实验表明本发明相比于现有人体姿态估计方法计算代价更小且精确度更高。
附图说明
图1所示为本发明实施例提供的基于个体模型生成的人体姿态识别方法流程图。
图2所示为本发明实施例提供的基于个体模型生成的人体姿态识别方法框架图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于个体模型生成的人体姿态识别方法,如图1~图2共同所示,包括以下步骤S1~S4:
S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;
步骤S1包括以下分步骤S11~S12:
S11、从待识别图像中获取大小为H×W的输入图片
Figure GDA0003587282280000053
其中
Figure GDA0003587282280000054
表示维度为3×H×W的实数域,3表示RGB三个通道。
S12、通过卷积神经网络的视觉编码器提取得到输入图片对应的视觉特征
Figure GDA0003587282280000055
其中D表示视觉特征中特征图的个数,每张特征图的大小为Hf×Wf
S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图。
本发明实施例中,采用全局语义感知网络通过线性回归的方式从视觉特征F中解析得到人体区域特征图
Figure GDA0003587282280000056
其表达式为:
M=FWv
其中
Figure GDA0003587282280000061
为线性变换的参数,用于将每个像素的D维特征映射成1维向量,人体区域特征图M上的每个点指代该像素点是否在人体关键点的区域内。
S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图。
步骤S2完成了如何确定图像中的人体区域,但本发明的目标是对该区域的每个人体进行姿态识别。基于此,需要针对每个人体的信息来生成对应的姿态解析参数。为了实现动态的人体解析,本发明实施例设计了实例级别的姿态解析模型生成器。
步骤S3包括以下分步骤S31~S32:
S31、根据视觉特征F和人体区域特征图M,采用实例信息编码器得到人体的身份特征
Figure GDA0003587282280000062
本发明实施例中,为了确定每个像素属于图片中的哪个人体,需要得到对应人体的身份特征,因此步骤S31包括以下分步骤S311~S314:
S311、通过实例感知网络的全局池化层将输入的视觉特征F映射成全局特征
Figure GDA0003587282280000063
S312、根据全局特征A估计待识别图像中的人体数量:
Figure GDA0003587282280000064
其中
Figure GDA0003587282280000065
Figure GDA0003587282280000066
为两个线性转换矩阵,Φ(·)表示非线性的LeakyReLU激活函数,
Figure GDA0003587282280000067
表示1维的人体数量估计结果,指代图像中可能包含的人体个数。
S313、因为任何图像的人体个数均能通过参数
Figure GDA0003587282280000068
进行解析估计,所以该参数具有很强的实例感知信息,基于此,本发明实施例根据人体区域特征图M上的概率值,通过双线性插值的方式将参数
Figure GDA0003587282280000069
映射回人体区域特征图M,得到初始的实例感知特征
Figure GDA00035872822800000610
S314、根据初始的实例感知特征
Figure GDA00035872822800000611
通过非线性变换方式得到人体的身份特征
Figure GDA00035872822800000612
其表达式为:
Figure GDA00035872822800000613
其中WI为变换参数。
S32、根据身份特征E,采用解析参数动态生成器生成用于解析人体姿态的模型参数图
Figure GDA0003587282280000071
其中K表示每个人体的关键点数量。
步骤S32包括以下分步骤S321~S322:
S321、将视觉特征F和身份特征E进行融合,得到包含实例特性的视觉特征
Figure GDA0003587282280000072
其表达式为:
V=Γ(F,E)
其中Γ(·)为特征拼接函数。
S322、根据包含实例特性的视觉特征V,通过非线性变换方式得到用于解析人体姿态的模型参数图
Figure GDA0003587282280000073
其表达式为:
Wp=Φ(VWt 1)Wt 2
其中
Figure GDA0003587282280000074
Figure GDA0003587282280000075
为两个线性转换矩阵。
S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。
步骤S4包括以下分步骤S41~S49:
S41、通过设定阈值对人体区域特征图M进行过滤,得到由Np个像素点组成的人体区域
Figure GDA0003587282280000076
其中Lc表示第c个人体区域像素点的位置。本发明实施例中,设定阈值为0.5。
S42、根据人体区域
Figure GDA0003587282280000077
计算得到像素点之间的身份特征相似度矩阵
Figure GDA0003587282280000078
其中第i个像素点和第j个像素点之间的相似度Sij的计算公式为:
Sij=φ(Li TLj)
其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,Li和Lj分别表示第i个和第j个人体区域像素点的位置,i=1,2,...,Np;j=1,2,...,Np
S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到Np个初始的人体区域二值图。
S44、计算人体区域二值图中每两个人体区域的交并比:
Figure GDA0003587282280000081
其中IoUde表示第d个人体区域和第e个人体区域的交并比,Sit表示第i个像素点和第t个像素点之间的相似度,Sjt表示第j个像素点和第t个像素点之间的相似度。
S45、当两个人体区域的交并比大于预设交并比阈值时,将这两个人体区域合并,得到NA个人体区域
Figure GDA0003587282280000082
其中NA<Np
S46、通过位置索引的方式将各个人体区域M'映射回人体区域特征图M大小,得到NA个区域二值图
Figure GDA0003587282280000083
S47、根据区域二值图
Figure GDA0003587282280000084
计算得到NA个实例的解析参数
Figure GDA0003587282280000085
其表达式为:
Figure GDA0003587282280000086
S48、根据解析参数
Figure GDA0003587282280000087
从包含实例特性的视觉特征V中解析出NA个人体的关键点热力图
Figure GDA0003587282280000088
其表达式为:
Figure GDA0003587282280000089
S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿态识别结果。
本发明实施例针对人体姿态识别方法设计了合理的学习目标,以使得提出的模型能够对给定的待识别图片进行多人的姿态估计。给定一张图片,本发明方法将输出三种类型的热力图:(1)人体区域特征图M;(2)人体数量估计结果O;(3)关键点热力图H。
具体而言,本发明方法的目标是增强每个人体的关键点热力图H中的目标关键点响应,同时保证人体区域特征图M中所有人体关键点的区域处于激活状态。为了实现这一学习目标,本发明实施例使用均方误差(MSE)作为学习目标,定义如下:
Figure GDA00035872822800000810
Figure GDA00035872822800000811
Figure GDA00035872822800000812
其中MSE(·)表示均方误差函数,
Figure GDA0003587282280000091
表示人体区域特征图的真值,其包含所有人体的目标关键点区域的二值图;
Figure GDA0003587282280000092
表示第g个关键点热力图的真值,其仅包含针对特定人体的关键点的单峰高斯分布,
Figure GDA0003587282280000093
表示人体数量估计结果的真值。
因此,整个模型的学习目标计算如下:
L=αlm+βlk+θlo
其中α,β和θ均为超参数,在训练中均设置为1。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (2)

1.基于个体模型生成的人体姿态识别方法,其特征在于,包括以下步骤:
S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;
S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图;
S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图;
S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果;
所述步骤S1包括以下分步骤:
S11、从待识别图像中获取大小为H×W的输入图片
Figure FDA0003587282270000011
其中
Figure FDA0003587282270000012
表示维度为3×H×W的实数域,3表示RGB三个通道;
S12、通过卷积神经网络的视觉编码器提取得到输入图片对应的视觉特征
Figure FDA0003587282270000013
其中D表示视觉特征中特征图的个数,每张特征图的大小为Hf×Wf
所述步骤S2具体为:采用全局语义感知网络通过线性回归的方式从视觉特征F中解析得到人体区域特征图
Figure FDA0003587282270000014
其表达式为:
M=FWv
其中
Figure FDA0003587282270000015
为线性变换的参数,用于将每个像素的D维特征映射成1维向量,人体区域特征图M上的每个点指代该像素点是否在人体关键点的区域内;
所述步骤S3包括以下分步骤:
S31、根据视觉特征F和人体区域特征图M,采用实例信息编码器得到人体的身份特征
Figure FDA0003587282270000016
S32、根据身份特征E,采用解析参数动态生成器生成用于解析人体姿态的模型参数图
Figure FDA0003587282270000017
其中K表示每个人体的关键点数量;
所述步骤S31包括以下分步骤:
S311、通过实例感知网络的全局池化层将输入的视觉特征F映射成全局特征
Figure FDA0003587282270000018
S312、根据全局特征A估计待识别图像中的人体数量:
Figure FDA0003587282270000019
其中
Figure FDA0003587282270000021
Figure FDA0003587282270000022
为两个线性转换矩阵,Φ(·)表示非线性的LeakyReLU激活函数,
Figure FDA0003587282270000023
表示1维的人体数量估计结果,指代图像中可能包含的人体个数;
S313、根据人体区域特征图M上的概率值,通过双线性插值的方式将参数
Figure FDA0003587282270000024
映射回人体区域特征图M,得到初始的实例感知特征
Figure FDA0003587282270000025
S314、根据初始的实例感知特征
Figure FDA0003587282270000026
通过非线性变换方式得到人体的身份特征
Figure FDA0003587282270000027
其表达式为:
Figure FDA0003587282270000028
其中WI为变换参数;
所述步骤S32包括以下分步骤:
S321、将视觉特征F和身份特征E进行融合,得到包含实例特性的视觉特征
Figure FDA0003587282270000029
其表达式为:
V=Γ(F,E)
其中Γ(·)为特征拼接函数;
S322、根据包含实例特性的视觉特征V,通过非线性变换方式得到用于解析人体姿态的模型参数图
Figure FDA00035872822700000210
其表达式为:
Wp=Φ(VWt 1)Wt 2
其中
Figure FDA00035872822700000211
Figure FDA00035872822700000212
为两个线性转换矩阵;
所述步骤S4包括以下分步骤:
S41、通过设定阈值对人体区域特征图M进行过滤,得到由Np个像素点组成的人体区域
Figure FDA00035872822700000213
其中Lc表示第c个人体区域像素点的位置;
S42、根据人体区域
Figure FDA00035872822700000214
计算得到像素点之间的身份特征相似度矩阵
Figure FDA00035872822700000215
其中第i个像素点和第j个像素点之间的相似度Sij的计算公式为:
Sij=φ(Li TLj)
其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,Li和Lj分别表示第i个和第j个人体区域像素点的位置,i=1,2,...,Np;j=1,2,...,Np
S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到Np个初始的人体区域二值图;
S44、计算人体区域二值图中每两个人体区域的交并比:
Figure FDA0003587282270000031
其中IoUde表示第d个人体区域和第e个人体区域的交并比,Sit表示第i个像素点和第t个像素点之间的相似度,Sjt表示第j个像素点和第t个像素点之间的相似度;
S45、当两个人体区域的交并比大于预设交并比阈值时,将这两个人体区域合并,得到NA个人体区域
Figure FDA0003587282270000032
其中NA<Np
S46、通过位置索引的方式将各个人体区域M'映射回人体区域特征图M大小,得到NA个区域二值图
Figure FDA0003587282270000033
S47、根据区域二值图
Figure FDA0003587282270000034
计算得到NA个实例的解析参数
Figure FDA0003587282270000035
其表达式为:
Figure FDA0003587282270000036
S48、根据解析参数
Figure FDA0003587282270000037
从包含实例特性的视觉特征V中解析出NA个人体的关键点热力图
Figure FDA0003587282270000038
其表达式为:
Figure FDA0003587282270000039
S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿态识别结果。
2.根据权利要求1所述的人体姿态识别方法,其特征在于,所述人体姿态识别方法的学习目标函数为:
L=αlm+βlk+θlo
其中α,β和θ均为超参数,lm,lk,lo均为中间参数且:
Figure FDA00035872822700000310
Figure FDA0003587282270000041
Figure FDA0003587282270000042
其中MSE(·)表示均方误差函数,M表示人体区域特征图,
Figure FDA0003587282270000043
表示人体区域特征图的真值,Hg表示第g个关键点热力图,
Figure FDA0003587282270000044
表示第g个关键点热力图的真值,O表示人体数量估计结果,
Figure FDA0003587282270000045
表示人体数量估计结果的真值。
CN202110599861.6A 2021-05-31 2021-05-31 基于个体模型生成的人体姿态识别方法 Active CN113221824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110599861.6A CN113221824B (zh) 2021-05-31 2021-05-31 基于个体模型生成的人体姿态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110599861.6A CN113221824B (zh) 2021-05-31 2021-05-31 基于个体模型生成的人体姿态识别方法

Publications (2)

Publication Number Publication Date
CN113221824A CN113221824A (zh) 2021-08-06
CN113221824B true CN113221824B (zh) 2022-05-24

Family

ID=77081709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110599861.6A Active CN113221824B (zh) 2021-05-31 2021-05-31 基于个体模型生成的人体姿态识别方法

Country Status (1)

Country Link
CN (1) CN113221824B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155560B (zh) * 2022-02-08 2022-04-29 成都考拉悠然科技有限公司 基于空间降维的高分辨率人体姿态估计模型的轻量化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188533A1 (en) * 2017-12-19 2019-06-20 Massachusetts Institute Of Technology Pose estimation
CN111881705B (zh) * 2019-09-29 2023-12-12 深圳数字生命研究院 数据处理、训练、识别方法、装置和存储介质
CN111738091A (zh) * 2020-05-27 2020-10-02 复旦大学 一种基于多任务深度学习的姿态估计与人体解析***
CN111898566B (zh) * 2020-08-04 2023-02-03 成都井之丽科技有限公司 姿态估计方法、装置、电子设备和存储介质
CN112347861B (zh) * 2020-10-16 2023-12-05 浙江工商大学 一种基于运动特征约束的人体姿态估计方法

Also Published As

Publication number Publication date
CN113221824A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及***
Qu et al. RGBD salient object detection via deep fusion
WO2021093468A1 (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN109063626B (zh) 动态人脸识别方法和装置
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及***
CN111428664B (zh) 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及***
CN111898566B (zh) 姿态估计方法、装置、电子设备和存储介质
CN113297956B (zh) 一种基于视觉的手势识别方法及***
CN113361542A (zh) 一种基于深度学习的局部特征提取方法
Li et al. Multi-attention guided feature fusion network for salient object detection
Liu et al. Learning explicit shape and motion evolution maps for skeleton-based human action recognition
CN112464775A (zh) 一种基于多分支网络的视频目标重识别方法
CN113221824B (zh) 基于个体模型生成的人体姿态识别方法
CN117456431A (zh) 一种基于扩张卷积和密集连接的镜头边界检测方法
CN113076905A (zh) 一种基于上下文交互关系的情绪识别方法
Renjith et al. Indian sign language recognition: A comparative analysis using cnn and rnn models
CN116597267A (zh) 图像识别方法、装置、计算机设备和存储介质
CN116503753A (zh) 一种基于多模态空域变换网络的遥感图像场景分类方法
CN113221870B (zh) 一种用于移动终端的ocr识别方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant