CN112733707A - 一种基于深度学习的行人重识别方法 - Google Patents

一种基于深度学习的行人重识别方法 Download PDF

Info

Publication number
CN112733707A
CN112733707A CN202110020970.8A CN202110020970A CN112733707A CN 112733707 A CN112733707 A CN 112733707A CN 202110020970 A CN202110020970 A CN 202110020970A CN 112733707 A CN112733707 A CN 112733707A
Authority
CN
China
Prior art keywords
image
local
mask
feature
joint point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110020970.8A
Other languages
English (en)
Other versions
CN112733707B (zh
Inventor
段文义
唐慧明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110020970.8A priority Critical patent/CN112733707B/zh
Publication of CN112733707A publication Critical patent/CN112733707A/zh
Application granted granted Critical
Publication of CN112733707B publication Critical patent/CN112733707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的行人重识别方法,应用于至少包括2D特征编码网络,3D人体表征编码网络以及图卷积特征融合网络的行人重识别***,行人重识别方法包括如下步骤:通过2D特征编码网络提取2D图像特征图,3D人体表征编码网络提取3D姿态信息和人体外形信息;根据3D姿态信息获取2D关节点位置,将2D关节点位置映射到2D图像特征图获取2D关节点局部特征;根据3D姿态信息获取区域掩码;将获取的2D关节点局部特征与3D姿态信息和人体外形信息融合,得到3D关节点局部特征,进而进行关节点间的特征融合,得到骨骼局部特征;将待识别图像和图像库中第一图像相似度匹配,输出匹配结果;利用人体骨骼的3D信息以及拓扑约束使行人重识别的匹配更加准确。

Description

一种基于深度学习的行人重识别方法
技术领域
本发明属于计算机视觉行人重识别技术领域,具体涉及一种基于深度学习的行人重识别方法
背景技术
如今,在几乎所有的公共场所,都可以看到通过监控摄像头来监控人类活动。这些摄像机拍摄的连续视频流通过人工观察可用以发现或查证事件的发生。然而,这个人工观察过程费时、费力且容易出错的。研究人员已经提出了各种基于计算机视觉的自动化技术来分析人类活动视频数据和提取相关信息,以执行人类跟踪、再识别和其他视觉相关任务。
行人重识别,其任务就是给定一个感兴趣的待查询人的信息,然后确定这个人是否被另一个不同地方、不同时间、不同相机所捕捉到。待查询人可以由图像、视频序列,甚至文本等信息描述表示。随着大量安装在大学校园,主题公园,街道的监控摄像头的出现,由于公共安全的需要,行人重识别在智能视频监控***的设计有着重大影响和实际重要性。
当在拥挤的地方进行行人重新识别时,遮挡是一个不可避免的问题。例如,一个人可能会被现场的其他人遮挡,或被静态障碍物遮挡,如汽车、柱子、墙壁,或被自身肢体遮挡。除了遮挡,视角变化也是一个巨大的挑战。
发明内容
本发明提出一种基于深度学习的行人重识别方法,主要解决现有方案在复杂遮挡环境(如自遮挡,自然环境下的物体遮挡)和人体各部分视角差异大的情形下表现不佳的问题,人体骨骼随着关节活动,使得各个部分出现不同的视角变化,细粒度的视角检测可以使得行人重识别的匹配更加准确。利用人体骨骼的3D信息以及拓扑约束,可以获得行人更加鲁棒的表征信息。
本发明为了实现上述目的,提供了一种基于深度学习的行人重识别方法,包括如下步骤:S1,将待识别图像输入2D特征编码网络提取2D图像特征图,且将待识别图像输入3D人体表征编码网络提取3D姿态信息和人体外形信息;S2,根据3D姿态信息获取2D关节点位置,将2D关节点位置映射到2D图像特征图,获取2D关节点局部特征;S3,根据3D姿态信息获取全局视角感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码和外部遮挡感知区域掩码;S4,将获取的2D关节点局部特征与3D姿态信息和人体外形信息融合,得到3D关节点局部特征;S5,将3D关节点局部特征进行关节点间的特征融合,得到骨骼局部特征;S6,基于全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码以及自遮挡感知区域掩码,对待识别图像和图像库中的第一图像进行相似度匹配,输出最终匹配结果。
优选的,步骤S3中,根据3D姿态信息获取全局视角感知区域掩码具体包括:S311,将人体的T-poSe状态作为参考坐标系,以根节点为原点,定义用于确定全局视角的单位球坐标系SCroot,得到待识别图片描述全局视角的角度为(θroot,φroot,1);S312,将SCroot单位球平面离散化,即θroot的定义域和φroot的定义域分别等分为N1和N2份,等分后的每个区段都以其中点的值作为离散化后的值,映射为N维向量,N等于N1与N2的乘积,每个维度对应着一组(θroot,φroot)参数,该向量即为全局视角感知区域掩码。
优选的,步骤S3中,根据3D姿态信息获取自遮挡感知区域掩码具体包括:
S321,以互相连接的两个关节点的中点作为原点,将人体的T-poSe状态作为参考坐标系,定义用于表示骨头视角的单位球坐标系
Figure BDA0002886627440000021
得到每根骨头的骨头视角
Figure BDA0002886627440000022
与相交骨头产生的遮挡感知视角
Figure BDA0002886627440000023
并将每个关节点的3D坐标和3D姿态信息的三维旋转向量转换至单位球坐标系
Figure BDA0002886627440000031
S322,将
Figure BDA0002886627440000032
的单位球平面离散化,映射为N维向量,得到将骨头视角掩码
Figure BDA0002886627440000034
与相交骨头遮挡视角掩码
Figure BDA0002886627440000033
将其按元素相乘,得到自遮挡感知区域掩码。
优选的,步骤S5具体包括,S51、将所有关节点的3D关节点局部特征输入图卷积特征融合网络;S52、图卷积特征融合网络根据关节点的连接矩阵,输出每个关节点与其父节点所代表的骨头的局部特征,即骨骼局部特征。
优选的,步骤S2中所述的根据3D姿态信息获取2D关节点位置具体包括:将3D姿态信息转换为3D坐标,将3D坐标投影为2D图像特征图上的2D坐标从而得到2D关节点位置。
优选的,步骤S2中所述的将2D关节点位置映射到2D图像特征图,获取2D关节点局部特征,具体包括:S21、根据2D关节点位置,生成与2D图像特征图尺寸相同的2D高斯加权图;S22、2D图像特征图与2D高斯加权图按元素相乘得到2D关节点局部特征。
优选的,所述的2D特征编码网络采用CNN网络;所述3D人体表征编码网络至少包括特征提取骨干网络和3D参数回归网络,其中特征提取骨干网络的全局平均池化层的输出串联接入3D参数回归网络。
优选的,步骤S6具体包括:S61、基于待识别图像和图像库中的第一图像的全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码和自遮挡感知区域掩码得到全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码和自遮挡共有部分掩码;S62、将待识别图像和第一图像的2D图像特征图、2D关节点局部特征、3D关节点局部特征、骨骼局部特征的特征分别与全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码相乘,并分别基于全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码计算全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度;S63、基于待识别图像和图像库中的第一图像的人体外形信息获得人体外形匹配相似度;S64、加权全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度以及人体外形匹配相似度,从而输出最终的匹配相似度。
优选的,所述步骤S3中,根据3D姿态信息获取局部视角感知区域掩码具体包括:S331、将人体的T-poSe状态作为参考坐标系,以关节点的3D坐标为原点,定义用于表示局部视角的单位球坐标系
Figure BDA0002886627440000041
得到每个关节点局部视角角度
Figure BDA0002886627440000042
S332、将
Figure BDA0002886627440000043
的单位球平面离散化,将局部关节点的3D姿态信息的三维旋转向量传递到根节点后,转换到单位球坐标系,映射为N维向量,即为局部视角感知区域掩码。
优选的,所述步骤S3中,根据3D姿态信息获取外部遮挡感知区域掩码具体包括:获取每个关节点的置信度,并基于获取的置信度得到外部遮挡感知区域掩码。
本发明的有益效果是:
1、解决复杂遮挡环境和人体各部分视角差异大的情形下行人重识别表现不佳的问题,提出了细粒度的视角感知,不仅包括全局视角,还包括关节点的局部视角和自遮挡感知的骨头视角,同时还能感知外部物体遮挡;
2、结合了人体图像的2D特征,人体的3D拓扑结构以及3D外形特征,使得整个网络的能够在复杂遮挡环境充分利用图像信息与人体结构等先验信息。
附图说明
图1是本发明行人重识别方法的一种实施例的***框架示意图;
图2是本发明行人重识别方法的一种实施例流程示意图;
图3是本发明实施例中3D人体表征编码网络的结构示意图;
图4是本发明实施例中获取2D关节点局部特征图的基本步骤示意图;
图5是本发明实施例中2D高斯加权图与2D关节点局部特征图的映射示意图;
图6是本发明实施例中人体3D姿态与视角球坐标系的示意图;
图7是本发明实施例中视角球坐标系映射到感知区域掩码的示意图;
图8是本发明实施例中自遮挡区域的视角感知示意图。
具体实施方式
为了便于本领域人员更好的理解本发明,下面结合附图和具体实施例对本发明做进一步详细说明,下述仅是示例性的不限定本发明的保护范围。
本发明提出了一种基于深度学习的行人重识别方法,以下结合较佳的实施例以及附图,对依据本发明的具体实施方式、结构以及其功效,详细说明如下:
如图1所示,本发明公开一种基于深度学习的行人重识别方法,包括2D特征编码网络、3D人体表征编码网络、图卷积特征融合网络以及获取感知区域掩码、计算匹配相似度、图像库等模块,其中2D特征编码网络用于提取图像的2D图像特征图,3D人体表征编码网络用于提取3D姿态信息和人体外形信息,图卷积特征融合网络用于融合关节点之间的信息,获取感知区域掩码模块用于计算全局、局部、自遮挡、外部遮挡的感知区域掩码,图像库中存放用于与待识别图像相匹配的图像信息,即从用于重识别的行人图像提取的特征与感知区域掩码,计算匹配相似度模块是根据所有的特征信息和对应掩码计算最终的匹配相似度。具体流程如图2所示,步骤包括:
步骤S1,将待识别图像输入2D特征编码网络提取2D图像特征图,同时将待识别图像输入3D人体表征编码网络提取3D姿态信息和人体外形信息。
其中,2D特征编码网络是一个鲁棒的CNN特征编码网络,用于提取2D图像的局部和全局特征。该特征编码网络的初始参数是利用大规模图像数据预训练得到的,以此加快收敛和得到更加鲁棒的CNN特征编码网络。2D特征编码网络可以采用各种CNN网络,如VGGNet,GooglLeNet等。
本实施例中,2D特征编码网络encoder2d采用ReSNet50的骨干网络,移除了ReSNet50中的全局平均池化层和全连接层。将待识别图像Iquery输入2D特征编码网络,输出2D图像特征图fglobal_2d可表示为:
fglobal_2d=encoder2d(Iquery)
其中,3D人体表征编码网络提取的3D姿态信息是每个关节点绕着其父节点旋转的三维旋转向量;其中3D人体表征编码网络提取的人体外形信息是一个人固有的身体特征信息,如身体比例,高矮胖瘦等参数。
3D人体表征编码网络可以采用从VGG16获取的2D图像特征回归到3D网格坐标参数,再从3D网格坐标参数得到姿态和人体外形参数等信息,也可以采用从ReSNet50获取的2D图像特征回归到3D人体模型参数,然后再从3D人体模型参数得到姿态和人体外形参数等信息。本实施例中,如图3所示,3D人体表征编码网络的特征提取骨干网络encoder3d采用ReSNet50的骨干网络,将ReSNet50的全局平均池化层的输出串联接入3D参数回归网络regression3d;其中3D参数回归网络由两层全连接层组成,隐藏层FC1为1024个单元,输出层FC2为82个单元;将待识别图像Iquery输入encoder3d后得到的编码特征输入regression3d,得到相应的82维的3D参数,包括3D姿态信息rotation3d(72维)和人体外形信息shape3d(10维);rotation3d包含每个关节点的三维旋转向量;shape3d包含身体部件的胖瘦、比例等信息:
[rotation3d,shape3d]=regression3d(encoder3d(Iquery))
其中隐藏层FC1单元数、输出层FC2单元数也可为其它数目,相应的3D参数、3D姿态信息和人体外形信息也可随之为其他数目。
步骤S2,根据3D姿态信息获取2D关节点位置,将2D关节点位置映射到2D图像特征图,获取2D关节点局部特征。本实施例中,如图4所示,采用如下步骤:
S2.1将3D姿态信息rotation3d转换为(x′i,y′i,z′i),其中转换函数T是利用最小二乘法使得3D坐标误差最小化的函数:
{(x′i,y′i,z′i)}=T(rotation3d)
S2.2将(x′i,y′i,z′i)投影为2D图像特征图中的2D坐标(xi,yi),此处投影函数Project采用正交投影,即x′i加上图像宽度的一半,y′i加上图像高度的一半,然后将结果取整数,也可采用其他投影,如透视投影:
(xi,yi)=Project((x′i,y′i,z′i))
S2.3如图5所示,以(xi,yi)为中心,生成与2D图像特征图尺寸相同的2D高斯加权图
Figure BDA0002886627440000075
其中二维高斯函数g的参数矩阵∑1(对应高斯分布函数的协方差矩阵)采用对角矩阵,且x维的方差σx和y维的方差σy相等,该参数矩阵也可采用非对角矩阵:
Figure BDA0002886627440000071
S2.4将关节点的
Figure BDA0002886627440000074
与2D图像特征图按元素相乘,得到2D关节点局部特征fjoint_2d:
Figure BDA0002886627440000072
其中⊙表示按元素相乘。
步骤S3,根据3D姿态信息获取全局视角感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码、外部遮挡感知区域掩码。
行人主体躯干的角度决定了行人全局特征的视角,因此全局视角的获取可以通过人为标注的图像训练全局视角预测器,也可以从3D姿态信息中的骨骼根节点的三维旋转向量得到。
本实施例中,全局视角感知区域掩码maskglobal_view是由rotation3d中根节点的三维旋转向量获得,根节点的旋转向量描述了人体整体旋转情况;如图6所示,将人体的T-poSe状态作为参考坐标系,以根节点(脊柱关节点,位于脖子和盆骨的中点)为原点,定义单位球坐标系SCroot,则待识别图片Iquery有一组描述全局视角的角度(θroot,φroot,1),以(θroot,φroot,1)为切点的半球则为全局视角感知区域,且以(θroot,φroot,1)为中心,向外则感知能力逐渐变弱;如图7所示,将SCroot的单位球平面离散化,即θroot的定义域和φroot的定义域分别等分为N1和N2份,等分后的每个区段都以其中点的值作为离散化后的值,映射为N维向量,N等于N1与N2的乘积,每个维度对应着一组(θroot,φroot)参数,每一维的值为感知能力,值的范围是0到1之间的实数,值越接近0表示感知能力越弱,该向量即为全局视角感知区域掩码maskglobal_view:
root,φroot)=T2(rotation3d)
maskglobal_view=Flatten(g((θroot,φroot),∑2))
其中T2表示将3D姿态信息中根节点的三维旋转向量转换到单位球坐标系,即以直角坐标系的单位向量(0,0,1)为基准,由三维旋转向量旋转后得到向量(x,y,z),然后将该直角坐标转换为单位球坐标。
其中二维高斯函数g的参数矩阵∑2采用对角矩阵,且x维和y维的方差相等。参数矩阵∑2用于确定感知能力范围,该参数矩阵也可采用非对角矩阵;Flatten表示离散化后的单位球面映射为N维向量,即展平离散后定义域内的二维高斯函数的值为一维向量。
根据3D姿态信息获取局部视角感知区域掩码:局部视角感知区域可以通过关节点的3D坐标与T-pose状态的转换得到,也可以将关节点的三维旋转向量依据骨骼连接关系传递到根节点。
本实施例中,局部视角感知区域掩码
Figure BDA0002886627440000081
是以每个关节点的3D坐标(x′i,y′i,z′i)为原点,将关节点的三维旋转向量依据骨骼连接关系传递到根节点得到;将人体的T-pose状态作为参考坐标系,定义单位球坐标系
Figure BDA0002886627440000086
则每个关节点由一组角度
Figure BDA0002886627440000083
确定了局部视角,将
Figure BDA0002886627440000084
的单位球平面离散化,映射为N维向量,即为局部视角感知区域掩码
Figure BDA0002886627440000087
Figure BDA0002886627440000091
Figure BDA0002886627440000092
其中T3表示将局部关节点的三维旋转向量传递到根节点后,转换到单位球坐标系。其中二维高斯函数g的参数矩阵
Figure BDA0002886627440000094
采用对角矩阵,且x维和y维的方差相等。参数矩阵
Figure BDA0002886627440000095
用于确定感知能力范围,该参数矩阵也可采用非对角矩阵;Flatten表示离散化后的单位球面映射为N维向量,即展平离散后定义域内的二维高斯函数的值为一维向量。
根据3D姿态信息获取自遮挡感知区域掩码:局部视角感知区域掩码表征了独立的关节点的视角,但是缺乏对关节点之间视角感知,例如,当行人侧面视角的双脚交叉时,脚踝和膝盖的关节点都正确检测,仅用局部视角感知区域掩码无法感知双腿交叉部分的遮挡。自遮挡感知区域掩码用来表征人体关节点之间的可见视角,用于感知行人躯体的自遮挡。
本实施例中,如图8所示,所述自遮挡感知区域掩码
Figure BDA0002886627440000096
是以互相连接的两个关节点的中点作为原点,将人体的T-pose状态作为参考坐标系,定义单位球坐标系
Figure BDA00028866274400000910
该坐标系表示了每根骨头的视角,其中的骨头定义为:从成像的角度,互相连接的两个关节点之间的人体部分(并非实际的骨头)。由rotation3d的三维旋转向量可以计算得到每根骨头被人体自遮挡之后的感知视角,即人体自遮挡感知区域,则每根骨头由骨头视角
Figure BDA0002886627440000098
与相交骨头产生的遮挡感知视角
Figure BDA0002886627440000099
确定了自遮挡感知视角:
Figure BDA0002886627440000093
其中T4表示将3D坐标与三维旋转向量转换到以互相连接的两个关节点的中点作为原点的单位球坐标系。
Figure BDA0002886627440000104
的单位球平面离散化,映射为N维向量,将骨头视角掩码
Figure BDA0002886627440000105
与相交骨头遮挡视角掩码
Figure BDA0002886627440000106
按元素相乘,得到自遮挡感知区域掩码
Figure BDA00028866274400001012
Figure BDA0002886627440000101
Figure BDA0002886627440000102
Figure BDA0002886627440000103
其中二维高斯函数g的参数矩阵
Figure BDA0002886627440000108
Figure BDA0002886627440000109
采用对角矩阵,且x维和y维的方差相等,该参数矩阵也可采用非对角矩阵。参数矩阵
Figure BDA00028866274400001010
用于确定感知能力范围,参数矩阵
Figure BDA00028866274400001011
用于确定遮挡影响范围;Flatten表示离散化后的单位球面映射为N维向量,即展平离散后定义域内的二维高斯函数的值为一维向量。
根据3D姿态信息获取外部遮挡感知区域掩码:根据每个关节点的置信度,将关节点分为外部可视关节点与外部遮挡关节点,关节点的置信度可以采用2D姿态预测网络输出的2D关节点的置信度,按照关节点位置的欧氏距离最近的原则,得到每个3D关节点的置信度,也可以采用直接由3D网络输出关节点的置信度。
本实施例中,由2D姿态预测网络HRNet输出的2D关节点的置信度{βi},按照欧氏距离最近的原则,得到每个3D关节点最近距离的2D关节点的置信度,所述外部遮挡感知区域掩码maskobject由每个关节点的置信度βi确定,βi的取值范围为0到1,当βi越接近0时,该关节点为外部遮挡关节点的概率越大:
maskobject=[β0,β1,...βJ-1]
其中,J为关节点总数。
步骤S4,将获取的2D关节点局部特征与3D姿态信息、人体外形信息融合:2D关节点局部特征包含了行人的关节点的图像特征,3D姿态信息包含了行人面向摄像头时的关节点3D坐标,人体外形信息包含了具体行人的形体特征,将每个关节点的图像特征,3D坐标以及形体特征融合,可以将图像特征,3D位置和形体特征展平为一维向量后直接拼接然后输出融合特征,也可以拼接之后再经过全连接层再输出融合特征。
本实施例中,所述将获取的2D关节点局部特征与3D姿态信息,人体外形信息融合,是将
Figure BDA0002886627440000116
(x′i,y′i,z′i)和shape3d展平为一维向量后先进行拼接,然后再经过一层全连接层后输出,得到3D关节点局部特征
Figure BDA0002886627440000117
步骤S5,将3D关节点局部特征输入图卷积特征融合网络进行关节点间的特征融合,得到骨骼局部特征:3D关节点局部特征是每个关节点的充分表征,既表征了图像特征,也表征了位置和体态,但是关节点之间的相互联系,关节点之间的特征的相互影响,需要进一步进行关节点之间的特征融合。关节点之间的特征融合可以采用全连接层进行全节点特征融合,也可以采用图卷积根据连接矩阵进行相邻节点特征融合。
本实施例中,采用图卷积根据连接矩阵进行相邻节点特征融合,所述图卷积特征融合网络GCN3d是根据关节点的连接矩阵,将相邻节点的
Figure BDA0002886627440000115
相互融合,输出每个关节点与其父节点所代表的骨头的局部特征,即为骨骼局部特征
Figure BDA0002886627440000111
Figure BDA0002886627440000112
步骤S6,共有部分的相似度匹配:2D图像特征图根据全局视角感知区域掩码得到共有部分的匹配相似度,2D关节点局部特征根据外部遮挡感知区域掩码得到共有部分的匹配相似度,3D关节点局部特征根据局部视角感知区域掩码得到共有部分的匹配相似度,骨骼局部特征根据自遮挡感知区域掩码得到共有部分的匹配相似度,将各共有部分的匹配相似度以及人体外形匹配相似度进行加权,输出最终的匹配相似度。
本实施例中,所述将待识别图像与图像库中某图像的2D图像特征图、2D关节点局部特征、3D关节点局部特征、骨骼局部特征、人体外形信息,根据全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码,进行共有部分的相似匹配,加权各部分的相似匹配度,输出最终匹配结果。具体为:
全局匹配相似度sglobal,是先将待识别图像的全局视角感知区域掩码
Figure BDA0002886627440000123
和图像库中某图像的全局视角感知区域掩码
Figure BDA0002886627440000124
取对应位置的最小值,得到全局视角共有部分掩码
Figure BDA00028866274400001215
然后将待识别图像的2D图像特征图
Figure BDA0002886627440000126
和全局视角共有部分掩码
Figure BDA0002886627440000127
的乘积,及图像库中某图像的2D图像特征图
Figure BDA0002886627440000128
和全局视角共有部分掩码
Figure BDA0002886627440000129
的乘积,输入到距离度量函数D1,再除以全局视角共有部分掩码的总和计算得到,此处距离度量函数为余弦距离度量函数,也可采用其他距离度量函数,如欧氏距离度量函数:
Figure BDA0002886627440000121
Figure BDA0002886627440000122
外部遮挡匹配相似度
Figure BDA00028866274400001216
是将待识别图像的2D关节点局部特征
Figure BDA00028866274400001211
与图像库中某图像的2D关节点局部特征
Figure BDA00028866274400001212
输入到距离度量函数D2计算后,再与外部遮挡感知区域掩码
Figure BDA00028866274400001213
Figure BDA00028866274400001214
相乘得到,此处距离度量函数为余弦距离度量函数:
Figure BDA0002886627440000131
关节点局部匹配相似度
Figure BDA0002886627440000132
是先将待识别图像的局部视角感知区域掩码
Figure BDA0002886627440000133
和图像库中某图像的局部视角感知区域掩码
Figure BDA0002886627440000134
取对应位置的最小值,得到局部视角共有部分掩码
Figure BDA0002886627440000135
然后将待识别图像的3D关节点局部特征
Figure BDA00028866274400001312
和局部视角共有部分掩码
Figure BDA00028866274400001313
的乘积,及图像库中某图像的3D关节点局部特征
Figure BDA00028866274400001314
和局部视角共有部分掩码
Figure BDA00028866274400001315
的乘积,输入到距离度量函数D3,再除以局部视角共有部分掩码的总和计算得到,此处距离度量函数为余弦距离度量函数:
Figure BDA0002886627440000136
Figure BDA0002886627440000137
自遮挡匹配相似度
Figure BDA0002886627440000138
是先将待识别图像的自遮挡感知区域掩码
Figure BDA0002886627440000139
和图像库中某图像的自遮挡感知区域掩码
Figure BDA00028866274400001316
取对应位置的最小值,得到自遮挡共有部分掩码
Figure BDA00028866274400001310
然后将待识别图像的骨骼局部特征
Figure BDA00028866274400001317
和自遮挡共有部分掩码
Figure BDA00028866274400001318
的乘积,及图像库中某图像的骨骼局部特征
Figure BDA00028866274400001319
和自遮挡共有部分掩码
Figure BDA00028866274400001320
的乘积,输入到距离度量函数D4,再除以自遮挡共有部分掩码的总和计算得到,此处距离度量函数为余弦距离度量函数;
Figure BDA00028866274400001311
Figure BDA0002886627440000141
人体外形匹配相似度sshape,是将待识别图像的人体外形信息
Figure BDA0002886627440000145
与图像库中某图像的人体外形信息
Figure BDA0002886627440000142
输入到距离度量函数D5计算得到,此处距离度量函数为余弦距离度量函数;
Figure BDA0002886627440000143
最终匹配相似度s是加权各部分的匹配相似度得到:
Figure BDA0002886627440000144
其中,J为关节点总数,λ,αi,βi,γi为加权参数。
上述最终匹配相似度s是待识别行人图像与图像库中某行人图像特征信息的匹配相似度,将待识别图像与图像库的图像特征信息逐一匹配,就可查找到最匹配的一幅或一组图像,从而实现行人重识别。
以上仅描述了本发明的基本原理和优选实施方式,本领域人员可以根据上述描述做出许多变化和改进,这些变化和改进应该属于本发明的保护范围。

Claims (10)

1.一种基于深度学习的行人重识别方法,其特征在于,包括如下步骤:
S1,将待识别图像输入2D特征编码网络提取2D图像特征图,且将待识别图像输入3D人体表征编码网络提取3D姿态信息和人体外形信息;
S2,根据3D姿态信息获取2D关节点位置,将2D关节点位置映射到2D图像特征图,获取2D关节点局部特征;
S3,根据3D姿态信息获取全局视角感知区域掩码、局部视角感知区域掩码、自遮挡感知区域掩码和外部遮挡感知区域掩码;
S4,将获取的2D关节点局部特征与3D姿态信息和人体外形信息融合,得到3D关节点局部特征;
S5,将3D关节点局部特征进行关节点间的特征融合,得到骨骼局部特征;
S6,基于全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码以及自遮挡感知区域掩码,对待识别图像和图像库中的第一图像进行相似度匹配,输出最终匹配结果。
2.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于,步骤S3中,根据3D姿态信息获取全局视角感知区域掩码具体包括:
S311,将人体的T-pose状态作为参考坐标系,以根节点为原点,定义用于确定全局视角的单位球坐标系SCroot,得到待识别图片描述全局视角的角度为(θroot,φroot,1);
S312,将SCroot单位球平面离散化,即θroot的定义域和φroot的定义域分别等分为N1和N2份,等分后的每个区段都以其中点的值作为离散化后的值,映射为N维向量,N等于N1与N2的乘积,每个维度对应着一组(θroot,φroot)参数,该向量即为全局视角感知区域掩码。
3.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于,步骤S3中,根据3D姿态信息获取自遮挡感知区域掩码具体包括:
S321,以互相连接的两个关节点的中点作为原点,将人体的T-pose状态作为参考坐标系,定义用于表示骨头视角的单位球坐标系
Figure FDA0002886627430000021
得到每根骨头的骨头视角
Figure FDA0002886627430000022
与相交骨头产生的遮挡感知视角
Figure FDA0002886627430000023
并将每个关节点的3D坐标和3D姿态信息的三维旋转向量转换至单位球坐标系
Figure FDA0002886627430000024
S322,将
Figure FDA0002886627430000025
的单位球平面离散化,映射为N维向量,得到将骨头视角掩码
Figure FDA0002886627430000026
与相交骨头遮挡视角掩码
Figure FDA0002886627430000027
将其按元素相乘,得到自遮挡感知区域掩码。
4.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于,步骤S5具体包括:
S51、将所有关节点的3D关节点局部特征输入图卷积特征融合网络;
S52、图卷积特征融合网络根据关节点的连接矩阵,输出每个关节点与其父节点所代表的骨头的局部特征,即骨骼局部特征。
5.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于:
步骤S2中所述的根据3D姿态信息获取2D关节点位置具体包括:将3D姿态信息转换为3D坐标,将3D坐标投影为2D图像特征图上的2D坐标从而得到2D关节点位置。
6.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于,
步骤S2中所述的将2D关节点位置映射到2D图像特征图,获取2D关节点局部特征,具体包括:
S21、根据2D关节点位置,生成与2D图像特征图尺寸相同的2D高斯加权图;
S22、2D图像特征图与2D高斯加权图按元素相乘得到2D关节点局部特征。
7.根据权利要求1所述的基于深度学***均池化层的输出串联接入3D参数回归网络。
8.根据权利要求1-7任一所述的基于深度学习的行人重识别方法,其特征在于,步骤S6具体包括:
S61、基于待识别图像和图像库中的第一图像的全局视角感知区域掩码、外部遮挡感知区域掩码、局部视角感知区域掩码和自遮挡感知区域掩码得到全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码和自遮挡共有部分掩码;
S62、将待识别图像和第一图像的2D图像特征图、2D关节点局部特征、3D关节点局部特征、骨骼局部特征的特征分别与全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码相乘,并分别基于全局视角共有部分掩码、外部遮挡共有部分掩码、局部视角共有部分掩码、自遮挡共有部分掩码计算全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度;
S63、基于待识别图像和图像库中的第一图像的人体外形信息获得人体外形匹配相似度;
S64、加权全局匹配相似度、外部遮挡匹配相似度、关节点局部匹配相似度、自遮挡匹配相似度以及人体外形匹配相似度,从而输出最终的匹配相似度。
9.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于,所述步骤S3中,根据3D姿态信息获取局部视角感知区域掩码具体包括:
S331、将人体的T-poSe状态作为参考坐标系,以关节点的3D坐标为原点,定义用于表示局部视角的单位球坐标系
Figure FDA0002886627430000031
得到每个关节点局部视角角度
Figure FDA0002886627430000032
S332、将
Figure FDA0002886627430000033
的单位球平面离散化,将局部关节点的3D姿态信息的三维旋转向量传递到根节点后,转换到单位球坐标系,映射为N维向量,即为局部视角感知区域掩码。
10.根据权利要求1所述的基于深度学习的行人重识别方法,其特征在于,所述步骤S3中,根据3D姿态信息获取外部遮挡感知区域掩码具体包括:获取每个关节点的置信度,并基于获取的置信度得到外部遮挡感知区域掩码。
CN202110020970.8A 2021-01-07 2021-01-07 一种基于深度学习的行人重识别方法 Active CN112733707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110020970.8A CN112733707B (zh) 2021-01-07 2021-01-07 一种基于深度学习的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110020970.8A CN112733707B (zh) 2021-01-07 2021-01-07 一种基于深度学习的行人重识别方法

Publications (2)

Publication Number Publication Date
CN112733707A true CN112733707A (zh) 2021-04-30
CN112733707B CN112733707B (zh) 2023-11-14

Family

ID=75589685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110020970.8A Active CN112733707B (zh) 2021-01-07 2021-01-07 一种基于深度学习的行人重识别方法

Country Status (1)

Country Link
CN (1) CN112733707B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486751A (zh) * 2021-06-29 2021-10-08 西北大学 一种基于图卷积和边缘权重注意力的行人特征提取方法
CN113920306A (zh) * 2021-09-30 2022-01-11 北京百度网讯科技有限公司 目标再识别方法、装置及电子设备
CN114554158A (zh) * 2022-02-28 2022-05-27 重庆长安汽车股份有限公司 一种基于道路交通场景下的全景视频拼接方法及***
CN116206332A (zh) * 2023-01-31 2023-06-02 北京数美时代科技有限公司 一种基于姿态估计的行人重识别方法、***和存储介质
CN116386145A (zh) * 2023-04-17 2023-07-04 浙江金融职业学院 一种基于双摄像头的银行内人员异常行为识别方法
CN116524602A (zh) * 2023-07-03 2023-08-01 华东交通大学 基于步态特征的换衣行人重识别方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017000115A1 (zh) * 2015-06-29 2017-01-05 北京旷视科技有限公司 行人再识别方法及设备
CN107832672A (zh) * 2017-10-12 2018-03-23 北京航空航天大学 一种利用姿态信息设计多损失函数的行人重识别方法
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法
CN111104867A (zh) * 2019-11-25 2020-05-05 北京迈格威科技有限公司 基于部件分割的识别模型训练、车辆重识别方法及装置
CN111310720A (zh) * 2020-03-11 2020-06-19 广东工业大学 基于图度量学习的行人重识别方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017000115A1 (zh) * 2015-06-29 2017-01-05 北京旷视科技有限公司 行人再识别方法及设备
CN107832672A (zh) * 2017-10-12 2018-03-23 北京航空航天大学 一种利用姿态信息设计多损失函数的行人重识别方法
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法
CN111104867A (zh) * 2019-11-25 2020-05-05 北京迈格威科技有限公司 基于部件分割的识别模型训练、车辆重识别方法及装置
CN111310720A (zh) * 2020-03-11 2020-06-19 广东工业大学 基于图度量学习的行人重识别方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FANGAN YE 等: "Dynamic GCN:Context-enriched Topology Learning for Skeleton-based Action Recognition", ARXIV *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486751A (zh) * 2021-06-29 2021-10-08 西北大学 一种基于图卷积和边缘权重注意力的行人特征提取方法
CN113486751B (zh) * 2021-06-29 2023-07-04 西北大学 一种基于图卷积和边缘权重注意力的行人特征提取方法
CN113920306A (zh) * 2021-09-30 2022-01-11 北京百度网讯科技有限公司 目标再识别方法、装置及电子设备
CN114554158A (zh) * 2022-02-28 2022-05-27 重庆长安汽车股份有限公司 一种基于道路交通场景下的全景视频拼接方法及***
CN116206332A (zh) * 2023-01-31 2023-06-02 北京数美时代科技有限公司 一种基于姿态估计的行人重识别方法、***和存储介质
CN116206332B (zh) * 2023-01-31 2023-08-08 北京数美时代科技有限公司 一种基于姿态估计的行人重识别方法、***和存储介质
CN116386145A (zh) * 2023-04-17 2023-07-04 浙江金融职业学院 一种基于双摄像头的银行内人员异常行为识别方法
CN116386145B (zh) * 2023-04-17 2023-11-03 浙江金融职业学院 一种基于双摄像头的银行内人员异常行为识别方法
CN116524602A (zh) * 2023-07-03 2023-08-01 华东交通大学 基于步态特征的换衣行人重识别方法及***
CN116524602B (zh) * 2023-07-03 2023-09-19 华东交通大学 基于步态特征的换衣行人重识别方法及***

Also Published As

Publication number Publication date
CN112733707B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN112733707B (zh) 一种基于深度学习的行人重识别方法
US20220358770A1 (en) Scene reconstruction in three-dimensions from two-dimensional images
CN107423730B (zh) 一种基于语义折叠的人体步态行为主动检测识别***和方法
CN104715493B (zh) 一种运动人体姿态估计的方法
CN111126304A (zh) 一种基于室内自然场景图像深度学习的增强现实导航方法
CN111881887A (zh) 基于多摄像头的运动姿态监测和指导方法及装置
CN105856230A (zh) 一种可提高机器人位姿一致性的orb关键帧闭环检测slam方法
CN103733227A (zh) 三维对象建模拟合与跟踪
CN113936139A (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及***
CN112750198B (zh) 一种基于非刚性点云的稠密对应预测方法
CN110598590A (zh) 基于多视角相机的紧密交互人体姿态估计方法及装置
CN114820932B (zh) 一种基于图神经网络和关系优化的全景三维场景理解方法
CN112016497A (zh) 基于人工智能的单视角太极拳动作分析及考核***
CN115900710A (zh) 基于视觉信息的动态环境导航方法
CN106815855A (zh) 基于产生式和判别式结合的人体运动跟踪方法
CN105488491A (zh) 基于金字塔匹配直方图交叉核的人体睡眠姿态检测方法
CN113160325A (zh) 基于进化算法的多摄像机高精度自动标定方法
CN117671738B (zh) 基于人工智能的人体姿态识别***
Ma et al. Human motion gesture recognition based on computer vision
CN111489392B (zh) 多人环境下单个目标人体运动姿态捕捉方法及***
Zhang et al. Body localization in still images using hierarchical models and hybrid search
Yu et al. A deep-learning-based strategy for kidnapped robot problem in similar indoor environment
CN114494594A (zh) 基于深度学习的航天员操作设备状态识别方法
CN113313824A (zh) 一种三维语义地图构建方法
CN112749585A (zh) 一种基于图卷积的骨架动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant