CN114708653A - 基于行人重识别算法的指定行人动作检索方法 - Google Patents

基于行人重识别算法的指定行人动作检索方法 Download PDF

Info

Publication number
CN114708653A
CN114708653A CN202210291238.9A CN202210291238A CN114708653A CN 114708653 A CN114708653 A CN 114708653A CN 202210291238 A CN202210291238 A CN 202210291238A CN 114708653 A CN114708653 A CN 114708653A
Authority
CN
China
Prior art keywords
pedestrian
action
backbone network
frame
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210291238.9A
Other languages
English (en)
Inventor
张伟
周鑫
陈云芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210291238.9A priority Critical patent/CN114708653A/zh
Publication of CN114708653A publication Critical patent/CN114708653A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于行人重识别算法的指定行人动作检索方法。基于行人重识别算法的指定行人动作检索方法:将视频数据的每一帧输入特征提取骨干网络,提取出帧级别的骨干网络特征图后输入行人检测分支模块,行人检测分支模块处理后输出各个行人的最终目标检测边界框;重识别分支模块对骨干网络特征图和各个行人的最终目标检测边界框进行处理并输出各个行人所在的动作特征队列;动作分类模块将各个行人所在的动作特征队列统一缩放为288*288的尺寸,并将其聚合在通道维度以提取各个行人在时间维度的信息,再进行动作分类并得到最终动作检索结果。本发明加入了行人重识别特征和可持续跟踪指定目标的动作识别结果,大大提高了检测行人的精确度。

Description

基于行人重识别算法的指定行人动作检索方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及基于行人重识别算法的指定行人动作检索方法。
背景技术
随着视频数据的日益增多,大量的计算机视觉任务被提出以对视频数据进行分析,其中人类动作识别在现实生活的多个方面有着重要的价值,得到越来越多的关注。
目前的动作识别算法主要是利用目标的运动信息来完成动作的分类,在简单的实验场景中,这种方法取得了很好的效果。但实际生活中的视频数据往往更复杂,多出现行人数量多、行人间频繁发生位置移动与交互的情况,此时继续沿用上述方法容易出现行人跟丢的问题,进而影响对行人所属动作的正确识别。这需要我们进一步挖掘外观信息在动作识别中的作用。
在人少、无遮挡的稀疏场景下,此时的外观信息只要精确到可以被行人检测子算法识别为人类这个身份即可,例如不能因为体型的差别或穿不同款式、颜色的衣服,就将做同一个动作的人分为两类。而在复杂场景中,所提取的外观信息需要丰富到足以区分出不同的行人。例如杨文浩等人提出将人脸信息作为衡量不同动作发出者间相似度的主要特征,从而减少由于行人id错误识别导致的动作误分类问题。但人脸特征在行人背对着、光照较暗、距离较远等情况下难以采集,因此需要利用更普适的行人外观特征。
另一方面,在无人商店顾客行为分析、安防场景下的搜救与嫌犯追踪等实际应用中,一般需要识别出特定行人在离散时间下的所有动作,以便再进一步分析后得出有用的信息。例如Ketan Kotecha(科坦·科塔卡)等人利用非深度学习方法度量目标间相似性,并将输入视频按照不同的行人裁剪为独立的视频片段,最后在视频片段上进行动作分类任务。但非深度学习方法泛化性差,难以在较长的时间范围内识别出同一个行人,因此需要更有效的相似性度量方法。
由此可见,现有技术中的动作识别算法一般具有由于缺乏外观特征而容易误分类的缺点,并且现有的技术无法持续跟踪指定目标的动作识别结果。
发明内容
针对以上问题,本发明提出基于行人重识别算法的指定行人动作检索方法。
为实现本发明的目的,本发明提出基于行人重识别算法的指定行人动作检索方法,包括以下步骤:
s1:将视频采集设备实时采集的视频数据的每一帧分别输入特征提取骨干网络,所述特征提取骨干网络对所述每一帧进行处理,并提取骨干网络特征图;
s2:将所述骨干网络特征图输入行人检测分支模块,行人检测分支模块对所述骨干网络特征图进行处理,并输出各个行人的最终目标检测边界框;
s3:将所述骨干网络特征图和所述各个行人的最终目标检测边界框输入重识别分支模块,所述重识别分支模块对所述骨干网络特征图和所述各个行人的最终目标检测边界框进行处理,并输出所述各个行人所在的动作特征队列;
s4:动作分类模块将所述各个行人所在的动作特征队列统一缩放为288*288的尺寸,并将其聚合在通道维度,用以提取所述各个行人在时间维度的信息,再进行动作分类并得到最终动作检索结果。
进一步地,所述步骤s1的具体过程包括:
将视频采集设备采集的视频数据中的每一帧依次输入到所述特征提取骨干网络中,所述特征提取骨干网络进行提取并得到每帧图像对应的骨干网络特征图,记为f,
Figure BDA0003560287200000021
其中,R表示实数空间,W表示所述骨干网络特征图f的宽度,H表示所述骨干网络特征图f的高度,D表示空间下采样率,B表示所述骨干网络特征图f的通道数。
进一步地,所述行人检测分支模块包括:边界框中心点预测头部子网络、边界框尺寸预测头部子网络和中心点偏移量预测头部子网络;
所述边界框中心点预测头部子网络、边界框尺寸预测头部子网络和中心点偏移量预测头部子网络分别通过实际样本训练获得;
所述步骤s2的具体过程包括:
将所述骨干网络特征图f输入所述边界框中心点预测头部子网络,所述边界框中心点预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的热力图
Figure BDA0003560287200000022
Figure BDA0003560287200000023
对所述各个行人的热力图
Figure BDA0003560287200000024
使用损失函数focal loss:
Figure BDA0003560287200000025
其中,x和y分别表示输出的所述各个行人的热力图
Figure BDA0003560287200000031
中每个元素的横坐标和纵坐标,α和β表示控制中心点贡献权重的超参数,
Figure BDA0003560287200000032
表示以坐标(x,y)为中心点存在行人目标的概率,Lx,y表示以坐标(x,y)为中心点存在行人目标的真实概率;
将所述骨干网络特征图f输入所述边界框尺寸预测头部子网络,所述边界框尺寸预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框尺寸
Figure BDA0003560287200000033
Figure BDA0003560287200000034
对所述各个行人的边界框尺寸
Figure BDA0003560287200000035
使用最小绝对值偏差损失函数l1:
Figure BDA0003560287200000036
其中,i∈[1,N],表示行人的索引,si表示第i个行人边界框尺寸的真实值,
Figure BDA0003560287200000037
表示第i个行人边界框尺寸的预测值,N表示当前帧中的行人数量,lsize即最小绝对值偏差损失函数l1,size表示此处用来约束边界框尺寸的预测;
将所述骨干网络特征图f输入所述中心点偏移量预测头部子网络,所述中心点偏移量预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框中心点在长和宽这两个维度上的偏移量
Figure BDA0003560287200000038
对所述各个行人的边界框中心点在长和宽这两个维度上的偏移量
Figure BDA0003560287200000039
使用最小绝对值偏差损失函数l1:
Figure BDA00035602872000000310
loff即最小绝对值偏差损失函数l1,off表示其所属的网络,oi表示第i个行人真实的量化偏移量;
Figure BDA00035602872000000311
表示预测的第i个行人的量化偏移量;
将所述各个行人对应的所述热力图
Figure BDA00035602872000000312
边界框尺寸
Figure BDA00035602872000000313
和边界框中心点在长和宽这两个维度上的偏移量
Figure BDA00035602872000000314
组合为所述各个行人的候选目标检测边界框,再使用NMS算法对所述各个行人的候选目标检测边界框进行去重并筛选掉置信度低于阈值0.8的边界框后,得到所述各个行人的最终目标检测边界框。
进一步地,所述重识别分支模块包括:第一预处理模块、第一卷积层、全局平均池化层和后处理模块,所述第一卷积层的卷核大小为128;所述重识别分支模块通过实际样本训练获得;
所述步骤s3的具体过程包括:
所述第一预处理模块根据所述各个行人的最终目标检测边界框,从所述每帧图像对应的骨干网络特征图f中裁剪出各个行人的目标特征图PF,j,其中,F表示帧数,j表示本帧中的行人标号;
所述第一卷积层对所述各个行人的目标特征图PF,j再次进行特征提取并得到通道数为128的目标特征图P′F,j,所述平均池化层将所述通道数为128的目标特征图P′F,j中每个通道的目标特征图中所有像素相加求平均,并得到长度为128的所述各个行人的空间嵌入特征EF,j,EF,j∈R128,其中,EF,j表示本帧图像第j个行人对应的空间嵌入特征;
所述后处理模块将所述各个行人的空间嵌入特征EF,j与上一帧中所述各个行人的空间嵌入特征EF-1,j逐一对比,选择度量距离最小的作为匹配目标,再将所述各个行人的目标特征图PF,j存入匹配目标中对应行人id所在的动作特征队列QP,id,其中,E表示存储的数据是各个行人的空间嵌入特征,P表示存储的数据是所述各个行人的最终目标检测边界框中的区域图像。
进一步地,所述动作分类模块包括:第二预处理模块、第二卷积层组和多个全连接层;所述动作分类模块通过实际样本训练获得;
所述步骤s4的具体过程包括:
所述第二预处理模块将长度为K的所述动作特征队列QP,id统一缩放为288*288的尺寸,并将其聚合在通道维度以便提取所述各个行人在时间维度的信息;再经过所述第二卷积层组和多个全连接层,输出特征向量A,A∈[0,1]num_action,即对于各个行人所属类别的预测向量,也就是最终动作检索结果,其中,num_action表示数据集中的动作种类数量。
跟现有技术相比,本发明具有以下有益的技术效果:
本发明在普通的动作识别算法中融合了行人重识别嵌入特征,采取了可端到端训练与优化的多任务架构,解决了一般的动作识别算法中由于缺乏外观特征而容易误分类的缺点。进一步的,为了满足日益增长的对视频数据中指定行人的精细化跟踪、检索与分析需求,本发明在利用指定行人的图像检索出视频中的行人后,可持续跟踪指定行人的动作识别结果,用于进一步高级语义上的引用与分析;同时,所采用的先检索行人再进行动作识别的策略可大大减少所需的计算量。
附图说明
图1是一个实施例的基于重识别算法的指定行人动作检索方法的流程示意图;
图2是一个实施例的指定单个行人进行动作检索的流程示意图;
图3是一个实施例的通过选择查询图像中部分特征进行群体动作检索的流程示意图;
图4是一个实施例的群体动作检索方法中基于属性的行人重识别模型架构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参考图1所示,图1为一个实施例的基于重识别算法的指定行人动作检索方法的流程示意图。
在该实施例中,基于行人重识别算法的指定行人动作检索方法,包括以下步骤:
s1:将视频采集设备实时采集的视频数据的每一帧分别输入特征提取骨干网络,所述特征提取骨干网络对所述每一帧进行处理,并提取骨干网络特征图;
s2:将所述骨干网络特征图输入行人检测分支模块,行人检测分支模块对所述骨干网络特征图进行处理,并输出各个行人的最终目标检测边界框;
s3:将所述骨干网络特征图和所述各个行人的最终目标检测边界框输入重识别分支模块,所述重识别分支模块对所述骨干网络特征图和所述各个行人的最终目标检测边界框进行处理,并输出所述各个行人所在的动作特征队列;
s4:动作分类模块将所述各个行人所在的动作特征队列统一缩放为288*288的尺寸,并将其聚合在通道维度,用以提取所述各个行人在时间维度的信息,再进行动作分类并得到最终动作检索结果。
在一个实施例中,所述步骤s1的具体过程包括:
将视频采集设备采集的视频数据中的每一帧依次输入到所述特征提取骨干网络中,所述特征提取骨干网络进行提取并得到每帧图像对应的骨干网络特征图,记为f,
Figure BDA0003560287200000061
其中,R表示实数空间,W表示所述骨干网络特征图f的宽度,H表示所述骨干网络特征图f的高度,D表示空间下采样率,B表示所述骨干网络特征图f的通道数。
在一个实施例中,所述行人检测分支模块包括:边界框中心点预测头部子网络、边界框尺寸预测头部子网络和中心点偏移量预测头部子网络;
所述边界框中心点预测头部子网络、边界框尺寸预测头部子网络和中心点偏移量预测头部子网络分别通过实际样本训练获得;
所述步骤s2的具体过程包括:
将所述骨干网络特征图f输入所述边界框中心点预测头部子网络,所述边界框中心点预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的热力图
Figure BDA0003560287200000062
Figure BDA0003560287200000063
对所述各个行人的热力图
Figure BDA0003560287200000064
使用损失函数focal loss:
Figure BDA0003560287200000065
其中,x和y分别表示输出的所述各个行人的热力图
Figure BDA0003560287200000066
中每个元素的横坐标和纵坐标,α和β表示控制中心点贡献权重的超参数,
Figure BDA0003560287200000067
表示以坐标(x,y)为中心点存在行人目标的概率,Lx,y表示以坐标(x,y)为中心点存在行人目标的真实概率;
将所述骨干网络特征图f输入所述边界框尺寸预测头部子网络,所述边界框尺寸预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框尺寸
Figure BDA0003560287200000068
Figure BDA0003560287200000069
对所述各个行人的边界框尺寸
Figure BDA00035602872000000610
使用最小绝对值偏差损失函数l1:
Figure BDA00035602872000000611
其中,i∈[1,N],表示行人的索引,si表示第i个行人边界框尺寸的真实值,
Figure BDA00035602872000000612
表示第i个行人边界框尺寸的预测值,N表示当前帧中的行人数量,lsize即最小绝对值偏差损失函数l1,size表示此处用来约束边界框尺寸的预测;
将所述骨干网络特征图f输入所述中心点偏移量预测头部子网络,所述中心点偏移量预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框中心点在长和宽这两个维度上的偏移量
Figure BDA00035602872000000613
对所述各个行人的边界框中心点在长和宽这两个维度上的偏移量
Figure BDA00035602872000000614
使用最小绝对值偏差损失函数l1:
Figure BDA0003560287200000071
loff即最小绝对值偏差损失函数l1,off表示其所属的网络,oi表示第i个行人真实的量化偏移量;
Figure BDA0003560287200000072
表示预测的第i个行人的量化偏移量;
将所述各个行人对应的所述热力图
Figure BDA0003560287200000073
边界框尺寸
Figure BDA0003560287200000074
和边界框中心点在长和宽这两个维度上的偏移量
Figure BDA0003560287200000075
组合为所述各个行人的候选目标检测边界框,再使用NMS算法对所述各个行人的候选目标检测边界框进行去重并筛选掉置信度低于阈值0.8的边界框后,得到所述各个行人的最终目标检测边界框。
在一个实施例中,所述重识别分支模块包括:第一预处理模块、第一卷积层、全局平均池化层和后处理模块,所述第一卷积层的卷核大小为128;所述重识别分支模块通过实际样本训练获得;
所述步骤s3的具体过程包括:
所述第一预处理模块根据所述各个行人的最终目标检测边界框,从所述每帧图像对应的骨干网络特征图f中裁剪出各个行人的目标特征图PF,j,其中,F表示帧数,j表示本帧中的行人标号;
所述第一卷积层对所述各个行人的目标特征图PF,j再次进行特征提取并得到通道数为128的目标特征图P′F,j,所述平均池化层将所述通道数为128的目标特征图P′F,j中每个通道的目标特征图中所有像素相加求平均,并得到长度为128的所述各个行人的空间嵌入特征EF,j,EF,j∈R128,其中,EF,j表示本帧图像第j个行人对应的空间嵌入特征;
所述后处理模块将所述各个行人的空间嵌入特征EF,j与上一帧中所述各个行人的空间嵌入特征EF-1,j逐一对比,选择度量距离最小的作为匹配目标,再将所述各个行人的目标特征图PF,j存入匹配目标中对应行人id所在的动作特征队列QP,id,其中,E表示存储的数据是各个行人的空间嵌入特征,P表示存储的数据是所述各个行人的最终目标检测边界框中的区域图像。
在一个实施例中,所述动作分类模块包括:第二预处理模块、第二卷积层组和多个全连接层;所述动作分类模块通过实际样本训练获得;
所述步骤s4的具体过程包括:
所述第二预处理模块将长度为K的所述动作特征队列QP,id统一缩放为288*288的尺寸,并将其聚合在通道维度以便提取所述各个行人在时间维度的信息;再经过所述第二卷积层组和多个全连接层,输出特征向量A,A∈[0,1]num_action,即对于各个行人所属类别的预测向量,也就是最终动作检索结果,其中,num_action表示数据集中的动作种类数量。
作为对上述基于行人重识别算法的指定行人动作检索方法的实际应用,下面针对分析单个行人动作序列的应用场景对本发明实施例进行介绍。如图2所示,指定单个行人进行动作检索的步骤包括:
将确定好的查询图片提取帧级别的骨干网络特征图后,输入训练好的行人重识别分支模块中,经过一个卷积核大小为128的卷积层提取特征后,再经过一个全局平均池化层,得到查询嵌入特征EQuery,i∈R128,其中i∈Nq,表示同一个行人的多张查询图片。
具体地,使用行人检测分支模块检测待查询视频中所有行人,提取所有行人的空间嵌入特征,并提供候选查询库以便用户人工更新查询空间嵌入特征。
对于输入视频中的每一帧都使用特征提取骨干网络提取帧级别的骨干网络特征图f,并经过行人检测分支模块以输出每个行人的边界框。并根据各个行人的边界框将行人对应区域从原始图像中裁剪出来,表示为IF,j,F表示帧数,j表示本帧中的行人标号。
根据各个目标的边界框将目标特征图从骨干网络特征图f中裁剪出来,表示为PF,j,F表示帧数,j表示本帧中的目标标号;PF,j经过一个卷积核大小为128的卷积层进一步提取特征后,再经过一个全局平均池化层,得到目标的空间嵌入特征EF,j∈R128
将IF,j、EF,j存储在候选查询库中,存储格式为(F,IF,j,EF,j),一般只存储最近30帧的数据,IF,j为可视的RGB图像,用于直接向用户展示可能为查询目标的图像。当IF,j同样属于查询目标,且用户认为本截图的加入可以使得查询效果更好,则可以将IF,j对应的EF,j加入EQuery中作为补充的查询嵌入特征。
根据查询嵌入特征EQuery和本帧所有行人的空间嵌入特征EF,j做相似性对比,若大于设定的阈值0.9,则认为候选目标和查询图片属于同一人,进入下一步;否则直接丢弃候选目标对应的数据。
将新一帧候选目标的特征存入长度为K的动作识别特征队列QP,id进行特征变换,经过分类网络后输出的特征向量A∈[0,1]num_action即为对目标所属类别的预测向量,取其中预测值最大的类别作为动作分类结果,表示为clsF
将动作分类结果clsF与目标检测边界框BF,id组合为单人动作检索结果,并按时间顺序记录所查询目标的动作检测结果。每个输入视频帧都应该对应一条检索记录,格式为(F,clsF,BF,id),在整个过程结束后,可以将检索记录进行合并,将相邻且动作分类结果相同的记录合并为一条,合并后的记录格式为(Nlast,clsF,BF,id),其中Nlast表示动作持续帧数。
上述图2着重以指定单个行人进行动作检索为例进行说明,作为对上述图2所示方法的对应,下面通过选择查询图像中部分特征进行群体动作检索来对本发明实施例进行介绍。如图3所示,具体步骤如下:
训练基于属性的行人重识别模型。数据集采用Market-1501_Attribute,其在ID级别上注释了27个属性,比如性别、提包、年龄等等。由于只是在ID级别上进行标注,所以只需要在原来的行人重识别模型最后添加27个全连接层,进行二分类,即可预测属性值,模型架构图如图4所示:Market-1501_Attribute数据集包含1501个目标,即ID数量为1501个。在训练时,首先将输入图片经过特征提取骨干网络,以提取帧级别的骨干网络特征图;之后将行人重识别任务分为两个子任务来处理。第一个子任务即行人ID分类子任务,将空间嵌入特征经过全连接层和激活函数后得到长度为1501的行人ID分类向量,取预测值最大的类别为分类结果,完成行人ID分类子任务。第二个子任务即行人属性分类子任务,对于27种属性中的每一个属性,将空间嵌入特征经过全连接层和激活函数后得到长度为2的行人属性分类向量,向量中的两个预测值分别表示行人具有这种属性的可能性和行人不具有这种属性的可能性,取最大的预测值作为分类结果,完成行人属性分类子任务。
确定查询图片,通过上一步训练好的行人重识别(Re-ID)模型,输出其空间嵌入特征EQuery,i∈R128与属性值Patt。接着从预测结果中选择需要的属性,比如现有预测属性值:young、girl、short hair、black cloths、long-sleeve cloths、white pants、shortpants,但用户需要索引的群体只需要girl、black cloths、white pants这几个属性,则将筛选后的属性值
Figure BDA0003560287200000091
与查询嵌入特征EQuery一起构成目标群体检索依据。
使用行人检测分支模块检测待查询视频中所有行人,提取所有行人的空间嵌入特征EF,j与属性值PF,j,并更新候选查询库与目标群体检索依据。
使用双重检索标准来筛选候选目标,得到符合标准的目标群体。首先将查询嵌入特征EQuery和本帧所有行人的空间嵌入特征EF,j做相似性对比,若大于设定的阈值0.5,则认为候选目标基本属于目标群体,进入下一步;否则直接丢弃候选目标对应的数据。其次判断候选目标属性值PF,j是否包含
Figure BDA0003560287200000101
若符合条件则进入下一步;否则直接丢弃候选目标对应的数据。
将群体内各目标的空间嵌入特征与各个空间嵌入特征队列队尾的数据进行相似度度量,若相似度大于设定的阈值0.9,则说明为同一个人,进入下一步;否则视为新目标加入视频,开启新的特征队列。
将新一帧候选行人的目标特征图存入长度为K的动作识别特征队列QP,id进行特征变换,经过分类网络后输出的特征向量A∈[0,1]num_action即为对目标所属类别的预测向量,取其中预测值最大的类别作为动作分类结果,表示为clsF
将群体内每个人的动作分类结果clsF与目标检测边界框BF,id进行组合,以便用户统计分析。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本申请实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (5)

1.基于行人重识别算法的指定行人动作检索方法,其特征在于,包括以下步骤:
s1:将视频采集设备实时采集的视频数据的每一帧分别输入特征提取骨干网络,所述特征提取骨干网络对所述每一帧进行处理,并提取骨干网络特征图;
s2:将所述骨干网络特征图输入行人检测分支模块,行人检测分支模块对所述骨干网络特征图进行处理,并输出各个行人的最终目标检测边界框;
s3:将所述骨干网络特征图和所述各个行人的最终目标检测边界框输入重识别分支模块,所述重识别分支模块对所述骨干网络特征图和所述各个行人的最终目标检测边界框进行处理,并输出所述各个行人所在的动作特征队列;
s4:动作分类模块将所述各个行人所在的动作特征队列统一缩放为288*288的尺寸,并将其聚合在通道维度,用以提取所述各个行人在时间维度的信息,再进行动作分类并得到最终动作检索结果。
2.根据权利要求1所述的基于行人重识别算法的指定行人动作检索方法,其特征在于,所述步骤s1的具体过程包括:
将视频采集设备采集的视频数据中的每一帧依次输入到所述特征提取骨干网络中,所述特征提取骨干网络进行提取并得到每帧图像对应的骨干网络特征图,记为f,
Figure FDA0003560287190000011
其中,R表示实数空间,W表示所述骨干网络特征图f的宽度,H表示所述骨干网络特征图f的高度,D表示空间下采样率,B表示所述骨干网络特征图f的通道数。
3.根据权利要求2所述的基于行人重识别算法的指定行人动作检索方法,其特征在于,
所述行人检测分支模块包括:边界框中心点预测头部子网络、边界框尺寸预测头部子网络和中心点偏移量预测头部子网络;
所述边界框中心点预测头部子网络、边界框尺寸预测头部子网络和中心点偏移量预测头部子网络分别通过实际样本训练获得;
所述步骤s2的具体过程包括:
将所述骨干网络特征图f输入所述边界框中心点预测头部子网络,所述边界框中心点预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的热力图
Figure FDA0003560287190000012
Figure FDA0003560287190000013
对所述各个行人的热力图
Figure FDA0003560287190000014
使用损失函数focal loss:
Figure FDA0003560287190000021
其中,x和y分别表示输出的所述各个行人的热力图
Figure FDA0003560287190000022
中每个元素的横坐标和纵坐标,α和β表示控制中心点贡献权重的超参数,
Figure FDA0003560287190000023
表示以坐标(x,y)为中心点存在行人目标的概率,Lx,y表示以坐标(x,y)为中心点存在行人目标的真实概率;
将所述骨干网络特征图f输入所述边界框尺寸预测头部子网络,所述边界框尺寸预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框尺寸
Figure FDA0003560287190000024
Figure FDA0003560287190000025
对所述各个行人的边界框尺寸
Figure FDA0003560287190000026
使用最小绝对值偏差损失函数l1:
Figure FDA0003560287190000027
其中,i∈[1,N],表示行人的索引,si表示第i个行人边界框尺寸的真实值,
Figure FDA0003560287190000028
表示第i个行人边界框尺寸的预测值,N表示当前帧中的行人数量,lsize即最小绝对值偏差损失函数l1,size表示此处用来约束边界框尺寸的预测;
将所述骨干网络特征图f输入所述中心点偏移量预测头部子网络,所述中心点偏移量预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框中心点在长和宽这两个维度上的偏移量
Figure FDA0003560287190000029
Figure FDA00035602871900000210
对所述各个行人的边界框中心点在长和宽这两个维度上的偏移量
Figure FDA00035602871900000211
使用最小绝对值偏差损失函数l1:
Figure FDA00035602871900000212
loff即最小绝对值偏差损失函数l1,off表示其所属的网络,oi表示第i个行人真实的量化偏移量;
Figure FDA00035602871900000213
表示预测的第i个行人的量化偏移量;
将所述各个行人对应的所述热力图
Figure FDA00035602871900000214
边界框尺寸
Figure FDA00035602871900000215
和边界框中心点在长和宽这两个维度上的偏移量
Figure FDA00035602871900000216
组合为所述各个行人的候选目标检测边界框,再使用NMS算法对所述各个行人的候选目标检测边界框进行去重并筛选掉置信度低于阈值0.8的边界框后,得到所述各个行人的最终目标检测边界框。
4.根据权利要求3所述的基于行人重识别算法的指定行人动作检索方法,其特征在于,
所述重识别分支模块包括:第一预处理模块、第一卷积层、全局平均池化层和后处理模块,所述第一卷积层的卷核大小为128;所述重识别分支模块通过实际样本训练获得;
所述步骤s3的具体过程包括:
所述第一预处理模块根据所述各个行人的最终目标检测边界框,从所述每帧图像对应的骨干网络特征图f中裁剪出各个行人的目标特征图PF,j,其中,F表示帧数,j表示本帧中的行人标号;
所述第一卷积层对所述各个行人的目标特征图PF,j再次进行特征提取并得到通道数为128的目标特征图P’F,j,所述平均池化层将所述通道数为128的目标特征图P’F,j中每个通道的目标特征图中所有像素相加求平均,并得到长度为128的所述各个行人的空间嵌入特征EF,j,EF,j∈R128,其中,EF,j表示本帧图像第j个行人对应的空间嵌入特征;
所述后处理模块将所述各个行人的空间嵌入特征EF,j与上一帧中所述各个行人的空间嵌入特征EF-1,j逐一对比,选择度量距离最小的作为匹配目标,再将所述各个行人的目标特征图PF,j存入匹配目标中对应行人id所在的动作特征队列QP,id,其中,E表示存储的数据是各个行人的空间嵌入特征,P表示存储的数据是所述各个行人的最终目标检测边界框中的区域图像。
5.根据权利要求4所述的基于行人重识别算法的指定行人动作检索方法,其特征在于,
所述动作分类模块包括:第二预处理模块、第二卷积层组和多个全连接层;所述动作分类模块通过实际样本训练获得;
所述步骤s4的具体过程包括:
所述第二预处理模块将长度为K的所述动作特征队列QP,id统一缩放为288*288的尺寸,并将其聚合在通道维度以便提取所述各个行人在时间维度的信息;再经过所述第二卷积层组和多个全连接层,输出特征向量A,A∈[0,1]num_action,即对于各个行人所属类别的预测向量,也就是最终动作检索结果,其中,num_action表示数据集中的动作种类数量。
CN202210291238.9A 2022-03-23 2022-03-23 基于行人重识别算法的指定行人动作检索方法 Pending CN114708653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210291238.9A CN114708653A (zh) 2022-03-23 2022-03-23 基于行人重识别算法的指定行人动作检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210291238.9A CN114708653A (zh) 2022-03-23 2022-03-23 基于行人重识别算法的指定行人动作检索方法

Publications (1)

Publication Number Publication Date
CN114708653A true CN114708653A (zh) 2022-07-05

Family

ID=82167884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210291238.9A Pending CN114708653A (zh) 2022-03-23 2022-03-23 基于行人重识别算法的指定行人动作检索方法

Country Status (1)

Country Link
CN (1) CN114708653A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116094A (zh) * 2022-07-08 2022-09-27 福州大学 基于样本增强与实例感知的真实场景行人检索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116094A (zh) * 2022-07-08 2022-09-27 福州大学 基于样本增强与实例感知的真实场景行人检索方法

Similar Documents

Publication Publication Date Title
CN112560999B (zh) 一种目标检测模型训练方法、装置、电子设备及存储介质
CN108596277B (zh) 一种车辆身份识别方法、装置和存储介质
CN105469029B (zh) 用于对象再识别的***和方法
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
JP5537557B2 (ja) 事象毎に意味論的に分類する方法
Parham et al. Animal population censusing at scale with citizen science and photographic identification
CN110807434A (zh) 一种基于人体解析粗细粒度结合的行人重识别***及方法
US20150110387A1 (en) Method for binary classification of a query image
CN111178251A (zh) 一种行人属性识别方法及***、存储介质及终端
CN111274926B (zh) 图像数据筛选方法、装置、计算机设备和存储介质
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN108647703B (zh) 一种基于显著性的分类图像库的类型判断方法
CN113762326A (zh) 一种数据识别方法、装置、设备及可读存储介质
CN113283282A (zh) 一种基于时域语义特征的弱监督时序动作检测方法
CN115439884A (zh) 一种基于双分支自注意力网络的行人属性识别方法
CN110688512A (zh) 基于ptgan区域差距与深度神经网络的行人图像搜索算法
CN110956157A (zh) 基于候选框选择的深度学习遥感影像目标检测方法及装置
CN114708653A (zh) 基于行人重识别算法的指定行人动作检索方法
Park et al. Intensity classification background model based on the tracing scheme for deep learning based CCTV pedestrian detection
Ahmed et al. Semantic region of interest and species classification in the deep neural network feature domain
CN115050044B (zh) 一种基于MLP-Mixer的跨模态行人重识别方法
CN112651996B (zh) 目标检测跟踪方法、装置、电子设备和存储介质
CN115393802A (zh) 一种基于小样本学习的铁路场景不常见入侵目标识别方法
Dutra et al. Re-identifying people based on indexing structure and manifold appearance modeling
CN115115981A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination