CN115063836A - 一种基于深度学习的行人跟踪与重识别方法 - Google Patents

一种基于深度学习的行人跟踪与重识别方法 Download PDF

Info

Publication number
CN115063836A
CN115063836A CN202210657848.6A CN202210657848A CN115063836A CN 115063836 A CN115063836 A CN 115063836A CN 202210657848 A CN202210657848 A CN 202210657848A CN 115063836 A CN115063836 A CN 115063836A
Authority
CN
China
Prior art keywords
pedestrian
matching
tracking
track
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210657848.6A
Other languages
English (en)
Inventor
王璇
宋永超
吕骏
王莹洁
徐金东
赵金东
阎维青
雷明威
李凯强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai University
Original Assignee
Yantai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai University filed Critical Yantai University
Priority to CN202210657848.6A priority Critical patent/CN115063836A/zh
Publication of CN115063836A publication Critical patent/CN115063836A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于深度学习的行人跟踪与重识别方法,包括以下步骤;步骤1:对视频图像逐帧进行行人目标检测;步骤2:采用DeepSort模型对步骤1中每帧检测到的行人进行特征提取,生成.npy文件;步骤3:采用Fastreid进行行人重识别检测,根据预设的行人图片底库进行特征提取,生成.npy文件;步骤4:将每个行人目标的特征提取结果与特定行人底库的特征提取结果进行余弦相似度计算,如果大于阈值γ,则判别为需要重识别的特定行人目标,并进行行人的跟踪,否则不进行目标跟踪;本发明可精确定位出跨时间、跨区域、跨摄像头的特定行人,并可通过实时视频进行推理与检测,并通过一系列的改进达到最优的效果,最终完成项目落地,以后可普遍应用于智能监控、智能安防等***。

Description

一种基于深度学习的行人跟踪与重识别方法
技术领域
本发明属于智能监控安防技术领域,具体涉及一种基于深度学习的行人跟踪与重识别方法。
背景技术
随着科技的发展,监控视频已被广泛应用于商业、安防、搜寻等领域,在人们的日常生活中占据着非常重要的作用。自人脸识别技术兴起之后的行人重识别技术,已经发展为计算机视觉的一个主要方向。虽然人脸识别技术发展较为成熟,但在比如高密度人群、捕捉摄像头的分辨率较低或是摄像头角度偏等情况下,采用人脸识别技术往往无法发挥出理想的效果,但人重识别技术可以继续发挥重要作用,及时定位并识别出监控视频中的特定的行人,对于刑事案件的侦查、失踪人士的搜索营救等方面具有很重要的意义。
到当前为止,国内外人工智能领域的企业在行人重识别技术中都有深入研究,目前行人重识别还存在以下研究难点和问题:
(1)真实世界的行人会存在障碍物遮挡、白天到夜间、服饰改变等复杂多变的情形,实验算法的精度难以达到。
(2)跨区域识别存在安全隐私问题,数据集的获取比较困难,即如何在样本不均衡的条件下尽可能的得到鲁棒性高的模型算法极具挑战性。
(3)跨摄像头追踪时,受制于摄像头的改变,光线明暗、障碍物遮挡、摄像头清晰度都会随之发生改变,如何不受跟踪范围的限制仍能够识别到相同的目标是行人重识别技术亟需解决的问题。
发明内容
为了克服以上技术问题,本发明提供了一种基于深度学习的行人跟踪与重识别方法,该方法结合改进的YOLOv5-Lite目标检测算法和改进的Deepsort目标跟踪算法,可精确定位出跨时间、跨区域、跨摄像头的特定行人,并可通过实时视频进行推理与检测,并通过一系列的改进措施使***模型达到最优的效果,该方法可普遍应用于智能监控、智能安防等***应用。
为了实现上述目的,本发明采用如下技术方案:
一种基于深度学习的行人跟踪与重识别方法,包括以下步骤;
步骤1:采用改进的YOLOv5-Lite模型对视频图像逐帧进行行人目标检测;
步骤2:采用DeepSort模型对步骤1中每帧检测到的行人进行特征提取,生成.npy文件;
步骤3:采用Fastreid进行行人重识别检测,根据预设的行人图片底库进行特征提取,生成.npy文件;
步骤4:将步骤2中每个行人目标的特征提取结果与步骤3的特定行人底库的特征提取结果进行余弦相似度计算,公式如(1)所示,x1和x2为两个非0向量,如果大于阈值γ,则判别为需要重识别的特定行人目标,并进行利用改进的Deepsort模型的跟踪策略进行行人的跟踪,否则不进行目标跟踪。
Figure BDA0003689045630000031
进一步的,所述步骤1包括如下子步骤:
步骤1.1:将数据集的图片输入改进后的YOLOv5-Lite模型网络结构,在YOLOv5-Lite的基础上加入了BiFPN模块,BiFPN实现跨尺度双向连接和快速归一化的结合,输入不同的特征权重,让网络自行学习,其采用Softmax-based fusion的方式,将权重归一化到0和1之间如公式(2):
Figure BDA0003689045630000032
其中,wi和wj为可学习权重;
步骤1.2:利用该卷积神经网络对图片进行特征提取,随后输出特征图,同时图片被划分为小方块并生成锚框,将标注的预测框和特征图进行关联,最后建立损失函数并开启端到端的训练,其中损失函数如公式(3)所示。
Figure BDA0003689045630000033
其中
Figure BDA0003689045630000034
代表了预测框和真实框的中心点的欧式距离,c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。v用来衡量两个矩形框相对比例的一致性,α是权重系数:
Figure BDA0003689045630000035
进一步的,所述步骤3包括如下子步骤:
步骤3.1:输入图片经过预处理之后,调用预训练模型ResNet50作为Backbone,随后通过Gem Pooling,将输出的特征图以聚合的方式,通过一个特征向量来代表一个目标,再经过Bnneck模块将前面所获得的特征向量做一定变化,最后定义Triplet loss来学习分类内的相像性和类内的区分度,使得不同的特征向量之间直接区分度更明显,而相同的特征向量之间更加趋同。
所述Triplet loss输入是一个三元组,包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例,通过优化锚示例与正示例的距离小于锚示例与负示例的距离,实现样本之间的相似性计算,a:anchor,锚示例;p:positive,与a是同一类别的样本;n:negative,与a是不同类别的样本;margin是一个大于0的常数:
L=max(d(a,p)-d(a,n)+margin,0)(5)
进一步的,所述步骤4中的跟踪策略包括如下子步骤:
步骤4.1:对选定重识别的特定行人目标利用NSA卡尔曼滤波算法进行跟踪,具体是以指数移动平均的方式更新帧t处第i个轨迹的外观状态
Figure BDA0003689045630000041
Figure BDA0003689045630000042
其中fi t是当前匹配检测的外观嵌入,并且α=0.9是动量项。
同时加入了自适应噪声,用来加强跟踪的鲁棒性,其中自适应噪声的协方差
Figure BDA0003689045630000043
如公式(7)所示:
Figure BDA0003689045630000044
其中Rk是预先设定的常量测噪声协方差,ck是状态k下的检测置信度分数,并且在匹配过程中不再只使用外观特征距离,而是同时考虑外观和运动信息;
采用普通的全局线性分配来代替匹配级联,其中,分配矩阵C是外观成本Aa和动作成本Am的加权和:
C=λAa+(1-λ)Am (8)
其中权重因子λ设置为0.98;
步骤4.2:跟踪轨迹通过卡尔曼滤波算法预测之后,会对当前帧预测一个轨迹,如果预测出确认(行人或车),就对当前帧进行detection(检测),然后将检测框和已经确认的轨迹框做级联匹配,匹配完成之后将更新跟踪的检测框;
如果轨迹匹配失败,再进IoU匹配,如果能匹配成功,随后再进行更新,然后重复预测——观测——更新的跟踪过程。IoU匹配失败分为观测匹配失败和轨迹匹配失败:对于观测匹配失败,此时采用对其建立一个新的轨迹的方法,之后对其进行三次考察,如果依旧是实际目标(行人或车)则修改为确认;对于轨迹匹配失败,此时判断其是否是已被确认为行人或车,如果是未被确认的状态,就将其删除,反之,为其设置一个阈值,如果大于阈值max_age,则将其删除,认为其已移出观测范围,如果小于阈值,同样再对其进行三次考察,回到最开始的阶段。
本发明的有益效果。
本发明实现了对特定行人目标的实时跟踪与重识别。与改进前的算法相比,YOLOv5-Lite检测模块模型在保持平均精确度的同时,识别准确度上有了3%的提升,检测精度可达92%;Deepsort跟踪模块模型在评价跟踪性能的各项指标上均有不同幅度的提升,获得了更优的跟踪效果;优化了Fastreid重识别模块的特征提取逻辑,使其算法速度有了跨越式提高;本发明提出的整体模型在实时检测时能够达到较高的精度,因而能满足实际视频监控的需求,具有广阔的应用前景。
附图说明:
图1行人重识别***的整体流程
图2改进后的YOLOv5-Lite模型网络结构。
图3跟踪算法Deepsort改进策略图。
图4待检测行人图片,自左至右分别命名为bag、red。
图5行人bag在区域1重识别效果。
图6行人red在区域1重识别效果。
图7行人bag在区域2重识别效果。
图8行人red在区域2重识别效果。
具体实施方式
下面将结合本发明实施例中的附图和附表,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于深度学习的行人跟踪与重识别方法,包括以下步骤;
步骤1:采用改进的YOLOv5-Lite模型对视频图像逐帧进行行人目标检测;
步骤2:采用DeepSort模型对步骤1中每帧检测到的行人进行特征提取,生成.npy文件;
步骤3:采用Fastreid进行行人重识别检测,根据预设的行人图片底库进行特征提取,生成.npy文件;
步骤4:将步骤2中每个行人目标的特征提取结果与步骤3的特定行人底库的特征提取结果进行余弦相似度计算,公式如(1)所示,如果大于阈值γ,则判别为需要重识别的特定行人目标,并进行利用改进的Deepsort模型的跟踪策略进行行人的跟踪,否则不进行目标跟踪
Figure BDA0003689045630000071
所述步骤1包括如下子步骤:
步骤1.1:将数据集的图片输入改进后的YOLOv5-Lite模型网络结构,如图2所示。本发明在原有YOLOv5-Lite的基础上加入了BiFPN模块(一种加权双向特征金字塔网络),有效的加强了特征提取。BiFPN实现跨尺度双向连接和快速归一化的结合,输入不同的特征权重,让网络自行学习,其采用Softmax-based fusion的方式,将权重归一化到0和1之间如公式(2):
Figure BDA0003689045630000072
其中,wi和wj为可学习权重。
步骤1.2:利用该卷积神经网络对图片进行特征提取,随后输出特征图,同时图片被划分为小方块并生成锚框,将标注的预测框和特征图进行关联,最后建立损失函数并开启端到端的训练,其中损失函数如公式(3)所示。
Figure BDA0003689045630000081
其中
Figure BDA0003689045630000082
代表了预测框和真实框的中心点的欧式距离。c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。v用来衡量两个矩形框相对比例的一致性,α是权重系数:
Figure BDA0003689045630000083
所述步骤3包括如下子步骤:
步骤3.1:输入图片经过预处理之后,调用预训练模型ResNet50作为Backbone,随后通过Gem Pooling,将输出的特征图以聚合的方式,通过一个特征向量来代表一个目标,再经过Bnneck模块将前面所获得的特征向量做一定变化,最后定义Triplet loss来学习分类内的相像性和类内的区分度,使得不同的特征向量之间直接区分度更明显,而相同的特征向量之间更加趋同。
Triplet loss输入是一个三元组,包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例,通过优化锚示例与正示例的距离小于锚示例与负示例的距离,实现样本之间的相似性计算,a:anchor,锚示例;p:positive,与a是同一类别的样本;n:negative,与a是不同类别的样本;margin是一个大于0的常数:
L=max(d(a,p)-d(a,n)+margin,0) (5)
本发明改进了DeepSort中的跟踪策略,上述步骤4中的跟踪策略包括如下子步骤:
步骤4.1:对选定重识别的特定行人目标利用NSA卡尔曼滤波算法进行跟踪。具体是以指数移动平均的方式更新帧t处第i个轨迹的外观状态
Figure BDA0003689045630000091
Figure BDA0003689045630000092
其中fi t是当前匹配检测的外观嵌入,并且α=0.9是动量项。
该算法中同时加入了自适应噪声,用来加强跟踪的鲁棒性。其中自适应噪声的协方差
Figure BDA0003689045630000093
如公式(7)所示:
Figure BDA0003689045630000094
其中Rk是预先设定的常量测噪声协方差,ck是状态k下的检测置信度分数,并且在匹配过程中不再只使用外观特征距离,而是同时考虑外观和运动信息。
为了解决附加先验约束会限制匹配精度的问题,采用普通的全局线性分配来代替匹配级联。其中,分配矩阵C是外观成本Aa和动作成本Am的加权和:
C=λAa+(1-λ)Am (8)
其中权重因子λ设置为0.98。
步骤4.2:跟踪轨迹通过卡尔曼滤波算法预测之后,会对当前帧预测一个轨迹,如果预测出确认(行人或车),就对当前帧进行detection(检测),然后将检测框和已经确认的轨迹框做级联匹配,匹配完成之后将更新跟踪的检测框。
如果轨迹匹配失败,再进IoU匹配,如果能匹配成功,随后再进行更新,然后重复预测——观测——更新的跟踪过程。IoU匹配失败分为观测匹配失败和轨迹匹配失败:对于观测匹配失败,此时采用对其建立一个新的轨迹的方法,之后对其进行三次考察,如果依旧是实际目标(行人或车)则修改为确认;对于轨迹匹配失败,此时判断其是否是已被确认为行人或车,如果是未被确认的状态,就将其删除,反之,为其设置一个阈值,如果大于阈值max_age,则将其删除,认为其已移出观测范围,如果小于阈值,同样再对其进行三次考察,回到最开始的阶段。
实施例:
如图1所示:首先截取目标行人的图片,然后经过Fastreid特征提取模型,对截取的行人底库进行特征提取,生成对应的.npy文件,读入待检测视频,利用YOLOv5-Lite目标检测算法对当前视频帧里的所有行人进行检测,随后Deepsort算法对检测到的行人进行特征提取同样生成.npy文件,此时,将上述生成的两个.npy文件计算余弦相似度,如果相似度大于阈值γ,则被判定为目标行人,此时再通过Deepsort算法对目标行人进行跟踪,而相似度小于阈值γ为非目标行人,最后通过简单可视化将整个流程进行展示。
如图2所示:原有网络头部的Concat模块全部被替换为BiFPN_Concat模块。
如图3所示普通卡尔曼滤波替换为NSA卡尔曼滤波算法,采用普通的全局线性分配来代替匹配级联,以指数移动平均(EMA)的方式更新轨迹外观。
如图4所示为提前截取好的待查找行人图片。
如图5-图6所示为待查找行人在区域1的查找结果。
如图7-图8所示为待查找行人在区域2的查找结果。
表1表1YOLOv5-Lite算法改进前后各指标对比
Figure BDA0003689045630000111
表2 Deepsort算法改进前后指标对比
Figure BDA0003689045630000112
表3 Deepsort算法改进前后指标对比(续)
Figure BDA0003689045630000113
如表1所示,在图片输入大小均为640×640的前提下,改进后的模型整体大小有了小幅度上涨,在mAP_0.5、mAP_0.5:0.95改进前后基本持平、Recall和帧率FPS小幅度下降的前提下,模型的精确度由0.89到0.92上涨了3%,说明改进后的模型精度有一定幅度的上升,而且相比其他算法,在模型大小及精确度上有不少提升,在测试集上表现更优秀。
如表2-表3所示IDR指标由21.7提高到24.9,IDP指标由71.8提高到74.7,IDF1指标由33.3提高到37.4,表明正确识别的召回值和检测分数都有显著提升;Rcll由27.2提高到31.3,Prcn由89.9提升到94.0,表明改进后的Deepsort算法在精度上有了明显提升;FAR由0.63降为0.42即改进后每帧错误识别的个数降低;MT由25提高到30,ML由339降低到307,说明改进后成功跟踪的帧数占总帧数的80%以上的GT轨迹数量增加,而成功跟踪的帧数占总帧数的20%以下的GT轨迹数量下降;FP为误报的数量由3352下降到2214,FN为漏报的数量由80411下降到75817;IDs为由218上涨到239,可见在模型改变后ID-switch的出现频率增加;FM由1121上升到1190,说明算法在改进后,目标被遮挡后再次出现依然能被继续跟踪的能力提升;MOTA由23.9升高到29.1,MOTP由78.4上升到78.5,检测质量和跟踪准确度有一定的提升。通过分析对比可见,在经过了算法改进后,Deepsort的跟踪性能和准确度都有了较大幅度的提升,在同一数据集上相比改进后表现更优秀。
本发明的创新点在于:
改进一,针对YOLOv5-Lite的分支模型v5Lite-g,对其网络头部进行修改,将其Concat全部替换为BiFPN_Concat。
改进二,将普通卡尔曼滤波替换为NSA卡尔曼滤波算法,并引入了一个自适应计算噪声协方差
Figure BDA0003689045630000131
Figure BDA0003689045630000132
其中Rk是预先设定的常量测噪声协方差,ck是状态k下的检测置信度分数,并且在匹配过程中不再只使用外观特征距离,而是同时考虑外观和运动信息。
成本矩阵C是外观成本Aa和动作成本Am的加权和:
C=λAa+(1-λ)Am (2)
其中权重因子λ设置为0.98,另外,为了解决附加先验约束会限制匹配精度的问题,采用普通的全局线性分配来代替匹配级联。
以指数移动平均的方式更新帧t处第i个轨迹的外观状态
Figure BDA0003689045630000133
Figure BDA0003689045630000134
其中fi t是当前匹配检测的外观嵌入,并且α=0.9是动量项。
改进三,将.pth后缀的Fastreid模型文件转换为.onnx后缀的模型文件。
改进四,将行人检测改为隔帧检测,即每隔一帧用YOLOv5-Lite检测模型对视频里的所有行人进行检测,同时为实时视频可视化界面增加显示帧率模块。

Claims (4)

1.一种基于深度学习的行人跟踪与重识别方法,其特征在于,包括以下步骤;
步骤1:采用改进的YOLOv5-Lite模型对视频图像逐帧进行行人目标检测;
步骤2:采用DeepSort模型对步骤1中每帧检测到的行人进行特征提取,生成.npy文件;
步骤3:采用Fastreid进行行人重识别检测,根据预设的行人图片底库进行特征提取,生成.npy文件;
步骤4:将步骤2中每个行人目标的特征提取结果与步骤3的特定行人底库的特征提取结果进行余弦相似度计算,公式如(1)所示,x1和x2为两个非0向量,如果大于阈值γ,则判别为需要重识别的特定行人目标,并进行利用改进的Deepsort模型的跟踪策略进行行人的跟踪,否则不进行目标跟踪
Figure FDA0003689045620000011
2.根据权利要求1所述的一种基于深度学习的行人跟踪与重识别方法,其特征在于,所述步骤1包括如下子步骤:
步骤1.1:将数据集的图片输入改进后的YOLOv5-Lite模型网络结构,在YOLOv5-Lite的基础上加入了BiFPN模块,BiFPN实现跨尺度双向连接和快速归一化的结合,输入不同的特征权重,让网络自行学习,其采用Softmax-based fusion的方式,将权重归一化到0和1之间如公式(2):
Figure FDA0003689045620000021
其中,wi和wj为可学习权重;
步骤1.2:利用该卷积神经网络对图片进行特征提取,随后输出特征图,同时图片被划分为小方块并生成锚框,将标注的预测框和特征图进行关联,最后建立损失函数并开启端到端的训练,其中损失函数如公式(3)所示;
Figure FDA0003689045620000022
其中ρ2(b,bgt)代表了预测框和真实框的中心点的欧式距离,c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。v用来衡量两个矩形框相对比例的一致性,α是权重系数:
Figure FDA0003689045620000023
3.根据权利要求1所述的一种基于深度学习的行人跟踪与重识别方法,其特征在于,所述步骤3包括如下子步骤:
步骤3.1:输入图片经过预处理之后,调用预训练模型ResNet50作为Backbone,随后通过Gem Pooling,将输出的特征图以聚合的方式,通过一个特征向量来代表一个目标,再经过Bnneck模块将前面所获得的特征向量做一定变化,最后定义Triplet loss来学习分类内的相像性和类内的区分度,使得不同的特征向量之间直接区分度更明显,而相同的特征向量之间更加趋同;
所述Tripletloss输入是一个三元组,包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例,通过优化锚示例与正示例的距离小于锚示例与负示例的距离,实现样本之间的相似性计算,a:anchor,锚示例;p:positive,与a是同一类别的样本;n:negative,与a是不同类别的样本;margin是一个大于0的常数:
L=max(d(a,p)-d(a,n)+margin,0)(5)。
4.根据权利要求1所述的一种基于深度学习的行人跟踪与重识别方法,其特征在于,所述步骤4中的跟踪策略包括如下子步骤:
步骤4.1:对选定重识别的特定行人目标利用NSA卡尔曼滤波算法进行跟踪,具体是以指数移动平均的方式更新帧t处第i个轨迹的外观状态
Figure FDA0003689045620000031
Figure FDA0003689045620000032
其中fi t是当前匹配检测的外观嵌入,并且α=0.9是动量项。
同时加入了自适应噪声,用来加强跟踪的鲁棒性,其中自适应噪声的协方差
Figure FDA0003689045620000033
如公式(7)所示:
Figure FDA0003689045620000034
其中Rk是预先设定的常量测噪声协方差,ck是状态k下的检测置信度分数,并且在匹配过程中不再只使用外观特征距离,而是同时考虑外观和运动信息;
采用普通的全局线性分配来代替匹配级联,其中,分配矩阵C是外观成本Aa和动作成本Am的加权和:
C=λAa+(1-λ)Am(8)
其中权重因子λ设置为0.98;
步骤4.2:跟踪轨迹通过卡尔曼滤波算法预测之后,会对当前帧预测一个轨迹,如果预测出确认(行人或车),就对当前帧进行detection(检测),然后将检测框和已经确认的轨迹框做级联匹配,匹配完成之后将更新跟踪的检测框;
如果轨迹匹配失败,再进IoU匹配,如果能匹配成功,随后再进行更新,然后重复预测——观测——更新的跟踪过程,IoU匹配失败分为观测匹配失败和轨迹匹配失败:对于观测匹配失败,此时采用对其建立一个新的轨迹的方法,之后对其进行三次考察,如果依旧是实际目标(行人或车)则修改为确认;对于轨迹匹配失败,此时判断其是否是已被确认为行人或车,如果是未被确认的状态,就将其删除,反之,为其设置一个阈值,如果大于阈值max_age,则将其删除,认为其已移出观测范围,如果小于阈值,同样再对其进行三次考察,回到最开始的阶段。
CN202210657848.6A 2022-06-10 2022-06-10 一种基于深度学习的行人跟踪与重识别方法 Pending CN115063836A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210657848.6A CN115063836A (zh) 2022-06-10 2022-06-10 一种基于深度学习的行人跟踪与重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210657848.6A CN115063836A (zh) 2022-06-10 2022-06-10 一种基于深度学习的行人跟踪与重识别方法

Publications (1)

Publication Number Publication Date
CN115063836A true CN115063836A (zh) 2022-09-16

Family

ID=83200418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210657848.6A Pending CN115063836A (zh) 2022-06-10 2022-06-10 一种基于深度学习的行人跟踪与重识别方法

Country Status (1)

Country Link
CN (1) CN115063836A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620242A (zh) * 2022-12-19 2023-01-17 城云科技(中国)有限公司 多行人目标重识别方法、装置及应用
CN116453103A (zh) * 2023-06-15 2023-07-18 松立控股集团股份有限公司 一种车辆跨镜跟踪车牌识别方法、***及电子设备
CN116766213A (zh) * 2023-08-24 2023-09-19 烟台大学 一种基于图像处理的仿生手控制方法、***和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620242A (zh) * 2022-12-19 2023-01-17 城云科技(中国)有限公司 多行人目标重识别方法、装置及应用
CN116453103A (zh) * 2023-06-15 2023-07-18 松立控股集团股份有限公司 一种车辆跨镜跟踪车牌识别方法、***及电子设备
CN116453103B (zh) * 2023-06-15 2023-08-18 松立控股集团股份有限公司 一种车辆跨镜跟踪车牌识别方法、***及电子设备
CN116766213A (zh) * 2023-08-24 2023-09-19 烟台大学 一种基于图像处理的仿生手控制方法、***和设备
CN116766213B (zh) * 2023-08-24 2023-11-03 烟台大学 一种基于图像处理的仿生手控制方法、***和设备

Similar Documents

Publication Publication Date Title
CN115063836A (zh) 一种基于深度学习的行人跟踪与重识别方法
Li et al. A deep learning approach for real-time rebar counting on the construction site based on YOLOv3 detector
CN103246896B (zh) 一种鲁棒性车辆实时检测与跟踪方法
CN108564052A (zh) 基于mtcnn的多摄像头动态人脸识别***与方法
Yang et al. Single shot multibox detector with kalman filter for online pedestrian detection in video
Dai et al. A survey of detection-based video multi-object tracking
CN116363694A (zh) 一种多元信息匹配的无人***跨摄像头多目标跟踪方法
An Anomalies detection and tracking using Siamese neural networks
Liu et al. Video face detection based on improved SSD model and target tracking algorithm
Yin Object Detection Based on Deep Learning: A Brief Review
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
Zhang et al. An efficient deep neural network with color-weighted loss for fire detection
Zhou Deep learning based people detection, tracking and re-identification in intelligent video surveillance system
Tang et al. Multilevel traffic state detection in traffic surveillance system using a deep residual squeeze-and-excitation network and an improved triplet loss
Li et al. Nighttime pedestrian detection based on feature attention and transformation
CN109063600A (zh) 基于面部识别的人体运动追踪方法及装置
Jia et al. PV-YOLO: An Object Detection Model for Panoramic Video based on YOLOv4
Kim et al. Development of a real-time automatic passenger counting system using head detection based on deep learning
Li et al. Review of multi-object tracking based on deep learning
Xiang et al. Safety helmet detection algorithm in complex scenarios based on YOLOX
Tian et al. Pedestrian multi-target tracking based on YOLOv3
Yao et al. Drone for Dynamic Monitoring and Tracking with Intelligent Image Analysis.
Hajari et al. Novel approach for pedestrian unusual activity detection in academic environment
Yin et al. Flue gas layer feature segmentation based on multi-channel pixel adaptive
Sharma et al. Multi-object tracking using TLD framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination