CN112836639A - 基于改进YOLOv3模型的行人多目标跟踪视频识别方法 - Google Patents

基于改进YOLOv3模型的行人多目标跟踪视频识别方法 Download PDF

Info

Publication number
CN112836639A
CN112836639A CN202110151278.9A CN202110151278A CN112836639A CN 112836639 A CN112836639 A CN 112836639A CN 202110151278 A CN202110151278 A CN 202110151278A CN 112836639 A CN112836639 A CN 112836639A
Authority
CN
China
Prior art keywords
target
detection
algorithm
pedestrian
yolov3
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110151278.9A
Other languages
English (en)
Inventor
张相胜
沈庆
姚猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202110151278.9A priority Critical patent/CN112836639A/zh
Publication of CN112836639A publication Critical patent/CN112836639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

基于改进YOLOv3模型的行人多目标跟踪视频识别方法,属于计算机视觉的图像处理领域。本发明在YOLOv3网络中,将Darknet‑53特征提取层中原有的标准卷积替换为深度可分离卷积;并且在YOLOv3网络的预测层中引入SENet模块;利用K‑means++聚类算法对选定数据集中的目标边框进行聚类,根据聚类结果优化网络的先验框参数,并修正了锚框。本发明利用tracking‑by‑detection框架,使用改进的YOLOv3算法来实现对目标信息的检测工作,跟踪部分选用Deep‑SORT算法进行跟踪,使得整体的算法能够有效地减少漏检和出现遮挡的情况,并且能保持较快的检测速度和较好的跟踪效果。

Description

基于改进YOLOv3模型的行人多目标跟踪视频识别方法
技术领域
本发明属于计算机视觉的图像处理领域,具体是针对多目标跟踪中存在的行人目标漏检率高且检测速度慢的问题,改进了YOLOv3的网络结构,使得模型对行人目标的检测精度和检测速度都有所提高。检测部分采用改进YOLOv3算法检测行人目标,跟踪部分使用卡尔曼滤波算法预测目标运动轨迹,数据关联部分使用匈牙利算法对目标进行匹配关联。
背景技术
随着深度学习的快速发展,相比于传统手工设计的特征,卷积神经网络逐渐体现出了优势;深度神经网络在机器视觉领域表现出优异的性能,已获得学者们广泛的关注;行人作为道路交通环境中的弱势群体,其安全问题不容小觑,建立完善的行人检测***已成为研究热点;另外,将深度学习用于驾驶辅助***也正成为发展趋势;本文以道路行人研究对象,开展了基于深度学习的目标检测及跟踪算法的研究。
近年来,基于检测的多目标跟踪方法逐渐成为多目标跟踪领域的主流方案,但是该方法对检测结果的准确度要求较高,如果背景较为复杂,则会对目标检测造成较大影响,进而影响跟踪效果;即使目前较先进的YOLOv3算法,也存在着检测精度不够高,检测速度慢的问题;其次,如何有效建立检测器与***之间的目标模型也至关重要。因此,提供一种检测精度更高,检测速度更快的行人检测与跟踪算法是本领域技术人员必须解决的问题。
发明内容
为了提高行人多目标跟踪算法的检测精度与速度,本发明提供了一种基于改进YOLOv3网络模型的行人多目标跟踪视频识别方法;在YOLOv3网络模型和Deep-SORT算法的基础上,针对目标检测跟踪的遮挡和漏检问题,用K-means++聚类方法优化先验框,并将SENet模块嵌入到YOLOv3网络预测层中,针对算法检测速度慢的问题,利用深度可分离卷积网络代替YOLOv3网络的标准卷积进行特征提取。选定经典的tracking-by-detection框架,检测部分使用改进的YOLOv3算法来实现对目标信息的检测工作,跟踪部分选用Deep-SORT算法进行跟踪。
本发明所采用的技术方案是:
基于改进YOLOv3模型的行人多目标跟踪视频识别方法,步骤如下:
步骤1:行人检测部分:改进YOLOv3目标检测网络,引入深度可分离卷积模块,利用深度可分离卷积模块替换Darknet-53特征提取层中的标准卷积模块;引入SENet模块,将SENet模块添加到YOLO预测层中;
步骤2:从公有数据集中选出含有行人图像的数据集,使用K-means++聚类算法替换K-means聚类算法对数据集标签进行聚类分析,训练行人检测YOLOv3网络模型;
步骤3:多目标跟踪部分:使用训练好的行人检测YOLOv3网络模型进行目标检测,与Deep-SORT算法相结合,进行行人多目标跟踪;
所述步骤1进一步具体为:
步骤1.1:Darknet-53特征提取层中引入深度可分离卷积模块,并利用深度可分离卷积模块替换原有Darknet-53中的标准卷积模块;深度可分离卷积是把通道和空间区域分开考虑,将标准卷积分解成深度卷积和逐点卷积,即首先使用深度卷积对特征图中3个单通道分别进行3*3卷积,收集每个通道的特征,再使用逐点卷积对经过深度卷积后的特征图进行1*1的逐点卷积,收集每个点的特征;
步骤1.2:在YOLO预测层中引入SENet模块,分别在网络第26、43、53层输出向量后嵌入SENet模块。
所述步骤2具体为:
步骤2.1:从公有数据集中分别提取其中的行人照片N张,并使用labeling工具为图片打标签;而后将图片按比例分为训练集和测试集;
步骤2.2:对图片训练集的样本使用K-means++聚类算法替代K-means聚类算法进行先验框聚类,获得新的锚框,并利用新的锚框进行行人检测YOLOv3网络模型的迭代训练。
多目标跟踪之前需要利用训练好的行人检测YOLOv3网络模型来检测目标,具体为:
把任意大小图像的连续帧输入到训练好的行人检测YOLOv3网络模型中,首先对输入的图片自适应调整,在每个网格内预测B个边界框,对C类目标进行检测,输出每类目标的边界框和边界框的置信度。边界框的置信度定义为:边界框与该对象实际边界框交并比IOU,与该边界框内存在对象的概率乘积。计算公式:
Figure BDA0002931835520000021
其中,Confidence为边界框的置信度,Pr(Object)为该边界框内存在对象的概率,
Figure BDA0002931835520000022
为边界框与该对象实际边界框交并比。
通过设定阈值,将类别置信度低于阈值的边界框排除,随后边界框采用NMS方法进行筛选,得到的边界框的5个参数为(x,y,w,h,pc),其中(x,y)为目标中心相对于单元格左上角的相对坐标,(w,h)分别是目标与整张图像的宽和高,pc代表目标类别的概率值,经过归一化处理以后,最终网络输出为S×S×(5×B+C)。
所述步骤3中多目标跟踪具体为:
Step1:多目标跟踪算法输入:将经过改进YOLOv3网络检测后所得到的目标坐标信息(cx,cy,r,h,p)进行转换,得到8维向量X=[cx,cy,r,h,vx,vy,vr,vh],作为多目标跟踪算法的输入。其中,p为置信度分数,边界框的中心坐标为(cx,cy),宽高比r,高h,vx,vy,vr,vh代表cx,cy,r,h速度变化值
Step2:状态估计:首先使用卡尔曼滤波预测***在下一时刻的位置,然后基于卡尔曼滤波得到的检测结果来更新预测的位置;
Step3:指派问题:利用匈牙利算法解决卡曼尔滤波算法得到的检测结果与跟踪预测结果的关联问题,同时考虑到运动信息的关联和目标外观信息的关联;
①运动信息的关联:采用卡尔曼滤波器预测状态和新测量之间的马氏距离,以此来表达运动信息:
Figure BDA0002931835520000031
式中,d(1)(i,j)表示j个检测框和第i条轨迹之间的运动匹配程度,dj表示第j个检测框的位置,yi表示第i条轨迹的状态向量,Si表示检测位置与平均位置之间的协方差矩阵。如果某次关联的马氏距离小于指定的阈值,阈值是从单独的训练集中得到的,则设置运动状态的关联成功;
②引入目标外观信息的关联方法,使用余弦距离来度量表观特征之间的距离,计算公式为:
Figure BDA0002931835520000032
其中,限制条件为||ri||=1,
Figure BDA0002931835520000033
用来存储最近n帧成功关联的特征向量,ri,rk表示相交的两个向量,使用余弦距离来度量***的表观特征和检测结果对应的表观特征;
③关联度量是通过运动模型和外观模型的加权得到:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j) (7)
式中,ci,j表示综合匹配度,λ为一个超参数,默认为0。只有ci,j当位于两种度量阈值的交集内时,才认为实现了正确的关联,当指派完成后,分类出未匹配的检测和***;
Step4:级联匹配和IOU匹配:当目标被长时间遮挡之后,卡尔曼滤波预测结果的正确性会降低,状态空间内的可观性也会相应降低,因此利用级联匹配来对更加频繁出现的目标赋予优先权。对于未确认状态的***、未匹配的***和未匹配的检测,进行IOU匹配,再次使用匈牙利算法进行指派;
Step5:对于匹配的***进行参数更新,删除再次未匹配的***,未匹配的检测初始化为新目标。并判断视频流是否结束,若结束,退出循环;否则,进入下一帧检测。
总体而言,通过本发明所构思的以上技术方案,可以取得以下有益效果:
⑴本发明在YOLOv3网络模型中引入深度可分离卷积模块,代替了YOLOv3中的标准卷积模块,加快了算法的运行速度。
⑵本发明在YOLOv3预测层中加入SENet模块,利用SENet网络反映出不同通道间特征的相关性和重要性的特点,加强了网络的特征提取能力,提升了检测精度。
⑶本发明在目标检测网络部分,使用K-means++聚类算法代替了K-means聚类算法,修改了锚框,使其更加符合行人的特点,从而更好地进行特征提取,提高算法的检测精度。
⑷本发明使用改进的YOLOv3算法来实现对目标信息的检测工作,跟踪部分选用Deep-SORT算法进行跟踪。实验结果表明,所提出的跟踪算法能够有效地减少漏检和出现遮挡的情况,并且能保持较快的检测速度和较好的跟踪效果。
以上说明仅是本发明技术方案的概述,为了能够更加清楚了解本发明的技术手段,而可按照说明书的内容予以实施,并且为了让本发明的内容、特征和优点能够更加明显易懂,以下特举本发明的具体实施方式。
附图说明
图1是本发明的具体算法流程图。
图2是改进YOLOv3网络框架图。
图3是SENet模块结构图。
图4是标准卷积结构与深度可分离卷积结构图。其中,(a)表示表示标准卷积结构,(b)表示深度卷积结构,(c)表示逐点卷积结构。
图5是本发明模型和原模型检测结果对比图。其中,(a)不同帧数下的YOLOv3-Deep-SORT跟踪结果,(b)为本发明算法不同帧数下的跟踪结果。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
如图1所示,本发明提供了种基于改进YOLOv3模型的行人多目标跟踪方法,包括:
步骤1:改进YOLOv3目标检测子网络,目标检测是基于检测跟踪的基本操作,如图2所示,具体分为以下步骤:
步骤1.1:如图4,引入深度可分离卷积模块
在Darknet-53特征提取层中引入深度可分离卷积模块,并利用深度可分离模块替换原有Darknet-53中的标准卷积;
步骤1.2:如图3,在YOLO预测层中引入SENet模块
分别在YOLOv3网络的Darknet-53特征提取层第26、42、53层输出向量后嵌入SENet模块。
步骤2:从VOC2007图片中选出含有行人图像的数据集,使用K-means++聚类算法对数据集标签进行聚类分析,训练行人检测YOLOv3网络模型。具体分为以下步骤:
步骤2.1:从VOC 2007和MOT 2015公开数据集中分别提取其中的行人照片10000张,并分别使用labeling工具为图片打标签;而后将图片以训练集:测试集为2:1的比例选取训练样本。
步骤2.2:对样本使用K-means++算法进行先验框聚类,获得新的anchors(anchor的数量选定为9),并利用新的anchors值进行YOLOv3行人的检测网络模型的迭代训练。
步骤3:使用改进后的YOLOv3网络作为检测器进行目标检测,与Deep-SORT多目标跟踪算法相结合,实现行人多目标跟踪。具体分为以下步骤:
步骤3.1:目标检测部分:把任意大小图像的连续帧输入到改进的YOLOv3网络模型中,算法首先会对输入的图片自适应调整为416×416,在每个网格内预测B个边界框(B取值为9),对C类目标(在行人检测中,类别设定为person)进行检测,输出每类目标的边界框和边界框的置信度。边界框的置信度定义为:边界框与该对象实际边界框交并比(IOU),与该边界框内存在对象的概率乘积。计算公式:
Figure BDA0002931835520000051
其中,Confidence为边界框的置信度,Pr(Object)为该边界框内存在对象的概率,
Figure BDA0002931835520000052
为边界框与该对象实际边界框交并比。
通过设定阈值,将类别置信度低于阈值的边界框排除,随后边界框采用NMS(非极大值抑制)方法进行筛选,得到的边界框的5个参数为(x,y,w,h,pc),其中(x,y)为目标中心相对于单元格左上角的相对坐标,(w,h)分别是目标与整张图像的宽和高之比,pc代表目标类别的概率值,经过归一化处理以后,最终网络输出为S×S×(5×B+C)。
步骤3.2:参照图1,使用改进后的YOLOv3网络作为检测器进行目标检测,多目标跟踪部分具体分为以下步骤:
Step1:目标检测:将输入的视频流进行目标检测,得到边框和特征信息,然后将经过检测后所得到的目标坐标信息(cx,cy,r,h,p)进行转换,得到8维向量X=[cx,cy,r,h,vx,vy,vr,vh],作为多目标跟踪算法的输入。其中,p为置信度分数,边界框的中心坐标为(cx,cy),宽高比r,高h,以及各自的速度变化值
Step2:状态估计:首先使用卡尔曼滤波预测***在下一时刻的位置,然后基于检测结果来更新预测的位置。
Step3:指派问题:利用匈牙利算法解决检测结果与跟踪预测结果的关联问题,同时考虑到运动信息的关联和目标外观信息的关联。
①运动信息的关联:采用卡尔曼滤波器预测状态和新测量之间的马氏距离,以此来表达运动信息:
Figure BDA0002931835520000061
式中,d(1)(i,j)表示j个检测框和第i条轨迹之间的运动匹配程度,dj表示第j个检测框的位置,yi表示第i条轨迹的状态向量,Si表示检测位置与平均位置之间的协方差矩阵。如果某次关联的马氏距离小于指定的阈值(阈值是从单独的训练集中得到的),则设置运动状态的关联成功。
②引入目标外观信息的关联方法,使用余弦距离来度量表观特征之间的距离,计算公式为:
Figure BDA0002931835520000062
式中,限制条件为||ri||=1,
Figure BDA0002931835520000063
用来存储最近100帧成功关联的特征向量。使用余弦距离来度量***的表观特征和检测结果对应的表观特征。
③关联度量是通过运动模型和外观模型的加权得到:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j) (4)
式中,ci,j表示综合匹配度,λ为一个超参数,默认为0。只有ci,j当位于两种度量阈值的交集内时,才认为实现了正确的关联.当指派完成后,分类出未匹配的检测和***。
Step4:级联匹配和IOU匹配:当目标被长时间遮挡之后,卡尔曼滤波预测结果的正确性会降低,状态空间内的可观性也会相应降低,因此级联匹配来对更加频繁出现的目标赋予优先权。对于未确认状态的***、未匹配的***和未匹配的检测,进行IOU匹配,再次使用匈牙利算法进行指派。
Step5:对于匹配的***进行参数更新,删除再次未匹配的***,未匹配的检测初始化为新目标。并判断视频流是否结束,若结束,退出循环;否则,进入下一帧检测。
步骤4:仿真实验
定性实验:选取MOT16多目标跟踪数据集中的序列进行多目标跟踪实验,具体实验对比如图5,可以看出改进的网络模型在准确度及漏检率等方面均得到一定程度的改善。
定量实验:如表1,选取以MOT15多目标跟踪数据集进行测试,并且选取目前7种较为先进的多目标跟踪算法作为对比,从各个性能指标综合来看,改进的网络模型优势明显,性能指标均有相应的提升。
表1多目标跟踪算法评价指标对比
Figure BDA0002931835520000064
Figure BDA0002931835520000071
以上是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与修饰,均属于发明技术方案的范围内。

Claims (6)

1.基于改进YOLOv3模型的行人多目标跟踪视频识别方法,其特征在于,步骤如下:
步骤1:行人检测部分:改进YOLOv3目标检测网络,引入深度可分离卷积模块,利用深度可分离卷积模块替换Darknet-53特征提取层中的标准卷积模块;引入SENet模块,将SENet模块添加到YOLO预测层中;
步骤2:从公有数据集中选出含有行人图像的数据集,使用K-means++聚类算法替换K-means聚类算法对数据集标签进行聚类分析,训练行人检测YOLOv3网络模型;
步骤3:多目标跟踪部分:使用训练好的行人检测YOLOv3网络模型进行目标检测,与Deep-SORT算法相结合,进行行人多目标跟踪。
2.根据权利要求1所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法,其特征在于,所述步骤1进一步具体为:
步骤1.1:Darknet-53特征提取层中引入深度可分离卷积模块,并利用深度可分离卷积模块替换原有Darknet-53中的标准卷积模块;深度可分离卷积是把通道和空间区域分开考虑,将标准卷积分解成深度卷积和逐点卷积,即首先使用深度卷积对特征图中3个单通道分别进行3*3卷积,收集每个通道的特征,再使用逐点卷积对经过深度卷积后的特征图进行1*1的逐点卷积,收集每个点的特征;
步骤1.2:在YOLO预测层中引入SENet模块,分别在网络第26、43、53层输出向量后嵌入SENet模块。
3.根据权利要求1或2所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法,其特征在于,所述步骤2具体为:
步骤2.1:从公有数据集中分别提取其中的行人照片N张,并使用labeling工具为图片打标签;而后将图片按比例分为训练集和测试集;
步骤2.2:对图片训练集的样本使用K-means++聚类算法替代K-means聚类算法进行先验框聚类,获得新的锚框,并利用新的锚框进行行人检测YOLOv3网络模型的迭代训练。
4.根据权利要求1或2所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法,其特征在于,多目标跟踪之前需要利用训练好的行人检测YOLOv3网络模型来检测目标,具体为:
把任意大小图像的连续帧输入到训练好的行人检测YOLOv3网络模型中,首先对输入的图片自适应调整,在每个网格内预测B个边界框,对C类目标进行检测,输出每类目标的边界框和边界框的置信度;边界框的置信度定义为:边界框与该对象实际边界框交并比IOU,与该边界框内存在对象的概率乘积,计算公式:
Figure FDA0002931835510000011
其中,Confidence为边界框的置信度,Pr(Object)为该边界框内存在对象的概率,
Figure FDA0002931835510000012
为边界框与该对象实际边界框交并比;
通过设定阈值,将类别置信度低于阈值的边界框排除,随后边界框采用NMS方法进行筛选,得到的边界框的5个参数为(x,y,w,h,pc),其中(x,y)为目标中心相对于单元格左上角的相对坐标,(w,h)分别是目标与整张图像的宽和高,pc代表目标类别的概率值,经过归一化处理以后,最终网络输出为S×S×(5×B+C)。
5.根据权利要求3所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法,其特征在于,多目标跟踪之前需要利用训练好的行人检测YOLOv3网络模型来检测目标,具体为:
把任意大小图像的连续帧输入到训练好的行人检测YOLOv3网络模型中,首先对输入的图片自适应调整,在每个网格内预测B个边界框,对C类目标进行检测,输出每类目标的边界框和边界框的置信度;边界框的置信度定义为:边界框与该对象实际边界框交并比IOU,与该边界框内存在对象的概率乘积,计算公式:
Figure FDA0002931835510000021
其中,Confidence为边界框的置信度,Pr(Object)为该边界框内存在对象的概率,
Figure FDA0002931835510000022
为边界框与该对象实际边界框交并比;
通过设定阈值,将类别置信度低于阈值的边界框排除,随后边界框采用NMS方法进行筛选,得到的边界框的5个参数为(x,y,w,h,pc),其中(x,y)为目标中心相对于单元格左上角的相对坐标,(w,h)分别是目标与整张图像的宽和高,pc代表目标类别的概率值,经过归一化处理以后,最终网络输出为S×S×(5×B+C)。
6.根据权利要求1、2或5所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法,其特征在于,所述步骤3中多目标跟踪具体为:
Step1:多目标跟踪算法输入:将经过改进YOLOv3网络检测后所得到的目标坐标信息(cx,cy,r,h,p)进行转换,得到8维向量X=[cx,cy,r,h,vx,vy,vr,vh],作为多目标跟踪算法的输入;其中,p为置信度分数,边界框的中心坐标为(cx,cy),宽高比r,高h,vx,vy,vr,vh代表cx,cy,r,h速度变化值
Step2:状态估计:首先使用卡尔曼滤波预测***在下一时刻的位置,然后基于卡尔曼滤波得到的检测结果来更新预测的位置;
Step3:指派问题:利用匈牙利算法解决卡曼尔滤波算法得到的检测结果与跟踪预测结果的关联问题,同时考虑到运动信息的关联和目标外观信息的关联;
①运动信息的关联:采用卡尔曼滤波器预测状态和新测量之间的马氏距离,以此来表达运动信息:
Figure FDA0002931835510000031
式中,d(1)(i,j)表示j个检测框和第i条轨迹之间的运动匹配程度,dj表示第j个检测框的位置,yi表示第i条轨迹的状态向量,Si表示检测位置与平均位置之间的协方差矩阵;如果某次关联的马氏距离小于指定的阈值,阈值是从单独的训练集中得到的,则设置运动状态的关联成功;
②引入目标外观信息的关联方法,使用余弦距离来度量表观特征之间的距离,计算公式为:
Figure FDA0002931835510000032
其中,限制条件为||ri||=1,
Figure FDA0002931835510000033
用来存储最近n帧成功关联的特征向量,ri,rk表示相交的两个向量,使用余弦距离来度量***的表观特征和检测结果对应的表观特征;
③关联度量是通过运动模型和外观模型的加权得到:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j) (7)
式中,ci,j表示综合匹配度,λ为一个超参数,默认为0;只有ci,j当位于两种度量阈值的交集内时,才认为实现了正确的关联,当指派完成后,分类出未匹配的检测和***;
Step4:级联匹配和IOU匹配:当目标被长时间遮挡之后,利用级联匹配来对更加频繁出现的目标赋予优先权;对于未确认状态的***、未匹配的***和未匹配的检测,进行IOU匹配,再次使用匈牙利算法进行指派;
Step5:对于匹配的***进行参数更新,删除再次未匹配的***,未匹配的检测初始化为新目标;并判断视频流是否结束,若结束,退出循环;否则,进入下一帧检测。
CN202110151278.9A 2021-02-03 2021-02-03 基于改进YOLOv3模型的行人多目标跟踪视频识别方法 Pending CN112836639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110151278.9A CN112836639A (zh) 2021-02-03 2021-02-03 基于改进YOLOv3模型的行人多目标跟踪视频识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110151278.9A CN112836639A (zh) 2021-02-03 2021-02-03 基于改进YOLOv3模型的行人多目标跟踪视频识别方法

Publications (1)

Publication Number Publication Date
CN112836639A true CN112836639A (zh) 2021-05-25

Family

ID=75931941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110151278.9A Pending CN112836639A (zh) 2021-02-03 2021-02-03 基于改进YOLOv3模型的行人多目标跟踪视频识别方法

Country Status (1)

Country Link
CN (1) CN112836639A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221808A (zh) * 2021-05-26 2021-08-06 新疆爱华盈通信息技术有限公司 一种基于图像识别的餐盘计数统计方法及装置
CN113313008A (zh) * 2021-05-26 2021-08-27 南京邮电大学 基于YOLOv3网络和均值漂移的目标与识别跟踪方法
CN113392754A (zh) * 2021-06-11 2021-09-14 成都掌中全景信息技术有限公司 一种基于yolov5行人检测算法减少行人误检测率的方法
CN113470076A (zh) * 2021-07-13 2021-10-01 南京农业大学 一种平养鸡舍黄羽鸡多目标跟踪方法
CN113688797A (zh) * 2021-09-27 2021-11-23 江南大学 一种基于骨架提取的异常行为识别方法及***
CN113723361A (zh) * 2021-09-18 2021-11-30 西安邮电大学 一种基于深度学习的视频监测方法及设备
CN113763427A (zh) * 2021-09-05 2021-12-07 东南大学 一种基于从粗到精遮挡处理的多目标跟踪方法
CN113822153A (zh) * 2021-08-11 2021-12-21 桂林电子科技大学 一种基于改进DeepSORT算法的无人机跟踪方法
CN114241397A (zh) * 2022-02-23 2022-03-25 武汉烽火凯卓科技有限公司 一种边防视频智能分析方法及***
CN114879891A (zh) * 2022-05-19 2022-08-09 中国人民武装警察部队工程大学 一种自监督多目标跟踪下的多模态人机互动方法
CN116188767A (zh) * 2023-01-13 2023-05-30 湖北普罗格科技股份有限公司 一种基于神经网络的堆叠木板计数方法及***
CN116416281A (zh) * 2023-04-28 2023-07-11 云观智慧科技(无锡)有限公司 一种粮库ai视频监管分析方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215208A (zh) * 2020-11-10 2021-01-12 中国人民解放军战略支援部队信息工程大学 基于改进YOLOv4的遥感影像桥梁目标检测算法
CN112308881A (zh) * 2020-11-02 2021-02-02 西安电子科技大学 一种基于遥感图像的舰船多目标跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308881A (zh) * 2020-11-02 2021-02-02 西安电子科技大学 一种基于遥感图像的舰船多目标跟踪方法
CN112215208A (zh) * 2020-11-10 2021-01-12 中国人民解放军战略支援部队信息工程大学 基于改进YOLOv4的遥感影像桥梁目标检测算法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313008A (zh) * 2021-05-26 2021-08-27 南京邮电大学 基于YOLOv3网络和均值漂移的目标与识别跟踪方法
CN113221808A (zh) * 2021-05-26 2021-08-06 新疆爱华盈通信息技术有限公司 一种基于图像识别的餐盘计数统计方法及装置
CN113313008B (zh) * 2021-05-26 2022-08-05 南京邮电大学 基于YOLOv3网络和均值漂移的目标与识别跟踪方法
CN113392754A (zh) * 2021-06-11 2021-09-14 成都掌中全景信息技术有限公司 一种基于yolov5行人检测算法减少行人误检测率的方法
CN113470076A (zh) * 2021-07-13 2021-10-01 南京农业大学 一种平养鸡舍黄羽鸡多目标跟踪方法
CN113470076B (zh) * 2021-07-13 2024-03-12 南京农业大学 一种平养鸡舍黄羽鸡多目标跟踪方法
CN113822153A (zh) * 2021-08-11 2021-12-21 桂林电子科技大学 一种基于改进DeepSORT算法的无人机跟踪方法
CN113763427B (zh) * 2021-09-05 2024-02-23 东南大学 一种基于从粗到精遮挡处理的多目标跟踪方法
CN113763427A (zh) * 2021-09-05 2021-12-07 东南大学 一种基于从粗到精遮挡处理的多目标跟踪方法
CN113723361A (zh) * 2021-09-18 2021-11-30 西安邮电大学 一种基于深度学习的视频监测方法及设备
CN113688797A (zh) * 2021-09-27 2021-11-23 江南大学 一种基于骨架提取的异常行为识别方法及***
CN114241397A (zh) * 2022-02-23 2022-03-25 武汉烽火凯卓科技有限公司 一种边防视频智能分析方法及***
CN114241397B (zh) * 2022-02-23 2022-07-08 武汉烽火凯卓科技有限公司 一种边防视频智能分析方法及***
CN114879891A (zh) * 2022-05-19 2022-08-09 中国人民武装警察部队工程大学 一种自监督多目标跟踪下的多模态人机互动方法
CN114879891B (zh) * 2022-05-19 2024-04-26 中国人民武装警察部队工程大学 一种自监督多目标跟踪下的多模态人机互动方法
CN116188767A (zh) * 2023-01-13 2023-05-30 湖北普罗格科技股份有限公司 一种基于神经网络的堆叠木板计数方法及***
CN116188767B (zh) * 2023-01-13 2023-09-08 湖北普罗格科技股份有限公司 一种基于神经网络的堆叠木板计数方法及***
CN116416281A (zh) * 2023-04-28 2023-07-11 云观智慧科技(无锡)有限公司 一种粮库ai视频监管分析方法及***

Similar Documents

Publication Publication Date Title
CN112836639A (zh) 基于改进YOLOv3模型的行人多目标跟踪视频识别方法
Jana et al. YOLO based Detection and Classification of Objects in video records
CN110796186A (zh) 基于改进的YOLOv3网络的干湿垃圾识别分类方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN111862145B (zh) 一种基于多尺度行人检测的目标跟踪方法
CN108564598B (zh) 一种改进的在线Boosting目标跟踪方法
CN106952293B (zh) 一种基于非参数在线聚类的目标跟踪方法
CN110569782A (zh) 一种基于深度学习目标检测方法
CN113327272B (zh) 一种基于相关滤波的鲁棒性长时跟踪方法
CN112884742A (zh) 一种基于多算法融合的多目标实时检测、识别及跟踪方法
CN109087337B (zh) 基于分层卷积特征的长时间目标跟踪方法及***
CN111368634B (zh) 基于神经网络的人头检测方法、***及存储介质
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN111259808A (zh) 一种基于改进ssd算法的交通标识的检测识别方法
Wang et al. Multi-target pedestrian tracking based on yolov5 and deepsort
CN111539987B (zh) 基于判别模型的遮挡检测***及方法
CN109697727A (zh) 基于相关滤波和度量学习的目标跟踪方法、***及存储介质
Mrabti et al. Human motion tracking: A comparative study
CN114373194A (zh) 基于关键帧与注意力机制的人体行为识别方法
CN112164093A (zh) 一种基于边缘特征和相关滤波的人物自动跟踪方法
CN114923491A (zh) 一种基于特征融合和距离融合的三维多目标在线跟踪方法
Zhang et al. Residual memory inference network for regression tracking with weighted gradient harmonized loss
CN108257148B (zh) 特定对象的目标建议窗口生成方法及其在目标跟踪的应用
CN112613565B (zh) 基于多特征融合与自适应学习率更新的抗遮挡跟踪方法
CN115731517B (zh) 一种基于Crowd-RetinaNet网络的拥挤人群检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination