CN111612002A - 一种基于神经网络的多目标物体运动追踪方法 - Google Patents

一种基于神经网络的多目标物体运动追踪方法 Download PDF

Info

Publication number
CN111612002A
CN111612002A CN202010501800.7A CN202010501800A CN111612002A CN 111612002 A CN111612002 A CN 111612002A CN 202010501800 A CN202010501800 A CN 202010501800A CN 111612002 A CN111612002 A CN 111612002A
Authority
CN
China
Prior art keywords
frame
target object
target
neural network
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010501800.7A
Other languages
English (en)
Inventor
刘哲
黄博才
刘少君
罗建坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Qiezhi Intelligent Technology Co ltd
Original Assignee
Guangzhou Qiezhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Qiezhi Intelligent Technology Co ltd filed Critical Guangzhou Qiezhi Intelligent Technology Co ltd
Priority to CN202010501800.7A priority Critical patent/CN111612002A/zh
Publication of CN111612002A publication Critical patent/CN111612002A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于神经网络的多目标物体运动追踪方法,包括将一幅图像分成多个网格;每个网格要预测多个边界框,预测的多个边界框框住同一个物体,每个边界框回归自身的位置信息以及预测一个confidence值;将每个网格的预测的类别与每个边界框的confidence值相乘,得到结果值;对保留的边界框进行处理,得到某个类别物体的唯一预测基准框;对于同一中心的物体设定多个不同的预选框,检测重叠在一起的多个目标物体;计算总的损失函数,通过权值调整算法,降低目标损失函数;将标签数据与对应的图像数据整理成训练集和验证集,设置YOLO的神经网络配置参数,将整理好的训练集作为YOLO模型训练的输入,然后将验证集作为YOLO模型测试的输入;以及通过训练的YOLO模型进行多目标物体运动追踪。

Description

一种基于神经网络的多目标物体运动追踪方法
技术领域
本发明涉及计算机视频识别技术,特别涉及一种基于神经网络的多目标物体运动追踪方法。
背景技术
现有的目标物体的统计方法有RFID和激光线扫计数,RFID对包裹的外包装要求比较高,每个外包装都需要芯片嵌入,成本高。激光线扫计数的局限在于对堆叠的物体,以及目标物体的外包装的标签面朝下时出现漏计的情况。
发明内容
本发明的目的在于提供一种基于神经网络的多目标物体运动追踪方法,用于解决上述现有技术的问题。
本发明一种基于神经网络的多目标物体运动追踪方法,其中,包括:设计和训练YOLO神经网络模型,包括:将一幅图像分成多个网格,如果某个检测目标的中心落在一网格中,则该网格则负责预测对应的该检测目标;每个该网格预测多个边界框,预测的该多个边界框框住同一个物体,每个边界框回归自身的位置信息以及预测一个 confidence值;每个该网格预测多个类别,局部神经网络的输出层的张量通过多个网格数、多个边界框数以及多个类别数计算得到;将该网格的预测的该多个类别与该confidence值相乘,相乘的结果得到结果值,结果值表示预测的边界框属于某一类的概率,通过阈值,滤掉结果值低于阈值的边界框;对保留的边界框进行处理,得到某个类别物体的唯一预测基准框;对于同一中心的物体设定多个不同的预选框,用于对同一个中心点,取不同的窗口,检测重叠在一起的多个目标物体;对预测的边界框的中心点位置做损失计算,对预测的边界框的宽高做损失计算;对预测边界框的类别做损失计算;对预测边界框的置信度做损失计算;计算总的损失函数,通过权值调整算法,降低目标损失函数;在连续拍照的情况下,采集大量图像数据,图像包含各种类别的目标物体;以及将采集的图像数据进行整理、挑选和标注,标注出目标物体在图像中的左上角坐标及右下角坐标,整理成YOLO 模型训练所需的标签数据,将标签数据与对应的图像数据整理成训练集和验证集,设置YOLO的神经网络配置参数,将整理好的训练集作为YOLO模型训练的输入,然后将验证集作为YOLO模型测试的输入;进行YOLO模型的训练;以及通过训练的YOLO模型进行多目标物体运动追踪。
根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例,其中,通过训练的YOLO模型进行多目标物体运动追踪包括:利用编码器测量物体的运动速度,以前面一帧的目标物***置和识别框为基准,计算出单目标物体当前帧的目标物体的位置信息及识别框;建立起在时间上先后出现的多目标物体之间的对应关系,调用 YOLO模型,得出多目标物体当前帧的多目标物体的位置信息和识别框;求出相邻两帧图像中目标物体之间的对应关系,当出现相互匹配的对应关系表示该物体在相邻两帧的图像中是同一目标物体,不予重复计数。
根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例,其中,confidence值的计算包括:
Figure BDA0002525001530000021
其中,Pr(object)代表置信度,如果有检测目标object落在该网格里,Pr(object)取1,否则取0,
Figure BDA0002525001530000022
是预测框和实际的物体标注框之间的交并比。
根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例,其中,将该网格的预测的该多个类别与该confidence值相乘包括:
Figure BDA0002525001530000031
Pr(Classi|object)是每个网格预测的类别信息,表示在网格包含检测目标的条件下,该检测目标属于某个类的概率,
Figure BDA0002525001530000032
是该confidence值。
根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例,其中,通过设置预选框,处理两个对象的中心点出现在同一个网格的情况,对于同一中心的物体设定5个到9个不同长宽比,面积不同的预选框。
根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例,其中,利用K-means进行聚类计算预选框,得到预选框的长和宽,每个预选框具有不同面积大小,并且不同长宽比。
根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例,其中,在YOLO模型训练过程中对比模型输出的预测框与训练的物体实际框之间的差别,设置目标损失函数,则对预测的边界框的中心点位置做损失计算为:
Figure BDA0002525001530000033
其中,xi,yi是物体实际框的中心点位置坐标,
Figure BDA0002525001530000034
是预测框的中心点位置坐标,λcoord是权值常量,
Figure BDA0002525001530000035
是系数常量,当预测边界框的中心点位置落在了第i个网格中,如果预测边界框所在的图像区域含有目标物体,则
Figure BDA0002525001530000041
取值为1,否则取值0;
对预测边界框的宽高做损失计算包括:
Figure BDA0002525001530000042
其中,wi和hi是物体实际框的长宽,
Figure BDA0002525001530000043
Figure BDA0002525001530000044
是预测框的长宽,λcoord,表示预测边界框的图像区域不包含任何物体;
对预测边界框的类别做损失计算:
Figure BDA0002525001530000045
其中,pi(c)是某类物体的实际概率,
Figure BDA0002525001530000046
是预测框的属于某类别的概率;
对预测边界框的置信度做损失计算包括:
Figure BDA0002525001530000047
其中,Ci是置信度得分,
Figure BDA0002525001530000048
预测边界框与实际物体框的交叉部分,
Figure BDA0002525001530000049
Figure BDA00025250015300000410
是取相反值;
计算总的损失函数包括:
Figure BDA00025250015300000411
8.如权利要求1所述的基于神经网络的多目标物体运动追踪方法,其特征在于,通过权值调整算法,降低目标损失函数包括:
Figure BDA0002525001530000051
Figure BDA0002525001530000052
θk=θk-1-Vk
其中,
Figure BDA0002525001530000056
是目标损失函数的梯度,η是学习率,θi是某连接的权值,γ是动量大小,Vi是中间变量。
根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例,其中,通过权值调整算法,降低目标损失函数包括:
Figure BDA0002525001530000053
Figure BDA0002525001530000054
θk=θk-1-Vk
其中,
Figure BDA0002525001530000055
是目标损失函数的梯度,η是学习率,θi是某连接的权值,γ是动量大小,Vi是中间变量。
根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例,其中,YOLO模型经过一段时间的训练后,输出对验证集识别的效果,包括识别精度和召回率,根据模型输出的结果,判断YOLO 模型是否达到要求,若没达到要求则修改神经网络配置参数,再次优化YOLO模型,直到最后模型输出的识别精度和召回率满足要求。
根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例,在计数过程中,以某一段连续帧图像的目标物体刚出现的一帧为追踪起始帧,以该连续帧图像的目标物体消失的一帧为结束帧,在起始帧和结束帧之间对相邻帧的的图像求解目标物体的对应关系,以追踪某一段连续帧图像中新出现的目标物体。
本发明的基于神经网络的多目标物体运动追踪方法,利用工业相机实现对多目标物体的追踪和统计,主要分为多目标物体的检测部分和多目标物体的追踪部分,基于视频流的处理,对每一帧图像进行多目标物体检测识别,利用多目标物体的运动信息实现追踪与统计。通过YOLO深度学习算法,修改通用模型,训练本次目标检测的模型再结合移动物体追踪去重算法,针对将深度学习方法运用到多目标物体运动追踪的难题,实现了对多目标物体运动的在线实时追踪。
附图说明
图1为多目标物体***工程文件示意图;
图2为采集数据图;
图3为txt文件示意图;
图4为使用python将txt文件数据整理成含目标物体的xml文件示意图;
图5为初始模型配置文件示意图;
图6为anchor box的设置示意图;
图7为参数设置及网络连接设置示意图;
图8为模型识别效果图;
图9为基于神经网络的多目标物体运动追踪方法的流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明基于神经网络的多目标物体运动追踪方法主要包括:利用深度学习网络,对目标物体进行检测识别。利用编码器传回目标运动信息,并结合检测结果进行目标追踪。采用的深度学习网络为YOLO 的学习框架,将Object Detection(目标检测)的问题转化成一个 Regression问题。给定输入图像,直接在图像的多个位置上回归出目标的boundingbox以及其分类类别。选用整图训练模型,可以更好的区分目标和背景区域,通过YOLO可以做到将一张图片输入,直接输出最终结果,包括框和框内物体的名称及score(得分)。在得目标物体的识别结果和位置信息后,结合物体的运动信息统计目标物体的个数,不得将同一物体计数两次。
本发明基于神经网络的多目标物体运动追踪方法包括:建立目标检测深度学习网络模型:
第一步:设置YOLO神经网络模型:
1.YOLO首先是将一幅图像分成SxS个网格(grid cell),如果某个检测目标object的中心落在这个网格中,则这个网格就负责预测这个检测目标object,其中,网格中心未必与物体的中心重合。
2.每个网格(grid cell)要预测B个bounding box(边界框),预测的B个boundingbox(边界框)框住的都是同一个物体。每个 bounding box(边界框)除了要回归自身的位置信息(x,y,w,h) 之外,还要附带预测一个confidence值。其中x和y代表预测的边界框的中心与网格边界的相对值,w和h代表预测的边界框的 width/height(宽和高)相对于整个图像宽width和高height的比例, confidence由所预测的边界框中含有检测目标object的置信度和这个边界框预测得有多准这两重信息决定,confidence值是这样计算的:
Figure BDA0002525001530000071
其中,Pr(object)代表置信度,如果有检测目标object落在该网格(grid cell)里,Pr(object)取1,否则取0。
Figure BDA0002525001530000072
是预测的预测框和实际的物体标注框之间的交并比(重叠度)。在计算过程中注意的地方:bounding box(边界框)信息中的坐标(x,y)是预测的边界框的中心与网格边界的相对值,需要归一化到0-1之间,长宽(w, h)是预测的边界框的宽和高相对于整个图像长和图像宽的比例,也需要归一化到0-1之间。
3.每个grid cell(网格)还要预测C个类别信息。则S*S个网格,每个网格要预测B个bounding box(边界框)还要预测C个类别,在构建神经网络将连接时,局部神经网络的输出层就是S*S*(5*B+C)的一个tensor(张量)。
4.将每个grid cell(网格)的预测的类别信息与每个边界框的 confidence相乘:
Figure BDA0002525001530000081
等式左边中Pr(Classi|object)就是每个网格预测的类别信息,它表示在gridcell(网格)包含object的条件下,该object属于某个类的概率。
Figure DEST_PATH_FDA0002525001520000032
就是每个bounding box(边界框)预测的 confidence值。相乘的结果得到每个边界框属于哪一类的结果值 confidence score,结果值confidence score表示预测的bounding box属于某一类的概率,也有该边界框准确度的信息。然后设置阈值,滤掉 confidence score值比较低(值小于0.5)的边界框。
5.对保留的预测边界框进行NMS算法处理,得到某个类别物体的唯一预测基准框。在预测的结果中,可能出现对同一个目标物体预测出多个预测边界框,由于保留下来的预测边界框带有类别信息及 confidence score,可以对同一类别的边界框取confidencescore最高的作为预测基准框,去掉和预测基准框重叠区域大的预测边界框。
6.网络中加入anchor box,anchor box(预选框)这个概念,是为了处理两个对象的中心点出现在同一个网格的情况,这样一个网格需要预测两个物体。anchor box一般是人为设定的预选框,对于同一中心的物体可以设定5个或9个不同长宽比,面积不同的预选框。 anchor box相当于对同一个中心点,取不同的窗口,从而用来检测重叠在一起的多个目标物体。在YOLO中,anchor box的计算需要利用 K-means进行聚类得到,得到的是anchorbox的长和宽,不需要计算 anchor box的中心坐标,每个anchor box具有不同面积大小,并且不同长宽比。
7.在训练模型过程中需要对比模型输出的预测框与训练的物体实际框之间的差别,所以设置目标损失函数。由于预测框带有的信息包括中心点的坐标,框的宽和高以及属于某个类别物体的概率,还有预测的置信度。则对预测的中心坐标做损失计算:
Figure BDA0002525001530000091
上式中,xi,yi是物体实际框的中心坐标,
Figure BDA0002525001530000092
是预测框的中心坐标,λcoord
Figure BDA0002525001530000093
是系数常量。对预测边界框的宽高做损失计算:
Figure BDA0002525001530000094
上式中,wi,hi是物体实际框的长宽,
Figure BDA0002525001530000095
是预测框的长宽,λcoord
Figure BDA0002525001530000096
是系数常量。对预测边界框的类别做损失计算:
Figure BDA0002525001530000097
上式中,pi(c)是某类物体的实际概率,
Figure BDA0002525001530000098
是预测框的属于某类别的概率,
Figure BDA0002525001530000099
是系数常量。对预测边界框的置信度做损失计算:
Figure BDA00025250015300000910
上式中,Ci是置信度得分,
Figure BDA0002525001530000101
预测边界框与实际物体框的交叉部分。
总的损失函数为以上各项之和:
Figure BDA0002525001530000102
8.权值的调整策略,采用mini Batch SGD加上Momenturn,就是采用小批量随机梯度附加动量的算法。通过权值调整算法,模型大体上会朝着目标损失函数下降的方向进行调整,过程会有波动。具体计算公式如下:
Figure BDA0002525001530000103
Figure BDA0002525001530000104
θk=θk-1-Vk
上式中,
Figure BDA0002525001530000105
是目标损失函数的梯度,η是学习率,θi是某个连接权值,γ是动量大小,Vi是中间变量。
采集用于模型训练的图像数据:在连续拍照的情况下,采集大量图像数据,基于应用场景采集的图象数据,图像包含各种类别的目标物体。
YOLO模型训练包括:
图3为txt文件示意图;图4为使用python将txt文件数据整理成含目标物体的xml文件示意图;将采集的图像数据进行整理挑选和标注,标注出目标物体在图像中的左上角坐标及右下角坐标,txt文件如图3所示。使用python将txt文件数据整理成含目标物体的xml 文件,如图4所示。最后再整理成YOLO模型训练所需的标签数据,将标签数据与对应的图像数据整理成训练集和验证集。
下载YOLO通用模型的源代码及初始的配置文件,根据上述分析在计算机上部署环境,更改通用模型的数据输入输出接口,便于本次目标检测模型的生成。初始配置文件主要包括cfg和weights文件, cfg是网络结构配置及参数文件,weights文件是网络连接的权值文件。在模型训练的过程中,程序实际是依赖自己手动设计的cfg文件,不断在对weights文件进行更新。图5为初始模型配置文件示意图。
设置YOLO的神经网络配置参数(网络层数和连接及候选框等),这里anchor box(预选框)的长和宽的值是使用K-means来生成的,另外手动设置网络层(卷积层,池化层等)和层级连接等(对于模型参数的配置由专门的cfg文件编写),图6为anchor box的设置示意图;图7为参数设置及网络连接设置示意图;如图6和图7所示。然后导入生成的训练集和验证集进行YOLO模型的训练。
经过一段时间的训练后,YOLO模型输出对验证集识别的效果,包括识别精度和召回率。根据模型输出的结果,判断YOLO模型是否达需要调整再训练,若没达到要求则返回第五步,修改神经网络配置参数(网络层数和连接及预选框等),不断的优化YOLO模型,直到最后模型输出的识别精度和召回率等满足要求,图8为模型识别效果图,如图8所示。最后,封装模型的接口使其能被目标物体运动追踪功能模块调用。
图9为基于神经网络的多目标物体运动追踪方法的流程图,如图 9所示,通过训练后的YOLO模型进行基于神经网络的多目标物体运动追踪包括:
在得出较好的目标检测的深度学习模型之后,需要将该技术运用到多目标物体追踪上面,即需要对连续帧的图片中的同一物体进行跟踪。图像中的目标物体可能出现残缺的情况,而且跟踪的是多目标物体,物体之间存在遮挡堆叠的情况,跟踪难度有点大,设计跟踪目标物体的步骤:
第一步:跟踪过程需要结合物体的运动信息,需要安装编码器。利用编码器测量物体的运动速度,以前面一帧的目标物***置和识别框为基准,计算出当前帧目标物体的位置信息及识别框。
第二步:建立起在时间上先后出现的多目标物体之间的对应关系,调用本次目标检测模型接口,得出当前帧的多目标物体的位置信息和识别框,根据第一步的计算结果,求出第一步计算出的识别框与第二步得出识别框的对应关系,当出现对应关系时表示该物体不是重新出现的物体而是前面一帧就已经出现的物体,不予重复计数。
第三步:在连续的不断计数过程中,以某一位置拍照的图像为初始帧,然后以目标物体离开相机视野范围的某一位置为结束帧,重复前面两步。
搭建完整计数软件的架构,整合神经网络识别模块,统计目标物体个数模块,显示模块,相机模块等;准备硬件环境(intel i5处理器, 4G运行内存,GTX1050及以上版本显卡100G存储空间,14寸显示器)相机,支架,网线,编码器等。软件环境win10,开发软件VS, QT。
多目标运动物体检测追踪***的关键在于对运动目标物体的识别及追踪。对于检测模块,在相同精度条件下,YOLOv3模型相对于 Fast-R-CNN具有快速的特点,改进后的YOLOv3小型网络架构更加简便快速,在带有GPU的情况下处理一张448*448的图像需要78ms, 对于网络结构的更改需要平衡速度和准确度,最终通过不断调整优化确定合适的网络结构。
本发明对于多目标物体追踪在出现遮挡和神经网络识别结果并不能百分百准确的情况下,现有的的卡尔曼滤波并不能很好解决问题,基于神经网络的多目标物体运动追踪方法中详细介绍了如何利用物体的运动信息,寻找对应关系能有效的解决同一包裹不重复计算问题。算法考虑到同一目标物体识别框的变化较大,以及出现追踪掉帧的情况,计算对应关系使用新旧识别框的交叉区域,占据新框或旧框的比例,设定阈值挑选对应上的识别框进行更新替换。
本发明利用开源的YOLO深度学习模型,修改模型的参数,包括修改网络的层数,网络的预先设定的候选框大小以及学习率等。然后根据模型的输入输出接口,修改接口形式,将其编写成供***调用的功能模块。利用多目标物体的运动信息,编写对物体的状态描述及预测的功能代码。最后,整合这两部分的核心功能模块,再添加***的数据处理,对输出显示的控制等其它功能代码,组成一个完整的多目标物体追踪***。
本发明对目标物体识别主要采用了神经网络算法,准确率较高。深度学习算法识别率高,对复杂情况有较高的容错率,追踪统计算法简易稳定。***运行稳定,操作简单。本发明结合深度学习的目标检测算法和计数去重算法有效的解决了复杂情况下的目标物体检测和计数难题。***对于目标物体的外包装没有要求,需要的成本很低。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于神经网络的多目标物体运动追踪方法,其特征在于,包括:
设计和训练YOLO神经网络模型,包括:
将一幅图像分成多个网格,如果某个检测目标的中心落在一网格中,则该网格则负责预测对应的该检测目标;
每个该网格预测多个边界框,预测的该多个边界框框住同一个物体,每个边界框回归自身的位置信息以及预测一个confidence值;
每个该网格预测多个类别,局部神经网络的输出层的张量通过多个网格数、多个边界框数以及多个类别数计算得到;
将该网格的预测的该多个类别与该confidence值相乘,相乘的结果得到结果值,结果值表示预测的边界框属于某一类的概率,通过阈值,滤掉结果值低于阈值的边界框;
对保留的边界框进行处理,得到某个类别物体的唯一预测基准框;
对于同一中心的物体设定多个不同的预选框,用于对同一个中心点,取不同的窗口,检测重叠在一起的多个目标物体;
对预测的边界框的中心点位置做损失计算,对预测的边界框的宽高做损失计算;对预测边界框的类别做损失计算;对预测边界框的置信度做损失计算;计算总的损失函数,通过权值调整算法,降低目标损失函数;
在连续拍照的情况下,采集大量图像数据,图像包含各种类别的目标物体;以及
将采集的图像数据进行整理、挑选和标注,标注出目标物体在图像中的左上角坐标及右下角坐标,整理成YOLO模型训练所需的标签数据,将标签数据与对应的图像数据整理成训练集和验证集,设置YOLO的神经网络配置参数,将整理好的训练集作为YOLO模型训练的输入,然后将验证集作为YOLO模型测试的输入;进行YOLO模型的训练;以及
通过训练的YOLO模型进行多目标物体运动追踪。
2.如权利要求1所述的基于神经网络的多目标物体运动追踪方法,其特征在于,通过训练的YOLO模型进行多目标物体运动追踪包括:
利用编码器测量物体的运动速度,以前面一帧的目标物***置和识别框为基准,计算出单目标物体当前帧的目标物体的位置信息及识别框;
建立起在时间上先后出现的多目标物体之间的对应关系,调用YOLO模型,得出多目标物体当前帧的多目标物体的位置信息和识别框;
求出相邻两帧图像中目标物体之间的对应关系,当出现相互匹配的对应关系表示该物体在相邻两帧的图像中是同一目标物体,不予重复计数。
3.如权利要求1所述的基于神经网络的多目标物体运动追踪方法,其特征在于,confidence值的计算包括:
Figure FDA0002525001520000021
其中,Pr(object)代表置信度,如果有检测目标object落在该网格里,Pr(object)取1,否则取0,
Figure FDA0002525001520000022
是预测框和实际的物体标注框之间的交并比。
4.如权利要求1所述的基于神经网络的多目标物体运动追踪方法,其特征在于,将该网格的预测的该多个类别与该confidence值相乘包括:
Figure FDA0002525001520000031
Pr(Classi|object)是每个网格预测的类别信息,表示在网格包含检测目标的条件下,该检测目标属于某个类的概率,
Figure FDA0002525001520000032
是该confidence值。
5.如权利要求1所述的基于神经网络的多目标物体运动追踪方法,其特征在于,通过设置预选框,处理两个对象的中心点出现在同一个网格的情况,对于同一中心的物体设定5个到9个不同长宽比,面积不同的预选框。
6.如权利要求1所述的基于神经网络的多目标物体运动追踪方法,其特征在于,利用K-means进行聚类计算预选框,得到预选框的长和宽,每个预选框具有不同面积大小,并且不同长宽比。
7.如权利要求1所述的基于神经网络的多目标物体运动追踪方法,其特征在于,在YOLO模型训练过程中对比模型输出的预测框与训练的物体实际框之间的差别,设置目标损失函数,则对预测的边界框的中心点位置做损失计算为:
Figure FDA0002525001520000033
其中,xi,yi是物体实际框的中心点位置坐标,
Figure FDA0002525001520000034
是预测框的中心点位置坐标,λcoord是权值常量,
Figure FDA0002525001520000035
是系数常量,当预测边界框的中心点位置落在了第i个网格中,如果预测边界框所在的图像区域含有目标物体,则
Figure FDA0002525001520000036
取值为1,否则取值0;
对预测边界框的宽高做损失计算包括:
Figure FDA0002525001520000041
其中,wi和hi是物体实际框的长宽,
Figure FDA0002525001520000042
Figure FDA0002525001520000043
是预测框的长宽,λcoord,表示预测边界框的图像区域不包含任何物体;
对预测边界框的类别做损失计算:
Figure FDA0002525001520000044
其中,pi(c)是某类物体的实际概率,
Figure FDA0002525001520000045
是预测框的属于某类别的概率;
对预测边界框的置信度做损失计算包括:
其中,Ci是置信度得分,
Figure FDA0002525001520000047
预测边界框与实际物体框的交叉部分,
Figure FDA0002525001520000048
Figure FDA0002525001520000049
是取相反值;
计算总的损失函数包括:
Figure FDA00025250015200000410
8.如权利要求1所述的基于神经网络的多目标物体运动追踪方法,其特征在于,通过权值调整算法,降低目标损失函数包括:
Figure FDA00025250015200000411
Figure FDA00025250015200000412
θk=θk-1-Vk
其中,
Figure FDA0002525001520000051
是目标损失函数的梯度,η是学习率,θi是某连接的权值,γ是动量大小,Vi是中间变量。
9.如权利要求1所述的基于神经网络的多目标物体运动追踪方法,其特征在于,YOLO模型经过一段时间的训练后,输出对验证集识别的效果,包括识别精度和召回率,根据模型输出的结果,判断YOLO模型是否达到要求,若没达到要求则修改神经网络配置参数,再次优化YOLO模型,直到最后模型输出的识别精度和召回率满足要求。
10.如权利要求2所述的基于神经网络的多目标物体运动追踪方法,其特征在于,在计数过程中,以某一段连续帧图像的目标物体刚出现的一帧为追踪起始帧,以该连续帧图像的目标物体消失的一帧为结束帧,在起始帧和结束帧之间对相邻帧的的图像求解目标物体的对应关系,以追踪某一段连续帧图像中新出现的目标物体。
CN202010501800.7A 2020-06-04 2020-06-04 一种基于神经网络的多目标物体运动追踪方法 Pending CN111612002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010501800.7A CN111612002A (zh) 2020-06-04 2020-06-04 一种基于神经网络的多目标物体运动追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010501800.7A CN111612002A (zh) 2020-06-04 2020-06-04 一种基于神经网络的多目标物体运动追踪方法

Publications (1)

Publication Number Publication Date
CN111612002A true CN111612002A (zh) 2020-09-01

Family

ID=72196934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010501800.7A Pending CN111612002A (zh) 2020-06-04 2020-06-04 一种基于神经网络的多目标物体运动追踪方法

Country Status (1)

Country Link
CN (1) CN111612002A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306104A (zh) * 2020-11-17 2021-02-02 广西电网有限责任公司 一种基于网格加权的图像目标追踪云台控制方法
CN112329768A (zh) * 2020-10-23 2021-02-05 上善智城(苏州)信息科技有限公司 一种基于改进的yolo的加油站卸油停车牌标志的识别方法
CN112613564A (zh) * 2020-12-25 2021-04-06 桂林汉璟智能仪器有限公司 一种剔除重叠框的目标检测后处理方法
CN112784694A (zh) * 2020-12-31 2021-05-11 杭州电子科技大学 一种基于evp_yolo的室内物品检测方法
CN112926681A (zh) * 2021-03-29 2021-06-08 复旦大学 一种基于深度卷积神经网络的目标检测方法及装置
CN113283307A (zh) * 2021-04-30 2021-08-20 北京雷石天地电子技术有限公司 一种视频中物体识别方法、***及计算机存储介质
CN113470073A (zh) * 2021-07-06 2021-10-01 浙江大学 一种基于深度学习的动物中心追踪方法
CN114022558A (zh) * 2022-01-05 2022-02-08 深圳思谋信息科技有限公司 图像定位方法、装置、计算机设备和存储介质
CN114648685A (zh) * 2022-03-23 2022-06-21 成都臻识科技发展有限公司 一种anchor-free算法转换为anchor-based算法的方法及***
WO2022162766A1 (ja) * 2021-01-27 2022-08-04 オリンパス株式会社 情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法
CN115410136A (zh) * 2022-11-01 2022-11-29 济钢防务技术有限公司 一种基于卷积神经网络的激光排爆***紧急安全控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447033A (zh) * 2018-11-14 2019-03-08 北京信息科技大学 基于yolo的车辆前方障碍物检测方法
CN110059554A (zh) * 2019-03-13 2019-07-26 重庆邮电大学 一种基于交通场景的多支路目标检测方法
CN110837762A (zh) * 2018-08-17 2020-02-25 南京理工大学 基于GoogLeNet的卷积神经网络行人识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837762A (zh) * 2018-08-17 2020-02-25 南京理工大学 基于GoogLeNet的卷积神经网络行人识别方法
CN109447033A (zh) * 2018-11-14 2019-03-08 北京信息科技大学 基于yolo的车辆前方障碍物检测方法
CN110059554A (zh) * 2019-03-13 2019-07-26 重庆邮电大学 一种基于交通场景的多支路目标检测方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329768A (zh) * 2020-10-23 2021-02-05 上善智城(苏州)信息科技有限公司 一种基于改进的yolo的加油站卸油停车牌标志的识别方法
CN112306104A (zh) * 2020-11-17 2021-02-02 广西电网有限责任公司 一种基于网格加权的图像目标追踪云台控制方法
CN112613564A (zh) * 2020-12-25 2021-04-06 桂林汉璟智能仪器有限公司 一种剔除重叠框的目标检测后处理方法
CN112784694A (zh) * 2020-12-31 2021-05-11 杭州电子科技大学 一种基于evp_yolo的室内物品检测方法
WO2022162766A1 (ja) * 2021-01-27 2022-08-04 オリンパス株式会社 情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法
CN112926681A (zh) * 2021-03-29 2021-06-08 复旦大学 一种基于深度卷积神经网络的目标检测方法及装置
CN112926681B (zh) * 2021-03-29 2022-11-29 复旦大学 一种基于深度卷积神经网络的目标检测方法及装置
CN113283307A (zh) * 2021-04-30 2021-08-20 北京雷石天地电子技术有限公司 一种视频中物体识别方法、***及计算机存储介质
CN113470073A (zh) * 2021-07-06 2021-10-01 浙江大学 一种基于深度学习的动物中心追踪方法
CN114022558A (zh) * 2022-01-05 2022-02-08 深圳思谋信息科技有限公司 图像定位方法、装置、计算机设备和存储介质
CN114648685A (zh) * 2022-03-23 2022-06-21 成都臻识科技发展有限公司 一种anchor-free算法转换为anchor-based算法的方法及***
CN115410136A (zh) * 2022-11-01 2022-11-29 济钢防务技术有限公司 一种基于卷积神经网络的激光排爆***紧急安全控制方法

Similar Documents

Publication Publication Date Title
CN111612002A (zh) 一种基于神经网络的多目标物体运动追踪方法
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN111062413B (zh) 一种道路目标检测方法、装置、电子设备及存储介质
CN109784293B (zh) 多类目标对象检测方法、装置、电子设备、存储介质
CN105574550A (zh) 一种车辆识别方法及装置
CN110765865B (zh) 基于改进的yolo算法的水下目标检测方法
CN111368636A (zh) 目标分类方法、装置、计算机设备和存储介质
US20230137337A1 (en) Enhanced machine learning model for joint detection and multi person pose estimation
CN114821102A (zh) 密集柑橘数量检测方法、设备、存储介质及装置
CN111807183A (zh) 基于深度学习的电梯门状态智能检测方法
CN108133235A (zh) 一种基于神经网络多尺度特征图的行人检测方法
CN110084284A (zh) 基于区域卷积神经网络的目标检测与二级分类算法及装置
CN110070106A (zh) 烟雾检测方法、装置及电子设备
CN111353440A (zh) 一种目标检测方法
CN111368634B (zh) 基于神经网络的人头检测方法、***及存储介质
CN110490058B (zh) 行人检测模型的训练方法、装置、***和计算机可读介质
CN110414544B (zh) 一种目标状态分类方法、装置及***
CN112241736A (zh) 一种文本检测的方法及装置
CN111666872B (zh) 一种数据不平衡下的高效行为识别方法
CN113192017A (zh) 包裹缺陷识别方法、装置、设备及存储介质
CN112785557A (zh) 皮带料流检测方法及装置、皮带料流检测***
Klausner et al. Distributed multilevel data fusion for networked embedded systems
CN113887455B (zh) 一种基于改进fcos的人脸口罩检测***及方法
CN113496501B (zh) 基于视频预测的动态场景中的入侵物检测方法和***
CN115171011A (zh) 一种多类别建材视频计数方法及***、计数设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200901

RJ01 Rejection of invention patent application after publication