CN111612002A

CN111612002A - 一种基于神经网络的多目标物体运动追踪方法

Info

Publication number: CN111612002A
Application number: CN202010501800.7A
Authority: CN
Inventors: 刘哲; 黄博才; 刘少君; 罗建坤
Original assignee: Guangzhou Qiezhi Intelligent Technology Co ltd
Current assignee: Guangzhou Qiezhi Intelligent Technology Co ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-09-01

Abstract

本发明涉及一种基于神经网络的多目标物体运动追踪方法，包括将一幅图像分成多个网格；每个网格要预测多个边界框，预测的多个边界框框住同一个物体，每个边界框回归自身的位置信息以及预测一个confidence值；将每个网格的预测的类别与每个边界框的confidence值相乘，得到结果值；对保留的边界框进行处理，得到某个类别物体的唯一预测基准框；对于同一中心的物体设定多个不同的预选框，检测重叠在一起的多个目标物体；计算总的损失函数，通过权值调整算法，降低目标损失函数；将标签数据与对应的图像数据整理成训练集和验证集，设置YOLO的神经网络配置参数，将整理好的训练集作为YOLO模型训练的输入，然后将验证集作为YOLO模型测试的输入；以及通过训练的YOLO模型进行多目标物体运动追踪。

Description

一种基于神经网络的多目标物体运动追踪方法

技术领域

本发明涉及计算机视频识别技术，特别涉及一种基于神经网络的多目标物体运动追踪方法。

背景技术

现有的目标物体的统计方法有RFID和激光线扫计数，RFID对包裹的外包装要求比较高，每个外包装都需要芯片嵌入，成本高。激光线扫计数的局限在于对堆叠的物体，以及目标物体的外包装的标签面朝下时出现漏计的情况。

发明内容

本发明的目的在于提供一种基于神经网络的多目标物体运动追踪方法，用于解决上述现有技术的问题。

本发明一种基于神经网络的多目标物体运动追踪方法，其中，包括：设计和训练YOLO神经网络模型，包括：将一幅图像分成多个网格，如果某个检测目标的中心落在一网格中，则该网格则负责预测对应的该检测目标；每个该网格预测多个边界框，预测的该多个边界框框住同一个物体，每个边界框回归自身的位置信息以及预测一个 confidence值；每个该网格预测多个类别，局部神经网络的输出层的张量通过多个网格数、多个边界框数以及多个类别数计算得到；将该网格的预测的该多个类别与该confidence值相乘，相乘的结果得到结果值，结果值表示预测的边界框属于某一类的概率，通过阈值，滤掉结果值低于阈值的边界框；对保留的边界框进行处理，得到某个类别物体的唯一预测基准框；对于同一中心的物体设定多个不同的预选框，用于对同一个中心点，取不同的窗口，检测重叠在一起的多个目标物体；对预测的边界框的中心点位置做损失计算，对预测的边界框的宽高做损失计算；对预测边界框的类别做损失计算；对预测边界框的置信度做损失计算；计算总的损失函数，通过权值调整算法，降低目标损失函数；在连续拍照的情况下，采集大量图像数据，图像包含各种类别的目标物体；以及将采集的图像数据进行整理、挑选和标注，标注出目标物体在图像中的左上角坐标及右下角坐标，整理成YOLO 模型训练所需的标签数据，将标签数据与对应的图像数据整理成训练集和验证集，设置YOLO的神经网络配置参数，将整理好的训练集作为YOLO模型训练的输入，然后将验证集作为YOLO模型测试的输入；进行YOLO模型的训练；以及通过训练的YOLO模型进行多目标物体运动追踪。

根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例，其中，通过训练的YOLO模型进行多目标物体运动追踪包括：利用编码器测量物体的运动速度，以前面一帧的目标物***置和识别框为基准，计算出单目标物体当前帧的目标物体的位置信息及识别框；建立起在时间上先后出现的多目标物体之间的对应关系，调用 YOLO模型，得出多目标物体当前帧的多目标物体的位置信息和识别框；求出相邻两帧图像中目标物体之间的对应关系，当出现相互匹配的对应关系表示该物体在相邻两帧的图像中是同一目标物体，不予重复计数。

根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例，其中，confidence值的计算包括：

其中，Pr(object)代表置信度，如果有检测目标object落在该网格里，Pr(object)取1，否则取0，

是预测框和实际的物体标注框之间的交并比。

根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例，其中，将该网格的预测的该多个类别与该confidence值相乘包括：

Pr(Class_i|object)是每个网格预测的类别信息，表示在网格包含检测目标的条件下，该检测目标属于某个类的概率，

是该confidence值。

根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例，其中，通过设置预选框，处理两个对象的中心点出现在同一个网格的情况，对于同一中心的物体设定5个到9个不同长宽比，面积不同的预选框。

根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例，其中，利用K-means进行聚类计算预选框，得到预选框的长和宽，每个预选框具有不同面积大小，并且不同长宽比。

根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例，其中，在YOLO模型训练过程中对比模型输出的预测框与训练的物体实际框之间的差别，设置目标损失函数，则对预测的边界框的中心点位置做损失计算为：

其中，x_i，y_i是物体实际框的中心点位置坐标，

是预测框的中心点位置坐标，λ_coord是权值常量，

是系数常量，当预测边界框的中心点位置落在了第i个网格中，如果预测边界框所在的图像区域含有目标物体，则

取值为1，否则取值0；

对预测边界框的宽高做损失计算包括：

其中，w_i和h_i是物体实际框的长宽，

和

是预测框的长宽，λ_coord，表示预测边界框的图像区域不包含任何物体；

对预测边界框的类别做损失计算：

其中，p_i(c)是某类物体的实际概率，

是预测框的属于某类别的概率；

对预测边界框的置信度做损失计算包括：

其中，C_i是置信度得分，

预测边界框与实际物体框的交叉部分，

与

是取相反值；

计算总的损失函数包括：

8.如权利要求1所述的基于神经网络的多目标物体运动追踪方法，其特征在于，通过权值调整算法，降低目标损失函数包括：

θ_k＝θ_k-1-V_k；

其中，

是目标损失函数的梯度，η是学习率，θ_i是某连接的权值，γ是动量大小，V_i是中间变量。

根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例，其中，通过权值调整算法，降低目标损失函数包括：

θ_k＝θ_k-1-V_k；

其中，

根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例，其中，YOLO模型经过一段时间的训练后，输出对验证集识别的效果，包括识别精度和召回率，根据模型输出的结果，判断YOLO 模型是否达到要求，若没达到要求则修改神经网络配置参数，再次优化YOLO模型，直到最后模型输出的识别精度和召回率满足要求。

根据本发明的基于神经网络的多目标物体运动追踪方法的一实施例，在计数过程中，以某一段连续帧图像的目标物体刚出现的一帧为追踪起始帧，以该连续帧图像的目标物体消失的一帧为结束帧，在起始帧和结束帧之间对相邻帧的的图像求解目标物体的对应关系，以追踪某一段连续帧图像中新出现的目标物体。

本发明的基于神经网络的多目标物体运动追踪方法，利用工业相机实现对多目标物体的追踪和统计，主要分为多目标物体的检测部分和多目标物体的追踪部分，基于视频流的处理，对每一帧图像进行多目标物体检测识别，利用多目标物体的运动信息实现追踪与统计。通过YOLO深度学习算法，修改通用模型，训练本次目标检测的模型再结合移动物体追踪去重算法，针对将深度学习方法运用到多目标物体运动追踪的难题，实现了对多目标物体运动的在线实时追踪。

附图说明

图1为多目标物体***工程文件示意图；

图2为采集数据图；

图3为txt文件示意图；

图4为使用python将txt文件数据整理成含目标物体的xml文件示意图；

图5为初始模型配置文件示意图；

图6为anchor box的设置示意图；

图7为参数设置及网络连接设置示意图；

图8为模型识别效果图；

图9为基于神经网络的多目标物体运动追踪方法的流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明基于神经网络的多目标物体运动追踪方法主要包括：利用深度学习网络，对目标物体进行检测识别。利用编码器传回目标运动信息，并结合检测结果进行目标追踪。采用的深度学习网络为YOLO 的学习框架，将Object Detection(目标检测)的问题转化成一个 Regression问题。给定输入图像，直接在图像的多个位置上回归出目标的boundingbox以及其分类类别。选用整图训练模型，可以更好的区分目标和背景区域，通过YOLO可以做到将一张图片输入，直接输出最终结果，包括框和框内物体的名称及score(得分)。在得目标物体的识别结果和位置信息后，结合物体的运动信息统计目标物体的个数，不得将同一物体计数两次。

本发明基于神经网络的多目标物体运动追踪方法包括：建立目标检测深度学习网络模型：

第一步：设置YOLO神经网络模型：

1.YOLO首先是将一幅图像分成SxS个网格(grid cell)，如果某个检测目标object的中心落在这个网格中，则这个网格就负责预测这个检测目标object，其中，网格中心未必与物体的中心重合。

2.每个网格(grid cell)要预测B个bounding box(边界框)，预测的B个boundingbox(边界框)框住的都是同一个物体。每个 bounding box(边界框)除了要回归自身的位置信息(x，y，w，h) 之外，还要附带预测一个confidence值。其中x和y代表预测的边界框的中心与网格边界的相对值，w和h代表预测的边界框的 width/height(宽和高)相对于整个图像宽width和高height的比例， confidence由所预测的边界框中含有检测目标object的置信度和这个边界框预测得有多准这两重信息决定，confidence值是这样计算的：

其中，Pr(object)代表置信度，如果有检测目标object落在该网格(grid cell)里，Pr(object)取1，否则取0。

是预测的预测框和实际的物体标注框之间的交并比(重叠度)。在计算过程中注意的地方：bounding box(边界框)信息中的坐标(x，y)是预测的边界框的中心与网格边界的相对值，需要归一化到0-1之间，长宽(w， h)是预测的边界框的宽和高相对于整个图像长和图像宽的比例，也需要归一化到0-1之间。

3.每个grid cell(网格)还要预测C个类别信息。则S*S个网格，每个网格要预测B个bounding box(边界框)还要预测C个类别，在构建神经网络将连接时，局部神经网络的输出层就是S*S*(5*B+C)的一个tensor(张量)。

4.将每个grid cell(网格)的预测的类别信息与每个边界框的 confidence相乘：

等式左边中Pr(Class_i|object)就是每个网格预测的类别信息，它表示在gridcell(网格)包含object的条件下，该object属于某个类的概率。

就是每个bounding box(边界框)预测的 confidence值。相乘的结果得到每个边界框属于哪一类的结果值 confidence score，结果值confidence score表示预测的bounding box属于某一类的概率，也有该边界框准确度的信息。然后设置阈值，滤掉 confidence score值比较低(值小于0.5)的边界框。

5.对保留的预测边界框进行NMS算法处理，得到某个类别物体的唯一预测基准框。在预测的结果中，可能出现对同一个目标物体预测出多个预测边界框，由于保留下来的预测边界框带有类别信息及 confidence score，可以对同一类别的边界框取confidencescore最高的作为预测基准框，去掉和预测基准框重叠区域大的预测边界框。

6.网络中加入anchor box，anchor box(预选框)这个概念，是为了处理两个对象的中心点出现在同一个网格的情况，这样一个网格需要预测两个物体。anchor box一般是人为设定的预选框，对于同一中心的物体可以设定5个或9个不同长宽比，面积不同的预选框。 anchor box相当于对同一个中心点，取不同的窗口，从而用来检测重叠在一起的多个目标物体。在YOLO中，anchor box的计算需要利用 K-means进行聚类得到，得到的是anchorbox的长和宽，不需要计算 anchor box的中心坐标，每个anchor box具有不同面积大小，并且不同长宽比。

7.在训练模型过程中需要对比模型输出的预测框与训练的物体实际框之间的差别，所以设置目标损失函数。由于预测框带有的信息包括中心点的坐标，框的宽和高以及属于某个类别物体的概率，还有预测的置信度。则对预测的中心坐标做损失计算：

上式中，x_i，y_i是物体实际框的中心坐标，

是预测框的中心坐标，λ_coord，

是系数常量。对预测边界框的宽高做损失计算：

上式中，w_i，h_i是物体实际框的长宽，

是预测框的长宽，λ_coord，

是系数常量。对预测边界框的类别做损失计算：

上式中，p_i(c)是某类物体的实际概率，

是预测框的属于某类别的概率，

是系数常量。对预测边界框的置信度做损失计算：

上式中，C_i是置信度得分，

预测边界框与实际物体框的交叉部分。

总的损失函数为以上各项之和：

8.权值的调整策略，采用mini Batch SGD加上Momenturn，就是采用小批量随机梯度附加动量的算法。通过权值调整算法，模型大体上会朝着目标损失函数下降的方向进行调整，过程会有波动。具体计算公式如下：

θ_k＝θ_k-1-V_k；

上式中，

是目标损失函数的梯度，η是学习率，θ_i是某个连接权值，γ是动量大小，V_i是中间变量。

采集用于模型训练的图像数据：在连续拍照的情况下，采集大量图像数据，基于应用场景采集的图象数据，图像包含各种类别的目标物体。

YOLO模型训练包括：

图3为txt文件示意图；图4为使用python将txt文件数据整理成含目标物体的xml文件示意图；将采集的图像数据进行整理挑选和标注，标注出目标物体在图像中的左上角坐标及右下角坐标，txt文件如图3所示。使用python将txt文件数据整理成含目标物体的xml 文件，如图4所示。最后再整理成YOLO模型训练所需的标签数据，将标签数据与对应的图像数据整理成训练集和验证集。

下载YOLO通用模型的源代码及初始的配置文件，根据上述分析在计算机上部署环境，更改通用模型的数据输入输出接口，便于本次目标检测模型的生成。初始配置文件主要包括cfg和weights文件， cfg是网络结构配置及参数文件，weights文件是网络连接的权值文件。在模型训练的过程中，程序实际是依赖自己手动设计的cfg文件，不断在对weights文件进行更新。图5为初始模型配置文件示意图。

设置YOLO的神经网络配置参数(网络层数和连接及候选框等)，这里anchor box(预选框)的长和宽的值是使用K-means来生成的，另外手动设置网络层(卷积层，池化层等)和层级连接等(对于模型参数的配置由专门的cfg文件编写),图6为anchor box的设置示意图；图7为参数设置及网络连接设置示意图；如图6和图7所示。然后导入生成的训练集和验证集进行YOLO模型的训练。

经过一段时间的训练后，YOLO模型输出对验证集识别的效果，包括识别精度和召回率。根据模型输出的结果，判断YOLO模型是否达需要调整再训练，若没达到要求则返回第五步，修改神经网络配置参数(网络层数和连接及预选框等)，不断的优化YOLO模型，直到最后模型输出的识别精度和召回率等满足要求，图8为模型识别效果图，如图8所示。最后，封装模型的接口使其能被目标物体运动追踪功能模块调用。

图9为基于神经网络的多目标物体运动追踪方法的流程图，如图 9所示，通过训练后的YOLO模型进行基于神经网络的多目标物体运动追踪包括：

在得出较好的目标检测的深度学习模型之后，需要将该技术运用到多目标物体追踪上面，即需要对连续帧的图片中的同一物体进行跟踪。图像中的目标物体可能出现残缺的情况，而且跟踪的是多目标物体，物体之间存在遮挡堆叠的情况，跟踪难度有点大，设计跟踪目标物体的步骤：

第一步：跟踪过程需要结合物体的运动信息，需要安装编码器。利用编码器测量物体的运动速度，以前面一帧的目标物***置和识别框为基准，计算出当前帧目标物体的位置信息及识别框。

第二步：建立起在时间上先后出现的多目标物体之间的对应关系，调用本次目标检测模型接口，得出当前帧的多目标物体的位置信息和识别框，根据第一步的计算结果，求出第一步计算出的识别框与第二步得出识别框的对应关系，当出现对应关系时表示该物体不是重新出现的物体而是前面一帧就已经出现的物体，不予重复计数。

第三步：在连续的不断计数过程中，以某一位置拍照的图像为初始帧，然后以目标物体离开相机视野范围的某一位置为结束帧，重复前面两步。

搭建完整计数软件的架构，整合神经网络识别模块，统计目标物体个数模块，显示模块，相机模块等；准备硬件环境(intel i5处理器， 4G运行内存，GTX1050及以上版本显卡100G存储空间，14寸显示器)相机，支架，网线，编码器等。软件环境win10，开发软件VS， QT。

多目标运动物体检测追踪***的关键在于对运动目标物体的识别及追踪。对于检测模块，在相同精度条件下，YOLOv3模型相对于 Fast-R-CNN具有快速的特点，改进后的YOLOv3小型网络架构更加简便快速，在带有GPU的情况下处理一张448*448的图像需要78ms, 对于网络结构的更改需要平衡速度和准确度，最终通过不断调整优化确定合适的网络结构。

本发明对于多目标物体追踪在出现遮挡和神经网络识别结果并不能百分百准确的情况下，现有的的卡尔曼滤波并不能很好解决问题，基于神经网络的多目标物体运动追踪方法中详细介绍了如何利用物体的运动信息，寻找对应关系能有效的解决同一包裹不重复计算问题。算法考虑到同一目标物体识别框的变化较大，以及出现追踪掉帧的情况，计算对应关系使用新旧识别框的交叉区域，占据新框或旧框的比例，设定阈值挑选对应上的识别框进行更新替换。

本发明利用开源的YOLO深度学习模型，修改模型的参数，包括修改网络的层数，网络的预先设定的候选框大小以及学习率等。然后根据模型的输入输出接口，修改接口形式，将其编写成供***调用的功能模块。利用多目标物体的运动信息，编写对物体的状态描述及预测的功能代码。最后，整合这两部分的核心功能模块，再添加***的数据处理，对输出显示的控制等其它功能代码，组成一个完整的多目标物体追踪***。

本发明对目标物体识别主要采用了神经网络算法，准确率较高。深度学习算法识别率高，对复杂情况有较高的容错率，追踪统计算法简易稳定。***运行稳定，操作简单。本发明结合深度学习的目标检测算法和计数去重算法有效的解决了复杂情况下的目标物体检测和计数难题。***对于目标物体的外包装没有要求，需要的成本很低。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于神经网络的多目标物体运动追踪方法，其特征在于，包括：

设计和训练YOLO神经网络模型，包括：

将一幅图像分成多个网格，如果某个检测目标的中心落在一网格中，则该网格则负责预测对应的该检测目标；

每个该网格预测多个边界框，预测的该多个边界框框住同一个物体，每个边界框回归自身的位置信息以及预测一个confidence值；

每个该网格预测多个类别，局部神经网络的输出层的张量通过多个网格数、多个边界框数以及多个类别数计算得到；

将该网格的预测的该多个类别与该confidence值相乘，相乘的结果得到结果值，结果值表示预测的边界框属于某一类的概率，通过阈值，滤掉结果值低于阈值的边界框；

对保留的边界框进行处理，得到某个类别物体的唯一预测基准框；

对于同一中心的物体设定多个不同的预选框，用于对同一个中心点，取不同的窗口，检测重叠在一起的多个目标物体；

对预测的边界框的中心点位置做损失计算，对预测的边界框的宽高做损失计算；对预测边界框的类别做损失计算；对预测边界框的置信度做损失计算；计算总的损失函数，通过权值调整算法，降低目标损失函数；

在连续拍照的情况下，采集大量图像数据，图像包含各种类别的目标物体；以及

将采集的图像数据进行整理、挑选和标注，标注出目标物体在图像中的左上角坐标及右下角坐标，整理成YOLO模型训练所需的标签数据，将标签数据与对应的图像数据整理成训练集和验证集，设置YOLO的神经网络配置参数，将整理好的训练集作为YOLO模型训练的输入，然后将验证集作为YOLO模型测试的输入；进行YOLO模型的训练；以及

通过训练的YOLO模型进行多目标物体运动追踪。

2.如权利要求1所述的基于神经网络的多目标物体运动追踪方法，其特征在于，通过训练的YOLO模型进行多目标物体运动追踪包括：

利用编码器测量物体的运动速度，以前面一帧的目标物***置和识别框为基准，计算出单目标物体当前帧的目标物体的位置信息及识别框；

建立起在时间上先后出现的多目标物体之间的对应关系，调用YOLO模型，得出多目标物体当前帧的多目标物体的位置信息和识别框；

求出相邻两帧图像中目标物体之间的对应关系，当出现相互匹配的对应关系表示该物体在相邻两帧的图像中是同一目标物体，不予重复计数。

3.如权利要求1所述的基于神经网络的多目标物体运动追踪方法，其特征在于，confidence值的计算包括：

是预测框和实际的物体标注框之间的交并比。

4.如权利要求1所述的基于神经网络的多目标物体运动追踪方法，其特征在于，将该网格的预测的该多个类别与该confidence值相乘包括：

是该confidence值。

5.如权利要求1所述的基于神经网络的多目标物体运动追踪方法，其特征在于，通过设置预选框，处理两个对象的中心点出现在同一个网格的情况，对于同一中心的物体设定5个到9个不同长宽比，面积不同的预选框。

6.如权利要求1所述的基于神经网络的多目标物体运动追踪方法，其特征在于，利用K-means进行聚类计算预选框，得到预选框的长和宽，每个预选框具有不同面积大小，并且不同长宽比。

7.如权利要求1所述的基于神经网络的多目标物体运动追踪方法，其特征在于，在YOLO模型训练过程中对比模型输出的预测框与训练的物体实际框之间的差别，设置目标损失函数，则对预测的边界框的中心点位置做损失计算为：

其中，x_i，y_i是物体实际框的中心点位置坐标，

是预测框的中心点位置坐标，λ_coord是权值常量，

取值为1，否则取值0；

对预测边界框的宽高做损失计算包括：

其中，w_i和h_i是物体实际框的长宽，

和

对预测边界框的类别做损失计算：

其中，p_i(c)是某类物体的实际概率，

是预测框的属于某类别的概率；

对预测边界框的置信度做损失计算包括：

其中，C_i是置信度得分，

预测边界框与实际物体框的交叉部分，

与

是取相反值；

计算总的损失函数包括：

θ_k＝θ_k-1-V_k；

其中，

9.如权利要求1所述的基于神经网络的多目标物体运动追踪方法，其特征在于，YOLO模型经过一段时间的训练后，输出对验证集识别的效果，包括识别精度和召回率，根据模型输出的结果，判断YOLO模型是否达到要求，若没达到要求则修改神经网络配置参数，再次优化YOLO模型，直到最后模型输出的识别精度和召回率满足要求。

10.如权利要求2所述的基于神经网络的多目标物体运动追踪方法，其特征在于，在计数过程中，以某一段连续帧图像的目标物体刚出现的一帧为追踪起始帧，以该连续帧图像的目标物体消失的一帧为结束帧，在起始帧和结束帧之间对相邻帧的的图像求解目标物体的对应关系，以追踪某一段连续帧图像中新出现的目标物体。