CN109657577B

CN109657577B - 一种基于熵和运动偏移量的动物检测方法

Info

Publication number: CN109657577B
Application number: CN201811496717.4A
Authority: CN
Inventors: 朱小飞; 陈建促; 王越; 李章宇; 林志航
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2022-06-28
Anticipated expiration: 2038-12-07
Also published as: CN109657577A

Abstract

本发明公开了一种基于熵和运动偏移量的动物检测方法，基于现有YOLOv3模型对当前帧图像进行初步检测判断，若图像中存在遮挡的情况，当前帧图像检测失败，则通过熵最小的在前队列图像来确定当前帧图像的动物类别信息，并通过多张在前队列图像来计算当前帧图像的动物位置信息。从而实现对存在遮挡的图像的动物检测，提升了实时动物检测的稳定性与准确率。

Description

一种基于熵和运动偏移量的动物检测方法

技术领域

本发明涉及图像识别领域，尤其涉及一种基于熵和运动偏移量的动物检测方法。

背景技术

实时动物检测是机器视觉领域的一个重要研究方向，其应用范围涵盖了安防、工业、汽车辅助驾驶等多个领域。将实时动物检测运用于动物领域，记录动物的日常行为及生活规律，以辅助科学研究，从而更好的保护珍贵或濒危的动物，更好的保护复杂的生态***，避免发生因某一动物的毁灭而引起不良连锁反应。然而，在对动物进行实时动物检测的过程中，由于运动模糊、形态变化、光照、复杂背景以及其他物体的遮挡等的影响，会降低动物检测的稳定性与准确率。其中，动物检测中遮挡问题的解决是提升动物检测稳定性与准确率的关键。

存在遮挡情况时动物的检测主要分为传统的遮挡检测方法、基于人工特征提取的分类方法以及基于深度学***均识别率提升了近20％，但时间开销与空间开销大；部分研究人员设计的YOLO模型，使用一个网络对图片进行端到端的训练，将整张图片作为网络的输入，在输出层回归边界框的位置及类别，检测速度得到了很大的提升，但检测准确率降低；部分研究人员设计的SSD(Single Shot MultiBox Detector)模型结合VGG-16网络、滑动窗口以及锚点框，在全图各个位置的多尺度区域特征进行回归，提高了动物检测的准确率，但检测速度不及YOLO。部分研究人员提出的YOLOv3模型，使用Darknet-53网络与金字塔网络，对图像进行多尺度检测，在保持YOLO检测速度的同时，达到了SSD的检测准确率。以上基于深度学习的动物检测方法虽取得了很好的研究成果，但对视频进行动物检测时，未考虑视频特有的时间序列关系，检测准确率较低。

因此，如何提高存在遮挡情况时动物检测的准确率，成为了本领域技术人员急需解决的问题。

发明内容

针对现有技术中存在的上述不足，本发明需要解决的问题是：如何提高存在遮挡情况时动物检测的准确率。

为解决上述技术问题，本发明采用了如下的技术方案：

一种基于熵和运动偏移量的动物检测方法，包括如下步骤：

S1、获取视频序列图像，所述视频序列图像包括当前帧图像及在前队列图像，在前队列图像包括多张连续的当前帧图像之前的图像，执行S2；

S2、基于YOLOv3模型对当前帧图像及在前队列图像进行检测，得到当前帧图像及在前队列图像的检测信息，所述检测信息包括检测评分、动物类别信息及动物位置信息，执行S3；

S3、若当前帧图像的检测评分大于或等于评分阈值，执行S6，否则，执行S4；

S4、计算每张在前队列图像的熵，将熵最低的在前队列图像的动物类别信息代替当前帧图像原有的动物类别信息，执行S5；

S5、基于所有在前队列图像的动物位置信息计算当前帧图像的动物位置信息，执行S6；

S6、输出当前帧图像的检测信息。

优选地，S4中，任一在前队列图像的熵的计算方法如下：

S401、基于

计算在前队列图像不同尺度下单个区域对应的类别分数和，S为类别分数和，c_i1为单个区域对应的类别i1的识别率，C为类别集合，N1为动物类别集合，N1∈C；

S402、基于公式

计算单个区域对应的类别i1的识别率占类别分数和的比值p(c_i1)；

S403、基于公式

计算单个区域的熵，E_j1为第j1个单个区域的熵；

S404、基于公式

计算在前队列图像单个尺度的熵，E_K为尺度K的熵，m为在前队列图像尺度K的单个区域的总个数，N2表示YOLOv3模型中尺度K对应的单个区域尺寸参数；

S405、基于公式

计算在前队列图像的熵E。

优选地，S5包括如下步骤：

S501、获取熵最低的在前队列图像的动物位置信息；

S502、基于

计算当前帧图像的动物位置信息，x_i2、y_i2、w_i2及h_i2分别为当前帧图像中动物图像的x轴定位坐标、y轴定位坐标、宽度及高度，x_j2、y_j2、w_j2及h_j2分别为熵最低的在前队列图像中动物图像的x轴定位坐标、y轴定位坐标、宽度及高度，offset_x、offset_y、offset_w及offset_h为当前帧图像中动物图像相对于熵最低的在前队列图像中动物图像的x轴定位坐标变化量、y轴定位坐标变化量、宽度变化量及高度变化量，

综上所述，本发明公开了一种基于熵和运动偏移量的动物检测方法，基于现有YOLOv3模型对当前帧图像进行初步检测判断，若图像中存在遮挡的情况，当前帧图像检测失败，则通过熵最小的在前队列图像来确定当前帧图像的动物类别信息，并通过多张在前队列图像来计算当前帧图像的动物位置信息。从而实现对存在遮挡的图像的动物检测，提升了实时动物检测的稳定性与准确率。

附图说明

图1为本发明公开的一种基于熵和运动偏移量的动物检测方法的流程图；

图2为第3尺度下未遮挡图像的熵的示意图；

图3为第3尺度下遮挡图像的熵的示意图；

图4为第3尺度下未遮挡图像熵与遮挡图像熵的对比示意图；

图5为第3尺度下未遮挡图像熵与遮挡图像熵的单维对比示意图；

图6为实验中对应视频序列图像熵和检测识别率的变化曲线示意图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

如图1所示，本发明公开了一种基于熵和运动偏移量的动物检测方法，包括如下步骤：

S6、输出当前帧图像的检测信息。

YOLOv3(You Only Look Once)算法是Joseph Redmon和Ali Farhadi在2018年提出的一种基于回归的实时目标检测算法，是一个可以一次性预测多个目标框位置和类别的卷积神经网络。其将Darknet-53作为基础网络，对目标进行特征提取；在Darknet-53的基础之上，加入额外的卷积层，对图像进行三个不同尺度的预测，从而获得更高的语义信息。

在对每个尺度特征图进行预测时，分别对每个特征图下的每个区域进行了三次类别预测与边界框位置的回归预测，则每个预测任务得到的特征大小T：

T＝N3×N3×[3*(4+1+C)] (1)

式(1)中，N3为格子大小，N3的取值分别为13、26、52；3为锚点数量；4是边界框偏移量；1是目标预测值；C是类别总数量。

YOLOv3在得到对应的边界框、目标预测与类别预测之后，进行了非极大值抑制(NMS,Non-maximum suppression)，从而得到最终的预测结果。

由于YOLOv3对视频进行目标检测时，是将视频拆分为一系列视频序列图像，其本质上仍然是在对图片进行检测，未考虑到视频特有的时间序列关系。当视频图像受到一定程度的遮挡等影响时，会出现检测失败的情况，并影响实时目标检测的稳定性。为解决上述问题，本发明对YOLOv3实时目标检测模型进行扩展，将视频图像的熵、运动偏移量与视频特有的时间序列关系引入至YOLOv3模型之中。通过评分阈值对YOLOv3的检测评分进行判断，若检测评分低于评分阈值，则通过时间序列关系，取得在前队列图像中最小熵的在前队列图像对应的动物类别信息，并计算当前帧图像与最小熵对应在前队列图像之间的位置偏移，从而得到最后的检测输出。

本发明中在前队列图像存储在在前队列中，在前队列为一个先进先出的队列，本发明以在前队列可以存储8个图像为例。若当前帧图像存在遮挡，则将熵最小的在前队列图像的熵作为当前帧队列图像的熵。完成对当前帧图像的检测后，将当前帧图像也放入在前队列中，对下一帧的图像继续进行检测，实现对视频图像的实时的持续的检测。

具体实施时，S4中，任一在前队列图像的熵的计算方法如下：

S401、基于

S402、基于公式

S403、基于公式

计算单个区域的熵，E_j1为第j1个单个区域的熵；

S404、基于公式

S405、基于公式

计算在前队列图像的熵E。

对视频序列图像之间是否存在遮挡进行判断，可以引入信息论中的最大香农熵理论。熵在信息论中代表随机变量不确定度的度量，用来衡量一个平面或一个区域内的物体的混乱程度，反应了一个信息的不确定度。

受到遮挡的影响，目标在进入遮挡时，目标信息会逐渐丢失，目标特征点的数量也会逐渐减少。特征点的数量降低会导致目标信息的不稳定甚至丢失，这时会产生多种识别结果，当识别结果越混乱，则不确定度越高。根据信息熵的定义可知，混乱程度越大，信息的不确定度越大，即熵越大。

信息熵的高低与目标检测识别率的高低成反比。目标检测识别率越高，信息熵则越低；目标检测识别率越低，信息熵则越高。

因此，本发明将熵最小的在前队列图像的动物类别信息作为当前帧图像的动物类别信息。

具体实施时，S5包括如下步骤：

S501、获取熵最低的在前队列图像的动物位置信息；

S502、基于

对于遮挡目标，我们可以根据遮挡前的运动信息预测目标位置。通过使用遮挡前视频图像的运动信息，可以避免由于运动目标状态的改变导致的预测位置与目标实际位置的偏离，从而出现的定位偏差问题。根据目标运动存在的惯性，它的运动速度和加速度在短时间(本发明中采用8帧举例)内，不会发生很大变化。因此，我们可以假设当前帧图像与最小信息熵对应的在前队列图像之间的位置变化关系为匀速直线变化。

当前帧图像的检测判断方法包括通过选取检测框与目标真实框的交并比IoU(Intersection over Union)和阈值进行比较来判断。若图像的真实框为sr，预测框表示为sp，则

若检测的目标类别用‘0,1,...,c’表示，未检测到目标用‘-1’表示，则判断检测目标的所属类别C:

下面为采用本发明公开的方法进行检测的实验说明：

本文实验环境与配置为：Ubuntu 14.04操作***，Inter Xeon E5-2623 v3处理器，64GB内存，NVIDIA Tesla K80的GPU，以及Keras深度学习框架。

由于野生动物公开数据集AWA2(animals with attributes)为图片分类数据集，未包含视频数据集特有的时间序列关系。对于野生动物的视频遮挡检测，我们构建了一个包含12个类的野生动物视频遮挡检测数据集WVDDS(Wildlife Video DetectionDatasets)，WVDDS对视频数据按照每5帧标注一次的频率进行手工标注，数据标注格式为PASCAL VOC，WVDDS数据集包含的类别及对应数量如表1所示。

表1

在模型训练过程中，我们使用了keras中的EarlyStopping回调函数，其中监控数据选用val_loss，当val_loss保持一定程度的稳定时，则停止训练。

实验表明目标检测识别率随着外物遮挡面积的增加而降低；目标检测识别率随着自遮挡面积的增加而降低；目标检测识别率随着外物遮挡面积的增加而降低，并且当遮挡达到一定范围时，会出现检测失败的情况；目标检测识别率随着外物遮挡面积的减少而上升；目标检测识别率随着外物遮挡面积的增多而降低，并且当遮挡达到一定范围时，会产生检测错误的情况。

我们分别获取视频序列中一张存在遮挡的视频图像与一张未存在遮挡的视频图像，并通过Darknet-53和额外卷积层，得到图像三个不同尺度的特征图。并对图像进行信息熵计算，得到不同尺度特征图对应的信息熵。我们选取第3尺度特征图对应的信息熵进行分析：

若在三维坐标空间中熵的一般形式为

其中，Φ(N,N,e)表示图像空间区域中的变化情况，(N,N)∈Ω表示图像空间Ω中像素点的横坐标和纵坐标，W是Φ的取值空间，函数E是与Φ相关的变换函数。通过对比上式中E的变化，即可得到不同序列图像之间熵的变化关系。

对于图像空间(N₁,N₁)∈Ω1,(N₂,N₂)∈Ω2

图2至图5为第3尺度下遮挡图像与未遮挡图像的熵比较。其中，图2为未遮挡图像的熵；图3为遮挡图像的熵,凸起的部分表示熵的突然增加，说明其对应区域的内容变化大；图4为未遮挡图像熵与遮挡图像熵的对比，表明遮挡图像熵在突然变化的区域位置明显大于未遮挡图像熵；图5选取了未遮挡图像熵与遮挡图像熵的单维对比，表明遮挡图像的熵高于未遮挡图像的熵。

首先，我们去除视频序列图像的特征图中检测分数为0.00的区域，并使用图像熵计算步骤进行计算，得到entropy的数据；使用训练之后得到的模型对视频序列图像进行检测(评分阈值＝0.3,交并比阈值＝0.5)，得到检测评分(scores)的数据，每张视频图像的entropy与检测评分一一对应。然后，对得到的entropy数据进行降序排序，其对应的检测评分也依次排列。最后，将排序之后的数据进行可视化分析，分析结果如图6所示：视频序列图像随着熵entropy的降低，由于检测过程中会受到除遮挡之外的其他因素(光照、动物形变、运动模糊等)影响，其对应的检测结果scores会存在一定的波动，但整体而言，曲线还是呈现出明显的上升趋势。

图6表明：随着视频序列图像熵的降低，目标检测的识别率增大；视频序列图像的熵与目标检测识别率大致成反比关系。

当遮挡达到一定程度时，YOLOv3不能对目标进行检测；但由于本发明结合了信息熵、时间序列关系以及位置偏移，则能够对存在遮挡的视频图像目标进行准确检测；另外，由于模型结构的设计，会对视频中的每张视频图像进行检测输出，使得基于视频目标检测的稳定性大幅提高。

为了验证本文模型的有效性和准确性，我们采用Faster R-CNN、RetinaNet、SSD以及YOLOv3与本文模型(ET-YOLO)进行实验对比：本文拟用实时目标检测中常用的mAP(meanAverage Precision)与FPS(Frames Per Second)作为算法性能评价指标。

表4

表5

表4为不同模型在WVDDS数据集上的检测准确率与检测速率的实验结果；表5为不同模型在WVDDS数据集上各个类别的准确率。实验结果表明,ET-YOLO的检测精度高于Faster R-NN、RetinaNet、SSD与YOLOv3四个模型；虽然其检测速度略低于YOLOv3，但在不影响实时目标检测的基础上，其检测精度相对于YOLOv3提升了5.5％。

综上所述，本发明将基于深度学习的实时目标检测方法应用于野生动物保护领域，并构造了包含时间序列信息的野生动物视频遮挡检测数据集WVDDS，为野生动物的目标检测研究提供了新的数据资源；

证明了视频图像的信息熵与目标检测的识别率呈反比关系；

结合时间序列信息与YOLOv3模型，通过信息熵的变化与时间序列关系很大程度上解决了遮挡检测的问题，提升了实时目标检测的稳定性与识别率；

计算检测目标随时间变化的位置偏移量，提升了遮挡目标预测框与真实框的重合度(IoU)。

上述仅是本发明优选的实施方式，需指出是，对于本领域技术人员在不脱离本技术方案的前提下，还可以作出若干变形和改进，上述变形和改进的技术方案应同样视为落入本发明要求保护的范围。