CN114648736A

CN114648736A - 基于目标检测的鲁棒工程车辆识别方法及***

Info

Publication number: CN114648736A
Application number: CN202210538060.3A
Authority: CN
Inventors: 王中元; 李云浩; 陈世杰; 邵振峰; 何政; 邓练兵
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-06-21
Anticipated expiration: 2042-05-18
Also published as: CN114648736B

Abstract

本发明公开了一种基于目标检测的鲁棒工程车辆识别方法及***，首先采用多尺度特征提取网络从待识别视频帧图像中提取特征图，使用基于注意力机制的特征增强网络进行特征增强，获得增强特征图；然后将获取的增强特征图输入位置检测网络从而预测目标位置，通过后处理过滤低质量的位置预测，然后根据预测的目标位置提取特征图中的感兴趣区域，之后输入级联的位置修正和类别预测网络并进行后处理以得到最终的目标位置和类型。本发明能够在拥有复杂场景变化的电网监控视频中准确地检测出场景中存在的工程车辆的位置和类型，从而提供一种自动化的外破行为监控手段，减少人力成本，保障电网***安全。

Description

基于目标检测的鲁棒工程车辆识别方法及***

技术领域

本发明属于计算机视觉技术领域，涉及一种计算机辅助工程车辆检测方法及***，具体涉及一种基于目标检测的鲁棒工程车辆识别方法及***。

技术背景

电力资源的运输有赖于建立安全强大的电网***，现实中户外输电线路往往存在诸多安全隐患。其中，施工车辆造成外部破坏是最常见的人为不安全因素，比如挖掘机违章施工破坏高压电线杆、起重机操作不当误触高压电线等。为了避免这些事故的发生，相关部门在电网输电线路上安置了许多监控摄像头，但是仅凭人力监控，其成本和因疏忽造成的后果都是难以承受的。若能将目标检测技术应用于视频监控，利用算法自动分析识别监控场景中的工程车辆，以此减少人力成本，消除人为疏忽导致的误报、漏报，提供一种事故发生前提前给出警示、事故发生时协助处理、事故发生后方便及时取证的措施，保障电网的稳定运行。

目标检测是计算机视觉和数字图像处理的一个热门方向。近几年，目标检测领域出现了不使用锚框而基于关键点或基于中心点进行检测的新思路。CornerNet首次将目标检测视为关键点检测和组合任务，通过热力图来定位目标所处的矩形区域的左上角点和右下角点这一对关键点，然后进行关键点组合配对，进而得到目标边界框；而ExtremeNet则检测目标的最上点、最下点、最左点和最右点这四个极值点以及中心点共五个关键点，通过中心点对四个极值点进行分组，进而得到目标的位置预测；CenterNet则将目标检测任务直接简化为先采用关键点检测的方式预测目标边界框的几何中心点，然后回归边界框的尺寸，从而定位目标；CenterNet2通过集成CenterNet到两阶段架构中，并采用概率优化目标进行训练，结合了无锚框单阶段算法和两阶段算法的优势，加快了两阶段算法的推理时间，并使得模型的检测精度得到大大提升。

真实场景下的电网输送线路监控视频中，图像的场景或背景十分复杂，可能会涉及不同的天气、光照等条件，并且受制于不同摄像头多样化的软、硬件参数，捕获的图像在视角、清晰度、分辨率等方面不尽相同，图像中不同目标实例的尺度也相差巨大。除此之外，极大极小物体、受遮挡物体以及多个物体重叠或分布密集的问题非常棘手，而工程车辆本身还存在形态多变的特点。如何克服这些问题，以较高精度检测和识别出工程车辆，并得到一个鲁棒的检测识别***，是现有技术面临的难题。

发明内容

为了解决上述技术问题，本发明结合基于中心域的目标检测算法，提供了一种基于目标检测的鲁棒工程车辆识别方法及***。

本发明的方法所采用的技术方案是：一种基于目标检测的鲁棒工程车辆识别方法，包括以下步骤：

步骤1：采用多尺度特征提取网络从待识别视频帧图像中提取特征图，使用基于注意力机制的特征增强网络进行特征增强，获得增强特征图；

步骤2：将步骤1获取的增强特征图输入位置检测网络从而预测工程车辆目标位置，通过后处理过滤低质量的位置预测，然后根据预测的目标位置提取特征图中的感兴趣区域，之后输入级联的位置修正和类别预测网络并进行后处理以得到最终的工程车辆目标位置及其类型。

本发明的***所采用的技术方案是：一种基于目标检测的鲁棒工程车辆识别***，包括以下模块：

模块1，用于采用多尺度特征提取网络从待识别视频帧图像中提取特征图，使用基于注意力机制的特征增强网络进行特征增强，获得增强特征图；

模块2，用于将模块1获取的增强特征图输入位置检测网络从而预测工程车辆目标位置，通过后处理过滤低质量的位置预测，然后根据预测的目标位置提取特征图中的感兴趣区域，之后输入级联的位置修正和类别预测网络并进行后处理以得到最终的工程车辆目标位置及其类型。

与现有的检测方法相比，本发明具有以下的优点与积极效果：

（1）本发明中的特征提取操作分为提取和增强两个部分，增强操作使得提取出的特征更为精确有效，为后续模块提供了有效的参考信息，此外使用级联位置修正和类别预测模块对预测的类别和位置进行多次调整，检测精度更高。

（2）本发明应用了无锚框的检测算法，不需要针对与锚框相关的诸多参数进行调参，并且减少了在图像上密集铺设锚框带来的额外计算量和推理时间。

（3）本发明的方法对极大极小目标以及形变复杂目标有更好的效果。

附图说明

图1：本发明实施例的方法流程图。

图2：本发明实施例的多尺度特征提取网络结构图。

图3：本发明实施例的特征增强网络结构图。

图4：本发明实施例的位置增检测网络结果图。

图5：本发明实施例的位置修正和类别预测网络结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施案例对本发明做进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于目标检测的鲁棒工程车辆识别方法，包括以下步骤：

本实施例中，步骤1的具体实现包括以下子步骤：

步骤1.1：将待识别视频帧图像

输入多尺度特征提取网络，其中尺度

，从而得到一组不同尺度的原始特征图

，Ch为通道数；本实施例中Ch取值为256；

步骤1.2：将原始特征图

逐尺度输入基于注意力机制的特征增强网络，增强特征图中的感兴趣区域响应，得到一组增强特征图

。

本实施例中，步骤2的具体实现包括以下子步骤：

步骤2.1：将增强特征图逐一输入基于CenterNet改进的具有高召回率和强可靠前背景分类能力的位置检测网络，从而得到N对（数量可能很大）输入图像对应的位置预测图

和关键点热力图

，此处位置预测图每个位置对应一个位置预测值

分别表示目标中心点到外接矩形左上右下四条边的距离，关键点热力图每个位置指示图像对应位置存在工程车辆目标关键点的置信度；

步骤2.2：从关键点定位热力图中提取具有峰值响应的K（较大的一个整数）个位置作为预测的工程车辆目标的中心域关键点

，由这些关键点与对应的位置预测值

计算得到K个可能包含任意一种工程车辆的矩形预测区域

的位置，使用D-IoU NMS过滤部分低质量预测结果，得到不超过M个矩形预测区域；其中，M为预设值；

分别表示矩形预测区域的左上角点坐标

和宽

高

，

，

；本实施例中，M在训练和推理时取值分别为4000和1000；

步骤2.3：根据步骤2.2中计算的矩形预测区域，裁剪并池化步骤1中得到的增强特征图，得到统一尺寸的仅含矩形感兴趣区域的特征图；本实施例中，裁剪后的增强特征图尺寸为14×14；

步骤2.4：将步骤2.3中得到的特征图输入级联位置修正和类别预测网络，得到定位精度感知分类置信度

和位置修正值

，这里的N _cls表示工程车辆类别数，

表示对矩形区域

左上角坐标和宽高的修正值；本实施例中，定位精度感知分类置信度为三次修正所得的平均值。

步骤2.4中级联位置修正和类别预测网络第一次修正时预测的位置修正值应用于步骤2.2中得到的矩形预测区域

，第二次修正时将第二次预测的位置修正值应用于第一次修正后的矩形预测区域，第三次修正时将第三次预测的位置修正值应用于第二次修正后的矩形预测区域。然后对最后一次修正后的结果使用D-IoUNMS过滤冗余的矩形预测区域，之后通过置信度阈值屏蔽低于阈值的矩形预测区域，得到最终的输入图像中所有工程车辆的检测结果，即工程车辆类型和其所处的矩形区域位置。本实施例中，D- IoUNMS过滤后剩余矩形预测区域的最大数量在训练和推理阶段分别设置为2000和256；置信度阈值为0.6。

请见图2，本实施例采用的多尺度特征提取网络，由深度卷积神经网络和多尺度特征融合层组成；深度卷积神经网络的最后6层输出通过卷积后生成通道数相同的特征图C2、C3、C4、C5、C6、C7；C7、C6经过多尺度特征融合层后输出P7、P6；P5由P6上采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用C5和P6作为输入，生成施加注意力后的特征图；P4由P5上采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用C4和P5作为输入，生成施加注意力后的特征图；P3由P4上采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用C3和P4作为输入，生成施加注意力后的特征图；P2由P3上采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用C2和P3作为输入，生成施加注意力后的特征图。

请见图3，本实施例采用的特征增强网络，包括注意力门模块，跨层融合尺度感知注意力模块、空间感知自注意力模块、任务感知通道注意力模块；

本实施例的特征增强网络，以多尺度特征提取网络输出的P2、P3、P4、P5、P6、P7作为输入，获取中间结果A2、A3、A4、A5、A6、A7；其中，A2和A7直接由P2和P7得来；A3由A2下采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用P3和下层特征图A2作为输入，生成施加注意力后的特征图；A4由A3下采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用P4和下层特征图A3作为输入，生成施加注意力后的特征图；A5由A4下采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用P5和下层特征图A4作为输入，生成施加注意力后的特征图；A6由A5下采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用P6和下层特征图A5作为输入，生成施加注意力后的特征图；中间结果A2、A3、A4、A5、A6、A7经过串联的跨层融合尺度感知注意力模块、空间感知自注意力模块和任务感知通道注意力模块，得到最终输出特征图F2、F3、F4、F5、F6、F7。

请见图4，本实施例采用的位置检测网络，输入数据依次经过可变形卷积块、动态线性修改单元、卷积块、卷积块、可变形卷积块和动态线性修改单元后，输出分别经过两路，一路输入卷积块、Scale层后获得位置预测图，一路经过卷积块后获得关键点热力图。

本实施的位置检测网络，以特征增强网络输出的增强特征图作为输入，生成位置预测图和关键点热力图。位置预测图和关键点热力图尺寸同输入的增强特征图，前者给出输入特征图中每个关键点位置对应的工程车辆目标的位置预测值，后者预测输入特征图中每个位置存在工程车辆目标关键点的置信度。通过关键点热力图上的峰值响应点可以得到工程车辆关键点所在的位置，结合位置预测图给出的相应位置预测值，从而得到疑似包含工程车辆目标的矩形预测区域的位置。

请见图5，本实施例采用的位置修正和类别预测网络，包括依次连接的第一修正模块、第二修正模块和第三修正模块，所述第一修正模块、第二修正模块和第三修正模块均由裁剪与池化层、定位感知类别预测分支和位置修正分支组成；

本实施例的位置修正和类别预测网络，输入为位置预测网络输出的矩形预测区域和特征增强网络输出的增强特征图；在第一修正模块中进行第一次修正时，先通过矩形预测区域裁剪出增强特征图的子区域，再将其池化为统一尺寸的特征图，输入定位感知类别预测分支和位置修正分支，得到定位感知分类置信度和位置修正值，将位置修正值应用于矩形预测区域，得到新的修正后的矩形预测区域；第二修正模块中进行第二次修正、第三修正模块中进行第三次修正与第一修正模块中进行第一次修正同理；最终的定位感知分类置信度为三次修正所得置信度的平均值，本实施例的位置修正和类别预测网络的最终检测结果为最后一次修正后的结果。

本实施例的多尺度特征提取网络，是训练好多尺度特征提取网络；其训练过程包括以下步骤：

（1）构建自监督训练正样本对；

针对无标注的自监督训练数据，在每一轮迭代训练的过程中，随机不放回抽取N张图片作为一组，组中每张图像随机进行以下数据增广操作两次，包括裁剪、变色、遮挡和旋转，形成一对正样本图像

，从而获得一组正样本图像对

；其中，

和

就是每张图像随机增广两次得到的图像对；

（2）将得到的正样本图像对

输入多尺度特征提取网络中，得到一组正样本特征图对

，再将该组特征图对一一输入由全连接层和线性修正单元构成的表征映射层，得到一组正样本表征对

；其中，S表示多尺度特征提取网络中不同尺度特征图的数量；

（3）自监督训练多尺度特征提取网络；

对于每个尺度，所有正样本表征对分别计算两两相似度，然后求平均；共N对表征对，2N个表征向量；

每个尺度分别计算正样本表征对两两相似度损失如下：

；

其中，

为指示函数，当k=i时取0，否则取1；

为表征对

的余弦相似度，

是一个超参数；

最终对比自监督学习的前置任务损失函数为：

；

最大化对比损失函数，获得训练好的多尺度特征提取网络。

本实施例中，多尺度特征提取网络、特征增强网络、位置检测网络和级联位置修正和类别预测网络，为一训练好的整体网络；

（1）构建训练数据集：

针对有标注的训练数据，随机进行一系列随机数据增强处理，得到增广的训练数据集；

（2）训练整体网络：

本实施例整体网络的训练目标如下：

；

式中，

为前景类别训练目标，

为背景训练目标；C _k表示工程车辆类别，

表示背景类，

表示位置检测网络产生的是前景矩形区域，

表示位置检测网络产生的是背景矩形区域；

本实施例的位置检测网络的损失函数为：

；

其中，l _loc为Distance-IoU损失，l _hm为二分类focal损失，下标

表示预测值对应的真实标签值；box表示位置检测网络得到的矩形区域预测值，hm表示位置检测网络预测的关键点热力图；

本实施例的级联位置修正和类别预测网络的损失函数为：

；

其中，K表示修正次数；l _cls为softmax交叉熵损失，l _reg为smoothL1损失，下标

表示预测值对应的真实标签值；cls表示定位感知类别预测分支产生的定位精度和类别联合预测值，delta表示位置修正分支预测的位置修正值。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于目标检测的鲁棒工程车辆识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于目标检测的鲁棒工程车辆识别方法，其特征在于：步骤1中所述多尺度特征提取网络，由深度卷积神经网络和多尺度特征融合层组成；所述深度卷积神经网络的最后6层输出通过卷积后生成通道数相同的特征图C2、C3、C4、C5、C6、C7；C7、C6经过所述多尺度特征融合层后输出P7、P6；P5由P6上采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用C5和P6作为输入，生成施加注意力后的特征图；P4由P5上采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用C4和P5作为输入，生成施加注意力后的特征图；P3由P4上采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用C3和P4作为输入，生成施加注意力后的特征图；P2由P3上采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用C2和P3作为输入，生成施加注意力后的特征图。

3.根据权利要求2所述的基于目标检测的鲁棒工程车辆识别方法，其特征在于：步骤1中所述特征增强网络，包括注意力门模块，跨层融合尺度感知注意力模块、空间感知自注意力模块、任务感知通道注意力模块；

所述特征增强网络，以所述多尺度特征提取网络输出的P2、P3、P4、P5、P6、P7作为输入，获取中间结果A2、A3、A4、A5、A6、A7；其中，A2和A7直接由P2和P7得来；A3由A2下采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用P3和下层特征图A2作为输入，生成施加注意力后的特征图；A4由A3下采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用P4和下层特征图A3作为输入，生成施加注意力后的特征图；A5由A4下采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用P5和下层特征图A4作为输入，生成施加注意力后的特征图；A6由A5下采样的结果和注意力门模块的输出拼接后经过卷积融合得到，其中，注意力门模块使用P6和下层特征图A5作为输入，生成施加注意力后的特征图；中间结果A2、A3、A4、A5、A6、A7经过串联的跨层融合尺度感知注意力模块、空间感知自注意力模块和任务感知通道注意力模块，得到最终输出特征图F2、F3、F4、F5、F6、F7。

4.根据权利要求1所述的基于目标检测的鲁棒工程车辆识别方法，其特征在于：步骤2中所述位置检测网络，输入数据依次经过可变形卷积块、动态线性修改单元、卷积块、卷积块、可变形卷积块和动态线性修改单元后，输出分别经过两路，一路输入卷积块、Scale层后获得位置预测图，一路经过卷积块后获得关键点热力图。

5.根据权利要求1所述的基于目标检测的鲁棒工程车辆识别方法，其特征在于：步骤2中所述位置修正和类别预测网络，包括依次连接的第一修正模块、第二修正模块和第三修正模块，所述第一修正模块、第二修正模块和第三修正模块均由裁剪与池化层、定位感知类别预测分支和位置修正分支组成；

所述位置修正和类别预测网络，输入为位置预测网络输出的矩形预测区域和特征增强网络输出的增强特征图；在第一修正模块中进行第一次修正时，先通过矩形预测区域裁剪出增强特征图的子区域，再将其池化为统一尺寸的特征图，输入定位感知类别预测分支和位置修正分支，得到定位感知分类置信度和位置修正值，将位置修正值应用于矩形预测区域，得到新的第一次修正后的矩形预测区域；第二修正模块中进行第二次修正、第三修正模块中进行第三次修正与第一修正模块中进行第一次修正同理，但输入为前一次修正后的矩形预测区域和特征增强网络输出的增强特征图；最终的定位感知分类置信度为三次修正所得置信度的平均值，所述位置修正和类别预测网络的最终检测结果为最后一次修正后的结果。

6.根据权利要求1-5任意一项所述的基于目标检测的鲁棒工程车辆识别方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.1：将待识别视频帧图像

输入多尺度特征提取网络，其中尺度

，从而得到一组不同尺度的原始特征图

，Ch为通道数；

步骤1.2：将原始特征图

。

7.根据权利要求1-5任意一项所述的基于目标检测的鲁棒工程车辆识别方法，其特征在于，步骤2的具体实现包括以下子步骤：

步骤2.1：将增强特征图

逐一输入位置检测网络，得到关键点热力图

和位置预测图

；

步骤2.2：从关键点定位热力图中提取具有峰值响应的K个位置作为预测的工程车辆目标的中心域关键点

，由这些关键点与对应的位置预测值

计算得到K个可能包含任意一种工程车辆的矩形预测区域

的位置，使用 D-IoU NMS过滤部分低质量预测结果，得到不超过M个矩形预测区域；其中，M为预设值；

分别表示矩形预测区域的左上角点坐标

和宽

高

，

，

；

步骤2.3：根据步骤2.2中计算的矩形预测区域，裁剪并池化步骤1中得到的增强特征图，得到统一尺寸的仅含矩形感兴趣区域内特征的特征图；

和位置修正值

，这里的N _cls表示工程车辆类别数，

表示对矩形区域

左上角坐标和宽高的修正值；

步骤2.4中级联位置修正和类别预测网络第一次修正时预测的位置修正值应用于步骤 2.2中得到的矩形预测区域

，第二次修正时将第二次预测的位置修正值应用于第一次修正后的矩形预测区域，第三次修正时将第三次预测的位置修正值应用于第二次修正后的矩形预测区域；然后对最后一次修正后的结果使用D-IoUNMS过滤冗余的矩形预测区域，之后通过置信度阈值屏蔽低于阈值的矩形预测区域，得到最终的输入图像中所有工程车辆的检测结果，即工程车辆类型和其所处的矩形区域位置。

8.一种基于目标检测的鲁棒工程车辆识别***，其特征在于，包括以下模块：