CN115511879A

CN115511879A - 一种基于计算机视觉的渣土车未苫盖检测***及检测方法

Info

Publication number: CN115511879A
Application number: CN202211382753.4A
Authority: CN
Inventors: 郑艳伟; 高杨; 孙钦平; 于东晓; 马嘉林; 崔方剑; 张春雨
Original assignee: Qingdao Hisense Information Technology Co ltd; Shandong University
Current assignee: Qingdao Hisense Information Technology Co ltd; Shandong University
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2022-12-23

Abstract

本发明公开了一种基于计算机视觉的渣土车未苫盖检测***及检测方法，检测***包括双模型训练模块、渣土车检测模块、渣土车斗区域检测模块、渣土车未苫盖判断模块、风险上报与记录模块，以及日志模块；本发明渣土车检测模型识别图像中的渣土车，并通过渣土车斗区域检测模型对车斗部分进行细分，计算各部分区域面积获得渣土的未覆盖率，若渣土未覆盖率大于给定的阈值，则将渣土车判定为未苫盖。本发明将目标检测技术与渣土车未苫盖相结合，采用双模型划分任务，并且对车斗部分进行细分，引入渣土未覆盖率对判断标准进行量化，提高识别的准确性，大大减少误报率。保证能够对渣土车辆做到有效的监管，减少环境污染和安全隐患。

Description

一种基于计算机视觉的渣土车未苫盖检测***及检测方法

技术领域

本发明属于计算机视觉领域，特别涉及一种基于计算机视觉的渣土车未苫盖检测***及检测方法。

背景技术

为了维持和改善城市的居住环境，减少渣土车运输过程中的扬尘污染，不少相关部门采取了相关措施，除了加大了管理力量，也对相应的处罚力度予以增加；但由于渣土车行驶的时间、路线等无法掌控的因素，渣土车的监管还是存在着一定的难题。

依靠人力去检测渣土车未苫盖情况，存在非常大的不稳定性和主观性，难以全角度全时间的进行监控，同时将耗费巨大的人力物力成本。

目前，随着计算机视觉和深度学习的迅速发展，目标检测技术在传统领域的应用越来越广泛，通过卷积神经网络、深度置信网、神经网络等构建一个全方位多层次的学习***，可以更好的发挥人工智能的准确性、高效性、便捷性。现有的渣土车未苫盖检测是将突破输入模型中直接输出是否苫盖的检测结果，误报率高。

发明内容

为解决上述技术问题，本发明提供了一种基于计算机视觉的渣土车未苫盖检测***及检测方法，以达到提高识别准确性，减少误报率，提高对渣土车辆的监管，减少环境污染和安全隐患的目的。

为达到上述目的，本发明的技术方案如下：

一种基于计算机视觉的渣土车未苫盖检测***，包括双模型训练模块、渣土车检测模块、渣土车斗区域检测模块、渣土车未苫盖判断模块、风险上报与记录模块，以及日志模块；

所述双模型训练模块负责渣土车检测模型和渣土车斗区域检测模型的训练；

所述视频帧获取模块负责通过轮询算法，连接对应的摄像头组，将不同摄像头的视频流进行运动检测，若视频画面运动，则按照一定时间间隔抽帧送入推理队列；

所述渣土车检测模块包含渣土车检测模型，所述渣土车检测模型基于改进的YOLOv5x模型，用于检测图片中的各种车辆，将检测到的渣土车辆用矩形框框出轮廓，从原图中分割发送给渣土车斗区域检测模块；

所述渣土车斗区域检测模块包含渣土车斗区域检测模型，所述渣土车斗区域检测模型基于改进的YOLOv5s模型，对渣土车车斗部分进行检测，得到渣土区域，空车斗区域和毡盖区域；

所述渣土车未苫盖判断模块负责根据车斗部分的检测结果计算渣土未覆盖率，从而判断渣土车是否苫盖；

所述风险上报与记录模块负责上传风险信息，保存风险图片；

所述日志模块负责记录***运行当中的错误和警告信息，方便后期维护修改。

一种基于计算机视觉的渣土车未苫盖检测方法，采用如上所述的一种基于计算机视觉的渣土车未苫盖检测***，包括如下步骤：

模型训练阶段：视频帧获取模块按照一定的时间间隔从视频流中收集图片，进行初始标注，制作初始数据集；双模型训练模块利用初始数据集训练渣土车检测模型，通过训练完成的渣土车检测模型将图片中的检测类别为渣土车的矩形框分割出来单独保存，组成渣土车斗区域检测模型的数据集；然后双模型训练模块利用渣土车斗区域检测模型的数据集训练渣土车斗区域检测模型；

检测阶段：视频帧获取模块按照一定的时间间隔从待检测的视频流中收集图片，输入到训练后的渣土车检测模块中，通过渣土车检测模型检测图片中出现的渣土车，并把轮廓用矩形框框出，将矩形框框出的渣土车从原图中分割出来并传给渣土车斗区域检测模块，渣土车斗区域检测模型检测渣土车的车斗区域，将车斗区域分成三个区域：渣土部分、空车斗部分和毡盖部分，对应检测的三个类别；渣土车未苫盖判断模块根据车斗部分的检测结果计算三个区域的面积，求得该渣土车的渣土未覆盖率，若渣土未覆盖率大于设定阈值，则认定该渣土车未苫盖；反之，则苫盖；风险上报与记录模块将未苫盖的渣土车的图片信息和检测车斗结果保存。

上述方案中，模型训练阶段，渣土车检测模型的训练如下：

(1)从给定车流量较大路段的摄像头中，按照一定的时间间隔抽帧保存视频帧，筛选含有渣土车的图片；

(2)对图片中的车辆进行标注，得到m个基准框σ_i(x_i,y_i,w_i,h_i,l_i)，其中，i＝1,2,...,m，x_i,y_i,w_i,h_i,l_i五个分量分别为基准框左上角的横坐标、纵坐标，基准框的宽度、高度，以及标签，标签l_i＝0表示渣土车，l_i＝1表示大型货车，l_i＝2表示厢式货车，l_i＝3表示小型开放式货车，l_i＝4表示汽车，l_i＝5表示公交车，l_i＝6表示油罐车和混凝土车，l_i＝7表示其他车辆，包括挖掘机、平板车、装载动物的货车；

(3)对标注后的图片进行平移和旋转缩放来增加数据集；

(4)采用Mosaic进行数据增强；

(5)自适应锚框计算；

(6)自适应图片缩放；

(7)采用YOLOV5x网络进行训练，对检测出的车辆目标，用矩形实线框标出，构造二元交叉熵损失，包括边界框回归损失、置信度预测损失和类别预测损失三部分，进行反向传播。

上述方案中，模型训练阶段，渣土车斗区域检测模型的训练如下：

(1)通过训练完成的渣土车检测模型将图片中的检测类别为渣土车的矩形框分割出来单独保存，组成渣土车斗区域检测模型的数据集；

(2)对图片中的车斗部分进行标注，得到n个基准框ρ_i(x_i,y_i,w_i,h_i,t_i)，其中，i＝1,2,...,n，x_i,y_i,w_i,h_i,t_i五个分量分别为基准框左上角的横坐标、纵坐标，基准框的宽度、高度，以及标签；标签t_i＝0表示渣土部分，t_i＝1表示苫盖部分，t_i＝2表示空车斗部分；

(3)对标注后的图片进行平移和旋转缩放来增加数据集；

(4)采用Mosaic进行数据增强；

(5)自适应锚框计算；

(6)自适应图片缩放；

(7)采用YOLOv5s网络进行训练，对检测出的渣土部分、苫盖部分和空车斗部分，用矩形实线框标出，构造二元交叉熵损失，包括边界框回归损失、置信度预测损失和类别预测损失三部分，进行反向传播。

上述方案中，所述视频帧获取模块根据配置文件的信息加载摄像头信息，基于RTSP协议，通过设定的轮询算法，连接相应的摄像头组；对连接成功的摄像头取流，通过三帧差法进行运动检测；

对通过运动检测部分的视频流按照一定的时间间隔进行取帧，同时为每个视频帧附上唯一的时间戳，将视频帧、时间戳和摄像头图片队列打包成元素；当元素数量满足一个batch后，将一个batch的元素交由渣土车检测模块进行推理，当超过给定的时间阈值后仍未满足batch数量，***会将剩余元素强制推送给渣土车检测模块。

上述方案中，所述渣土车检测模块的检测过程如下：

(1)将图片送入渣土车检测模型进行推理，得到预测图片的结果，n个预测框分别为

其中，z_i为预测的类别，z_i＝0为渣土车，z_i＝1为大型货车，z_i＝2厢式货车，z_i＝3为小型开放式货车，z_i＝4为汽车，z_i＝5为公交车，z_i＝6油罐车和混凝土车，z_i＝7为其他车辆，包括挖掘机、平板车和装载动物的货车；p为预测类别的概率，0<p<1；

(2)计算任意两个预测框的交并比

两个预测框的交集部分：

交并比：

(3)设定阈值τ＝0.25，若

且z_i＝z_j，则比较p_i和p_j，将较小概率的预测框删除；

(4)将z_i＝0的预测框，即渣土车的预测框在原图中绘制出，并按照(x,y,w,h)等信息将预测框从原图像中分割保存。

上述方案中，所述渣土车斗区域检测模块的检测过程如下：

(1)将包含有渣土车的图片送入渣土车斗区域检测模型进行推理，得到预测图片的结果，n个预测框分别为ω_i(x_i,y_i,w_i,h_i,a_i,p_i),i＝1,2,…,n，其中，a_i为预测的类别，a_i＝0为渣土部分，a_i＝1为苫盖部分，a_i＝2空车斗部分；p_i为预测类别的概率，0<p_i<1；

(2)计算任意两个预测框的交并比IoU(ω_i,ω_j):

两个预测框的交集部分：

Inter(ω_i,ω_j)＝max(min(x_i+w_i,x_j+w_j)-max(x_i,x_j)+1,0)×max(min(y_i+h_i,y_j+h_j)-max(y_i,y_j)+1,0)

交并比：

(3)设定阈值τ＝0.25，若IoU(ω_i,ω_j)≥τ且a_i＝a_j，则比较p_i和p_j，将较小概率的预测框删除；

(4)将a_i＝0,1,2的预测框都在原图中绘出，包括渣土车的渣土车斗部分、毡盖部分和空车斗部分，完整的车斗由这三部分组成，并计算三部分预测矩形框的面积；

设定渣土车斗部分的面积为S_dirt，宽为W_dirt，高为H_dirt；苫盖部分的面积为S_cover，宽为W_cover，高为H_cover；空车斗部分的面积为S_empty，宽为W_empty，高为H_empty，面积计算公式为：

S_dirt＝W_dirt*H_dirt

S_cover＝W_cover*H_cover

S_empty＝W_empty*H_empty。

上述方案中，所述渣土车未苫盖判断模块的判断过程如下：

当存在z＝0的情况，即有渣土车的预测框时，计算渣土车车斗的渣土未覆盖率r_uncover，若r_uncover>0.5，则判定为渣土车未苫盖；计算公式如下：

(1)若检测到渣土车斗部分，则

未检测到的部分面积为0；

(2)若没检测到渣土车斗部分，则r_uncover＝0。

上述方案中，所述风险上报与记录模块的实现如下：

若判定检测到的渣土车未苫盖，则将对应的渣土车图片保存，并上传到minio服务器上；同时将车斗检测信息，包括渣土车斗部分面积、毡盖部分面积、空车斗面积和渣土未覆盖率通过生产者上传到kafka。

通过上述技术方案，本发明提供的一种基于计算机视觉的渣土车未苫盖检测***及检测方法具有如下有益效果：

本发明将深度学习技术与目标检测相结合，通过第一个目标检测模型检测出视频帧中的渣土车车辆，并从原图中分割出来，发送到第二个目标检测模型检测渣土车的车斗区域，计算渣土的未覆盖率，判断渣土车辆是否未苫盖。本发明的方法可以避免单目标检测模型的准确率低，容易误报等问题，采用双检测模型，相较传统检测方式，对渣土车斗区域进行细分，同时渣土未覆盖率的引入，也让检测渣土车苫盖问题有了明确的量化标准，避免了只有模型判断时出现的模糊情况，提高了对渣土车辆的监管，减少人力物力等成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于计算机视觉的渣土车未苫盖检测***示意图；

图2为本发明实施例所公开的一种基于计算机视觉的渣土车未苫盖检测方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于计算机视觉的渣土车未苫盖检测***，如图1所示，包括双模型训练模块、渣土车检测模块、渣土车斗区域检测模块、渣土车未苫盖判断模块、风险上报与记录模块，以及日志模块。

双模型训练模块负责渣土车检测模型和渣土车斗区域检测模型的训练；

视频帧获取模块负责通过轮询算法，连接对应的摄像头组，将不同摄像头的视频流进行运动检测，若视频画面运动，则按照一定时间间隔抽帧送入推理队列；

渣土车检测模块包含渣土车检测模型，渣土车检测模型基于改进的YOLOv5x模型，用于检测图片中的各种车辆，将检测到的渣土车辆用矩形框框出轮廓，从原图中分割发送给渣土车斗区域检测模块；

渣土车斗区域检测模块包含渣土车斗区域检测模型，渣土车斗区域检测模型基于改进的YOLOv5s模型，对渣土车车斗部分进行检测，得到渣土区域，空车斗区域和毡盖区域；

渣土车未苫盖判断模块负责根据车斗部分的检测结果计算渣土未覆盖率，从而判断渣土车是否苫盖；

风险上报与记录模块负责上传风险信息，保存风险图片；

日志模块负责记录***运行当中的错误和警告信息，方便后期维护修改。

一种基于计算机视觉的渣土车未苫盖检测方法，采用如上的一种基于计算机视觉的渣土车未苫盖检测***，如图2所示，包括如下步骤：

一、模型训练阶段

视频帧获取模块按照一定的时间间隔从视频流中收集图片，进行初始标注，制作初始数据集；双模型训练模块利用初始数据集训练渣土车检测模型，通过训练完成的渣土车检测模型将图片中的检测类别为渣土车的矩形框分割出来单独保存，组成渣土车斗区域检测模型的数据集；然后双模型训练模块利用渣土车斗区域检测模型的数据集训练渣土车斗区域检测模型。

1、视频帧获取模块

根据配置文件的信息加载摄像头信息，基于RTSP协议，通过设定的轮询算法，连接相应的摄像头组；对连接成功的摄像头取流，通过三帧差法进行运动检测；对通过运动检测部分的视频流按照一定的时间间隔进行取帧，同时为每个视频帧附上唯一的时间戳，将视频帧、时间戳和摄像头图片队列打包成元素；当元素数量满足一个batch后，将一个batch的元素交由渣土车检测模块进行推理，当超过给定的时间阈值后仍未满足batch数量，***会将剩余元素强制推送给渣土车检测模块。

具体过程如下：

(1)基于RTSP协议，通过设定的轮询算法连接相应的摄像头；

(2)将视频流进行运动检测，由于运动较快，所以运用三帧差法检测视频画面是否有运动，仅在视频画面运动的情况下运用GPU推理，没有运动时节省资源。资源节约量可达N(N＞＞5)。运动检测时会占用一部分CPU资源。具体实现如下：

(2.1)记录视频序列中第n+1帧、第n帧和第n-1帧的图像分别为f_n+1、f_n和f_n-1，三帧对应像素点的灰度值记为f_n+1(x,y)、f_n(x,y)和f_n-1(x,y)，将两帧对应的像素点的灰度值进行相减，并取绝对值，可得到差分图像D_n+1、D_n：

D_n+1(x,y)＝|f_n+1(x,y)-f_n(x,y)|

D_n(x,y)＝|f_n(x,y)-f_n-1(x,y)|

(2.2)对两个差分图像取交集，可得：

D′_n(x,y)＝|f_n+1(x,y)-f_n(x,y)|∩|f_n(x,y)-f_n-1(x,y)|

(2.3)然后再进行阈值处理、连通性分析，最终提取运动目标。如果阈值T选取的值太小，则无法抑制差分图像中的噪声；如果选取的值太大，又有可能掩盖查分图像中目标的部分信息；而且固定的阈值T无法适应场景中光线的变化等情况。因此，本发明在判决条件中加入对整体光照敏感的添加项方法，将判决条件修改为：

其中，N_A为待检测区域中像素总数目，λ为光照的抑制系数，A可设为整帧图像。添加项

表达了整帧图像中光照的变化情况。如果场景中光照变化较小，则该项趋于0；如果场景中光照变化明显，则该项的值明显增大，导致右侧判决条件自适应增大，最终判决结果为没有运动目标，这样就有效的抑制了光线变化对运动目标检测结果的影响。

(3)从画面运动的视频流中按0.2fps取帧。

2、渣土车检测模型的训练

(1)从给定车流量较大路段的摄像头中，按照一定的时间间隔抽帧保存视频帧，筛选含有渣土车的图片，训练集大约需要2000-3000张；

(3)对标注后的图片进行平移和旋转缩放来增加数据集；

为了增加数据的多样性，提高模型在测试数据上的判断力，通过平移、旋转缩放等一系列手段在有限的初始数据集的基础上增加数据集的内容。具体实现如下：

(3.1)旋转缩放：

旋转缩放矩阵为：

旋转缩放公式：dst(x,y)＝src(x,y)*S

其中，src为原图片，dst为经过旋转缩放变换后的图片，x,y为横纵坐标。

(3.2)平移：

平移矩阵：

平移公式：dst(x,y)＝src(x,y)*T

其中，src为原图片，dst为经过平移变换后的图片，x,y为横纵坐标。

(4)采用Mosaic进行数据增强；

利用四张图片，按照随机缩放、随机裁剪和随机排布的方式对四张图片进行拼接，每一张图片都有其对应的框，将四张图片拼接以后可获得一张新的图片，同时也获得了这张图片对应的框，这样一张新的图片送入神经网络学习相当于送入四张图片。具体实现如下：

(4.1)新建mosaic画布，并在mosaic画布上随机生成一个点(x_c,y_c)；

(4.2)围绕随机点(x_c,y_c)放置4块拼图。

其中，左上位置的画布放置区域为(x_1a,y_1a,x_2a,y_2a)。考虑两种情况，一是图片不超出画布，画布放置区域为(x_c-w,y_c-h,x_c,y_c)；二是图片超出画布，画布放置区域为(0,0,x_c,y_c)。综合两种情况，画布区域为：

(x_1a,y_1a,x_2a,y_2a)＝(max(x_c-w,0),max(y_c-h,0),x_c,y_c)

左上拼图的图片区域为(x_1b,y_1b,x_2b,y_2b)。考虑两种情况，一是图片不超出画布，图片不用裁剪，图片区域为(0,0,w,h)；二是图片超出画布，超出部分的图片需要裁剪，区域为(w-x_c,h-y_c,w,h)。综合两种情况，图片区域为：

(x_1b,y_1b,x_2b,y_2b)＝(w-(x_2a-x_1a),h-(y_2a-y_1a),w,h)

右上位置的画布放置区域为(x_1a,y_1a,x_2a,y_2a)。考虑两种情况，一是图片不超出画布，画布放置区域为(x_c,y_c-h,x_c+w,y_c)；二是图片超出画布，画布放置区域为(x_c,0,s_mosaic,y_c)。综合两种情况，画布区域为：

(x_1a,y_1a,x_2a,y_2a)＝(x_c,max(y_c-h,0),min(x_c+w,s_mosaic),y_c)

右上拼图的图片区域为(x_1b,y_1b,x_2b,y_2b)。考虑两种情况，一是图片不超出画布，图片不用裁剪，图片区域为(0,0,w,h)；二是图片超出画布，超出部分的图片需要裁剪，区域为(0,h-(y_2a-y_1a),x_2a-x_1a,h)。综合两种情况，图片区域为：

(x_1b,y_1b,x_2b,y_2b)＝(0,h-(y_2a-y_1a),min(w,x_2a-x_1a),h)

同理可实现左下和右下的拼图。

(4.3)更新bbox的坐标。x的bbox坐标值为(x_min,y_min,x_max,y_max)，再加上偏移量可以得到mosaic bbox的坐标。坐标计算公式如下：

y[:,0]＝x[:,0]+padw

y[:,1]＝x[:,1]+padh

y[:,2]＝x[:,2]+padw

y[:,3]＝x[:,3]+padh。

(5)自适应锚框计算；

在网络训练过程中，网络在初始手工标注的矩形框的基础上输出对应的预测框，进而和真实正确的矩形框进行对比，计算两者差距，在反向更新，迭代网络参数。具体实现如下：

(5.1)读取渣土车训练集中所有图片的w、h以及检测框的w、h；

(5.2)将读取的坐标修改成绝对坐标；

(5.3)使用Kmeans算法对训练集中所有的检测框进行聚类，得到k个anchors；

(5.4)通过遗传算法对得到的anchors进行变异，主要是通过anchor_fitness方法计算得到的适应度进行评估，如果变异后效果好将其保留，否则跳过；将最终得到的最优anchors按照面积返回。

(6)自适应图片缩放；

自适应的添加最少的黑边到缩放之后的图片中。防止填充过多造成大量信息冗沉，从而影响推理速度。具体实现如下：

(6.1)根据渣土车数据集中原始图片大小以及输入到网络的图片大小计算缩放比例；

(6.2)根据原始图片大小与缩放比例计算缩放后图片的大小；

(6.3)计算黑边填充数值。

(7)采用YOLOV5x网络进行训练，对检测出的车辆目标，用矩形实线框标出，构造二元交叉熵损失(BCE loss)，包括边界框回归损失、置信度预测损失和类别预测损失三部分，进行反向传播。

损失函数公式如下：

3、渣土车斗区域检测模型的训练

(3)对标注后的图片进行平移和旋转缩放来增加数据集；

(4)采用Mosaic进行数据增强；

(5)自适应锚框计算；

(6)自适应图片缩放；

上述步骤(3)-(7)同渣土车检测模型的训练。

二、检测阶段

视频帧获取模块按照一定的时间间隔从待检测的视频流中收集图片(过程同前述)，输入到训练后的渣土车检测模块中，通过渣土车检测模型检测图片中出现的渣土车，并把轮廓用矩形框框出，将矩形框框出的渣土车从原图中分割出来并传给渣土车斗区域检测模块，渣土车斗区域检测模型检测渣土车的车斗区域，将车斗区域分成三个区域：渣土部分、空车斗部分和毡盖部分，对应检测的三个类别；渣土车未苫盖判断模块根据车斗部分的检测结果计算三个区域的面积，求得该渣土车的渣土未覆盖率，若渣土未覆盖率大于设定阈值，则认定该渣土车未苫盖；反之，则苫盖；风险上报与记录模块将未苫盖的渣土车的图片信息和检测车斗结果保存。

1、渣土车检测模块的检测过程如下：

(2)计算任意两个预测框的交并比

两个预测框的交集部分：

交并比：

(3)设定阈值τ＝0.25，若

且z_i＝z_j，则比较p_i和p_j，将较小概率的预测框删除；

2、渣土车斗区域检测模块的检测过程如下：

(2)计算任意两个预测框的交并比IoU(ω_i,ω_j):

两个预测框的交集部分：

交并比：

S_dirt＝W_dirt*H_dirt

S_cover＝W_cover*H_cover

S_empty＝W_empty*H_empty。

3、渣土车未苫盖判断模块的判断过程如下：

(1)若检测到渣土车斗部分，则

未检测到的部分面积为0；

(2)若没检测到渣土车斗部分，则r_uncover＝0。

4、风险上报与记录模块的实现如下：

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。