CN111738056B - 一种基于改进YOLO v3的重卡盲区目标检测方法 - Google Patents

一种基于改进YOLO v3的重卡盲区目标检测方法 Download PDF

Info

Publication number
CN111738056B
CN111738056B CN202010344037.1A CN202010344037A CN111738056B CN 111738056 B CN111738056 B CN 111738056B CN 202010344037 A CN202010344037 A CN 202010344037A CN 111738056 B CN111738056 B CN 111738056B
Authority
CN
China
Prior art keywords
detection
yolo
sample data
feature
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010344037.1A
Other languages
English (en)
Other versions
CN111738056A (zh
Inventor
朱仲杰
屠仁伟
白永强
王玉儿
杨跃平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Wanli University
Original Assignee
Zhejiang Wanli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Wanli University filed Critical Zhejiang Wanli University
Priority to CN202010344037.1A priority Critical patent/CN111738056B/zh
Publication of CN111738056A publication Critical patent/CN111738056A/zh
Application granted granted Critical
Publication of CN111738056B publication Critical patent/CN111738056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进YOLO v3的重卡盲区目标检测方法,特点包括以下步骤:采集真实路况下的车、跌倒状态的人和正常状态的人混合图片,建立样本数据集;预处理后,对样本数据集中的检测目标进行类别标定和位置信息提取,并分为训练集和测试集;对训练集进行聚类分析,选择anchor值;改进优化网络结构;设置训练参数,利用训练集对优化后的网络进行训练得到目标检测模型;将监测到的画面输入目标检测模型得到实时盲区的检测结果;优点是优化改进后的YOLO v3网络增强了对中、小目标的检测性能,弥补现有技术中网络漏检和误检的缺陷,使得重卡司机能够及时掌握车辆周围的盲区环境中车、跌倒状态的人和正常状态的人的情况,避免交通事故的发生。

Description

一种基于改进YOLO v3的重卡盲区目标检测方法
技术领域
本发明涉及一种目标检测方法,尤其是一种基于改进YOLO v3的重卡盲区目标检测方法。
背景技术
重卡在物流行业的发展中扮演着重要的作用,但重卡由于其车身长、驾驶室高的特点,对驾驶员来说存在较大的视野盲区,从而使得驾驶员的视野受限无法及时做出准确的判断。目前对于解决重卡盲区的办法一种是装有摄像头,但是需要靠驾驶员人工地去识别和判断盲区目标;一种是摄像头结合传统算法进行单种类目标的自动识别,但是只适用于检测背景简单、检测目标数量少的情况;还有一种是360°全景结合雷达检测的,但依然需要人工去判断障碍物,甚至有时候还会出现错误的警报。
近几年来,目标检测算法取得很大的突破。YOLO v3采用一个CNN网络来实现检测,不仅大大加快目标检测的速度,精确度也得到提升,现有的YOLO v3对于大、中、小尺寸的目标检测的性能比较均衡,但在中、小尺寸目标偏多的实际检测中对于中、小尺寸的图像依然存在一些漏检和误检,且在框出检测目标时有些检测框的定位不准确,不能完整地框出目标。
发明内容
本发明所要解决的技术问题是提供一种对重卡盲区范围内的车、跌倒状态的人和正常状态的人进行实时检测、精准检测目标、检测框准确定位的基于改进YOLO v3的重卡盲区目标检测方法
本发明解决上述技术问题所采用的技术方案为:一种基于改进YOLO v3的重卡盲区目标检测方法,包括以下步骤:
①,采集以中、小尺寸为主的真实路况下的车、跌倒状态的人和正常状态的人混合图片,建立样本数据集,对所述的样本数据集进行预处理,对所述的样本数据集中的检测目标进行类别标定和位置信息提取,并将所述的样本数据集划分成训练集和测试集;
②,对所述的训练集进行聚类分析,选择anchor(锚框)值;
③,改进原检测模型的网络结构得到优化后的YOLO v3网络;
④,设置训练参数,利用所述的训练集对优化后的YOLO v3网络进行训练,得到目标检测模型;
⑤,将重卡盲区范围内实时监测到的视频输入到所述的目标检测模型中进行检测;
⑥,输出重卡盲区范围内车、跌倒状态的人和正常状态的人的检测结果。
所述的步骤①中对所述的样本数据集中的检测目标进行类别标定和位置信息提取的具体方法为:
a,对所述的样本数据集进行不同光线因素、不同拍摄角度、不同道路环境和不同分辨率的选择;
b,调整所述的样本数据集中的所述的训练集的图像大小至统一像素;
c,对所述的样本数据集中的检测目标进行类别标定,分别用0,1,2表示车、跌倒状态的人和正常状态的人;
d,对所述的样本数据集进行位置信息提取,将所述的检测目标表示为一个四维向量{x,y,w,h};其中:x表示所述的检测目标的x轴方向的坐标,y表示所述的检测目标的y轴方向的坐标,w表示所述的检测目标的宽度,h表示所述的检测目标的高度;
e,生成标注文件。选择不同的光照,不同的车辆拍摄视角,不同的分辨率,不同的道路环境和道路状况的样本数据集,满足样本多样性的要求,使其得到有目的性的优化,对于算法检测鲁棒性的提升有重要意义,并且使得可以用更少的训练样本达到更佳的检测效果。将训练集的图像像素调至一样是为了在接下来的训练模型时方便进行卷积运算。
所述的步骤①中,所述的样本数据集的划分具体为80%的训练集和20%的测试集。
所述的步骤②中,采用K-means算法对所述的训练集进行聚类分析,通过设定不同的聚类中心k的个数,获得不同的anchor值;将IoU(交并比)作为聚类指标,通过对AvgIoU(平均交并比)的分析,设置anchor值为{(12,26),(18,71),(31,43),(66,73),(35,151),(98,121),(61,260),(110,310),(238,212)}。
所述的步骤③中,选择Darknet-53作为图像特征提取的基础网络,YOLO v3将卷积层深层信息上采样后与较浅层信息通过concat函数拼接在一起实现特征融合,3组不同深浅的特征信息融合输出13×13,26×26,52×52的特征图,得到FPN(特征金字塔)结构;在此基础上,拼接浅层的信息增加特征的信息量,将Darknet-53第11层拼接到52×52的特征图上,得到改进后的52×52特征图,改进后的52×52特征图的特征信息由三部分构成:Darknet-53第11层下采样后的特征信息,Darknet-53第36层特征信息和来自26×26特征图下采样的特征信息;将Darknet-53第36层拼接到26×26的特征图上,得到改进后的26×26特征图,改进后的26×26特征图的特征信息由三部分构成:Darknet-53第36层下采样后的特征信息,Darknet-53第61层特征信息和来自13×13特征图下采样的特征信息。通过拼接浅层的信息增加特征的信息量,对介于全局和局部、局部特征的特征进行增强,提升对中、小目标的检测能力。
所述的步骤④中训练参数的设置为:Batch(批次)为512,Subdivision(再分割)为256,Max batches(最大迭代次数)为12000。
与现有技术相比,本发明的优点在于选择不同的光照,不同的车辆拍摄视角,不同的分辨率,不同的道路环境和道路状况的样本数据集,满足样本多样性的要求,使其得到有目的性的优化,不但对于算法检测鲁棒性的提升有重要意义,而且使得可以用更少的训练样本达到更佳的检测效果;对比现有技术中13×13、26×26和52×52的特征图分别用以检测大、中、小目标,其性能比较均衡的现象,本发明中改进后的网络结构对26×26和52×52特征图进行特征增强,提高对中、小目标的检测性能,通过K-means聚类得到中、小目标数据集下的精确anchor值,对比现有技术,本发明一定程度上弥补现有技术漏检的缺陷,使检测目标更加准确地被检测出且检测框也准确定位。
附图说明
图1为本发明的流程示意图;
图2为本发明步骤②中不同k值所对应的Avg IoU折线图的示意图;
图3为本发明步骤③中优化后的YOLO v3网络结构示意图;
图4为未改进的YOLO v3的Loss和mAP与本发明改进网络结构后的YOLO v3的Loss(损失值)和mAP对比示意图,左边为未改进的YOLO v3的示意图,右边为改进网络结构后的YOLO v3的示意图;
图5为未改进的YOLO v3的Loss和mAP与本发明改进anchor后的YOLO v3的Loss和mAP对比示意图,左边为未改进的YOLO v3的示意图,右边为改进anchor后的YOLOv3的示意图;
图6为未改进的YOLO v3的Loss和mAP与本发明整体改进后的YOLO v3的Loss和mAP对比示意图,左边为未改进的YOLO v3的示意图,右边为整体改进后的YOLO v3的示意图;
图7a为使用未改进的现有技术对第一种场景进行检测的结果示意图片;
图7b为使用本发明的方法对第一种场景进行检测的结果示意图片;
图8a为使用未改进的现有技术对第二种场景进行检测的结果示意图片;
图8b为使用本发明的方法对第二种场景进行检测的结果示意图片;
图9a为使用未改进的现有技术对第三种场景进行检测的结果示意图片;
图9b为使用本发明的方法对第三种场景进行检测的结果示意图片;
图10a为使用未改进的现有技术对第四种场景进行检测的结果示意图片;
图10b为使用本发明的方法对第四种场景进行检测的结果示意图片;
图11a为使用未改进的现有技术对第五种场景进行检测的结果示意图片;
图11b为使用本发明的方法对第五种场景进行检测的结果示意图片;
图12a为使用未改进的现有技术对第六种场景进行检测的结果示意图片;
图12b为使用本发明的方法对第六种场景进行检测的结果示意图片;
图13a为使用未改进的现有技术对第七种场景进行检测的结果示意图片;
图13b为使用本发明的方法对第七种场景进行检测的结果示意图片;
图14a为使用未改进的现有技术对第八种场景进行检测的结果示意图片;
图14b为使用本发明的方法对第八种场景进行检测的结果示意图片。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
一种基于改进YOLO v3的重卡盲区目标检测方法,包括以下步骤:
①,采集以中、小尺寸为主的真实路况下的车、跌倒状态的人和正常状态的人混合图片,建立样本数据集,对样本数据集进行预处理,对样本数据集中的检测目标进行类别标定和位置信息提取,并将样本数据集划分成训练集和测试集:
本步骤中对样本数据集中的检测目标进行类别标定和位置信息提取的具体方法为:
a,对样本数据集进行不同光线因素、不同拍摄角度、不同道路环境和不同分辨率的选择;
b,通过编程程序调整样本数据集中的训练集为统一的416×416像素;
c,使用YOLO自带的YOLO-Mark软件对样本数据集中检测目标进行类别标定,分别用0,1,2表示车、跌倒状态的人和正常状态的人;
d,对样本数据集进行位置信息提取,将检测目标表示为一个四维向量{x,y,w,h};其中:x表示检测目标的x轴方向的坐标,y表示检测目标的y轴方向的坐标,w表示检测目标的宽度,h表示检测目标的高度;
e,生成标注文件。
本步骤中样本数据集的划分具体为80%的训练集和20%的测试集。
②,对训练集进行聚类分析,选择anchor值:
采用K-means算法对训练集进行聚类分析,通过设定不同的聚类中心k的个数,获得不同的anchor值;将IoU作为聚类指标,Avg IoU越大,anchor越准确,通过对Avg IoU的分析,得到anchor值。IoU公式为:其中DetectionResult表示预测的边框,GroundTruth表示真实的边框,IoU的数值越大表示该检测器的性能越好。若当预测的边框和真实的边框完全重叠时,IoU为1。
根据K-means方法得到表1聚类结果:
表1 K-means聚类结果
K anchor
1 47,86
2 20,39,92,166
3 17,34,63,106,134,258
4 16,32,55,79,76,215,199,231
5 14,28,34,67,81,98,68,265,198,228
6 14,28,33,66,76,95,66,266,149,156,221,287
7 13,27,29,53,67,74,39,179,98,123,85,297,227,221
8 12,27,30,43,22,95,65,73,48,213,97,122,94,307,230,216
9 12,26,18,71,31,43,66,73,35,151,98,121,61,260,110,310,238,212
如图2所示,随着k值的增加,Avg IoU也随着变大,其增速先快后慢,最后趋于收敛。
综上所述,k=9时,Avg IoU=66.91%达到最大值,本发明选取k=9时的的anchor作为本发明的anchor值,即{(12,26),(18,71),(31,43),(66,73),(35,151),(98,121),(61,260),(110,310),(238,212)}。
③,改进原检测模型的网络结构得到优化后的YOLO v3网络:
本发明选择Darknet-53作为图像特征提取的基础网络,YOLO v3将卷积层深层信息上采样后与较浅层信息通过concat函数拼接在一起实现特征融合,3组不同深浅的特征信息融合输出13×13,26×26,52×52的特征图,得到FPN结构;在此基础上,拼接浅层的信息增加特征的信息量,将Darknet-53第11层拼接到52×52的特征图上,得到改进后的52×52特征图,改进后的52×52特征图的特征信息由三部分构成:Darknet-53第11层下采样后的特征信息,Darknet-53第36层特征信息和来自26×26特征图下采样的特征信息;将Darknet-53第36层拼接到26×26的特征图上,得到改进后的26×26特征图,改进后的26×26特征图的特征信息由三部分构成:Darknet-53第36层下采样后的特征信息,Darknet-53第61层特征信息和来自13×13特征图下采样的特征信息,改进后的网络结构如图3所示。
Darknet-53第11层输出为104×104×128,经过下采样后,设置卷积核大小为3×3,滑动步长为2,卷积核数量为256输出为:52×52×256,Darknet-53第36层输出为52×52×256,来自26×26特征图的上采样输出为52×52×128,所以将三者拼接在一起输出52×52×640;
同理,Darknet-53第36层输出为52×52×256,经过下采样后,设置卷积核大小为3×3,滑动步长为2,卷积核数量为512输出为:26×26×512,Darknet-53第61层输出为26×26×512,来自13×13特征图的上采样输出为26×26×256,所以将三者拼接在一起输出26×26×1280。
④,设置训练参数,利用训练集对优化后的YOLO v3网络进行训练,得到目标检测模型:
本发明所选用实验开发环境如下,CPU:intel i9 9920X,3.5GHz;GPU:NVIDIAGeForce RTX2080Ti 11G;RAM:16G;深度学习网络框架:Darknet-53。本发明设置3类检测目标,并设置每类的迭代次数为4000次,3类共迭代12000次。设置每迭代1000次生成一个模型,则训练结束一共产生12个模型。设置输入分辨率为416×416,并开启多尺度训练。学习率决定着权值更新的速度,设置得太大会使结果超过最优值,太小会使下降速度过慢,故此设置动态变化的学习率用来获得更好的目标检测模型。设置0<Iteration(迭代次数)<9600时,lr(学习率)=0.001;9600<Iteration<10800时,lr=0.0001;10800<Iteration<12000时,lr=0.00001,整个训练过程学习率衰减达100倍。未改进和改进后的YOLO v3网络的关键训练参数设置如表2所示:
表2关键训练参数设置
综上所述,将本发明的训练参数设置为:Batch为512,Subdivision为256,Maxbatches为12000。
⑤,将重卡盲区范围内实时监测到的视频输入到目标检测模型中进行检测:可以通过摄像头等电子设备监测到重卡盲区范围得到实时的视频画面,输入到已经训练好的目标检测模型中,
⑥,输出重卡盲区范围内车、跌倒状态的人和正常状态的人的检测结果,由上述步骤可得到待检测目标被检测框框定的图片,且检测框的左上角同时显示被检测目标的名称。
为了进一步验证本发明的方法的优势,利用测试集对目标检测模型的性能进行验证,实验结果如下:
记Precision为所有被检测框框出来的目标中,去掉误检,剩下真正的目标所占的比例;记Recall为被正确检测出来的目标个数与测试集中所有真实目标的个数的比值,
其中,TP为正样本被模型正确检测为正样本数的个数,即被标定为车或跌倒状态的人或正常状态的人且检测正确的样例个数,FP为负样本被模型错误地检测为正样本数的个数,即未被标定为车或跌倒状态的人或正常状态的人但检测为车或跌倒状态的人或正常状态的人的样例个数,FN为正样本被模型错误地检测为负样本的个数,即被标定为车或跌倒状态的人或正常状态的人但未被检测为车或跌倒状态的人或正常状态的人的样例个数,得到Precision的结果越高所使用的目标检测模型越好,得到Recall的结果接近1为优。
表3为不同迭代次数的网络结构改进前后对比,列出从7000到12000次迭代的各项重要参数,包括precision,recall和mAP。实验数据证明网络结构优化的有效性,在保证precision和recall基本没有发生变化的条件下,改进网络结构后的YOLO v3具有更高的mAP。在7000次迭代的实验结果中,改进网络结构后的YOLO v3具有更高的recall值,比未改进的YOLO v3提升21%,mAP提高7.5%。由12000次迭代得到最佳的实验结果,改进网络结构后的YOLO v3与未改进的YOLO v3虽取得相同的recall,但同时将precision从93%提高到95%,mAP从85.03%提高到87.24%。由图4的mAP曲线可得,改进网络结构后的YOLO v3的mAP明显大于未改进的YOLO v3的mAP。由此可得,网络结构的特征加强对与目标检测模型的特征提取的效率有一定的提高。
表3不同迭代次数的网络结构改进前后对比
表4网络结构改进前后各类检测目标对比
从表4可知。改进网络结构后的YOLO v3具有更高的mAP,且三类检测目标的AP值均大于未改进的YOLO v3的,由此可得,特征增强对于目标检测模型的性能提升是整体性的,不仅仅是对某个单一检测目标的检测能力的提升。
表5为不同迭代次数的anchor改进前后对比,从10000次迭代开始,改进anchor后的YOLO v3的实验结果在保证precision和recall基本与未改进的YOLO v3相同的情况下,改进anchor后的YOLO v3的mAP值均比未改进的YOLO v3的mAP值大。在迭代12000次时得到最佳的实验结果,改进anchor后的YOLO v3的mAP=86.31%,比未改进的YOLO v3的mAP高1.28%。未改进的YOLO v3的anchor是对公开的COCO数据聚类得到。由图5的mAP曲线可得,改进anchor后的YOLO v3的mAP明显大于改进前的mAP。
表5不同迭代次数的anchor改进前后对比
表6anchor改进前后各类监测目标对比
如表6所示,anchor的改进对于检测目标为跌倒状态的人的检测能力有明显的提升,未改进的YOLO v3的AP=89.26%,改进anchor后的YOLO v3的AP=95.80%,且其它两个检测目标的AP值基本相同。由此可得,anchor的改进对于本发明中检测目标为跌倒状态的人的定位检测起到明显的提升效果。
表7为不同迭代次数的整体改进前后对比,整体改进为网络结构和anchor的共同改进改进,通过优化神经网络结构,K-means聚类得到新的anchor,从7000次迭代开始到12000次迭代,改进前后的precision和recall基本相同,但整体改进后的YOLO v3的mAP值比未改进的YOLO v3有明显的提高。在12000次迭代时,整体改进后的YOLO v3的mAP达到87.82%相比于未改进的YOLO v3的mAP的85.03%提高2.79%。由图6的mAP曲线可得,整体改进后的YOLO v3的mAP明显大于未改进的YOLO v3的mAP。
表7不同迭代次数的整体改进前后对比
表8整体改进前后各类检测目标对比
表9整体改进前后各参数对比
表8和表9显示整体改进后的YOLO v3在检测目标为跌倒状态的人的检测能力上有明显的提升,且整体改进后的YOLO v3的mAP的提升也比较明显,从85.03%提升到87.82%,而目标检测模型的大小只增加7M,Total BFLOPS只增加大约3.5。因此,整体改进后的YOLOv3依然具有实时检测的性能,其检测速度达到13.792ms/frame。整体改进使得整个目标检测模型的检测性能得到较大的提升。
如图7a至图14b所示,图7a、图8a、图9a、图10a、图11a、图12a、图13a、图14a为使用现有技术进行检测的结果示意图片,图7b、图8b、图9b、图10b、图11b、图12b、图13b、图14b为使用本发明的方法进行检测的结果示意图片。从这八种场景的实验结果对比来看,现有技术在实际检测中依然存在一些漏检和误检的发生。如图7b、图11b、图13b所示,检测出图7a、图11a、图13a没有检测出来的正常状态的人和跌倒状态的人;如图8b检测出图8a检测处的车为正常状态的人;如图9a所示,把图中的雨伞检测成人,而图9b则没有;如图10b、图12b所示,比图10a、图12a的检测框的框定更加的准确,完整地框出检测目标。
综上所述,本发明的方法明显优于现有技术,具有更加优秀的检测能力,特别是对中、小目标的检测能力有明显的增强,一定程度上弥补现有技术漏检的缺陷,检测地更加准确,检测框定位更准。

Claims (5)

1.一种基于改进YOLO v3的重卡盲区目标检测方法,其特征在于包括以下步骤:
①,采集以中、小尺寸为主的真实路况下的车、跌倒状态的人和正常状态的人混合图片,建立样本数据集,对所述的样本数据集进行预处理,对所述的样本数据集中的检测目标进行类别标定和位置信息提取,并将所述的样本数据集划分成训练集和测试集;
②,对所述的训练集进行聚类分析,选择anchor值;
③,改进原检测模型的网络结构得到优化后的YOLO v3网络:
选择Darknet-53作为图像特征提取的基础网络,YOLO v3将卷积层深层信息上采样后与较浅层信息通过concat函数拼接在一起实现特征融合,3组不同深浅的特征信息融合输出13×13,26×26,52×52的特征图,得到FPN结构;在此基础上,拼接浅层的信息增加特征的信息量,将Darknet-53第11层拼接到52×52的特征图上,得到改进后的52×52特征图,改进后的52×52特征图的特征信息由三部分构成:Darknet-53第11层下采样后的特征信息,Darknet-53第36层特征信息和来自26×26特征图下采样的特征信息;将Darknet-53第36层拼接到26×26的特征图上,得到改进后的26×26特征图,改进后的26×26特征图的特征信息由三部分构成:Darknet-53第36层下采样后的特征信息,Darknet-53第61层特征信息和来自13×13特征图下采样的特征信息;
④,设置训练参数,利用所述的训练集对优化后的YOLO v3网络进行训练,得到目标检测模型;
⑤,将重卡盲区范围内实时监测到的视频输入到所述的目标检测模型中进行检测;
⑥,输出重卡盲区范围内车、跌倒状态的人和正常状态的人的检测结果。
2. 根据权利要求1所述的一种基于改进YOLO v3的重卡盲区目标检测方法,其特征在于所述的步骤①中对所述的样本数据集中的检测目标进行类别标定和位置信息提取的具体方法为:
a,对所述的样本数据集进行不同光线因素、不同拍摄角度、不同道路环境和不同分辨率的选择;
b,调整所述的样本数据集中的所述的训练集的图像大小至统一像素;
c,对所述的样本数据集中所述的检测目标进行类别标定,分别用0,1,2表示车、跌倒状态的人和正常状态的人;
d,对所述的样本数据集进行位置信息提取,将所述的检测目标表示为一个四维向量{x,y,w,h};其中:x表示所述的检测目标的x轴方向的坐标,y表示所述的检测目标的y轴方向的坐标,w表示所述的检测目标的宽度,h表示所述的检测目标的高度;
e,生成标注文件。
3. 根据权利要求1所述的一种基于改进YOLO v3的重卡盲区目标检测方法,其特征在于所述的样本数据集的划分具体为80%的训练集和20%的测试集。
4. 根据权利要求1所述的一种基于改进YOLO v3的重卡盲区目标检测方法,其特征在于所述的步骤②中,采用K-means算法对所述的训练集进行聚类分析,通过设定不同的聚类中心k的个数,获得不同的anchor值;将IoU作为聚类指标,通过对Avg IoU的分析,设置anchor值为{(12,26),(18,71),(31,43),(66,73),(35,151),(98,121),(61,260),(110,310),(238,212)}。
5. 根据权利要求1所述的一种基于改进YOLO v3的重卡盲区目标检测方法,其特征在于所述的步骤④中训练参数的设置为:Batch为512,Subdivision为256,Max batches为12000。
CN202010344037.1A 2020-04-27 2020-04-27 一种基于改进YOLO v3的重卡盲区目标检测方法 Active CN111738056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010344037.1A CN111738056B (zh) 2020-04-27 2020-04-27 一种基于改进YOLO v3的重卡盲区目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010344037.1A CN111738056B (zh) 2020-04-27 2020-04-27 一种基于改进YOLO v3的重卡盲区目标检测方法

Publications (2)

Publication Number Publication Date
CN111738056A CN111738056A (zh) 2020-10-02
CN111738056B true CN111738056B (zh) 2023-11-03

Family

ID=72646899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010344037.1A Active CN111738056B (zh) 2020-04-27 2020-04-27 一种基于改进YOLO v3的重卡盲区目标检测方法

Country Status (1)

Country Link
CN (1) CN111738056B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469953B (zh) * 2021-06-10 2022-06-14 南昌大学 一种基于改进YOLOv4算法的输电线路绝缘子缺陷检测方法
CN113591575A (zh) * 2021-06-29 2021-11-02 北京航天自动控制研究所 一种基于改进YOLO v3网络的目标检测方法
CN114373121A (zh) * 2021-09-08 2022-04-19 武汉众智数字技术有限公司 一种改进yolov5网络的小目标检测的方法及***
CN113989763B (zh) * 2021-12-30 2022-04-15 江西省云眼大视界科技有限公司 一种视频结构化分析方法和分析***
CN114782923B (zh) * 2022-05-07 2024-05-03 厦门瑞为信息技术有限公司 一种车辆盲区的检测***
CN115775381B (zh) * 2022-12-15 2023-10-20 华洋通信科技股份有限公司 一种光照不均匀下的矿井电机车路况识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336207A (zh) * 2015-12-04 2016-02-17 黄左宁 车辆记录仪和公安综合监管***
CN109584558A (zh) * 2018-12-17 2019-04-05 长安大学 一种面向城市交通信号配时的交通流统计方法
CN109684803A (zh) * 2018-12-19 2019-04-26 西安电子科技大学 基于手势滑动的人机验证方法
CN109829429A (zh) * 2019-01-31 2019-05-31 福州大学 基于YOLOv3的监控场景下的安防敏感物品检测方法
CN110210452A (zh) * 2019-06-14 2019-09-06 东北大学 一种基于改进tiny-yolov3的矿用卡车环境下目标检测方法
CN110232406A (zh) * 2019-05-28 2019-09-13 厦门大学 一种基于统计学习的液晶面板cf图片识别方法
CN110356325A (zh) * 2019-09-04 2019-10-22 魔视智能科技(上海)有限公司 一种城市交通客运车辆盲区预警***
AU2019101133A4 (en) * 2019-09-30 2019-10-31 Bo, Yaxin MISS Fast vehicle detection using augmented dataset based on RetinaNet
CN110766098A (zh) * 2019-11-07 2020-02-07 中国石油大学(华东) 基于改进YOLOv3的交通场景小目标检测方法
CN110807496A (zh) * 2019-11-12 2020-02-18 智慧视通(杭州)科技发展有限公司 一种密集目标检测方法
CN110889324A (zh) * 2019-10-12 2020-03-17 南京航空航天大学 一种基于yolo v3面向末端制导的热红外图像目标识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740607B2 (en) * 2017-08-18 2020-08-11 Autel Robotics Co., Ltd. Method for determining target through intelligent following of unmanned aerial vehicle, unmanned aerial vehicle and remote control

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336207A (zh) * 2015-12-04 2016-02-17 黄左宁 车辆记录仪和公安综合监管***
CN109584558A (zh) * 2018-12-17 2019-04-05 长安大学 一种面向城市交通信号配时的交通流统计方法
CN109684803A (zh) * 2018-12-19 2019-04-26 西安电子科技大学 基于手势滑动的人机验证方法
CN109829429A (zh) * 2019-01-31 2019-05-31 福州大学 基于YOLOv3的监控场景下的安防敏感物品检测方法
CN110232406A (zh) * 2019-05-28 2019-09-13 厦门大学 一种基于统计学习的液晶面板cf图片识别方法
CN110210452A (zh) * 2019-06-14 2019-09-06 东北大学 一种基于改进tiny-yolov3的矿用卡车环境下目标检测方法
CN110356325A (zh) * 2019-09-04 2019-10-22 魔视智能科技(上海)有限公司 一种城市交通客运车辆盲区预警***
AU2019101133A4 (en) * 2019-09-30 2019-10-31 Bo, Yaxin MISS Fast vehicle detection using augmented dataset based on RetinaNet
CN110889324A (zh) * 2019-10-12 2020-03-17 南京航空航天大学 一种基于yolo v3面向末端制导的热红外图像目标识别方法
CN110766098A (zh) * 2019-11-07 2020-02-07 中国石油大学(华东) 基于改进YOLOv3的交通场景小目标检测方法
CN110807496A (zh) * 2019-11-12 2020-02-18 智慧视通(杭州)科技发展有限公司 一种密集目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Detection of Infrared Small Targets Using Feature Fusion Convolutional Network;KAIDI WANG等;《IEEE Access》;第7卷;第146081-146092页 *
基于深度学习的航空对地小目标检测;梁华等;《液晶与显示》;第33卷(第9期);第793-800页 *
基于深度神经网络的航拍图像小目标检测算法研究;张敏桐;《中国优秀硕士学位论文全文数据库 信息科技辑》(第2期);第I138-1566页 *
盲区车辆检测与跟踪算法研究;刘海洋;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》(第7期);第C035-144页 *

Also Published As

Publication number Publication date
CN111738056A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111738056B (zh) 一种基于改进YOLO v3的重卡盲区目标检测方法
CN111444809B (zh) 一种基于改进YOLOv3的输电线路异常目标检测方法
CN112199993B (zh) 基于人工智能识别任意方向变电站绝缘子红外图像检测模型的方法
Akagic et al. Pothole detection: An efficient vision based method using rgb color space image segmentation
CN109345547B (zh) 基于深度学习多任务网络的交通车道线检测方法及装置
CN111611861B (zh) 一种基于多尺度特征关联的图像变化检测方法
CN112330593A (zh) 基于深度学习网络的建筑物表面裂缝检测方法
CN114973002A (zh) 一种基于改进的YOLOv5的麦穗检测方法
CN112634257B (zh) 一种真菌荧光检测方法
CN115272204A (zh) 一种基于机器视觉的轴承表面划痕检测方法
CN115995056A (zh) 一种基于深度学习的桥梁病害自动识别方法
CN114596316A (zh) 一种基于语义分割的道路图像细节抓取方法
CN113313107A (zh) 一种斜拉桥缆索表面多类型病害智能检测和识别方法
CN115797314A (zh) 零件表面缺陷检测方法、***、设备及存储介质
CN110826364B (zh) 一种库位识别方法及装置
CN114494845A (zh) 一种用于施工项目现场人工智能隐患排查***及其排查方法
CN105787955A (zh) 一种带钢缺陷的稀疏分割方法及其分割装置
CN113762247A (zh) 一种基于显著实例分割算法的道路裂缝自动检测方法
CN114648736B (zh) 基于目标检测的鲁棒工程车辆识别方法及***
CN112257514B (zh) 一种用于设备故障巡检的红外视觉智检的拍摄方法
CN114677670A (zh) 一种身份证篡改自动识别与定位的方法
CN110533698B (zh) 一种基于视觉检测的基坑施工桩检测控制方法
CN113963161A (zh) 基于ResNet模型特征嵌入UNet的X射线图像分割识别***及方法
CN114694090A (zh) 一种基于改进PBAS算法与YOLOv5的校园异常行为检测方法
CN113516161B (zh) 一种隧道施工人员风险预警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant