CN115376108A - 一种复杂天气下障碍物检测方法及装置 - Google Patents
一种复杂天气下障碍物检测方法及装置 Download PDFInfo
- Publication number
- CN115376108A CN115376108A CN202211098795.5A CN202211098795A CN115376108A CN 115376108 A CN115376108 A CN 115376108A CN 202211098795 A CN202211098795 A CN 202211098795A CN 115376108 A CN115376108 A CN 115376108A
- Authority
- CN
- China
- Prior art keywords
- obstacle detection
- data set
- image
- training
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 86
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000004913 activation Effects 0.000 claims abstract description 32
- 238000011084 recovery Methods 0.000 claims abstract description 15
- 210000001525 retina Anatomy 0.000 claims abstract description 8
- 238000011176 pooling Methods 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 230000016273 neuron death Effects 0.000 claims description 4
- 230000004888 barrier function Effects 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 230000008034 disappearance Effects 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 31
- 238000010586 diagram Methods 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000428 dust Substances 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/36—Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Nonlinear Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种复杂天气下障碍物检测方法及装置,包括:获取复杂天气环境下图像;利用带色彩恢复的多尺度视网膜增强算法MSRCR对图像进行增强预处理;将预处理后的图像输入训练好的基于改进YOLOv3网络的障碍物检测模型;根据所述基于改进YOLOv3网络的障碍物检测模型的输出,确定复杂天气下障碍物检测结果;其中所述障碍物检测模型的构建方法包括:在YOLOv3的卷积块Convolutional Set中***了SPP模块;使用ELU激活函数替换原YOLOv3网络中卷积层的Leaky‑ReLU激活函数;获取不同天气条件下障碍物检测的数据集;使用K‑Means++算法对数据集中真实框重新聚类,得到合适的锚框;通过处理后的数据集对障碍物检测模型进行训练,得到训练好的基于改进YOLOv3网络的障碍物检测模型。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种复杂天气下障碍物检测方法及装置。
背景技术:
近年来随着社会经济快速发展,国内汽车保有量迅速增加,车辆在对生活带来极大便利的同时,交通事故频发等问题也对公共交通安全带来了挑战,车辆对障碍物的精确检测的需求日益迫切。目前实现的自动驾驶***和大部分自动辅助驾驶***都是能够感知车辆周围的环境,并根据环境做出相应的判断和行动。对于环境信息的获取,车辆主要依靠传感器设备(如深度摄像头、激光雷达、超声波等)。与其他传感器设备获取的环境信息相比,相机不仅可以获得更丰富的场景信息,而且还具有成本低、易于集成等优势。
随着深度学习技术的发展,基于深度学习的目标检测算法被广泛应用于目标检测。其中,以Faster-RCNN为代表的两阶段目标检测算法大大提高了目标检测的准确性,但是其检测速度较慢,不能满足实时性要求。以YOLO算法为代表的单阶段目标检测算法虽然检测速度较快,但对小目标的检测精度相对较低。2018年,Redmon J团队提出了YOLOv3算法,利用深度残差网络提取图像特征,实现多尺度预测。
由于可能出现的降雨、降雪、沙尘、雾霾、强光、夜间等天气环境因素干扰,道路图像会出现失真、模糊、对比度低等问题,对针对图像的障碍物检测造成影响。加上YOLOv3网络本身对复杂天气下道路障碍物检测的一些缺陷,如果直接使用YOLOv3算法,对障碍物的检测和分类准确率会明显降低。
发明内容
为了解决现有技术中存在的不足,本发明提供了一种复杂天气下障碍物检测方法,提出了一种融合了带色彩恢复的多尺度视网膜增强算法(MSRCR)和改进的YOLOv3目标检测算法的障碍物检测方法。首先将原始图像通过MSRCR算法进行图像增强预处理,提高图像的对比度和细节质量;再对YOLOv3网络进行优化,引入SPP模块,使用ELU激活函数,增加对噪声的鲁棒性,选取合适的数据集,对原YOLOv3网络中锚框在数据集上使用K-Means++算法重新聚类,使用训练数据集对改进过的YOLOv3网络进行训练;最后,将增强预处理过的图像输入训练好的检测网络进行检测与分类。本发明将图像增强后的图像利用改进的YOLOv3网络进行障碍物检测,提高检测的准确性。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
第一方面,提供一种复杂天气下障碍物检测方法,包括:
获取复杂天气环境下图像;
利用带色彩恢复的多尺度视网膜增强算法MSRCR对所述图像进行增强预处理,得到预处理后的图像;
将预处理后的图像输入训练好的基于改进YOLOv3网络的障碍物检测模型;
根据所述基于改进YOLOv3网络的障碍物检测模型的输出,确定复杂天气下障碍物检测结果;
其中所述基于改进YOLOv3网络的障碍物检测模型的构建方法包括:
在YOLOv3的卷积块Convolutional Set中***了SPP模块,实现不同尺度特征的融合,提取更多细节信息进而提高检测精度;使用ELU激活函数替换原YOLOv3网络中卷积层的Leaky-ReLU激活函数,增加对噪声的鲁棒性;
获取不同天气条件下障碍物检测的数据集,提升训练模型的鲁棒性;
使用K-Means++算法对数据集中真实框重新聚类,得到合适的锚框,加快样本训练收敛速度并提高定位精度;
通过处理后的数据集对障碍物检测模型进行训练,得到训练好的基于改进YOLOv3网络的障碍物检测模型。
在一些实施例中,利用带色彩恢复的多尺度视网膜增强算法MSRCR对所述图像进行增强预处理,包括:
利用几个不同的高斯尺度参数的加权和,将高斯滤波结果作为估计的光照图像,并加入颜色恢复因子来恢复反射图像的颜色,避免产生颜色退化,计算公式如下:
其中FMSRCR(x,y)为MSRCR算法处理后的增强结果,x、y分别表示图像像素的横坐标、纵坐标,i表示颜色分量的序号,j表示尺度参数的序号,Ci为第i个颜色分量的颜色恢复因子,N是尺度参数的数量,ωj为不同尺度对应的权重,Ii(x,y)表示输入图像的第i个颜色分量,Gj(x,y)表示尺度为σj时的高斯滤波器,σj表示第j个高斯环绕的尺度参数,为卷积符号,α是非线性强度调节参数,β是增益因子。
进一步地,N=3,代表小、中、大三种尺度。
在一些实施例中,所述SPP模块中一共有四个分支:第一个分支是输入直接接到输出分支,第二个分支是池化核5×5的最大池化,第三个分支是池化核9×9的最大池化,第四个分支是池化核13×13的最大池化,每次池化步距都是1,在池化前进行padding填充,使最后得到的特征图尺寸大小和深度不变;最终SPP模块实现不同尺度特征的融合。
在一些实施例中,使用ELU激活函数替换原YOLOv3网络中卷积层的Leaky-ReLU激活函数,包括:
ELU激活函数,计算公式为:
u和m分别表示函数的横纵坐标,ELU激活函数的梯度对于所有负值都是非零的,没有神经元死亡的问题,即使用ELU激活函数在出现异常输入时,反向传播中不会产生大的梯度,也就不会导致神经元死亡和梯度消失,能够在训练网络中缩短训练时间并提高准确度;ELU中m为0或负值时使用指数函数,随着参数变小,函数逐渐收敛到负值;收敛意味着有一个小的导数值,减少了传播到下一层的变化和信息;因此,ELU激活函数对噪声更加鲁棒,能够降低图像噪声对检测结果的影响。
在一些实施例中,获取不同天气条件下障碍物检测的数据集,提升训练模型的鲁棒性,包括:选用具有代表性的KITTI数据集和CODA数据集,用修改CODA数据集对应标签后对KITTI数据集进行补充,得到不同天气条件下障碍物检测的数据集;把得到的数据集预留出测试集,其余数据集作为训练集,增加训练模型的鲁棒性。
进一步地,用修改CODA数据集对应标签后对KITTI数据集进行补充,包括:
将障碍物标签分为car,van,truck,pedestrian,pedestrian(sitting),cyclist,tram以及misc这几类进行检测与分类;
通过Mixup、Cutmix、Cutout数据增强方式对CODA数据集中复杂天气部分数据集进行扩充,修改相应的标签,使符合所述障碍物标签的分类;
将数据集的图片统一调整好大小为416×416像素,便于后面基于改进YOLOv3网络的障碍物检测模型的训练。
在一些实施例中,通过处理后的数据集对障碍物检测模型进行训练,包括:
将改进的YOLOv3网络在数据集的训练集部分下进行训练,根据实际情况相应调整参数;使用各类别AP的平均值mAP来评估模型的性能,计算公式如下:
mAP是指各类别AP的平均值,APa是第a个类别的精确度和召回率曲线下的面积,k表示所有类别总数,a表示类别的序号;平均精度mAP的值越大,模型的整体识别准确率就越高,使用预留的测试集验证效果,得到训练好的基于改进YOLOv3网络的障碍物检测模型。
第二方面,本发明提供了一种复杂天气下障碍物检测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
本发明的优点在于:本发明提供的方法,针对降雨、降雪、沙尘、雾霾、强光、夜间等复杂环境下道路图像中检测障碍物不精确问题,提出了一种融合了带色彩恢复的多尺度视网膜增强算法(MSRCR)和改进的YOLOv3目标检测算法的障碍物检测方法。将待检测图像通过MSRCR算法进行图像增强预处理,提高图像的对比度和细节质量;再对YOLOv3网络进行优化,引入SPP模块融合不同尺度特征以提高检测精度,使用ELU激活函数增加对噪声的鲁棒性,获取符合场景的数据集,利用K-Means++聚类算法对数据集中真实框重新聚类,获取更合适的锚框大小来使目标定位更加准确,然后训练网络;最后将增强图像输入训练好的改进YOLOv3网络,得到检测结果。本发明通过上述方法提高复杂天气下障碍物检测的准确性和鲁棒性。
附图说明
图1为本发明实施例中方法流程图。
图2为本发明实施例中基于的YOLOv3网络总体结构图。
图3为本发明实施例中SPP模块结构图。
图4为本发明实施例中SPP模块位置示意图。
图5是本发明实施例中替换激活函数后的卷积层示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式进一步阐述本发明。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
YOLOv3算法是对YOLOv1和YOLOv2的改进,它具有检测精度高、定位准确、速度快等优点。特别是在引入多尺度预测方法时,能够实现对小目标的检测,对环境场景具有良好的鲁棒性,因此目前仍然研究热点。为了提取更深的特征信息,YOLOv3采用Darknet-53网络作为主干网络。Darknet-53网络使用大量的1×1和3×3卷积层以及残差单元用以从上采样的特征中获得更有意义的语义信息,并从前面的特征图中获得更细粒度的信息。
图像增强技术的目的是提高图像质量,在图像中呈现有用信息,使图像更符合人的视觉感知,更容易获得机器识别的效果。色彩恢复多尺度Retinex算法(MSRCR)是在单尺度Retinex算法(SSR)和多尺度Retinex算法(MSR)的基础上进行的改进和增强,其能明显改进现有2种算法的图像偏色效果并扩大图像的动态范围,使图像的明、暗区域细节都能得到很好的体现,使用图像增强技术对图像进行预处理能够更精准的对图像中的障碍物进行检测。
实施例1
一种复杂天气下障碍物检测方法,包括:
获取复杂天气环境下图像;
利用带色彩恢复的多尺度视网膜增强算法MSRCR对所述图像进行增强预处理,得到预处理后的图像;
将预处理后的图像输入训练好的基于改进YOLOv3网络的障碍物检测模型;
根据所述基于改进YOLOv3网络的障碍物检测模型的输出,确定复杂天气下障碍物检测结果;
其中所述基于改进YOLOv3网络的障碍物检测模型的构建方法包括:
在YOLOv3的卷积块Convolutional Set中***了SPP模块,实现不同尺度特征的融合,提取更多细节信息进而提高检测精度;使用ELU激活函数替换原YOLOv3网络中卷积层的Leaky-ReLU激活函数,增加对噪声的鲁棒性;
获取不同天气条件下障碍物检测的数据集,提升训练模型的鲁棒性;
使用K-Means++算法对数据集中真实框重新聚类,得到合适的锚框,加快样本训练收敛速度并提高定位精度;
通过处理后的数据集对障碍物检测模型进行训练,得到训练好的基于改进YOLOv3网络的障碍物检测模型。
在一些实施例中,一种复杂天气下障碍物检测方法,如图1所示,详细步骤如下:
S1:用MSRCR图像增强算法来预处理图像,降低复杂天气环境下图像中对比度低、细节模糊问题,使图像更易提取特征;
具体包括:
S11:选用MSRCR算法实现图像特征增强。MSRCR算法利用几个不同的高斯尺度参数的加权和,将高斯滤波结果作为估计的光照图像,并加入颜色恢复因子来恢复反射图像的颜色。这避免产生颜色退化的问题,增强后的图像有更好的色彩保证。计算公式如下:
x、y分别表示图像像素的横、纵坐标,i表示颜色分量的序号,j表示尺度参数的序号,Ii(x,y)表示输入图像的第i个颜色分量,ωj为不同尺度对应的权重,N是尺度参数的数量,一般N=3,代表小、中、大尺度,Gj(x,y)表示尺度为σj时的高斯滤波器,为卷积符号,Ci为第i个颜色分量的颜色恢复因子,σj表示第j个高斯环绕的尺度参数,α是非线性强度调节参数,β是增益因子,FMSRCR(x,y)为MSRCR算法处理后的增强结果;
S12:将图像使用上述MSRCR算法进行预处理,提升整体亮度和饱和度,降低图像中的噪声,让检测模型更加准确的分类与定位障碍物;
S2:YOLOv3模型成熟,实际应用效果稳定,符合障碍物检测方法的要求,因此选取YOLOv3作为复杂天气下障碍物检测的检测网络。YOLOv3的网络结构,如图2所示,使用Darknet53特征提取网络,激活函数使用Leaky-ReLU。然而考虑到复杂天气下图像模糊、对比度低、颜色褪色问题,需要对原有网络进行优化以尽可能地实现障碍物种类的识别与定位。
对于YOLOv3网络,引入SPP模块实现不同尺度特征融合,获取更多特征提高检测准确性;使用ELU激活函数替换Leaky-ReLU增加对噪声的鲁棒性,使之能够在复杂天气下精确检测模糊和对比度低的图像;选取天气场景丰富的符合障碍物检测场景的CODA和KITTI数据集作为训练集和测试集,增加训练模型的鲁棒性;用K-Means++算法对获取的数据集重新聚类真实框,获取更符合本场景的锚框,克服原算法使用K-Means聚类的局限性以及不同数据集聚类获得的锚框的大小差异,提高预测框的定位精度;最后,使用选取的训练集对改进后的YOLOv3网络进行训练,获得训练好复杂天气下障碍物检测网络模型;
具体包括:
S21:通过引入SPP模块提高了识别的准确率。在YOLOv3的卷积块ConvolutionalSet中***了SPP模块,SPP的模块结构,如图3所示,SPP模块在Convolutional Set中的***位置,如图4所示。在SPP模块中一共有四个分支,第一个分支是输入直接接到输出分支,第二个分支是池化核5×5的最大池化,第三个分支是池化核9×9的最大池化,第四个分支是池化核13×13的最大池化,每次池化步距都是1,为了使最后得到的特征图尺寸大小和深度不变,需要在池化前进行padding填充,最终SPP模块实现不同尺度特征的融合。
SPP模块通过空间金字塔的思想提取局部和全局特征,提高模型的感受野。SPP模块中特征图融合局部特征和全局特征后可以丰富特征图的表达能力特征,有利于待检测数据集中目标大小差异较大的情况,使检测的准确率大大提高。由于在全连接层的分类网络中,严格要求输入分辨率与全连接层的特征维度相匹配。SPP模块可以将任意分辨率的FeatherMap转换为与全连接层相同维度的设计特征向量,避免对图像区域进行裁剪、缩放等操作导致图像失真的现象,提高检测准确率;
S22:替换原YOLOv3网络中卷积层的Leaky-ReLU激活函数,使用ELU激活函数,如图5所示。合适的激活函数决定模型解决复杂任务的能力,YOLOv3中使用的激活函数是Leaky-ReLU,计算公式为:
其中,u和m分别表示函数的横纵坐标,然而,Leaky-ReLU的鲁棒性很差,因此将每个网络卷积层使用的激活函数改为ELU,计算公式为:
当m取正值时,激活函数ELU与Leaky-ReLU相同。不同之处在于,ELU中m为0或负值时使用指数函数,随着参数变小,函数逐渐收敛到负值。收敛意味着有一个小的导数值,减少了传播到下一层的变化和信息。因此ELU激活函数对噪声更加鲁棒。
S23:基于深度学习的障碍物检测算法需要从数据集中学习特征,所以选用的数据集必须具有代表性和广泛性,能够覆盖复杂天气的条件以及道路场景,因此选用具有代表性的KITTI数据集和CODA数据集。KITTI数据集符合对道路障碍物的定义与分类,但缺乏复杂天气场景,因此用CODA数据集对KITTI数据集进行补充,得到更加符合本发明适用场景的数据集。将障碍物分为car,van,truck,pedestrian,pedestrian(sitting),cyclist,tram以及misc这几类进行检测与分类。通过Mixup、Cutmix、Cutout数据增强方式对CODA数据集中复杂天气部分数据集进行扩充,修改相应的标签,使之符合上述分类。最后,将数据集的图片统一调整好大小为416×416像素方便后面YOLOv3模型的训练;
S24:聚类的方法由K-Means算法改为K-Means++算法。K-Means算法随机选择k个数据点作为初始聚类质心,结果容易受到初值选择的影响,只能找到局部最优解。选取K-Means++算法解决K-Means初值选择对聚类结果的影响,这个算法会尽可能的将数据点一一选取作为质心,保证全局最优解,第一步,根据K值,从数据集中随机选择一个数据点作为第一个初始质心,K值就是锚点的个数。第二步是计算其他数据点到前一个质心的距离。第三步,选择离现有质心最远的数据点作为下一个质心。类似地,如果已经选择了n个初始质心,则选择离当前n个质心最远的数据点作为N+1个初始质心。直到选择了K个初始质心。第四步,计算所有数据点到每个质心的距离,并将它们划分到最近的质心为一个类。第五步重新计算每个类别的聚类质心。重复第四步和第五步,直到质心变化小于一个阈值。YOLOv3聚类的目的是为了让锚框和真实框尽可能接近,所以距离计算公式为:
d(box,centropd)=1-IOU(box,centroid)
box是矩形的大小,centroid是矩形的中心,IOU是两个矩形的交并比。
对数据集中的真实框进行聚类,最后得到9个与新数据集对应的锚框。YOLOv3的锚框是对COCO数据集的真实框使用K-Means聚类获得的九个不同尺寸的框,避免模型在训练的时候盲目的找,有助于模型的快速收敛。使用K-Means++算法聚类出YOLOv3网络中的九个锚框,三个不同深度的网络输出对应三种不同尺寸的特征图,每种特征图与三个锚框相对应;
S25:训练检测模型。搭建实验环境,在深度学***均精度(mAP)来评估算法的性能,mAP是AP的平均值,计算公式如下:
mAP是指各类别AP的平均值,APa是第a个类别的精确度和召回率曲线下的面积,k表示所有类别总数,a表示类别的序号,AP值可以描述precision-recall曲线的面积,计算公式如下:
precision=TP/(TP+FP)
recall=TP(TP+FN)
precision表示精确度,recall表示召回率,TP代表真正例True Positives,FP代表假正例False Positives,FN表示假反例False Negatives。平均精度mAP的值越大,模型的整体识别准确率就越高。最后,使用测试集验证模型检测效果;
S3:将预处理过的增强图像输入到训练好的改进网络中,得到检测和分类结果,准确性和鲁棒性得到提升,实现复杂天气下障碍物检测方法。
具体包括:
S31:复杂天气下的各种情景的图像经过MSRCR增强后输入前面训练好的改进YOLOv3目标检测网络中,具体对car,van,truck,pedestrian,pedestrian(sitting),cyclist,tram以及misc这几类预先定义好的障碍物进行检测定位与分类,得到检测结果,实现复杂天气下障碍物检测方法。
实施例2
第二方面,本实施例提供了一种复杂天气下障碍物检测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。
实施例3
第三方面,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。
Claims (10)
1.一种复杂天气下障碍物检测方法,其特征在于,包括:
获取复杂天气环境下图像;
利用带色彩恢复的多尺度视网膜增强算法MSRCR对所述图像进行增强预处理,得到预处理后的图像;
将预处理后的图像输入训练好的基于改进YOLOv3网络的障碍物检测模型;
根据所述基于改进YOLOv3网络的障碍物检测模型的输出,确定复杂天气下障碍物检测结果;
其中所述基于改进YOLOv3网络的障碍物检测模型的构建方法包括:
在YOLOv3的卷积块Convolutional Set中***了SPP模块,实现不同尺度特征的融合,提取更多细节信息进而提高检测精度;使用ELU激活函数替换原YOLOv3网络中卷积层的Leaky-ReLU激活函数,增加对噪声的鲁棒性;
获取不同天气条件下障碍物检测的数据集,提升训练模型的鲁棒性;
使用K-Means++算法对数据集中真实框重新聚类,得到合适的锚框,加快样本训练收敛速度并提高定位精度;
通过处理后的数据集对障碍物检测模型进行训练,得到训练好的基于改进YOLOv3网络的障碍物检测模型。
2.根据权利要求1所述的复杂天气下障碍物检测方法,其特征在于,利用带色彩恢复的多尺度视网膜增强算法MSRCR对所述图像进行增强预处理,包括:
利用几个不同的高斯尺度参数的加权和,将高斯滤波结果作为估计的光照图像,并加入颜色恢复因子来恢复反射图像的颜色,避免产生颜色退化,计算公式如下:
3.根据权利要求2所述的复杂天气下障碍物检测方法,其特征在于,N=3,代表小、中、大三种尺度。
4.根据权利要求1所述的复杂天气下障碍物检测方法,其特征在于,所述SPP模块中一共有四个分支:第一个分支是输入直接接到输出分支,第二个分支是池化核5×5的最大池化,第三个分支是池化核9×9的最大池化,第四个分支是池化核13×13的最大池化,每次池化步距都是1,在池化前进行padding填充,使最后得到的特征图尺寸大小和深度不变;最终SPP模块实现不同尺度特征的融合。
5.根据权利要求1所述的复杂天气下障碍物检测方法,其特征在于,使用ELU激活函数替换原YOLOv3网络中卷积层的Leaky-ReLU激活函数,包括:
ELU激活函数,计算公式为:
u和m分别表示函数的横纵坐标,ELU激活函数的梯度对于所有负值都是非零的,没有神经元死亡的问题,即使用ELU激活函数在出现异常输入时,反向传播中不会产生大的梯度,也就不会导致神经元死亡和梯度消失,能够在训练网络中缩短训练时间并提高准确度;ELU中m为0或负值时使用指数函数,随着参数变小,函数逐渐收敛到负值;收敛意味着有一个小的导数值,减少了传播到下一层的变化和信息;因此,ELU激活函数对噪声更加鲁棒,能够降低图像噪声对检测结果的影响。
6.根据权利要求1所述的复杂天气下障碍物检测方法,其特征在于,获取不同天气条件下障碍物检测的数据集,提升训练模型的鲁棒性,包括:选用具有代表性的KITTI数据集和CODA数据集,用修改CODA数据集对应标签后对KITTI数据集进行补充,得到不同天气条件下障碍物检测的数据集;把得到的数据集预留出测试集,其余数据集作为训练集,增加训练模型的鲁棒性。
7.根据权利要求6所述的复杂天气下障碍物检测方法,其特征在于,用修改CODA数据集对应标签后对KITTI数据集进行补充,包括:
将障碍物标签分为car,van,truck,pedestrian,pedestrian(sitting),cyclist,tram以及misc这几类进行检测与分类;
通过Mixup、Cutmix、Cutout数据增强方式对CODA数据集中复杂天气部分数据集进行扩充,修改相应的标签,使符合所述障碍物标签的分类;
将数据集的图片统一调整好大小为416×416像素,便于后面基于改进YOLOv3网络的障碍物检测模型的训练。
9.一种复杂天气下障碍物检测装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1至8任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211098795.5A CN115376108A (zh) | 2022-09-07 | 2022-09-07 | 一种复杂天气下障碍物检测方法及装置 |
PCT/CN2023/103129 WO2024051296A1 (zh) | 2022-09-07 | 2023-06-28 | 一种复杂天气下障碍物检测方法及装置 |
US18/469,593 US20240005626A1 (en) | 2022-09-07 | 2023-09-19 | Method and apparatus for obstacle detection under complex weather |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211098795.5A CN115376108A (zh) | 2022-09-07 | 2022-09-07 | 一种复杂天气下障碍物检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115376108A true CN115376108A (zh) | 2022-11-22 |
Family
ID=84071307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211098795.5A Pending CN115376108A (zh) | 2022-09-07 | 2022-09-07 | 一种复杂天气下障碍物检测方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115376108A (zh) |
WO (1) | WO2024051296A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310598A (zh) * | 2023-05-16 | 2023-06-23 | 常州海图信息科技股份有限公司 | 一种用于恶劣天气下的障碍物检测方法及装置 |
WO2024051296A1 (zh) * | 2022-09-07 | 2024-03-14 | 南京邮电大学 | 一种复杂天气下障碍物检测方法及装置 |
CN118279542A (zh) * | 2024-05-31 | 2024-07-02 | 烟台大学 | 一种图像数据分析处理*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059558B (zh) * | 2019-03-15 | 2023-08-25 | 江苏大学 | 一种基于改进ssd网络的果园障碍物实时检测方法 |
CN111476219A (zh) * | 2020-06-02 | 2020-07-31 | 苏州科技大学 | 智能家居环境中图像目标检测方法 |
CN112906485B (zh) * | 2021-01-25 | 2023-01-31 | 杭州易享优智能科技有限公司 | 基于改进的yolo模型的视障人士辅助障碍物感知方法 |
CN115376108A (zh) * | 2022-09-07 | 2022-11-22 | 南京邮电大学 | 一种复杂天气下障碍物检测方法及装置 |
-
2022
- 2022-09-07 CN CN202211098795.5A patent/CN115376108A/zh active Pending
-
2023
- 2023-06-28 WO PCT/CN2023/103129 patent/WO2024051296A1/zh unknown
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024051296A1 (zh) * | 2022-09-07 | 2024-03-14 | 南京邮电大学 | 一种复杂天气下障碍物检测方法及装置 |
CN116310598A (zh) * | 2023-05-16 | 2023-06-23 | 常州海图信息科技股份有限公司 | 一种用于恶劣天气下的障碍物检测方法及装置 |
CN116310598B (zh) * | 2023-05-16 | 2023-08-22 | 常州海图信息科技股份有限公司 | 一种用于恶劣天气下的障碍物检测方法及装置 |
CN118279542A (zh) * | 2024-05-31 | 2024-07-02 | 烟台大学 | 一种图像数据分析处理*** |
Also Published As
Publication number | Publication date |
---|---|
WO2024051296A1 (zh) | 2024-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444821B (zh) | 一种城市道路标志自动识别方法 | |
CN111368687B (zh) | 一种基于目标检测和语义分割的人行道车辆违停检测方法 | |
CN110163187B (zh) | 基于f-rcnn的远距离交通标志检测识别方法 | |
CN109977812B (zh) | 一种基于深度学习的车载视频目标检测方法 | |
Li et al. | Traffic light recognition for complex scene with fusion detections | |
CN115376108A (zh) | 一种复杂天气下障碍物检测方法及装置 | |
CN111814621A (zh) | 一种基于注意力机制的多尺度车辆行人检测方法及装置 | |
CN111274980B (zh) | 基于yolov3和非对称卷积的小尺寸交通标志识别方法 | |
CN109840483B (zh) | 一种滑坡裂缝检测与识别的方法及装置 | |
CN113762209A (zh) | 一种基于yolo的多尺度并行特征融合路标检测方法 | |
CN112990065B (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN111553214B (zh) | 一种驾驶员吸烟行为检测方法及*** | |
CN106056102A (zh) | 基于视频图像分析的道路车型分类方法 | |
CN106778540A (zh) | 停车检测准确的基于双层背景的停车事件检测方法 | |
CN115601717B (zh) | 基于深度学习的交通违法行为分类检测方法及SoC芯片 | |
CN111915583A (zh) | 复杂场景中基于车载红外热像仪的车辆和行人检测方法 | |
CN112308005A (zh) | 基于gan的交通视频显著性预测方法 | |
CN108509900A (zh) | 交通标志检测和识别方法、***及存储介质 | |
CN112613434A (zh) | 道路目标检测方法、装置及存储介质 | |
CN116935361A (zh) | 一种基于深度学习的驾驶员分心行为检测方法 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN112785610B (zh) | 一种融合低层特征的车道线语义分割方法 | |
CN111832463A (zh) | 一种基于深度学习的交通标志检测方法 | |
CN108256444B (zh) | 一种用于车载视觉***的目标检测方法 | |
Phu et al. | Traffic sign recognition system using feature points |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |