CN115205568B - 一种多尺度特征融合的道路交通多要素检测方法 - Google Patents
一种多尺度特征融合的道路交通多要素检测方法 Download PDFInfo
- Publication number
- CN115205568B CN115205568B CN202210828252.8A CN202210828252A CN115205568B CN 115205568 B CN115205568 B CN 115205568B CN 202210828252 A CN202210828252 A CN 202210828252A CN 115205568 B CN115205568 B CN 115205568B
- Authority
- CN
- China
- Prior art keywords
- feature
- road traffic
- detection
- asff
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 119
- 230000004927 fusion Effects 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 238000011176 pooling Methods 0.000 claims abstract description 23
- 241000283070 Equus zebra Species 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000001373 regressive effect Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 23
- 230000001133 acceleration Effects 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 23
- 238000002679 ablation Methods 0.000 description 17
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000006440 Open Bite Diseases 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 238000005299 abrasion Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/586—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of parking space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种多尺度特征融合的道路交通多要素检测方法,其特征在于,利用k‑means++算法对多尺度道路交通要素范围进行聚类统计,得到适合本文数据集的候选框大小;接着通过加速空间金字塔池化(SpatialPyramidPoolingFast,SPPF)结构提升分类精度和速度,同时实现更丰富的特征信息提取;提出了一种融合感受野模块(ReceptiveFieldBlock,RFB)的ASFF策略,提高了特征尺度不变性,提升了小目标的检测效果;最后通过计算平均精度均值(meanaverageprecision,mAP)来评估实验效果。本方法可解决道路交通多要素错检、漏检的问题,提升了道路交通多要素中小目标、密集型目标的检测精度。
Description
技术领域
本发明属于道路交通状况监测技术领域,具体涉及一种多尺度特征融合的道路交通多要素检测方法。
背景技术
道路交通要素是构成道路的重要组成部分,是构建交通基础地理信息数据库的主要内容,对发展交通基础地理信息尤为重要。道路交通要素信息主要包括道路中心线、道路交叉口、斑马线、公交车站台、路内停车位等信息[1],对其准确识别与检测可为自动驾驶、完善智能交通***、推进智慧城市以及更新交通基础地理信息数据库提供了重要的数据支撑。当前,多数学者的研究是基于单要素的交通标志牌的检测与识别、路网信息的提取、路况的实时监测等,对道路交通多要素信息提取的研究较少。但道路交通多要素信息的检测与识别对更新交通基础地理信息数据库有着重要价值。传统的车载相机由于拍摄范围有限,只能获取到小部分的道路交通要素信息,不利于大面积的交通要素信息获取。
深度学***衡的级联R-CNN交通标志检测方法。该方法通过级联的R-CNN来获取金字塔中的多尺度特征,利用点积和Softmax提取加权多尺度特征,实现对小尺寸交通标志以及复杂环境下的交通标志的检测;Chen等提出一种改进Mask R-CNN的方法实现路面交通标志识别。该方法通过改进Mask R-CNN算法,解决了对阴影区路标、遮挡路标以及磨损路标等无法识别或识别精度低的问题,实现了对路面交通标志的自动检测与识别。
随着深度学习的发展,目标检测经历着从传统方法到深度学习方法的转变。目前,国内外学者对于目标检测开展了许多研究工作。目标检测已被广泛的应用于各行各业中,如病理检测、人脸识别、农产品虫害识别、自动驾驶、文本检测等领域中。传统的目标检测方法通常是基于颜色、纹理、形状或者是一些中高层次语义特征的方法。如Zhang等通过基于像素向量的自适应颜色分割方法将彩色图像分割成二值图像,突出交通标志区域,降低光照对图像分割的影响。并通过形状特征实现从自然场景图像中检测出道路交通标志;Berkaya等利用彩色图像对圆形交通标志进行检测与识别。通过多特征集和支持向量机分类器实现交通标志分类;Ellahyani等提出了基于随机森林的交通标志检测与识别方法。该方法首先将HOG特征扩展到HSI颜色空间,并结合局部自相似性(LSS)特征获取交通标志识别的新特征;然后利用随机森林分类器和构建的新特征实现交通标志的检测与识别。
但是,此类传统方法大多都是通过提取颜色、形状和纹理特征,采用随机森林、支持向量机等分类器进行分类,存在时间复杂度高、窗口冗余、分类速度慢等问题,对多样性的检测预期目标难以实现。
发明内容
为了解决多尺度道路交通要素检测效果差、小目标检测困难的技术问题,本发明提供了一种多尺度特征融合的道路交通多要素检测方法,并提出了一种ASFF-YOLOv5网络,用于道路交通多要素自动识别与检测,在提升检测精度的同时降低了小目标错检和漏检问题,实现了多尺度道路交通要素的自动检测与识别。
为了解决上述技术问题并达到上述技术效果,本发明是通过以下技术方案实现的:一种多尺度特征融合的道路交通多要素检测方法,其特征在于,具体包括以下步骤:
S1、采集道路交通多要素数据集;要素包括:斑马线、路边停车位、公交车站台;
S2、利用k-means++聚类算法对S1中采集的数据集进行预处理,得到与道路交通多要素数据集相匹配的候选框尺寸;
通过k-means++簇心计算的方式得到初始簇心,然后再运行k-means聚类算法得到聚类结果,将道路交通要素尺度定义为9个簇,通过k-means++聚类算法计算得到目标候选框尺寸;
S3、利用ASFF-YOLOv5网络对数据集的特征图进行特征提取,所述ASFF-YOLOv5网络由主干特征提取网络、特征图金字塔网络以及分类器与回归器这三部分组成,具体包括如下步骤:
S3.1、在主干特征提取网络中不断进行残差堆叠提取获得三个有效特征层,且在最后一个有效特征层中通过引入SPPF结构,同时通过使用相同池化核的最大池化进行特征提取,提高特征图的分类精度和速度;
S3.2、将上述S3.1、得到的有效特征层传输至PANet结构中,通过上、下采样进一步加强特征提取,其间融合ASFF+RFB模块,对多尺度道路交通要素信息的提取,能够实现提升感受野,实现不同尺度检测物的特征信息提取,完成更丰富的特征信息提取;
S3.3、在特征金字塔中实现对S3.2中提取的多尺度道路交通要素进行特征融合;
S3.4、得到三个加强后的有效特征层,通过分类器与回归器得到预测和回归结果;
S4、最后通过检测头输出道路交通多要素的检测结果并对其进行精度评价;
进一步的,所述S3.1中SPPF结构将原SPP中3个不同大小卷积核的并行最大池化操作改为3个相同大小的卷积核串行操作;
进一步的,所述SPPF结构首先对CBS结构传输进来的数据串列进行5×5的最大池化操作,再通过concat拼接方式连接传入至CBS结构中,实现提升速度的同时完成更丰富的特征信息提取。
进一步的,所述S3.2中ASFF-YOLOv5算法将ASFF结构融合至PANet结构中,首先对FPN结构自顶向下加强语义特征提取后,在每一层的FPN结构中都引入ASFF算法进行加权融合;
进一步的,在ASFF算法后引入了一层RFB模块,在Inception的基础上融合空洞卷积,从而有效的增加了感受野,实现网络的特征提取能力;
本发明的有益效果是:
1、本发明的提供的方法通过无人机采集的数据包括斑马线、公交车站台、路边停车位的数据信息,采用ASFF-YOLOv5网络对采集信息的信息进行特征提取,用于道路交通多要素的自动检测与识别,可实现低成本、高效率的提取道路交通要素,为更新交通基础地理信息数据库提高工作效率,降低人工成本;
2、本发明使用k-means++[42]聚类方法进行数据处理,获得目标物的最佳候选框尺寸,使检测锚框更符合道路交通多要素数据集;
3、本发明在SFF-YOLOv5算法中通过使用SPPF[43]结构,提升了道路交通多要素的分类精度和速度;再通过融合RFB模块的ASFF结构,提升感受野,提高不同尺度检测物的特征信息,丰富的特征信息提取,提升了对小目标的检测与识别能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种多尺度特征融合的道路交通多要素检测方法的流程图;
图2是一种多尺度特征融合的道路交通多要素检测方法的ASFF-YOLOv5结构示意图;
图3是一种多尺度特征融合的道路交通多要素检测方法的融合ASFF模块的PANet结构;
图4是一种多尺度特征融合的道路交通多要素检测方法的(a)RFB模块效果示意图和(b)为RFB结构示意图;
图5是一种多尺度特征融合的道路交通多要素检测方法的(a)SPP结构图和(b)SPPF结构图;
图6是本发明实施例3的k-means下的检测效果图;
图7是本发明实施例3的正常道路场景下的检测效果图;
图8是本发明实施例3的小目标场景下的无遮挡检测效果图;
图9是本发明实施例3的小目标场景下带遮挡检测效果图;
图10是本发明实施例3的正射影像图下的预测结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
参阅图1所示,一种多尺度特征融合的道路交通多要素检测方法,其特征在于,具体包括以下步骤:
S1、采集道路交通多要素数据集;要素包括:斑马线、路边停车位、公交车站台;
S2、利用k-means++聚类算法对S1中采集的数据集进行预处理,得到与道路交通多要素数据集相匹配的候选框尺寸;
通过k-means++簇心计算的方式得到初始簇心,然后再运行k-means聚类算法得到聚类结果,将道路交通要素尺度定义为9个簇,通过k-means++聚类算法计算得到目标候选框尺寸;
将道路交通要素尺度定义为9个簇,通过k-means++聚类算法计算得到目标候选框尺寸。如表1所示为k-means++聚类后的结果,使用k-means++算法和不使用相比,其平均精度均值涨点为18.3%;k-means++聚类和k-means聚类相比,其平均精度均值涨点为3%。从该结果表明,使用k-means++聚类后的效果符合道路交通要素数据集;
表1 k-means++聚类结果
S3、利用ASFF-YOLOv5网络对数据集的特征图进行特征提取,所述ASFF-YOLOv5网络由主干特征提取网络、特征图金字塔网络以及分类器与回归器这三部分组成,具体包括如下步骤:
S3.1、在主干特征提取网络中不断进行残差堆叠提取获得三个有效特征层,且在最后一个有效特征层中通过引入SPPF结构,同时通过使用相同池化核的最大池化进行特征提取,提高特征图的分类精度和速度;
S3.2、将上述S3.1、得到的有效特征层传输至PANet结构中,通过上、下采样进一步加强特征提取,其间融合ASFF+RFB模块,对多尺度道路交通要素信息的提取,能够实现提升感受野,实现不同尺度检测物的特征信息提取,完成更丰富的特征信息提取;
S3.3、在特征金字塔中实现对S3.2中提取的多尺度道路交通要素进行特征融合;
S3.4、得到三个加强后的有效特征层,通过分类器与回归器得到预测和回归结果;
S4、最后通过检测头输出道路交通多要素的检测结果并对其进行精度评价;
进一步的,所述S3.1中SPPF结构将原SPP中3个不同大小卷积核的并行最大池化操作改为3个相同大小的卷积核串行操作;
进一步的,所述SPPF结构首先对CBS结构传输进来的数据串列进行5×5的最大池化操作,再通过concat拼接方式连接传入至CBS结构中,实现提升速度的同时完成更丰富的特征信息提取。
进一步的,所述S3.2中ASFF-YOLOv5算法将ASFF结构融合至PANet结构中,首先对FPN结构自顶向下加强语义特征提取后,在每一层的FPN结构中都引入ASFF算法进行加权融合;
进一步的,在ASFF算法后引入了一层RFB模块,在Inception的基础上融合空洞卷积,从而有效的增加了感受野,实现网络的特征提取能力。
实施例2
基于上述实施例1一种多尺度特征融合的道路交通多要素检测方法的各模块具体实施形式;
1、ASFF-YOLOv5
ASFF-YOLOv5网络由主干特征提取网络、特征图金字塔网络以及分类器与回归器这三部分组成。在ASFF-YOLOv5网络中主干特征提取网络实现对输入特征图的特征提取;特征图金字塔网络实现多尺度道路交通要素的特征融合;分类器与回归器获得检测结果。如图2为所提方法结构示意图,图中颜色加深部分为所提出的SPPF模块和ASFF+RFB模块。假定网络中输入的特征图大小为640×640×3,ASFF-YOLOv5网络的特征提取过程如下:
(1)通过聚焦结构在特征层中进行高和宽的压缩并且扩张通道数得到特征图;
(2)为原来的四倍得到320×320×12的特征图;
(3)通过卷积、标准化、激活函数等系列操作得到320×320×64的特征图;
(4)在主干特征提取网络中不断进行残差堆叠提取获得三个有效特征层,同时在最后一个有效特征层中通过引入SPPF结构,通过使用相同池化核的最大池化进行特征提取,提高特征图的分类精度和速度,此时在主干特征提取网络中所获得三个有效特征层分别为80×80×256、40×40×512和20×20×1024;
(5)将得到的有效特征层传输至PANet结构中,通过上、下采样进一步加强特征提取。在该阶段中融合了本文所提出的ASFF+RFB模块,该模块用于多尺度道路交通要素信息的提取,能够实现提升感受野,实现不同尺度检测物的特征信息提取,完成更丰富的特征信息提取;
(6)得到三个加强后的有效特征层,通过分类器与回归器得到预测和回归结果。
2、ASFF+RFB模块
以ASFF-2计算融合为例,X1,X2,X3分别为从YOLOv5主干网络中提取得到的特征图。首先经过PANet结构得到特征图Level1,Level2,Level3,再通过ASFF算法融合得到ASFF-2。Level1特征图经过卷积操作得到Level2特征图相同的通道数,再通过上采样得到与Level2相同维度的特征图,得到X1→2。对Level3特征图经过卷积和下采样操作调整通道数和维度与Level2保持一致的通道数和维度,得到X3→2。对Level2特征图经过卷积操作调整通道数后得到X2→2。将所得到的三个特征图进行softmax函数处理后,分别得到X1→2,X2→2,X3→2的权重系数α,β,γ,再进行ASFF融合计算,其计算公式为:
其中,为通过使用ASFF算法计算得到的新特征图;/>分别为三个特征图的权重系数,且/>在softmax函数处理后满足表示从n层到l层的特征图的特征向量。
通过ASFF算法,利用权重参数来调整特征融合,可以实现模型的多尺度特征融合更加充分。同时,本文在ASFF算法的同时引入了RFB模块。RFB模块通过多分支卷积和空洞卷积可以实现更有效的增加感受野,提高利用特征信息,提高模型对于小目标的识别与检测能力。在RFB模块中的多个分支结构中,每个分支的第一层由特定大小的卷积核构成,其第一层卷积核大小分别为1×1,3×3,5×5。如图4(a)所示为RFB模块效果示意图,(b)为RFB结构示意图。rate表示不同空洞卷积层的膨胀系数。RFB模块包括了空洞卷积层,用来实现增强感受野。RFB模块的最后输出是将不同尺寸和感受野的输出特征图进行concat操作,实现融合不同特征的目的。
3、加速空间金字塔池化
YOLOv5网络中SPP结构[58]的作用是实现对不同尺寸输入的图片,以固定大小的特征向量作为全连接层输出。SPP结构利用三种不同大小的卷积核,分别为3,5,9,通过最大池化操作进行特征提取,增强特征图特征表达能力,提高网络感受野。如图5(a)所示为SPP的结构图。SPP结构的操作首先是对卷积标准化激活函数(Convolution+BanchNormalization+SiLU,CBS)传输进来的数据并列进行1×1,3×3,5×5,9×9最大池化操作,再通过concat拼接方式连接传入至CBS结构中,实现特征融合,完成特征提取操作。但是SPP结构通过不同大小卷积核并行的池化操作增加了程序的计算量,会降低性能。因此,本文使用SPPF结构进行池化,在降低程序计算量的同时提升池化性能。SPPF结构将原来SPP中3个不同大小卷积核的并行最大池化操作改为3个相同大小的卷积核串行操作。如图5(b)所示为SPPF结构图,与SPP结构相类似,SPPF层的操作首先是对CBS结构传输进来的数据串列进行5×5的最大池化操作,再通过concat拼接方式连接传入至CBS结构中,实现提升速度的同时完成更丰富的特征信息提取。
实施例3
本实施例为运用上述实施例1一种多尺度特征融合的道路交通多要素检测方法的具体实验;
1、实验环境
本方法所使用的计算机硬件配置为Ubuntu20.04***下的i7-8700 CPU,显卡配置为GTX1070,显存配置为8GB,通过pycharm软件进行训练。在实验训练中,设置训练的权重衰减系数为0.0005,初始学习率为0.001,置信度为0.5,IoU阈值设置为0.65,共计训练100个Epoch,迭代次数为4000次。
2、评价指标
实验通过计算mAP、平均准确率(average precision,AP)、精确度、召回率为模型定量评估指标,来衡量模型检测的准确性,其定义如表2所示。
表2评价指标
3、对比实验
为验证本文所提方法的有效性,本文通过目标检测的经典算法网络进行对比。实验分别选取SSD、RetinaNet、Faster R-CNN、YOLOv3、YOLOv4网络,以及在以往研究中融合超强通道注意力机制(Efficient Channel Attention,ECA)[62]方法为本文所提方法的对比实验。实验在对道路交通多要素数据集进行训练时,分别计算其评价指标AP、Precision、Recall、mAP的值并进行比较。如表3所示,分别统计了不同网络模型下道路交通多要素的识别精度。其中,表3中的涨点是各网络和本文方法对比所计算出mAP的值。
表3不同模型的检测结果
注:加粗字体为各项最优结果,下划线为各项次优结果。
为验证本文所使用k-means++聚类获得锚框定位的准确性,分别对比了原始YOLOv5网络、YOLOv5+k-means、YOLOv5+k-means++的实验效果。如表4所示为不同k-means的检测结果。
表4不同k-means的检测结果
注:加粗字体为各项最优结果,下划线为各项次优结果。
为验证k-means++聚类效果对锚框的准确性,选取图片对其进行检测,如图6所示为不同k-means下的检测效果图。从检测精度和锚框的大小位置来看,YOLOv5对于检测物的检测精度最低,精度只有70.6%,且候选框的位置并没有把待检测物全部包括进来;YOLOv5+k-means对于检测物的检测精度位列第二,精度为87.9%,虽然候选框的定位准确性有所提高,但是仍旧存在细微差距;YOLOv5+k-means++对于检测物的检测精度最高,为95.7%,且候选框的定位最准确,不存在遗漏部分,且候选框大小合适。从该结果表明,本文使用k-means++聚类算法能够使候选框位置更为精准,使检测效果更好。
为验证本文所提算法的有效性,对道路交通多要素数据集进行消融实验,分别对比融合k-means++、SPPF、ASFF后的实验效果。分别计算其评价指标AP、Precision、Recall、mAP的值并进行比较。如表5所示消融实验检测结果。
表5消融实验检测结果
注:加粗字体为各项最优结果,下划线为各项次优结果。
为验证本文方法的实用性和有效性,在不同场景下分别进行预测实验。分别选取由无人机拍摄的小场景影像图以及经Pix4D软件处理生成的大场景影像图进行检测。小场景影像图分别为正常道路场景以及小目标要素场景。其中,正常道路场景为无人机拍摄的十字路口段,包含1个公交车站台和10条斑马线。小目标要素场景为无人机拍摄的路边停车位,分为场景1和场景2。场景1为无遮挡的路边停车位,包括17个并列、密集的路边停车位。场景2为有遮挡的待检测物体,包括45个路边停车位和2条斑马线,停车位表现为并列、密集且部分被树木遮挡。如图7所示为正常道路场景下的预测效果。图8为小目标要素下的场景1。图9为小目标要素下的场景2。表6为小场景下的检测结果。
表6小场景下消融实验预测结果
注:表中“-”表示所测影像中不包含此类,加粗字体为各项最优结果。
结合图7和表6预测效果可知,在正常道路场景中,消融实验均能正确检测出道路交通多要素,无错检、检漏检现象。消融实验均具备良好的检测道路交通多要素能力。但是,本文提出的方法所得到的检测精度最高。
图8为小目标要素场景下的无遮挡检测,检测目标为并列、密集的17个路边停车位。结合图8和表6预测效果可知,在无遮挡的小目标场景中,消融实验均能检测出路边停车位,无错检、检漏检现象。消融实验在无遮挡环境中均具备良好的检测道路交通多要素能力。但是本文方法在检测无遮挡的小目标时,其检测精度达93.3%,较其他方法而言,检测精度最高。
图9为小目标要素场景下的带遮挡检测,检测目标为并列、密集的45个路边停车位和2条斑马线。结合图9和表6预测效果可知,消融实验对斑马线的检测效果达到了99.5%和100%。证明了上述消融实验对斑马线的检测均能达到良好的效果且无漏、检错检现象。但是,在对路边停车位检测时,以上消融实验均出现了漏检现象,漏检的路边停车位达3个至11个不等。从整体结果来看,虽然YOLOv5+SPPF的方法使得平均检测精度最高,但是漏检最严重,漏检个数达到11个。相比消融实验漏检现象严重,本文方法仅漏检3个,在消融实验中漏检个数最少。且本文方法对遮挡的路边停车位检测精度为93.5%,与最优检测精度仅差0.28,但漏检现象却极大的降低。证明本文方法在保持检测精度的同时保证了检测的正确性,特别是在对遮挡的小目标、并列密集型小目标的检测有较高的提升。
如图10为正射影像图下的预测结果图。该影像是由无人机拍摄的遥感影像图经Pix4D软件处理生成的正射影像图,该影像区域面积共计302813m2。经统计,该场景下包括了18条斑马线、5个公交车站台、58个路边停车位。具体预测结果如表7所示。
表7大场景下消融实验预测结果
注:表中“-”表示所测影像中不包含此类,加粗字体为各项最优结果。
结合图10和表7预测结果可知,在复杂大场景下检测时,以上几种算法均出现不同程度的漏检现象。但本文所提方法的漏检最少。在检测公交车站台和斑马线时,消融实验中的漏检现象不明显,均能正确检测出待测物。但是在对路边停车位进行检测时,漏检现象严重,出现漏检个数8至29不等。其出现原因是:对大幅影像而言,路边停车位属于小目标检测,且多数停车位被绿化遮盖,特征信息不明显,因此造成漏检现象。本文所提出的方法在多尺度特征提取时进行了优化,一定程度上提高了小目标的检测精度。本文方法在复杂大场景下,对路边停车位的平均检测精度达80.3%。对比消融实验,漏检个数最少,仅漏检8个被绿化遮挡的路边停车位。对于斑马线和公交车站台在复杂大场景下的平均检测精度分别能达到89.5%和89.7%,属消融实验最优结果。
4、讨论:本方法与其他几种方法相比,mAP有较大的提升,其涨点从0.3%到39.2%不等,验证了本文所提出的ASFF-YOLOv5算法能有效提升道路交通多要素检测精度。从不同网络模型来看,本文所提方法不论是从整体精度还是从个别待检测物而言,其检测精度均有所上升,证明了所提方法对多尺度目标检测的优越性。
综上所述:1、本发明的提供的方法通过无人机采集的数据包括斑马线、公交车站台、路边停车位的数据信息,采用ASFF-YOLOv5网络对采集信息的信息进行特征提取,用于道路交通多要素的自动检测与识别,可实现低成本、高效率的提取道路交通要素,为更新交通基础地理信息数据库提高工作效率,降低人工成本;
2、本发明使用k-means++[42]聚类方法进行数据处理,获得目标物的最佳候选框尺寸,使检测锚框更符合道路交通多要素数据集;
3、本发明在SFF-YOLOv5算法中通过使用SPPF[43]结构,提升了道路交通多要素的分类精度和速度;再通过融合RFB模块的ASFF结构,提升感受野,提高不同尺度检测物的特征信息,丰富的特征信息提取,提升了对小目标的检测与识别能力。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (5)
1.一种多尺度特征融合的道路交通多要素检测方法,其特征在于,具体包括以下步骤:
S1、采集道路交通多要素数据集;要素包括:斑马线、路边停车位、公交车站台;
S2、利用k-means++聚类算法对S1中采集的数据集进行预处理,得到与道路交通多要素数据集相匹配的候选框尺寸;
通过k-means++簇心计算的方式得到初始簇心,然后再运行k-means聚类算法得到聚类结果,将道路交通要素尺度定义为9个簇,通过k-means++聚类算法计算得到目标候选框尺寸;
S3、利用ASFF-YOLOv5网络对数据集的特征图进行特征提取,所述ASFF-YOLOv5网络由主干特征提取网络、特征图金字塔网络以及分类器与回归器这三部分组成,具体包括如下步骤:
S3.1、在主干特征提取网络中不断进行残差堆叠提取获得三个有效特征层,且在最后一个有效特征层中通过引入SPPF结构,同时通过使用相同池化核的最大池化进行特征提取;
S3.2、将上述S3.1、得到的有效特征层传输至PANet结构中,通过上、下采样进一步加强特征提取,其间融合ASFF+RFB模块选用ASFF-2计算融合,分别为从YOLOv5主干网络中提取得到的特征图;首先经过PANet结构得到特征图Level1,Level2,Level3,再通过ASFF算法融合得到ASFF-2;Level1特征图经过卷积操作得到Level2特征图相同的通道数,再通过上采样得到与Level2相同维度的特征图,得到;
对Level3特征图经过卷积和下采样操作调整通道数和维度与Level2保持一致的通道数和维度,得到;对Level2特征图经过卷积操作调整通道数后得到;将所得到的三个特征图进行softmax函数处理后,分别得到的权重系数,再进行ASFF融合计算,其计算公式为:
其中,为通过使用ASFF算法计算得到的新特征图;分别为三个特征图的权重系数,且在softmax函数处理后满足;表示从层到层的特征图的特征向量;
在RFB模块中的多个分支结构中,每个分支的第一层由特定大小的卷积核构成,其第一层卷积核大小分别为1×1,3×3,5×5;RFB模块的最后输出是将不同尺寸和感受野的输出特征图进行concat操作,实现融合不同特征的目的;
S3.3、在特征金字塔中实现对S3.2中提取的多尺度道路交通要素进行特征融合;
S3.4、得到三个加强后的有效特征层,通过分类器与回归器得到预测和回归结果;
S4、最后通过检测头输出道路交通多要素的检测结果并对其进行精度评价。
2.根据权利要求1所述一种多尺度特征融合的道路交通多要素检测方法,其特征在于,所述S3.1中SPPF结构将原SPP中3个不同大小卷积核的并行最大池化操作改为3个相同大小的卷积核串行操作。
3.根据权利要求2所述一种多尺度特征融合的道路交通多要素检测方法,其特征在于,所述SPPF结构首先对CBS结构传输进来的数据串列进行5×5的最大池化操作,再通过concat拼接方式连接传入至CBS结构中,提取特征信息。
4.根据权利要求1所述一种多尺度特征融合的道路交通多要素检测方法,其特征在于,所述S3.2中ASFF-YOLOv5算法将ASFF结构融合至PANet结构中,首先对FPN结构自顶向下加强语义特征提取后,在每一层的FPN结构中都引入ASFF算法进行加权融合。
5.根据权利要求4所述一种多尺度特征融合的道路交通多要素检测方法,其特征在于,所述ASFF算法后引入了一层RFB模块,在Inception的基础上融合空洞卷积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210828252.8A CN115205568B (zh) | 2022-07-13 | 2022-07-13 | 一种多尺度特征融合的道路交通多要素检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210828252.8A CN115205568B (zh) | 2022-07-13 | 2022-07-13 | 一种多尺度特征融合的道路交通多要素检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115205568A CN115205568A (zh) | 2022-10-18 |
CN115205568B true CN115205568B (zh) | 2024-04-19 |
Family
ID=83582970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210828252.8A Active CN115205568B (zh) | 2022-07-13 | 2022-07-13 | 一种多尺度特征融合的道路交通多要素检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205568B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893990B (zh) * | 2024-03-18 | 2024-07-09 | 中国第一汽车股份有限公司 | 道路标志检测方法、装置和计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059554A (zh) * | 2019-03-13 | 2019-07-26 | 重庆邮电大学 | 一种基于交通场景的多支路目标检测方法 |
CN113192040A (zh) * | 2021-05-10 | 2021-07-30 | 浙江理工大学 | 一种基于YOLO v4改进算法的织物瑕疵检测方法 |
CN114627502A (zh) * | 2022-03-10 | 2022-06-14 | 安徽农业大学 | 一种基于改进YOLOv5的目标识别检测方法 |
CN114639067A (zh) * | 2022-01-26 | 2022-06-17 | 安徽大学 | 一种基于注意力机制的多尺度全场景监控目标检测方法 |
CN114663346A (zh) * | 2022-01-30 | 2022-06-24 | 河北工业大学 | 一种基于改进YOLOv5网络的带钢表面缺陷检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112835037B (zh) * | 2020-12-29 | 2021-12-07 | 清华大学 | 一种基于视觉和毫米波融合的全天候目标检测方法 |
-
2022
- 2022-07-13 CN CN202210828252.8A patent/CN115205568B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059554A (zh) * | 2019-03-13 | 2019-07-26 | 重庆邮电大学 | 一种基于交通场景的多支路目标检测方法 |
CN113192040A (zh) * | 2021-05-10 | 2021-07-30 | 浙江理工大学 | 一种基于YOLO v4改进算法的织物瑕疵检测方法 |
CN114639067A (zh) * | 2022-01-26 | 2022-06-17 | 安徽大学 | 一种基于注意力机制的多尺度全场景监控目标检测方法 |
CN114663346A (zh) * | 2022-01-30 | 2022-06-24 | 河北工业大学 | 一种基于改进YOLOv5网络的带钢表面缺陷检测方法 |
CN114627502A (zh) * | 2022-03-10 | 2022-06-14 | 安徽农业大学 | 一种基于改进YOLOv5的目标识别检测方法 |
Non-Patent Citations (2)
Title |
---|
SPCS: a spatial pyramid convolutional shuffle module for YOLO to detect occluded object;Xiang Li 等;《Complex & Intelligent Systems》;20220629;第9卷;全文 * |
结合随机擦除和 的高空间分 辨率遥感影像桥梁自动检测;孙宇 等;《自然资源遥感》;20220630;34(2);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115205568A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112861978B (zh) | 一种基于注意力机制的多分支特征融合遥感场景图像分类方法 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN111553201B (zh) | 一种基于YOLOv3优化算法的交通灯检测方法 | |
CN109508715A (zh) | 一种基于深度学习的车牌定位和识别方法 | |
CN109902806A (zh) | 基于卷积神经网络的噪声图像目标边界框确定方法 | |
CN109284669A (zh) | 基于Mask RCNN的行人检测方法 | |
CN109948707B (zh) | 模型训练方法、装置、终端及存储介质 | |
CN108681707A (zh) | 基于全局和局部特征融合的大角度车型识别方法和*** | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测***及方法 | |
CN111310773A (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
CN113420607A (zh) | 无人机多尺度目标检测识别方法 | |
CN112101221A (zh) | 一种用于交通信号灯实时检测与识别的方法 | |
CN113177560A (zh) | 一种普适性轻量级深度学习车辆检测方法 | |
CN110717493B (zh) | 一种基于深度学习的含堆叠字符的车牌识别方法 | |
CN107092884A (zh) | 一种快速粗精级联行人检测方法 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN117496384B (zh) | 一种无人机图像物体检测方法 | |
CN115082672A (zh) | 一种基于边界框回归的红外图像目标检测方法 | |
CN115205568B (zh) | 一种多尺度特征融合的道路交通多要素检测方法 | |
CN113128476A (zh) | 一种基于计算机视觉目标检测的低功耗实时头盔检测方法 | |
CN116597411A (zh) | 极端天气下无人驾驶车辆识别交通标志的方法及*** | |
CN115527133A (zh) | 一种基于目标密度信息的高分图像背景优化方法 | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及*** | |
CN115223017A (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
CN117036931A (zh) | 一种基于卷积神经网络的生态景观工程小目标害虫检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |