CN116844126A - 一种基于YOLOv7改进的复杂道路场景目标检测方法 - Google Patents
一种基于YOLOv7改进的复杂道路场景目标检测方法 Download PDFInfo
- Publication number
- CN116844126A CN116844126A CN202310888360.9A CN202310888360A CN116844126A CN 116844126 A CN116844126 A CN 116844126A CN 202310888360 A CN202310888360 A CN 202310888360A CN 116844126 A CN116844126 A CN 116844126A
- Authority
- CN
- China
- Prior art keywords
- target
- complex road
- road scene
- detection
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 88
- 230000006870 function Effects 0.000 claims abstract description 23
- 230000006872 improvement Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 abstract 1
- 238000010606 normalization Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000003121 nonmonotonic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012014 frustrated Lewis pair Substances 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
一种基于YOLOv7改进的复杂道路场景目标检测方法,属于计算机视觉和自动驾驶环境感知技术领域,解决目前复杂道路场景目标检测方法精度和速度不足的技术问题,解决方案为:增加小目标检测层,增加对小目标特征的学***衡。
Description
技术领域
本发明属于计算机视觉和自动驾驶环境感知技术领域,具体涉及的是一种基于YOLOv7改进的复杂道路场景目标检测方法。
背景技术
在过去的几年中,随着计算机技术和深度学习技术的逐步发展,道路目标检测技术在实现自动驾驶和智能交通***等领域中扮演着越来越重要的角色。道路目标检测的主要目的是在道路图像中检测和识别各种交通标志、行人、车辆和其他障碍物,从而为自动驾驶和智能交通***提供必要的信息。因此,准确地检测和识别这些目标对于保证车辆和行人的安全和提高道路交通效率至关重要。
目前,虽然基于深度学习的目标检测算法在复杂道路场景中的目标检测方面已经取得了很好的效果,但是对于场景中的小目标检测仍然存在一些问题:
1、在小目标检测方面,目前的算法仍然存在一定的误检率和漏检率,这是由于小目标的尺寸和形状各异,加之环境因素的干扰,容易导致误检或漏检;
2、复杂道路场景中的背景干扰也是一个难点问题,由于道路场景中背景复杂多变,很容易出现背景中的物体被误检为小目标的情况;
3、复杂道路场景中小目标的检测速度也是一个需要关注的问题。
综上所述,由于自动驾驶对检测数据的实时性和准确性要求较高,所以算法的检测速度需要足够快,准确度要足够高,以便自动驾驶***及时做出决策。
发明内容
本发明的主要目的在于克服现有技术中的不足,解决解决目前复杂道路场景目标检测方法精度和速度不足的技术问题,本发明提供一种基于YOLOv7改进的复杂道路场景目标检测方法。
本发明的设计构思主要包括以下几个方面:
1、在YOLOv7的基础上增加小目标检测层,增加对小目标的特征学习能力;
2、采用K-means++重聚类先验框,使得先验框更贴合目标,增加网络对目标的定位精度;
3、采用WIoU损失函数,增加网络对普通质量锚框的关注度,提高网络对目标的定位能力;
4、在颈部和检测头引入CoordConv,使网络能够更好的感受特征图中的位置信息;
5、提出P-ELAN结构对骨干网络进行轻量化处理,降低算法参数量和运算量。
为了实现上述发明目的,本发明采用的技术方案为:一种基于YOLOv7改进的复杂道路场景目标检测方法,包括以下步骤:
步骤一:获取复杂道路场景目标图像并构建数据集,将道路目标数据集划分为训练集、验证集和测试集,其中训练集、验证集和测试集中标注文件均为.txt格式,标注文件内容依次包括:类别所对应的id号,归一化后目标框中心点的坐标(x,y),以及归一化后目标框的宽度w、高度h;
步骤二:读取步骤一获取的复杂道路场景目标图像,对图像进行增强处理,并将增强处理后的图像对齐为相同尺寸大小的图片;数据增强之后将图像尺寸对齐为640*640输入特征提取网络;
步骤三:采用K-Means++聚类算法对训练样本的标注框尺寸进行分析,生成四组大小不同的先验框;
步骤四:构建改进的YOLOv7目标检测网络模型,改进的YOLOv7目标检测网络模型包括特征提取网络、特征融合网络和多尺度检测头,其中:
所述特征提取网络为CBS、P-ELAN和MP模块的堆叠,总共进行了32倍下采样;
所述特征融合网络用于融合多尺度特征,特征融合网络由SPPCSPC模块、ELANW模块、CBS模块、MP模块和CoordConv模块组成一个自上而下的FPN和自下而上的PAN;
所述多尺度检测头:分别在下采样4倍、8倍、16倍、32倍的特征图上进行检测,获得四个尺度的检测头,即其中20*20的检测层用于检测大目标,40*40的检测层用于检测较大目标,80*80的检测层用于检测较小目标,160*160检测层用于检测小目标,进而提高网络对复杂道路场景小尺寸目标的定位能力;
步骤五:以坐标损失Lloc、目标置信度损失Lloc和分类损失Lcls构建总体损失函数,总体损失函数计算公式为:
Loss=λ1Lcls+λ2Lobj+λ3Lloc;
式中,λ1、λ2、λ3均为权重系数;
所构建的损失函数中坐标损失为WIoU损失,目标置信度损失和分类损失采用带log的二值交叉熵损失(BCE With Logits Loss);
步骤六:首先,将数据集送入步骤四中构建的改进的YOLOv7目标检测网络模型进行训练,输出图像中每个目标的边界框位置、尺寸以及目标类别;然后,通过步骤五构建的损失函数进行反向传播进而更新权重,迭代预定轮次得到复杂道路目标检测的模型训练权重;
步骤七:将待检测的图像送入训练好的检测模型,得到测试结果,被检测出来的结果由矩形包围框框出,完成复杂道路场景目标检测。
进一步地,在所述步骤二中,图像增强处理包括以下三个方面:
1)、数据增强采用HSV增强:调整图像的色调、饱和度以及明度;
2)、几何变换增强:包括随机旋转、随机平移、随机缩放以及随机翻转;
3)、图片级像素增强:mosaic数据增强或者mixup数据增强。
3、根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法,其特征在于:所述步骤三包括如下步骤:首先,先验框总数设置为12;然后,使用K-means++聚类算法对数据集标注的物体边界框进行聚类分析:K-means++算法首先随机选取一个点作为第一个聚类中心,然后以概率的形式选取其他点作为新的聚类中心,使新的聚类中心与已选取的聚类中心距离越远的点被选中的概率越高,重复执行该过程,直到所有聚类中心被选出为止,这一方法使得网络能够更好地检测复杂道路场景中的小目标,得到适用于复杂道路场景目标的先验框。
进一步地,所述步骤四中:
所述P-ELAN模块由普通卷积层和部分卷积层PConv组成,部分卷积层使得特征提取网络更加轻量化,MP结构用于增大感受野;其中部分卷积层是对输入特征图中的部分通道进行常规卷积运算,其余通道保持不变并进行Identity操作,具体步骤为:
对于大小为k的卷积核,输入特征图大小为h×w,通道数为c,若输入和输出特征图大小和通道数相同,则常规卷积的计算量为:h×w×k2×c2;PConv的计算量为:常规卷积与PConv计算量之比为:/>若/>则PConv的计算量为常规卷积的1/16;
常规卷积的内存访问量为:h×w×2c+k2×c2≈h×w×2c;PConv的内存访问量为:常规卷积与PConv内存访问量之比为:/>若/>则PConv的内存访问量为常规卷积的1/4。
进一步地,所述步骤四中:所述CoordConv模块的实现方式是通过将两个额外的i和j通道连接到输入通道来完成的,如果连接CoordConv的坐标层与卷积的权重不为零,则CoordConv模块允许学***移依赖性的函数;如果连接CoordConv的坐标层与卷积的权重为零,则模拟常规卷积层。
进一步地,所述WIoU损失包含三个版本,分别为WIoUv1,WIoUv2,WIoUv3,本发明使用WIoUv3版本,它是在WIoUv1、WIoUv2基础上优化得来的。其中WIoUv1相关公式如下:
LIoU=1-IoULIoU;
LWIoUv1=RWIoULIoU;
式中,RWIoU∈[0,e)将显著放大普通锚框的LIoU,LIoU∈[0,1]将显著降低高质量锚框的RWIoU,并在锚框与目标框重合较好的情况下显著降低其对中心点距离的关注。Wg,Hg,分别为最小外接矩形的宽和高。*表示将Wg,Hg从计算图中分离,作用是为了防止RWIoU产生阻碍收敛的梯度;
WIoUv2在WIoUv1的基础上构造了单调聚焦系数其相关公式如下:
在模型训练过程中,梯度增益随着LIoU的减小而减小,因此引入LIoU的均值作为归一化因子:
式中,为动量为m的平均运行值,动态更新归一化因子使得梯度增益整体保持在一个较高的水平;
WIoUv3是在WIoUv2的基础上引入动态非单调聚焦系数。其相关公式如下:
式中,β为离群值,α和δ为控制梯度增益r的超参数,α=1.9,δ=3。
本发明的有益效果在于:改进YOLOv7的复杂道路场景目标检测方法用过增加小目标检测层、K-means++算法重聚类先验框,使得网络对小目标特征更加敏感,使用WIoU损失函数使得网络对普通质量锚框更加关注,引入CoordConv使网络能够更好的提取空间特征,从而更好的感受位置信息,提出P-ELAN结构对网络进行轻量化处理。本发明通过以上技术方案有效的解决了复杂道路场景目标检测中所遇到的多尺度、小样本、高密度的问题,提高了检测的准确率,做到了准确率与速度的平衡。
附图说明
图1是本发明所提方法的目标检测流程图;
图2是本发明所提方法的网络模型示意图;
图3是CoordConv工作原理示意图;
图4是PConv工作原理示意图;
图5是P-ELAN模块结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细描述。
如图1所示的一种基于YOLOv7改进的复杂道路场景目标检测方法,包括以下步骤:
步骤一:获取复杂道路场景目标图像并构建数据集,本具体实施方式中采用自动驾驶领域公开且被广泛承认的华为诺亚方舟实验室联合中山大学发布的自动驾驶数据集SOAD10M,该数据集收集了我国不同城市在不同天气条件、不同时间段、不同位置的场景,将道路目标数据集划分为2500张训练集、验证集和2500张测试集,共包含6种主要的人车场景类别:Pedestrian、Cyclist、Car、Truck、Tram、Tricycle。其中训练集、验证集和测试集中标注文件均为.txt格式,标注文件内容依次包括:类别所对应的id号,归一化后目标框中心点的坐标(x,y),以及归一化后目标框的宽度w、高度h;
步骤二:读取步骤一获取的复杂道路场景目标图像,对图像进行增强处理,图像增强处理包括以下三个方面:1)、数据增强采用HSV增强:调整图像的色调、饱和度以及明度;2)、几何变换增强:包括随机旋转、随机平移、随机缩放以及随机翻转;3)、图片级像素增强:mosaic数据增强或者mixup数据增强。并将增强处理后的图像对齐为相同尺寸大小的图片;数据增强之后将图像尺寸对齐为640*640输入特征提取网络;
步骤三:采用K-Means++聚类算法对训练样本的标注框尺寸进行分析,生成四组大小不同的先验框;具体包括以下步骤:
首先,先验框总数设置为12;然后,使用K-means++聚类算法对数据集标注的物体边界框进行聚类分析:K-means++算法首先随机选取一个点作为第一个聚类中心,然后以概率的形式选取其他点作为新的聚类中心,使新的聚类中心与已选取的聚类中心距离越远的点被选中的概率越高,重复执行该过程,直到所有聚类中心被选出为止,这一方法使得网络能够更好地检测复杂道路场景中的小目标,得到适用于复杂道路场景目标的先验框。聚类前后先验框对比如表1所示。
表1聚类前后先验框尺寸结果
步骤四:如图2所示,构建改进的YOLOv7目标检测网络模型,改进的YOLOv7目标检测网络模型包括特征提取网络、特征融合网络和多尺度检测头,其中:
所述特征提取网络为CBS、P-ELAN和MP模块的堆叠,总共进行了32倍下采样;其中,如图4和图5所示,所述P-ELAN模块由普通卷积层和部分卷积层(PConv)组成,部分卷积层是对输入特征图中的部分通道进行常规卷积运算,其余通道保持不变并进行Identity操作,具体步骤为:
对于大小为k的卷积核,输入特征图大小为h×w,通道数为c,若输入和输出特征图大小和通道数相同,则常规卷积的计算量为:h×w×k2×c2;PConv的计算量为:常规卷积与PConv计算量之比为:/>若/>则PConv的计算量为常规卷积的1/16;
常规卷积的内存访问量为:h×w×2c+k2×c2≈h×w×2c;PConv的内存访问量为:常规卷积与PConv内存访问量之比为:/>若/>则PConv的内存访问量为常规卷积的1/4;
所述特征融合网络用于融合多尺度特征,特征融合网络由SPPCSPC模块、ELANW模块、CBS模块、MP模块和CoordConv模块组成一个自上而下的FPN和自下而上的PAN;如图3所示,所述CoordConv模块的实现方式是通过将两个额外的i和j通道连接到输入通道来完成的,如果连接CoordConv的坐标层与卷积的权重不为零,则CoordConv模块允许学***移依赖性的函数;如果连接CoordConv的坐标层与卷积的权重为零,则模拟常规卷积层;
所述多尺度检测头:分别在下采样4倍、8倍、16倍、32倍的特征图上进行检测,获得四个尺度的检测头,即其中20*20的检测层用于检测大目标,40*40的检测层用于检测较大目标,80*80的检测层用于检测较小目标,160*160检测层用于检测小目标,进而提高网络对复杂道路场景小尺寸目标的定位能力;
步骤五:以坐标损失Lloc、目标置信度损失Lloc和分类损失Lcls构建总体损失函数,总体损失函数计算公式为:
Loss=λ1Lcls+λ2Lobj+λ3Lloc;
式中,λ1、λ2、λ3均为权重系数;
所构建的损失函数中坐标损失为WIoU损失,目标置信度损失和分类损失采用带log的二值交叉熵损失(BCE With Logits Loss);所述WIoU损失包含三个版本,分别为WIoUv1,WIoUv2,WIoUv3,本发明使用WIoUv3版本,它是在WIoUv1、WIoUv2基础上优化得来的。其中WIoUv1相关公式如下:
LIoU=1-IoULIoU;
LWIoUv1=RWIoULIoU;
式中,RWIoU∈[0,e)将显著放大普通锚框的LIoU,LIoU∈[0,1]将显著降低高质量锚框的RWIoU,并在锚框与目标框重合较好的情况下显著降低其对中心点距离的关注。Wg,Hg,分别为最小外接矩形的宽和高。*表示将Wg,Hg从计算图中分离,作用是为了防止RWIoU产生阻碍收敛的梯度;
WIoUv2在WIoUv1的基础上构造了单调聚焦系数其相关公式如下:
在模型训练过程中,梯度增益随着LIoU的减小而减小,因此引入LIoU的均值作为归一化因子:
式中,为动量为m的平均运行值,动态更新归一化因子使得梯度增益整体保持在一个较高的水平;
WIoUv3是在WIoUv2的基础上引入动态非单调聚焦系数。其相关公式如下:
式中,β为离群值,α和δ为控制梯度增益r的超参数,α=1.9,δ=3;
步骤六:首先,将数据集送入步骤四中构建的改进的YOLOv7目标检测网络模型进行训练,输出图像中每个目标的边界框位置、尺寸以及目标类别;然后,通过步骤五构建的损失函数进行反向传播进而更新权重,迭代预定轮次(300轮次)得到复杂道路目标检测的模型训练权重;
模型训练配置为13th Gen Intel(R)Core(TM)[email protected]处理器,NVIDIAGeForce RTX 4090(24G显存)显卡,32G内存;Windows10专业版操作***,Python3.9.16编译语言,Pytorch1.13.1深度学习框架,CUDA11.7加速计算架构。模型训练过程参数设置采用SGD方法训练300个epoch,初始学习率设置为0.01,批次大小设置为16,动量参数设置为0.937,预热训练3个epoch,并按一定概率使用mixup、mosaic、fliplr等一系列数据增强操作。
步骤七:将待检测的图像送入训练好的检测模型,得到测试结果,被检测出来的结果由矩形包围框框出,完成复杂道路场景目标检测。
为验证本发明的有效性,设置基于YOLOv7的多组实验来验证各模块改进性能提升情况,并选用参数量(Parameters),计算量(FLOPs),准确率(Percision),召回率(Recall),平均精度(mAP),每秒传输帧数(FPS)等评价指标。相应的计算公式如下:
其中TP代表正确检测框,FP代表误检框,FN代表漏检框,len(GTs)代表所有标签框数量,AP代表一个目标的检测精度,N代表检测类别数,Frames代表帧数,Time代表检测时间。
实验结果如表2所示,其中A组为原始YOLOv7模型,B组为A组基础上增加小目标检测层,C组为B组基础上使用K-means++算法重聚类先验框,D组为C组基础上采用WIoU损失函数,E组为D组基础上引入CoordConv,F组为E组基础上引入P-ELAN结构。
表2各个改进方式性能提升结果
从表2可以得出在加入小目标检测层之后,mAP上升了1%,当在小目标检测层的基础上用K-means++重聚类先验框之后,mAP上升1.2%,在使用K-means++算法基础上更换损失函数为WIoU之后,mAP上升0.5%,引入CoordConv之后mAP上升0.7%,最后通过P-ELAN结构对骨干网络轻量化后mAP下降了0.8%,但整体精度较原YOLOv7提高2.6%,且参数量和运算量分别下降12%和7%。其中组别C的mAP提升最多,说明先验框尺寸对目标识别准确率影响较大。除F组Tricycle类别准确度下降明显以外,其余各组的小目标准确度都呈上升趋势,证明了本发明各个改进方法对复杂道路场景目标的有效性。
为了进一步验证本发明所提方法的有效性,将本发明所提方法与SSD,Faster R-CNN,YOLOv3,YOLOv5,YOLOX,YOLOv6,YOLOv8,RetinaNet等算法在SOAD10M数据集上进行mAP和FPS指标的比较,实验结果如表3所示。
表3对比实验结果
算法 | mAP/% | FPS |
SSD | 46.5 | 59 |
Faster R-CNN | 46.4 | 47 |
YOLOv3 | 51 | 79 |
YOLOv5l | 54.9 | 87 |
YOLOX | 41.2 | 87 |
YOLOv6l | 56.5 | 50 |
YOLOv7 | 62.2 | 86 |
YOLOv8m | 61.2 | 87 |
RetinaNet | 28.4 | 40 |
改进方法 | 64.8 | 80 |
通过对比表3中不同方法的实验结果,可以看出本文算法在mAP指标上明显高于其他先进的检测算法,达到了64.8%,FPS比其他先进的一阶段检测算法略微低一些,但比二阶段检测算法高很多。本文算法的FPS为80,相较于YOLOv7,牺牲了一点检测速度换取了更高的检测精度,达到了速度和精度的平衡,符合复杂道路场景目标检测的实时性和准确性需求。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (6)
1.一种基于YOLOv7改进的复杂道路场景目标检测方法,其特征在于:
步骤一:获取复杂道路场景目标图像并构建数据集,将道路目标数据集划分为训练集、验证集和测试集,其中训练集、验证集和测试集中标注文件均为.txt格式,标注文件内容依次包括:类别所对应的id号,归一化后目标框中心点的坐标(x,y),以及归一化后目标框的宽度w、高度h;
步骤二:读取步骤一获取的复杂道路场景目标图像,对图像进行增强处理,并将增强处理后的图像对齐为相同尺寸大小的图片;
步骤三:采用K-Means++聚类算法对训练样本的标注框尺寸进行分析,生成四组大小不同的先验框;
步骤四:构建改进的YOLOv7目标检测网络模型,改进的YOLOv7目标检测网络模型包括特征提取网络、特征融合网络和多尺度检测头,其中:
所述特征提取网络为CBS、P-ELAN和MP模块的堆叠,总共进行了32倍下采样;
所述特征融合网络用于融合多尺度特征,特征融合网络由SPPCSPC模块、ELANW模块、CBS模块、MP模块和CoordConv模块组成一个自上而下的FPN和自下而上的PAN;
所述多尺度检测头:分别在下采样4倍、8倍、16倍、32倍的特征图上进行检测,获得四个尺度的检测头;
步骤五:以坐标损失Lloc、目标置信度损失Lloc和分类损失Lcls构建总体损失函数,总体损失函数计算公式为:
Loss=λ1Lcls+λ2Lobj+λ3Lloc;
式中,λ1、λ2、λ3均为权重系数;
所构建的损失函数中坐标损失为WIoU损失,目标置信度损失和分类损失采用带log的二值交叉熵损失;
步骤六:首先,将数据集送入步骤四中构建的改进的YOLOv7目标检测网络模型进行训练,输出图像中每个目标的边界框位置、尺寸以及目标类别;然后,通过步骤五构建的损失函数进行反向传播进而更新权重,迭代预定轮次得到复杂道路目标检测的模型训练权重;
步骤七:将待检测的图像送入训练好的检测模型,得到测试结果,被检测出来的结果由矩形包围框框出,完成复杂道路场景目标检测。
2.根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法,其特征在于:在所述步骤二中,图像增强处理包括以下三个方面:
1)、数据增强采用HSV增强:调整图像的色调、饱和度以及明度;
2)、几何变换增强:包括随机旋转、随机平移、随机缩放以及随机翻转;
3)、图片级像素增强:mosaic数据增强或者mixup数据增强。
3.根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法,其特征在于:所述步骤三包括如下步骤:首先,先验框总数设置为12;然后,使用K-means++聚类算法对数据集标注的物体边界框进行聚类分析:K-means++算法首先随机选取一个点作为第一个聚类中心,然后以概率的形式选取其他点作为新的聚类中心,使新的聚类中心与已选取的聚类中心距离越远的点被选中的概率越高,重复执行该过程,直到所有聚类中心被选出为止,得到适用于复杂道路场景目标的先验框。
4.根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法,其特征在于:所述步骤四中:
所述P-ELAN模块由普通卷积层和部分卷积层PConv组成,其中部分卷积层是对输入特征图中的部分通道进行常规卷积运算,其余通道保持不变并进行Identity操作,具体步骤为:
对于大小为k的卷积核,输入特征图大小为h×w,通道数为c,若输入和输出特征图大小和通道数相同,则常规卷积的计算量为:h×w×k2×c2;PConv的计算量为:常规卷积与PConv计算量之比为:/>若/>则PConv的计算量为常规卷积的1/16;
常规卷积的内存访问量为:h×w×2c+k2×c2≈h×w×2c;PConv的内存访问量为:常规卷积与PConv内存访问量之比为:/>若/>则PConv的内存访问量为常规卷积的1/4。
5.根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法,其特征在于:所述步骤四中:所述CoordConv模块的实现方式是通过将两个额外的i和j通道连接到输入通道来完成的,如果连接CoordConv的坐标层与卷积的权重不为零,则CoordConv模块允许学***移依赖性的函数;如果连接CoordConv的坐标层与卷积的权重为零,则模拟常规卷积层。
6.根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法,其特征在于:所述步骤五中:WIoU损失为WIoUv3损失,其中:
式中,β为离群值,α和δ为控制梯度增益r的超参数,α=1.9,δ=3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310888360.9A CN116844126A (zh) | 2023-07-19 | 2023-07-19 | 一种基于YOLOv7改进的复杂道路场景目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310888360.9A CN116844126A (zh) | 2023-07-19 | 2023-07-19 | 一种基于YOLOv7改进的复杂道路场景目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844126A true CN116844126A (zh) | 2023-10-03 |
Family
ID=88161641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310888360.9A Pending CN116844126A (zh) | 2023-07-19 | 2023-07-19 | 一种基于YOLOv7改进的复杂道路场景目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844126A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218329A (zh) * | 2023-11-09 | 2023-12-12 | 四川泓宝润业工程技术有限公司 | 一种井口阀门检测方法、装置、存储介质及电子设备 |
CN117557765A (zh) * | 2023-11-15 | 2024-02-13 | 兰州交通大学 | 一种基于APM-YOLOv7的小目标水漂垃圾检测方法 |
-
2023
- 2023-07-19 CN CN202310888360.9A patent/CN116844126A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218329A (zh) * | 2023-11-09 | 2023-12-12 | 四川泓宝润业工程技术有限公司 | 一种井口阀门检测方法、装置、存储介质及电子设备 |
CN117218329B (zh) * | 2023-11-09 | 2024-01-26 | 四川泓宝润业工程技术有限公司 | 一种井口阀门检测方法、装置、存储介质及电子设备 |
CN117557765A (zh) * | 2023-11-15 | 2024-02-13 | 兰州交通大学 | 一种基于APM-YOLOv7的小目标水漂垃圾检测方法 |
CN117557765B (zh) * | 2023-11-15 | 2024-04-09 | 兰州交通大学 | 一种基于APM-YOLOv7的小目标水漂垃圾检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188705B (zh) | 一种适用于车载***的远距离交通标志检测识别方法 | |
Li et al. | Traffic light recognition for complex scene with fusion detections | |
CN102609686B (zh) | 一种行人检测方法 | |
CN112016605B (zh) | 一种基于边界框角点对齐和边界匹配的目标检测方法 | |
CN108108657A (zh) | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 | |
CN116844126A (zh) | 一种基于YOLOv7改进的复杂道路场景目标检测方法 | |
CN105550701A (zh) | 实时图像提取识别方法及装置 | |
CN108960074B (zh) | 基于深度学习的小尺寸行人目标检测方法 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN117037119A (zh) | 基于改进YOLOv8的道路目标检测方法及*** | |
Wu et al. | Traffic sign detection based on SSD combined with receptive field module and path aggregation network | |
CN116721368A (zh) | 一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法 | |
CN111368829A (zh) | 一种基于rgb-d图像的视觉语义关系检测方法 | |
CN114639067A (zh) | 一种基于注意力机制的多尺度全场景监控目标检测方法 | |
CN117456480A (zh) | 一种基于多源信息融合的轻量化车辆再辨识方法 | |
CN111461002B (zh) | 一种面向热成像行人检测的样本处理方法 | |
CN117689928A (zh) | 一种改进yolov5的无人机检测方法 | |
CN116824333A (zh) | 一种基于深度学习模型的鼻咽癌检测*** | |
CN117197687A (zh) | 一种面向无人机航拍密集小目标的检测方法 | |
CN110555425A (zh) | 一种视频流实时行人检测方法 | |
CN116311154A (zh) | 一种基于YOLOv5模型优化的车辆检测与识别方法 | |
CN116311353A (zh) | 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质 | |
CN114973202A (zh) | 一种基于语义分割的交通场景障碍物检测方法 | |
CN112380970B (zh) | 基于局部区域搜索的视频目标检测方法 | |
CN114332754A (zh) | 基于多度量检测器的Cascade R-CNN行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |