CN116824551A - 一种基于视觉注意力的轻量化停车位状态检测方法 - Google Patents

一种基于视觉注意力的轻量化停车位状态检测方法 Download PDF

Info

Publication number
CN116824551A
CN116824551A CN202311098874.0A CN202311098874A CN116824551A CN 116824551 A CN116824551 A CN 116824551A CN 202311098874 A CN202311098874 A CN 202311098874A CN 116824551 A CN116824551 A CN 116824551A
Authority
CN
China
Prior art keywords
feature
parking space
image
module
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202311098874.0A
Other languages
English (en)
Inventor
崔玉涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yitu Information Technology Co ltd
Original Assignee
Shandong Yitu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yitu Information Technology Co ltd filed Critical Shandong Yitu Information Technology Co ltd
Priority to CN202311098874.0A priority Critical patent/CN116824551A/zh
Publication of CN116824551A publication Critical patent/CN116824551A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/586Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of parking space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于视觉注意力的轻量化停车位状态检测方法,涉及图像处理技术领域,所述方法包括根据采集的停车位图像,构建停车位检测数据集;通过Mosaic‑Mixup混合数据增强方法对所述停车位检测数据集的数据进行增强,得到增强图像;将所述增强图像输入至YOLOV5模型,得到训练后的改进YOLOV5模型;将所述增强图像输入至所述改进YOLOV5模型,得到停车位检测状态;本发明通过设计Mosaic‑Mixup数据增强方法,首先利用随机裁剪丰富数据集中目标的特征,并通过拼接的方式保留了图像的目标特征,进一步建立数据之间的线性关系,有效减少由于训练背景相似导致模型泛化性降低的问题。

Description

一种基于视觉注意力的轻量化停车位状态检测方法
技术领域
本发明公开一种基于视觉注意力的轻量化停车位状态检测方法,涉及图像处理技术领域。
背景技术
随着人工智能技术不断发展,自动驾驶逐渐成为一项实际可应用的技术。作为自动驾驶技术中关键一环,研究和推广自动泊车能有效解决路面交通问题和停车难的问题。通过识别汽车周围停车位的状态作为环境感知过程中重要一部分,也是能否准确识别车位和精准将车位停入车位的前提条件。车位状态识别在人们日常泊车入空车位的过程中能够起到重要的辅助作用,因此较好的识别停车位状态具有十分重要的意义。
传统的停车位管理方法主要依赖于人工巡查和传感器等有限的技术手段。这种方式不仅耗时耗力,而且容易出现误判或遗漏,无法满足大规模停车位的实时监测和管理需求。随着目标检测技术取得重大突破,目前,基于卷积神经网络的目标检测算法主要分为两阶段目标检测算法和单阶段目标检测算法,两阶段目标检测算法主要以R-CNN、Fast R-CNN为代表,首先通过在图像上生成可能包含目标的区域,然后对这些区域进行特征提取,利用卷积神经网络对特征进行分类和回归,得到最终的目标类别和位置。单阶段目标检测算法主要以YOLO(You Only Look Once)系列和SSD(Single Shot multibox Detector)算法为代表,使用回归的方式,只需一个阶段就能实现目标检测功能。相比于两阶段目标检测算法,这种模型不仅提高了检测精度,而且降低了模型的复杂度。由于停车位检测容易受到自然天气、光照强度等因素的影响,无法保证在不同场景下检测的实时性和准确性。
因此,如何避免在复杂环境下对停车位检测时出现的目标漏检、误检的问题,提高停车位检测的精度和实时性,是本领域技术人员亟待解决的问题。
发明内容
本发明针对现有技术的问题,提供一种基于视觉注意力的轻量化停车位状态检测方法,所采用的技术方案为:
第一方面,一种基于视觉注意力的轻量化停车位状态检测方法,所述方法包括:
根据采集的停车位图像,构建停车位检测数据集;
通过Mosaic-Mixup混合数据增强方法对所述停车位检测数据集的数据进行增强,得到增强图像;
将所述增强图像输入至YOLOV5模型,得到训练后的改进YOLOV5模型;
将所述增强图像输入至所述改进YOLOV5模型,得到停车位检测状态;
其中,所述改进YOLOV5模型包括特征提取单元、特征融合单元和预测框单元:
在所述特征提取单元嵌入C3Ghost模块进行图像特征提取;
根据视觉注意力机制,在所述特征融合单元设置C3VAN模块进行特征融合;
对所述预测框单元的回归损失函数进行优化。
在一些实现方式中,根据所述停车位检测数据集,通过labelme软件对所述停车位图像进行标注空闲车位和占用车位;
所述停车位检测状态包括空闲车位和占用车位。
在一些实现方式中,所述特征提取单元通过卷积神经网络学习所述停车位图像中的目标特征。
在一些实现方式中,所述特征提取单元还包括卷积层和特征金字塔模块:
将所述增强图像输入所述卷积层进行卷积,得到特征图Feature_C0;
将所述特征图Feature_C0输入所述C3Ghost模块,通过残差结构将恒等映射与所述增强图像的输入特征相结合,得到特征图Feature_C1;
将所述特征图Feature_C1输入所述卷积层进行卷积,并所述C3Ghost模块得到特征图Feature_C2;
将所述特征图Feature_C2输入所述C3Ghost模块和所述特征金字塔模块,得到特征图Feature_C3。
在一些实现方式中,所述特征融合单元包括:
将所述特征图Feature_C3进行卷积并通过上采样操作获得特征图Feature_Up1;
将所特征图Feature_Up1和所述特征图Feature_C2进行统合,得到征图Feature_Cat1;
将所述征图Feature_Cat1输入所述C3VAN模块,得到特征图Feature_Fuse1;
将所述特征图Feature_Fuse1输入所述卷积层进行卷积,并经过上采样与主干网络特征进行融合;
通过所述C3VAN模块和所述卷积层获取与所述停车位图像的尺寸对应的特征图Fn(n≥1,且为整数)。
在一些实现方式中,对所述预测框单元的回归损失函数进行优化,包括:
所述回归损失函数包括EIOU损失函数
在一些实现方式中,EIOU损失函数公式包括:
所述损失函数包括重叠损失,中心距离损失,边长损
其中,所述IOU表示预测框与真实框的交并比,b代表预测框的中心点,b gt 代表真实 框的中心点,代表预测框和真实框的中心点的欧式距离的平方,代表的是能够同 时包含预测框和真实框的最小外接矩形的对角线距离;
其中,分别是两个矩形代表覆盖两个边框的最小外接框的宽度和高度;代表预测框的宽,代表真是框的宽,表示预测框的高,表示真实框的高。
在一些实现方式中,通过Mosaic-Mixup混合数据增强方法对所述停车位检测数据集的数据进行增强,得到增强图像,包括:
对所述停车位图像进行预处理,并按照预设模板随机裁剪后进行拼接;
利用贝塔分布形成的融合系数进行图像融合,得到训练后的增强图像。
第二方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时,实现如上述第一方面所述的方法。
第三方面,本发明实施例提供一种计算机存储介质,所述计算机可读取存储介质中存储有计算机程序,所述计算机程序被处理器执行时,用实现如第一方面所述的方法。
本发明的一个或多个实施例至少能够带来如下有益效果:
发明提供了一种基于视觉注意力的轻量化停车位状态检测方法,该基于改进YOLOV5模型的停车位状态检测方法,首先,设计Mosaic-Mixup数据增强方法,首先利用随机裁剪丰富数据集中目标的特征,并通过拼接的方式保留了图像的目标特征,进一步建立数据之间的线性关系,有效减少由于训练背景相似导致模型泛化性降低的问题;其次在主干网络部分嵌入C3Ghost模块,Ghost模块利用特征图的相似性,通过少量计算产生大量特征图,从而减少模型参数量,提升模型的实时性。在特征融合部分设计C3VAN模块,利用VAN模块中的大核卷积捕获依赖关系,在获得依赖关系后,可以估计一个点的重要性生成注意力特征图。不仅能够实现空间维度的适应性,还能够实现通道维度的适应性,提升模型对目标的识别能力。使用该方法可以有效改善视频监控图像中目标因遮挡而造成的漏检、误检的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于视觉注意力的轻量化停车位状态检测方法的流程图;
图2是本发明实施例提供的改进YOLOV5模型的流程图;
图3是本发明实施例提供的改进YOLOV5卷积神经网络的结构示意图;
图4本发明实施例提供的视觉注意力模块的模型结构示意图;
图5是发明实施例提供的C3VAN模块的模型结构示意图;
图6是发明实施例提供的C3Ghost模块的模型结构示意图;
图7的本发明实施例提供的空闲车位和占用车位的识别效果示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
图1示出了一种基于视觉注意力的轻量化停车位状态检测方法流程图,如图1所示,本实施例提供的基于视觉注意力的轻量化停车位状态检测方法方法,包括:
S1根据采集的停车位图像,构建停车位检测数据集;
S2通过Mosaic-Mixup混合数据增强方法对所述停车位检测数据集的数据进行增强,得到增强图像;
S3将所述增强图像输入至YOLOV5模型,得到训练后的改进YOLOV5模型;
S4将所述增强图像输入至所述改进YOLOV5模型,得到停车位检测状态;
其中,S3中所述改进YOLOV5模型包括特征提取单元、特征融合单元和预测框单元:
S31在所述特征提取单元嵌入C3Ghost模块进行图像特征提取;
S32根据视觉注意力机制,在所述特征融合单元设置C3VAN模块进行特征融合;
S33对所述预测框单元的回归损失函数进行优化。
在一些实现方式中,所述S1中,根据所述停车位检测数据集,通过labelme软件对所述停车位图像进行标注空闲车位和占用车位;
所述停车位检测数据集划分为训练集、验证集和测试集,在停车场采集停车位数据,构建数据集,拍摄图像所构成的数据集中的图像尽可能多的覆盖到了多种停车场景,并对数据集中的图像采用labelme工具进行标注,包括空闲车位和占用车位,按照8:1:1划分为训练集、验证集和测试集;
所述S4中,所述停车位检测状态包括空闲车位和占用车位。
在一些实现方式中,S31中,所述特征提取单元通过卷积神经网络学习所述停车位图像中的目标特征。
在一些实现方式中,S31中,如图2、图3所示,所述特征提取单元还包括卷积层和特征金字塔模块;其中C3Ghost模块和Ghost模块的结构分别如图4和图5所示;所述S31步骤包括:
S310将所述增强图像输入所述卷积层进行卷积,得到特征图Feature_C0;
S311将所述特征图Feature_C0输入所述C3Ghost模块,通过残差结构将恒等映射与所述增强图像的输入特征相结合,得到特征图Feature_C1;
S312将所述特征图Feature_C1输入所述卷积层进行卷积,并所述C3Ghost模块得到特征图Feature_C2;
S313将所述特征图Feature_C2输入所述C3Ghost模块和所述特征金字塔模块,得到特征图Feature_C3。
按照S310,将所述进行图像增强后的数据,通过一个6×6卷积层和一个3×3的卷积层后得到特征图Feature_C0;
然后按照S311,将所述特征图Feature_C0输入至C3Ghost模块,其中Ghost利用特征图的相似性,通过简单的线性变换得到卷积神经网络的部分冗余。作为一种分阶段的卷积计算模块,其中,以普通卷积获得的特征图为基础,再进行一次线性卷积获取更多的特征图,最后将两部分特征图拼接,形成最终的特征图,从而消除特征图冗余,获得更轻量的模型。输出特征图Feature_C1;
接着按照S312,将所述特征图Feature_C1经过两层3×3的卷积层和两层C3Ghost模块后,得到特征图Feature_C2,将所述特征图Feature_C2经过3×3的卷积层和C3Ghost模块以及特征金字塔模块池化后,得到特征图Feature_C3,作为特征融合模块的输入;
下一步按照S313,将所述特征图Feature_C1经过两层3×3的卷积层和两层C3Ghost模块后,得到特征图Feature_C2,将所述特征图Feature_C2经过3×3的卷积层和C3Ghost模块以及空间金字塔池化后,得到特征图Feature_C3,作为特征融合模块的输入。
在一些实现方式中,如图3所示,S32中,所述特征融合单元包括:
S320将所述特征图Feature_C3进行卷积并通过上采样操作获得特征图Feature_Up1;
S321将所特征图Feature_Up1和所述特征图Feature_C2进行统合,得到征图Feature_Cat1;
S322将所述征图Feature_Cat1输入所述C3VAN模块,得到特征图Feature_Fuse1;
S323将所述特征图Feature_Fuse1输入所述卷积层进行卷积,并经过上采样与主干网络特征进行融合;
S324通过所述C3VAN模块和所述卷积层获取与所述停车位图像的尺寸对应的特征图Fn(n≥1,且为整数);
首先按照S320,将所述特征图Feature_C3通过卷积大小为3×3、通道数为512的卷积并经过上采样操作获得特征图Feature_Up1;
接着按照S321和S322,将所述特征图Feature_Up1与所述特征图Feature_C2特征进行融合,得到融合后的特征图Feature_Cat1,将所述特征图Feature_Cat1再经过C3VAN模块,其中在C3VAN模块中首先通过C3结构后再经过视觉注意力模块,视觉注意力模块通过大核卷积运算来捕获依赖关系,在获得依赖关系后,可以估计一个点的重要性生成注意力特征图。不仅实现了空间维度的适应性,而且实现了通道维度的适应性。得到特征图Feature_Fuse1;
下一步按照S323和S324,将所述特征图Feature_Fuse1经过卷积核大小为1×1的卷积层并经过上采样与主干网络特征进行融合,然后通过C3模块和卷积核大小为1×1的卷积层进行特征提取获得特征图F3,其特征尺寸为原图像的1/8,用于小目标的检测;同理可得特征图F2,其特征尺寸为原图像的1/16,用于中目标的检测;特征图F1,其特征尺寸为原图像的1/32,用于大目标的检测;
在一些实现方式中,S33中,对所述预测框单元的回归损失函数进行优化,包括:
所述回归损失函数包括EIOU损失函数
在一些实现方式中,EIOU损失函数公式包括:
所述损失函数包括重叠损失,中心距离损失,边长损失
其中,所述IOU表示预测框与真实框的交并比,b代表预测框的中心点,b gt 代表真实 框的中心点,代表预测框和真实框的中心点的欧式距离的平方,代表的是能够同 时包含预测框和真实框的最小外接矩形的对角线距离;
其中,分别是两个矩形代表覆盖两个边框的最小外接框的宽度和高度;代表预测框的宽,代表真是框的宽,表示预测框的高,表示真实框的高。
在一些实现方式中,设置训练参数:图片的输入尺寸设置为640×640,初始学习率设为0.01,批次(batch size)大小设置为32,epoch迭代次数设置为100,并采用随机梯度下降策略进行随机衰减;
在一些实现方式中,S2中,通过Mosaic-Mixup混合数据增强方法对所述停车位检测数据集的数据进行增强,得到增强图像,包括:
S20对所述停车位图像进行预处理,并按照预设模板随机裁剪后进行拼接;
S21利用贝塔分布形成的融合系数进行图像融合,得到训练后的增强图像;
对所述停车场图像数据集进行Mosaic-Mixup混合数据增强操作,首先对图像进行水平翻转、垂直翻转和色域变换等操作;
将水平翻转、垂直翻转和色域变换后的图像按照预设模板随机裁剪后进行拼接。利用贝塔分布生成的融合系数进行图像融合,生成后的融合训练样本在尺寸上与原始的训练样本相同;
所述对图像进行拼接具体为:该方法首先确定高为、宽为的图像模板作为输 出图像尺寸,同时在宽高方向随机生成2条分割线,将选取的4张图像按照图像模板经过随 机裁剪后进行拼接操作。然后通过逐像素线性相加将2类图像混合。该样本的混合过程利用 贝塔分布生成的融合系数进行图像融合,生成的融合训练样本在尺寸上与原始样本相同。 融合过程为:
其中代表同一批次内不同的训练样本;分别对应该样本的标签;为 由参数的贝塔分布计算出的混合系数,服从分布;为混合后的批次样 本;为混合后的批次样本对应的标签。
本发明实施例中,通过采用翻转和色域变换的方法增加不同角度的停车位图像并结合Mosaic-Mixup方法提升对物体的识别能力;使用改进后的卷积神经网络并结合优化后的损失函数进行训练,训练完成得到最终的改进YOLOV5卷积神经网络;
将两张不同环境下的停车位图像输入至所述训练后的改进YOLOV5模型,得到停车场状态识别检测结果;结果如图7所示,图7中对空闲车位和占用车位进行了有效识别。
实施例二:
在实施例一的基础上,所述S32根据视觉注意力机制,在所述特征融合单元设置C3VAN模块进行特征融合;C3VAN模块在融合之后加入VAN模块;
其中VAN模块中主要采用大卷积核注意力模块LKA,结合了自注意力机制和传统注意力机制的优点。LKA的思想在于将一个大的卷积核分解为深度卷积、深度扩张卷积和逐点卷积三部分。通过这种机制既保留了大卷积核具有大感受野的特性并提升了对图像局部区域的特征提取能力,同时缩小了模型尺寸使得模型更加轻量化。与传统注意力相比,LKA更加关注于特征图中的每个像素,并对每个像素进行了加权形成一个有效注意力算法;
采用分解后的LKA机制计算注意力权重,具体过程可表示为:
其中为该层的输入特征;分别表示深度可分离卷 积、深度可分离扩展卷积以及逐点卷积为计算出的注意力参数核;每个参数代表了中的每个特征,获得特征权重后对特征进行加权,计算公式如下:
其中表示该层的输出特征;表示张量对应位置的乘积。
实施例三:
本实施例还提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现实施例一的方法;
在实际应用中,处理器可以是专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(ProgrammableLogic Device,简称PLD)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)、控制器、微控制器 (Microcontroller Unit, MCU)、微处理器或其他电子元件实现,用于执行上述实施例中的方法。
本实施例所实现的方法,包括:
实施例一或二的记载内容。
实施例四:
本实施例还提供一种计算机存储介质,所述计算机可读取存储介质中存储有计算机程序,计算机程序被一个或多个处理器执行时,实现实施例一的方法;
其中,计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本实施例所实现的方法,包括:
实施例一或二的记载内容。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的***和方法,也可以通过其它的方式实现。以上所描述的***和方法实施例仅仅是示意性的。
需要说明的是,在本文中,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种基于视觉注意力的轻量化停车位状态检测方法,其特征在于,所述方法包括:
根据采集的停车位图像,构建停车位检测数据集;
通过Mosaic-Mixup混合数据增强方法对所述停车位检测数据集的数据进行增强,得到增强图像;
将所述增强图像输入至YOLOV5模型,得到训练后的改进YOLOV5模型;
将所述增强图像输入至所述改进YOLOV5模型,得到停车位检测状态;
其中,所述改进YOLOV5模型包括特征提取单元、特征融合单元和预测框单元:
在所述特征提取单元嵌入C3Ghost模块进行图像特征提取;
根据视觉注意力机制,在所述特征融合单元设置C3VAN模块进行特征融合;
对所述预测框单元的回归损失函数进行优化。
2.根据权利要求1所述的方法,其特征在于,根据所述停车位检测数据集,通过labelme软件对所述停车位图像进行标注空闲车位和占用车位;
所述停车位检测状态包括空闲车位和占用车位。
3.根据权利要求1所述的方法,其特征在于,所述特征提取单元通过卷积神经网络学习所述停车位图像中的目标特征。
4.根据权利要求3所述的方法,其特征在于,所述特征提取单元还包括卷积层和特征金字塔模块:
将所述增强图像输入所述卷积层进行卷积,得到特征图Feature_C0;
将所述特征图Feature_C0输入所述C3Ghost模块,通过残差结构将恒等映射与所述增强图像的输入特征相结合,得到特征图Feature_C1;
将所述特征图Feature_C1输入所述卷积层进行卷积,并所述C3Ghost模块得到特征图Feature_C2;
将所述特征图Feature_C2输入所述C3Ghost模块和所述特征金字塔模块,得到特征图Feature_C3。
5.根据权利要求4所述的方法,其特征在于,所述特征融合单元包括:
将所述特征图Feature_C3进行卷积并通过上采样操作获得特征图Feature_Up1;
将所特征图Feature_Up1和所述特征图Feature_C2进行统合,得到征图Feature_Cat1;
将所述征图Feature_Cat1输入所述C3VAN模块,得到特征图Feature_Fuse1;
将所述特征图Feature_Fuse1输入所述卷积层进行卷积,并经过上采样与主干网络特征进行融合;
通过所述C3VAN模块和所述卷积层获取与所述停车位图像的尺寸对应的特征图Fn。
6.根据权利要求5所述的方法,其特征在于,对所述预测框单元的回归损失函数进行优化,包括:
所述回归损失函数包括EIOU损失函数
7.根据权利要求6所述的方法,其特征在于,EIOU损失函数公式包括:
所述损失函数包括重叠损失/>,中心距离损失/>,边长损失/>
其中,所述IOU表示预测框与真实框的交并比,b代表预测框的中心点,代表真实框的中心点,/>代表预测框和真实框的中心点的欧式距离的平方,/>代表的是能够同时包含预测框和真实框的最小外接矩形的对角线距离;
其中,和/>分别是两个矩形代表覆盖两个边框的最小外接框的宽度和高度;/>代表预测框的宽,/>代表真是框的宽,/>表示预测框的高,/>表示真实框的高。
8.根据权利要求1所述的方法,其特征在于,通过Mosaic-Mixup混合数据增强方法对所述停车位检测数据集的数据进行增强,得到增强图像,包括:
对所述停车位图像进行预处理,并按照预设模板随机裁剪后进行拼接;
利用贝塔分布形成的融合系数进行图像融合,得到训练后的增强图像。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如上述权利要求1-8中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读取存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如上述权利要求1-8中任意一项所述的方法。
CN202311098874.0A 2023-08-30 2023-08-30 一种基于视觉注意力的轻量化停车位状态检测方法 Withdrawn CN116824551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311098874.0A CN116824551A (zh) 2023-08-30 2023-08-30 一种基于视觉注意力的轻量化停车位状态检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311098874.0A CN116824551A (zh) 2023-08-30 2023-08-30 一种基于视觉注意力的轻量化停车位状态检测方法

Publications (1)

Publication Number Publication Date
CN116824551A true CN116824551A (zh) 2023-09-29

Family

ID=88124323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311098874.0A Withdrawn CN116824551A (zh) 2023-08-30 2023-08-30 一种基于视觉注意力的轻量化停车位状态检测方法

Country Status (1)

Country Link
CN (1) CN116824551A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019303A (zh) * 2022-07-27 2022-09-06 安徽大学 基于自注意力机制的草莓病害图像识别方法
CN115546614A (zh) * 2022-12-02 2022-12-30 天津城建大学 一种基于改进yolov5模型的安全帽佩戴检测方法
CN115953743A (zh) * 2022-11-29 2023-04-11 华南理工大学 一种基于改进的yolo模型的车位状态识别方法
CN116129291A (zh) * 2023-01-31 2023-05-16 浙江大学杭州国际科创中心 一种面向无人机畜牧的图像目标识别方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019303A (zh) * 2022-07-27 2022-09-06 安徽大学 基于自注意力机制的草莓病害图像识别方法
CN115953743A (zh) * 2022-11-29 2023-04-11 华南理工大学 一种基于改进的yolo模型的车位状态识别方法
CN115546614A (zh) * 2022-12-02 2022-12-30 天津城建大学 一种基于改进yolov5模型的安全帽佩戴检测方法
CN116129291A (zh) * 2023-01-31 2023-05-16 浙江大学杭州国际科创中心 一种面向无人机畜牧的图像目标识别方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUO ZHANG等: "A real-time and lightweight traffic sign detection method based on ghost-YOLO", 《MULTIMEDIA TOOLS AND APPLICATIONS》, vol. 82, pages 26063 - 26087 *
荆修平等: "采用长距离依赖和多尺度表达的轻量化车辆检测", 《光学精密工程》, vol. 31, no. 6, pages 950 - 961 *

Similar Documents

Publication Publication Date Title
CN111046880B (zh) 一种红外目标图像分割方法、***、电子设备及存储介质
JP6926335B2 (ja) 深層学習における回転可変物体検出
CN105488517B (zh) 一种基于深度学习的车辆品牌型号识别方法
CN104299006B (zh) 一种基于深度神经网络的车牌识别方法
Shi et al. Single‐shot detector with enriched semantics for PCB tiny defect detection
CN111767927A (zh) 一种基于全卷积网络的轻量级车牌识别方法及***
Lyu et al. Small object recognition algorithm of grain pests based on SSD feature fusion
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及***
CN111046821A (zh) 一种视频行为识别方法、***及电子设备
CN112926548A (zh) 一种车道线检测方法、装置、电子设备及存储介质
CN114037640A (zh) 图像生成方法及装置
CN115375781A (zh) 一种数据处理方法及其装置
CN113313094A (zh) 一种基于卷积神经网络的车载图像目标检测方法和***
CN111738074A (zh) 基于弱监督学习的行人属性识别方法、***及装置
CN115019181A (zh) 遥感图像旋转目标检测方法、电子设备及存储介质
CN114898359A (zh) 一种基于改进EfficientDet的荔枝病虫害检测方法
Wang et al. Improving facade parsing with vision transformers and line integration
CN109284752A (zh) 一种车辆的快速检测方法
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN116012709B (zh) 一种高分辨率遥感影像建筑物提取方法及***
CN116824551A (zh) 一种基于视觉注意力的轻量化停车位状态检测方法
CN115565146A (zh) 基于自编码器获取鸟瞰图特征的感知模型训练方法及***
Singh et al. StreetOCRCorrect: An interactive framework for OCR corrections in chaotic Indian street videos
CN113034432A (zh) 一种产品缺陷检测方法、***、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20230929

WW01 Invention patent application withdrawn after publication