CN115482501A - 融合数据增强和目标检测网络的抛洒物识别方法 - Google Patents
融合数据增强和目标检测网络的抛洒物识别方法 Download PDFInfo
- Publication number
- CN115482501A CN115482501A CN202211006018.3A CN202211006018A CN115482501A CN 115482501 A CN115482501 A CN 115482501A CN 202211006018 A CN202211006018 A CN 202211006018A CN 115482501 A CN115482501 A CN 115482501A
- Authority
- CN
- China
- Prior art keywords
- images
- network model
- identification
- training
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了融合数据增强和目标检测网络的抛洒物识别方法,包括以下步骤:构建抛洒物图像数据模型,根据交通环境下的历史多公路场景监控视频,提取带有抛洒物的图像,采用人工标注法获取人工标注好的图像数据集,并将所述图像数据集按照一定比例划分为训练集、验证集和测试集;通过数据增强法对所述训练集和所述验证集的图像进行预处理,并将处理后的图像输入YOLO识别网络进行训练,获取识别网络模型;将所述测试集的图像输入所述识别网络模型,进行所述识别网络模型的精度评估,将实际多公路场景监控视频中提取图像数据并进行预处理,将预处理后的图像输入符合精度要求的识别网络模型中,输出识别结果,识别公路抛洒物。
Description
技术领域
本发明属于图像识别技术领域,尤其涉及一种融合数据增强和目标检测网络的抛洒物识别方法。
背景技术
现有基于监控视频识别抛洒物的技术主要是根据大量抛洒物图像数据样本训练分类器,结合抛洒物的时空信息特征进行分类,识别出图像中的抛洒物。获取视频帧序列,在所述视频帧序列中提取出运动目标;对运动目标进行处理,得到疑似抛洒物;获取抛洒物样本数据,对所述抛洒物样本数据的像素进行聚类,得到聚类结果。获取所述疑似抛洒物的像素值,对所述像素值在所述聚类结果内的所述疑似抛洒物进行识别,得到抛洒物。现有技术中存在如下缺陷:大量抛洒物图像数据样本只能通过人工收集并标注,时间成本较大,工作内容重复繁琐;传统分类器的聚类算法较为简单,需要结合洒物的时空信息特征作进一步筛选分类才能获得较好的分类精度;复杂环境下如雨雪雾天、黑夜的抛洒物数据图像难以获取并建立训练数据库,因此利用常规数据集不足以训练出效果较好的目标识别网络。因此,亟需提供融合数据增强和目标检测网络的抛洒物识别方法,实时识别图像,提高了图像识别的精度。
发明内容
本发明的目的在于提出一种融合数据增强和目标检测网络的抛洒物识别方法,针对雨雾天场景下抛洒物图像数据的缺乏问题,融合数据增强方法从少量训练数据训练适用的抛洒物检测网络,并从实时公路监控视频中检测抛洒物,降低成本且提高了图像识别精度。
为实现上述目的,本发明提供了一种融合数据增强和目标检测网络的抛洒物识别方法,包括以下步骤:
构建抛洒物图像数据模型,根据交通环境下的历史多公路场景监控视频,提取带有抛洒物的图像,采用人工标注法获取人工标注好的图像数据集,并将所述图像数据集划分为训练集、验证集和测试集;
通过数据增强法对所述训练集和所述验证集的图像进行预处理,并将预处理后的图像输入YOLO识别网络进行训练,获取识别网络模型;
将所述测试集的图像输入所述识别网络模型,进行所述识别网络模型的精度评估,在实际多公路场景监控视频中提取图像数据并进行预处理,将预处理后的图像输入符合精度要求的识别网络模型中,输出识别结果,识别公路抛洒物。
可选的,人工标注好的数据集以7:2:1划分为训练集、验证集与测试集。
可选的,通过数据增强法对所述训练集和所述验证集的图像进行预处理,并将处理后的图像输入YOLO识别网络进行训练,获取识别网络模型,具体包括:
通过标准化处理和Mosaic数据增强方法对训练集图像与验证集图像进行预处理,并导入YOLO识别网络进行训练,通过损失传播更新网络识别参数,获得识别网络模型。
可选的,所述数据增强法具体包括:
随机从所述训练集或所述验证集中挑选若干张图像进行旋转、缩放处理,最后拼接获得新图像,保留标注框信息。
可选的,获取识别网络模型具体包括:
在公路抛洒物事件的监控视频中提取若干张图像,对抛洒物进行人工标注并划分好训练集与验证集后经预处理和数据增强后处理为640*640的RGB图像,导入至YOLO识别网络通过误差传播对网络参数更新,重复迭代训练过程最终获得识别网络模型。
可选的,所述识别网络模型的精度评估具体包括:
通过所述测试集的图像进行所述识别网络模型的精度评估,以mAP为指标对所述识别网络模型作精度评价,若mAP满足要求,则将满足精度要求的所述识别网络模型作为进行实际视频测试的识别网络模型;若mAP不满足要求,则更新样本集与网络初始化参数,对所述识别网络模型重新进行训练。
可选的,抛洒物识别精度指标mAP大于等于90%。
本发明技术效果:本发明公开了一种融合数据增强和目标检测网络的抛洒物识别方法,使用Mosaic数据增强算法对抛洒物图像数据样本进行处理,从少量复杂环境下的已完成人工标注的抛洒物图像数据新建出大量可用于网络训练的训练集样本;利用开源的目标识别算法YOLO实现对监控视频图像中抛洒物的实时识别,该算法仅需要图像特征不需要结合车辆、抛洒物等物体的时空特征信息,即可保证足够的精度;利用Mosaic数据增强方法,优化抛洒物图像样本数据集的多样性,实现数据样本较少的情况下增加识别网络的训练效率;解决复杂场景如雨雾雪天、黑夜下的抛洒物图像缺乏难以建立有效数据库的问题;采用YOLO识别网络算法应用于监控视频中的抛洒物识别任务,保证较好的泛化性能与识别准确率。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例融合数据增强和目标检测网络的抛洒物识别方法的流程示意图;
图2为本发明实施例数据增强方法示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1-2所示,本实施例中提供一种融合数据增强和目标检测网络的抛洒物识别方法,包括以下步骤:
构建抛洒物图像数据模型,根据交通环境下的历史多公路场景监控视频,提取带有抛洒物的图像,采用人工标注法获取人工标注好的图像数据集,并将所述图像数据集按照一定比例划分为训练集、验证集和测试集;
通过数据增强法对所述训练集和所述验证集的图像进行预处理,并将处理后的图像输入YOLO识别网络进行训练,获取识别网络模型;
将所述测试集的图像输入所述识别网络模型,进行所述识别网络模型的精度评估,将实际多公路场景监控视频中提取图像数据并进行预处理,将预处理后的图像输入符合精度要求的识别网络模型中,输出识别结果,发现公路抛洒物。
数据库搭建阶段:
获取实际交通环境下的多公路场景监控视频,转化为图像数据;
对于存在抛洒物的图像,利用人工标注方法框注抛洒物,并将人工标注好的数据集以7:2:1划分为训练集、验证集与测试集。
训练阶段:
首先通过标准化处理和Mosaic数据增强方法对训练集与验证集图像进行预处理;
将训练集与验证集图像导入YOLO识别网络进行网络训练,通过损失传播更新网络识别参数,获得收敛的识别网络。
测试阶段:
将测试集图像导入训练完成的识别网络,评价其识别精度。
使用阶段:
从实际多公路场景监控视频中提取图像数据,并作预处理;
将处理后的图像输入至精度符合使用要求的识别网络中,输出识别结果,及时发现公路抛洒物。
在训练阶段采用数据增强方法增加图像多样性,使识别网络能从图像数据集中学习到更多特征信息,提高网络的识别精度与泛化性。参考图2,Mosaic数据增强机制为:随机从训练集或验证集中挑选四张图像进行旋转、缩放等处理,最后拼接获得新图像,保留标注框信息,保证网络能从新图像中获取特征信息。
图像旋转、缩放、拼接的过程:
记一张图像的宽度高度分别为W、H,记图像某像素点的坐标为(x,y);经变换矩阵A处理后的新坐标位置为(x1,x2)。
对于图像某像素点作空间变换的公式为:
对于旋转变换,变换矩阵A如下,其中,α为图像绕图像中点逆时针旋转的角度,本发明中取α为90°、180°或270°
对于放缩变换,变换矩阵A如下,其中,S为图像放大或者缩小的倍数,对于放大后需要填充像素值的像素点,利用双线性插值法获取该位置的像素值。
放大后,对于已知点(x1,y1)、(x1,y2)、(x2,y1)、(x2,y2)四点的像素值分别为Q11、Q12、Q21、Q22,求填充点P的像素值:
Mosaic数据增强则是对4张图像进行变换处理后,分别截取部分区域并拼接成一张新的图像,截取部分的图像需满足宽度高度分别为1/4W、1/4H;因此拼接后的图像仍满足尺寸为W×H。
为了实现对多公路场景下抛洒物的识别,首先从公路抛洒物事件的监控视频中提取了2000张图像,对抛洒物进行人工标注并划分好训练集与验证集后经预处理和数据增强后处理为640*640的RGB图像,导入至YOLO识别网络通过误差传播对网络参数更新,重复迭代训练过程最终获得损失收敛的网络模型。
在测试阶段,利用测试集数据检验网络模型效果,以mAP为指标对网络模型作精度评价,若mAP满足要求,该网络训练的超参数结果可作为实际视频测试的网络模型,若不满足要求,则需要更新样本集与网络初始化参数,对网络重新进行训练。上述要求具体为抛洒物识别精度指标mAP大于等于90%,在本实例中,抛洒物识别精度指标mAP达到了93%,认为满足精度要求,该网络超参数在使用阶段可以直接使用。
在使用阶段,需要提取实际多公路场景下的监控视频并按5-10s的时间间距抽帧作为原始图像数据,经压缩为640*640像素的图像后,后输入到识别网络,对抛洒物事件进行实时识别。网络可识别的抛洒物对象包括:头盔、抛洒布、落石以及塑料袋等,识别结果将标签统一作为“抛洒物”输出显示。
本发明公开了一种融合数据增强和目标检测网络的抛洒物识别方法,使用Mosaic数据增强算法对抛洒物图像数据样本进行处理,从少量复杂环境下的已完成人工标注的抛洒物图像数据新建出大量可用于网络训练的训练集样本;利用开源的目标识别算法YOLO实现对监控视频图像中抛洒物的实时识别,该算法仅需要图像特征不需要结合车辆、抛洒物等物体的时空特征信息,即可保证足够的精度;利用Mosaic数据增强方法,优化抛洒物图像样本数据集的多样性,实现数据样本较少的情况下增加识别网络的训练效率;解决复杂场景如雨雾雪天、黑夜下的抛洒物图像缺乏难以建立有效数据库的问题;采用YOLO识别网络算法应用于监控视频中的抛洒物识别任务,保证较好的泛化性能与识别准确率。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.融合数据增强和目标检测网络的抛洒物识别方法,其特征在于,包括以下步骤:
构建抛洒物图像数据模型,根据交通环境下的历史多公路场景监控视频,提取带有抛洒物的图像,采用人工标注法获取人工标注好的图像数据集,并将所述图像数据集划分为训练集、验证集和测试集;
通过数据增强法对所述训练集和所述验证集的图像进行预处理,并将预处理后的图像输入YOLO识别网络进行训练,获取识别网络模型;
将所述测试集的图像输入所述识别网络模型,进行所述识别网络模型的精度评估,在实际多公路场景监控视频中提取图像数据并进行预处理,将预处理后的图像输入符合精度要求的识别网络模型中,输出识别结果,识别公路抛洒物。
2.如权利要求1所述的融合数据增强和目标检测网络的抛洒物识别方法,其特征在于,人工标注好的数据集以7:2:1划分为训练集、验证集与测试集。
3.如权利要求1所述的融合数据增强和目标检测网络的抛洒物识别方法,其特征在于,通过数据增强法对所述训练集和所述验证集的图像进行预处理,并将处理后的图像输入YOLO识别网络进行训练,获取识别网络模型,具体包括:
通过标准化处理和Mosaic数据增强方法对训练集图像与验证集图像进行预处理,并导入YOLO识别网络进行训练,通过损失传播更新网络识别参数,获得识别网络模型。
4.如权利要求3所述的融合数据增强和目标检测网络的抛洒物识别方法,其特征在于,所述数据增强法具体包括:
随机从所述训练集或所述验证集中挑选若干张图像进行旋转、缩放处理,最后拼接获得新图像,保留标注框信息。
5.如权利要求3所述的融合数据增强和目标检测网络的抛洒物识别方法,其特征在于,获取识别网络模型具体包括:
在公路抛洒物事件的监控视频中提取若干张图像,对抛洒物进行人工标注并划分好训练集与验证集后经预处理和数据增强后处理为640*640的RGB图像,导入至YOLO识别网络通过误差传播对网络参数更新,重复迭代训练过程最终获得识别网络模型。
6.如权利要求1所述的融合数据增强和目标检测网络的抛洒物识别方法,其特征在于,所述识别网络模型的精度评估具体包括:
通过所述测试集的图像进行所述识别网络模型的精度评估,以mAP为指标对所述识别网络模型作精度评价,若mAP满足要求,则将满足精度要求的所述识别网络模型作为进行实际视频测试的识别网络模型;若mAP不满足要求,则更新样本集与网络初始化参数,对所述识别网络模型重新进行训练。
7.如权利要求6所述的融合数据增强和目标检测网络的抛洒物识别方法,其特征在于,抛洒物识别精度指标mAP大于等于90%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211006018.3A CN115482501A (zh) | 2022-08-22 | 2022-08-22 | 融合数据增强和目标检测网络的抛洒物识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211006018.3A CN115482501A (zh) | 2022-08-22 | 2022-08-22 | 融合数据增强和目标检测网络的抛洒物识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115482501A true CN115482501A (zh) | 2022-12-16 |
Family
ID=84421680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211006018.3A Pending CN115482501A (zh) | 2022-08-22 | 2022-08-22 | 融合数据增强和目标检测网络的抛洒物识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115482501A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503779A (zh) * | 2023-04-26 | 2023-07-28 | 中国公路工程咨询集团有限公司 | 一种路面抛洒物识别***及方法 |
WO2024140448A1 (zh) * | 2022-12-26 | 2024-07-04 | 清华大学 | 尺度自适应方法和装置、以及图像识别方法和装置 |
-
2022
- 2022-08-22 CN CN202211006018.3A patent/CN115482501A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024140448A1 (zh) * | 2022-12-26 | 2024-07-04 | 清华大学 | 尺度自适应方法和装置、以及图像识别方法和装置 |
CN116503779A (zh) * | 2023-04-26 | 2023-07-28 | 中国公路工程咨询集团有限公司 | 一种路面抛洒物识别***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977812B (zh) | 一种基于深度学习的车载视频目标检测方法 | |
WO2022016563A1 (zh) | 一种植保无人机地面监控***及其监控方法 | |
CN112183788B (zh) | 一种域自适应设备运检***和方法 | |
CN115482501A (zh) | 融合数据增强和目标检测网络的抛洒物识别方法 | |
CN111967393A (zh) | 一种基于改进YOLOv4的安全帽佩戴检测方法 | |
CN111598030A (zh) | 一种航拍图像中车辆检测和分割的方法及*** | |
CN104134068B (zh) | 基于稀疏编码的监控车辆特征表示及分类方法 | |
CN110866879B (zh) | 一种基于多密度雨纹感知的图像去雨方法 | |
CN104134222A (zh) | 基于多特征融合的车流监控图像检测和跟踪***及方法 | |
CN110660222A (zh) | 一种智能环保道路黑烟车辆电子抓拍*** | |
Yousri et al. | A deep learning-based benchmarking framework for lane segmentation in the complex and dynamic road scenes | |
CN114821326A (zh) | 一种宽幅遥感影像中密集弱小目标检测识别方法 | |
CN111310592A (zh) | 一种基于场景分析和深度学习的检测方法 | |
CN113628164A (zh) | 一种基于深度学习与web端定位的路面裂缝检测方法 | |
CN115546742A (zh) | 一种基于单目热红外摄像头的铁轨异物识别方法及*** | |
CN116052090A (zh) | 图像质量评估方法、模型训练方法、装置、设备及介质 | |
CN115620090A (zh) | 模型训练方法、低照度目标重识别方法和装置、终端设备 | |
Brophy et al. | A review of the impact of rain on camera-based perception in automated driving systems | |
Zhao et al. | Image dehazing based on haze degree classification | |
Liu et al. | Multi-lane detection by combining line anchor and feature shift for urban traffic management | |
Piroli et al. | Towards robust 3D object detection in rainy conditions | |
CN117294818A (zh) | 一种用于机场施工的工地全景监控方法 | |
CN111797799A (zh) | 基于人工智能的地铁乘客等待区域规划方法 | |
Kaur et al. | Deep learning: survey of environmental and camera impacts on internet of things images | |
CN114565597B (zh) | 一种基于YOLO v3-tiny-DB和迁移学习的夜间道路行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |