CN116977979A - 一种交通标志识别方法、***、设备及存储介质 - Google Patents
一种交通标志识别方法、***、设备及存储介质 Download PDFInfo
- Publication number
- CN116977979A CN116977979A CN202310927182.6A CN202310927182A CN116977979A CN 116977979 A CN116977979 A CN 116977979A CN 202310927182 A CN202310927182 A CN 202310927182A CN 116977979 A CN116977979 A CN 116977979A
- Authority
- CN
- China
- Prior art keywords
- traffic sign
- images
- layer
- frame image
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/582—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种交通标志识别方法及***,其中方法,包括:获取待识别的视频;对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,用于:对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图;对所有帧图像的特征图,提取出交通标志候选区域;将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域;对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图;对融合后的候选区域特征图进行分类和回归,得到交通标志识别结果。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种交通标志识别方法、***、设备及存储介质。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
随着人工智能和计算机技术的迅速发展,机器视觉是实现无人驾驶的一个重要前提,意味着如何让汽车“看到”眼前的世界,无人驾驶的交通标志识别是当中的一个重要领域。无人驾驶车辆的交通标志识别是指利用车载摄像头获取道路场景图像,并识别出图像上的路标和语义,属于无人驾驶判断当前道路指示的重要内容,如何让汽车自动、准确的识别出路标具有重要的研究意义。在图像处理中,图像数据质量是关键的影响因素之一。然而在获取过程中,车载摄像头难免会遇到极端天气或者不可抗拒因素的干扰下会出现不同程度的遮挡,采集图像的质量往往达不到要求,这对后续的数据分析造成诸多不便。
视频目标检测相对于静态图像目标检测具有一定的优势。由于视频中的图像是连续的,视频中的相邻帧之间存在明显的上下文关系,所以在无法通过视频中的某一帧图像准确追踪目标时,能够根据与当前帧具有时间、空间等上下文关系的其他帧,辅助对当前帧的目标检测。
中国专利文献CN116259032A公开了一种基于改进YOLOv5的道路交通标志检测与识别算法,实现了自上而下与自下而上的深层与浅层特征的双向融合,显著提升了网络模型的检测性能。但无法应对复杂场景下的交通标志识别。
中国专利文献CN116152777A公开了一种基于YOLOv5的常用交通标志识别方法、***及存储介质,本发明不仅检测速度快,检测精度高,还占用显存空间小,识别目标种类多。但针对于无人驾驶车载摄像头小部分遮挡下的交通标志识别率较低,还无法充分应对这个复杂场景。
中国专利文献CN113076842B本发明公开了一种提升极端天气与环境下交通标志识别精度的方法,以YOLOv5目标检测模型为基础,融入聚焦模块、跨阶段局部融合模块和空间金字塔池化结构,对于光线不好的交通标志图像,能够更好地从局部特征来提取特征图信息,特征图更精准地表达了图像。该专利没有解决在遮挡情况下的交通标志的识别问题。
车载摄像头经过极端天气(雨滴、泥渍、霜雪等)小部分遮挡下会影响目标检测中对交通标志识别精度,特别是小目标交通标志的识别精度,导致无人驾驶车辆误判等错误情况经常发生。因此,无人驾驶车载摄像头小部分遮挡(雨滴、泥渍、霜雪等)对目标检测模型提取特征信息时造成干扰,使得模型难以获取正向有效的语义信息,造成识别准确率低。
发明内容
为了解决现有技术的不足,本发明提供了一种交通标志识别方法、***、设备及存储介质;解决了现有技术中针对车载摄像头小部分遮挡下交通标志的目标识别,无法准确的识别到目标的技术问题。
一方面,提供了一种交通标志识别方法;
一种交通标志识别方法,包括:
获取待识别的视频;
将待识别的视频的所有帧图像,划分为关键帧图像和相邻帧图像;所述关键帧图像是指与前一帧图像的场景不同,但是与后一帧图像的场景相同的帧;所述相邻帧图像,是指当前关键帧图像与前一个关键帧图像之间的图像,和当前关键帧图像与后一个关键帧图像之间的图像;
对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,用于:对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图;对所有帧图像的特征图,提取出交通标志候选区域;将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域;对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图;对融合后的候选区域特征图进行分类和回归,得到交通标志识别结果。
另一方面,提供了一种交通标志识别***;
一种交通标志识别***,包括:
获取模块,其被配置为:获取待识别的视频;
关键帧划分模块,其被配置为:将待识别的视频的所有帧图像,划分为关键帧图像和相邻帧图像;所述关键帧图像是指与前一帧图像的场景不同,但是与后一帧图像的场景相同的帧;所述相邻帧图像,是指当前关键帧图像与前一个关键帧图像之间的图像,和当前关键帧图像与后一个关键帧图像之间的图像;
交通标志识别模块,其被配置为:对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,用于:对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图;对所有帧图像的特征图,提取出交通标志候选区域;将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域;对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图;对融合后的候选区域特征图进行分类和回归,得到交通标志识别结果。
再一方面,还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
再一方面,还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
再一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:
从预先采集的视频中确定出视频流中的关键帧;然后从相邻关键帧的时间跨度中,发现上下文信息关联性,引入RS损失函数代替原分类损失函数,解决交通标志类别不均衡的问题。为了更好的补偿被遮挡的目标图像的语义信息,引入图卷积神经网络基于相关系数矩阵,提高模型识别率。
本发明在网络结构中引入基于相似性的注意力机制,构建上下文特征记忆,补充缺失语义信息,以提高被遮挡下的识别效果。本发明引入RS Loss损失函数代替原分类损失函数,解决交通标志类别不均衡的问题。本发明网络结构中引入图卷积神经网络,基于相关系数矩阵,补偿了被遮挡目标图像的语义信息,提高模型识别率。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本申请实施例一的整体流程图;
图2为本申请实施例一的基于相似性的注意力模块;
图3为本申请实施例一的整体检测流程;
图4(a)为本申请实施例一的标准卷积层;
图4(b)为本申请实施例一的可变形卷积层;
图5为本申请实施例一的整体网络结构;
图6为本申请实施例一的Fused-MBConv卷积结构。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
本实施例提供了一种交通标志识别方法;
如图1和图3所示,一种交通标志识别方法,包括:
S101:获取待识别的视频;
S102:将待识别的视频的所有帧图像,划分为关键帧图像和相邻帧图像;所述关键帧图像是指与前一帧图像的场景不同,但是与后一帧图像的场景相同的帧;所述相邻帧图像,是指当前关键帧图像与前一个关键帧图像之间的图像,和当前关键帧图像与后一个关键帧图像之间的图像;
S103:对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,用于:
对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图;
对所有帧图像的特征图,提取出交通标志候选区域;
将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域;
对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图;
对融合后的候选区域特征图进行分类和回归,得到交通标志识别结果。
进一步地,所述S101:获取待识别的视频,采用车载摄像头对交通标志图像进行视频采集。
进一步地,如图5所示,所述S103:对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,网络结构包括:
依次连接的骨干网络和候选区域生成网络;
所述候选区域生成网络的输出端通过第一分支与相似注意力模块的输入端连接,所述第一分支上设有感兴趣区域池化层;感兴趣区域池化层RoI Pooling的输入端与候选区域生成网络的输出端连接,感兴趣区域池化层RoI Pooling的输出端与相似注意力模块的输入端连接;
所述候选区域生成网络的输出端通过第二分支与相似注意力模块的输入端连接;
所述相似注意力模块的输出端与图卷积神经网络的输入端连接;
图卷积神经网络的输出端与第一全连接层的输入端连接;
所述第一全连接层的输出端分别与回归器和分类器连接。
进一步地,如图6所示,所述骨干网络,包括:依次连接的第一3*3卷积层、SE层、第一1*1卷积层、加法器、激活函数层和池化层;
所述3*3卷积层的输入端还与加法器的输入端连接。
所述第一3*3卷积层,采用可变形卷积来实现。
SE(Squeeze-and-Excitation)模块是一种用于增强卷积神经网络(CNN)特征表示能力的模块,SE模块通过全局平均池化操作将每个通道的特征图压缩为一个标量,以得到通道的全局统计信息。然后,通过两个全连接层(FC层)生成一个通道权重向量,用于对每个通道的特征图进行加权。
应理解地,本实施例采用EfficientNetV2作为主干特征提取网络。EfficientNetV2的核心模块采用了Fused-MBConv卷积,如图6所示,采用常规的3×3卷积替换了MBConv中的3×3深度卷积与1×1卷积,如图5所示,它具有更少的参数量和计算量。EfficientNet中的卷积层的卷积核是固定的尺寸和大小,固定的卷积核对于形态变化目标的特征提取能力较差,针对交通标志多尺度的特点及出现的难以提取特征的问题,在特征提取网络中引入可变形卷积,以增强网络的适应性。改进主干特征提取网络,用可变形卷积代替部分标准卷积,以增强网络对多尺度交通标志的提取能力。
可变形卷积,如图4(a)和图4(b)所示,在标准卷积上额外添加一个卷积层作用于输入特征图,用来学习每个采样点的偏移量,再将所学得偏移量加入到原有卷积核上使得标准卷积窗口变为偏移后的窗口,接着对输入特征图进行常规卷积操作。可变形卷积增强了网络对小目标交通标志的提取能力。
本发明在骨干网络中引入可变形卷积,所述可变形卷积为在标准卷积上添加一个卷积层。所述可变形卷积的输入为特征图,并学习每个采样点的偏移量,再将所学得偏移量加入到所述标准卷积上以使得标准卷积窗口变为偏移后的窗口,接着对输入特征图进行所述可变形卷积操作。本发明中公开的可变形卷积有效增强了网络对小目标交通标志的提取能力。
进一步地,如图5所示,所述候选区域生成网络,包括:
依次连接的第二3*3卷积层、第二1*1卷积层、第一Reshape层、激活函数层、第二Reshape层和Proposal层;
所述第二3*3卷积层的输出端还通过第三1*1卷积层与第二Reshape层的输入端连接。
应理解地,Reshape层,是神经网络中的一种常用层,其主要功能是将输入张量按照指定的形状进行重塑。其输入和输出张量的元素个数保持不变,但是形状可以改变。
应理解地,Proposal层,其主要功能是根据输入的特征图生成一系列候选框(bounding box),提供给后续的目标分类和位置回归网络使用。
进一步地,如图2所示,所述相似注意力模块,包括:
并列的三个子分支:第一子分支、第二子分支和第三子分支;
所述第一子分支,包括:依次连接的池化层P1、第二全连接层和归一化层G1;
所述第二子分支,包括:依次连接的第三全连接层和归一化层G2;
所述第三子分支,包括:第四全连接层;
池化层P1的输入端与感兴趣区域池化层的输出端连接;
第三全连接层的输入端和第四全连接层的输入端均与候选区域生成网络的输出端连接;
归一化层G1的输出端和归一化层G2的输出端,均与激活函数层S1的输入端连接;激活函数层S1的输出端与第五全连接层的输入端连接;
第四全连接层的输出端与第五全连接层的输入端连接;
第五全连接层的输出端是相似注意力模块的输出端。
进一步地,如图5所示,所述S103:对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,训练过程包括:
构建训练集,所述训练集为已知交通标志识别结果的交通标志视频;
将训练集输入到交通标志识别模型中,对模型进行训练,当模型的损失函数值不再下降时,或者,迭代次数超过设定次数时,停止训练,得到训练后的交通标志识别模型。
进一步地,所述对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图,包括:
基于骨干网络,对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图。
进一步地,所述对所有帧图像的特征图,提取出交通标志候选框和交通标志候选区域,包括:
基于候选区域生成网络,对所有帧图像的特征图,提取出交通标志候选框和交通标志候选区域。
进一步地,所述将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域,包括:
基于相似注意力模块,将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域。
进一步地,所述对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图,包括:
基于图卷积神经网络,对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图。
进一步地,所述对融合后的候选区域特征图和关键帧的交通标志候选区域,进行分类和回归,得到交通标志识别结果,包括:
基于回归器和分类器,对融合后的候选区域特征图和关键帧的交通标志候选区域,进行分类和回归,得到交通标志识别结果。
本实例步骤主要分为以下内容:首先通过车载摄像头获取当前视频帧图像中交通标志目标的位置范围,确定出视频中的关键帧x;其中关键帧是指当前帧的场景与上一帧的场景不同,并且与下一帧的场景相同;从两个相邻关键帧的时间跨度,构建上下文存储空间;
首先是关键帧的设置;将视频序列中的关键帧选为第一帧关键帧,并从指定帧对应的时间跨度的上下文存储空间中,确定多个相邻帧。
因车载摄像探头被遮挡下捕捉的交通标志图像存在部分关键语义信息缺失现象,因此为了获取更好的检测效果,所以在基础网络中添加GCN模块,以提取特征图。在GCN模块中,将特征图转换成图形结构,并使用图卷积网络进行特征提取和图形分析。
此外,当多任务训练过程中出现特定任务不平衡,如分类任务中正负样本的不平衡,会产生额外的超参数,这些超参数的微调占用计算时间且会导致次优结果。针对数据样本不平衡的问题,因此本实施例优化分类损失函数,引入RS Loss(Rank&Sort Loss)损失函数代替原分类损失函数,解决交通标志类别不均衡的问题,提高模型识别率。
当车载摄像头在小部分遮挡下采集到视频流,针对其获取的视频流来进行目标检测时,通过分析得出由于目标处于静止状态且车载摄像头是处于不断移动状态,所以针对车载摄像头遮挡导致识别率低的问题,采取利用上下文关系补全特征和图卷积神经网络特征预测的方法融合进检测模型中,提高检测精度,方便无人驾驶车辆更好的分析判断。
此外,当多任务训练过程中出现特定任务不平衡,如分类任务中正负样本的不平衡,会产生额外的超参数,这些超参数的微调占用计算时间且会导致次优结果。针对数据样本不平衡的问题,因此本实施例优化分类损失函数,引入RS Loss损失函数代替原分类损失函数,解决交通标志类别不均衡的问题,提高模型识别率。损失函数由分类损失和边界框回归损失构成,当多任务训练过程中出现特定任务不平衡,如分类任务中正负样本的不平衡,会产生额外的超参数,这些超参数的微调占用计算时间且会导致次优结果。针对数据样本不平衡的问题,本文在损失函数中引入Rank&Sort Loss(RS Loss),RS Loss在计算损失时将正样本排在负样本之上并且在正样本内部根据IoU值的大小对正样本进行排序。基于排序特性,RS Loss可以处理不平衡的数据且简化了训练模型。本文用RS Loss函数取代Faster R-CNN原分类损失函数。解决交通标志类别不均衡的问题,提高模型识别率。
从预先采集的视频中确定出视频流中的关键帧;然后从相邻关键帧的时间跨度中,发现上下文信息关联性,并构建上下文记忆库M;使用可变形卷积代替部分标准卷积增强特征提取的能力;引入RS Loss代替原分类损失函数,解决交通标志类别不均衡的问题,提高模型识别率。引入一种基于图卷积网络(Graph Convolutional Network,GCN)的多标签分类模型,学习标签之间的相互依赖关系,从而提高区域提议的准确性,进而提高整个目标检测模型的性能,已解决无人驾驶车载摄像头小部分遮挡下的交通标志识别率低的问题。
实施例二
本实施例提供了一种交通标志识别***;
一种交通标志识别***,包括:
获取模块,其被配置为:获取待识别的视频;
关键帧划分模块,其被配置为:将待识别的视频的所有帧图像,划分为关键帧图像和相邻帧图像;所述关键帧图像是指与前一帧图像的场景不同,但是与后一帧图像的场景相同的帧;所述相邻帧图像,是指当前关键帧图像与前一个关键帧图像之间的图像,和当前关键帧图像与后一个关键帧图像之间的图像;
交通标志识别模块,其被配置为:对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,用于:对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图;对所有帧图像的特征图,提取出交通标志候选区域;将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域;对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图;对融合后的候选区域特征图进行分类和回归,得到交通标志识别结果。
此处需要说明的是,上述获取模块、关键帧划分模块和交通标志识别模块对应于实施例一中的步骤S101至S103,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的***,可以通过其他的方式实现。例如以上所描述的***实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个***,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种交通标志识别方法,其特征是,包括:
获取待识别的视频;
将待识别的视频的所有帧图像,划分为关键帧图像和相邻帧图像;所述关键帧图像是指与前一帧图像的场景不同,但是与后一帧图像的场景相同的帧;所述相邻帧图像,是指当前关键帧图像与前一个关键帧图像之间的图像,和当前关键帧图像与后一个关键帧图像之间的图像;
对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,用于:对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图;对所有帧图像的特征图,提取出交通标志候选区域;将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域;对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图;对融合后的候选区域特征图进行分类和回归,得到交通标志识别结果。
2.如权利要求1所述的一种交通标志识别方法,其特征是,对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,网络结构包括:
依次连接的骨干网络和候选区域生成网络;
所述候选区域生成网络的输出端通过第一分支与相似注意力模块的输入端连接,所述第一分支上设有感兴趣区域池化层;感兴趣区域池化层RoI Pooling的输入端与候选区域生成网络的输出端连接,感兴趣区域池化层RoI Pooling的输出端与相似注意力模块的输入端连接;
所述候选区域生成网络的输出端通过第二分支与相似注意力模块的输入端连接;
所述相似注意力模块的输出端与图卷积神经网络的输入端连接;
图卷积神经网络的输出端与第一全连接层的输入端连接;
所述第一全连接层的输出端分别与回归器和分类器连接。
3.如权利要求2所述的一种交通标志识别方法,其特征是,所述骨干网络,包括:依次连接的第一3*3卷积层、SE层、第一1*1卷积层、加法器、激活函数层和池化层;所述3*3卷积层的输入端还与加法器的输入端连接;所述第一3*3卷积层,采用可变形卷积来实现。
4.如权利要求2所述的一种交通标志识别方法,其特征是,所述候选区域生成网络,包括:依次连接的第二3*3卷积层、第二1*1卷积层、第一Reshape层、激活函数层、第二Reshape层和Proposal层;所述第二3*3卷积层的输出端还通过第三1*1卷积层与第二Reshape层的输入端连接。
5.如权利要求2所述的一种交通标志识别方法,其特征是,所述相似注意力模块,包括:并列的三个子分支:第一子分支、第二子分支和第三子分支;
所述第一子分支,包括:依次连接的池化层P1、第二全连接层和归一化层G1;所述第二子分支,包括:依次连接的第三全连接层和归一化层G2;所述第三子分支,包括:第四全连接层;
池化层P1的输入端与感兴趣区域池化层的输出端连接;
第三全连接层的输入端和第四全连接层的输入端均与候选区域生成网络的输出端连接;
归一化层G1的输出端和归一化层G2的输出端,均与激活函数层S1的输入端连接;激活函数层S1的输出端与第五全连接层的输入端连接;
第四全连接层的输出端与第五全连接层的输入端连接;
第五全连接层的输出端是相似注意力模块的输出端。
6.如权利要求1所述的一种交通标志识别方法,其特征是,对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,训练过程包括:
构建训练集,所述训练集为已知交通标志识别结果的交通标志视频;
将训练集输入到交通标志识别模型中,对模型进行训练,当模型的损失函数值不再下降时,或者,迭代次数超过设定次数时,停止训练,得到训练后的交通标志识别模型。
7.如权利要求2所述的一种交通标志识别方法,其特征是,所述对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图,包括:
基于骨干网络,对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图;
所述对所有帧图像的特征图,提取出交通标志候选框和交通标志候选区域,包括:
基于候选区域生成网络,对所有帧图像的特征图,提取出交通标志候选框和交通标志候选区域;
所述将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域,包括:
基于相似注意力模块,将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域;
所述对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图,包括:
基于图卷积神经网络,对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图;
所述对融合后的候选区域特征图和关键帧的交通标志候选区域,进行分类和回归,得到交通标志识别结果,包括:
基于回归器和分类器,对融合后的候选区域特征图和关键帧的交通标志候选区域,进行分类和回归,得到交通标志识别结果。
8.一种交通标志识别***,其特征是,包括:
获取模块,其被配置为:获取待识别的视频;
关键帧划分模块,其被配置为:将待识别的视频的所有帧图像,划分为关键帧图像和相邻帧图像;所述关键帧图像是指与前一帧图像的场景不同,但是与后一帧图像的场景相同的帧;所述相邻帧图像,是指当前关键帧图像与前一个关键帧图像之间的图像,和当前关键帧图像与后一个关键帧图像之间的图像;
交通标志识别模块,其被配置为:对待识别视频的所有帧图像,输入到训练后的交通标志识别模型中,输出交通标志识别结果;其中,训练后的交通标志识别模型,用于:对待识别视频的所有帧图像进行特征提取,得到所有帧图像的特征图;对所有帧图像的特征图,提取出交通标志候选区域;将关键帧图像的交通标志候选区域和相邻帧图像的交通标志候选区域,进行特征融合,得到融合后的交通标志候选区域;对融合后的交通标志候选区域进行特征图提取,生成融合后的候选区域特征图;对融合后的候选区域特征图进行分类和回归,得到交通标志识别结果。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310927182.6A CN116977979A (zh) | 2023-07-26 | 2023-07-26 | 一种交通标志识别方法、***、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310927182.6A CN116977979A (zh) | 2023-07-26 | 2023-07-26 | 一种交通标志识别方法、***、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977979A true CN116977979A (zh) | 2023-10-31 |
Family
ID=88470784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310927182.6A Pending CN116977979A (zh) | 2023-07-26 | 2023-07-26 | 一种交通标志识别方法、***、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116977979A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523535A (zh) * | 2024-01-08 | 2024-02-06 | 浙江零跑科技股份有限公司 | 一种交通指示牌的识别方法、终端设备以及存储介质 |
-
2023
- 2023-07-26 CN CN202310927182.6A patent/CN116977979A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523535A (zh) * | 2024-01-08 | 2024-02-06 | 浙江零跑科技股份有限公司 | 一种交通指示牌的识别方法、终端设备以及存储介质 |
CN117523535B (zh) * | 2024-01-08 | 2024-04-12 | 浙江零跑科技股份有限公司 | 一种交通指示牌的识别方法、终端设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Segment as points for efficient online multi-object tracking and segmentation | |
Singh et al. | Real time Indian license plate detection using deep neural networks and optical character recognition using LSTM tesseract | |
Zhang et al. | Self-supervised visual representation learning from hierarchical grouping | |
CN113468967B (zh) | 基于注意力机制的车道线检测方法、装置、设备及介质 | |
CN113111727B (zh) | 一种基于特征对齐的遥感场景下旋转目标检测方法 | |
CN110781850A (zh) | 道路识别的语义分割***和方法、计算机存储介质 | |
CN111553414A (zh) | 一种基于改进Faster R-CNN的车内遗失物体检测方法 | |
CN112183649A (zh) | 一种用于对金字塔特征图进行预测的算法 | |
CN116977979A (zh) | 一种交通标志识别方法、***、设备及存储介质 | |
CN110909656B (zh) | 一种雷达与摄像机融合的行人检测方法和*** | |
Rothmeier et al. | Performance evaluation of object detection algorithms under adverse weather conditions | |
Wang et al. | Real-time vehicle target detection in inclement weather conditions based on YOLOv4 | |
Uzar et al. | Performance analysis of YOLO versions for automatic vehicle detection from UAV images | |
Barshooi et al. | Nighttime Driver Behavior Prediction Using Taillight Signal Recognition via CNN-SVM Classifier | |
US20230298335A1 (en) | Computer-implemented method, data processing apparatus and computer program for object detection | |
CN114175093A (zh) | 显示面板的检测装置、检测方法、电子装置、可读介质 | |
CN111476190A (zh) | 用于无人驾驶的目标检测方法、设备及存储介质 | |
Robinet et al. | Weakly-supervised free space estimation through stochastic co-teaching | |
CN115761667A (zh) | 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
Guo et al. | Udtiri: An open-source road pothole detection benchmark suite | |
CN114092818A (zh) | 语义分割方法、装置、电子设备及存储介质 | |
Kiruthika Devi et al. | A deep learning-based residual network model for traffic sign detection and classification | |
CN112396620A (zh) | 一种基于多阈值的图像语义分割方法及*** | |
Meletis | Towards holistic scene understanding: Semantic segmentation and beyond |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |