CN117612136A - 一种基于增量小样本学习的自动驾驶目标检测方法 - Google Patents
一种基于增量小样本学习的自动驾驶目标检测方法 Download PDFInfo
- Publication number
- CN117612136A CN117612136A CN202311646151.XA CN202311646151A CN117612136A CN 117612136 A CN117612136 A CN 117612136A CN 202311646151 A CN202311646151 A CN 202311646151A CN 117612136 A CN117612136 A CN 117612136A
- Authority
- CN
- China
- Prior art keywords
- model
- target
- class
- new
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 238000010845 search algorithm Methods 0.000 claims abstract description 7
- 238000009966 trimming Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 12
- 238000013140 knowledge distillation Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000004821 distillation Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims description 2
- 230000002950 deficient Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于增量小样本学习的自动驾驶目标检测方法,通过根据已有的大规模驾驶场景基数据集放入deformable DETR进行基模型训练,后采用选择性搜索算法为每一个未处理的原始驾驶场景图像选出n个潜在物体并打上伪标签放入基模型进行类特定组件参数微调,使得组件参数能够很好地推广到具有少量含有新类目标的驾驶场景图像样本的增量小样本微调阶段。再利用微调后的基模型初始化新模型的参数,通过增量小样本微调模型类特定组件参数,这样,预训练的模型作为增量模型的起点,从而减少了对大量标注数据的依赖,实现了对驾驶场景中出现的新类目标检测能力的提升。
Description
技术领域
本发明属于自动驾驶目标检测技术领域,更为具体地讲,涉及一种基于增量小样本学习的自动驾驶目标检测方法。
背景技术
随着科学技术的发展,自动驾驶行驶路径中可能出现的目标类别日益增加。目标检测是实现自动驾驶的关键技术之一,它可以帮助自动驾驶***实现对道路上的车辆、行人、交通信号灯等目标物体的实时监测和识别。如何增强自动驾驶***对新类目标检测的准确性,对提高自动驾驶的安全性有着不可估量的作用。
传统自动驾驶目标检测方法,如基于Faster R-CNN的目标检测,不仅对新类目标识别的准确性较低,也需要大量标注数据,训练时间和空间开销大,而现实中新类目标存在标注数据难以获取或者标注成本较高的情况,目标检测***必须在有限的时间内存以及少量可获得数据条件下,对实时动态的行驶状况监测,并快速准确识别新类目标,这是当前自动驾驶目标检测领域需要解决的核心问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于增量小样本学习的自动驾驶目标检测方法,以实现对自动驾驶行驶过程中出现的新类目标快速准确捕捉。
为实现上述发明目的,本发明基于增量小样本学习的自动驾驶目标检测方法,其特征在于,包括以下步骤:
(1)、收集各种环境下的驾驶场景图像以及标注的目标类别样本;
(2)、根据已有的大规模驾驶场景基数据集放入deformable DETR完成基模型训练:将基数据集放入卷积神经网络CNN,用于提取目标特征,再将提取出的特征降维后放入deformable transformer模型,然后通过全连接神经网络对驾驶场景中的目标类别和边界进行检测,通过与真实标签的对比学习不断对模型参数进行微调;训练完成后采用选择性搜索算法为每一个原始图像生成一系列类别无关的潜在目标候选框,选出置信度最高且与基数据集中真实标注框不重合的前n个作为伪目标框,同时为选择的n个候选框各自引入一个伪类,再经过deformable DETR对基模型类特定组件参数进行微调;
(3)、增量小样本微调:首先利用微调后的基模型初始化新模型的参数,采用少量含有新类目标的驾驶场景图像作为输入来微调模型参数,同时保持类不可知组件参数不变,基模型用于防止新模型的投影层输出特征与基模型的投影层输出特征偏差过大;
对于deformable DETR分类头上的知识蒸馏,首先从基模型的M个预测结果中进行选择作为基本类的伪标签;对于输入的含有新类目标的驾驶场景图像,当类别概率高于0.5且边界框与新类目标真实标注的边界框不重合时,将基模型的预测输出视为基础类的伪标签,然后采用成对匹配损失来确定伪标签与新模型预测之间的二分匹配,随后在蒸馏损失函数中比较基模型和新模型的分类输出。
本发明的目的是这样实现的。
本发明基于增量小样本学习的自动驾驶目标检测方法,通过根据已有的大规模驾驶场景基数据集放入deformable DETR进行基模型训练,后采用选择性搜索算法为每一个未处理的原始图像选出置信度最高且与基数据集中类别不重合的前n个目标候选框作为伪目标框,同时为选择的n个候选框各自引入一个伪类,再对预训练的模型类特定组件进行参数调整,这样,使得组件参数能够很好地推广到具有少量含有新类目标的驾驶场景图像样本的增量小样本微调阶段。再利用微调后的基模型初始化新模型的参数,通过增量小样本微调模型类特定组件参数,这样,预训练的模型作为增量模型的起点,减少了对大量标注数据的依赖。考虑到在驾驶场景里新类目标学习过程中,参数的调整会造成对基类的灾难性遗忘,本发明采用知识蒸馏,具体而言,利用基模型防止新模型的投影层输出特征与基模型的投影层输出特征偏差过大来缓解灾难性遗忘。同时,考虑到全特征图上直接进行知识蒸馏会导致冲突,从而影响新类的表现,本发明采用新类目标的真实标注框作为二元掩码,以防止基模型的特征对新类目标学习产生负面影响,实现了对驾驶场景中出现的新类目标检测能力的提升。
附图说明
图1是本发明基于增量小样本学习的自动驾驶目标检测方法一种具体实施方式流程图;
图2是本发明中本发明基于增量小样本学习的自动驾驶目标检测方法一种具体实施方式的基模型预训练的***框架图;
图3是本发明中基模型预训练提取多尺度特征的示意图,其中Ci表示卷积过程中的第i层,H表示输入驾驶场景图像的高,W表示输入驾驶场景图像的宽,conv n×n表示卷积核大小,stride n表示步长;
图4是本发明中基模型预训练deformable transformer中计算当前特征点的多尺度可变形注意力过程中利用双线性插值计算某一次偏移后采样点特征值的示意图,其中圆圈位置表示当前特征点位置,方框位置表示采样点位置,箭头所指位置表示本次偏移后采样点位置。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于增量小样本学习的自动驾驶目标检测方法一种具体实施方式流程图。
在本实施例中,如图1所示,本发明基于增量小样本学习的自动驾驶目标检测方法包括三项步骤:
S1:收集驾驶场景图像
收集驾驶场景图像包括收集各种环境,包括不同的天气、光照条件、道路状况、交通情况。同时,还需要收集标注的目标类别样本,包括车辆、行人、交通标志。
S2:基模型训练
基模型训练由已有的大规模驾驶场景基数据集放入deformable DETR模型中完成,包含两个步骤:第一步,基数据集输入卷积神经网络CNN以提取目标特征,将提取出的特征降维后放入deformable transformer模型,然后通过全连接神经网络对驾驶场景中的目标类别和边界进行检测,通过与真实标签的对比学习不断对模型参数进行微调;第二步,采用选择性搜索算法为每一个原始图像生成一系列类别无关的潜在目标候选框,选出置信度最高且与基数据集中真实标注框不重合的前n个作为伪目标框,同时为选择的n个候选框各自引入一个伪类,再经过deformable DETR对第一步训练完成的基模型类特定组件参数进行微调。
2.1)、基模型预训练
图2是本发明中本发明基于增量小样本学习的自动驾驶目标检测方法一种具体实施方式的增量小样本微调的***框架图。
如图2所示,将已有的大规模驾驶场景基数据集输入卷积神经网络CNN,由于单尺度特征图在小物体的识别上有所欠缺,因此,需要进行多尺度特征图的提取,再将提取到的多尺度特征图输入到deformable transformer中,最后利用两个全连接神经网络分别对驾驶场景中的目标类别和目标边界框进行预测,得到m(预设值)个输出,通过二分图匹配的方式从这m个输出里选出匹配度最高的与真实标签计算损失值更新模型参数。
在本实施例中,基模型预训练具体方法为:
2.1.1)、如图3所示,将CNN第3、4、5层产生的特征图提取出来各自进行卷积核大小为1×1、步长为1的卷积统一通道数,再将第5层产生的特征图进行卷积核大小为3×3、步长为2的卷积统一通道数并且得到一个更小尺度的特征图。
2.1.2)、多尺度特征图输入到encoder中进行全局特征的学习,将驾驶场景中的目标尽可能地区别开,再通过decoder找出目标最***的特征,进行目标边界极值点的学习。考虑到时间的损耗以及在小物体上的表现力,对于其中注意力值的计算,采用多尺度可变形注意力机制,公式如下所示:
其中Zq表示当前计算多尺度可变形注意力值的特征点,表示当前特征点的reference point(可以看成是坐标),/>表示当前特征点的特征值;M代表多头注意力中的head数,L表示多尺度特征图的尺度数,K表示采样点的个数,/>表示对/>进行归一化,Δpmlqk表示对应采样点的偏移量,Amlqk表示对应采样点的注意力值,Wm和W′ m表示全连接层的权重。
考虑到采样点的偏移量Δpmlqk由全连接神经网络进行值的预测,通常为0~1之间的小数,因此,需要进行归一化。
鉴于驾驶场景图像中的目标类别和边界仅与部分像素点相关,某一像素点也仅与部分其他像素点关联程度较高,因此,仅需计算当前特征点与其相关性高的K个点之间的注意力值,与其他特征点的注意力便可设置为零。具体来说,设置K个采样点,每个采样点对应一个偏移量,通过全连接神经网络不断调整偏移量,使其不断靠近与当前特征点关联程度高的特征点位置。同时,考虑到偏移量通常为小数,也就是说偏移后采样点位置一般没有正好落在某个特征点位置,因此,采用双线性插值法进行该偏移后采样点特征值的计算,如图4所示,由相邻四个特征点的特征值按距离比例计算得到。
2.1.3)、根据二分图匹配选择出的预测结果与真实驾驶场景图像中标注的目标类别和边界框进行损失计算来调整参数。
2.2)、基模型微调
采用选择性搜索算法为每一个原始驾驶场景图像生成一组类别无关的潜在目标候选框,对这些区域框提取特征并进行使用图像识别分类,具体来说就是根据颜色、纹理、大小、形状来计算相邻区域的相似度,将相似的区域合并为一个区域。选出置信度最高且与基数据集中真实标注框不重合的前n个区域框作为伪目标框,同时为选择的n个候选框各自引入一个伪类,将这些伪标签同真实标签一起放入deformable DETR,保持类无关组件的参数不变,对第一步训练完成的基模型类特定组件参数进行微调,以此达到组件参数在下一阶段,也就是具有少量含有新类目标的驾驶场景图像样本的增量小样本微调阶段也能有相对较好的表现力。
在本实施例中,选择性搜索相似度计算具体方法为:
目标候选区域的相似性为颜色、纹理、大小、空间交叠四种相似度的线性叠加。
2.2.1)、颜色相似度(Scolour):首先将目标候选区域的颜色空间转换成直方图,计算公式如下:
其中ri表示第i个目标候选区域,n表示bins×图像通道数,表示第i个目标候选区域颜色直方图向量的第k维的值。
对于合并后的新候选区域(rt)的尺寸大小以及颜色直方图向量(Ct)计算公式如下:
size(rt)=size(ri)+size(rj)
其中size(ri)表示第i个目标候选区域的尺寸。
2.2.2)纹理相似度(Stexture):首先得到每个区域的纹理直方图向量(Ti),计算公式如下:
其中表示第i个目标候选区域纹理直方图向量的第k维的值。
2.2.3)尺度相似度(Ssize):考虑到仅根据颜色和纹理相似度来进行判定是否合并候选区域可能导致合并后的新区域不断吞并周围区域,因此,采用赋予小尺度候选区域高权重的方式,优先对小尺度候选区域进行合并,计算公式如下:
其中size(im)表示整张自动驾驶场景图像的像素级尺寸。
2.2.4)空间交叠相似度(Sfill):考虑到有空间交叠的候选区域更有可能为同一目标,因此,对于包含进其他区域的候选区域优先进行合并,计算公式如下:
其中BBij表示能够覆盖ri、rj的最小矩形框。
S3:增量小样本微调
首先利用微调后的基模型初始化新模型的参数,采用少量含有新类目标的驾驶场景图像作为输入来微调模型参数,同时保持类不可知组件参数不变,这样,预训练的模型作为增量模型的起点,减少了对大量标注数据的依赖。基模型用于防止新模型的投影层输出特征与基模型的投影层输出特征偏差过大,同时,考虑到全特征图上直接进行知识蒸馏会导致冲突,从而影响新类的表现,本发明采用新类目标的真实标注框作为二元掩码,以防止基模型的特征对新类目标学习产生负面影响。
对于deformable DETR分类头上的知识蒸馏,首先从基模型的m个预测结果中进行选择作为基本类的伪标签;对于输入的含有新类目标的驾驶场景图像,当类别概率高于0.5且边界框与新类目标真实标注的边界框不重合时,将基模型的预测输出视为基础类的伪标签,然后采用成对匹配损失来确定伪标签与新模型预测之间的二分匹配,随后在蒸馏损失函数中比较基模型和新模型的分类输出。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于增量小样本学习的自动驾驶目标检测方法,其特征在于,包括以下步骤:
(1)、收集各种环境下的驾驶场景图像以及标注的目标类别样本;
(2)、根据已有的大规模驾驶场景基数据集放入deformable DETR完成基模型训练:将基数据集放入卷积神经网络CNN,用于提取目标特征,再将提取出的特征降维后放入deformable transformer模型,然后通过全连接神经网络对驾驶场景中的目标类别和边界进行检测,通过与真实标签的对比学习不断对模型参数进行微调;训练完成后采用选择性搜索算法为每一个原始图像生成一系列类别无关的潜在目标候选框,选出置信度最高且与基数据集中真实标注框不重合的前n个作为伪目标框,同时为选择的n个候选框各自引入一个伪类,再经过deformable DETR对基模型类特定组件参数进行微调;
(3)、增量小样本微调:首先利用微调后的基模型初始化新模型的参数,采用少量含有新类目标的驾驶场景图像作为输入来微调模型参数,同时保持类不可知组件参数不变,基模型用于防止新模型的投影层输出特征与基模型的投影层输出特征偏差过大;
对于deformable DETR分类头上的知识蒸馏,首先从基模型的M个预测结果中进行选择作为基本类的伪标签;对于输入的含有新类目标的驾驶场景图像,当类别概率高于0.5且边界框与新类目标真实标注的边界框不重合时,将基模型的预测输出视为基础类的伪标签,然后采用成对匹配损失来确定伪标签与新模型预测之间的二分匹配,随后在蒸馏损失函数中比较基模型和新模型的分类输出。
2.根据权利要求1所述的自动驾驶目标检测方法,其特征在于,步骤(2)中,所述的基模型训练的两个步骤,和步骤(3)中,所述的增量小样本微调:
S2:基模型训练
2.1)、基模型预训练
将已有的大规模驾驶场景基数据集输入卷积神经网络CNN,由于单尺度特征图在小物体的识别上有所欠缺,因此,需要进行多尺度特征图的提取,再将提取到的多尺度特征图输入到deformable transformer中,最后利用两个全连接神经网络分别对驾驶场景中的目标类别和目标边界框进行预测,得到m(预设值)个输出,通过二分图匹配的方式从这m个输出里选出匹配度最高的与真实标签计算损失值更新模型参数。
2.2)、基模型微调
采用选择性搜索算法为每一个原始驾驶场景图像生成一组类别无关的潜在目标候选框,对这些区域框提取特征并进行使用图像识别分类,具体来说就是根据颜色、纹理、大小、形状来计算相邻区域的相似度,将相似的区域合并为一个区域。选出置信度最高且与基数据集中真实标注框不重合的前n个区域框作为伪目标框,同时为选择的n个候选框各自引入一个伪类,将这些伪标签同真实标签一起放入deformable DETR,保持类无关组件的参数不变,对第一步训练完成的基模型类特定组件参数进行微调,以此达到组件参数在下一阶段,也就是具有少量含有新类目标的驾驶场景图像样本的增量小样本微调阶段也能有相对较好的表现力。选择性搜索相似度计算具体方法为:
目标候选区域的相似性为颜色、纹理、大小、空间交叠四种相似度的线性叠加。
2.2.1)、颜色相似度(Scolour):首先将目标候选区域的颜色空间转换成直方图,计算公式如下:
其中ri表示第i个目标候选区域,n表示bins×图像通道数,表示第i个目标候选区域颜色直方图向量的第k维的值。
对于合并后的新候选区域(rt)的尺寸大小以及颜色直方图向量(Ct)计算公式如下:
size(rt)=size(ri)+size(rj)
其中size(ri)表示第i个目标候选区域的尺寸。
2.2.2)纹理相似度(Stexture):首先得到每个区域的纹理直方图向量(Ti),计算公式如下:
其中表示第i个目标候选区域纹理直方图向量的第k维的值。
2.2.3)尺度相似度(Ssize):考虑到仅根据颜色和纹理相似度来进行判定是否合并候选区域可能导致合并后的新区域不断吞并周围区域,因此,采用赋予小尺度候选区域高权重的方式,优先对小尺度候选区域进行合并,计算公式如下:
其中size(im)表示整张自动驾驶场景图像的像素级尺寸。
2.2.4)空间交叠相似度(Sfill):考虑到有空间交叠的候选区域更有可能为同一目标,因此,对于包含进其他区域的候选区域优先进行合并,计算公式如下:
其中BBij表示能够覆盖ri、rj的最小矩形框。
S3:增量小样本微调
首先利用微调后的基模型初始化新模型的参数,采用少量含有新类目标的驾驶场景图像作为输入来微调模型参数,同时保持类不可知组件参数不变,这样,预训练的模型作为增量模型的起点,减少了对大量标注数据的依赖。基模型用于防止新模型的投影层输出特征与基模型的投影层输出特征偏差过大,同时,考虑到全特征图上直接进行知识蒸馏会导致冲突,从而影响新类的表现,本发明采用新类目标的真实标注框作为二元掩码,以防止基模型的特征对新类目标学习产生负面影响。
对于deformable DETR分类头上的知识蒸馏,首先从基模型的m个预测结果中进行选择作为基本类的伪标签;对于输入的含有新类目标的驾驶场景图像,当类别概率高于0.5且边界框与新类目标真实标注的边界框不重合时,将基模型的预测输出视为基础类的伪标签,然后采用成对匹配损失来确定伪标签与新模型预测之间的二分匹配,随后在蒸馏损失函数中比较基模型和新模型的分类输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311646151.XA CN117612136A (zh) | 2023-12-04 | 2023-12-04 | 一种基于增量小样本学习的自动驾驶目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311646151.XA CN117612136A (zh) | 2023-12-04 | 2023-12-04 | 一种基于增量小样本学习的自动驾驶目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117612136A true CN117612136A (zh) | 2024-02-27 |
Family
ID=89956042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311646151.XA Pending CN117612136A (zh) | 2023-12-04 | 2023-12-04 | 一种基于增量小样本学习的自动驾驶目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612136A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015385A (zh) * | 2024-04-08 | 2024-05-10 | 山东浪潮科学研究院有限公司 | 一种基于多模态模型的长尾目标检测方法、装置和介质 |
-
2023
- 2023-12-04 CN CN202311646151.XA patent/CN117612136A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015385A (zh) * | 2024-04-08 | 2024-05-10 | 山东浪潮科学研究院有限公司 | 一种基于多模态模型的长尾目标检测方法、装置和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN112233097B (zh) | 基于空时域多维融合的道路场景他车检测***和方法 | |
CN111814623A (zh) | 一种基于深度神经网络的车辆车道偏离视觉检测方法 | |
CN111914634B (zh) | 一种抗复杂场景干扰的井盖类别自动检测方法和*** | |
CN110532961B (zh) | 一种基于多尺度注意机制网络模型的语义交通信号灯检测方法 | |
CN111767927A (zh) | 一种基于全卷积网络的轻量级车牌识别方法及*** | |
CN111461039B (zh) | 基于多尺度特征融合的地标识别方法 | |
CN111160205A (zh) | 一种交通场景嵌入式多类目标端对端统一检测方法 | |
CN113313166B (zh) | 基于特征一致性学习的船舶目标自动标注方法 | |
CN117612136A (zh) | 一种基于增量小样本学习的自动驾驶目标检测方法 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN111062347B (zh) | 一种自动驾驶中交通要素分割方法、电子设备及存储介质 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN111079543B (zh) | 一种基于深度学习的高效车辆颜色识别方法 | |
CN113378642B (zh) | 一种对农村违法占地建筑物进行检测的方法 | |
CN112418207B (zh) | 一种基于自注意力蒸馏的弱监督文字检测方法 | |
CN112785610B (zh) | 一种融合低层特征的车道线语义分割方法 | |
CN111666953B (zh) | 一种基于语义分割的潮汐带测绘方法及设备 | |
CN113920494A (zh) | 一种基于transformer的车牌字符识别方法 | |
CN113177528A (zh) | 基于多任务学习策略训练网络模型的车牌识别方法及*** | |
CN115661694B (zh) | 一种聚焦关键特征的轻量型主变压器智能检测方法、***、存储介质及电子设备 | |
CN117115770A (zh) | 一种基于卷积神经网络和注意力机制的自动驾驶方法 | |
Luo et al. | Memory-guided collaborative attention for nighttime thermal infrared image colorization | |
CN115294548B (zh) | 一种基于行方向上位置选择和分类方法的车道线检测方法 | |
CN116665009A (zh) | 一种基于多尺度ssd网络的管道漏磁图像检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |