CN113255791A - 基于k-组合均值特征增强的小样本目标检测方法及*** - Google Patents
基于k-组合均值特征增强的小样本目标检测方法及*** Download PDFInfo
- Publication number
- CN113255791A CN113255791A CN202110605372.7A CN202110605372A CN113255791A CN 113255791 A CN113255791 A CN 113255791A CN 202110605372 A CN202110605372 A CN 202110605372A CN 113255791 A CN113255791 A CN 113255791A
- Authority
- CN
- China
- Prior art keywords
- new
- class
- image
- target detection
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 7
- 238000009966 trimming Methods 0.000 claims description 5
- 238000007670 refining Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000003860 storage Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于K‑组合均值特征增强的小样本目标检测方法及***,利用每类K个带标签样本的标签信息,得到对应的特征,通过对这K个目标的特征进行
Description
技术领域
本发明属于图像检测技术领域,具体涉及一种基于K-组合均值特征增强的小样本目标检测方法及***。
背景技术
深度学习模型在目标检测任务中取得了巨大的成功主要是因为深度神经网络可以从数据中学习更高级、更深层次的特征。然而深度学习模型严重依赖于大量的带标签数据,但人工数据标注费时费力、价格昂贵,并且在某些应用领域本来就没有足够的数据积累。深度学习在数据密集型的应用中达到了令人满意的效果,然而当带标签的数据样本很少时或数据集很小时,会受到阻碍。
基于微调的小样本目标检测算法使用两个训练阶段实现对仅有少量带标签样本的新类别的检测,其中第一阶段使用大量带标签样本的基类数据对检测器进行训练,第二阶段使用少量带标签样本的新类数据对训练好的检测器进行微调。该类算法通过第一阶段的训练学习到的是类别之间的共同特征,然后在第二个微调阶段通过使用新类少量的带标签样本,对特征进行转换,加权求和后得到每个新类的类特征。现有性能比较好的基于微调的小样本目标检测模型首先使用大量带标签的基类数据训练一个检测器,然后固定模型中的特征提取器,使用少量的 K个带标签的新类样本对分类器和回归器进行微调。由于微调阶段带标签样本的数量少,容易造成过拟合的问题。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于K-组合均值特征增强的小样本目标检测方法及***,通过利用每个新类别已知的 K个目标,使用特征提取网络提取对应目标特征,对这些特征取的特征组合,为每个组合求其平均特征,并添加到每类的特征样本集合中,在微调阶段使用数量增多后的增强特征样本集对分类器进行微调,以缓解小样本目标检测模型的过拟合问题,提升模型的检测精度。
本发明采用以下技术方案:
一种基于K-组合均值特征增强的小样本目标检测方法,包括以下步骤:
S1、对类别集合C进行划分,根据类别划分得到用于训练的基类图像及目标检测任务对应的标签用于微调的M'n个新类图像及对应的标签和用于测试的新类图像b为基类,Mb为基类图像的数量,n为新类,Mn为新类图像的数量;
S6、将步骤S1中得到的新类图像及对应的标签分批次输入步骤S3构建的新的目标检测模型中,对目标检测模型中新的分类器与回归器进行微调,并使用步骤S5得到的新类的特征样本集合fea'对分类器进行微调,每批次的大小为E';
具体的,步骤S1中,将COCO2014数据集中60个与PASCAL VOC数据集不相交的类别作为基类,剩余20个类别作为新类;基类图像全部用于模型训练;在新类图像中为每类随机选取K个样本,n为新类,Mn为新类图像数量,得到新的M'n个新类图像及对应的标签用于微调,其余的新类图像用于测试;Xm∈RN×N,R表示实数域,Ym={(cj,Ij),j=1,...,Nm},cj为图像Xm中包含的第j个目标的类别信息,Ij为其位置信息。
具体的,步骤S2中,基于Faster R-CNN的二阶段目标检测模型包括特征提取网络F、候选区域生成网络RPN、分类器和回归器特征提取网络F以 ResNet-50为backbone用于提取图像特征,候选区域生成网络RPN用于生成包含前景对象的候选框区域,分类器用于对候选区域生成网络RPN生成的候选区域包含的前景对象进行分类,回归器用于对候选区域的位置进行细化;基于Faster R-CNN的二阶段目标检测模型的输入为每次从步骤S1中的基类图像中随机抽取M幅图像,M为每批次的大小,输出为得到的目标检测结果。
具体的,步骤S2中,对基于Faster R-CNN的二阶段目标检测模型进行训练具体为:
S202、用RPN区域生成网络生成anchors,对anchors进行裁剪过滤,然后通过softmax对anchors进行二分类,判断属于前景或者后景,利用并使用边界框回归修正anchors的位置信息;
S203、将候选框信息映射到图像特征F(x),使用ROI Pooling获取候选框集合对应的特征集合F(bboxesi);
进一步的,步骤S204中,目标检测损失函数L为:
具体的,步骤S4中,将新类中每类的K个带标签样本先输入到经过第一阶段训练后的特征提取模块中提取对应的K个图像的特征然后根据图像的标签信息利用Faster R-CNN中的RoI Pooling就可以根据给定的K个目标的位置信息提取相应的区域的目标,进而得到这K个目标在图像中对应的特征,得到每一个新类在K幅图像上对应的固定大小的K个目标的特征样本集合。
具体的,步骤S5具体为:
S503、在特征样本集合中取一个特征样本依次遍历中的特征样本对Fl和F'j进行组合平均计算,得到新的特征样本Fnew,并将新的特征样本Fnew和Fl添加到特征样本集合中,集合中所有特征样本的类别标签为新类类别i;
S505、重复步骤S501~步骤S504,直至获得所有新类类别的增强后的特征样本集合fea',完成基于K-组合均值的特征增强。
具体的,步骤S6具体为:
本发明的另一技术方案是,一种基于K-组合均值特征增强的小样本目标检测***,包括:
划分模块,对类别集合C进行划分,根据类别划分得到用于训练的基类图像及目标检测任务对应的标签用于微调的M'n个新类图像及对应的标签和用于测试的新类图像b为基类,Mb为基类图像的数量, n为新类,Mn为新类图像的数量;
微调模块,将划分模块中得到的新类图像及对应的标签分批次输入构造模块构建的新的目标检测模型中,对目标检测模型中新的分类器与回归器进行微调,并使用组合模块得到的新类的特征样本集合fea'对分类器进行微调,每批次的大小为E';
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于K-组合均值特征增强的小样本目标检测方法,相较于固定检测器中特征提取模块,只对分类器与回归器进行微调的现有方法,由于利用新类数据每类K个目标的标签信息得到其对应的特征样本;通过对每类K个目标的特征样本取的组合,对每个组合进行平均操作,将这些平均特征添加到原有特征样本集合中,增加了特征样本的数量。然后使用增强后的特征集合对分类器进行微调,由于特征样本数量的增多,缓解了小样本检测模型的过拟合问题,提升了在新类上的目标检测精度。
进一步的,基于微调的小样本目标检测的任务设定为通过使用大量带标签的基类Cb数据集Xb对模型进行训练,其目的是从基类数据集中学习到一些与目标检测任务相关的知识,使模型可以实现仅使用少量的带标签的新类样本就可以对新类Cn数据集Xn进行目标检测。因此,对类别集合C进行划分,根据类别划分得到用于训练的基类图像及目标检测任务对应的标签用于微调的Mn' 个新类图像及对应的标签和用于测试的新类图像b为基类, Mb为基类图像的数量,n为新类,Mn为新类图像的数量;
进一步的,Faster R-CNN为二阶段检测模型,首先根据网络提取的特征生成一系列的可能包含目标的候选区域,在这一阶段只判断候选区域为前景对象还是背景,然后再对这些候选区域进行细粒度的具体类别的分类与位置回归,完成检测任务。基于Faster R-CNN的二阶段目标检测模型包括特征提取网络F、候选区域生成网络RPN、分类器和回归器特征提取网络F以ResNet-50为backbone 用于提取图像特征,候选区域生成网络RPN用于生成包含前景对象的候选框区域,分类器用于对候选区域生成网络RPN生成的候选区域包含的前景对象进行分类,回归器用于对候选区域的位置进行细化;
进一步的,基于Faster R-CNN的二阶段目标检测模型的输入为每次从步骤 S1中的基类图像中随机抽取M幅图像,M为每批次的大小,输出为得到的目标检测结果。通过这种训练方式可以使模型根据基类数据集学习到特征提取网络F、候选区域生成网络RPN、分类器和回归器的网络参数,以完成检测任务。
进一步的,目标检测损失函数L中损失被用于训练RPN网络,以区分前景对象与背景,并对候选框进行细化,实现对图像中可能包含前景对象的候选区域的提取;是交叉熵损失,用于训练基于cosine相似性度量函数的候选框分类器,实现对候选区域所包含的前景对象的分类;是一个平滑的L1损失,用于训练回归器,实现对候选区域所包含的前景对象的定位。
进一步的,对于新类数据集来说,带标签的样本数量非常少,为了更好地利用已有的新类的带标签样本特征,将步骤S1得到的新类图像送入步骤S2 得到的特征提取器中,得到每类K幅图像的特征,然后根据每幅图像对应的标签使用ROI Pooling操作得到每一个新类在这K幅图像上对应的K个目标特征;
进一步的,在微调阶段,使用新类数据集对分类器与回归器进行微调。用于微调的新类中每一类都有K个带标签目标,这K个目标决定了该类中的普遍性特征,还有与其他类之间的区分性特征。由于已知这K个目标的标签信息,根据该标签信息使用第一阶段训练好的模型可以获得这K个目标的特征,将这K个特征取的组合,为每个组合求其对应的平均特征,并添加到每类的特征样本集合中。在微调阶段可以使用数量增多后的增强特征样本集对分类器进行微调,以缓解小样本学习模型的过拟合问题。
进一步的,基于微调的小样本目标检测模型在新类上的检测效果差是因为新类中带标签的样本数量太少,模型容易产生过拟合的问题。为了更好地利用已有的新类的带标签样本特征,得到更多的属于新类的特征样本,扩充新类的特征样本集合,将步骤S4得到的每个新类的K个目标特征取的组合,为每个组合求其平均特征,并添加到每类的特征样本集合中,得到特征样本集合fea';
进一步的,为了使在基类上训练好的检测模型可以更好地完成在新类数据集上的检测,将步骤S1中得到的新类图像及对应的标签分批次输入步骤S3构建的新的目标检测模型中,对目标检测模型中新的分类器与回归器进行微调,并使用步骤S5得到的新类的特征样本集合fea'对分类器进行微调,每批次的大小为E';
综上所述,本发明利用每类K个带标签样本的标签信息,得到对应的特征,通过对这K个目标的特征进行组合,为每个组合计算平均特征。然后将这些平均特征添加到原有特征样本集合中,增加特征样本的数量。在微调阶段,除了新类带标签样本对分类和回归器进行微调外,还使用增加后的特征样本集合对分类器进行微调。实验结果证明通过基于K-组合均值的特征增强方法,增加特征样本的数量,为分类器提供了更多的特征样本,缓解了模型的过拟合问题,提升了基于微调的小样本目标检测模型的检测精度。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明中第一阶段训练示意图;
图2为本发明中第二个微调阶段的示意图;
图3为本发明中K-目标特征获取示意图;
图4为本发明中基于K-组合均值的特征增强模块示意图;
图5为本发明中基于K-组合均值的特征增强模块的作用示意图;
图6为本发明中新类类别的划分图;
图7为K=3时新类中每个类别的AP值图;
图8为10-shot对比实验结果示例图,其中,(a)为现有基于微调的小样本目标检测模型结果图,(b)为本发明所提出的模型的检测结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种基于K-组合均值特征增强的小样本目标检测方法,基于微调的小样本目标检测模型首先使用大量带标签的基类数据训练一个检测器,然后固定模型中的特征提取器,使用少量的K个带标签的新类样本对分类器和回归器进行微调。由于微调阶段带标签样本的数量少,容易造成过拟合的问题。本发明通过基于K-组合均值的特征增强模块在微调阶段为分类器提供更多新类的特征样本,缓解了小样本目标检测模型的过拟合问题,提升了目标检测精度。
本发明一种基于K-组合均值特征增强的小样本目标检测方法,包括以下步骤:
S1、对类别集合C进行划分,根据类别划分得到用于训练的基类图像及目标检测任务对应的标签b为基类,Mb为基类图像的数量;用于微调的Mn'个新类图像及对应的标签和用于测试的新类图像n为新类,Mn为新类图像的数量;
其中,使用ResNet作为特征提取网络的backbone,用于对输入的图像进行特征提取;RPN网络是一个由两个全连接层组成的子网络,根据图像特征生成可能包含目标的候选框信息;根据RPN网络生成的候选框对原图像提取到的特征进行ROI Pooling得到每个候选框的特征,然后使用基于cosine相似性度量函数的分类器根据每个候选框的特征对其进行分类,使用回归器根据每个候选框的特征对每个特征框的位置进行回归。并使用基类数据对该模型进行训练。
在基类上的训练过程具体为:
S202、用RPN区域生成网络生成一堆anchors,对这些anchors进行裁剪过滤,然后通过softmax对这些anchors进行二分类,判断其属于前景(foreground)或者后景(background),即是物体or不是物体,利用并使用边界框回归修正anchors 的位置信息;
S203、将候选框信息映射到图像特征F(x),使用ROI Pooling获取候选框集合对应的特征集合F(bboxesi);
构造目标检测损失函数L,其优化目标为:
Faster R-CNN模型中的RPN网络主要关注的是所选候选框是否包含前景对象,经过第一阶段使用大量带标签样本训练后的RPN网络可以得到包含更多前景特征的候选框。RoI Pooling则根据RPN所生成的候选框信息获得每个候选框的特征,并将每个候选框的特征处理成固定的尺寸大小。
请参阅图3,将新类中每类的K个带标签样本先输入到经过第一阶段训练后的特征提取模块中提取对应的K个图像的特征然后根据图像的标签信息利用Faster R-CNN中的RoI Pooling就可以根据给定的K个目标的位置信息提取相应的区域的目标,进而得到这K个目标在图像中对应的特征,得到每一个新类在K幅图像上对应的固定大小的K个目标的特征样本集合如下:
请参阅图4,具体步骤如下:
S503、在特征样本集合中取一个特征样本依次遍历中的特征样本对Fl和F'j进行组合平均计算,得到新的特征样本Fnew,并将Fnew和Fl添加到特征样本集合中,该集合中所有特征样本的类别标签为新类类别i;
S505、重复步骤S501~步骤S504,直至获得所有新类类别的增强后的特征样本集合fea',完成基于K-组合均值的特征增强。
请参阅图5,利用基于K-组合均值产生的不同目标组合的平均特征可以在一定程度上增强类别特征样本的数量,进而减轻微调过程中分类权重对带标签样本中目标的过度依赖,缓解小样本学习模型的过拟合问题。如图4所示,原有模型只使用候选框特征对分类器进行微调,由于每一类只有K个带标签样本,所以模型容易产生过拟合现象。如图4所示,增加了本章所提出的基于K-组合均值的特征增强模块后,除了原有的K个目标特征外,为分类器的微调提供了更多的特征样本,增加了特征样本的数量,使分类器可以学习到更好的分类权重,提高检测结果中的分类精度,进而了提升检测精度。
请参阅图2,具体步骤如下:
本发明再一个实施例中,提供一种基于K-组合均值特征增强的小样本目标检测***,该***能够用于实现上述基于K-组合均值特征增强的小样本目标检测方法,具体的,该基于K-组合均值特征增强的小样本目标检测***包括划分模块训练模块、构造模块、特征模块、组合模块、微调模块以及检测模块。
其中,划分模块,对类别集合C进行划分,根据类别划分得到用于训练的基类图像及目标检测任务对应的标签用于微调的M'n个新类图像及对应的标签和用于测试的新类图像b为基类,Mb为基类图像的数量,n为新类,Mn为新类图像的数量;
微调模块,将划分模块中得到的新类图像及对应的标签分批次输入构造模块构建的新的目标检测模型中,对目标检测模型中新的分类器与回归器进行微调,并使用组合模块得到的新类的特征样本集合fea'对分类器进行微调,每批次的大小为E';
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于K-组合均值特征增强的小样本目标检测方法的操作,包括:
对类别集合C进行划分,根据类别划分得到用于训练的基类图像及目标检测任务对应的标签用于微调的Mn'个新类图像及对应的标签和用于测试的新类图像b为基类,Mb为基类图像的数量,n为新类,Mn为新类图像的数量;构造基于Faster R-CNN的二阶段目标检测模型;将数据集分批次输入目标检测模型中进行训练,每批次的大小为E;固定在基类数据集上训练后的目标检测模型中的特征提取网络F、候选区域生成网络 RPN,根据新类的类别数量为新类构造新的分类器和回归器构成新的目标检测模型;将新类图像送入特征提取器中,得到每类K幅图像的特征,然后根据每幅图像对应的标签使用ROI Pooling操作得到每一个新类在这K 幅图像上对应的K个目标特征;将每个新类的K个目标特征取的组合,为每个组合求其平均特征,并添加到每类的特征样本集合中,得到特征样本集合fea';将新类图像及对应的标签分批次输入新的目标检测模型中,对目标检测模型中新的分类器与回归器进行微调,并使用新类的特征样本集合fea'对分类器进行微调,每批次的大小为E';将Mn”个新类图像输入目标检测模型中得到新类图像的检测结果,完成小样本目标检测。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作***。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器 (non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于K-组合均值特征增强的小样本目标检测方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
对类别集合C进行划分,根据类别划分得到用于训练的基类图像及目标检测任务对应的标签用于微调的Mn'个新类图像及对应的标签和用于测试的新类图像b为基类,Mb为基类图像的数量,n为新类,Mn为新类图像的数量;构造基于Faster R-CNN的二阶段目标检测模型;将数据集分批次输入目标检测模型中进行训练,每批次的大小为E;固定在基类数据集上训练后的目标检测模型中的特征提取网络F、候选区域生成网络 RPN,根据新类的类别数量为新类构造新的分类器和回归器构成新的目标检测模型;将新类图像送入特征提取器中,得到每类K幅图像的特征,然后根据每幅图像对应的标签使用ROI Pooling操作得到每一个新类在这K幅图像上对应的K个目标特征;将每个新类的K个目标特征取的组合,为每个组合求其平均特征,并添加到每类的特征样本集合中,得到特征样本集合fea';将新类图像及对应的标签分批次输入新的目标检测模型中,对目标检测模型中新的分类器与回归器进行微调,并使用新类的特征样本集合fea'对分类器进行微调,每批次的大小为E';将M”n个新类图像输入目标检测模型中得到新类图像的检测结果,完成小样本目标检测。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合仿真图对本发明的效果做进一步的描述。
1.仿真条件
本发明仿真的硬件条件为:智能感知与图像理解实验室图形工作站,使用的 GPU是Nvidia GeForce GTX 1080Ti,其显存为12G;并采用2个10核的CPU: Intel Xeon E5-2360 v4,主频是2.20GHz,内存是64GB;本发明仿真所使用的数据集COCO数据集:本文方法所使用的数据集是COCO2014数据集。COCO2014 数据集包含80个类别。根据小样本目标检测的任务设置,需要将数据集划分为基类与新类,并且两者间类别不相交。因此,参阅图6,将COCO2014数据集中 60个与PASCAL VOC数据集不相交的类别作为基类,其余20个类别作为新类。
2.仿真内容与结果
用本发明方法在上述仿真条件下进行实验,利用COCO2014数据集中划分为基类的数据对Faster R-CNN进行第一阶段的有监督训练,然后设定不同的K值,在新类别中取K张作为带标签的样本图像,固定经过第一阶段训练后的特征提取器与RPN网络等模块,只对新构造的分类器与回归器进行微调,微调后使用新类数据集对模型性能进行测试。
将本发明所提出的基于K-组合均值的特征增强模块添加至现有基于微调的主流方法中进行比较,结果如表1所示:
表1
从表1的结果看本发明的方法在目标检测精度上取得了一定的提升。
表1中,FRCN+ft-full中FRCN指Faster R-CNN,ft-full指在训练过程中,在第一个阶段使用基类与新类的所有带标签样本训练模型,并在第二个微调阶段使用新类数据对包括特征提取器的整个检测模型进行微调。TFA指在第一个训练阶段只使用基类数据,并在第二个训练阶段固定特征提取部分,只对分类器和回归器进行微调。w/fc指基于FC的分类器,w/cos指基于cosine的分类器。FE指本发明所提出的基于K-组合均值的特征增强模块。
从表1可以看出,本发明所提出的基于K-组合均值的特征增强模块的有效性,并且随着带标签样本的数量增加,发现提升的效果会有一定程度的增加。例如,请参阅图7,当K=3、5时,在原有精度的基础上提升了0.3到0.5。而当K=30时,发现精度提升了1.1。这是因为随着K值的增加,组合的数量也会大幅度增加,生成的特征样本数量会更多,因此可以为分类器提供更多的特征样本用于微调。
请参阅图8,本发明所提出的基于K-组合均值的特征增强方法对于新类集合中的大部分类别的检测结果都有一定程度的提升,并且对于人、猫、牛、马等类别内目标变化较大的类别提升比较大,证明了该方法通过为模型提供了更多的特征样本数量,减缓了模型的过拟合问题,提升了检测精度。
请参阅图8,取带标签样本数量K=10,只对新类进行目标检测。图8(a) 为原基于微调的模型的实验结果,图8(b)为添加了本章所提出的特征增强模块后的实验结果。由图8可以看出,对于人、狗等类别内多变的目标,添加平均特征后,可以增强类内目标特征的普遍性,削弱具体某个目标的影响,缓解了模型的过拟合问题,进而提升了检测精度。
综上所述,本发明一种基于K-组合均值特征增强的小样本目标检测方法及***,利用每类K个带标签样本的标签信息,得到对应的特征,通过对这K个目标的特征进行组合平均,为每个组合计算平均特征。然后将这些平均特征添加到原有特征样本集合中,增加了特征样本的数量,在微调阶段为分类器提供了更多新类的特征样本,缓解了模型的过拟合问题,提升了基于微调的小样本目标检测模型的检测精度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (10)
1.基于K-组合均值特征增强的小样本目标检测方法,其特征在于,包括以下步骤:
S1、对类别集合C进行划分,根据类别划分得到用于训练的基类图像及目标检测任务对应的标签用于微调的M′n个新类图像及对应的标签和用于测试的新类图像b为基类,Mb为基类图像的数量,n为新类,Mn为新类图像的数量;
S6、将步骤S1中得到的新类图像及对应的标签分批次输入步骤S3构建的新的目标检测模型中,对目标检测模型中新的分类器与回归器进行微调,并使用步骤S5得到的新类的特征样本集合fea′对分类器进行微调,每批次的大小为E′;
4.根据权利要求1所述的方法,其特征在于,步骤S2中,对基于Faster R-CNN的二阶段目标检测模型进行训练具体为:
S202、用RPN区域生成网络生成anchors,对anchors进行裁剪过滤,然后通过softmax对anchors进行二分类,判断属于前景或者后景,利用并使用边界框回归修正anchors的位置信息;
S203、将候选框信息映射到图像特征F(x),使用ROI Pooling获取候选框集合对应的特征集合F(bboxesi);
8.根据权利要求1所述的方法,其特征在于,步骤S5具体为:
S503、在特征样本集合中取一个特征样本Fl,依次遍历中的特征样本F′j,对Fl和F′j进行组合平均计算,得到新的特征样本Fnew,并将新的特征样本Fnew和Fl添加到特征样本集合中,集合中所有特征样本的类别标签为新类类别i;
S505、重复步骤S501~步骤S504,直至获得所有新类类别的增强后的特征样本集合fea′,完成基于K-组合均值的特征增强。
10.一种基于K-组合均值特征增强的小样本目标检测***,其特征在于,包括:
划分模块,对类别集合C进行划分,根据类别划分得到用于训练的基类图像及目标检测任务对应的标签用于微调的M′n个新类图像及对应的标签和用于测试的新类图像b为基类,Mb为基类图像的数量,n为新类,Mn为新类图像的数量;
微调模块,将划分模块中得到的新类图像及对应的标签分批次输入构造模块构建的新的目标检测模型中,对目标检测模型中新的分类器与回归器进行微调,并使用组合模块得到的新类的特征样本集合fea′对分类器进行微调,每批次的大小为E′;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605372.7A CN113255791B (zh) | 2021-05-31 | 2021-05-31 | 基于k-组合均值特征增强的小样本目标检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605372.7A CN113255791B (zh) | 2021-05-31 | 2021-05-31 | 基于k-组合均值特征增强的小样本目标检测方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255791A true CN113255791A (zh) | 2021-08-13 |
CN113255791B CN113255791B (zh) | 2022-11-25 |
Family
ID=77185563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110605372.7A Active CN113255791B (zh) | 2021-05-31 | 2021-05-31 | 基于k-组合均值特征增强的小样本目标检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255791B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351300A (zh) * | 2023-09-14 | 2024-01-05 | 北京市燃气集团有限责任公司 | 一种目标检测模型的小样本训练方法及装置 |
CN117557909A (zh) * | 2023-11-27 | 2024-02-13 | 中国科学院空天信息创新研究院 | 面向小样本弱小目标的遥感基础模型持续学习方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349148A (zh) * | 2019-07-11 | 2019-10-18 | 电子科技大学 | 一种基于弱监督学习的图像目标检测方法 |
CN111783831A (zh) * | 2020-05-29 | 2020-10-16 | 河海大学 | 基于多源多标签共享子空间学习的复杂图像精确分类方法 |
CN112418256A (zh) * | 2019-08-21 | 2021-02-26 | 阿里巴巴集团控股有限公司 | 分类、模型训练、信息搜索方法、***及设备 |
-
2021
- 2021-05-31 CN CN202110605372.7A patent/CN113255791B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349148A (zh) * | 2019-07-11 | 2019-10-18 | 电子科技大学 | 一种基于弱监督学习的图像目标检测方法 |
CN112418256A (zh) * | 2019-08-21 | 2021-02-26 | 阿里巴巴集团控股有限公司 | 分类、模型训练、信息搜索方法、***及设备 |
CN111783831A (zh) * | 2020-05-29 | 2020-10-16 | 河海大学 | 基于多源多标签共享子空间学习的复杂图像精确分类方法 |
Non-Patent Citations (2)
Title |
---|
XIN WANG ET AL.: "Frustratingly Simple Few-Shot Object Detection", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
崔正大: "基于深度学习的红外图像分析研究与应用", 《知网》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351300A (zh) * | 2023-09-14 | 2024-01-05 | 北京市燃气集团有限责任公司 | 一种目标检测模型的小样本训练方法及装置 |
CN117351300B (zh) * | 2023-09-14 | 2024-05-14 | 北京市燃气集团有限责任公司 | 一种目标检测模型的小样本训练方法及装置 |
CN117557909A (zh) * | 2023-11-27 | 2024-02-13 | 中国科学院空天信息创新研究院 | 面向小样本弱小目标的遥感基础模型持续学习方法及装置 |
CN117557909B (zh) * | 2023-11-27 | 2024-07-12 | 中国科学院空天信息创新研究院 | 面向小样本弱小目标的遥感基础模型持续学习方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113255791B (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10297029B2 (en) | Method and device for image segmentation | |
CN106156777B (zh) | 文本图片检测方法及装置 | |
CN113255791B (zh) | 基于k-组合均值特征增强的小样本目标检测方法及*** | |
CN103425996B (zh) | 一种并行分布式的大规模图像识别方法 | |
CN105261109A (zh) | 一种钞票冠字号识别方法 | |
CN103020971A (zh) | 从图像中自动分割目标对象的方法 | |
CN109002851A (zh) | 一种基于图像多特征融合的水果分类方法及应用 | |
Zhou et al. | Adaptive feeding: Achieving fast and accurate detections by adaptively combining object detectors | |
Zhang et al. | Automatic discrimination of text and non-text natural images | |
CN114283350A (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
CN111694954B (zh) | 图像分类方法、装置和电子设备 | |
CN107577994A (zh) | 一种基于深度学习的行人、车辆附属品识别及检索方法 | |
CN105389588A (zh) | 基于多语义码本图像特征表示方法 | |
CN103366175A (zh) | 基于潜在狄利克雷分配的自然图像分类方法 | |
Khan et al. | Building discriminative features of scene recognition using multi-stages of inception-ResNet-v2 | |
CN111985488B (zh) | 一种基于离线高斯模型的目标检测分割方法及*** | |
CN108197641A (zh) | 一种基于兴趣域检测的空间金字塔匹配图像分类方法 | |
CN113283513A (zh) | 基于目标互换和度量学习的小样本目标检测方法及*** | |
CN113010705A (zh) | 标签预测方法、装置、设备及存储介质 | |
Liu et al. | Automatic grape bunch detection in vineyards for precise yield estimation | |
JP2015109024A (ja) | 画像辞書生成装置、画像辞書生成方法及びコンピュータプログラム | |
Schall et al. | Deep aggregation of regional convolutional activations for content based image retrieval | |
Ramanathan et al. | Quadtree decomposition based extended vector space model for image retrieval | |
Yan et al. | A comparison of l_1 norm and l_2 norm multiple kernel SVMs in image and video classification | |
CN112949634B (zh) | 一种铁路接触网鸟窝检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |