CN111783819B - 小规模数据集上基于感兴趣区域训练改进的目标检测方法 - Google Patents
小规模数据集上基于感兴趣区域训练改进的目标检测方法 Download PDFInfo
- Publication number
- CN111783819B CN111783819B CN202010383794.XA CN202010383794A CN111783819B CN 111783819 B CN111783819 B CN 111783819B CN 202010383794 A CN202010383794 A CN 202010383794A CN 111783819 B CN111783819 B CN 111783819B
- Authority
- CN
- China
- Prior art keywords
- training
- target detection
- detection model
- scale
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 155
- 238000001514 detection method Methods 0.000 title claims abstract description 131
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000002708 enhancing effect Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 6
- 238000010191 image analysis Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 238000013135 deep learning Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000005770 birds nest Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 235000005765 wild carrot Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种小规模数据集上基于感兴趣区域训练改进的目标检测方法,属于图像分析技术领域,通过目标检测模型获得图像目标检测结果,其对目标检测模型的训练过程包括一个循环依次独立进行边框回归任务训练和分类任务训练的阶段,使用由小规模数据集经过第一数据增强后获得的第一训练集对目标检测模型进行边框回归任务训练,使用由第一训练集经过第二数据增强后获得的第二训练集对目标检测模型进行分类任务训练;第二训练集的每张图像其感兴趣区域外包含部分该图片的全局信息。本发明方法在训练阶段引入感兴趣区域机制,克服现有One‑Stage目标检测模型在小规模数据集上训练时易发生的过拟合现象,进而获得准确的目标检测模型。
Description
技术领域
本发明属于图像分析技术领域,涉及一种小规模数据集上基于感兴趣区域训 练改进的目标检测方法。
背景技术
深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML,)领 域中一个研究方向,其通过神经网络学习提取特征而非使用人工提取特征的特点, 使得学习效率与准确率大大提高,已在图像分类、目标检测、图像分割、自然语 言处理等领域广泛应用。然而,由于深度学习方法一般由数据驱动,其对于样本 数据数量、丰富程度和准确性等都有着较高的要求。在目标检测领域,若样本数 据量以及丰富程度不足,深度学习模型不仅会提取学习样本中的目标特征,对于样本中的背景噪声,也将纳入学习范围,导致模型对数据过拟合。发生过拟合后, 目标检测的对于目标的召回率将严重下降,严重影响检测性能。
基于深度学习的目标检测方法一般为两类:一是Two-Stage检测算法,其 将检测问题分为两个阶段,第一个阶段产生候选区域,第二阶段对目标进行分类 和位置修正,主要的代表模型有区域卷积神经网络(Region with CNN,R-CNN)、 Fast R-CNN、Faster R-CNN等;二是One-Stage检测算法,无需产生候选区域, 使用单一网络直接预测目标的种类概率以及位置信息,典型代表有SSD(Single Shot MultiBox Detector)模型和YOLO(YouLook Only Once)模型。
对于One-Stage目标检测模型,由于缺少类似Two-Stage算法的目标框先 验机制,在分类训练时,经常会对训练集数据产生更加严重的过拟合。特别是在
发明内容
本发明的目的在于提供一种在小规模数据集上基于感兴趣区域训练改进的 目标检测方法,在训练阶段引入感兴趣区域机制,克服现有One-Stage目标检 测模型在小规模数据集上进行训练时,易发生过拟合的现象,进而获得准确的目 标检测模型。
本发明提供的技术方案是一种小规模数据集上基于感兴趣区域训练改进的 目标检测方法,通过目标检测模型获得图像目标检测结果,所述目标检测模型包 括多层输出的深度特征提取网络和多尺度融合检测头;对所述目标检测模型的训 练过程包括一个循环依次独立进行边框回归任务训练和分类任务训练的阶段。这 种独立训练可以通过调整损失函数中一个损失的系数实现,使得在该阶段的分类任务训练能够有可能学习训练集各图片的部分全局信息,同时,不影响边框回归 任务训练对感兴趣区域的边框识别学习。
本发明的一个实施例中,使用标记感兴趣区域的小规模数据集对所述目标检 测模型进行边框回归任务训练和分类任务训练,本发明方法尤其适于含有目标对 象的小规模数据集的训练后的目标检测,在获取有限的数据集后,经过学习,也 可以提供较为精确的目标检测结果。
本发明的一个实施例中,使用大规模数据集对所述深度特征提取网络进行预 训练,这种大规模数据集是一种分类数据集,其分类类别基本上与所需识别目标 的分类无关,深度特征提取网络基本上是只分类,不回归的分类模型,训练这个 分类模型的过程为预训练,这种预训练获得的网络权重可以缩短基于小规模数据集的训练时间。在使用无分类的大规模数据集时,需要对该数据集进行转换,以 获得预训练需要的分类格式的数据集。
本发明的一个实施例中,使用由所述小规模数据集经过第一数据增强后获得 的第一训练集对所述目标检测模型进行所述边框回归任务训练,使用由所述第一 训练集经过第二数据增强后获得的第二训练集对所述目标检测模型进行所述分 类任务训练;所述第二训练集的每张图像其感兴趣区域外包含部分该图片的全局 信息。在循环依次独立进行边框回归任务训练和分类任务训练的阶段使用不同的小规模训练集,第一训练集目标在于让本发明One-Stage类型的目标检测模型 获得边框识别能力,第二训练集目标在于让本发明One-Stage类型的目标检测 模型获得分类能力,并且这种分类能力是可以抑制过拟合的。
上述实施例的一个改进可以是,所述第一数据增强用于获得规模大于所述小 规模数据集的第一训练集,其方法包括翻转、平移、模糊、缩放和裁剪中的一种 以上;所述第二数据增强用于依据图像一个背景区域与其一个感兴趣区域之间的 距离部分保留该背景区域的背景信息,其方法包括加噪。通过第一数据增强获得 规模大于原始小规模数据集的第一训练集,以获得更丰富的训练数据,通过第二数据增强获得规模基本上与第一训练集相同,但是包含了部分全局信息的第二训 练集,以便保留部分背景信息,提高训练结束后目标检测模型的分类识别能力。
本发明的一个实施例中,示范的,提供了一种加噪方法:对于标记有若干个 感兴趣区域的一张图片,其像素px,y处加入噪声的辐度nx,y为min(b,a×d),其 中,d为像素px,y到所有感兴趣区域的最短距离,a为噪声强度参数,b为最大加 噪强度。再进一步的改进中,通过调整上述各个参数,可以优化训练结果。
本发明的一个实施例中,在多尺度融合检测头中,利用特征金字塔网络结构 将得到的深度模型特征提取网络的输出中不同尺寸特征图逐层进行上采样、融合、 卷积,得到与其检测头数量n相同的n个尺度的目标检测输出。
本发明的一个实施例中,所述多尺度融合检测头的每个检测头分别包括用于 分类任务训练的分类输出层和用于所述边框回归任务训练的回归输出层。在一次 独立训练中,如果分类输出层对应的损失系数占全部损失的权重较大,可使得本 次训练专注于分类任务训练,如果回归输出层对应的损失系数占全部损失的权重 较大,可使得本次训练专注于边框回归任务训练。
本发明的一个实施例中,每次所述边框回归任务训练的学习率低于上次所述 边框回归任务训练的学习率,同时,每次所述分类任务训练的学习率低于上次所 述分类任务训练的的学习率。
本发明的一个实施例中,在所述循环独立训练阶段结束后,使用所述第一训 练集对所述目标检测模型微调。在微调模型时,基本上,各个损失的权重是相差 较小的,以便在该微调训练中同时考虑分类任务训练和边框回归任务训练。
与现有方法相比,本发明的有益效果是:
本发明通过对数据增强以及训练方法的改进出发,对现有One-Stage目标 检测过于依赖数据的缺陷做出了改进。对训练输入数据进行局部限强加噪处理, 距离目标越远,噪声强度越大,使得特征提取网络对于输入图片背景噪声拟合难 度增加,降低了小数据集上模型的过拟合可能性。对于距离目标较近的区域,同 样也保留了部分背景信息,使得网络能够自适应学习不同范围的特征。在训练时, 分别训练回归任务与分类任务。根据不同任务分别使用不同的训练集:对于需要 更多全局信息的回归任务,输入未加噪声图片,更易于提取全局信息;对于需要更加关注局部的分类任务,输入加噪图片,更关注目标特征。经过测试,该方法 在小规模数据集上具有较普遍的实际意义。该发明切实可行,对相关问题的方案 设计有一定的借鉴意义。
附图说明
图1为本发明一个实施例中的目标检测模型的结构示意图;
图2为本发明一个实施例中对目标检测模型的训练方法流程示意图;
图3为图2实施例中对目标检测模型的实施训练时的数据流示意图;
图4为本发明一个实施例中使用一个最大加噪强度进行加噪后的第二训练 集中的包含目标物体的图像;
图5为本发明一个实施例中使用一个最大加噪强度进行加噪后的第二训练 集中的包含目标物体的图像;
图6为一个应用实施例中使用本发明方法训练后对变电站设备缺陷图像部 分检测结果;
图7为一个应用实施例中使用本发明方法对VOC2007数据集部分图像进行 检测所获得的结果图像。
具体实施方式
首先应当说明的是,本发明的技术方案的基本思路是:在使用One-Stage类 型的目标检测模型实施训练时,首先对输入数据进行处理,调节图像不同区域学 习难度,使得目标分类任务训练过程以及边框回归任务训练过程能够自适应关注 范围,即感兴趣区域,同时,特别的,使得分类任务训练过程既能够学习部分全 局信息,又能够关注局部信息。本发明方法在模型训练阶段的一个方面目标在于 形成软性感兴趣区域机制,这是一种与Two-Stage的候选区域机制不同的方法, 在Two-Stage类的目标检测模型中,包括一个识别候选区域为感兴趣区域的模块,其在分类的时候,直接将提取的全图特征中将目标的部分分割出来,这种分 割是非此即彼的硬性感兴趣区域机制,而本发明方法是调节不同区域学习难度, 例如渐变的增加不同强度噪声,不设置明确边界的软性的让分类任务训练过程关注目标本身。
本发明技术方案首先是基于一种目标检测模型的,如图1所示,这种目标检 测模型基本上是One-Stage的,其包括多层输出的深度特征提取网络1和多尺 度融合检测头2。多层输出的深度特征提取网络中由上到下包括n层主干网络, 每层主干网络包括一个或者多个卷积层,每层主干网络向下层主干网络输出一个 尺度的特征图,从这些的主干网络中由上到下选择多个主干网络向多尺度融合检 测头2输出该层获取的一个尺度的特征图。主干网络向下越深,其输出特征图的尺度越小。在多尺度融合检测头2中,与选择的主干网络的数量一致且尺度对应 的,设有多个独立的检测头(Detection Head),选中主干网络输出的特征图在多 尺度融合检测头2中逐层进行上采样和张量拼接,除最底层的,或者说最小尺度 的检测头是直接对最底层在主干网络输出的特征图进行识别外,其他检测头的输 入均为本层张量拼接后的特征图。每个检测头的输出分别由回归输出层处理和分 类输出层处理后,总的作为目标检测模型的一个目标检测输出结果。图1实施例 中,1≥i>j>n,因为分别选择了第i层、第j层、第n层三个主干网络,与其对 应的,多尺度融合检测头2中由下到上设置了三个针对不同尺度的检测头,在其 他实施例中,由于选择的主干网络的数量不同,多尺度融合检测头2中检测头的 数量也相应的不同。
如图2、3所示的实施例中,基于上述目标检测模型结构的,通过如下步骤 S100至S110对该目标检测模型实施训练,获得目标检测模型的各节点权重值。
S100,对多层输出的深度特征提取网络实施基于大规模数据集的预训练,获 得目标检测模型的初始参数值。
具体的,使用大规模数据集对目标检测模型中的多层输出的深度特征提取网 络进行预训练。将预训练获得的权重值作为目标检测模型中深度特征提取网络的 初始参数值,以达到加速收敛速度,提高检测精度的目的。
作为示范的,本发明实施例中大规模数据集选用ImageNet提供的图像数据 集,多层输出的深度特征提取网络选用MobileNetV2网络。
S101,使用一个标记有感兴趣区域的小规模数据集获得用于训练目标检测模 型所需的锚点(Anchor)。
具体的,本发明通过对小规模数据集的各个图片设置Ground Truth目标框 的方式标记感兴趣区域,示范的,感兴趣区域为覆盖感兴趣设备的最小矩形。基 于该小规模数据集的,对Ground Truth目标框的尺寸进行归一化后聚类分析, 示范性的,本实施例利用Kmeans算法对Ground Truth目标框的尺寸分布进行 分析,获得一组关于Ground Truth目标框的尺寸聚类结果,示范性的,该结果 包括多个不同尺度,一个尺度对应一个锚框(Anchor Box)形状的,建立一个包 含多个锚框尺度的集合。
每个尺度的特征图的特征点作为一个锚点,每个锚点对应上述集合中若干锚 框尺寸的锚框,则对于一幅图像多尺度融合检测头需要检测的全部锚点的锚框的 数量为:
其中,wi和hi分别是第i个特征图的长度和宽度,k为第i个特征图对应的锚框 尺寸的个数,在本实施例中,一个特征图的尺度对应一个选中的主干网络,即该 主干网络卷积输出的特征图的尺度是锚框集中的一个固定尺度。具体的,对于尺 度为的7×10的特征图,那么有70个像素,即70个特征点,70个锚点,如果 每个锚点对应3个锚框尺寸,那么该特征图对应的检测头检测210个锚框。那么 该特征图对应的检测头检测210个锚框,其他尺度特征图的锚框数量同上述算法。上述算法的一个方面用于配置多尺度融合检测头输出后的解码器对多尺度融 合检测头输出的合并解码。
S102,使用标记有感兴趣区域的小规模数据集获得用于对目标检测模型进行 边框回归任务训练的第一训练集和用于对目标检测模型进行分类任务训练的第 二训练集。
示范性的,本实施例中,通过对小规模数据集图片分别进行翻转、平移、模 糊、缩放、裁剪等方法进行增强后获得数量更多的图片,这些图片的集合作为第 一训练集。
示范性的,本实施例中,对第一训练集根据各个图片其一个像素与各个 GroundTruth目标框距离进行加噪处理后,作为第二训练集。具体加噪方法为, 对于标记有若干个感兴趣区域的一张图片,像素px,y处加入噪声的辐度nx,y为:
min(b,a×d)
其中,d为像素px,y到所有感兴趣区域的最短距离,a为噪声强度参数,b为 最大加噪强度。加噪处理后的各个图片的集合作为第二训练集。这种加噪,保留 了感兴趣区域外背景区域的部分背景信息,即第二训练集的每张图片中,感兴趣 区域不存在明确的视觉边界,并且越接近图片感兴趣区域边界位置,保留的背景 信息越多,而Two-Stage类型目标检测模型中,第一阶段识别的候选区域后,为第二阶段提供的检测信息中在候选区域外不包含任何背景信息。
S103,在多尺度融合检测头中,多尺度融合的获取各个检测头的目标检测数 据。
具体的,以S100预训练得到的初始参数的,在深度模型特征提取网络的前 向传播过程中,选择深度模型特征提取网络中多层不同深度主干网络的不同尺寸 的输出特征图作为深度模型特征提取网络的输出。在多尺度融合检测头中,利用 特征金字塔网络(FPN)结构将得到的深度模型特征提取网络的输出中不同尺寸 特征图进行上采样、融合、卷积,得到与检测头数量n相同的n个尺度的目标检测 输出为:
wi×hi×k×(c+5)
其中,c为目标类别数量,wi和hi分别是第i个输出卷积特征图的长度和宽度。 输出所有Anchor的c个分类结果以及对应预测框的四个坐标和一个置信度。预 测框的四个坐标分别是横坐标位置、纵坐标位置,预测框长度和预测框宽度。
S104,配置多尺度融合检测头的输出的解码算法。解码算法目的在于将目标 检测模型检测头的输出转换为坐标预测结果,即真实图片中的坐标。
具体的,本实施例中,利用步骤S101生成的锚框进行回归训练,选取与 GroundTruth目标框的IOU相比最大的锚框作为负责预测一个目标物体的锚点, 预测输出与实际坐标的关系为式(1)至(4):
x′=x+sig mod(px)×w (1)
y′=y+sig mod(py)×h (2)
其中,x′、y′、w′、h′分别代表锚点集各锚点Anchors回归后的中心坐标和 长度、宽度,x、y、w、h分别代表锚点集各锚点Anchors的左上点坐标和Anchors 的宽度、高度,px、py、pw、ph代表目标检测网络整体在一次边框回归训练中预 测获得的回归值。
在使用目标检测模型进行预测时,对于每个锚点的分类结果,以该锚点的c 个分类预测结果与该锚点的置信度相乘的积作为c个类别的置信度。选取一个值 作为确信该锚点正确预测目标的阈值,该阈值取值范围为0~1,优选为0.7。对 于每个锚点,当某一类或多类的置信度大于等于阈值时,将其输出作为有效输出, 进行非极大值抑制处理得出最终的预测框。
S105,配置目标检测模型训练中的总和损失函数。
具体的,本实施例中,对于负责检测目标的Anchor,其置信度C为1;不负 责检测目标且预测框与ground truth的IOU大于0.5的Anchor,忽略;其他Anchor置信度C为0。
本实施例使用交叉熵函数作为置信度预测的损失函数,公式如下
式中,Cij是预测置信度值,是真实置信度值,网络有n个输出尺度,σ为 sigmoid函数,Anchor负责预测时/>为1,Anchor不负责预测时/>为0;Anchor 忽略时,/>否则为1。
使用交叉熵函数作为分类预测网络的损失函数,公式如下
式中,pij是预测分类值,是真实分类值,网络有n个输出尺度,σ为sigmoid 函数,Anchor负责预测时/>为1,Anchor不负责预测时为0。
在边框回归上,本发明使用均方误差损失函数,公式如下:
式中,xij、yij、wij、hij是预测框中心坐标和长度宽度,是真实框中心坐标和宽度高度。
总和损失函数为下式:
LOSS=αobjLobj+αnoobjLnoobj+αclassLclass+αwhLwh+αxyLxy (10)
式中,αobj、αnoobj、αclass、αwh、αxy为公式(5)至(9)各个loss函数的 权重。
S106,在确定了解码算法和总和损失函数的前提下,通过第一训练集,对目 标检测模型实施边框回归任务训练,以获得经过一次独立实施的边框回归任务训 练的目标检测模型。
具体的,在一次独立实施的边框回归任务训练中调整总和损失函数中aclass的值为零,即相当于仅仅对目标检测模型的边框回归输出能力进行训练。
具体的,使用第一训练集进行训练。将该训练集的大部分图像作为train set, 其余作为validation set,使用第一学习率对train set进行训练,示范的,设学习 率为0.001,同时validation set作为验证集。将αclass置为0,αnoobj置为0.01, 其余权重置为1,进行训练。将当验证集的loss不再下降时,停止本次边框回归 任务训练。在其他实施例中,αclass可以设为远小于其他损失系数的权重值,以 便该训练是专注于边框回归任务的,同时,αnoobj也置为一个较小的权重。
S107,在确定了解码算法和总和损失函数的前提下,通过第二训练集,对目 标检测模型实施分类任务训练,以获得经过一次独立实施的分类任务训练的目标 检测模型。
具体的,在一次独立实施的分类任务训练中,通过将总和损失函数中awh, axy均置为零,即相当于仅仅对目标检测模型的分类任务输出能力进行训练。
具体的,使用第二训练集进行训练。将训练集的大部分作为train set,训练 集其余作为validation set。使用第二学习率对train set进行训练,示范的,设第 二学习率为0.001,同时validation set作为验证集。特别的,本实施例将αclass置 为1,其余权重均置为0,进行训练。将当验证集的loss不再下降时,停止本次 分类任务训练。
S108,循环依次重复S106、S107,在循环中逐步降低第一学习率和第二学 习率,直到边框回归任务训练在一个第一学习率下的损失相比上一次边框回归任 务训练的损失不再下降,同时,分类任务训练在一个第二学习率下相比上一次分 类任务训练的损失不再下降。
具体的,每次实施S106时使用的第一学习率比上一次实施S106的第一学 习率低,比如上一次为0.001,则本次可以为0.0005;每次实施S107时使用的 第二学习率比上一次实施S107的第二学习率低,比如上一次为0.001,则本次 可以为0.0005。每次循环中,第一学习率和第二学习率可以不同。同时,由于重 复实施S106和S107,那么在第一次循环开始时,也可以首先实施S107后再实 施S106。
S109,以较低的αnoobj权重微调模型。
具体的,设置一个低于最后一次循环中使用的第一学习率和第二学习率的学 习率,使用第一训练集,对目标检测模型整体训练微调,训练S108获得的目标 检测模型至验证集的总loss不再下降。示范的,训练中的总和损失函数将αnoobj置为0.01,其余权重置为1,以使微调训练中降低Lonobj的整体权重。
S110,测试模型。
使用S108或者S109获得的训练完成的目标检测模型,以原始未经增强的 小规模数据集作为测试集对图像进行预测。根据预测结果准确率评价该模型性能。
具体实施例一
在一个具体实施例中,对变电站设备缺陷图像进行数据增强及加噪后分别作 为本发明目标检测模型的输入,图4、5所示加噪后的第二训练集中变电站设备 缺陷图像,其中,图4显示最大加噪强度为127的处理结果,感兴趣区域包含目 标物体为牛,图5显示最大加噪强度为255的处理结果,感兴趣区域包含物体为 呼吸器,可以看出包含目标物体的区域与背景之间不存在明确的边界,并且越靠 近感兴趣区域就包含越多的背景信息,是一种软性感兴趣区域机制。作为对比的, 一个硬性感兴趣区域机制的包含候选区域的图片,其候选区域外是全黑的,即候 选区域外任一处区域的背景信息为零。使用320*224分辨率经过预训练完成的 MobileNetV2网络作为目标检测模型的深度特征提取网络,在深度特征提取网络选择两个主干网络输出特征图设置为深度特征提取网络的两个输出,其尺度,及 尺寸分别为7×10与14×20。根据数据集生成的Anchor归一化尺寸分别为 (0.73×0.79),(0.54×0.42),(0.33×0.71),(0.24×0.25),(0.16×0.46),(0.07×0.16), 使用本发明算法进行训练后,对变电站设备缺陷图像部分检测结果如图6所示, 其中,(a)为呼吸器变色故障,(b)为正常呼吸器,(c)为绝缘子破损故障,(d) 为鸟巢异物。
具体实施例二
将VOC2007数据集选取部分作为本发明目标检测模型的小规模数据集,进 行标记后进行数据增强及加噪后作为本发明目标检测模型的输入,使用320*224分辨率经过预训练完成的MobileNetV2网络提取特征,特征提取网络设置两个 输出,尺寸分别为7*10与14*20。根据数据集生成的Anchor归一化尺寸分别为 (0.50×0.72),(0.46×0.33),(0.30×0.36),(0.20×0.56),(0.17×0.27),(0.10×0.11), 使用本发明算法进行训练后,使用本发明方法对VOC2007数据集部分图像检测 结果如图7所示,其中,(a)为公交车,(b)为牛。
Claims (6)
1.一种小规模数据集上基于感兴趣区域训练改进的目标检测方法,通过目标检测模型获得图像目标检测结果,其特征在于:所述目标检测模型包括多层输出的深度特征提取网络和多尺度融合检测头;对所述目标检测模型的训练过程包括一个循环依次独立进行边框回归任务训练和分类任务训练的阶段;
使用标记感兴趣区域的小规模数据集对所述目标检测模型进行边框回归任务训练和分类任务训练;
使用由所述小规模数据集经过第一数据增强后获得的第一训练集对所述目标检测模型进行所述边框回归任务训练,使用由所述第一训练集经过第二数据增强后获得的第二训练集对所述目标检测模型进行所述分类任务训练;所述第二训练集的每张图像其感兴趣区域外包含部分该图像的全局信息;
所述第一数据增强用于获得规模大于所述小规模数据集的第一训练集,其方法包括翻转、平移、模糊、缩放和裁剪中的一种以上;所述第二数据增强用于依据图像一个背景区域与其一个感兴趣区域之间的距离部分保留该背景区域的背景信息,其方法包括加噪;
所述加噪方法为,对于标记有若干个感兴趣区域的一张图片,其像素px,y处加入噪声的辐度nx,y为min(b,a×d),其中,d为像素px,y到所有感兴趣区域的最短距离,a为噪声强度参数,b为最大加噪强度。
2.根据权利要求1所述的目标检测方法,其特征在于:使用大规模数据集对所述深度特征提取网络进行预训练。
3.根据权利要求1所述的目标检测方法,其特征在于:在所述多尺度融合检测头中,利用特征金字塔网络结构将得到的深度模型特征提取网络的输出中不同尺寸特征图逐层进行上采样、融合、卷积,得到与其检测头数量n相同的n个尺度的目标检测输出。
4.根据权利要求1所述的目标检测方法,其特征在于:所述多尺度融合检测头的每个检测头分别包括用于分类任务训练的分类输出层和用于所述边框回归任务训练的回归输出层。
5.根据权利要求1所述的目标检测方法,其特征在于:每次所述边框回归任务训练的学习率低于上次所述边框回归任务训练的学习率,同时,每次所述分类任务训练的学习率低于上次所述分类任务训练的学习率。
6.根据权利要求1所述的目标检测方法,其特征在于:在所述阶段结束后,使用所述第一训练集对所述目标检测模型微调。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010383794.XA CN111783819B (zh) | 2020-05-08 | 2020-05-08 | 小规模数据集上基于感兴趣区域训练改进的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010383794.XA CN111783819B (zh) | 2020-05-08 | 2020-05-08 | 小规模数据集上基于感兴趣区域训练改进的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783819A CN111783819A (zh) | 2020-10-16 |
CN111783819B true CN111783819B (zh) | 2024-02-09 |
Family
ID=72753473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010383794.XA Active CN111783819B (zh) | 2020-05-08 | 2020-05-08 | 小规模数据集上基于感兴趣区域训练改进的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783819B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990348B (zh) * | 2021-04-12 | 2023-08-22 | 华南理工大学 | 一种自调节特征融合的小目标检测方法 |
CN113536896B (zh) * | 2021-05-28 | 2022-07-08 | 国网河北省电力有限公司石家庄供电分公司 | 基于改进Faster RCNN的绝缘子缺陷检测方法、装置及存储介质 |
CN113673510B (zh) * | 2021-07-29 | 2024-04-26 | 复旦大学 | 一种结合特征点和锚框共同预测和回归的目标检测方法 |
CN113808084A (zh) * | 2021-08-25 | 2021-12-17 | 杭州安脉盛智能技术有限公司 | 一种模型融合的在线烟包表面霉变检测方法及*** |
CN114299366A (zh) * | 2022-03-10 | 2022-04-08 | 青岛海尔工业智能研究院有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614985A (zh) * | 2018-11-06 | 2019-04-12 | 华南理工大学 | 一种基于密集连接特征金字塔网络的目标检测方法 |
CN109615016A (zh) * | 2018-12-20 | 2019-04-12 | 北京理工大学 | 一种基于金字塔输入增益的卷积神经网络的目标检测方法 |
CN110766098A (zh) * | 2019-11-07 | 2020-02-07 | 中国石油大学(华东) | 基于改进YOLOv3的交通场景小目标检测方法 |
CN111046923A (zh) * | 2019-11-26 | 2020-04-21 | 佛山科学技术学院 | 一种基于边界框的图像目标检测方法、装置及存储介质 |
CN111091105A (zh) * | 2019-12-23 | 2020-05-01 | 郑州轻工业大学 | 基于新的边框回归损失函数的遥感图像目标检测方法 |
-
2020
- 2020-05-08 CN CN202010383794.XA patent/CN111783819B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614985A (zh) * | 2018-11-06 | 2019-04-12 | 华南理工大学 | 一种基于密集连接特征金字塔网络的目标检测方法 |
CN109615016A (zh) * | 2018-12-20 | 2019-04-12 | 北京理工大学 | 一种基于金字塔输入增益的卷积神经网络的目标检测方法 |
CN110766098A (zh) * | 2019-11-07 | 2020-02-07 | 中国石油大学(华东) | 基于改进YOLOv3的交通场景小目标检测方法 |
CN111046923A (zh) * | 2019-11-26 | 2020-04-21 | 佛山科学技术学院 | 一种基于边界框的图像目标检测方法、装置及存储介质 |
CN111091105A (zh) * | 2019-12-23 | 2020-05-01 | 郑州轻工业大学 | 基于新的边框回归损失函数的遥感图像目标检测方法 |
Non-Patent Citations (1)
Title |
---|
"Rethinking Classification and Localization for Object Detection";Yue Wu等;《arXiv》;第1-13页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783819A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783819B (zh) | 小规模数据集上基于感兴趣区域训练改进的目标检测方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN110287960B (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN111126472B (zh) | 一种基于ssd改进的目标检测方法 | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
CN114022432B (zh) | 基于改进的yolov5的绝缘子缺陷检测方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN112348036A (zh) | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 | |
CN111027493A (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN110287777B (zh) | 一种自然场景下的金丝猴躯体分割算法 | |
CN114841972A (zh) | 基于显著性图和语义嵌入特征金字塔的输电线路缺陷识别方法 | |
CN111612017A (zh) | 一种基于信息增强的目标检测方法 | |
CN111680705B (zh) | 适于目标检测的mb-ssd方法和mb-ssd特征提取网络 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN112232371A (zh) | 一种基于YOLOv3与文本识别的美式车牌识别方法 | |
CN116994140A (zh) | 基于遥感影像的耕地提取方法、装置、设备和介质 | |
CN110781980A (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN112926652A (zh) | 一种基于深度学习的鱼类细粒度图像识别方法 | |
CN116012291A (zh) | 工业零件图像缺陷检测方法及***、电子设备和存储介质 | |
CN114897802A (zh) | 一种基于改进Faster RCNN算法的金属表面缺陷检测方法 | |
CN116152226A (zh) | 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法 | |
CN115661655A (zh) | 高光谱和高分影像深度特征融合的西南山区耕地提取方法 | |
CN115239672A (zh) | 缺陷检测方法及装置、设备、存储介质 | |
CN114283431A (zh) | 一种基于可微分二值化的文本检测方法 | |
CN112132839B (zh) | 一种基于深度卷积级联网络的多尺度快速人脸分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |