CN109800778A - 一种基于难分样本挖掘的Faster RCNN目标检测方法 - Google Patents

一种基于难分样本挖掘的Faster RCNN目标检测方法 Download PDF

Info

Publication number
CN109800778A
CN109800778A CN201811463226.XA CN201811463226A CN109800778A CN 109800778 A CN109800778 A CN 109800778A CN 201811463226 A CN201811463226 A CN 201811463226A CN 109800778 A CN109800778 A CN 109800778A
Authority
CN
China
Prior art keywords
sample
frame
threshold value
iou
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811463226.XA
Other languages
English (en)
Other versions
CN109800778B (zh
Inventor
张烨
樊一超
郭艺玲
许艇
程康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201811463226.XA priority Critical patent/CN109800778B/zh
Publication of CN109800778A publication Critical patent/CN109800778A/zh
Application granted granted Critical
Publication of CN109800778B publication Critical patent/CN109800778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于难分样本挖掘的Faster RCNN目标检测方法,包括:步骤1,基于深度学***衡化处理,能够满足训练损失的持续降低。

Description

一种基于难分样本挖掘的Faster RCNN目标检测方法
技术领域
本发明涉及一种基于在线的样本挖掘技术(OHEM)与负难分样本挖掘(HNEM)等技术相 结合的方法。
技术背景
近几年随着计算机科学技术的飞速发展,基于计算机技术的图像处理、图像目标检测等 也获得了空前的快速发展,其中深度学习通过学习海量的数字图像特征,提取关键目标特征, 在目标检测上已超过人类,给工业界带来了一个又一个惊喜。计算机视觉的两大任务是图像 分类和目标定位检测,而传统方法的图像特征检测是依靠富有经验的算法工程师设计对应目 标的匹配模板,比如可变形模型(DPM)、HOG特征提取等,前者的目标检测是通过滑动的 窗口对目标进行定位,而后采用固定特征的模板匹配对其进行分类。其存在的问题是检测耗 时长,特征匹配精度低,对特定的目标有效,导致模型泛化能力弱等一系列问题。而最近兴 起的深度学习方法能够针对复杂场景的目标,进行有效地特征识别,识别效果远优于传统方 法,但也存在的不足之处:(1)数据集量庞大深度学习的训练集需要成千上万个样本,才能够 有效学习数据特征,且数据越多,效果越好,给数据采集工作带来一定的困难;(2)硬件要求 较高,训练大数据样本,需要至少4个G的显存,对硬件提出较高要求;(3)训练技巧性强, 当参数设置不合理时,样本训练效果较差,出现难训练的情况。
发明内容
为了克服现有技术的上述不足,本发明针对样本问题提供了一种基于难分样本挖掘的 Faster RCNN目标检测方法,本发明是一种在不增加样本情况下的在线样本挖掘技术和负难 分样本挖掘相结合的技术,使模型能够针对现有的难分样本,有针对性地学习其特征,达到 模型进一步提升泛化性、鲁棒性的效果。
为实现上述目的,本发明采用以下技术方案:
一种基于难分样本挖掘的Faster RCNN目标检测方法,包括如下步骤:
步骤一,基于深度学习的图像目标检测;
目前,基于深度学习的图像目标检测模型大多基于卷积神经网络,所以本发明主要基于 Faster RCNN进行分析,并且提出一种合理的改进后的方法。
Faster RCNN采用了Softmax Loss和Smooth L1 Loss对分类概率和边框回归联合训练, 损失函数公式为:
其中,Ncls=256表示前景的个数,而边框回归个数Nreg=2400是最后特征图滑动的最大 维度数量40×60;i表示某一个建议框;pi表示预测出对应类别的概率,包括前景、背景;表示前景与背景的取值,记前景背景以此计算目标边框回归的损失;ti表 示该建议框的坐标信息,即中心点坐标和建议框宽高ti=(xi,yi,wi,hi),而表示真正对应的 目标物体信息,同样的而λ平衡着边框回归和分类损失的权重;Lcls为 softmax分类损失函数,边框回归损失采用smooth L1的方法。
如上方法训练到一定程度,会产生对难训练的样本数据不足,缺乏对其训练等的问题。 但是,样本挖掘能够解决难分样本训练问题。所以对步骤一中的方法进行如下几个步骤的改 进。
步骤二,基于在线样本挖掘方法,本发明采用的关键参数调整设置为:
(1)设定难分样本的筛选机制。每次迭代筛选的难分样本是根据当前的总损失L({pi},{ti}) 降序排列,并且筛选前B/N个样本量,其中B=64,N为每次训练的图片张数N=1,这样训 练的反向传播速度更快,因为只有少量需要调整的梯度。
(2)提高运算速度。在反向传递时,筛选的难分样本是由前向损失计算得来,通过非难分 样本损失置0操作,并不能减少模型显存量。所以反向传递筛选出B/N难分样本进行梯度传 递,训练的显存容量从3527M减少到3057M。
(3)在RPN层和最后全连接层同时增加OHEM模块。由于良好的分类结果取决于精确的 目标定位,即建议框的产生,所以对RPN层也增加OHEM模块,有利于边框回归出最精确的位置,更是提高了分类的特征提取的有效性。
(4)适当的调整分类损失和边框回归损失的权重。在损失函数公式中,分类损失Lcls和边 框回归损失Lreg是不均衡的,Ncls=256是分类的个数,而Nreg=2400是最后特征图滑动的最 大维度,两者取倒数相差约10倍,因此取λ=10,这样有利于在回归较好边框的同时,有针 对性地学习相应的目标特征。
(5)调整非极大值抑制(NMS)算法。经典的非极大值抑制算法不能很好地保留相邻或重叠 的多目标检测框,导致目标检测的召回率降低。因此,本发明改进的非极大值抑制算法采用 了分类的置信度惩罚机制,在去除冗余的建议框的同时还很好的保留了建议框,并进一步提 高了mAP。具体的操作在步骤三中讲到。
(6)数据增强工作提高了模型的泛化能力。训练时通过随机左右镜像翻转和光照饱和度调 节,增加样本多样性,防止过拟合。为提高模型对不同尺寸图像的检测能力,在训练时使用 了多尺度训练,将图像的短边设置{224,416,480,512,600,672,900}的随机尺寸,另一边等比例 放缩。样本的增强工作也进一步地提高了mAP。
(7)调整了学习率的策略。将学习速率的下降点设置为40k,相当于8个epoch,并且此后 隔20k个迭代次数再下降一次学习速率,这样有利于提高前期的全局范围搜索能力,避免陷 入局部极小值点;同时,后期采用的较小学习速率,进行极小值的精细化调整,有利于损失 的一降再降。
步骤三,负难分样本挖掘是在难分样本基础上通过调整训练中RPN形成的mini-batch正 负样本比例为1:3,进行训练。因为经过多次实验发现,比例为1:3时,在模型的表现力都 是最好的,其具体策略为:
(1)取消负样本的阈值限制。在原先的Faster R-CNN中,判定为背景的机制是根据RPN 产生的候选建议框与真实框之间的交并比IoU的大小进行设定,当IoU的比例在[0.1,0.5)时, 被认为是背景的建议框。这比例设置的不足之处在于忽略了低于0.1以下的罕见、损失较大、 重要的难分负样本,这些特征没能很好的被学习。因此,本发明设置判定背景的阈值为[0,0.5)。 设置了正样本的阈值为IoU值最大的一个,或者IoU的阈值在[0.7,1.0]范围。
(2)设置难分正负样本的比例1:3。如前所述,正负样本同时兼顾,并且更多地学习背景 信息,能够提高模型在特定背景环境下定位检测目标的能力。并且设置了每次的目标图片批 次大小为64,则正样本的数量为16,负样本的数量为48。
(3)同时考虑到预测出的正样本与标签存在多个重复的情况,采用了非极大值抑制方法, 采用0.7的阈值,当目标与标签的IoU在0.7以下时,则予以删除。
对步骤三中的负难分样本挖掘参数的设置进行总结如下:
(1)参数名称:FG_THRESH;代表的含义:正样本IoU阈值;参数取值:[0.7,1.0];
(2)参数名称:BG_THRESH_LO;代表的含义:负样本IoU阈值;参数取值:[0,0.5);
(3)参数名称:HNEM_NMS_THRESH;代表的含义:非极大值抑制阈值;参数取值:0.7;
(4)参数名称:HNEM_BATCHSIZE;代表的含义:图片目标批次大小;参数取值:64;
(5)参数名称:RPN_FG_FRACTION;代表的含义:正样本比例;参数取值:0.25;
(6)参数名称:RPN_BG_FRACTION;代表的含义:负样本比例;参数取值:0.75。
步骤四,剔除冗余框,避免损失的多重计算。采用的是改进后的非极大值抑制算法将RPN 层网络生成的建议框合理的去除冗余。具体的操作为:
避免粗鲁地删除IoU大于阈值的建议框,采取的改进方式是降低其置信度。采取的计算 方法有线性加权、高斯加权法、指数加权法。
其中,线性加权的计算方法是将IoU大于阈值的降低其置信度,即引入罚函数的思想:
式中,si表示当前所属类别的置信度得分,a表示权值系数,0<a≤1,bm表示置信度得分最高所对应的边框,bi表示当前的边框,IoU(bm,bi)表示两者的交并比,Nt表示所给定的阈值。
而采用高斯加权法的计算公式为:
式中,σ的取值不同影响罚函数的惩罚力度,高斯加权函数相比线性加权具有平滑过渡 等特点。
指数加权法同样采用了一定的阈值,当其IoU大于该阈值时,对其进行惩罚。相比线性 加权法,在阈值处具有平滑过渡的特点;相比高斯加权法,在阈值前一阶段能够保留较多权 值。计算公式:
式中,Nt同样表示IoU阈值。
经过多次的实验,针对每一种改进的非极大值抑制算法,对应的具体流程和各自的适应 情况总结如下:
(1)针对线性加权方法,通过置信度降序,筛选某一类中置信度最高的边框作为最优边框, 比较下一个边框的IoU与既定阈值Nt,当小于该阈值时,置信度分值不变;否则置信度阈值 降低为a(1-IoU)的比例,即IoU越大,惩罚力度越大。循环操作,直到所有待定边框的置 信度小于给定的置信度阈值threshold,则舍弃,记录历史最优值。该方法适用于重复边框 较多、时间复杂度低、快速筛选结果的情景,即惩罚的力度较大,很快筛选完毕,但得到的 效果并不太理想。
(2)针对高斯加权法,同样筛选出最优置信度边框,但无需设定Nt的阈值,通过指数函数 递减,即IoU越大,置信度分值递减越大,并且设定的σ值控制着递减的程度。循环比较, 置信度得分,当小于既定置信度阈值threshold,剔除这些冗余框;否则保留置信度高的最 优框。该方法适用于预测产生的边框数量中等、时间要求不高的、数量统计准确的情况,并 且平滑过渡的筛选有助于得到较好的回归框,虽然时间复杂度较线性差,但是得到的结果较 优。
(3)针对指数加权法,同样比较次优置信度边框与最优边框的IoU,设定一定的阈值Nt。 当小于该阈值时,置信度分值不变;否则置信度阈值降低为该指数呈现递减的 效果。直到所有的框都检测完毕,保留置信度大于阈值的建议框。该方法适用于保留较多回 归框、删选部分冗余框的情景,可应用于只需检测目标有无,不需统计数量的情况,因此效 果比线性和高斯加权法差。
所以根据不同的条件和适用场合可以选择不同的计算方法来降低其置信度。
本发明的优点是:
基于在线样本挖掘与负难分样本挖掘相结合的技术,最突出的特点是在不扩充样本的情 况下,放宽负样本的定义,通过样本本身在线挖掘出更多的难训练样本;设置了正负样本比 例,合理而简便地计算损失最大、难训练的、罕见的样本;对分类、边框回归的损失进行了 平衡化处理,能够满足训练损失的持续降低。其次针对多目标重叠漏检问题,通过改进的非 极大值抑制,采用三种不同方式引入罚函数思想减低其置信度;经实验对比,得出采用高斯 加权法对模型效果最好,提升了召回率,解决了多目标漏检问题。该改进算法还可延伸到其 他领域的检测方面,诸如产品缺陷检测方面(链条重叠漏检问题)、行人检测问题、物流运输 车辆统计问题等等。
附图说明
图1是本发明的不同尺寸Anchor产生建议框的流程;
图2是本发明的筛选的难分样本反向传递过程;
图3是本发明的增设的OHEM模块;
图4是本发明的改进的非极大值抑制算法流程;
图5a~图5f是本发明的NMS高斯改进前后的损失收敛曲线与学习速率图像,其中图5a 是RPN层分类损失,图5b是RPN层边框回归损失,图5c是全连接层分类损失,图5d是 全连接层边框回归损失,图5e是总损失,图5f是调整的学习速率策略;
图6是本发明的改进的高斯NMS检测效果。
具体实施方式
本发明针对样本问题提供了一种在不增加样本情况下的在线样本挖掘技术和负难分样本 挖掘相结合的技术,使模型能够针对现有的难分样本,有针对性地学习其特征,达到模型进 一步提升泛化性、鲁棒性的效果。
为实现上述目的,本发明采用以下技术方案:
一种基于难分样本挖掘的Faster RCNN目标检测方法,包括如下步骤:
步骤一,基于深度学习的图像目标检测;
目前,基于深度学习的图像目标检测模型大多基于卷积神经网络,所以本发明主要基于 Faster RCNN进行分析,并且提出一种合理的改进后的方法。
Faster RCNN采用了Softmax Loss和Smooth L1 Loss对分类概率和边框回归联合训练, 损失函数公式为:
其中,Ncls=256表示前景的个数,而边框回归个数Nreg=2400是最后特征图滑动的最大 维度数量40×60;i表示某一个建议框;pi表示预测出对应类别的概率,包括前景、背景;表示前景与背景的取值,记前景背景以此计算目标边框回归的损失;ti表 示该建议框的坐标信息,即中心点坐标和建议框宽高ti=(xi,yi,wi,hi),而表示真正对应的 目标物体信息,同样的而λ平衡着边框回归和分类损失的权重;Lcls为 softmax分类损失函数,边框回归损失采用smooth L1的方法。
如上方法训练到一定程度,会产生对难训练的样本数据不足,缺乏对其训练等的问题。 但是,样本挖掘能够解决难分样本训练问题。所以对步骤一中的方法进行如下几个步骤的改 进。
步骤二,基于在线样本挖掘方法,本发明采用的关键参数调整设置为:
(1)设定难分样本的筛选机制。每次迭代筛选的难分样本是根据当前的总损失L({pi},{ti}) 降序排列,并且筛选前B/N个样本量,其中B=64,N为每次训练的图片张数N=1,这样训 练的反向传播速度更快,因为只有少量需要调整的梯度。
(2)提高运算速度。在反向传递时,筛选的难分样本是由前向损失计算得来,通过非难分 样本损失置0操作,并不能减少模型显存量。所以反向传递筛选出B/N难分样本进行梯度传 递,训练的显存容量从3527M减少到3057M。
(3)在RPN层和最后全连接层同时增加OHEM模块。由于良好的分类结果取决于精确的 目标定位,即建议框的产生,所以对RPN层也增加OHEM模块,有利于边框回归出最精确的位置,更是提高了分类的特征提取的有效性。
(4)适当的调整分类损失和边框回归损失的权重。在损失函数公式中,分类损失Lcls和边 框回归损失Lreg是不均衡的,Ncls=256是分类的个数,而Nreg=2400是最后特征图滑动的最 大维度,两者取倒数相差约10倍,因此取λ=10,这样有利于在回归较好边框的同时,有针 对性地学习相应的目标特征。
(5)调整非极大值抑制(NMS)算法。经典的非极大值抑制算法不能很好地保留相邻或重叠 的多目标检测框,导致目标检测的召回率降低。因此,本发明改进的非极大值抑制算法采用 了分类的置信度惩罚机制,在去除冗余的建议框的同时还很好的保留了建议框,并进一步提 高了mAP。具体的操作在步骤三中讲到。
(6)数据增强工作提高了模型的泛化能力。训练时通过随机左右镜像翻转和光照饱和度调 节,增加样本多样性,防止过拟合。为提高模型对不同尺寸图像的检测能力,在训练时使用 了多尺度训练,将图像的短边设置{224,416,480,512,600,672,900}的随机尺寸,另一边等比例 放缩。样本的增强工作也进一步地提高了mAP。
(7)调整了学习率的策略。将学习速率的下降点设置为40k,相当于8个epoch,并且此后 隔20k个迭代次数再下降一次学习速率,这样有利于提高前期的全局范围搜索能力,避免陷 入局部极小值点;同时,后期采用的较小学习速率,进行极小值的精细化调整,有利于损失 的一降再降。
步骤三,负难分样本挖掘是在难分样本基础上通过调整训练中RPN形成的mini-batch正 负样本比例为1:3,进行训练。因为经过多次实验发现,比例为1:3时,在模型的表现力都 是最好的,其具体策略为:
(1)取消负样本的阈值限制。在原先的Faster R-CNN中,判定为背景的机制是根据RPN 产生的候选建议框与真实框之间的交并比IoU的大小进行设定,当IoU的比例在[0.1,0.5)时, 被认为是背景的建议框。这比例设置的不足之处在于忽略了低于0.1以下的罕见、损失较大、 重要的难分负样本,这些特征没能很好的被学习。因此,本发明设置判定背景的阈值为[0,0.5)。 设置了正样本的阈值为IoU值最大的一个,或者IoU的阈值在[0.7,1.0]范围。
(2)设置难分正负样本的比例1:3。如前所述,正负样本同时兼顾,并且更多地学习背景 信息,能够提高模型在特定背景环境下定位检测目标的能力。并且设置了每次的目标图片批 次大小为64,则正样本的数量为16,负样本的数量为48。
(3)同时考虑到预测出的正样本与标签存在多个重复的情况,采用了非极大值抑制方法, 采用0.7的阈值,当目标与标签的IoU在0.7以下时,则予以删除。
对步骤三中的负难分样本挖掘参数的设置进行总结如下:
(7)参数名称:FG_THRESH;代表的含义:正样本IoU阈值;参数取值:[0.7,1.0];
(8)参数名称:BG_THRESH_LO;代表的含义:负样本IoU阈值;参数取值:[0,0.5);
(9)参数名称:HNEM_NMS_THRESH;代表的含义:非极大值抑制阈值;参数取值:0.7;
(10)参数名称:HNEM_BATCHSIZE;代表的含义:图片目标批次大小;参数取值:64;
(11)参数名称:RPN_FG_FRACTION;代表的含义:正样本比例;参数取值:0.25;
(12)参数名称:RPN_BG_FRACTION;代表的含义:负样本比例;参数取值:0.75。
步骤四,剔除冗余框,避免损失的多重计算。采用的是改进后的非极大值抑制算法将RPN 层网络生成的建议框合理的去除冗余。具体的操作为:
避免粗鲁地删除IoU大于阈值的建议框,采取的改进方式是降低其置信度。采取的计算 方法有线性加权、高斯加权法、指数加权法。
其中,线性加权的计算方法是将IoU大于阈值的降低其置信度,即引入罚函数的思想:
式中,si表示当前所属类别的置信度得分,a表示权值系数,0<a≤1,bm表示置信度得分最高所对应的边框,bi表示当前的边框,IoU(bm,bi)表示两者的交并比,Nt表示所给定的阈值。
而采用高斯加权法的计算公式为:
式中,σ的取值不同影响罚函数的惩罚力度,高斯加权函数相比线性加权具有平滑过渡 等特点。
指数加权法同样采用了一定的阈值,当其IoU大于该阈值时,对其进行惩罚。相比线性 加权法,在阈值处具有平滑过渡的特点;相比高斯加权法,在阈值前一阶段能够保留较多权 值。计算公式:
式中,Nt同样表示IoU阈值。
经过多次的实验,针对每一种改进的非极大值抑制算法,对应的具体流程和各自的适应 情况总结如下:
(1)针对线性加权方法,通过置信度降序,筛选某一类中置信度最高的边框作为最优边框, 比较下一个边框的IoU与既定阈值Nt,当小于该阈值时,置信度分值不变;否则置信度阈值 降低为a(1-IoU)的比例,即IoU越大,惩罚力度越大。循环操作,直到所有待定边框的置 信度小于给定的置信度阈值threshold,则舍弃,记录历史最优值。该方法适用于重复边框 较多、时间复杂度低、快速筛选结果的情景,即惩罚的力度较大,很快筛选完毕,但得到的 效果并不太理想。
(2)针对高斯加权法,同样筛选出最优置信度边框,但无需设定Nt的阈值,通过指数函数 递减,即IoU越大,置信度分值递减越大,并且设定的σ值控制着递减的程度。循环比较, 置信度得分,当小于既定置信度阈值threshold,剔除这些冗余框;否则保留置信度高的最 优框。该方法适用于预测产生的边框数量中等、时间要求不高的、数量统计准确的情况,并 且平滑过渡的筛选有助于得到较好的回归框,虽然时间复杂度较线性差,但是得到的结果较 优。
(3)针对指数加权法,同样比较次优置信度边框与最优边框的IoU,设定一定的阈值Nt。 当小于该阈值时,置信度分值不变;否则置信度阈值降低为该指数呈现递减的 效果。直到所有的框都检测完毕,保留置信度大于阈值的建议框。该方法适用于保留较多回 归框、删选部分冗余框的情景,可应用于只需检测目标有无,不需统计数量的情况,因此效 果比线性和高斯加权法差。
所以根据不同的条件和适用场合可以选择不同的计算方法来降低其置信度。
为了证实本发明方法的可行性,根据以上的参数设计,进行如下实验:
通过在VOC2007与VOC2012的公共数据集上进行实验,其中具有20个类别+背景等于 21分类问题,训练集五千多张,测试集五千多张。对比了采取不同条件下的在线样本挖掘与 负难分样本挖掘的策略组合,最后对实验结果进行分析如下:
以经典的Faster RCNN目标检测方法作为参考:
(1)只在最后全连接层增设OHEM模块或者只在RPN层增设OHEM模块时,效果都 没有得到提升;
(2)将RPN层和最后全连接层都增设OHEM模块,并采用随机正负样本比例的在线样本挖掘方法时,边框回归的损失权重=1:1,效果提升了;
(3)在(2)的基础上将RPN层分类:边框回归的损失权重设置为1:10,即λ=10的方法, 采用两类损失平衡后,进一步提升了1.3%,相比原来提升了1.8%,可见均衡两者的损失有 利于模型的训练;
(4)将正负样本的随机比例去除,设置为1:3的比例,即负难分样本挖掘技术,且λ=10, 效果又提升了0.4%,而其他比例没有显著提升,说明负难分样本挖掘在模型训练中起到一定 作用;
(5)采用了改进的NMS线性加权算法,通过多次实验选择最佳的参数设置为a=1、Nt=0.2、threshold=0.001;进一步提升了1.3%;
(6)采用高斯加权,通过对比分析,设置σ=0.3,threshold=0.003,提升的目标检测 物体大多是集群分布的物体,如狗、人、鸟、羊、植物,分别提升了3.1%、7.6%、9.1%、1.3%、 24.8%,导致整体的mAP提升6.3%,相比原来提升4.4个百分点;
(7)采用指数加权法,设置Nt=0.1、threshold=0.0001,提升效果比(5)和(6)两种 方法小;
(8)在最好的NMS高斯改进方法基础上调整了学习速率策略,能够对损失进行再次下 降(附图5),mAP相比原来提升了4.5;
(9)采用VOC2012的训练样本,在07的测试集上测试,相当于增加更多的训练样本,得到3.1百分点的提升;
(10)在(9)基础上采用高斯NMS的方法进行测试,mAP提升了1.8个点。由损失收 敛曲线分析,可以发现调整后的学习速率策略能够使边框回归和分类的损失不断下降;
(11)因原先按照Fater RCNN中的学习速率调整策略,在迭代30k次数时下降一次学习 速率,实验中分析发现该策略并不能很好地寻求全局极小值点。因此,增加了前期搜索的时 长,将学习速率的下降点设置为40k,有利于避免陷入局部极小值点。
通过以上实验结果分析可知,采用OHEM和HNEM相结合的方法以及改进的NMS和训练策略在保有原数据集下可以得到较好的模型检测效果,提高4.5个百分点。其中,采用改进的高斯函数非极大值抑制算法,在原模型基础上提升1.8个百分点,能够使模型的召回率得到显著提升,对成群的目标物体检测具有较好的适用性。
改进的NMS算法的定位效果如附图6所示,分析可知,该改进算法对多目标重叠的检 测效果较传统NMS算法在目标检测上有较大的提升,降低了目标物体漏检的风险。使得召 回率指标得到提升,单个的P-R曲线面积(AP)较先前有了进一步增大的优势,导致整体的mAP 获得了较好的结果。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不 应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据 本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于难分样本挖掘的Faster RCNN目标检测方法,包括如下步骤:
步骤1,基于深度学习的图像目标检测;
基于Faster RCNN进行分析,Faster RCNN采用了Softmax Loss和Smooth L1 Loss对分类概率和边框回归联合训练,损失函数公式为:
其中,Ncls=256表示前景的个数,而边框回归个数Nreg=2400是最后特征图滑动的最大维度数量40×60;i表示某一个建议框;pi表示预测出对应类别的概率,包括前景、背景;表示前景与背景的取值,记前景背景以此计算目标边框回归的损失;ti表示该建议框的坐标信息,即中心点坐标和建议框宽高ti=(xi,yi,wi,hi),而表示真正对应的目标物体信息,同样的而λ平衡着边框回归和分类损失的权重;Lcls为softmax分类损失函数,边框回归损失采用smooth L1的方法;
步骤2,基于在线样本挖掘方法,采用的关键参数调整设置为:
(21)设定难分样本的筛选机制;每次迭代筛选的难分样本是根据当前的总损失L({pi},{ti})降序排列,并且筛选前B/N个样本量,其中B=64,N为每次训练的图片张数N=1,这样训练的反向传播速度更快,因为只有少量需要调整的梯度;
(22)提高运算速度;在反向传递时,筛选的难分样本是由前向损失计算得来,通过非难分样本损失置0操作,并不能减少模型显存量;所以反向传递筛选出B/N难分样本进行梯度传递,训练的显存容量从3527M减少到3057M;
(23)在RPN层和最后全连接层同时增加OHEM模块;由于良好的分类结果取决于精确的目标定位,即建议框的产生,所以对RPN层也增加OHEM模块,有利于边框回归出最精确的位置,更是提高了分类的特征提取的有效性;
(24)适当的调整分类损失和边框回归损失的权重;在损失函数公式中,分类损失Lcls和边框回归损失Lreg是不均衡的,Ncls=256是分类的个数,而Nreg=2400是最后特征图滑动的最大维度,两者取倒数相差约10倍,因此取λ=10,这样有利于在回归较好边框的同时,有针对性地学习相应的目标特征;
(25)调整非极大值抑制(NMS)算法;经典的非极大值抑制算法不能很好地保留相邻或重叠的多目标检测框,导致目标检测的召回率降低;因此,本发明改进的非极大值抑制算法采用了分类的置信度惩罚机制,在去除冗余的建议框的同时还很好的保留了建议框,并进一步提高了mAP;具体的操作在步骤三中讲到;
(26)数据增强工作提高了模型的泛化能力;训练时通过随机左右镜像翻转和光照饱和度调节,增加样本多样性,防止过拟合;为提高模型对不同尺寸图像的检测能力,在训练时使用了多尺度训练,将图像的短边设置{224,416,480,512,600,672,900}的随机尺寸,另一边等比例放缩;样本的增强工作也进一步地提高了mAP;
(27)调整了学习率的策略;将学习速率的下降点设置为40k,相当于8个epoch,并且此后隔20k个迭代次数再下降一次学习速率,这样有利于提高前期的全局范围搜索能力,避免陷入局部极小值点;同时,后期采用的较小学习速率,进行极小值的精细化调整,有利于损失的一降再降;
步骤3,负难分样本挖掘是在难分样本基础上通过调整训练中RPN形成的mini-batch正负样本比例为1:3,进行训练,具体包括:
(31)取消负样本的阈值限制;在原先的Faster R-CNN中,判定为背景的机制是根据RPN产生的候选建议框与真实框之间的交并比IoU的大小进行设定,当IoU的比例在[0.1,0.5)时,被认为是背景的建议框;这比例设置的不足之处在于忽略了低于0.1以下的罕见、损失较大、重要的难分负样本,这些特征没能很好的被学习;因此,本发明设置判定背景的阈值为[0,0.5);设置了正样本的阈值为IoU值最大的一个,或者IoU的阈值在[0.7,1.0]范围;
(32)设置难分正负样本的比例1:3;如前所述,正负样本同时兼顾,并且更多地学习背景信息,能够提高模型在特定背景环境下定位检测目标的能力;并且设置了每次的目标图片批次大小为64,则正样本的数量为16,负样本的数量为48;
(33)同时考虑到预测出的正样本与标签存在多个重复的情况,采用了非极大值抑制方法,采用0.7的阈值,当目标与标签的IoU在0.7以下时,则予以删除;
对步骤3中的负难分样本挖掘参数的设置如下:
FG_THRESH代表的含义:正样本IoU阈值;参数取值:[0.7,1.0];
BG_THRESH_LO代表的含义:负样本IoU阈值;参数取值:[0,0.5);
HNEM_NMS_THRESH代表的含义:非极大值抑制阈值;参数取值:0.7;
HNEM_BATCHSIZE代表的含义:图片目标批次大小;参数取值:64;
RPN_FG_FRACTION代表的含义:正样本比例;参数取值:0.25;
RPN_BG_FRACTION代表的含义:负样本比例;参数取值:0.75;
步骤4,剔除冗余框,避免损失的多重计算;采用的是改进后的非极大值抑制算法将RPN层网络生成的建议框合理的去除冗余;具体的操作为:
避免粗鲁地删除IoU大于阈值的建议框,采取的改进方式是降低其置信度;采取的计算方法有线性加权、高斯加权法、指数加权法;
其中,线性加权的计算方法是将IoU大于阈值的降低其置信度,即引入罚函数的思想:
式中,si表示当前所属类别的置信度得分,a表示权值系数,0<a≤1,bm表示置信度得分最高所对应的边框,bi表示当前的边框,IoU(bm,bi)表示两者的交并比,Nt表示所给定的阈值;
而采用高斯加权法的计算公式为:
式中,σ的取值不同影响罚函数的惩罚力度,高斯加权函数相比线性加权具有平滑过渡等特点;
指数加权法同样采用了一定的阈值,当其IoU大于该阈值时,对其进行惩罚;相比线性加权法,在阈值处具有平滑过渡的特点;相比高斯加权法,在阈值前一阶段能够保留较多权值;计算公式:
式中,Nt同样表示IoU阈值;
经过多次的实验,针对每一种改进的非极大值抑制算法,对应的具体流程和各自的适应情况总结如下:
(41)针对线性加权方法,通过置信度降序,筛选某一类中置信度最高的边框作为最优边框,比较下一个边框的IoU与既定阈值Nt,当小于该阈值时,置信度分值不变;否则置信度阈值降低为a(1-IoU)的比例,即IoU越大,惩罚力度越大;循环操作,直到所有待定边框的置信度小于给定的置信度阈值threshold,则舍弃,记录历史最优值;该方法适用于重复边框较多、时间复杂度低、快速筛选结果的情景,即惩罚的力度较大,很快筛选完毕,但得到的效果并不太理想;
(42)针对高斯加权法,同样筛选出最优置信度边框,但无需设定Nt的阈值,通过指数函数递减,即IoU越大,置信度分值递减越大,并且设定的σ值控制着递减的程度;循环比较,置信度得分,当小于既定置信度阈值threshold,剔除这些冗余框;否则保留置信度高的最优框;该方法适用于预测产生的边框数量中等、时间要求不高的、数量统计准确的情况,并且平滑过渡的筛选有助于得到较好的回归框,虽然时间复杂度较线性差,但是得到的结果较优;
(43)针对指数加权法,同样比较次优置信度边框与最优边框的IoU,设定一定的阈值Nt;当小于该阈值时,置信度分值不变;否则置信度阈值降低为该指数呈现递减的效果;直到所有的框都检测完毕,保留置信度大于阈值的建议框;该方法适用于保留较多回归框、删选部分冗余框的情景,可应用于只需检测目标有无,不需统计数量的情况,因此效果比线性和高斯加权法差;
根据不同的条件和适用场合选择不同的计算方法来降低其置信度。
CN201811463226.XA 2018-12-03 2018-12-03 一种基于难分样本挖掘的Faster RCNN目标检测方法 Active CN109800778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811463226.XA CN109800778B (zh) 2018-12-03 2018-12-03 一种基于难分样本挖掘的Faster RCNN目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811463226.XA CN109800778B (zh) 2018-12-03 2018-12-03 一种基于难分样本挖掘的Faster RCNN目标检测方法

Publications (2)

Publication Number Publication Date
CN109800778A true CN109800778A (zh) 2019-05-24
CN109800778B CN109800778B (zh) 2020-10-09

Family

ID=66556406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811463226.XA Active CN109800778B (zh) 2018-12-03 2018-12-03 一种基于难分样本挖掘的Faster RCNN目标检测方法

Country Status (1)

Country Link
CN (1) CN109800778B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728316A (zh) * 2019-09-30 2020-01-24 广州海昇计算机科技有限公司 一种课堂行为检测方法、***、装置和存储介质
CN110736709A (zh) * 2019-10-26 2020-01-31 苏州大学 一种基于深度卷积神经网络的蓝莓成熟度的无损检测方法
CN110826634A (zh) * 2019-11-11 2020-02-21 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、电子设备及存储介质
CN110909660A (zh) * 2019-11-19 2020-03-24 佛山市南海区广工大数控装备协同创新研究院 一种基于目标检测的塑料瓶检测与定位方法
CN110969627A (zh) * 2019-11-29 2020-04-07 北京达佳互联信息技术有限公司 图像处理方法及装置
CN111080601A (zh) * 2019-12-12 2020-04-28 哈尔滨市科佳通用机电股份有限公司 铁路货车脱轨制动装置拉环磨轴故障图像识别方法
CN111091164A (zh) * 2020-03-25 2020-05-01 魔视智能科技(上海)有限公司 基于ohem的语义分割模型训练方法及其***
CN111275011A (zh) * 2020-02-25 2020-06-12 北京百度网讯科技有限公司 移动红绿灯检测方法、装置、电子设备和存储介质
CN111291796A (zh) * 2020-01-21 2020-06-16 中国科学技术大学 一种用于目标检测器模型训练过程中的免除采样方法
CN111597941A (zh) * 2020-05-08 2020-08-28 河海大学 一种面向大坝缺陷图像的目标检测方法
CN111666839A (zh) * 2020-05-25 2020-09-15 东华大学 一种基于改进Faster RCNN的道路行人检测***
CN111723764A (zh) * 2020-06-29 2020-09-29 中国农业大学 改进Faster RCNN水培蔬菜幼苗状态检测方法
CN111723852A (zh) * 2020-05-30 2020-09-29 杭州迪英加科技有限公司 针对目标检测网络的鲁棒训练方法
CN111986252A (zh) * 2020-07-16 2020-11-24 浙江工业大学 一种用于目标分割网络中候选边界框精准定位的方法
CN112200187A (zh) * 2020-10-16 2021-01-08 广州云从凯风科技有限公司 一种目标检测方法、装置、机器可读介质及设备
CN112232450A (zh) * 2020-12-15 2021-01-15 浙江啄云智能科技有限公司 一种综合多阶段的难例样本挖掘方法、目标检测方法
WO2021027135A1 (zh) * 2019-08-15 2021-02-18 平安科技(深圳)有限公司 细胞检测模型训练方法、装置、计算机设备及存储介质
CN112464743A (zh) * 2020-11-09 2021-03-09 西北工业大学 一种基于多尺度特征加权的小样本目标检测方法
CN112801182A (zh) * 2021-01-27 2021-05-14 安徽大学 一种基于困难样本感知的rgbt目标跟踪方法
CN113160175A (zh) * 2021-04-23 2021-07-23 杭州迪英加科技有限公司 一种基于级联网络的肿瘤***浸润检测方法
CN113160267A (zh) * 2021-05-21 2021-07-23 上海通途半导体科技有限公司 一种基于深度学习的运动矢量计算方法及装置
CN113344086A (zh) * 2021-06-16 2021-09-03 深圳市商汤科技有限公司 人机回圈方法、装置、***、电子设备和存储介质
CN113780277A (zh) * 2021-09-08 2021-12-10 浙江啄云智能科技有限公司 目标检测模型的训练方法、装置、电子设备及存储介质
CN114998749A (zh) * 2022-07-28 2022-09-02 北京卫星信息工程研究所 用于目标检测的sar数据扩增方法
CN116168259A (zh) * 2023-04-26 2023-05-26 厦门微图软件科技有限公司 一种应用于oled点灯***的自动缺陷分类算法
CN117197592A (zh) * 2023-11-06 2023-12-08 英特灵达信息技术(深圳)有限公司 一种目标检测模型训练方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106960195A (zh) * 2017-03-27 2017-07-18 深圳市丰巨泰科电子有限公司 一种基于深度学习的人群计数方法及装置
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN108596053A (zh) * 2018-04-09 2018-09-28 华中科技大学 一种基于ssd和车辆姿态分类的车辆检测方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106960195A (zh) * 2017-03-27 2017-07-18 深圳市丰巨泰科电子有限公司 一种基于深度学习的人群计数方法及装置
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN108596053A (zh) * 2018-04-09 2018-09-28 华中科技大学 一种基于ssd和车辆姿态分类的车辆检测方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
REN SHAOQING: ""Faster R-CNN Towards Real-Time Object Detection with Region Proposal Network"", 《IEEE TRANSACTION ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
冯小雨: ""基于改进Faster R-CNN的空中目标检测"", 《光学学报》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021027135A1 (zh) * 2019-08-15 2021-02-18 平安科技(深圳)有限公司 细胞检测模型训练方法、装置、计算机设备及存储介质
CN110728316A (zh) * 2019-09-30 2020-01-24 广州海昇计算机科技有限公司 一种课堂行为检测方法、***、装置和存储介质
CN110736709A (zh) * 2019-10-26 2020-01-31 苏州大学 一种基于深度卷积神经网络的蓝莓成熟度的无损检测方法
CN110826634A (zh) * 2019-11-11 2020-02-21 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、电子设备及存储介质
CN110909660A (zh) * 2019-11-19 2020-03-24 佛山市南海区广工大数控装备协同创新研究院 一种基于目标检测的塑料瓶检测与定位方法
CN110969627B (zh) * 2019-11-29 2024-03-29 北京达佳互联信息技术有限公司 图像分割模型训练方法、图像处理方法及装置
CN110969627A (zh) * 2019-11-29 2020-04-07 北京达佳互联信息技术有限公司 图像处理方法及装置
CN111080601A (zh) * 2019-12-12 2020-04-28 哈尔滨市科佳通用机电股份有限公司 铁路货车脱轨制动装置拉环磨轴故障图像识别方法
CN111291796A (zh) * 2020-01-21 2020-06-16 中国科学技术大学 一种用于目标检测器模型训练过程中的免除采样方法
CN111275011A (zh) * 2020-02-25 2020-06-12 北京百度网讯科技有限公司 移动红绿灯检测方法、装置、电子设备和存储介质
CN111275011B (zh) * 2020-02-25 2023-12-19 阿波罗智能技术(北京)有限公司 移动红绿灯检测方法、装置、电子设备和存储介质
CN111091164A (zh) * 2020-03-25 2020-05-01 魔视智能科技(上海)有限公司 基于ohem的语义分割模型训练方法及其***
CN111597941A (zh) * 2020-05-08 2020-08-28 河海大学 一种面向大坝缺陷图像的目标检测方法
CN111597941B (zh) * 2020-05-08 2021-02-09 河海大学 一种面向大坝缺陷图像的目标检测方法
CN111666839A (zh) * 2020-05-25 2020-09-15 东华大学 一种基于改进Faster RCNN的道路行人检测***
CN111723852A (zh) * 2020-05-30 2020-09-29 杭州迪英加科技有限公司 针对目标检测网络的鲁棒训练方法
CN111723852B (zh) * 2020-05-30 2022-07-22 杭州迪英加科技有限公司 针对目标检测网络的鲁棒训练方法
CN111723764A (zh) * 2020-06-29 2020-09-29 中国农业大学 改进Faster RCNN水培蔬菜幼苗状态检测方法
CN111986252B (zh) * 2020-07-16 2024-03-29 浙江工业大学 一种用于目标分割网络中候选边界框精准定位的方法
CN111986252A (zh) * 2020-07-16 2020-11-24 浙江工业大学 一种用于目标分割网络中候选边界框精准定位的方法
CN112200187A (zh) * 2020-10-16 2021-01-08 广州云从凯风科技有限公司 一种目标检测方法、装置、机器可读介质及设备
CN112464743A (zh) * 2020-11-09 2021-03-09 西北工业大学 一种基于多尺度特征加权的小样本目标检测方法
CN112464743B (zh) * 2020-11-09 2023-06-02 西北工业大学 一种基于多尺度特征加权的小样本目标检测方法
CN112232450A (zh) * 2020-12-15 2021-01-15 浙江啄云智能科技有限公司 一种综合多阶段的难例样本挖掘方法、目标检测方法
CN112232450B (zh) * 2020-12-15 2021-03-16 浙江啄云智能科技有限公司 一种综合多阶段的难例样本挖掘方法、目标检测方法
CN112801182A (zh) * 2021-01-27 2021-05-14 安徽大学 一种基于困难样本感知的rgbt目标跟踪方法
CN112801182B (zh) * 2021-01-27 2022-11-04 安徽大学 一种基于困难样本感知的rgbt目标跟踪方法
CN113160175A (zh) * 2021-04-23 2021-07-23 杭州迪英加科技有限公司 一种基于级联网络的肿瘤***浸润检测方法
CN113160267B (zh) * 2021-05-21 2024-04-16 上海通途半导体科技有限公司 一种基于深度学习的运动矢量计算方法及装置
CN113160267A (zh) * 2021-05-21 2021-07-23 上海通途半导体科技有限公司 一种基于深度学习的运动矢量计算方法及装置
CN113344086B (zh) * 2021-06-16 2022-07-01 深圳市商汤科技有限公司 人机回圈方法、装置、***、电子设备和存储介质
CN113344086A (zh) * 2021-06-16 2021-09-03 深圳市商汤科技有限公司 人机回圈方法、装置、***、电子设备和存储介质
CN113780277A (zh) * 2021-09-08 2021-12-10 浙江啄云智能科技有限公司 目标检测模型的训练方法、装置、电子设备及存储介质
CN113780277B (zh) * 2021-09-08 2023-06-30 浙江啄云智能科技有限公司 目标检测模型的训练方法、装置、电子设备及存储介质
CN114998749A (zh) * 2022-07-28 2022-09-02 北京卫星信息工程研究所 用于目标检测的sar数据扩增方法
CN116168259B (zh) * 2023-04-26 2023-08-08 厦门微图软件科技有限公司 一种应用于oled点灯***的自动缺陷分类方法
CN116168259A (zh) * 2023-04-26 2023-05-26 厦门微图软件科技有限公司 一种应用于oled点灯***的自动缺陷分类算法
CN117197592B (zh) * 2023-11-06 2024-03-01 英特灵达信息技术(深圳)有限公司 一种目标检测模型训练方法、装置、电子设备及介质
CN117197592A (zh) * 2023-11-06 2023-12-08 英特灵达信息技术(深圳)有限公司 一种目标检测模型训练方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN109800778B (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN109800778A (zh) 一种基于难分样本挖掘的Faster RCNN目标检测方法
CN109977943A (zh) 一种基于yolo的图像目标识别方法、***和存储介质
CN109671102A (zh) 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法
CN109002845A (zh) 基于深度卷积神经网络的细粒度图像分类方法
CN109886998A (zh) 多目标跟踪方法、装置、计算机装置及计算机存储介质
CN107609525A (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN107944369A (zh) 一种基于级联区域生成网络和增强随机森林的行人检测方法
CN107229904A (zh) 一种基于深度学习的目标检测与识别方法
CN111767847B (zh) 一种集成目标检测和关联的行人多目标跟踪方法
CN113807188B (zh) 基于锚框匹配和Siamese网络的无人机目标跟踪方法
CN110991362A (zh) 一种基于注意力机制的行人检测模型
CN110751121B (zh) 基于聚类与sofm的无监督雷达信号分选方法
CN113486764B (zh) 一种基于改进的YOLOv3的坑洼检测方法
CN107688786A (zh) 一种基于级联卷积神经网络的人脸检测方法
CN108460790A (zh) 一种基于一致性预测器模型的视觉跟踪方法
CN111833322B (zh) 一种基于改进YOLOv3的垃圾多目标检测方法
CN111145145B (zh) 一种基于MobileNets的图像表面缺陷检测方法
CN107977683A (zh) 基于卷积特征提取和机器学习的联合sar目标识别方法
CN108460336A (zh) 一种基于深度学习的行人检测方法
CN113763424B (zh) 基于嵌入式平台的实时智能目标检测方法及***
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
Tang et al. Pest-YOLO: Deep image mining and multi-feature fusion for real-time agriculture pest detection
CN110033012A (zh) 一种基于通道特征加权卷积神经网络的生成式目标跟踪方法
CN110032952A (zh) 一种基于深度学习的道路边界点检测方法
CN106127161A (zh) 基于级联多层检测器的快速目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant