CN112686344B - 一种快速过滤背景图片的检测模型及其训练方法 - Google Patents

一种快速过滤背景图片的检测模型及其训练方法 Download PDF

Info

Publication number
CN112686344B
CN112686344B CN202110299944.3A CN202110299944A CN112686344B CN 112686344 B CN112686344 B CN 112686344B CN 202110299944 A CN202110299944 A CN 202110299944A CN 112686344 B CN112686344 B CN 112686344B
Authority
CN
China
Prior art keywords
module
training
model
detection
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110299944.3A
Other languages
English (en)
Other versions
CN112686344A (zh
Inventor
王威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Zhuoyun Intelligent Technology Co ltd
Original Assignee
Zhejiang Zhuoyun Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Zhuoyun Intelligent Technology Co ltd filed Critical Zhejiang Zhuoyun Intelligent Technology Co ltd
Priority to CN202110299944.3A priority Critical patent/CN112686344B/zh
Publication of CN112686344A publication Critical patent/CN112686344A/zh
Application granted granted Critical
Publication of CN112686344B publication Critical patent/CN112686344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种快速过滤背景图片的检测模型,包括主干网络、分类头模块、特征融合模块、区域推荐网络、感兴趣区域池化,级联检测器;所述分类头模块与检测模型共享主干网络,将主干网络最后一层的特征图经过分类头模块计算得到分类置信度,再根据分类结果决定是否进入到检测模块。使用该模型能够有效地提高分类模型的计算效率,并且结构简单可行性高。

Description

一种快速过滤背景图片的检测模型及其训练方法
技术领域
本发明属于目标检测技术领域,具体涉及一种快速过滤背景图片的检测模型及其训练方法。
背景技术
近年来,随着人工智能技术的不断发展,深度学习技术已经在计算机视觉领域的分类、识别、检测、分割、跟踪等任务中都取得了突破性的进展。相较于传统的机器视觉方法,深度卷积神经网络在大数据的训练下,从大量数据中学习出有用的特征,具有速度快、精度高、成本低等优势。但是,深度学习能达到这种优于传统方法的很大一部分原因是因为深度学习是建立在大量数据基础上的,学习这些数据需要大量的计算资源,如果应用于存在大量背景的目标检测应用场景中(如智能安检、工业检测、医疗领域等),深度学习模型所检测的大部分图片均是背景图像,特别是对于简单背景而言,检测模型的大部分计算都是没必要的,这样便造成了计算资源的浪费。
发明内容
本发明所要解决的技术问题是针对背景技术中所涉及到的技术缺陷,提供一种快速过滤背景图片的检测模型及其训练方法,保持检测准确率的前提下极大地提高了检测效率。
根据本发明的一个方面,提供一种快速过滤背景图片的检测模型,所述检测模型包括主干网络、分类头模块、特征融合模块、区域推荐网络、感兴趣区域池化,级联检测器。
所述主干网络用于对输入图像提取特征信息,主干网络的输出端连接分类头模块。
所述分类头模块用于对主干网络提取的特征信息分类从而得到图片的阳性置信度,根据所述分类头模块的结果选择后续操作,如果是阳性则将主干网络的特征提取信息送入到特征融合模块,如果为阴性则直接输出检测结果,即图片为阴性且未检测出目标。
所述特征融合模块用于进一步融合主干网络提取的特征,经过特征融合模块后得到融合后的特征图,该特征图与区域建议网络连接。所述区域推荐网络用于初步过滤候选区域得到感兴趣区域,感兴趣区域池化层将得到的感兴趣区域特征固定成相同尺寸。
所述级联检测器对上步骤的感兴趣区域进一步分类与回归输出最终检测结果。
所述分类头模块结构如下,经过一层3×3卷积,再经过1×1卷积降维,使用自适应全局池化使不同尺寸的输入图像得到相同维度的特征,最后经过一层全连接层后输出,输出层使用的激活函数为sigmoid,输出神经元个数与目标类别数量相等,分类时损失函数采用交叉熵损失。
进一步优选的,对于分类头训练时的标签编码方式为:设定分类头输出的神经元个数与检测任务的类别数相同,若被检测的图片中存在某一类别的目标,则对应的神经元的标签为1,不存在则为0。
根据本发明的另一个技术方案,提供一种模型训练方法用于训练所述检测模型,设定主干网络为A模块,分类头模块为B模块,所述特征融合模块、区域推荐网络、感兴趣区域池化,级联检测器的组合为C模块,模型训练时采用如下交替训练的方式:
(a)先将A模块和B 模块作为整体训练m1个epoch;
(b)冻结A模块,微调 C模块n1个epoch;
(c)再将A模块和C模块作为整体训练m2个epoch;
(d)冻结A模块和C模块,微调模块 n2个epoch;
其中,模型的训练过程是需要模型对训练集多次学习,每次学习即称作一个epoch;m1、m2为模型训练时设定的一个周期的训练次数;n1、n2为微调模型时设定的训练次数,m1、m2、n1、n2均为≥1的整数。
本发明通过在检测模型的主干网络后增加分类头模块,与检测模型共享主干网络,将主干网络最后一层的特征图经过分类头模块计算得到分类置信度,再根据分类结果决定是否进入到检测模块能够有效地提高分类模型的计算效率。在使用中,直接采用分类模型对前景和背景进行二分类,可以得到较好的分类效果,并且采用训练好的检测模型的主干网络,只需微调分类头就可以达到不错的效果,结构简单,可行性更高。独特的标签编码方式也可提供更多的监督信息,使用sigmoid激活函数使各神经元互不影响,有助于分类模块的学习。进一步地,如果将检测网络与分类头模块的损失函数做联合损失,模型训练不稳定,各模块难以同时学习到最优,通过交替训练的方式能够使分类头和检测模块均达到最优。
附图说明
图1为本发明实施例提供的一种快速过滤背景图片的检测模型结构示意图。
图2为本发明实施例提供的一种快速过滤背景图片的检测模型中分类头结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个中的技术方案,下面对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一个或多个一部分实施例,而不是全部的实施例。
基于本说明书一个或多个中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书一个或多个保护的范围。
实施例1:为了解决上述技术问题,本实施例以违禁品检测场景的检测模型为例,对过滤背景图片的检测模型及其训练方法进行说明。
图1为本发明实施例1提供的一种快速过滤背景图片的检测模型结构示意图,示例性的,检测模型选用Cascade RCNN检测模型进行改进,所述检测模型主要包括主干网络(Backbone)、分类头模块(Cls Head)、特征融合模块(FPN)、区域推荐网络(RPN)、感兴趣区域池化(Roi pooling),级联检测器(Cascade head)。主干网络用于对输入图像提取特征信息,主干网络的输出端连接分类头模块。分类头模块用于对主干网络提取的特征信息分类从而得到图片的阳性置信度,设定含有目标的图片为阳性,不含有目标的为阴性,根据所述分类头模块的结果选择后续操作,如果是阳性(positive)则将主干网络的特征提取信息送入到特征融合模块,如果为阴性(negative)则直接输出检测结果(result),即图片为阴性且未检测出目标;通常情况下图片为阴性且未检测出目标的结果不进行额外显示。所述图片的阳性置信度包括多个置信度结果,具体地,设定分类头模块输出的神经元个数与检测任务的类别数相同,则会出现与类别数目相同的结果数,每个结果代表该类别可能存在目标的置信度,若存在置信度大于等于阈值的结果则图片为阳性,若不存在置信度大于等于阈值的结果则图片为阴性。通过阳性置信度区分图片是阳性还是阴性,通常会通过绘制分类pr曲线结合场景需求设置设定阈值,阳性置信度大于阈值为阳性,小于则为阴性;例如,设定阈值为0.5,即存在大于等于0.5时判断为阳性,不存在大于等于0.5时判断为阴性。特征融合模块用于进一步融合主干网络提取的特征,经过特征融合模块后得到融合后的特征图(feature map),该特征图与区域建议网络连接。区域推荐网络用于初步过滤候选区域得到感兴趣区域,感兴趣区域池化层将得到的感兴趣区域特征固定成相同尺寸;最后经过级联检测器对上步骤的感兴趣区域进一步分类与回归输出最终检测结果。
本实施例中对模型的类型也不作额外限制,基于深度学习方法的一阶段或二阶段模型均可。
优选的,参考附图2,分类头模块结构如下,经过一层3×3卷积,再经过1×1卷积降维,使用自适应全局池化使不同尺寸的输入图像得到相同维度的特征,最后经过一层全连接层后输出,输出层使用的激活函数为sigmoid,输出神经元个数与目标类别数量相等,分类时损失函数采用交叉熵损失。
进一步优选的,对于分类头训练时的标签编码方式为:设定分类头输出的神经元个数与检测任务的类别数相同,若被检测的图片中存在某一类别的目标,则对应的神经元的标签为1,否则为0。作为举例,在违禁品检测场景中,检测任务的类别可以分为:刀具,***,打火机等违禁品,若被检测的图片中存在刀具,即刀具对应的神经元标签为1;若不存在刀具,则对应的神经元标签为0。
现有技术采用在检测模型前串联一个分类网络,图片经过分类网络后满足条件的图片再去做检测,该方法相当于分类模型加检测模型的策略,任务的整体耗时增加较多,对于前景和非简单背景检测耗时都大大增加。而本发明实施例通过在检测模型的主干网络后增加分类头模块,与检测模型共享主干网络,将主干网络最后一层的特征图经过分类头计算得到分类置信度,再根据分类结果决定是否进入到检测模块能够有效地提高分类模型的计算效率。在使用中,直接采用分类模型对前景和背景进行二分类,可以得到较好的分类效果,并且采用训练好的检测模型的主干网络,只需微调分类头就可以达到不错的效果,方法更简单,可行性更高。
实施例2:根据本发明实施例的另一个技术方案,提供一种模型训练方法用于训练实施例1所述检测模型,设定主干网络为A模块,分类头模块为B模块,实施例1中所述模型结构剩余模块(即包括了FPN、RPN、Roi pooling、Cascade head的组合)为C模块,C模块也可称为检测模块,在一个实施例中,建立训练集对模型进行训练,模型训练时采用交替训练的方式:
(a)先将A模块和B模块最为整体训练12个epoch;
(b)冻结A模块,微调 C模块3个epoch;
(c)再将A模块和C模块作为整体训练12个epoch;
(d)冻结A模块和C模块,微调 B模块 3个epoch。
其中,模型的训练过程是需要模型对训练集多次学习,每次学习即称作一个epoch;12为模型训练时人为选择的训练次数,通常是选择12个epoch为一个周期的迭代;3为微调模型时人为设定的训练次数,通常选择3个左右的epoch。
经过以上4步得到最终的模型,经验证,通过步骤(a)和(b)得到的预训练模型经实验发现优于在Imagenet上的预训练模型,且在同类数据上(如x光图片)具有可迁移性,即更换数据后将此预训练模型作为预训练模型效果也优于Imagenet上的预训练模型。
完成模型的训练后,在测试时步骤如下:图片经主干网络提取特征后会经过分类头,分类头输出与目标类别数目相同的结果,若结果均小于阈值则判定为背景,则直接返回检测结果为空,否则再经过检测模型计算,实际阈值的确定根据绘制分类pr曲线结合场景需求设置。
本发明的技术方案还可以应用于除实施例中违禁品检测以外的目标识别检测场景,例如人脸识别、车牌识别、道路识别、无人驾驶、在医学影像CT检查场景下的病灶检测分析等多种目标检测场景。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种快速过滤背景图片的检测模型,其特征在于:
包括主干网络、分类头模块、检测模块;所述主干网络用于对输入的图像提取特征信息,主干网络的输出端连接分类头模块;所述分类头模块用于对主干网络提取的特征信息分类从而得到输入的图像中是否含有目标,如果含有目标则将主干网络的特征提取信息送入到检测模块,如果不含有目标则直接输出检测结果;
设定含有目标的图片为阳性,不含有目标的为阴性;并设定分类头输出的神经元个数与检测任务的类别数相同,则会出现与类别数目相同的结果数,每个结果代表该类别可能存在目标的置信度,若存在置信度大于等于阈值的结果则图片为阳性,若不存在置信度大于等于阈值的结果则图片为阴性,所述阈值通过绘制分类pr曲线结合场景需求设置;
模型通过如下训练方法获得:
(a)先将主干网络和分类头模块作为整体训练m1次;
(b)微调检测模块n1次;
(c)再将主干网络和检测模块作为整体训练m2次;
(d)微调分类头模块 n2次;
其中,m1、m2为模型训练时设定的一个周期的训练次数;n1、n2为微调模型时设定的训练次数,m1、m2、n1、n2均为≥1的整数。
2.根据权利要求1所述的一种快速过滤背景图片的检测模型,其特征在于,所述检测模块包括特征融合模块、区域推荐网络、感兴趣区域池化,级联检测器。
3.根据权利要求2所述的一种快速过滤背景图片的检测模型,其特征在于,所述特征融合模块用于进一步融合主干网络提取的特征,经过特征融合模块后得到融合后的特征图,该特征图与区域建议网络连接。
4.根据权利要求2所述的一种快速过滤背景图片的检测模型,其特征在于,所述区域推荐网络用于初步过滤候选区域得到感兴趣区域,感兴趣区域池化层将得到的感兴趣区域特征固定成相同尺寸。
5.根据权利要求2所述的一种快速过滤背景图片的检测模型,其特征在于,所述级联检测器对所述感兴趣区域进一步分类与回归输出最终检测结果。
6.根据权利要求1所述的一种快速过滤背景图片的检测模型,其特征在于,所述分类头模块结构如下,经过一层3×3卷积,再经过1×1卷积降维,使用自适应全局池化使不同尺寸的输入图像得到相同维度的特征,最后经过一层全连接层后输出。
7.根据权利要求1所述的一种快速过滤背景图片的检测模型,其特征在于,所述分类头模块训练时的标签编码方式为:设定分类头输出的神经元个数与检测任务的类别数相同,若输入的图片中存在某一类别的目标,则对应的神经元的标签为1,不存在则为0。
8.一种模型训练方法,用于训练权利要求1-7任一项检测模型,设定主干网络为A模块,分类头模块为B模块,特征融合模块、区域推荐网络、感兴趣区域池化,级联检测器的组合为C模块,模型训练时采用如下交替训练的方式:
(a)先将A模块和B模块作为整体训练m1次;
(b)微调 C模块n1次;
(c)再将A模块和C模块作为整体训练m2次;
(d)微调B模块 n2次;
其中,m1、m2为模型训练时设定的一个周期的训练次数;n1、n2为微调模型时设定的训练次数,m1、m2、n1、n2均为≥1的整数。
CN202110299944.3A 2021-03-22 2021-03-22 一种快速过滤背景图片的检测模型及其训练方法 Active CN112686344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110299944.3A CN112686344B (zh) 2021-03-22 2021-03-22 一种快速过滤背景图片的检测模型及其训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110299944.3A CN112686344B (zh) 2021-03-22 2021-03-22 一种快速过滤背景图片的检测模型及其训练方法

Publications (2)

Publication Number Publication Date
CN112686344A CN112686344A (zh) 2021-04-20
CN112686344B true CN112686344B (zh) 2021-07-02

Family

ID=75455764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110299944.3A Active CN112686344B (zh) 2021-03-22 2021-03-22 一种快速过滤背景图片的检测模型及其训练方法

Country Status (1)

Country Link
CN (1) CN112686344B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN112348787A (zh) * 2020-11-03 2021-02-09 中科创达软件股份有限公司 物体缺陷检测模型的训练方法、物体缺陷检测方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609601B (zh) * 2017-09-28 2021-01-22 北京计算机技术及应用研究所 一种基于多层卷积神经网络的舰船目标识别方法
CN111814755A (zh) * 2020-08-18 2020-10-23 深延科技(北京)有限公司 面向夜间运动场景的多帧图像行人检测方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN112348787A (zh) * 2020-11-03 2021-02-09 中科创达软件股份有限公司 物体缺陷检测模型的训练方法、物体缺陷检测方法及装置

Also Published As

Publication number Publication date
CN112686344A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN110163187B (zh) 基于f-rcnn的远距离交通标志检测识别方法
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN112380921A (zh) 一种基于车联网的道路检测方法
CN112395951B (zh) 一种面向复杂场景的域适应交通目标检测与识别方法
CN110751185A (zh) 目标检测模型的训练方法和装置
CN112434723B (zh) 一种基于注意力网络的日/夜间图像分类及物体检测方法
CN112633149A (zh) 一种域自适应雾天图像目标检测方法和装置
CN113642474A (zh) 一种基于yolov5的危险区域人员监控方法
CN112417973A (zh) 一种基于车联网的无人驾驶***
CN116385958A (zh) 一种用于电网巡检和监控的边缘智能检测方法
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和***
CN112395953A (zh) 一种道面异物检测***
CN111339834B (zh) 车辆行驶方向的识别方法、计算机设备及存储介质
CN117237915A (zh) 一种基于改进YOLOv8模型的交通类目标识别方法
CN112686344B (zh) 一种快速过滤背景图片的检测模型及其训练方法
CN114863122B (zh) 一种基于人工智能的智能化高精度路面病害识别方法
CN114926819B (zh) 一种复杂场景的未知异常障碍物识别方法及***
CN113205152B (zh) 一种环视融合的特征融合方法
CN113239962A (zh) 一种基于单个固定摄像头的交通参与者的识别方法
CN111222463A (zh) 一种基于级联式卷积网络的机动车人脸检测方法
CN118072146B (zh) 一种基于多层级特征融合的无人机航拍小目标检测方法
CN117095317B (zh) 一种无人机三维影像实体识别与时间定位方法
CN118262385B (zh) 基于相机差异的调度序列及训练的行人重识别方法
CN114882454A (zh) 一种基于深度学习的城市高空视角下车辆的检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant