CN112614136A - 一种红外小目标实时实例分割方法及装置 - Google Patents
一种红外小目标实时实例分割方法及装置 Download PDFInfo
- Publication number
- CN112614136A CN112614136A CN202011632333.8A CN202011632333A CN112614136A CN 112614136 A CN112614136 A CN 112614136A CN 202011632333 A CN202011632333 A CN 202011632333A CN 112614136 A CN112614136 A CN 112614136A
- Authority
- CN
- China
- Prior art keywords
- mask
- small target
- infrared small
- infrared
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 230000001629 suppression Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 27
- 238000003062 neural network model Methods 0.000 claims description 24
- 238000011426 transformation method Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000005312 nonlinear dynamic Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 3
- 238000013434 data augmentation Methods 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000003331 infrared imaging Methods 0.000 description 2
- 238000002329 infrared spectrum Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004297 night vision Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005693 optoelectronics Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种红外小目标实时实例分割方法及装置,根据红外小目标特征属性拍摄大量复杂背景的红外小目标图像作为训练数据源,对红外小目标图像训练样本进行预处理,采用标注工具进行小目标二值掩膜制作;利用轻量化主干网络和特征金字塔瓶颈网络相结合的网络结构提取红外小目标图像的多级特征,对多级特征中的逐个像素点预设3个大小不同的先验框。采用置信度得分阈值法过滤低于0.05置信度得分的候选框,对剩余的候选框进行非极大值抑制操作,选取前100个候选框。最后将原型掩模和掩模系数线性相结合获取掩模模板。本发明提供的实时实例分割方法能够更好地适应复杂背景,增强了对地面等景物的抗干扰能力,扩大了该方法的应用范围。
Description
技术领域
本发明涉及红外目标图像处理领域,尤其涉及一种红外小目标实时实例分割方法及装置。
背景技术
实例分割作为图像处理和计算机视觉领域中的经典课题之一,广泛的应用于自动驾驶、图像检索、交通监控等方面。红外热成像广泛运用于安防监控、军事侦查、夜间行车、航运等领域。红外图像反应的是物体的相对温度信息。红外成像受天气因素的影响较小。在无光与雨雾天气,相对于照明摄像头、夜视等设备红外光谱成像具有探测距离远、探测可靠性高等优势,但红外成像具有分辨率较低,细节模糊等缺点。深度学习在可见光图像目标分割上展现出了良好的分割性能,但是红外图像中如背景存在多个热源会造成目标与背景差异较小,使得传统分割方法对于红外小目标实例分割的适应性较差。此外,基于深度学习的实例分割算法都有计算量大、计算复杂的缺点,不能满足实时处理的要求。因此,亟需研究一种能处理复杂场景,并利于工程实现的红外小目标图像实时实例分割方法。
战场环境中,只有尽早发现敌方,料敌先机,才能先发制人。这就要求光电设备在远距离时,当目标成像所占像素较少,对比度较小时就要检测并标记出目标。现实场景里,背景非常复杂,使得较小目标经常淹没在其他非关注背景中,信噪比较低,难以辨认。当深层神经网络的训练方法得到突破后,卷积神经网络在目标检测应用上相对于传统算法已经体现出巨大的优势,在其基础上发展得到的实例分割算法,在目标检测、定位和分割应用上已经得到了比较好的结果。但是,针对战场应用场景,此类目标分割算法也存在较大局限性,对于较小目标并不适用。基于深度学习的实例分割算法都是针对较大的、纹理较为丰富的目标进行检测识别分割,为了实现多尺度下的目标检测,其网络结构中使用了多次下采样操作,而小的目标经过多次下采样后,在特征图上已经没有任何信息。再者,人眼辨认小目标,其运动变化特性也是非常重要的一个特征。
红外图像小目标具有细节模糊,分辨率较低等缺点,虽然目前深度学习方法在可见光实例检测上展现出了良好的分割性能,但是此类算法都有计算量大、计算复杂的缺点,不能满足实时处理的要求。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的红外小目标实时实例分割方法及装置。
第一方面,本发明实施例提供一种红外小目标实时实例分割方法,包括:
S1,采集多种场景下的红外小目标图像数据训练样本集;
S2,对红外小目标图像训练样本进行预处理,采用标注工具进行小目标二值实例掩膜制作;
S3,采用轻量化网络作为神经网络模型的主干网络,将红外小目标图像训练样本输入主干网络中,提取红外小目标图像的多级特征,基于多级特征生成多级特征图候选框;
S4,过滤置信度得分低于预设置信度阈值的候选框后,对剩余的候选框进行非极大值抑制操作,获取置信度满足条件的候选框对应的置信度得分,坐标和掩模系数;
S5,基于主干网络生成原型掩膜,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得最终的二值掩模;
S6,计算神经网络模型的损失函数,利用损失函数对神经网络模型进行迭代,生成训练完成的红外小目标实时实例分割模型。
进一步,步骤S1中,采集多种场景下的红外小目标图像数据训练样本集,具体包括:
S101,采用中波红外相机采集不同复杂场景下,不同采集目标的红外小目标图像;其中,采集目标包括但不限于行人、汽车和卡车;
S102,多次改变数据采集地点、中波红外相机的拍摄参数,获得红外小目标图像数据训练样本集。
进一步,步骤S2中,对红外小目标图像训练样本进行预处理,具体包括:
S201,对红外小目标图像训练样本采用非线性动态范围压缩法进行处理;
S202,采用限制对比度自适应直方图均衡法对压缩后的红外小目标图像训练样本进行局部细节增强。
S203,采用绘图软件对红外小目标轮廓进行描绘,然后对红外小目标图像训练样本种各类别目标和背景赋予种不同颜色,生成二值掩模模板图;
S204,通过旋转变换、平移变换、尺度变换、翻转变换、缩放变换、投影变换、随机修剪、色彩抖动、对比度变换和噪声扰动方法对红外小目标图像训练样本进行数据增强;
S205,基于红外小目标图像训练样本的数据类别不平衡的特点,采用类别平衡策略进行数据增广;对所述红外小目标图像训练样本进行随机排序。
进一步,步骤S3具体包括:
S301,针对实时实例分割要求,采用轻量化主干网络和特征金字塔网络相结合,提取红外小目标图像多级特征;
S302,对多级特征中的逐个像素点预设三种大小不同先验框,获得多个候选框。
进一步,步骤S4具体包括:
S401,将置信度得分低于预设置信度阈值的候选框过滤,对剩余的候选框进行非极大值抑制法操作,保留置信度得分排名前100的候选框;
S402,对置信度得分排名前100的候选框进行边界框解码,设置variance超参数来调整解码预测值。
进一步,步骤S5中,基于主干网络生成原型掩膜,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,具体包括:
S501,基于主干网络获取原型掩模;
S502,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得掩模模板M:
M=σ(PCT)
其中,P是原型掩模集合,C是n×k的掩模系数集合,代表有n个通过非极大值抑制和阈值过滤的候选框实例,每个候选框实例对应有k个掩模系数;
S503,将S502通过矩阵乘法获得的掩模模板M上采样为原始图像大小,获得最终的二值掩模。
进一步,所述红外小目标实时实例分割模型的损失函数L为:
其中,x为预测框的类别信息,c为预测框类别信息的置信度,l为预测框的位置信息,g为真实框的位置信息,N为与预先标注的真实目标框相匹配的先验框的个数,α是权值系数,α为1;Lconf(x,c)为类别损失,采用交叉嫡损失函数;Lloc(x,l,g)为位置损失,采用Smooth L1损失函数。
第二方面,本发明实施例还提供一种红外小目标实时实例分割装置,包括:
采集模块,用于采集多种场景下的红外小目标图像数据训练样本集;
预处理模块,用于对红外小目标图像训练样本进行预处理,采用标注工具进行小目标二值实例掩膜制作;
多级特征提取模块,用于采用轻量化网络作为神经网络模型的主干网络,将红外小目标图像训练样本输入主干网络中,提取红外小目标图像的多级特征,基于多级特征生成多级特征图候选框;
候选框过滤模块,用于过滤置信度得分低于预设置信度阈值的候选框后,对剩余的候选框进行非极大值抑制操作,获取置信度满足条件的候选框对应的置信度得分,坐标和掩模系数;
掩膜获得模块,用于基于主干网络生成原型掩膜,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得最终的二值掩模;
迭代训练模块,用于计算神经网络模型的损失函数,利用损失函数对神经网络模型进行迭代,生成训练完成的红外小目标实时实例分割模型。
第三方面,本发明实施例提供了一种电子设备,包括处理器、存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面实施例提供的红外小目标实时实例分割方法。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面实施例提供的红外小目标实时实例分割方法。
本发明实施例提供的红外小目标实时实例分割方法及装置,针对红外图像小目标的特性,对基于深度学习的实例分割算法进行了修改优化,提出了轻量化实时实例分割算法,使其在对像素数较大的目标进行识别定位分割时,也兼顾较小目标特征进行小目标检测识别分割。本发明提供的实时实例分割方法能够更好地适应复杂背景,增强了对地面等景物的抗干扰能力,扩大了该方法的应用范围。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的红外小目标实时实例分割方法流程示意图;
图2是本发明实施例中实例分割的示例图;
图3为本发明实施例提供的红外小目标实时实例分割装置结构示意图;
图4为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
红外图像小目标具有细节模糊,分辨率较低等缺点,虽然目前深度学习方法在可见光实例检测上展现出了良好的分割性能,但是此类算法都有计算量大、计算复杂的缺点,不能满足实时处理的要求。
针对现有技术的上述问题,本发明实施例提供了一种红外小目标实时实例分割方法,针对红外图像小目标的特性,对基于深度学习的实例分割算法进行了修改优化,提出了轻量化实时实例分割算法,使其在对像素数较大的目标进行识别定位分割时,也兼顾较小目标特征进行小目标检测识别分割。本发明提供的实时实例分割方法能够更好地适应复杂背景,增强了对地面等景物的抗干扰能力,扩大了该方法的应用范围。以下将结合附图通过多个实施例进行展开说明和介绍。
图1为本发明实施例提供的红外小目标实时实例分割方法流程示意图,如图1所示,本发明实施例提供的红外小目标实时实例分割方法包括但不限于以下步骤:
S1,采集多种场景下的红外小目标图像数据训练样本集;
本实施例中,S1具体可以包括以下步骤:
S101,采用中波红外相机采集不同复杂场景下,不同采集目标的红外小目标图像;其中,采集目标包括但不限于行人、汽车和卡车;
S102,多次改变数据采集地点、中波红外相机的拍摄参数,获得红外小目标图像数据训练样本集。
S2,对红外小目标图像训练样本进行预处理,采用标注工具进行小目标二值实例掩膜制作。其中,标注工具可以采用LabelImg标注工具,本发明对此不作具体限定。
其中,S2具体可以包括以下步骤:
S201,对红外小目标图像训练样本采用非线性动态范围压缩法进行处理。本实施例中,采用非线性动态范围压缩法将原始的14位红外小目标图像训练样本压缩为8位灰度图像。
S202,采用限制对比度自适应直方图均衡法对压缩后的红外小目标图像训练样本进行局部细节增强。
S203,采用绘图软件对红外小目标轮廓进行描绘,然后对红外小目标图像训练样本种各类别目标和背景赋予种不同颜色,生成二值掩模模板图;其中,绘图软件包括但不限于Photoshop软件。
S204,通过旋转变换、平移变换、尺度变换、翻转变换、缩放变换、投影变换、随机修剪、色彩抖动、对比度变换和噪声扰动方法对红外小目标图像训练样本进行数据增强。
S205,基于红外小目标图像训练样本的数据类别不平衡的特点,采用类别平衡策略进行数据增广;对所述红外小目标图像训练样本进行随机排序。
S3,采用轻量化网络作为神经网络模型的主干网络,将红外小目标图像训练样本输入主干网络中,提取红外小目标图像的多级特征,基于多级特征生成多级特征图候选框。
首先,针对实时实例分割要求,采用轻量化主干网络和特征金字塔网络相结合,提取红外小目标图像多级特征。具体地,针对实时实例分割要求,采用轻量化主干网络提取红外小目标图像多级特征,因为轻量化主干网络计算量比较低,运算复杂度比较低。本实施例中,轻量化主干网络是由13个卷积层和6个最大池化层交替组成的前向网络,导致信息在层与层传递时丢失,未能充分利用卷积层的特征信息,导致其分割精度的欠缺,尤其是对小目标的分割效果较差,经过多个卷积操作后,图像特征变得很小,很容易对远处的物体或者小目标造成漏分割和误分割。
针对轻量化主干网络的问题,本实施例还采用特征金字塔网络,特征金字塔网络采用自底向上(bottom-up)、自顶向下(top-down)、横向连接(lateral connection)结构,融合了具有高分辨率的浅层特征图信息和具有丰富语义特征的深层特征图信息,没有大幅度降低分割速度的同时提升了分割精度。该算法将语义信息更强的深层特征图做2倍上采样,然后将该特征横向连接至较浅一层的特征,加强深层特征信息,提高了分割的精度。
经过轻量化主干网络和特征金字塔网络相结合的特征提取,红外小目标图像生成56×56×256、28×28×256和14×14×256三种大小的特征图便于候选框的生成。
然后,对多级特征中的逐个像素点预设三种大小不同先验框,获得多个候选框。其中,对于一个大小m×n的特征图,共有m×n个网格,即像素点。每个网格设置的先验框数目记为a,那么每个网格共需要(c+4+k)a预测值,所有的网格共需要(c+4)kmn个预测值,由于分割算法采用卷积做检测,所以需要(c+4+k)a个卷积核完成这个特征图的检测分割过程。以56×56特征图为例,所有的网格共生成(4+4+32)×3×56×56个预测值,其中a=3,k=32,c=4,m=n=56。
进一步地,本文采用的实时实例分割算法采用回归偏移值的方法获得预测框坐标及大小。
lcx=(bcx-dcx)/dw
lcy=(bcy-dcy)/dh
lw=log(bw/dw)
lh=log(bh/dh)
式中:lcx、lcy、lw和lh为网络需要学习的目标偏移、值;dw和dh为预设锚点框的宽和高;dcx和dcy为对应特征图左上角特征点的坐标值;bcx、bcy、bw和bh分别为预测框的坐标及宽高值。
基于候选框的检测模型会为每个候选框预测4个值用于表征box信息,和C个值用于表征类别得分,共(4+C)个值。
本文采用的实时实例分割算法为每个候选框预测(4+C+k)个值,额外k个值即为掩模系数。此外,为了能够通过线性组合来得到最终想要的掩模,能够从最终的掩模中减去原型掩模是很重要的。换言之就是,掩模系数必须有正有负。所以,在掩模系数预测时使用了tanh函数进行非线性激活,因为tanh函数的值域是(-1,1)。
S4,过滤置信度得分低于预设置信度阈值的候选框后,对剩余的候选框进行非极大值抑制操作,获取置信度满足条件的候选框对应的置信度得分,坐标和掩模系数。
步骤S4中,首先,将置信度得分低于预设置信度阈值的候选框过滤,预设置信度阈值可以设置为0.05,本发明对此不作具体限定。本实施例根据置信度得分阈值法,将低于0.05置信度得分的(56×56+28×28+14×14)×3=12348个候选框过滤。接着,对剩余的候选框进行非极大值抑制法操作,保留置信度得分排名前100的候选框。
然后,对置信度得分排名前100的候选框进行边界框解码。目前仅得到等同于特征图大小的目标框的预测位置,经过缩放处理最终得到等同于输入图像大小的目标框的最终位置。解码预测值对应的边界框的位置信息为:
lcx=(bcx-dcx)/dw
lcy=(bcy-dcy)/dh
lw=log(bw/dw)
lh=log(bh/dh)
式中:lcx、lcy、lw和lh为网络需要学习的目标偏移、值;dw和dh为预设锚点框的宽和高;dcx和dcy为对应特征图左上角特征点的坐标值;bcx、bcy、bw和bh分别为预测框的坐标及宽高值。
设置variance超参数来调整解码预测值,调整解码预测值后,最终边界框的位置信息为:
bcx=dw(variance[0]*lcx)+dcx
bcy=dh(variance[1]*lcy)+dcy
bw=dwexp(variance[2]*lw)
bh=dhexp(variance[3]*lh)
S5,基于主干网络生成原型掩膜,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得最终的二值掩模。
本实施例中,基于主干网络获取原型掩模。从较深的主干网络中获取的原型掩模可以产生更稳健的掩模,高分辨率的原型掩模有利于提高目标分割精度和小目标的分割效果。
本专利采用特征金字塔作为瓶颈网络,同时原型掩模上采样到原图尺寸的1/4以改善对小目标的分割效果。原型掩模基于全卷积网络实现,最后会输出k个通道特征图,每个通道可以视作一张原型掩模。
将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得掩模模板M:
M=σ(PCT)
其中,P是原型掩模集合,C是n×k的掩模系数集合,代表有n个通过非极大值抑制和阈值过滤的候选框实例,每个候选框实例对应有k个掩模系数。
将通过矩阵乘法获得的掩模模板M上采样为原始图像大小,获得最终的二值掩模。
S6,计算神经网络模型的损失函数,利用损失函数对神经网络模型进行迭代,生成训练完成的红外小目标实时实例分割模型。本实施例中,可以重复步骤S4和步骤S5三次,采用所有红外小目标图像数据训练样本进行迭代,最终获得红外小目标实时实例分割模型。
本实施例中,红外小目标实时实例分割模型的损失函数L(x,c,l,g)为:
其中,x为预测框的类别信息,c为预测框类别信息的置信度,l为预测框的位置信息,g为真实框的位置信息,N为与预先标注的真实目标框相匹配的先验框的个数,α是权值系数,α为1;Lconf(x,c)为类别损失,采用交叉嫡损失函数;Lloc(x,l,g)为位置损失,采用Smooth L1损失函数。
图2是本发明实施例中实例分割的示例图,如图2所示,在获得训练完成的红外小目标实时实例分割模型后,将待分割的红外小目标图像输入所述红外小目标实时实例分割模型,得到相应的实时实例分割结果图像。
在一个实施例中,图3为本发明实施例提供的红外小目标实时实例分割装置结构示意图,本发明实施例提供的红外小目标实时实例分割装置用于执行上述方法实施例中的红外小目标实时实例分割方法。如图3所示,该装置包括:
采集模块301,用于采集多种场景下的红外小目标图像数据训练样本集。
预处理模块302,用于对红外小目标图像训练样本进行预处理,采用标注工具进行小目标二值实例掩膜制作;
多级特征提取模块303,用于采用轻量化网络作为神经网络模型的主干网络,将红外小目标图像训练样本输入主干网络中,提取红外小目标图像的多级特征,基于多级特征生成多级特征图候选框;
候选框过滤模块304,用于过滤置信度得分低于预设置信度阈值的候选框后,对剩余的候选框进行非极大值抑制操作,获取置信度满足条件的候选框对应的置信度得分,坐标和掩模系数;
掩膜获得模块305,用于基于主干网络生成原型掩膜,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得最终的二值掩模;
迭代训练模块306,用于计算神经网络模型的损失函数,利用损失函数对神经网络模型进行迭代,生成训练完成的红外小目标实时实例分割模型。
具体的如何利用上述各模块进行红外小目标实时实例分割,可以参照前述的方法实施例,本发明实施例在此不再赘述。
在一个实施例中,本发明实施例提供了本发明实施例提供了一种电子设备,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(CommunicationsInterface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行上述各实施例提供的红外小目标实时实例分割方法的步骤,例如包括:S1,采集多种场景下的红外小目标图像数据训练样本集;S2,对红外小目标图像训练样本进行预处理,采用标注工具进行小目标二值实例掩膜制作;S3,采用轻量化网络作为神经网络模型的主干网络,将红外小目标图像训练样本输入主干网络中,提取红外小目标图像的多级特征,基于多级特征生成多级特征图候选框;S4,过滤置信度得分低于预设置信度阈值的候选框后,对剩余的候选框进行非极大值抑制操作,获取置信度满足条件的候选框对应的置信度得分,坐标和掩模系数;S5,基于主干网络生成原型掩膜,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得最终的二值掩模;S6,计算神经网络模型的损失函数,利用损失函数对神经网络模型进行迭代,生成训练完成的红外小目标实时实例分割模型。
在一个实施例中,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的红外小目标实时实例分割方法的步骤,例如包括:S1,采集多种场景下的红外小目标图像数据训练样本集;S2,对红外小目标图像训练样本进行预处理,采用标注工具进行小目标二值实例掩膜制作;S3,采用轻量化网络作为神经网络模型的主干网络,将红外小目标图像训练样本输入主干网络中,提取红外小目标图像的多级特征,基于多级特征生成多级特征图候选框;S4,过滤置信度得分低于预设置信度阈值的候选框后,对剩余的候选框进行非极大值抑制操作,获取置信度满足条件的候选框对应的置信度得分,坐标和掩模系数;S5,基于主干网络生成原型掩膜,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得最终的二值掩模;S6,计算神经网络模型的损失函数,利用损失函数对神经网络模型进行迭代,生成训练完成的红外小目标实时实例分割模型。
综上所述,本发明实施例提供了一种红外小目标实时实例分割方法及装置,针对红外图像小目标的特性,对基于深度学习的实例分割算法进行了修改优化,提出了轻量化实时实例分割算法,使其在对像素数较大的目标进行识别定位分割时,也兼顾较小目标特征进行小目标检测识别分割。本发明提供的实时实例分割方法能够更好地适应复杂背景,增强了对地面等景物的抗干扰能力,扩大了该方法的应用范围。
本发明的各实施方式可以任意进行组合,以实现不同的技术效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种红外小目标实时实例分割方法,其特征在于,包括:
S1,采集多种场景下的红外小目标图像数据训练样本集;
S2,对红外小目标图像训练样本进行预处理,采用标注工具进行小目标二值实例掩膜制作;
S3,采用轻量化网络作为神经网络模型的主干网络,将红外小目标图像训练样本输入主干网络中,提取红外小目标图像的多级特征,基于多级特征生成多级特征图候选框;
S4,过滤置信度得分低于预设置信度阈值的候选框后,对剩余的候选框进行非极大值抑制操作,获取置信度满足条件的候选框对应的置信度得分,坐标和掩模系数;
S5,基于主干网络生成原型掩膜,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得最终的二值掩模;
S6,计算神经网络模型的损失函数,利用损失函数对神经网络模型进行迭代,生成训练完成的红外小目标实时实例分割模型。
2.根据权利要求1所述的红外小目标实时实例分割方法,其特征在于,步骤S1中,采集多种场景下的红外小目标图像数据训练样本集,具体包括:
S101,采用中波红外相机采集不同复杂场景下,不同采集目标的红外小目标图像;其中,采集目标包括但不限于行人、汽车和卡车;
S102,多次改变数据采集地点、中波红外相机的拍摄参数,获得红外小目标图像数据训练样本集。
3.根据权利要求1所述的红外小目标实时实例分割方法,其特征在于,步骤S2中,对红外小目标图像训练样本进行预处理,具体包括:
S201,对红外小目标图像训练样本采用非线性动态范围压缩法进行处理;
S202,采用限制对比度自适应直方图均衡法对压缩后的红外小目标图像训练样本进行局部细节增强。
S203,采用绘图软件对红外小目标轮廓进行描绘,然后对红外小目标图像训练样本种各类别目标和背景赋予种不同颜色,生成二值掩模模板图;
S204,通过旋转变换、平移变换、尺度变换、翻转变换、缩放变换、投影变换、随机修剪、色彩抖动、对比度变换和噪声扰动方法对红外小目标图像训练样本进行数据增强;
S205,基于红外小目标图像训练样本的数据类别不平衡的特点,采用类别平衡策略进行数据增广;对所述红外小目标图像训练样本进行随机排序。
4.根据权利要求1所述的红外小目标实时实例分割方法,其特征在于,步骤S3具体包括:
S301,针对实时实例分割要求,采用轻量化主干网络和特征金字塔网络相结合,提取红外小目标图像多级特征;
S302,对多级特征中的逐个像素点预设三种大小不同先验框,获得多个候选框。
5.根据权利要求1所述的红外小目标实时实例分割方法,其特征在于,步骤S4具体包括:
S401,将置信度得分低于预设置信度阈值的候选框过滤,对剩余的候选框进行非极大值抑制法操作,保留置信度得分排名前100的候选框;
S402,对置信度得分排名前100的候选框进行边界框解码,设置variance超参数来调整解码预测值。
6.根据权利要求1所述的红外小目标实时实例分割方法,其特征在于,步骤S5中,基于主干网络生成原型掩膜,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,具体包括:
S501,基于主干网络获取原型掩模;
S502,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得掩模模板M:
M=σ(PCT)
其中,P是原型掩模集合,C是n×k的掩模系数集合,代表有n个通过非极大值抑制和阈值过滤的候选框实例,每个候选框实例对应有k个掩模系数;
S503,将S502通过矩阵乘法获得的掩模模板M上采样为原始图像大小,获得最终的二值掩模。
8.一种红外小目标实时实例分割装置,其特征在于,包括:
采集模块,用于采集多种场景下的红外小目标图像数据训练样本集;
预处理模块,用于对红外小目标图像训练样本进行预处理,采用标注工具进行小目标二值实例掩膜制作;
多级特征提取模块,用于采用轻量化网络作为神经网络模型的主干网络,将红外小目标图像训练样本输入主干网络中,提取红外小目标图像的多级特征,基于多级特征生成多级特征图候选框;
候选框过滤模块,用于过滤置信度得分低于预设置信度阈值的候选框后,对剩余的候选框进行非极大值抑制操作,获取置信度满足条件的候选框对应的置信度得分,坐标和掩模系数;
掩膜获得模块,用于基于主干网络生成原型掩膜,将步骤S4得到的掩模系数与所述原型掩膜进行矩阵乘法运算,获得最终的二值掩模;
迭代训练模块,用于计算神经网络模型的损失函数,利用损失函数对神经网络模型进行迭代,生成训练完成的红外小目标实时实例分割模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述红外小目标实时实例分割方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述红外小目标实时实例分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011632333.8A CN112614136B (zh) | 2020-12-31 | 2020-12-31 | 一种红外小目标实时实例分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011632333.8A CN112614136B (zh) | 2020-12-31 | 2020-12-31 | 一种红外小目标实时实例分割方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112614136A true CN112614136A (zh) | 2021-04-06 |
CN112614136B CN112614136B (zh) | 2024-05-14 |
Family
ID=75252916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011632333.8A Active CN112614136B (zh) | 2020-12-31 | 2020-12-31 | 一种红外小目标实时实例分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112614136B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269171A (zh) * | 2021-07-20 | 2021-08-17 | 魔视智能科技(上海)有限公司 | 车道线检测方法、电子设备及车辆 |
CN113643235A (zh) * | 2021-07-07 | 2021-11-12 | 青岛高重信息科技有限公司 | 一种基于深度学习的芯片计数方法 |
CN113673505A (zh) * | 2021-06-29 | 2021-11-19 | 北京旷视科技有限公司 | 实例分割模型的训练方法、装置、***及存储介质 |
CN113705387A (zh) * | 2021-08-13 | 2021-11-26 | 国网江苏省电力有限公司电力科学研究院 | 一种用于激光清除架空线路异物的干扰物检测和跟踪方法 |
CN113724290A (zh) * | 2021-07-22 | 2021-11-30 | 西北工业大学 | 一种用于红外图像的多层次模板自适应匹配目标跟踪方法 |
CN114283260A (zh) * | 2021-11-16 | 2022-04-05 | 北京航空航天大学 | 一种基于实例分割网络的角膜移植缝合操作的ar导航方法及*** |
CN115761518A (zh) * | 2023-01-10 | 2023-03-07 | 云南瀚哲科技有限公司 | 一种基于遥感图像数据的作物分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
CN111046880A (zh) * | 2019-11-28 | 2020-04-21 | 中国船舶重工集团公司第七一七研究所 | 一种红外目标图像分割方法、***、电子设备及存储介质 |
-
2020
- 2020-12-31 CN CN202011632333.8A patent/CN112614136B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
CN111046880A (zh) * | 2019-11-28 | 2020-04-21 | 中国船舶重工集团公司第七一七研究所 | 一种红外目标图像分割方法、***、电子设备及存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673505A (zh) * | 2021-06-29 | 2021-11-19 | 北京旷视科技有限公司 | 实例分割模型的训练方法、装置、***及存储介质 |
CN113643235A (zh) * | 2021-07-07 | 2021-11-12 | 青岛高重信息科技有限公司 | 一种基于深度学习的芯片计数方法 |
CN113643235B (zh) * | 2021-07-07 | 2023-12-29 | 青岛高重信息科技有限公司 | 一种基于深度学习的芯片计数方法 |
CN113269171A (zh) * | 2021-07-20 | 2021-08-17 | 魔视智能科技(上海)有限公司 | 车道线检测方法、电子设备及车辆 |
CN113269171B (zh) * | 2021-07-20 | 2021-10-12 | 魔视智能科技(上海)有限公司 | 车道线检测方法、电子设备及车辆 |
CN113724290A (zh) * | 2021-07-22 | 2021-11-30 | 西北工业大学 | 一种用于红外图像的多层次模板自适应匹配目标跟踪方法 |
CN113724290B (zh) * | 2021-07-22 | 2024-03-05 | 西北工业大学 | 一种用于红外图像的多层次模板自适应匹配目标跟踪方法 |
CN113705387A (zh) * | 2021-08-13 | 2021-11-26 | 国网江苏省电力有限公司电力科学研究院 | 一种用于激光清除架空线路异物的干扰物检测和跟踪方法 |
CN113705387B (zh) * | 2021-08-13 | 2023-11-17 | 国网江苏省电力有限公司电力科学研究院 | 一种用于激光清除架空线路异物的干扰物检测和跟踪方法 |
CN114283260A (zh) * | 2021-11-16 | 2022-04-05 | 北京航空航天大学 | 一种基于实例分割网络的角膜移植缝合操作的ar导航方法及*** |
CN115761518A (zh) * | 2023-01-10 | 2023-03-07 | 云南瀚哲科技有限公司 | 一种基于遥感图像数据的作物分类方法 |
CN115761518B (zh) * | 2023-01-10 | 2023-04-11 | 云南瀚哲科技有限公司 | 一种基于遥感图像数据的作物分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112614136B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112614136B (zh) | 一种红外小目标实时实例分割方法及装置 | |
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN111046880B (zh) | 一种红外目标图像分割方法、***、电子设备及存储介质 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111915530B (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
CN108510504B (zh) | 图像分割方法和装置 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
US20220129682A1 (en) | Machine-learning model, methods and systems for removal of unwanted people from photographs | |
CN113658132A (zh) | 基于计算机视觉的结构件焊缝检测方法 | |
KR20220050977A (ko) | 의료 이미지 처리 방법, 이미지 처리 방법 및 장치 | |
CN111275034B (zh) | 从图像中提取文本区域的方法、装置、设备和存储介质 | |
CN112381061B (zh) | 一种面部表情识别方法及*** | |
CN113657528B (zh) | 图像特征点提取方法、装置、计算机终端及存储介质 | |
CN109360179B (zh) | 一种图像融合方法、装置及可读存储介质 | |
CN112561813B (zh) | 人脸图像增强方法、装置、电子设备及存储介质 | |
CN116681636B (zh) | 基于卷积神经网络的轻量化红外与可见光图像融合方法 | |
CN111666813B (zh) | 基于非局部信息的三维卷积神经网络的皮下汗腺提取方法 | |
CN111241924A (zh) | 基于尺度估计的人脸检测及对齐方法、装置、存储介质 | |
CN114627034A (zh) | 一种图像增强方法、图像增强模型的训练方法及相关设备 | |
CN114581318B (zh) | 一种低照明度图像增强方法及*** | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
CN111027637A (zh) | 一种文字检测方法及计算机可读存储介质 | |
CN111027564A (zh) | 基于深度学习一体化的低照度成像车牌识别方法及装置 | |
CN112016437B (zh) | 一种基于人脸视频关键帧的活体检测方法 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |