CN112560722B - 一种飞机目标识别方法、装置、计算机设备和存储介质 - Google Patents
一种飞机目标识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112560722B CN112560722B CN202011525959.9A CN202011525959A CN112560722B CN 112560722 B CN112560722 B CN 112560722B CN 202011525959 A CN202011525959 A CN 202011525959A CN 112560722 B CN112560722 B CN 112560722B
- Authority
- CN
- China
- Prior art keywords
- loss function
- target
- image
- prediction
- airplane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000011218 segmentation Effects 0.000 claims abstract description 165
- 238000012549 training Methods 0.000 claims abstract description 94
- 230000002441 reversible effect Effects 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 193
- 238000012545 processing Methods 0.000 claims description 26
- 238000001914 filtration Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 10
- 238000013461 design Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 37
- 238000004422 calculation algorithm Methods 0.000 description 36
- 238000002474 experimental method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000013401 experimental design Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20032—Median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30181—Earth observation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种飞机目标识别方法、装置、计算机设备和存储介质。所述方法包括获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图,将其作为训练样本;获取预设混合任务级联网络,在其分割分支引入斜框回归器,得到旋转混合任务级联网络;根据机头正向,构建方向损失函数;根据预测框损失函数、掩膜损失函数、分割损失函数和方向损失函数,确定总损失函数;根据训练样本及总损失函数,对旋转混合任务级联网络进行反向训练,得到飞机目标识别模型;获取待测样本,将其输入飞机目标识别模型,得到飞机类别、机头正向以及斜框预测信息。使用本发明可以提高飞机目标检测识别的准确率和方向准确度。
Description
技术领域
本申请涉及目标识别技术领域,特别是涉及一种飞机目标识别方法、装置、计算机设备和存储介质。
背景技术
随着图像解译领域不断发展及普及,越来越多的检测识别技术被广泛应用于民用领域,如人脸识别、车辆检测等。飞机目标的方向检测和精细识别是高分辨率光学遥感图像解译领域的一个重要任务。该技术对民用领域中如民航机场流量管控、航班识别、监视空运交通、保障民航飞行安全等方面具有较为广阔的应用前景。
但是,因为民航机场背景复杂,遥感飞机目标自动检测与识别一直以来都是非常具有挑战性的任务。在光学遥感图像中,飞机目标检测识别具有以下难点:方向检测困难、精细识别困难。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现对飞机机头正向的准确检测和飞机类别的进行识别的一种飞机目标识别方法、装置、计算机设备和存储介质。
一种飞机目标识别方法,所述方法包括:
获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图。
获取预设混合任务级联网络,在所述预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;所述斜框回归器用于输出飞机的机头正向和斜框预测信息。
根据所述机头正向,构建方向损失函数。
根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和所述方向损失函数,确定所述旋转混合任务级联网络的总损失函数。
根据所述目标斜框标注、所述精细掩膜和所述图像语义分割图以及所述总损失函数,对所述旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将所述待测目标斜框标注、所述待测精细掩膜和所述待测图像语义分割图输入所述飞机目标识别模型,得到飞机类别、所述机头正向以及所述斜框预测信息。
在其中一个实施例中,还包括:
将所述训练集中飞机图像的目标斜框标注、所述精细掩膜和所述图像语义分割图作为混合任务级联网络的训练样本,将所述训练样本输入到所述旋转混合任务级联网络中的骨干网络。
将所述骨干网络的输出数据输入到分割网络进行分割处理,得到分割结果。
根据所述分割结果,利用最小矩形框拟合,并提取切片,得到目标斜框预测和图像切片。
设定呈十字交叉排布的第一预测主轴和第二预测主轴,所述预测第一预测主轴和所述第二预测主轴分别与所述目标斜框预测的一条边平行。
根据所述第一预测主轴和第二预测主轴分别将所述图像切片二等分,得到四部分,根据所述四部分的精细掩膜面积的差,得到真实主轴;
沿所述主轴方向上每个像素点统计主轴两侧目标轮廓线上对应的最外侧两个像素点与主轴之间的平均距离,得到目标凸轮廓剖面图。
沿所述主轴方向按照预定百分比保留所述目标凸轮廓剖面图前面部分、后面部分,统计对应的值的和,得到所述机头正向。
将所述主轴和所述机头正向输入到所述旋转混合任务级联网络的掩膜分支,进行网络训练,得到预测定位、预测标签、预测掩膜、预测分割结果。
根据所述机头正向、所述预测定位、所述预测标签、所述预测掩膜以及所述预测分割结果,利用所述总损失函数对旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
在其中一个实施例中,还包括:根据所述第一预测主轴将所述图像切片二等分,得到第一部分和第二部分。
根据所述第二预测主轴将所述图像切片二等分,得到第三部分和第四部分。
根据第一部分的精细掩膜面积和第二部分的精细掩膜面积,得到第一精细掩膜面积差。
根据第三部分的精细掩膜面积和第四部分的精细掩膜面积,得到第二精细掩膜面积差。
当第一精细掩膜面积差大于第二精细掩膜面积差时,第一预测主轴为主轴;当第一精细掩膜面积差小于第二精细掩膜面积差时,则第二预测主轴为主轴。
在其中一个实施例中,还包括:
将所述机头正向与机头正向真值的差异值,按照预设的数值进行等分,得到差异值细分。
根据所述差异值细分,利用平滑L1损失函数的方式,得到方向损失函数,所述方向损失函数为:
在其中一个实施例中,还包括:获取旋转混合任务级联网络的阶数。
设置预测框损失函数的权重、掩膜损失函数的权重、分割损失函数的权重以及方向损失函数的权重。
根据所述预测框损失函数的权重、所述掩膜损失函数的权重、所述分割损失函数的权重、所述方向损失函数的权重、所述旋转混合任务级联网络的阶数、预测框损失函数、掩膜损失函数、分割损失函数以及所述方向损失函数,加权得到所述网络训练模型的总损失函数。
在其中一个实施例中,还包括:获取训练集飞机图像中飞机目标区域的切片图像。
将所述切片图像进行灰度化处理,得到灰度图像。
根据灰度图像和预定阈值分割方式,得到阈值分割图。
查询所述阈值分割图中4连通区域,并对所述4连通区域进行标记,得到区域面积。
根据所述区域面积和预定阈值,滤除小与所述预定阈值的非目标区域和孔洞,得到连通域处理图。
根据所述连通域处理图,利用3×3卷积核进行中值滤波,得到中值滤波图。
根据所述中值滤波图,以飞机目标边缘为界剪裁图像,得到飞机目标的精细掩膜,并提取轮廓分割点集。
在其中一个实施例中,还包括:获取斜框标注的训练集飞机图像。
在所述斜框标注的训练集飞机图像中,根据飞机目标标注好的类别和尺寸信息,将与所述飞机目标对应的所述精细掩膜自动进行旋转、放缩、贴合所述飞机目标,得到所述训练集飞机图像的语义分割图。
一种飞机目标识别装置,所述装置包括:
训练样本获取模块:用于获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图。
旋转混合任务级联网络确定模块:用于获取预设混合任务级联网络,在所述预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;所述斜框回归器用于输出飞机的机头正向和斜框预测信息。
方向损失函数设计模块:用于根据所述机头正向,构建方向损失函数。
总损失函数确定模块:用于根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和所述方向损失函数,确定所述旋转混合任务级联网络的总损失函数。
飞机目标识别模型训练模块:用于所述目标斜框标注、所述精细掩膜和所述图像语义分割图以及所述总损失函数,对所述旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
飞机目标识别模块:用于获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将所述待测目标斜框标注、所述待测精细掩膜和所述待测图像语义分割图输入所述飞机目标识别模型,得到飞机类别、所述机头正向以及所述斜框预测信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图。
获取预设混合任务级联网络,在所述预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;所述斜框回归器用于输出飞机的机头正向和斜框预测信息。
根据所述机头正向,构建方向损失函数。
根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和所述方向损失函数,确定所述旋转混合任务级联网络的总损失函数。
根据所述目标斜框标注、所述精细掩膜和所述图像语义分割图以及所述总损失函数,对所述旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将所述待测目标斜框标注、所述待测精细掩膜和所述待测图像语义分割图输入所述飞机目标识别模型,得到飞机类别、所述机头正向以及所述斜框预测信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图。
获取预设混合任务级联网络,在所述预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;所述斜框回归器用于输出飞机的机头正向和斜框预测信息。
根据所述机头正向,构建方向损失函数。
根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和所述方向损失函数,确定所述旋转混合任务级联网络的总损失函数。
根据所述目标斜框标注、所述精细掩膜和所述图像语义分割图以及所述总损失函数,对所述旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将所述待测目标斜框标注、所述待测精细掩膜和所述待测图像语义分割图输入所述飞机目标识别模型,得到飞机类别、所述机头正向以及所述斜框预测信息。
上述飞机目标识别方法、装置、计算机设备和存储介质,通过获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图;获取预设混合任务级联网络,在预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;斜框回归器用于输出飞机的机头正向和斜框预测信息;根据机头正向,构建方向损失函数;根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和方向损失函数,确定旋转混合任务级联网络的总损失函数;根据训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图以及总损失函数,对旋转混合任务级联网络进行反向训练,得到飞机目标识别模型;获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将待测目标斜框标注、待测精细掩膜和待测图像语义分割图输入飞机目标识别模型,得到飞机类别、机头正向以及斜框预测信息。使用本发明可以提高飞机目标检测识别的准确率和方向准确度。
附图说明
图1为一个实施例中飞机目标识别方法的流程示意图;
图2为一个实施例中带分割分支的HTC网络框架示意图;
图3为一个实施例中旋转混合任务级联网络训练流程示意图;
图4(a)为一个实施例中分割图像切片,图4(b)为一个实施例中分割图像切片中预设主轴位置示意图;
图5为一个实施例中预设主轴对分割图像进行二等分的示意图;
图6为一个实施例中机头正向拟合分析过程意图,其中图6(a)为目标和主轴,图6(b)为凸轮廓剖面图;
图7为一个实施例中飞机精细掩膜构建过程示意图,其中:图7(a)为飞机目标区域切片,图7(b)为灰度化,图7(c)为阈值分割,图7(d)为通域处理,图7(e)为中值滤波,图7(f)为剪裁,图7(g)为提取轮廓;
图8为一个实施例中10款飞机的精细掩膜图;
图9为一个实施例中飞机目标识别装置结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为一个实施例中三种算法准确率-召回率(precision-recall,p-r)曲线图;
图12为一个实施例中三种算法的预测目标与真实目标标注方向的角度差值折线图;
图13为一个实施例中Faster RCNN OBB算法的p-r曲线;
图14为一个实施例中Cascade RCNN算法的p-r曲线;
图15为一个实施例中本发明中飞机目标识别算法的p-r曲线。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种飞机目标识别方法,包括以下步骤:
步骤100,获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图。
本发明自建的Google图像飞机数据集,可能含有10类飞机目标的斜框标注。
采用图像形态学处理算法为每类型号飞机构造精细掩膜,并得到每幅图像的语义分割图,以构建更加完备的训练集。
步骤102,获取预设混合任务级联网络,在预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;斜框回归器用于输出飞机的机头正向和斜框预测信息。
预设旋转混合任务级联网络采用的是混合任务级联(Hybrid Task Cascade,简称:HTC)网络为基础架构。
HTC网络是在Cascade RCNN和Mask RCNN基础上进行融合改进的结果。CascadeRCNN开创了级联检测网络的经典结构,Mask RCNN是优秀的通用实例分割架构,Cai Z等人尝试将Cascade RCNN和Mask RCNN的简单组合为Cascade Mask RCNN应用于实例分割任务,通过不断优化预测框的回归来带来更好的检测结果,但其掩膜分支与预测框分支在每个阶段独立运算,二者没有信息流通,掩膜预测精度仅由预测框不断精准而少量提升,这是该网络分割能力较弱的一个原因。
为加强掩膜与预测框之间、掩膜与掩膜之间信息流通,HTC取消第一阶段上的掩膜分支,使其与第一阶段的预测框相关联,提高第一级掩膜预测精度,同时套用级联优化思想,在掩膜分支之间添加信息流,实现掩膜级联,掩膜特征从前一级流通到后一级,大大提高掩膜预测精度。
同时,HTC额外使用了空间上下文信息,将语义特征与掩膜分支特征进行融合,以进一步增强网络对前景背景的区分能力。分割分支以特征金字塔网络(Feature pyramidnetwork,FPN)输出的组合特征作为输入,通过全卷积结构得到分割预测和语义特征。添加分割分支的HTC网络如图2所示。图2中其中M表示掩膜(mask)分支,B表示预测框(box)分支,数字表示阶段(stage),S代表分割分支。
在一个实施例中,HTC网络基础架构检测结果为正框格式,为使其具有方向预测能力,本实施例中的旋转混合任务级联网络是在HTC网络基础架构的技术上,在HTC网络机构架构的分割分支引入斜框回归器结构实现目标斜框检测,斜框回归器输出飞机的机头正向预测值和斜框预测信息,在得到机头正向预测的基础上,继续添加方向损失函数,以进一步提升网络方向预测精度。
网络的输入数据为斜框标注、精细掩膜和语义分割图,分支结构的骨干网络接收输入数据,传输到分割网络,同时在分割网络节点增加方向损失函数,分割网络的输出数据输出到斜框回归器,斜框回归器将主轴及机头正向数据传输到掩膜分支。
斜框回归器通过三个步骤,依次得到目标斜框、主轴和机头正向。
步骤104,根据机头正向,构建方向损失函数。
方向损失函数用于评估飞机目标的预测方向与真值方向的差值,飞机目标的预测方向是通过斜框回归器输出的机头正向,飞机目标的真值方向是通过目标斜框标注获得的。
损失函数的主流的计算方式:平均方程方差损失函数(又称:L2损失函数)、交叉熵损失函数、平均绝对误差损失函数(又称:L1损失函数)、平滑L1损失函数(smooth L1损失函数)。
步骤106,根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和方向损失函数,确定旋转混合任务级联网络的总损失函数。
损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。HTC网络基础结构的损失由三个部分构成:预测框损失、掩模损失、分割损失,其中预测框损失还可细化为位置回归损失和分类损失。本发明中通过斜框回归器得到目标方向预测,通过添加新的方向损失函数,用于评估预测方向与真值方向的差值,以进一步优化网络参数,提升方向预测性能。总的损失函数如下式表示:
预测框损失函数掩膜损失函数分割损失函数Lseg、方向损失函数Ldir,T为网络总阶段数(网络设置为三阶段网络,T=3),t为当前所处阶段,α、β、γ为损失权重(本发明中设置为1:1:1)。其中预测框损失函数如下式所示。
上式表示掩膜损失函数构成,mt表示真是掩膜,表示预测掩膜。掩膜损失函数采用二值交叉熵损失(Binary CrossEntropyLoss,BCELoss)的方式,BCE是交叉熵损失(CrossEntropyLoss,CELoss)的一个特例,在数学中广泛应用于二分类问题。
步骤108,根据训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图以及总损失函数,对旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
将训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图输入到网络模型中,输出定预测位、标预测签、预测掩模、分割预测以及方向预测,将各个预测值及对应的真值输入到总损失函数中得到总损失,如果总损失没有达到预定阈值,就将总损失输入到网络中,对网络进行反向训练学习,直到总损失达到预定阈值要求,输出飞机目标识别模型。
步骤110,获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将待测目标斜框标注、待测精细掩膜和待测图像语义分割图输入飞机目标识别模型,得到飞机类别、机头正向以及斜框预测信息。
上述飞机目标识别方法中,通过获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图;获取预设混合任务级联网络,在预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;斜框回归器用于输出飞机的机头正向和和斜框预测信息;根据机头正向,构建方向损失函数;根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和方向损失函数,确定旋转混合任务级联网络的总损失函数;根据训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图以及总损失函数,对旋转混合任务级联网络进行反向训练,得到飞机目标识别模型;获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将待测目标斜框标注、待测精细掩膜和待测图像语义分割图输入飞机目标识别模型,得到飞机类别、机头正向以及斜框预测信息。使用本发明可以提高飞机目标检测识别的准确率和方向准确度。
对于步骤108,在其中一个实施例中,如图3所示,包括如下步骤:
步骤200,将训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图作为旋转混合任务级联网络的训练样本,将训练样本输入到旋转混合任务级联网络中的骨干网络。
骨干网络是数据训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图输入的接口。将训练样本输入通过骨干网络输入到旋转混合任务级联网络,进入训练学习阶段。
步骤202,将骨干网络的输出数据输入到分割网络进行分割处理,得到分割结果。
步骤204,根据分割结果,利用最小矩形框拟合,并提取切片,得到目标斜框预测和图像切片。
斜框回归器利用最小矩形框拟合对分割结果进行拟合处理得到目标斜框预测,并提取HTC分割结果中的每一个目标,得到图像切片。
步骤206,设定呈十字交叉排布的第一预测主轴和第二预测主轴,预测第一预测主轴和第二预测主轴分别与目标斜框预测的一条边平行。
步骤208,根据第一预测主轴和第二预测主轴将图像切片平均划分为四部分,根据四部分的精细掩膜面积的差,得到真实主轴。
在遥感光学图像中飞机目标具有明显主轴左右对称特性,寻找斜框方向时应优先寻找飞机目标主轴。斜框回归器通过以下步骤得到目标主轴。首先,对分割结果中的目标斜框进行切片处理,如图4(a)所示。其次,假定两个主轴方向,呈十字交叉排布,如图4(b)所示。两条主轴平均将切片划分为四份,主轴1(水平轴)将目标划分为部分1、部分2,主轴2(垂直轴)将目标划分为部分3、部分4。如图5所示。
最后,令部分1、2、3、4的面积为S1,S2,S3,S4,由于遥感飞机目标对称性,若|S1-S2|>|S3-S4|,则可认为部分3、部分4为目标机翼两侧部分,确定主轴2(蓝色)为目标真实主轴。反之亦然,若|S1-S2|<|S3-S4|,则认为部分1、部分2为目标机翼两侧部分,确定主轴1(水平主轴)为目标真实主轴。表1中列出了10个目标精细掩膜的划分结果,S12表示上下面积差,即以主轴垂直平分线为划分线,将目标分为上、下两部分,二者面积差的绝对值。S34表示左右面积差,即以主轴为划分线,将目标分为左、右两部分,二者面积差的绝对值。比率表示左右面积差与上下面积差的比值。由表可知所有目标的S34皆远小于S12,即所有R皆远小于1,由此证明本发明中算法寻找主轴的合理性。
表1
步骤210,沿主轴方向上每个像素点,统计主轴两侧目标轮廓线上对应的最外侧两个像素点与主轴之间的平均距离,得到目标凸轮廓剖面图。
步骤212,沿主轴方向按照预定百分比保留目标凸轮廓剖面图前面部分、后面部分,统计对应的值的和,得到机头正向。
通过上述方法得到如图6(a)所示的目标主轴后,采用以下三个步骤得到机头正向。首先,沿主轴方向上的每个像素点,统计主轴两侧目标轮廓线上对应的最外侧两个像素点与主轴之间的平均距离,绘制出目标凸轮廓剖面图,如图6(b)所示。其次,根据飞行动力学设计,机头通常呈现锥形,机尾则带有尾翼结构。斜框回归器采用只保留剖面图前20%部分和后20%部分,以排除机翼形状、发动机、机载雷达等影响。最后,定义NF20表示飞机目标凸轮廓剖面曲线前20%对应的值的和,NL20表示飞机目标凸轮廓剖面曲线后20%对应的值的和。若NF20<NL20,则判断前20%部分对应机头;反之,NF20>NL20,则判断后20%部分对应机头。。10类目标皆可用此方法找到机头。
总结本发明斜框回归器设计方案步骤如下:
1)对网络检测输出的每个目标分割结果使用最小矩形框拟合,并提取切片。得到目标斜框预测。
2)假定两个主轴方向,将切片划分为四部分,并利用面积差得到主轴。
3)沿主轴方向上每个像素点统计主轴两侧目标轮廓线上对应的最外侧两个像素点与主轴之间的平均距离,绘制目标凸轮廓剖面图。保留剖面图前20%部分和后20%部分,统计对应的值的和,通过和的大小判断机头位置。
步骤214,将主轴和机头正向输入到旋转混合任务级联网络的掩膜分支,进行网络训练,得到预测定位、预测标签、预测掩膜、预测分割结果。
步骤216,根据机头正向、预测定位、预测标签、预测掩膜以及预测分割结果,利用总损失函数对旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
将机头正向、预测定位、预测标签、预测掩膜以及预测分割结果输入到总损失函数得到总损失,如果总损失没有达到预定阈值,就将总损失输入到网络中,对网络进行反向训练学习,直到总损失达到预定阈值要求,输出飞机目标识别模型。
对于步骤208,在其中一个实施例中,如图4(b)、图5所示,包括如下步骤:
根据所述第一预测主轴将所述图像切片二等分,得到第一部分和第二部分。
如图5所示,利用图4(b)中假定的第一预测主轴即水平轴,将飞机图像切片平分为部分1和部分2。
根据所述第二预测主轴将所述图像切片二等分,得到第三部分和第四部分。
如图5所示,利用图4(b)中假定的第二预测主轴即垂直轴,将飞机图像切片平分为部分3和部分4。
根据第一部分的精细掩膜面积和第二部分的精细掩膜面积,得到第一精细掩膜面积差。
第一部分的精细掩膜面积s1和第二部分的精细掩膜面积s2之差即为第一精细掩膜面积差s12。
根据第三部分的精细掩膜面积和第四部分的精细掩膜面积,得到第二精细掩膜面积差。
第二精细掩膜面积差即就是第三部分的面积s3和第四部分的面积s4的面积差s34。
当第一精细掩膜面积差大于第二精细掩膜面积差时,第一预测主轴为主轴;当第一精细掩膜面积差小于第二精细掩膜面积差时,则第二预测主轴为主轴。
当s12>s34时,第一预测主轴(水平轴)为主轴。当s12<s34时,第二预测主轴(垂直轴)为主轴。
对于步骤104,在其中一个实施例中,包括如下步骤:
将机头正向与机头正向真值的差异值,按照预设的数值进行等分,得到差异值细分。
根据差异值细分,利用平滑L1损失函数的方式,得到方向损失函数,方向损失函数为:
方向损失本质上一个预测数值与一个真实数值之间差异性的度量。
在一个实施例中,方向损失采用平滑L1(SmoothL1)损失函数的方式。SmoothL1是L1损失的改进,相比于L1损失和L2损失,SmoothL1更加稳定,利于网络训练。SmoothL1计算方式如下式所示。
x是预测角度值与真实角度值的差值的十分之一,即以角度差值10度为分水岭。当方向偏离较大时,如上式所示,损失函数对x梯度恒为正负1,而不会像L2损失导数随损失增大而增大,从而导致在前期训练时,损失过大梯度***问题。在训练后期,损失趋于平稳且较小,损失函数对x梯度随x减小而减小,使用梯度下降法更新参数时更加平滑,而不会导致模型在稳定值附近波动的情况。
对于步骤106,在其中一个实施例中,包括如下步骤:
获取旋转混合任务级联网络的阶数;设置预测框损失函数的权重、掩膜损失函数的权重、分割损失函数的权重以及方向损失函数的权重;根据预测框损失函数的权重、掩膜损失函数的权重、分割损失函数的权重、方向损失函数的权重、旋转混合任务级联网络的阶数、预测框损失函数、掩膜损失函数、分割损失函数以及所述方向损失函数,加权得到网络训练模型的总损失函数。
T为旋转混合任务级联网络总阶段数(旋转混合任务级联网络设置为三阶段网络,T=3),t为当前所处阶段,α、β、γ为损失权重(本发明中设置为1:1:1)。代表预测框损失函数、代表掩膜损失函数、Lseg代表分割损失函数、Ldir代表方向损失函数,总的损失函数如下式表示:
对于步骤100,在其中一个实施例中,获取训练集中飞机图像的精细掩膜包括:
获取训练集飞机图像中飞机目标区域的切片图像;将所述切片图像进行灰度化处理,得到灰度图像;根据灰度图像和预定阈值分割方式,得到阈值分割图;查询所述阈值分割图中4连通区域,并对所述4连通区域进行标记,得到区域面积;根据所述区域面积和预定阈值,滤除小与所述预定阈值的非目标区域和孔洞,得到连通域处理图;根据所述连通域处理图,利用3×3卷积核进行中值滤波,得到中值滤波图;根据所述中值滤波图,以飞机目标边缘为界剪裁图像,得到飞机目标的精细掩膜,并提取轮廓分割点集。
图像形态学是图像处理中应用最广泛技术之一,主要用于从图像中提取对描述区域形状有意义的图像分量,使后续识别工作能够抓住目标对象最具有区分能力的形状特征,如边界和连通区域等,同时像细化、像素化、修剪毛刺等也常应用于预处理和后处理中,成为深度学习中图像增强新的选择。
实施例中真实采集的遥感图像每类飞机目标,采用灰度化;大津阈值分割;连通域查询并删除小面积区域和孔洞;中值滤波去除毛刺等操作,找到目标轮廓、形状特征,构建每一类目标的精细掩膜。
精细掩膜构建的步骤如下:
1)灰度化:首先将飞机目标区域切片图像读取为灰度图像。
2)阈值分割:利用大津算法计算分割阈值。或根据灰度直方图统计,设计双阈值进行分割。
3)连通域处理:查询图像中4连通区域,并对每个区域进行标记,计算区域面积(即每个区域面积),设置阈值滤除小尺寸非目标区域和孔洞。此处阈值设置为50。
4)中值滤波:使用3×3卷积核对图像做中值滤波,去除目标边缘毛刺,由于飞机目标尺寸较小,所以采用较小尺寸卷积核。
5)剪裁、轮廓提取:以目标边缘为界剪裁图像,得到目标精细掩膜,并提取轮廓分割点集。
以目标型号A220为例,掩膜构建过程如图7,图7(a)为获得飞机目标区域切片,将其进行灰度化处理,得到图7(b)所示的灰度化图,将灰度化图进行阈值分割处理,得到图7(c)所示的阈值分割图,对阈值分割图进行连通域处理,得到图7(d)所示的通域处理图,将通域处理图进行中值滤波,得到图7(e)所示中值滤波图,将中值滤波图以飞机目标边缘为界剪裁图像得到图7(f)所示图像,并提取轮廓分割点集得到如图7(g)所示的飞机目标轮廓图像。
本实施例中使用上述构建步骤构建了10类飞机目标精细掩膜(含其它),每类目标掩膜如图8所示。为展示效果,图中部分飞机尺寸和长宽比略有调整,在网络训练中采用目标掩模真实尺寸和形状。
对于步骤100,在其中一个实施例中,获取训练集中飞机图像的图像语义分割图包括:
获取斜框标注的训练集飞机图像;在所述斜框标注的训练集飞机图像中,根据飞机目标标注好的类别和尺寸信息,将与所述飞机目标对应的所述精细掩膜自动进行旋转、放缩、贴合所述飞机目标,得到所述训练集飞机图像的语义分割图。
在斜框标注的遥感图像数据中,根据每个目标标注好的类别和尺寸信息,将制作好的精细掩膜自动进行旋转、放缩、贴合目标,生成该幅图像的语义分割图。
应该理解的是,虽然图1、图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种飞机目标识别装置,包括:训练样本获取模块、旋转混合任务级联网络确定模块、方向损失函数设计模块、总损失函数确定模块、飞机目标识别模型训练模块以及飞机目标识别模块,其中:
训练样本获取模块:用于获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图。
旋转混合任务级联网络确定模块:用于获取预设混合任务级联网络,在预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;斜框回归器用于输出飞机的机头正向和斜框预测信息。
方向损失函数设计模块:用于根据机头正向,构建方向损失函数。
总损失函数确定模块:用于根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和方向损失函数,确定旋转混合任务级联网络的总损失函数。
飞机目标识别模型训练模块:用于根据训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图以及总损失函数,对旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
飞机目标识别模块:用于获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将待测目标斜框标注、待测精细掩膜和待测图像语义分割图输入飞机目标识别模型,得到飞机类别、机头正向以及斜框预测信息。
关于飞机目标识别装置的具体限定可以参见上文中对于飞机目标识别方法的限定,在此不再赘述。上述飞机目标识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储飞机图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种飞机目标识别方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图。
获取预设混合任务级联网络,在预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;斜框回归器用于输出飞机的机头正向和斜框预测信息。
根据机头正向,构建方向损失函数。
根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和方向损失函数,确定旋转混合任务级联网络的总损失函数。
根据训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图以及总损失函数,对旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将待测目标斜框标注、待测精细掩膜和待测图像语义分割图输入飞机目标识别模型,得到飞机类别、机头正向以及斜框预测信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图。
获取预设混合任务级联网络,在预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;斜框回归器用于输出飞机的机头正向和斜框预测信息。
根据机头正向,构建方向损失函数。
根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和方向损失函数,确定旋转混合任务级联网络的总损失函数。
根据训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图以及总损失函数,对旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将待测目标斜框标注、待测精细掩膜和待测图像语义分割图输入飞机目标识别模型,得到飞机类别、机头正向以及斜框预测信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
在一个实施例中,对上述飞机目标识别方法进行多组实验进行功能、性能验证。
(1)方向检测性能评估测试
为了测试本发明提出的斜框回归器方向检测性能,即目标检测的准确率、方向准确率。实验设计在真实的10个具体型号斜框标注下训练,测试时,所有目标种类归为同一类,以忽略类别影响,只对比检测效果。本发明设计了2组对比实验,对比算法为:FasterRCNN OBB算法、ROItransformer算法。Faster RCNN OBB算法是DOTA遥感数据集的基准旋转框检测方法,ROItransformer算法是2019年国际计算机视觉与模式识别会议(CVPR)中优秀的旋转框检测算法。为了公平地比较不同斜框检测方法对方向检测的优劣,在对比实验时对以下4部分使用了相同设置。
1)骨干特征提取网络本发明统一选择使用ResNet50模型,均使用经过ImageNet预训练之后的模型做迁移训练。
2)每次输入的训练和测试图像的批数量均设置为2。
3)所有实验的模型测试使用的IOU阈值均设置为0.5。
实验设计采用平均精准度(average precision,AP),即准确率在召回率上的积分作为评价指标。式中r代表召回率,即所有真值标注中被正确检测的比例;p(·)代表准确率,即检测结果中正确的结果所占比例。在实验用测试集上,本发明中的飞机目标识别方法(本文方法)、Faster rcnn obb算法(其他算法1)、ROItransformer算法(其他算法2)的AP分别为92.78、71.08和66。图11展示了三种算法准确率-召回率(precision-recall,p-r)曲线图。从图11中可以看出本算法,准确率随召回率的提高并没有出现像其他两种算法那样明显下降;且召回率更高接近100%,其他算法召回率都停止在80%;这表明本发明中的方法在漏检更少的情况下,虚警也较低,检测精度更高。
Faster rcnn obb算法根据ROI池化之后的正框与真值标注中的斜框作比对,回归出斜框坐标,但由于其基础网络Faster rcnn的正框预测只有两个点、四个参数表示,即R=(xmin,ymin,xmax,ymax),而斜框预测时需要回归四个点、八个参数(G={(gxi,gyi),i=1,2,3,4}),回归参数的增加导致网络定位性能下降。ROItransformer算法,通过斜框标注直接学习八个参数,很大程度提升了定位性能,但面对飞机这类小目标时,由于缺乏掩膜特征中的尺寸、轮廓信息,以及语义分割信息等辅助,其网络检测性能也表现不佳。
由于目前目标斜框检测中缺乏方向相关的评价标准,本实施例中设计一种新的评价方式:方向精准度(direction precision,DP)。DP用于评价方向检测中方向的偏差大小,即所有正确检测(IOU满足阈值要求)的目标中,满足方向要求的目标所占比例。
式中i代表被正确检测的某个目标,θgt代表其真值框方向(度),θdet代表其检测框方向(度)。当检测方向与真值方向差值小于等于10度时,视为该目标方向检测达到要求,count(i)为1;否则视为不满足方向要求,count(i)为0。n代表正确检测的总目标数,对所有满足方向要求的目标计数求和,其与总目标数的比值即为方向精准度DP。
图12展示了三种算法各随机取100个预测目标,与真实目标标注方向的角度差值折线图。其他算法1为Faster RCNN OBB算法,其他算法2为ROItransformer算法,该图y轴数值的大小反映出在已经正确检测到目标的基础上,目标预测方向与真实方向的偏离程度,角度差表示方向检测的越精准。
表2展示了不同算法间方向检测精度的具体评价值,如最大角度差、角度差中值、角度差均值、角度差标准差,以及方向精准度DP。最大角度差反映预测预测方向与真实方向最大偏离程度,中值、均值反映预测方向与真实方向平均的偏离程度,角度差标准差反映出预测方向的稳定性,最后利用DP对方向检测对出定性评价,DP值越高,方向检测越精准。
表2
如表2和图12所示,本发明预测方向偏离较大的情况相比较于其他斜框算法更少;通过中值与均值可以看出,本发明在大部分目标上都有着较好的方向预测,误差大多小于10度;且本发明角度差方差更小,预测更加稳定。由于本发明利用了精细掩膜的信息辅助,且网络增添方向损失,这使得预测斜框时,回归器可以更加有针对性的寻找目标主轴,确定目标机头,方向预测也更加准确。最后通过DP评判,本发明方向预测更加精准。
(2)精细识别性能评估测试
为了测试本发明的精细识别性能,实验设计在真实的10个具体类别斜框标注下训练和测试,采用类别平均精准度(mean AP,mAP)作为评价标准。mAP计算方式如下式所示。
N代表总的类别数;AP(i)表示第i类目标的AP值。本发明设计了3组对比实验,即本发明、Faster RCNN OBB算法、Cascade RCNN算法。为了公平地比较不同识别方法对精细识别效果的优劣,在对比实验时采用同实验1相同的网络设置。
图13展示了Faster RCNN OBB算法的p-r曲线,模型总体表现mAP为65.80%,多数类别在召回率升高的过程中出现了大幅度下降,分类性能并不稳定,且很多小型客机如Boeing737、A220等单类AP值非常低,这说明模型在细节不清晰的小尺寸目标识别上效果并不好。其原因主要是:模型网络深度不够且没有级联结构,导致特征学习不充足,对密集排列的小目标和样本个数少的稀有目标分类结果很差,模型鲁棒性不够。
图14展示了Cascade RCNN算法的p-r曲线,模型总体表现mAP为75.65%。引入级联结构后使得目标定位更加准确,模型分类性能得到一定的改善,mAP上升10个点,且小目标分类效果有所提高。但模型并没有利用到掩膜信息、也没有联系上下文信息,分类精度的提升仅仅是因为预测框定位精度的提升导致,增幅较小。
图15展示了本发明的p-r曲线,模型总体表现mAP为90.45%,本发明同样采用三级级联结构,目标正框定位效果更好,同时模型带有精确掩膜信息的三级掩膜流结构加语义分割部分,使得目标多种特征可以更好被模型学习到,分类效果提升很大;使用设计好的斜框回归器对目标进行斜框预测,同时使用方向损失同步训练模型,对斜框预测精度进一步提升。
(3)可嵌入性
本发明提出的斜框回归器、方向损失函数是一种通用型的结构,通过嵌入其他分割网络,使其同样具有遥感飞机目标斜框检测的能力,并提高其识别性能。本实施例设计了2组实验,以证明该结构可嵌入性。实验1使用Mask RCNN作为baseline1,实验2在Mask RCNN中添加方向损失函数和斜框回归器,并使用精细掩膜作为输入,实验3使用Cascade MaskRCNN作为baseline2,实验4在Cascade Mask RCNN中添加方向损失函数和斜框回归器,并使用精细掩膜作为输入。实验同样采用DP和mAP作为评价标准,结果如表3所示。
表3
通过表3可以看出,实验1中Mask RCNN在添加精细掩膜和方向损失后,DP增长17个点,mAP增长8个点,实验2中Cascade Mask RCNN添加后,DP增长17个点,mAP增长9个点。同时两种实例分割算法在使用本发明所提斜框回归器后,也具有了斜框检测功能,通过添加精细掩膜和方向损失函数,网络方向检测和精细识别性能再次得到提升。本实验证明文章所提思路在其他分割网络上进行嵌入的可行性、有效性。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种飞机目标识别方法,其特征在于,所述方法包括:
获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图;
获取预设混合任务级联网络,在所述预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;所述斜框回归器用于输出飞机的机头正向和斜框预测信息;
根据所述机头正向,构建方向损失函数;
根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和所述方向损失函数,确定所述旋转混合任务级联网络的总损失函数;
根据所述目标斜框标注、所述精细掩膜和所述图像语义分割图以及所述总损失函数,对所述旋转混合任务级联网络进行反向训练,得到飞机目标识别模型;
获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将所述待测目标斜框标注、所述待测精细掩膜和所述待测图像语义分割图输入所述飞机目标识别模型,得到飞机类别、所述机头正向以及所述斜框预测信息。
2.根据权利要求1所述的方法,其特征在于,根据所述目标斜框标注、所述精细掩膜和所述图像语义分割图以及所述总损失函数,对所述旋转混合任务级联网络进行反向训练,得到飞机目标识别模型,包括:
将所述训练集中飞机图像的目标斜框标注、所述精细掩膜和所述图像语义分割图作为旋转混合任务级联网络的训练样本,将所述训练样本输入到所述旋转混合任务级联网络中的骨干网络;
将所述骨干网络的输出数据输入到分割网络进行分割处理,得到分割结果;
根据所述分割结果,利用最小矩形框拟合,并提取切片,得到目标斜框预测和图像切片;
设定呈十字交叉排布的第一预测主轴和第二预测主轴,所述预测第一预测主轴和所述第二预测主轴分别与所述目标斜框预测的一条边平行;
根据所述第一预测主轴和第二预测主轴分别将所述图像切片二等分,得到四部分,根据所述四部分的精细掩膜面积的差,得到真实主轴;
沿所述主轴方向上每个像素点统计主轴两侧目标轮廓线上对应的最外侧两个像素点与主轴之间的平均距离,得到目标凸轮廓剖面图;
沿所述主轴方向按照预定百分比保留所述目标凸轮廓剖面图前面部分、后面部分,统计对应的值的和,得到所述机头正向;
将所述主轴和所述机头正向输入到所述旋转混合任务级联网络的掩膜分支,进行网络训练,得到预测定位、预测标签、预测掩膜、预测分割结果;
根据所述机头正向、所述预测定位、所述预测标签、所述预测掩膜以及所述预测分割结果,利用所述总损失函数对旋转混合任务级联网络进行反向训练,得到飞机目标识别模型。
3.根据权利要求2所述的方法,其特征在于,根据所述第一预测主轴和第二预测主轴分别将所述图像切片二等分,得到四部分,根据所述四部分的精细掩膜面积的差,得到真实主轴,包括:
根据所述第一预测主轴将所述图像切片二等分,得到第一部分和第二部分;
根据所述第二预测主轴将所述图像切片二等分,得到第三部分和第四部分;
根据第一部分的精细掩膜面积和第二部分的精细掩膜面积,得到第一精细掩膜面积差;
根据第三部分的精细掩膜面积和第四部分的精细掩膜面积,得到第二精细掩膜面积差;
当第一精细掩膜面积差大于第二精细掩膜面积差时,第一预测主轴为主轴;当第一精细掩膜面积差小于第二精细掩膜面积差时,则第二预测主轴为主轴。
5.根据权利要求1所述的方法,其特征在于,根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和所述方向损失函数,确定所述网络训练模型的总损失函数,包括:
获取旋转混合任务级联网络的阶数;
设置预测框损失函数的权重、掩膜损失函数的权重、分割损失函数的权重以及所述方向损失函数的权重;
根据所述预测框损失函数的权重、所述掩膜损失函数的权重、所述分割损失函数的权重、所述方向损失函数的权重、所述旋转混合任务级联网络的阶数、预测框损失函数、掩膜损失函数、分割损失函数以及所述方向损失函数,加权得到所述网络训练模型的总损失函数。
6.根据权利要求1所述的方法,其特征在于,获取训练集中飞机图像的精细掩膜包括:
获取训练集飞机图像中飞机目标区域的切片图像;
将所述切片图像进行灰度化处理,得到灰度图像;
根据灰度图像和预定阈值分割方式,得到阈值分割图;
查询所述阈值分割图中4连通区域,并对所述4连通区域进行标记,得到区域面积;
根据所述区域面积和预定阈值,滤除小与所述预定阈值的非目标区域和孔洞,得到连通域处理图;
根据所述连通域处理图,利用3×3卷积核进行中值滤波,得到中值滤波图;
根据所述中值滤波图,以飞机目标边缘为界剪裁图像,得到飞机目标的精细掩膜,并提取轮廓分割点集。
7.根据权利要求1所述的方法,其特征在于,获取训练集中飞机图像的图像语义分割图包括:
获取斜框标注的训练集飞机图像;
在所述斜框标注的训练集飞机图像中,根据飞机目标标注好的类别和尺寸信息,将与所述飞机目标对应的所述精细掩膜自动进行旋转、放缩、贴合所述飞机目标,得到所述训练集飞机图像的语义分割图。
8.一种飞机目标识别装置,其特征在于,所述装置包括:
训练样本获取模块:用于获取训练集中飞机图像的目标斜框标注、精细掩膜和图像语义分割图;
旋转混合任务级联网络确定模块:用于获取预设混合任务级联网络,在所述预设混合任务级联网络的分割分支引入斜框回归器,得到旋转混合任务级联网络;所述斜框回归器用于输出飞机的机头正向和斜框预测信息;
方向损失函数设计模块:用于根据所述机头正向,构建方向损失函数;
总损失函数确定模块:用于根据旋转混合任务级联网络中的预测框损失函数、掩膜损失函数、分割损失函数和所述方向损失函数,确定所述旋转混合任务级联网络的总损失函数;
飞机目标识别模型训练模块:用于根据所述目标斜框标注、所述精细掩膜和所述图像语义分割图以及所述总损失函数,对所述旋转混合任务级联网络进行反向训练,得到飞机目标识别模型;
飞机目标识别模块:用于获取待测飞机图像的待测目标斜框标注、待测精细掩膜和待测图像语义分割图,将所述待测目标斜框标注、所述待测精细掩膜和所述待测图像语义分割图输入所述飞机目标识别模型,得到飞机类别、所述机头正向以及所述斜框预测信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011525959.9A CN112560722B (zh) | 2020-12-22 | 2020-12-22 | 一种飞机目标识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011525959.9A CN112560722B (zh) | 2020-12-22 | 2020-12-22 | 一种飞机目标识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560722A CN112560722A (zh) | 2021-03-26 |
CN112560722B true CN112560722B (zh) | 2022-09-09 |
Family
ID=75031340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011525959.9A Active CN112560722B (zh) | 2020-12-22 | 2020-12-22 | 一种飞机目标识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560722B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113114871A (zh) * | 2021-04-15 | 2021-07-13 | 福建技术师范学院 | 一种数字图像隐写方法及*** |
CN113177918B (zh) * | 2021-04-28 | 2022-04-19 | 上海大学 | 一种无人机对电力杆塔的智能精准巡检方法及*** |
CN113420768A (zh) * | 2021-08-24 | 2021-09-21 | 深圳市信润富联数字科技有限公司 | 岩芯类别确定方法、装置、电子设备和存储介质 |
CN114355977B (zh) * | 2022-01-04 | 2023-09-22 | 浙江大学 | 一种基于多旋翼无人机的塔式光热电站镜场巡检方法及装置 |
CN115170800A (zh) * | 2022-07-15 | 2022-10-11 | 浙江大学 | 一种基于社交媒体与深度学习的城市内涝积水深度识别方法 |
CN115063578B (zh) * | 2022-08-18 | 2023-01-10 | 杭州长川科技股份有限公司 | 芯片图像中目标对象检测与定位方法、装置及存储介质 |
CN115690094B (zh) * | 2022-12-12 | 2023-05-30 | 常州微亿智造科技有限公司 | 基于自监督网络的工业缺陷检测方法和*** |
CN116580277B (zh) * | 2023-05-10 | 2024-01-30 | 哈尔滨市科佳通用机电股份有限公司 | 一种基于深度学习的底部电子识别标签丢失图像识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210443A (zh) * | 2020-01-03 | 2020-05-29 | 吉林大学 | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 |
CN111507989A (zh) * | 2020-04-15 | 2020-08-07 | 上海眼控科技股份有限公司 | 语义分割模型的训练生成方法、车辆外观检测方法、装置 |
-
2020
- 2020-12-22 CN CN202011525959.9A patent/CN112560722B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210443A (zh) * | 2020-01-03 | 2020-05-29 | 吉林大学 | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 |
CN111507989A (zh) * | 2020-04-15 | 2020-08-07 | 上海眼控科技股份有限公司 | 语义分割模型的训练生成方法、车辆外观检测方法、装置 |
Non-Patent Citations (2)
Title |
---|
主动太赫兹成像中的多目标分割与检测识别方法;薛飞等;《红外》;20200225(第02期);全文 * |
基于改进Mask RCNN的俯视群养猪图像的分割;张凯中等;《软件》;20200315(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112560722A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560722B (zh) | 一种飞机目标识别方法、装置、计算机设备和存储介质 | |
CN110110799B (zh) | 细胞分类方法、装置、计算机设备和存储介质 | |
KR101640998B1 (ko) | 화상 처리 장치 및 화상 처리 방법 | |
Guo et al. | Scattering enhanced attention pyramid network for aircraft detection in SAR images | |
CN105975913B (zh) | 一种基于自适应聚类学习的道路网提取的方法 | |
Maurya et al. | Road extraction using k-means clustering and morphological operations | |
Sun et al. | Face detection based on color and local symmetry information | |
CN109919106B (zh) | 渐进式目标精细识别与描述方法 | |
CN108537751B (zh) | 一种基于径向基神经网络的甲状腺超声图像自动分割方法 | |
CN111274926B (zh) | 图像数据筛选方法、装置、计算机设备和存储介质 | |
CN103310194A (zh) | 视频中基于头顶像素点梯度方向的行人头肩部检测方法 | |
CN115066708A (zh) | 点云数据运动分割方法、装置、计算机设备和存储介质 | |
CN106778650A (zh) | 基于多类型信息融合的场景自适应行人检测方法和*** | |
CN109034239B (zh) | 遥感影像分类方法、分布式风电场的选址方法和设备 | |
CN106611158A (zh) | 人体3d特征信息的获取方法及设备 | |
US9953238B2 (en) | Image processing method and system for extracting distorted circular image elements | |
CN106548195A (zh) | 一种基于改进型hog‑ulbp特征算子的目标检测方法 | |
CN116508057A (zh) | 图像识别方法、装置和计算机可读存储介质 | |
CN114219936A (zh) | 目标检测方法、电子设备、存储介质和计算机程序产品 | |
CN109508720A (zh) | 一种车辆颜色识别方法及装置 | |
CN111368603B (zh) | 遥感图像的飞机分割方法、装置、可读存储介质及设备 | |
CN110287970B (zh) | 一种基于cam与掩盖的弱监督物体定位方法 | |
Dai et al. | Mask R-CNN-based cat class recognition and segmentation | |
CN108985216B (zh) | 一种基于多元logistic回归特征融合的行人头部检测方法 | |
CN110427907A (zh) | 一种灰度图边界检测和噪声帧填充的人脸识别预处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |