CN115457551A - 适用于小样本条件的叶片损伤识别方法 - Google Patents

适用于小样本条件的叶片损伤识别方法 Download PDF

Info

Publication number
CN115457551A
CN115457551A CN202210918858.0A CN202210918858A CN115457551A CN 115457551 A CN115457551 A CN 115457551A CN 202210918858 A CN202210918858 A CN 202210918858A CN 115457551 A CN115457551 A CN 115457551A
Authority
CN
China
Prior art keywords
mask
roi
branch
network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210918858.0A
Other languages
English (en)
Inventor
刘雪云
钟诗胜
付旭云
孙聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN202210918858.0A priority Critical patent/CN115457551A/zh
Publication of CN115457551A publication Critical patent/CN115457551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种适用于小样本条件的叶片损伤识别方法,提出了基于Mask R‑CNN的分层混合检测网络结构组成、损失函数分析、训练以及预测流程。针对尺寸较小、出现频率较低、容易被忽略的对象(即损伤),采取低IoU阈值分类与高IoU阈值目标分割训练,低置信度分类与高置信度目标分割混合识别策略,以获得更全面的检测结果。采取通过图像处理办法扩充样本数据集、输入端数据增强、引用COCO预训练权重、迁移学习等方法提高了损伤图像小样本训练的收敛速度和准确度。

Description

适用于小样本条件的叶片损伤识别方法
技术领域:
本发明涉及航空发动机维修技术领域,具体的说是一种能够准确得到叶片损伤信息的适用于小样本条件的叶片损伤识别方法。
背景技术:
为了准确得到叶片损伤的类别、尺寸、位置信息,除了目标识别,还需要对目标进行实例分割,对于航空发动机的原位叶片损伤检测任务来说,孔探图像来源稀少、叶片损伤图像采集困难,且标注工作需要一定经验,工作量大、单一枯燥。与此同时,在已有孔探数据中,包含损伤的样本数量稀缺,远远少于正常样本,不足以填充整个样本空间,且由于样本之间差距较大,分布十分不均匀,导致检测精度不理想,泛化能力低。
发明内容:
本发明针对现有技术中存在的缺点和问题,提出了一种能够准确得到叶片损伤信息的适用于小样本条件的叶片损伤识别方法。
本发明通过以下措施达到:
一种适用于小样本条件的叶片损伤识别方法,其特征在于,包括以下步骤:
步骤1:建立基于Mask R-CNN的分层混合检测网络模型,包括用于提取输入图像多尺度特征的特征提取网络,由深度残差网络提取并输出各阶特征图,然后通过特征金字塔对其进行融合,输出5层不同大小的融合特征图,并对每层特征图的每个像素点生成不同尺寸比例锚选区域;然后将各层特征图和对应的锚选框输入区域候选网络,通过前景、背景的二分类、回归,得到锚选区域的前景置信度和坐标,对其进行筛选,得到并输出ROI;接下来,通过ROIAlign对RPN层输出的ROI进行池化,得到固定大小的子特征图,用作分类任务、回归任务和分割任务;最后是分层混合检测分支,ROIAlign输出的子特征图与特征图一起通过低IOU阈值目标检测器进行分类和回归,识别可能为损伤的区域,同时ROIAlign输出的子特征图与特征图一起作为输入通过高IOU阈值目标检测器进行分类和回归,得到置信度较高的对象的类别和识别框,最后通过Mask分支对每一类目标进行语义分割,得到目标的具体轮廓;
步骤2:对模型进行训练之前,需要对数据集进行样本扩充和数据增强;
步骤3:对模型进行训练,并采用迁移学习策略,提高小样本学习的收敛速度和准确度。
本发明步骤1中,特征提取网络首先通过残差网络ResNet-101提取输入图像的五层卷积特征C1,C2,...,C5,每层特征图都具有不同的尺度,包含不同程度的语义信息,通过拟合残差f(x)=H(x)-x替代拟合H(x),最终输出H(x)由残差与输入的和f(x)+x计算,当网络层数加深,残差f(x)逐渐趋向于零,输入与输出相同,网络性能不会降低,解决了退化问题,提高深层网络的性能,收敛快,易优化,通过FPN金字塔网络对C2,...,C5四层特征进行融合,充分利用各层特征,使得最终输出的各层特征图同时具有较强轮廓特征和丰富语义信息,具有鲁棒性能;
由于各层特征图对输入图像的感受野不同,具有不同的尺寸,因此无法直接相加融合,首先通过最邻近法二倍上采样将高层特征图尺寸与低层特征图相统一,然后通过1×1卷积核使得低层特征通道数与高层特征相同,具有相同通道数和相同尺寸的特征图相加融合得到特征图M2,...,M5,并通过3×3的卷积核去除混叠效应,得到P2,...,P5。通过对P5最大池化得到P6
自上而下的采样和横向连接的叠加融合方式如下。首先对第五层特征C5通过1×1和3×3卷积核得到P5
P5=Conv3(Conv1(C5)) (1)
式中Conv1为1×1卷积,Conv3为3×3卷积。通过步长为2的最大池化,可以在的P5基础上得到P6。P6包含的语义信息更加丰富,与此同时,分辨率更低,轮廓和位置信息丢失更加严,在大目标的检测中具有更好的表现,对于较小的目标,往往检测效果较差。
P2,P3,P4由C2,C3,C4通过1×1卷积与高层通道数匹配后与高层特征上采样进行结合,再通过3×3卷积获得:
Figure BDA0003774543850000021
其中i∈[2,4],UpSampling2为最邻近法二倍上采样,
Figure BDA0003774543850000022
像素相加。
其中P2-P6用于进行RPN网络的训练,而P2-P5用于进行分类、回归和分割的预测。
在RPN网络之前,由锚选框生成器在特征图P2,P3,P4,P5(训练的时候包含P6,预测的时候不包含P6)上分别生成锚选框,根据各层特征图感受野的大小不同,在每个特征图的每个特征点上生成面积相同(方形边长分别为32、64、128、256、512),长宽比例分别为0.5、1、2的三个锚选框,对应到原图上共有15种不同的大小比例不同的框。以P2层为例,scale值为32,特征图尺寸为256×256,步长为4,因此在每个像素点上生成45.254834×22.627417、32×32、22.627417×45.254834三种尺寸的框,该特征图上共生成256×256×3=196608个框,五层共生成196608+49152+12288+3072+768=261888个锚选框;
RPN网络对上一步生成的众多锚选框进行筛选,移除无效的边框,并对其进行分类和回归,得到每个锚选框的前景置信度和背景置信度以及四个坐标值,生成候选ROI区域。然后通过ProposalLayer层根据RPN层回归的box坐标对ROI的位置和尺寸进行精确调整,根据其前景置信度进行排序,找到评分最高的2000个ROI并通过非最大值抑制去掉重复的框,得到最后的候选区域。
RPN在特征图Pi产生ROI的过程,可由式(3)表示:
Figure BDA0003774543850000023
其中RPN表示区域候选网络对各尺度特征Fi和锚选框的处理过程。根据分类得到的候选框前景置信度排名选取前M个,然后通过NMS(非极大值抑制)去除重复区域得到RoI输出。如式(4)所示:
Figure BDA0003774543850000031
RPN网络输出的2000个ROI区域,首先要经过DetectionTargetLayer层,该层的作用如下:
剔除用零填充及不符合输入条件的ROI,根据图像信息,去除同时包含多个目标的候选框,计算每个ROI和真实框之间的IOU值,选择200个,并保证正负样本比例。计算正样本中最接近真实值的框,并根据真实目标给定类别。计算ROI与最接近真实值的框之间的便宜并计算损失,将目标mask大小调整为28×28,并给定类别用于后续计算。在预测过程中,该层的作用为调整mask大小,根据分类回归的预测结果对ROI区域进行修正,并输入mask网络进行语义分割。
分层混合检测分支包括IOU阈值为0.5的分类器Box0.5、IOU阈值为0.6的分类器Box0.6以及用于语义分割的Mask分支。首先Box0.5对区域候选网络提供的建议RoI区域,以较低置信度阈值对候选区域进行广泛分类和回归,由于较低置信的分类结果并不准确,因此这里只输出包含目标的区域框,不进行类别区分,以此检测到更多可能包含损伤的区域。然后通过Box0.6分支以较高的置信度阈值对候选区域进行精确分类和回归,得到准确的分类结果和准确的边框回归。最后DetectionTargetLayer对Box0.6的预测结果进行ROI修正,通过Mask分支进行语义分割,得到损伤的轮廓范围。将三个分支的结果在原图上进行叠加,得到最终结果,具体实现如下:
RPN层提供的建议候选框通过RoI-Align池化操作得到7×7和14×14两种大小的ROI特征图,其中7×7的特征图作为Box0.5和Box0.6的输入,14×14的特征图作为Mask分支的输入。RoI-Align池化层采用双线性插值取代RoIpooling的取整量化操作,实现了ROI特征图和ROI的一一对应关系,减小了偏移误差,是能够实现像素级别的语义分割的关键。
假设输入一张800×800的图像,其中包含一个665×665的目标,对该图像进行特征提取后,获得的特征图尺寸为800/32×800/32=25×25(整数),但是目标区域映射到特征图上,对应的尺寸为665/32×665/32=20.78×20.78,结果并非整数,然而像素点并不存在小数。在传统的RoIpooling池化操作中采用了取整方案,对其进行量化,将对应尺寸四舍五入取为20×20,因此引入了一定的误差;对于特征图中不同尺寸的ROI其区域,在进行分类和回归时应具有相同的尺寸,因此,在此之前要将ROI处理为固定大小的ROI特征图,为了将20×20的ROI映射成7×7的ROI特征图,ROI特征图中一个像素点对应原特征图中20/7=2.86个像素点,相对应的区域尺寸为20/7×20/7=2.86×2.86,这里同样因为不是整数,进行了第二次的取整量化操作,再一次引入误差。两次量化误差会导致分类的得到的ROI特征对应到原图像时,由于破坏了像素之间的一一对应关系,会与实际的预测结果产生一定的偏差。对于第一的取整操作,将20.78取整为20,引入了0.78的误差,还原到原图产生32×0.78=24.96的误差,而对于第二次量化操作,由于误差经历了两次积累,产生的对应于原图的偏差就更大,对于目标检测和分类来说,边界框的偏移看起来并没有那么的明显,但是几十个像素的偏差对于目标分割而言,会使mask掩码与目标之间发生明显的偏差,使得分割结果与目标轮廓严重不对齐。因此RoIAlign池化操作放弃了取整量化操作,而是采用双线性插值的方法,根据四个点坐标的像素值,得到特征图中对应像素点的值,从而使得原图与特征图之间的像素一一对应,变得连续,减小了返回偏差。
具体过程如式(5)、(6)和(7)所示:
Figure BDA0003774543850000041
Figure BDA0003774543850000042
Figure BDA0003774543850000043
式中,B1和B2为Box0.5和Box0.6检测分支对RPN层输出的匹配和偏移计算修正过程,Mp表示Mask分支对正样本的过滤操作。RolBox1、RolBox2和RolMask分别为Box0.5、Box0.6和Mask分支中ProposalLayer层对RPN层输出进行筛选优化生成的ROI。Align表示RoI-Align池化。在区域候选网络进行前景与背景粗略划分的基础上,Box0.5分支对ROI特征进行了低置信度的分类回归,Box0.6分支对ROI特征进行了高置信度的分类回归,最后环节为边框回归和剔除相似框的非极大值抑制,如式(8)和(9)所示:
PB1=Box1(FBox1) (8)
PB2=Box2(FBox2) (9)
其中,Box1和Box2分别为Box0.5分支和Box0.6分支在上一步得到的结果。Mask在Box0.6分支的结果上,根据预测的类别,进行语义分割,生成待检测目标的二值Mask掩码,如式(10)所示:
PB2=Box2(FBox2) (10)
Mask_FCN表示Mask语义分割分支对FMask特征生成目标二值Mask掩码过程。
损失函数从类别上看包含分类损失、回归损失和Mask分割损失三种,其中分类损失的计算依靠的是Softmax函数的交叉熵损失函数,回归损失的计算是通过sommth_L1损失函数。分类损失计算过程如式(11)、(12)和(13)所示:
ΔC=ΔC1C2 (11)
Figure BDA0003774543850000051
Figure BDA0003774543850000052
其中ΔC1和ΔC2分别代表两个分类器的多分类损失;C1和C2分别代表两预测分支分类器;t1和t2分别表示不同阈值的多分类真值。
回归框损失函数定义如式(14)、(15)和(16)所示:
ΔBB=ΔBB1BB2 (14)
Figure BDA0003774543850000053
Figure BDA0003774543850000054
其中ΔBB1和ΔBB2为Box0.5和Box0.6的回归框损失;RIoU=0.5和RIoU=0.6为Box0.5和Box0.6的回归器;b=(bx,by,bw,bh)是ROI区域框坐标,g为目标真实框坐标。
Mask分割损失通过binary_cross_entropy二分类交叉熵损失函数进行计算。Mask分支对于进入该分支的ROI区域,输出为K×m×m,即K个尺寸为m×m的二值掩码,其中K为所有的目分类种类,根据ROI区域的种类预测结果种类i,Mask分支对于该ROI区域的种类i二值掩码输出即为该ROI区域的Mask损失LMask如式(17)所示:
Figure BDA0003774543850000055
其中ΔM代表Mask分割损失;CM代表Mask分支;tM表示Mask掩码真值。
则对于该网络,完整损失函数由分类损失ΔC,回归框损失ΔBB以及Mask分割损失ΔM共同构成:Δ=ΔCBBM
本发明步骤2中对于单个样本来说,可以通过图像处理改变图像的效果来扩展数据。在空间全局变换层面上,可以通过对图像进行简单的的剪裁切割、旋转角度、缩放尺寸来扩充数据集,也可以通过仿射与弹性变换、透视变换、以白色填充到指定尺寸以及添加网格畸变和光学畸变等方法扩充数据集。这些方法简单实用,能够在一定程度上弥补样本量的不足,避免过拟合现象,有效改善网络泛化能力。
在像素层面上,可以通过最图像添加颜色干扰或者对颜色进行修改,调节图像对比度、亮度、饱和度、清晰度来获得更多样本,也可以对图像进行高斯模糊操作、平均模糊操作、中值模糊操作等模糊处理。通过向图像中添加噪声干扰,使用随机指数将频域内的噪声映射加权并变换到空间域,可以对样本中包含的高频特征进行扭曲,避免对其进行无用的拟合,提升网络的学习能力。上述扩展方法简单有效,是实现快速扩展数据集样本数量的常用方法,但是对于样本分布不均匀的问题并没有解决效果,随机选择高分正样本并复制过采样的范式,会因为正样本在训练数据集中的反复出现,发生过拟合现象。因此需要对样本之间进行融合来实现数据增强,改善样本分布不均衡的情况。
SMOTE方法在小样本的基础上,计算样本空间相似度,进行人工合成采样,合成新样本,扩充少数类样本,可以有效优化不平衡数据集,进而优化分类性能。若小样本数目过少,与其他类别之间的差距过大,网络可能会忽略小样本,产生大样本远比小样本多的先验认知,即使分类器训练后能达到很高的识别准确率,但由于缺乏对小样本特征的学习,导致最终分类实际效果并不理想。SMOTE方法采用通过插值的新样本合成方法。
主要流程如下:
第一步,给定特征空间,建立样本与特征空间中点的映射关系,并且给定,有样倍率N,该值由样本不均匀比例决定;
第二步,对于小样本类中的所有样本(x,y),计算与其他样本之间的欧氏距离,得到与其距离最近的K个样本,称为最近邻样本;
第三步:随机选择一个最近邻样本中的样本点(xn,yn)用于合成新的数据。在(x,y)和(xn,yn)之间随机获得一个新的样本点,定义如下:
(xnew,ynew)=(x,y)+rand(0-1)*((xn-x),(yn-y)) (18)
第三步,循环上述流程,直至样本均衡性满足要求。
Mix up方法将数据集中随机选取的两个样本通过线性插值的方式,根据其类别标签,按照一定比例混合,并按该比例分配分类结果,实现两个类别之间的线性过度,提高类别间泛化能力提高介于两个类别之间的泛化力,其实现方式符合领域风险最小化原则。(xi,yi)和(xj,yj)为数据集样本中两个随机抽取的样本,且λ∈[0,1]。
Figure BDA0003774543850000061
Yolov4网络输入端采用的Mosaic数据增强方式也很有借鉴意义,该方法是在CutMix基础上进行改进,随机选择数据集样本中的四张图片,对其进行随机操作并进行拼接,且保留每张图片中的目标标注和标签,获得一张新的训练样本,同时也省去了重复标记过程,这样的做法极大程度上丰富了样本数据集,同时也丰富了图像的背景,缩放拼接的操作也增加了大量小目标,提高了鲁棒性能。与此同时,一次输入可以同时对4张图像进行训练,在不提升batch尺寸的情况下,可以降低对GPU的要求。具体流程如下:
第一步,每次从训练数据集中随机选中四张图像。
第二步,分别对四张图片进行随机翻转、随机缩放、随机色域变化、随机剪裁、随机排布等操作
第三步,随机生成拼接点坐标,该点分别对应第一张图像的右下角点坐标,第二张图像的左下角点坐标,第三张图像的右上角点坐标,第四张图像的左上角点坐标。
第四步,拼接摆放图像,摆放规则遵循拼接点定义。
第五步,进行图片和标注数据的组合,完成摆放之后,按照填充区域进行裁剪和拼接,并将拼接好的新图像缩放到输入图像的戴奥,并将标注信息中的目标框个mask掩码进行处理和对应。
本发明提出了基于Mask R-CNN的分层混合检测网络结构组成、损失函数分析、训练以及预测流程。针对尺寸较小、出现频率较低、容易被忽略的对象(即损伤),采取低IoU阈值分类与高IoU阈值目标分割训练,低置信度分类与高置信度目标分割混合识别策略,以获得更全面的检测结果。采取通过图像处理办法扩充样本数据集、输入端数据增强、引用COCO预训练权重、迁移学习等方法提高了损伤图像小样本训练的收敛速度和准确度。最终通过对比损失函数曲线验证了小样本学习策略对训练速度和效果的提升,通过检测实验,验证了网络识别效果,通过对结果的定性和定量分析,验证了该网络相对于Mask R-CNN的尽检率提升。
附图说明:
附图1是本发明中基于Mask R-CNN的分层混合检测网络结构示意图。
附图2是本发明中网络训练流程图。
附图3是ResNet101结构示意图。
附图4是残差块结构示意图。
附图5是FPN特征融合示意图。
附图6是RoIAlign和RoIpooling对比示意图。
附图7是双线性插值示意图。
附图8是Classifier和mask结构示意图。
附图9是COCO预权重作用曲线图。
附图10是磁瓦表面缺陷数据集部分图像。
附图11是迁移学习的优势曲线图。
附图12是迁移学习网络训练效果示意图。
附图13是采用迁移学习策略前后损失函数对比曲线图。
附图14是各模块的训练集损失曲线以及验证集损失曲线。
附图15是网络识别效果示意图。
附图16是分层混合检测网络检测结果与Mask R-CNN检测结果对比。
具体实施方式:
下面结合附图和实施例,对本发明做进一步的说明。
本发明首先提出了基于Mask R-CNN的分层混合检测网络结构,如1所示。
首先是用于提取输入图像多尺度特征的特征提取网络,由深度残差网络提取并输出各阶特征图,然后通过特征金字塔对其进行融合,输出5层不同大小的融合特征图,并对每层特征图的每个像素点生成不同尺寸比例锚选区域;然后将各层特征图和对应的锚选框输入区域候选网络,通过前景、背景的二分类、回归,得到锚选区域的前景置信度和坐标,对其进行筛选,得到并输出ROI;接下来,通过ROIAlign对RPN层输出的ROI进行池化,得到固定大小的子特征图,用作分类任务、回归任务和分割任务;最后是分层混合检测分支,ROIAlign输出的子特征图与特征图一起通过低IOU阈值目标检测器进行分类和回归,识别可能为损伤的区域,同时ROIAlign输出的子特征图与特征图一起作为输入通过高IOU阈值目标检测器进行分类和回归,得到置信度较高的对象的类别和识别框,最后通过Mask分支对每一类目标进行语义分割,得到目标的具体轮廓。网络训练流程图如图2所示。
首先通过残差网络ResNet-101提取输入图像的五层卷积特征C1,C2,...,C5,每层特征图都具有不同的尺度,包含不同程度的语义信息。ResNet-101网络结构如图2所示。为了满足目标检测和语义分割对于特征提取的需求,往往需要增加网络的深度来提取图像更深层次、更强语义的特征信息,然而,单纯的加深网络层次,非但不会有性能上的提高,甚至出现梯度消失亦或梯度***的发生,并导致训练速度下跌,不易收敛。除此之外,还会出现增加深度导致性能降低的退化问题。
为了解决这些问题,残差网络基于训练好的浅层网络,通过跳层连接实现恒等映射,残差块如图4所示。通过拟合残差f(x)=H(x)-x替代拟合H(x),最终输出H(x)由残差与输入的和f(x)+x计算,当网络层数加深,残差f(x)逐渐趋向于零,输入与输出相同,网络性能不会降低,解决了退化问题,提高深层网络的性能,收敛快,易优化。
考虑到残差网络提取输出的多个尺度特征图,高层特征图语义信息更强,分辨率确相对较低,丢失大量位置和轮廓信息,而低层特征轮廓纹理细节信息更强,因此直接利用最高层特征图,往往容易忽略掉目标较小的对象。因此需要通过FPN金字塔网络对C2,...,C5四层特征进行融合,充分利用各层特征,使得最终输出的各层特征图同时具有较强轮廓特征和丰富语义信息,具有鲁棒性能。FPN功能实现如图5所示。
由于各层特征图对输入图像的感受野不同,具有不同的尺寸,因此无法直接相加融合,首先通过最邻近法二倍上采样将高层特征图尺寸与低层特征图相统一,然后通过1×1卷积核使得低层特征通道数与高层特征相同,具有相同通道数和相同尺寸的特征图相加融合得到特征图M2,...,M5,并通过3×3的卷积核去除混叠效应,得到P2,...,P5。通过对P5最大池化得到P6
自上而下的采样和横向连接的叠加融合方式如下。首先对第五层特征C5通过1×1和3×3卷积核得到P5
P5=Conv3(Conv1(C5)) (1)
式中Conv1为1×1卷积,Conv3为3×3卷积。通过步长为2的最大池化,可以在的P5基础上得到P6。P6包含的语义信息更加丰富,与此同时,分辨率更低,轮廓和位置信息丢失更加严,在大目标的检测中具有更好的表现,对于较小的目标,往往检测效果较差。
P2,P3,P4由C2,C3,C4通过1×1卷积与高层通道数匹配后与高层特征上采样进行结合,再通过3×3卷积获得:
Figure BDA0003774543850000091
其中i∈[2,4],UpSampling2为最邻近法二倍上采样,
Figure BDA0003774543850000092
像素相加。
其中P2-P6用于进行RPN网络的训练,而P2-P5用于进行分类、回归和分割的预测。
在RPN网络之前,由锚选框生成器在特征图P2,P3,P4,P5(训练的时候包含P6,预测的时候不包含P6)上分别生成锚选框,根据各层特征图感受野的大小不同,在每个特征图的每个特征点上生成面积相同(方形边长分别为32、64、128、256、512),长宽比例分别为0.5、1、2的三个锚选框,如图2-6所示,对应到原图上共有15种不同的大小比例不同的框。以P2层为例,scale值为32,特征图尺寸为256×256,步长为4,因此在每个像素点上生成45.254834×22.627417、32×32、22.627417×45.254834三种尺寸的框,该特征图上共生成256×256×3=196608个框,五层共生成196608+49152+12288+3072+768=261888个锚选框。
RPN网络对上一步生成的众多锚选框进行筛选,移除无效的边框,并对其进行分类和回归,得到每个锚选框的前景置信度和背景置信度以及四个坐标值,生成候选ROI区域。然后通过ProposalLayer层根据RPN层回归的box坐标对ROI的位置和尺寸进行精确调整,根据其前景置信度进行排序,找到评分最高的2000个ROI并通过非最大值抑制去掉重复的框,得到最后的候选区域。
RPN在特征图Pi产生ROI的过程,可由式(2-3)表示:
Figure BDA0003774543850000093
其中RPN表示区域候选网络对各尺度特征Fi和锚选框的处理过程。根据分类得到的候选框前景置信度排名选取前M个,然后通过NMS(非极大值抑制)去除重复区域得到RoI输出。如式(4)所示:
Figure BDA0003774543850000094
RPN网络输出的2000个ROI区域,首先要经过DetectionTargetLayer层,该层的作用如下:
剔除用零填充及不符合输入条件的ROI,根据图像信息,去除同时包含多个目标的候选框,计算每个ROI和真实框之间的IOU值,选择200个,并保证正负样本比例。计算正样本中最接近真实值的框,并根据真实目标给定类别。计算ROI与最接近真实值的框之间的便宜并计算损失,将目标mask大小调整为28×28,并给定类别用于后续计算。在预测过程中,该层的作用为调整mask大小,根据分类回归的预测结果对ROI区域进行修正,并输入mask网络进行语义分割。
分层混合检测分支包括IOU阈值为0.5的分类器Box0.5、IOU阈值为0.6的分类器Box0.6以及用于语义分割的Mask分支。首先Box0.5对区域候选网络提供的建议RoI区域,以较低置信度阈值对候选区域进行广泛分类和回归,由于较低置信的分类结果并不准确,因此这里只输出包含目标的区域框,不进行类别区分,以此检测到更多可能包含损伤的区域。然后通过Box0.6分支以较高的置信度阈值对候选区域进行精确分类和回归,得到准确的分类结果和准确的边框回归。最后DetectionTargetLayer对Box0.6的预测结果进行ROI修正,通过Mask分支进行语义分割,得到损伤的轮廓范围。将三个分支的结果在原图上进行叠加,得到最终结果,具体实现如下:
RPN层提供的建议候选框通过RoI-Align池化操作得到7×7和14×14两种大小的ROI特征图,其中7×7的特征图作为Box0.5和Box0.6的输入,14×14的特征图作为Mask分支的输入。RoI-Align池化层采用双线性插值取代RoIpooling的取整量化操作,实现了ROI特征图和ROI的一一对应关系,减小了偏移误差,是能够实现像素级别的语义分割的关键。
如图6,假设输入一张800×800的图像,其中包含一个665×665的目标,对该图像进行特征提取后,获得的特征图尺寸为800/32×800/32=25×25(整数),但是目标区域映射到特征图上,对应的尺寸为665/32×665/32=20.78×20.78,结果并非整数,然而像素点并不存在小数。在传统的RoIpooling池化操作中采用了取整方案,对其进行量化,将对应尺寸四舍五入取为20×20,因此引入了一定的误差;对于特征图中不同尺寸的ROI其区域,在进行分类和回归时应具有相同的尺寸,因此,在此之前要将ROI处理为固定大小的ROI特征图,为了将20×20的ROI映射成7×7的ROI特征图,ROI特征图中一个像素点对应原特征图中20/7=2.86个像素点,相对应的区域尺寸为20/7×20/7=2.86×2.86,这里同样因为不是整数,进行了第二次的取整量化操作,再一次引入误差。两次量化误差会导致分类的得到的ROI特征对应到原图像时,由于破坏了像素之间的一一对应关系,会与实际的预测结果产生一定的偏差。对于第一的取整操作,将20.78取整为20,引入了0.78的误差,还原到原图产生32×0.78=24.96的误差,而对于第二次量化操作,由于误差经历了两次积累,产生的对应于原图的偏差就更大,对于目标检测和分类来说,边界框的偏移看起来并没有那么的明显,但是几十个像素的偏差对于目标分割而言,会使mask掩码与目标之间发生明显的偏差,使得分割结果与目标轮廓严重不对齐。因此RoIAlign池化操作放弃了取整量化操作,而是采用双线性插值(如图2-7所示)的方法,根据四个点坐标的像素值,得到特征图中对应像素点的值,从而使得原图与特征图之间的像素一一对应,变得连续,减小了返回偏差。f(x1,y1)具体过程如式(5)、(6)和(7)所示:
Figure BDA0003774543850000111
Figure BDA0003774543850000112
Figure BDA0003774543850000113
式中,B1和B2为Box0.5和Box0.6检测分支对RPN层输出的匹配和偏移计算修正过程,Mp表示Mask分支对正样本的过滤操作。RolBox1、RolBox2和RolMask分别为Box0.5、Box0.6和Mask分支中ProposalLayer层对RPN层输出进行筛选优化生成的ROI。Align表示RoI-Align池化。在区域候选网络进行前景与背景粗略划分的基础上,Box0.5分支对ROI特征进行了低置信度的分类回归,Box0.6分支对ROI特征进行了高置信度的分类回归,最后环节为边框回归和剔除相似框的非极大值抑制,如式(8)和(9)所示:
PB1=Box1(FBox1) (8)
PB2=Box2(FBox2) (9)
其中,Box1和Box2分别为Box0.5分支和Box0.6分支在上一步得到的结果。Mask在Box0.6分支的结果上,根据预测的类别,进行语义分割,生成待检测目标的二值Mask掩码,如式(10)所示:
PB2=Box2(FBox2) (10)
Mask_FCN表示Mask语义分割分支对FMask特征生成目标二值Mask掩码过程。Classifier和mask结构如图8所示。损失函数从类别上看包含分类损失、回归损失和Mask分割损失三种,其中分类损失的计算依靠的是Softmax函数的交叉熵损失函数,回归损失的计算是通过sommth_L1损失函数。分类损失计算过程如式(11)、(12)和(13)所示:
ΔC=ΔC1C2 (11)
Figure BDA0003774543850000121
Figure BDA0003774543850000122
其中ΔC1和ΔC2分别代表两个分类器的多分类损失;C1和C2分别代表两预测分支分类器;t1和t2分别表示不同阈值的多分类真值。
回归框损失函数定义如式(14)、(15)和(16)所示:
ΔBB=ΔBB1BB2 (14)
Figure BDA0003774543850000123
Figure BDA0003774543850000124
其中ΔBB1和ΔBB2为Box0.5和Box0.6的回归框损失;RIoU=0.5和RIoU=0.6为Box0.5和Box0.6的回归器;b=(bx,by,bw,bh)是ROI区域框坐标,g为目标真实框坐标。
Mask分割损失通过binary_cross_entropy二分类交叉熵损失函数进行计算。Mask分支对于进入该分支的ROI区域,输出为K×m×m,即K个尺寸为m×m的二值掩码,其中K为所有的目分类种类,根据ROI区域的种类预测结果种类i,Mask分支对于该ROI区域的种类i二值掩码输出即为该ROI区域的Mask损失LMask如式(17)所示:
Figure BDA0003774543850000125
其中ΔM代表Mask分割损失;CM代表Mask分支;tM表示Mask掩码真值。
则对于该网络,完整损失函数由分类损失ΔC,回归框损失ΔBB以及Mask分割损失ΔM共同构成:Δ=ΔCBBM
对于航空发动机的原位叶片损伤检测任务来说,孔探图像来源稀少、叶片损伤图像采集困难,且标注工作需要一定经验,工作量大、单一枯燥。与此同时,在已有孔探数据中,包含损伤的样本数量稀缺,远远少于正常样本,不足以填充整个样本空间,且由于样本之间差距较大,分布十分不均匀,导致检测精度不理想,泛化能力低。因此在对模型进行训练之前,需要对数据集进行样本扩充和数据增强。并采用迁移学习策略,提高小样本学习的收敛速度和准确度。
对于单个样本来说,可以通过图像处理改变图像的效果来扩展数据。在空间全局变换层面上,可以通过对图像进行简单的的剪裁切割、旋转角度、缩放尺寸来扩充数据集,也可以通过仿射与弹性变换、透视变换、以白色填充到指定尺寸以及添加网格畸变和光学畸变等方法扩充数据集。这些方法简单实用,能够在一定程度上弥补样本量的不足,避免过拟合现象,有效改善网络泛化能力。
在像素层面上,可以通过最图像添加颜色干扰或者对颜色进行修改,调节图像对比度、亮度、饱和度、清晰度来获得更多样本,也可以对图像进行高斯模糊操作、平均模糊操作、中值模糊操作等模糊处理。通过向图像中添加噪声干扰,使用随机指数将频域内的噪声映射加权并变换到空间域,可以对样本中包含的高频特征进行扭曲,避免对其进行无用的拟合,提升网络的学习能力。上述扩展方法简单有效,是实现快速扩展数据集样本数量的常用方法,但是对于样本分布不均匀的问题并没有解决效果,随机选择高分正样本并复制过采样的范式,会因为正样本在训练数据集中的反复出现,发生过拟合现象。因此需要对样本之间进行融合来实现数据增强,改善样本分布不均衡的情况。
SMOTE方法在小样本的基础上,计算样本空间相似度,进行人工合成采样,合成新样本,扩充少数类样本,可以有效优化不平衡数据集,进而优化分类性能。若小样本数目过少,与其他类别之间的差距过大,网络可能会忽略小样本,产生大样本远比小样本多的先验认知,即使分类器训练后能达到很高的识别准确率,但由于缺乏对小样本特征的学习,导致最终分类实际效果并不理想。SMOTE方法采用通过插值的新样本合成方法。
主要流程如下:
第一步,给定特征空间,建立样本与特征空间中点的映射关系,并且给定,有样倍率N,该值由样本不均匀比例决定;
第二步,对于小样本类中的所有样本(x,y),计算与其他样本之间的欧氏距离,得到与其距离最近的K个样本,称为最近邻样本;
第三步:随机选择一个最近邻样本中的样本点(xn,yn)用于合成新的数据。在(x,y)和(xn,yn)之间随机获得一个新的样本点,定义如下:
(xnew,ynew)=(x,y)+rand(0-1)*((xn-x),(yn-y)) (18)
第三步,循环上述流程,直至样本均衡性满足要求。
Mix up方法将数据集中随机选取的两个样本通过线性插值的方式,根据其类别标签,按照一定比例混合,并按该比例分配分类结果,实现两个类别之间的线性过度,提高类别间泛化能力提高介于两个类别之间的泛化力,其实现方式符合领域风险最小化原则。(xi,yi)和(xj,yj)为数据集样本中两个随机抽取的样本,且λ∈[0,1]。
Figure BDA0003774543850000131
Yolov4网络输入端采用的Mosaic数据增强方式也很有借鉴意义,该方法是在CutMix基础上进行改进,随机选择数据集样本中的四张图片,对其进行随机操作并进行拼接,且保留每张图片中的目标标注和标签,获得一张新的训练样本,同时也省去了重复标记过程,这样的做法极大程度上丰富了样本数据集,同时也丰富了图像的背景,缩放拼接的操作也增加了大量小目标,提高了鲁棒性能。与此同时,一次输入可以同时对4张图像进行训练,在不提升batch尺寸的情况下,可以降低对GPU的要求。具体流程如下:
第一步,每次从训练数据集中随机选中四张图像。
第二步,分别对四张图片进行随机翻转、随机缩放、随机色域变化、随机剪裁、随机排布等操作
第三步,随机生成拼接点坐标,该点分别对应第一张图像的右下角点坐标,第二张图像的左下角点坐标,第三张图像的右上角点坐标,第四张图像的左上角点坐标。
第四步,拼接摆放图像,摆放规则遵循拼接点定义。
第五步,进行图片和标注数据的组合,完成摆放之后,按照填充区域进行裁剪和拼接,并将拼接好的新图像缩放到输入图像的戴奥,并将标注信息中的目标框个mask掩码进行处理和对应。
迁移学习是深度学习领域中,小样本训练的常用手段,即把网络在某个领域(源域)的学习到的知识知识,迁移应用我们想要进行学习的领域(目标域),从而在目标域内能达到更快更好的训练效果。因此可以把针对某一数据集训练得到的模型参数(预训练权重)迁移到新的数据集的训练任务中,以此来提高网络模型的基础学习能力,以更快的效率学习到更多的知识。这主要是基于不同数据集和学习任务之间具有相关性,通过引入预训练权重作为基础权重进行训练学习,可以使模型获得学会学习的能力,将已经从当前数据集中获得的知识强化对新数据集的学习,不需要从头学习,从而提高训练效率和训练效果。因此,可以通过对原域充足的样本数据的训练,迁移到样本数据较小的目标域训练任务中,以提高小样本数据集的训练效果。
首先是基于基础预权重的迁移学习,在进行迁移学习样本的训练之前,先将COCO数据集的训练权重作为基础预权重进行迁移样本的训练。
COCO数据集是包含大龄目标检测与分割标注的大型数据集,覆盖了生活中常见的物体的场景,且每张图像中包含的目标种类和数量众多。
采用COCO数据集训练权重作为基础预权重的原因是,通过对COCO数据集的训练,网络具有了一定的初始权重,对前景和背景有了一定的区分能力,对目标、色彩等信息具有一定的识别能力,能够提高其他训练任务的收敛速度,如图所示9所示,以COCO数据集训练权重作为基础预权重,在其他的训练任务L1,L2上都具有更快的收敛速度,更快的达到当前数据集的最好训练效果。也就说获得学会学习的能力。
然后,采用磁瓦表面缺陷数据集,对网络进行迁移训练,将训练后的权重作为航空发动机叶片损伤图像小样本的预权重,在此基础上进行训练,该数据集部分样本如图10所示。
选择该数据集进行迁移学习主要应用了模型迁移的思想,该数据集与航发叶片损伤图像之间具有以下几点相似性:
(1)相似的损伤类型,尤其是裂纹的形状;
(2)类似的金属光泽;
(3)大部分面积为不包含对象的背景。
基于相似模型数据集的迁移学习,不仅能加快训练和收敛速度,还能明显提高识别的准确度,达到更好的训练效果。如图11所示,迁移学习具有以下优点:
更高的起点:通过迁移学习,模型具有更好的初始性能,相较从零开始训练而言,初始就具有一定的识别能力;
更高的斜率:通过迁移学习,模型性能的提升速度和训练学习效率更高,能够更快达到当前数据集所能训练到的最效果。
更高的渐进:通过迁移学习,模型的收敛性能,在相同数据集的情况下,所能达到的性能上限更高,提高模型精度。
实施例:
本次实验的数据集为某航空公司多台发动机的孔探检测损伤报告,包含了不同发动机、不同部位、不同光照条件下的多种叶片损伤。依据报告内容,使用labelme工具,对数据集图像中的损伤区域进行标注,并制作COCO格式数据集。通过对数据集的扩充和数据增强,得到1071张图像,其中随机选择80%用于训练,其余20%用于验证。
基于对COCO数据集的训练得到的网络权重,以此为基础预权重对迁移数据集(磁瓦数据集)进行训练,训练后的模型识别效果如图12所示。通过训练结果可以看到,该网络对于多种损伤类型都能进行识别,得到其准确的位置区域与轮廓信息。接下来,以该迁移数据集训练得到的网络权重作为基础权重,对航空发动机叶片损伤缺陷数据集进行训练。对于采用迁移学习策略前后,模型训练300个周期的训练集损失loss曲线以及验证集损Val_loss曲线对比如图13所示
通过对比采用迁移学习策略前后损失函数可以发现,采用迁移学习策略后,具有更低的初始损失值,网络对于损伤特征的学习具有更好的初始性能,初始损失更低,在训练学习前就对损伤有了一定的认知能力和识别的基础性能;通过对比曲线斜率,采用迁移学习策略后,损失值下降更陡,网络的收敛速度更快,训练效率更高;通过对比训练结束后的损失值,采用迁移学习策略后,网络能够达到的峰值性能更好,学习效果更好。因此采用迁移学习策略能够为小样本数据集的训练效果和训练效率带来显著提升。除了总体损失值外训练过程中,各模块的训练集损失曲线以及验证集损失曲线如图14所示。
通过对比分析各模块的训练集损失曲线以及验证集损失曲线,各模块以及总体的训练集损失和验证集损失都呈总体下降趋势,没有出现网络过拟合现象和数据集问题,训练效果正常,且最终总体损失达到0.01以下,训练结果理想。
使用该数据集进行训练后的网络识别效果如图15所示。
通过对叶片损伤检测结果进行分析,由于样本分布较为均匀,特征较为明显,裂纹损伤的识别效果往往最好;于此同时,压坑、缺口、掉块、涂层脱离等损伤缺陷有部分检测结果较好;叶片卷曲缺陷由于区域定义模糊,较难识别;燃烧室内的缺陷样本分布不均匀,损伤区域复杂,识别难度高,效果最差。
对于同时含有多个损伤目标的损伤图像,分层混合检测网络检测结果与Mask R-CNN检测结果对比如图16所示。通过与Mask R-CNN检测结果对比,本文采用的分层混合检测网络检测能够识别出更多损伤目标,由于低IOU阈值匹配区域的分割结果和分类不准确,因此低置信度损伤区域并不进行类别区分和语义分割,但是,更全面的损伤区域识别可以为后续的标注和训练,以及检修人员的操作提供参考。
对于50张图像,共包含96个损伤目标的测试样本集,定量对比如表1所示。
表1方法损伤尽检率对比
Figure BDA0003774543850000161
对比分析可知,相较于Mask R-CNN,本文方法能够识别出更多的损伤区域,提高了损伤识别的尽检率。
本发明提出了基于Mask R-CNN的分层混合检测网络结构组成、损失函数分析、训练以及预测流程。针对尺寸较小、出现频率较低、容易被忽略的对象(即损伤),采取低IoU阈值分类与高IoU阈值目标分割训练,低置信度分类与高置信度目标分割混合识别策略,以获得更全面的检测结果。采取通过图像处理办法扩充样本数据集、输入端数据增强、引用COCO预训练权重、迁移学习等方法提高了损伤图像小样本训练的收敛速度和准确度。最终通过对比损失函数曲线验证了小样本学习策略对训练速度和效果的提升,通过检测实验,验证了网络识别效果,通过对结果的定性和定量分析,验证了该网络相对于Mask R-CNN的尽检率提升。

Claims (4)

1.一种适用于小样本条件的叶片损伤识别方法,其特征在于,包括以下步骤:
步骤1:建立基于Mask R-CNN的分层混合检测网络模型,包括用于提取输入图像多尺度特征的特征提取网络,由深度残差网络提取并输出各阶特征图,然后通过特征金字塔对其进行融合,输出5层不同大小的融合特征图,并对每层特征图的每个像素点生成不同尺寸比例锚选区域;然后将各层特征图和对应的锚选框输入区域候选网络,通过前景、背景的二分类、回归,得到锚选区域的前景置信度和坐标,对其进行筛选,得到并输出ROI;接下来,通过ROIAlign对RPN层输出的ROI进行池化,得到固定大小的子特征图,用作分类任务、回归任务和分割任务;最后是分层混合检测分支,ROIAlign输出的子特征图与特征图一起通过低IOU阈值目标检测器进行分类和回归,识别可能为损伤的区域,同时ROIAlign输出的子特征图与特征图一起作为输入通过高IOU阈值目标检测器进行分类和回归,得到置信度较高的对象的类别和识别框,最后通过Mask分支对每一类目标进行语义分割,得到目标的具体轮廓;
步骤2:对模型进行训练之前,需要对数据集进行样本扩充和数据增强;
步骤3:对模型进行训练,并采用迁移学习策略,提高小样本学习的收敛速度和准确度。
2.根据权利要求1所述的一种适用于小样本条件的叶片损伤识别方法,其特征在于,步骤1中,特征提取网络首先通过残差网络ResNet-101提取输入图像的五层卷积特征C1,C2,...,C5,每层特征图都具有不同的尺度,包含不同程度的语义信息,通过拟合残差f(x)=H(x)-x替代拟合H(x),最终输出H(x)由残差与输入的和f(x)+x计算,当网络层数加深,残差f(x)逐渐趋向于零,输入与输出相同,网络性能不会降低,解决了退化问题,提高深层网络的性能,收敛快,易优化,通过FPN金字塔网络对C2,...,C5四层特征进行融合,充分利用各层特征,使得最终输出的各层特征图同时具有较强轮廓特征和丰富语义信息,具有鲁棒性能;
由于各层特征图对输入图像的感受野不同,具有不同的尺寸,因此无法直接相加融合,首先通过最邻近法二倍上采样将高层特征图尺寸与低层特征图相统一,然后通过1×1卷积核使得低层特征通道数与高层特征相同,具有相同通道数和相同尺寸的特征图相加融合得到特征图M2,...,M5,并通过3×3的卷积核去除混叠效应,得到P2,...,P5。通过对P5最大池化得到P6
自上而下的采样和横向连接的叠加融合方式如下:首先对第五层特征C5通过1×1和3×3卷积核得到P5
P5=Conv3(Conv1(C5)) (1)
式中Conv1为1×1卷积,Conv3为3×3卷积。通过步长为2的最大池化,可以在的P5基础上得到P6。P6包含的语义信息更加丰富,与此同时,分辨率更低,轮廓和位置信息丢失更加严,在大目标的检测中具有更好的表现,对于较小的目标,往往检测效果较差。
P2,P3,P4由C2,C3,C4通过1×1卷积与高层通道数匹配后与高层特征上采样进行结合,再通过3×3卷积获得:
Figure FDA0003774543840000011
其中i∈[2,4],UpSampling2为最邻近法二倍上采样,
Figure FDA0003774543840000012
像素相加。
其中P2-P6用于进行RPN网络的训练,而P2-P5用于进行分类、回归和分割的预测。
在RPN网络之前,由锚选框生成器在特征图P2,P3,P4,P5(训练的时候包含P6,预测的时候不包含P6)上分别生成锚选框,根据各层特征图感受野的大小不同,在每个特征图的每个特征点上生成面积相同(方形边长分别为32、64、128、256、512),长宽比例分别为0.5、1、2的三个锚选框,对应到原图上共有15种不同的大小比例不同的框。以P2层为例,scale值为32,特征图尺寸为256×256,步长为4,因此在每个像素点上生成45.254834×22.627417、32×32、22.627417×45.254834三种尺寸的框,该特征图上共生成256×256×3=196608个框,五层共生成196608+49152+12288+3072+768=261888个锚选框;
RPN网络对上一步生成的众多锚选框进行筛选,移除无效的边框,并对其进行分类和回归,得到每个锚选框的前景置信度和背景置信度以及四个坐标值,生成候选ROI区域。然后通过ProposalLayer层根据RPN层回归的box坐标对ROI的位置和尺寸进行精确调整,根据其前景置信度进行排序,找到评分最高的2000个ROI并通过非最大值抑制去掉重复的框,得到最后的候选区域。
RPN在特征图Pi产生ROI的过程,可由式(3)表示:
Figure FDA0003774543840000021
其中RPN表示区域候选网络对各尺度特征Fi和锚选框的处理过程。根据分类得到的候选框前景置信度排名选取前M个,然后通过NMS(非极大值抑制)去除重复区域得到RoI输出。如式(4)所示:
Figure FDA0003774543840000022
具体过程如式(5)、(6)和(7)所示:
Figure FDA0003774543840000023
Figure FDA0003774543840000024
Figure FDA0003774543840000025
式中,B1和B2为Box0.5和Box0.6检测分支对RPN层输出的匹配和偏移计算修正过程,Mp表示Mask分支对正样本的过滤操作。RolBox1、RolBox2和RolMask分别为Box0.5、Box0.6和Mask分支中ProposalLayer层对RPN层输出进行筛选优化生成的ROI。Align表示RoI-Align池化。在区域候选网络进行前景与背景粗略划分的基础上,Box0.5分支对ROI特征进行了低置信度的分类回归,Box0.6分支对ROI特征进行了高置信度的分类回归,最后环节为边框回归和剔除相似框的非极大值抑制,如式(8)和(9)所示:
PB1=Box1(FBox1) (8)
PB2=Box2(FBox2) (9)
其中,Box1和Box2分别为Box0.5分支和Box0.6分支在上一步得到的结果。Mask在Box0.6分支的结果上,根据预测的类别,进行语义分割,生成待检测目标的二值Mask掩码,如式(10)所示:
PB2=Box2(FBox2) (10)
Mask_FCN表示Mask语义分割分支对FMask特征生成目标二值Mask掩码过程。
3.根据权利要求1所述的一种适用于小样本条件的叶片损伤识别方法,其特征在于,损失函数从类别上看包含分类损失、回归损失和Mask分割损失三种,其中分类损失的计算依靠的是Softmax函数的交叉熵损失函数,回归损失的计算是通过sommth_L1损失函数。分类损失计算过程如式(11)、(12)和(13)所示:
ΔC=ΔC1C2 (11)
Figure FDA0003774543840000031
Figure FDA0003774543840000032
其中ΔC1和ΔC2分别代表两个分类器的多分类损失;C1和C2分别代表两预测分支分类器;t1和t2分别表示不同阈值的多分类真值。
回归框损失函数定义如式(14)、(15)和(16)所示:
ΔBB=ΔBB1BB2 (14)
Figure FDA0003774543840000033
Figure FDA0003774543840000034
其中ΔBB1和ΔBB2为Box0.5和Box0.6的回归框损失;RIoU=0.5和RIoU=0.6为Box0.5和Box0.6的回归器;b=(bx,by,bw,bh)是ROI区域框坐标,g为目标真实框坐标。
Mask分割损失通过binary_cross_entropy二分类交叉熵损失函数进行计算。Mask分支对于进入该分支的ROI区域,输出为K×m×m,即K个尺寸为m×m的二值掩码,其中K为所有的目分类种类,根据ROI区域的种类预测结果种类i,Mask分支对于该ROI区域的种类i二值掩码输出即为该ROI区域的Mask损失LMask如式(17)所示:
Figure FDA0003774543840000035
其中ΔM代表Mask分割损失;CM代表Mask分支;tM表示Mask掩码真值。
则对于该网络,完整损失函数由分类损失ΔC,回归框损失ΔBB以及Mask分割损失ΔM共同构成:Δ=ΔCBBM
4.根据权利要求1所述的一种适用于小样本条件的叶片损伤识别方法,其特征在于,步骤2中:第一步,给定特征空间,建立样本与特征空间中点的映射关系,并且给定,有样倍率N,该值由样本不均匀比例决定;
第二步,对于小样本类中的所有样本(x,y),计算与其他样本之间的欧氏距离,得到与其距离最近的K个样本,称为最近邻样本;
第三步:随机选择一个最近邻样本中的样本点(xn,yn)用于合成新的数据。在(x,y)和(xn,yn)之间随机获得一个新的样本点,定义如下:
(xnew,ynew)=(x,y)+rand(0-1)*((xn-x),(yn-y)) (18)
第三步,循环上述流程,直至样本均衡性满足要求。
Mix up方法将数据集中随机选取的两个样本通过线性插值的方式,根据其类别标签,按照一定比例混合,并按该比例分配分类结果,实现两个类别之间的线性过度,提高类别间泛化能力提高介于两个类别之间的泛化力,其实现方式符合领域风险最小化原则。(xi,yi)和(xj,yj)为数据集样本中两个随机抽取的样本,且λ∈[0,1],
Figure FDA0003774543840000041
CN202210918858.0A 2022-07-31 2022-07-31 适用于小样本条件的叶片损伤识别方法 Pending CN115457551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210918858.0A CN115457551A (zh) 2022-07-31 2022-07-31 适用于小样本条件的叶片损伤识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210918858.0A CN115457551A (zh) 2022-07-31 2022-07-31 适用于小样本条件的叶片损伤识别方法

Publications (1)

Publication Number Publication Date
CN115457551A true CN115457551A (zh) 2022-12-09

Family

ID=84297324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210918858.0A Pending CN115457551A (zh) 2022-07-31 2022-07-31 适用于小样本条件的叶片损伤识别方法

Country Status (1)

Country Link
CN (1) CN115457551A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953666A (zh) * 2023-03-15 2023-04-11 国网湖北省电力有限公司经济技术研究院 一种基于改进Mask-RCNN的变电站现场进度识别方法
CN117115573A (zh) * 2023-10-25 2023-11-24 华侨大学 一种有毒生物图像分类识别方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953666A (zh) * 2023-03-15 2023-04-11 国网湖北省电力有限公司经济技术研究院 一种基于改进Mask-RCNN的变电站现场进度识别方法
CN117115573A (zh) * 2023-10-25 2023-11-24 华侨大学 一种有毒生物图像分类识别方法、装置、设备及存储介质
CN117115573B (zh) * 2023-10-25 2024-01-05 华侨大学 一种有毒生物图像分类识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN115457551A (zh) 适用于小样本条件的叶片损伤识别方法
CN110889813A (zh) 基于红外信息的低光图像增强方法
CN109035253A (zh) 一种语义分割信息指导的深度学习自动图像抠图方法
CN109447917B (zh) 基于内容和特征及多尺度模型的遥感图像雾霾消除方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN111986126B (zh) 一种基于改进vgg16网络的多目标检测方法
CN107944437B (zh) 一种基于神经网络和积分图像的人脸定位方法
CN110120034B (zh) 一种与视觉感知相关的图像质量评价方法
CN114973011A (zh) 一种基于深度学习的高分辨率遥感影像建筑物提取方法
CN113052859A (zh) 基于自适应种子点密度聚类超像素分割方法
CN111325661A (zh) 一种名为msgan的图像的季节风格转换模型及方法
CN111310768A (zh) 基于鲁棒性背景先验和全局信息的显著性目标检测方法
CN111652836A (zh) 一种基于聚类算法和神经网络的多尺度目标检测方法
CN111931857A (zh) 一种基于mscff的低照度目标检测方法
Tangsakul et al. Single image haze removal using deep cellular automata learning
CN112348762A (zh) 一种基于多尺度融合生成对抗网络的单幅图像去雨方法
CN115937019A (zh) 一种lsd二次分割和深度学习相结合的不均匀去雾方法
CN115033721A (zh) 基于大数据的图像检索方法
CN114943894A (zh) 一种基于ConvCRF的高分遥感影像建筑物提取优化方法
CN113128433A (zh) 颜色迁移匹配特征的视频监控影像增强方法
CN117451716A (zh) 一种工业产品表面缺陷检测方法
CN110717960B (zh) 一种建筑垃圾遥感图像样本的生成方法
Gunawan et al. Modernizing old photos using multiple references via photorealistic style transfer
CN112508847A (zh) 一种基于深度特征与结构加权lbp特征的图像质量评价方法
CN111832508A (zh) 基于die_ga的低照度目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication