CN111210443B - 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 - Google Patents

基于嵌入平衡的可变形卷积混合任务级联语义分割方法 Download PDF

Info

Publication number
CN111210443B
CN111210443B CN202010004799.7A CN202010004799A CN111210443B CN 111210443 B CN111210443 B CN 111210443B CN 202010004799 A CN202010004799 A CN 202010004799A CN 111210443 B CN111210443 B CN 111210443B
Authority
CN
China
Prior art keywords
network
deformable
candidate
convolution
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010004799.7A
Other languages
English (en)
Other versions
CN111210443A (zh
Inventor
陈玫玫
王健
吴金洋
曾博义
赖子轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202010004799.7A priority Critical patent/CN111210443B/zh
Publication of CN111210443A publication Critical patent/CN111210443A/zh
Application granted granted Critical
Publication of CN111210443B publication Critical patent/CN111210443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明设计了一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,用于实现图像目标识别和语义的分割,包含:将裁剪后的图像输入到已预训练的神经网络中;通过特征金字塔网络将两个采样映射到相同的尺度空间;对来自不同层级之间提取的语义特征进行信息融合;采用卷积层预测像素级分割结果;在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络,对输入图像进行特征提取,得到特征图;将特征图划分为相同大小的部分,将经过特征金字塔网络后得到的特征图输入到区域候选网络用于训练该网络,区域候选网络包含目标检测分类器和候选框定位分类器两部分,目标检测分类器输出目标识别结果和预测准确率,候选框定位分类器能够给出候选区域精准定位,输出多个候选区域的候选边框。本发明提高语义分割定位的精准度及分割的精确度。

Description

基于嵌入平衡的可变形卷积混合任务级联语义分割方法
技术领域
本发明设计了一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,用于实现图像目标识别和语义的分割。
背景技术
传统语义分割中将语义分割任务定义为将图像分为几个不相交的部分,且这些部分有着各自的语义,即分割出的部分仅包含一类目标或物体。传统语义分割中,基于用户交互的语义分割方法有大量的研究工作。该类方法往往通过用户选定一个区域,再通过其它区域与选定区域的颜色相似性、纹理相似性以及边缘特征来作为这些区域的连接权重,最后使用条件随机场(ConditionalRandom Fields,CRF)或者图割(Graph-Cut)的方式来对图像进行分割,这类方法中的很多思想依旧被沿用,且很多制图软件中仍在使用。但这类方法存在一定弊端:对于图像中存在多个目标时,需要人为参与,自适应性较低。另外一类方法为非参数方法,这类方法通常通过检索的方式去将需要分割的图像或图像中的一部分与数据集中的图像进行匹配,再将数据集中的标签迁移到目标图像的分割图像中,最后经过一系列后处理如马尔科夫随机场(Markov Random Field,MRF)得到最终的分割图像。这类方法虽不需人工参与,但匹配的结果优劣与数据集的多样性相关,也与匹配的方式有很大的关系。在目标检测方法如可变形部件模型(Deformable Part Model,DPM)的出现后,很多方法开始尝试先使用低层特征如颜色和纹理来获得图像中的联通区域,再使用检测的方法来对图像中的目标进行检测,最后结合图像中每个像素位置的检测结果以及图像的联通区域来获得语义分割的结果。
随着诸如智能手机以及平板电脑等智能终端的普及,以及对应的低功耗芯片的运算能力的增强,对于效果好且占用资源少的计算机视觉技术的需求将越来越大。
发明内容
本发明的目的为了提高语义分割定位的精准度及分割的精确度,提出了基于深度学习的图像计算机视觉处理方法。
本发明采用如下技术方案:
一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,所述方法包含:
将裁剪后的图像输入到已预训练的神经网络中;
通过特征金字塔网络的采用3×3卷积核和池化操作,对输入的图像进行降维处理;对低级特征映射进行上采样,将高级特征映射下采样,并将两个采样映射到相同的尺度空间;对来自不同层级之间提取的语义特征进行信息融合;采用卷积层预测像素级分割结果;
在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络,对输入图像进行特征提取;所述可变形卷积神经网络起始端的卷积层为可变形卷积层,感兴趣区域的池化层为可变形感兴趣区域池化,得到特征图;将特征图划分为相同大小的部分,其数量即为输出的维度;
将经过特征金字塔网络后得到的特征图输入到区域候选网络用于训练该网络,区域候选网络包含目标检测分类器和候选框定位分类器两部分,目标检测分类器输出目标识别结果和预测准确率,候选框定位分类器能够给出候选区域精准定位,输出多个候选区域的候选边框。
进一步地,对所述区域候选网络进行训练过程中,采用平衡的L1损失函数,调整多个任务各自L1损失函数的权重,所述多个任务包括目标检测、与候选框生成。
进一步地,训练过程中需导入样本,根据重叠度平衡采样,通过间隔采样将可变形感兴趣区域均匀地分成K个区间,并将N个困难样本平均分配到上述每个区间,然后从中均匀地选取样本区间。
进一步地,将特征图输入到区域候选网络用于候选框定位分类,包括:为特征图中的每个像素点设定9个候选可变形感兴趣区域,利用分类器将这些可变形感兴趣区域区分为前景和背景,同时利用回归器初步调整这些可变形感兴趣区域的位置,进行非极大值抑制,根据分类的得分对这些可变形感兴趣区域进行排序,选择其中的前N个可变形感兴趣区域,得到候选边框。
进一步地,将区域候选网络生成的可变形感兴趣区域映射到特征金字塔网络提取的特征图上,获得与特征图对应的7×7特征映射,进行可变形感兴趣区域对齐。
进一步地,采用循环语义分割网络对每个对齐后的可变形感兴趣区域经过全卷积神经网络,预测生成像素级的掩模;经过全卷积神经网络得到目标分割图像后,若目标分割交并比不理想,需要将结果重新输入全卷积神经网络,进行训练,直到得到需要的交并比结果。
进一步地,对循环语义分割网络进行训练,采用平衡的L1损失函数,调整任务的L1损失函数的权重,所述任务包括语义分割。
进一步地,所有过程中的卷积前对图像周围补一圈0的填充操作。
进一步地,所有过程中的卷积后衔接一个修正的线性单元(Rectified LinearUnit,ReLU)。
本发明的有效增益为:
本发明提出了一种嵌入平衡的可变形卷积混合任务级联语义分割方法,较之于传统此类方法具有显著的进步性。本发明通过结合解码端和解码端的特征图,充分地利用了网络的上下文信息,在一定程度上提高了最终的准确率,通过嵌入平衡的可变形卷积混合任务级联框架,一种用于实例分割的新级联架构,将Mask RCNN和Cascade RCNN级联起来,通过每个阶段的结合级联和多任务来改善信息流,并利用空间背景来进一步提高准确性。通过在每个阶段目标识别、边界框回归和掩模预测都以多任务方式组合。在提取特征的主干网络,采用嵌入可变形卷积和池化的特征金字塔网络进行特征提取。此外,本方法集成了IoU平衡采样、平衡特征金字塔和平衡L1损失函数,分别用于减少样本、特征和目标水平的不平衡,从整体平衡设计中受益。此框架显著地提升了分割的准确性。
本发明基于Cascade RCNN模型的一系列卷积操作和最大池化操作来提取特征,并且将卷积后特征图的通道数加倍、最大池化后特征图的长和宽减半。为提高对图像特征的敏感度,引入了两个新的模块来增强CNN的转换建模能力,即可变形卷积和可变形感兴趣区域。可变形卷积和可变形感兴趣区域能够增加模块中的空间采样位置以及额外空间信息偏移,并学习目标任务的空间信息偏移,而无需额外的监督。新模块可以取代现有卷积神经网络中的普通模块,并且可以通过标准的反向传播进行端到端的训练,从而产生可变形的卷积网络。因此,在可变形特征图像上,应用规则卷积可以更有效地反映复杂结构。
本发明方法充分利用目标检测(边界框回归)和语义分割(掩模预测)之间的信息关联性。在每个阶段,通过并行的边界框回归和掩模预测,来获取它们之间的相互关系,从而进一步改善RCNN中的信息流。在目标分割过程中,去除空间背景,剩余的前景部分即是图片中的目标物体。在CNN中采用完全卷积分支获取空间背景,借助此手段,有助于区分复杂背景中难以分辩的前景部分,进一步提高目标分割的准确性。
附图说明
图1为基于卷积神经网络的视频语义分割方法详细结构图;
图2为平衡特征金字塔原理图;
图3为基于卷积神经网络的视频语义分割方法框图;
图4为基于卷积神经网络的视频语义分割方法原理图;
图5为Mask RCNN和Cascade级联原理图;
图6为可变形卷积原理图(Deformable Convolutional Networks,DCN);
图7多种简单场景下模型分割效果图;
图8复杂场景下(光照背景颜色等)模型分割效果图;
具体实施方式
下面结合说明书附图,本发明进行进一步详细说明。
图1结合图5,本发明针对当前已有技术的不足与弊端,创新提出了一种全新的语义图像分割方法,通过对Cascade RCNN和Mask RCNN改进,称之为基于嵌入平衡的可变形卷积混合任务级联语义分割方法(Destructive Convolution Hybrid Task CascadingSemantic Segmentation Method Based on Embedded Balance)相比于其他方法,此方法能更好的兼顾局部和全局信息,最终得到的分割图中物体的形状和边界更清晰,分类更准确。
包括三个部分:嵌入平衡的可变形卷积神经网络、循环语义分割网络、级联式稀疏化RoI分类与回归网络。
参见图2,本发明将裁剪后的图像输入到已预训练的神经网络中,从而从大量的图片中提取出不同目标的重要特征,获得特征图。特征提取网络50层的深度残差网络(DeepResidual Network,ResNet)和特征金字塔网络(Feature Pyramid Network,FPN)。特征金字塔网络FPN将每层特征图上采样和浅层融合后进行预测,然后采用嵌入平衡的特征融合操作,进一步提高微小目标的识别率。本发明方法需要对特征金字塔网络进行训练,在训练过程中采用平衡的L1损失函数通过调整每个任务平衡的L1损失函数的权重,实现多个任务的平衡。训练过程中需导入样本,根据重叠度平衡采样,将采样间隔均匀地分成K个区间,并将N个困难样本平均分配到每个区间,然后从中均匀地选取样本区间,进行交并比平衡采样。与模型体系结构相比,训练过程对于目标检测模型的性能有着至关重要的影响,通常模型的检测部分的训练容易受到样本水平、特征水平和目标水平的平衡限制。为了减轻由此引起的不利影响,提出了嵌入平衡的FPN结构,该结构有利于模型的均衡学***衡采样和平衡L1损失函数,分别用于减少在样本、提取特征和目标检测三方面的不平衡,突破整体模型的平衡限制,并得到平衡特征融合提取图。参见图6所示,采用嵌入可变形卷积和池化的FPN进行特征提取,引入可变形的卷积和可变形池化模块增强卷积神经网络(Convolutional Networks,CNN)的转换建模能力。新模块易于取代现有CNN中的普通模块,并且可以通过标准的反向传播轻松地进行端到端的训练。可变形卷积神经网络起始端的卷积层为可变形卷积层,感兴趣区域的池化层为可变形感兴趣区域池化;将上述网络得到的特征图(Feature Map)划分为相同大小的部分,其数量即为输出的维度,利用可变形采样位置,然后通过将每个像素的相邻类似结构信息压缩为固定网格,创建可变形特征图像,在可变形特征图像上应用规则卷积能够更有效地反映图像的复杂结构,进一步提高对微小目标的敏感度。
本方法在卷积后加入了填充操作,即在最***扩充0值像素,虽然填充可能会引入微弱噪声,但此操作能使输出的分割图和原始图像分辨率相同,有利于面临密集小目标分割问题时,准确预测每个像素的类别。由于神经网络结构越深,空间信息丢失的越多,小尺度物体很难从低分辨率的特征图中恢复出来,卷积网络中运用S-Dropout修剪网络结构,并去掉最后一个池化层及其跟随的卷积层,使网络具有稀疏化特性,并降低训练中的过拟合。
本发明将特征图输入到区域候选网络(Region Proposal Network,RPN)用于目标识别分类和候选框回归。RPN的本质是基于滑窗的目标检测器,它是一个树状结构,树干是一个3×3的卷积层,树枝是两个1×1的卷积层。RPN分类器(1×1的卷积层)将与真实目标重叠并且其重叠区域大于0.5的RoI划分为前景,将不与任何目标重叠或者其重叠区域小于0.1的RoI划分为背景。RPN回归器(1×1的卷积层)计算这些前景RoI与真实目标之间的边框的偏差值,然后进行非极大值抑制,即根据分类的得分对这些RoI进行排序,选择其中的前N个RoI,得到RPN Box候选框。接下来,整合分类结果及回归得到的候选框即可得到候选区(Proposal)。这里RPN网络使用的损失函数为分类误差与回归误差的和。
将每个生成的RoI映射到FPN网络提取的卷积特征图(Feature Map)上,获得与其对应的7×7特征映射。RoI对齐包括两个过程:首先将原图和特征图的像素点对应,然后再将特征图和特征映射对应。因为特征提取网络中的池化层会导致特征图比原图缩小一定比例(与池化层的个数和大小有关),通过双线性插值和池化来避免粗糙量化操作引入识别误差的问题,即充分利用原图中虚拟点四周的四个真实存在的像素值来共同决定目标图中的一个像素值,使原图中的像素和特征映射中的像素是精准对齐的,这不仅会提高目标检测的准确度,同时也有利于目标分割。
循环语义分割网络,对RoI对齐后的特征图进行全卷积网络(FullyConvolutional Network,FCN)操作,预测生成像素级的掩模(Mask)。掩膜生成网络使用的损失函数为目标检测分类误差+边界框回归误差+语义分割误差。在FCN之前的“Head层”,主要作用是将RoI对齐输出的维度扩大,这样在预测掩膜时会更加精确。经过FCN得到目标分割图像后,若目标分割交并比不理想,说明特征提取的感受野(Receptive Field)过小,不利于小目标的精确分割,需要将结果重新输入Head层,与卷积层中的感受野层融合,再经过FCN进行再次分割,直到得到较为精确的交并比结果。这里感受野的定义是卷积神经网络每一层输出的特征图上每个像素点在原始图像(网络的输入图像)上映射的区域大小。
本方法较目前的目标检测具有显著的精确性及敏感性。在前人基础上,我们重新定义了网络结构,通过结合嵌入平衡FPN与可变形卷积提取特征,并在语义分割引入循环机制提高感受野敏感度,以及采用网络级联方式提高候选定位框的分类及定位精确度,通过不同层的特征融合,充分地利用了网络的各层信息,在一定程度上提高了最终的准确率,使得图片分割的结果更加平滑,分类及定位结果更加精确,充分现示了本发明在语义分割及目标检测方面的创新性及优越性。
参见图1结合图2和图3以及图4,在一个实施例中,本发明方法包含:
S1、首先,将一张任意大小的图像输入由13个卷积层、13个线性修正单元(Rectified Linear Unit,ReLU)层、4个池化层构成的主干网络,用于提取图片特征。首先,输入为整张图片,特征金字塔网络的每个级别通过1×1卷积层进行降维处理。其次,对低级特征映射进行上采样,并将高级特征映射下采样到相同的尺度空间,其中步幅设置为8。从实验中发现,该设置足以对整个图像进行精确的像素级预测。然后,对来自不同层级之前提取的语义特征进行信息融合;同时,在结构上添加四个卷积层进一步增强提取语义特征泛化能力。最后,采用卷积层预测像素级分割结果,输出特征图(Feature Maps)。在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络,对输入图像进行特征提取;所述可变形卷积神经网络起始端的卷积层为可变形卷积层,感兴趣区域的池化层为可变形感兴趣区域池化,得到特征图;将特征图划分为相同大小的部分,其数量即为输出的维度;
S2、对于每个图像而言,经过S1操作后,将得到的所有特征图(Feature Maps)都将输入区域候选网络(Region Proposal Network,RPN),进行训练。首先进入3×3的卷积层,然后进入两个1×1的兄弟卷积层(Sibling layer),最后用Softmax层进行分类,给候选区域精准定位,并推选候选区域。区域候选网络包含目标检测分类器和候选框定位分类器两部分,目标检测分类器输出目标识别结果和预测准确率,候选框定位分类器能够给出候选区域精准定位,输出多个候选区域的候选边框。训练过程中需导入样本,根据重叠度平衡采样,通过间隔采样将可变形感兴趣区域均匀地分成K个区间,并将N个困难样本平均分配到上述每个区间,然后从中均匀地选取样本区间。
将特征图输入到区域候选网络用于候选框定位分类,包括:为特征图中的每个像素点设定9个候选可变形感兴趣区域,利用分类器将这些可变形感兴趣区域区分为前景和背景,同时利用回归器初步调整这些可变形感兴趣区域的位置,进行非极大值抑制,根据分类的得分对这些可变形感兴趣区域进行排序,选择其中的前N个可变形感兴趣区域,得到候选边框。
采用循环语义分割网络对每个对齐后的可变形感兴趣区域经过全卷积神经网络,预测生成像素级的掩模;经过全卷积神经网络得到目标分割图像后,若目标分割交并比不理想,需要将结果重新输入全卷积神经网络,进行训练,直到得到需要的交并比结果。
S3、以真实目标框(Ground Truth Box)最大的交并比的锚点(Anchors)作为正训练样本,训练区域候选网络。区域候选网络的L1损失函数定义如下:
Figure BDA0002354833390000101
其中,i表示小批量处理(mini-batch)中第i个Anchor,pi表示第i个Anchor是前景目标的概率,当第i个Anchor是前景目标时p*为1,反之为0,ti表示预测的边界框(BoundingBox)的坐标,ti*为真实目标(Ground Truth)的坐标。
对循环语义分割网络进行训练,采用平衡的L1损失函数,调整任务的L1损失函数的权重,所述任务包括语义分割。
S4、经过S3操作,进行RoI对齐,根据输入图像,将RoI映射到步骤S1的特征图(Feature Map)对应位置;将映射后的区域划分为相同大小的部分,其数量与输出的维度相同;对每个部分进行最大池化操作,这样可以从不同大小的方框得到固定大小的特征图。
S5、分类和回归,这一层的输出是最终的目的,输出候选区域所属类别和候选区域在图像中精确的位置。
其中需要在每一次卷积前对图像***填补0值像素的填充操作。在每一次卷积后衔接一个ReLU。以及卷积核的大小和个数任意可选。
参见图7和图8所示,为采用本发明方法的处理的多种简单场景下模型分割效果图,在一定程度上提高了最终的准确率,使得图片分割的结果更加精确和平滑,综上实例结合图示的详细描述可见,本发明的语义图像分割方法的提出并应用,较之于传统此类方法具有显著的进步性本发明重新定义了网络结构,通过结合解码端和解码端的特征图,无论从定量还定性的比较,充分展现了本发明在语义图像分割方面的优越性。通过不同层的特征融合,充分地利用了网络的各层信息,在一定程度上提高了最终的准确率,使得图片分割的结果更加精确和平滑。
以上详细描述了本发明的优选实施方式,但是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内进行修改或者等同变换,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,其特征在于,所述方法包含:
将裁剪后的图像输入到已预训练的神经网络中;
通过特征金字塔网络的采用3×3卷积核和池化操作,对输入的图像进行降维处理;对低级特征映射进行上采样,将高级特征映射下采样,并将两个采样映射到相同的尺度空间;对来自不同层级之间提取的语义特征进行信息融合;采用卷积层预测像素级分割结果;
在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络,对输入图像进行特征提取;所述可变形卷积神经网络起始端的卷积层为可变形卷积层,感兴趣区域的池化层为可变形感兴趣区域池化,得到特征图;将特征图划分为相同大小的部分,其数量即为输出的维度;
将经过特征金字塔网络后得到的特征图输入到区域候选网络用于训练该网络,区域候选网络包含目标检测分类器和候选框定位分类器两部分,目标检测分类器输出目标识别结果和预测准确率,候选框定位分类器能够给出候选区域精准定位,输出多个候选区域的候选边框;
对所述区域候选网络进行训练过程中,采用平衡的L1损失函数,调整多个任务各自L1损失函数的权重,所述多个任务包括目标检测、与候选框生成;
训练过程中需导入样本,根据重叠度平衡采样,通过间隔采样将可变形感兴趣区域均匀地分成K个区间,并将N个困难样本平均分配到上述每个区间,然后从中均匀地选取样本区间。
2.按照权利要求1所述的方法,其特征在于,将特征图输入到区域候选网络用于候选框定位分类,包括:为特征图中的每个像素点设定9个候选可变形感兴趣区域,利用分类器将这些可变形感兴趣区域区分为前景和背景,同时利用回归器初步调整这些可变形感兴趣区域的位置,进行非极大值抑制,根据分类的得分对这些可变形感兴趣区域进行排序,选择其中的前N个可变形感兴趣区域,得到候选边框。
3.按照权利要求2所述的方法,其特征在于,将区域候选网络生成的可变形感兴趣区域映射到特征金字塔网络提取的特征图上,获得与特征图对应的7×7特征映射,进行可变形感兴趣区域对齐。
4.按照权利要求3所述的方法,其特征在于,采用循环语义分割网络对每个对齐后的可变形感兴趣区域经过全卷积神经网络,预测生成像素级的掩模;经过全卷积神经网络得到目标分割图像后,若目标分割交并比不理想,需要将结果重新输入全卷积神经网络,进行训练,直到得到需要的交并比结果。
5.按照权利要求4所述的方法,其特征在于,对循环语义分割网络进行训练,采用平衡的L1损失函数,调整任务的L1损失函数的权重,所述任务包括语义分割。
6.按照权利要求1所述的方法,其特征在于,所有过程中的卷积前对图像周围补一圈0的填充操作。
7.按照权利要求1所述的方法,其特征在于,所有过程中的卷积后衔接一个修正的线性单元。
CN202010004799.7A 2020-01-03 2020-01-03 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 Active CN111210443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010004799.7A CN111210443B (zh) 2020-01-03 2020-01-03 基于嵌入平衡的可变形卷积混合任务级联语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010004799.7A CN111210443B (zh) 2020-01-03 2020-01-03 基于嵌入平衡的可变形卷积混合任务级联语义分割方法

Publications (2)

Publication Number Publication Date
CN111210443A CN111210443A (zh) 2020-05-29
CN111210443B true CN111210443B (zh) 2022-09-13

Family

ID=70785546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010004799.7A Active CN111210443B (zh) 2020-01-03 2020-01-03 基于嵌入平衡的可变形卷积混合任务级联语义分割方法

Country Status (1)

Country Link
CN (1) CN111210443B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768466B (zh) 2020-06-30 2024-01-12 北京百度网讯科技有限公司 图像填充方法、装置、设备及存储介质
CN111754531A (zh) * 2020-07-08 2020-10-09 深延科技(北京)有限公司 图像实例分割方法和装置
CN111753805B (zh) * 2020-07-08 2024-06-07 深延科技(北京)有限公司 安全帽佩戴检测方法和装置
CN111862119A (zh) * 2020-07-21 2020-10-30 武汉科技大学 基于Mask-RCNN的语义信息提取方法
CN111860332B (zh) * 2020-07-21 2022-05-31 国网山东省电力公司青岛供电公司 基于多阈值级联检测器的双通道电力图零部件检测方法
CN112069907A (zh) * 2020-08-11 2020-12-11 盛视科技股份有限公司 基于实例分割的x光机图像识别方法、装置及***
CN111985503B (zh) * 2020-08-17 2024-04-26 浩鲸云计算科技股份有限公司 一种基于改进的特征金字塔网络结构的目标检测方法和装置
CN111951319A (zh) * 2020-08-21 2020-11-17 清华大学深圳国际研究生院 一种图像立体匹配方法
CN112132258B (zh) * 2020-08-26 2022-06-24 中国海洋大学 一种基于可变形卷积的多任务图像处理方法
CN112017065B (zh) * 2020-08-27 2024-05-24 中国平安财产保险股份有限公司 车辆定损理赔方法、装置及计算机可读存储介质
CN112116620B (zh) * 2020-09-16 2023-09-22 北京交通大学 一种室内图像语义分割与涂装展示的方法
CN112446862B (zh) * 2020-11-25 2021-08-10 北京医准智能科技有限公司 一种基于人工智能的动态乳腺超声视频全病灶实时检测和分割装置、***及图像处理方法
CN112396053A (zh) * 2020-11-25 2021-02-23 北京联合大学 一种基于级联神经网络的环视鱼眼图像目标检测方法
CN112418163B (zh) * 2020-12-09 2022-07-12 北京深睿博联科技有限责任公司 一种多光谱目标检测导盲***
CN112560722B (zh) * 2020-12-22 2022-09-09 中国人民解放军国防科技大学 一种飞机目标识别方法、装置、计算机设备和存储介质
CN112712078A (zh) * 2020-12-31 2021-04-27 上海智臻智能网络科技股份有限公司 文本检测的方法及装置
CN113076972A (zh) * 2021-03-04 2021-07-06 山东师范大学 一种基于深度学习的两阶段Logo图像检测方法及***
CN112926480B (zh) * 2021-03-05 2023-01-31 山东大学 一种面向多尺度、多朝向的航拍物体检测方法及***
CN112950703B (zh) * 2021-03-11 2024-01-19 无锡禹空间智能科技有限公司 小目标的检测方法、装置、存储介质及设备
CN113111727B (zh) * 2021-03-19 2024-05-31 西北工业大学 一种基于特征对齐的遥感场景下旋转目标检测方法
CN113205526B (zh) * 2021-04-01 2022-07-26 国网江苏省电力有限公司淮安供电分公司 基于多源信息融合的配电线路精准语义分割方法
CN113065650B (zh) * 2021-04-02 2023-11-17 中山大学 一种基于长期记忆学习的多通道神经网络实例分隔方法
CN113034506B (zh) * 2021-05-24 2021-08-06 湖南大学 遥感图像语义分割方法、装置、计算机设备和存储介质
CN113657214B (zh) * 2021-07-30 2024-04-02 哈尔滨工业大学 一种基于Mask RCNN的建筑损伤评估方法
CN113792584B (zh) * 2021-08-03 2023-10-27 云南大学 一种安全护具佩戴检测方法及***
CN114092818B (zh) * 2022-01-07 2022-05-03 中科视语(北京)科技有限公司 语义分割方法、装置、电子设备及存储介质
CN114511485B (zh) * 2022-01-29 2023-05-26 电子科技大学 一种循环可变形融合的压缩视频质量增强方法
CN114170230B (zh) * 2022-02-14 2022-04-29 清华大学 基于可变形卷积与特征融合的玻璃缺陷检测方法与装置
CN114897798A (zh) * 2022-04-24 2022-08-12 四川思极科技有限公司 一种基于成长式检测的变压器渗油图像识别方法及***
CN114926886B (zh) * 2022-05-30 2023-04-25 山东大学 一种微表情动作单元识别方法及***
CN116012719B (zh) * 2023-03-27 2023-06-09 中国电子科技集团公司第五十四研究所 一种基于多实例学习的弱监督旋转目标检测方法
CN116079749B (zh) * 2023-04-10 2023-06-20 南京师范大学 基于聚类分离条件随机场的机器人视觉避障方法及机器人

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376576A (zh) * 2018-08-21 2019-02-22 中国海洋大学 基于交替更新密集连通从零训练网络的目标检测方法
CN110276765A (zh) * 2019-06-21 2019-09-24 北京交通大学 基于多任务学习深度神经网络的图像全景分割方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
US10043113B1 (en) * 2017-10-04 2018-08-07 StradVision, Inc. Method and device for generating feature maps by using feature upsampling networks
CN108446662A (zh) * 2018-04-02 2018-08-24 电子科技大学 一种基于语义分割信息的行人检测方法
CN109145713B (zh) * 2018-07-02 2021-09-28 南京师范大学 一种结合目标检测的小目标语义分割方法
CN109670525A (zh) * 2018-11-02 2019-04-23 平安科技(深圳)有限公司 基于once shot detection的目标检测方法及***
CN109584248B (zh) * 2018-11-20 2023-09-08 西安电子科技大学 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN109685067B (zh) * 2018-12-26 2022-05-03 江西理工大学 一种基于区域和深度残差网络的图像语义分割方法
CN110097129B (zh) * 2019-05-05 2023-04-28 西安电子科技大学 基于轮廓波分组特征金字塔卷积的遥感目标检测方法
CN110264466B (zh) * 2019-06-28 2021-08-06 广州市颐创信息科技有限公司 一种基于深度卷积神经网络的钢筋检测方法
CN110533105B (zh) * 2019-08-30 2022-04-05 北京市商汤科技开发有限公司 一种目标检测方法及装置、电子设备和存储介质
CN110633661A (zh) * 2019-08-31 2019-12-31 南京理工大学 一种融合语义分割的遥感图像目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376576A (zh) * 2018-08-21 2019-02-22 中国海洋大学 基于交替更新密集连通从零训练网络的目标检测方法
CN110276765A (zh) * 2019-06-21 2019-09-24 北京交通大学 基于多任务学习深度神经网络的图像全景分割方法

Also Published As

Publication number Publication date
CN111210443A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
Hafiz et al. A survey on instance segmentation: state of the art
Lateef et al. Survey on semantic segmentation using deep learning techniques
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN108509978B (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN113239981B (zh) 局部特征耦合全局表征的图像分类方法
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
Chen et al. Corse-to-fine road extraction based on local Dirichlet mixture models and multiscale-high-order deep learning
Cao et al. A survey on image semantic segmentation methods with convolutional neural network
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN110866938B (zh) 一种全自动视频运动目标分割方法
CN111899169B (zh) 一种基于语义分割的人脸图像的分割网络的方法
CN110517270B (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN112364873A (zh) 弯曲文本图像的文字识别方法、装置及计算机设备
CN109657538B (zh) 基于上下文信息指导的场景分割方法和***
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN112183649A (zh) 一种用于对金字塔特征图进行预测的算法
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN116645592A (zh) 一种基于图像处理的裂缝检测方法和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant