CN111680739B - 一种目标检测和语义分割的多任务并行方法及*** - Google Patents

一种目标检测和语义分割的多任务并行方法及*** Download PDF

Info

Publication number
CN111680739B
CN111680739B CN202010499259.0A CN202010499259A CN111680739B CN 111680739 B CN111680739 B CN 111680739B CN 202010499259 A CN202010499259 A CN 202010499259A CN 111680739 B CN111680739 B CN 111680739B
Authority
CN
China
Prior art keywords
semantic segmentation
calibration
weak supervision
convolution
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010499259.0A
Other languages
English (en)
Other versions
CN111680739A (zh
Inventor
刘阳
孔祥斌
罗静
胡卫明
倪国栋
李兵
杨天骄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CRSC Communication and Information Group Co Ltd CRSCIC
Original Assignee
CRSC Communication and Information Group Co Ltd CRSCIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CRSC Communication and Information Group Co Ltd CRSCIC filed Critical CRSC Communication and Information Group Co Ltd CRSCIC
Priority to CN202010499259.0A priority Critical patent/CN111680739B/zh
Publication of CN111680739A publication Critical patent/CN111680739A/zh
Application granted granted Critical
Publication of CN111680739B publication Critical patent/CN111680739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种目标检测和语义分割的多任务并行方法及***,其包括:根据锚框投票结果和检测真值框计算弱监督语义分割标定真值;使用轻量级网络结构获取弱监督语义分割结果;基于弱监督语义分割的标定真值和结果,计算目标检测与弱监督语义分割的损失;根据目标检测与弱监督语义分割的损失进行反向误差传播。本发明利用目标检测任务中的锚框投票结果与检测真值框所提供的信息,将弱监督语义分割标定真值进一步精确为像素级别,并通过轻量级的网络架构实现目标检测与语义分割的多任务并行训练,在提高目标检测精度的同时,能有效节省人力、物力和时间成本。

Description

一种目标检测和语义分割的多任务并行方法及***
技术领域
本发明涉及一种模式识别领域,特别是关于一种在计算机视觉方向中应用的目标检测和语义分割的多任务并行方法及***。
背景技术
目标检测作为安防监控、自动驾驶、人脸识别等领域的核心技术,已经成为当前计算机视觉和机器学习领域的研究热点。时至今日其发展经历了从Viola-Jones Detector、DPM等基于传统手工特征时期(2013年之前),到当今主流的RCNN、Fast-RCNN、Faster-RCNN、YOLO、SSD、Retina-Net等基于自动提取特征的深度学习时期(2014年至今)两个阶段。
近年来,随着基于卷积神经网络(convolutional neural networks,简称CNN)的深度学习的应用,计算机视觉领域内的图像分类、目标检测、语义分割等方向的研究都取得了显著的进展。与基于手工特征的算法相比,深度卷积网络能够学习到非常鲁棒且具有表达能力的特征表示,因此可以将其引入目标检测流程中用来提取特征。
时至今日其解决方案已经逐渐汇聚在两种主流框架下:一种是以R-CNN,Fast-RCNN,Faster-RCNN和R-FCN等为代表的双阶段检测框架(two-stage detectionframeworks),另一种是以YOLO、SSD、Retina-Net等为代表的单阶段检测框架(one-stagedetection frameworks)。两种框架的共同点是,都基于目前主流的卷积神经网络(例如VGG和ResNet等)构建用于提取特征的基础网络,而后在基础网络中预先选定的特征提取层后部通过额外附加的卷积层进一步增加卷积图的语义深度并调整其维度,使之匹配后面连接的检测器的输入要求,最终由检测器实现对目标的分类和定位等功能。
上述这些方法(包括注意力机制)都将目标所在的整体区域作为训练阶段的唯一关注点,而忽视了基础网络的特征图中所蕴含的关于物体中每个位置的局部线索信息,而这些信息恰恰可以通过语义分割(Semantic Segmentation)算法获得,因此,目标检测中另一个可以显著提升检测精度的方法是将其与语义分割任务进行并行训练,进一步强化网络对于物体边缘位置信息的提取能力。
在著名的Mask RCNN算法中已经展示出目标检测与实例分割共同参与的多任务并行训练能通过强化基础网络的特征提取能力,为提高目标定位精度提供额外了帮助。但是其中的实例分割采用强监督训练方式,要求预先人工给出详细而精确的像素级分割标定真值,严重影响了其在缺乏像素级实例分割标定真值的普通目标检测数据集上的训练,以及在基本不具备人工标定实例分割真值的实际工程中的应用,这一点对于以多任务方式并行训练语义分割和目标检测非常不利。因此很多研究者逐渐转为尝试使用弱监督(weaksupervised)的方式训练语义分割。以DES算法为例,其在单阶段目标检测的基础网络旁边并联一个语义分割分支,并使用激活(activation)的方式使用语义分割特征激活与之共享基础网络的目标检测特征,为了避免Mask RCNN中的强监督训练对于像素级标定真值的过高要求,其采用弱监督的方式直接将目标检测的标定真值(即目标边界框Bounding Box及其作为一个整体的分类结果)赋予相应区域内的每一个像素,以容忍部分背景像素被错分类为前景目标为代价,极大地简化了语义分割的真值标定过程,自动为语义分割生成一个目标边界框级别的标定真值(bounding-box level segmentation ground-truth),从而使得算法在提升目标检测性能的同时,确保两种任务都可以借助现有的目标检测标定真值加以训练。但是其语义分割分支只作用于基础网络低层,并不直接作用于基础网络的中、高层,不能使得各个特征提取层充分获得上下文语义信息,一定程度上反而削弱了语义分割对目标分类和定位精度的强化作用。更重要的是,其中语义分割的标定真值直接由目标检测的标定真值框生成,其不可避免地将框内属于背景的有害特征错误地标注为目标分类,从而在检测和分割的端到端多任务并行训练中,使得两种任务各自的目标产生分歧,不仅不利于对于算法对于目标特征的针对性提取和对目标位置的精确回归,还会对于并行训练的收敛性产生不利的影响,增大训练难度。
综上所述,在目标检测和语义分割的多任务并行方法中,如何获得一种既不需要以强监督模式人工标定分割真值,又比直接使用检测真值框标定分割真值更精确,同时又以轻量级的网络结构不显著增加运算复杂度的方法,是一个亟待解决的问题。
发明内容
针对传统的目标检测和语义分割的多任务并行方法中,粗糙的分割真值标定方法和低效率的网络结构既不能充分利用检测结果中蕴含的大量梯度信息,又不能缩小两种任务的训练目标的分歧,从而难以保证对目标特征提取的精确性和***训练的收敛性这一系列问题,本发明的目的是提供一种目标检测和语义分割的多任务并行方法及***,其在提高基础网络对目标的边缘特征的提取能力和目标检测精度的同时,能有效节省人力、物力和时间成本。
为实现上述目的,本发明采取以下技术方案:一种目标检测和语义分割的多任务并行方法,其包括以下步骤:1)根据锚框投票结果和检测真值框计算弱监督语义分割标定真值;2)使用轻量级网络结构获取弱监督语义分割结果;3)基于弱监督语义分割的标定真值和结果,计算目标检测与弱监督语义分割的损失;4)根据目标检测与弱监督语义分割的损失进行反向误差传播。
优选的,所述步骤1)中,根据目标检测算法中锚框的投票结果计算弱监督语义分割的锚框投票标定真值,再将所述锚框投票标定真值与直接依靠目标检测任务的标定真值框计算出的检测真值框标定真值进行组合,获得卷积图上每个像素点的弱监督语义分割标定真值。
优选的,所述弱监督语义分割标定真值的获取方法包括以下步骤:
1.1)计算卷积图上每个像素点的弱监督语义分割的锚框投票标定真值:弱监督语义分割采用二分类模式的轻量级,分别计算当前像素点p属于前C个前景分类的锚框投票标定真值GA,p,1-C与属于第C+1个背景分类的锚框投票标定真值GA,p,C+1
1.2)将弱监督语义分割的锚框投票标定真值与检测真值框标定真值进行组合:
采用以下两种组合方法:
G1,p,k1=(1-β)·GB,p,k1+β·GA,p,k1
G2,p,k1=(1-β)·GB,p,k1+β·GA,p,k1·GB,p,k1
式中,G1,p,k1与G2,p,k1分别代表第一种和第二种组合方法对于当前像素点p生成的弱监督语义分割标定真值中属于k1类别的数值,k1∈{1,2};GB,p与GA,p分别代表直接依靠目标检测标定真值框位置计算出的检测真值框标定真值,和依靠目标检测中锚框的分类结果中蕴含的梯度信息获得的锚框投票标定真值;系数β代表弱监督语义分割标定真值内部,与锚框投票标定真值相关的部分所占据的比例。
优选的,所述步骤1.1)中,当前像素点p属于前C个前景分类的锚框投票标定真值GA,p,1-C与属于第C+1个背景分类的锚框投票标定真值GA,p,C+1分别为:
其中,
GA,p,C+1=1-GA,p,1→C
式中,GA,p,1→C代表弱监督语义分割中,当前像素点p属于前C个前景类别的锚框投票标定真值,GA,p,C+1代表像素点p属于背景类别的锚框投票标定真值;为该像素点p被所有与之相关的锚框加权投票后第k个类别的分数,像素点p所有C+1个类别的分数所组成的集合即为像素点p的锚框投票结果。
优选的,所述步骤1.1)中,像素点p的锚框投票方法为:将所有在卷积图上对应的区域能覆盖像素点p的锚框的所有C+1个类别的分数按照各个类别分别对位相加,再将对位相加后的各个类别的分数按照使得C+1个类别的分数总和为1的要求进行归一化,将归一化后的第k个类别的分数记为像素点p在所述类别的锚框投票分数
优选的,所述步骤1.1)中,权重系数γ的根据该像素点是否位于任何一个检测真值框在卷积图上对应的区域内部而采用不同数值:当像素点p位于第i个检测真值框BG,i对应的区域内部,若其当前考察的类别k与BG,i所属的类别kBG,i一致时,权重系数γ的数值等于1;反之,当前考察的类别k与BG,i所属的类别kBG,i不同,或者像素点p不位于任何一个检测真值框对应区域内部的情况,权重系数γ下降为一个小于1的数值。
优选的,所述步骤2)中,在目标检测的基础网络的旁边以轻量级的分支网络的模式,并联一个弱监督语义分割模块,弱监督语义分割结果获取方法包括以下步骤:
2.1)将弱监督语义分割模块的基本结构与基础网络进行连接:分别将基础网络的4个特征提取层的卷积图送入各自的分割传输连接模块,在分割传输连接模块中融合其所在的特征提取层的基础网络卷积图中和更高层的分割传输连接模块卷积图中的语义信息,融合后的卷积图分别从各自对应的分割传输连接模块末尾输出,与此同时,基础网络每个特征提取层对应的弱监督语义分割标定真值也被投影到平行于该特征提取层的分割传输连接模块输出的卷积图上,与该卷积图中弱监督语义分割的结果一起送往后面的softmax模块计算语义分割分类损失;
2.2)在弱监督语义分割模块内部通过传输连接模块进行平行卷积层之间的特征传输和高、低卷积层之间的特征融合,获取弱监督语义分割结果:
分割传输连接模块内部包含2个含有3*3卷积核的卷积层、1个含有3*3卷积核的反卷积层与1个对卷积图像素进行对位相加;来自基础网络特征提取层的卷积图在经过1个卷积层进行特征提取后,与来自更高层分割传输连接模块的经过1个反卷积层调整尺度后的卷积图汇合,并被执行卷积图像素对位相加操作,经过对位相加后的卷积图被复制成两份,其中一份传向相邻的更低层分割传输连接模块,另一份再经过1个卷积层进行进一步特征提取,最后成为基础网络该特征提取层的弱监督语义分割结果。
优选的,所述步骤3)中,目标检测与弱监督语义分割的损失计算方法包括以下步骤:
3.1)计算弱监督语义分割损失:弱监督语义分割损失Lseg(Im,Gm)的数值以交叉熵损失的方式进行计算:
其中,Im代表基础网络第m个特征提取层的卷积图,代表第m个特征提取层的弱监督语义分割的标定真值,Hm与Wm分别代表第m个特征提取层的卷积图在坐标纵轴与横轴方向的像素个数,YGm,h,w代表弱监督语义分割在像素位置h,w的结果,C+1代表包含背景类别的类别数量;
3.2)将弱监督语义分割损失与目标检测损失加权相加,获得组合后的损失函数Ldet(Im,Gm):
L(Im,Gm)=Ldet(Im,Gm)+α·Lseg(Im,Gm)
其中,Ldet(Im,Gm)与Lseg(Im,Gm)分别为第m个特征提取层的目标检测和弱监督语义分割损失,α为在目标检测和语义分割两种任务之间取得平衡而设置的比例系数。
优选的,所述步骤4)中,分别根据源自基础网络每个特征提取层的目标检测与弱监督语义分割损失,使用给定的学习率,计算卷积神经网络中每个卷积核和链路权重的修正数值,重复上述操作,直到源自基础网络每个特征提取层的目标检测与弱监督语义分割损失都小于预先设定的损失阈值或者总循环次数超过预先设定的循环次数阈值。
一种目标检测和语义分割的多任务并行***,其包括弱监督语义分割真值标定模、弱监督语义分割模块、弱监督语义分割损失计算模块和反向误差传播模块;所述弱监督语义分割真值标定模块根据锚框投票结果和检测真值框计算弱监督语义分割标定真值;所述弱监督语义分割模块使用轻量级网络结构获取弱监督语义分割结果;所述弱监督语义分割损失计算模块基于弱监督语义分割的标定真值和结果,计算目标检测与弱监督语义分割的损失;所述反向误差传播模块根据目标检测与弱监督语义分割的损失进行反向误差传播。
本发明由于采取以上技术方案,其具有以下优点:1、本发明与此前以DES为代表的弱监督语义分割直接使用目标检测标定真值(Ground Truth)的方式不同,本发明依靠目标检测中不同位置、尺度和形状的锚框(Anchor)的分类结果中蕴含的梯度信息,进一步将弱监督语义分割的标定真值精确为像素级别,以此促进语义分割和目标检测共享的基础网络提取到更精确的目标特征。2、对于上述弱监督语义分割分支,本发明轻量级的网络结构将其并联在目标检测的特征提取网络中,在将语义分割标定真值投影到与目标检测相应的标定真值对应的特征提取层来提高两种任务共享的特征提取层训练目标的一致性的同时,保证语义分割的每个卷积层能共享目标检测基础网络的上下文信息。3、本发明通过一个可叠加的损失函数将目标检测与语义分割的损失整合到一起,参与端到端多任务训练,在训练过程中无需根据中间结果进行复杂的参数调整。4、本发明目标检测精度的提升并未以大幅度牺牲检测速度为代价,简单高效的语义分割标定真值生成方式和轻量级的网络结构保证了其检测速度接近于经典的单步修正式检测算法,同时在训练过程中也不需要对于分割真值进行费时费力的人工标注操作。
附图说明
图1是本发明方法的整体流程示意图;
图2是本发明弱监督语义分割标定真值生成方法的原理示意图:其中图2a代表原始图像;图2b代表目标检测的标定真值框在原始图像中对应的区域;图2c代表本发明所述方法在目标检测的标定真值框在原始图像中对应的区域内生成的弱监督语义分割标定真值;
图3是本发明弱监督语义分割分支的基本结构及其与基础网络的连接方式示意图;
图4是本发明弱监督语义分割分支中的分割传输连接模块的基本结构的示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
本发明提供一种目标检测和语义分割的多任务并行方法,其利用目标检测中锚框的分类结果中蕴含的梯度信息与目标检测标定真值框,生成像素级别的弱监督语义分割的标定真值,并通过一个轻量级的语义分割分支网络,将所述语义分割标定真值投影到与之目标检测标定真值相同的网络层,再由可叠加的损失函数将目标检测与语义分割的损失整合到一起进行端到端多任务训练,提高目标检测的精度。具体的,如图1所示,本发明的方法包括以下步骤:
1)根据锚框投票结果和检测真值框计算弱监督语义分割标定真值:
如图2所示,图2a代表原始图像;图2b代表目标检测的标定真值框在原始图像中对应的区域;图2c代表本发明所述方法在目标检测的标定真值框在原始图像中对应的区域内生成的弱监督语义分割标定真值。在本实施例中,根据目标检测算法中锚框的分类结果中蕴含的梯度信息计算二分类的弱监督语义分割的锚框(anchor)投票标定真值,再将上述锚框投票标定真值与经典的DES算法中的直接依靠目标检测任务的标定真值框(简称检测真值框,detection ground-truth box)位置计算出的检测真值框标定真值进行组合,获得卷积图上每个像素点的弱监督语义分割标定真值。其包括以下步骤:
1.1)计算卷积图上每个像素点的弱监督语义分割的锚框投票标定真值:
在本实施例中,弱监督语义分割采用二分类模式的轻量级,以减小可训练参数的数量和运算复杂度,即只区分前景和背景。因此,需要使用下列公式将卷积图上像素点被所有与之相关的锚框加权投票后的全部C+1个类别的分数整合成二分类模式,分别计算当前像素点p属于前C个前景分类的锚框投票标定真值GA,p,1-C与属于背景分类(即第C+1个类别)的锚框投票标定真值GA,p,C+1
其中,
GA,p,C+1=1-GA,p,1→C (1)
其中,GA,p,1→C代表弱监督语义分割中,当前像素点p属于前C个前景类别的锚框(Anchor)投票标定真值,A表示Anchor的缩写,GA,p,C+1代表像素点p属于背景类别的锚框投票标定真值。为该像素点p被所有与之相关的锚框加权投票后第k个类别的分数,像素点p所有C+1个类别的分数所组成的集合即为像素点p的锚框投票结果。
具体而言,像素点p的锚框投票方法为:将所有在卷积图上对应的区域能覆盖像素点p的锚框的所有C+1个类别的分数按照各个类别分别对位相加,再将对位相加后的各个类别的分数按照使得C+1个类别的分数总和为1的要求进行归一化,将归一化后的第k个类别的分数记为像素点p在所述类别的锚框投票分数
权重系数γ的数值根据该像素点是否位于任何一个检测真值框在卷积图上对应的区域内部而采用不同数值:当像素点p位于第i个检测真值框BG,i对应的区域内部,若其当前考察的类别k与BG,i所属的类别kBG,i一致,该类别的加权投票分数保持原有的权重1;反之,当前考察的类别k与BG,i所属的类别kBG,i不同,或者像素点p不位于任何一个检测真值框对应区域内部的情况,加权投票分数的权重下降为一个小于1的数值(为了简单起见,本实施例中采用0.7)。上述操作的目的是为了处理像素点被所有与之相关的锚框加权投票后的全部C+1个类别的结果中,既不属于检测真值框的类别,也不属于背景类别的其他类别的分数,将其分散在上述两部分结果中。
为了便于后续计算,用参数k1代表二分类的锚框投票标定真值中的某个类别(前景或背景),将公式1简化为公式2的形式。
重复上述锚框投票操作,直到获得卷积图上所有像素点的弱监督语义分割的锚框投票标定真值。
1.2)将弱监督语义分割的锚框投票标定真值与检测真值框标定真值进行组合。
将上述二分类的锚框投票标定真值,与DES算法中将每个目标的检测任务的标定真值框在原图中对应区域内所有的像素的语义分割类别标定为相同类别所获得的检测真值框标定真值组合,使弱监督语义分割标定真值进一步精确为像素级别;在本实施例中,给出两种具体组合方法如下:
G1,p,k1=(1-β)·GB,p,k1+β·GA,p,k1 (3)
G2,p,k1=(1-β)·GB,p,k1+β·GA,p,k1·GB,p,k1 (4)
上述公式中,G1,p,k1与G2,p,k1分别代表第一种和第二种组合方法对于当前像素点p生成的弱监督语义分割标定真值中属于k1类别的数值(k1∈{1,2}),GB,p与GA,p分别代表使用类似DES中的直接依靠目标检测标定真值框位置计算出的检测真值框标定真值(也转化为二分类的模式),和上述的依靠目标检测中锚框的分类结果中蕴含的梯度信息获得的锚框投票标定真值。系数β代表弱监督语义分割标定真值内部,与锚框投票标定真值相关的部分所占据的比例。
显然,第一种组合方法采用了比较简单直接的方式,直接将检测真值框标定真值与本锚框投票标定真值进行了加权相加,这种组合方法生成的弱监督语义分割标定真值在卷积图上所有的检测标定真值框之外的区域,有可能存在非0的像素分类真值;第二种组合方法在此基础上,考虑到当检测真值框标定真值转化为二分类模式后,对于卷积图上任何一个像素点恰好只有1与0两种数值,可以作为判断该像素点是否位于任意一个目标检测真值框对应区域内部的依据,因此在加权相加之前,预先将锚框投票标定真值乘以检测真值框标定真值,将卷积图上所有的检测标定真值框之外的区域非0的像素分类真值全部过滤掉。
2)采用轻量级网络结构获取弱监督语义分割结果:
本发明为了在获取弱监督语义分割结果的同时,增加对目标的检测精度,在目标检测的基础网络的旁边以轻量级的分支网络的模式,并联了一个弱监督语义分割模块(Segmentation Module,简称SM),通过目标检测与语义分割的多任务并行训练,进一步强化基础网络对物体边缘特征的提取能力。其包括以下步骤:
2.1)将弱监督语义分割模块的基本结构与基础网络进行连接:
本发明的基础网络直接使用RefineDet算法中的结构,弱监督语义分割模块采用了如图3所示的二分类的轻量级的网络结构,并且通过分割传输连接模块(TransferConnection Block of Segmentation,简称TCB_S)与基础网络相连。其具体做法是:
分别将基础网络的4个特征提取层(对应VGG16网络的conv4_3、conv5_3、conv_fc7和conv6_2卷积层)的卷积图送入各自的分割传输连接模块(TCB_S),在分割传输连接模块中融合其所在的特征提取层的基础网络卷积图中和更高层的分割传输连接模块卷积图中的语义信息,上述融合后的卷积图,不经过各层的分割传输连接模块的上采样操作执行汇聚并叠加,而是分别从该分割传输连接模块末尾输出,与此同时,源自基础网络每个特征提取层的检测真值框标定真值与锚框投票标定真值(已经根据该层卷积图的大小,使用下采样进行了维度调整)分别进行组合后,生成的与基础网络每个特征提取层对应的弱监督语义分割标定真值也被投影到平行于该特征提取层的分割传输连接模块输出的卷积图上,与该卷积图中弱监督语义分割的结果一起送往后面的softmax模块计算语义分割分类损失。
上述方法通过将语义分割标定真值按照其来源的目标检测标定真值对应的基础网络特征提取层,分别投影到与之对应的传输连接模块(TCB_S)输出的卷积图上,保证了语义分割和目标检测任务对于基础网络每个特征提取层的要求的一致性,以此来进一步优化弱监督语义分割的精度。
2.2)在弱监督语义分割模块内部通过传输连接模块对卷积图进行处理(包括平行卷积层之间的特征传输和高、低卷积层之间的特征融合),获取弱监督语义分割结果:
与RefineDet类似,本发明中的语义分割模块(SM)的每一层在利用基础网络与之平行层提取的特征的基础上,进一步获取和融合了基础网络更高层提取的特征中包含的语义信息来提高分割结果的精度。为了实现上述目标,在基础网络与SM模块之间采用如图3所示的传输连接模块进行平行卷积层之间的特征传输和高、低卷积层之间的特征融合。
如图4所示,本发明中的传输连接模块借鉴了RefineDet和SiameseMask等算法中相应部分的基本构造,但是经过了进一步简化,其内部包含2个含有3*3卷积核的卷积层、1个含有3*3卷积核的反卷积层与1个对卷积图像素进行对位相加(Element-Wise)的操作。来自基础网络特征提取层的卷积图在经过1个卷积层进行特征提取后,与来自更高层分割传输连接模块的经过1个反卷积层调整尺度(匹配源自基础网络不同特征提取层的卷积图的尺度差异)后的卷积图汇合,并被执行卷积图像素对位相加(Element-Wise)操作,经过对位相加后的卷积图被复制成两份,其中一份传向相邻的更低层分割传输连接模块,另一份再经过1个卷积层进行进一步特征提取,最后成为基础网络该特征提取层的弱监督语义分割结果。为了进一步降低网络的复杂度、增加特征传输融合效率,本发明的分割传输连接模块(TCB_S)与RefineDet相比,减少了3*3卷积层的数量,同时去掉了3*3卷积层之间的激活(Relu)模块。
3)基于弱监督语义分割的标定真值和结果,以累计每个像素点出处的交叉熵损失的方式,计算出目标检测与弱监督语义分割的损失:
本发明通过弱监督语义分割任务与经典的目标检测任务并行训练,进一步优化目标检测的性能。因而首先利用步骤1)与步骤2)中获得的弱监督语义分割的标定真值和结果,以交叉熵损失的方式计算出弱监督语义分割任务的损失,再将弱监督语义分割任务的损失以尽量简单易行的方式与目标检测损失进行加权相加,将加权相加后的总损失作为目标检测与弱监督语义分割的损失,实现端到端的多任务的并行训练。具体如下:
3.1)计算弱监督语义分割损失:
在本实施例中,除了目标检测损失之外,在总损失中额外增加了1个语义分割损失函数Lseg(Im,Gm),调用步骤1)与步骤2)中获得的弱监督语义分割的标定真值和结果,并以交叉熵损失的方式计算该语义分割损失。
上述公式中,Im代表基础网络第m个特征提取层的卷积图, 代表第m个特征提取层的弱监督语义分割的标定真值(Ground Truth),Hm与Wm分别代表第m个特征提取层的卷积图在坐标纵轴与横轴方向的像素个数,/>代表弱监督语义分割在像素位置h,w的结果,C+1代表包含背景类别的类别数量,本发明采用了二分类的轻量级弱监督语义分割模式(即前景+背景),故取C=1。
3.2)将弱监督语义分割损失与目标检测损失加权相加组合:
RefineMask采用尽可能简单的方式,将目标检测与语义分割的损失函数以加权相加的方式进行组合,组合后的损失函数可以用以下公式表达:
L(Im,Gm)=Ldet(Im,Gm)+α·Lseg(Im,Gm) (10)
其中,Ldet(Im,Gm)为第m个特征提取层的目标检测损失,Lseg(Im,Gm)为第m个特征提取层的语义分割损失,α为在目标检测和语义分割两种任务之间取得平衡而设置的比例系数。由于目标检测的损失函数并不是本发明的重点,因此目标检测损失Ldet(Im,Gm)直接采用RefineDet算法中的目标检测损失。
4)根据目标检测与弱监督语义分割的损失进行反向误差传播:
分别根据源自基础网络每个特征提取层的目标检测与弱监督语义分割损失,使用给定的学习率,计算卷积神经网络中每个卷积核和链路权重的修正数值,重复上述操作,直到源自基础网络每个特征提取层的目标检测与弱监督语义分割损失都小于预先设定的损失阈值或者总循环次数超过预先设定的循环次数阈值。
本发明还提供一种目标检测和语义分割的多任务并行***,其包括弱监督语义分割真值标定模、弱监督语义分割模块、弱监督语义分割损失计算模块和反向误差传播模块;
弱监督语义分割真值标定模块根据锚框投票结果和检测真值框计算弱监督语义分割标定真值;具体为:以轻量级的网络并联在目标检测的基础网络的旁边,通过目标检测与语义分割的多任务并行训练,进一步强化基础网络对物体边缘特征的提取能力;
所述弱监督语义分割模块基于弱监督语义分割标定真值,使用轻量级网络结构获取弱监督语义分割结果;
所述弱监督语义分割损失计算模块用于计算目标检测与弱监督语义分割的损失;具体为:以交叉熵损失的方式计算出弱监督语义分割任务的损失,再将弱监督语义分割任务的损失与目标检测损失进行加权相加,获得目标检测与弱监督语义分割的损失;
所述反向误差传播模块根据目标检测与弱监督语义分割的损失进行反向误差传播;具体为:根据源自基础网络每个特征提取层的目标检测与弱监督语义分割损失,使用给定的学习率和循环结束条件,进行目标检测与弱监督语义分割的多任务并行训练。
上述各实施例仅用于说明本发明,各步骤及部件的结构、尺寸、设置位置及形状都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤及部件进行的改进和等同变换,均不应排除在本发明的保护范围之外。

Claims (8)

1.一种目标检测和语义分割的多任务并行方法,其特征在于包括以下步骤:
1)根据锚框投票结果和检测真值框计算弱监督语义分割标定真值;
2)使用轻量级网络结构获取弱监督语义分割结果;
3)基于弱监督语义分割的标定真值和结果,计算目标检测与弱监督语义分割的损失;
4)根据目标检测与弱监督语义分割的损失进行反向误差传播;
所述步骤1)中,根据目标检测算法中锚框的投票结果计算弱监督语义分割的锚框投票标定真值,再将所述锚框投票标定真值与直接依靠目标检测任务的标定真值框计算出的检测真值框标定真值进行组合,获得卷积图上每个像素点的弱监督语义分割标定真值;
所述弱监督语义分割标定真值的获取方法包括以下步骤:
1.1)计算卷积图上每个像素点的弱监督语义分割的锚框投票标定真值:弱监督语义分割采用二分类模式的轻量级,分别计算当前像素点p属于前C个前景分类的锚框投票标定真值GA,p,1-C与属于第C+1个背景分类的锚框投票标定真值GA,p,C+1
1.2)将弱监督语义分割的锚框投票标定真值与检测真值框标定真值进行组合:
采用以下两种组合方法:
G1,p,k1=(1-β)·GB,p,k1+β·GA,p,k1
G2,p,k1=(1-β)·GB,p,k1+β·GA,p,k1·GB,p,k1
式中,G1,p,k1与G2,p,k1分别代表第一种和第二种组合方法对于当前像素点p生成的弱监督语义分割标定真值中属于k1类别的数值,k1∈{1,2,…,C+1};GB,p与GA,p分别代表直接依靠目标检测标定真值框位置计算出的检测真值框标定真值,和依靠目标检测中锚框的分类结果中蕴含的梯度信息获得的锚框投票标定真值;系数β代表弱监督语义分割标定真值内部,与锚框投票标定真值相关的部分所占据的比例。
2.如权利要求1所述多任务并行方法,其特征在于:所述步骤1.1)中,当前像素点p属于前C个前景分类的锚框投票标定真值GA,p,1→C与属于第C+1个背景分类的锚框投票标定真值GA,p,C+1分别为:
其中,
GA,p,C+1=1-GA,p,1→C
式中,GA,p,1→C代表弱监督语义分割中,当前像素点p属于前C个前景类别的锚框投票标定真值,GA,p,C+1代表像素点p属于背景类别的锚框投票标定真值;为该像素点p被所有与之相关的锚框加权投票后第k个类别的分数,像素点p所有C+1个类别的分数所组成的集合即为像素点p的锚框投票结果;BG,i为第i个检测真值框,/>为BG,i所属的类别。
3.如权利要求1或2所述多任务并行方法,其特征在于:所述步骤1.1)中,像素点p的锚框投票方法为:将所有在卷积图上对应的区域能覆盖像素点p的锚框的所有C+1个类别的分数按照各个类别分别对位相加,再将对位相加后的各个类别的分数按照使得C+1个类别的分数总和为1的要求进行归一化,将归一化后的第k个类别的分数记为像素点p在所述类别的锚框投票分数
4.如权利要求1所述多任务并行方法,其特征在于:所述步骤1.1)中,权重系数γ的根据该像素点是否位于任何一个检测真值框在卷积图上对应的区域内部而采用不同数值:当像素点p位于第i个检测真值框BG,i对应的区域内部,若其当前考察的类别k与BG,i所属的类别一致时,权重系数γ的数值等于1;反之,当前考察的类别k与BG,i所属的类别/>不同,或者像素点p不位于任何一个检测真值框对应区域内部的情况,权重系数γ下降为一个小于1的数值。
5.如权利要求1所述多任务并行方法,其特征在于:所述步骤2)中,在目标检测的基础网络的旁边以轻量级的分支网络的模式,并联一个弱监督语义分割模块,弱监督语义分割结果获取方法包括以下步骤:
2.1)将弱监督语义分割模块的基本结构与基础网络进行连接:分别将基础网络的4个特征提取层的卷积图送入各自的分割传输连接模块,在分割传输连接模块中融合其所在的特征提取层的基础网络卷积图中和更高层的分割传输连接模块卷积图中的语义信息,融合后的卷积图分别从各自对应的分割传输连接模块末尾输出,与此同时,基础网络每个特征提取层对应的弱监督语义分割标定真值也被投影到平行于该特征提取层的分割传输连接模块输出的卷积图上,与该卷积图中弱监督语义分割的结果一起送往后面的softmax模块计算语义分割分类损失;
2.2)在弱监督语义分割模块内部通过传输连接模块进行平行卷积层之间的特征传输和高、低卷积层之间的特征融合,获取弱监督语义分割结果:
分割传输连接模块内部包含2个含有3*3卷积核的卷积层、1个含有3*3卷积核的反卷积层与1个对卷积图像素进行对位相加;来自基础网络特征提取层的卷积图在经过1个卷积层进行特征提取后,与来自更高层分割传输连接模块的经过1个反卷积层调整尺度后的卷积图汇合,并被执行卷积图像素对位相加操作,经过对位相加后的卷积图被复制成两份,其中一份传向相邻的更低层分割传输连接模块,另一份再经过1个卷积层进行进一步特征提取,最后成为基础网络该特征提取层的弱监督语义分割结果。
6.如权利要求1所述多任务并行方法,其特征在于:所述步骤3)中,目标检测与弱监督语义分割的损失计算方法包括以下步骤:
3.1)计算弱监督语义分割损失:弱监督语义分割损失Lseg(Im,Gm)的数值以交叉熵损失的方式进行计算:
其中,Im代表基础网络第m个特征提取层的卷积图,代表第m个特征提取层的弱监督语义分割的标定真值,Hm与Wm分别代表第m个特征提取层的卷积图在坐标纵轴与横轴方向的像素个数,/>代表弱监督语义分割在像素位置h,w的结果,C+1代表包含背景类别的类别数量;
3.2)将弱监督语义分割损失与目标检测损失加权相加,获得组合后的损失函数Ldet(Im,Gm):
L(Im,Gm)=Ldet(Im,Gm)+α·Lseg(Im,Gm)
其中,Ldet(Im,Gm)与Lseg(Im,Gm)分别为第m个特征提取层的目标检测和弱监督语义分割损失,α为在目标检测和语义分割两种任务之间取得平衡而设置的比例系数。
7.如权利要求1所述多任务并行方法,其特征在于:所述步骤4)中,分别根据源自基础网络每个特征提取层的目标检测与弱监督语义分割损失,使用给定的学习率,计算卷积神经网络中每个卷积核和链路权重的修正数值,重复上述操作,直到源自基础网络每个特征提取层的目标检测与弱监督语义分割损失都小于预先设定的损失阈值或者总循环次数超过预先设定的循环次数阈值。
8.一种目标检测和语义分割的多任务并行***,其特征在于包括:弱监督语义分割真值标定模、弱监督语义分割模块、弱监督语义分割损失计算模块和反向误差传播模块;
所述弱监督语义分割真值标定模块根据锚框投票结果和检测真值框计算弱监督语义分割标定真值;
所述弱监督语义分割模块使用轻量级网络结构获取弱监督语义分割结果;
所述弱监督语义分割损失计算模块基于弱监督语义分割的标定真值和结果,计算目标检测与弱监督语义分割的损失;
所述反向误差传播模块根据目标检测与弱监督语义分割的损失进行反向误差传播;
所述弱监督语义分割真值标定模块中,根据目标检测算法中锚框的投票结果计算弱监督语义分割的锚框投票标定真值,再将所述锚框投票标定真值与直接依靠目标检测任务的标定真值框计算出的检测真值框标定真值进行组合,获得卷积图上每个像素点的弱监督语义分割标定真值;
所述弱监督语义分割标定真值的获取方法包括以下步骤:
1.1)计算卷积图上每个像素点的弱监督语义分割的锚框投票标定真值:弱监督语义分割采用二分类模式的轻量级,分别计算当前像素点p属于前C个前景分类的锚框投票标定真值GA,p,1-C与属于第C+1个背景分类的锚框投票标定真值GA,p,C+1
1.2)将弱监督语义分割的锚框投票标定真值与检测真值框标定真值进行组合:
采用以下两种组合方法:
G1,p,k1=(1-β)·GB,p,k1+β·GA,p,k1
G2,p,k1=(1-β)·GB,p,k1+β·GA,p,k1·GB,p,k1
式中,G1,p,k1与G2,p,k1分别代表第一种和第二种组合方法对于当前像素点p生成的弱监督语义分割标定真值中属于k1类别的数值,k1∈{1,2,…,C+1};GB,p与GA,p分别代表直接依靠目标检测标定真值框位置计算出的检测真值框标定真值,和依靠目标检测中锚框的分类结果中蕴含的梯度信息获得的锚框投票标定真值;系数β代表弱监督语义分割标定真值内部,与锚框投票标定真值相关的部分所占据的比例。
CN202010499259.0A 2020-06-04 2020-06-04 一种目标检测和语义分割的多任务并行方法及*** Active CN111680739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010499259.0A CN111680739B (zh) 2020-06-04 2020-06-04 一种目标检测和语义分割的多任务并行方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010499259.0A CN111680739B (zh) 2020-06-04 2020-06-04 一种目标检测和语义分割的多任务并行方法及***

Publications (2)

Publication Number Publication Date
CN111680739A CN111680739A (zh) 2020-09-18
CN111680739B true CN111680739B (zh) 2024-03-22

Family

ID=72453068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010499259.0A Active CN111680739B (zh) 2020-06-04 2020-06-04 一种目标检测和语义分割的多任务并行方法及***

Country Status (1)

Country Link
CN (1) CN111680739B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183395A (zh) * 2020-09-30 2021-01-05 深兰人工智能(深圳)有限公司 基于多任务学习神经网络的道路场景识别方法和***
CN111968124B (zh) * 2020-10-26 2020-12-22 四川省肿瘤医院 基于半监督语义分割的肩部肌骨超声结构分割方法
CN112528982A (zh) * 2020-11-18 2021-03-19 燕山大学 一种用于检测船舶水尺线的方法、装置及***
CN113408499B (zh) * 2021-08-19 2022-01-04 天津所托瑞安汽车科技有限公司 双网络模型的联合评估方法、设备和存储介质
CN116503603B (zh) * 2023-05-16 2024-02-23 北京交通大学 一种基于弱监督语义分割和特征弥补的类间遮挡目标检测网络模型的训练方法
CN117201486A (zh) * 2023-11-07 2023-12-08 通号通信信息集团有限公司 一种用于云计算平台的镜像加速传输方法及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3171297A1 (en) * 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
CN109815979A (zh) * 2018-12-18 2019-05-28 通号通信信息集团有限公司 一种弱标签语义分割标定数据生成方法及***
CN110378222A (zh) * 2019-06-14 2019-10-25 安徽南瑞继远电网技术有限公司 一种输电线路防震锤目标检测与缺陷识别方法及装置
CN110633632A (zh) * 2019-08-06 2019-12-31 厦门大学 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN110852317A (zh) * 2019-09-16 2020-02-28 浙江工业大学 一种基于弱边缘的小尺度目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3171297A1 (en) * 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
CN109815979A (zh) * 2018-12-18 2019-05-28 通号通信信息集团有限公司 一种弱标签语义分割标定数据生成方法及***
CN110378222A (zh) * 2019-06-14 2019-10-25 安徽南瑞继远电网技术有限公司 一种输电线路防震锤目标检测与缺陷识别方法及装置
CN110633632A (zh) * 2019-08-06 2019-12-31 厦门大学 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN110852317A (zh) * 2019-09-16 2020-02-28 浙江工业大学 一种基于弱边缘的小尺度目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-Evidence Filtering and Fusion for Multi-Label Classification, Object Detection and Semantic Segmentation Based on Weakly Supervised Learning;Weifeng Ge 等;《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;第1277-1286页 *

Also Published As

Publication number Publication date
CN111680739A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN111680739B (zh) 一种目标检测和语义分割的多任务并行方法及***
CN111160269A (zh) 一种人脸关键点检测方法及装置
WO2021155792A1 (zh) 一种处理装置、方法及存储介质
Xie et al. Fewer is more: Efficient object detection in large aerial images
CN114219943B (zh) 一种基于深度学习的ct图像危及器官分割***
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN112529146B (zh) 神经网络模型训练的方法和装置
Cepni et al. Vehicle detection using different deep learning algorithms from image sequence
CN114998220B (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
Zhao et al. Accurate and efficient vehicle detection framework based on SSD algorithm
US12013917B2 (en) Method for constructing a convolution neural network based on farmland images, electronic device using the same
CN113298032A (zh) 基于深度学习的无人机视角图像的车辆目标检测方法
CN112633257A (zh) 基于改良卷积神经网络的马铃薯病害识别方法
CN113297959A (zh) 一种基于角点注意力孪生网络的目标跟踪方法及***
Devisurya et al. Early detection of major diseases in turmeric plant using improved deep learning algorithm
CN113643297B (zh) 一种基于神经网络的计算机辅助牙龄分析方法
CN112308089A (zh) 一种基于注意力机制的胶囊网络多特征提取方法
CN117173697A (zh) 细胞团分类识别方法、装置、电子设备及存储介质
CN116824333A (zh) 一种基于深度学习模型的鼻咽癌检测***
CN111696117B (zh) 一种基于骨架感知的损失函数加权方法及装置
Li et al. Object detection via feature fusion based single network
Zhang et al. Traffic sign detection algorithm based on YOLOv5 combined with BIFPN and attention mechanism
CN117710755B (zh) 一种基于深度学习的车辆属性识别***及方法
CN117523205B (zh) 少样本ki67多类别细胞核的分割识别方法
Shi et al. Application of remote sensing image processing for classification and recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant