CN113052858A - 一种基于语义流的全景分割方法 - Google Patents

一种基于语义流的全景分割方法 Download PDF

Info

Publication number
CN113052858A
CN113052858A CN202110307902.XA CN202110307902A CN113052858A CN 113052858 A CN113052858 A CN 113052858A CN 202110307902 A CN202110307902 A CN 202110307902A CN 113052858 A CN113052858 A CN 113052858A
Authority
CN
China
Prior art keywords
segmentation
semantic
network
feature
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110307902.XA
Other languages
English (en)
Other versions
CN113052858B (zh
Inventor
贾海涛
毛晨
齐晨阳
王云
任利
许文波
周焕来
贾宇明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110307902.XA priority Critical patent/CN113052858B/zh
Publication of CN113052858A publication Critical patent/CN113052858A/zh
Application granted granted Critical
Publication of CN113052858B publication Critical patent/CN113052858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义流的全景分割技术。该发明在全景分割方向上具有一定的通用性与泛化能力。在全景分割中高层语义与高分辨率之间存在着矛盾。通常全景分割中采用简单的双线性插值方法对特征图反卷积‑上采样将高层特征与低层特征相融合。但是这种操作存在特征不对齐的缺点。本发明通过引入语义流的方法使全景分割过程中的特征图能够更好的对齐,从而提升全景分割的准确性,该方法具有很好的泛化能力,能够方便的迁移到其他全景分割网络中。

Description

一种基于语义流的全景分割方法
技术领域
本发明属于计算机视觉领域,属于场景解析中对图像进行像素级分割的图像分割技术。
背景技术
图像分割一直以来都是计算机视觉领域的研究热点,随着深度学习的兴起,图像的语义分割与实例分割方法得到了快速的发展。近年来最新提出的全景分割技术综合了语义分割与实例分割的特点,成为图像分割领域的研究前沿。然而当前全景分割技术的准确率依然无法得到保证,导致这项技术难以应用到工业当中。因此对全景分割准确性的研究有着重要的现实意义。
在全景分割中,网络通常采用多层卷积池化的操作提取图像的各层语义特征,然后将特征送入语义分割与实例分割子网络中对像素点的语义类别与实例信息进行预测。其中深层的特征通常能够较好捕捉到更多的图像语义信息,但分辨率较低;而靠近输入端的低层特征能够保持较高的分辨率和图像的细节信息,但对图像的语义预测不够精确。如图1所示,通过高层语义特征进行语义分割时,分割结果能够保持较多的图像的语义结构,但是对图像语小目标丢失严重;而低层的特征能够更多的还原图像细节信息,但是对图像语义类别预测不够准确。
高分辨率与高层语义是全景分割任务的内在需求,在全景分割中通常采用简单的双线性插值方法对特征图反卷积-上采样,以恢复高层特征图的分辨率。然后将高层特征与低层特征相融合,以此缓解高分辨率与高层语义之间的矛盾。
为了增强全景分割的性能,全景分割通常会通过系列的方法增强网络对上下文语义的提取或对细节信息的恢复。常用的方法包括空洞卷积、特征金字塔等。
空洞卷积是通过使用空洞填充卷积核的方法来扩大感受野,提升高层特征对上下文理解能力。如图2所示,通过0填充将3×3的卷积核扩大为5×5的卷积核,使卷积操作能够获取更大范围的信息,提升网络上下文语义提取能力。但是这种方法会损失信息的连续性,对小目标的分割效果变差。
特征金字塔是通过对不同尺度的特征进行融合,来有效的综合高层与低层特征信息。一个经典的代表就是FPN,如图3所示,它将深层信息上采样,与浅层信息相加,以构建尺寸不同的特征金字塔结构。FPN结构能够较好的融合不同尺度的特征,使网络能够适应小物体与细节信息的检测。但是由于不同尺寸的特征在学习过程中可能存在偏差,将两个语义相差较大的特征直接相加势必会减弱多尺度特征的表达能力。
这两种方法从增强特征的角度对网络的分割进行优化,但忽略了特征融合带来的问题。由于神经网络的深度和感受野是相对应的,越深层的特征对应原图的区域越大,其包含的语义信息也越丰富。但是由于池化层的存在,深层特征中的像素点对应原图的精确位置无法确定。而双线性插值是一种固定的插值方法,这使得上采样后的特征图与上层特征并不能很好的对齐。当使用未对齐的特征图进行融合时,势必会对特征信息产生削弱作用,从而降低最终的全景分割准确率。本发明就是着力于改进全景分割中这一问题。
发明内容
为了改进上述全景分割技术中的缺陷,本发明通过引入语义流的方法对全景分割的特征图进行对齐,使特征的融合更为合理,以增强网络分割的效果。本发明所采用的技术方案是:
步骤1:使用ResNet-50作为全景分割特征提取的骨干网络。提取特征图C1,C2,C3,C4,C5。
步骤2:构建语义流模块如图4所示语义流(FAM)模块。
步骤3:该步骤是该专利的核心内容,构建特征共享模块,在步骤1中嵌入语义流模块使步骤1中的特征图对齐,并进行多尺度融合。
步骤4:将步骤3得到的多尺度特征送入子网络进行语义分割与实例分割。
步骤5:在语义分割与实例分割子网络中嵌入语义流模块使子网络特征图对齐。
步骤6:对子网络分割结果进行融合,得到全景分割结果。网络整体结构如图5所示。
与现有技术相比,本发明能够有效的对齐网络特征图,从而提升全景分割效果,且本发明适用于多种网络结构。
附图和附表说明
图1为:不同层特征图的语义分割效果。
图2为:空洞卷积示意图。
图3为:特征金字塔结构示意图。
图4为:FAM模块示意图。
图5为:本发明的全景分割网络整体结构图。
图6为:本发明的Mask R-CNN网络结构图。
图7为:本发明的消融实验结果。
图8为:本发明的不同特征提取网络结构的全景分割实验。
具体实施方式
下面结合附图和附表对本发明进一步说明。
首先,网络利用一个ResNet-50骨干网络对输入图像进行特征提取,ResNet-50包含五个阶段,记为resl,res2,res3,res4,res5。每个阶段输出一个特征图层,尺寸分别为原图的1/2,1/4,1/8,1/16,1/32。记为C1,C2,C3,C4,C5。取C2~C5作为网络输入特征。通过语义流(FAM)模块学习相邻两个特征图之间的语义流场,根据语义流场对高层特征图进行上采样,并与低层特征图融合,构成具有多尺度特征的特征共享模块。
其中语义流模块构建如下:
对给定的两个相邻层级的输入特征图
Figure BDA0002988317850000031
Figure BDA0002988317850000032
首先将Fl上采样至Fl-1尺寸大小,然后将这两个特征图连接起来,通过包含两个3×3卷积的网络预测出语义流场
Figure BDA0002988317850000033
该过程可表示为:
Δl-1=convl(cat(Fl,Fl-1)) (1)
对于空间网格Ωl-1中的每个像素pl-1,通过
Figure BDA0002988317850000034
将其映射到上层及l中。然后通过可微分双线性采样机制对pl的四个领域进行线性插值。
然后将多尺度特征分别送入到语义分割子网络于实例分割子网络中。其中语义分割子网络通过相同的语义流对齐操作将特征进行上采样,恢复高层特征图的分辨率,通过1×1卷积于softmax层进行语义类别预测。实例分割子网络采用如图6所示的MaskR-CNN网络作为主体网络,将输入特征通过一个RPN网络提取实例对象的候选区域,然后经过一个RoIAlign层分别进行box、class和Mask的回归预测。其中在Mask分支中嵌入FAM模块使实例分割子网络特征图对齐。
最后对两个子网络分割结果进行融合,得到最终的全景分割结果。
具体方法:
(1)ResNet-50骨干网络对输入图像进行特征提取,得到C1、C2、C3、C4、C5五个特征图层。取C2~C5作为网络输入特征。
(2)将特征图C2~C5分别通过1×1的卷积将特征图通道数固定到256维,记为C2′~C5′。
(3)取C5′层作为输出的P5层,然后根据C4′与P5求出语义流场Δ4,根据Δ4对P5进行2倍上采样并与C4′相加,得到P4。
(4)依照步骤(3)自上向下依次求得P3,P2。P2~P5作为共享特征分别送入语义分割与实例分割子网络进行相应的回归预测。
(5)语义分割子网络首先利用1×1的卷积将共享特征维度映射到128维后利用FAM模块将这些特征上采样至原图的1/4,然后
(6)将(5)中得到特征拼接起来,利用1×1卷积和softmax进行语义类别的预测。
(7)实例分割子网络将输入特征送入到一个RPN网络中生成候选区域,然后分别对每个区域进行物体检测与掩膜生成,得到实例分割结果。
(8)将语义分割与实例分割结果进行融合,得到最终全景分割结果。
这种改进方法能够很好的对全景分割网络特征图进行对齐。由于全景分割网络既要保证高分辨率,又要保证高层语义,因此在全景分割中通常需要综合不同尺度特征图。这使得特征图不对齐的因素对全景分割算法的影响更为明显。
本发明在COCO数据集上进行消融实验以验证方案的有效性,实验以ResNet-50作为特征提取骨干网络,以Mask R-CNN+FPN(记为RN50-MR-CNN)的组合方法作为对比算法,实验的结果如表1所示。
表1中,FAMFPN表示本发明所设计的特征共享模块,FAMs与FAMi分别表示在语义分割子分支与实例分割子分支中,使用FAM结构替换原算法中双线性插值的上采样结构。综合表1的实验结果分析如下:
a.消融实验中的前三行是分别对特征共享模块、语义分割子分支FAM模块、实例分割子分支FAM模块进行消融实验的结果,实验结果表明这几个模块对网络均起到了促进作用。
b.比较表消融实验前三行的数据,特征共享模块对网络性能的提升最大,达到0.9%PQ。语义分割与实例分割分支中的FAM模块对各自的分支的增强也能有效的提升全景分割的准确度。
c.对特征共享模块、语义分割子分支FAM模块和实例分割子分支FAM模块进行叠加,可以发现对分割的效果均有提升,最终的全景分割质量提升了0.4%,说明了本发明整体的优化方案是可行、有效的。由于特征共享模块中对特征图进行了一次语义流对齐的操作,这使得分支中特征图间的偏差减小,所以分支中的FAM模块对整体的提升效果有所下降。
本发明对全景分割的优化具有较好的泛化能力,能够很好的迁移其他的全景分割模型中。通过对网络的设计,能够使网络的分割效果进一步提升。表2展示了常用的网络优化方法在方案中的效果。
表2中对比了ResNet-50与ResNet-101两种骨干网络下全景分割的性能,并将特征共享模块种C5到P5的映射由1×1的卷积替换为PPM模块。PPM模块是PSPNet种提出的特征金字塔模块,它能够很好的长距离的上下文信息,被广泛的应用在图像分割当中。
从对比结果中可以看出,使用ResNet-101替换原网络中的ResNet-50后网络的分割效果得到了较大的提升。将简单的1×1的卷积替换为PPM模块后,网络也均有所提升,说明了FAM模块有较好的泛化能力,与常用的一些特征增强、上下文语义增强方法不会产生抑制作用。
以上所述,仅为本发明的具体实施方式,本说明中所公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征或/和步骤外,均可以任何方式组合。

Claims (3)

1.一种基于语义流的全景分割方法,其特征在于,包括以下步骤:
步骤1:使用.ResNet-50作为全景分割特征提取的骨干网络;提取特征图C1,C2,C3,C4,C5;
步骤2:构建语义流模块语义流(FAM)模块;
步骤3:该步骤是该专利的核心内容,构建特征共享模块,在步骤1中嵌入语义流模块使步骤1中的特征图对齐,并进行多尺度融合;
步骤4:将步骤3得到的多尺度特征送入子网络进行语义分割与实例分割;
步骤5:在语义分割与实例分割子网络中嵌入语义流模块使子网络特征图对齐;
步骤6:对子网络分割结果进行融合,得到全景分割结果。
2.如权利要求1所述方法,其特征在于,步骤3中的特征共享模块中上采样方法为语义流对齐方法。
3.如权利要求1所述方法,其特征在于,步骤4中的子网络中对子网络特征使用语义流对齐方法。
CN202110307902.XA 2021-03-23 2021-03-23 一种基于语义流的全景分割方法 Active CN113052858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110307902.XA CN113052858B (zh) 2021-03-23 2021-03-23 一种基于语义流的全景分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110307902.XA CN113052858B (zh) 2021-03-23 2021-03-23 一种基于语义流的全景分割方法

Publications (2)

Publication Number Publication Date
CN113052858A true CN113052858A (zh) 2021-06-29
CN113052858B CN113052858B (zh) 2023-02-14

Family

ID=76514344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110307902.XA Active CN113052858B (zh) 2021-03-23 2021-03-23 一种基于语义流的全景分割方法

Country Status (1)

Country Link
CN (1) CN113052858B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963177A (zh) * 2021-11-11 2022-01-21 电子科技大学 一种基于cnn的建筑物掩膜轮廓矢量化的方法
CN115063777A (zh) * 2022-06-27 2022-09-16 厦门大学 一种野外环境下的无人车障碍物识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801307A (zh) * 2018-12-17 2019-05-24 中国科学院深圳先进技术研究院 一种全景分割方法、装置及设备
CN109801297A (zh) * 2019-01-14 2019-05-24 浙江大学 一种基于卷积实现的图像全景分割预测优化方法
CN110008808A (zh) * 2018-12-29 2019-07-12 北京迈格威科技有限公司 全景分割方法、装置和***及存储介质
CN110276765A (zh) * 2019-06-21 2019-09-24 北京交通大学 基于多任务学习深度神经网络的图像全景分割方法
CN111242954A (zh) * 2020-01-20 2020-06-05 浙江大学 一种带有双向连接和遮挡处理的全景分割方法
CN111428726A (zh) * 2020-06-10 2020-07-17 中山大学 基于图神经网络的全景分割方法、***、设备及存储介质
CN111524150A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 图像处理的方法及装置
CN111598912A (zh) * 2019-02-20 2020-08-28 北京奇虎科技有限公司 图像分割方法及装置
US20200357143A1 (en) * 2019-05-09 2020-11-12 Sri International Semantically-aware image-based visual localization
US20200401938A1 (en) * 2019-05-29 2020-12-24 The Board Of Trustees Of The Leland Stanford Junior University Machine learning based generation of ontology for structural and functional mapping
CN113920378A (zh) * 2021-11-09 2022-01-11 西安交通大学 基于注意力机制的柴胡种子识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801307A (zh) * 2018-12-17 2019-05-24 中国科学院深圳先进技术研究院 一种全景分割方法、装置及设备
CN110008808A (zh) * 2018-12-29 2019-07-12 北京迈格威科技有限公司 全景分割方法、装置和***及存储介质
CN109801297A (zh) * 2019-01-14 2019-05-24 浙江大学 一种基于卷积实现的图像全景分割预测优化方法
CN111598912A (zh) * 2019-02-20 2020-08-28 北京奇虎科技有限公司 图像分割方法及装置
US20200357143A1 (en) * 2019-05-09 2020-11-12 Sri International Semantically-aware image-based visual localization
US20200401938A1 (en) * 2019-05-29 2020-12-24 The Board Of Trustees Of The Leland Stanford Junior University Machine learning based generation of ontology for structural and functional mapping
CN110276765A (zh) * 2019-06-21 2019-09-24 北京交通大学 基于多任务学习深度神经网络的图像全景分割方法
CN111242954A (zh) * 2020-01-20 2020-06-05 浙江大学 一种带有双向连接和遮挡处理的全景分割方法
CN111428726A (zh) * 2020-06-10 2020-07-17 中山大学 基于图神经网络的全景分割方法、***、设备及存储介质
CN111524150A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 图像处理的方法及装置
CN113920378A (zh) * 2021-11-09 2022-01-11 西安交通大学 基于注意力机制的柴胡种子识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHAOBIN WANG等: "Image segmentation evaluation: a survey of methods", 《ARTIFICIAL INTELLIGENCE REVIEW》 *
毛晨: "基于深度学习的全景分割算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963177A (zh) * 2021-11-11 2022-01-21 电子科技大学 一种基于cnn的建筑物掩膜轮廓矢量化的方法
CN115063777A (zh) * 2022-06-27 2022-09-16 厦门大学 一种野外环境下的无人车障碍物识别方法
CN115063777B (zh) * 2022-06-27 2024-06-04 厦门大学 一种野外环境下的无人车障碍物识别方法

Also Published As

Publication number Publication date
CN113052858B (zh) 2023-02-14

Similar Documents

Publication Publication Date Title
CN113052858B (zh) 一种基于语义流的全景分割方法
CN101477684B (zh) 一种利用位置图像块重建的人脸图像超分辨率方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111325751A (zh) 基于注意力卷积神经网络的ct图像分割***
Piao et al. Accuracy improvement of UNet based on dilated convolution
CN115082675B (zh) 一种透明物体图像分割方法及***
CN111340080B (zh) 一种基于互补卷积特征的高分辨率遥感影像融合方法及***
CN116883801A (zh) 基于注意力机制与多尺度特征融合的YOLOv8目标检测方法
CN1284975C (zh) 遥感图像双线性插值小波变换融合的优化方法
CN113096136A (zh) 一种基于深度学习的全景分割方法
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN114862768A (zh) 基于改进YOLOv5-LITE轻量级的配电组件缺陷识别方法
CN115240066A (zh) 基于深度学习的遥感影像矿区复绿监测方法及***
CN111914853B (zh) 一种用于立体匹配的特征提取方法
Chan et al. Asymmetric cascade fusion network for building extraction
CN111967516B (zh) 一种逐像素分类方法、存储介质及分类设备
CN116704350B (zh) 基于高分辨遥感影像水域变化监测方法、***及电子设备
CN116485811A (zh) 基于Swin-Unet模型的胃部病理切片腺体分割方法
CN116843780A (zh) 多尺度融合注意力残差密集网络的胎儿脑mr图像重建方法
CN114529450B (zh) 基于改进深度迭代协作网络的人脸图像超分辨方法
CN112733934B (zh) 复杂环境下的多模态特征融合道路场景语义分割方法
CN111462006B (zh) 一种多目标的图像补全方法
CN114332780A (zh) 一种针对小目标的交通人车非目标检测方法
CN114359120A (zh) 遥感影像处理方法、装置、设备及存储介质
CN112488115A (zh) 一种基于two-stream架构的语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant