CN110070091B - 用于街景理解的基于动态插值重建的语义分割方法及*** - Google Patents

用于街景理解的基于动态插值重建的语义分割方法及*** Download PDF

Info

Publication number
CN110070091B
CN110070091B CN201910359127.5A CN201910359127A CN110070091B CN 110070091 B CN110070091 B CN 110070091B CN 201910359127 A CN201910359127 A CN 201910359127A CN 110070091 B CN110070091 B CN 110070091B
Authority
CN
China
Prior art keywords
semantic segmentation
encoder
features
feature
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910359127.5A
Other languages
English (en)
Other versions
CN110070091A (zh
Inventor
陈羽中
林洋洋
柯逍
黄腾达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910359127.5A priority Critical patent/CN110070091B/zh
Publication of CN110070091A publication Critical patent/CN110070091A/zh
Application granted granted Critical
Publication of CN110070091B publication Critical patent/CN110070091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种用于街景理解的基于动态插值重建的语义分割方法及***,该方法包括:对训练集输入图像进行预处理,使图像标准化并获取相同尺寸的预处理图像;用卷积网络提取通用特征,再获取混合空间金字塔池化特征,以这两部分级联作为编码网络提取编码特征;从卷积网络中选取中间层特征,结合编码特征计算插值权重特征,以动态插值的方式搭建解码网络,重建图像分辨率,计算解码特征;计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标对深度神经网络进行训练;利用深度神经网络模型对待分割图像进行语义分割,输出分割结果。该方法及***有利于提高图像语义分割的准确性和鲁棒性。

Description

用于街景理解的基于动态插值重建的语义分割方法及***
技术领域
本发明涉及计算机视觉技术技术领域,具体涉及一种用于街景理解的基于动态插值重建的语义分割方法及***。
背景技术
图像语义分割是人工智能领域中计算机视觉的一个重要分支,是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别,使其与图像本身的视觉表示内容一致,所以图像语义分割任务也被称为像素级的图像分类任务。
由于图像语义分割与图像分类有一定的相似性,所以各式各样的图像分类网络常常在剔除最后的全连接层后,作为图像语义分割网络的主干网,并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征,最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下,图像语义分割的难度要更高,因为它不仅需要全局的上下文信息,还需要结合精细的局部信息来确定每个像素点的类别,所以常常利用主干网来提取较为全局的特征,然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征,所以常常把前者称为编码网络,后者称为解码网络。同时在编码过程中,为了能更好捕获不同大小物体的特征,常常结合不同感受野和尺度信息,比如带孔空间金字塔池化技术。在现有的图像语义分割方法中,解码过程中分辨率的重建常常采用双线性插值、转置卷积、和亚像素卷积来对图像的尺寸进行方法,第一种很好地选取了插值参考点,但是使用像素的物理距离作为插值,因为不同图的语义距离往往并不与物理具体相同,所以并不能有效地适应不同图像的情况。第二种由于采取补零的方式扩大原图尺寸然后使用一般卷积进行学习,所以学习效率较低。而最后一种则使用对若干个像素点取用了同样的参考点进行学习,选取点不佳。以上的方法都存在一定的问题,导致在解码过程中大尺寸特征不能有效地从信息缺失的小尺寸特征学习而来。
发明内容
本发明的目的在于提供一种用于街景理解的基于动态插值重建的语义分割方法及***,该方法及***有利于提高图像语义分割的准确性和鲁棒性。
为实现上述目的,本发明的技术方案是:一种用于街景理解的基于动态插值重建的语义分割方法,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
步骤C:从所述卷积网络中选取中间层特征
Figure BDA0002046339490000021
结合编码特征Fencoder计算插值权重特征
Figure BDA0002046339490000022
然后以动态插值的方式搭建解码网络,进行图像分辨率重建,计算解码特征Fdecoder
步骤D:用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
进一步地,所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
Figure BDA0002046339490000023
步骤B3:对Fbackbone进行分块池化,得到尺寸为hbin×wbin的池化特征,然后使用最近邻插值把池化特征恢复到Fbackbone同尺寸,再经过1×1卷积得到特征
Figure BDA0002046339490000024
其中,池化操作的参数的计算公式如下:
Figure BDA0002046339490000031
其中,hbackbone和wbackbone分别表示特征Fbackbone的高和宽,hbin和wbin分别表示垂直方向和水平方向的分块数量,hstride和wstride分别表示垂直方向和水平方向的池化步长,hstride和wstride分别表示垂直方向和水平方向的池化步长;
步骤B4:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征
Figure BDA0002046339490000032
卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
Figure BDA0002046339490000033
其中,
Figure BDA0002046339490000034
表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B5:用不同的分块数量重复步骤B2,然后全部拼接获得空间金字塔特征Fspp,用不同的孔率重复步骤B3,然后全部拼接获得带孔空间金字塔特征Faspp,最后拼接
Figure BDA0002046339490000035
Fspp和Faspp获得混合空间金字塔池化特征Fmspp
步骤B6:使用1×1卷积对Fmspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
进一步地,所述步骤C中,从所述卷积网络中选取中间层特征
Figure BDA0002046339490000036
结合编码特征Fencoder计算插值权重特征
Figure BDA0002046339490000037
然后以动态插值的方式搭建解码网络,进行图像分辨率重建,计算解码特征Fdecoder,包括以下步骤:
步骤C1:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,从提取通用特征的卷积网络中选取输出步幅为os的中间层特征,并用1×1卷积进行降维,得到特征
Figure BDA0002046339490000041
步骤C2:使用最近邻插值处理编码特征Fencoder,得到输出步幅为os的特征图
Figure BDA0002046339490000042
步骤C3:拼接
Figure BDA0002046339490000043
Figure BDA0002046339490000044
使用1×1卷积降维后,再使用3×3卷积提取特征得到插值权重特征
Figure BDA0002046339490000045
步骤C4:计算尺寸与
Figure BDA0002046339490000046
相同的待求特征Fdecoder,每个像素点对应到Fencoder中的小数坐标,公式如下:
Figure BDA0002046339490000047
其中,xencoder和yencoder为对应到Fencoder中的小数坐标,hencoder和wencoder表示Fencoder的高和宽,hdecoder和wdecoder表示Fdecoder的高和宽;
然后从Fencoder收集Fdecoder的四邻域特征Fref,计算公式如下:
Figure BDA0002046339490000048
其中,Fref(xdecoder,ydecoder)表示四邻域特征Fref在(xdecoder,ydecoder)坐标像素点的参考特征值,
Figure BDA0002046339490000049
表示待求特征Fdecoder参考Fencoder在xencoder和yencoder都下取整坐标位置的像素值,即Fencoder对应像素点最近左上像素点的像素值;
步骤C5:利用插值权重特征
Figure BDA00020463394900000410
对四邻域特征Fref加权获得动态插值的解码特征Fdecoder,计算公式如下:
Figure BDA0002046339490000051
步骤C6:选取比步骤C1中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则更新Fdecoder作为新的Fencoder,并重复步骤C1至C5。
进一步地,所述步骤D中,用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率;softmax计算公式如下:
Figure BDA0002046339490000052
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:对语义分割概率图中的每个位置选取概率最大的那个维度作为该位置的类别标号,获得预测语义分割图,然后通过如下公式结合图像语义分割标注获得边缘增强权重:
Figure BDA0002046339490000053
其中,wedge(i,j)、
Figure BDA0002046339490000054
Figure BDA0002046339490000055
分别表示坐标(i,j)位置的总边缘增强权重wedge、预测边缘增强权重
Figure BDA0002046339490000056
和标注边缘增强权重
Figure BDA0002046339490000057
y(i,j)和
Figure BDA0002046339490000058
为坐标(i,j)位置预测语义分割结果和图像语义分割标注结果,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数,max()为取大值函数;α为像素边缘增强权重;
步骤D3:利用语义分割概率图与其对应标注,计算像素级的交叉熵,得到语义分割损失Ls,然后计算加权和损失L:
L=(1+wedge)Ls
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练网络得到最后的模型。
本发明还提供了一种用于街景理解的基于动态插值重建的语义分割***,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
解码特征提取模块,用于从所述卷积网络中选取中间层特征
Figure BDA0002046339490000061
结合编码特征Fencoder计算插值权重特征
Figure BDA0002046339490000062
然后以动态插值的方式搭建解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
相较于现有技术,本发明的有益效果是:在编码过程中,针对性地设计了混合空间金字塔池化,能以较少的参数捕获更多上下文信息。在解码过程中,针对性地设计了特征分辨率重建的步骤,结合中间层特征和编码特征计算插值所需权重,然后利用该权重动态地将小尺寸特征插值成大尺寸特征,与现有方法相比,本发明能更合理地选取像素点的插值参考点,同时由于插值权重是由浅层特征和编码特征计算而来的,所以能有效地利用图像的精细和语义信息来动态对不同图像的不同位置决定参考点的插值重要程度,使得分辨率重建的学习能力更加强大,从而最后得到更精确的语义分割结果。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例的***结构示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种用于街景理解的基于动态插值重建的语义分割方法,如图1所示,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。
步骤B:用通用的卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以步骤B中所述这两部分级联作为编码网络提取编码特征Fencoder;具体包括以下步骤:
步骤B1:使用通用的卷积网络(本实施例采用deeplabv3+网络中提供的xception网络)对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
Figure BDA0002046339490000071
步骤B3:对Fbackbone进行分块池化,得到尺寸为hbin×wbin的池化特征,然后使用最近邻插值把池化特征恢复到Fbackbone同尺寸,再经过1×1卷积得到特征
Figure BDA0002046339490000072
其中,池化操作的参数的计算公式如下:
Figure BDA0002046339490000073
其中,hbackbone和wbackbone分别表示特征Fbackbone的高和宽,hbin和wbin分别表示垂直方向和水平方向的分块数量,hstride和wstride分别表示垂直方向和水平方向的池化步长,hstride和wstride分别表示垂直方向和水平方向的池化步长;
步骤B4:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征
Figure BDA0002046339490000081
卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
Figure BDA0002046339490000082
其中,
Figure BDA0002046339490000083
表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B5:用不同的分块数量(本实施例为5个,(1,1)(2,2)(4,4)(8,8)(16,16),池化方式为平均池化)重复步骤B2,然后全部拼接获得空间金字塔特征Fspp,用不同的孔率(本实施例为3个:6,12,18)重复步骤B3,然后全部拼接获得带孔空间金字塔特征Faspp,最后拼接
Figure BDA0002046339490000084
Fspp和Faspp获得混合空间金字塔池化特征Fmspp
步骤B6:使用1×1卷积对Fmspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
步骤C:从所述卷积网络中选取中间层特征
Figure BDA0002046339490000085
结合编码特征Fencoder计算插值权重特征
Figure BDA0002046339490000086
然后以动态插值的方式搭建解码网络,进行图像分辨率重建,计算解码特征Fdecoder;具体包括以下步骤:
步骤C1:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,从提取通用特征的卷积网络中选取输出步幅为os的中间层特征,并用1×1卷积进行降维,得到特征
Figure BDA0002046339490000087
步骤C2:使用最近邻插值处理编码特征Fencoder,得到输出步幅为os的特征图
Figure BDA0002046339490000088
步骤C3:拼接
Figure BDA0002046339490000089
Figure BDA00020463394900000810
使用1×1卷积降维后,再使用3×3卷积提取特征得到插值权重特征
Figure BDA00020463394900000811
步骤C4:计算尺寸与
Figure BDA00020463394900000812
相同的待求特征Fdecoder,每个像素点对应到Fencoder中的小数坐标,公式如下:
Figure BDA0002046339490000091
其中,xencoder和yencoder为对应到Fencoder中的小数坐标,hencoder和wencoder表示Fencoder的高和宽,hdecoder和wdecoder表示Fdecoder的高和宽;
然后从Fencoder收集Fdecoder的四邻域特征Fref,计算公式如下:
Figure BDA0002046339490000092
其中,Fref(xdecoder,ydecoder)表示四邻域特征Fref在(xdecoder,ydecoder)坐标像素点的参考特征值,
Figure BDA0002046339490000093
表示待求特征Fdecoder参考Fencoder在xencoder和yencoder都下取整坐标位置的像素值,即Fencoder对应像素点最近左上像素点的像素值,其余以此类推;
步骤C5:利用插值权重特征
Figure BDA0002046339490000094
对四邻域特征Fref加权获得动态插值的解码特征Fdecoder,计算公式如下:
Figure BDA0002046339490000095
步骤C6:选取比步骤C1中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则更新Fdecoder作为新的Fencoder,并重复步骤C1至C5。
步骤D:用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;具体包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率;softmax计算公式如下:
Figure BDA0002046339490000101
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:对语义分割概率图中的每个位置选取概率最大的那个维度作为该位置的类别标号,获得预测语义分割图,然后通过如下公式结合图像语义分割标注获得边缘增强权重:
Figure BDA0002046339490000102
其中,wedge(i,j)、
Figure BDA0002046339490000103
Figure BDA0002046339490000104
分别表示坐标(i,j)位置的总边缘增强权重wedge、预测边缘增强权重
Figure BDA0002046339490000105
和标注边缘增强权重
Figure BDA0002046339490000106
y(i,j)和
Figure BDA0002046339490000107
为坐标(i,j)位置预测语义分割结果和图像语义分割标注结果,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数,max()为取大值函数;α为像素边缘增强权重(本实施例中为1);
步骤D3:利用语义分割概率图与其对应标注,计算像素级的交叉熵,得到语义分割损失Ls,然后计算加权和损失L:
L=(1+wedge)Ls
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练网络得到最后的模型。
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
本发明还提供了用于实现上述方法的用于街景理解的语义分割***,如图2所示,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
解码特征提取模块,用于从所述卷积网络中选取中间层特征
Figure BDA0002046339490000111
结合编码特征Fencoder计算插值权重特征
Figure BDA0002046339490000112
然后以动态插值的方式搭建解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (3)

1.一种用于街景理解的基于动态插值重建的语义分割方法,其特征在于,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
步骤C:从所述卷积网络中选取中间层特征
Figure FDA0003408654940000011
结合编码特征Fencoder计算插值权重特征
Figure FDA0003408654940000012
然后以动态插值的方式搭建解码网络,进行图像分辨率重建,计算解码特征Fdecoder
步骤D:用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果;
所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
Figure FDA0003408654940000013
步骤B3:对Fbackbone进行分块池化,得到尺寸为hbin×wbin的池化特征,然后使用最近邻插值把池化特征恢复到Fbackbone同尺寸,再经过1×1卷积得到特征
Figure FDA0003408654940000014
步骤B4:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征
Figure FDA0003408654940000015
卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
Figure FDA0003408654940000021
其中,
Figure FDA0003408654940000022
表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B5:用不同的分块数量重复步骤B2,然后全部拼接获得空间金字塔特征Fspp,用不同的孔率重复步骤B3,然后全部拼接获得带孔空间金字塔特征Faspp,最后拼接
Figure FDA0003408654940000023
Fspp和Faspp获得混合空间金字塔池化特征Fmspp
步骤B6:使用1×1卷积对Fmspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
所述步骤C中,从所述卷积网络中选取中间层特征
Figure FDA0003408654940000024
结合编码特征Fencoder计算插值权重特征
Figure FDA0003408654940000025
然后以动态插值的方式搭建解码网络,进行图像分辨率重建,计算解码特征Fdecoder,包括以下步骤:
步骤C1:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,从提取通用特征的卷积网络中选取输出步幅为os的中间层特征,并用1×1卷积进行降维,得到特征
Figure FDA0003408654940000026
步骤C2:使用最近邻插值处理编码特征Fencoder,得到输出步幅为os的特征图
Figure FDA0003408654940000027
步骤C3:拼接
Figure FDA0003408654940000028
Figure FDA0003408654940000029
使用1×1卷积降维后,再使用3×3卷积提取特征得到插值权重特征
Figure FDA00034086549400000210
步骤C4:计算尺寸与
Figure FDA00034086549400000211
相同的待求特征Fdecoder,每个像素点对应到Fencoder中的小数坐标,公式如下:
Figure FDA00034086549400000212
其中,xencoder和yencoder为对应到Fencoder中的小数坐标,hencoder和wencoder表示Fencoder的高和宽,hdecoder和wdecoder表示Fdecoder的高和宽;
然后从Fencoder收集Fdecoder的四邻域特征Fref,计算公式如下:
Figure FDA0003408654940000031
其中,Fref(xdecoder,ydecoder)表示四邻域特征Fref在(xdecoder,ydecoder)坐标像素点的参考特征值,
Figure FDA0003408654940000032
表示待求特征Fdecoder参考Fencoder在xencoder和yencoder都下取整坐标位置的像素值,即Fencoder对应像素点最近左上像素点的像素值;
步骤C5:利用插值权重特征
Figure FDA0003408654940000033
对四邻域特征Fref加权获得动态插值的解码特征Fdecoder,计算公式如下:
Figure FDA0003408654940000034
步骤C6:选取比步骤C1中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则更新Fdecoder作为新的Fencoder,并重复步骤C1至C5。
2.根据权利要求1所述的用于街景理解的基于动态插值重建的语义分割方法,其特征在于,所述步骤D中,用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率;softmax计算公式如下:
Figure FDA0003408654940000035
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:对语义分割概率图中的每个位置选取概率最大的那个维度作为该位置的类别标号,获得预测语义分割图,然后通过如下公式结合图像语义分割标注获得边缘增强权重:
Figure FDA0003408654940000041
其中,wedge(i,j)、
Figure FDA0003408654940000042
Figure FDA0003408654940000043
分别表示坐标(i,j)位置的总边缘增强权重wedge、预测边缘增强权重
Figure FDA0003408654940000044
和标注边缘增强权重
Figure FDA0003408654940000045
y(i,j)和
Figure FDA0003408654940000048
为坐标(i,j)位置预测语义分割结果和图像语义分割标注结果,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数,max()为取大值函数;α为像素边缘增强权重;
步骤D3:利用语义分割概率图与其对应标注,计算像素级的交叉熵,得到语义分割损失Ls,然后计算加权和损失L:
L=(1+wedge)Ls
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练网络得到最后的模型。
3.一种用于实现如权利要求1-2任一项所述方法的语义分割***,其特征在于,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取混合空间金字塔池化特征Fmspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
解码特征提取模块,用于从所述卷积网络中选取中间层特征
Figure FDA0003408654940000047
结合编码特征Fencoder计算插值权重特征
Figure FDA0003408654940000051
然后以动态插值的方式搭建解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder获取语义分割概率图,结合图像语义分割标注计算边缘增强权重,并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失,以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
CN201910359127.5A 2019-04-30 2019-04-30 用于街景理解的基于动态插值重建的语义分割方法及*** Active CN110070091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910359127.5A CN110070091B (zh) 2019-04-30 2019-04-30 用于街景理解的基于动态插值重建的语义分割方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910359127.5A CN110070091B (zh) 2019-04-30 2019-04-30 用于街景理解的基于动态插值重建的语义分割方法及***

Publications (2)

Publication Number Publication Date
CN110070091A CN110070091A (zh) 2019-07-30
CN110070091B true CN110070091B (zh) 2022-05-24

Family

ID=67369689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910359127.5A Active CN110070091B (zh) 2019-04-30 2019-04-30 用于街景理解的基于动态插值重建的语义分割方法及***

Country Status (1)

Country Link
CN (1) CN110070091B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533045B (zh) * 2019-07-31 2023-01-17 中国民航大学 一种结合注意力机制的行李x光违禁品图像语义分割方法
CN110544254A (zh) * 2019-09-12 2019-12-06 杭州海睿博研科技有限公司 用于核磁同步自动化成像与分割的***和方法
CN110781899B (zh) * 2019-10-23 2022-11-25 维沃移动通信有限公司 图像处理方法及电子设备
CN111783514A (zh) * 2019-11-18 2020-10-16 北京京东尚科信息技术有限公司 面部解析方法、装置及计算机可读存储介质
CN110863935B (zh) * 2019-11-19 2020-09-22 上海海事大学 基于VGG16-SegUnet和dropout的海流机叶片附着物识别方法
CN111340047B (zh) * 2020-02-28 2021-05-11 江苏实达迪美数据处理有限公司 基于多尺度特征与前背景对比的图像语义分割方法及***
CN113065551B (zh) * 2021-03-19 2023-08-08 杭州迪英加科技有限公司 利用深度神经网络模型执行图像分割的方法
CN114359645B (zh) * 2022-01-12 2024-05-21 中国平安人寿保险股份有限公司 基于特征区域的图像拓展方法、装置、设备及存储介质
WO2023205901A1 (en) * 2022-04-29 2023-11-02 Keramati Hadi System and method for heat exchanger shape optimization
CN117078982B (zh) * 2023-10-16 2024-01-26 山东建筑大学 基于深度学习的大倾角立体像对准密集特征匹配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
CN107644426A (zh) * 2017-10-12 2018-01-30 中国科学技术大学 基于金字塔池化编解码结构的图像语义分割方法
CN108921196A (zh) * 2018-06-01 2018-11-30 南京邮电大学 一种改进全卷积神经网络的语义分割方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558268B2 (en) * 2014-08-20 2017-01-31 Mitsubishi Electric Research Laboratories, Inc. Method for semantically labeling an image of a scene using recursive context propagation
US9916522B2 (en) * 2016-03-11 2018-03-13 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
CN107644426A (zh) * 2017-10-12 2018-01-30 中国科学技术大学 基于金字塔池化编解码结构的图像语义分割方法
CN108921196A (zh) * 2018-06-01 2018-11-30 南京邮电大学 一种改进全卷积神经网络的语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Semantic Segmentation for High Spatial Resolution Remote Sensing Images Based on Convolution Neural Network and Pyramid Pooling Module;Bo Yu et al;《 IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》;20180930;第11卷(第9期);3252-3261页 *
融合深度图像的卷积神经网络语义分割方法;王孙平等;《集成技术》;20180930;第7卷(第5期);58-66页 *

Also Published As

Publication number Publication date
CN110070091A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110070091B (zh) 用于街景理解的基于动态插值重建的语义分割方法及***
CN110059698B (zh) 用于街景理解的基于边缘稠密重建的语义分割方法及***
CN110059768B (zh) 用于街景理解的融合点与区域特征的语义分割方法及***
CN110059769B (zh) 用于街景理解的基于像素重排重建的语义分割方法及***
CN112991354B (zh) 一种基于深度学习的高分辨率遥感影像语义分割方法
CN113888550B (zh) 一种结合超分辨率和注意力机制的遥感图像道路分割方法
Deng et al. Lau-net: Latitude adaptive upscaling network for omnidirectional image super-resolution
CN111340047B (zh) 基于多尺度特征与前背景对比的图像语义分割方法及***
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN111696033B (zh) 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法
CN114694038A (zh) 基于深度学习的高分辨率遥感影像分类方法及***
CN114187520B (zh) 一种建筑物提取模型的构建及应用方法
CN115205672A (zh) 一种基于多尺度区域注意力的遥感建筑物语义分割方法及***
CN112700418A (zh) 一种基于改进编解码网络模型的裂缝检测方法
CN111274905A (zh) 一种AlexNet和SVM相结合的卫星遥感影像土地利用变化检测方法
CN116958827A (zh) 一种基于深度学习的撂荒区域提取方法
CN114897694A (zh) 基于混合注意力和双层监督的图像超分辨率重建方法
CN112926533A (zh) 基于双向特征融合的光学遥感图像地物分类方法及***
CN114463340B (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN116030361A (zh) 一种基于cim-t架构的高分辨率影像变化检测方法
CN111666813A (zh) 一种基于非局部信息的三维卷积神经网络的皮下汗腺提取方法
CN113610024B (zh) 一种多策略的深度学习遥感影像小目标检测方法
Jiao et al. Extracting wetlands from swiss historical maps with convolutional neural networks
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法
CN117115563A (zh) 基于区域语义感知的遥感土地覆盖分类方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant