CN110059698B - 用于街景理解的基于边缘稠密重建的语义分割方法及*** - Google Patents

用于街景理解的基于边缘稠密重建的语义分割方法及*** Download PDF

Info

Publication number
CN110059698B
CN110059698B CN201910359119.0A CN201910359119A CN110059698B CN 110059698 B CN110059698 B CN 110059698B CN 201910359119 A CN201910359119 A CN 201910359119A CN 110059698 B CN110059698 B CN 110059698B
Authority
CN
China
Prior art keywords
edge
features
feature
semantic segmentation
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910359119.0A
Other languages
English (en)
Other versions
CN110059698A (zh
Inventor
陈羽中
林洋洋
柯逍
黄腾达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910359119.0A priority Critical patent/CN110059698B/zh
Publication of CN110059698A publication Critical patent/CN110059698A/zh
Application granted granted Critical
Publication of CN110059698B publication Critical patent/CN110059698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种用于街景理解的基于边缘稠密重建的语义分割方法及***,该方法包括:对训练集输入图像进行预处理,使图像标准化并获取相同尺寸的预处理图像;用卷积网络提取通用特征,再获取三级上下文空间金字塔融合特征,以这两部分级联作为编码网络提取编码特征;利用编码特征获取半输入尺寸编码特征,基于卷积网络获取边缘特征,结合半输入尺寸编码特征,以融合边缘特征的稠密网为解码网络,重建图像分辨率,获取解码特征;计算语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标对深度神经网络进行训练;利用深度神经网络模型对待分割图像进行语义分割,输出分割结果。该方法及***有利于提高图像语义分割的准确性和鲁棒性。

Description

用于街景理解的基于边缘稠密重建的语义分割方法及***
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种用于街景理解的基于边缘稠密重建的语义分割方法及***。
背景技术
图像语义分割是人工智能领域中计算机视觉的一个重要分支,是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别,使其与图像本身的视觉表示内容一致,所以图像语义分割任务也被称为像素级的图像分类任务。
由于图像语义分割与图像分类有一定的相似性,所以各式各样的图像分类网络常常在剔除最后的全连接层后,作为图像语义分割网络的主干网,并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征,最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下,图像语义分割的难度要更高,因为它不仅需要全局的上下文信息,还需要结合精细的局部信息来确定每个像素点的类别,所以常常利用主干网来提取较为全局的特征,然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征,所以常常把前者称为编码网络,后者称为解码网络。同时在编码过程中,为了能更好捕获不同大小物体的特征,常常结合不同感受野和尺度信息,比如带孔空间金字塔池化技术,但是该技术扩大了卷积核的间隔,忽略了内部像素点,同时也没能结合更为全局的上下文信息来弥补自身表达能力的不足。同时,在现有的语义分割方法中,解码过程中常常只是简单地基于前一级特征来恢复分辨率,然后结合对应尺寸的浅层特征来弥补编码过程中的信息丢失,既没能有效地对分辨率重建过程中的有效特征进行重用,也没能针对性地解决图像分辨率重建后物体边界模糊的问题。
发明内容
本发明的目的在于提供一种用于街景理解的基于边缘稠密重建的语义分割方法及***,该方法及***有利于提高图像语义分割的准确性和鲁棒性。
为实现上述目的,本发明的技术方案是:一种用于街景理解的基于边缘稠密重建的语义分割方法,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取三级上下文空间金字塔融合特征Ftspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
步骤C:扩大编码特征Fencoder尺寸到输入图像尺寸的一半,获取半输入尺寸编码特征Fus,从所述卷积网络中选取中间层特征
Figure BDA0002046339370000021
计算边缘特征
Figure BDA0002046339370000022
结合半输入尺寸编码特征Fus,以融合边缘特征
Figure BDA0002046339370000023
的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder
步骤D:用解码特征Fdecoder和边缘特征
Figure BDA0002046339370000024
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
进一步地,所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取三级上下文空间金字塔融合特征Ftspp,然后以这两部分级联作为编码网络提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
Figure BDA0002046339370000025
步骤B3:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage
步骤B4:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征
Figure BDA0002046339370000026
然后拼接三级上下文特征
Figure BDA0002046339370000027
Fimage
Figure BDA0002046339370000028
后使用1×1卷积进行特征融合,得到孔率为ras的三级上下文融合特征
Figure BDA00020463393700000313
卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
Figure BDA0002046339370000032
其中,
Figure BDA00020463393700000314
表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B5:使用不同的孔率重复上一步骤,直至获得ntspp个特征,然后将这ntspp个特征与
Figure BDA0002046339370000034
和Fimage进行拼接,得到三级上下文空间金字塔融合特征Ftspp
步骤B6:使用1×1卷积对特征Ftspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
进一步地,所述步骤C中,扩大编码特征Fencoder尺寸到输入图像尺寸的一半,获取半输入尺寸编码特征Fus,从所述卷积网络中选取中间层特征
Figure BDA0002046339370000035
计算边缘特征
Figure BDA0002046339370000036
结合半输入尺寸编码特征Fus,以融合边缘特征
Figure BDA0002046339370000037
的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder,包括以下步骤:
步骤C1:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,使用最近邻插值处理编码特征Fencoder,得到输出步幅为2的特征图Fus
步骤C2:从提取通用特征的卷积网络中选取输出步幅为os的中间层特征
Figure BDA0002046339370000038
先使用1×1卷积进行降维,然后使用双线性插值扩大
Figure BDA0002046339370000039
倍得到边缘特征
Figure BDA00020463393700000310
步骤C3:拼接特征Fus
Figure BDA00020463393700000311
使用1×1卷积降维后,再使用3×3卷积提取特征得到解码特征Fdecoder
步骤C4:选取比步骤C2中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则拼接Fus和Fdecoder作为新的Fus,并重复步骤C2至C3。
进一步地,所述步骤D中,用解码特征Fdecoder和边缘特征
Figure BDA00020463393700000312
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将特征Fdecoder和所有的特征
Figure BDA0002046339370000041
缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率和边缘概率,softmax计算公式如下:
Figure BDA0002046339370000042
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:将训练集的语义分割标注进行独热编码,然后计算获取边缘标注,边缘标注计算公式如下:
Figure BDA0002046339370000043
其中,yedge(i,j,c)和
Figure BDA0002046339370000044
为坐标(i,j)位置c类的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤D3:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Ls和辅助监督的边缘损失
Figure BDA0002046339370000045
然后计算加权和损失L:
Figure BDA0002046339370000046
其中,
Figure BDA0002046339370000047
为边缘特征
Figure BDA0002046339370000048
对应的损失值,αos
Figure BDA0002046339370000049
在最终损失中所占的权重;
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练整个深度神经网络,得到最后的深度神经网络模型。
本发明还提供了一种用于街景理解的基于边缘稠密重建的语义分割***,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取三级上下文空间金字塔融合特征Ftspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
解码特征提取模块,用于扩大编码特征Fencoder尺寸到输入图像尺寸的一半,获取半输入尺寸编码特征Fus,从所述卷积网络中选取中间层特征
Figure BDA0002046339370000051
计算边缘特征
Figure BDA0002046339370000052
结合半输入尺寸编码特征Fus,以融合边缘特征
Figure BDA0002046339370000053
的稠密网为解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder和边缘特征
Figure BDA0002046339370000054
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
相较于现有技术,本发明的有益效果是:首先在编码网络中的主干网过后的多尺度特征捕获中使用了三级上下文空间金字塔融合特征,针对性地利用内部特征和全局特征来优化原来不同感受野的特征,从而丰富了编码特征表达能力。然后在解码网络结合由中间层特征派生而来且辅以监督的边缘特征,针对性地对特征分辨率重建过程中容易产生偏差的边缘部分进行调整,优化不同物体间的语义分割结果,同时用稠密网的方式进行特征的分辨率重建以更好地对重建特征进行重用。与现有方法相比,本发明能在编码后获得更强大上下文信息表达能力,解码过程中结合边缘监督能更有效修正物体间的边界模糊问题,同时利用稠密网结构的重用性能对特征进行更有效的利用,使网络更易于训练,从而最后能得到更精确的语义分割结果。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例的***结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供了一种用于街景理解的基于边缘稠密重建的语义分割方法,如图1所示,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。
步骤B:用通用的卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取三级上下文空间金字塔融合特征Ftspp,用于捕获多尺度上下文信息,然后以步骤B中所述这两部分级联作为编码网络提取编码特征Fencoder;具体包括以下步骤:
步骤B1:使用通用的卷积网络(本实施例采用deeplabv3+网络中提供的xception网络)对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
Figure BDA0002046339370000061
步骤B3:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage
步骤B4:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征
Figure BDA0002046339370000062
然后拼接三级上下文特征
Figure BDA0002046339370000063
Fimage
Figure BDA0002046339370000064
后使用1×1卷积进行特征融合,得到孔率为ras的三级上下文融合特征
Figure BDA0002046339370000065
卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
Figure BDA0002046339370000066
其中,
Figure BDA0002046339370000067
表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B5:使用不同的孔率重复上一步骤,直至获得ntspp个特征(本实施例为3个特征,孔率分别为6,12,18),然后将这ntspp个特征与
Figure BDA0002046339370000068
和Fimage进行拼接,得到三级上下文空间金字塔融合特征Ftspp
步骤B6:使用1×1卷积对特征Ftspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
步骤C:扩大编码特征Fencoder尺寸到输入图像尺寸的一半,获取半输入尺寸编码特征Fus,从所述卷积网络中选取中间层特征
Figure BDA0002046339370000071
计算边缘特征
Figure BDA0002046339370000072
结合半输入尺寸编码特征Fus,以融合边缘特征
Figure BDA0002046339370000073
的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder;具体包括以下步骤:
步骤C1:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,使用最近邻插值处理编码特征Fencoder,得到输出步幅为2的特征图Fus
步骤C2:从提取通用特征的卷积网络中选取输出步幅为os的中间层特征
Figure BDA0002046339370000074
先使用1×1卷积进行降维,然后使用双线性插值扩大
Figure BDA0002046339370000075
倍得到边缘特征
Figure BDA0002046339370000076
步骤C3:拼接特征Fus
Figure BDA0002046339370000077
使用1×1卷积降维后,再使用3×3卷积提取特征得到解码特征Fdecoder
步骤C4:选取比步骤C2中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则拼接Fus和Fdecoder作为新的Fus,并重复步骤C2至C3。
步骤D:用解码特征Fdecoder和边缘特征
Figure BDA0002046339370000078
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练;具体包括以下步骤:
步骤D1:用双线性插值将特征Fdecoder和所有的特征
Figure BDA0002046339370000079
缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率和边缘概率,softmax计算公式如下:
Figure BDA00020463393700000710
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:将训练集的语义分割标注进行独热编码,然后计算获取边缘标注,边缘标注计算公式如下:
Figure BDA0002046339370000081
其中,yedge(i,j,c)和
Figure BDA0002046339370000082
为坐标(i,j)位置c类的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤D3:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Ls和辅助监督的边缘损失
Figure BDA0002046339370000083
然后计算加权和损失L:
Figure BDA0002046339370000084
其中,
Figure BDA0002046339370000085
为边缘特征
Figure BDA0002046339370000086
对应的损失值,αos
Figure BDA0002046339370000087
在最终损失中所占的权重,αos满足
Figure BDA0002046339370000088
且各αos相等;
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练整个深度神经网络,得到最后的深度神经网络模型。
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
本发明还提供了用于实现上述方法的用于街景理解的语义分割***,如图2所示,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取三级上下文空间金字塔融合特征Ftspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
解码特征提取模块,用于扩大编码特征Fencoder尺寸到输入图像尺寸的一半,获取半输入尺寸编码特征Fus,从所述卷积网络中选取中间层特征
Figure BDA0002046339370000089
计算边缘特征
Figure BDA00020463393700000810
结合半输入尺寸编码特征Fus,以融合边缘特征
Figure BDA00020463393700000811
的稠密网为解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder和边缘特征
Figure BDA00020463393700000812
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (3)

1.一种用于街景理解的基于边缘稠密重建的语义分割方法,其特征在于,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取三级上下文空间金字塔融合特征Ftspp,用于捕获多尺度上下文信息,然后提取编码特征Fencoder
步骤C:扩大编码特征Fencoder尺寸到输入图像尺寸的一半,获取半输入尺寸编码特征Fus,从所述卷积网络中选取中间层特征
Figure FDA0003807705320000011
计算边缘特征
Figure FDA0003807705320000012
结合半输入尺寸编码特征Fus,以融合边缘特征
Figure FDA0003807705320000013
的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder
步骤D:用解码特征Fdecoder和边缘特征
Figure FDA0003807705320000014
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果;
所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取三级上下文空间金字塔融合特征Ftspp,然后提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征
Figure FDA0003807705320000015
步骤B3:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage
步骤B4:用孔率为ras的卷积核对Fbackbone进行带孔卷积得到特征
Figure FDA0003807705320000016
然后拼接三级上下文特征
Figure FDA0003807705320000017
Fimage
Figure FDA0003807705320000018
后使用1×1卷积进行特征融合,得到孔率为ras的三级上下文融合特征
Figure FDA0003807705320000021
卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
Figure FDA0003807705320000022
其中,
Figure FDA0003807705320000023
表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B5:使用不同的孔率重复上一步骤,直至获得ntspp个特征,然后将这ntspp个特征与
Figure FDA0003807705320000024
和Fimage进行拼接,得到三级上下文空间金字塔融合特征Ftspp
步骤B6:使用1×1卷积对特征Ftspp进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
所述步骤C中,扩大编码特征Fencoder尺寸到输入图像尺寸的一半,获取半输入尺寸编码特征Fus,从所述卷积网络中选取中间层特征
Figure FDA0003807705320000025
计算边缘特征
Figure FDA0003807705320000026
结合半输入尺寸编码特征Fus,以融合边缘特征
Figure FDA0003807705320000027
的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder,包括以下步骤:
步骤C1:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,使用最近邻插值处理编码特征Fencoder,得到输出步幅为2的特征图Fus
步骤C2:从提取通用特征的卷积网络中选取输出步幅为os的中间层特征
Figure FDA0003807705320000028
先使用1×1卷积进行降维,然后使用双线性插值扩大
Figure FDA0003807705320000029
倍得到边缘特征
Figure FDA00038077053200000210
步骤C3:拼接特征Fus
Figure FDA00038077053200000211
使用1×1卷积降维后,再使用3×3卷积提取特征得到解码特征Fdecoder
步骤C4:选取比步骤C2中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则拼接Fus和Fdecoder作为新的Fus,并重复步骤C2至C3。
2.根据权利要求1所述的用于街景理解的基于边缘稠密重建的语义分割方法,其特征在于,所述步骤D中,用解码特征Fdecoder和边缘特征
Figure FDA0003807705320000031
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将特征Fdecoder和所有的特征
Figure FDA0003807705320000032
缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率和边缘概率,softmax计算公式如下:
Figure FDA0003807705320000033
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:将训练集的语义分割标注进行独热编码,然后计算获取边缘标注,边缘标注计算公式如下:
Figure FDA0003807705320000034
其中,yedge(i,j,c)和
Figure FDA0003807705320000035
为坐标(i,j)位置c类的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤D3:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Ls和辅助监督的边缘损失
Figure FDA0003807705320000036
然后计算加权和损失L:
Figure FDA0003807705320000037
其中,αos
Figure FDA0003807705320000038
在最终损失中所占的权重;
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练整个深度神经网络,得到最后的深度神经网络模型。
3.一种用于实现如权利要求1所述方法的用于街景理解的基于边缘稠密重建的语义分割***,其特征在于,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取三级上下文空间金字塔融合特征Ftspp,用于捕获多尺度上下文信息,然后提取编码特征Fencoder
解码特征提取模块,用于扩大编码特征Fencoder尺寸到输入图像尺寸的一半,获取半输入尺寸编码特征Fus,从所述卷积网络中选取中间层特征
Figure FDA0003807705320000041
计算边缘特征
Figure FDA0003807705320000042
结合半输入尺寸编码特征Fus,以融合边缘特征
Figure FDA0003807705320000043
的稠密网为解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder和边缘特征
Figure FDA0003807705320000044
分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
CN201910359119.0A 2019-04-30 2019-04-30 用于街景理解的基于边缘稠密重建的语义分割方法及*** Active CN110059698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910359119.0A CN110059698B (zh) 2019-04-30 2019-04-30 用于街景理解的基于边缘稠密重建的语义分割方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910359119.0A CN110059698B (zh) 2019-04-30 2019-04-30 用于街景理解的基于边缘稠密重建的语义分割方法及***

Publications (2)

Publication Number Publication Date
CN110059698A CN110059698A (zh) 2019-07-26
CN110059698B true CN110059698B (zh) 2022-12-23

Family

ID=67321810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910359119.0A Active CN110059698B (zh) 2019-04-30 2019-04-30 用于街景理解的基于边缘稠密重建的语义分割方法及***

Country Status (1)

Country Link
CN (1) CN110059698B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517278B (zh) * 2019-08-07 2022-04-29 北京旷视科技有限公司 图像分割和图像分割网络的训练方法、装置和计算机设备
CN110598846B (zh) * 2019-08-15 2022-05-03 北京航空航天大学 一种层级递归神经网络解码器及解码方法
CN110599514B (zh) * 2019-09-23 2022-10-04 北京达佳互联信息技术有限公司 图像分割的方法、装置、电子设备及存储介质
CN110895814B (zh) * 2019-11-30 2023-04-18 南京工业大学 基于上下文编码网络的航空发动机孔探图像损伤分割方法
CN113051983B (zh) * 2019-12-28 2022-08-23 中移(成都)信息通信科技有限公司 训练大田作物病害识别模型及大田作物病害识别的方法
CN111341438B (zh) * 2020-02-25 2023-04-28 中国科学技术大学 图像处理方法、装置、电子设备及介质
CN111429473B (zh) * 2020-02-27 2023-04-07 西北大学 基于多尺度特征融合的胸片肺野分割模型建立及分割方法
CN111340047B (zh) * 2020-02-28 2021-05-11 江苏实达迪美数据处理有限公司 基于多尺度特征与前背景对比的图像语义分割方法及***
CN112150478B (zh) * 2020-08-31 2021-06-22 温州医科大学 一种构建半监督图像分割框架的方法及***
CN112700462A (zh) * 2020-12-31 2021-04-23 北京迈格威科技有限公司 一种图像分割方法、装置、电子设备及存储介质
CN113128353B (zh) * 2021-03-26 2023-10-24 安徽大学 面向自然人机交互的情绪感知方法及其***
CN113706545B (zh) * 2021-08-23 2024-03-26 浙江工业大学 一种基于双分支神经判别降维的半监督图像分割方法
CN114627086B (zh) * 2022-03-18 2023-04-28 江苏省特种设备安全监督检验研究院 一种基于特征金字塔网络的起重机表面损伤检测方法
CN115953394B (zh) * 2023-03-10 2023-06-23 中国石油大学(华东) 基于目标分割的海洋中尺度涡检测方法及***
CN116978011B (zh) * 2023-08-23 2024-03-15 广州新华学院 一种用于智能目标识别的图像语义通信方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10095977B1 (en) * 2017-10-04 2018-10-09 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109509192A (zh) * 2018-10-18 2019-03-22 天津大学 融合多尺度特征空间与语义空间的语义分割网络

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10095977B1 (en) * 2017-10-04 2018-10-09 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109509192A (zh) * 2018-10-18 2019-03-22 天津大学 融合多尺度特征空间与语义空间的语义分割网络

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Pyramid Context Contrast for Semantic Segmentation;YuZhong Chen;《IEEE Access》;20191127;全文 *
基于深度神经网络的小目标语义分割算法研究;胡太;《中国优秀硕士学位论文全文数据库》;20190115;全文 *

Also Published As

Publication number Publication date
CN110059698A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110059698B (zh) 用于街景理解的基于边缘稠密重建的语义分割方法及***
CN110059768B (zh) 用于街景理解的融合点与区域特征的语义分割方法及***
CN110070091B (zh) 用于街景理解的基于动态插值重建的语义分割方法及***
CN110059769B (zh) 用于街景理解的基于像素重排重建的语义分割方法及***
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及***
CN110322495B (zh) 一种基于弱监督深度学习的场景文本分割方法
CN109919830B (zh) 一种基于美学评价的带参考人眼图像修复方法
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN111832546B (zh) 一种轻量级自然场景文本识别方法
CN111340047B (zh) 基于多尺度特征与前背景对比的图像语义分割方法及***
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN111414923B (zh) 基于单幅rgb图像的室内场景三维重建方法及***
CN112232351A (zh) 一种基于深度神经网络的车牌识别***
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN116958827A (zh) 一种基于深度学习的撂荒区域提取方法
CN114283285A (zh) 交叉一致性自训练遥感图像语义分割网络训练方法及装置
CN114782417A (zh) 基于边缘强化图像分割的风机数字孪生特征实时检测方法
CN114463340B (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN111985372A (zh) 一种深度学习的遥感影像水体提取***
Wang et al. PACCDU: Pyramid attention cross-convolutional dual UNet for infrared and visible image fusion
CN111462090A (zh) 一种多尺度图像目标检测方法
CN112800851B (zh) 基于全卷积神经元网络的水体轮廓自动提取方法及***
Lu et al. Edge-reinforced convolutional neural network for road detection in very-high-resolution remote sensing imagery
CN117727046A (zh) 新型山洪前端仪器仪表读数自动识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant