CN110059769A - 用于街景理解的基于像素重排重建的语义分割方法及*** - Google Patents

用于街景理解的基于像素重排重建的语义分割方法及*** Download PDF

Info

Publication number
CN110059769A
CN110059769A CN201910359495.XA CN201910359495A CN110059769A CN 110059769 A CN110059769 A CN 110059769A CN 201910359495 A CN201910359495 A CN 201910359495A CN 110059769 A CN110059769 A CN 110059769A
Authority
CN
China
Prior art keywords
feature
edge
image
semantic segmentation
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910359495.XA
Other languages
English (en)
Other versions
CN110059769B (zh
Inventor
陈羽中
林洋洋
柯逍
黄腾达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910359495.XA priority Critical patent/CN110059769B/zh
Publication of CN110059769A publication Critical patent/CN110059769A/zh
Application granted granted Critical
Publication of CN110059769B publication Critical patent/CN110059769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种用于街景理解的基于像素重排重建的语义分割方法及***,该方法包括:对训练集输入图像进行预处理,使图像标准化并获取相同尺寸的预处理图像;用卷积网络提取通用特征,再获取稠密带孔空间金字塔融合特征,以这两部分级联作为编码网络提取编码特征;从卷积网络中选取中间层特征,结合编码特征计算边缘特征,以基于像素重排技术的稠密网为解码网络,重建图像分辨率,计算解码特征;计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标对深度神经网络进行训练;利用深度神经网络模型对待分割图像进行语义分割,输出分割结果。该方法及***有利于提高图像语义分割的准确性和鲁棒性。

Description

用于街景理解的基于像素重排重建的语义分割方法及***
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种用于街景理解的基于像素重排重建的语义分割方法及***。
背景技术
图像语义分割是人工智能领域中计算机视觉的一个重要分支,是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别,使其与图像本身的视觉表示内容一致,所以图像语义分割任务也被称为像素级的图像分类任务。
由于图像语义分割与图像分类有一定的相似性,所以各式各样的图像分类网络常常在剔除最后的全连接层后,作为图像语义分割网络的主干网,并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征,最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下,图像语义分割的难度要更高,因为它不仅需要全局的上下文信息,还需要结合精细的局部信息来确定每个像素点的类别,所以常常利用主干网来提取较为全局的特征,然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征,所以常常把前者称为编码网络,后者称为解码网络。同时在编码过程中,为了能更好捕获不同大小物体的特征,常常结合不同感受野和尺度信息,比如带孔空间金字塔池化技术,不能有效地对点本身特征进行表示,而且在计算不同尺度特征特征时没有重用较小的尺度特征。同时,在现有的语义分割方法中,解码过程中一般都使用转置卷积或者双线性插值等方法将特征逐级扩大,因此特征尺寸是逐级递增的,无法有效地对重建特征进行特征重用。而且在这过程中常常会加入浅层特征来优化解码过程,但没有对浅层特征设计一个明确的优化目标,因此在重建过程中修复细节的能力稍显不足。
发明内容
本发明的目的在于提供一种用于街景理解的基于像素重排重建的语义分割方法及***,该方法及***有利于提高图像语义分割的准确性和鲁棒性。
为实现上述目的,本发明的技术方案是:一种用于街景理解的基于像素重排重建的语义分割方法,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
步骤C:从所述卷积网络中选取中间层特征结合编码特征Fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder
步骤D:用解码特征Fdecoder和边缘特征分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
进一步地,所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,然后以这两部分级联作为编码网络提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征与Fbackbone拼接得到
步骤B3:使用1×1卷积对特征进行降维,然后用孔率为ras的卷积核进行带孔卷积得到特征并将拼接结果作为新的卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
其中,表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B4:使用多个不同的孔率重复上一步骤,直至获得ndaspp个特征;
步骤B5:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage,然后将和Fimage拼接结果作为新的再用一个不同孔率执行步骤B3;
步骤B6:使用1×1卷积对进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
进一步地,所述步骤C中,从所述卷积网络中选取中间层特征结合编码特征Fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,计算特征图Fdecoder,包括以下步骤:
步骤C1:将Fencoder作为当前的解码特征Fdecoder
步骤C2:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,使用像素重排技术处理Fdecoder,得到输出步幅为os的像素重排计算公式如下:
其中,rhs和rws分别表示和Fdecoder尺寸的上取整高度比和上取整宽度比,表示在坐标位置通道处的像素值,表示在坐标位置通道处的像素值;
步骤C3:使用最近邻插值处理编码特征Fencoder,得到与尺寸相同的特征图
步骤C4:从提取通用特征的卷积网络中选取输出步幅为os的中间层特征双线性插值到与相同尺寸后再与拼接,然后使用1×1卷积进行降维后,再使用3×3卷积提取特征得到边缘特征
步骤C5:拼接使用1×1卷积进行降维后,再使用3×3卷积提取特征得到解码特征Fdecoder,然后拼接作为新的解码特征Fdecoder
步骤C6:选取比步骤C2中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则重复步骤C2至C5。
进一步地,所述步骤D中,用解码特征Fdecoder和边缘特征分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及它们各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率,softmax计算公式如下:
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:用双线性插值将所有的缩放到与输入图像的尺寸相同,并将所有拼接使用不带激活函数的1×1卷积计算得到合并边缘特征Fedge,然后对Fedge使用sigmoid激活得到边缘概率图,sigmoid计算公式如下:
其中,S(ε)表示Fedge中的特征值ε经过sigmoid处理后的概率,e为自然指数;
步骤D3:利用训练集的语义分割标注计算边缘标注,计算公式如下:
其中,yedge(i,j)和为坐标(i,j)位置的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤D4:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Ls和辅助监督的边缘损失Ledge,然后计算加权和损失L:
L=Ls+αLedge
其中,Ledge为合并边缘特征Fedge对应的损失值,α为Ledge在最终损失中所占的权重;
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练整个深度神经网络,得到最后的深度神经网络模型。
本发明还提供了一种用于街景理解的基于像素重排重建的语义分割***,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
解码特征提取模块,用于从所述卷积网络中选取中间层特征结合编码特征Fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder和边缘特征分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
相较于现有技术,本发明的有益效果是:首先在编码网络中的主干网过后的多尺度特征捕获中使用了稠密带孔空间金字塔池化,针对性地在带孔空间金字塔池化中对感受野从小到大的特征进行重用,使用编码特征得到更好的学习。然后在解码网络结合受辅助边缘监督的浅层特征,巧妙地利用像素重排的方式自然地让各级重建特征的尺寸统一起来,从而满足稠密网的基本要求,利用稠密网的方式针对性地对分辨率重建过程中的特征进行更有效地重用。与现有方法相比,本发明能在编码过程中有效地重用小尺度特征获取更强大的大尺度特征,同时获取更有点性质代表的编码特征,解码过程中利用像素重排的方式自然而巧妙地满足了稠密网的要求,从而使得重建特征可以进行重用,更便于解码网络的学习,同时对浅层特征进行边缘监督,明确其优化目标,能从边缘优化的角度更好地提高不同物体间的分割能力,使得最后的语义分割结果更准确且鲁棒。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例的***结构示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种用于街景理解的基于像素重排重建的语义分割方法,如图1所示,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。
步骤B:用通用的卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后以步骤B中所述这两部分级联作为编码网络提取编码特征Fencoder;具体包括以下步骤:
步骤B1:使用通用的卷积网络(本实施例采用deeplabv3+网络中提供的xception)对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征与Fbackbone拼接得到
步骤B3:使用1×1卷积对特征进行降维,然后用孔率为ras的卷积核进行带孔卷积得到特征并将拼接结果作为新的卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
其中,表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B4:使用多个不同的孔率重复上一步骤,直至获得ndaspp个特征(本实施例为3个特征,孔率分别为6,12,18);
步骤B5:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage,然后将和Fimage拼接结果作为新的再用一个不同孔率(本实施例中为24)执行步骤B3;
步骤B6:使用1×1卷积对进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
步骤C:从所述卷积网络中选取中间层特征结合编码特征Fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder;具体包括以下步骤:
步骤C1:将Fencoder作为当前的解码特征Fdecoder
步骤C2:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,使用像素重排技术处理Fdecoder,得到输出步幅为os的像素重排计算公式如下:
其中,rhs和rws分别表示和Fdecoder尺寸的上取整高度比和上取整宽度比,表示在坐标位置通道处的像素值,表示在坐标位置通道处的像素值;
步骤C3:使用最近邻插值处理编码特征Fencoder,得到与尺寸相同的特征图
步骤C4:从提取通用特征的卷积网络中选取输出步幅为os的中间层特征双线性插值到与相同尺寸后再与拼接,然后使用1×1卷积进行降维后,再使用3×3卷积提取特征得到边缘特征
步骤C5:拼接使用1×1卷积进行降维后,再使用3×3卷积提取特征得到解码特征Fdecoder,然后拼接作为新的解码特征Fdecoder
步骤C6:选取比步骤C2中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则重复步骤C2至C5。
步骤D:用解码特征Fdecoder和边缘特征分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练;具体包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率,softmax计算公式如下:
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:用双线性插值将所有的缩放到与输入图像的尺寸相同,并将所有拼接使用不带激活函数的1×1卷积计算得到合并边缘特征Fedge,然后对Fedge使用sigmoid激活得到边缘概率图,sigmoid计算公式如下:
其中,S(ε)表示Fedge中的特征值ε经过sigmoid处理后的概率,e为自然指数;
步骤D3:利用训练集的语义分割标注计算边缘标注,计算公式如下:
其中,yedge(i,j)和为坐标(i,j)位置的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤D4:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Ls和辅助监督的边缘损失Ledge,然后计算加权和损失L:
L=Ls+αLedge
其中,Ledge为合并边缘特征Fedge对应的损失值,α为Ledge在最终损失中所占的权重,具体满足α=1;
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练整个深度神经网络,得到最后的深度神经网络模型。
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
本发明还提供了用于实现上述方法的用于街景理解的语义分割***,如图2所示,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
解码特征提取模块,用于从所述卷积网络中选取中间层特征结合编码特征Fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder和边缘特征分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.一种用于街景理解的基于像素重排重建的语义分割方法,其特征在于,包括以下步骤:
步骤A:对训练集输入图像进行预处理,首先让图像减去其图像均值使其标准化,然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
步骤B:用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
步骤C:从所述卷积网络中选取中间层特征结合编码特征Fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder
步骤D:用解码特征Fdecoder和边缘特征分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练;
步骤E:利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
2.根据权利要求1所述的用于街景理解的基于像素重排重建的语义分割方法,其特征在于,所述步骤B中,用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,然后以这两部分级联作为编码网络提取编码特征Fencoder,包括以下步骤:
步骤B1:使用卷积网络对预处理图像提取通用特征Fbackbone
步骤B2:使用1×1卷积对特征Fbackbone进行特征降维,得到特征与Fbackbone拼接得到
步骤B3:使用1×1卷积对特征进行降维,然后用孔率为ras的卷积核进行带孔卷积得到特征并将拼接结果作为新的卷积过程中使用批标准化来保持输入的同分布,用线性整流函数作为激活函数;其中,带孔卷积计算公式如下:
其中,表示在输出坐标mas位置的使用孔率为ras的带孔卷积的处理结果,xas[mas+ras·kas]表示输入xas在坐标mas位置上于孔率为ras且带孔卷积核坐标为kas时所对应的输入参考像素,was[kas]表示在带孔卷积核作为kas位置的权重;
步骤B4:使用多个不同的孔率重复上一步骤,直至获得ndaspp个特征;
步骤B5:对Fbackbone整张图像进行平均池化,然后再使用最近邻插值恢复到原尺寸,再经过1×1卷积得到图像级特征Fimage,然后将和Fimage拼接结果作为新的再用一个不同孔率执行步骤B3;
步骤B6:使用1×1卷积对进行降维,然后再用深度学习中的dropout进行正则化,得到最后的编码特征Fencoder
3.根据权利要求2所述的用于街景理解的基于像素重排重建的语义分割方法,其特征在于,所述步骤C中,从所述卷积网络中选取中间层特征结合编码特征Fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,计算解码特征Fdecoder,包括以下步骤:
步骤C1:将Fencoder作为当前的解码特征Fdecoder
步骤C2:定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅,使用像素重排技术处理Fdecoder,得到输出步幅为os的像素重排计算公式如下:
其中,rhs和rws分别表示和Fdecoder尺寸的上取整高度比和上取整宽度比,表示在坐标位置通道处的像素值,表示在坐标位置通道处的像素值;
步骤C3:使用最近邻插值处理编码特征Fencoder,得到与尺寸相同的特征图
步骤C4:从提取通用特征的卷积网络中选取输出步幅为os的中间层特征双线性插值到与相同尺寸后再与拼接,然后使用1×1卷积进行降维后,再使用3×3卷积提取特征得到边缘特征
步骤C5:拼接使用1×1卷积进行降维后,再使用3×3卷积提取特征得到解码特征Fdecoder,然后拼接作为新的解码特征Fdecoder
步骤C6:选取比步骤C2中更小的输出步幅os,如果全部输出步幅处理完成,则解码特征提取完成,否则重复步骤C2至C5。
4.根据权利要求3所述的用于街景理解的基于像素重排重建的语义分割方法,其特征在于,所述步骤D中,用解码特征Fdecoder和边缘特征分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及它们各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,包括以下步骤:
步骤D1:用双线性插值将Fdecoder缩放到与输入图像的尺寸相同,并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率,softmax计算公式如下:
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数;
步骤D2:用双线性插值将所有的缩放到与输入图像的尺寸相同,并将所有拼接使用不带激活函数的1×1卷积计算得到合并边缘特征Fedge,然后对Fedge使用sigmoid激活得到边缘概率图,sigmoid计算公式如下:
其中,S(ε)表示Fedge中的特征值ε经过sigmoid处理后的概率,e为自然指数;
步骤D3:利用训练集的语义分割标注计算边缘标注,计算公式如下:
其中,yedge(i,j)和为坐标(i,j)位置的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤D4:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Ls和辅助监督的边缘损失Ledge,然后计算加权和损失L:
L=Ls+αLedge
其中,Ledge为合并边缘特征Fedge对应的损失值,α为Ledge在最终损失中所占的权重;
最后通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化加权和损失L来训练整个深度神经网络,得到最后的深度神经网络模型。
5.一种用于街景理解的基于像素重排重建的语义分割***,其特征在于,包括:
预处理模块,用于对训练集输入图像进行预处理,包括让图像减去其图像均值使其标准化,以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像;
编码特征提取模块,用于用卷积网络提取通用特征Fbackbone,再基于通用特征Fbackbone获取稠密带孔空间金字塔融合特征Fdaspp,用于捕获多尺度上下文信息,然后以这两部分级联作为编码网络提取编码特征Fencoder
解码特征提取模块,用于从所述卷积网络中选取中间层特征结合编码特征Fencoder计算边缘特征以基于像素重排技术的稠密网为解码网络,进行图像分辨率重建,提取解码特征Fdecoder
神经网络训练模块,用于用解码特征Fdecoder和边缘特征分别获取语义分割概率图和边缘概率图,以训练集中的语义图像标注计算边缘图像标注,利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失,以最小化两者加权和损失为目标来对整个深度神经网络进行训练,得到深度神经网络模型;以及
语义分割模块,用于利用训练好的深度神经网络模型对待分割图像进行语义分割,输出分割结果。
CN201910359495.XA 2019-04-30 2019-04-30 用于街景理解的基于像素重排重建的语义分割方法及*** Active CN110059769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910359495.XA CN110059769B (zh) 2019-04-30 2019-04-30 用于街景理解的基于像素重排重建的语义分割方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910359495.XA CN110059769B (zh) 2019-04-30 2019-04-30 用于街景理解的基于像素重排重建的语义分割方法及***

Publications (2)

Publication Number Publication Date
CN110059769A true CN110059769A (zh) 2019-07-26
CN110059769B CN110059769B (zh) 2022-11-18

Family

ID=67321755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910359495.XA Active CN110059769B (zh) 2019-04-30 2019-04-30 用于街景理解的基于像素重排重建的语义分割方法及***

Country Status (1)

Country Link
CN (1) CN110059769B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599514A (zh) * 2019-09-23 2019-12-20 北京达佳互联信息技术有限公司 图像分割的方法、装置、电子设备及存储介质
CN111008986A (zh) * 2019-11-20 2020-04-14 天津大学 一种基于多任务半卷积的遥感图像分割方法
CN111340047A (zh) * 2020-02-28 2020-06-26 江苏实达迪美数据处理有限公司 基于多尺度特征与前背景对比的图像语义分割方法及***
CN111553372A (zh) * 2020-04-24 2020-08-18 北京搜狗科技发展有限公司 一种训练图像识别网络、图像识别搜索的方法及相关装置
CN111612807A (zh) * 2020-05-15 2020-09-01 北京工业大学 一种基于尺度和边缘信息的小目标图像分割方法
CN112598003A (zh) * 2020-12-18 2021-04-02 燕山大学 基于数据扩充和全监督预处理的实时语义分割方法
CN115272377A (zh) * 2022-09-27 2022-11-01 松立控股集团股份有限公司 一种融合图像边缘信息的车辆分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN109509192A (zh) * 2018-10-18 2019-03-22 天津大学 融合多尺度特征空间与语义空间的语义分割网络

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109509192A (zh) * 2018-10-18 2019-03-22 天津大学 融合多尺度特征空间与语义空间的语义分割网络

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUZHONG CHEN: "Pyramid Context Contrast for Semantic Segmentation", 《IEEE ACCESS》 *
胡太: "基于深度神经网络的小目标语义分割算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599514A (zh) * 2019-09-23 2019-12-20 北京达佳互联信息技术有限公司 图像分割的方法、装置、电子设备及存储介质
CN110599514B (zh) * 2019-09-23 2022-10-04 北京达佳互联信息技术有限公司 图像分割的方法、装置、电子设备及存储介质
CN111008986A (zh) * 2019-11-20 2020-04-14 天津大学 一种基于多任务半卷积的遥感图像分割方法
CN111008986B (zh) * 2019-11-20 2023-09-05 天津大学 一种基于多任务半卷积的遥感图像分割方法
CN111340047A (zh) * 2020-02-28 2020-06-26 江苏实达迪美数据处理有限公司 基于多尺度特征与前背景对比的图像语义分割方法及***
CN111553372A (zh) * 2020-04-24 2020-08-18 北京搜狗科技发展有限公司 一种训练图像识别网络、图像识别搜索的方法及相关装置
CN111553372B (zh) * 2020-04-24 2023-08-08 北京搜狗科技发展有限公司 一种训练图像识别网络、图像识别搜索的方法及相关装置
CN111612807A (zh) * 2020-05-15 2020-09-01 北京工业大学 一种基于尺度和边缘信息的小目标图像分割方法
CN112598003A (zh) * 2020-12-18 2021-04-02 燕山大学 基于数据扩充和全监督预处理的实时语义分割方法
CN115272377A (zh) * 2022-09-27 2022-11-01 松立控股集团股份有限公司 一种融合图像边缘信息的车辆分割方法
CN115272377B (zh) * 2022-09-27 2022-12-27 松立控股集团股份有限公司 一种融合图像边缘信息的车辆分割方法

Also Published As

Publication number Publication date
CN110059769B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN110059698A (zh) 用于街景理解的基于边缘稠密重建的语义分割方法及***
CN110059769A (zh) 用于街景理解的基于像素重排重建的语义分割方法及***
CN110059768A (zh) 用于街景理解的融合点与区域特征的语义分割方法及***
CN115797931B (zh) 一种基于双分支特征融合的遥感图像语义分割方法及设备
CN110070091A (zh) 用于街景理解的基于动态插值重建的语义分割方法及***
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN108427920A (zh) 一种基于深度学习的边海防目标检测方法
CN111476249B (zh) 多尺度大感受野卷积神经网络的构建方法
CN111340047B (zh) 基于多尺度特征与前背景对比的图像语义分割方法及***
CN110443883A (zh) 一种基于dropblock的单张彩色图片平面三维重建方法
CN115131680A (zh) 基于深度可分离卷积和跳跃连接的遥感影像水体提取方法
CN113379771A (zh) 带有边缘约束的层次化人体解析语义分割方法
CN111126185B (zh) 一种针对道路卡口场景的深度学习车辆目标识别方法
CN116958827A (zh) 一种基于深度学习的撂荒区域提取方法
CN113762265A (zh) 肺炎的分类分割方法及***
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
CN116030361A (zh) 一种基于cim-t架构的高分辨率影像变化检测方法
Wang et al. PACCDU: Pyramid attention cross-convolutional dual UNet for infrared and visible image fusion
CN114693670A (zh) 基于多尺度U-Net的直缝埋弧焊管焊缝缺陷超声检测方法
CN117557856A (zh) 一种基于自监督学习的病理全切片特征学习方法
CN109064394A (zh) 一种基于卷积神经网络的图像超分辨率重建方法
CN109658508A (zh) 一种多尺度细节融合的地形合成方法
CN117456356A (zh) 一种基于深度学习的城市内涝视频识别预警方法
CN111428809A (zh) 基于空间信息融合与卷积神经网络的人群计数方法
CN115980885A (zh) 基于集合预报的降水预报偏差校正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant