CN110263833A - 基于编码-解码结构的图像语义分割方法 - Google Patents

基于编码-解码结构的图像语义分割方法 Download PDF

Info

Publication number
CN110263833A
CN110263833A CN201910503595.5A CN201910503595A CN110263833A CN 110263833 A CN110263833 A CN 110263833A CN 201910503595 A CN201910503595 A CN 201910503595A CN 110263833 A CN110263833 A CN 110263833A
Authority
CN
China
Prior art keywords
convolution
characteristic pattern
size
information
conv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910503595.5A
Other languages
English (en)
Inventor
韩慧慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910503595.5A priority Critical patent/CN110263833A/zh
Publication of CN110263833A publication Critical patent/CN110263833A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于编码‑解码结构的图像语义分割方法。其特征包括:首先通过改进结构的ResNet‑101网络对待分割图片提取特征图集合;然后利用多尺度信息融合模块对所提取的特征图进行多尺度信息捕获;并且,利用空间信息提取模块在ResNet‑101的浅层提取丰富的空间信息;接着,将深层的多尺度信息和浅层的空间信息融合后,利用一个多核卷积块对融合后的特征图进行细化;最终,通过数据依赖的上采样操作得到分割结果。本发明主要致力于提高图像分割准确性,属图像处理技术领域,特别适用于医学图像分析、自动驾驶、虚拟现实、驾驶员辅助、机器人传感、室内环境重建、无人机等。

Description

基于编码-解码结构的图像语义分割方法
技术领域
本发明属图像处理技术领域,尤其是涉及基于编码-解码结构的图像语义分割方法,特别适用于医学图像分析、自动驾驶、室内环境重建、无人机等任务。
背景技术
语义分割是图像处理中一个重要研究领域,其目标是对图像上的每个像素点进行密集预测并标注上对应物体或区域的类别。随着深度卷积神经网络的不断发展,特别是全卷机神经网络的出现,语义分割技术实现了质的飞跃。为了进一步提高语义分割结果,各国研究人员从不同的角度出发,设计出了多种多样的模型架构。
为了防止连续的下采样和池化操作导致的空间分辨率降低的现象,在Chen等人提出的Deeplabv2、 Deeplabv3和Deeplabv3+,和Zhao等人提出的PSPNet模型中,采用了扩张卷积,其可以有效地扩大滤波器的感受野,减少空间细节的损失。而且,编码-解码结构也可以防止空间信息丢失的现象。例如, Badrinarayanan等人提出的SegNet利用编码-解码结构来捕获更多的空间信息。为了在浅层捕获更多的空间信息,帮助模型恢复目标细节,DeepLabv3+在DeepLabv3模型中添加了一个简单而有效的解码模块。除此之外,在Chao等人提出的GCN、Yu等人提出的DFN和Li等人提出的PAN模型中应用了u型结构,以逐步融合骨干网中不同层次的特征图,提高空间分辨率,弥补空间细节的丢失。GCN利用“大核”来扩大接受域,保持空间信息。
为了捕获更丰富的多尺度上下文信息,很多工作已经取得了一定成果。Deeplabv2提出了扩张空间金字塔池化模块来捕获多尺度上下文信息。Yuan等人提出的OCNet模型通过使用金字塔对象上下文或扩张的空间金字塔对象上下文来捕获多尺度上下文信息。此外,Yang等人提出的DenseASPP模型运用一组扩张卷积层来生成多尺度特征图。Lin等人提出的Refinenet和Ronneberger等人提出的U-net采用编码-解码结构对不同层次的特征图进行融合,获得丰富的上下文信息。Byeon等人以二维LSTM网络为基础,提出了一种基于标签的复杂空间依赖关系捕获模型。为了捕获局部特征上丰富的上下文依赖关系,Shuai等人设计了一个有向无环图的递归神经网络。在Liu等人提出的SPN模型中设计了一个行/列线性传播模型,该模型可以提取场景图像中密集的全局成对关系。在Zhao等人提出的PSANet模型中,通过双向信息传播来学习自适应的点向上下文。
发明内容
为避免现有技术所存在的缺陷与不足,本发明提出一种基于编码-解码结构的图像语义分割方法,以解决在图像语义分割任务中存在的两个挑战:1)多尺度物体的存在导致错误分类;2)空间信息的丢失导致小物体识别不出。
为实现上述发明目的,本发明采用如下技术方案:
本发明基于编码-解码结构的图像语义分割方法是按如下步骤进行
步骤1、制作含有M张图片数据集,其分为三个子集:训练集,验证集和测试集,其中训练集和验证集被准确地进行像素级标注;
步骤2、对基于编码-解码结构的图像语义分割模型进行训练
步骤2.1、首先对训练集图片进行数据增强,即随机水平翻转、10到-10度的随机旋转和0.5到2倍的随机缩放;
步骤2.2、将所述数据增强后训练集图片X∈{x1,x2,…,xn}送入改进结构的ResNet-101骨干中以提取出丰富的特征图集合E∈{e1,e2,…,em};
步骤2.3、将所述特征图E∈{e1,e2,…,em}喂给多尺度信息融合模块,以捕获含有区分力强且多尺度信息丰富的特征图集合T∈{t1,t2,…,ta};
步骤2.4、运用空间信息捕获模块,从所述改进结构的ResNet-101骨干的浅层提取具有丰富空间信息的特征图Q∈{q1,q2,…,qd},以补偿在改进结构的ResNet-101骨干中因连续的池化和下采样操作带来的空间分辨率的损失;
步骤2.5、将所述含有丰富多尺度信息的特征图T∈{t1,t2,…,ta}和含有丰富空间信息的特征图 Q∈{q1,q2,…,qd}融合后得到具有丰富信息的特征图集合P∈{p1,p2,…,pz},再利用一个多核卷积块细化特征图P∈{p1,p2,…,pz},接着通过数据依赖的上采样操作得到图像分割结果,然后,利用Softmax 回归分类器得到输出误差,再利用交叉熵损失函数对结果进行评估,最后利用反向传播算法优化误差进行训练,得到分割模型;
步骤3、通过步骤2.1-2.5,利用训练集对所述图像语义分割模型进行训练后,利用验证集对训练后的模型进行评估其性能;
步骤4、针对测试样本,经过步骤2.2-2.5后可得最终图像分割结果图。
本发明中基于编码-解码结构的图像语义分割方法,其特点在于所述改进结构的ResNet-101骨干具有如下结构:
设置改进结构的ResNet-101骨干包括5组卷积:第一组卷积r1含有核尺寸为7×7且个数为64的卷积,卷积步长stride=2;第二组卷积r2含有核尺寸为2×2且步长为stride=2的池化卷积和3个相同结构的卷积层,每个卷积层有如下结构:conv2_1卷积核尺寸为1×1且个数为64,conv2_2卷积核尺寸为3×3且个数为64,conv2_3卷积核尺寸为1×1且个数为256;第三组卷积r3中含有4个相同结构的卷积层,每个卷积层有如下结构:conv3_1卷积核尺寸为1×1且个数为128,conv3_2卷积核尺寸为3×3且个数为128, conv3_3卷积核尺寸为1×1且个数为512;第四组卷积r4中含有23个相同结构的卷积层,每个卷积扩张率 rate=2,卷积步长stride=1且每个卷积层有如下结构:conv4_1卷积核尺寸为1×1且个数为256,conv4_2卷积核尺寸为3×3且个数为256,conv4_3卷积核尺寸为1×1且个数为1024;第五组卷积r5中含有3个相同结构的克罗内克卷积层,每个克罗内克卷积中内部扩张因子κ1=4和内部共享因子κ1=3且每个克罗内克卷积层有如下结构:conv5_1卷积核尺寸为1×1且个数为512,conv5_2卷积核尺寸为3×3且个数为512, conv5_3卷积核尺寸为1×1且个数为2048。
本发明中基于编码-解码结构的图像语义分割方法,其特点在于所述多尺度信息融合模块结构及提取区分力强且多尺度信息丰富的特征图集合是按如下步骤进行:
设置多尺度信息融合模块有输入层,多尺度信息提取层,输出层。首先,从骨干提取的特征图 E∈{e1,e2,…,em}被送到含有批量归一化(BN)、修正线性单元(ReLU)和1×1的卷积的模块以降低特征图个数。然后,特征图被送入多尺度信息提取层提取多尺度信息。多尺度信息提取层含有三条平行结构的主路,每条主路含有一个克罗内克卷积块,每个克罗内克卷积块由克罗内克卷积、BN和ReLU组成。不同的克罗内克卷积含有不同的内部扩张因子和内部共享因子,以最大程度的扩大感受野捕获丰富的多尺度信息。此外,有三条平行结构的支路,每条支路含有相同的全局注意力模块。全局注意力模块由全局平均池化层和Sigmoid激活函数组成。利用全局注意力模块生成注意力向量对由克罗内克卷积块提取的含有多尺度信息的特征图进行重标定,以选取出区分力强且多尺度信息丰富的特征图。利用三个1×1的卷积对从三条主路上选出的特征图进行降低通道处理,以减少复杂计算和节省时间。最终三条主路中的特征图融合在一起,输出新的特征图集合T∈{t1,t2,…,ta}。
本发明中基于编码-解码结构的图像语义分割方法,其特点在于所述空间信息捕获模块结构及提取丰富空间信息的特征图集合是按如下步骤进行:
空间信息捕获模块含有三条支路,每条支路含有1×1的卷积以减少特征图个数。从改进结构的ResNet-101骨干的第二组卷积得到的特征图G∈{g1,g2,…,gl}经过三个1×1的卷积处理后得到三个新的特征图集合Ξ∈{μ1,μ2,…,μs},和ξ∈{η1,η2,…,ηk},其中Ξ,Ψ分别进行变形后进行了矩阵乘法,之后利用Softmax操作来计算空间注意力向量利用计算出的空间注意力向量对特征图ξ在空间维度上进特征重标,并引入一个尺度因子来指导模型逐步学会将局部区域的权值赋给全局位置,最终输出含有丰富空间信息的特征图集合Q∈{q1,q2,…,qd}。
式(1)中,表示为位置i对位置j的影响,为尺度参数,初始化为0。
本发明中基于编码-解码结构的图像语义分割方法,其特点也在于所述多核卷积块具有如下结构:
两个卷积并行连接,卷积核大小分别为3×3和5×5。
附图说明
图1为本发明的总体结构图示意图;
图2为本发明中设计出的多尺度信息融合模块示意图;
图3为本发明中设计出的空间信息捕获模块示意图;
图4为本发明仿真实验输出的部分样本图像示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整的描述。本实施例中基于编码-解码结构的图像语义分割方法是按如下步骤进行:
步骤1、制作含有M张图片数据集,其分为三个子集:训练集,验证集和测试集,其中训练集和验证集被准确地进行像素级标注;
步骤2、对基于编码-解码结构的图像语义分割模型进行训练
步骤2.1、首先对训练集图片进行数据增强,即随机水平翻转、10到-10度的随机旋转和0.5到2倍的随机缩放;
步骤2.2、将所述数据增强后训练集图片X∈{x1,x2,…,xn}送入改进结构的ResNet-101骨干中以提取出丰富的特征图集合E∈{e1,e2,…,em},如图1所示;
步骤2.3、将所述特征图E∈{e1,e2,…,em}喂给多尺度信息融合模块,以捕获含有区分力强且多尺度信息丰富的特征图集合T∈{t1,t2,…,ta},如图2所示;
步骤2.4、运用空间信息捕获模块,从所述改进结构的ResNet-101骨干的浅层提取具有丰富空间信息的特征图Q∈{q1,q2,…,qd},以补偿在改进结构的ResNet-101骨干中因连续的池化和下采样操作带来的空间分辨率的损失,如图3所示;
步骤2.5、将所述含有丰富多尺度信息的特征图T∈{t1,t2,…,ta}和含有丰富空间信息的特征图 Q∈{q1,q2,…,qd}融合后得到具有丰富信息的特征图集合P∈{p1,p2,…,pz},再利用一个多核卷积块细化特征图P∈{p1,p2,…,pz},接着通过数据依赖的上采样操作得到图像分割结果,然后,利用Softmax 回归分类器得到输出误差,再利用交叉熵损失函数对结果进行评估,最后利用反向传播算法优化误差进行训练,得到分割模型;
步骤3、通过步骤2.1-2.5,利用训练集对所述图像语义分割模型进行训练后,利用验证集对训练后的模型进行评估其性能;
步骤4、针对测试样本,经过步骤2.2-2.5后可得最终图像分割结果图,如图4所示。
本实施例中针对所述改进结构的ResNet-101骨干具有如下结构:
设置改进结构的ResNet-101骨干包括5组卷积:第一组卷积r1含有核尺寸为7×7且个数为64的卷积,卷积步长stride=2;第二组卷积r2含有核尺寸为2×2且步长为stride=2的池化卷积和3个相同结构的卷积层,每个卷积层有如下结构:conv2_1卷积核尺寸为1×1且个数为64,conv2_2卷积核尺寸为3×3且个数为64,conv2_3卷积核尺寸为1×1且个数为256;第三组卷积r3中含有4个相同结构的卷积层,每个卷积层有如下结构:conv3_1卷积核尺寸为1×1且个数为128,conv3_2卷积核尺寸为3×3且个数为128, conv3_3卷积核尺寸为1×1且个数为512;第四组卷积r4中含有23个相同结构的卷积层,每个卷积扩张率 rate=2,卷积步长stride=1且每个卷积层有如下结构:conv4_1卷积核尺寸为1×1且个数为256,conv4_2卷积核尺寸为3×3且个数为256,conv4_3卷积核尺寸为1×1且个数为1024;第五组卷积r5中含有3个相同结构的克罗内克卷积层,每个克罗内克卷积中内部扩张因子κ1=4和内部共享因子κ1=3且每个克罗内克卷积层有如下结构:conv5_1卷积核尺寸为1×1且个数为512,conv5_2卷积核尺寸为3×3且个数为512, conv5_3卷积核尺寸为1×1且个数为2048。
本实施例中针对所述多尺度信息融合模块结构及提取区分力强且多尺度信息丰富的特征图集合是按如下步骤进行:
如图2所示,设置多尺度信息融合模块有输入层,多尺度信息提取层,输出层。首先,从骨干提取的特征图E∈{e1,e2,…,em}被送到含有批量归一化(BN)、修正线性单元(ReLU)和1×1的卷积的模块以降低特征图个数。然后,特征图被送入多尺度信息提取层提取多尺度信息。多尺度信息提取层含有三条平行结构的主路,每条主路含有一个克罗内克卷积块,每个克罗内克卷积块由克罗内克卷积、BN和ReLU 组成。不同的克罗内克卷积含有不同的内部扩张因子和内部共享因子,以最大程度的扩大感受野捕获丰富的多尺度信息。此外,有三条平行结构的支路,每条支路含有相同的全局注意力模块。全局注意力模块由全局平均池化层和Sigmoid激活函数组成。利用全局注意力模块生成注意力向量对由克罗内克卷积块提取的含有多尺度信息的特征图进行重标定,以选取出区分力强且多尺度信息丰富的特征图。利用三个1×1的卷积对从三条主路上选出的特征图进行降低通道处理,以减少复杂计算和节省时间。最终三条主路中的特征图融合在一起,最终输出新的特征图集合T∈{t1,t2,…,ta}。
本实施例中针对所述空间信息捕获模块结构及提取丰富空间信息的特征图集合是按如下步骤进行:
如图3所示,空间信息捕获模块含有三条支路,每条支路含有1×1的卷积以减少特征图个数。从改进结构的ResNet-101骨干的第二组卷积得到的特征图G∈{g1,g2,…,gl}经过三个1×1的卷积处理后得到三个新的特征图集合Ξ∈{μ1,μ2,…,μs},和ξ∈{η1,η2,…,ηk},其中Ξ,Ψ分别进行变形后进行了矩阵乘法,之后利用Softmax操作来计算空间注意力向量利用计算出的空间注意力向量对特征图ξ在空间维度上进特征重标,并利用一个尺度因子来指导模型逐步学会将局部区域的权值赋给全局位置,最终输出含有丰富空间信息的特征图集合Q∈{q1,q2,…,qd}。
式(1)中,表示为位置i对位置j的影响,为尺度参数,初始化为0。
本实施例中针对所述多核卷积块具有如下结构:
两个卷积并行连接,卷积核大小分别为3×3和5×5。

Claims (5)

1.一种基于编码-解码结构的图像语义分割方法,其特征是按如下步骤进行:
步骤1、制作含有M张图片数据集,其分为三个子集:训练集,验证集和测试集,其中训练集和验证集被准确地进行像素级标注;
步骤2、对基于编码-解码结构的图像语义分割模型进行训练
步骤2.1、首先对训练集图片进行数据增强,即随机水平翻转、10到-10度的随机旋转和0.5到2倍的随机缩放;
步骤2.2、将所述数据增强后训练集图片X∈{x1,x2,…,xn}送入改进结构的ResNet-101骨干中以提取出丰富的特征图集合E∈{e1,e2,…,em};
步骤2.3、将所述特征图E∈{e1,e2,…,em}喂给多尺度信息融合模块,以捕获含有区分力强且多尺度信息丰富的特征图集合T∈{t1,t2,…,ta};
步骤2.4、运用空间信息捕获模块,从所述改进结构的ResNet-101骨干的浅层提取具有丰富空间信息的特征图Q∈{q1,q2,…,qd},以补偿在改进结构的ResNet-101骨干中因连续的池化和下采样操作带来的空间分辨率的损失;
步骤2.5、将所述含有丰富多尺度信息的特征图T∈{t1,t2,…,ta}和含有丰富空间信息的特征图Q∈{q1,q2,…,qd}融合后得到具有丰富信息的特征图集合P∈{p1,p2,…,pz},再利用一个多核卷积块细化特征图P∈{p1,p2,…,pz},接着通过数据依赖的上采样操作得到图像分割结果,然后,利用Softmax回归分类器得到输出误差,再利用交叉熵损失函数对结果进行评估,最后利用反向传播算法优化误差进行训练,得到分割模型;
步骤3、通过步骤2.1-2.5,利用训练集对所述图像语义分割模型进行训练后,利用验证集对训练后的模型进行评估其性能;
步骤4、针对测试样本,经过步骤2.2-2.5后可得最终图像分割结果图。
2.根据权利要求1所述的基于编码-解码结构的图像语义分割方法,其特征是,
所述改进结构的ResNet-101骨干具有如下结构:
设置改进结构的ResNet-101骨干包括5组卷积:第一组卷积r1含有核尺寸为7×7且个数为64的卷积,卷积步长stride=2;第二组卷积r2含有核尺寸为2×2且步长为stride=2的池化卷积和3个相同结构的卷积层,每个卷积层有如下结构:conv2_1卷积核尺寸为1×1且个数为64,conv2_2卷积核尺寸为3×3且个数为64,conv2_3卷积核尺寸为1×1且个数为256;第三组卷积r3中含有4个相同结构的卷积层,每个卷积层有如下结构:conv3_1卷积核尺寸为1×1且个数为128,conv3_2卷积核尺寸为3×3且个数为128,conv3_3卷积核尺寸为1×1且个数为512;第四组卷积r4中含有23个相同结构的卷积层,每个卷积扩张率rate=2,卷积步长stride=1且每个卷积层有如下结构:conv4_1卷积核尺寸为1×1且个数为256,conv4_2卷积核尺寸为3×3且个数为256,conv4_3卷积核尺寸为1×1且个数为1024;第五组卷积r5中含有3个相同结构的克罗内克卷积层,每个克罗内克卷积中内部扩张因子κ1=4和内部共享因子κ1=3且每个克罗内克卷积层有如下结构:conv5_1卷积核尺寸为1×1且个数为512,conv5_2卷积核尺寸为3×3且个数为512,conv5_3卷积核尺寸为1×1且个数为2048。
3.根据权利要求1所述的基于编码-解码结构的图像语义分割方法,其特征是,
所述多尺度信息融合模块结构及提取区分力强且多尺度信息丰富的特征图集合是按如下步骤进行:
设置多尺度信息融合模块有输入层,多尺度信息提取层,输出层。首先,从骨干提取的特征图E∈{e1,e2,…,em}被送到含有批量归一化(BN)、修正线性单元(ReLU)和1×1的卷积的模块以降低特征图个数。然后,特征图被送入多尺度信息提取层提取多尺度信息。多尺度信息提取层含有三条平行结构的主路,每条主路含有一个克罗内克卷积块,每个克罗内克卷积块由克罗内克卷积、BN和ReLU组成。不同的克罗内克卷积含有不同的内部扩张因子和内部共享因子,以最大程度的扩大感受野捕获丰富的多尺度信息。此外,有三条平行结构的支路,每条支路含有相同的全局注意力模块。全局注意力模块由全局平均池化层和Sigmoid激活函数组成。利用全局注意力模块生成注意力向量对由克罗内克卷积块提取的含有多尺度信息的特征图进行重标定,以选取出区分力强且多尺度信息丰富的特征图。利用三个1×1的卷积对从三条主路上选出的特征图进行降低通道处理,以减少复杂计算和节省时间。最终三条主路中的特征图融合在一起,输出新的特征图集合T∈{t1,t2,…,ta}。
4.根据权利要求1所述的基于编码-解码结构的图像语义分割方法,其特征是,
所述空间信息捕获模块结构及提取丰富空间信息的特征图集合是按如下步骤进行:
空间信息捕获模块含有三条支路,每条支路含有1×1的卷积以减少特征图个数。从改进结构的ResNet-101骨干的第二组卷积得到的特征图G∈{g1,g2,…,gl}经过三个1×1的卷积处理后得到三个新的特征图集合Ξ∈{μ1,μ2,…,μs},和ξ∈{η1,η2,…,ηk},其中Ξ,Ψ分别进行变形后进行了矩阵乘法,之后利用Softmax操作来计算空间注意力向量利用计算出的空间注意力向量对特征图ξ在空间维度上进特征重标,并引入一个尺度因子来指导模型逐步学会将局部区域的权值赋给全局位置,最终输出含有丰富空间信息的特征图集合Q∈{q1,q2,…,qd}。
式(1)中,表示为位置i对位置j的影响,为尺度参数,初始化为0。
5.根据权利要求1所述的基于编码-解码结构的图像语义分割方法,其特征是,
所述多核卷积块具有如下结构:
两个卷积并行连接,卷积核大小分别为3×3和5×5。
CN201910503595.5A 2019-06-03 2019-06-03 基于编码-解码结构的图像语义分割方法 Pending CN110263833A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910503595.5A CN110263833A (zh) 2019-06-03 2019-06-03 基于编码-解码结构的图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910503595.5A CN110263833A (zh) 2019-06-03 2019-06-03 基于编码-解码结构的图像语义分割方法

Publications (1)

Publication Number Publication Date
CN110263833A true CN110263833A (zh) 2019-09-20

Family

ID=67917688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910503595.5A Pending CN110263833A (zh) 2019-06-03 2019-06-03 基于编码-解码结构的图像语义分割方法

Country Status (1)

Country Link
CN (1) CN110263833A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991617A (zh) * 2019-12-02 2020-04-10 华东师范大学 万花筒卷积网络的构建方法
CN111127470A (zh) * 2019-12-24 2020-05-08 江西理工大学 一种基于上下文和浅层空间编解码网络的图像语义分割方法
CN111242288A (zh) * 2020-01-16 2020-06-05 浙江工业大学 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN111325093A (zh) * 2020-01-15 2020-06-23 北京字节跳动网络技术有限公司 视频分割方法、装置及电子设备
CN111373439A (zh) * 2020-02-10 2020-07-03 香港应用科技研究院有限公司 使用cnn进行图像分割的方法
CN111369582A (zh) * 2020-03-06 2020-07-03 腾讯科技(深圳)有限公司 图像分割方法、背景替换方法、装置、设备及存储介质
CN111461130A (zh) * 2020-04-10 2020-07-28 视研智能科技(广州)有限公司 一种高精度图像语义分割算法模型及分割方法
CN111627055A (zh) * 2020-05-07 2020-09-04 浙江大学 一种联合语义分割的场景深度补全方法
CN111860386A (zh) * 2020-07-27 2020-10-30 山东大学 一种基于ConvLSTM卷积神经网络的视频语义分割方法
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN112489061A (zh) * 2020-12-09 2021-03-12 浙江工业大学 一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法
CN112634289A (zh) * 2020-12-28 2021-04-09 华中科技大学 一种基于非对称空洞卷积的快速可行域分割方法
CN112734715A (zh) * 2020-12-31 2021-04-30 同济大学 一种肺部ct图像的肺结节分割方法
CN112967294A (zh) * 2021-03-11 2021-06-15 西安智诊智能科技有限公司 一种肝脏ct图像分割方法及***
CN113256609A (zh) * 2021-06-18 2021-08-13 四川大学 一种基于改进型Unet的CT图脑出血自动检测***
CN113392783A (zh) * 2021-06-18 2021-09-14 河南科技学院 一种基于改进的ResNet的透窗对象检测方法
CN113658200A (zh) * 2021-07-29 2021-11-16 东北大学 基于自适应特征融合的边缘感知图像语义分割方法
CN114140472A (zh) * 2022-02-07 2022-03-04 湖南大学 一种跨级信息融合医学图像分割方法
CN115423810A (zh) * 2022-11-04 2022-12-02 国网江西省电力有限公司电力科学研究院 一种风力发电机组叶片覆冰形态分析方法
CN112287940B (zh) * 2020-10-30 2024-07-02 深圳市守卫者智能科技有限公司 一种基于深度学习的注意力机制的语义分割的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062754A (zh) * 2018-01-19 2018-05-22 深圳大学 基于密集网络图像的分割、识别方法和装置
CN108090565A (zh) * 2018-01-16 2018-05-29 电子科技大学 一种卷积神经网络并行化训练加速方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090565A (zh) * 2018-01-16 2018-05-29 电子科技大学 一种卷积神经网络并行化训练加速方法
CN108062754A (zh) * 2018-01-19 2018-05-22 深圳大学 基于密集网络图像的分割、识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TIANYI WU等: "Tree-structured Kronecker Convolutional Network for Semantic Segmentation", 《ARXIV》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991617A (zh) * 2019-12-02 2020-04-10 华东师范大学 万花筒卷积网络的构建方法
CN110991617B (zh) * 2019-12-02 2020-12-01 华东师范大学 万花筒卷积网络的构建方法
CN111127470A (zh) * 2019-12-24 2020-05-08 江西理工大学 一种基于上下文和浅层空间编解码网络的图像语义分割方法
CN111127470B (zh) * 2019-12-24 2023-06-16 江西理工大学 一种基于上下文和浅层空间编解码网络的图像语义分割方法
CN111325093A (zh) * 2020-01-15 2020-06-23 北京字节跳动网络技术有限公司 视频分割方法、装置及电子设备
CN111242288B (zh) * 2020-01-16 2023-06-27 浙江工业大学 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN111242288A (zh) * 2020-01-16 2020-06-05 浙江工业大学 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN111373439A (zh) * 2020-02-10 2020-07-03 香港应用科技研究院有限公司 使用cnn进行图像分割的方法
CN111373439B (zh) * 2020-02-10 2023-05-02 香港应用科技研究院有限公司 使用cnn进行图像分割的方法
CN111369582A (zh) * 2020-03-06 2020-07-03 腾讯科技(深圳)有限公司 图像分割方法、背景替换方法、装置、设备及存储介质
CN111369582B (zh) * 2020-03-06 2023-04-07 腾讯科技(深圳)有限公司 图像分割方法、背景替换方法、装置、设备及存储介质
CN111461130A (zh) * 2020-04-10 2020-07-28 视研智能科技(广州)有限公司 一种高精度图像语义分割算法模型及分割方法
CN111627055A (zh) * 2020-05-07 2020-09-04 浙江大学 一种联合语义分割的场景深度补全方法
CN111627055B (zh) * 2020-05-07 2023-11-24 浙江大学 一种联合语义分割的场景深度补全方法
CN111860386A (zh) * 2020-07-27 2020-10-30 山东大学 一种基于ConvLSTM卷积神经网络的视频语义分割方法
CN111860386B (zh) * 2020-07-27 2022-04-08 山东大学 一种基于ConvLSTM卷积神经网络的视频语义分割方法
CN112287940B (zh) * 2020-10-30 2024-07-02 深圳市守卫者智能科技有限公司 一种基于深度学习的注意力机制的语义分割的方法
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN112489061A (zh) * 2020-12-09 2021-03-12 浙江工业大学 一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法
CN112489061B (zh) * 2020-12-09 2024-04-16 浙江工业大学 一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法
CN112634289A (zh) * 2020-12-28 2021-04-09 华中科技大学 一种基于非对称空洞卷积的快速可行域分割方法
CN112634289B (zh) * 2020-12-28 2022-05-27 华中科技大学 一种基于非对称空洞卷积的快速可行域分割方法
CN112734715A (zh) * 2020-12-31 2021-04-30 同济大学 一种肺部ct图像的肺结节分割方法
CN112967294A (zh) * 2021-03-11 2021-06-15 西安智诊智能科技有限公司 一种肝脏ct图像分割方法及***
CN113392783B (zh) * 2021-06-18 2022-11-01 河南科技学院 一种基于改进的ResNet的透窗对象检测方法
CN113256609A (zh) * 2021-06-18 2021-08-13 四川大学 一种基于改进型Unet的CT图脑出血自动检测***
CN113256609B (zh) * 2021-06-18 2021-09-21 四川大学 一种基于改进型Unet的CT图脑出血自动检测***
CN113392783A (zh) * 2021-06-18 2021-09-14 河南科技学院 一种基于改进的ResNet的透窗对象检测方法
CN113658200A (zh) * 2021-07-29 2021-11-16 东北大学 基于自适应特征融合的边缘感知图像语义分割方法
CN113658200B (zh) * 2021-07-29 2024-01-02 东北大学 基于自适应特征融合的边缘感知图像语义分割方法
CN114140472A (zh) * 2022-02-07 2022-03-04 湖南大学 一种跨级信息融合医学图像分割方法
CN115423810A (zh) * 2022-11-04 2022-12-02 国网江西省电力有限公司电力科学研究院 一种风力发电机组叶片覆冰形态分析方法

Similar Documents

Publication Publication Date Title
CN110263833A (zh) 基于编码-解码结构的图像语义分割方法
CN109977918A (zh) 一种基于无监督域适应的目标检测定位优化方法
CN110298387A (zh) 融入像素级attention机制的深度神经网络目标检测方法
CN109902798A (zh) 深度神经网络的训练方法和装置
CN108564097A (zh) 一种基于深度卷积神经网络的多尺度目标检测方法
CN109711413A (zh) 基于深度学习的图像语义分割方法
CN109815785A (zh) 一种基于双流卷积神经网络的人脸情绪识别方法
CN107818302A (zh) 基于卷积神经网络的非刚性多尺度物体检测方法
CN106446930A (zh) 基于深层卷积神经网络的机器人工作场景识别方法
CN108256426A (zh) 一种基于卷积神经网络的人脸表情识别方法
CN109800628A (zh) 一种加强ssd小目标行人检测性能的网络结构及检测方法
CN107506722A (zh) 一种基于深度稀疏卷积神经网络人脸情感识别方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN106981080A (zh) 基于红外图像和雷达数据的夜间无人车场景深度估计方法
CN108090447A (zh) 双分支深层结构下的高光谱图像分类方法及装置
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
CN111160294B (zh) 基于图卷积网络的步态识别方法
CN108629288A (zh) 一种手势识别模型训练方法、手势识别方法及***
CN107085723A (zh) 一种基于深度学习模型的车牌字符整体识别方法
CN107967474A (zh) 一种基于卷积神经网络的海面目标显著性检测方法
CN108122003A (zh) 一种基于深度神经网络的弱小目标识别方法
CN106372597A (zh) 基于自适应上下文信息的cnn交通检测方法
CN110097115A (zh) 一种基于注意力转移机制的视频显著性物体检测方法
CN112288776B (zh) 一种基于多时间步金字塔编解码器的目标跟踪方法
CN109492618A (zh) 基于分组扩张卷积神经网络模型的目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190920