CN109670506B - 基于克罗内克卷积的场景分割方法和*** - Google Patents

基于克罗内克卷积的场景分割方法和*** Download PDF

Info

Publication number
CN109670506B
CN109670506B CN201811309245.7A CN201811309245A CN109670506B CN 109670506 B CN109670506 B CN 109670506B CN 201811309245 A CN201811309245 A CN 201811309245A CN 109670506 B CN109670506 B CN 109670506B
Authority
CN
China
Prior art keywords
layer
feature
kronecker
aggregation
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811309245.7A
Other languages
English (en)
Other versions
CN109670506A (zh
Inventor
唐胜
伍天意
李***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201811309245.7A priority Critical patent/CN109670506B/zh
Publication of CN109670506A publication Critical patent/CN109670506A/zh
Application granted granted Critical
Publication of CN109670506B publication Critical patent/CN109670506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于克罗内克卷积的场景分割方法,包括:构建具有残差结构的克罗内克卷积层;以该克罗内克卷积层和标准卷积层构建特征提取子网络,以原始图像为输入,通过该特征提取子网络输出抽象特征图;以该克罗内克卷积层构建树形特征聚合模块,以该抽象特征图为输入,通过该树形特征聚合模块输出聚合特征图;以该聚合特征图为输入,通过该场景分割子网络输出该原始图像的场景分割结果。

Description

基于克罗内克卷积的场景分割方法和***
技术领域
本方法属于机器学习和计算机视觉领域,特别是涉及一种基于克罗内克卷积和树形结构特征聚合模块的场景分割方法和***。
背景技术
场景分割是计算机视觉领域非常重要并且极具挑战的任务,并且在生产和生活中具有广泛的应用价值,如无人驾驶、机器人导航、视频编辑等。场景分割的目标是对场景图像中的每个像素点分配其所属类别。最近,基于全卷积网络的场景分割方法取得显著的进步。然而,现在的主流方法都是通过迁移分类网络过来,通过去除最大池化层和全连接层,以及增加反卷积层以生成分割结果。但是分类与分割之间还是有很大区别,比如经典的分类网络会对原始输入下采样32倍,这样有助于提取到更适合用来分类的特征,但这种网络模型忽视了位置信息,恰恰相反的是,分割则需要很精准的位置信息,具体到像素级的位置信息。当前有研究者提出膨胀卷积在一定程度上解决了这个问题,它可以增加滤波器的感受野同时保持特征图的分辨率,并且取得了比较好的分割性能。但膨胀卷积有个缺点,其膨胀系数比较大的情况下,它会损失了许多局部细节信息。特别地,并且当膨胀因子接近特征图的尺寸时,一个3×3卷积退化成1×1卷积。
此外,对于场景分割网络,场景当中的物体经常是有多个尺度呈现,还有个特点是场景的层次化结构,比如对于Cityscapes数据集,一般来说,在图像中心位置通常是远处的车子,其尺度较小;而在图像两侧区域通常是近处的车子,其尺度较大。为了解决上述两个问题,很多现有的方法都是通过在基本特征提取子网络使用膨胀卷积,然后利用跨层特征融合去分割多尺度物体。但膨胀卷积忽视的局部细节信息和简单的跨层融合分割多尺度物体在一定程度上阻碍了分割性能。
发明内容
针对上述问题,本发明提出一种基于克罗内克卷积的场景分割方法,包括:构建具有残差结构的克罗内克卷积层;以该克罗内克卷积层和标准卷积层构建特征提取子网络;以原始图像为输入,通过该特征提取子网络输出抽象特征图;以该克罗内克卷积层构建树形特征聚合模块;以该抽象特征图为输入,通过该树形特征聚合模块输出聚合特征图;以该克罗内克卷积层构建场景分割子网络;以该聚合特征图为输入,通过该场景分割子网络输出该原始图像的场景分割结果。
进一步地,该克罗内克卷积层的形式化表示为
Figure BDA0001854550460000021
其中K(c1,c2)为标准卷积核,c1、c2为该克罗内克卷积层的通道索引,c1∈[1,CA],c1∈[1,CB],CA为输入K(c1,c2)的特征图的通道数,CB为K(c1,c2)输出的特征图的通道数,F为二维的扩展矩阵,满足当K(c1,c2)为k×k时,使K1(c1,c2)被扩展为(2k+1)r1×(2k+1)r1;k为标准卷积的核大小,r1为该克罗内克卷积层的扩张因子,r2为该克罗内克卷积层的共享因子,c1、c2、CA、CB、k、r1、r2为正整数。
进一步地,该特征提取子网络包括5个阶段,阶段1包括3层级联的3×3标准卷积层,阶段2包括多个级联的第一瓶颈模块,阶段3包括多个级联的该第一瓶颈模块,阶段4包括多个级联的第二瓶颈模块,阶段5包括多个级联的该第二瓶颈模块;其中该第一瓶颈模块包括级联的一层1×1标准卷积层、一层3×3标准卷积层和一层1×1标准卷积层;该第二瓶颈模块包括级联的一层1×1标准卷积层、一层该克罗内克卷积层和一层1×1标准卷积层。
进一步地,该树形特征聚合模块包括级联的聚合层,该聚合层包括该克罗内克卷积层、批归一化层和ReLU激活函数,并以每一层聚合层的输出作为下一层聚合层的输入;该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并,得到该聚合特征图。
进一步地,该场景分割子网络包括级联的多层3×3标准卷积层和一层1×1标准卷积层。
本发明还公开了一种基于克罗内克卷积的场景分割***,包括:
克罗内克卷积层构建模块,用于构建具有残差结构的克罗内克卷积层;
特征提取子网络,用于输入原始图像以输出抽象特征图,其中该征提取子网络包括该克罗内克卷积层和标准卷积层;
树形特征聚合模块,用于输入该抽象特征图以输出聚合特征图,其中该树形特征聚合模块包括多层该克罗内克卷积层;
场景分割子网络,用于输入该聚合特征图以输出该原始图像的场景分割结果,其中该场景分割子网络包括多层该克罗内克卷积层。
附图说明
图1为本发明基于克罗内克卷积的场景分割方法整体框架图。
图2A是现有技术的膨胀卷积示意图;
图2B是本发明的克罗内克卷积示意图;
图3为本发明提出的特征提取子网络结构示意图;
图4为本发明提出的树形结构特征聚合模块示意图;
图5、6是本发明的场景分割方法与现有技术的性能比较图。
图7是本发明的场景分割方法在PASCAL VOC 2012数据集上的实验结果图。
图8是本发明的场景分割方法在Cityscapes数据集上的实验结果图。
图9是本发明的场景分割方法在PASCAL-Context数据集上的实验结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的基于克罗内克卷积(Kronecker Convolution)的场景分割方法和***进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
本发明的基于克罗内克卷积的场景分割方法和***,包括对原始图像利用克罗内克卷积进行特征学习,将得到的特征输入到树形结构特征聚合模块学习层次化的上下文信息,然后将得到特征和上下文信息输入到场景分割子网络,得到原始图像的场景分割结果。本发明提出了一种用于特征抽取的克罗内克卷积,可以在不增加额外参数的情况下增加滤波器的感受野,并且能够捕捉局部信息,同时获得更高的分割精度。此外,本发明还提出了树形结构特征聚合模块去分割多尺度物体和捕捉层次化的上下文信息,这极大地提高了现有基于全卷积的场景分割模型的性能。
克罗内克积是张量积的特殊形式,具体为两个任意大小的矩阵间的运算。克罗内克卷积核的形式化表达为:
Figure BDA0001854550460000041
其中K(c1,c2)是标准的卷积核,c1∈[1,CA],c1∈[1,CB]。这里CA和CB分别对应卷积输入特征图和输出特征图的通道数。F矩阵是右上角为r2×r2大小的全1矩阵与右下角为(r1-r2)×(r1-r2)大小的零矩阵的组合,假设标准的卷积核是k×k,则克罗内克卷积核被扩展成(2k+1)r1×(2k+1)r1;其中r1和r2是本发明提出的克罗内克卷积层的两个超参数,r1为克罗内克卷积层的扩张因子,r2为克罗内克卷积层的共享因子,c1、c2、CA、CB、k、r1、r2为正整数,
Figure BDA0001854550460000046
表示进行克罗内克积运算。
假设标准卷积在输入特征图对应的卷积块的中心坐标是(pt,qt),输入特征图Yt对应的采样点(xijuv,yijuv)为:
xijuv=pt+ir1+u,yijuv=qt+jr1+v
其中,i,j∈[-k,k]∩Z,u,v∈[0,r2-1]∩Z;
对应的克罗内克卷积运算的形式化为:
Figure BDA0001854550460000042
其中,
Figure BDA0001854550460000043
i、j、u、v是输入特征图Yt的空间位置索引,Bt为输出特征图,
Figure BDA0001854550460000044
为输入特征图Yt的特征向量,
Figure BDA0001854550460000045
为克罗内克卷积核参数,b为偏置向量,
Figure BDA0001854550460000047
为CA维空间。
图1为本发明基于克罗内克卷积的场景分割方法整体框架图。如图1所示,具体来说,本发明的基于克罗内克卷积的场景分割方法包括:
步骤S1,构建克罗内克卷积层;
本发明提出一种新的卷积方式,克罗内克卷积,用于扩大标准卷积的感受野,同时不增加其参数数量。此外,本发明提出的克罗内克卷积与整个场景分割网络是兼容的,可以***到场景分割网络中形成一个完整的结构,并进行端对端的训练,这里端对端是一个专有名词,指的是在场景分割网络的结构中从原始图像输入到最终的输出结果可以使用一个统一的场景分割网络实现,不需要分成多个阶段进行训练。
图2A是现有技术的膨胀卷积示意图,图2B是本发明的克罗内克卷积示意图。图2A显示了3×3的膨胀卷积,f为膨胀卷积的膨胀因子;如图2B所示,克罗内克卷积核的形式化表达为:
Figure BDA0001854550460000051
其中K(c1,c2)是标准的卷积核,c1∈[1,CA],c1∈[1,CB]。这里CA和CB分别对应卷积输入特征图和输出特征图的通道数。F矩阵是右上角为r2×r2大小的全1矩阵与右下角为(r1-r2)×(r1-r2)大小的零矩阵的组合,假设标准的卷积核是k×k,则克罗内克卷积核被扩展成(2k+1)r1×(2k+1)r1;其中r1和r2是本发明提出的克罗内克卷积层的两个超参数,r1为克罗内克卷积层的扩张因子,r2为克罗内克卷积层的共享因子,c1、c2、CA、CB、k、r1、r2为正整数;
步骤S2,通过特征提取子网络,输入原始RGB图像I,输出抽象特征图fl
图3为本发明提出的特征提取子网络结构示意图。如图3所示,本发明的场景分割方法中,特征提取子网络包括5个阶段,每个阶段都包括多个标准卷积层,或多个标准卷积和多个克罗内克卷积;值得注意的是,在特征提取子网络的高阶段,其特征图的通道非常大,典型情况,对于特征提取子网络在阶段4的特征通道数为1024,在阶段5的特征通道数为2048。如果直接使用克罗内克卷积对这些特征进行再学习,这些数量巨大的参数中包含了大量的冗余,同时也会降低整个场景分割网络的分割速度,增加运算复杂度。为了解决这个问题,本发明将克罗内克卷积加入到一种带“瓶颈”的结构中,这种带“瓶颈”的结构可以称之为瓶颈模块,瓶颈模块的开头和结尾,分别是标准的1x1卷积层,瓶颈模块开头的1x1卷积层用于降低降低输入特征图的通道数,而瓶颈模块结尾的1x1卷积层用于恢复输出特征图的通道数;瓶颈模块可以极大的减少特征提取子网络的参数数量。
本发明的场景分割网络中,特征提取子网络的阶段1包括依次排列的3个标准的3×3卷积层;阶段2~阶段5包括多个瓶颈模块,其中阶段2和阶段3采用一种瓶颈模块,称之为第一瓶颈模块,第一瓶颈模块包括2个标准的1×1卷积层和1个标准的3×3卷积层,阶段4和阶段5采用另一种瓶颈模块,称之为第二瓶颈模块,第二瓶颈模块包括2个标准的1×1卷积层和1个克罗内克卷积层;将原始RGB图像I作为阶段1的输入,获得阶段1输出的图像特征图1(feature map1),并将图像特征图1(feature map1)作为阶段2的输入,以此类推,以阶段2输出的图像特征图2(feature map2)、阶段3输出的图像特征图3(feature map3)和阶段4输出的图像特征图4(feature map4)作为输入,分别获取阶段3输出的图像特征图3(feature map3)、阶段4输出的图像特征图4(feature map4)和阶段5输出的图像特征图5(feature map5),并以图像特征图5为抽象特征图fl
步骤S3,通过树形结构特征聚合模块,输入抽象特征图fl,输出聚合特征图fc
目前大部分的场景分割框架都基于全卷积神经网络框架,该框架主要包括两个串联的子网络,即特征提取子网络和场景分割子网络;当给定原始场景图像I,通过场景分割网络N,获取原始场景图像I的场景分割结果J,可以将场景分割网络N分解为特征提取子网络Nfea和场景分割子网络Nseg,因此场景分割网络N可以表示为:J=Nseg(Nfea(I));其中Nfea(I)代表从特征提取子网络得到的抽象特征图fl,这些特征图中包含了从原始场景图像I中学习得到的语义概念和空间位置信息。
本发明的场景分割方法,在特征提取子网络和场景分割子网络之间加入了树形结构特征聚合模块。图4为本发明提出的树形结构特征聚合模块结构示意图。如图4所示,树形特征聚合模块包括多层级联的聚合层,聚合层包括克罗内克卷积层、批归一化层和ReLU激活函数,并以每一层聚合层的输出作为下一层聚合层的输入;该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并,得到该聚合特征图树形结构特征聚合模块包括多个克罗内克卷积层,采用级联递归的方式。本发明的树形结构特征聚合模块具有如下扩展规则:
通过树形结构特征聚合模块的第1层聚合层f1(·),输入上一子网络输出的特征图x,输出第1层聚合层f1(x)的上下文信息特征图x1,其中f1(·)包括克罗内克卷积层、批归一化层和ReLU激活函数;通过树形结构特征聚合模块的第2层聚合层f2(·),以x1作为输入,输出第2层聚合层f2(x1)的上下文信息特征图x2;以此类推,以第n-1层聚合层fn-1(·)输出的上下文信息特征图xn-1为第n层聚合层fn-1(·)的输入,输出第n层聚合层fn(xn-1)的上下文信息特征图xn;以x、x1、……、xn作为输入,通过级联层g,得到树形结构特征聚合模块的最终输出Hn(x);具体到本发明的的场景分割方法,将特征提取子网络输出的抽象特征图fl作为输入,通过树形结构特征聚合模块,最终输出聚合特征图fc
步骤S4,通过场景分割子网络,输入聚合特征图fc,获得输入原始RGB图像I的预测场景分割结果J;
场景分割子网络包括多层标准的3×3卷积层和一层标准的1×1卷积层。
本发明还公开了一种基于克罗内克卷积的场景分割***,包括:
克罗内克卷积层构建模块,用于构建具有残差结构的克罗内克卷积层;
特征提取子网络,用于输入原始RGB图像I输出抽象特征图fl
树形特征聚合模块,用于输入抽象特征图fl以输出聚合特征图fc
场景分割子网络,用于输入该聚合特征图fc以输出该原始图像I的场景分割结果J。
为使本发明的上述特征和效果能阐述的更加明确,下文特列举相关实验对本发明的场景分割方法进行进一步说明。
一、数据集
本发明的相关实验采用PASCALVOC 2012语义分割数据集、Cityscapes数据集和PASCAL-Context数据集。
PASCALVOC 2012语义分割数据集包含20类前景物体和1个背景类;原始数据集包含1464张训练图片、1449张验证图片和1456张测试图片,扩展的训练集增强到10582张图片,本发明利用其中21类物体的平均的像素级的交并比(mean IoU)进行评估;
Cityscapes数据集包含来自50个不同城市的街道场景。这个数据集被分成三个子集,其中训练集包括2975张图片,验证集包括500张图片,测试集包括1525张图片。本发明利用数据集中高质量的19类像素集进行标注。性能采用所有类的交并比的平均值;
PASCAL-Context数据集包括训练集和验证集,训练集包括4998张图像,验证集包括5105张图像,PASCAL-Context数据集为整个场景提供了详细的语义标注,本发明的场景分割方法,采用了其中最常见的59类和1个背景类。
二、克罗内克卷积有效性实验验证:
如图5所示,本发明提出的克罗内克卷积比起对应的膨胀卷积性能分别高出0.8%,1.7%,0.7%,1.5%,1.6%,膨胀系数从4到12。这些结果表面本发明提出的克罗内克卷积比起膨胀卷积性能更好。
三、树形特征聚合模块有效性实验验证:
TFA_S是TFA中配置一个比较小的因子(r1,r2)={(6,3),(10,7),(20,15)}
TFA_L是TFA中配置一个比较大的因子(r1,r2)={(10,7),(20,15),(30,25)}
如图6所示,可以知道KC+TFA_S相对于基准模型有6.87%的提升,相对于Baseline+TFA_S有1.06的提升;而KC+TFA_L相对于基准模型有6.87%的提升,相对于Baseline+TFA_L有1.59%的提示。这说明我们提出的克罗内克卷积和树形特征聚合模块都可以改善分割质量,而且本发明提出的树形聚合模块有很强的泛化能力。
四、与其他方法比较:
这一部分是本发明的场景分割方法与其他先进方法进行对比的实验结果。
图7是本发明的场景分割方法在PASCAL VOC 2012数据集上的实验结果图。图8是本发明的场景分割方法在Cityscapes数据集上的实验结果图。图9是本发明的场景分割方法在PASCAL-Context数据集上的实验结果图。
如图7、图8和图9所示,可以看出,本发明的场景分割方法在PASCAL VOC 2012数据集、Cityscapes数据集和PASCAL-Context数据集这三个权威的语义分割数据集上都取得了非常好的性能,这也进一步验证了本发明的有效性。

Claims (8)

1.一种基于克罗内克卷积的场景分割方法,其特征在于,包括:
构建具有残差结构的克罗内克卷积层,该克罗内克卷积层的形式化表示为
Figure FDA0002788050730000011
其中K(c1,c2)为标准卷积核,c1、c2为该克罗内克卷积层的通道索引,c1∈[1,CA],c1∈[1,CB],CA为输入K(c1,c2)的特征图的通道数,CB为K(c1,c2)输出的特征图的通道数,F为二维的扩展矩阵,该扩展矩阵是右上角为r2×r2大小的全1矩阵与右下角为(r1-r2)×(r1-r2)大小的零矩阵的组合,满足当K(c1,c2)为k×k时,使K1(c1,c2)被扩展为(2k+1)r1×(2k+1)r1;k为标准卷积的核大小,r1为该克罗内克卷积层的扩张因子,r2为该克罗内克卷积层的共享因子,c1、c2、CA、CB、k、r1、r2为正整数;
以该克罗内克卷积层和标准卷积层构建特征提取子网络;以原始图像为输入,通过该特征提取子网络输出抽象特征图;
以该克罗内克卷积层构建树形特征聚合模块;以该抽象特征图为输入,通过该树形特征聚合模块输出聚合特征图;
以该聚合特征图为输入,通过场景分割子网络输出该原始图像的场景分割结果。
2.如权利要求1所述的场景分割方法,其特征在于,该特征提取子网络包括5个阶段,阶段1包括3层级联的3×3标准卷积层,阶段2包括多个级联的第一瓶颈模块,阶段3包括多个级联的该第一瓶颈模块,阶段4包括多个级联的第二瓶颈模块,阶段5包括多个级联的该第二瓶颈模块;其中
该第一瓶颈模块包括级联的一层1×1标准卷积层、一层3×3标准卷积层和一层1×1标准卷积层;
该第二瓶颈模块包括级联的一层1×1标准卷积层、一层该克罗内克卷积层和一层1×1标准卷积层。
3.如权利要求1所述的场景分割方法,其特征在于,该树形特征聚合模块包括级联的聚合层,该聚合层包括该克罗内克卷积层、批归一化层和ReLU激活函数,并以每一层聚合层的输出作为下一层聚合层的输入;该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并,得到该聚合特征图。
4.如权利要求1所述的场景分割方法,其特征在于,该场景分割子网络包括级联的多层3×3标准卷积层和一层1×1标准卷积层。
5.一种基于克罗内克卷积的场景分割***,其特征在于,包括:
克罗内克卷积层构建模块,用于构建具有残差结构的克罗内克卷积层,该克罗内克卷积层的形式化表示为
Figure FDA0002788050730000021
其中K(c1,c2)为标准卷积核,c1、c2为该克罗内克卷积层的通道索引,c1∈[1,CA],c1∈[1,CB],CA为输入K(c1,c2)的特征图的通道数,CB为K(c1,c2)输出的特征图的通道数,F为二维的扩展矩阵,该扩展矩阵是右上角为r2×r2大小的全1矩阵与右下角为(r1-r2)×(r1-r2)大小的零矩阵的组合,满足当K(c1,c2)为k×k时,使K1(c1,c2)被扩展为(2k+1)r1×(2k+1)r1;k为标准卷积的核大小,r1为该克罗内克卷积层的扩张因子,r2为该克罗内克卷积层的共享因子,c1、c2、CA、CB、k、r1、r2为正整数;
特征提取子网络,用于输入原始图像以输出抽象特征图,其中该特 征提取子网络包括该克罗内克卷积层和标准卷积层;
树形特征聚合模块,用于输入该抽象特征图以输出聚合特征图,其中该树形特征聚合模块包括多层该克罗内克卷积层;
场景分割子网络,用于输入该聚合特征图以输出该原始图像的场景分割结果,其中该场景分割子网络包括多层该克罗内克卷积层。
6.如权利要求5所述的场景分割***,其特征在于,该特征提取子网络包括5个子模块,子模块1包括3层级联的3×3标准卷积层,子模块2包括多个级联的第一瓶颈模块,子模块3包括多个级联的该第一瓶颈模块,子模块4包括多个级联的第二瓶颈模块,子模块5包括多个级联的该第二瓶颈模块;其中
该第一瓶颈模块包括级联的一层1×1标准卷积层、一层3×3标准卷积层和一层1×1标准卷积层;
该第二瓶颈模块包括级联的一层1×1标准卷积层、一层该克罗内克卷积层和一层1×1标准卷积层。
7.如权利要求5所述的场景分割***,其特征在于,该树形特征聚合模块包括级联的聚合层,该聚合层包括该克罗内克卷积层、批归一化层和ReLU激活函数,并以每一层聚合层的输出作为下一层聚合层的输入;该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并,得到该聚合特征图。
8.如权利要求5所述的场景分割***,其特征在于,该场景分割子网络包括级联的多层3×3标准卷积层和一层1×1标准卷积层。
CN201811309245.7A 2018-11-05 2018-11-05 基于克罗内克卷积的场景分割方法和*** Active CN109670506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811309245.7A CN109670506B (zh) 2018-11-05 2018-11-05 基于克罗内克卷积的场景分割方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811309245.7A CN109670506B (zh) 2018-11-05 2018-11-05 基于克罗内克卷积的场景分割方法和***

Publications (2)

Publication Number Publication Date
CN109670506A CN109670506A (zh) 2019-04-23
CN109670506B true CN109670506B (zh) 2021-04-06

Family

ID=66141823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811309245.7A Active CN109670506B (zh) 2018-11-05 2018-11-05 基于克罗内克卷积的场景分割方法和***

Country Status (1)

Country Link
CN (1) CN109670506B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797882A (zh) * 2019-07-30 2020-10-20 华为技术有限公司 图像分类方法及装置
CN111291760B (zh) * 2020-02-12 2023-10-17 北京迈格威科技有限公司 图像的语义分割方法、装置及电子设备
CN111461129B (zh) * 2020-04-02 2022-08-02 华中科技大学 一种基于上下文先验的场景分割方法和***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101537174B1 (ko) * 2013-12-17 2015-07-15 가톨릭대학교 산학협력단 스테레오스코픽 영상에서의 주요 객체 검출 방법
US10176408B2 (en) * 2015-08-14 2019-01-08 Elucid Bioimaging Inc. Systems and methods for analyzing pathologies utilizing quantitative imaging
CN107564007B (zh) * 2017-08-02 2020-09-11 中国科学院计算技术研究所 融合全局信息的场景分割修正方法与***
CN107564013B (zh) * 2017-08-02 2020-06-26 中国科学院计算技术研究所 融合局部信息的场景分割修正方法与***
CN108427921A (zh) * 2018-02-28 2018-08-21 辽宁科技大学 一种基于卷积神经网络的人脸识别方法
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法

Also Published As

Publication number Publication date
CN109670506A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
Deng et al. RFBNet: deep multimodal networks with residual fusion blocks for RGB-D semantic segmentation
Garcia-Garcia et al. A survey on deep learning techniques for image and video semantic segmentation
Zhou et al. Contextual ensemble network for semantic segmentation
JP6395158B2 (ja) シーンの取得画像を意味的にラベル付けする方法
CN108288035A (zh) 基于深度学习的多通道图像特征融合的人体动作识别方法
CN109670506B (zh) 基于克罗内克卷积的场景分割方法和***
CN110096961B (zh) 一种超像素级别的室内场景语义标注方法
CN106204499A (zh) 基于卷积神经网络的单幅图像去雨方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN110517270B (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN112784929A (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN115082966B (zh) 行人重识别模型训练方法、行人重识别方法、装置和设备
CN109472282B (zh) 一种基于极少训练样本的深度图像哈希方法
Ma et al. An improved ResNet-50 for garbage image classification
CN115131558B (zh) 一种少样本环境下的语义分割方法
CN107463932A (zh) 一种使用二进制瓶颈神经网络来抽取图片特征的方法
CN110751271B (zh) 一种基于深度神经网络的图像溯源特征表征方法
CN114743027B (zh) 弱监督学习引导的协同显著性检测方法
CN110110775A (zh) 一种基于超连接网络的匹配代价计算方法
He et al. Classification of metro facilities with deep neural networks
Özyurt et al. A new method for classification of images using convolutional neural network based on Dwt-Svd perceptual hash function
CN110826545A (zh) 一种视频类别识别的方法及相关装置
CN107358200B (zh) 一种基于稀疏学习的多摄像机非重叠视域行人匹配方法
CN116152517A (zh) 一种改进的orb特征提取方法
CN113191367B (zh) 基于密集尺度动态网络的语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant