CN111444923A - 自然场景下图像语义分割方法和装置 - Google Patents

自然场景下图像语义分割方法和装置 Download PDF

Info

Publication number
CN111444923A
CN111444923A CN202010286607.6A CN202010286607A CN111444923A CN 111444923 A CN111444923 A CN 111444923A CN 202010286607 A CN202010286607 A CN 202010286607A CN 111444923 A CN111444923 A CN 111444923A
Authority
CN
China
Prior art keywords
feature
layer
preliminary
dependency
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010286607.6A
Other languages
English (en)
Inventor
李硕豪
张军
何华
周浩
王风雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010286607.6A priority Critical patent/CN111444923A/zh
Publication of CN111444923A publication Critical patent/CN111444923A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种自然场景下图像语义分割方法和装置。所述方法包括:通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵,通过池化层分别计算初步特征矩阵感受野中像素的最大值和平均值,根据最大值和平均值的差异信息,得到初步特征矩阵的边缘梯度特征,根据边缘梯度特征和初步特征矩阵,得到融合特征,并且根据预先设置的深度残差网络对融合特征进行特征融合与提取,得到深度特征,建立深度特征中各个像素之间的长依赖关系,得到依赖特征图,通过输出层对依赖特征图进行分类,得到每个像素所对应的分类。采用本方法能够提高图像语义分割的准确率。

Description

自然场景下图像语义分割方法和装置
技术领域
本申请涉及机器学习技术领域,特别是涉及一种自然场景下图像语义分割方法和装置。
背景技术
与高级计算机视觉的图像级处理不同,图像语义分割是低级计算机视觉中的基础和难点。属于像素级图像处理,图像分割将每个像素划分为特定的语义标签。它可以使计算机方便地了解场景并准确地找到相应的对象位置。图像语义分割在计算机视觉和人工智能领域,如自动驾驶、机器人环境感知和医院图像测量中扮演着重要的角色。
在现有的图像语义分割技术中,主要通过深度卷积网络(DCNNs)来提取图像的特征和像素的分类,但是深度卷积网络不仅会降低图像中目标对象的特征分辨率和定位精度,并且在目标对象具有不同的尺度的情况下通常会导致部分部件的丢失。因此,图像语义分割的主流解决方案是增加特征分辨率。通过对现有模型的分析,目标边缘,边界的清晰度会极大的影响图像分割结果。在DCNNs的结构中,目标边界精度主要受两个因素的影响。一方面,在卷积层和池化层中通过下采样降低特征映射的空间分辨率,导致边界模糊和偏移。另一方面,对象的多尺度可能导致大的对象部件丢失而小的对象分类错误等一系列问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决深度卷积网络进行图像语义分割不准确问题的自然场景下图像语义分割方法和装置。
一种自然场景下图像语义分割方法方法,所述方法包括:
通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵;
通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值,根据所述最大值和所述平均值的差异信息,得到所述初步特征矩阵的边缘梯度特征;
根据所述边缘梯度特征和所述初步特征矩阵,得到融合特征,并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取,得到深度特征;
建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图;
通过输出层对所述依赖特征图进行分类,得到每个像素所对应的分类。
在其中一个实施例中,还包括:通过卷积神经网络的卷积层对预设尺寸的待语义分割图像进行特征提取,并且通过批量标准化层处理之后,得到目标尺寸的初步特征矩阵。
在其中一个实施例中,还包括:通过最大池化层计算感受野中像素的最大值,通过平均池化层计算感受野中像素的平均值。
在其中一个实施例中,还包括:通过Eltwise层计算所述最大值和所述平均值的差值,得到所述差异信息,根据所述差异信息得到边缘梯度特征;通过设置的Eltwise层的参数,将所述边缘梯度特征和所述初步特征矩阵进行融合,得到融合特征。
在其中一个实施例中,还包括:分别通过金字塔池化层和孔卷积金字塔层建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图。
在其中一个实施例中,还包括:通过金字塔池化层获取多级池化输出,采用双线性插值对所述多级池化输出进行采样,得到与所述深度特征相同大小的二维特征矩阵;将所述二维特征矩阵进行融合,得到先验特征,将所述先验特征与所述深度特征进行融合,得到融合特征图;将所述融合特征图输入所述孔卷积金字塔层,得到与所述深度特征相同大小的多个孔特征矩阵;所述孔卷积金字塔层包括多个卷积核相同,且卷积核间隔不同的池化层;采用双线性插值对所述孔特征矩阵进行采样,得到依赖特征图。
在其中一个实施例中,还包括:通过softmax层对所述依赖特征图进行分类,得到每个像素所对应的分类。
一种自然场景下图像语义分割装置,所述装置包括:
初步特征提取模块,用于通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵;
边缘特征提取模块,用于通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值,根据所述最大值和所述平均值的差异信息,得到所述初步特征矩阵的边缘梯度特征;
深度特征提取模块,用于根据所述边缘梯度特征和所述初步特征矩阵,得到融合特征,并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取,得到深度特征;
依赖建立模块,用于建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图;
分类模块,用于通过输出层对所述依赖特征图进行分类,得到每个像素所对应的分类。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵;
通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值,根据所述最大值和所述平均值的差异信息,得到所述初步特征矩阵的边缘梯度特征;
根据所述边缘梯度特征和所述初步特征矩阵,得到融合特征,并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取,得到深度特征;
建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图;
通过输出层对所述依赖特征图进行分类,得到每个像素所对应的分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵;
通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值,根据所述最大值和所述平均值的差异信息,得到所述初步特征矩阵的边缘梯度特征;
根据所述边缘梯度特征和所述初步特征矩阵,得到融合特征,并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取,得到深度特征;
建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图;
通过输出层对所述依赖特征图进行分类,得到每个像素所对应的分类。
上述自然场景下图像语义分割方法、装置、计算机设备和存储介质,通过将深度神经网络、边缘梯度理论和长距离依赖原理相结合,当输入图像到深度神经网络时,可以直接得出最终的图像语义分割结果。因此,本发明能实现端对端的图像语义分割,并能够对图像中特定对象的边缘进行更加精确的判别,同时能够克服对象多尺度问题的影响,对图像中大的对象和小的对象都能够实现更好的分割。
附图说明
图1为一个实施例中自然场景下图像语义分割方法的流程示意图;
图2为一个实施例中边缘梯度特征提取的设计框架图;
图3为另一个实施例中全连接条件随机场和孔卷积金字塔层的关系示意图;
图4为一个实施例中金字塔池化层和孔卷积金字塔层的长距离依赖的设计框架图;
图5为一个实施例中自然场景下图像语义分割方法的总体流程图;
图6为一个实施例中自然场景下图像语义分割装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种自然场景下图像语义分割方法,包括以下步骤:
步骤102,通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵。
卷积层是卷积神经网络中的一层,通过卷积层可以对实现对待语义分割图像进行采样。
待语义分割图像可以是自然场景下的图片,例如通过手机、相机等拍摄的照片,又或者是艺术家通过手绘并存储在计算机设备中的图片。待语义分割图像可以是彩色图像又可以是灰度图片。
初步特征矩阵中包含了待语义分割图像中的初步信息,暂不能通过初步特征矩阵确定像素的所属分类。
步骤104,通过池化层分别计算初步特征矩阵感受野中像素的最大值和平均值,根据最大值和平均值的差异信息,得到初步特征矩阵的边缘梯度特征。
感受野指的是池化层中卷积核大小覆盖的像素区域,例如:卷积核为2×2,则感受野中包括4个像素。通过不同的池化层,可以获得初步特征矩阵感受野中像素的最大值和平均值。
以上述卷积核为2×2为例,通过池化层模拟Roberts算子,实现对特征的边缘梯度提取。Roberts算子的梯度计算如下:
Figure BDA0002448755800000051
其中G表示梯度。感受野中的像素值为a11,a12,a21,a22,假设a11≥a22,a12≥a21,将四个像素值代入Roberts算子梯度公式后,可以将梯度公式表示为:
Figure BDA0002448755800000052
其中,amax=max(a11,a12,a21,a22),amean=mean(a11,a12,a21,a22),从推导中可以发现,梯度可以通过感受野中像素最大值和平均值的差异进行计算。当梯度G(x,y)较小时,感受野中的最大值和平均值差值较小,表明这些像素值相似,并且该区域中边缘的可能性较小。当梯度G(x,y)较大时,感受野中的最大值和平均值差值较大,表明这些像素值的变化很大,并且该区域中存在边缘的概率很高。因此,像素之间的梯度可以由感受野中统计的最大值和平均值代替。这样的优点是可以检测每个方向的边缘,而不仅仅是Roberts算子中的垂直方向。
步骤106,根据边缘梯度特征和所述初步特征矩阵,得到融合特征,并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取,得到深度特征。
深度残差网络可以通过ResNet结构的网络实现,通过融合与提取,可以进一步将深度特征的尺寸减小。
步骤108,建立深度特征中各个像素之间的长依赖关系,得到依赖特征图。
长依赖关系指的是各个像素的内在联系,通过建立像素之间的依赖,可以进一步提升像素分类的准确性。
步骤110,通过输出层对依赖特征图进行分类,得到每个像素所对应的分类。
上述自然场景下图像语义分割方法中,通过将深度神经网络、边缘梯度理论和长距离依赖原理相结合,当输入图像到深度神经网络时,可以直接得出最终的图像语义分割结果。因此,本发明能实现端对端的图像语义分割,并能够对图像中特定对象的边缘进行更加精确的判别,同时能够克服对象多尺度问题的影响,对图像中大的对象和小的对象都能够实现更好的分割。
在其中一个实施例中,通过卷积神经网络的卷积层对预设尺寸的待语义分割图像进行特征提取,并且通过批量标准化层处理之后,得到目标尺寸的初步特征矩阵。
具体的,在接收到待语义分割图像之后,将待语义分割图像转化为预设尺寸,例如:预设尺寸设置为321×321,然后一层卷积层和一层批量标准化层对输入图像进行特征提取。例如:设置卷积层的参数为卷积核大小设置为7、滑动间隔设置为2和扩充大小设置为3,则得到的初步矩阵大小为161×161。其中,批量标准化层的目的是调整中间结果数据的分布,没有参数。
在其中一个实施例中,通过最大池化层计算感受野中像素的最大值,通过平均池化层计算感受野中像素的平均值。
本实施例中,可以采用DCNN模型中的最大池化层和平均池化层来完成计算。
在其中一个实施例中,通过Eltwise层计算最大值和平均值的差值,得到差异信息,根据差异信息得到边缘梯度特征,通过设置的Eltwise层的参数,将边缘梯度特征和初步特征矩阵进行融合,得到融合特征。
本实施例中,Eltwise层的操作包括:product(点乘),sum(相加减)和max(取大值)。因此,在计算得到最大值和平均值之后,可以通过Eltwise层完成差异信息的计算。
具体的,如图2所示,最大池化层和平均池化层的尺寸大小为2×2,滑动间隔设置为1,Eltwise层的两个参数分别设置为2和-1,表示在初步外观特征的基础上额外的增加图像中的边缘梯度特征作为补充,最后通过一个卷积层将初步外观特征和边缘特征进行融合。
在得到融合特征之后,还需要对融合特征进行进一步融合和提取,得到深度特征,具体可以通过深度残差网络实现。
具体的,深度残差网络采用常用的部分深度残差网络ResNet,部分深度残差网络ResNet的结构从输入到输出依次为:(卷积层1,批量标准化层1,Scale层1,Relu层1,卷积层2,批量标准化层2,Scale层2,Relu层2,卷积层3,批量标准化层3,Scale层3,Eltwise层1,Relu层3)×3,其中三个卷积层的卷积核大小分别为:1×1×64,3×3×64,1×1×256;(卷积层4,批量标准化层4,Scale层4,Relu层4,卷积层5,批量标准化层5,Scale层5,Relu层5,卷积层6,批量标准化层6,Scale层6,Eltwise层6,Relu层6)×4,其中三个卷积层的卷积核大小分别为:1×1×128,3×3×128,1×1×512;(卷积层7,批量标准化层7,Scale层7,Relu层7,卷积层8,批量标准化层8,Scale层8,Relu层8,卷积层9,批量标准化层9,Scale层9,Eltwise层9,Relu层9)×6,其中三个卷积层的卷积核大小分别为:1×1×256,3×3×256,1×1×1024;(卷积层10,批量标准化层10,Scale层10,Relu层10,卷积层11,批量标准化层11,Scale层11,Relu层11,卷积层12,批量标准化层12,Scale层12,Eltwise层12,Relu层12)×3,其中三个卷积层的卷积核大小分别为:1×1×512,3×3×512,1×1×2048。特征在输入到ResNet部分结构之前的分辨率为161×161,在ResNet部分结构的特征融合和精炼之后获得的特征分辨率大小为41×41。值得说明的是,上述具体数值是在融合特征大小为161×161,深度特征的目标尺寸为41×41而设置的,不代表本发明仅有这一种设置方式,在融合特征小和目标尺寸任一发生改变,参数的设置也随之发生改变。
在其中一个实施例中,分别通过金字塔池化层和孔卷积金字塔层建立深度特征中各个像素之间的长依赖关系,得到依赖特征图。
金字塔池化层中包括多级池化层,每一级的卷积核不同,孔卷积金字塔层包括多个卷积层,每一层卷积核大小相同,但是卷积核间隔不同,如图3所示。
在另一个实施例中,通过金字塔池化层获取多级池化输出,采用双线性插值对多级池化输出进行采样,得到与深度特征相同大小的二维特征矩阵,将二维特征矩阵进行融合,得到先验特征,将先验特征与深度特征进行融合,得到融合特征图,将融合特征图输入孔卷积金字塔层,得到与深度特征相同大小的多个孔特征矩阵,孔卷积金字塔层包括多个卷积核相同,且卷积核间隔不同的池化层,采用双线性插值对孔特征矩阵进行采样,得到依赖特征图。
本实施例中,本发明利用金字塔池化层和空卷积金字塔层组合形成一个简化版的全连接条件随机场,通过建立各个节点之间的长距离依赖来解决对象的多尺度问题和对象各部分之间的上下文建模。金字塔池化层模块采用平均池化获得分层的全局先验,并将多个局部上下文信息与全局上下文信息相结合,求解多尺度对象问题。孔卷积金字塔层可以对各个节点之间的关系进行建模,建立节点之间的长距离依赖,从而实现对对象中各部分之间关系的结构化建模。条件随机场的能量函数Ecentre如下:
Figure BDA0002448755800000081
其中Φ表示势函数,
Figure BDA0002448755800000082
表示一元势函数,
Figure BDA0002448755800000083
表示二元势函数。而在本发明中,通过金字塔池化层和孔卷积金字塔层的组合,也能够对各节点之间建立长距离依赖连接。孔卷积金字塔层(卷积核:3×3;孔设置为r)的势函数F(r)可以表示为:
Figure BDA0002448755800000084
因此,金字塔池化层和孔卷积金字塔层的能量函数Ecentre可以表示为:
Figure BDA0002448755800000085
以深度特征的尺寸为41×41为例进行说明,如图4所示,基于以上推导,该发明在DCNN的最后一个特征图之后添加了金字塔池化层,它由四个平均池化层组成,其核大小分别为1,2,4,5,四个平均池化层的输出分别为41×41,21×21,11×11和9×9。然后利用双线性插值对这四级输出分别进行上采样,并获得四个分辨率为41×41的二维特征矩阵,以融合为全局先验,并将它们与输入特征矩阵连接起来。接下来,通过孔卷积金字塔层对对象中各部分之间关系的结构化建模。孔卷积金字塔层包含五个卷积核大小为3×3的卷积层组成,但是卷积核之间的孔大小不同。本发明中卷积核间隔分别设置为0,6,12,18,24,滑动步长设置为1,从而获得5个分辨率为41×41的特征矩阵。本发明通过融合5个特征矩阵,并通过双线性插值方法上采样获得分辨率大小为321×321特征图,最后通过输出层进行分类并获得每一个像素的类别。
在其中一个实施例中,通过softmax层对所述依赖特征图进行分类,得到每个像素所对应的分类。
综上,本发明实施例的总体流程如图5所示,图5中,将自然场景中的图像语义分割方法分为初步特征提取、边缘特征提取、特征融合和精炼、长距离依赖的建立和上下文特征的提取四个步骤。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种自然场景下图像语义分割装置,包括:初步特征提取模块602、边缘特征提取模块604、深度特征提取模块606、依赖建立模块608和分类模块610,其中:
初步特征提取模块602,用于通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵;
边缘特征提取模块604,用于通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值,根据所述最大值和所述平均值的差异信息,得到所述初步特征矩阵的边缘梯度特征;
深度特征提取模块606,用于根据所述边缘梯度特征和所述初步特征矩阵,得到融合特征,并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取,得到深度特征;
依赖建立模块608,用于建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图;
分类模块610,用于通过输出层对所述依赖特征图进行分类,得到每个像素所对应的分类。
在其中一个实施例中,初步特征提取模块602还用于通过卷积神经网络的卷积层对预设尺寸的待语义分割图像进行特征提取,并且通过批量标准化层处理之后,得到目标尺寸的初步特征矩阵。
在其中一个实施例中,边缘特征提取模块604还用于通过最大池化层计算感受野中像素的最大值,通过平均池化层计算感受野中像素的平均值。
在其中一个实施例中,深度特征提取模块606还用于通过Eltwise层计算所述最大值和所述平均值的差值,得到所述差异信息,根据所述差异信息得到边缘梯度特征;通过设置的Eltwise层的参数,将所述边缘梯度特征和所述初步特征矩阵进行融合,得到融合特征。
在其中一个实施例中,依赖建立模块608还用于分别通过金字塔池化层和孔卷积金字塔层建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图。
在其中一个实施例中,依赖建立模块608还用于通过金字塔池化层获取多级池化输出,采用双线性插值对所述多级池化输出进行采样,得到与所述深度特征相同大小的二维特征矩阵;将所述二维特征矩阵进行融合,得到先验特征,将所述先验特征与所述深度特征进行融合,得到融合特征图;将所述融合特征图输入所述孔卷积金字塔层,得到与所述深度特征相同大小的多个孔特征矩阵;所述孔卷积金字塔层包括多个卷积核相同,且卷积核间隔不同的池化层;采用双线性插值对所述孔特征矩阵进行采样,得到依赖特征图。
在其中一个实施例中,分类模块610还用于通过softmax层对所述依赖特征图进行分类,得到每个像素所对应的分类。
关于自然场景下图像语义分割装置的具体限定可以参见上文中对于自然场景下图像语义分割方法的限定,在此不再赘述。上述自然场景下图像语义分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储待语义分割图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自然场景下图像语义分割方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的实施例。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的实施例。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种自然场景下图像语义分割方法,所述方法包括:
通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵;
通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值,根据所述最大值和所述平均值的差异信息,得到所述初步特征矩阵的边缘梯度特征;
根据所述边缘梯度特征和所述初步特征矩阵,得到融合特征,并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取,得到深度特征;
建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图;
通过输出层对所述依赖特征图进行分类,得到每个像素所对应的分类。
2.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵,包括:
通过卷积神经网络的卷积层对预设尺寸的待语义分割图像进行特征提取,并且通过批量标准化层处理之后,得到目标尺寸的初步特征矩阵。
3.根据权利要求1所述的方法,其特征在于,所述通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值,包括:
通过最大池化层计算感受野中像素的最大值,通过平均池化层计算感受野中像素的平均值。
4.根据权利要求1所述的方法,其特征在于,根据所述边缘梯度特征和所述初步特征矩阵,得到融合特征,包括:
通过Eltwise层计算所述最大值和所述平均值的差值,得到所述差异信息,根据所述差异信息得到边缘梯度特征;
通过设置的Eltwise层的参数,将所述边缘梯度特征和所述初步特征矩阵进行融合,得到融合特征。
5.根据权利要求1至4任一项所述的方法,其特征在于,建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图,包括:
分别通过金字塔池化层和孔卷积金字塔层建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图。
6.根据权利要求5所述的方法,其特征在于,所述分别通过金字塔池化层和孔卷积金字塔层建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图,包括:
通过金字塔池化层获取多级池化输出,采用双线性插值对所述多级池化输出进行采样,得到与所述深度特征相同大小的二维特征矩阵;
将所述二维特征矩阵进行融合,得到先验特征,将所述先验特征与所述深度特征进行融合,得到融合特征图;
将所述融合特征图输入所述孔卷积金字塔层,得到与所述深度特征相同大小的多个孔特征矩阵;所述孔卷积金字塔层包括多个卷积核相同,且卷积核间隔不同的池化层;
采用双线性插值对所述孔特征矩阵进行采样,得到依赖特征图。
7.根据权利要求1至4任一项所述的方法,其特征在于,通过输出层对所述依赖特征图进行分类,得到每个像素所对应的分类,包括:
通过softmax层对所述依赖特征图进行分类,得到每个像素所对应的分类。
8.一种自然场景下图像语义分割装置,其特征在于,所述装置包括:
初步特征提取模块,用于通过卷积神经网络的卷积层提取待语义分割图像的初步特征矩阵;
边缘特征提取模块,用于通过池化层分别计算所述初步特征矩阵感受野中像素的最大值和平均值,根据所述最大值和所述平均值的差异信息,得到所述初步特征矩阵的边缘梯度特征;
深度特征提取模块,用于根据所述边缘梯度特征和所述初步特征矩阵,得到融合特征,并且根据预先设置的深度残差网络对所述融合特征进行特征融合与提取,得到深度特征;
依赖建立模块,用于建立所述深度特征中各个像素之间的长依赖关系,得到依赖特征图;
分类模块,用于通过输出层对所述依赖特征图进行分类,得到每个像素所对应的分类。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010286607.6A 2020-04-13 2020-04-13 自然场景下图像语义分割方法和装置 Pending CN111444923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010286607.6A CN111444923A (zh) 2020-04-13 2020-04-13 自然场景下图像语义分割方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010286607.6A CN111444923A (zh) 2020-04-13 2020-04-13 自然场景下图像语义分割方法和装置

Publications (1)

Publication Number Publication Date
CN111444923A true CN111444923A (zh) 2020-07-24

Family

ID=71651648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010286607.6A Pending CN111444923A (zh) 2020-04-13 2020-04-13 自然场景下图像语义分割方法和装置

Country Status (1)

Country Link
CN (1) CN111444923A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985542A (zh) * 2020-08-05 2020-11-24 华中科技大学 代表性图结构模型、视觉理解模型的建立方法及应用
CN112617850A (zh) * 2021-01-04 2021-04-09 苏州大学 心电信号的早搏心拍检测方法
CN113052247A (zh) * 2021-03-31 2021-06-29 清华苏州环境创新研究院 基于多标签图像识别的垃圾分类方法及垃圾分类器
CN117991093A (zh) * 2024-04-03 2024-05-07 成都航天凯特机电科技有限公司 一种永磁同步电机故障诊断方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875596A (zh) * 2018-05-30 2018-11-23 西南交通大学 一种基于dssnn神经网络的铁路场景图像语义分割方法
CN109800806A (zh) * 2019-01-14 2019-05-24 中山大学 一种基于深度学习的农作物病害检测算法
CN109829926A (zh) * 2019-01-30 2019-05-31 杭州鸿泉物联网技术股份有限公司 道路场景语义分割方法及装置
CN110136141A (zh) * 2019-04-24 2019-08-16 佛山科学技术学院 一种面向复杂环境的图像语义分割方法及装置
CN110348445A (zh) * 2019-06-06 2019-10-18 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
CN110490265A (zh) * 2019-08-23 2019-11-22 安徽大学 一种基于双路卷积和特征融合的图像隐写分析方法
CN110598771A (zh) * 2019-08-30 2019-12-20 北京影谱科技股份有限公司 一种基于深度语义分割网络的视觉目标识别方法和装置
CN110992320A (zh) * 2019-11-22 2020-04-10 电子科技大学 一种基于双重交错的医学图像分割网络

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875596A (zh) * 2018-05-30 2018-11-23 西南交通大学 一种基于dssnn神经网络的铁路场景图像语义分割方法
CN109800806A (zh) * 2019-01-14 2019-05-24 中山大学 一种基于深度学习的农作物病害检测算法
CN109829926A (zh) * 2019-01-30 2019-05-31 杭州鸿泉物联网技术股份有限公司 道路场景语义分割方法及装置
CN110136141A (zh) * 2019-04-24 2019-08-16 佛山科学技术学院 一种面向复杂环境的图像语义分割方法及装置
CN110348445A (zh) * 2019-06-06 2019-10-18 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
CN110490265A (zh) * 2019-08-23 2019-11-22 安徽大学 一种基于双路卷积和特征融合的图像隐写分析方法
CN110598771A (zh) * 2019-08-30 2019-12-20 北京影谱科技股份有限公司 一种基于深度语义分割网络的视觉目标识别方法和装置
CN110992320A (zh) * 2019-11-22 2020-04-10 电子科技大学 一种基于双重交错的医学图像分割网络

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHARLES-WAN: "Caffe 议事(二):从零开始搭建 ResNet 之 网络的搭建(上)", 《博客园:HTTPS://WWW.CNBLOGS.COM/CHARLES-WAN/P/6535395.HTML》 *
HAOZHOU等: "Edge gradient feature and long distance dependency for image semantic segmentation", 《IET COMPUTER VISION》 *
JUNZHANG等: "Accurate Moving Target Detection Based on Background Subtraction and SUSAN", 《INTERNATIONAL JOURNAL OF COMPUTER AND ELECTRICAL ENGINEERING》 *
徐树奎等: "对象边框标注数据的弱监督图像语义分割", 《国防科技大学学报》 *
文常保等: "《人工神经网络理论及应用》", 31 March 2019, 西安电子科技大学出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985542A (zh) * 2020-08-05 2020-11-24 华中科技大学 代表性图结构模型、视觉理解模型的建立方法及应用
CN111985542B (zh) * 2020-08-05 2022-07-12 华中科技大学 代表性图结构模型、视觉理解模型的建立方法及应用
CN112617850A (zh) * 2021-01-04 2021-04-09 苏州大学 心电信号的早搏心拍检测方法
CN112617850B (zh) * 2021-01-04 2022-08-30 苏州大学 心电信号的早搏心拍检测***
CN113052247A (zh) * 2021-03-31 2021-06-29 清华苏州环境创新研究院 基于多标签图像识别的垃圾分类方法及垃圾分类器
CN117991093A (zh) * 2024-04-03 2024-05-07 成都航天凯特机电科技有限公司 一种永磁同步电机故障诊断方法

Similar Documents

Publication Publication Date Title
CN110119728B (zh) 基于多尺度融合语义分割网络的遥感图像云检测方法
CN109559320B (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及***
CN111444923A (zh) 自然场景下图像语义分割方法和装置
US9633282B2 (en) Cross-trained convolutional neural networks using multimodal images
CN110781756A (zh) 基于遥感图像的城市道路提取方法及装置
CN112183414A (zh) 一种基于混合空洞卷积的弱监督遥感目标检测方法
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及***
CN109063549B (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN113205142B (zh) 一种基于增量学习的目标检测方法和装置
CN112862774B (zh) 一种遥感影像建筑物精确分割方法
CN107506792B (zh) 一种半监督的显著对象检测方法
CN109635714B (zh) 文档扫描图像的矫正方法及装置
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN110969171A (zh) 基于改进卷积神经网络的图像分类模型、方法及应用
CN112528974B (zh) 测距方法、装置、电子设备及可读存储介质
CN111507288A (zh) 图像检测方法、装置、计算机设备和存储介质
CN114419406A (zh) 图像变化检测方法、训练方法、装置和计算机设备
CN116229066A (zh) 人像分割模型的训练方法及相关装置
CN115587987A (zh) 一种蓄电池缺陷检测方法、装置、存储介质及电子设备
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN116091706B (zh) 多模态遥感影像深度学习匹配的三维重建方法
CN116310832A (zh) 遥感图像处理方法、装置、设备、介质及产品
CN114494441B (zh) 基于深度学习的葡萄及其采摘点同步识别定位方法、装置
CN110880003A (zh) 一种图像匹配方法、装置、存储介质及汽车
CN113436220B (zh) 一种基于深度图分割的图像背景估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200724