CN111028235A

CN111028235A - 一种利用特征融合增强边缘和细节信息的图像分割方法

Info

Publication number: CN111028235A
Application number: CN201911094462.3A
Authority: CN
Inventors: 朱和贵; 苗艳
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-04-17
Anticipated expiration: 2039-11-11
Also published as: CN111028235B

Abstract

本发明提供一种利用特征融合增强边缘和细节信息的图像分割方法，涉及计算机视觉技术领域。该方法利用卷积神经网络对输入的图像进行特征的提取；将提取出的特征输入到加入更多特征融合的解码结构,在恢复图像分辨率的同时丰富边缘和细节信息,得到密集特征图；通过归一化方法输出不同分类的最大值；计算交叉熵损失函数,利用随机梯度下降法更新网络中的权重。本发明方法可以在恢复特征图分辨率的同时恢复在编码阶段丢失的位置和边界细节信息，丰富图片的信息,得到密集的特征图,弥补了直接上采样所带来的稀疏特征图,使分割的边界和细节更加清晰,提升了对细节细小物体分割效果。

Description

一种利用特征融合增强边缘和细节信息的图像分割方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种利用特征融合增强边缘和细节信息的图像分割方法。

背景技术

随着科学技术的不断进步和国家经济的飞速发展，人工智能逐渐进入了人们的视野，在人类的生产和生活中扮演着越来越重的角色，人工智能在各个领域都得到了广泛的应用，图像语义分割是人工智能的一个重要研究方向，是实现自动场景理解的一个非常重要的手段，可以应用在自动驾驶***以及无人及应用等许多领域。

图像语义分割技术是机器学习中计算机视觉领域的一个重要的分支，图像语义分割是对输入的图像进行处理，自动分割并识别出图像中的内容。在将深度学习应用到计算机视觉领域之前，构建图像语义分割的分类器通常是使用纹理基元森林，或者是随机森林。随着深度卷积神经网络的出现和蓬勃发展，为语义分割提供个一个非常有效的方法，将CNN应用到语义分割中取得了很好的进展,推动了语义分割的发展，使其在各个领域的应用都取得了显著的成果。

将深度学习应用到语义分割之后出现了很多经典的分割方法，比如全卷积网络FCN，具有encoder-decoder结构的SegNet网络和加入了空洞卷积的DeepLab，但是随着CNN网络层次的加深，不断的池化和下采样会使图片的位置信息和边界细节信息丢失，并且这一过程不可逆，被去掉的信息无法完全恢复，因此在解码阶段上采样后的特征图会由于信息的丢失变得稀疏，这些方法均有一定的局限性。

全卷积网络FCN和传统的SegNet网络由于下采样导致位置和边缘细节的丢失，在解码阶段进行上采样时丢失的信息并没有得以重现，得到的特征图是稀疏的，虽然SegNet网络通过池化索引恢复了位置信息，并利用卷积操作丰富边界和细节信息，但是仍然存在着大量的信息缺失。

空洞卷积是一个可以得到密集特征图的卷积层，但是使用空洞卷积的计算成本比较高，并且处理大量高分辨率特征图谱会占用大量内存。

目前图像语义分割方法普遍存在的问题就是，对边缘细节特征以及位置信息的保持仍需进一步提高，分割的精确也有待提升。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种利用特征融合增强边缘和细节信息的图像分割方法，实现对图像的分割。

为解决上述技术问题，本发明所采取的技术方案是：一种利用特征融合增强边缘和细节信息的图像分割方法，包括以下步骤：

步骤1：将训练数据集中的图像进行处理,得到统一分辨率的图像；

步骤1.1：将训练数据集中的图像进行缩放和裁剪,使输入的图像具有统一的尺寸；

步骤1.2：将输入的图象的分辨率固定为360×480；

步骤2：将图像输入到编码结构进行特征提取；所述编码结构与SegNet网络相同，采用VGG-16的前13层,同时在池化时加入最大池化索引来记住图像中像素的最大值及其所在的位置；

所述编码结构的每个卷积层的卷积核大小均为3×3，每一个卷积层之后的特征图记为conv_i_j,其中i＝1,2,3,4,5，当i＝1,2时,j＝1,2，当i＝3,4,5时,j＝1,2,3；同时，每一个卷积层之后连接Batch Normalisation和ReLU激活函数；每个池化层加入最大池化索引，利用2×2非重叠最大池化实现下采样的同时,通过最大池化索引记住像素最大值所在的位置，每一个池化层得到的特征图用pool_r来表示,其中r＝1,2,3,4,5；

所述在池化时加入最大池化索引来记住图像中像素的最大值及其所在的位置的具体方法为：

对于输入的特征图X∈R^h×w×c,其中h和w分别为特征图的高和宽,c为通道数,经过2×2非重叠最大池化得到特征图

其中,像素点(i,j)的值如下公式所示：

则像素点最大值所对应的的位置记为(m_i,n_j)，如下公式所示：

步骤3：将通过编码结构得到的池化特征图pool_5输入到加入更多特征融合的解码结构,利用最大池化索引在原位置释放像素最大值,其余位置用0填充,实现2倍上采样，得到稀疏特征图upsampling5；

所述解码结构包括三个三层卷积结构和两个二层卷积结构；所述解码结构中的每个卷积层之后连接Batch Normalisation和ReLU激活函数；

所述得到稀疏特征图upsampling5其中每个像素的值如下公式所示：

其中，Z_u,v为稀疏特征图upsampling5中像素点(u,v)的像素值；

步骤4：通过解码结构进行一次特征融合操作，将稀疏特征图upsampling5与卷积特征图conv_5_1和conv_5_2进行融合,并将融合得到的特征图与对应尺寸的池化特征图pool_4进行融合,得到融合特征图F₁；

所述融合的过程为特征图中对应位置的像素值进行加法运算；

将融合特征图F₁输入到第一个三层卷积结构中进行卷积操作,得到密集特征图conv_decode5,弥补池化和下采样引起的信息丢失；

步骤5：再通过解码结构进行四次特征融合操作，重复执行上采样、特征融合、卷积操作,直到特征图分辨率恢复到原始大小；

步骤5.1：通过解码结构进行第二次特征融合恢复图像信息；

步骤5.1.1：利用生成池化特征图pool_4时所保存的最大池化索引对conv_decode5进行2倍上采样,得到稀疏特征图upsampling4；

步骤5.1.2：将稀疏特征图upsampling4与编码结构中提取的具有相同分辨率的卷积特征图conv_4_1，conv_4_2，池化特征图pool_3进行融合，得到融合特征图F₂；

步骤5.1.3：将融合特征图F₂输入到第二个三层卷积结构中进行卷积操作,得到密集特征图conv_decode4；

步骤5.2：通过解码结构进行第三次特征融合恢复图像信息；

步骤5.2.1：利用生成池化特征图pool_3时所保存的最大池化索引对特征图conv_decode4进行2倍上采样,得到稀疏特征图upsampling3；

步骤5.2.2：将稀疏特征图upsampling3与编码结构中提取的具有相同分辨率的卷积特征图conv3_1，conv3_2和池化特征图pool_2进行特征融合,得到融合特征图F₃；

步骤5.2.3：将融合特征图F₃输入到第三个三层卷积结构中进行卷积操作,得到密集特征图conv_decode3；

步骤5.3：通过解码结构进行第四次特征融合恢复图像的细节信息；

步骤5.3.1：利用生成池化特征图pool_2时所保存的最大池化索引对特征图conv_decode3进行2倍上采样,得到稀疏特征图upsampling2；

步骤5.3.2：将稀疏特征图upsampling2与卷积特征图conv_2_1和池化特征图pool_1进行特征融合,得到融合特征图F₄；

步骤5.3.3：根据SegNet网络的对称性,将融合特征图F₄输入到第一个两层卷积结构中进行卷积操作,得到密集特征图conv_decode2；

步骤5.4：通过解码结构进行第五次特征融合恢复图像的边缘信息；

步骤5.4.1：利用生成池化特征图pool_1时所保存的最大池化索引对特征图conv_decode2进行2倍上采样,得到稀疏特征图upsampling1；

步骤5.4.2：将稀疏特征图upsampling1与卷积特征图conv_1_1进行特征融合,得到融合特征图F₅；

步骤5.4.3：将融合特征图F₅输入到第二个两层卷积结构中进行卷积操作,得到密集特征图conv_decode1；

步骤6：将密集特征图conv_decode1输入到Softmax层得到图像中像素分类的最大概率；

步骤7：通过图像中像素分类的最大概率计算交叉熵损失函数,通过随机梯度下降法来更新编码结构和解码结构中各卷积层和池化层的卷积核参数，实现图像的分割。

本发明方法的技术原理为：在原始的SegNet网络基础之上,对解码阶段进行改进,在恢复特征图分辨率的同时恢复图像位置及边界细节信息,得到密集的特征图；由于在编码结构中利用卷积层和池化层来提取图像的特征,并且不同深度的卷积层和池化层提取出来的是不同尺度的信息,在浅层结构提取到的是全局的低级语义信息,比如边缘、方向、纹理、色度等,深层结构提取到的是局部的高级语义信息,例如物体的形状,网络层次越深提取的特征就越抽象,为了提取出更加抽象的高级特征,所以该模型在编码结构中选择最大池化而不是平均池化。

由于在特征图中提取到的像素最大值及其所在的位置至关重要,在进行池化时不仅会丢失边缘细节信息,还会因为特征图分辨率的减小而丢失位置信息,所以在编码结构中加入了池化索引记住像素最大值的位置,解码结构通过池化索引将像素最大值在原位置进行释放,其余位置用0填充,这样既可以实现2倍上采样又可以恢复重要的位置信息,减小误差。

然而,随着解码结构网络层次的加深,提取出来的特征越来越抽象,很多边缘细节信息会被丢掉,并且每一层丢失的是不同尺度的信息,在解码结构中上采样后所得到的特征图除了最大值的位置其余全部为0,即得到的特征图是稀疏的,丢失的信息并没有在上采样后的特征图中得以重现,所以在解码结构中加入特征融合来恢复信息,将每一次上采样后得到的稀疏特征图均与编码阶段对应尺寸的卷积后以及池化后的特征图进行叠加。这样通过将每一个上采样后的特征图输入到融合结构中,逐渐恢复在编码阶段丢失的信息,再将融合的结果输入到卷积层中进一步丰富信息,得到更加密集的特征图,使分割效果更好,精度更高.本发明方法中共加入了五次特征融合，可以使分割的效果更加精确,同时也提升了对物体边缘和细节的分割。

采用上述技术方案所产生的有益效果在于：本发明提供的利用特征融合增强边缘和细节信息的图像分割方法，可以在恢复特征图分辨率的同时恢复在编码阶段丢失的位置和边界细节信息，丰富图片的信息,得到密集的特征图,弥补了直接上采样所带来的稀疏特征图,使分割的边界和细节更加清晰,提升了对细节细小物体分割效果,提高了分割的平均精度以及mIOU。

附图说明

图1为本发明实施例提供的一种利用特征融合增强边缘和细节信息的图像分割方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，一种利用特征融合增强边缘和细节信息的图像分割方法，如图1所示，包括以下步骤：

步骤1.2：将输入的图象的分辨率固定为360×480；

所述编码结构的每个卷积层的卷积核大小均为3×3，保证了图像尺寸不变,每一个卷积层之后的特征图记为conv_i_j,其中i＝1,2,3,4,5，当i＝1,2时,j＝1，2，当i＝3,4,5时,j＝1，2，3；同时，每一个卷积层之后连接Batch Normalisation和ReLU激活函数；BatchNormalisation是为了加快模型收敛的速度,并且在一定程度缓解了深层网络中的梯度弥散问题,从而使得训练深层网络模型更加容易和稳定；选择ReLU激活函数可以解决梯度消失,缓解网络的过拟合；每个池化层加入最大池化索引，利用2×2非重叠最大池化实现下采样的同时,通过最大池化索引记住像素最大值所在的位置，每一个池化层得到的特征图用pool_r来表示,其中r＝1,2,3,4,5；

编码结构使用VGG-16的前13层来提取图片的特征,利用卷积层和池化层提取不同尺度的图像特征,该结构的前4层可以看作是浅层结构，得到的是低级的语义信息,后9层可以看作是深层结构，得到的是高级的抽象信息,通过编码结构可以得到不同尺度的特征；

其中,像素点(i,j)的值如下公式所示：

所述得到的稀疏特征图upsampling5中每个像素的值如下公式所示：

其中，Z_u,v为稀疏特征图upsampling5中像素点(u,v)的像素值。

步骤4：由于上采样得到的特征图是稀疏的,所以通过解码结构进行一次特征融合操作；编码结构中提取的与稀疏特征图upsampling5具有相同分辨率的卷积特征图有conv_5_1,conv_5_2和conv_5_3,由于pool_5是由conv_5_3直接池化得到的,在2倍上采样的过程中已经恢复了一部分信息,同时也为了减少模型的训练参数,所以只将稀疏特征图upsampling5与卷积特征图conv_5_1和conv_5_2进行融合,并将融合得到的特征图与对应尺寸的池化特征图pool_4进行融合,得到融合特征图F₁；

为了保持原始SegNet网络的对称性，将融合特征图F₁输入到第一个三层卷积结构中进行卷积操作,得到密集特征图conv_decode5，进一步丰富图片的信息，弥补池化和下采样引起的信息丢失；

步骤4相当于第一次特征融合操作，本发明方法在解码过程中共需要进行五次特征融合,并且根据上采样深度的不同分为三种不同的融合形式,其中前三次融合的形式相同,下面还需进行四次特征融合。

步骤5：再通过解码结构进行四次特征融和操作，重复执行上采样、特征融合、卷积操作,直到特征图分辨率恢复到原始大小，得到密集特征图conv_decode1；

步骤5.1：通过解码结构进行第二次特征融合恢复图像信息；

步骤5.1.1：经过步骤4之后特征图conv_decode5的分辨率与池化特征图pool_4相同，利用生成池化特征图pool_4时所保存的最大池化索引对conv_decode5进行2倍上采样,得到稀疏特征图upsampling4；

步骤5.2：通过解码结构进行第三次特征融合恢复图像信息；

由于前三次特征融合均是对应三个阶段的编码特征图,具有相同的融合结构，并且参与融合的特征图分辨率较低,具有局部的抽象特征,所以利用相同的融合形式来进行局部抽象特征的恢复。

步骤5.3.2：由于经过步骤5.3.1后特征图的分辨率已经恢复到原图的

此时对应的特征图有conv_2_1，conv_2_2和pool_1,为了减少模型训练的参数,所以只将稀疏特征图upsampling2与卷积特征图conv_2_1和池化特征图pool_1进行特征融合,得到融合特征图F₄；

与前三次特征融合不同，此次特征融合对应两个阶段的编码特征图,用于恢复细节信息，所以融合形式不同；

步骤5.4.2：由于经过步骤5.4.1之后特征图的分辨率已经恢复到原来的尺寸,此时与通过编码结构得到的具有相同分辨率的特征图有卷积特征conv_1_1和conv_1_2,为了减少模型训练的参数,只将稀疏特征图upsampling1与卷积特征图conv_1_1进行特征融合,得到融合特征图F₅；

此次特征融合只有一个阶段的编码特征图参与到该融合中,并且用于边缘信息的恢复。

步骤6：将密集特征图conv_decode1输入到Softmax层得到图像中像素分类的最大概率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种利用特征融合增强边缘和细节信息的图像分割方法，其特征在于：包括以下步骤：

所述编码结构的每个卷积层的卷积核大小均为3×3，每一个卷积层之后的特征图记为conv_i_j,其中i＝1,2,3,4,5，当i＝1、2时,j＝1、2，当i＝3、4、5时,j＝1、2、3；同时，每一个卷积层之后连接Batch Normalisation和ReLU激活函数；每个池化层加入最大池化索引，利用2×2非重叠最大池化实现下采样的同时,通过最大池化索引记住像素最大值所在的位置，每一个池化层得到的特征图用pool_r来表示,其中r＝1,2,3,4,5；

步骤5：再通过解码结构进行四次特征融合操作，重复执行上采样、特征融合、卷积操作,直到特征图分辨率恢复到原始大小，得到密集特征图conv_decode1；

2.根据权利要求1所述的一种利用特征融合增强边缘和细节信息的图像分割方法，其特征在于：所述步骤1的具体方法为：

步骤1.2：将输入的图象的分辨率固定为360×480。

3.根据权利要求1所述的一种利用特征融合增强边缘和细节信息的图像分割方法，其特征在于：步骤2所述在池化时加入最大池化索引来记住图像中像素的最大值及其所在的位置的具体方法为：

其中,像素点(i,j)的值如下公式所示：

则像素点最大值所对应的位置记为(m_i,n_j)，如下公式所示：

4.根据权利要求3所述的一种利用特征融合增强边缘和细节信息的图像分割方法，其特征在于：步骤3所述解码结构包括三个三层卷积结构和两个二层卷积结构；所述解码结构中的每个卷积层之后连接Batch Normalisation和ReLU激活函数；

其中，Z_u,v为稀疏特征图upsampling5中像素点(u,v)的像素值。

5.根据权利要求1所述的一种利用特征融合增强边缘和细节信息的图像分割方法，其特征在于：步骤4所述融合的过程为特征图中对应位置的像素值进行加法运算。

6.根据权利要求4所述的一种利用特征融合增强边缘和细节信息的图像分割方法，其特征在于：所述步骤5的具体方法为：

步骤5.1：通过解码结构进行第二次特征融合恢复图像信息；

步骤5.2：通过解码结构进行第三次特征融合恢复图像信息；

步骤5.4.3：将融合特征图F₅输入到第二个两层卷积结构中进行卷积操作,得到密集特征图conv_decode1。