CN107180430A

CN107180430A - 一种适用于语义分割的深度学习网络构建方法及***

Info

Publication number: CN107180430A
Application number: CN201710342354.8A
Authority: CN
Inventors: 陶文兵; 张灿; 李坤乾
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2017-09-19

Abstract

本发明公开了一种适用于语义分割的深度学习网络构建方法及***，该方法在反卷积网络语义分割的基础上，考虑到条件随机场对边缘优化较好的特点，将条件随机场解释为递归网络融入到反卷积网络中，进行端对端的训练，使得卷积网络和递归网络中的参数学习相互作用，最终训练出更好的集成网络。本发明提出的反卷积网络和条件随机场联合训练的方式，得到更强的细节和形状信息，解决了图像边缘分割不太准确的问题；结合多尺度输入和多尺度池化的策略，解决了语义分割中由于感受野单一而产生的大目标被过分割或小目标被漏分割的情况。本发明对经典的反卷积网络进行扩展，利用条件随机场联合训练和多特征信息融合策略，提高语义分割的准确性。

Description

一种适用于语义分割的深度学习网络构建方法及***

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种适用于语义分割的深度学习网络构建方法及***。

背景技术

随着网络数据量的***式增长，大数据图像处理和识别逐渐成为一个热门方向，其中深度学习技术已经成为大数据不可或缺的研究工具。虽然深度学习的发展时间不长，理论储备不完整，但深度网络构建方法层出不穷，在计算机视觉方向的应用效果显著。利用深度学习进行视觉感知立足于人脑视觉机理，多层次网络设计类比于分级的信息处理视觉***。人的视觉***处理分以下几部分，像素被瞳孔捕捉，然后大脑皮层发现边缘和方向，接着由边缘抽象出物体的形状，最后进一步抽象出物体的类别。深度网络类似，低级的层次提取边缘特征，中间级提取形状特征并做进一步抽象，最终获得整个目标或目标的行为更高层的特征进行分类。深度学习作为机器学习又一个新的里程碑，吸引了越来越多的图像研究者参与其中，具体理论包括图像分类，目标识别，语义分割等计算机视觉相关的问题，应用包括智能辅助驾驶***、人脸识别、图像检索等方面。

利用机器学习进行图像识别的思路一般按照以下几步进行：首先传感器获取图像数据，然后经过预处理和特征提取，接着进行特征选择，最后根据特征进行识别预测。预处理，特征提取和特征选择的目的是找到合适的特征表达以便于分类器分类。特征表达的有效性往往对最终识别的准确性起到最关键的作用，早期的特征表达都是人工提取的特征，手工选择特征复杂而且费力，多年的研究都对识别结果准确率提升不大。其中最具有代表性的尺度不变特征变换，虽然对旋转、尺度缩放、亮度变化保持不变性，但对于***的图像来说，仍然不能达到很好的识别效果。深度学习作为无监督的特征学习过程，自动的学习有用的特征，加上有大量数据的训练支持和强大的计算机运算能力，无疑成为计算机视觉研究的热点。二维图像可以直接作为网络的输入，避免了传统算法中需要对数据特征进行手工提取和重建数据的过程。卷积神经网络主要有两个方面的优点，第一，通过卷积层直接自动训练和提取特征，避免了特征的人工抽取，训练的特征提取器具有更好的鲁棒性；第二，卷积层上的神经元共享权重，可以进行并行的网络学习，减少了参数的训练量。卷积神经网络对位移、缩放及其他形式扭曲不变形的二维图形能够进行较好的识别，成为众多计算机视觉研究者的首选模型。

在众多计算机视觉问题中，图像语义分割是一个重要并且复杂的问题。图像语义分割和图像分类检测不同，图像分类检测是做图像级的理解，而语义分割是做像素级的理解，语义分割的目标是给定一张图片，对图片中每个像素点分类。传统的分割算法主要解决前景－背景分割、图片内容的聚类等问题，这些问题中对物体分类并没有标记语义信息，实际应用的话需要对分割块进行进一步的处理。利用卷积神经网络可以直接进行端对端的训练和预测，只需要提供相应的语义分割的数据集，设计训练网络结构，就可以得到语义分割的结果。

自深度学习中的卷积神经网络用于计算机视觉任务以来，众多学者对图像语义分割也产生了兴趣，并提出了很多适用于语义分割的卷积神经网络，相比于之前的传统方法，深度学习的框架进行语义分割的效果要好很多。虽然已经可以设计出较好的网络进行语义分割，但结果仍不能适用于各类图像，图像的多样性使得需要准备的训练数据量很大，而且各类别之间的干扰性使得像素级的预测并不能达到特别准确。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的在于提供了一种适用于语义分割的深度学习网络构建方法及***，由此解决现有的适用于语义分割的卷积神经网络对语义分割的准确性较低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种适用于语义分割的深度学习网络构建方法，包括：

S1、对数据集中的图像进行多尺度变换，其中，所述数据集中的图像均已按照类别进行标记；

S2、将经过多尺度变换后的图像以及相应标记作为深度学***均场迭代层，所述网络结构文件的修改包括多尺度池化的网络设置，所述网络求解文件的修改包括训练参数设置；

S3、在所述平均场迭代层中利用平均场迭代算法对所述反卷积网络输出进行迭代优化；

S4、根据修改后的网络结构文件和网络求解文件，采用反卷积网络和条件随机场联合训练的方式，得到目标深度学习网络，所述目标深度学习网络能够对经过多尺度变换后的待测试图像进行语义分割。

优选地，步骤S2具体包括以下子步骤：

S2.1、将经过多尺度变换后的图像以及相应标记作为输入送入到构建leveldb的可运行程序中，修改成Caffe能够直接使用的文件；

S2.2、设置Caffe中的网络结构文件中的卷积层和池化层的类型以及网络结构文件中的操作参数，对最后一层池化层进行多尺度池化操作，将输入的图像分为与多尺度池化对应的多个区域，并获取每个区域的值填入最后一层池化层；

S2.3、将平均场算法的实现添加到深度学习网络的caffe框架中；

S2.4、caffe.proto更新ID(M,N)，并设置参数；SIMPLE_FAST_MEANFIELD＝M，MULTI_STAGE_MEANFIELD＝N，其中，M、N为正整数；

S2.5、改动深度学***均场迭代层；

S2.6、对训练文件中的网络模型、基础学习率、学习更新策略、上一次梯度更新的权重、最大迭代次数以及运行模式进行设置。

优选地，步骤S3具体包括以下子步骤：

S3.1、由得到平均场迭代的反馈输入，其中V₂(t)＝f_θ(U,V₁(t),I),0≤t≤T表示经过平均场迭代的输出；

S3.2、由得到最终的输出结果，其中，soft max为进行概率的归一化操作，U为反卷积网络的输出，t表示当前迭代，T表示迭代总次数，V₁和V₂为迭代时的中间变量，I为输入的经过多尺度变换后的二维图像，f_θ为平均场迭代算法计算过程，θ为需要训练的条件随机场的参数，具体包括各个高斯核函数的权重系数和二元关系之间的系数，Y(t)为最终的语义分割输出。

优选地，最终的平均场迭代的输出V₂(t)的具体计算方法为：

A1、用反卷积网络语义分割粗略结果对一元势函数项U_i(l)进行初始化，并由得到概率归一化值，其中Z_i＝∑_lexp(U_i(l))，l为类别标记，U_i(l)为i像素属于l类别的概率；

A2、通过高斯核函数k^m(p_i,p_j)传递像素点分类标记之间的相互影响并用系数ω^(m)求其加权和，其中用以下公式来表示：

其中，i,j表示像素点，p_i，p_j表示对应像素点的像素值，k^m(p_i,p_j)表示第m个高斯核函数；

A3、根据均衡二元关系之间的系数μ(l,l')得到像素点分类标记之间的相互影响关系：Q_i(l)＝∑_l'∈Lμ(l,l')Q_i(l')，其中，l'表示不同于_l的类别，L表示所有类别的集合；

A4、加入一元势函数项U_i(l)，具体为：Q_i(l)＝U_i(l)-Q_i(l)；

A5、由更新Q_i(l)，将输出作为新的输入，跳转至步骤A2直至收敛或者达到最大迭代次数，其中，Z_i＝∑_lexp(U_i(l))，最终得到的Q_i(l)即为平均场迭代输出V₂(t)。

优选地，步骤S4具体包括以下子步骤：

S4.1、将经过多尺度变换后的图像以及相应标记作为输入送入到所述深度学习网络；

S4.2、通过所述卷积网络提取图像的目标区域的特征，通过所述反卷积网络还原所述目标区域的细节信息和形状信息，得到实际输出各类别的概率；

S4.3、计算实际的输出概率与标记之间的差值；

S4.4、根据所述差值按极小化误差的方法反向传播调整卷积核参数和偏移向量参数以及条件随机场的优化参数。

优选地，所述多尺度包括3个尺度，分别为0.5，1，1.5，表示对原图像进行相应倍数的缩放。

优选地，所述多尺度池化采用3种不同的尺度，分别为1×1，2×2，4×4，分别将图像分为1个区域，4个区域，16个区域。

按照本发明的另一方面，提供了一种适用于语义分割的深度学习网络构建***，包括：

图像变换模块，用于对数据集中的图像进行多尺度变换，其中，所述数据集中的图像均已按照类别进行标记；

设置模块，用于将经过多尺度变换后的图像以及相应标记作为深度学***均场迭代层，所述网络结构文件的修改包括多尺度池化的网络设置，所述网络求解文件的修改包括训练参数设置；

优化模块，用于在所述平均场迭代层中利用平均场迭代算法对所述反卷积网络输出进行迭代优化；

联合训练模块，用于根据修改后的网络结构文件和网络求解文件，采用反卷积网络和条件随机场联合训练的方式，得到目标深度学习网络，所述目标深度学习网络能够对经过多尺度变换后的待测试图像进行语义分割。

总体而言，本发明方法与现有技术方案相比，能够取得下列有益效果：

(1)本发明在反卷积网络语义分割方法的基础上，考虑到条件随机场对边缘优化较好的特点，将条件随机场解释为递归网络融入到反卷积网络中，进行端对端的训练，使得卷积网络和递归网络中的参数学习相互作用，最终训练出更好的深度学习网络。

(2)本发明提出了一种反卷积网络和条件随机场联合训练的方式，参数具有更强的鲁棒性，可以得到更强的细节和形状信息，解决了图像边缘分割不太准确的问题。

(3)本发明通过输入多尺度图片并采用多尺度池化的策略来改变神经网络的感受野，感受野的变化保证了大小目标的完整性，使得训练出的深度学习网络可以解决语义分割中由于感受野单一而产生的大目标被过分割或者小目标被漏分割的情况。

(4)本发明对经典的反卷积网络进行扩展，利用条件随机场联合训练和多特征信息融合的策略，使得训练出的深度学习网络在对图像进行语义分割时，可以提高语义分割的准确性。

附图说明

图1为本发明实施例公开的一种适用于语义分割的深度学习网络的网络框架图；

图2为本发明实施例公开的一种适用于语义分割的深度学习网络构建方法的流程示意图；

图3为本发明实施例公开的一种平均场迭代方法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示为本发明实施例公开的一种适用于语义分割的深度学***均场迭代层(即CRF-RNN层)。

如图2所示为本发明实施例公开的一种适用于语义分割的深度学***均场迭代过程；4)条件随机场和反卷积网络联合训练。其具体实施方式如下：

S1、对数据集中的图像进行多尺度变换，其中，上述数据集中的图像均已按照类别进行标记；

其中，多尺度包括3个尺度，分别为0.5，1，1.5，表示对原图像进行相应倍数的缩放。

S2、将经过多尺度变换后的图像以及相应标记作为深度学***均场迭代层，网络结构文件的修改包括多尺度池化的网络设置，网络求解文件的修改包括训练参数设置；

其中，步骤S2具体包括以下子步骤：

S2.2、设置Caffe中的网络结构文件中的卷积层和池化层的类型以及网络结构文件中的操作参数，对最后一层池化层进行多尺度池化操作，以将输入的图像分为与多尺度池化对应的多个区域，并获取每个区域的值填入池化层；

S2.4、caffe.proto更新ID(M,N)，并设置参数；SIMPLE_FAST_MEANFIELD＝M，MULTI_STAGE_MEANFIELD＝N，其中，M、N为正整数；优选地，M取值为54，N取值为55；

S2.5、改动深度学***均场迭代层meanfield；

将训练文件的网络架构部分加入多尺度操作部分，多尺度池化采用3种不同的尺度，分别为1×1，2×2，4×4，分别将图像分为1个区域，4个区域，16个区域，并取得每个区域的值填入池化层；训练核心文件solver.prototxt需要进行设置，主要包括网络模型名称(训练时所用的train.prototxt)，基础学习率(base_lr＝0.01)，学习更新策略(lr_policy:"step")，上一次梯度更新的权重(momentum:0.9)，最大迭代次数(max_iter:20000)，运行模式(GPU)等。

S2.6、对所述训练文件中的网络模型、基础学习率、学习更新策略、上一次梯度更新的权重、最大迭代次数以及运行模式进行设置。

S3、在平均场迭代层中利用平均场迭代算法对反卷积网络输出进行迭代优化；

如图3所示为本发明实施例公开的一种平均场迭代方法示意图，包括：

S3.2、由得到最终的输出结果，其中，soft max为进行概率的归一化操作，U为反卷积网络的输出(即语义分割粗略结果)，t表示当前迭代，T表示迭代总次数，V₁和V₂为迭代时的中间变量，I为输入的经过多尺度变换后的二维图像，f_θ为平均场迭代算法计算过程，θ为需要训练的条件随机场的参数，具体包括各个高斯核函数的权重系数和二元关系之间的系数，Y(t)为最终的语义分割输出。

其中，最终的平均场迭代的输出V₂(t)的具体计算方法为：

A1、用反卷积网络语义分割粗略结果对一元势函数项U_i(l)进行初始化，并由得到概率归一化值，其中Z_i＝Σ_lexp(U_i(l))，l为类别标记，U_i(l)为i像素属于l类别的概率；

其中，i,j表示像素点，p_i，p_j表示对应像素点的像素值，k^m(p_i,p_j)表示第m个高斯核函数，高斯核函数的个数可以根据实际需要进行确定；

例如，采用两个不同的高斯核函数，即m取1和2，θ_α，θ_β，θ_γ具体设置为160，3，3，核函数中p_i，p_j分别为i，j像素的颜色值，I_i，I_j为i，j像素的位置坐标值。

A3、根据均衡二元关系之间的系数μ(l,l')得到像素点分类标记之间的相互影响关系：Q_i(l)＝Σ_l'∈Lμ(l,l')Q_i(l')，其中，l'表示不同于l的类别，L表示所有类别的集合；

其中，主要考虑每个类别的差异性，对于差异较小的两个类其系数μ(l,l')较小，取值范围为-1到0。

A4、加入一元势函数项U_i(l)，具体为：Q_i(l)＝U_i(l)-Q_i(l)；

A5、由更新Q_i(l)，将输出作为新的输入，跳转至步骤A2直至收敛或者达到最大迭代次数，其中，Z_i＝Σ_lexp(U_i(l))，最终得到的Q_i(l)即为平均场迭代输出V₂(t)。

优选地，最大迭代次数为10。

其中，softmax回归模型是基于logistics模型的二分类问题进行推广的，可以将其应用到多分类问题，具体的，对于训练集{(x⁽¹⁾,y⁽¹⁾),...(x^(l),y^(l))}，x⁽ⁱ⁾为训练样本(这里即每个像素点的像素值)，y⁽ⁱ⁾为每个像素对应的标签，y⁽ⁱ⁾∈{1,2,...,k}。对于每个输入x，需要通过卷积神经网络得到其属于每一类的概率，我们用θ简单表示整个网络需要训练的参数，那么可以用假设函数来表征，具体如下：

其中θ₁,θ₂,...,θ_k为需要训练的模型参数，这一项是用来归一化输出概率，主要保证概率和为1。

S4、根据修改后的网络结构文件和网络求解文件，采用反卷积网络和条件随机场联合训练的方式，得到目标深度学习网络，该目标深度学习网络能够对经过多尺度变换后的待测试图像进行语义分割。

其中，步骤S4主要是联合训练，将整个网络联合起来进行训练，将搜集的数据集和相应的标记标签输入到网络；通过卷积层，池化层等进行特征的一步步提取，经过反卷积网络还原目标的细节信息和形状信息，得到此区域每一类的概率图，将概率图和原图输入到平均场迭代过程中进行迭代优化得到优化后的输出概率图；最后计算实际的输出与标记之间的差值并按极小化误差的方法反向传播调整卷积核参数和偏移向量参数以及条件随机场的优化参数，保存网络的参数以便进行测试。具体包括以下子步骤：

S4.3、计算实际的输出概率与标记之间的差值；

在得到训练好的网络图之后，可以将测试图片进行多尺度变换，变换为0.5，1，1.5三种尺度，并依次送入到训练好的深度网络中去，将多尺度图片的概率图进行求和归一化操作得到最终的概率图，根据概率图得到最终的语义分割结果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于语义分割的深度学习网络构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S2具体包括以下子步骤：

S2.5、改动深度学***均场迭代层；

3.根据权利要求1所述的方法，其特征在于，步骤S3具体包括以下子步骤：

S3.2、由得到最终的输出结果，其中，softmax为进行概率的归一化操作，U为反卷积网络的输出，t表示当前迭代，T表示迭代总次数，V₁和V₂为迭代时的中间变量，I为输入的经过多尺度变换后的二维图像，f_θ为平均场迭代算法计算过程，θ为需要训练的条件随机场的参数，包括各个高斯核函数的权重系数和二元关系之间的系数，Y(t)为最终的语义分割输出。

4.根据权利要求3所述的方法，其特征在于，最终的平均场迭代的输出V₂(t)的具体计算方法为：

<mrow> <msubsup> <mi>Q</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </msub> <msup> <mi>k</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>Q</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mi>m</mi> </msub> <msup> <mi>&omega;</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msup> <msubsup> <mi>Q</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow>

A3、根据均衡二元关系之间的系数μ(l,l')得到像素点分类标记之间的相互影响关系：Q_i(l)＝∑_l'∈Lμ(l,l')Q_i(l')，其中，l'表示不同于l的类别，L表示所有类别的集合；

A4、加入一元势函数项U_i(l)，具体为：Q_i(l)＝U_i(l)-Q_i(l)；

5.根据权利要求4所述的方法，其特征在于，步骤S4具体包括以下子步骤：

S4.3、计算实际的输出概率与标记之间的差值；

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述多尺度包括3个尺度，分别为0.5，1，1.5，表示对原图像进行相应倍数的缩放。

7.根据权利要求1至5任意一项所述的方法，其特征在于，所述多尺度池化采用3种不同的尺度，分别为1×1，2×2，4×4，分别将图像分为1个区域，4个区域，16个区域。

8.一种适用于语义分割的深度学习网络构建***，其特征在于，包括：