CN108876796A

CN108876796A - 一种基于全卷积神经网络和条件随机场的道路分割***及方法

Info

Publication number: CN108876796A
Application number: CN201810587529.6A
Authority: CN
Inventors: 宋青松; 严国萍; 张超; 王兴莉; 陈禹
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2018-11-23

Abstract

本发明公开了一种基于全卷积神经网络和条件随机场的道路分割***及方法，首先利用深度神经网络良好的特征表征能力，将道路分割视为一个二分类问题，构建一个基于VGG_16深度卷积网络的全卷积网络，实现道路图像端到端的路面和背景分类；然后利用全连接条件随机场能够实现图像精细分割的特点，采用全连接条件随机场对二分类得到的粗糙边缘再进行平滑优化。本发明方法获得了98.13％的分割准确率以及每0.84s处理1幅图像的分割速度，为交通场景图像道路分割提供了一种高效的解决方案。

Description

一种基于全卷积神经网络和条件随机场的道路分割***及方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于全卷积神经网络和条件随机场的道路分割***及方法。

背景技术

道路分割一直是智能驾驶研究领域中的重要课题。传统的道路分割方法多为基于颜色、纹理、边缘、道路几何形状等图像固有属性的研究。基于颜色的分割算法有鲁棒Gauss法，K-means聚类，最近邻法等。此类算法往往对路面阴影、积水等干扰敏感，分割性能易衰减。Catmull-Rom样条模型和B-Snake模型，该类方法要求道路边缘轮廓清晰，以便于控制点的选取，但该类方法过分依赖控制点，建模条件复杂，对边缘不清晰的路面没有很好的分割能力。

卷积神经网络广泛应用在计算机视觉领域，并取得突破性进展。但是传统的卷积神经网络使用较大的接受域，导致图像分割结果边缘粗糙，同时由于最大池化的使用，每一池化层只提取最明显特征，导致进一步加重了分割边缘粗糙的问题。条件随机场是Lafferty等针对标注问题提出的，是一种判别式概率无向图学习模型，但仅对同类特征或相似特征的组合具有优势，并且通常在观察数据的分布具有长距离依赖的情况下才具有良好的标注性能，不能很好的适用于其他情况。

发明内容

本发明的目的在于提供一种基于全卷积神经网络和条件随机场的道路分割***及方法，以克服上述现有技术存在的缺陷，本发明能够对自然场景下的交通场景进行有效的特征表征，显著改善了分割的正确率，提升分割精细程度，为高精度交通场景理解提供了一种高效的解决方案。

为达到上述目的，本发明采用如下技术方案：

一种基于全卷积神经网络和条件随机场的道路分割***，包括：交通场景图像输入模块，用于对交通场景图像的读取；基于VGG网络的特征自学习与表征模块，用于学习和提取交通场景图像的自身特征；双线性上采样与转置卷积模块，用于将SoftMax分类识别模块提取的特征采用双线性插值方法进行特征图的恢复，并且使恢复后的特征图尺寸和输入的交通场景图像相统一；Softmax分类识别模块，用于将恢复的特征图进行像素级分类，判别每一个像素属于路面或者属于背景的概率；CRF分割边缘优化模块，用于将全卷积神经网络提供的分割结果进一步优化，得到最终的精细道路分割结果。

其中，基于VGG网络的特征自学***均场近似的求解方式，解CRF图模型，优化道路分割结果。

一种基于全卷积神经网络和条件随机场的道路分割方法，包括以下步骤：

步骤1：输入交通场景图像；

步骤2：使用VGG基础神经网络自动学习表征交通场景图像的特征；

步骤3：对VGG基础网络自学习的特征进行转置卷积，使特征图恢复到输入的原始交通场景图像统一的尺寸；转置卷积初始化权重由双线性上采样方法提供；

步骤4：采用Softmax分类器实现对上采样后特征图的像素级类别分类，完成道路分割的第一阶段；

步骤5：采用CRF对道路分割结果进行优化，得到边缘更精细、准确的分割结果。

进一步地，步骤1中所述的交通场景图像从硬盘上保存的交通场景图像数据集中读取。

进一步地，步骤2中VGG基础神经网络自动学习表征交通场景图像的特征具体过程为：

步骤2.1：将原始交通场景图像进行减均值预处理，减均值方法为，求得该图像所有像素点的像素值均值，图像所有像素点值统一与所求均值作差，作差后所得减均值后图像用作训练。

步骤2.2：采用微调的网络训练方式，微调过程中损失函数定为像素间的交叉熵损失函数。分类结果与标注图进行像素级的比较。交叉熵损失函数为：

其中：N表示像素的数量，C表示类别的数量，变量t_nc表示第n个像素对应的实际分割区域，变量y_nc为模型的预测输出结果。优化器选用Adam，Adam优化器仅调整较少的参数就能使模型取得很好的效果，适合于微调训练，学习率设为10^-6；

步骤2.3：对每一张图像进行10次迭代训练，通过损失函数值的变化判断模型收敛情况，直到模型达到收敛状态；

进一步地，步骤3中采用双线性上采样和转置卷积进行特征图的恢复，双线性上采样示例，若存在n个像素点，此处n＝3，像素点为S₀、S₁、S₂。取上采样因子T＝3，双线性上采样后像素点变为m个，此处m＝9，像素点为t₀～t₈。S和t之间的连接线对应不同权重，由以上条件，我们给出双线性上采样的计算公式，

t(x)＝s(x-(c_n-c_m*T))

式中t(x)为插值像素对应的权重，x为目标像素，c_n为上采样后的中心像素，公式为：

c_n＝(n-1)/2

c_m为原像素中心像素点，公式为：

c_m＝(m-1)/2

式中s(u)公式为：

式中f(v)为双线性上采样过滤器，公式为：

以此得到转置卷积的初始权重。

进一步地，步骤4中采用Softmax分类器实现交通场景图像像素级分类分类方法为：

步骤5.1：构建Softmax分类器，对于给定的输入z，用假设函数h_δ(z)针对每一个类别l估算出概率值p(y＝l|z)，l∈{0,1}，假设函数h_δ(z)输出一个t维的向量表示这t个估计的概率值，t＝2，假设函数h_δ(z)如下：

其中，δ₁,δ₂是Softmax分类器的全部参数，z⁽ⁱ⁾为输入，y⁽ⁱ⁾为输出，Softmax分类器将z分为类别l的概率为：

其中，z⁽ⁱ⁾为输入，y⁽ⁱ⁾为输出；

步骤5.2：Softmax分类器接收转置卷积恢复的特征图作为其输入，输出像素的类别0或1，0表示背景1表示路面；对于RBM输出的特征z⁽ⁱ⁾，选择概率p(y⁽ⁱ⁾＝l|z⁽ⁱ⁾；δ)最大的类别l作为该特征对应的类别。

进一步地，采用CRF对道路分割结果进行优化的方法为：

条件随机场是图模型的一种特定类型。条件随机场用于根据全卷积神经网络提供的预测分类概率，分类概率由Softmax规范给出，以及原生图像的RGB特征来估计模型预测结果的最大后验分布。

假设存在一个随机区域X＝{X₁,...,X_N}，随机区域X中的每个变量对应于标注集L＝{l₁,...,l_k}；存在另一随机区域I＝{I₁,...,I_N}，其中I_j是像素j的颜色向量，X_j是像素j的分类标注，X_j的取值范围为标注集L。由此我们便可以得出条件随机场的概率函数，

式中x∈L，Z(I)是规范化因子,E(X)为能量函数。具体到每一个变量则使用ψ_u(x_i)表示。

通过最小化能量函数，来得到条件随机场的最大后验分布。在全图的条件下，便可以定义能量函数为：

式中ψ_u(x_i)为一元势函数，用于衡量当像素点i的颜色值为y_i时，i像素点属于类别标注x_i的概率，即每个像素点属于每个类别的概率值。

式中的第二项为成对势函数，公式为：

式中μ(x_i,x_j)用于度量两像素标签之间的兼容性。w_r为线性组合权重，K为高斯核数量，k^r为高斯核函数，用于度量像素点i和j的特征向量相似度的一个高斯权重项。特征向量f_i,f_j表示为(x,y,R,G,B)，即以像素点的像素值和坐标位置作为特征向量。

成对势函数，表示两事件同时发生的概率p(x_i,x_j)。如果两像素点i和j的颜色值y_i和y_j非常接近，那么这两个像素点的标注x_i和x_j属于同一个类别的概率就应该比较大；反之如果两像素点i和j的颜色差异比较大，那么在分割时从这两个像素点分开的概率应该比较大。成对势函数就是为了让图像尽量从目标的边缘分割开，以此来弥补全卷积神经网络分割时边缘粗糙的不足。能量函数具体的求解过程通过平均场近似Q(X)＝∏_iQ_i(X_i)，不断迭代更新Q(X)，最终通过最小化P(X)与Q(X)的K-L散度，得到模型的最优解。最终获得最优的道路分割结果。

与现有技术相比，本发明具有以下有益的技术效果：

本发明实现端到端，像素到像素的网络模型训练方式，同时解决了，传统分割模型分割结果边缘粗糙的问题。在路面分割中效果显著，能够应对各种复杂的场景，对各种复杂环境的道路都有很好的识别准确率，同时分割时间达到0.8s左右。在准确率和分割时间均得到提升。

附图说明

图1是本发明的流程示意图；

图2是本发明的双线性插值方法示意图；

图3是本发明的转置卷积示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

参见图1至图3，一种基于全卷积神经网络和条件随机场的道路分割***，包括图像输入模块；基于VGG网络的特征自学习与表征模块；双线性上采样与转置卷积模块；Softmax分类识别模块；CRF分割边缘优化模块；

交通场景图像输入模块，用于对交通场景图像的读取，输入图像尺寸为640*480RGB图像，对应相同尺寸的灰度标注图像；

基于VGG网络的特征自学习与表征模块包括：卷积神经网络特征表征模块，用于从减均值后的图像中提取交通场景图像自身固有特征，通过最大池化稀疏提取特征数量，保留有效特征，进而获得用于道路分割的特征；

双线性上采样和转置卷积进行特征图的恢复，双线性上采样示例，若存在n个像素点，此处n＝3，像素点为S₀、S₁、S₂。取上采样因子T＝3，双线性上采样后像素点变为m个，此处m＝9，像素点为t₀～t₈。S和t之间的连接线对应不同权重，由以上条件，我们给出双线性上采样的计算公式，

t(x)＝s(x-(c_n-c_m*T))

式中c_n为上采样后的中心像素，公式为：

c_n＝(n-1)/2

c_m为原像素中心像素点，公式为：

c_m＝(m-1)/2

式中s(u)公式为：

式中f(v)为双线性上采样过滤器，公式为：

以此得到转置卷积的初始权重。

采用Softmax分类器实现交通场景图像像素级分类，双线性上采样和转置卷积进行特征图的恢复后，Softmax对恢复的特征图进行分类，Softmax分类方法为：

构建Softmax分类器，对于给定的输入z，用假设函数h_δ(z)针对每一个类别l估算出概率值p(y＝l|z)，l∈{0,1}，假设函数h_δ(z)输出一个t维的向量表示这t个估计的概率值，t＝2，假设函数h_δ(z)如下：

其中，δ₁,δ₂是Softmax分类器的全部参数，z⁽ⁱ⁾为输入，y⁽ⁱ⁾为输出，Softmax分类器将x分为类别s的概率为：

其中，z⁽ⁱ⁾为输入，y⁽ⁱ⁾为输出；

Softmax分类器接收转置卷积恢复的特征图作为其输入，输出像素的类别0或1，0表示背景1表示路面；对于RBM输出的特征z⁽ⁱ⁾，选择概率p(y⁽ⁱ⁾＝l|z⁽ⁱ⁾；δ)最大的类别l作为该特征对应的类别。

CRF对道路分割结果进行优化，条件随机场是图模型的一种特定类型。条件随机场用于根据全卷积神经网络提供的预测分类概率，分类概率由Softmax规范给出，以及原生图像的RGB特征来估计模型预测结果的最大后验分布。

式中的第二项为成对势函数，公式为：

式中μ(x_i,x_j)用于度量两像素标签之间的兼容性。w^r为线性组合权重，K为高斯核数量，k^r为高斯核函数，用于度量像素点i和j的特征向量相似度的一个高斯权重项。特征向量f_i,f_j表示为(x,y,R,G,B)，即以像素点的像素值和坐标位置作为特征向量。

成对势函数，表示两事件同时发生的概率p(x_i,x_j)。如果两像素点i和j的颜色值y_i和y_j非常接近，那么这两个像素点的标注x_i和x_j属于同一个类别的概率就应该比较大；反之如果两像素点i和j的颜色差异比较大，那么在分割时从这两个像素点分开的概率应该比较大。成对势函数就是为了让图像尽量从目标的边缘分割开，以此来弥补全卷积神经网络分割时边缘粗糙的不足。能量函数具体的求解过程通过平均场近似Q(X)＝Π_iQ_i(X_i)，不断迭代更新Q(X)，最终通过最小化P(X)与Q(X)的K-L散度，得到模型的最优解。最终获得最优的道路分割结果。

一种基于全卷积神经网络和条件随机场的道路分割方法，具体步骤如下：

1)、输入交通场景图像；

2)、使用VGG基础神经网络自动学习表征交通场景图像的特征。依次通过图像减均值、微调的训练方式参数设置、网络训练并收敛。

2.1、将原始交通场景图像进行减均值预处理，减均值方法为，求得该图像所有像素点像素值均值，图像所有像素点值统一与所求均值作差。

2.2、采用微调的网络训练方式，微调过程中损失函数定为像素间的交叉熵损失函数。交叉熵损失函数为：

其中：N表示像素的数量，C表示类别的数量，变量t_nc表示第n个像素对应的实际分割区域，变量y_nc为模型的预测输出结果。优化器选用Adam，Adam优化器仅调整较少的参数就能使模型取得很好的效果，因此适合于微调训练，学习率设为10^-6；

2.3、每一张图像进行10次迭代训练，通过损失函数值的变化判断模型收敛情况，直到模型达到收敛状态；

3)、对VGG基础网络自学习的特征进行转置卷积，使特征图恢复到输入的原始交通场景图像统一的尺寸；转置卷积初始化权重由双线性上采样方法提供。

3.1、双线性上采样示例，若存在n个像素点，此处n＝3，像素点为S₀、S₁、S₂。取上采样因子T＝3，双线性上采样后像素点变为m个，此处m＝9，像素点为t₀～t₈。S和t之间的连接线对应不同权重，由以上条件，我们给出双线性上采样的计算公式，

t(x)＝s(x-(c_n-c_m*T))

式中c_n为上采样后的中心像素，公式为：

c_n＝(n-1)/2

c_m为原像素中心像素点，公式为：

c_m＝(m-1)/2

式中s(u)公式为：

式中f(v)为双线性上采样过滤器，公式为：

以此得到转置卷积的初始权重。

4)、构建Softmax分类器。对于给定的输入z，用假设函数h_δ(z)针对每一个类别s估算出概率值p(y＝l|z)，l∈{0,1}，假设函数h_δ(z)输出一个t维的向量表示这t个估计的概率值，t＝2，假设函数h_δ(z)如下：

其中，δ₁,δ₂,...,δ_t是Softmax分类器的全部参数，z⁽ⁱ⁾为输入，y⁽ⁱ⁾为输出，Softmax分类器将x分为类别s的概率为

对于RBM输出的特征z⁽ⁱ⁾，选择概率p(y⁽ⁱ⁾＝l|z⁽ⁱ⁾；δ)最大的类别s作为该特征对应的类别。

5)、全卷积神经网络分割完成后，采用CRF对道路分割结果进行优化。

初始分类概率由Softmax规范给出，结合原生图像的RGB特征来估计模型预测结果的最大后验分布。

式中的第二项为成对势函数，公式为：

实施效果

针对真实环境下采集的道路分割基准数据库测试了方法的有效性，方法获得了98.13％的平均分割准确率以及每幅图像0.84s的分割速度。由于采用了全卷积神经网络和条件随机场结合的方法，环境噪声鲁棒性得到改善，能够获得光滑的分割边缘，是一种有效的道路分割方法。

Claims

1.一种基于全卷积神经网络和条件随机场的道路分割***，其特征在于，包括：交通场景图像输入模块，用于对交通场景图像的读取；

基于VGG网络的特征自学习与表征模块，用于学习和提取交通场景图像的固有特征；

双线性上采样与转置卷积模块，用于将VGG网络提取的固有特征采用双线性插值方法进行特征图的恢复，并且使恢复后的特征图尺寸和输入的交通场景图像相统一；

Softmax分类识别模块，用于对恢复后的特征图进行像素级分类，判别每一个像素属于路面或者属于背景的概率；

CRF细节优化模块，用于将SoftMax分类识别模块提供的分割结果进一步优化，得到最终的精细道路分割结果。

2.一种基于全卷积神经网络和条件随机场的道路分割方法，其特征在于，包括以下步骤：

步骤1：输入交通场景图像；

步骤3：对VGG基础神经网络自动学习的特征进行转置卷积，使特征图恢复到输入的原始交通场景图像统一的尺寸；转置卷积初始化权重由双线性上采样方法提供；

步骤4：采用Softmax分类器实现对上采样后特征图的像素级类别分类，完成道路分割；

3.根据权利要求2所述的一种基于全卷积神经网络和条件随机场的道路分割方法，其特征在于，步骤2中使用VGG基础神经网络自动学习表征交通场景图像的特征具体过程为：

步骤2.1：将原始交通场景图像进行减均值预处理，减均值预处理具体为：求得该图像所有像素点的像素值均值，图像中所有的像素点均与所求得的均值作差，作差后的结果，用作训练；

步骤2.2：采用微调的网络训练方式，图像减均值处理后，将图像输入到网络进行训练，微调过程中损失函数定为像素间的交叉熵损失函数，SoftMax给出的分类结果和图像对应的标注图进行像素级的比较，交叉熵损失函数为：

其中：N表示像素的数量，C表示类别的数量，变量t_nc表示第n个像素对应的实际分割区域，变量y_nc为模型的预测输出结果；

步骤2.3：对每一张图像进行若干次迭代训练，通过损失函数值的变化判断模型收敛情况，直到模型达到收敛状态。

4.根据权利要求3所述的一种基于全卷积神经网络和条件随机场的道路分割方法，其特征在于，步骤2.2中微调的网络训练方式采用的优化器选用Adam，学习率设为10^-6。

5.根据权利要求2所述的一种基于全卷积神经网络和条件随机场的道路分割方法，其特征在于，步骤3中双线性上采样方法的计算公式如下：

t(x)＝s(x-(c_n-c_m*T))

式中t(x)表示插值目标像素对应的权重，x为目标像素，T为像素插值倍数，c_n为上采样后的中心像素，公式为：

c_n＝(n-1)/2

n为插值前像素总数量，c_m为原像素中心像素点，公式为：

c_m＝(m-1)/2

m为插值后像素总数量；

式中s(u)公式为：

式中式中S_i为原像素点的第i个像素，f(x)为双线性上采样过滤器，公式为：

以此得到转置卷积的初始权重。

6.根据权利要求2所述的一种基于全卷积神经网络和条件随机场的道路分割方法，其特征在于，步骤4中采用Softmax分类器实现交通场景图像像素级分类，具体方法为：

其中，z⁽ⁱ⁾为输入，y⁽ⁱ⁾为输出；

步骤5.2：Softmax分类器接收转置卷积恢复的特征图作为其输入，输出像素的类别0或1，0表示背景，1表示路面；对于RBM输出的特征x⁽ⁱ⁾，z⁽ⁱ⁾，选择概率p(y⁽ⁱ⁾＝l|z⁽ⁱ⁾；δ)最大的类别l作为该特征对应的类别。

7.根据权利要求2所述的一种基于全卷积神经网络和条件随机场的道路分割方法，其特征在于，步骤5中采用CRF对道路分割结果进行优化的方法为：

假设存在一个随机区域X＝{X₁,...,X_N}，随机区域X中的每个变量对应于标注集L＝{l₁,...,l_k}；存在另一随机区域I＝{I₁,...,I_N}，其中I_j是像素j的颜色向量，X_j是像素j的分类标注，X_j的取值范围为标注集L，由此得出条件随机场的概率函数，

式中x∈L，Z(I)是规范化因子，E(X)为能量函数；

通过最小化能量函数，得到条件随机场的最大后验分布，定义能量函数为：

式中ψ_u(x_i)为一元势函数，用于衡量当像素点i的颜色值为y_i时，i像素点属于类别标注x_i的概率，即每个像素点属于每个类别的概率值；

式中ψ_p(x_i,x_j)为成对势函数，公式为：

式中μ(x_i,x_j)用于度量两像素标签之间的兼容性，w_r为线性组合权重，K为高斯核数量，k^r为高斯核函数，用于度量像素点i和j的特征向量相似度的一个高斯权重项，特征向量f_i,f_j表示为，即以像素点的像素值和坐标位置作为特征向量；

能量函数具体的求解过程通过平均场近似Q(X)＝Π_iQ_i(X_i)，不断迭代更新Q(X)，最终通过最小化P(X)与Q(X)的K-L散度，得到模型的最优解，最终获得最优的道路分割结果。