CN111798469A

CN111798469A - 基于深度卷积神经网络的数字图像小数据集语义分割方法

Info

Publication number: CN111798469A
Application number: CN202010668359.1A
Authority: CN
Inventors: 万夕里; 菅政; 管昕洁
Original assignee: Zhuhai Hangu Technology Co ltd
Current assignee: Zhuhai Hangu Technology Co ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-10-20

Abstract

一种基于深度卷积神经网络的小数据集语义分割方法，步骤包括：(1)采集含有待分割目标的图像样本，并标记各个样本，构建语义分割数据集，然后划分数据集；(2)搭建深度卷积神经网络，所述深度卷积神经网络包括特征提取子网络、特征扩张子网络；(3)对待检测的图像进行预处理；(4)利用数据集训练深度卷积神经网络，用性能评估函数评估网络性能，将达到预设指标且性能最佳的卷积神经网络参数保存；(5)将经步骤(3)处理的图像依次输入特征提取子网络和特征扩张子网络，得到空间尺寸和输入图像相同的特征向量；(6)将步骤(5)得到的特征向量生成预测标签图像。

Description

基于深度卷积神经网络的数字图像小数据集语义分割方法

技术领域

本发明属于计算机视觉技术领域，具体涉及基于深度卷积神经网络的语义分割方法，是一种在小数据集的应用情景中表现优异的基于深度神经网络和数字图像处理的新神经网络结构语义分割方法。需要技术中，小数据集通常是指标签类别数少且数据样本量少的数据集。

背景技术

FCN是深度学习技术应用于语义分割领域的开山之作，其性能在绝大多数情况下远超传统的基于计算机视觉的语义分割方法。

随后U-Net以及其一系列变体网络，SegNet、PspNet、Deeplab系列网络等等相继发布，不断刷新coco、pascal voc、imagenet等数据集的最高分数，语义分割技术也不断发展不断成熟。但是上述的这些神经网络都有着较大的参数量，当数据集较小时，会导致训练困难，训练好的网络泛化能力差，训练和使用时需要的存储空间和处理机资源都较多，因而不适合小型的数据集上的语义分割任务。

本发明提出的神经网络在现有的U-Net的基础上进行了改变，得到了一种适合小数据集语义分割任务的神经网络，受益于参数量少，网络的训练难度也不高，训练和投入使用时所需占用存储空间和处理机资源较少，而且效果更好。

发明内容

本发明的目的在于提供了一种参数量更少，精度更高，速度更快，占用存储空间和处理机资源更少的适合小数据集的语义分割方法，本发明技术方案的设计思路如下：

(1)采集图像样本，并对每一个样本进行标记，构建图像语义分割数据集，将数据集划分，按照一定比例(如8：1：1)分为训练集、验证集、测试集；

(2)搭建深度卷积神经网络，所述深度卷积神经网络由两个部分组成，第一部分是一个特征提取子网络，第二部分是特征扩张子网络；

(3)对待检测的图像进行预处理；

(4)利用(1)中的数据集训练深度卷积神经网络，用性能评估函数评估网络性能，将达到预设指标且性能最佳的卷积神经网络参数保存；

(5)将经(3)处理的图像输入特征提取子网络进行特征提取，得到可以表征输入图像的高层特征向量；

(6)将(5)得到的特征向量输入到特征扩张子网络，得到空间尺寸和(5)中输入图像相同的特征向量；

(7)将(6)得到的特征向量生成预测标签图像。

所述特征提取子网络，包含五个卷积块，前两个卷积块中每个卷积块中含有两个使用整流线性单元激活函数的卷积层和一个最大池化层，后面的卷积块中都含有两个使用整流线性单元激活函数卷积层和一个最大池化层，最后一个卷积块中含有两个使用整流线性单元激活函数的卷积层。上述五个卷积块的卷积层所用卷积核的空间尺寸都为3x3，步长都为1，卷积操作后输出的特征向量的通道数分别为64、128、256、512、512。上述最大池化层的池化窗口尺寸都为2x2，步长为2。

所述特征扩张子网络，包含若干个卷积块，每个卷积块包含一个上采样操作，之后是一个层叠操作，将上采样得到的特征向量和特征提取子网络中对应层级的卷积块的输出按照通道维度层叠在一起，之后是两个使用整流线性单元激活函数的卷积层。在扩张子网络的最后是一个卷积核尺寸为1x1，输出通道数为目标类别数加一，并且配softmax激活函数的卷积层。

所述数据预处理，包含了各种仿射变换，亮度、饱和度、对比度调节，对亮度偏暗的图像进行整体的线性变化和非线性变换，对曝光不均匀的图像进行直方图均衡化，以及用mixup方法作图像融合。

所述训练深度神经网络，将训练集分为多个批次输入上述深度神经网络，得到网络的输出，再将网络输出和输入图像对应的使用基于骰子系数的骰子损失函数

公式中p表示每批中所有所述图像中所有像素预测类别概率，q表示每批中所有所述图像对应的标签图像中所有像素的真实类别；

在所述损失函数中加入l2正则化项，所述l2正则化项为：

加入所述l2正则化项后目标函数为：

公式中J表示目标函数，L为所述dice loss函数，m表示每批中所有所述图像中所有像素数量，λ表示所述l2正则化的超参数，L表示所述深度神经网络模型中的卷积层数；

基于反向传播法，根据所述目标函数来计算所述深度神经网络模型中各项模型参数变化的梯度，并使用最优化方法，根据计算得到的梯度值来调整所述深度神经网络模型中各项模型参数的值；

所述性能评估函数，包含但不仅包含有像素准确率PA、平均重合率MIOU以及频权重合率FWIOU三个性能评估指标。

上述三条公式中k表示所述图像中像素的类别数，p_ii表示每批所述图像中像素预测类别概率最大的类别和所述图像对应的标签图像中像素的真实类别相同的像素的总数，p_ij为每批所述图像中像素预测类别概率最大的类别为j类和所述图像对应的标签图像中像素的真实类别为i类的像素的总数，p_ji为每批所述图像中像素预测类别概率最大的类别为i类和所述图像对应的标签图像中像素的真实类别为j类的像素的总数。

本发明的有益效果为：

本技术方案在小数据集条件下，精度更高、速度更快，投入运行所需占用内存和处理机资源更少。

本技术方案取得上述成果的技术原因有：1)在语义分割中高层语义特征靠近输出端但分辨率低，高分率特征靠近输入端但语义层次低，本神经网络通过调整特征扩张自网络的层叠操作中高分辨率特征图和高语义特征图比例，使得网络整体能够获得更高的精度；2)在神经网络的训练和使用中，网络中的参数量直接影响网络占用的内存和处理机资源的多少和速度的快慢。本神经网络在保证高精度的同时只包含了较少的参数量，在训练和使用时占用的内存和处理机资源就较少，速度也就更快；3)本神经网络的参数量少，在小数据集上训练时过拟合的风险低，损失函数能更快地收敛且训练好的网络有足够的泛化能力和较强的鲁棒性。

附图说明

图1是本方法实施例的流程示意图。

图2是本方案的深度神经网络的示意图。

具体实施方式

以下结合具体实施例对本技术方案进一步说明：

如图1，本具体实施方式的两个实施例分别为：

实施例1

本实例分为两个阶段分别为训练阶段和使用阶段，需要说明的是下述的目标类别既包括有背景类。

训练阶段分为一下几个步骤：

步骤(1.1)采集图像样本，所采集的样本包含有各种可能出现的场景下能够拍摄到的图像，其中包含同时有一种或者多种目标的图像，也包含没有任何目标的纯背景图像；所采集的图像可以是任意颜色模式下通道数大于等于1的图像；

步骤(1.2)图像预处理，将步骤(1.1)得到的图像转换为同一种存储格式，方便下述的统一处理，然后再进行图像清洗，去除非正常拍摄图像，例如：模糊度大的图像、未充分聚焦的图像，如果有两张及以上完全相同的图像只保留一张。挑选出总体亮度偏暗的图像，通过直方图均衡化重新分配图像象元值，使得各个颜色通道中各个亮度级的像素个数大致相同；

步骤(1.3)图像标注，使用任意图像标注工具(例如：labelme)对步骤(1.2)得到的所有图像逐个进行标注，标注前确定损伤类总数N，并赋予每个损伤类一个唯一的类别标签值，1到N，标记一张图像时应将图像中背景区域内的所有像素的标签都标为0，然后将各个目标类区域内的所有像素的标签都标为各自的类别标签值。根据标注工具提供的对应方法生成标签图像。标签图像和原始图像存储文件名应该对应。

步骤(1.4)数据集划分，将原始图像和它对应的标签图像视为划分的最小单元，按照一定比例(如8：1：1)将所有的最小单元分为训练集、验证集、测试集。

步骤(1.5)搭建深度神经网络，使用任意的深度学习框架，例如：pytorch、tensorflow、keras、caffe、mxnet等，所述深度神经网络有两个部分组成，依次是特征提取子网络和特征扩张子网络。

所述特征提取子网络，包含五个卷积块，前两个卷积块中每个卷积块中含有两个使用整流线性单元激活函数的卷积层和一个最大池化层，后面的卷积块中都含有两个使用整流线性单元激活函数卷积层和一个最大池化层，最后一个卷积块中含有两个使用整流线性单元激活函数的卷积层。

上述五个卷积块的卷积层所用卷积核的空间尺寸都为3x3，步长都为1，卷积操作后输出的特征向量的通道数分别为64、128、256、512、512。上述最大池化层的池化窗口尺寸都为2x2，步长为2。

所述特征扩张子网络，包含四个卷积块，每个卷积块包含一个上采样操作，之后是一个层叠操作。将上采样得到的特征向量和特征提取子网络中对应层级的卷积块的输出按照通道维度层叠在一起，之后是两个使用整流线性单元激活函数的卷积层。上述四个卷积块各自的上采样操作后得到的特征向量的通道数依次为1024、512、256、128，上述四个卷积块各自的堆叠操作中待堆叠的两个特征向量的通道数分别是1024与512、512与256、256与128和128与64，上述四个卷积块各自的堆叠操作后得到的特征向量的通道数分别是1536、768、384和192。在扩张子网络的最后是一个卷积核尺寸为1x1，输出通道数为目标类别数加一，并且配softmax激活函数的卷积层。

上述特征提取子网路可以包含三个及以上的卷积块，一个卷积块之后可以再接一个卷积块的前提是这个卷积块输出的特征向量的空间尺度长和宽都大于或者等于2。特征扩张子网络包含的卷积块个数和特征提取子网络相同。上述特征扩展子网络中的上采样操作可以是双线性插值、最近邻插值或者转置卷积。

上述特征提取子网络和特征扩张子网络中的卷积块的个数应该作为一个超参数，并且和数据集中图像的数量、目标类别数、图像中目标检测的困难程度呈正相关。

步骤(1.6)训练深度神经网络，将步骤(1.4)中划分的训练集中的所有图像分为多个批次，每个批次的样本总数为N，对每个批次的图像和其对应的标签图像作数据增广，然后对标签图像进行onehot编码。

将一个批次的所有样本送入步骤(1.5)搭建的深度神经网络中，得到输出的特征向量。

然后将输出的特征向量和本批的经过onehot编码的标签图像一起输入损失函数中，得到误差；

然后计算上述深度神经网络中每一层的可训练参数的梯度；

然后使用设定了学习率的优化器进行优化。

当所有批次都经过上述过程后，此时一轮完成。每一轮结束后将验证集中的所有图像划分为多个批次，每个批次的样本总数为M，对每个样本中的标签图像进行onehot编码，将一个批次的所有样本送入步骤(1.5)搭建的深度神经网络中，得到输出的特征向量。

然后将输出的特征向量和本批的经过onehot编码的标签图像一起输入损失函数和性能评估函数中，得到误差和性能指标，并保存到数组中。

验证集中所有批次都经过上述过程后结束。

将误差数组和性能指标数组计算数组均值，将性能最好的参数以及模型保存。预设最多训练轮数，经过多轮训练之后，当训练轮数达到最多训练轮数时停止训练。训练时使用学习率自动衰减策略。

上述数据增广包含了对样本的随机打乱，各种随机仿射变换，一定范围，例如：1±0.4，随机亮度、饱和度、对比度调节，以及mixup图像融合。需要说明的是上述亮度、饱和度、对比度调节单独对原始图像进行，而其他操作需要同时对原始图像和标签图像进行，具体的实现需要对随机变换设置相同的随机种子，保证对每一样本中的原始图像和其对应标签图像作相同的随机操作。

上述mixup图像融合方法具体操作如下：首先，按照α为1，β为1的beta分布生成N(N为每批中样本总数)个随机数λ(α，β可以取其他值)；然后，对上述当前批次中所有样本克隆一份，将克隆的这一份中的所有样本再次随机打乱；最按照下面公式进行融合。

上述公式中，λ为一个上述的随机数，(x_i，y_i)为当前批次中的一个样本，i＝1,2,…,N；(x_j，y_j)为当前批次的克隆中的一个样本，

为融合后生成的新样本。

测试阶段分为以下几个步骤：

步骤(2.1)加载步骤(1.6)中保存的性能最好的网络和参数，并将参数加载到网路中。

步骤(2.2)将测试集中的所有图像划分为多个批次，每个批次的样本总数为M，对每个样本中的标签图像进行onehot编码，将一个批次的所有样本送入步骤(1.5)搭建的深度神经网络中，得到输出的特征向量；

测试集中所有批次都经过上述过程后结束。

将误差数组和性能指标数组计算数组均值，看网络的性能指标是否达到预设标准。如果达标结束，如果未达标，回到步骤(1.5)，调整超参数，重复上述过程，直到在测试集上的性能指标达标。

实施例2

训练阶段分为一下几个步骤：

步骤(1.3)图像标注，使用任意图像标注工具(例如:labelme)对步骤(1.2)得到的所有图像逐个进行标注，标注前确定损伤类总数N，并赋予每个损伤类一个唯一的类别标签值，1到N，标记一张图像时应将图像中背景区域内的所有像素的标签都标为0，然后将各个目标类区域内的所有像素的标签都标为各自的类别标签值。根据标注工具提供的对应方法生成标签图像。标签图像和原始图像存储文件名应该对应。

所述特征提取子网络，包含四个卷积块，前两个卷积块中每个卷积块中含有两个使用整流线性单元激活函数的卷积层和一个最大池化层，后面的一个卷积块中都含有两个使用整流线性单元激活函数卷积层和一个最大池化层，最后一个卷积块中含有两个使用整流线性单元激活函数的卷积层。上述五个卷积块的卷积层所用卷积核的空间尺寸都为3x3，步长都为1，卷积操作后输出的特征向量的通道数分别为64、128、256和512。上述最大池化层的池化窗口尺寸都为2x2，步长为2。

所述特征扩张子网络，包含三个卷积块，每个卷积块包含一个上采样操作，之后是一个层叠操作，将上采样得到的特征向量和特征提取子网络中对应层级的卷积块的输出按照通道维度层叠在一起，之后是两个使用整流线性单元激活函数的卷积层。上述四个卷积块各自的上采样操作后得到的特征向量的通道数依次为512、256和128，上述四个卷积块各自的堆叠操作中待堆叠的两个特征向量的通道数分别是256与256、128与128和64与64，上述四个卷积块各自的堆叠操作后得到的特征向量的通道数分别是512、256和128。在扩张子网络的最后是一个卷积核尺寸为1x1，输出通道数为目标类别数加一，并且配softmax激活函数的卷积层。

上述特征提取子网路可以包含三个及以上的卷积块，一个卷积块之后可以再接一个卷积块的前提是这个卷积块输出的特征向量的空间尺度长和宽都大于或者等于二。特征扩张子网络包含的卷积块个数和特征提取子网络相同。上述特征扩展子网络中的上采样操作可以是双线性插值、最近邻插值或者转置卷积。

然后计算上述深度神经网络中每一层的可训练参数的梯度；

然后使用设定了学习率的优化器进行优化。

验证集中所有批次都经过上述过程后结束。

为融合后生成的新样本。

测试阶段分为以下几个步骤：

测试集中所有批次都经过上述过程后结束。

本具体实施方式中，例2和例1都是本网络的实施方案，不做对比。网络结构的不同之处仅在于特征提取子网络和特征扩张子网络包含的卷积块的个数不同。

本技术方案适用于小数据集语义分割的原因如下：

1.小数据集中数据样本量少，包含的信息量很少，能够消除的不确定性同样很少，那么就需要缩减网络规模，防止出现过拟合现象。

2.小数据集中的标签类别数少，所以在特征提取部分不需要那么多的交叉特征，也就是说不需要那么多的特征图，其中各个特征图之间的互信息较大，存在的冗余严重，所以需要缩减高层的特征图数量。

本神经网络的技术原理如下：

本神经网络提出的出发点是对原版的U-Net进行调整使之适应于小数据集的应用情景。所述调整的主要思路是在缩减神经网络规模的同时微调神经网络的结构，再配合特定的训练方法。所述缩减神经网络的规模具体是指：缩减特征提取子网络的参数以及缩减特征扩张子网络的参数。所述缩减特征提取子网络的参数具体是将特征提取子网络第五个卷积块的特征图的特征通道数由1024减小为512。所述缩减特征扩张自网络的参数具体是指将特征扩张子网络中各个卷积块上采样生成的通道数有512、256、128、64缩减为256、128、64、32。上述调整的出发点是想在特征扩张自网络的各个卷积块的层叠操作中将上采样的特征图和跳跃连接的特征图以一定的比例在通道维度上层叠，实现高分辨率特征图和高语义特征图的融合，可以在保证分类准确的前提下，将细小的裂纹轮廓准备地分割出来。

Claims

1.一种基于深度卷积神经网络的数字图像小数据集语义分割方法，其特征是包括步骤1)神经网络训练阶段和步骤2)待分割图像测试阶段；

所述步骤1)神经网络训练阶段的步骤包括：

1.1)采集含有待分割目标的图像作为样本；

1.2)图像预处理：将步骤1.1)得到的图像转换为同一种存储格式；然后再进行图像清洗，去除非正常拍摄图像；

1.3)图像标注：对步骤1.2)得到的所有图像逐个进行标注；

标注前确定图像划分类别的总类别数，并赋予每个类别一个唯一的类别标签值；

标注一张图像时，先将图像中无目标区域内的所有像素的标签都标为0，然后将各个目标类区域内的所有像素的标签都标为各自的类别标签值；最后生成标签图像；

1.4)数据集划分：构建语义分割数据集，将步骤1.3)得到标签图像及其对应的原始图像视为划分的最小单元，将所有的最小单元分为训练集、验证集和测试集；

1.5)搭建深度神经网络：

深度神经网络包括两部分，依次是特征提取子网络和特征扩张子网络；

1.6)训练深度神经网络；

所述步骤2)待分割图像测试阶段的步骤包括：

2.1)加载步骤1.6)中保存的性能最好的网络和参数，并将参数加载到步骤1.5)搭建的深度神经网络中，得到最佳语义分割网络；

2.2)测试数字图像输入步骤2.1)的语义分割网络模型中，获取到语义分割结果图像，步骤为：

2.2.1)将步骤1.4)得到的测试集中的图像输入到最佳语义分割网络的特征提取子网络进行特征提取，得到表征输入图像的高层特征向量；

2.2.2)将2.2.1)得到的高层特征向量输入到最佳语义分割网络的特征扩张子网络，得到空间尺寸和输入样本图像相同的特征向量；

2.2.3)将2.2.2)得到的特征向量生成预测标签图像，形成图像语义分割图输出；

所述步骤1.5)中：

a、特征提取子网络包含五个卷积块；前两个卷积块中每个卷积块中含有两个使用整流线性单元激活函数的卷积层和一个最大池化层，后三个卷积块中都含有两个使用整流线性单元激活函数卷积层和一个最大池化层，最后一个卷积块中含有两个使用整流线性单元激活函数的卷积层；

五个卷积块的卷积层所用卷积核的空间尺寸都为3x3，步长都为1，卷积操作后输出的特征向量的通道数分别为64、128、256、512、512。上述最大池化层的池化窗口尺寸都为2x2，步长为2；

所述特征提取子网络包含三个及以上的卷积块，一个卷积块之后再接一个卷积块的前提条件为：前一个卷积块输出的特征向量的空间尺度长和宽都大于或者等于二；

b、特征扩张子网络，包含若干个卷积块，每个卷积块包含一个上采样操作，之后是一个层叠操作，将上采样得到的特征向量和特征提取子网络中对应层级的卷积块的输出按照通道维度层叠在一起，之后是两个使用整流线性单元激活函数的卷积层。在扩张子网络的最后是一个卷积核尺寸为1x1，输出通道数为目标类别数加一，并且配softmax激活函数的卷积层。

特征扩张子网络中的卷积块个数和特征提取子网络中的卷积块个数相同；

特征扩张子网络中的上采样操作是双线性插值、最近邻插值或者转置卷积；

特征提取子网络和特征扩张子网络中的卷积块的个数是作为一个超参数，并且和数据集中图像的数量、目标类别数、图像中目标检测的困难程度呈正相关。

2.根据权利要求1所述的基于深度卷积神经网络的小数据集语义分割方法，其特征是所述步骤1.6)包括如下步骤：

1.6.1)将训练集中的所有图像分为多个批次；

对于每个批次图像进行如下操作：

将一个批次的所有样本送入深度神经网络中，得到输出的特征向量；然后，将输出的特征向量和本批次的标签图像一起输入损失函数中，得到误差；然后，计算深度神经网络中每一层的可训练参数的梯度；然后，使用设定了学习率的优化器进行优化；

当训练集中的所有批次都经过上述过程后，此时一轮训练完成；

1.6.2)将验证集中的所有图像划分为多个批次；

对于每个批次图像进行如下操作：

将一个批次的所有样本送入深度神经网络中，得到输出的特征向量；然后，将输出的特征向量和本批次的标签图像一起输入损失函数和性能评估函数中，得到误差和性能指标，并分别保存到误差数组和性能指标数组中；

验证集中所有批次都经过上述过程后结束；