CN111798469A - 基于深度卷积神经网络的数字图像小数据集语义分割方法 - Google Patents
基于深度卷积神经网络的数字图像小数据集语义分割方法 Download PDFInfo
- Publication number
- CN111798469A CN111798469A CN202010668359.1A CN202010668359A CN111798469A CN 111798469 A CN111798469 A CN 111798469A CN 202010668359 A CN202010668359 A CN 202010668359A CN 111798469 A CN111798469 A CN 111798469A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- neural network
- images
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000011218 segmentation Effects 0.000 title claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 53
- 238000013528 artificial neural network Methods 0.000 claims description 42
- 230000000875 corresponding effect Effects 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000017105 transposition Effects 0.000 claims 1
- 238000005096 rolling process Methods 0.000 description 21
- 230000004927 fusion Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010367 cloning Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种基于深度卷积神经网络的小数据集语义分割方法,步骤包括:(1)采集含有待分割目标的图像样本,并标记各个样本,构建语义分割数据集,然后划分数据集;(2)搭建深度卷积神经网络,所述深度卷积神经网络包括特征提取子网络、特征扩张子网络;(3)对待检测的图像进行预处理;(4)利用数据集训练深度卷积神经网络,用性能评估函数评估网络性能,将达到预设指标且性能最佳的卷积神经网络参数保存;(5)将经步骤(3)处理的图像依次输入特征提取子网络和特征扩张子网络,得到空间尺寸和输入图像相同的特征向量;(6)将步骤(5)得到的特征向量生成预测标签图像。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及基于深度卷积神经网络的语义分割方法,是一种在小数据集的应用情景中表现优异的基于深度神经网络和数字图像处理的新神经网络结构语义分割方法。需要技术中,小数据集通常是指标签类别数少且数据样本量少的数据集。
背景技术
FCN是深度学习技术应用于语义分割领域的开山之作,其性能在绝大多数情况下远超传统的基于计算机视觉的语义分割方法。
随后U-Net以及其一系列变体网络,SegNet、PspNet、Deeplab系列网络等等相继发布,不断刷新coco、pascal voc、imagenet等数据集的最高分数,语义分割技术也不断发展不断成熟。但是上述的这些神经网络都有着较大的参数量,当数据集较小时,会导致训练困难,训练好的网络泛化能力差,训练和使用时需要的存储空间和处理机资源都较多,因而不适合小型的数据集上的语义分割任务。
本发明提出的神经网络在现有的U-Net的基础上进行了改变,得到了一种适合小数据集语义分割任务的神经网络,受益于参数量少,网络的训练难度也不高,训练和投入使用时所需占用存储空间和处理机资源较少,而且效果更好。
发明内容
本发明的目的在于提供了一种参数量更少,精度更高,速度更快,占用存储空间和处理机资源更少的适合小数据集的语义分割方法,本发明技术方案的设计思路如下:
(1)采集图像样本,并对每一个样本进行标记,构建图像语义分割数据集,将数据集划分,按照一定比例(如8:1:1)分为训练集、验证集、测试集;
(2)搭建深度卷积神经网络,所述深度卷积神经网络由两个部分组成,第一部分是一个特征提取子网络,第二部分是特征扩张子网络;
(3)对待检测的图像进行预处理;
(4)利用(1)中的数据集训练深度卷积神经网络,用性能评估函数评估网络性能,将达到预设指标且性能最佳的卷积神经网络参数保存;
(5)将经(3)处理的图像输入特征提取子网络进行特征提取,得到可以表征输入图像的高层特征向量;
(6)将(5)得到的特征向量输入到特征扩张子网络,得到空间尺寸和(5)中输入图像相同的特征向量;
(7)将(6)得到的特征向量生成预测标签图像。
所述特征提取子网络,包含五个卷积块,前两个卷积块中每个卷积块中含有两个使用整流线性单元激活函数的卷积层和一个最大池化层,后面的卷积块中都含有两个使用整流线性单元激活函数卷积层和一个最大池化层,最后一个卷积块中含有两个使用整流线性单元激活函数的卷积层。上述五个卷积块的卷积层所用卷积核的空间尺寸都为3x3,步长都为1,卷积操作后输出的特征向量的通道数分别为64、128、256、512、512。上述最大池化层的池化窗口尺寸都为2x2,步长为2。
所述特征扩张子网络,包含若干个卷积块,每个卷积块包含一个上采样操作,之后是一个层叠操作,将上采样得到的特征向量和特征提取子网络中对应层级的卷积块的输出按照通道维度层叠在一起,之后是两个使用整流线性单元激活函数的卷积层。在扩张子网络的最后是一个卷积核尺寸为1x1,输出通道数为目标类别数加一,并且配softmax激活函数的卷积层。
所述数据预处理,包含了各种仿射变换,亮度、饱和度、对比度调节,对亮度偏暗的图像进行整体的线性变化和非线性变换,对曝光不均匀的图像进行直方图均衡化,以及用mixup方法作图像融合。
所述训练深度神经网络,将训练集分为多个批次输入上述深度神经网络,得到网络的输出,再将网络输出和输入图像对应的使用基于骰子系数的骰子损失函数 公式中p表示每批中所有所述图像中所有像素预测类别概率,q表示每批中所有所述图像对应的标签图像中所有像素的真实类别;
在所述损失函数中加入l2正则化项,所述l2正则化项为:
加入所述l2正则化项后目标函数为:
公式中J表示目标函数,L为所述dice loss函数,m表示每批中所有所述图像中所有像素数量,λ表示所述l2正则化的超参数,L表示所述深度神经网络模型中的卷积层数;
基于反向传播法,根据所述目标函数来计算所述深度神经网络模型中各项模型参数变化的梯度,并使用最优化方法,根据计算得到的梯度值来调整所述深度神经网络模型中各项模型参数的值;
所述性能评估函数,包含但不仅包含有像素准确率PA、平均重合率MIOU以及频权重合率FWIOU三个性能评估指标。
上述三条公式中k表示所述图像中像素的类别数,pii表示每批所述图像中像素预测类别概率最大的类别和所述图像对应的标签图像中像素的真实类别相同的像素的总数,pij为每批所述图像中像素预测类别概率最大的类别为j类和所述图像对应的标签图像中像素的真实类别为i类的像素的总数,pji为每批所述图像中像素预测类别概率最大的类别为i类和所述图像对应的标签图像中像素的真实类别为j类的像素的总数。
本发明的有益效果为:
本技术方案在小数据集条件下,精度更高、速度更快,投入运行所需占用内存和处理机资源更少。
本技术方案取得上述成果的技术原因有:1)在语义分割中高层语义特征靠近输出端但分辨率低,高分率特征靠近输入端但语义层次低,本神经网络通过调整特征扩张自网络的层叠操作中高分辨率特征图和高语义特征图比例,使得网络整体能够获得更高的精度;2)在神经网络的训练和使用中,网络中的参数量直接影响网络占用的内存和处理机资源的多少和速度的快慢。本神经网络在保证高精度的同时只包含了较少的参数量,在训练和使用时占用的内存和处理机资源就较少,速度也就更快;3)本神经网络的参数量少,在小数据集上训练时过拟合的风险低,损失函数能更快地收敛且训练好的网络有足够的泛化能力和较强的鲁棒性。
附图说明
图1是本方法实施例的流程示意图。
图2是本方案的深度神经网络的示意图。
具体实施方式
以下结合具体实施例对本技术方案进一步说明:
如图1,本具体实施方式的两个实施例分别为:
实施例1
本实例分为两个阶段分别为训练阶段和使用阶段,需要说明的是下述的目标类别既包括有背景类。
训练阶段分为一下几个步骤:
步骤(1.1)采集图像样本,所采集的样本包含有各种可能出现的场景下能够拍摄到的图像,其中包含同时有一种或者多种目标的图像,也包含没有任何目标的纯背景图像;所采集的图像可以是任意颜色模式下通道数大于等于1的图像;
步骤(1.2)图像预处理,将步骤(1.1)得到的图像转换为同一种存储格式,方便下述的统一处理,然后再进行图像清洗,去除非正常拍摄图像,例如:模糊度大的图像、未充分聚焦的图像,如果有两张及以上完全相同的图像只保留一张。挑选出总体亮度偏暗的图像,通过直方图均衡化重新分配图像象元值,使得各个颜色通道中各个亮度级的像素个数大致相同;
步骤(1.3)图像标注,使用任意图像标注工具(例如:labelme)对步骤(1.2)得到的所有图像逐个进行标注,标注前确定损伤类总数N,并赋予每个损伤类一个唯一的类别标签值,1到N,标记一张图像时应将图像中背景区域内的所有像素的标签都标为0,然后将各个目标类区域内的所有像素的标签都标为各自的类别标签值。根据标注工具提供的对应方法生成标签图像。标签图像和原始图像存储文件名应该对应。
步骤(1.4)数据集划分,将原始图像和它对应的标签图像视为划分的最小单元,按照一定比例(如8:1:1)将所有的最小单元分为训练集、验证集、测试集。
步骤(1.5)搭建深度神经网络,使用任意的深度学习框架,例如:pytorch、tensorflow、keras、caffe、mxnet等,所述深度神经网络有两个部分组成,依次是特征提取子网络和特征扩张子网络。
所述特征提取子网络,包含五个卷积块,前两个卷积块中每个卷积块中含有两个使用整流线性单元激活函数的卷积层和一个最大池化层,后面的卷积块中都含有两个使用整流线性单元激活函数卷积层和一个最大池化层,最后一个卷积块中含有两个使用整流线性单元激活函数的卷积层。
上述五个卷积块的卷积层所用卷积核的空间尺寸都为3x3,步长都为1,卷积操作后输出的特征向量的通道数分别为64、128、256、512、512。上述最大池化层的池化窗口尺寸都为2x2,步长为2。
所述特征扩张子网络,包含四个卷积块,每个卷积块包含一个上采样操作,之后是一个层叠操作。将上采样得到的特征向量和特征提取子网络中对应层级的卷积块的输出按照通道维度层叠在一起,之后是两个使用整流线性单元激活函数的卷积层。上述四个卷积块各自的上采样操作后得到的特征向量的通道数依次为1024、512、256、128,上述四个卷积块各自的堆叠操作中待堆叠的两个特征向量的通道数分别是1024与512、512与256、256与128和128与64,上述四个卷积块各自的堆叠操作后得到的特征向量的通道数分别是1536、768、384和192。在扩张子网络的最后是一个卷积核尺寸为1x1,输出通道数为目标类别数加一,并且配softmax激活函数的卷积层。
上述特征提取子网路可以包含三个及以上的卷积块,一个卷积块之后可以再接一个卷积块的前提是这个卷积块输出的特征向量的空间尺度长和宽都大于或者等于2。特征扩张子网络包含的卷积块个数和特征提取子网络相同。上述特征扩展子网络中的上采样操作可以是双线性插值、最近邻插值或者转置卷积。
上述特征提取子网络和特征扩张子网络中的卷积块的个数应该作为一个超参数,并且和数据集中图像的数量、目标类别数、图像中目标检测的困难程度呈正相关。
步骤(1.6)训练深度神经网络,将步骤(1.4)中划分的训练集中的所有图像分为多个批次,每个批次的样本总数为N,对每个批次的图像和其对应的标签图像作数据增广,然后对标签图像进行onehot编码。
将一个批次的所有样本送入步骤(1.5)搭建的深度神经网络中,得到输出的特征向量。
然后将输出的特征向量和本批的经过onehot编码的标签图像一起输入损失函数中,得到误差;
然后计算上述深度神经网络中每一层的可训练参数的梯度;
然后使用设定了学习率的优化器进行优化。
当所有批次都经过上述过程后,此时一轮完成。每一轮结束后将验证集中的所有图像划分为多个批次,每个批次的样本总数为M,对每个样本中的标签图像进行onehot编码,将一个批次的所有样本送入步骤(1.5)搭建的深度神经网络中,得到输出的特征向量。
然后将输出的特征向量和本批的经过onehot编码的标签图像一起输入损失函数和性能评估函数中,得到误差和性能指标,并保存到数组中。
验证集中所有批次都经过上述过程后结束。
将误差数组和性能指标数组计算数组均值,将性能最好的参数以及模型保存。预设最多训练轮数,经过多轮训练之后,当训练轮数达到最多训练轮数时停止训练。训练时使用学习率自动衰减策略。
上述数据增广包含了对样本的随机打乱,各种随机仿射变换,一定范围,例如:1±0.4,随机亮度、饱和度、对比度调节,以及mixup图像融合。需要说明的是上述亮度、饱和度、对比度调节单独对原始图像进行,而其他操作需要同时对原始图像和标签图像进行,具体的实现需要对随机变换设置相同的随机种子,保证对每一样本中的原始图像和其对应标签图像作相同的随机操作。
上述mixup图像融合方法具体操作如下:首先,按照α为1,β为1的beta分布生成N(N为每批中样本总数)个随机数λ(α,β可以取其他值);然后,对上述当前批次中所有样本克隆一份,将克隆的这一份中的所有样本再次随机打乱;最按照下面公式进行融合。
测试阶段分为以下几个步骤:
步骤(2.1)加载步骤(1.6)中保存的性能最好的网络和参数,并将参数加载到网路中。
步骤(2.2)将测试集中的所有图像划分为多个批次,每个批次的样本总数为M,对每个样本中的标签图像进行onehot编码,将一个批次的所有样本送入步骤(1.5)搭建的深度神经网络中,得到输出的特征向量;
然后将输出的特征向量和本批的经过onehot编码的标签图像一起输入损失函数和性能评估函数中,得到误差和性能指标,并保存到数组中。
测试集中所有批次都经过上述过程后结束。
将误差数组和性能指标数组计算数组均值,看网络的性能指标是否达到预设标准。如果达标结束,如果未达标,回到步骤(1.5),调整超参数,重复上述过程,直到在测试集上的性能指标达标。
实施例2
本实例分为两个阶段分别为训练阶段和使用阶段,需要说明的是下述的目标类别既包括有背景类。
训练阶段分为一下几个步骤:
步骤(1.1)采集图像样本,所采集的样本包含有各种可能出现的场景下能够拍摄到的图像,其中包含同时有一种或者多种目标的图像,也包含没有任何目标的纯背景图像;所采集的图像可以是任意颜色模式下通道数大于等于1的图像;
步骤(1.2)图像预处理,将步骤(1.1)得到的图像转换为同一种存储格式,方便下述的统一处理,然后再进行图像清洗,去除非正常拍摄图像,例如:模糊度大的图像、未充分聚焦的图像,如果有两张及以上完全相同的图像只保留一张。挑选出总体亮度偏暗的图像,通过直方图均衡化重新分配图像象元值,使得各个颜色通道中各个亮度级的像素个数大致相同;
步骤(1.3)图像标注,使用任意图像标注工具(例如:labelme)对步骤(1.2)得到的所有图像逐个进行标注,标注前确定损伤类总数N,并赋予每个损伤类一个唯一的类别标签值,1到N,标记一张图像时应将图像中背景区域内的所有像素的标签都标为0,然后将各个目标类区域内的所有像素的标签都标为各自的类别标签值。根据标注工具提供的对应方法生成标签图像。标签图像和原始图像存储文件名应该对应。
步骤(1.4)数据集划分,将原始图像和它对应的标签图像视为划分的最小单元,按照一定比例(如8:1:1)将所有的最小单元分为训练集、验证集、测试集。
步骤(1.5)搭建深度神经网络,使用任意的深度学习框架,例如:pytorch、tensorflow、keras、caffe、mxnet等,所述深度神经网络有两个部分组成,依次是特征提取子网络和特征扩张子网络。
所述特征提取子网络,包含四个卷积块,前两个卷积块中每个卷积块中含有两个使用整流线性单元激活函数的卷积层和一个最大池化层,后面的一个卷积块中都含有两个使用整流线性单元激活函数卷积层和一个最大池化层,最后一个卷积块中含有两个使用整流线性单元激活函数的卷积层。上述五个卷积块的卷积层所用卷积核的空间尺寸都为3x3,步长都为1,卷积操作后输出的特征向量的通道数分别为64、128、256和512。上述最大池化层的池化窗口尺寸都为2x2,步长为2。
所述特征扩张子网络,包含三个卷积块,每个卷积块包含一个上采样操作,之后是一个层叠操作,将上采样得到的特征向量和特征提取子网络中对应层级的卷积块的输出按照通道维度层叠在一起,之后是两个使用整流线性单元激活函数的卷积层。上述四个卷积块各自的上采样操作后得到的特征向量的通道数依次为512、256和128,上述四个卷积块各自的堆叠操作中待堆叠的两个特征向量的通道数分别是256与256、128与128和64与64,上述四个卷积块各自的堆叠操作后得到的特征向量的通道数分别是512、256和128。在扩张子网络的最后是一个卷积核尺寸为1x1,输出通道数为目标类别数加一,并且配softmax激活函数的卷积层。
上述特征提取子网路可以包含三个及以上的卷积块,一个卷积块之后可以再接一个卷积块的前提是这个卷积块输出的特征向量的空间尺度长和宽都大于或者等于二。特征扩张子网络包含的卷积块个数和特征提取子网络相同。上述特征扩展子网络中的上采样操作可以是双线性插值、最近邻插值或者转置卷积。
上述特征提取子网络和特征扩张子网络中的卷积块的个数应该作为一个超参数,并且和数据集中图像的数量、目标类别数、图像中目标检测的困难程度呈正相关。
步骤(1.6)训练深度神经网络,将步骤(1.4)中划分的训练集中的所有图像分为多个批次,每个批次的样本总数为N,对每个批次的图像和其对应的标签图像作数据增广,然后对标签图像进行onehot编码。
将一个批次的所有样本送入步骤(1.5)搭建的深度神经网络中,得到输出的特征向量。
然后将输出的特征向量和本批的经过onehot编码的标签图像一起输入损失函数中,得到误差;
然后计算上述深度神经网络中每一层的可训练参数的梯度;
然后使用设定了学习率的优化器进行优化。
当所有批次都经过上述过程后,此时一轮完成。每一轮结束后将验证集中的所有图像划分为多个批次,每个批次的样本总数为M,对每个样本中的标签图像进行onehot编码,将一个批次的所有样本送入步骤(1.5)搭建的深度神经网络中,得到输出的特征向量。
然后将输出的特征向量和本批的经过onehot编码的标签图像一起输入损失函数和性能评估函数中,得到误差和性能指标,并保存到数组中。
验证集中所有批次都经过上述过程后结束。
将误差数组和性能指标数组计算数组均值,将性能最好的参数以及模型保存。预设最多训练轮数,经过多轮训练之后,当训练轮数达到最多训练轮数时停止训练。训练时使用学习率自动衰减策略。
上述数据增广包含了对样本的随机打乱,各种随机仿射变换,一定范围,例如:1±0.4,随机亮度、饱和度、对比度调节,以及mixup图像融合。需要说明的是上述亮度、饱和度、对比度调节单独对原始图像进行,而其他操作需要同时对原始图像和标签图像进行,具体的实现需要对随机变换设置相同的随机种子,保证对每一样本中的原始图像和其对应标签图像作相同的随机操作。
上述mixup图像融合方法具体操作如下:首先,按照α为1,β为1的beta分布生成N(N为每批中样本总数)个随机数λ(α,β可以取其他值);然后,对上述当前批次中所有样本克隆一份,将克隆的这一份中的所有样本再次随机打乱;最按照下面公式进行融合。
测试阶段分为以下几个步骤:
步骤(2.1)加载步骤(1.6)中保存的性能最好的网络和参数,并将参数加载到网路中。
步骤(2.2)将测试集中的所有图像划分为多个批次,每个批次的样本总数为M,对每个样本中的标签图像进行onehot编码,将一个批次的所有样本送入步骤(1.5)搭建的深度神经网络中,得到输出的特征向量;
然后将输出的特征向量和本批的经过onehot编码的标签图像一起输入损失函数和性能评估函数中,得到误差和性能指标,并保存到数组中。
测试集中所有批次都经过上述过程后结束。
将误差数组和性能指标数组计算数组均值,看网络的性能指标是否达到预设标准。如果达标结束,如果未达标,回到步骤(1.5),调整超参数,重复上述过程,直到在测试集上的性能指标达标。
本具体实施方式中,例2和例1都是本网络的实施方案,不做对比。网络结构的不同之处仅在于特征提取子网络和特征扩张子网络包含的卷积块的个数不同。
本技术方案适用于小数据集语义分割的原因如下:
1.小数据集中数据样本量少,包含的信息量很少,能够消除的不确定性同样很少,那么就需要缩减网络规模,防止出现过拟合现象。
2.小数据集中的标签类别数少,所以在特征提取部分不需要那么多的交叉特征,也就是说不需要那么多的特征图,其中各个特征图之间的互信息较大,存在的冗余严重,所以需要缩减高层的特征图数量。
本神经网络的技术原理如下:
本神经网络提出的出发点是对原版的U-Net进行调整使之适应于小数据集的应用情景。所述调整的主要思路是在缩减神经网络规模的同时微调神经网络的结构,再配合特定的训练方法。所述缩减神经网络的规模具体是指:缩减特征提取子网络的参数以及缩减特征扩张子网络的参数。所述缩减特征提取子网络的参数具体是将特征提取子网络第五个卷积块的特征图的特征通道数由1024减小为512。所述缩减特征扩张自网络的参数具体是指将特征扩张子网络中各个卷积块上采样生成的通道数有512、256、128、64缩减为256、128、64、32。上述调整的出发点是想在特征扩张自网络的各个卷积块的层叠操作中将上采样的特征图和跳跃连接的特征图以一定的比例在通道维度上层叠,实现高分辨率特征图和高语义特征图的融合,可以在保证分类准确的前提下,将细小的裂纹轮廓准备地分割出来。
Claims (4)
1.一种基于深度卷积神经网络的数字图像小数据集语义分割方法,其特征是包括步骤1)神经网络训练阶段和步骤2)待分割图像测试阶段;
所述步骤1)神经网络训练阶段的步骤包括:
1.1)采集含有待分割目标的图像作为样本;
1.2)图像预处理:将步骤1.1)得到的图像转换为同一种存储格式;然后再进行图像清洗,去除非正常拍摄图像;
1.3)图像标注:对步骤1.2)得到的所有图像逐个进行标注;
标注前确定图像划分类别的总类别数,并赋予每个类别一个唯一的类别标签值;
标注一张图像时,先将图像中无目标区域内的所有像素的标签都标为0,然后将各个目标类区域内的所有像素的标签都标为各自的类别标签值;最后生成标签图像;
1.4)数据集划分:构建语义分割数据集,将步骤1.3)得到标签图像及其对应的原始图像视为划分的最小单元,将所有的最小单元分为训练集、验证集和测试集;
1.5)搭建深度神经网络:
深度神经网络包括两部分,依次是特征提取子网络和特征扩张子网络;
1.6)训练深度神经网络;
所述步骤2)待分割图像测试阶段的步骤包括:
2.1)加载步骤1.6)中保存的性能最好的网络和参数,并将参数加载到步骤1.5)搭建的深度神经网络中,得到最佳语义分割网络;
2.2)测试数字图像输入步骤2.1)的语义分割网络模型中,获取到语义分割结果图像,步骤为:
2.2.1)将步骤1.4)得到的测试集中的图像输入到最佳语义分割网络的特征提取子网络进行特征提取,得到表征输入图像的高层特征向量;
2.2.2)将2.2.1)得到的高层特征向量输入到最佳语义分割网络的特征扩张子网络,得到空间尺寸和输入样本图像相同的特征向量;
2.2.3)将2.2.2)得到的特征向量生成预测标签图像,形成图像语义分割图输出;
所述步骤1.5)中:
a、特征提取子网络包含五个卷积块;前两个卷积块中每个卷积块中含有两个使用整流线性单元激活函数的卷积层和一个最大池化层,后三个卷积块中都含有两个使用整流线性单元激活函数卷积层和一个最大池化层,最后一个卷积块中含有两个使用整流线性单元激活函数的卷积层;
五个卷积块的卷积层所用卷积核的空间尺寸都为3x3,步长都为1,卷积操作后输出的特征向量的通道数分别为64、128、256、512、512。上述最大池化层的池化窗口尺寸都为2x2,步长为2;
所述特征提取子网络包含三个及以上的卷积块,一个卷积块之后再接一个卷积块的前提条件为:前一个卷积块输出的特征向量的空间尺度长和宽都大于或者等于二;
b、特征扩张子网络,包含若干个卷积块,每个卷积块包含一个上采样操作,之后是一个层叠操作,将上采样得到的特征向量和特征提取子网络中对应层级的卷积块的输出按照通道维度层叠在一起,之后是两个使用整流线性单元激活函数的卷积层。在扩张子网络的最后是一个卷积核尺寸为1x1,输出通道数为目标类别数加一,并且配softmax激活函数的卷积层。
特征扩张子网络中的卷积块个数和特征提取子网络中的卷积块个数相同;
特征扩张子网络中的上采样操作是双线性插值、最近邻插值或者转置卷积;
特征提取子网络和特征扩张子网络中的卷积块的个数是作为一个超参数,并且和数据集中图像的数量、目标类别数、图像中目标检测的困难程度呈正相关。
2.根据权利要求1所述的基于深度卷积神经网络的小数据集语义分割方法,其特征是所述步骤1.6)包括如下步骤:
1.6.1)将训练集中的所有图像分为多个批次;
对于每个批次图像进行如下操作:
将一个批次的所有样本送入深度神经网络中,得到输出的特征向量;然后,将输出的特征向量和本批次的标签图像一起输入损失函数中,得到误差;然后,计算深度神经网络中每一层的可训练参数的梯度;然后,使用设定了学习率的优化器进行优化;
当训练集中的所有批次都经过上述过程后,此时一轮训练完成;
1.6.2)将验证集中的所有图像划分为多个批次;
对于每个批次图像进行如下操作:
将一个批次的所有样本送入深度神经网络中,得到输出的特征向量;然后,将输出的特征向量和本批次的标签图像一起输入损失函数和性能评估函数中,得到误差和性能指标,并分别保存到误差数组和性能指标数组中;
验证集中所有批次都经过上述过程后结束;
对误差数组和性能指标数组分别计算数组均值,保存性能最好的卷积神经网络参数;
预设最多训练轮数,经过多轮训练之后,当训练轮数达到最多训练轮数时停止训练。
3.根据权利要求1所述的基于深度卷积神经网络的小数据集语义分割方法,其特征是所述步骤1.6)中,训练时使用学习率自动衰减策略。
p表示每批次中所有图像中的所有像素预测类别概率,
q表示每批次中所有图像对应的标签图像中的所有像素的真实类别;
在损失函数中加入l2正则化项,
式中:
m表示每批次中所有所述图像中所有像素数量,λ表示l2正则化的超参数,L表示深度神经网络模型中的卷积层数;
基于反向传播法,根据目标函数J来计算深度神经网络模型中各项模型参数变化的梯度,根据梯度值来调整深度神经网络模型中各项模型参数的值;
所述性能评估函数包括:像素准确率PA函数、平均重合率MIOU函数以及频权重合率FWIOU函数;
式中:
k表示图像中的像素的类别数,
pii表示真正,真正即为每批次的图像中的像素预测类别概率最大的类别和该图像对应的标签图像中的像素的真实类别相同的像素的总数;
pij为假正,假正即为每批次的图像中的像素预测类别概率最大的类别为j类和该图像对应的标签图像中的像素的真实类别为i类的像素的总数;
pji为假负,假负即为每批次的图像中的像素预测类别概率最大的类别为i类和该图像对应的标签图像中的像素的真实类别为j类的像素的总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010668359.1A CN111798469A (zh) | 2020-07-13 | 2020-07-13 | 基于深度卷积神经网络的数字图像小数据集语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010668359.1A CN111798469A (zh) | 2020-07-13 | 2020-07-13 | 基于深度卷积神经网络的数字图像小数据集语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111798469A true CN111798469A (zh) | 2020-10-20 |
Family
ID=72808373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010668359.1A Pending CN111798469A (zh) | 2020-07-13 | 2020-07-13 | 基于深度卷积神经网络的数字图像小数据集语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111798469A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052849A (zh) * | 2021-04-16 | 2021-06-29 | 中国科学院苏州生物医学工程技术研究所 | 腹部组织图像自动分割方法及*** |
CN113066081A (zh) * | 2021-04-15 | 2021-07-02 | 哈尔滨理工大学 | 一种基于三维mri图像的乳腺肿瘤分子亚型检测方法 |
CN113807397A (zh) * | 2021-08-13 | 2021-12-17 | 北京百度网讯科技有限公司 | 语义表示模型的训练方法、装置、设备和存储介质 |
CN113822844A (zh) * | 2021-05-21 | 2021-12-21 | 国电电力宁夏新能源开发有限公司 | 风电机组叶片无人机巡检缺陷检测方法、装置和存储介质 |
CN114842425A (zh) * | 2022-07-04 | 2022-08-02 | 西安石油大学 | 用于石油化工工艺的异常行为识别方法及电子设备 |
CN115049814A (zh) * | 2022-08-15 | 2022-09-13 | 聊城市飓风工业设计有限公司 | 采用神经网络模型的护眼灯智能调节方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232394A (zh) * | 2018-03-06 | 2019-09-13 | 华南理工大学 | 一种多尺度图像语义分割方法 |
US10467500B1 (en) * | 2018-12-31 | 2019-11-05 | Didi Research America, Llc | Method and system for semantic segmentation involving multi-task convolutional neural network |
CN110895814A (zh) * | 2019-11-30 | 2020-03-20 | 南京工业大学 | 一种基于上下文编码网络的航空发动机孔探图像损伤智能分割方法 |
-
2020
- 2020-07-13 CN CN202010668359.1A patent/CN111798469A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232394A (zh) * | 2018-03-06 | 2019-09-13 | 华南理工大学 | 一种多尺度图像语义分割方法 |
US10467500B1 (en) * | 2018-12-31 | 2019-11-05 | Didi Research America, Llc | Method and system for semantic segmentation involving multi-task convolutional neural network |
CN110895814A (zh) * | 2019-11-30 | 2020-03-20 | 南京工业大学 | 一种基于上下文编码网络的航空发动机孔探图像损伤智能分割方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066081A (zh) * | 2021-04-15 | 2021-07-02 | 哈尔滨理工大学 | 一种基于三维mri图像的乳腺肿瘤分子亚型检测方法 |
CN113052849A (zh) * | 2021-04-16 | 2021-06-29 | 中国科学院苏州生物医学工程技术研究所 | 腹部组织图像自动分割方法及*** |
CN113052849B (zh) * | 2021-04-16 | 2024-01-26 | 中国科学院苏州生物医学工程技术研究所 | 腹部组织图像自动分割方法及*** |
CN113822844A (zh) * | 2021-05-21 | 2021-12-21 | 国电电力宁夏新能源开发有限公司 | 风电机组叶片无人机巡检缺陷检测方法、装置和存储介质 |
CN113807397A (zh) * | 2021-08-13 | 2021-12-17 | 北京百度网讯科技有限公司 | 语义表示模型的训练方法、装置、设备和存储介质 |
CN113807397B (zh) * | 2021-08-13 | 2024-01-23 | 北京百度网讯科技有限公司 | 语义表示模型的训练方法、装置、设备和存储介质 |
CN114842425A (zh) * | 2022-07-04 | 2022-08-02 | 西安石油大学 | 用于石油化工工艺的异常行为识别方法及电子设备 |
CN115049814A (zh) * | 2022-08-15 | 2022-09-13 | 聊城市飓风工业设计有限公司 | 采用神经网络模型的护眼灯智能调节方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN111798469A (zh) | 基于深度卷积神经网络的数字图像小数据集语义分割方法 | |
CN112016507B (zh) | 基于超分辨率的车辆检测方法、装置、设备及存储介质 | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN110648334A (zh) | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 | |
CN111754446A (zh) | 一种基于生成对抗网络的图像融合方法、***及存储介质 | |
CN113052834B (zh) | 一种基于卷积神经网络多尺度特征的管道缺陷检测方法 | |
CN110895814B (zh) | 基于上下文编码网络的航空发动机孔探图像损伤分割方法 | |
CN111931857B (zh) | 一种基于mscff的低照度目标检测方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别***及方法 | |
CN113743505A (zh) | 基于自注意力和特征融合的改进ssd目标检测方法 | |
CN114781514A (zh) | 一种融合注意力机制的漂浮物目标检测方法及*** | |
CN116758340A (zh) | 基于超分辨率特征金字塔和注意力机制的小目标检测方法 | |
CN116071352A (zh) | 一种电力安全工器具表面缺陷图像的生成方法 | |
CN116091823A (zh) | 一种基于快速分组残差模块的单特征无锚框目标检测方法 | |
CN115272670A (zh) | 一种基于掩膜注意交互的sar图像舰船实例分割方法 | |
Ma et al. | Forgetting to remember: A scalable incremental learning framework for cross-task blind image quality assessment | |
CN112766340B (zh) | 基于自适应空间模式的深度胶囊网络图像分类方法及*** | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 | |
CN112365451A (zh) | 图像质量等级的确定方法、装置、设备及计算机可读介质 | |
CN115861595B (zh) | 一种基于深度学习的多尺度域自适应异源图像匹配方法 | |
CN110796716A (zh) | 一种基于多重残差网络和正则化迁移学习的图像着色方法 | |
CN114219757B (zh) | 一种基于改进Mask R-CNN的车辆智能定损方法 | |
CN115439738A (zh) | 一种基于自监督协同重构的水下目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |