CN107016415A

CN107016415A - 一种基于全卷积网络的彩色图像色彩语义分类方法

Info

Publication number: CN107016415A
Application number: CN201710236763.XA
Authority: CN
Inventors: 张骏; 熊高敏; 高隽; 张旭东
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2017-04-12
Filing date: 2017-04-12
Publication date: 2017-08-04
Anticipated expiration: 2037-04-12
Also published as: CN107016415B

Abstract

本发明公开了一种基于全卷积网络的彩色图像色彩语义分类方法，包括：1构建全卷积网络；2获取具有像素级标注的彩色图像数据集；3利用彩色图像数据集对全卷积网络进行训练，得到能够对任意尺寸彩色图像进行像素级色彩语义分类的特征模型；4利用特征模型对任意彩色图像进行像素级的色彩语义分类，评估特征模型的分类精度；5使用全连接条件随机场的方法对网络分类结果进行优化处理，得到图像中每个像素点的色彩类别标签，根据类别标签与彩色空间的映射关系，将色彩类别标签转化到对应的彩色空间显示像素级的色彩语义分类结果。本发明能实现彩色图像像素级的色彩语义分类，有效提高复杂多变环境下彩色图像色彩语义分类的精度。

Description

一种基于全卷积网络的彩色图像色彩语义分类方法

技术领域

本发明属于计算机/机器视觉中、图像处理和分析领域，具体地说是一种基于全卷积网络的彩色图像色彩语义分类方法。

背景技术

在计算机视觉中，色彩是图像的一种重要属性，是人类感知图像信息的重要途径。通过赋予图像色彩类别标签，可进一步运用于图像检索、图像标注、色盲辅助、视觉追踪、语言人机交互等领域。因此，良好的色彩语义分类结果有助于进一步的图像处理和图像分析。

现有的图像色彩语义分类方法包括：基于统计模型的方法和基于深度学习的方法。

基于统计模型的方法主要是基于色彩刺激，例如通过感知色彩的色调、亮度、和饱和度这三个颜色外观属性进行色彩语义分类。不同色彩在这三个属性上的类间差异小于同种色彩在这三个属性上的类内差异，导致色彩语义分类的判决边界难以确定，且在不同场景下存在微小变化，导致分类效果差。

在基于统计模型的方法中，具有代表性的方法是概率隐语义分析(ProbabilisticLatent SemanticAnalysis，PLSA)。该方法在Lab色彩空间上将组成模型文档的词汇集与组成彩色图像的各色彩像素集对应起来，将色彩类别看成是隐藏的主体变量；使用自然场景图像训练PLSA模型得到图片集中隐藏的色彩类别，从而实现色彩语义分类。自然场景图像训练集的质量决定了模型的精确度，因此在高光、阴影等复杂场景下，该模型的分类效果并不理想。

基于深度学习的方法主要是利用卷积神经网络(Convolutional NeuralNetwork,CNN)进行色彩语义分类。该方法从大量图像样本中学习色彩类别，旨在预测微小图像块的色彩类别。该方法训练卷积神经网络包括两个阶段：第一阶段，使用图像块进行自监督训练，色彩直方图作为其监督信息，从而得到色彩语义分类模型；第二阶段，图像块的标签改为从父图像中继承得到，通过反复迭代，滤除噪声样本，进一步提高色彩语义分类模型的精度。然而在复杂场景下，光照强度、光源等的变化会导致像素点RGB值在一个通道或多个通道上发生改变，此时得到的色彩直方图已不能真实的反应图像块的色彩分布，将其作为监督信息所训练出来的色彩语义分类模型效果不佳；第二阶段中，部分色彩语义分类结果良好的图像块因为与父图像的色彩类别不一致而被错误的舍弃掉，从而减少了可用的训练数据量。

Cheng等人在卷积神经网络的方法上进行改进，构建了PCN-CNN的网络结构，该网络结构在VGG16网络结构的基础上将全连接层更改为卷积层、减少池化层的数量、添加一个反卷积层，实现了基于卷积神经网络的彩色图像像素级色彩语义分类。较PLSA的方法在像素级色彩语义分类精度上有较大提高，但是该模型使用较少的池化层，对分辨率较大的彩色图像进行色彩语义分类时精度低。

上述色彩语义分类方法实现了彩色图像的色彩语义分类，然而在复杂场景下的分类精度均不高。

发明内容

本发明为解决现有技术中的不足之处，提供一种基于全卷积网络的彩色图像色彩语义分类方法，旨在解决彩色图像像素级的色彩属性语义分类问题，通过构建全卷积神经网络，得到在复杂场景下分类精度良好的色彩属性语义分类网络特征模型，从而提高复杂多变环境下彩色图像色彩语义分类的精度。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于全卷积网络的彩色图像的色彩语义分类方法的特点是按照如下步骤进行：

步骤1、构建全卷积网络，并对任意尺寸的彩色图像I(x,y,k)进行像素级色彩语义分类；所述全卷积网络由卷积层、池化层、反卷积层构成；

步骤1.1、所述全卷积网络的输入数据为彩色图像I(x,y,k)，x,y,k分别表示所述彩色图像I的高度、宽度和通道数；

定义操作次数为t，并初始化t＝1；

定义池化次数为v，并初始化v＝1；

初始化δ＝0；

步骤1.2、将所述彩色图像I送入卷积层L_c(ks,n_t)进行第t次卷积操作，得到所述全卷积网络的第t个卷积层的特征图F_c(x,y,n_t)；ks表示卷积核的大小，n_t表示第t个卷积层的卷积核个数；

步骤1.3、对第t个卷积层的特征图F_c(x,y,n_t)进行第t次线性激活操作，得到特征图F_r(x,y,n_t)；

步骤1.4、令t+1赋值给t后，判断t≤δ+2是否成立，若成立，则重复步骤1.2和步骤1.3，否则，令t-1赋值给t后，执行步骤1.5；

步骤1.5、将所述第t次线性激活操作后的特征图F_r(x,y,n_t)送入池化层L_p(kp,s)进行无重叠的采样后，得到第v阶段的特征图F_v(x,y,n_v)，其中，kp,s分别表示采样的范围大小和滑动步长，n_v表示第v阶段的特征图的数量；

步骤1.6、令δ+2赋值给δ，判断δ＝4是否成立，若成立，则执行步骤1.7；否则，将v+1赋值给v后，返回步骤1.4；

步骤1.7、令t+1赋值给t后，判断t≤δ+3是否成立，若成立，则重复步骤1.2和步骤1.3后再返回步骤1.7，否则，令t-1赋值给t，将v+1赋值给v后，执行步骤1.5后再跳到步骤1.8；

步骤1.8、令δ+3赋值给δ，判断δ＝13是否成立，若成立，则执行步骤1.9；否则，令t+1赋值给t后，重复步骤1.2和步骤1.3后，返回步骤1.7；

步骤1.9、对第v阶段的特征图F_v(x,y,n_v)进行卷积操作，得到的结果进行反卷积操作，从而得到特征图F_v′(x,y,n_v)；

对第v-1阶段的特征图F_v-1(x,y,n_v-1)进行卷积操作后与特征图F_v′(x,y,n_v)相加，再进行反卷积操作得到特征图F′_v-₁(x,y,n_v-1)；

对第v-2阶段的特征图F_v-2(x,y,n_v-2)进行卷积操作后与特征图F′_v-₁(x,y,n_v-1)相加，再进行反卷积操作得到特征图F′_v-₂(x,y,n_v-2)；

步骤1.10、根据所述彩色图像I(x,y,k)的大小，对特征图F_v′(x,y,n_v)裁剪，得到彩色图像I(x,y,k)对应的色彩类别概率，记为C(x,y,p_i)，其中，p_i代表第i个色彩类别的概率，i∈(0,1,...,N)，N为色彩类别的数量；

步骤2、获取具有像素级标注的彩色图像数据集，记为D＝{D_tr,D_val,D_te}；D_tr表示训练数据集；D_val表示验证数据集；D_te表示测试数据集；所述训练数据集D_tr、验证数据集D_val和测试数据集D_te均包含彩色图像和标注图像；且所述标注图像中每个像素点的取值V∈(0,1,...,N)；

所述训练数据集D_tr和验证数据集D_val中所有彩色图像的RGB三个通道的均值，记为M＝{m_r,m_g,m_b}；

步骤3、对所述全卷积网络进行训练；

步骤3.1、对所述训练数据集D_tr中所有彩色图像添加σ₁的高斯噪声，用于改变彩色图像的对比度和RGB值；再对所有彩色图像添加σ₂的高斯噪声用于改变亮度，从而得到彩色变换图像；

步骤3.2、以所述训练数据集D_tr中所有彩色图像及其相应的彩色变换图像作为所述全卷积网络训练阶段的输入数据，以所述训练数据集D_tr中所有标注图像作为所述输入数据的标签；且彩色图像及其彩色变换图像使用相同的色彩类别标签；

以所述验证数据集D_val中所有彩色图像作为所述全卷积网络训练阶段的测试数据，以所述验证数据集D_val中所有标注图像作为所述测试数据的标签；

步骤3.3、利用随机梯度下降算法对所述全卷积网络进行训练，得到色彩语义的层次特征模型；

步骤4、以所述测试数据集D_te中所有彩色图像与所述均值M的差值作为所述特征模型的输入数据，并经过所述特征模型的计算，得到每幅彩色图像的色彩类别概率；

步骤5、使用全连接条件随机场的方法对每幅彩色图像的色彩类别概率进行优化处理，得到所述测试数据集D_te中彩色图像的每个像素点的色彩类别，再将每个像素点的色彩类别转化到彩色空间中，从而得到像素级的色彩语义分类结果。

与已有技术相比，本发明的有益效果是：

1、本发明通过构建全卷积网络，使用标签数据监督全卷积网络进行学习，从而获得具有鲁棒性的色彩语义分类特征模型，解决了基于统计模型中使用色彩外观属性进行色彩感知，分类边界复杂且分类精度不高的问题。

2、本发明所构建的全卷积网络，没有全连接层的网络结构，减小了网络规模，从而避免了传统卷积神经网络中对全连接层的庞大参数训练，极大地提高了训练速度。合理的网络结构，能处理分辨率较小和较大的图像；将色彩语义分类结果拓展到像素级，解决了卷积神经网络不能够进行像素级分类的问题，并大幅提高了像素级色彩语义分类精度。

3、本发明在全卷积网络训练阶段，小幅改变训练数据的颜色、亮度，用于模拟一些复杂场景对彩色图像所造成的改变，增加了训练数据的类型和数量，在训练数据集有限的情况下，尽可能模拟光照条件、拍摄视角等环境因素对色彩语义分类造成的影响，解决了因为训练网络过程中训练数据不足所导致的欠拟合问题。

4、本发明使用全卷积网络对彩色图像进行像素级的色彩语义分类，利用全连接条件随机场的方法结合像素点之间的局部色彩语义关联，对全卷积网络的色彩语义分类结果进行优化，纠正了色彩区域轮廓上分类错误的像素点，使分类边缘更加平滑，提高了色彩语义分类的准确度。

附图说明

图1为本发明方法对彩色图像进行色彩语义分类的流程图；

图2为本发明所使用全卷积网络的结构示意图；

图3a为本发明使用的彩色图像测试集中的部分子集的示意图；

图3b为本发明使用的彩色图像测试集中的部分子集所对应真实标记示意图；

图3c为本发明使用全卷积网络得到的部分色彩语义分类结果示意图；

图3d为本发明使用全连接随机场进行优化后得到的部分色彩语义分类结果示意图。

具体实施方式

如图1所示，本实施例中，一种基于全卷积网络的彩色图像的色彩语义分类方法，是按照如下步骤进行：

步骤1、构建全卷积网络，用于对任意尺寸的彩色图像I(x,y,k)进行像素级色彩语义分类；全卷积网络由卷积层、池化层、反卷积层构成，

如图2所示，在本实施例中，全卷积网络包括五个阶段的卷积池化操作：第一、二阶段各包括两个卷积层，一个池化层；第三、四、五阶段各包括三个卷积层，一个池化层。全卷积网络共有十三个卷积层、五个池化层、三个反卷积层。彩色图像的任意尺寸大小是指：送入网络的彩色图像的尺寸不需要是一个固定的大小；全卷积网络所能处理的彩色图像的最大尺寸，由所使用图形处理器的显存的大小决定。

步骤1.1、全卷积网络的输入数据为彩色图像I(x,y,k)，x,y,k分别表示彩色图像I的高度、宽度和通道数；

定义操作次数为t，并初始化t＝1；

定义池化次数为v，并初始化v＝1；

初始化δ＝0；

在本实验测试中，彩色图像的高度、宽度分别为x＝128，y＝64，但不局限于此取值；通道数k＝3，表示彩色图像的红色R、绿色G、蓝色B三个通道。

步骤1.2、将彩色图像I送入卷积层L_c(ks,n_t)并对其进行第t次卷积操作，得到全卷积网络的第t个卷积层的特征图F_c(x,y,n_t)；ks表示卷积核的大小，n_t表示第t个卷积层的卷积核个数；

经过卷积层之后的特征图F_c(x,y,n_t)的尺寸为：x＝(x+2-ks)+1，y＝(y+2-ks)+1。在本实验测试中，所有卷积层的卷积核大小ks＝3，即卷积操作不改变特征图的尺寸大小；t≤2时，卷积核个数n_t＝64；2＜t≤4时，卷积核个数n_t＝128；4＜t≤7时，卷积核个数n_t＝256；7＜t≤13时，卷积核个数n_t＝512；

线性激活操作所使用的激活函数为ReLU，该激活函数将特征图F_c(x,y,n_t)中负值元素取值置0，保持正值元素取值不变；不会改变特征图F_c(x,y,n_t)的尺寸大小。

步骤1.5、将第t次线性激活操作后的特征图F_r(x,y,n_t)送入池化层L_p(kp,s)进行无重叠的采样后，得到第v阶段的特征图F_v(x,y,n_v)，其中，kp,s分别表示采样的范围大小和滑动步长，n_v表示第v阶段的特征图的数量；

在本实验测试中，池化层进行无重叠采样的范围大小kp＝2，滑动步长s＝2；池化层采取最大值池化经过池化层采样之后的特征图F_v(x,y,n_v)的尺寸为：每个阶段的特征图数量与对应阶段的卷积核个数相等：v＝1时，n_v＝64；v＝2时，n_v＝128；v＝3时，n_v＝256；4≤v≤5时，n_v＝512；

反卷积操作是卷积操作的逆过程，经过反卷积操作后所得特征图的尺寸大小为：x＝(x-1)×ks+pad，y＝(y-1)×ks+pad，在本实验测试中，第v阶段和第v-1阶段的反卷积核大小k_s＝2，pad＝4；第v-2阶段的反卷积核大小k_s＝8，pad＝16。卷积操作的卷积核个数n_t＝12、反卷积操作的卷积核个数n_v＝12。两幅特征图相加之前，需要将尺寸大的特征图进行裁剪，使两幅特征图的尺寸一致。

步骤1.10、对特征图F′_v-₂(x,y,n_v-2)裁剪，使其与彩色图像I(x,y,k)的大小一致，得到彩色图像I(x,y,k)对应的色彩类别概率，记为C(x,y,p_i)，其中，p_i代表第i个色彩类别的概率，i∈(0,1,...,N)，N为色彩类别的数量；

在本实验测试中，裁剪的方式为随机裁剪，色彩类别的数量N＝11，这11种色彩分别为：black、blue、brown、grey、green、orange、pink、purple、red、white、yellow。具体的定义参考《Basic colorterms:Theiruniversality and evolution》，该书于1991由加州大学出版社出版。

步骤2、获取具有像素级标注的彩色图像数据集，记为D＝{D_tr,D_val,D_te}；D_tr表示训练数据集；D_val表示验证数据集；D_te表示测试数据集；训练数据集D_tr、验证数据集D_val和测试数据集D_te均包含彩色图像和标注图像；且标注图像中每个像素点的取值V∈(0,1,...,N)；

训练数据集D_tr和验证数据集D_val中所有彩色图像的RGB三个通道的均值，记为M＝{m_r,m_g,m_b}；

训练数据集图片数量为10913，验证数据集图片数量为1500，测试数据集图片数量为1800。在本实验测试中，标注图像是对彩色图像中每个像素点赋予色彩类别标签V，V∈(0,1,...,11),分别表示该像素点的色彩为：dark cyan、black、blue、brown、grey、green、orange、pink、purple、red、white、yellow；其中dark cyan表示该像素点为背景。数据集的均值M＝{93.53614,96.15632,102.91466}。如图3a所示，为本发明彩色图像测试集中的部分彩色图像；如图3b所示，为本发明彩色图像测试集中部分彩色图像对应的像素级标注图像。本发明对彩色图像进行色彩语义分类的区域不包括背景、头发、皮肤；这些区域统一赋予色彩类别标签0。

步骤3、对全卷积网络进行训练；

步骤3.1、对训练数据集D_tr中所有彩色图像添加σ₁的高斯噪声以改变彩色图像的对比度和RGB值；再对所有彩色图像添加σ₂的高斯噪声用于改变亮度，从而得到彩色变换图像；本实施例中，σ₁∈[0,0.04]，σ₂＝0.2；

步骤3.2、以训练数据集D_tr中所有彩色图像及其彩色变换图像作为全卷积网络训练阶段的输入数据，以训练数据集D_tr中所有标注图像作为输入数据的标签；且彩色图像及其彩色变换图像使用相同的标签；

以验证数据集D_val中所有彩色图像作为全卷积网络训练阶段的测试数据，以验证数据集D_val中所有标注图像作为测试数据的标签；

步骤3.3、利用随机梯度下降算法(Stochastic Gradient Descent，SGD)对全卷积网络进行训练，得到色彩语义的层次特征模型；

在网络迭代训练的过程中，随机梯度下降算法每次随机的选择一副图像进行学习，来更新模型参数。具体方法可参考LeonBottou的“Stochastic GradientDescentTricks”，该文章于2012发表在《Neural networks:Tricks ofthe trade》第421-436页。

步骤4、以测试数据集D_te中所有彩色图像与均值M的差值作为特征模型的输入数据，并经过特征模型的计算，得到每幅彩色图像的色彩类别概率；

令色彩类别概率中概率最大值所对应的色彩标签作为该像素点的色彩类别，如图3c所示，为使用全卷积网络得到的彩色图像的像素级色彩类别，每个像素点的取值V∈(0,1,...,11)，表示该像素点的色彩为：dark cyan、black、blue、brown、grey、green、orange、pink、purple、red、white、yellow。图3c与图3d所示的真实标记相比，彩色图像的像素级色彩类别和真实标记大致一致，但是在一些小区域上存在分类错误。

步骤5、使用全连接条件随机场的方法对每幅彩色图像的色彩类别概率进行优化处理，得到测试数据集D_te中彩色图像的每个像素点的色彩类别，再将每个像素点的色彩类别转化到彩色空间中，从而得到像素级的色彩语义分类结果。

全连接条件随机场中使用二元势函数描述每一个像素点和其他每个像素点的关系，鼓励相似像素分配相同的标签，即分类为同一种色彩。具体方法可参考论文“EfficientInference in Fully Connected CRFs with Gaussian Edge Potentials”，该文章于2011年发表于国际会议《Advances in neural informationprocessing systems》2卷3期第4页。如图3d所示，为使用全连接条件随机场方法进行优化后得到的彩色图像的像素级色彩类别，每个像素点的取值为V∈(0,1,...,11)，表示该像素点的色彩为：dark cyan、black、blue、brown、grey、green、orange、pink、purple、red、white、yellow。最终的像素级色彩语义分类结果需要将色彩类别转化到RGB彩色空间。图3d和图3c相比，纠正了一些小区域的错误色彩语义分类，分类边界更接近彩色图像的轮廓；和图3b的真实标记相比，同一区域的色彩统一，色彩语义分类边界平整、轮廓清晰。色彩类别和RGB取值存在一对一的转化关系，在本实验测试中，色彩类别标签、RGB值和色彩的关系如表1所示。

表1

表2

彩色图像色彩语义分类方法	Ours	Cheng等人	PLSA
				PNS	90.1	74.3	63.1

如表2所示，为本发明的彩色图像色彩语义分类方法以“像素标注平均得分”(Pixel Annotation Score，PNS)为度量标准，与当前已有彩色图像色彩语义分类方法进行量化对比的分析表。PNS取值越大，表明色彩语义分类结果精度更高。表2中，Ours表示本发明的彩色图像色彩语义分类方法；Cheng等人表示使用改进的卷积神经网络方法；PLSA表示概率隐语义分析方法。3种方法均在本发明使用的彩色图像测试集上进行测试，可以看出：在使用较小分辨率图像进行测试时，本发明的方法已经比Cheng等人的方法在精度上有了大幅度的提升；和PLSA方法相比，则具有绝对优势。

Claims

1.一种基于全卷积网络的彩色图像的色彩语义分类方法，其特征是按照如下步骤进行：

定义操作次数为t，并初始化t＝1；

定义池化次数为v，并初始化v＝1；

初始化δ＝0；

对第v-1阶段的特征图F_v-1(x,y,n_v-1)进行卷积操作后与特征图F_v′(x,y,n_v)相加，再进行反卷积操作得到特征图F′_v-1(x,y,n_v-1)；

对第v-2阶段的特征图F_v-2(x,y,n_v-2)进行卷积操作后与特征图F′_v-1(x,y,n_v-1)相加，再进行反卷积操作得到特征图F′_v-2(x,y,n_v-2)；

步骤3、对所述全卷积网络进行训练；