CN116246102A

CN116246102A - 一种基于自编码器与决策树的图像分类方法与***

Info

Publication number: CN116246102A
Application number: CN202310070830.0A
Authority: CN
Inventors: 黄祎婧; 王辉; 黄宇廷; 韩星宇; 曹学儒; 范自柱
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-06-09

Abstract

一种基于自编码器与决策树的图像分类方法与***，该方法包括：采集图像样本数据，转换图像样本为像素信息矩阵/向量；利用自编码器网络模型，学习图像样本的表征信息，使用编码器压缩并提取图像样本的低维特征信息；在迭代求解自编码器网络最优权重参数的过程中更新每个样本对应的最近邻数值；基于训练好的自编码器网络模型中提取的低维样本特征信息，结合迭代获取的样本最近邻数值作为对应的样本标签构建决策树模型；利用自编码器获得新样本的低维特征信息并输入决策树获得最近邻数值，在训练集中寻找最近邻领域，将最近邻领域中数量最多的类别作为预测结果。本发明可以得到目标的低维特征信息，并预测样本的类别，预测结果具有可解释性。

Description

一种基于自编码器与决策树的图像分类方法与***

技术领域

本发明涉及一种基于自编码器与决策树的图像分类方法与***，属机器学习和深度学习技术领域。

背景技术

研究获取的大量图像样本没有标签信息需要进行人工标记，但是对大量的数据进行人工标记费时费力，所以传统机器学习方法和深度学习方法的目标是通过有标签信息的样本数据集对无标签样本分类或识别。其中，分类任务作为传统机器学习方法的基础任务，需要利用训练集的样本标签信息来对未知标签信息的样本进行分类。而图像分类任务作为现今研究的一大热门领域，衍生了许多对应的传统机器学习的经典方法及其改进算法。

目前的机器学习经典算法有决策树、贝叶斯分类器、支持向量机和K-近邻分类器等，在处理小型结构化数据这些方法的分类效果好。当面临复杂数据的输入时，例如高维数据，大部分机器学习算法就会面临维度灾难，降低算法分类效果。在大样本数据集下，深度学习网络能大大提高算法的速度，以及分类的精度。

传统机器学习算法与深度学习算法的区别是，深度学习网络不需要给定特征，不需要对特征进行分析，当数据量增加时可以加深网络的层数获得更好的学习性能，而机器学习算法的性能在超过一定界限后不调整。但机器学习算法有一类共同的特点是具备可解释性，可以直观看到生成特定输出的过程，目前的深度网络方法虽然分类效果好，但是不具备可解释性，网络的分类过程是未知的。

随着数据的收集途径的多样化发展，在图像分类中常面临到高维复杂数据的挑战。对于图像分类的基础机器学习方法在面对高维复杂数据时的计算复杂度大耗时过长等问题，使用神经网络对样本信息处理。利用决策树模型的可解释性，在提高算法分类精度的同时让算法结果具有一定的可解释性，将自编码器网络与决策树结合，提高分类的可解释性及模型的泛化能力。

发明内容

本发明的目的是，为了解决图像分类存在的上述问题，提供一种基于自编码器与决策树的图像分类方法。

本发明实现的技术方案如下，一种基于自编码器与决策树的图像分类方法，包括以下步骤：

(1)采集数据，获取原始RGB图像数据，转换图像样本为像素信息矩阵/向量；

(2)将收集的图像数据输入自编码器，使用前馈神经网络，通过编码器和解码器对图像样本进行自编码器的表征学习，并利用编码器部分提取图像样本的低维结构特征信息；根据样本图像数据构建网络，对网络的损失函数添加稀疏性约束和相关性约束，并采用迭代的方式对自编码网络的权重参数进行更新；

(3)在求解网络最优权重参数的迭代过程中，基于编码器获得的低维样本向量计算图像样本之间的距离，在最近邻距离的约束更新每个图像样本对应的最近邻数值；

(4)基于训练好的自编码器网络模型中的编码器，提取样本的低维特征信息，结合迭代获取的样本最近邻数值作为对应的样本标签，使用CART方法构建以最近邻数值为叶子节点的决策树，同时调整自编码器网络的参数；

(5)利用自编码器获得新样本的低维特征信息并输入决策树获得最近邻数值，通过KNN搜索训练样本的最近邻领域，将最近邻领域中数量最多的类别作为预测结果。

所述自编码器的表征学习步骤包括：

根据样本图像数据构建网络，对网络的损失函数添加稀疏性约束和相关性约束，自编码网络在无约束下的损失函数为：

X＝(x₁,x₂,...,x_n)

其中，X为输入样本向量；x_i为输入样本向量X的第i个特征；n是输入向量的维度，在大小为28像素×28像素的图像样本中，对应的输入样本向量的维度n＝784；

为输出的重构样本向量；/>

为重构样本向量/>

的第i个特征；J_ave(W,b)为自编码器网络的无约束损失函数，用来度量重构样本/>

和原始样本X之间的平均差异；W，b分别是自编码器网络的权重和偏置；

对自编码器网络的隐藏层输出加上稀疏约束后的自编码网络的损失函数为：

其中，

是自编码器网络中隐藏层神经元的平均激活度；n是输入向量的维度；x_j为输入样本向量的第j个特征；a_i(x_j)是第i个神经元在输入x_j下的激活值；/>

是相对熵，作为度量两个分布的差异的惩罚因子；h是隐藏层的神经元数目；ρ是稀疏性参数；γ是KL散度约束参数；J_sparse(W,b)是自编码器网络的稀疏损失函数；/>

为隐藏层神经元的平均激活度；

对稀疏自编码神经网络再加上相似性约束后的自编码器网络损失函数：

其中，J_re(W,b)是加入了稀疏性约束和相似性约束的自编码器网络损失函数，μ是相似性参数，n是输入向量的维度，

为重构样本向量的第i个特征，作为一种限制来尽可能的增加样本间的差异；

所述采用迭代的方式对自编码网络的权重参数更新，自编码神经网络的迭代使用拟牛顿法L-BFGS，迭代的最大数值设置为300。

所述计算图像样本之间的距离，包括：

(1)自编码器网络的在每一步迭代时更新样本的最近邻数值，在训练前预设样本之间的距离参数，以及最大最小最近邻数值限制；在该限制下样本的最小最近邻数值为1，最大最近邻数值为10，即样本的最近邻数值若为0，则修正为1，若样本的最近邻数值大于10，则修正为10；

在迭代计算过程中，由更新的权重W和偏置项b，可以得到提低维特征后的新样本向量；样本经过两个隐藏层的自编码神经网络后的压缩特征向量的距离计算如下：

X_i′＝h₁(X_i)＝σ₁(W₁X_i+b₁)

X_i″＝h₂(X_i′)＝σ₂(W₂X_i′+b₂)

其中，W₁和W₂分别为编码器网络中第一个隐藏层h₁和第二个隐藏层h₂的权重；b₁和b₂则是对应的偏置项；σ₁和σ₂为网络隐藏层h₁和h₂层对应的输出函数；X_i′表示为第i个输入样本X_i经过隐藏层h₁后的向量；X_i″表示为X_i′经过隐藏层h₂后的向量；D(X_i″,X_j″)是提取的低维样本向量X_i″与X_j″之间的欧几里德距离；m是低维特征向量X″的维度；x_i′_s′为样本向量X_i″的第s个特征；x′_j′_s为样本向量X_j″的第s个特征；样本间的距离参数α决定了其他样本离样本最远的近邻距离，当与该样本的距离大于α时，即D(X_i″,X_j″)＞α，则不能成为该样本的近邻；基于该距离参数，第i个样本的最近邻数值表示为所有样本间距离小于α的样本个数；

(2)自编码神经网络设置了两个隐藏层，对于输入为784×1的样本数据来说，第一个隐藏层d₁的大小设置为196×1，第二个隐藏层d₂的大小设置为20×1；

(3)对网络的参数初始化，自编码器网络权重参数的初始值设置为0，稀疏性参数ρ设置为0.05，稀疏性惩罚因子的系数γ设置为0.5，相似性约束的参数μ设置为3×10^-3。

所述构建以最近邻数值为叶子节点的决策树如下：

将自编码器迭代后的最终输出X″作为构建决策树的样本向量，迭代获得的每个样本的最近邻数作为样本的新标签；

所述决策树的生成采用CART算法，生成的是一颗满二叉树，基尼指数的计算方法如下；

其中，Gini(B)表示决策树中样本集合B的纯度；v_i表示样本集合B中第i(i＝1,...,C)类样本所占的比例；Gini(B,q)表示属性q的基尼指数；T表示属性q＝{q¹,q²,...,q^T}的取值个数；B^t表示在第t个分支节点上所有取值为q^t的样本集合。

所述调整自编码器网络的参数，包括：

测试样本X_z首先通过生成的自编码神经网络生成新的验证样本向量X_z″，再通过构造的CART决策树获得相应的近邻数值K_z；

计算样本间的距离：

其中，D(X_z″,X_i″)表示两个样本间的欧几里得距离，m是低维特征向量X″的维度，x′_z′_s表示样本向量X_z″的第s个特征；x_i′_s′表示样本向量X_i″的第s个特征；

然后通过KNN算法搜索训练集中的相应近邻样本集，利用近邻样本集的标签对样本分类；若分类效果优异，即分类准确率达到85％及以上，则保留生成的网络模型和决策树；否则，调整自编码器神经网络的参数以达到更好的分类效果。

所述搜索训练样本的最近邻领域如下：

Z＝(z₁,z₂,...,z_n)

其中，Z为训练样本；z_i为Z的第i个特征；Z″为自编码器提取的低维特征向量；z_i″为低维特征向量Z″的第i个特征；D(Z″,X_i″)为欧几里得距离度量；m是低维特征向量X″和Z″的维度；K_z为决策树输出的训练样本对应的最优最近邻数值；

为训练样本的最近邻样本集合；α为距离参数；/>

为/>

对应的第i个近邻样本；p_i为最近邻样本集合/>

中对应的标签出现的概率；P_z为训练样本Z的预测标签；C为样本的标签类别个数。

本发明一种基于自编码器与决策树的图像分类方法的***，包括图像输入转换模块、训练模块、特征提取模块、最近邻模块、决策树模块和分类模块。

所述图像输入转换模块，用于采集图像样本数据，获取原始RGB图像数据，获取图像样本的像素信息的矩阵/向量。

所述训练模块，将收集的图像数据输入自编码器，使用前馈神经网络，通过反向传播算法来求解自编码器网络权重参数。

所述特征提取模块，利用自编码器网络模型，学习图像样本的表征信息，基于编码器提取图像样本的典型特征信息。

所述最近邻模块，在求解网络最优权重参数的迭代过程中，基于对应的编码器输出结果计算图像样本之间的距离，在最近邻距离的约束下同时更新每个图像样本对应的最近邻数值。

所述决策树模块，基于训练好的自编码器网络模型中的编码器，提取样本的压缩特征信息，结合各样本的最优近邻数作为标签构建决策树，基于CART方法构造。

所述分类模块，利用自编码器压缩样本特征信息并输入决策树，获得其对应的最优最近邻数值，寻找其相应的最近邻领域，根据KNN中最近邻领域中数量最多的类别作为预测结果。

所述一种基于自编码器与决策树的图像分类方法的***中，首先利用图像输入转换模块处理数据，然后采用训练模块训练数据，基于训练模块生成特征提取模块提取数据特征并输入决策树模块获取最近邻数值，使用最近邻模块寻找最近邻领域，最后采用分类模块输出预测结果。

本发明的有益效果如下，本发明利用自编码器网络对图像样本进行处理，压缩样本的特征，在尽可能提取样本的低维特征和结构；在自编码器网络的训练的过程中，不断的根据提取的低维特征向量之间的距离寻找满足给定距离的样本的近邻数；使用样本的最近邻数值和提取的低维样本特征来构建决策树，利用决策树获取未知标签的新图像样本的最近邻值，并采用最近邻算法为该图像判定应属类别。

本发明提出的方法，可以得到目标的低维特征信息，并预测样本的类别，预测结果具有可解释性。

附图说明

图1为本发明一种自编码器与决策树的图像分类方法的流程图；

图2为决策树生成的示意图。

具体实施方式

如图1所示，本实施例一种基于自编码器与决策树的图像分类方法，包括：

S101、采集数据，获取原始RGB图像数据，转换图像样本为像素信息矩阵/向量。

S102、将收集的图像数据输入自编码器，使用前馈神经网络，通过编码器和解码器对图像样本进行表征学习，并利用编码器部分提取图像样本的低维结构特征信息。

对应的自编码器网络在无约束下的损失函数为：

X＝(x₁,x₂,...,x_n)

其中，X为输入样本向量，x_i为输入样本向量X的第i个特征，n是输入向量的维度，(在大小为28像素×28像素的图像样本中，对应的输入样本向量的维度n＝784)，

为输出的重构样本向量，/>

为重构样本向量/>

的第i个特征，J_ave(W,b)为自编码器网络的无约束损失函数，用来度量重构样本/>

和原始样本X之间的平均差异，W，b分别是自编码器网络的权重和偏置。

自编码器网络的隐藏层输出加上稀疏约束后的自编码网络的损失函数为：

其中，

是自编码器网络中隐藏层神经元的平均激活度，n是输入向量的维度，x_j为输入样本向量的第j个特征，a_i(x_j)是第i个神经元在输入x_j下的激活值，/>

是相对熵，作为度量两个分布的差异的惩罚因子，h是隐藏层的神经元数目，ρ是稀疏性参数，γ是KL散度约束参数，J_sparse(W,b)是自编码器网络的稀疏损失函数；

对稀疏自编码神经网络再加上相似性约束：

为重构样本向量的第i个特征，作为一种限制来尽可能的增加样本间的差异。

S103、在求解网络最优权重参数的迭代过程中，基于编码器获得的低维样本向量计算图像样本之间的距离，在最近邻距离的约束更新每个图像样本对应的最近邻数值；

对应的距离计算公式表示为：

X_i′＝h₁(X_i)＝σ₁(W₁X_i+b₁)

X_i″＝h₂(X_i′)＝σ₂(W₂X_i′+b₂)

其中，W₁和W₂分别为编码器网络中第一个隐藏层h₁和第二个隐藏层h₂的权重，b₁和b₂则是对应的偏置项，σ₁和σ₂为网络隐藏层h₁和h₂层对应的输出函数，X_i′表示为第i个输入样本X_i经过隐藏层h₁后的向量，X_i″表示为X_i′经过隐藏层h₂后的向量，D(X_i″,X_j″)是提取的低维样本向量X_i″与X_j″之间的欧几里得距离，m是低维特征向量X″的维度，x_i′_s′为样本向量X_i″的第s个特征，x′_j′_s为样本向量X_j″的第s个特征。样本间的距离参数α决定了其他样本离样本最远的近邻距离，当与该样本的距离大于α时，即D(X_i″,X_j″)＞α，则不能成为该样本的近邻。基于该距离参数，第i个样本的最近邻数值表示为所有样本间距离小于α的样本个数。

S104、基于训练好的自编码器网络模型中的编码器，提取样本的低维特征信息，结合迭代获取的样本最近邻数值作为对应的样本标签，使用CART方法构建决策树模型；

对应的基尼指数的计算方法表示为；

其中，Gini(B)表示决策树中样本集合B的纯度，v_i表示样本集合B中第i(i＝1,...,C)类样本所占的比例，Gini(B,q)表示属性q的基尼指数，T表示属性q＝{q¹,q²,...,q^T}的取值个数，B^t表示在第t个分支节点上所有取值为q^t的样本集合。

对应的模式微调包括：

测试样本X_z首先通过生成的自编码神经网络生成新的验证样本X_z″，再通过构造的CART决策树获得相应的近邻数值K_z。

计算样本间的距离：

其中，D(X_z″,X_i″)表示两个样本间的欧几里得距离，m是低维特征向量X″的维度，x′_z′_s表示样本向量X_z″的第s个特征；x_i′_s′为样本向量X_i″的第s个特征。

然后通过KNN算法搜索训练集中的相应近邻样本集，利用近邻样本集的标签对样本分类，若分类效果优异，即分类准确率达到85％及以上，则保留生成的网络模型和决策树；否则，调整自编码器神经网络的参数以达到更好的分类效果。

S105、利用自编码器获得新样本的低维特征信息并输入决策树获得最近邻数值，通过KNN搜索对应的最近邻，将最近邻领域中数量最多的类别作为预测结果；

对应的搜索训练样本的最近邻领域表示为：

Z＝(z₁,z₂,...,z_n)

N_Kz＝{X_K1,X_K2,...,X_Kz|D(Z″,X_i″)＜α,K_z＝1,...,10}

其中，Z为训练样本，z_i为Z的第i个特征，Z″为自编码器提取的低维特征向量，z_i″为低维特征向量Z″的第i个特征，D(Z″,X_i″)为欧几里得距离度量，m是低维特征向量X″和Z″的维度，K_z为决策树输出的训练样本对应的最优最近邻数值，

为训练样本的最近邻样本集合，α为距离参数，/>

为/>

对应的第i个近邻样本，p_i为最近邻样本集合/>

中对应的标签出现的概率，P_z为训练样本Z的预测标签，C为样本的标签类别个数。

本实施例一种实现基于自编码器与决策树的图像分类方法的***，包括图像输入转换模块、训练模块、特征提取模块、最近邻模块、决策树模块和分类模块；图像转入转换模块连接训练模块、训练模块连接特征提取模块，特征提取模块连接决策树模块，决策树模块连接最近邻模块，最近邻模块连接分类模块。

本***的图像输入转换模块，用于采集图像样本数据，获取原始RGB图像数据，获取图像样本的像素信息的矩阵/向量。

本***的训练模块，将收集的图像数据输入自编码器，使用前馈神经网络，通过反向传播算法来求解自编码器网络权重参数。

本***的特征提取模块，利用自编码器网络模型，学习图像样本的表征信息，基于编码器提取图像样本的典型特征信息。

本***的最近邻模块，在求解网络最优权重参数的迭代过程中，基于对应的编码器输出结果计算图像样本之间的距离，在最近邻距离的约束下同时更新每个图像样本对应的最近邻数值。

本***的决策树模块，基于训练好的自编码器网络模型中的编码器，提取样本的压缩特征信息，结合各样本的最优近邻数作为标签构建决策树，基于CART方法构造。

本***的分类模块，利用自编码器压缩样本特征信息并输入决策树，获得其对应的最优最近邻数值，寻找其相应的最近邻领域，根据KNN中最近邻领域中数量最多的类别作为预测结果。

本实施例利用自编码器网络对图像样本进行处理，压缩样本的特征，在尽可能提取样本的低维特征和结构；在自编码器网络的训练的过程中，不断的根据提取的低维特征向量之间的距离寻找满足给定距离的样本的近邻数；使用样本的最近邻数值和提取的低维样本特征来构建决策树，利用决策树获取未知标签的新图像样本的最近邻值，并采用最近邻算法为该图像判定应属类别。

以上结合具体实施例描述了本发明的技术原理，这些描述只是为了解释本发明的原理，不能以任何方式解释为对本发明保护范围的限制。基于此处解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。