CN116246102A - 一种基于自编码器与决策树的图像分类方法与*** - Google Patents

一种基于自编码器与决策树的图像分类方法与*** Download PDF

Info

Publication number
CN116246102A
CN116246102A CN202310070830.0A CN202310070830A CN116246102A CN 116246102 A CN116246102 A CN 116246102A CN 202310070830 A CN202310070830 A CN 202310070830A CN 116246102 A CN116246102 A CN 116246102A
Authority
CN
China
Prior art keywords
sample
encoder
self
nearest neighbor
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310070830.0A
Other languages
English (en)
Inventor
黄祎婧
王辉
黄宇廷
韩星宇
曹学儒
范自柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202310070830.0A priority Critical patent/CN116246102A/zh
Publication of CN116246102A publication Critical patent/CN116246102A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于自编码器与决策树的图像分类方法与***,该方法包括:采集图像样本数据,转换图像样本为像素信息矩阵/向量;利用自编码器网络模型,学习图像样本的表征信息,使用编码器压缩并提取图像样本的低维特征信息;在迭代求解自编码器网络最优权重参数的过程中更新每个样本对应的最近邻数值;基于训练好的自编码器网络模型中提取的低维样本特征信息,结合迭代获取的样本最近邻数值作为对应的样本标签构建决策树模型;利用自编码器获得新样本的低维特征信息并输入决策树获得最近邻数值,在训练集中寻找最近邻领域,将最近邻领域中数量最多的类别作为预测结果。本发明可以得到目标的低维特征信息,并预测样本的类别,预测结果具有可解释性。

Description

一种基于自编码器与决策树的图像分类方法与***
技术领域
本发明涉及一种基于自编码器与决策树的图像分类方法与***,属机器学习和深度学习技术领域。
背景技术
研究获取的大量图像样本没有标签信息需要进行人工标记,但是对大量的数据进行人工标记费时费力,所以传统机器学习方法和深度学习方法的目标是通过有标签信息的样本数据集对无标签样本分类或识别。其中,分类任务作为传统机器学习方法的基础任务,需要利用训练集的样本标签信息来对未知标签信息的样本进行分类。而图像分类任务作为现今研究的一大热门领域,衍生了许多对应的传统机器学习的经典方法及其改进算法。
目前的机器学习经典算法有决策树、贝叶斯分类器、支持向量机和K-近邻分类器等,在处理小型结构化数据这些方法的分类效果好。当面临复杂数据的输入时,例如高维数据,大部分机器学习算法就会面临维度灾难,降低算法分类效果。在大样本数据集下,深度学习网络能大大提高算法的速度,以及分类的精度。
传统机器学习算法与深度学习算法的区别是,深度学习网络不需要给定特征,不需要对特征进行分析,当数据量增加时可以加深网络的层数获得更好的学习性能,而机器学习算法的性能在超过一定界限后不调整。但机器学习算法有一类共同的特点是具备可解释性,可以直观看到生成特定输出的过程,目前的深度网络方法虽然分类效果好,但是不具备可解释性,网络的分类过程是未知的。
随着数据的收集途径的多样化发展,在图像分类中常面临到高维复杂数据的挑战。对于图像分类的基础机器学习方法在面对高维复杂数据时的计算复杂度大耗时过长等问题,使用神经网络对样本信息处理。利用决策树模型的可解释性,在提高算法分类精度的同时让算法结果具有一定的可解释性,将自编码器网络与决策树结合,提高分类的可解释性及模型的泛化能力。
发明内容
本发明的目的是,为了解决图像分类存在的上述问题,提供一种基于自编码器与决策树的图像分类方法。
本发明实现的技术方案如下,一种基于自编码器与决策树的图像分类方法,包括以下步骤:
(1)采集数据,获取原始RGB图像数据,转换图像样本为像素信息矩阵/向量;
(2)将收集的图像数据输入自编码器,使用前馈神经网络,通过编码器和解码器对图像样本进行自编码器的表征学习,并利用编码器部分提取图像样本的低维结构特征信息;根据样本图像数据构建网络,对网络的损失函数添加稀疏性约束和相关性约束,并采用迭代的方式对自编码网络的权重参数进行更新;
(3)在求解网络最优权重参数的迭代过程中,基于编码器获得的低维样本向量计算图像样本之间的距离,在最近邻距离的约束更新每个图像样本对应的最近邻数值;
(4)基于训练好的自编码器网络模型中的编码器,提取样本的低维特征信息,结合迭代获取的样本最近邻数值作为对应的样本标签,使用CART方法构建以最近邻数值为叶子节点的决策树,同时调整自编码器网络的参数;
(5)利用自编码器获得新样本的低维特征信息并输入决策树获得最近邻数值,通过KNN搜索训练样本的最近邻领域,将最近邻领域中数量最多的类别作为预测结果。
所述自编码器的表征学习步骤包括:
根据样本图像数据构建网络,对网络的损失函数添加稀疏性约束和相关性约束,自编码网络在无约束下的损失函数为:
X=(x1,x2,...,xn)
Figure BDA0004064740080000031
Figure BDA0004064740080000032
其中,X为输入样本向量;xi为输入样本向量X的第i个特征;n是输入向量的维度,在大小为28像素×28像素的图像样本中,对应的输入样本向量的维度n=784;
Figure BDA0004064740080000033
为输出的重构样本向量;/>
Figure BDA0004064740080000034
为重构样本向量/>
Figure BDA0004064740080000035
的第i个特征;Jave(W,b)为自编码器网络的无约束损失函数,用来度量重构样本/>
Figure BDA0004064740080000036
和原始样本X之间的平均差异;W,b分别是自编码器网络的权重和偏置;
对自编码器网络的隐藏层输出加上稀疏约束后的自编码网络的损失函数为:
Figure BDA0004064740080000037
Figure BDA0004064740080000038
Figure BDA0004064740080000039
其中,
Figure BDA00040647400800000310
是自编码器网络中隐藏层神经元的平均激活度;n是输入向量的维度;xj为输入样本向量的第j个特征;ai(xj)是第i个神经元在输入xj下的激活值;/>
Figure BDA0004064740080000041
是相对熵,作为度量两个分布的差异的惩罚因子;h是隐藏层的神经元数目;ρ是稀疏性参数;γ是KL散度约束参数;Jsparse(W,b)是自编码器网络的稀疏损失函数;/>
Figure BDA0004064740080000042
为隐藏层神经元的平均激活度;
对稀疏自编码神经网络再加上相似性约束后的自编码器网络损失函数:
Figure BDA0004064740080000043
其中,Jre(W,b)是加入了稀疏性约束和相似性约束的自编码器网络损失函数,μ是相似性参数,n是输入向量的维度,
Figure BDA0004064740080000044
为重构样本向量的第i个特征,作为一种限制来尽可能的增加样本间的差异;
所述采用迭代的方式对自编码网络的权重参数更新,自编码神经网络的迭代使用拟牛顿法L-BFGS,迭代的最大数值设置为300。
所述计算图像样本之间的距离,包括:
(1)自编码器网络的在每一步迭代时更新样本的最近邻数值,在训练前预设样本之间的距离参数,以及最大最小最近邻数值限制;在该限制下样本的最小最近邻数值为1,最大最近邻数值为10,即样本的最近邻数值若为0,则修正为1,若样本的最近邻数值大于10,则修正为10;
在迭代计算过程中,由更新的权重W和偏置项b,可以得到提低维特征后的新样本向量;样本经过两个隐藏层的自编码神经网络后的压缩特征向量的距离计算如下:
Xi′=h1(Xi)=σ1(W1Xi+b1)
Xi″=h2(Xi′)=σ2(W2Xi′+b2)
Figure BDA0004064740080000045
其中,W1和W2分别为编码器网络中第一个隐藏层h1和第二个隐藏层h2的权重;b1和b2则是对应的偏置项;σ1和σ2为网络隐藏层h1和h2层对应的输出函数;Xi′表示为第i个输入样本Xi经过隐藏层h1后的向量;Xi″表示为Xi′经过隐藏层h2后的向量;D(Xi″,Xj″)是提取的低维样本向量Xi″与Xj″之间的欧几里德距离;m是低维特征向量X″的维度;xis′为样本向量Xi″的第s个特征;x′js为样本向量Xj″的第s个特征;样本间的距离参数α决定了其他样本离样本最远的近邻距离,当与该样本的距离大于α时,即D(Xi″,Xj″)>α,则不能成为该样本的近邻;基于该距离参数,第i个样本的最近邻数值表示为所有样本间距离小于α的样本个数;
(2)自编码神经网络设置了两个隐藏层,对于输入为784×1的样本数据来说,第一个隐藏层d1的大小设置为196×1,第二个隐藏层d2的大小设置为20×1;
(3)对网络的参数初始化,自编码器网络权重参数的初始值设置为0,稀疏性参数ρ设置为0.05,稀疏性惩罚因子的系数γ设置为0.5,相似性约束的参数μ设置为3×10-3
所述构建以最近邻数值为叶子节点的决策树如下:
将自编码器迭代后的最终输出X″作为构建决策树的样本向量,迭代获得的每个样本的最近邻数作为样本的新标签;
所述决策树的生成采用CART算法,生成的是一颗满二叉树,基尼指数的计算方法如下;
Figure BDA0004064740080000051
Figure BDA0004064740080000052
其中,Gini(B)表示决策树中样本集合B的纯度;vi表示样本集合B中第i(i=1,...,C)类样本所占的比例;Gini(B,q)表示属性q的基尼指数;T表示属性q={q1,q2,...,qT}的取值个数;Bt表示在第t个分支节点上所有取值为qt的样本集合。
所述调整自编码器网络的参数,包括:
测试样本Xz首先通过生成的自编码神经网络生成新的验证样本向量Xz″,再通过构造的CART决策树获得相应的近邻数值Kz
计算样本间的距离:
Figure BDA0004064740080000061
其中,D(Xz″,Xi″)表示两个样本间的欧几里得距离,m是低维特征向量X″的维度,x′zs表示样本向量Xz″的第s个特征;xis′表示样本向量Xi″的第s个特征;
然后通过KNN算法搜索训练集中的相应近邻样本集,利用近邻样本集的标签对样本分类;若分类效果优异,即分类准确率达到85%及以上,则保留生成的网络模型和决策树;否则,调整自编码器神经网络的参数以达到更好的分类效果。
所述搜索训练样本的最近邻领域如下:
Z=(z1,z2,...,zn)
Figure BDA0004064740080000062
Figure BDA0004064740080000064
Figure BDA0004064740080000063
其中,Z为训练样本;zi为Z的第i个特征;Z″为自编码器提取的低维特征向量;zi″为低维特征向量Z″的第i个特征;D(Z″,Xi″)为欧几里得距离度量;m是低维特征向量X″和Z″的维度;Kz为决策树输出的训练样本对应的最优最近邻数值;
Figure BDA0004064740080000065
为训练样本的最近邻样本集合;α为距离参数;/>
Figure BDA0004064740080000066
为/>
Figure BDA0004064740080000067
对应的第i个近邻样本;pi为最近邻样本集合/>
Figure BDA0004064740080000068
中对应的标签出现的概率;Pz为训练样本Z的预测标签;C为样本的标签类别个数。
本发明一种基于自编码器与决策树的图像分类方法的***,包括图像输入转换模块、训练模块、特征提取模块、最近邻模块、决策树模块和分类模块。
所述图像输入转换模块,用于采集图像样本数据,获取原始RGB图像数据,获取图像样本的像素信息的矩阵/向量。
所述训练模块,将收集的图像数据输入自编码器,使用前馈神经网络,通过反向传播算法来求解自编码器网络权重参数。
所述特征提取模块,利用自编码器网络模型,学习图像样本的表征信息,基于编码器提取图像样本的典型特征信息。
所述最近邻模块,在求解网络最优权重参数的迭代过程中,基于对应的编码器输出结果计算图像样本之间的距离,在最近邻距离的约束下同时更新每个图像样本对应的最近邻数值。
所述决策树模块,基于训练好的自编码器网络模型中的编码器,提取样本的压缩特征信息,结合各样本的最优近邻数作为标签构建决策树,基于CART方法构造。
所述分类模块,利用自编码器压缩样本特征信息并输入决策树,获得其对应的最优最近邻数值,寻找其相应的最近邻领域,根据KNN中最近邻领域中数量最多的类别作为预测结果。
所述一种基于自编码器与决策树的图像分类方法的***中,首先利用图像输入转换模块处理数据,然后采用训练模块训练数据,基于训练模块生成特征提取模块提取数据特征并输入决策树模块获取最近邻数值,使用最近邻模块寻找最近邻领域,最后采用分类模块输出预测结果。
本发明的有益效果如下,本发明利用自编码器网络对图像样本进行处理,压缩样本的特征,在尽可能提取样本的低维特征和结构;在自编码器网络的训练的过程中,不断的根据提取的低维特征向量之间的距离寻找满足给定距离的样本的近邻数;使用样本的最近邻数值和提取的低维样本特征来构建决策树,利用决策树获取未知标签的新图像样本的最近邻值,并采用最近邻算法为该图像判定应属类别。
本发明提出的方法,可以得到目标的低维特征信息,并预测样本的类别,预测结果具有可解释性。
附图说明
图1为本发明一种自编码器与决策树的图像分类方法的流程图;
图2为决策树生成的示意图。
具体实施方式
如图1所示,本实施例一种基于自编码器与决策树的图像分类方法,包括:
S101、采集数据,获取原始RGB图像数据,转换图像样本为像素信息矩阵/向量。
S102、将收集的图像数据输入自编码器,使用前馈神经网络,通过编码器和解码器对图像样本进行表征学习,并利用编码器部分提取图像样本的低维结构特征信息。
对应的自编码器网络在无约束下的损失函数为:
X=(x1,x2,...,xn)
Figure BDA0004064740080000081
Figure BDA0004064740080000082
其中,X为输入样本向量,xi为输入样本向量X的第i个特征,n是输入向量的维度,(在大小为28像素×28像素的图像样本中,对应的输入样本向量的维度n=784),
Figure BDA0004064740080000083
为输出的重构样本向量,/>
Figure BDA0004064740080000084
为重构样本向量/>
Figure BDA0004064740080000085
的第i个特征,Jave(W,b)为自编码器网络的无约束损失函数,用来度量重构样本/>
Figure BDA0004064740080000086
和原始样本X之间的平均差异,W,b分别是自编码器网络的权重和偏置。
自编码器网络的隐藏层输出加上稀疏约束后的自编码网络的损失函数为:
Figure BDA0004064740080000091
Figure BDA0004064740080000092
Figure BDA0004064740080000093
其中,
Figure BDA0004064740080000094
是自编码器网络中隐藏层神经元的平均激活度,n是输入向量的维度,xj为输入样本向量的第j个特征,ai(xj)是第i个神经元在输入xj下的激活值,/>
Figure BDA0004064740080000095
是相对熵,作为度量两个分布的差异的惩罚因子,h是隐藏层的神经元数目,ρ是稀疏性参数,γ是KL散度约束参数,Jsparse(W,b)是自编码器网络的稀疏损失函数;
对稀疏自编码神经网络再加上相似性约束:
Figure BDA0004064740080000096
其中,Jre(W,b)是加入了稀疏性约束和相似性约束的自编码器网络损失函数,μ是相似性参数,n是输入向量的维度,
Figure BDA0004064740080000097
为重构样本向量的第i个特征,作为一种限制来尽可能的增加样本间的差异。
S103、在求解网络最优权重参数的迭代过程中,基于编码器获得的低维样本向量计算图像样本之间的距离,在最近邻距离的约束更新每个图像样本对应的最近邻数值;
对应的距离计算公式表示为:
Xi′=h1(Xi)=σ1(W1Xi+b1)
Xi″=h2(Xi′)=σ2(W2Xi′+b2)
Figure BDA0004064740080000098
其中,W1和W2分别为编码器网络中第一个隐藏层h1和第二个隐藏层h2的权重,b1和b2则是对应的偏置项,σ1和σ2为网络隐藏层h1和h2层对应的输出函数,Xi′表示为第i个输入样本Xi经过隐藏层h1后的向量,Xi″表示为Xi′经过隐藏层h2后的向量,D(Xi″,Xj″)是提取的低维样本向量Xi″与Xj″之间的欧几里得距离,m是低维特征向量X″的维度,xis′为样本向量Xi″的第s个特征,x′js为样本向量Xj″的第s个特征。样本间的距离参数α决定了其他样本离样本最远的近邻距离,当与该样本的距离大于α时,即D(Xi″,Xj″)>α,则不能成为该样本的近邻。基于该距离参数,第i个样本的最近邻数值表示为所有样本间距离小于α的样本个数。
S104、基于训练好的自编码器网络模型中的编码器,提取样本的低维特征信息,结合迭代获取的样本最近邻数值作为对应的样本标签,使用CART方法构建决策树模型;
对应的基尼指数的计算方法表示为;
Figure BDA0004064740080000101
Figure BDA0004064740080000102
其中,Gini(B)表示决策树中样本集合B的纯度,vi表示样本集合B中第i(i=1,...,C)类样本所占的比例,Gini(B,q)表示属性q的基尼指数,T表示属性q={q1,q2,...,qT}的取值个数,Bt表示在第t个分支节点上所有取值为qt的样本集合。
对应的模式微调包括:
测试样本Xz首先通过生成的自编码神经网络生成新的验证样本Xz″,再通过构造的CART决策树获得相应的近邻数值Kz
计算样本间的距离:
Figure BDA0004064740080000111
其中,D(Xz″,Xi″)表示两个样本间的欧几里得距离,m是低维特征向量X″的维度,x′zs表示样本向量Xz″的第s个特征;xis′为样本向量Xi″的第s个特征。
然后通过KNN算法搜索训练集中的相应近邻样本集,利用近邻样本集的标签对样本分类,若分类效果优异,即分类准确率达到85%及以上,则保留生成的网络模型和决策树;否则,调整自编码器神经网络的参数以达到更好的分类效果。
S105、利用自编码器获得新样本的低维特征信息并输入决策树获得最近邻数值,通过KNN搜索对应的最近邻,将最近邻领域中数量最多的类别作为预测结果;
对应的搜索训练样本的最近邻领域表示为:
Z=(z1,z2,...,zn)
Figure BDA0004064740080000112
NKz={XK1,XK2,...,XKz|D(Z″,Xi″)<α,Kz=1,...,10}
Figure BDA0004064740080000113
其中,Z为训练样本,zi为Z的第i个特征,Z″为自编码器提取的低维特征向量,zi″为低维特征向量Z″的第i个特征,D(Z″,Xi″)为欧几里得距离度量,m是低维特征向量X″和Z″的维度,Kz为决策树输出的训练样本对应的最优最近邻数值,
Figure BDA0004064740080000116
为训练样本的最近邻样本集合,α为距离参数,/>
Figure BDA0004064740080000114
为/>
Figure BDA0004064740080000115
对应的第i个近邻样本,pi为最近邻样本集合/>
Figure BDA0004064740080000117
中对应的标签出现的概率,Pz为训练样本Z的预测标签,C为样本的标签类别个数。
本实施例一种实现基于自编码器与决策树的图像分类方法的***,包括图像输入转换模块、训练模块、特征提取模块、最近邻模块、决策树模块和分类模块;图像转入转换模块连接训练模块、训练模块连接特征提取模块,特征提取模块连接决策树模块,决策树模块连接最近邻模块,最近邻模块连接分类模块。
本***的图像输入转换模块,用于采集图像样本数据,获取原始RGB图像数据,获取图像样本的像素信息的矩阵/向量。
本***的训练模块,将收集的图像数据输入自编码器,使用前馈神经网络,通过反向传播算法来求解自编码器网络权重参数。
本***的特征提取模块,利用自编码器网络模型,学习图像样本的表征信息,基于编码器提取图像样本的典型特征信息。
本***的最近邻模块,在求解网络最优权重参数的迭代过程中,基于对应的编码器输出结果计算图像样本之间的距离,在最近邻距离的约束下同时更新每个图像样本对应的最近邻数值。
本***的决策树模块,基于训练好的自编码器网络模型中的编码器,提取样本的压缩特征信息,结合各样本的最优近邻数作为标签构建决策树,基于CART方法构造。
本***的分类模块,利用自编码器压缩样本特征信息并输入决策树,获得其对应的最优最近邻数值,寻找其相应的最近邻领域,根据KNN中最近邻领域中数量最多的类别作为预测结果。
本实施例利用自编码器网络对图像样本进行处理,压缩样本的特征,在尽可能提取样本的低维特征和结构;在自编码器网络的训练的过程中,不断的根据提取的低维特征向量之间的距离寻找满足给定距离的样本的近邻数;使用样本的最近邻数值和提取的低维样本特征来构建决策树,利用决策树获取未知标签的新图像样本的最近邻值,并采用最近邻算法为该图像判定应属类别。
以上结合具体实施例描述了本发明的技术原理,这些描述只是为了解释本发明的原理,不能以任何方式解释为对本发明保护范围的限制。基于此处解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (7)

1.一种基于自编码器与决策树的图像分类方法,其特征在于,所述方法包括以下步骤:
(1)采集数据,获取原始RGB图像数据,转换图像样本为像素信息矩阵/向量;
(2)将收集的图像数据输入自编码器,使用前馈神经网络,通过编码器和解码器对图像样本进行自编码器的表征学习,并利用编码器部分提取图像样本的低维结构特征信息;根据样本图像数据构建网络,对网络的损失函数添加稀疏性约束和相关性约束,并采用迭代的方式对自编码网络的权重参数进行更新;
(3)在求解网络最优权重参数的迭代过程中,基于编码器获得的低维样本向量计算图像样本之间的距离,在最近邻距离的约束更新每个图像样本对应的最近邻数值;
(4)基于训练好的自编码器网络模型中的编码器,提取样本的低维特征信息,结合迭代获取的样本最近邻数值作为对应的样本标签,使用CART方法构建以最近邻数值为叶子节点的决策树,同时调整自编码器网络的参数;
(5)利用自编码器获得新样本的低维特征信息并输入决策树获得最近邻数值,通过KNN搜索训练样本的最近邻领域,将最近邻领域中数量最多的类别作为预测结果。
2.根据权利要求1所述的一种基于自编码器与决策树的图像分类方法,其特征在于,所述自编码器的表征学习步骤包括:
根据样本图像数据构建网络,对网络的损失函数添加稀疏性约束和相关性约束,自编码网络在无约束下的损失函数为:
X=(x1,x2,...,xn)
Figure FDA0004064740050000021
Figure FDA0004064740050000022
其中,X为输入样本向量;xi为输入样本向量X的第i个特征;n是输入向量的维度,在大小为28像素×28像素的图像样本中,对应的输入样本向量的维度n=784;
Figure FDA0004064740050000023
为输出的重构样本向量;/>
Figure FDA0004064740050000024
为重构样本向量/>
Figure FDA0004064740050000025
的第i个特征;Jave(W,b)为自编码器网络的无约束损失函数,用来度量重构样本/>
Figure FDA0004064740050000026
和原始样本X之间的平均差异;W,b分别是自编码器网络的权重和偏置;
对自编码器网络的隐藏层输出加上稀疏约束后的自编码网络的损失函数为:
Figure FDA0004064740050000027
Figure FDA0004064740050000028
Figure FDA0004064740050000029
其中,
Figure FDA00040647400500000210
是自编码器网络中隐藏层神经元的平均激活度;n是输入向量的维度;xj为输入样本向量的第j个特征;ai(xj)是第i个神经元在输入xj下的激活值;/>
Figure FDA00040647400500000211
是相对熵,作为度量两个分布的差异的惩罚因子;h是隐藏层的神经元数目;ρ是稀疏性参数;γ是KL散度约束参数;Jsparse(W,b)是自编码器网络的稀疏损失函数;/>
Figure FDA00040647400500000212
为隐藏层神经元的平均激活度;/>
对稀疏自编码神经网络再加上相似性约束后的自编码器网络损失函数:
Figure FDA00040647400500000213
其中,Jre(W,b)是加入了稀疏性约束和相似性约束的自编码器网络损失函数,μ是相似性参数,n是输入向量的维度,
Figure FDA00040647400500000214
为重构样本向量的第i个特征,作为一种限制来尽可能的增加样本间的差异;
所述采用迭代的方式对自编码网络的权重参数更新,自编码神经网络的迭代使用拟牛顿法L-BFGS,迭代的最大数值设置为300。
3.根据权利要求1所述的一种基于自编码器与决策树的图像分类方法,其特征在于,所述计算图像样本之间的距离,包括:
(1)自编码器网络的在每一步迭代时更新样本的最近邻数值,在训练前预设样本之间的距离参数,以及最大最小最近邻数值限制;在该限制下样本的最小最近邻数值为1,最大最近邻数值为10,即样本的最近邻数值若为0,则修正为1,若样本的最近邻数值大于10,则修正为10;
在迭代计算过程中,由更新的权重W和偏置项b,可以得到提低维特征后的新样本向量;样本经过两个隐藏层的自编码神经网络后的压缩特征向量的距离计算如下:
Xi′=h1(Xi)=σ1(W1Xi+b1)
Xi″=h2(Xi′)=σ2(W2Xi′+b2)
Figure FDA0004064740050000031
其中,W1和W2分别为编码器网络中第一个隐藏层h1和第二个隐藏层h2的权重;b1和b2则是对应的偏置项;σ1和σ2为网络隐藏层h1和h2层对应的输出函数;Xi′表示为第i个输入样本Xi经过隐藏层h1后的向量;Xi″表示为Xi′经过隐藏层h2后的向量;D(Xi″,Xj″)是提取的低维样本向量Xi″与Xj″之间的欧几里德距离;m是低维特征向量X″的维度;xis′为样本向量Xi″的第s个特征;x′js为样本向量Xj″的第s个特征;样本间的距离参数α决定了其他样本离样本最远的近邻距离,当与该样本的距离大于α时,即D(Xi″,Xj″)>α,则不能成为该样本的近邻;基于该距离参数,第i个样本的最近邻数值表示为所有样本间距离小于α的样本个数;
(2)自编码神经网络设置了两个隐藏层,对于输入为784×1的样本数据来说,第一个隐藏层d1的大小设置为196×1,第二个隐藏层d2的大小设置为20×1;
(3)对网络的参数初始化,自编码器网络权重参数的初始值设置为0,稀疏性参数ρ设置为0.05,稀疏性惩罚因子的系数γ设置为0.5,相似性约束的参数μ设置为3e^-3。
4.根据权利要求1所述的一种基于自编码器与决策树的图像分类方法,其特征在于,所述构建以最近邻数值为叶子节点的决策树如下:
将自编码器迭代后的最终输出X″作为构建决策树的样本向量,迭代获得的每个样本的最近邻数作为样本的新标签;
所述决策树的生成采用CART算法,生成的是一颗满二叉树,基尼指数的计算方法如下;
Figure FDA0004064740050000041
/>
Figure FDA0004064740050000042
其中,Gini(B)表示决策树中样本集合B的纯度;vi表示样本集合B中第i(i=1,...,C)类样本所占的比例;Gini(B,q)表示属性q的基尼指数;T表示属性q={q1,q2,...,qT}的取值个数;Bt表示在第t个分支节点上所有取值为qt的样本集合。
5.根据权利要求1所述的一种基于自编码器与决策树的图像分类方法,其特征在于,所述调整自编码器网络的参数,包括:
测试样本Xz首先通过生成的自编码神经网络生成新的验证样本向量Xz″,再通过构造的CART决策树获得相应的近邻数值Kz
计算样本间的距离:
Figure FDA0004064740050000051
其中,D(Xz″,Xi″)表示两个样本间的欧几里得距离,m是低维特征向量X″的维度,x′zs表示样本向量Xz″的第s个特征;xis′表示样本向量Xi″的第s个特征;
然后通过KNN算法搜索训练集中的相应近邻样本集,利用近邻样本集的标签对样本分类;若分类效果优异,即分类准确率达到85%及以上,则保留生成的网络模型和决策树。
6.根据权利要求1所述的一种基于自编码器与决策树的图像分类方法,其特征在于,所述搜索训练样本的最近邻领域如下:
Z=(z1,z2,...,zn)
Figure FDA0004064740050000052
Figure FDA0004064740050000053
Figure FDA0004064740050000054
其中,Z为训练样本;zi为Z的第i个特征;Z″为自编码器提取的低维特征向量;zi″为低维特征向量Z″的第i个特征;D(Z″,Xi″)为欧几里得距离度量;m是低维特征向量X″和Z″的维度;Kz为决策树输出的训练样本对应的最优最近邻数值;
Figure FDA0004064740050000055
为训练样本的最近邻样本集合;α为距离参数;/>
Figure FDA0004064740050000056
为/>
Figure FDA0004064740050000057
对应的第i个近邻样本;pi为最近邻样本集合/>
Figure FDA0004064740050000058
中对应的标签出现的概率;Pz为训练样本Z的预测标签;C为样本的标签类别个数。
7.实现如权利要求1-6任一项所述一种基于自编码器与决策树的图像分类方法的***,其特征在于,所述***包括图像输入转换模块、训练模块、特征提取模块、最近邻模块、决策树模块和分类模块:
所述图像输入转换模块,用于采集图像样本数据,获取原始RGB图像数据,获取图像样本的像素信息的矩阵/向量;
所述训练模块,将收集的图像数据输入自编码器,使用前馈神经网络,通过反向传播算法来求解自编码器网络权重参数;
所述特征提取模块,利用自编码器网络模型,学习图像样本的表征信息,基于编码器提取图像样本的典型特征信息;
所述最近邻模块,在求解网络最优权重参数的迭代过程中,基于对应的编码器输出结果计算图像样本之间的距离,在最近邻距离的约束下同时更新每个图像样本对应的最近邻数值;
所述决策树模块,基于训练好的自编码器网络模型中的编码器,提取样本的压缩特征信息,结合各样本的最优近邻数作为标签构建决策树,基于CART方法构造;
所述分类模块,利用自编码器压缩样本特征信息并输入决策树,获得其对应的最优最近邻数值,寻找其相应的最近邻领域,根据KNN中最近邻领域中数量最多的类别作为预测结果。
所述一种基于自编码器与决策树的图像分类方法的***中,首先利用图像输入转换模块处理数据,然后采用训练模块训练数据,基于训练模块生成特征提取模块提取数据特征并输入决策树模块获取最近邻数值,使用最近邻模块寻找最近邻领域,最后采用分类模块输出预测结果。
CN202310070830.0A 2023-02-07 2023-02-07 一种基于自编码器与决策树的图像分类方法与*** Pending CN116246102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310070830.0A CN116246102A (zh) 2023-02-07 2023-02-07 一种基于自编码器与决策树的图像分类方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310070830.0A CN116246102A (zh) 2023-02-07 2023-02-07 一种基于自编码器与决策树的图像分类方法与***

Publications (1)

Publication Number Publication Date
CN116246102A true CN116246102A (zh) 2023-06-09

Family

ID=86634328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310070830.0A Pending CN116246102A (zh) 2023-02-07 2023-02-07 一种基于自编码器与决策树的图像分类方法与***

Country Status (1)

Country Link
CN (1) CN116246102A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116939210A (zh) * 2023-09-13 2023-10-24 瀚博半导体(上海)有限公司 基于自编码器的图像压缩方法和装置
CN117454277A (zh) * 2023-10-11 2024-01-26 深圳励剑智能科技有限公司 一种基于人工智能的数据管理方法、***及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116939210A (zh) * 2023-09-13 2023-10-24 瀚博半导体(上海)有限公司 基于自编码器的图像压缩方法和装置
CN116939210B (zh) * 2023-09-13 2023-11-17 瀚博半导体(上海)有限公司 基于自编码器的图像压缩方法和装置
CN117454277A (zh) * 2023-10-11 2024-01-26 深圳励剑智能科技有限公司 一种基于人工智能的数据管理方法、***及介质
CN117454277B (zh) * 2023-10-11 2024-06-25 深圳励剑智能科技有限公司 一种基于人工智能的数据管理方法、***及介质

Similar Documents

Publication Publication Date Title
Yang et al. A survey of DNN methods for blind image quality assessment
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN109063565B (zh) 一种低分辨率人脸识别方法及装置
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN116246102A (zh) 一种基于自编码器与决策树的图像分类方法与***
CN113221641B (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN110942091A (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN113627266A (zh) 基于Transformer时空建模的视频行人重识别方法
CN111967358B (zh) 一种基于注意力机制的神经网络步态识别方法
CN113222072A (zh) 基于K-means聚类和GAN的肺部X光图像分类方法
Wang et al. Accelerated manifold embedding for multi-view semi-supervised classification
CN113052017A (zh) 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法
CN114255371A (zh) 一种基于组件监督网络的小样本图像分类方法
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
CN113065520A (zh) 一种面向多模态数据的遥感图像分类方法
Ye et al. Adaptive graph modeling with self-training for heterogeneous cross-scene hyperspectral image classification
CN109784244B (zh) 一种指定目标的低分辨率人脸精确识别方法
Yao A compressed deep convolutional neural networks for face recognition
CN115392474B (zh) 一种基于迭代优化的局部感知图表示学习方法
CN111461061A (zh) 一种基于相机风格适应的行人重识别方法
CN115049894A (zh) 一种基于图学习的全局结构信息嵌入网络的目标重识别方法
CN115664970A (zh) 基于双曲空间的网络异常点检测方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及***
CN113269235B (zh) 一种基于无监督学习的装配体变化检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination