CN111738298B - 一种基于深宽可变多核学习的mnist手写数字数据的分类方法 - Google Patents

一种基于深宽可变多核学习的mnist手写数字数据的分类方法 Download PDF

Info

Publication number
CN111738298B
CN111738298B CN202010461049.2A CN202010461049A CN111738298B CN 111738298 B CN111738298 B CN 111738298B CN 202010461049 A CN202010461049 A CN 202010461049A CN 111738298 B CN111738298 B CN 111738298B
Authority
CN
China
Prior art keywords
algorithm
dws
deep
kernel
mkl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010461049.2A
Other languages
English (en)
Other versions
CN111738298A (zh
Inventor
王婷婷
何林
李君宝
刘劼
苏华友
赵菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010461049.2A priority Critical patent/CN111738298B/zh
Publication of CN111738298A publication Critical patent/CN111738298A/zh
Application granted granted Critical
Publication of CN111738298B publication Critical patent/CN111738298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深宽可变多核学习的MNIST手写数字数据的分类方法。步骤1:MNIST手写数字数据集的准备;步骤2:数据集分类的算法结构;步骤3:将步骤2的DWS‑MKL算法使用SVM作为分类器进行数据第一次分类;步骤4:将步骤3中将数据进行第一次分类后,进行核参数学习;步骤6:利用上述步骤进行数据训练;步骤7:使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。本发明充分发挥核方法的非线性映射能力,根据数据灵活改变结构并使用leave‑one‑out误差界优化参数,提高了方法的分类准确率。

Description

一种基于深宽可变多核学习的MNIST手写数字数据的分类 方法
技术领域
本发明涉及MNIST手写数字数据的分类领域,尤其涉及一种基于深宽可变多核学习的MNIST手写数字数据的分类方法。
背景技术
深度学习作为一种新兴的机器学习技术,由于其优异的性能被广泛应用到众多领域,如图像处理,自然语言处理,推荐***等。然而,深度学习算法能力的提升通常需要大量的数据驱动,在数据获取困难或数据缺失的情况下,深度学习能力受限,泛化性差。相比之下,核方法对小数据集的非线性分类效果显著。而且,核方法在低维空间解决高维空间的线性求解问题可以有效的避免“维数灾难”。
按照核函数的选择方式,核方法包括单核学习和多核学习。单核学习方法具体包括支持向量机,核主成分分析,核Fisher判别分析等。单核学习基于单一特征空间,对于异构数据表达能力有限,核函数的选择也是一个关键问题,单核学习不适合于处理复杂数据和复杂应用问题。多核学习组合了多个单核的特征能力获得组合特征空间,使数据的不同特征分量在高维组合空间得到充分表达,相比于单核学习灵活性更强且具有更好的数据分类能力。组合系数的求解是多核学习的研究重点。传统上将参数优化问题转化为序列最小化优化(sequential minimization optimization,简称SMO,半正定规划(semi-definiteprogramming,简称SDP)以及半无限线性规划(semi-infinite linear programming,简称SILP)问题求解。这种优化方式计算复杂度高,十分耗时。另外,多核学习是一种浅层结构,简单的线性组合或凸组合会丢失数据中有用的特征信息,使方法的分类能力受限。
深度多核学习方法将深度学习层次化级联的思想引入到多核学习,将多核学习的浅层结构扩展成更复杂的结构,深入挖掘数据的内在特征。通过设计算法的层次化结构,使算法称为能够组合更多的核函数的网络,提升算法针对MNIST数据集的特征提取能力。现有的深度多核学习算法大多是直接堆叠多层,忽略了数据在每一层的多样化特征的合理组合,此外,深度多核学习一旦设计好结构,对所有的数据均采用这一固定结构处理。然而,针对现实中MNIST手写数字数据,特征提取过度或不足会造成分类结果反而降低,方法应该具备针对MNIST手写数字数据的选择结构并提取特征的能力。
发明内容
本发明提供一种基于深宽可变多核学习的MNIST手写数字的数据分类方法,针对传统多核学习算法对MNIST手写数字的特征提取能力有限,深度多核学习算法结构固定,限制对MNIST手写数字的算法的泛化能力的问题,本发明充分发挥核方法的非线性映射能力,根据MNIST手写数字数据灵活改变结构并使用leave-one-out误差界优化参数,提高了方法对MNIST手写数字的分类准确率。
本发明通过以下技术方案实现:
一种基于深宽可变多核学习的MNIST手写数字数据的分类方法,所述学习方法包括以下步骤:
步骤1:数据集的准备,所述数据集中的数据为MNIST手写数字,数据集中随机划分出50%的样本作为训练集用于训练模型参数,剩余50%的样本作为测试集用于验证算法性能,具有n个样本的数据集在输入算法之前整理为n×(m+1)维的向量,m为样本的特征数量,最后一维默认为标注信息,具有M类样本的数据标签为0~M;
步骤2:将数据集分类的算法结构为,DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,架构的层数表示为算法的深度D,通道数表示为算法的宽度W,给定一组训练集样本D={(x1,y1),(x2,y2),K,(xm,ym)},其中xi∈Rn,yi∈{-1,1},i=1,2,…,m。φ(x)表示将输入x从Rn空间映射到高维希尔伯特空间的映射函数,则核函数k(xi,xj)满足:
k(xi,xj)=φ(xi)φ(xj)
因此,核矩阵K定义为:
步骤3:将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类,SVM分类器的输入为组合核Kf输出的特征;
步骤4:将步骤3中将MNIST手写数字数据进行第一次分类后,进行核参数学习,DWS-MKL通过求解泛化误差的近似无偏估计建立留一误差上界求解核参数,使用一个易于计算的量Tspan来估计误差上界,Tspan是根据支持向量张成空间导出的一个估计;
步骤5:将步骤4中的核参数学习进行求解;DWS-MKL算法使用梯度投影法求解满足最小化误差上界Tspan的组合系数;
步骤6:利用上述步骤进行MNIST手写数字数据训练,手动设置超参数;之后,输入训练数据进行迭代训练,并使用交叉验证算法确定C和最优的深度D和宽度W;经过训练,获得具有分类能力的SVM分类模型和算法深宽可变架构组合系数。
步骤7:使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。
进一步的,所述步骤2DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,包括以下步骤:
步骤2.1:深宽组合架构基本单元,DWS-MKL算法中每一层的组合核是多个核函数的线性组合,当输入向量为xi时,组合核的基本定义为,
s.t.θi≥0,
其中,M是基核函数的总数量,θi是组合核函数的组合系数;
当输入向量为x和y时,对于线性核函数k(x,y)=x·y,l阶线性核函数保持不变,即k(l)(x,y)=k(1)(x,y)=x·y;p次多项式核为k(x,y)=α(x·y+β)p,其中,α和β为自由参数;RBF核函数定义为
步骤2.2:深层多核学习架构,组合核级联扩展到L层,则一个深层多核学习算法的第L层的组合核函数可以表示为:
K(L)(x,y)=φ(L)(L-1)(Kφ(1)(x)))·φ(L)(L-1)(Kφ(1)(y)))
其中,x和y是算法的输入向量;φ(L)是非线性映射核函数。DWS-MKL算法中设计的深宽组合架构最高为3×3,因此,具体多层非线性映射核函数公式表示为,
线性核
多项式核
RBF核
步骤2.3:深层多通道多核学***均规则输入到一个组合核Kf
其中,KD,m是DWS-MKL算法深宽组合结构除了Kf之外最后一层D的第m个组合核。每一层组合核的总数由算法的独立通道数W决定;
DWS-MKL算法在d层w通道的组合核为Kd,w定义为:
其中,是d层w通道的第m个基核函数,/>是该基核函数对应的组合系数;
步骤2.4:深宽可变多核学习架构,由于DWS-MKL算法各层之间直接级联,即上一层组合核函数的输出是下一层基核函数的输入,且各通道之间相互独立,因此易于调整算法的深宽组合方式。
进一步的,所述步骤3的一个SVM分类器的决策函数为:
其中,αi为对偶系数,b为决策函数f(x)的偏置;
SVM的优化问题为:
s.t.yiik(xi,x)+b)≥1-ξi,
ξi≥0,C>0,i=1,2,…,m
其中,ξi为松弛变量;C为正则化系数;DWS-MKL算法的基础结构是多核组合核,每个组合核是多个基核函数的加权线性组合,因此算法的决策函数可以写为:
其中,θk为DWS-MKL算法深宽组合架构的组合系数,为不失一般性,将DWS-MKL算法的决策函数统一写为:
组合参数θ、对偶系数α和偏置b通过DWS-MKL算法学习获得,DWS-MKL算法中基核函数对应的决策函数如下:
线性核
多项式核
RBF核
进一步的,所述步骤4中根据支持向量张成空间导出的估计Tspan:DWS-MKL算法最小化误差上界Tspan来优化算法参数,具体公式如下:
其中,为SVM的系数;n为支持向量的数量;Sp是点φ(xp)和集合Λp之间的距离,xp是支持向量,具体地,Λp定义为:
DWS-MKL算法使用一个构造函数ψ(x)来获得一个平滑的误差近似值,构造函数为:
ψ(x)=(1+exp(-Ax+B))-1
其中,A和B是常数;本算法实现过程中,设置值为A=5,B=0;可以表示为:
sv是一组支持向量,Ksv为支持向量之间的点积矩阵,
上述公式由张成的空间给出的值不是连续的,DWS-MKL算法在计算时使用正则化项代替约束,使/>值平滑,公式如下:
使用矩阵表达简写为:
其中,Q是一个对角矩阵,矩阵元素为Qn+1,n+1=0;η是一个常数,DWS-MKL算法中η=0.1。
进一步的,所述步骤5中的固定SVM系数α求解组合系数θ与固定组合系数θ求解SVM系数α交替迭代进行,当所求i次与i-1次之间变化小于e-4或者算法迭代运行100次时,算法参数停止更新;参数更新公式如下:
其中,计算梯度更新方向,经计算,偏导数近似表示为:
依据的具体定义,偏导数可以计算为:
其中,矩阵G是一个对角矩阵,矩阵元素为/>Gn+1,n+1=0;矩阵/>其中,/> 为/>去掉最后一行和最后一列的逆矩阵;/>
进一步的,所述步骤6中的手动设置超参数包括学习率为e-5,最大迭代次数为100,SVM分类器的惩罚系数范围设置为C=[10-1,10,102],算法的深宽限定为D∈[1,2,3],W∈[1,2,3]。
本发明的有益效果是:
1.本发明的DWS-MKL算法提升对MNIST手写数字的识别分类精度的同时其模型复杂度较低。
2.本发明的针对不同规模的MNIST手写数字数据集,确定模型结构的复杂程度更符合实际应用的需求。
3.本发明的分类准确率最高为84.2%。
附图说明
图1本发明的结构示意图。
图2本发明的针对MNIST数据集的DWS-MKL算法总体架构示意图。
图3本发明的针对MNIST数据集的SVM分类器示意图。
图4本发明的数据集可视化,图4-(a)数据集2-D样本可视化,图4-(b)数据集3-D样本可视化。
图5本发明的MNIST数据集分类结果,图5-(a)MNIST数据集的平均准确率±标准差,图5-(b)MNIST数据集的混淆矩阵。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种基于深宽可变多核学习的MNIST手写数字数据的分类方法,所述学习方法包括以下步骤:
步骤1:数据集的准备,所述数据集中的数据为MNIST手写数字,数据集中随机划分出50%的样本作为训练集用于训练模型参数,剩余50%的样本作为测试集用于验证算法性能,具有n个样本的数据集在输入算法之前整理为n×(m+1)维的向量,m为样本的特征数量,最后一维默认为标注信息,具有M类样本的数据标签为0~M;
步骤2:将数据集分类的算法结构为,DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,架构的层数表示为算法的深度D,通道数表示为算法的宽度W,给定一组训练集样本D={(x1,y1),(x2,y2),K,(xm,ym)},其中xi∈Rn,yi∈{-1,1},i=1,2,…,m。φ(x)表示将输入x从Rn空间映射到高维希尔伯特空间的映射函数,则核函数k(xi,xj)满足:
k(xi,xj)=φ(xi)φ(xj)
因此,核矩阵K定义为:
步骤3:将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类,解决基本的数据分类问题,SVM分类器的输入为组合核Kf输出的特征;分类器具体架构如图3所示;
步骤4:将步骤3中将MNIST手写数字数据进行第一次分类后,进行核参数学习,DWS-MKL通过求解泛化误差的近似无偏估计建立留一误差(leave-one-out error)上界求解核参数,使用一个易于计算的量Tspan来估计误差上界,Tspan是根据支持向量张成空间导出的一个估计;更松的上界可以提高提取特征的丰富性,提升算法的泛化能力;
步骤5:将步骤4中的核参数学习进行求解;DWS-MKL算法使用梯度投影法求解满足最小化误差上界Tspan的组合系数;
步骤6:利用上述步骤进行MNIST手写数字数据训练,手动设置超参数;之后,输入训练数据进行迭代训练,并使用交叉验证算法确定C和最优的深度D和宽度W;经过训练,获得具有分类能力的SVM分类模型和算法深宽可变架构组合系数。
步骤7:使用步骤6训练获得的分类模型处理MNIST手写数字测试集数据并获得算法的分类准确率。
进一步的,所述步骤2DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,包括以下步骤:
步骤2.1:深宽组合架构基本单元,DWS-MKL算法中每一层的组合核是多个核函数的线性组合,其一般框架如图1所示,当输入向量为xi时,组合核的基本定义为,
s.t.θi≥0,
其中,M是基核函数的总数量,θi是组合核函数的组合系数;
组合核的基核函数有很多选择,例如:线性核函数、多项式核函数、RBF核函数、Laplace核函数以及sigmoid核函数等。DWS-MKL算法的基核函数可以根据具体实际应用选择多种核函数进行组合。本发明DWS-MKL算法在实例测试中,选择了三种核函数作为每个组合核的基核函数,分别为线性核、多项式核和RBF核;
当输入向量为x和y时,对于线性核函数k(x,y)=x·y,l阶线性核函数保持不变,即k(l)(x,y)=k(1)(x,y)=x·y;p次多项式核为k(x,y)=α(x·y+β)p,其中,α和β为自由参数;RBF核函数定义为
步骤2.2:深层多核学习架构,组合核级联扩展到L层,则一个深层多核学习算法的第L层的组合核函数可以表示为:
K(L)(x,y)=φ(L)(L-1)(Kφ(1)(x)))·φ(L)(L-1)(Kφ(1)(y)))
其中,x和y是算法的输入向量;φ(L)是非线性映射核函数。DWS-MKL算法中设计的深宽组合架构最高为3×3,因此,具体多层非线性映射核函数公式表示为,
线性核
多项式核
RBF核
步骤2.3:深层多通道多核学***均规则输入到一个组合核Kf
其中,KD,m是DWS-MKL算法深宽组合结构除了Kf之外最后一层D的第m个组合核。每一层组合核的总数由算法的独立通道数W决定;
DWS-MKL算法在d层w通道的组合核为Kd,w定义为:
其中,是d层w通道的第m个基核函数,/>是该基核函数对应的组合系数;
通过以上描述,DWS-MKL算法深宽可变组合结构的总体架构如图2所示;
步骤2.4:深宽可变多核学习架构,由于DWS-MKL算法各层之间直接级联,即上一层组合核函数的输出是下一层基核函数的输入,且各通道之间相互独立,因此易于调整算法的深宽组合方式。针对同一MNIST手写数字数据集,不同深宽组合架构下的DWS-MKL算法分类准确率不同;针对不同规模的数据集,若深宽组合结构固定,并不能使所有数据集下的分类准确率都最高。因此,根据待解决问题的复杂性确定模型的复杂性是有必要且合理的;根据数据集灵活的调整算法的结构,这是DWS-MKL算法的主要特点;
将架构的深度和宽度的范围限制为D∈[1,2,3],W∈[1,2,3]。因此,可以获得九组不同的深宽组合结构包括:1×1、1×2、1×3、2×1、2×2、2×3、3×1、3×2和3×3。在不同的数据集下,DWS-MKL算法选择哪种深宽组合结构由算法学习确定。将架构的深度D和宽度W作为需要学习的参数,参与算法训练。使用网格搜索算法对不同的组合结构进行迭代训练,并在训练过程中使用5折交叉验证选择使MNIST手写数字分类结果最优的深度和宽度参数。
进一步的,所述步骤3的一个SVM分类器的决策函数为:
其中,αi为对偶系数,b为决策函数f(x)的偏置;
SVM的优化问题为:
s.t.yiik(xi,x)+b)≥1-ξi,
ξi≥0,C>0,i=1,2,…,m
其中,ξi为松弛变量;C为正则化系数;DWS-MKL算法的基础结构是多核组合核,每个组合核是多个基核函数的加权线性组合,因此算法的决策函数可以写为:
其中,θk为DWS-MKL算法深宽组合架构的组合系数,为不失一般性,将DWS-MKL算法的决策函数统一写为:
组合参数θ、对偶系数α和偏置b通过DWS-MKL算法学习获得,DWS-MKL算法中基核函数对应的决策函数如下:
线性核
多项式核
RBF核
进一步的,所述步骤4中根据支持向量张成空间导出的估计Tspan:DWS-MKL算法最小化误差上界Tspan来优化算法参数,具体公式如下:
其中,为SVM的系数;n为支持向量的数量;Sp是点φ(xp)和集合Λp之间的距离,xp是支持向量,具体地,Λp定义为:
DWS-MKL算法使用一个构造函数ψ(x)来获得一个平滑的误差近似值,构造函数为:
ψ(x)=(1+exp(-Ax+B))-1
其中,A和B是常数;本算法实现过程中,设置值为A=5,B=0;可以表示为:
sv是一组支持向量,Ksv为支持向量之间的点积矩阵,
上述公式由张成的空间给出的值不是连续的,DWS-MKL算法在计算时使用正则化项代替约束,使/>值平滑,公式如下:
使用矩阵表达简写为:
其中,Q是一个对角矩阵,矩阵元素为Qn+1,n+1=0;η是一个常数,DWS-MKL算法中η=0.1。
进一步的,所述步骤5中的固定SVM系数α求解组合系数θ与固定组合系数θ求解SVM系数α交替迭代进行,当所求i次与i-1次之间变化小于e-4或者算法迭代运行100次时,算法参数停止更新;所得的模型即为用于测试的最优模型;参数更新公式如下:
其中,计算梯度更新方向,经计算,偏导数近似表示为:
依据的具体定义,偏导数可以计算为:
其中,矩阵G是一个对角矩阵,矩阵元素为/>Gn+1,n+1=0;矩阵/>其中,/> 为/>去掉最后一行和最后一列的逆矩阵;/>
进一步的,所述步骤6中的手动设置超参数包括学习率为e-5,最大迭代次数为100,SVM分类器的惩罚系数范围设置为C=[10-1,10,102],算法的深宽限定为D∈[1,2,3],W∈[1,2,3]。
若数据集的规模较小,使用过度设计的复杂结构会造成算法过拟合;若数据集复杂庞大,使用简单的结构无法充分提取数据特征,造成欠拟合。DWS-MKL算法在使用过程中,针对具体数据集确定组合结构的深度和宽度大小能有效提高算法的精度,也更符合应用的要求
实施例2
使用本方法对UCI数据集中的24组子数据集进行分类。将每组数据集按照1:1的比例划分成训练集和测试集。每一层每个通道的组合核由四个基核函数组成,包括线性核、RBF核以及多项式核(包含2阶多项式和3阶多项式,自由参数为α=1和β=1)。分类器选定为SVM标准分类器。模型训练中,算法迭代次数设置为100。学***均排序。针对不同数据,分类准确率最高的深宽组合架构并不相同,说明根据数据调整算法结构是必要的。
表1高阶基核函数公式
表2基核函数对应的SVM分类决策函数
表3不同深宽组合结构下的分类准确率(%)
/>
/>
在表3中,将每一组数据中分类准确率最高的结果加粗以便于观察和分析。从表中可以看出,并不是所有最深最宽的结构分类结果都最好,例如Liver(1×2)、Mass(2×1)等。不同深宽组合结构的分类准确率排名如表4所示。当宽度为1和2时,算法分类准确率随着深度增加而提升;当宽度为3时,随着深度增加,算法分类准确率反而下降。同理,当深度为1时,算法分类准确率随着宽度增加而提升;当深度为2和3时,随着宽度增加,算法分类准确率先提升后下降。这是一种由于引入深度网络造成的“退化”现象。因此,针对不同的数据集,自适应调整算法的深宽组合结构能够更好的提取特征,有利于提高分类性能。
表4不同深宽组合结构的分类准确率平均排名
(D,W) 1 2 3
1 5.17 3.88 3.58
2 4.04 3.83 4.16
3 3.58 3.13 4.96
实施例3
使用本发明所提出的算法DWS-MKL用于大规模MNIST手写数字识别。MNIST数据集包含0~9的手写数字,样本均为28×28的灰度图。MNIST训练集包含50,000样本,测试集包含10,000样本。为便于观察,随机选取500样本使用T-SNE算法将数据降维为2-D和3-D如图4所示。从图中可以看出,MNIST数据集的各个类别之间线性不可分。本实例可以证明DWS-MKL算法可以处理高维线性不可分的数据。
实验实现方法及超参数设置与实例一中一致,从MNIST训练集和测试集中分别随机抽取5000样本作为实验数据。重复运行10组分类实验,并计算平均准确率和标准差如图x所示。当算法为1×2深宽组合结构时,分类准确率最高为84.2%。标准差波动范围为2.5~2.8。其中一组实验结果的混淆矩阵如图5所示,矩阵中元素表示指定类别的数量。图中横轴为预测类别,纵轴为实际类别。预测结果大多数集中在矩阵的对角线上,表明分类较准确,算法对分类有效。因此,本发明的DWS-MKL算法能够处理高维非线性数据。

Claims (6)

1.一种基于深宽可变多核学习的MNIST手写数字数据的分类方法,其特征在于,所述学习方法包括以下步骤:
步骤1:数据集的准备,所述数据集中的数据为MNIST手写数字,数据集中随机划分出50%的样本作为训练集用于训练模型参数,剩余50%的样本作为测试集用于验证算法性能,具有n个样本的数据集在输入算法之前整理为n×(m+1)维的向量,m为样本的特征数量,最后一维默认为标注信息,具有M类样本的数据标签为0~M;
步骤2:数据集分类的算法结构,DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,架构的层数表示为算法的深度D,通道数表示为算法的宽度W,给定一组训练集样本D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi∈Rn,yi∈{-1,1},i=1,2,...,m;φ(x)表示将输入x从Rn空间映射到高维希尔伯特空间的映射函数,则核函数k(xi,xj)满足:
k(xi,xj)=φ(xi)φ(xj)
因此,核矩阵K定义为:
步骤3:将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类,SVM分类器的输入为组合核Kf输出的特征;
步骤4:将步骤3中将MNIST手写数字数据进行第一次分类后,进行核参数学习,DWS-MKL通过求解泛化误差的近似无偏估计建立留一误差上界求解核参数,使用一个易于计算的量Tspan来估计误差上界,Tspan是根据支持向量张成空间导出的一个估计;
步骤5:将步骤4中的核参数学习进行求解;DWS-MKL算法使用梯度投影法求解满足最小化误差上界Tspan的组合系数;
步骤6:利用上述步骤进行MNIST手写数字数据训练,手动设置超参数;之后,输入训练数据进行迭代训练,并使用交叉验证算法确定C和最优的深度D和宽度W;经过训练,获得具有分类能力的SVM分类模型和算法深宽可变架构组合系数;
步骤7:使用步骤6训练获得的分类模型处理MNIST手写数字测试集数据并获得算法的分类准确率。
2.根据权利要求1所述一种基于深宽可变多核学习的MNIST手写数字数据的分类方法,其特征在于,所述步骤2中DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,包括以下步骤:
步骤2.1:深宽组合架构基本单元,DWS-MKL算法中每一层的组合核是多个核函数的线性组合,当输入向量为xi时,组合核的基本定义为,
s.t.θi≥0,
其中,M是基核函数的总数量,θi是组合核函数的组合系数;
当输入向量为x和y时,对于线性核函数k(x,y)=x·y,l阶线性核函数保持不变,即k(l)(x,y)=k(1)(x,y)=x·y;p次多项式核为k(x,y)=α(x·y+β)p,其中,α和β为自由参数;RBF核函数定义为
步骤2.2:深层多核学习架构,组合核级联扩展到L层,则一个深层多核学习算法的第L层的组合核函数可以表示为:
K(L)(x,y)=φ(L)(L-1)(...φ(1)(x)))·φ(L)(L-1)(...φ(1)(y)))
其中,x和y是算法的输入向量;φ(L)是非线性映射核函数;DWS-MKL算法中设计的深宽组合架构最高为3×3,因此,具体多层非线性映射核函数公式表示为,
线性核
多项式核
RBF核
步骤2.3:深层多通道多核学***均规则输入到一个组合核Kf
其中,KD,m是DWS-MKL算法深宽组合结构除了Kf之外最后一层D的第m个组合核;每一层组合核的总数由算法的独立通道数W决定;
DWS-MKL算法在d层w通道的组合核为Kd,w定义为:
其中,是d层w通道的第m个基核函数,/>是该基核函数对应的组合系数;
步骤2.4:深宽可变多核学习架构,由于DWS-MKL算法各层之间直接级联,即上一层组合核函数的输出是下一层基核函数的输入,且各通道之间相互独立,因此易于调整算法的深宽组合方式。
3.根据权利要求1所述一种基于深宽可变多核学习的MNIST手写数字数据的分类方法,其特征在于,所述步骤3的一个SVM分类器的决策函数为:
其中,αi为对偶系数,b为决策函数f(x)的偏置;
SVM的优化问题为:
s.t.yiik(xi,x)+b)≥1-ξi,
ξi≥0,C>0,i=1,2,...,m
其中,ξi为松弛变量;C为正则化系数;DWS-MKL算法的基础结构是多核组合核,每个组合核是多个基核函数的加权线性组合,因此算法的决策函数可以写为:
其中,θk为DWS-MKL算法深宽组合架构的组合系数,为不失一般性,将DWS-MKL算法的决策函数统一写为:
组合参数θ、对偶系数α和偏置b通过DWS-MKL算法学习获得,DWS-MKL算法中基核函数对应的决策函数如下:
线性核
多项式核
RBF核
4.根据权利要求1所述一种基于深宽可变多核学习的MNIST手写数字数据的分类方法,其特征在于,所述步骤4中根据支持向量张成空间导出的估计Tspan:DWS-MKL算法最小化误差上界Tspan来优化算法参数,具体公式如下:
其中,为SVM的系数;n为支持向量的数量;Sp是点φ(xp)和集合Λp之间的距离,xp是支持向量,具体地,Λp定义为:
DWS-MKL算法使用一个构造函数ψ(x)来获得一个平滑的误差近似值,构造函数为:
ψ(x)=(1+exp(-Ax+B))-1
其中,A和B是常数;本算法实现过程中,设置值为A=5,B=0;可以表示为:
sv是一组支持向量,Ksv为支持向量之间的点积矩阵,
上述公式由张成的空间给出的值不是连续的,DWS-MKL算法在计算时使用正则化项代替约束,使/>值平滑,公式如下:
使用矩阵表达简写为:
其中,Q是一个对角矩阵,矩阵元素为η是一个常数,DWS-MKL算法中η=0.1。
5.根据权利要求1所述一种基于深宽可变多核学习的MNIST手写数字数据的分类方法,其特征在于,所述步骤5中的固定SVM系数α求解组合系数θ与固定组合系数θ求解SVM系数α交替迭代进行,当所求i次与i-1次之间变化小于e-4或者算法迭代运行100次时,算法参数停止更新;参数更新公式如下:
其中,计算梯度更新方向,经计算,偏导数近似表示为:
依据的具体定义,偏导数可以计算为:
其中,矩阵G是一个对角矩阵,矩阵元素为/>Gn+1,n+1=0;矩阵/>其中,/> 为/>去掉最后一行和最后一列的逆矩阵;/>
6.根据权利要求1所述一种基于深宽可变多核学习的MNIST手写数字数据的分类方法,其特征在于,所述步骤6中的手动设置超参数包括学习率为e-5,最大迭代次数为100,SVM分类器的惩罚系数范围设置为C=[10-1,10,102],算法的深宽限定为D∈[1,2,3],W∈[1,2,3]。
CN202010461049.2A 2020-05-27 2020-05-27 一种基于深宽可变多核学习的mnist手写数字数据的分类方法 Active CN111738298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010461049.2A CN111738298B (zh) 2020-05-27 2020-05-27 一种基于深宽可变多核学习的mnist手写数字数据的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010461049.2A CN111738298B (zh) 2020-05-27 2020-05-27 一种基于深宽可变多核学习的mnist手写数字数据的分类方法

Publications (2)

Publication Number Publication Date
CN111738298A CN111738298A (zh) 2020-10-02
CN111738298B true CN111738298B (zh) 2023-09-12

Family

ID=72647743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010461049.2A Active CN111738298B (zh) 2020-05-27 2020-05-27 一种基于深宽可变多核学习的mnist手写数字数据的分类方法

Country Status (1)

Country Link
CN (1) CN111738298B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232438B (zh) * 2020-11-05 2023-09-01 华东理工大学 面向高维图像表示多核子空间学习框架

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482926A (zh) * 2009-02-19 2009-07-15 北京大学 一种可伸缩的自适应多核分类方法
CN102194135A (zh) * 2010-03-08 2011-09-21 艾美特电器(深圳)有限公司 基于核自适应局部保持映射的图像分类方法和图像处理器
CN102314614A (zh) * 2011-10-24 2012-01-11 北京大学 一种基于类共享多核学习的图像语义分类方法
CN103678681A (zh) * 2013-12-25 2014-03-26 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN105654126A (zh) * 2015-12-29 2016-06-08 华为技术有限公司 一种计算设备、核矩阵评估方法以及多核学习方法
CN105740885A (zh) * 2016-01-25 2016-07-06 南京信息工程大学 基于多核鉴别线性表示的分类方法
CN106529484A (zh) * 2016-11-16 2017-03-22 哈尔滨工业大学 基于类指定多核学习的光谱和激光雷达数据联合分类方法
CN109034186A (zh) * 2018-06-11 2018-12-18 东北大学秦皇岛分校 建立da-rbm分类器模型的方法
CN110309871A (zh) * 2019-06-27 2019-10-08 西北工业大学深圳研究院 一种基于随机重采样的半监督学习图像分类方法
WO2020081399A1 (en) * 2018-10-15 2020-04-23 Nam Sung Kim Network-centric architecture and algorithms to accelerate distributed training of neural networks

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7836000B2 (en) * 2007-12-10 2010-11-16 Yahoo! Inc. System and method for training a multi-class support vector machine to select a common subset of features for classifying objects

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482926A (zh) * 2009-02-19 2009-07-15 北京大学 一种可伸缩的自适应多核分类方法
CN102194135A (zh) * 2010-03-08 2011-09-21 艾美特电器(深圳)有限公司 基于核自适应局部保持映射的图像分类方法和图像处理器
CN102314614A (zh) * 2011-10-24 2012-01-11 北京大学 一种基于类共享多核学习的图像语义分类方法
CN103678681A (zh) * 2013-12-25 2014-03-26 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN105654126A (zh) * 2015-12-29 2016-06-08 华为技术有限公司 一种计算设备、核矩阵评估方法以及多核学习方法
CN105740885A (zh) * 2016-01-25 2016-07-06 南京信息工程大学 基于多核鉴别线性表示的分类方法
CN106529484A (zh) * 2016-11-16 2017-03-22 哈尔滨工业大学 基于类指定多核学习的光谱和激光雷达数据联合分类方法
CN109034186A (zh) * 2018-06-11 2018-12-18 东北大学秦皇岛分校 建立da-rbm分类器模型的方法
WO2020081399A1 (en) * 2018-10-15 2020-04-23 Nam Sung Kim Network-centric architecture and algorithms to accelerate distributed training of neural networks
CN110309871A (zh) * 2019-06-27 2019-10-08 西北工业大学深圳研究院 一种基于随机重采样的半监督学习图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多尺度核方法及在电子***测试中的应用;石慧姝;《中国博士学位论文全文数据库 (工程科技Ⅱ辑)》;20190115;C032-4 *

Also Published As

Publication number Publication date
CN111738298A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN108846445B (zh) 一种图像处理方法
Zhu et al. Fast and stable clustering analysis based on Grid-mapping K-means algorithm and new clustering validity index
Zhang et al. Robust low-rank kernel multi-view subspace clustering based on the schatten p-norm and correntropy
US8412757B2 (en) Non-negative matrix factorization as a feature selection tool for maximum margin classifiers
Chen et al. LABIN: Balanced min cut for large-scale data
Zhang et al. Generalized nonconvex nonsmooth low-rank matrix recovery framework with feasible algorithm designs and convergence analysis
CN111753995A (zh) 一种基于梯度提升树的局部可解释方法
Jia et al. Clustering-aware graph construction: A joint learning perspective
Qu et al. Effects of loss function and data sparsity on smooth manifold extraction with deep model
Giffon et al. QuicK-means: accelerating inference for K-means by learning fast transforms
Park et al. VeST: Very sparse tucker factorization of large-scale tensors
Zhan et al. Deep model compression via two-stage deep reinforcement learning
CN111738298B (zh) 一种基于深宽可变多核学习的mnist手写数字数据的分类方法
CN113408610B (zh) 一种基于自适应矩阵迭代极限学习机的图像识别方法
Cacciarelli et al. Hidden dimensions of the data: PCA vs autoencoders
Gunawardena et al. DCCNMF: Deep Complementary and Consensus Non-negative Matrix Factorization for multi-view clustering
Chen et al. Mutual information-based dropout: Learning deep relevant feature representation architectures
Wang et al. Efficient statistical estimation for a non-randomly distributed system with application to large-scale data neural network
CN109614581B (zh) 基于对偶局部学习的非负矩阵分解聚类方法
Wang et al. Mfpc-net: Multi-fidelity physics-constrained neural process
Chang et al. Calibrated multi-task subspace learning via binary group structure constraint
Bichat et al. Hierarchical correction of p-values via an ultrametric tree running Ornstein-Uhlenbeck process
Vettam et al. Regularized deep learning with nonconvex penalties
Mazo et al. Constraining kernel estimators in semiparametric copula mixture models
Zocco et al. Recovery of linear components: Reduced complexity autoencoder designs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant