CN116842354A - 基于量子人工水母搜索机制的特征选择方法 - Google Patents

基于量子人工水母搜索机制的特征选择方法 Download PDF

Info

Publication number
CN116842354A
CN116842354A CN202310548465.XA CN202310548465A CN116842354A CN 116842354 A CN116842354 A CN 116842354A CN 202310548465 A CN202310548465 A CN 202310548465A CN 116842354 A CN116842354 A CN 116842354A
Authority
CN
China
Prior art keywords
quantum
jellyfish
artificial jellyfish
optimal
artificial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310548465.XA
Other languages
English (en)
Inventor
高洪元
郭颖
揣济阁
孙溶辰
杜亚男
任立群
狄妍岐
陈暄
谷晓苑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202310548465.XA priority Critical patent/CN116842354A/zh
Publication of CN116842354A publication Critical patent/CN116842354A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N10/00Quantum computing, i.e. information processing based on quantum-mechanical phenomena
    • G06N10/60Quantum algorithms, e.g. based on quantum optimisation, quantum Fourier or Hadamard transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于量子人工水母搜索机制的特征选择方法,将量子优化理论和人工水母搜索机制结合进而得到量子人工水母搜索机制,并将解决连续优化问题的人工水母搜索机制进行离散化处理,使其具有更高的鲁棒性,突破人工水母搜索机制的应用局限。采用同步优化方法的封装式特征选择可以有效的降低传统封装式特征选择的时间复杂度。利用群智能优化方法同时进行对支持向量机超参数的寻优和特征子集的选取对于所选用的智能优化方法的性能有较高的要求,而本发明的量子人工水母搜索机制拥有较优秀的收敛性和更短的用时。因此相较于一些基于已有传统群智能的特征选择方法,本发明拥有更快的收敛速度、更高的收敛精度、更低的时间复杂度和更好的鲁棒性。

Description

基于量子人工水母搜索机制的特征选择方法
技术领域
本发明涉及一种基于量子人工水母搜索机制的特征选择方法,属于数据处理领域。
背景技术
特征选择研究的是从原始特征中选择出一些最有效特征以降低数据集维度并使得***的特定指标最优化的方法,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。现有的特征选择方法按照特征子集的评价标准是否与后续的学习算法相结合可分为嵌入式特征选择方法、过滤式特征选择方法和封装式特征选择方法。其中封装式特征选择方法因将特征选择问题与后续的学习方法相结合,利用分类器来评价选取特征子集的优劣使得所选子集的性能有较大的优势而被广泛应用。同时,封装式特征选择多与各类群智能算法相结合来提升特征选择的效率,减少时间复杂度。但是由于工程问题的困难性和复杂性,现有的群智能算法的优化能力很难同时达到收敛性好、收敛精度高和时间复杂度低的效果,因此设计一种特征选择用时短、所选特征子集性能好并且鲁棒性强的特征选择方法有重要的理论价值和研究意义。
经过对现有文献的检索,张勇等在《Information Sciences》(2017,Vol.418-419,No.47,pp.561-574)发表的“A return-cost-based binary firefly algorithm forfeature selection”提出了一种基于二进制萤火虫算法的特征选择方法,在充分利用萤火虫算法简单、收敛速度快的优点的同时结合多种改进方法改善了其容易陷入局部最优解的缺点。但由于萤火虫算法是一种被较早提出的群智能算法,其收敛精度存在明显的不足,利用传统方法对该算法进行相应改进难以实现较高的收敛精度,因此该方法在特征子集的选取上还未能达到十分理想的结果。Balakrishnan K等在《Journal of AmbientIntelligence and Humanized Computing》(2022,pp.1-23)发表的“A novel controlfactor and Brownian motion-based improved Harris Hawks Optimization forfeature selection”中提出了一种基于新的控制因子和布朗运动的哈里斯鹰算法并将算法应用于特征选择。该方法对哈里斯鹰算法进行了改进,提升了哈里斯鹰算法的收敛性,在特征选择上取得了较高的分类准确率和较为理想的特征子集结果。但由于该方法仅选取了高维度数据集与现有的特征选择方法进行对比,对低维度数据集的优势难以体现,因此鲁棒性不强。贾鹤鸣等在《自动化学报》(2022,Vol.48,No.06,pp.1601-1615)发表的“基于遗传乌燕鸥算法的同步优化特征选择”提出了一种利用算法同时优化支持向量机参数和进行特征选择的封装式特征选择模型,该模型极大的降低了封装式特征选择的用时。将遗传算法和乌燕鸥算法结合的遗传乌燕鸥算法不论是探索和利用之间的平衡还是寻优能力都得到了改善,因此算法的精度有较大的提升,所选择的特征子集平均数也较低,较为理想的实现了特征选择为数据集降维的目的,但该算法的时间优势并不明显,无法同时兼顾收敛精度和所用时间。
已有的文献表明,将有效的优化算法应用到特征选择当中,筛选重要的特征,可以更好的降低数据集的维度,有助于后续的数据处理。将传统的优化方法应用于特征选择中会面临收敛精度低,时间成本高等问题。将一些近几年提出的群智能方法如哈里斯鹰机制、人工水母机制等引入特征选择领域对上述问题会有所改善,但由于一些新提出的方法本身也存在上述问题,因此需针对其应用于特征选择时存在的问题进行多方面的有效改进。另外,采用同步优化的特征选择方法可以有效的降低封装式特征选择的时间复杂度,但在算法的选择上要兼顾支持向量机的超参数选择和特征子集选取的性能。要达到智能优化方法快速收敛和所选特征子集优越性高的目标,则需要设计一些新的演化方法,发明一种可行有效的特征选择方法。本发明是在封装式同步优化特征选择方法的基础上,设计一种基离散量子人工水母机制进行对支持向量机的两个超参数和特征子集的同步选取从而提出一种特征选择的新方法。
发明内容
本发明的目的是为了解决现有封装式特征选择方法选择的特征子集精度不够和时间复杂度高的难题,进而提供一种收敛速度更快和有效性更高并可以进行工程问题求解的有更广泛应用的量子人工水母搜索机制。本发明将量子优化理论和人工水母搜索机制结合进而得到量子人工水母搜索机制,并将解决连续优化问题的人工水母搜索机制进行离散化处理,使其具有更高的鲁棒性,突破了人工水母搜索机制的应用局限。同时,采用同步优化方法的封装式特征选择可以有效的降低传统封装式特征选择的时间复杂度。利用群智能优化方法同时进行对支持向量机超参数的寻优和特征子集的选取对于所选用的智能优化方法的性能有较高的要求,而本发明所设计的量子人工水母搜索机制拥有较优秀的收敛性和更短的用时。因此相较于一些基于已有传统群智能的特征选择方法,所设计基于量子人工水母搜索机制的特征选择方法拥有更快的收敛速度、更高的收敛精度、更低的时间复杂度和更好的鲁棒性。
本发明的目的是这样实现的:步骤如下:
步骤一:输入数据集,进行数据集预处理,将数据集行归一化并划分训练集和测试集,构建使用支持向量机进行数据集训练、测试和分类的模型。
输入数据集I=[(m1,y1),(m2,y2),...,(mL,yL)],其中M=[m1,m2,...,mL]为数据集中的数据样本,Y=[y1,y2,...,yL]为数据集中的类别标签,L为数据集中数据样本的总数,每个数据样本在特征向量中都有n个特征元素,即mi=[mi1,mi2,...,min],i=1,2,...,L,n为数据集包含的特征数。对输入的数据集进行预处理,将数据集中所有数据样本和类别标签全部转换为数字。预处理后进行数据集的归一化,设数据集中第个数据样本为/>数据样本最大值为mmax=[m1,max,m2,max,...,mn,max],最小值为mmin=[m1,min,m2,min,...,mn,min],其中/>为第/>个特征元素的最大值,/>为第/>个特征元素的最小值,/>利用归一化公式/>对数据集中所有数据样本进行归一化,得到归一化后的数据集I′=[(m′1,y1),(m′2,y2),...,(m′L,yL)],其中mi=[m′i1,m′i2,...,m′in],i=1,2,...,L,M′=[m′1,m′2,...,m′L],M′为归一化后的数据样本集合。将输入支持向量机的数据集中每组特征数据随机选取占比为α1的数据样本及其类别标签作为训练集,其余数据为测试集,设训练集为I′1,测试集为I′2。由于数据集的复杂性,本发明采用有向无环图法构建可用于多分类的支持向量机模型对输入支持向量机的数据集进行分类。设输入支持向量机的数据集包含的特征数为k,则构造/>个非线性可分离支持向量机,将一个k类问题转化为个二类问题进行求解,进而完成对包含类别数为k的数据集进行准确问题。
在分类过程中首先将训练集I1′和支持向量机的初始超参数输入支持向量机进行训练。训练过程是支持向量机寻找最优分类超平面以及最优惩罚因子和松弛变量的过程。这个优化过程等价于求解一个二次规划问题,通过引入拉格朗日乘子构造有约束的最优化方程。第i类和第j类的有约束的优化方程为约束条件为/>和/>其中/>为第i类和第j类的拉格朗日乘子,C为惩罚因子,/>为支持向量机的核函数,K表示核函数符号。由于缺乏先验知识,核函数选取可以映射到无穷维的高斯核函数,其表达式为/>其中为两数据样本间的欧式距离,exp()为以自然常数e为底的指数函数,/>δ为数据集中所有数据样本的标准差。训练过程通过求解/>的最优解/>来构造第i类和第j类的最优超平面,同时对惩罚因子和松弛变量进行一定范围内的遍历寻优。
(1)输入支持向量机的初始惩罚因子和初始松弛变量/>设置搜索网格的范围为和/>搜索步长为r3,当前搜索次数为/>最大搜索次数为/>搜索起点参数为/>和/>其中r1为惩罚因子搜索半径,r2为松弛变量的搜索半径。
(2)采用序列最小优化法搜索并记录计算第i类和第j类的最优权重向量和最优偏置/>进而构造第i类和第j类的决策函数其中sgn()为符号函数,对于任意变量u,满足
(3)使用合页损失函数作为交叉验证的损失函数,采用c折交叉验证法计算得到在参数和/>下的分类正确率。
(4)若且/>令/>返回过程(2)继续搜索,当/>完成一次区间内所有取值的遍历,即/>为/>的整数倍时令/> 其中/>为向下取整运算。当/>时结束搜索,将对应分类正确率最高的参数设为训练得到的第i类和第j类最优超参数,记为Cij和ζij,输出第i类和第j类的最优决策函数。
(5)对k个类别进行排列组合,得到种组合方式,每种组合方式按照过程(1)到过程(4)所述的方法进行支持向量机的训练,得到/>组适应不同数据类别组合的超参数和相应的决策函数,完成有向无环图支持向量机的模型构建。
完成训练后保存训练所得的模型,将测试集I′2 ′输入支持向量机中进行测试。对任意测试数据m′r,采用离散判别规则判断数据样本所属的类别。若满足则为第i类,否则为第j类。完成测试集分类后将支持向量机通过测试得到的类别标签与正确的类别标签进行对比,二者相同则分类正确,否则分类错误。分类正确率为分类正确的数据样本占测试集数据样本总数的百分比。
对于数据类别数为k的数据集,数据样本所属类别为ω=[ω12,...,ωk],所构造支持向量机的目标函数为并满足其中wij为i类和j类超平面的权重向量,bij为i类和j类超平面的偏置,/>为数据样本向高维映射的映射函数。通过目标函数寻找最优的分类超平面,实现对复杂数据集的精确分类。
步骤二:初始化量子人工水母种群中每个个体的量子位置,构造和计算量子人工水母个体的适应度,确定种群的初始全局最优量子位置。
设置量子人工水母的种群规模为N,整个种群的最大迭代次数为T,t代表迭代次数,搜索空间最大维数为D,第t代第i只量子人工水母的量子位置为 对量子位置进行测量得到量子人工水母的位置,可表示为/>第t代第i只量子人工水母的第d维量子位置/>对应测量位置为测量规则为/>其中/>是此区间内满足均匀分布的随机数,D=n+2n1
在基于量子人工水母搜索机制的特征选择方法中,量子人工水母搜索机制的前2n1个维度用于搜索支持向量机的初始惩罚因子和初始松弛变量/>其余n个维度用于进行特征选择。对于支持向量机的惩罚因子/>和松弛变量/>采用二进制编码方式,每个变量的编码长度为n1位。对于特征l1,l2,...,ln,若取值为1则表示该特征被选用;否则取值为0,特征不被选用。
由于特征选择主要的目标为分类精度和所选特征个数,理想结果是选择特征个数较少同时分类精度较高,因此依据这两个标准来评价量子人工水母机制及对比机制在支持向量机特征选择的应用效果。所选适应度函数公式为其中α为分类精确性,代表分类正确度在适应度函数中所占的比重,γR为分类正确率,β为所选特征重要性,表示所选特征个数在适应度函数中所占权重,β=1-α,/>为所选特征子集数。
初始化第1代第i只量子人工水母第d维的量子位置为[0,1]之间的随机数,i=1,2,...,N,d=1,2,...,D。根据测量规则获得每只量子人工水母的位置,将产生的初始支持向量机参数和/>由二进制编码转换为十进制,将选取的特征子集划分好训练集和测试集后一同输入所述支持向量机模型中获得分类正确率,代入适应度函数中获得每只量子人工水母的初始适应度值,适应度值越小则越优秀。将种群中初始适应度值最优的量子人工水母的量子位置设为种群的初始全局最优量子位置。
步骤三:跟随洋流运动。量子人工水母个体通过量子旋转门进行对自身量子位置的更新,在全局范围内搜索最优解。
第i只量子人工水母采用何种机制进行觅食由时间控制函数和常量p0控制,i=1,2,...,N,当/>时量子人工水母进行跟随洋流运动,/> 为(0,1)之间的随机数。
洋流因富含食物而对人工水母具有较强的吸引力,对其觅食运动产生重要影响,在跟随洋流运动过程中,将量子人工水母种群中的最优量子位置设为洋流的方向,每只量子人工水母量子位置的更新过程主要通过模拟的简化量子旋转门来完成,第i只量子人工水母第d维的量子旋转门更新过程为其中/>为跟随洋流运动时的量子旋转角,d=1,2,...,D,/> 是前t次迭代过程中全局最优解的量子位置,即迭代过程中适应度值最优的量子人工水母个体所在的量子位置,/>和/>为(0,1)之间的随机数,β1为分布因子。如果量子旋转角/>量子比特/>用量子非门以一种较小的概率进行更新,这一过程可表示为/>因此在跟随洋流运动中,量子人工水母个体对自身量子位置的更新公式可以表示为其中/>为[0,1]间均匀分布的随机数,/>为跟随洋流运动的变异概率。
步骤四:种群内运动。在种群内运动中,每只量子人工水母有主动运动和被动运动两种不同的觅食策略,量子人工水母种群进行局部开发。
量子人工水母在种群内的运动表现为主动运动和被动运动两种运动形式。当时量子人工水母在种群内运动,当/>时量子人工水母表现为主动运动;否则量子人工水母表现为被动运动,/>为(0,1)之间的随机数。
被动运动是量子人工水母个体在自身周围实现搜索的运动形式,第i只量子人工水母第d维量子位置的量子旋转门更新过程为其中/> 为被动运动时的量子旋转角,/>为标准正态随机数,/>为量子人工水母种群的第d维平均量子位置,/>若量子旋转角/>量子比特/>用量子非门以一种较小的概率进行更新,这一过程可表示为/>因此在被动运动中,第i只量子人工水母的第d维量子位置的更新公式可以表示为其中/>为[0,1]间均匀分布的随机数,/>为被动运动的变异概率。
主动运动为量子人工水母个体借助最优位置进行搜索的运动形式,第i只量子人工水母第d维量子位置的量子旋转门更新过程为其中/> 为主动运动时的量子旋转角,/>和/>为(0,1)之间的随机数,/>为迭代过程中第i只量子人工水母第d维的最优量子位置,即第i只量子人工水母适应度值最优时所在的第d维量子位置。若量子旋转角/>量子比特/>用量子非门以一种较小的概率进行更新,这一过程可表示为/>因此在主动运动中,第i只量子人工水母的第d维量子位置的更新公式可以表示为其中/>为[0,1]间均匀分布的随机数,/>为被动运动的变异概率。
步骤五:计算每只量子人工水母进行量子位置更新后的适应度值,更新量子人工水母种群的最优量子位置。
得到第t+1次迭代中第i只量子人工水母的量子位置后,利用测量规则测量得到第i只量子人工水母的位置/>将搜索得到的支持向量机的两个初始超参数由二进制编码转化为十进制,对选取的特征子集划分训练集和测试集,将训练集、测试集和支持向量机的初始超参数输入所述支持向量机模型中获得分类正确率。将所得的分类正确率和所选特征子集的个数代入适应度函数中计算相应的适应度值,记录第t+1次迭代量子人工水母个体的适应度值。若第t+1次迭代量子人工水母种群中的最优适应度值小于前t次迭代中所得的全局最优解的适应度值,则将第t+1次迭代的最优量子位置设为全局最优量子位置;否则,则第t+1次迭代的全局最优量子位置等于前t次迭代中的全局最优量子位置。
步骤六:判断是否达到其最大迭代次数T,若未达到,令t=t+1,返回步骤三继续迭代;否则,输出选取的最优特征子集,同时获得分类正确率和分类结果。
与现有技术相比,本发明的有益效果是:传统的人工水母搜素机制存在收敛速度慢、收敛精度低、易陷入局部最优解等问题,并且仅能用于连续优化问题的求解。针对这些问题,本发明提出了一种将人工水母搜索机制与量子优化理论相结合,基于量子编码和模拟量子旋转门设计了全新的演进策略,提出一种离散的量子人工水母搜索机制。与量子优化理论的结合极大的提升了传统人工水母搜索机制的收敛速度和收敛精度,打破了传统人工水母搜索机制的应用局限,使其可以解决离散优化问题。所设计的量子人工水母搜索机制可以对目标函数进行快速高精度求解,收敛性能优越,鲁棒性更强。
传统的封装式特征选择方法从初始的数据集中不断的选择特征子集、训练学习器,根据学习器的性能对所选择的特征子集进行评价,直到选出最优的特征子集。虽然从学习器的分类效果来看,封装式特征选择选取的特征子集拥有比过滤式特征选择选取的特征子集更高的精度,但由于封装式特征选择要不断地进行学习器的训练,因此封装式特征选择的计算开销通常比过滤式特征选择大得多。为了减少计算开销,降低封装式特征选择的时间复杂度,本发明采用同步优化的特征选择方法,采用一种群智能搜索机制同时完成对支持向量机的超参数寻优和特征子集的选取。相较于一些经典的特征选择方法,如贪心算法和递归特征消除法,同步优化的特征选择方法能够大量降低计算的复杂度,降低搜索最优特征子集的时间。
在同步优化特征选择中,对所选用群智能搜索机制的性能较高。传统的群智能方法难以兼顾收敛性和所用时间,在实际应用中无法完全发挥同步优化特征选择方法精确度高、用时短的优势。本发明提出的量子人工水母搜索机制在针对特征选择问题上通过量子优化理论改善传统人工水母搜索机制的缺点的同时极大的降低了所用的时间,弥补了封装式特征选择存在的不足,经过平均分类正确率、所选特征平均数和平均运行时间三个指标的衡量,量子人工水母搜索机制的表现都更加优秀,可以表现出本发明在特征选择领域具有较强的使用价值。
附图说明
图1是基于量子人工水母搜索机制的特征选择方法流程图;
图2是Directed Acyclic Graph方法进行k分类示意图;
图3是同一低维度数据集下不同方法的收敛性能对比曲线图;
图4是同一高维度数据集下不同方法的收敛性能对比曲线图;
图5是不同数据集下不同方法的所选特征平均数柱状图;
图6是不同数据集下不同方法的平均分类正确率柱状图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
下面结合附图与具体实施方式对本发明作进一步详细描述。所发明基于量子人工水母搜索机制的特征选择方法流程如图1所示,本发明技术方案包括如下步骤:
步骤一:输入数据集,进行数据集预处理,将数据集行归一化并划分训练集和测试集,构建使用支持向量机进行数据集训练、测试和分类的模型。
输入数据集I=[(m1,y1),(m2,y2),...,(mL,yL)],其中M=[m1,m2,...,mL]为数据集中的数据样本,Y=[y1,y2,...,yL]为数据集中的类别标签,L为数据集中数据样本的总数,每个数据样本在特征向量中都有n个特征元素,即mi=[mi1,mi2,...,min],i=1,2,...,L,n为数据集包含的特征数。对输入的数据集进行预处理,将数据集中所有数据样本和类别标签全部转换为数字。预处理后进行数据集的归一化,设数据集中第个数据样本为/>数据样本最大值为mmax=[m1,max,m2,max,...,mn,max],最小值为mmin=[m1,min,m2,min,...,mn,min],其中/>为第/>个特征元素的最大值,/>为第/>个特征元素的最小值,/>利用归一化公式/>对数据集中所有数据样本进行归一化,得到归一化后的数据集I′=[(m′1,y1),(m′2,y2),...,(m′L,yL)],其中m′i=[m′i1,m′i2,...,m′in],i=1,2,...,L,M′=[m′1,m′2,...,m′L],M′为归一化后的数据样本集合。将输入支持向量机的数据集中每组特征数据随机选取占比为α1的数据样本及其类别标签作为训练集,其余数据为测试集,设训练集为I′1,测试集为I′2。由于数据集的复杂性,本发明采用有向无环图法构建可用于多分类的支持向量机模型对输入支持向量机的数据集进行分类。设输入支持向量机的数据集包含的特征数为k,则构造/>个非线性可分离支持向量机,将一个k类问题转化为/>个二类问题进行求解,进而完成对包含类别数为k的数据集进行准确问题。
在分类过程中首先将训练集I′1和支持向量机的初始超参数输入支持向量机进行训练。训练过程是支持向量机寻找最优分类超平面以及最优惩罚因子和松弛变量的过程。这个优化过程等价于求解一个二次规划问题,通过引入拉格朗日乘子构造有约束的最优化方程。第i类和第j类的有约束的优化方程为约束条件为/>和/>其中/>为第i类和第j类的拉格朗日乘子,C为惩罚因子,/>为支持向量机的核函数,K表示核函数符号。由于缺乏先验知识,核函数选取可以映射到无穷维的高斯核函数,其表达式为/>其中为两数据样本间的欧式距离,exp()为以自然常数e为底的指数函数,/>δ为数据集中所有数据样本的标准差。训练过程通过求解/>的最优解/>来构造第i类和第j类的最优超平面,同时对惩罚因子和松弛变量进行一定范围内的遍历寻优。
(1)输入支持向量机的初始惩罚因子和初始松弛变量/>设置搜索网格的范围为/>和/>搜索步长为r3,当前搜索次数为/>最大搜索次数为/>搜索起点参数为/>和/>其中r1为惩罚因子搜索半径,r2为松弛变量的搜索半径。
(2)采用序列最小优化法搜索并记录计算第i类和第j类的最优权重向量和最优偏置/>进而构造第i类和第j类的决策函数其中sgn()为符号函数,对于任意变量u,满足
(3)使用合页损失函数作为交叉验证的损失函数,采用c折交叉验证法计算得到在参数和/>下的分类正确率。
(4)若且/>令/>返回过程(2)继续搜索,当/>完成一次区间内所有取值的遍历,即/>为/>的整数倍时令/> 其中/>为向下取整运算。当/>时结束搜索,将对应分类正确率最高的参数设为训练得到的第i类和第j类最优超参数,记为Cij和ζij,输出第i类和第j类的最优决策函数。
(5)对k个类别进行排列组合,得到种组合方式,每种组合方式按照过程(1)到过程(4)所述的方法进行支持向量机的训练,得到/>组适应不同数据类别组合的超参数和相应的决策函数,完成有向无环图支持向量机的模型构建。
完成训练后保存训练所得的模型,将测试集I′2输入支持向量机中进行测试。对任意测试数据m′r,采用离散判别规则判断数据样本所属的类别。若满足则为第i类,否则为第j类。完成测试集分类后将支持向量机通过测试得到的类别标签与正确的类别标签进行对比,二者相同则分类正确,否则分类错误。分类正确率为分类正确的数据样本占测试集数据样本总数的百分比。
对于数据类别数为k的数据集,数据样本所属类别为ω=[ω12,...,ωk],所构造支持向量机的目标函数为并满足其中wij为i类和j类超平面的权重向量,bij为i类和j类超平面的偏置,/>为数据样本向高维映射的映射函数。通过目标函数寻找最优的分类超平面,实现对复杂数据集的精确分类。
步骤二:初始化量子人工水母种群中每个个体的量子位置,构造和计算量子人工水母个体的适应度,确定种群的初始全局最优量子位置。
设置量子人工水母的种群规模为N,整个种群的最大迭代次数为T,t代表迭代次数,搜索空间最大维数为D,第t代第i只量子人工水母的量子位置为 对量子位置进行测量得到量子人工水母的位置,可表示为/>第t代第i只量子人工水母的第d维量子位置/>对应测量位置为测量规则为/>其中/>是此区间内满足均匀分布的随机数,D=n+2n1
在基于量子人工水母搜索机制的特征选择方法中,量子人工水母搜索机制的前2n1个维度用于搜索支持向量机的初始惩罚因子和初始松弛变量/>其余n个维度用于进行特征选择。对于支持向量机的惩罚因子/>和松弛变量/>采用二进制编码方式,每个变量的编码长度为n1位。对于特征l1,l2,...,ln,若取值为1则表示该特征被选用;否则取值为0,特征不被选用。
由于特征选择主要的目标为分类精度和所选特征个数,理想结果是选择特征个数较少同时分类精度较高,因此依据这两个标准来评价量子人工水母机制及对比机制在支持向量机特征选择的应用效果。所选适应度函数公式为其中α为分类精确性,代表分类正确度在适应度函数中所占的比重,γR为分类正确率,β为所选特征重要性,表示所选特征个数在适应度函数中所占权重,β=1-α,/>为所选特征子集数。
初始化第1代第i只量子人工水母第d维的量子位置为[0,1]之间的随机数,i=1,2,...,N,d=1,2,...,D。根据测量规则获得每只量子人工水母的位置,将产生的初始支持向量机参数和/>由二进制编码转换为十进制,将选取的特征子集划分好训练集和测试集后一同输入所述支持向量机模型中获得分类正确率,代入适应度函数中获得每只量子人工水母的初始适应度值,适应度值越小则越优秀。将种群中初始适应度值最优的量子人工水母的量子位置设为种群的初始全局最优量子位置。
步骤三:跟随洋流运动。量子人工水母个体通过量子旋转门进行对自身量子位置的更新,在全局范围内搜索最优解。
第i只量子人工水母采用何种机制进行觅食由时间控制函数和常量p0控制,i=1,2,...,N,当/>时量子人工水母进行跟随洋流运动,/> 为(0,1)之间的随机数。
洋流因富含食物而对人工水母具有较强的吸引力,对其觅食运动产生重要影响,在跟随洋流运动过程中,将量子人工水母种群中的最优量子位置设为洋流的方向,每只量子人工水母量子位置的更新过程主要通过模拟的简化量子旋转门来完成,第i只量子人工水母第d维的量子旋转门更新过程为其中/>为跟随洋流运动时的量子旋转角,d=1,2,...,D,/> 是前t次迭代过程中全局最优解的量子位置,即迭代过程中适应度值最优的量子人工水母个体所在的量子位置,/>和/>为(0,1)之间的随机数,β1为分布因子。如果量子旋转角/>量子比特用量子非门以一种较小的概率进行更新,这一过程可表示为/>因此在跟随洋流运动中,量子人工水母个体对自身量子位置的更新公式可以表示为其中/>为[0,1]间均匀分布的随机数,/>为跟随洋流运动的变异概率。
步骤四:种群内运动。在种群内运动中,每只量子人工水母有主动运动和被动运动两种不同的觅食策略,量子人工水母种群进行局部开发。
量子人工水母在种群内的运动表现为主动运动和被动运动两种运动形式。当时量子人工水母在种群内运动,当/>时量子人工水母表现为主动运动;否则量子人工水母表现为被动运动,/>为(0,1)之间的随机数。
被动运动是量子人工水母个体在自身周围实现搜索的运动形式,第i只量子人工水母第d维量子位置的量子旋转门更新过程为其中/> 为被动运动时的量子旋转角,r1 t为标准正态随机数,/>为量子人工水母种群的第d维平均量子位置,/>若量子旋转角/>量子比特/>用量子非门以一种较小的概率进行更新,这一过程可表示为/>因此在被动运动中,第i只量子人工水母的第d维量子位置的更新公式可以表示为其中/>为[0,1]间均匀分布的随机数,/>为被动运动的变异概率。
主动运动为量子人工水母个体借助最优位置进行搜索的运动形式,第i只量子人工水母第d维量子位置的量子旋转门更新过程为其中/> 为主动运动时的量子旋转角,/>和/>为(0,1)之间的随机数,/>为迭代过程中第i只量子人工水母第d维的最优量子位置,即第i只量子人工水母适应度值最优时所在的第d维量子位置。若量子旋转角/>量子比特/>用量子非门以一种较小的概率进行更新,这一过程可表示为/>因此在主动运动中,第i只量子人工水母的第d维量子位置的更新公式可以表示为其中/>为[0,1]间均匀分布的随机数,/>为被动运动的变异概率。
步骤五:计算每只量子人工水母进行量子位置更新后的适应度值,更新量子人工水母种群的最优量子位置。
得到第t+1次迭代中第i只量子人工水母的量子位置后,利用测量规则测量得到第i只量子人工水母的位置/>将搜索得到的支持向量机的两个初始超参数由二进制编码转化为十进制,对选取的特征子集划分训练集和测试集,将训练集、测试集和支持向量机的初始超参数输入所述支持向量机模型中获得分类正确率。将所得的分类正确率和所选特征子集的个数代入适应度函数中计算相应的适应度值,记录第t+1次迭代量子人工水母个体的适应度值。若第t+1次迭代量子人工水母种群中的最优适应度值小于前t次迭代中所得的全局最优解的适应度值,则将第t+1次迭代的最优量子位置设为全局最优量子位置;否则,则第t+1次迭代的全局最优量子位置等于前t次迭代中的全局最优量子位置。
步骤六:判断是否达到其最大迭代次数T,若未达到,令t=t+1,返回步骤三继续迭代;否则,输出选取的最优特征子集,同时获得分类正确率和分类结果。
为便于叙述,将本发明提出的量子人工水母搜索机制简记为QJS,用于对比的搜索机制为人工水母搜索机制、哈里斯鹰机制和粒子群机制,分别简记为JS、HHO和PSO。
为了全面比较四种方法的性能,设置量子人工水母搜索机制的参数为α1=40%,c=10,r1=50,r2=10,r3=0.5,α=0.99,p0=0.5,β1=3,n1=15。量子人工水母搜索机制采用十五位二进制编码方式进行对C和ζ的离散搜索,其余对比机制利用前两个维度进行对C和ζ的连续搜索。JS的相关参数见赵学武等在《计算机科学与探索》(2022,Vol.16,No.08,pp.1829-1841)发表的“面向人脑功能划分的人工水母搜索优化算法”;HHO相关参数见Balakrishnan K等在《Journal of Ambient Intelligence andHumanized Computing》(2022,pp.1-23)发表的“A novel control factor and Brownianmotion-based improved Harris Hawks Optimization for feature selection”;PSO的相关参数见黎建宇等在《智能***学报》(2023,Vol.01,No.18,pp.1-13)发表的“面向大规模特征选择的自监督数据驱动粒子群优化算法”。四种机制的种群规模和最大迭代次数均相同,其值分别是N=30,T=50。将每个方法独立运行50次,取50次运行的适应度平均值绘制适应度曲线。
同一低维度数据集在相同初值下的适应度曲线仿真结果如图3所示,取50次运行的平均值绘制。同一高维度数据集在相同初值下的适应度曲线仿真结果如图4所示,取50次运行的平均值绘制。不同数据集采用不同的优化方法得到的分类正确率和所选特征数取50次运行的平均值绘制的柱状图别如图5和图6所示。由图3和图4可以看出,无论数据集的维度高低,相比于JS、HHO和PSO,QJS均拥有收敛速度快,收敛精度高的优点,充分体现了QJS具有更优越的收敛性。
为更准确的衡量特征选择的效果,选取了6个不同维度的数据集进行特征选择,选取平均分类正确率、所选特征平均数和平均运行时间3个指标进行衡量,平均分类正确率和所选特征平均数的衡量结果由图5和图6展示。由图5和图6可以看出在不同维度的数据集下,QJS所选择的特征子集都拥有最高的精度和最少的特征数。
平均分类正确率是根据支持向量机对于所选特征子集进行训练和测试后通过交叉验证得到的分类正确率与重复实验次数的比值,用于衡量所选择特征子集对后续学***均数是所选取的特征子集中包含的特征数与重复实验次数的比值,用于衡量特征选择对数据集降维的效果。平均运行时间是每个优化方法经重复运行后的总用时与重复实验次数的比值,用于衡量每个优化方法的时间复杂度。
四种方法对六个不同维度的数据集进行三种指标的测评,测评结果如表1所示。其中平均分类正确率的值越大表示所选特征子集精度越高,所选特征平均数和越小表示特征选择达到的效果越好,平均运行时间越低表示所用优化方法的时间复杂度越低。加黑字体表示四种方法中的最优结果。
表1
由表1可见,在同等的条件下测试的72组数据中,本发明的所有数据均优于对比方法,因此可以得出如下结论:基于量子人工水母搜索机制的特征选择方法所选择的特征子集无论是精度还是子集中包含的特征数量都要明显优于人工水母搜索机制、哈里斯鹰机制和粒子群机制进行特征选择的结果,并且基于量子人工水母搜索机制的特征选择方法具有更低的时间复杂度。因此本发明所述方法具有较强的鲁棒性,利用量子优化理论设计的量子人工水母搜索机制可同时兼顾收敛性和用时,本发明是一种可行有效并且精度高的特征选择方法。

Claims (6)

1.基于量子人工水母搜索机制的特征选择方法,其特征在于,步骤如下:
步骤一:输入数据集,进行数据集预处理,将数据集行归一化并划分训练集和测试集,构建使用支持向量机进行数据集训练、测试和分类的模型;
步骤二:初始化量子人工水母种群中每个个体的量子位置,构造和计算量子人工水母个体的适应度,确定种群的初始全局最优量子位置;
步骤三:跟随洋流运动:量子人工水母个体通过量子旋转门进行对自身量子位置的更新,在全局范围内搜索最优解;
步骤四:种群内运动:在种群内运动中,每只量子人工水母有主动运动和被动运动两种不同的觅食策略,量子人工水母种群进行局部开发;
步骤五:计算每只量子人工水母进行量子位置更新后的适应度值,更新量子人工水母种群的最优量子位置;
步骤六:判断是否达到其最大迭代次数T,若未达到,令t=t+1,返回步骤三继续迭代;否则,输出选取的最优特征子集,同时获得分类正确率和分类结果。
2.根据权利要求1所述的一种基于量子人工水母搜索机制的特征选择方法,其特征在于,步骤一具体包括:输入数据集I=[(m1,y1),(m2,y2),...,(mL,yL)],其中M=[m1,m2,...,mL]为数据集中的数据样本,Y=[y1,y2,...,yL]为数据集中的类别标签,L为数据集中数据样本的总数,每个数据样本在特征向量中都有n个特征元素,即mi=[mi1,mi2,...,min],i=1,2,...,L,n为数据集包含的特征数;对输入的数据集进行预处理,将数据集中所有数据样本和类别标签全部转换为数字;预处理后进行数据集的归一化,设数据集中第个数据样本为/>数据样本最大值为mmax=[m1,max,m2,max,...,mn,max],最小值为mmin=[m1,min,m2,min,...,mn,min],其中/>为第/>个特征元素的最大值,/>为第/>个特征元素的最小值,/>利用归一化公式/>对数据集中所有数据样本进行归一化,得到归一化后的数据集I′=[(m′1,y1),(m′2,y2),...,(m′L,yL)],其中m′i=[m′i1,m′i2,...,m′in],i=1,2,...,L,M′=[m′1,m′2,...,m′L],M′为归一化后的数据样本集合;将输入支持向量机的数据集中每组特征数据随机选取占比为α1的数据样本及其类别标签作为训练集,其余数据为测试集,设训练集为I1′,测试集为I2′。
3.根据权利要求1所述的一种基于量子人工水母搜索机制的特征选择方法,其特征在于,步骤二具体包括:设置量子人工水母的种群规模为N,整个种群的最大迭代次数为T,t代表迭代次数,搜索空间最大维数为D,第t代第i只量子人工水母的量子位置为对量子位置进行测量得到量子人工水母的位置,表示为/>第t代第i只量子人工水母的第d维量子位置/>对应测量位置为/>测量规则为/>其中/>是此区间内满足均匀分布的随机数,D=n+2n1
初始化第1代第i只量子人工水母第d维的量子位置为[0,1]之间的随机数,i=1,2,...,N,d=1,2,...,D;根据测量规则获得每只量子人工水母的位置,将产生的初始支持向量机参数和/>由二进制编码转换为十进制,将选取的特征子集划分好训练集和测试集后一同输入所述支持向量机模型中获得分类正确率,代入适应度函数中获得每只量子人工水母的初始适应度值,适应度值越小则越优秀;将种群中初始适应度值最优的量子人工水母的量子位置设为种群的初始全局最优量子位置。
4.根据权利要求1所述的一种基于量子人工水母搜索机制的特征选择方法,其特征在于,步骤三具体包括:第i只量子人工水母采用何种机制进行觅食由时间控制函数和常量p0控制,i=1,2,...,N,当/>时量子人工水母进行跟随洋流运动, 为(0,1)之间的随机数;
第i只量子人工水母第d维的量子旋转门更新过程为其中/>为跟随洋流运动时的量子旋转角,d=1,2,...,D,/> 是前t次迭代过程中全局最优解的量子位置,即迭代过程中适应度值最优的量子人工水母个体所在的量子位置,/>和/>为(0,1)之间的随机数,β1为分布因子;如果量子旋转角/>量子比特/>用量子非门以一种较小的概率进行更新,这一过程可表示为/>在跟随洋流运动中,第i只量子人工水母的第d维量子位置的更新公式可以表示为/>其中/>为[0,1]间均匀分布的随机数,/>为跟随洋流运动的变异概率。
5.根据权利要求1所述的一种基于量子人工水母搜索机制的特征选择方法,其特征在于,步骤四具体包括:当时量子人工水母在种群内运动,当/>时量子人工水母表现为主动运动;否则量子人工水母表现为被动运动,/>为(0,1)之间的随机数;
被动运动是量子人工水母个体在自身周围实现搜索的运动形式,第i只量子人工水母第d维量子位置的量子旋转门更新过程为其中 为被动运动时的量子旋转角,r1 t为标准正态随机数,/>为量子人工水母种群的第d维平均量子位置,/>若量子旋转角/>量子比特/>用量子非门以一种较小的概率进行更新,这一过程表示为/>因此在被动运动中,第i只量子人工水母的第d维量子位置的更新公式表示为其中/>为[0,1]间均匀分布的随机数,/>为被动运动的变异概率;
主动运动为量子人工水母个体借助最优位置进行搜索的运动形式,第i只量子人工水母第d维量子位置的量子旋转门更新过程为其中 为主动运动时的量子旋转角,/>和/>为(0,1)之间的随机数,/>为迭代过程中第i只量子人工水母第d维的最优量子位置,即第i只量子人工水母适应度值最优时所在的第d维量子位置;若量子旋转角/>量子比特/>用量子非门以一种较小的概率进行更新,这一过程表示为/>第i只量子人工水母的第d维量子位置的更新公式表示为/>其中/>为[0,1]间均匀分布的随机数,/>为被动运动的变异概率。
6.根据权利要求1所述的一种基于量子人工水母搜索机制的特征选择方法,其特征在于,步骤五具体包括:得到第t+1次迭代中第i只量子人工水母的量子位置后,利用测量规则测量得到第i只量子人工水母的位置将搜索得到的支持向量机的两个初始超参数由二进制编码转化为十进制,对选取的特征子集划分训练集和测试集,将训练集、测试集和支持向量机的初始超参数输入所述支持向量机模型中获得分类正确率;将所得的分类正确率和所选特征子集的个数代入适应度函数中计算相应的适应度值,记录第t+1次迭代量子人工水母个体的适应度值;若第t+1次迭代量子人工水母种群中的最优适应度值小于前t次迭代中所得的全局最优解的适应度值,则将第t+1次迭代的最优量子位置设为全局最优量子位置;否则,则第t+1次迭代的全局最优量子位置等于前t次迭代中的全局最优量子位置。
CN202310548465.XA 2023-05-16 2023-05-16 基于量子人工水母搜索机制的特征选择方法 Pending CN116842354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310548465.XA CN116842354A (zh) 2023-05-16 2023-05-16 基于量子人工水母搜索机制的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310548465.XA CN116842354A (zh) 2023-05-16 2023-05-16 基于量子人工水母搜索机制的特征选择方法

Publications (1)

Publication Number Publication Date
CN116842354A true CN116842354A (zh) 2023-10-03

Family

ID=88165973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310548465.XA Pending CN116842354A (zh) 2023-05-16 2023-05-16 基于量子人工水母搜索机制的特征选择方法

Country Status (1)

Country Link
CN (1) CN116842354A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992807A (zh) * 2024-02-07 2024-05-07 哈尔滨工程大学 一种基于量子法医调查机制的特征选择方法、***及存储介质
CN118011783A (zh) * 2024-04-09 2024-05-10 天津仁爱学院 一种基于改进桶水母算法的建筑环境pid控制方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992807A (zh) * 2024-02-07 2024-05-07 哈尔滨工程大学 一种基于量子法医调查机制的特征选择方法、***及存储介质
CN118011783A (zh) * 2024-04-09 2024-05-10 天津仁爱学院 一种基于改进桶水母算法的建筑环境pid控制方法
CN118011783B (zh) * 2024-04-09 2024-06-04 天津仁爱学院 一种基于改进桶水母算法的建筑环境pid控制方法

Similar Documents

Publication Publication Date Title
Chen et al. Hybrid particle swarm optimization with spiral-shaped mechanism for feature selection
CN113190699B (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
Lobato et al. Multi-objective genetic algorithm for missing data imputation
Peng et al. Accelerating minibatch stochastic gradient descent using typicality sampling
CN106778832B (zh) 基于多目标优化的高维数据半监督集成分类方法
CN116842354A (zh) 基于量子人工水母搜索机制的特征选择方法
Khayyam et al. A novel hybrid machine learning algorithm for limited and big data modeling with application in industry 4.0
CN108985515B (zh) 一种基于独立循环神经网络的新能源出力预测方法及***
CN116579371A (zh) 一种双层优化异构代理模型辅助多目标进化优化计算方法
CN105447510A (zh) 基于人工蜂群优化lssvm的脉动风速预测方法
Li et al. Automatic design of machine learning via evolutionary computation: A survey
CN115293400A (zh) 一种电力***负荷预测方法及***
Tan et al. Knowledge transfer in evolutionary multi-task optimization: A survey
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN116628510A (zh) 一种自训练可迭代的人工智能模型训练方法
Antonelli et al. Multi-objective evolutionary learning of granularity, membership function parameters and rules of Mamdani fuzzy systems
CN112464984A (zh) 一种基于注意力机制和强化学习的自动特征构造方法
Yan et al. Trustworthiness evaluation and retrieval-based revision method for case-based reasoning classifiers
CN115759415A (zh) 基于lstm-svr的用电需求预测方法
CN113255873A (zh) 一种聚类天牛群优化方法、***、计算机设备和存储介质
Chai et al. Symmetric uncertainty based decomposition multi-objective immune algorithm for feature selection
CN113656707A (zh) 一种理财产品推荐方法、***、存储介质及设备
CN113762370A (zh) 一种结合高斯随机场的深度网络集合生成方法
Zhou et al. Effective vision transformer training: A data-centric perspective
CN116451859A (zh) 一种基于贝叶斯优化的生成对抗网络股票预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination