CN108877947A - 基于迭代均值聚类的深度样本学习方法 - Google Patents

基于迭代均值聚类的深度样本学习方法 Download PDF

Info

Publication number
CN108877947A
CN108877947A CN201810558766.XA CN201810558766A CN108877947A CN 108877947 A CN108877947 A CN 108877947A CN 201810558766 A CN201810558766 A CN 201810558766A CN 108877947 A CN108877947 A CN 108877947A
Authority
CN
China
Prior art keywords
sample
data
training
iteration
mean cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810558766.XA
Other languages
English (en)
Other versions
CN108877947B (zh
Inventor
李勇明
郑源林
王品
颜芳
张�成
李新科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201810558766.XA priority Critical patent/CN108877947B/zh
Publication of CN108877947A publication Critical patent/CN108877947A/zh
Application granted granted Critical
Publication of CN108877947B publication Critical patent/CN108877947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于迭代均值聚类的深度样本学习方法,按照以下步骤进行:S1:选择训练数据,并通过N次迭代均值聚类算法处理得到N+1层训练样本子集,N≥1;S2:将每层训练样本子集独立进行回归训练,得到N+1个回归器;S3:选择验证数据,并将验证数据分别送入N+1个回归器中得到N+1个验证结果;S4:基于加权融合机制确定每个回归器对应的最佳权重(w0,w1,…,wN);S5:获取测试数据,并利用N+1个回归器以及对应的最佳权重得到最终的预测结果。其效果是:将学习样本经过多次迭代均值聚类得到不同的训练样本数据集,然后分别进行训练和学习,在相同样本数量的情况下,有效增加了模型的学习能力,提升了分类或预测的准确性。

Description

基于迭代均值聚类的深度样本学习方法
技术领域
本发明涉及人工智能技术,具体涉及到一种基于迭代均值聚类的深度样本学习方法。
背景技术
随着人工智能技术的发展,样本学习的方式也多种多样,样本学习方法的好坏严重影响着后续分类和回归的准确性。
现有技术中的人工智能算法,大多数采用单一的样本数据集进行学习和训练,一方面,由于能够直接获取的学习样本数量有限,仅靠增加迭代次数来增强分类器或回归器的性能,效果有限;另一方面,现有学习样本的真伪程度也会对训练模型的性能产生严重的影响,如果将所有的学习样本同等的对待,难以避免伪样本对模型性能造成影响。
为了避免伪样本的影响,也有人提出在线学习机制,如中国专利201010166225.6公开的一种基于在线学习的自适应级联分类器训练方法,首先采用少量样本训练初始级联分类器,然后将该分类器用于图像中的目标检测,由于训练样本较少,该分类器初始检测效果不好。但是,通过跟踪自动提取在线学习样本,采用自适应级联分类器算法对初始级联分类器进行在线学习,从而可以逐步提高该分类器在图像中进行目标检测的精度。并且通过跟踪使分类器在线学习的新样本可以自动获取并且自动标注,提高了分类器训练过程的智能化程度,大大减轻了人工标注样本类别的工作量。
但是,通过在线学习这种机制,需要逐步的提取新的学习样本,增加了算法复杂度,而且算法性能的提升需要一个相对漫长的过程,初期性能相对较差。
发明内容
为了解决上述问题,本发明提供一种基于迭代均值聚类的深度样本学习方法,在分类器或回归器的学习过程中,通过迭代均值聚类将原始样本分类为多个层次,每一层单独训练一个分类器或回归器,然后通过验证数据集分别进行验证,得到各个回归器的权重,从而确保最大化的学习和利用样本数据中的特性,提升模式识别或分类的准确性。
为实现上述目的,本发明所采用的具体技术方案如下:
一种基于迭代均值聚类的深度样本学习方法,其关键在于按照以下步骤进行:
S1:选择训练数据,并通过N次迭代均值聚类算法处理得到N+1层训练样本子集,N≥1;
S2:将每层训练样本子集独立进行回归训练,得到N+1个回归器;
S3:选择验证数据,先将验证样本与每一层的样本空间进行欧氏距离相似性计算,从而将该验证样本转化为该层样本空间与之最相似的样本,并将这些样本分别送入N+1个回归器中得到N+1个验证结果;
S4:基于加权融合机制确定每个回归器对应的最佳权重(w0,w1,…,wN);
S5:获取测试数据,先将测试样本与每一层的样本空间进行欧氏距离相似性计算,从而将该测试样本转化为该层样本空间与之最相似的样本,再将这些样本分别送入步骤S2所得的N+1个回归器以及步骤S4所得的每个回归器对应的最佳权重得到最终的预测结果。
进一步地,确定最佳权重(w0,w1,…,wN)时的约束条件为:
可选地,所述迭代均值聚类算法采用K均值聚类。
可选地,所述回归器模型采用支持向量机回归模型,核函数使用线性核函数或者径向基核函数。
可选地,所述测试数据为待测对象的医疗数据,所述训练数据和验证数据选自UCI等公共数据库,每个样本包括多个特征,所述预测结果为待测对象的标签值(整数或浮点数)。
可选地,所述测试数据为待测对象的医疗数据,所述训练数据和验证数据选自UCI等公共数据库中的糖尿病数据或心脏病数据,每个样本包括多个特征,所述预测结果为待测对象的年龄值。
可选地,采用平均绝对误差MAE来评价预测算法的性能,具体为:m表示测试数据的样本个数,aj表示第j个测试样本对应的实际值,a’j表示j个测试样本对应的预测值。
本发明的显著效果是:
本方法将学习样本经过多次迭代均值聚类得到不同的训练样本数据集,然后分别进行训练和学习,在相同样本数量的情况下,通过分层次训练和学习,有效增加了模型的学习能力,提升了分类或回归的准确性。
附图说明
图1为本发明提出的深度样本学习模型;
图2为图1中迭代均值聚类模型;
图3为具体实施例中年龄预测效果图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本实施例以年龄预测为目的作详细介绍,选用来自UCI数据库(http://archive.ics.uci.edu/)的两个数据集中的部分样本,一个是糖尿病数据集,简称MD(Mellitus Data Set),另一个是心脏病数据集,简称HD(Heart Disease Data Set)。心脏病数据集包括137个正常样本,每个样本包括14个特征;糖尿病数据集包括268个正常样本,每个样本包括8个特征。两个数据集详细的信息如表1所示。
表1数据集的基本信息
数目 年龄范围(年) 年龄均值(年) 年龄标准差
HD 137 34~71 52.71 9.14
DM 268 21~66 29.94 10.51
每种类型的数据样本被随机均分为训练集,验证集,测试集100次,得到100组样本。在本次试验中,计算机操作***为Windows 10,64位,8GB内存;实验平台是MATLAB,2016a。为了便于后续分析和说明,本实施例提出的算法,简称为PAEM,传统的算法简称为TAEM。本发明提出的方法可以结合不同的回归模型,特征选择算法,实例优化算法,评估标准,从而转化为其他各种具体的算法。本实施例采用支持向量机回归模型作为回归器,并且使用线性核函数和默认参数。
从图1可以看出具体步骤包括(注:图中验证集和测试集为结合了深度样本空间之后的结果):
S1:选择训练数据,并通过2次迭代均值聚类算法处理得到3层训练样本子集;
S2:将每层训练样本子集独立进行回归训练,得到3个回归器;
S3:选择验证数据,先将验证样本与每一层的样本空间进行欧氏距离相似性计算,从而将该验证样本转化为该层样本空间与之最相似的样本,再将这些样本分别送入3个回归器中得到3个验证结果;
S4:基于加权融合机制确定每个回归器对应的最佳权重(w0,w1,w2);
S5:获取测试数据,先将测试样本与每一层的样本空间进行欧氏距离相似性计算,从而将该测试样本转化为该层样本空间与之最相似的样本,再将这些样本分别送入步骤S2所得的3个回归器以及步骤S4所得的每个回归器对应的最佳权重得到最终的预测结果。
具体地,步骤S1中迭代均值聚类算法的聚类过程类似K均值聚类,如图2所示,通过最小数据点和最近邻中心之间的距离来找到每个类的中心。
迭代式均值聚类的核心思想:最小化所有样本到所属类别中心的欧氏距离和,采用迭代的方式进行收敛。
给定训练样本:{x(1),x(2),...,xm},K均值聚类算法的具体步骤如下:
1:选取K个聚类中心点,分别为μ12,...,μk
2:根据下面公式计算每一个样本x的所属类别cj(1≤j≤k):
3:根据下面公式更新每一类的中心,将μj更新为μ'j
4:不断重复步骤2,3,直至μj不再变化(收敛)
5:针对每一次聚类所得的结果,通过增加一个零均值正态分布的随机噪声进行微调,从而得到下一个样本集合(样本空间)。
图中Y0是原始得而训练集,通过迭代均值聚类算法,分别得到其他两层样本Y1,Y2。利用各层的样本集得到三个回归器,基于验证集,可以得到相应的结果(r0,r1,r2),最佳的权重wop=(w0,w1,w2)可以通过公式(3)得到。
确定最佳权重(w0,w1,w2)时的约束条件为:
当回归器模型训练学习好之后,基于测试集,得到各层回归器的预测年龄a=(a0,a1,a2),通过融合权重(w0,w1,w2)得到最终的年龄af=wop Ta。
测量算法的性能,采用平均绝对误差MAE来评价预测算法的性能,具体为:m表示测试数据的样本个数,aj表示第j个测试样本对应的实际值,a’j表示j个测试样本对应的预测值。同时将本发明年龄检测机制好于传统年龄检测机制的次数记为Score。
详细信息如表2所示,mean表示平均值,std表示标准差。
从表2可以看出,对于两个数据集,采用本发明所提方法进行年龄检测得到的MAE的均值和标准差都比传统的要小,说明方法年龄预测机制预测的年龄比传统年龄预测机制的要更准确。同时,Score值更大,可以从另一个方面,说明本方法的优越性。
表2两个数据集预测年龄的结果
图3显示的是表2的柱状图。它主要显示了本方法得到的预测年龄的差值和P值。
从图3可以看出,两个数据集通过本文机制预测的年龄的MAE更小,而且假设检验得到的P值都小于0.05,说明PAEM的预测年龄的MAE在显著性水平上更好。
最后需要说明的是,上述描述为本发明的优选实施例,本领域的普通技术人员在本发明的启示下,在不违背本发明宗旨及权利要求的前提下,可以做出多种类似的表示,这样的变换均落入本发明的保护范围之内。

Claims (7)

1.一种基于迭代均值聚类的深度样本学习方法,其特征在于按照以下步骤进行:
S1:选择训练数据,并通过N次迭代均值聚类算法处理得到N+1层训练样本子集,N≥1;
S2:将每层训练样本子集独立进行回归训练,得到N+1个回归器;
S3:选择验证数据,先将验证样本与每一层的样本空间进行欧氏距离相似性计算,从而将该验证样本转化为该层样本空间与之最相似的样本,并将这些样本分别送入N+1个回归器中得到N+1个验证结果;
S4:基于加权融合机制确定每个回归器对应的最佳权重(w0,w1,…,wN);
S5:获取测试数据,先将测试样本与每一层的样本空间进行欧氏距离相似性计算,从而将该测试样本转化为该层样本空间与之最相似的样本,再将这些样本分别送入步骤S2所得的N+1个回归器以及步骤S4所得的每个回归器对应的最佳权重得到最终的预测结果。
2.根据权利要求1所述的基于迭代均值聚类的深度样本学习方法,其特征在于:确定最佳权重(w0,w1,…,wN)时的约束条件为:
3.根据权利要求1所述的基于迭代均值聚类的深度样本学习方法,其特征在于:所述迭代均值聚类算法的聚类中心的搜索原理等同于K均值聚类,但每一次迭代时,原样本就是上一次聚类后的聚类中心。
4.根据权利要求1所述的基于迭代均值聚类的深度样本学习方法,其特征在于:所述回归器模型采用支持向量机回归模型,核函数使用线性核函数或者径向基核函数。
5.根据权利要求1所述的基于迭代均值聚类的深度样本学习方法,其特征在于:所述测试数据为待测对象的医疗数据,所述训练数据和验证数据选自UCI等公共数据库,每个样本包括多个特征,所述预测结果为待测对象的标签。
6.根据权利要求1所述的基于迭代均值聚类的深度样本学习方法,其特征在于:所述测试数据为待测对象的医疗数据,所述训练数据和验证数据选自UCI等公共数据库中的糖尿病数据或心脏病数据,每个样本包括多个特征,所述预测结果为待测对象的年龄值。
7.根据权利要求1-6任一所述的基于迭代均值聚类的深度样本学***均绝对误差MAE来评价预测算法的性能,具体为:m表示测试数据的样本个数,aj表示第j个测试样本对应的实际值,a’j表示j个测试样本对应的预测值。
CN201810558766.XA 2018-06-01 2018-06-01 基于迭代均值聚类的深度样本学习方法 Active CN108877947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810558766.XA CN108877947B (zh) 2018-06-01 2018-06-01 基于迭代均值聚类的深度样本学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810558766.XA CN108877947B (zh) 2018-06-01 2018-06-01 基于迭代均值聚类的深度样本学习方法

Publications (2)

Publication Number Publication Date
CN108877947A true CN108877947A (zh) 2018-11-23
CN108877947B CN108877947B (zh) 2021-10-15

Family

ID=64336272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810558766.XA Active CN108877947B (zh) 2018-06-01 2018-06-01 基于迭代均值聚类的深度样本学习方法

Country Status (1)

Country Link
CN (1) CN108877947B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222762A (zh) * 2019-06-04 2019-09-10 恒安嘉新(北京)科技股份公司 对象预测方法、装置、设备、及介质
CN111914995A (zh) * 2020-06-18 2020-11-10 北京百度网讯科技有限公司 正则化线性回归生成方法、装置、电子设备及存储介质
CN113393932A (zh) * 2021-07-06 2021-09-14 重庆大学 一种帕金森病语音样本段多类型重构变换方法
CN114300116A (zh) * 2021-11-10 2022-04-08 安徽大学 一种基于在线分类算法的鲁棒性病症检测方法
CN115570228A (zh) * 2022-11-22 2023-01-06 苏芯物联技术(南京)有限公司 一种焊接管道供气智能反馈控制方法与***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020046198A1 (en) * 2000-06-19 2002-04-18 Ben Hitt Heuristic method of classification
CN101944122A (zh) * 2010-09-17 2011-01-12 浙江工商大学 一种融合增量学习的支持向量机多类分类方法
CN105938116A (zh) * 2016-06-20 2016-09-14 吉林大学 基于模糊划分和模型集成的气体传感器阵列浓度检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020046198A1 (en) * 2000-06-19 2002-04-18 Ben Hitt Heuristic method of classification
CN101944122A (zh) * 2010-09-17 2011-01-12 浙江工商大学 一种融合增量学习的支持向量机多类分类方法
CN105938116A (zh) * 2016-06-20 2016-09-14 吉林大学 基于模糊划分和模型集成的气体传感器阵列浓度检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222762A (zh) * 2019-06-04 2019-09-10 恒安嘉新(北京)科技股份公司 对象预测方法、装置、设备、及介质
CN111914995A (zh) * 2020-06-18 2020-11-10 北京百度网讯科技有限公司 正则化线性回归生成方法、装置、电子设备及存储介质
CN113393932A (zh) * 2021-07-06 2021-09-14 重庆大学 一种帕金森病语音样本段多类型重构变换方法
CN113393932B (zh) * 2021-07-06 2022-11-25 重庆大学 一种帕金森病语音样本段多类型重构变换方法
CN114300116A (zh) * 2021-11-10 2022-04-08 安徽大学 一种基于在线分类算法的鲁棒性病症检测方法
CN114300116B (zh) * 2021-11-10 2023-11-28 安徽大学 一种基于在线分类算法的鲁棒性病症检测方法
CN115570228A (zh) * 2022-11-22 2023-01-06 苏芯物联技术(南京)有限公司 一种焊接管道供气智能反馈控制方法与***

Also Published As

Publication number Publication date
CN108877947B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN108877947A (zh) 基于迭代均值聚类的深度样本学习方法
Wang et al. Relaxed multiple-instance SVM with application to object discovery
CN106682696B (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
CN104484681B (zh) 基于空间信息和集成学习的高光谱遥感影像分类方法
CN110940523B (zh) 一种无监督域适应故障诊断方法
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
CN103714148B (zh) 基于稀疏编码分类的sar图像检索方法
CN104615894A (zh) 一种基于k近邻标签特定权重特征的中医诊断方法及***
CN110210625A (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
CN110363230A (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
CN104850867A (zh) 一种基于直觉模糊c均值聚类的目标识别方法
CN106250913B (zh) 一种基于局部典型相关分析的分类器集成车牌识别方法
Iqbal et al. Mitochondrial organelle movement classification (fission and fusion) via convolutional neural network approach
CN109933619A (zh) 一种半监督分类预测方法
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
CN107016377A (zh) 基于sgasen算法的人脸识别优化方法
CN116310647A (zh) 一种基于增量学习的劳保物品目标检测方法及***
Zhong et al. Fuzzy nonlinear proximal support vector machine for land extraction based on remote sensing image
Lin et al. A fusion-based convolutional fuzzy neural network for lung cancer classification
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN109191452B (zh) 一种基于主动学习的腹腔ct图像腹膜转移自动标记方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant