CN111353525A - 一种不均衡不完整数据集的建模及缺失值填补方法 - Google Patents

一种不均衡不完整数据集的建模及缺失值填补方法 Download PDF

Info

Publication number
CN111353525A
CN111353525A CN202010085969.9A CN202010085969A CN111353525A CN 111353525 A CN111353525 A CN 111353525A CN 202010085969 A CN202010085969 A CN 202010085969A CN 111353525 A CN111353525 A CN 111353525A
Authority
CN
China
Prior art keywords
data set
sample
formula
filling
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010085969.9A
Other languages
English (en)
Inventor
刘辉
张立勇
陆艺丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010085969.9A priority Critical patent/CN111353525A/zh
Publication of CN111353525A publication Critical patent/CN111353525A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种不均衡不完整数据集的建模及缺失值填补方法,属于数据挖掘技术领域。本发明包括构建模型部分和填补方案部分。在构建模型部分,针对数据的不均衡性,设计了一种距离密度算法应用于TS建模的前件辨识过程;在填补方案部分,针对数据的不完整性,将缺失值视为变量,并令其参与结论参数辨识的迭代学习填补方案,在填补过程中先基于填补的数据集计算结论参数,然后基于调整后的结论参数更新填补值,填补在迭代收敛时完成。本发明降低了数据集的不均衡性对TS建模的影响,并充分利用了不完整数据集中的数据信息,在不均衡不完整数据集上具有比较理想的填补精度。

Description

一种不均衡不完整数据集的建模及缺失值填补方法
技术领域
本发明属于数据挖掘技术领域,涉及一种不均衡不完整数据集的建模及缺失值填补方法。
背景技术
数据缺失以及数据集的不均衡是数据挖掘领域中两个不可避免的问题。数据缺失是指数据集在收集或者保存时由于环境等因素而产生的数据值缺失或者属性缺失;数据集的不均衡是指数据集中的类别的分布存在失衡,不相同的类别样本数目有着很大的距离。数据集的不均衡和缺失广泛存在于数据分析挖掘领域,因此对此类数据集的研究已经受到了越来越多的关注。
数据集的不均衡给数据挖掘带来了困难。在模糊划分处理不均衡数据集的过程中,容易产生“均匀效应”现象(Zhou K,Yang S.Exploring the uniform effect of FCMclustering:A data distribution perspective[J].Knowledge-Based Systems,2016,96:76-83),即将多数类中的样本划分到少数类中,使结果中每个集合中的样本数量大致相同。针对此类现象,研究者提出了基于欠采样的数据预处理模型、基于核函数的聚类算法、多点代表法等的模糊划分方法。
数据集的缺失也是数据挖掘领域中不可避免的难题。直接丢弃不完整的样本,并用剩余的完整样本进行数据分析,会因为数据不足而导致结果产生偏差。相比之下,通过对现有数据的研究,得出缺失值的合理填补值,在大多数情况下能取得较好的结果。目前,研究者已经提出多种填补方法。其中回归填补法的原理是根据数据集中的存在值和预填补的缺失值间的回归关系,建立回归方程来估计缺失值,它已广泛应用于各种处理不完整数据的工作。
但是传统的回归填补法不能辨识样本属性之间存在的相关关系。为了辨识属性之间的关系,一种处理方法是利用模糊聚类将具有相近回归关系的数据划分一个子集,并用线性模型逼近每一个子集。该方法利用现有的模糊划分矩阵,可以得到一个基于规则的模糊模型,解决了实际数据集中属性间的相关关系未知的问题。
Takagi-Takagi模型(简称TS模型)是模糊模型的典型代表,它由若干if-then规则构成,其建模过程分为前件辨识和后件辨识两部分(T.Takagi,M.Takagi,FuzzyIdentification of Systems and Its Applications to Modeling and Control,IEEETrans.Syst.Man Cybern.SMC-15(1985)116–132)。它是由“IF-THEN”模糊规则来表示的非线性模型。对数据建模时,首先将输入空间分为若干个模糊子空间,然后在每个模糊子空间建立一个局部线性模型,并使用隶属函数将各个局部模型连接起来。TS模型的第i条规则如式(1)所示:
Figure BDA0002382048170000021
式中,R(i)表示第i条模糊规则,i=1,2,...,k,k表示TS模型的规则数目;xj={xj1,xj2,...,xjs}是***的第j个输入变量,又称前件变量,其中j=1,2,...,n,n表示样本数量,s是样本属性数量,则xjs表示第j个样本的第s个属性;
Figure BDA0002382048170000022
是第i条规则中,第m个属性的模糊集合,也被称为R(i)的前件参数,其中m=1,2,...,s;
Figure BDA0002382048170000023
表示第i条规则的结论参数,也称后件参数,
Figure BDA0002382048170000024
则表示第i条规则中,第s个属性的结论参数;yj (i)表示第i条规则中,第j个输入变量的输出。
模糊***中,第j个输入变量的最终输出yj为:
Figure BDA0002382048170000025
式中vj (i)表示第i条规则中,第j个输入变量的权重,由式(3)给出:
Figure BDA0002382048170000031
式中Am (i)(xjm)表示在第i条规则中,第j个样本的第m个属性xjm属于模糊集合
Figure BDA0002382048170000032
的隶属度,其中m=1,2,...,s。
基于TS模型的填补方法(Missing Value Imputations by Rule-BasedIncomplete Data Fuzzy Modeling.Xiaochen Lai,Xin Liu,Liyong Zhang,et al.IEEEInternational Conference on Communications(IEEE ICC 2019))通过FCM-PDS聚类算法,得到每条规则的隶属度,并使用模糊集合
Figure BDA0002382048170000033
作为前件参数,从而将不完整的数据集划分为若干子集,并建立一个局部线性回归模型,该模型只包含每个子集的重要输入变量。然后,通过对每个局部线性模型加权求和得到全局非线性模型,并将其输出作为填补值。与传统的回归填补法相比,该方法充分利用了现有值,更准确地描述了属性之间的关系。但是实际数据集中数据不均衡问题不可避免,而上述模糊划分方法并没有考虑数据集的不均衡性对模糊划分产生的影响。
发明内容
为解决上述问题,且对不均衡数据集的合理划分能够提高回归方程的准确性,因此本发明在TS模型的基础上,提出一种不均衡不完整数据集的建模及缺失值填补方法。本发明包括两个部分:构建模型部分和填补方案部分,其中前者对TS模型前件参数辨识方法进行了改进,以降低数据的不均衡性对模糊划分的影响;后者将不完整样本用于训练过程,以提高不完整数据集的数据利用率。
在模型的前件辨识过程中,基于一种结合距离密度和最大最小距离的思想(SD算法)对不均衡不完整数据集进行前件参数辨识,并确定前件规则数量,以降低数据的不均衡性对模糊划分的影响;然后针对建模过程中输入数据不完整的问题,先进行输入变量选取,得到确定的模型结构后,再应用最小二乘法和迭代更新策略来实现结论参数的估计和缺失值填补,以实现现有数据的充分利用;当迭代收敛时,参数和填补值趋于固定,由此完成缺失值填补。
缺失值填补方法的填补精度可由均方根误差(RMSE)衡量,即
Figure BDA0002382048170000041
式中N为缺失值的数目,xi∈XM为原始实际数据值,
Figure BDA0002382048170000042
是填补方案下缺失值的填补值。如果RMSE值越小,则证明数据填补效果好,反之填补效果差。
本发明的技术方案:
一种不均衡不完整数据集的建模及缺失值填补方法,包括构建模型和填补方案两个部分,具体如下:
(1)构建模型
结合局部密度和局部距离定义了每个样本的距离密度dsij,并设计了辨识前件模型的距离密度算法(简称SD算法):
设有不完整数据集X={XM,XC},其中XM为数据集中缺失值构成的子集,XC为数据集中非缺失值构成的子集。对于任意样本xi,xj∈X,其距离密度dsij为:
dsij=exp(S(xi))×pd(xi,xj) (5)
式中,S(x)i是式(6)中定义的样本xi的局部密度,pd(xi,xj)是由式(7)得到的xi和xj的局部距离。
数据集X中的样本xi的局部密度定义为:
Figure BDA0002382048170000043
式中,Nj表示由样本xi的K个近邻样本xj组成的集合,其中i=1,2,...,n,n表示样本数量,j=1,2,...,K,K为自定义常数。pd(xi,xj)定义为局部距离,计算方法为:
Figure BDA0002382048170000051
式中,s是样本属性数量,Iim标记第i个样本的第m个属性值xim是否缺失,Ijm标记第j个样本的第m个属性值xjm是否缺失,计算方法为:
Figure BDA0002382048170000052
采用SD算法计算出样本的聚类中心,以及聚类中心的个数,并用得到的聚类中心计算隶属度,最终得到模型的前件参数。
(2)填补方案
本发明基于一种迭代学习(IU)的方式更新TS模型的结论参数和填补值。针对样本属性数量为s的不完整数据集X,分别以每维属性作为输出,搭建s个TS模型。每个TS模型的输入为D(m)={D1,D2,...,Dm-1,Dm+1,...Ds},期望输出为Y=Dm,其中m=1,2,...,s。首先对不完整数据集随机初始化得到完整数据集,随后基于最小二乘法计算结论参数。在每个TS模型中,对于第j个样本xj的第i条规则R(i)的加权输入Hj (i)由式(9)得到:
Hj (i)=vj (i)Γ(i) (9)
式中vj (i)表示权重;Γ(i)=[1,xj1 (i),...,xj(q-1) (i),xj(q+1) (i),...,xjs (i)]表示经过变量选择之后R(i)的输入变量,其中输入变量xjq (i)被剔除,i=1,2,...,k,j=1,2,...,n,1<q<s。
然后计算模型的实际输出值
Figure BDA0002382048170000053
Figure BDA0002382048170000054
式中P(i)为由最小二乘公式得到的第i条规则R(i)的结论参数。
通过公式(9)和(10)得到s个TS模型的输出集合
Figure BDA0002382048170000055
其中l表示第l次迭代,
Figure BDA0002382048170000061
表示更新填补值,
Figure BDA0002382048170000062
表示现有数据对应的模型输出,用来计算与相应真实值的均方根误差f(l)。然后计算与上一次迭代学习得到的均方根误差f(l-1)的差值|△f|,若大于阀值ε则重复上述步骤进入新一轮学习,否则迭代结束并输出填补后的数据集。这样,以第s维属性为输出的不均衡不完整数据TS建模得以实现。
本发明的有益效果在于:首先,采用基于采用距离密度的算法代替原有的FCM方法进行TS模型的前件参数辨识,并重构隶属度,降低了数据的不均衡性对模糊划分的影响。其次针对建模过程中输入数据不完整的问题,本发明将缺失值视为变量,采用了一套缺失值和模型结论参数动态更新的迭代学习填补方案,以实现现有数据的充分利用。
附图说明
图1是本发明的工作原理图。
图1中:1将含有缺失值的不均衡不完整数据集输入模型;2用距离密度算法(SD)划分该数据集;3采用局部距离策略来计算样本与中心之间的距离pd(xi,ct);4进行输入变量选择;5通过迭代学习(IU)动态地更新结论参数和填补值;6输出含有填补值的完整数据集。
图2是本发明的距离密度算法(SD)的工作流程图。
图3是本发明的迭代学习方法(IU)的实现过程图。
图3中:步骤1对不完整数据集进行随机预填补;步骤2将填补后的数据集输入迭代学习模型;步骤3未达到输出条件,继续更新填补值;步骤4达到输出条件,输出含有最终填补值的数据集。
具体实施方式
以下结合技术方案和说明书附图详细说明本发明的具体实施方式。
图1是本发明的工作原理图,图中不均衡不完整数据集中第一行D1,D2,...,Ds表示属性名称,黑色标记表示缺失值,灰色标记表示填补值。基于图1可知,本发明用距离密度算法进行前件参数辨识,接着采用迭代学习方法动态实现结论参数辨识与缺失值填补。首先将含有缺失值的不均衡不完整数据集输入模型;在构建模型中,用距离密度算法将该数据集的n个样本划分为k类,每一类的类中心分别是c1,c2,...ck;由于数据集属性有缺失,本发明采用公式(6)的方式计算样本与中心之间的距离pd(xi,ct),其中i=1,2...,n,t=1,2,...k,从而完成模型的前件参数辨识;其次,选择输入变量,使模型只包含显著变量的回归方程;在填补方案中,结论参数和填补值动态更新,从而完成模型的迭代学习;当迭代收敛时,输出含有最终填补值的不均衡完整数据集。
以UCI机器学习数据库的三个数据集为例,对本发明技术方案的细节进行阐述。通过人工删除数据集中的部分数据以构造不完整数据集。
(1)构建模型
距离密度算法(SD算法)将输入的不均衡不完整数据集划分为k个子集。针对数据集的不均衡性,原则是保证每次取到的新的聚类中心离已有的聚类中心的距离都比较远。避免聚类中心过于邻近,多个聚类中心都被选择在同一个类中,而小簇中没有聚类中心的情况。
令B表示聚类中心下标集合,记录从数据集样本中选取的类中心下标。然后从非类中心样本中选择距离已选类中心最远的样本,该样本下标记为q,其中q满足:
Figure BDA0002382048170000071
则取xq为新的聚类中心,并把新聚类中心的下标加入集合B。其中,ct表示数据集的第t个聚类中心。
该算法不需要预先给出聚类个数,它可以根据一定的计算规则确定初始聚类中心的个数。聚类中心的个数即为TS模型的规则数量。
距离密度(SD)算法的工作流程详见图2,具体步骤是:
步骤1:输入不完整数据集;
步骤2:初始化空集合B、近邻样本个数K、参数θ,其中θ<1;
步骤3:计算xi到剩余样本的局部距离pd(xi,xj),其中j=1,...,i-1,i+1,...,n。然后对得到的局部距离进行排序,并选择前K个最近的样本组成集合Ni
步骤4:根据公式(6)计算每个样本的局部密度,并将局部密度最大的样本作为第一个类中心c1,记c1=xi,B=B+{i};
步骤5:根据公式(5)计算余下样本到c1的距离密度,并选择距离密度属性最大的样本作为第二个类中心c2,记c2=xj,B=B+{j};
步骤6:若最大最小距离
Figure BDA0002382048170000081
仍大于θ×pd(c1,c2),则转至步骤7,否则转至步骤9;
步骤7:记新选的中心为cq,q满足公式(11);
步骤8:根据公式(5)计算余下样本到新中心cq的距离密度,并选择距离密度属性最大的样本作为第下一个类中心cnext,记cnext=xl,B=B+{l}。返回步骤6;
步骤9:输出聚类中心{c1,c2,...,c|B|},以及聚类中心的个数|B|。
其中聚类中心的个数|B|与模糊规则数量k相等,即|B|=k。然后用步骤1-9得到的聚类中心计算隶属度。用
Figure BDA0002382048170000082
表示样本xi隶属于A(t)的程度,其中A(t)表示一个以ct为中心的多维模糊集合,
Figure BDA0002382048170000083
由式(12)得到:
Figure BDA0002382048170000084
式中,pd(ct,xi)表示第t个聚类中心和第i个样本之间的局部距离,其中t=1,2,...,k,i=1,2,...,n。得到模糊集合
Figure BDA0002382048170000085
从而完成模型前件参数辨识。
(2)填补方案
得到前件参数后,首先使用逐步回归对输入变量进行选取,使模型中只存在显著变量。基于迭代学习(IU)的方式进行填补和结论参数辨识方法如图3所示。图3中第一行D1,D2,...,Ds表示属性名称;黑色标记表示动态填补值
Figure BDA0002382048170000091
其中l表示第l次迭代;灰色标记表示最终填补值;v(i)是每条规则R(i)的权重,其中i=1,2,...,k;H表示所有规则的加权输入;P表示结论参数,其计算方式为:
P=(HTH)-1HTY (13)
式中Y=[x1m,x2m,...,xnm]T表示第m维属性中的所有样本,其中m=1,2,...,s;|△f|表示相邻两次迭代学习中由现有数据及其对应模型输出求出的均方根误差的差值的绝对值,用来判断迭代学习是否完成;ε表示使迭代终止的阈值。f的计算公式如下式所示:
Figure BDA0002382048170000092
式中,|XC|表示现有数据的数目,
Figure BDA0002382048170000093
且xi∈XC。迭代学习(IU)的具体步骤为:
步骤1:对不完整数据集进行随机预填补得到含有动态填补值
Figure BDA0002382048170000094
的数据集;
步骤2:基于填补后的数据集,及公式(9)和(13)计算结论参数P。并由公式(10)得到模型输出
Figure BDA0002382048170000095
步骤3:用
Figure BDA0002382048170000096
更新填补值,基于
Figure BDA0002382048170000097
以及公式(14)计算f(l),和上一次迭代得到的f(l-1)比较并求出差值|△f|。如果|△f|>ε,则返回步骤2,进入下一次迭代学习;
步骤4:如果|△f|≤ε,则终止迭代并输出含有最终填补值的数据集。
(3)实验
从UCI机器学习数据库选取3个数据集验证本发明的填补性能,数据集描述见表1。为计算缺失值估计和真实值间的误差,所选数据集均为完整数据集,实验按照指定缺失率人工删除部分数据来构造不完整数据集。指定缺失率分别设为5%、10%、15%、20%、25%、30%、40%、45%、50%。
表1数据集描述
Figure BDA0002382048170000101
实验基于提出的方法填补不完整数据,并对填补值与实际值进行比较。针对每个指定缺失比下的完整数据集,随机生成5个不完整数据集,并计算平均RMSE值作为最终实验结果。本发明比较了以下五种填补方案:基于传统回归模型的填补方法(REG);基于传统TS建模的填补方法(Basic-TS);基于距离密度算法构建模型的TS建模填补方法(SD-TS);采用迭代学习的TS建模填补方法(TS-IU);基于距离密度算法构建模型,并采用迭代学习的TS建模填补方法(SD-TS-IU)。在每组比较实验中,所有方法都使用相同的初始化数据集。表2为五种填补方法的RMSE指标结果,其中最优结果已加粗并用下划线标出,次优结果已加粗显示。
表2五种填补法的RMSE指标
Figure BDA0002382048170000102
Figure BDA0002382048170000111
由表2可知,Basic-TS的填补精度普遍高于REG的填补精度,表明基于TS建模的填补方法比基于回归填补方法更有效;进一步观察表中数据可知,SD-TS的RMSEs普遍低于Basic-TS的RMSEs,SD-TS-IU的结果也普遍好于TS-IU。并且随着数据集不均衡度的提高,距离密度算法的效果越明显;对比TS-IU和Basic-TS的RMSEs,发现除特例外的所有情况下TS-IU的RMSEs均优于Basic-TS,说明迭代更新策略能够有效的提高填补精度。
综上所述,本发明的SD-TS-IU具有最多的最优结果,这说明SD-TS-IU的填补精度优于其他对比方法,具有较高的填补精度。

Claims (3)

1.一种不均衡不完整数据集的建模及缺失值填补方法,其特征在于,具体如下:
(1)构建模型
结合局部密度和局部距离定义了每个样本的距离密度dsij的计算方法,并设计辨识前件模型的距离密度算法,简称SD算法:
设有不完整数据集X={XM,XC},其中XM为数据集中缺失值构成的子集,XC为数据集中非缺失值构成的子集,对于任意样本xi,xj∈X,其距离密度dsij为:
dsij=exp(S(xi))×pd(xi,xj) (5)
式中,S(x)i是式(6)中定义的样本xi的局部密度,pd(xi,xj)是由式(7)得到的xi和xj的局部距离;
数据集X中的样本xi的局部密度定义为:
Figure FDA0002382048160000011
式中,Nj表示由样本xi的K个近邻样本xj组成的集合,其中i=1,2,...,n,n表示样本数量,j=1,2,...,K,K为自定义常数,pd(xi,xj)定义为局部距离,计算方法为:
Figure FDA0002382048160000012
式中,s是样本属性数量,Iim标记第i个样本的第m个属性值xim是否缺失,Ijm标记第j个样本的第m个属性值xjm是否缺失,计算方法为:
Figure FDA0002382048160000013
采用SD算法计算出样本的聚类中心,以及聚类中心的个数,然后用得到的聚类中心计算隶属度,最终得到模型的前件参数;
(2)填补方案
基于一种迭代学习的方式更新TS模型的结论参数和填补值:针对样本属性数量为s的不完整数据集X,分别以每维属性作为输出,搭建s个TS模型,每个TS模型的输入为D(m)={D1,D2,...,Dm-1,Dm+1,...Ds},期望输出为Y=Dm,其中m=1,2,...,s,首先对不完整数据集随机初始化得到完整数据集,随后基于最小二乘法计算结论参数,在每个TS模型中,对于第j个样本xj的第i条规则R(i)的加权输入Hj (i)由式(9)得到:
Hj (i)=vj (i)Γ(i) (9)
式中vj (i)表示权重;Γ(i)=[1,xj1 (i),...,xj(q-1) (i),xj(q+1) (i),...,xjs (i)]表示经过变量选择之后R(i)的输入变量,其中输入变量xjq (i)被剔除,i=1,2,...,k,j=1,2,...,n,1<q<s,然后计算模型的实际输出值
Figure FDA0002382048160000021
Figure FDA0002382048160000022
式中P(i)为由最小二乘公式得到的第i条规则R(i)的结论参数;
通过公式(9)和(10)得到s个TS模型的输出集合
Figure FDA0002382048160000023
其中l表示第l次迭代,
Figure FDA0002382048160000024
表示更新填补值,
Figure FDA0002382048160000025
表示现有数据对应的模型输出,用来计算与相应真实值的均方根误差f(l),然后计算与上一次迭代学习得到的均方根误差f(l-1)的差值|△f|,若大于阀值ε则重复上述步骤进入新一轮学习,否则迭代结束并输出填补后的数据集,这样,以第s维属性为输出的不均衡不完整数据TS建模得以实现。
2.根据权利要求1所述的一种不均衡不完整数据集的建模及缺失值填补方法,其特征在于,
令B表示聚类中心下标集合,记录从数据集样本中选取的类中心下标;然后从非类中心样本中选择距离已选类中心最远的样本,该样本下标记为q,其中q满足:
Figure FDA0002382048160000031
则取xq为新的聚类中心,并把新聚类中心的下标加入集合B;其中,ct表示数据集的第t个聚类中心;
所述的构建模型的具体过程如下:
步骤1:输入不完整数据集;
步骤2:初始化空集合B、近邻样本个数K、参数θ,其中θ<1;
步骤3:计算xi到剩余样本的局部距离pd(xi,xj),其中j=1,...,i-1,i+1,...,n;然后对得到的局部距离进行排序,并选择前K个最近的样本组成集合Ni
步骤4:根据公式(6)计算每个样本的局部密度,并将局部密度最大的样本作为第一个类中心c1,记c1=xi,B=B+{i};
步骤5:根据公式(5)计算余下样本到c1的距离密度,并选择距离密度属性最大的样本作为第二个类中心c2,记c2=xj,B=B+{j};
步骤6:若最大最小距离
Figure FDA0002382048160000032
仍大于θ×pd(c1,c2),则转至步骤7,否则转至步骤9;
步骤7:记新选的中心为cq,q满足公式(11);
步骤8:根据公式(5)计算余下样本到新中心cq的距离密度,并选择距离密度属性最大的样本作为第下一个类中心cnext,记cnext=xl,B=B+{l};返回步骤6;
步骤9:输出聚类中心{c1,c2,...,c|B|},以及聚类中心的个数|B|;
其中聚类中心的个数|B|与模糊规则数量k相等,即|B|=k;
然后用步骤1-9得到的聚类中心计算隶属度;用
Figure FDA0002382048160000033
表示样本xi隶属于A(t)的程度,其中A(t)表示一个以ct为中心的多维模糊集合,
Figure FDA0002382048160000034
由式(12)得到:
Figure FDA0002382048160000041
式中,pd(ct,xi)表示第t个聚类中心和第i个样本之间的局部距离,其中t=1,2,...,k,i=1,2,...,n;得到模糊集合
Figure FDA0002382048160000042
从而完成模型前件参数辨识。
3.根据权利要求1所述的一种不均衡不完整数据集的建模及缺失值填补方法,其特征在于,
H表示所有规则的加权输入;P表示结论参数,其计算方式为:
P=(HTH)-1HTY (13)
式中Y=[x1m,x2m,...,xnm]T表示第m维属性中的所有样本,其中m=1,2,...,s;|△f|表示相邻两次迭代学习中由现有数据及其对应模型输出求出的均方根误差的差值的绝对值,用来判断迭代学习是否完成;ε表示使迭代终止的阈值;f的计算公式如下式所示:
Figure FDA0002382048160000043
式中,|XC|表示现有数据的数目,
Figure FDA0002382048160000044
且xi∈XC
所述的迭代学习的具体过程如下:
步骤1:对不完整数据集进行随机预填补得到含有动态填补值
Figure FDA0002382048160000045
的数据集;
步骤2:基于填补后的数据集,及公式(9)和(13)计算结论参数;并由公式(10)得到模型输出
Figure FDA0002382048160000046
步骤3:用
Figure FDA0002382048160000047
更新填补值,基于
Figure FDA0002382048160000048
以及公式(14)计算f(l),和上一次迭代得到的f(l -1)比较并求出差值|△f|;如果|△f|>ε,则返回步骤2,进入下一次迭代学习;
步骤4:如果|△f|≤ε,则终止迭代并输出含有最终填补值的数据集。
CN202010085969.9A 2020-02-11 2020-02-11 一种不均衡不完整数据集的建模及缺失值填补方法 Withdrawn CN111353525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010085969.9A CN111353525A (zh) 2020-02-11 2020-02-11 一种不均衡不完整数据集的建模及缺失值填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010085969.9A CN111353525A (zh) 2020-02-11 2020-02-11 一种不均衡不完整数据集的建模及缺失值填补方法

Publications (1)

Publication Number Publication Date
CN111353525A true CN111353525A (zh) 2020-06-30

Family

ID=71197960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010085969.9A Withdrawn CN111353525A (zh) 2020-02-11 2020-02-11 一种不均衡不完整数据集的建模及缺失值填补方法

Country Status (1)

Country Link
CN (1) CN111353525A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034042A (zh) * 2021-04-19 2021-06-25 上海数禾信息科技有限公司 用于风控模型构建的数据处理方法和装置
CN114328742A (zh) * 2021-12-31 2022-04-12 广东泰迪智能科技股份有限公司 一种中央空调的缺失数据预处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034042A (zh) * 2021-04-19 2021-06-25 上海数禾信息科技有限公司 用于风控模型构建的数据处理方法和装置
CN113034042B (zh) * 2021-04-19 2024-04-26 上海数禾信息科技有限公司 用于风控模型构建的数据处理方法和装置
CN114328742A (zh) * 2021-12-31 2022-04-12 广东泰迪智能科技股份有限公司 一种中央空调的缺失数据预处理方法

Similar Documents

Publication Publication Date Title
Yang et al. A feature-reduction multi-view k-means clustering algorithm
CN111104595B (zh) 一种基于文本信息的深度强化学习交互式推荐方法及***
US7428514B2 (en) System and method for estimation of a distribution algorithm
CN105809672B (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN106228185A (zh) 一种基于神经网络的通用图像分类识别***及方法
CN108009594B (zh) 一种基于变分组卷积的图像识别方法
CN106537422A (zh) 用于捕获信息内的关系的***和方法
CN103942571B (zh) 一种基于遗传规划算法的图形图像分类方法
CN110188228A (zh) 基于草图检索三维模型的跨模态检索方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及***
CN109872331A (zh) 一种基于深度学习的遥感图像数据自动识别分类方法
CN112101574B (zh) 一种机器学习有监督模型解释方法、***及设备
Rahman et al. CRUDAW: A novel fuzzy technique for clustering records following user defined attribute weights
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN111340069A (zh) 基于交替学习的不完整数据精细建模及缺失值填补方法
CN113449802A (zh) 基于多粒度互信息最大化的图分类方法及装置
CN111353525A (zh) 一种不均衡不完整数据集的建模及缺失值填补方法
Saati et al. A fuzzy data envelopment analysis for clustering operating units with imprecise data
CN113610139A (zh) 一种多视角强化图像聚类方法
CN115496144A (zh) 配电网运行场景确定方法、装置、计算机设备和存储介质
CN111192158A (zh) 一种基于深度学习的变电站日负荷曲线相似度匹配方法
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
CN115063655A (zh) 一种融合超列的类激活映射图生成方法
CN108846845A (zh) 基于缩略图与分层模糊聚类的sar图像分割方法
CN115937568B (zh) 一种玄武岩构造背景分类方法、***、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200630

WW01 Invention patent application withdrawn after publication