CN111340069A - 基于交替学习的不完整数据精细建模及缺失值填补方法 - Google Patents

基于交替学习的不完整数据精细建模及缺失值填补方法 Download PDF

Info

Publication number
CN111340069A
CN111340069A CN202010085968.4A CN202010085968A CN111340069A CN 111340069 A CN111340069 A CN 111340069A CN 202010085968 A CN202010085968 A CN 202010085968A CN 111340069 A CN111340069 A CN 111340069A
Authority
CN
China
Prior art keywords
model
filling
input
features
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010085968.4A
Other languages
English (en)
Inventor
刘辉
张立勇
宋橘超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010085968.4A priority Critical patent/CN111340069A/zh
Publication of CN111340069A publication Critical patent/CN111340069A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Biomedical Technology (AREA)
  • Fuzzy Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于交替学习的不完整数据精细建模及缺失值填补方法,属于数据挖掘领域。首先基于模糊聚类算法将输入空间划分为若干个子集,并对每个子集建立一个特定的局部线性回归模型;然后采用局部线性回归模型的加权和来构建全局模型,提升了模型的精细度;并对每个子集使用逐步回归算法进行显著输入特征的选择以进一步提高模型的精细度。本发明将缺失值视为变量,并提出一种让显著输入特征的选择、模型的参数和缺失值的填补三者交替学习的模型求解策略,在建模完成的同时填补也伴随式的完成。本发明提高传统回归填补中所建模型的精细度,并有效的解决不完整数据建模时模型输入数据不完整的问题,具有较理想的填补精度。

Description

基于交替学习的不完整数据精细建模及缺失值填补方法
技术领域
本发明属于数据挖掘领域,涉及一种基于交替学习的不完整数据精细建模及缺失值填补方法。
背景技术
数据挖掘技术能从大量的数据中通过算法搜索隐藏于其中的信息,从而为决策提供正确的指导。然而在现实生活的各个领域中,数据缺失几乎是一个无法避免的问题。高质量的数据是高质量数据挖掘的前提。由于众多数据挖掘算法很难独立应对不完整数据集,缺失值填补已经成为不完整数据分析的一个研究热点。目前,研究学者提出了多种缺失值填补方法,如均值填补法、热卡填补法、基于聚类的填补法和回归填补法等。
均值填补法(H.L.Shashirekha,A.H.Wani,Analysis of imputation algorithmsfor microarray gene expression data,in:2015International Conference onApplied and Theoretical Computing and Communication Technology,Davangere,India,2015)利用不完整属性列中现有数据的均值来代替缺失值。该方法虽然能较快的填补缺失值,但减少了填补值的多样性,因此填补效果较差。
与均值填补法不同,热卡填补法(T.Srebotnjak,G.Carr,A.Sherbinin,C.Rickwood,A global Water Quality Index and hot-deck imputation of missingdata,Ecological Indicators,17(2012)108-119)主要使用相关矩阵度量样本之间的相似度,并在数据集中找到与不完整样本最为相似的样本,然后用这个相似样本的属性值来代替缺失值。由于考虑到了样本之间的相关性,该方法通常比均值填补法有着更好的填补性能。
与热卡填补法相似,基于聚类的填补法(C.F.Tsai,M.L.Li,W.C.Lin,A classcenter based approach for missing value imputation,Knowledge-Based Systems,151(2018)124–135)也考虑到了样本之间的相关性,但是不同之处在于该方法将数据集划分为若干个子集,并用离不完整样本最近的聚类中心的相应属性值来代替缺失值。
与上述方法都不同,回归填补法(C.Crambes,Y.Henchiri,Regressionimputation in the functional linear model with missing values in theresponse,Journal of Statistical Planning and Inference,201(2018)103-119)是一种基于模型的填补方法,其主要思想是根据属性间的依赖关系对不完整数据建立回归模型,然后基于所建的回归模型对缺失值进行填补。由于考虑到了属性之间的相关性,在一般情况下,该填补法通常比上述方法有着更好的填补性能。回归填补法的填补结果通常受所建回归模型精确度的影响极大,因此不完整数据的建模引起了很多研究者的兴趣。如何处理不完整的模型输入数据以及如何合适的描述属性之间的关系是不完整数据建模面临的两大主要问题。
目前,针对模型输入数据的不完整性,比较简单的方法是将含有缺失属性值的不完整样本全部删除,只基于不完整数据集的完整样本部分建模(F.Honghai,C.Guoshun,Y.Cheng,Y.Bingru,C.Yumei,A svm regression based approach to filling inmissing values,Lecture Notes in Computer Science,3683(2005)581-587)。该方法比较适用于缺失率较低或属性个数较少的情况,因为当缺失规模过大时,大量的有用信息被删除会导致建模效果不佳。另一种较为流行的方法是在建模前对缺失值进行预填补,随后基于重构的完整数据集建模(H.Kim,G.H.Golub,H.Park,Missing value estimation forDNA microarray gene expression data:local least squares imputation,Bioinformatics,21(2005)187-198)。该方法保留了不完整样本中的现有值从而提高了信息的利用率,但是缺失值的预填补使得预填值的质量对模型精度有着直接的影响。
有些研究学者则对不同聚类的样本建立不同的模型以合理的描述属性之间的关系。基于聚类和回归模型的填补法将数据集划分为不同的聚类,并在每个聚类中建立一个特定的最小二乘回归模型来预测缺失值(P.Keerin,W.Kurutach,T.Boongoen,Animprovement of missing value imputation in DNA microarray data using cluster-based LLS method,in:International Symposium on Communications and InformationTechnologies,Surat Thani,Thailand,2013,pp:559-564)。与传统的回归填补法相比,该方法有着更好的填补性能。基于聚类与堆叠去噪自编码器的填补法则将聚类与堆叠去噪自编码器相结合起来,首先用k均值聚类算法对样本进行划分,然后在每个聚类中构造不同的基于堆叠去噪自编码器的模型来填补缺失值(W.C.Ku,G.R.Jagadeesh,A.Prakash,T.Srikanthan,A clustering-based approach for data-driven imputation ofmissing traffic data,in:IEEE Forum on Integrated and SustainableTransportation Systems(FISTS),Beijing,China,2016)。
近年来,有研究学者将Takagi-Sugeno(TS)模糊模型应用于不完整数据的分析和预测并取得了较好的填补性能。基于不完整数据模糊建模的填补法首先用聚类中心预填补缺失值,然后基于TS模糊模型对重构的完整数据集建模并基于所建模型来预测缺失值(X.Lai,X.Liu,L.Zhang,et al,Missing Value Imputations by Rule-Based IncompleteData Fuzzy Modeling,in:IEEE International Conference on Communications(ICC)Shanghai,China,2019)。TS模糊模型的主要思想是将输入空间划分成若干个子集,然后在每个子集上建立不同的线性回归方程,最后通过隶属度将这些线性回归方程连接起来。该模型由一系列“IF-THEN”模糊规则构成,其模糊规则的后件通常是输入变量的线性描述。给定样本容量为n,属性个数为s的不完整数据集X,xk=[x1k,x2k,…,xsk](1≤k≤n)是其中第k个样本且xjk(1≤j≤s)为xk的第j维属性值。以第j维属性为模型输出,其余属性为模型输入时,第i条模糊规则的形式为:
Figure BDA0002382047000000041
其中c为模糊规则数目;
Figure BDA0002382047000000042
表示第i条模糊规则的前件中第q维输入特征所属的子集;
Figure BDA0002382047000000043
表示第i条模糊规则的后件参数;
Figure BDA0002382047000000044
表示第i条模糊规则的输出。模型的最终输出如式(2)所示:
Figure BDA0002382047000000045
其中,
Figure BDA0002382047000000046
为第i条模糊规则的贡献权重,并且可由式(3)得到:
Figure BDA0002382047000000047
式中,算子∧表示取小操作;
Figure BDA0002382047000000048
表示xqk属于子集
Figure BDA0002382047000000049
的隶属度,用于表征xqk隶属于子集
Figure BDA00023820470000000410
的程度。相对于传统的回归模型而言,TS模糊模型考虑到了不同子集内回归关系的差异性,更适合于描述属性之间的关系。
发明内容
本发明要解决的技术问题是提出一种基于交替学习的不完整数据精细建模及缺失值填补方法,本发明基于TS模糊模型对输入空间进行划分,然后对每个子集进行显著输入特征的选择以提升模型的精细度,并提出一种交替学习策略实现精细模型的求解和缺失值填补。通过交替学习策略能有效弱化预填值的质量对输入特征的选择以及模型参数的影响从而获得更好的填补结果。与传统的回归填补法相比,该填补方法能有效的提高填补精度。
本发明将输入空间划分为若干个子集并对每个子集建立一个特定的线性回归方程,然后对每个线性回归方程的输入使用逐步回归算法进行显著输入特征的选择以提高模型的精细度。在此基础上,将缺失值视为变量,让显著输入特征的选择、模型的后件参数和缺失值的填补三者交替学习直到迭代收敛以解决模型输入数据不完整的问题。当迭代收敛时,填补伴随着建模的完成而得以完成。
本发明的技术方案如下:
一种基于交替学习的不完整数据精细建模及缺失值填补方法,具体如下:
(1)建模
首先使用基于局部距离策略的模糊C均值聚类(FCM-PDS)算法将输入空间进行划分。给定样本容量为n,属性个数为s的不完整数据集,FCM-PDS算法通过最小化式(4)中的目标函数将输入空间划分为c个子集,
Figure BDA0002382047000000051
其中,
Figure BDA0002382047000000052
表示样本xk属于子集A(i)的隶属度;m为隶属度的加权指数,m∈(1,∞);dki表示xk与聚类中心vi=[v1i,v2i,…,vsi](1≤i≤c)之间的距离,其计算公式如式(5)所示:
Figure BDA0002382047000000053
其中,vji表示vi的第j个属性值;
Figure BDA0002382047000000054
用于标记xjk是否缺失,XM和Xp分别为所有缺失值组成的集合和所有完备值组成的集合。
然后使用逐步回归算法选取每条模糊规则的显著输入特征:逐步回归算法将对输出影响显著的特征按照重要性逐一引入回归模型,且每引入一个新的特征都要对已选入回归模型的特征重新进行显著性检验。若回归模型中的已有特征由于新特征的引入而变得不显著,则将最不显著的特征删除;当既没有新的特征能够选入回归模型,也没有不显著特征可以从回归模型中剔除时算法终止。
对输入空间进行划分并对每条模糊规则进行显著输入特征的选择后,令第i条模糊规则的显著输入特征集合
Figure BDA0002382047000000061
且mi为所选入特征的个数,其中显著输入特征xj=[xj1,xj2,…,xjn]Τ(1≤j≤mi)。则第i条模糊规则由式(1)被简化为式(6),
Figure BDA0002382047000000062
其中,c为模糊规则数目;
Figure BDA0002382047000000063
表示第i条模糊规则的输出;
Figure BDA0002382047000000064
是简化后的第k个样本;
Figure BDA0002382047000000065
为简化后的第i条模糊规则的前件中第mi维输入特征所属的子集;
Figure BDA0002382047000000066
为简化后的第i条模糊规则的后件参数。而且,第i条模糊规则的贡献权重由
Figure BDA0002382047000000067
变为
Figure BDA0002382047000000068
其计算方式如式(7)所示:
Figure BDA0002382047000000069
式中,单变量隶属度
Figure BDA00023820470000000610
由多变量隶属度
Figure BDA00023820470000000611
经过高斯投影得到,如式(8)所示:
Figure BDA00023820470000000612
其中aji和bji分别表示高斯函数中心和高斯函数标准差,其计算公式如式(9)所示:
Figure BDA0002382047000000071
其中uki表示样本xk隶属于模糊子集A(i)的程度。则TS模糊模型的输出
Figure BDA0002382047000000072
可由式(10)计算得到:
Figure BDA0002382047000000073
(2)缺失值填补
由于建立单个TS模糊模型只能对单个不完整属性列的缺失值进行填补,本发明依次将每个不完整属性列作为输出,其余所有属性作为输入建立多个TS模糊模型。而且,针对模型输入数据的不完整性,将缺失值视为变量,提出一种交替学习策略用于模型求解和缺失值填补。交替学习策略可分为如下步骤:
步骤1:将缺失值进行均值预填补以获得重构的完整数据集。
步骤2:基于重构的完整数据集更新模型的显著输入特征和后件参数。
步骤3:根据更新后的模型的显著输入特征和后件参数得到模型输出并用其更新缺失值。
步骤4:若由现有值及其对应模型输出求得的填补误差大于或等于给定的阈值,返回步骤2;否者,利用与缺失值对应的模型输出填补缺失值并输出填补的数据集。
本发明的有益效果:第一,在回归建模的基础上对输入空间进行划分并对每个子集建立一个线性回归方程,然后对线性回归方程进行显著输入特征的选择,通过这两步提升了模型的精细度并增强了填补性能。第二,针对模型输入的不完整性,将缺失值视为变量,提出一种交替学习策略,让显著输入特征的选择、模型的后件参数和缺失值的填补三者交替学习直到迭代收敛。在交替学习过程中,模型结构和模型参数将随着填补精度的提高而逐步精确,而模型结构和参数的精确将促进缺失值的填补值更加合理。
附图说明
图1是本发明的整体工作流程图。
图2是本发明的交替学习策略的工作流程图。
具体实施方式
以下结合技术方案和说明书附图详细说明本发明的具体实施方式。
图1为本发明的整体工作流程图。图中,不完整数据集第一行1,2,…,s表示属性序号,黑色标记表示缺失值,白色标记表示现有值。本发明首先使用FCM-PDS算法将不完整数据集划分为若干个子集,并将这些子集作为随后特征选择过程的输入。然后对不完整数据集进行均值预填补得到重构的完整数据集,并基于重构的完整数据集对每个子集使用逐步回归算法进行特征选择以得到模型的显著输入特征。随后基于最小二乘法计算模型的后件参数,并利用模型的后件参数和显著输入特征计算模型输出。最后视缺失值为变量,基于模型输出更新重构的完整数据集,模型的显著输入特征、模型的后件参数和模型输出也随之得到更新并进行下一次迭代。若相邻两次迭代中由现有值及其对应模型输出求出的重构误差的变化小于指定的阈值,则迭代收敛,缺失值的填补伴随建模的完成而完成并输出填补的数据集。否则,更新重构的完整数据集并进行下一次迭代。
实施例
以UCI机器学习数据库的Blood数据集为例,对本发明的细节进行阐述。Blood是样本量为748,属性个数为4的完整数据集,通过人工删除数据集中的部分数据以构造不完整数据集。
假设748个样本空间被划分为2个子集,则以第一维属性为输出,其余所有属性为输入建立的TS模糊模型的两条模糊规则如式(11)所示,并将所建模型用TS-1表示,
Figure BDA0002382047000000091
同理,依次将第2、3和4维属性为输出,其余所有属性为输入基于TS模糊模型建模,并将所建模型用TS-j(1≤j≤4)来表示。然后将缺失值进行均值预填补以得到重构的完整数据集,并对每条模糊规则进行显著输入特征的选择。假设式(11)中R(1)的显著输入特征集合为T(1)={x2,…,xm1},R(2)的显著输入特征集合为T(2)={x2,…,xm2},则式(11)被简化为如式(12)所示
Figure BDA0002382047000000092
而且模型TS-1的输出可由式(13)表示
Figure BDA0002382047000000093
令P=[P(1),P(1),…,P(1)]T,其中
Figure BDA0002382047000000094
为模糊规则R(i)的后件参数,则模型TS-j的后件参数可基于式(14)求得
P=(BΤB)-1BΤy, (14)
式中,y=[xj1,xj2,…,xjn]Τ(1≤j≤4)为期望输出向量;B=[B(1),B(1),…,B(c)],且B(i)(1≤i≤2)的形式如式(15)所示:
Figure BDA0002382047000000101
求得了模型TS-j的后件参数后,可基于式(16)求得TS-j对应的输出
Figure BDA0002382047000000102
其中
Figure BDA0002382047000000103
将s个TS-j对应的输出结合起来可得到模型输出。
本发明将缺失值视为变量并设计了一种交替学习策略以弱化预填值的质量对模型精度的影响,该策略的具体实现细节详见图2。在图2中,XP表示所有现有值组成的集合;XM表示所有缺失值组成的集合;
Figure BDA0002382047000000104
表示现有值对应的模型输出集合;
Figure BDA0002382047000000105
表示缺失值对应的模型输出集合。首先,将缺失值由
Figure BDA0002382047000000106
进行更新以调整重构的完整数据集。然后,基于逐步回归算法将模糊规则的显著输入特征集合由
Figure BDA0002382047000000107
调整为
Figure BDA0002382047000000108
其中
Figure BDA00023820470000001022
Figure BDA0002382047000000109
分别表示上一次迭代和当前迭代中模糊规则R(i)的显著输入特征集合。随后,基于最小二乘法将模糊规则的后件参数由
Figure BDA00023820470000001010
调整为
Figure BDA00023820470000001011
其中
Figure BDA00023820470000001012
Figure BDA00023820470000001013
分别表示上一次迭代和当前迭代中模糊规则R(i)的后件参数。接着基于R(i)的显著输入特征集合和后件参数可计算出R(i)的输出
Figure BDA00023820470000001014
并将其进行加权求和可得TS-j对应的输出
Figure BDA00023820470000001015
最后,将s个TS-j对应的输出结合起来得到模型输出
Figure BDA00023820470000001016
其中
Figure BDA00023820470000001017
被用于更新缺失值,并且
Figure BDA00023820470000001018
被用于计算现有值及其对应模型输出的重构误差fe。若Δfe<ε则迭代终止并输出填补的数据集,若Δfe≥ε则继续下一轮的迭代,其中ε表示阀值;
Figure BDA00023820470000001019
Figure BDA00023820470000001020
Figure BDA00023820470000001021
分别表示当前迭代和上一次迭代中由现有值及其对应模型输出求出的重构误差。
对比例
从UCI机器学习数据库选取3个数据集验证本发明的填补性能,数据集描述见表1。为计算缺失值估计和真实值间的误差,所选数据集均为完整数据集,实验按照指定缺失率人工删除部分数据来构造不完整数据集。指定缺失率分别设为5%、10%、15%、20%、25%、30%。
表1数据集描述
Figure BDA0002382047000000111
本实验比较了六种方法,并且所有的方法都在建模前对缺失值进行均值预填补,其中第六种为基于本发明所提出的填补法。
(1)基于线性回归模型对不完整数据建模,并且将所有的特征作为输入(REG)。
(2)基于线性回归模型对不完整数据建模,并且用逐步回归法选取显著特征作为输入(REG-SR)。
(3)在REG-SR的基础上,缺失值被视为变量并且让模型结构、模型参数和缺失值三者交替学习直到收敛(REG-SR-AL)。
(4)基于TS模糊模型对不完整数据建模,并且将所有的特征作为输入(TS)。
(5)基于TS模糊模型对不完整数据建模,并且对每个子集使用逐步回归法选择显著特征作为输入(TS-SR)。
(6)在TS-SR的基础上,缺失值被视为变量并且让模型结构、模型后件参数和缺失值三者交替学习直到收敛(TS-SR-AL)。
本实验用均方根误差(RMSE)来评价填补效果。RMSE是观测值与其对应真实偏差的平方和与观测次数比值的平方根,能够很好的反应出建模的精度,其计算公式为:
Figure BDA0002382047000000121
其中,N为数据集中缺失值的数目,zt为缺失位对应的真实值,
Figure BDA0002382047000000122
为缺失位对应的填补值。表2为六种填补方法的RMSE指标结果,其中最优结果已加粗并用下划线标出,次优结果已加粗显示。
表2六种填补法的RMSE指标
Figure BDA0002382047000000123
观察表2中TS与REG的对比、TS-SR与REG-SR的对比和TS-SR-AL与REG-SR-AL的对比可知,将输入空间进行划分后对每个子空间建立一个线性回归方法要比直接建立线性方法有着更小的填补误差。对比REG-SR、REG的指标结果,以及对比TS-SR、TS的指标结果后可发现,在建模时对线性回归模型的输入进行特征选择能减小填补误差。对比TS-SR-AL、TS-SR的指标结果,以及对比REG-SR-AL、REG-SR的指标结果后可知,使用交替策略能显著提高填补精度。
综上所述,基于本发明的TS-SR-AL有着最多的最优结果,说明TS-SR-AL的填补精度优于其他对比方法。

Claims (1)

1.一种基于交替学习的不完整数据精细建模及缺失值填补方法,其特征在于,具体如下:
(1)建模
首先使用基于局部距离策略的模糊C均值聚类算法将输入空间进行划分;给定样本容量为n,属性个数为s的不完整数据集,算法通过最小化式(4)中的目标函数将输入空间划分为c个子集,
Figure FDA0002382046990000011
其中,
Figure FDA0002382046990000012
表示样本xk属于子集A(i)的隶属度;m为隶属度的加权指数,m∈(1,∞);dki表示xk与聚类中心vi=[v1i,v2i,…,vsi]之间的距离,1≤i≤c,dki计算公式如式(5)所示:
Figure FDA0002382046990000013
其中,vji表示vi的第j个属性值;
Figure FDA0002382046990000014
用于标记xjk是否缺失,XM和Xp分别为所有缺失值组成的集合和所有完备值组成的集合;
然后使用逐步回归算法选取每条模糊规则的显著输入特征:逐步回归算法将对输出影响显著的特征按照重要性逐一引入回归模型,且每引入一个新的特征都要对已选入回归模型的特征重新进行显著性检验;若回归模型中的已有特征由于新特征的引入而变得不显著,则将最不显著的特征删除;当既没有新的特征能够选入回归模型,也没有不显著特征可以从回归模型中剔除时算法终止;
对输入空间进行划分并对每条模糊规则进行显著输入特征的选择后,令第i条模糊规则的显著输入特征集合
Figure FDA0002382046990000015
且mi为所选入特征的个数,其中显著输入特征
Figure FDA0002382046990000016
则第i条模糊规则简化为式(6),
Figure FDA0002382046990000021
其中,c为模糊规则数目;
Figure FDA0002382046990000022
表示第i条模糊规则的输出;
Figure FDA0002382046990000023
是简化后的第k个样本;
Figure FDA0002382046990000024
为简化后的第i条模糊规则的前件中第mi维输入特征所属的子集;
Figure FDA0002382046990000025
为简化后的第i条模糊规则的后件参数;第i条模糊规则的贡献权重
Figure FDA0002382046990000026
的计算方式如式(7)所示:
Figure FDA0002382046990000027
式中,单变量隶属度
Figure FDA0002382046990000028
由多变量隶属度
Figure FDA0002382046990000029
经过高斯投影得到,如式(8)所示:
Figure FDA00023820469900000210
其中aji和bji分别表示高斯函数中心和高斯函数标准差,其计算公式如式(9)所示:
Figure FDA00023820469900000211
其中uki表示样本xk隶属于模糊子集A(i)的程度;则TS模糊模型的输出
Figure FDA00023820469900000212
由式(10)计算得到:
Figure FDA00023820469900000213
(2)缺失值填补
依次将每个不完整属性列作为输出,其余所有属性作为输入建立多个TS模糊模型;将缺失值视为变量,采用交替学习策略用于模型求解和缺失值填补,步骤如下:
步骤1:将缺失值进行均值预填补以获得重构的完整数据集;
步骤2:基于重构的完整数据集更新模型的显著输入特征和后件参数;
步骤3:根据更新后的模型的显著输入特征和后件参数得到模型输出并用其更新缺失值;
步骤4:若由现有值及其对应模型输出求得的填补误差大于或等于给定的阈值,返回步骤2;否者,利用与缺失值对应的模型输出填补缺失值并输出填补的数据集。
CN202010085968.4A 2020-02-11 2020-02-11 基于交替学习的不完整数据精细建模及缺失值填补方法 Withdrawn CN111340069A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010085968.4A CN111340069A (zh) 2020-02-11 2020-02-11 基于交替学习的不完整数据精细建模及缺失值填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010085968.4A CN111340069A (zh) 2020-02-11 2020-02-11 基于交替学习的不完整数据精细建模及缺失值填补方法

Publications (1)

Publication Number Publication Date
CN111340069A true CN111340069A (zh) 2020-06-26

Family

ID=71185286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010085968.4A Withdrawn CN111340069A (zh) 2020-02-11 2020-02-11 基于交替学习的不完整数据精细建模及缺失值填补方法

Country Status (1)

Country Link
CN (1) CN111340069A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835884A (zh) * 2021-02-19 2021-05-25 大连海事大学 一种海洋渔场渔情预报***中的缺失数据填补方法及***
CN113240213A (zh) * 2021-07-09 2021-08-10 平安科技(深圳)有限公司 基于神经网络和树模型的人员甄选方法、装置及设备
CN115423005A (zh) * 2022-08-22 2022-12-02 江苏大学 一种联合收获机大数据重构方法与装置
CN116861042A (zh) * 2023-09-05 2023-10-10 国家超级计算天津中心 基于材料数据库的信息校验方法、装置、设备及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835884A (zh) * 2021-02-19 2021-05-25 大连海事大学 一种海洋渔场渔情预报***中的缺失数据填补方法及***
CN112835884B (zh) * 2021-02-19 2023-05-16 大连海事大学 一种海洋渔场渔情预报***中的缺失数据填补方法及***
CN113240213A (zh) * 2021-07-09 2021-08-10 平安科技(深圳)有限公司 基于神经网络和树模型的人员甄选方法、装置及设备
CN115423005A (zh) * 2022-08-22 2022-12-02 江苏大学 一种联合收获机大数据重构方法与装置
CN115423005B (zh) * 2022-08-22 2023-10-31 江苏大学 一种联合收获机大数据重构方法与装置
CN116861042A (zh) * 2023-09-05 2023-10-10 国家超级计算天津中心 基于材料数据库的信息校验方法、装置、设备及介质
CN116861042B (zh) * 2023-09-05 2023-12-05 国家超级计算天津中心 基于材料数据库的信息校验方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111340069A (zh) 基于交替学习的不完整数据精细建模及缺失值填补方法
CN107992976B (zh) 热点话题早期发展趋势预测***及预测方法
Zhan et al. A fast kriging-assisted evolutionary algorithm based on incremental learning
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN110232434A (zh) 一种基于属性图优化的神经网络架构评估方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN108171012B (zh) 一种基因分类方法与装置
CN111599406B (zh) 结合网络聚类方法的全局多网络比对方法
CN111814907A (zh) 一种基于条件约束的量子生成对抗网络算法
CN111597760A (zh) 一种实现小样本条件下获取气路参数偏差值的方法
Song et al. Nonnegative Latent Factor Analysis-Incorporated and Feature-Weighted Fuzzy Double $ c $-Means Clustering for Incomplete Data
CN115730635A (zh) 一种电动汽车负荷预测方法
CN107240028B (zh) 一种Fedora***组件复杂网络中的重叠社区检测方法
CN111832817A (zh) 基于mcp罚函数的小世界回声状态网络时间序列预测方法
Lu et al. Robust and scalable Gaussian process regression and its applications
CN111353525A (zh) 一种不均衡不完整数据集的建模及缺失值填补方法
CN113469107B (zh) 一种融合空间密度分布的轴承故障诊断方法
CN109934344A (zh) 一种改进的基于规则模型的多目标分布估计算法
CN112270047B (zh) 基于数据驱动的群体智能计算的城市车辆路径优化方法
CN113610350B (zh) 复杂工况故障诊断方法、设备、存储介质及装置
CN112465253B (zh) 一种城市路网中的链路预测方法及装置
CN114529096A (zh) 基于三元闭包图嵌入的社交网络链路预测方法及***
Hu et al. Pwsnas: powering weight sharing nas with general search space shrinking framework
Ortelli et al. Faster estimation of discrete choice models via dataset reduction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200626