CN111353525A

CN111353525A - 一种不均衡不完整数据集的建模及缺失值填补方法

Info

Publication number: CN111353525A
Application number: CN202010085969.9A
Authority: CN
Inventors: 刘辉; 张立勇; 陆艺丹
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2020-06-30

Abstract

本发明公开了一种不均衡不完整数据集的建模及缺失值填补方法，属于数据挖掘技术领域。本发明包括构建模型部分和填补方案部分。在构建模型部分，针对数据的不均衡性，设计了一种距离密度算法应用于TS建模的前件辨识过程；在填补方案部分，针对数据的不完整性，将缺失值视为变量，并令其参与结论参数辨识的迭代学习填补方案，在填补过程中先基于填补的数据集计算结论参数，然后基于调整后的结论参数更新填补值，填补在迭代收敛时完成。本发明降低了数据集的不均衡性对TS建模的影响，并充分利用了不完整数据集中的数据信息，在不均衡不完整数据集上具有比较理想的填补精度。

Description

一种不均衡不完整数据集的建模及缺失值填补方法

技术领域

本发明属于数据挖掘技术领域，涉及一种不均衡不完整数据集的建模及缺失值填补方法。

背景技术

数据缺失以及数据集的不均衡是数据挖掘领域中两个不可避免的问题。数据缺失是指数据集在收集或者保存时由于环境等因素而产生的数据值缺失或者属性缺失；数据集的不均衡是指数据集中的类别的分布存在失衡，不相同的类别样本数目有着很大的距离。数据集的不均衡和缺失广泛存在于数据分析挖掘领域，因此对此类数据集的研究已经受到了越来越多的关注。

数据集的不均衡给数据挖掘带来了困难。在模糊划分处理不均衡数据集的过程中，容易产生“均匀效应”现象(Zhou K，Yang S.Exploring the uniform effect of FCMclustering:A data distribution perspective[J].Knowledge-Based Systems，2016，96:76-83)，即将多数类中的样本划分到少数类中，使结果中每个集合中的样本数量大致相同。针对此类现象，研究者提出了基于欠采样的数据预处理模型、基于核函数的聚类算法、多点代表法等的模糊划分方法。

数据集的缺失也是数据挖掘领域中不可避免的难题。直接丢弃不完整的样本，并用剩余的完整样本进行数据分析，会因为数据不足而导致结果产生偏差。相比之下，通过对现有数据的研究，得出缺失值的合理填补值，在大多数情况下能取得较好的结果。目前，研究者已经提出多种填补方法。其中回归填补法的原理是根据数据集中的存在值和预填补的缺失值间的回归关系，建立回归方程来估计缺失值，它已广泛应用于各种处理不完整数据的工作。

但是传统的回归填补法不能辨识样本属性之间存在的相关关系。为了辨识属性之间的关系，一种处理方法是利用模糊聚类将具有相近回归关系的数据划分一个子集，并用线性模型逼近每一个子集。该方法利用现有的模糊划分矩阵，可以得到一个基于规则的模糊模型，解决了实际数据集中属性间的相关关系未知的问题。

Takagi-Takagi模型(简称TS模型)是模糊模型的典型代表，它由若干if-then规则构成，其建模过程分为前件辨识和后件辨识两部分(T.Takagi，M.Takagi，FuzzyIdentification of Systems and Its Applications to Modeling and Control，IEEETrans.Syst.Man Cybern.SMC-15(1985)116–132)。它是由“IF-THEN”模糊规则来表示的非线性模型。对数据建模时，首先将输入空间分为若干个模糊子空间，然后在每个模糊子空间建立一个局部线性模型，并使用隶属函数将各个局部模型连接起来。TS模型的第i条规则如式(1)所示：

式中，R⁽ⁱ⁾表示第i条模糊规则，i＝1,2,...,k，k表示TS模型的规则数目；x_j＝{x_j1,x_j2,...,x_js}是***的第j个输入变量，又称前件变量，其中j＝1,2,...,n，n表示样本数量，s是样本属性数量，则x_js表示第j个样本的第s个属性；

是第i条规则中，第m个属性的模糊集合，也被称为R⁽ⁱ⁾的前件参数，其中m＝1,2,...,s；

表示第i条规则的结论参数，也称后件参数，

则表示第i条规则中，第s个属性的结论参数；y_j ⁽ⁱ⁾表示第i条规则中，第j个输入变量的输出。

模糊***中，第j个输入变量的最终输出y_j为：

式中v_j ⁽ⁱ⁾表示第i条规则中，第j个输入变量的权重，由式(3)给出：

式中A_m ⁽ⁱ⁾(x_jm)表示在第i条规则中，第j个样本的第m个属性x_jm属于模糊集合

的隶属度，其中m＝1,2,...,s。

基于TS模型的填补方法(Missing Value Imputations by Rule-BasedIncomplete Data Fuzzy Modeling.Xiaochen Lai，Xin Liu，Liyong Zhang，et al.IEEEInternational Conference on Communications(IEEE ICC 2019))通过FCM-PDS聚类算法，得到每条规则的隶属度，并使用模糊集合

作为前件参数，从而将不完整的数据集划分为若干子集，并建立一个局部线性回归模型，该模型只包含每个子集的重要输入变量。然后，通过对每个局部线性模型加权求和得到全局非线性模型，并将其输出作为填补值。与传统的回归填补法相比，该方法充分利用了现有值，更准确地描述了属性之间的关系。但是实际数据集中数据不均衡问题不可避免，而上述模糊划分方法并没有考虑数据集的不均衡性对模糊划分产生的影响。

发明内容

为解决上述问题，且对不均衡数据集的合理划分能够提高回归方程的准确性，因此本发明在TS模型的基础上，提出一种不均衡不完整数据集的建模及缺失值填补方法。本发明包括两个部分：构建模型部分和填补方案部分，其中前者对TS模型前件参数辨识方法进行了改进，以降低数据的不均衡性对模糊划分的影响；后者将不完整样本用于训练过程，以提高不完整数据集的数据利用率。

在模型的前件辨识过程中，基于一种结合距离密度和最大最小距离的思想(SD算法)对不均衡不完整数据集进行前件参数辨识，并确定前件规则数量，以降低数据的不均衡性对模糊划分的影响；然后针对建模过程中输入数据不完整的问题，先进行输入变量选取，得到确定的模型结构后，再应用最小二乘法和迭代更新策略来实现结论参数的估计和缺失值填补，以实现现有数据的充分利用；当迭代收敛时，参数和填补值趋于固定，由此完成缺失值填补。

缺失值填补方法的填补精度可由均方根误差(RMSE)衡量，即

式中N为缺失值的数目，x_i∈X_M为原始实际数据值，

是填补方案下缺失值的填补值。如果RMSE值越小，则证明数据填补效果好，反之填补效果差。

本发明的技术方案：

一种不均衡不完整数据集的建模及缺失值填补方法，包括构建模型和填补方案两个部分，具体如下：

(1)构建模型

结合局部密度和局部距离定义了每个样本的距离密度ds_ij，并设计了辨识前件模型的距离密度算法(简称SD算法)：

设有不完整数据集X＝{X_M,X_C}，其中X_M为数据集中缺失值构成的子集，X_C为数据集中非缺失值构成的子集。对于任意样本x_i,x_j∈X，其距离密度ds_ij为：

ds_ij＝exp(S(x_i))×pd(x_i,x_j) (5)

式中，S(x)_i是式(6)中定义的样本x_i的局部密度，pd(x_i,x_j)是由式(7)得到的x_i和x_j的局部距离。

数据集X中的样本x_i的局部密度定义为：

式中，N_j表示由样本x_i的K个近邻样本x_j组成的集合，其中i＝1,2,...,n，n表示样本数量，j＝1,2,...,K，K为自定义常数。pd(x_i,x_j)定义为局部距离，计算方法为：

式中，s是样本属性数量，I_im标记第i个样本的第m个属性值x_im是否缺失，I_jm标记第j个样本的第m个属性值x_jm是否缺失，计算方法为：

采用SD算法计算出样本的聚类中心，以及聚类中心的个数，并用得到的聚类中心计算隶属度，最终得到模型的前件参数。

(2)填补方案

本发明基于一种迭代学习(IU)的方式更新TS模型的结论参数和填补值。针对样本属性数量为s的不完整数据集X，分别以每维属性作为输出，搭建s个TS模型。每个TS模型的输入为D^(m)＝{D₁,D₂,...,D_m-1,D_m+1,...D_s}，期望输出为Y＝D_m，其中m＝1,2,...,s。首先对不完整数据集随机初始化得到完整数据集，随后基于最小二乘法计算结论参数。在每个TS模型中，对于第j个样本x_j的第i条规则R⁽ⁱ⁾的加权输入H_j ⁽ⁱ⁾由式(9)得到：

H_j ⁽ⁱ⁾＝v_j ⁽ⁱ⁾Γ⁽ⁱ⁾ (9)

式中v_j ⁽ⁱ⁾表示权重；Γ⁽ⁱ⁾＝[1,x_j1 ⁽ⁱ⁾,...,x_j(q-1) ⁽ⁱ⁾,x_j(q+1) ⁽ⁱ⁾,...,x_js ⁽ⁱ⁾]表示经过变量选择之后R⁽ⁱ⁾的输入变量，其中输入变量x_jq ⁽ⁱ⁾被剔除，i＝1,2,...,k，j＝1,2,...,n，1<q<s。

然后计算模型的实际输出值

式中P⁽ⁱ⁾为由最小二乘公式得到的第i条规则R⁽ⁱ⁾的结论参数。

通过公式(9)和(10)得到s个TS模型的输出集合

其中l表示第l次迭代，

表示更新填补值，

表示现有数据对应的模型输出，用来计算与相应真实值的均方根误差f^(l)。然后计算与上一次迭代学习得到的均方根误差f^(l-1)的差值|△f|，若大于阀值ε则重复上述步骤进入新一轮学习，否则迭代结束并输出填补后的数据集。这样，以第s维属性为输出的不均衡不完整数据TS建模得以实现。

本发明的有益效果在于：首先，采用基于采用距离密度的算法代替原有的FCM方法进行TS模型的前件参数辨识，并重构隶属度，降低了数据的不均衡性对模糊划分的影响。其次针对建模过程中输入数据不完整的问题，本发明将缺失值视为变量，采用了一套缺失值和模型结论参数动态更新的迭代学习填补方案，以实现现有数据的充分利用。

附图说明

图1是本发明的工作原理图。

图1中：1将含有缺失值的不均衡不完整数据集输入模型；2用距离密度算法(SD)划分该数据集；3采用局部距离策略来计算样本与中心之间的距离pd(x_i,c_t)；4进行输入变量选择；5通过迭代学习(IU)动态地更新结论参数和填补值；6输出含有填补值的完整数据集。

图2是本发明的距离密度算法(SD)的工作流程图。

图3是本发明的迭代学习方法(IU)的实现过程图。

图3中：步骤1对不完整数据集进行随机预填补；步骤2将填补后的数据集输入迭代学习模型；步骤3未达到输出条件，继续更新填补值；步骤4达到输出条件，输出含有最终填补值的数据集。

具体实施方式

以下结合技术方案和说明书附图详细说明本发明的具体实施方式。

图1是本发明的工作原理图，图中不均衡不完整数据集中第一行D₁,D₂,...,D_s表示属性名称，黑色标记表示缺失值，灰色标记表示填补值。基于图1可知，本发明用距离密度算法进行前件参数辨识，接着采用迭代学习方法动态实现结论参数辨识与缺失值填补。首先将含有缺失值的不均衡不完整数据集输入模型；在构建模型中，用距离密度算法将该数据集的n个样本划分为k类，每一类的类中心分别是c₁,c₂,...c_k；由于数据集属性有缺失，本发明采用公式(6)的方式计算样本与中心之间的距离pd(x_i,c_t)，其中i＝1,2...,n，t＝1,2,...k，从而完成模型的前件参数辨识；其次，选择输入变量，使模型只包含显著变量的回归方程；在填补方案中，结论参数和填补值动态更新，从而完成模型的迭代学习；当迭代收敛时，输出含有最终填补值的不均衡完整数据集。

以UCI机器学习数据库的三个数据集为例，对本发明技术方案的细节进行阐述。通过人工删除数据集中的部分数据以构造不完整数据集。

(1)构建模型

距离密度算法(SD算法)将输入的不均衡不完整数据集划分为k个子集。针对数据集的不均衡性，原则是保证每次取到的新的聚类中心离已有的聚类中心的距离都比较远。避免聚类中心过于邻近，多个聚类中心都被选择在同一个类中，而小簇中没有聚类中心的情况。

令B表示聚类中心下标集合，记录从数据集样本中选取的类中心下标。然后从非类中心样本中选择距离已选类中心最远的样本，该样本下标记为q，其中q满足：

则取x_q为新的聚类中心，并把新聚类中心的下标加入集合B。其中，c_t表示数据集的第t个聚类中心。

该算法不需要预先给出聚类个数，它可以根据一定的计算规则确定初始聚类中心的个数。聚类中心的个数即为TS模型的规则数量。

距离密度(SD)算法的工作流程详见图2，具体步骤是：

步骤1：输入不完整数据集；

步骤2：初始化空集合B、近邻样本个数K、参数θ，其中θ<1；

步骤3：计算x_i到剩余样本的局部距离pd(x_i,x_j),其中j＝1,...,i-1,i+1,...,n。然后对得到的局部距离进行排序，并选择前K个最近的样本组成集合N_i；

步骤4：根据公式(6)计算每个样本的局部密度，并将局部密度最大的样本作为第一个类中心c₁，记c₁＝x_i，B＝B+{i}；

步骤5：根据公式(5)计算余下样本到c₁的距离密度，并选择距离密度属性最大的样本作为第二个类中心c₂，记c₂＝x_j，B＝B+{j}；

步骤6：若最大最小距离

仍大于θ×pd(c₁,c₂)，则转至步骤7，否则转至步骤9；

步骤7：记新选的中心为c_q，q满足公式(11)；

步骤8：根据公式(5)计算余下样本到新中心c_q的距离密度，并选择距离密度属性最大的样本作为第下一个类中心c_next，记c_next＝x_l，B＝B+{l}。返回步骤6；

步骤9：输出聚类中心{c₁,c₂,...,c_|B|}，以及聚类中心的个数|B|。

其中聚类中心的个数|B|与模糊规则数量k相等，即|B|＝k。然后用步骤1-9得到的聚类中心计算隶属度。用

表示样本x_i隶属于A^(t)的程度，其中A^(t)表示一个以c_t为中心的多维模糊集合，

由式(12)得到：

式中，pd(c_t,x_i)表示第t个聚类中心和第i个样本之间的局部距离，其中t＝1,2,...,k，i＝1,2,...,n。得到模糊集合

从而完成模型前件参数辨识。

(2)填补方案

得到前件参数后，首先使用逐步回归对输入变量进行选取，使模型中只存在显著变量。基于迭代学习(IU)的方式进行填补和结论参数辨识方法如图3所示。图3中第一行D₁,D₂,...,D_s表示属性名称；黑色标记表示动态填补值

其中l表示第l次迭代；灰色标记表示最终填补值；v⁽ⁱ⁾是每条规则R⁽ⁱ⁾的权重，其中i＝1,2,...,k；H表示所有规则的加权输入；P表示结论参数，其计算方式为：

P＝(H^TH)^-1H^TY (13)

式中Y＝[x_1m,x_2m,...,x_nm]^T表示第m维属性中的所有样本，其中m＝1,2,...,s；|△f|表示相邻两次迭代学习中由现有数据及其对应模型输出求出的均方根误差的差值的绝对值，用来判断迭代学习是否完成；ε表示使迭代终止的阈值。f的计算公式如下式所示:

式中，|X_C|表示现有数据的数目，

且x_i∈X_C。迭代学习(IU)的具体步骤为：

步骤1：对不完整数据集进行随机预填补得到含有动态填补值

的数据集；

步骤2：基于填补后的数据集，及公式(9)和(13)计算结论参数P。并由公式(10)得到模型输出

步骤3：用

更新填补值，基于

以及公式(14)计算f^(l)，和上一次迭代得到的f^(l-1)比较并求出差值|△f|。如果|△f|>ε，则返回步骤2，进入下一次迭代学习；

步骤4：如果|△f|≤ε，则终止迭代并输出含有最终填补值的数据集。

(3)实验

从UCI机器学习数据库选取3个数据集验证本发明的填补性能，数据集描述见表1。为计算缺失值估计和真实值间的误差，所选数据集均为完整数据集，实验按照指定缺失率人工删除部分数据来构造不完整数据集。指定缺失率分别设为5％、10％、15％、20％、25％、30％、40％、45％、50％。

表1数据集描述

实验基于提出的方法填补不完整数据，并对填补值与实际值进行比较。针对每个指定缺失比下的完整数据集，随机生成5个不完整数据集，并计算平均RMSE值作为最终实验结果。本发明比较了以下五种填补方案：基于传统回归模型的填补方法(REG)；基于传统TS建模的填补方法(Basic-TS)；基于距离密度算法构建模型的TS建模填补方法(SD-TS)；采用迭代学习的TS建模填补方法(TS-IU)；基于距离密度算法构建模型，并采用迭代学习的TS建模填补方法(SD-TS-IU)。在每组比较实验中，所有方法都使用相同的初始化数据集。表2为五种填补方法的RMSE指标结果，其中最优结果已加粗并用下划线标出，次优结果已加粗显示。

表2五种填补法的RMSE指标

由表2可知，Basic-TS的填补精度普遍高于REG的填补精度，表明基于TS建模的填补方法比基于回归填补方法更有效；进一步观察表中数据可知，SD-TS的RMSEs普遍低于Basic-TS的RMSEs，SD-TS-IU的结果也普遍好于TS-IU。并且随着数据集不均衡度的提高，距离密度算法的效果越明显；对比TS-IU和Basic-TS的RMSEs，发现除特例外的所有情况下TS-IU的RMSEs均优于Basic-TS，说明迭代更新策略能够有效的提高填补精度。

综上所述，本发明的SD-TS-IU具有最多的最优结果，这说明SD-TS-IU的填补精度优于其他对比方法，具有较高的填补精度。

Claims

1.一种不均衡不完整数据集的建模及缺失值填补方法，其特征在于，具体如下：

(1)构建模型

结合局部密度和局部距离定义了每个样本的距离密度ds_ij的计算方法，并设计辨识前件模型的距离密度算法，简称SD算法：

设有不完整数据集X＝{X_M,X_C}，其中X_M为数据集中缺失值构成的子集，X_C为数据集中非缺失值构成的子集，对于任意样本x_i,x_j∈X，其距离密度ds_ij为：

ds_ij＝exp(S(x_i))×pd(x_i,x_j) (5)

式中，S(x)_i是式(6)中定义的样本x_i的局部密度，pd(x_i,x_j)是由式(7)得到的x_i和x_j的局部距离；

数据集X中的样本x_i的局部密度定义为：

式中，N_j表示由样本x_i的K个近邻样本x_j组成的集合，其中i＝1,2,...,n，n表示样本数量，j＝1,2,...,K，K为自定义常数，pd(x_i,x_j)定义为局部距离，计算方法为：

采用SD算法计算出样本的聚类中心，以及聚类中心的个数，然后用得到的聚类中心计算隶属度，最终得到模型的前件参数；

(2)填补方案

基于一种迭代学习的方式更新TS模型的结论参数和填补值：针对样本属性数量为s的不完整数据集X，分别以每维属性作为输出，搭建s个TS模型，每个TS模型的输入为D^(m)＝{D₁,D₂,...,D_m-1,D_m+1,...D_s}，期望输出为Y＝D_m，其中m＝1,2,...,s，首先对不完整数据集随机初始化得到完整数据集，随后基于最小二乘法计算结论参数，在每个TS模型中，对于第j个样本x_j的第i条规则R⁽ⁱ⁾的加权输入H_j ⁽ⁱ⁾由式(9)得到：

H_j ⁽ⁱ⁾＝v_j ⁽ⁱ⁾Γ⁽ⁱ⁾ (9)

式中v_j ⁽ⁱ⁾表示权重；Γ⁽ⁱ⁾＝[1,x_j1 ⁽ⁱ⁾,...,x_j(q-1) ⁽ⁱ⁾,x_j(q+1) ⁽ⁱ⁾,...,x_js ⁽ⁱ⁾]表示经过变量选择之后R⁽ⁱ⁾的输入变量，其中输入变量x_jq ⁽ⁱ⁾被剔除，i＝1,2,...,k，j＝1,2,...,n，1<q<s，然后计算模型的实际输出值