CN111984637B

CN111984637B - 数据建模中的缺失值处理方法和装置、设备及存储介质

Info

Publication number: CN111984637B
Application number: CN202010641389.3A
Authority: CN
Inventors: 王建刚
Original assignee: Suzhou Yanshu Information Technology Co ltd
Current assignee: Suzhou Yanshu Information Technology Co ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2023-04-18
Anticipated expiration: 2040-07-06
Also published as: CN111984637A

Abstract

本申请公开了一种数据建模中的缺失值处理方法，通过获取样本数据集，将样本数据集中的缺失值替换为预设值，并基于样本数据集中的各数据构造多个变量；其中，每个变量中均包含有多个数据，将各变量中的数据进行分段得到多个数据段，其中，缺失值划分到同一数据段中，计算各变量的信息值，由多个变量中选择第一数量的变量，并基于所选择的第一数量的变量建立模型。由于没有对缺失值进行实质上的改变，因此保留了数据的真实性和准确性，并且将缺失值看作一种正常的属性值，与其他属性值一同参与到建模计算过程中，将会更清晰表现变量的缺失值对建模目标的趋势关系，有助于提升模型的分类能力并在后期模型评估过程中更好的解释模型。

Description

数据建模中的缺失值处理方法和装置、设备及存储介质

技术领域

本公开涉及数据建模领域，尤其涉及一种数据建模中的缺失值处理方法和装置、设备及存储介质。

背景技术

在数据建模中，样本数据中有些变量存在缺失值，由于缺失值隐藏了样本数据的历史特征，所以在数据预处理阶段需要对缺失值数据进行技术处理，以求从缺失数据中发现更多特征，找到和分析目标之间的关系，并且符合建模程序的需要。

现有技术中，对于缺失值的处理方法主要以下几种：删除、特殊值填充、均值填充、就近补齐、聚类填充、使用所有可能的值填充、组合完整化方法和回归插补法。

现有技术不论是删除还是填补，都会不同程度地改变数据本身，从而影响最终的模型效果。缺失值是由于多种原因导致的结果，如果弄不清楚导致缺失值的原因而人为根据处理经验和业务理解去填充，就改变了缺失值的现状结果，从而掩盖了缺失值的变化历史，甚至人为增加或者改变了填充值与其它正常值之间的联系，从而影响该变量对建模目标的影响关系。

发明内容

有鉴于此，本公开提出了一种数据建模中的缺失值处理方法，包括：

获取样本数据集，将所述样本数据集中的缺失值替换为预设值，并基于所述样本数据集中的各数据构造多个变量；其中，每个所述变量中均包含有多个所述数据；

将各所述变量中的所述数据进行分段得到多个数据段；其中，所述缺失值划分到同一所述数据段中；

计算各所述变量的信息值，由多个所述变量中选择第一数量的变量，并基于所选择的所述第一数量的变量建立模型。

在一种可能的实现方式中，基于所述样本数据集中的各数据构造多个变量，包括：

获取所述样本数据集中的各所述数据和预先设置的各所述变量的变量名；

根据各所述数据的属性和各所述变量名，将各所述数据归属到相应的所述变量中；

其中，所述数据的属性与所述变量名相对应。

在一种可能的实现方式中，将各所述变量中的所述数据进行分段得到多个数据段，包括：

将各所述变量中所包含的数据依据预设条件进行分段，得到多个初始数据段；

依据同一变量中任意两个所述初始数据段之间的相似度，对各所述初始数据段进行合并或保留，得到所述数据段。

在一种可能的实现方式中，依据同一变量中任意两个所述初始数据段之间的相似度，对各所述初始数据段进行合并或保留，包括：

获取同一变量下各所述初始数据段在另一变量中所对应的权值；其中，所述权值为各所述初始数据段中各所述数据在另一变量所对应的数据的均值、众数中的任意一种；

若两个所述初始数据段的权值的差值小于或等于设定值，则合并两个所述初始数据段；

若两个所述初始数据段的权值的差值大于所述设定值，则保留两个所述初始数据段。

在一种可能的实现方式中，获取同一变量下各所述初始数据段在另一变量中所对应的权值包括：

获取各所述初始数据段中各数据在另一变量中所对应的数据；

基于所述初始数据段中各数据在另一变量中所对应的数据进行计算，得到所述初始数据段在另一变量中所对应的权值。

在一种可能的实现方式中，由多个所述变量中选择第一数量的变量包括：

根据各所述信息值将多个所述变量进行排序，得到变量排序结果；

依据所述变量排序结果，选择所述第一数量的变量。

在一种可能的实现方式中，由多个所述变量中选择第一数量的变量，并基于所述第一数量的变量建立模型时，采用递归算法进行所述变量的选择。

根据本公开的另一方面，提供了一种数据建模中的缺失值处理装置，其特征在于，包括变量构造模块、变量分段模块和建模变量选择模块；

所述变量构造模块，被配置为获取样本数据集，将所述样本数据集中的缺失值替换为预设值，并基于所述样本数据集中的各数据构造多个变量；其中，每个所述变量中均包含有多个所述数据；

所述变量分段模块，被配置为将各所述变量中的所述数据进行分段得到多个数据段；其中，所述缺失值划分到同一所述数据段中；

所述建模变量选择模块，被配置为计算各所述变量的信息值，由多个所述变量中选择第一数量的变量，并基于所选择的所述第一数量的变量建立模型。

根据本公开的另一方面，提供了一种数据建模中的缺失值处理设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现前面任一所述的方法。

通过获取样本数据集，将样本数据集中的缺失值替换为预设值，并基于样本数据集中的各数据构造多个变量；其中，每个变量中均包含有多个数据，将各变量中的数据进行分段得到多个数据段，其中，缺失值划分到同一数据段中，计算各变量的信息值，由多个变量中选择第一数量的变量，并基于所选择的第一数量的变量建立模型。由于没有对缺失值进行实质上的改变，因此保留了数据的真实性和准确性，同时，在建模过程中对缺失值进行了特殊处理，并不影响建模计算的顺利进行，并且将缺失值看作一种正常的属性值，与其他属性值一同参与到建模计算过程中，将会更清晰表现变量的缺失值对建模目标的趋势关系，有助于提升模型的分类能力并在后期模型评估过程中更好的解释模型。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出本公开的数据建模中的缺失值处理方法的流程图；

图2示出本公开的数据建模中的缺失值处理方法的缺失值示意图；

图3示出本公开的数据建模中的缺失值处理方法的数据分段示意图；

图4示出本公开的数据建模中的缺失值处理方法的信息值示意图；

图5示出本公开的数据建模中的缺失值处理方法的趋势关系示意图；

图6示出本公开的数据建模中的缺失值处理装置的框图；

图7示出本公开的数据建模中的缺失值处理设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的数据建模中的缺失值处理方法的流程图。如图1所示，该数据建模中的缺失值处理方法包括：

步骤S100，获取样本数据集，将样本数据集中的缺失值替换为预设值，并基于样本数据集中的各数据构造多个变量；其中，每个变量中均包含有多个数据，步骤S200，将各变量中的数据进行分段得到多个数据段，其中，缺失值划分到同一数据段中，步骤S300，计算各变量的信息值，由多个变量中选择第一数量的变量，并基于所选择的第一数量的变量建立模型。

具体的，参见图1，首先执行步骤S100，获取样本数据集，将样本数据集中的缺失值替换为预设值，并基于样本数据集中的各数据构造多个变量；其中，每个变量中均包含有多个数据。

在一种可能的实现方式中，首先获取样本数据集，若在变量的数据中存在缺失值，则将缺失值填入设定的值，举例来说，参见图2，在“buyamount”变量中存在缺失值，即表格中的空白处，则将“NONE”填入该位置，并基于样本数据集中的各数据构造多个变量，其中，构造变量包括：获取所述数据组中的数据和各所述变量的变量名，从所述数据组中选择部分所述数据和对应的所述变量名进行关联。举例来说，在硬盘中存储有购买产品的数据，参见图2，变量包括“deadline”、“buyamount”、“buytime_new”、“weekd”，这些字符即为变量的变量名，其中每组下面都有对应的数据，将每组的下的数据与对应的变量名进行关联，即，每个数据的值都可以赋值给当前变量，也就完成了变量构造。

需要说明的是，本公开的实施例不对缺失值的填充值进行限定，达到所需功能即可。

进一步的，参见图1，接着执行步骤S200，将各变量中的数据进行分段得到多个数据段，其中，缺失值划分到同一数据段中。

在一种可能的实现方式中，将各变量中所包含的数据依据预设条件进行分段，得到多个初始数据段，依据同一变量中任意两个初始数据段之间的相似度，对各初始数据段进行合并或保留，得到数据段。举例来说，参见图3，以其中QR_BUYAMOUT_04Q变量为例，将缺失值单独分为一个数据段，并将此数据段使用字符“MISSING”表示，其中其他分段分别为0(zero)的数据段、从0到50000的数据段，从50000至150000的数据段，还有大于150000的数据段，共五个分段，其中每段的间隔并不相同，若将此变量表示第四季度的销售情况，以全部商品的销售量作为数据组，则先将销售量以50000为预设间隔进行分段得到初始数据段，销售量为零的商品分入zero数据段，销售量为0到50000的商品分入0到50000的初始数据段，销售量为50000到100000的商品分入50000到100000的初始数据段，销售量为100000到150000的商品分入100000到150000的初始数据段，销售量大于150000的商品分入大于150000的初始数据段，接着，若以商品的价格为相似度的依据，销售量为零的商品的价格为20000元以上，销售量为0到50000的商品价格在1500元至1600元，销售量为50000到100000的商品价格为100元至120元，销售量为100000到150000的商品价格在80元至95元，销售量大于150000的商品的价格为500元到700元，其中，依据同一变量中任意两个初始数据段之间的相似度，对各初始数据段进行合并或保留包括：获取同一变量下各所述初始数据段在另一变量中所对应的权值，其中，权值为各初始数据段中各数据在另一变量所对应的数据的均值、众数中的任意一种，若两个初始数据段的权值的差值小于或等于设定值，则合并两个初始数据段，若两个初始数据段的权值的差值大于设定值，则保留两个初始数据段。

其中，获取同一变量下各初始数据段在另一变量中所对应的权值包括：获取各初始数据段中各数据在另一变量中所对应的数据，基于初始数据段中各数据在另一变量中所对应的数据进行计算，得到初始数据段在另一变量中所对应的权值。此处，需要说明的是，权值指的是在各变量中的数据进行分段过程中，对所得到的各初始数据段进行合并或保留时的参考值。

其中，在一种可能的实现方式中，权值可以采用均值、众数和方差等各种统计数来表征。

举例来说，在QR_BUYAMOUT_04Q变量下得到以下几个初始数据段：“MISSING”数据段、0(zero)的数据段、从0到50000的数据段，从50000到100000的数据段，从50000至150000的数据段，还有大于150000的数据段。

然后，对于0(zero)的数据段、从0到50000的数据段，从50000至150000的数据段，还有大于150000的数据段这四个初始数据段进行再次分段。其中，再次分段时，分别计算出各初始数据段在金额这一变量下的权值。

如：权值采用均值来表征时，可以先确定上述初始数据段中各数据在金额这一变量下所对应的数据。即，0(zero)这一初始数据段包括一个数据0。然后确定0在金额变量中所对应的数据为：20000。由此，通过均值计算方式得到0(zero)这一初始数据段在金额变量下的权值为20000。对于0到50000这一初始数据段，包括数据100、数据1300、数据20000和数据40000这四个数据，这四个数据在金额变量中所对应的数据分别为：1500、1520、1580和1600，通过均值计算方式得到0到50000这一初始数据段在金额变量下的权值为1550，通过上述的方式分别计算出从50000到100000的数据段、从50000至150000的数据段、还有大于150000的数据段的权值，分别为110、90、600，依据各权值之间的差值来看，从50000到100000的数据段和从50000至150000的数据段的权值差值仅为20，且两个数据段相邻，则合并这两个初始数据段，最终得到四个数据段。

进一步的，参见图1，接着执行步骤S300，计算各变量的信息值，由多个变量中选择第一数量的变量，并基于所选择的第一数量的变量建立模型。

在一种可能的实现方式中，计算出各变量的信息值，信息值(IV值)主要用来对输入变量进行编码和预测能力评估。信息值的大小即表示该变量预测能力的强弱。信息值计算步骤如下：

分组后，对于第i段，WOE(WOE全称为“weight of evidence”，即证据权重。直观上讲，WOE是对原始变量的一种编码形式，要对一个变量进行WOE编码，首先需要把这个变量进行分组处理，即分箱或离散化，常用离散

化的方法有等宽分组，等高分组，或者利用决策树分组)的计算公式如下：

其中，WOE表示“当前分段中响应客户占所有响应客户的比例”(即，P_yi)和“当前分段中没有响应的客户占所有没有响应客户的比例”(即，P_ni)的差异。其中，y_i为当前分段中响应客户，y_s为所有响应客户，n_i为当前分段中没有响应的客户，n_s为所有没有响应客户。

对于分段i，其对应的信息值使用以下公式进行计算，其中，n是分段个数。

计算了一个变量的各个分组的信息值之后，我们就可以计算整个变量的信息值：

即，同一变量中每一段的信息值相加得到这个变量的信息值。

参见图4，在所有变量计算完信息值后，每个变量(Characteristic)分别对应一个信息值(Information Value)。

在一种可能的实现方式中，参见图4，根据所述信息值将多个所述变量从大到小进行排序，通过递归算法选择部分所述变量建立模型。举例来说，

获取所有变量的信息值，如果变量为100个，先将这100个变量由大到小进行排序，可以选取其中前30个变量，通过递归算法选择部分所述变量建立模型，即根据这30个变量的相关性，从中选取一部分变量，举例来说，最后通过递归算法再从30个变量中筛选处10个变量，并将这10个变量入模，建立模型。

建立模型之后即可对所建立的模型进行验证和应用所建立的模型进行数据统计分析。即，参见图5，依据上述任一方式建立的模型输出趋势关系，供研究人员查看，可以在模型结果解释与验证环节，以及研究各变量和分析目标的趋势关系时，根据之前的变量分段结果，直接对验证集的变量(即所有变量)进行相应的评分，得出结果并研究各分段与目标变量之间的趋势关系。在整个过程中将缺失值看作一个单独的分段并用“MISSING”代替，有助于分析师及业务人员更清晰的理解模型和应用模型。

需要说明的是，尽管以上述各个步骤作为示例介绍了本公开的数据建模中的缺失值处理方法如上，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定数据建模中的缺失值处理方法，只要达到所需功能即可。

这样，通过获取样本数据集，将样本数据集中的缺失值替换为预设值，并基于样本数据集中的各数据构造多个变量；其中，每个变量中均包含有多个数据，将各变量中的数据进行分段得到多个数据段，其中，缺失值划分到同一数据段中，计算各变量的信息值，由多个变量中选择第一数量的变量，并基于所选择的第一数量的变量建立模型。由于没有对缺失值进行实质上的改变，因此保留了数据的真实性和准确性，同时，在建模过程中对缺失值进行了特殊处理，并不影响建模计算的顺利进行，并且将缺失值看作一种正常的属性值，与其他属性值一同参与到建模计算过程中，将会更清晰表现变量的缺失值对建模目标的趋势关系，有助于提升模型的分类能力并在后期模型评估过程中更好的解释模型。

进一步的，根据本公开的另一方面，还提供了一种数据建模中的缺失值处理装置100。由于本公开实施例的数据建模中的缺失值处理装置100的工作原理与本公开实施例的数据建模中的缺失值处理方法的原理相同或相似，因此重复之处不再赘述。参见图6，本公开实施例的数据建模中的缺失值处理装置100包括变量构造模块110、变量分段模块120和建模变量选择模块130；

变量构造模块110，被配置为获取样本数据集，将样本数据集中的缺失值替换为预设值，并基于样本数据集中的各数据构造多个变量；其中，每个变量中均包含有多个数据；

变量分段模块120，被配置为将各变量中的数据进行分段得到多个数据段；其中，缺失值划分到同一数据段中；

建模变量选择模块130，被配置为计算各变量的信息值，由多个变量中选择第一数量的变量，并基于所选择的第一数量的变量建立模型。

更进一步地，根据本公开的另一方面，还提供了一种数据建模中的缺失值处理设备200。参阅图7，本公开实施例数据建模中的缺失值处理设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中，处理器210被配置为执行可执行指令时实现前面任一所述的数据建模中的缺失值处理方法。

此处，应当指出的是，处理器210的个数可以为一个或多个。同时，在本公开实施例的数据建模中的缺失值处理设备200中，还可以包括输入装置230和输出装置240。其中，处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器220作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本公开实施例的数据建模中的缺失值处理方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块，从而执行数据建模中的缺失值处理设备200的各种功能应用及数据处理。

输入装置230可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。

根据本公开的另一方面，还提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令被处理器210执行时实现前面任一所述的数据建模中的缺失值处理方法。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据建模中的缺失值处理方法，其特征在于，用于建立模型后进行销售数据统计分析，包括：

获取样本数据集，将所述样本数据集中的缺失值替换为预设值，并基于所述样本数据集中的各数据构造多个变量；其中，每个所述变量中均包含有多个所述数据；所述样本数据集包括在硬盘中存储有购买产品的数据，变量包括“deadline”、“buyamount”、“buytime_new”、“weekd”，这些字符即为变量的变量名，其中每组下面都有对应的数据，将每组的下的数据与对应的变量名进行关联，即，每个数据的值都可以赋值给当前变量，也就完成了变量构造；

计算各所述变量的信息值，由多个所述变量中选择第一数量的变量，并基于所选择的所述第一数量的变量建立模型；其中，建立的所述模型用于销售数据统计分析；

其中，基于所述样本数据集中的各数据构造多个变量，包括：

其中，所述数据的属性与所述变量名相对应；

将各所述变量中的所述数据进行分段得到多个数据段，包括：

将各所述变量中所包含的数据依据预设条件进行分段，得到多个初始数据段；其中，所述初始数据段包括销售量；

2.根据权利要求1所述的方法，其特征在于，依据同一变量中任意两个所述初始数据段之间的相似度，对各所述初始数据段进行合并或保留，包括：

3.根据权利要求2所述的方法，其特征在于，获取同一变量下各所述初始数据段在另一变量中所对应的权值包括：

4.根据权利要求1所述的方法，其特征在于，由多个所述变量中选择第一数量的变量包括：

依据所述变量排序结果，选择所述第一数量的变量。

5.根据权利要求1所述的方法，其特征在于，由多个所述变量中选择第一数量的变量，并基于所述第一数量的变量建立模型时，采用递归算法进行所述变量的选择。

6.一种数据建模中的缺失值处理装置，其特征在于，用于建立模型后进行销售数据统计分析，包括变量构造模块、变量分段模块和建模变量选择模块；

所述变量构造模块，被配置为获取样本数据集，将所述样本数据集中的缺失值替换为预设值，并基于所述样本数据集中的各数据构造多个变量；其中，每个所述变量中均包含有多个所述数据；所述样本数据集包括在硬盘中存储有购买产品的数据，变量包括“deadline”、“buyamount”、“buytime_new”、“weekd”，这些字符即为变量的变量名，其中每组下面都有对应的数据，将每组的下的数据与对应的变量名进行关联，即，每个数据的值都可以赋值给当前变量，也就完成了变量构造；

所述建模变量选择模块，被配置为计算各所述变量的信息值，由多个所述变量中选择第一数量的变量，并基于所选择的所述第一数量的变量建立模型；其中，建立的所述模型用于销售数据统计分析；

其中，所述数据的属性与所述变量名相对应；

7.一种数据建模中的缺失值处理设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1至5中任意一项所述的方法。

8.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至5中任意一项所述的方法。