WO2020034593A1

WO2020034593A1 - 人群绩效特征预测中的缺失特征处理方法及装置

Info

Publication number: WO2020034593A1
Application number: PCT/CN2019/073294
Authority: WO
Inventors: 金戈; 徐亮; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-08-13
Filing date: 2019-01-27
Publication date: 2020-02-20
Also published as: CN109325655A

Abstract

本申请公开了一种人群绩效预测中的缺失特征处理方法及装置，涉及信息技术领域，主要目的在于能够避免缺失特征的填补存在偏差，避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差，从而能够训练得预测模型的预测精度。所述方法包括：获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征；将所述缺失特征填补到所述人群绩效预测训练集中。本申请适用于人群绩效预测中的缺失特征的处理。

Description

人群绩效特征预测中的缺失特征处理方法及装置

技术领域

本申请要求与2018年8月13日提交中国专利局、申请号为2018109185213、申请名称为“人群绩效特征预测中的缺失特征处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

背景技术

近年来，很多行业开始重视人群绩效，尤其是开始重视识别人群绩效等级，通过识别出目标人群并对目标人群进行奖励，能够大大促进企业整体效益的提升。目前通常可以通过训练人群绩效预测模型预测人群绩效等级，在训练预测模型时，训练集的数据量越大训练得到的预测模型预测精度越高。然而，在实际应用中，能够用来训练人群绩效等级预测模型的完整训练集较少，大部分情况下训练集会存在缺失特征。因此，为了提升预测模型的预测精度，通常需要填补或者补全缺失特征。

目前，通常采用传统填补方法，如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征。然而，上述填补方式的填补效果受限于特征分布状态，且缺失特征通常为非随机缺失特征、非随机缺失特征的缺失与否与特征本身存在关联。例如，在收入调查中，受访人群中高收入人群或者低收入人群都不会填写具体收入，因此收入水平的缺失与收入水平自身存在关联。若通过上述方式填补缺失特征，会造成缺失特征的填补存在偏差，从而造成，进而造成训练得预测模型的预测精度较低。

发明内容

本申请提供了一种人群绩效特征预测中的缺失特征处理方法及装置，主要在于能够避免缺失特征的填补存在偏差，避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差，从而能够训练得预测模型的预测精度。

根据本申请的第一个方面，提供一种人群绩效预测中的缺失特征处理方法，包括：

获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；

根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值；

将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。

根据本申请的第二个方面，提供一种人群绩效预测中的缺失特征处理装置，包括

获取单元，用于获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；

估计单元，用于根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值；

填补单元，用于将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。

根据本申请的第三个方面，提供一种计算机非易失性可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现以下步骤：

根据本申请的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现以下步骤：

本申请提供的一种人群绩效特征预测中的缺失特征处理方法及装置，与目前通常采用传统填补方法，如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征相比，本申请能够获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；能够根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值。与此同时，能够将估计后的缺失特征对应的数值填补到所述人群绩效预测训练集中，从而能够实现基于缺失特征对应的预设混合高斯模型填补缺失数据，由于所述预设混合高斯模型是由所述缺失特征对应的多元高斯分布组成，因此能够保证填补后的缺失特征反映其分布状态且与本身相关，能够避免缺失特征的填补存在偏差，能够避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差，进而能够提升训练得预测模型的预测精度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种人群绩效预测中的缺失特征处理方法流程图；

图2示出了本申请实施例提供的另一种人群绩效预测中的缺失特征处理方法流程图；

图3示出了本申请实施例提供的一种人群绩效预测中的缺失特征处理装置的结构示意图；

图4示出了本申请实施例提供的另一种人群绩效预测中的缺失特征处理装置的结构示意图；

图5示出了本申请实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如背景技术，目前，通常采用传统填补方法，如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征。然而，上述填补方式的填补效果受限于特征分布状态，且缺失特征通常为非随机缺失特征、非随机缺失特征的缺失与否与特征本身存在关联。例如，在收入调查中，受访人群中高收入人群或者低收入人群都不会填写具体收入，因此收入水平的缺失与收入水平自身存在关联。若通过上述方式填补缺失特征，会造成缺失特征的填补存在偏差，从而造成，进而造成训练得预测模型的预测精度较低。

为了解决上述问题，本申请实施例提供了一种人群绩效预测中的缺失特征处理方法，如图1所示，所述方法包括：

101、获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型。

其中，所述预设混合高斯模型可以由所述缺失特征对应的多元高斯分布组成。所述训练集可以包括人群绩效特征和人群绩效等级，本申请实施例中的缺失特征可以为人群绩效特征中的特征。所述人群绩效特征可以包括但不限于：月均学习课程数、工作地址经纬度、单月内互联网交易产品数、半年内互联网交易等级。例如，有100条训练样本，其中有40条训练样本中没有半年内互联网交易等级，则可以确认40条训练样本中的“半年内互联网交易等级”为缺失特征。已有特征可以为其中60条训练样本中的“月均学习课程数、

工作地址经纬度、单月内互联网交易产品数、半年内互联网交易等级”和其中“40条训练样本中的“月均学习课程数、工作地址经纬度、单月内互联网交易产品数”。

需要说明的是，所述预设混合高斯模型的概率分布可以如下方式表示：

若本申请实施例中的缺失特征为“半年内互联网交易等级”，则所述多元高斯分布可以为多个半年内互联网交易等级的类别，根据上述公式，半年内互联网交易等级的类别具体可以为m个。

102、根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值。

其中，所述最大期望算法可以为一种迭代算法，可以包括极大似然估计计算和期望计算，所述极大似然估计计算和所述期望计算可以为迭代进行的。本申请实施例可以通过已有特征和极大似然估计计算迭代计算所述预设混合高斯模型的各元高斯分布的分布参数，然后通过期望计算和迭代计算出的分布参数，计算所述缺失特征属于各元高斯分布的概率，从而可以估计所述缺失特征所属的高斯分布，确定所述缺失特征对应的数值。

例如，若100条训练样本中有60条训练样本的特征完整，40条训练样本存在特征缺失，则可以根据60条训练样本中的已有特征和预设混合高斯模型估计出40条训练样本中的缺失特征，估计出缺失特征对应的数值后，通过将缺失特征对应的数值填补到所述人群绩效预测训练集，即可以得到特征完整的100条训练样本。

103、将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。

需要说明的是，可以根据已有特征的位置将所述缺失特征对应的数值填补到所述人群绩效预测训练集的相应位置上。例如，训练样本3为(月均学习课程数80，工作地址经纬度(123.435，41.819)，单月内互联网交易产品100，)，训练样本3中缺失特征为“半年内互联网交易等级”，在估计出训练样本3中的“半年内互联网交易等级”对应的数值为半年内互联网交易等级2时，可以根据“月均学习课程数80，工作地址经纬度(123.435，41.819)，单月内互联网交易产品100”，将所述“半年内互联网交易等级2”填补到训练样本3中，得到(月均学习课程数80，工作地址经纬度(123.435，41.819)，单月内互联网交易产品100，半年内互联网交易等级2)。

本申请实施例提供的一种人群绩效特征预测中的缺失特征处理方法，与目前通常采用传统填补方法，如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征相比，本申请实施例能够获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；能够根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征。与此同时，能够将估计后的缺失特征填补到所述人群绩效预测训练集中，从而能够实现基于缺失特征对应的预设混合高斯模型填补缺失数据，由于所述预设混合高斯模型是由所述缺失特征对应的多元高斯分布组成，因此能够保证填补后的缺失特征反映其分布状态且与本身相关，能够避免缺失特征的填补存在偏差，能够避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差，进而能够提升训练得预测模型的预测精度。

进一步的，为了更好的说明上述人群绩效预测中的缺失特征的过程，作为对上述实施例的细化和扩展，本申请实施例提供了另一种人群绩效预测中的缺失特征处理方法，如图2所示，所述方法包括：

201、获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型。

其中，所述预设混合高斯模型可以由所述缺失特征对应的多元高斯分布组成。在本申请实施例中，所述已有特征可以以特征向量的形式存在，若“月均学习课程数、工作地址经纬度、单月内互联网交易产品数”三个维度的特征，唯一标定一个半年内互联网交易等级类别，则可以将“月均学习课程数、工作地址经纬度、单月内互联网交易产品数”以特征向量的形式表示。

对于本申请实施例，为了得到所述预设混合高斯模型，所述方法还可以包括：确定所述缺失特征对应的多元高斯分布；根据所述多元高斯分布构建所述预设混合高斯模型。

例如，所述缺失特征为“半年内互联网交易等级”，确定“半年内互联网交易等级”对应的多个类别，每个类别可以对应一元高斯分布，可以将“月均学习课程数、工作地址经纬度、单月内互联网交易产品数”作为观测样本向量，即可以以所述观测样本向量观测缺失特征的多元高斯分布，将半年内互联网交易等级划分为多个类别，然后根据观测样本向量所属类别的权重、对应的均值向量、协方差矩阵，构建所述半年内互联网交易等级对应的预设混合高斯模型。

202、根据所述已有特征和所述预设混合高斯模型的最大期望算法的极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始分布参数。

其中，所述分布参数可以包括混合系数、均值和协方差。若所述已有特征以特征向量形式存在，所述分布参数可以包括混合系数、均值向量和协方差矩阵，所述混合系数可以为属于对应高斯分布的样本数与总样本数的比值。所述训练集可以包括特征完整的第一训练集和含缺失特征的第二训练集，所述已有特征包括所述第一训练集中第一已有特征、第二已有特征和所述第二训练集中的第三已有特征，所述第一已有特征与所述第三已有特征相对应，所述第二已有特征与所述缺失特征相对应，所述步骤202具体可以包括：根据所述第一已有特征、所述第二已有特征和所述极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始混合系数、初始均值及初始协方差。

需要说明的是，极大似然估计计算可以包括：

计算第i元高斯分布的混合系数：

计算第i元高斯分布的均值：

计算第i元高斯分布的协方差：

γ _ij可以表示为样本x _j属于第i元高斯分布的概率。

例如，训练集为D＝{(x ₁,y ₁),(x ₂,y ₂),…,(x _l,y _l),x _l+1,x _l+2…,x _n}，特征完整的第一训练集可以为D ₁＝{(x ₁,y ₁),(x ₂,y ₂),…,(x _l,y _l)}，含缺失特征的第二训练集可以为D ₂＝{x _l+1,x _l+2…,x _n}，所述第一训练集中第一已有特征可以为x _j，j＝1,…,l，第二已有特征可以为y _i，i＝1,…,l，所述第二训练集中的第三已有特征可以为x _j，j＝l+1,…,n，所述第二训练集中的缺失特征可以为y _i，i＝l+1,…,n；具体x _j可以对应(月均学习课程数、工作地址经纬度、单月内互联网交易产品数)，y _i可以对应x _j属于第i类的“半年内互联网交易等级”的概率γ _ij，x _j所属的类的概率值为1，其余类为0。因此，可以将第一已有特征“x _j”和第二已有特征“γ _ij”分别代入极大似然估计计算，计算各元高斯分布的初始混合系数、初始均值及初始协方差。

203、根据所述初始分布参数及所述最大期望算法的期望计算，初步估计所述缺失特征所属的高斯分布。

对于本申请实施例，与所述步骤202相对应的，所述步骤203具体可以包括：所述初始混合系数、初始均值、初始协方差、所述第三已有特征及所述期望计算，初步估计所述缺失特征所属的高斯分布。具体地，可以根据初始混合系数、初始均值、初始协方差、所述第三已有特征及所述期望计算，初步估计所述缺失特征属于各元高斯分布的概率；根据所述属于各元高斯分布的概率，初步估计所述缺失特征所属的高斯分布。

需要说明的是，期望计算可以包括：

其中，m可以为高斯分布的总元数。

例如，接着步骤202所述的例子，在计算出初始参数π _i、μ _i、∑ _i后，可以将x _j，j＝l+1,…,n、π _i、μ _i、∑ _i，分别代入到上述公式，分别计算“半年内互联网交易等级”属于各元高斯分布的概率，即属于各个“半年内互联网交易等级”类别的概率γ _ij；可以将对应概率最高的高斯分布确定为“半年内互联网交易等级”的高斯分布。

204、根据所述已有特征、所述所属的高斯分布和所述极大似然估计计算，迭代更新所述各元高斯分布的分布参数，并迭代估计所述缺失特征所属的高斯分布。

需要说明的是，根据步骤204能够实现根据所有特征迭代更新所述各元高斯分布的分布参数，即极大似然估计计算中的上限值由l变为n：

计算第i元高斯分布的混合系数：

计算第i元高斯分布的均值：

计算第i元高斯分布的协方差：

205、当迭代更新的分布参数收敛时，获取根据收敛的分布参数和所述期望计算估计的高斯分布，并根据所述估计的高斯分布估计所述缺失特征对应的数值。

对于本申请实施例，为了确定更新的分布参数是否收敛，所述方法还可以包括：计算前后两次迭代更新的分布参数的参数差值；若所述参数差值小于预设阈值，则确定更新的分布参数收敛。

具体地，若分布参数为混合系数、均值、协方差，可以计算前后两次迭代更新的混合系数的差值；若所述混合系数差值小于预设混合系数阈值，则可以确定混合系数收敛。或者计算前后两次迭代更新的均值的差值；若所述均值差值小于预设均值阈值，则可以确定均值收敛。或者计算前后两次迭代更新的协方差的差值；若所述协方差差值小于预设协方差阈值，则可以确定协方差收敛。即在上述任何一个参数收敛时，可以停止迭代极大似然估计计算和期望计算，此时，根据最后一次迭代估计缺失特征所属的高斯分布，估计所述缺失特征。所述预设混合系数阈值、所述预设均值阈值和所述预设协方差阈值均可以为根据用户需求设置的，也可以为根据***默认模式设置的，本申请实施例在此不进行限定。

206、将所述缺失特征对应的数值填补到所述人群绩效预测训练集中，并根据填补缺失特征对应的数值后的人群绩效预测训练集训练人群绩效预测模型。

需要说明的是，可以根据已有特征的位置，确定缺失特征对应的数值填补到所述人群绩效预测训练集中的位置，若填补缺失特征对应的数值之前的训练集为D＝{(x ₁,y ₁),(x ₂,y ₂),…,(x _l,y _l),x _l+1,x _l+2…,x _n)，则可以分别根据x _l+1,x _l+2…,x _n的位置填补y _l+1,y _l+2…,y _n，最后得到y _l+1,y _l+2…,y _n缺失特征后的训练集可以为D＝{(x ₁,y ₁),(x ₂,y ₂),…,(x _l,y _l),(x _l+1,y _l+1),(x _l+2,y _l+1)…,(x _n,y _n)}。此外，在本申请实施例中，所述人群绩效预测模型可以为确定人群绩效等级的决策树模型或者逻辑回归模型等。具体地，若人群绩效预测模型为决策树模型，可以利用决策树算法对填补缺失特征后的人群绩效预测训练集进行训练，得到决策树模型。若人群绩效预测模型为逻辑回归模型模型，可以利用逻辑回归模型算法对填补缺失特征后的人群绩效预测训练集进行训练，得到逻辑回归模型模型。

为了更好的理解本申请实施例，提供如下应用场景，包括但不限定于此：假设人群绩效特征预测训练集有训练样本1：(月均学习课程数100，半年内互联网交易等级1)，训练样本2(月均学习课程数50，半年内互联网交易等级2)，训练样本3(月均学习课程数60，半年内互联网交易等级2)，训练样本4(月均学习课程数80，)，训练样本5(月均学习课程数70，)，则缺失特征为训练样本4和训练样本5中的“半年内互联网交易等级”，半年内互联网交易等级有2个类别，分别为：半年内互联网交易等级1、半年内互联网交易等级2。

首先，可以将训练样本1、训练样本2、训练样本3中的“月均学习课程数”和“半年内互联网交易等级”分别代入到极大似然估计计算中得到初步估计的π _i、μ _i、∑ _i、然后将训练样本4和训练样本5的“月均学习课程数”分别代入到期望计算中，计算训练样本4中的“半年内互联网交易等级”分别属于半年内互联网交易等级1的概率，属于半年内互联网交易等级2的概率，若属于半年内互联网交易等级1的概率大于属于半年内互联网交易等级2的概率，则可以确定训练样本4中的“半年内互联网交易等级”所属的类别为：半年内互联网交易等级1。同理地，可以计算训练样本5中的“半年内互联网交易等级”所属的类别为：半年内互联网交易等级1。

然后，可以将训练样本1、训练样本2、训练样本3、训练样本4和训练样本5的“月均学习课程数”和“半年内互联网交易等级”分别代入到极大似然估计计算中，迭代更新π _i、μ _i、∑ _i，并根据更新的π _i、μ _i、∑ _i和期望计算分别更新训练样本4和训练样本5 中“半年内互联网交易等级”所属的类别，直到π _i、μ _i、∑ _i收敛时，将估计的“半年内互联网交易等级”所属的类别确定为最后估计结果，如最终确定：训练样本4中的“半年内互联网交易等级”所属的类别为：半年内互联网交易等级1；训练样本5中的“半年内互联网交易等级”所属的类别为：半年内互联网交易等级2。

因此，补入缺失特征对应的数值后，得到的训练集可以为：训练样本1：(月均学习课程数100，半年内互联网交易等级1)，训练样本2(月均学习课程数50，半年内互联网交易等级2)，训练样本3(月均学习课程数60，半年内互联网交易等级2)，训练样本4(月均学习课程数80，半年内互联网交易等级1)，训练样本5(月均学习课程数70，半年内互联网交易等级2)。

本申请实施例提供的另一种人群绩效特征预测中的缺失特征处理方法，与目前通常采用传统填补方法，如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征相比，本申请实施例能够获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；能够根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征。与此同时，能够将估计后的缺失特征填补到所述人群绩效预测训练集中，从而能够实现基于缺失特征对应的预设混合高斯模型填补缺失数据，由于所述预设混合高斯模型是由所述缺失特征对应的多元高斯分布组成，因此能够保证填补后的缺失特征反映其分布状态且与本身相关，能够避免缺失特征的填补存在偏差，能够避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差，进而能够提升训练得预测模型的预测精度。

进一步地，作为图1的具体实现，本申请实施例提供了一种人群绩效预测中的缺失特征处理装置，如图3所示，所述装置包括：获取单元31、估计单元32和填补单元33。

所述获取单元31，可以用于获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成。所述获取单元31是本装置中获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型的主要功能模块。

所述估计单元32，可以用于根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值。所述估计单元32是本装置中根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征的主要功能模块，也是核心模块。

所述填补单元33，可以用于将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。所述填补单元33是本装置中将所述缺失特征对应的数值填补到所述人群绩效预测训练集中的主要功能模块。

对于本申请实施例，所述最大期望算法可以包括极大似然估计计算和期望计算，所述估计单元32可以包括：估计模块321、更新模块322和获取模块323，如图4所示。

所述估计模块321，可以用于根据所述已有特征和所述极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始分布参数。

所述估计模块321，还可以用于根据所述初始分布参数及所述期望计算，初步估计所述缺失特征所属的高斯分布。

所述更新模块322，可以用于根据所述已有特征、所述所属的高斯分布和所述极大似然估计计算，迭代更新所述各元高斯分布的分布参数，并迭代更新所述缺失特征所属的高斯分布。

所述获取模块323，可以用于当迭代更新的分布参数收敛时，获取根据收敛的分布参数和所述期望计算估计的高斯分布。

所述估计模块321，还可以用于根据最后估计的高斯分布估计所述缺失特征对应的数值。

在具体应用场景中，所述估计模块321，具体可以用于根据所述初始分布参数及所述期望计算，初步估计所述缺失特征属于各元高斯分布的概率；并根据所述属于各元高斯分布的概率，初步估计所述缺失特征所属的高斯分布。

需要说明的是，所述训练集包括特征完整的第一训练集和含缺失特征的第二训练集，所述已有特征包括所述第一训练集中第一已有特征、第二已有特征和所述第二训练集中的第三已有特征，所述第一已有特征与所述第三已有特征相对应，所述第二已有特征与所述缺失特征相对应；所述估计模块321，具体可以用于根据所述第一已有特征、所述第二已有特征和所述极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始混合系数、初始均值及初始协方差。

所述估计模块321，具体还可以用于所述初始混合系数、初始均值、初始协方差、所述第三已有特征及所述期望计算，初步估计所述缺失特征所属的高斯分布。

对于本申请实施例，为了确定更新的分布参数是否收敛，所述估计单元32还可以包括：计算模块324和确定模块325。

所述计算模块324，可以用于计算前后两次迭代更新的分布参数的参数差值。

所述确定模块325，可以用于若所述参数差值小于预设阈值，则确定更新的分布参数收敛。

对于本申请实施例，为了获取缺失特征对应的预设混合高斯模型，所述装置还可以包括：确定单元34和构建单元35。

所述确定单元34，可以用于确定所述缺失特征对应的多元高斯分布。所述确定单元是本装置中确定所述缺失特征对应的多元高斯分布的主要功能模块。

所述构建单元35，可以用于根据所述多元高斯分布构建所述预设混合高斯模型。所述构建单元35是本装置中根据所述多元高斯分布构建所述预设混合高斯模型是的主要功能模块。

此外，为了得到人群绩效预测模型，所述装置还可以包括：训练单元36。

所述训练单元36，可以用于根据填补缺失特征后的人群绩效预测训练集训练人群绩效预测模型。所述训练单元36是本装置中根据填补缺失特征后的人群绩效预测训练集训练人群绩效预测模型的主要功能模块。

需要说明的是，本申请实施例提供的一种人群绩效预测中的缺失特征处理装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本申请实施例还提供了一种计算机非易失性可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现以下步骤：获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值；将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。

基于上述如图1所示方法和如图3所示装置的实施例，本申请实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机可读指令，其中存储器42和处理器41均设置在总线43上所述处理器41执行所述计算机可读指令时实现以下步骤：获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值；将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。

通过本申请的技术方案，能够获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；能够根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值。与此同时，能够将估计后的缺失特征对应的数值填补到所述人群绩效预测训练集中，从而能够实现基于缺失特征对应的预设混合高斯模型填补缺失数据，由于所述预设混合高斯模型是由所述缺失特征对应的多元高斯分布组成，因此能够保证填补后的缺失特征反映其分布状态且与本身相关，能够避免缺失特征的填补存在偏差，能够避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差，进而能够提升训练得预测模型的预测精度。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的计算机可读指令代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种人群绩效预测中的缺失特征处理方法，其特征在于，包括：

获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；

根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值；

将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
根据权利要求1所述的方法，其特征在于，所述最大期望算法包括极大似然估计计算和期望计算，根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值，包括：

根据所述已有特征和所述极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始分布参数；

根据所述初始分布参数及所述期望计算，初步估计所述缺失特征所属的高斯分布；

根据所述已有特征、所述所属的高斯分布和所述极大似然估计计算，迭代更新所述各元高斯分布的分布参数，并迭代更新所述缺失特征所属的高斯分布；

当迭代更新的分布参数收敛时，获取根据收敛的分布参数和所述期望计算估计的高斯分布，并根据最后估计的高斯分布估计所述缺失特征对应的数值。
根据权利要求2所述的方法，其特征在于，所述根据所述初始分布参数及所述期望计算，初步估计所述缺失特征所属的高斯分布，包括：

根据所述初始分布参数及所述期望计算，初步估计所述缺失特征属于各元高斯分布的概率；

根据所述属于各元高斯分布的概率，初步估计所述缺失特征所属的高斯分布。
根据权利要求2所述的方法，其特征在于，所述训练集包括特征完整的第一训练集和含缺失特征的第二训练集，所述已有特征包括所述第一训练集中第一已有特征、第二已有特征和所述第二训练集中的第三已有特征，所述第一已有特征与所述第三已有特征相对应，所述第二已有特征与所述缺失特征相对应；所述根据所述已有特征和所述极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始分布参数，包括：

根据所述第一已有特征、所述第二已有特征和所述极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始混合系数、初始均值及初始协方差；

所述根据所述初始分布参数及所述期望计算，初步估计所述缺失特征所属的高斯分布，包括：

根据所述初始混合系数、初始均值、初始协方差、所述第三已有特征及所述期望计算，初步估计所述缺失特征所属的高斯分布。
根据权利要求2所述的方法，其特征在于，所述当迭代更新的分布参数收敛时，获取根据收敛的分布参数和所述期望计算估计的高斯分布之前，所述方法还包括：

计算前后两次迭代更新的分布参数的参数差值；

若所述参数差值小于预设阈值，则确定更新的分布参数收敛。
根据权利要求1所述的方法，其特征在于，所述获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型之前，所述方法还包括：

确定所述缺失特征对应的多元高斯分布；

根据所述多元高斯分布构建所述预设混合高斯模型。
根据权利要求1所述的方法，其特征在于，所述方法将所述缺失特征填补到所述人群绩效预测训练集中之后，所述方法还包括：

根据填补缺失特征对应的数值后的人群绩效预测训练集训练人群绩效预测模型。
一种人群绩效预测中的缺失特征处理装置，其特征在于，包括：

获取单元，用于获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；

估计单元，用于根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值；

填补单元，用于将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
根据权利要求8所述的装置，其特征在于，所述最大期望算法包括极大似然估计计算和期望计算，所述估计单元包括：

估计模块，用于根据所述已有特征和所述极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始分布参数；

所述估计模块，还用于根据所述初始分布参数及所述期望计算，初步估计所述缺失特征所属的高斯分布；

更新模块，用于根据所述已有特征、所述所属的高斯分布和所述极大似然估计计算，迭代更新所述各元高斯分布的分布参数，并迭代更新所述缺失特征所属的高斯分布；

获取模块，用于当迭代更新的分布参数收敛时，获取根据收敛的分布参数和所述期望计算估计的高斯分布；

所述估计模块，还可以用于根据最后估计的高斯分布估计所述缺失特征对应的数值。
根据权利要求9所述的装置，其特征在于，所述估计模块，具体用于根据所述初始分布参数及所述期望计算，初步估计所述缺失特征属于各元高斯分布的概率；并根据所述属于各元高斯分布的概率，初步估计所述缺失特征所属的高斯分布。
根据权利要求9所述的装置，其特征在于，所述训练集包括特征完整的第一训练集和含缺失特征的第二训练集，所述已有特征包括所述第一训练集中第一已有特征、第二已有特征和所述第二训练集中的第三已有特征，所述第一已有特征与所述第三已有特征相对应，所述第二已有特征与所述缺失特征相对应；所述估计模块，具体用于根据所述第一已有特征、所述第二已有特征和所述极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始混合系数、初始均值及初始协方差。所述估计模块，具体还用于根据所述初始混合系数、初始均值、初始协方差、所述第三已有特征及所述期望计算，初步估计所述缺失特征所属的高斯分布。
根据权利要求9所述的装置，其特征在于，所述估计单元包括：

计算模块，用于计算前后两次迭代更新的分布参数的参数差值；

确定模块，用于若所述参数差值小于预设阈值，则确定更新的分布参数收敛。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

确定单元，用于确定所述缺失特征对应的多元高斯分布；

构建单元，用于根据所述多元高斯分布构建所述预设混合高斯模型。
根据权利要求13所述的装置，其特征在于，所述装置还包括：

训练单元，用于根据填补缺失特征对应的数值后的人群绩效预测训练集训练人群绩效预测模型。
一种计算机非易失性可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现人群绩效预测中的缺失特征处理方法，包括：

获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值；将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
根据权利要求15所述的计算机非易失性可读存储介质，其特征在于，所述最大期望算法包括极大似然估计计算和期望计算，所述计算机可读指令被处理器执行时实现所述根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值，包括：根据所述已有特征和所述极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始分布参数；根据所述初始分布参数及所述期望计算，初步估计所述缺失特征所属的高斯分布；根据所述已有特征、所述所属的高斯分布和所述极大似然估计计算，迭代更新所述各元高斯分布的分布参数，并迭代更新所述缺失特征所属的高斯分布；当迭代更新的分布参数收敛时，获取根据收敛的分布参数和所述期望计算估计的高斯分布，并根据最后估计的高斯分布估计所述缺失特征对应的数值。
根据权利要求15所述的计算机非易失性可读存储介质，其特征在于，所述处理器执行所述计算机可读指令时实现所述方法还包括：根据填补缺失特征对应的数值后的人群绩效预测训练集训练人群绩效预测模型。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现人群绩效预测中的缺失特征处理方法，包括：

获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型，所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成；根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值；将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
根据权利要求18所述的计算机设备，其特征在于，所述最大期望算法包括极大似然估计计算和期望计算，所述计算机可读指令被处理器执行时实现所述根据所述已有特征和所述预设混合高斯模型的最大期望算法，估计所述缺失特征对应的数值，包括：根据所述已有特征和所述极大似然估计计算，估计所述预设混合高斯模型的各元高斯分布的初始分布参数；根据所述初始分布参数及所述期望计算，初步估计所述缺失特征所属的高斯分布；根据所述已有特征、所述所属的高斯分布和所述极大似然估计计算，迭代更新所述各元高斯分布的分布参数，并迭代更新所述缺失特征所属的高斯分布；当迭代更新的分布参数收敛时，获取根据收敛的分布参数和所述期望计算估计的高斯分布，并根据最后估计的高斯分布估计所述缺失特征对应的数值。
根据权利要求18所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时实现所述方法还包括：根据填补缺失特征对应的数值后的人群绩效预测训练集训练人群绩效预测模型。