CN107633030B

CN107633030B - 基于数据模型的信用评估方法及装置

Info

Publication number: CN107633030B
Application number: CN201710787087.5A
Authority: CN
Inventors: 陈肖黎; 贾西贝
Original assignee: Shenzhen Huaao Data Technology Co Ltd
Current assignee: Shenzhen Huaao Data Technology Co Ltd
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2020-11-27
Anticipated expiration: 2037-09-04
Also published as: CN107633030A

Abstract

本发明属于金融数据处理技术领域，提供了一种基于数据模型的信用评估方法及装置。该方法包括：从待评估的数据中获取评估模型所需的特征变量，判断待评估数据的每个特征变量是否为失效变量：若是，则采用该失效变量对应的替换变量进行替换，并输入评估模型，若否，则输入评估模型，失效变量为信息缺失或信息不全的特征变量，评估模型根据输入的特征变量进行评估，并输出评价结果。本发明基于数据模型的信用评估方法及装置，能够在数据缺失、数据不全的情况下，利用小组数据进行信用评估，提高信用违约预测效果。

Description

基于数据模型的信用评估方法及装置

技术领域

本发明涉及金融数据处理技术领域，具体涉及一种基于数据模型的信用评估方法及装置。

背景技术

目前，市面上的个人借贷软件较多，不同软件面向的目标人群不同。为了降低风险，需要对用户的还款能力进行评估，为了准确锁定目标客户，需要对用户的借贷倾向进行评估。

但是，在实际应用过程中，借贷平台大数据适合数据分析师的应用。如果在信用评分模型中发生了一些缺失或无效的价值，该模型可能无法成功检测，然后对借款人产生偏倚的估计。并且，在启动阶段，贷款公司可能不知道什么样的借款人的特征在信用评分模式中是重要的。来自大型贷款公司的信用评分模式可能太过先进，不能使用。因此，对于初期样本少，若用户数据信息不全、数据缺失，则现有的评估模型无法进行评估。例如，还款能力的评估模型的其中一个变量是工资收入，若无法获取用户的工资收入，则无法准确评估其还款能力。

如何在数据缺失、数据不全的情况下，利用小组数据进行信用评估，提高信用违约预测效果，是本领域技术人员亟需解决的问题。

发明内容

针对现有技术中的缺陷，本发明提供基于数据模型的信用评估方法及装置，能够在数据缺失、数据不全的情况下，利用小组数据进行信用评估，提高信用违约预测效果。

第一方面，本发明提供一种基于数据模型的信用评估方法，该方法包括：从待评估的数据中获取评估模型所需的特征变量；

判断待评估数据的每个特征变量是否为失效变量：

若是，则采用该失效变量对应的替换变量进行替换，并输入评估模型，

若否，则输入评估模型，失效变量为信息缺失或信息不全的特征变量；

评估模型根据输入的特征变量进行评估，并输出评价结果。

进一步地，从待评估的数据中获取评估模型所需的特征变量之前，该方法还包括：

对训练集中的样本数据进行分类，获取分类结果；

根据分类结果，对训练集中的样本数据进行逻辑回归，建立评估模型。

进一步地，对训练集中的样本数据进行分类，获取分类结果，具体包括：若训练集中的样本数据为数值变量，则

采用决策树对数值变量进行分类，确定分类结果；

若训练集中的样本数据为分类变量，则

采用聚类算法对分类变量进行分类，确定分类结果。

进一步地，根据分类结果，对训练集中的样本数据进行逻辑回归之前，该方法还包括：计算训练集中样本数据的距离，确定关联变量；

判断任意两个关联变量之间的距离值是否小于距离阈值，若是，则将两个关联变量进行合并。

进一步地，计算训练集中样本数据的距离之后，该方法还包括：

检测某一变量与其他变量之间的距离值；

将与该变量距离值最小的变量设置为该变量的替换变量。

进一步地，在建立评估模型之后，采用该失效变量对应的替换变量进行替换之前，该方法还包括：将目标变量输入评估模型；

根据评估模型已有特征变量的信息价值，检验每个已有的特征变量是否有效；

若存在失效的特征变量，则将该目标变量设置为失效的特征变量的替换变量。

进一步地，根据评估模型已有特征变量的信息价值，检验每个已有的特征变量是否有效，具体包括：

根据训练集中样本数据的分配比例，计算每个特征变量的信息价值；

根据预定的价值阈值进行检验，判断每个特征变量是否有效。

第二方面，本发明提供一种基于数据模型的信用评估装置，该装置包括特征变量获取模块、失效变量替换模块和评估模块，特征变量获取模块用于从待评估的数据中获取评估模型所需的特征变量；失效变量替换模块用于判断待评估数据的每个特征变量是否为失效变量：若是，则采用该失效变量对应的替换变量进行替换，并输入评估模型，若否，则输入评估模型，失效变量为信息缺失或信息不全的特征变量；评估模块用于使评估模型根据输入的特征变量进行评估，并输出评价结果。

进一步地，本实施例基于数据模型的信用评估装置还包括评估模型建立模块：用于对训练集中的样本数据进行分类，获取分类结果；根据分类结果，对训练集中的样本数据进行逻辑回归，建立评估模型。

进一步地，评估模型建立模块，对训练集中的样本数据进行分类，获取分类结果时，具体用于：若训练集中的样本数据为数值变量，则采用决策树对数值变量进行分类，确定分类结果；若训练集中的样本数据为分类变量，则采用聚类算法对分类变量进行分类，确定分类结果。

进一步地，评估模型建立模块还用于：计算训练集中样本数据的距离，确定关联变量；判断任意两个关联变量之间的距离值是否小于距离阈值，若是，则将两个关联变量进行合并。

由上述技术方案可知，本实施例提供的基于数据模型的信用评估方法及装置，采用预建立的评估模型，处理用户待评估的数据，即使存在信息缺失或信息不全的失效变量，该方法也能够采用替换变量替换掉失效变量，提高信用违约预测效果，利用小组数据完成信用评估，避免由于处理数据量小，导致评估模型无法评估的现象，节省信贷分析成本，为信贷决策提供信息支持，降低潜在的违约风险。

因此，本实施例基于数据模型的信用评估方法及装置，在数据缺失、数据不全的情况下，利用小组数据进行信用评估，提高信用违约预测效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明所提供的一种基于数据模型的信用评估方法的方法流程图；

图2示出了本发明所提供的一种基于数据模型的信用评估装置的结构框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

第一方面，本发明实施例所提供的一种基于数据模型的信用评估方法，结合图1，该方法包括：

步骤S1：从待评估的数据中获取评估模型所需的特征变量。例如，评价某一用户是否能够按时还款，评估模型可以采用月薪、年薪、工作年限、所在地址区域、教育背景等特征变量，对该用户的信用进行评估，判断该用户是否能够存储违约风险。

步骤S2：判断待评估数据的每个特征变量是否为失效变量：

若是，则采用该失效变量对应的替换变量进行替换，并输入评估模型，若否，则输入评估模型，失效变量为信息缺失或信息不全的特征变量。

例如，在实际应用过程中，评估模型获取用户的工资信息缺失或工资信息不全，则工资这一特征变量为失效变量，可采用该用户的房产信息、工作年限等信息替换掉工资这一特征变量。

步骤S3：评估模型根据输入的特征变量进行评估，并输出评价结果。

由上述技术方案可知，本实施例提供的基于数据模型的信用评估方法，采用预建立的评估模型，处理用户待评估的数据，即使存在信息缺失或信息不全的失效变量，该方法也能够采用替换变量替换掉失效变量，提高信用违约预测效果，利用小组数据完成信用评估，避免由于处理数据量小，导致评估模型无法评估的现象，节省信贷分析成本，为信贷决策提供信息支持，降低潜在的违约风险。

因此，本实施例基于数据模型的信用评估方法，在数据缺失、数据不全的情况下，利用小组数据进行信用评估，提高信用违约预测效果。

为了进一步提高本实施例基于数据模型的信用评估方法的准确性，具体地，在评估模型构建方面，从待评估的数据中获取评估模型所需的特征变量之前，该方法还能够对训练集中的样本数据进行分类，获取分类结果。例如，变量的类别将根据信用违约来分类，这是因变量。例如，根据默认状态，变量“age”将被分成组，然后每个组将具有相应的默认速率，这可以改进在逻辑回归中应用的变量的分组。

逻辑回归主要用于预测信用违约。逻辑回归不要求数据集应该是正态分布的或具有相等的方差。并且，逻辑回归可以将借款人分为两组，这样可能会更有可能按时偿还，另一组可能会在贷款上违约。随着二进制的结果，行业的从业者可以很容易地应用和解释。

在此，本实施例基于数据模型的信用评估方法采用逻辑回归构建评估模型，逻辑回归相对于多层感知器神经网络模型具有更好的预测性能，能够准确地揭示借款人在可信赖群体中的特征，方法简单、易于理解。

具体地，在样本数据分类方面，对训练集中的样本数据进行分类，获取分类结果时，本实施例基于数据模型的信用评估方法的具体实现过程如下：若训练集中的样本数据为数值变量，则采用决策树对数值变量进行分类，确定分类结果；若训练集中的样本数据为分类变量，则采用聚类算法对分类变量进行分类，确定分类结果。

在实际应用过程中，根据变量的性质，将数据分为两部分进行分析。一个部分总结了数字变量，另一部分由分类变量组成。对于数字变量，将应用CHAID决策树分类将变量分为不同的类别。分类变量将由Ward的最小方差聚类组合。

对于数字变量，描述性统计显示了借款人的一些功能的概述。例如，借款人的平均年龄为28岁，毕业后可能有稳定的工资，大多数情况下是大学。申请时间最多为23次，借款人可以在提交个人信息后一天内快速收到贷款。借款人支付社会保险的月数平均为35元，略高于现任公司工作年限，这表明借款人可能会改变工作。通常情况下，借款人改变工作的机会越少，他或她违约的可能性就越小，因为薪资更稳定地偿还贷款。

由于默认和类别之间运行的树形图，95％或99％的显着性水平将是截止选择群集，然后类别可以组成新的类别。对于一些小样本的类别，他们将根据常识，如“主修”教育背景，将“学士”作为“本科以上”的新类别组合在一起。

Ward的最小方差分层聚类将用于组合分类变量的小类别。区别于其他聚类方法的区分方法的特征在于，它基于方差分析而不是距离来聚类类别。Ward聚类最小化所有簇内的平方差的总和。它作为一种聚合分层方法，它执行自下而上的方法。每个类别都作为一个群集开始，然后逐渐与他人合并。聚合后的总体方差会随着合并的发生而增加，这是集群中心之间的加权平方距离。当将它们除以总和的平方以给出方差比例时，平方和的解也很简单。

其中，决策树是一种层次化监督学习模型，可以处理不同类型的数据，如内部，名义和顺序数据。在决策树算法方面，C4.5、分类和回归树(CART)和卡方自动相互作用检测器(CHAID)是最广泛的信用评分行业应用决策树算法。

在大多数情况下，通过使用可以将人口划分成不同的同质亚群的分割，可以提高逻辑回归的表现。对于连续变量，分割被称为离散化为分类变量的离散化。然而，当借款人违约可能性预测与借款人特征之间的细分差异很大时，一组分割模型可能比单个信用评分模型更适合分析整个数据集。因此，每个连续变量中的决策树将被用作分段模型，以优化借款人特征的类别，并尝试提高其对逻辑回归的适应性。

聚类技术是将具有类似特征的数据组合成群集组的无监督学习分类器。这也可以被分配一个合适的目标变量来将样本与同质特征相关联，以减少训练和验证数据集之间的错误分类效应。另一方面，通过分离异构借款人，聚类数据集可以提高预测效率。因此，将应用聚类技术将均匀数据组合为组合，以适应逻辑回归，以提高信用违约预测绩效。

基于聚类集，特征分区将通过根据最小方差组合小样本均匀组进行，征服了在回归中变量太小的样本几乎不能统计计算的问题。

在此，本实施例基于数据模型的信用评估方法能够对不同类型变量进行分类处理。对于数值变量，该方法基于决策树进行分类，决策树相对于人工神经网络和k-最近邻的预测能力强，能够计算欧几里得距离，以优化借款特征的类别，有助于提高其对逻辑回归的适应性。对于分类变量，该方法基于聚类技术进行分类，采用Ward的最小方差法将具有类似特征的数据组合成集群组，以适应逻辑回归，提高信用违约预测效果。

具体地，对于关联变量，本实施例基于数据模型的信用评估方法能够进行合并处理，即根据分类结果，对训练集中的样本数据进行逻辑回归之前，该方法还能够计算训练集中样本数据的距离，确定关联变量。

逻辑回归要求所有的独立变量都不应该与其他独立的对应关系相关。相互关联不仅会违反逻辑回归的假设，这可能导致无关紧要的变量显着并降低预测能力。

在此，本实施例基于数据模型的信用评估方法能够将相互关联的变量进行合并处理，具体根据各个变量之间的欧几里得距离，判断是否将两个关联变量进行合并，其中，距离阈值可以是根据样本数据计算获得的数值，也可以是经验值。并且，该方法将关联变量进行合并处理，能够降低信用评估风险。否则，相互关联的变量会降低逻辑回归的评价结果的准确性。

具体地，在替换变量处理方面，本实施例基于数据模型的信用评估方法既能够根据变量之间的距离值确定替换变量，还能够根据信息价值确定替换变量。

其中，根据欧式距离确定替换变量的具体过程如下：

计算训练集中样本数据的距离之后，该方法还能够检测某一变量与其他变量之间的距离值。

将与该变量距离值最小的变量设置为该变量的替换变量。

在实际应用过程中，采用决策树能够计算不同变量之间的欧式距离，若是对于变量A而言，与变量B之间的距离最短，则将变量B设置为变量A的替换变量。

在此，本实施例基于数据模型的信用评估方法能够结合各个变量之间的距离，判断两个变量之间的相似性，确定各个变量的替换变量，以便于在该变量的信息缺失或信息不全的情况下，采用替换变量替换掉信息缺失或信息不全的失效变量，完成信用评估。

其中，根据信息价值确定替换变量的具体过程如下：

在建立评估模型之后，采用该失效变量对应的替换变量进行替换之前，该方法还包括：

将目标变量输入评估模型。

根据评估模型已有特征变量的信息价值，检验每个已有的特征变量是否有效。

若存在失效的特征变量，则将该目标变量设置为失效的特征变量的替换变量。例如，在借款人的数据集中，只有一个变量(arri_sz_time)缺少值。由于它与另一个变量(arri_sz_yrs)高度相关，所以缺少值(arri_sz_time)的值从分析中退出，只保留了“arrival_sz_yrs”。因此，借款人数据集中没有缺失价值的担忧。

在此，本实施例基于数据模型的信用评估方法还能够不断地引入新的目标变量，并且，根据特征变量之间的信息价值判断该目标变量是否为其他特征变量的替换变量，以便于在某一特征变量失效时，采用该失效的特征变量的替换变量进行替换，完成信用评估。

并且，根据评估模型已有特征变量的信息价值，检验每个已有的特征变量是否有效时，具体实现过程如下：

根据训练集中样本数据的分配比例，计算每个特征变量的信息价值。

在实际应用过程中，证据权重是“良好”借款人特征的比例对应于“不良”对借款人特征的比例的对数计算，用于评估和比较不同类别变量的相对风险。证据权重的具体计算公式如下：

其中，WOE表示某一特征变量的证据权重，DistrGoods表示样本数据中“良好”借款人的在该特征变量的分布比例，DistrBads表示样本数据中“不良”借款人的在该特征变量的分布比例。

WOE的正值越高，客户行为的信用违约风险就越低，WOE的负值越大，客户行为的信用违约风险就越高。WOE可以将变量转换成规则和信息的格式，这使得不同类型的变量可以用相同的方法替换。变量可以转移到WOE中，可以更有效地保护小样本问题的自由度。因此，采用WOE以比较小样本数据集中的不同变量。

信息价值能够评估特征变量的预测能力，具体计算公式如下：

IV＝(DistrGoods-DistrBads)*WOE

其中，IV表示某一特征变量的信息价值，DistrGoods表示样本数据中“良好”借款人的在该特征变量的分布比例，DistrBads表示样本数据中“不良”借款人的在该特征变量的分布比例，WOE表示该特征变量的证据权重。

若某一特征变量的信息价值IV小于0.02，则该特征变量的预测能力很差。若某一特征变量的信息价值IV在0.02到0.1之间，则该特征变量被认为是弱预测能力。若某一特征变量的信息价值IV大于0.5，则认为是过度预测。一般来说，评估模型可以采用大于0.02，且小于0.5的特征变量。

第二方面，本发明实施例提供一种基于数据模型的信用评估装置，结合图2，该装置包括特征变量获取模块1、失效变量替换模块2和评估模块3，特征变量获取模块1用于从待评估的数据中获取评估模型所需的特征变量。失效变量替换模块2用于判断待评估数据的每个特征变量是否为失效变量：若是，则采用该失效变量对应的替换变量进行替换，并输入评估模型，若否，则输入评估模型，失效变量为信息缺失或信息不全的特征变量。评估模块3用于使评估模型根据输入的特征变量进行评估，并输出评价结果。

由上述技术方案可知，本实施例提供的基于数据模型的信用评估装置，采用预建立的评估模型，处理用户待评估的数据，即使存在信息缺失或信息不全的失效变量，该装置也能够采用替换变量替换掉失效变量，提高信用违约预测效果，利用小组数据完成信用评估，避免由于处理数据量小，导致评估模型无法评估的现象，节省信贷分析成本，为信贷决策提供信息支持，降低潜在的违约风险。

因此，本实施例基于数据模型的信用评估装置，在数据缺失、数据不全的情况下，利用小组数据进行信用评估，提高信用违约预测效果。

为了进一步提高本实施例基于数据模型的信用评估装置的准确性，具体地，在评估模型构建方面，本实施例基于数据模型的信用评估装置还包括评估模型建立模块，评估模型建立模块用于对训练集中的样本数据进行分类，获取分类结果；根据分类结果，对训练集中的样本数据进行逻辑回归，建立评估模型。

在此，本实施例基于数据模型的信用评估装置采用逻辑回归构建评估模型，逻辑回归相对于多层感知器神经网络模型具有更好的预测性能，能够准确地揭示借款人在可信赖群体中的特征，装置简单、易于理解。

具体地，在样本数据分类方面，评估模型建立模块在对训练集中的样本数据进行分类，获取分类结果时，具体用于：若训练集中的样本数据为数值变量，则采用决策树对数值变量进行分类，确定分类结果；若训练集中的样本数据为分类变量，则采用聚类算法对分类变量进行分类，确定分类结果。

在此，本实施例基于数据模型的信用评估装置能够对不同类型变量进行分类处理。对于数值变量，该装置基于决策树进行分类，决策树相对于人工神经网络和k-最近邻的预测能力强，能够计算欧几里得距离，以优化借款特征的类别，有助于提高其对逻辑回归的适应性。对于分类变量，该装置基于聚类技术进行分类，采用Ward的最小方差法将具有类似特征的数据组合成集群组，以适应逻辑回归，提高信用违约预测效果。

具体地，对于关联变量，本实施例基于数据模型的信用评估装置能够进行合并处理，即评估模型建立模块还用于：计算训练集中样本数据的距离，确定关联变量；判断任意两个关联变量之间的距离值是否小于距离阈值，若是，则将两个关联变量进行合并。

在此，本实施例基于数据模型的信用评估装置能够将相互关联的变量进行合并处理，具体根据各个变量之间的欧几里得距离，判断是否将两个关联变量进行合并，其中，距离阈值可以是根据样本数据计算获得的数值，也可以是经验值。并且，该装置将关联变量进行合并处理，能够降低信用评估风险。否则，相互关联的变量会降低逻辑回归的评价结果的准确性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

需要说明的是，附图中的流程图和框图显示了根据本发明的多个实施例的服务器、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的服务器来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例所提供的配置装置可以是计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的服务器、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的服务器、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个服务器，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以发布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于数据模型的信用评估方法，其特征在于，包括：

从待评估的数据中获取评估模型所需的特征变量；

判断待评估数据的每个特征变量是否为失效变量：

若是，则采用该失效变量对应的替换变量进行替换，并输入所述评估模型，

若否，则输入所述评估模型，所述失效变量为信息缺失或信息不全的特征变量；

所述评估模型根据输入的特征变量进行评估，并输出评价结果；

从待评估的数据中获取评估模型所需的特征变量之前，该方法还包括：

对训练集中的样本数据进行分类，获取分类结果；

根据所述分类结果，对所述训练集中的样本数据进行逻辑回归，建立所述评估模型；

根据所述分类结果，对所述训练集中的样本数据进行逻辑回归之前，该方法还包括：

计算所述训练集中样本数据的距离，确定关联变量；

判断任意两个关联变量之间的距离值是否小于距离阈值，若是，则将两个关联变量进行合并；

计算所述训练集中样本数据的距离之后，该方法还包括：

检测某一变量与其他变量之间的距离值；

将与该变量距离值最小的变量设置为该变量的替换变量。

2.根据权利要求1所述基于数据模型的信用评估方法，其特征在于，

对训练集中的样本数据进行分类，获取分类结果，具体包括：

若所述训练集中的样本数据为数值变量，则

采用决策树对所述数值变量进行分类，确定所述分类结果；

若所述训练集中的样本数据为分类变量，则

采用聚类算法对所述分类变量进行分类，确定所述分类结果。

3.根据权利要求2所述基于数据模型的信用评估方法，其特征在于，根据信息价值确定替换变量的具体过程如下：

在建立所述评估模型之后，采用该失效变量对应的替换变量进行替换之前，该方法还包括：

将目标变量输入所述评估模型；

根据所述评估模型已有特征变量的信息价值，检验每个已有的特征变量是否有效；

若存在失效的特征变量，则将该目标变量设置为所述失效的特征变量的替换变量。

4.根据权利要求3所述基于数据模型的信用评估方法，其特征在于，

根据所述评估模型已有特征变量的信息价值，检验每个已有的特征变量是否有效，具体包括：

根据所述训练集中样本数据的分配比例，计算每个特征变量的信息价值；

5.一种基于数据模型的信用评估装置，其特征在于，包括：

特征变量获取模块：用于从待评估的数据中获取评估模型所需的特征变量；

失效变量替换模块：用于判断待评估数据的每个特征变量是否为失效变量：

评估模块：用于使所述评估模型根据输入的特征变量进行评估，并输出评价结果；

该装置还包括评估模型建立模块：用于对训练集中的样本数据进行分类，获取分类结果；根据所述分类结果，对所述训练集中的样本数据进行逻辑回归，建立所述评估模型；

所述评估模型建立模块还用于：计算训练集中样本数据的距离，确定关联变量；判断任意两个关联变量之间的距离值是否小于距离阈值，若是，则将两个关联变量进行合并；

计算训练集中样本数据的距离之后，还检测某一变量与其他变量之间的距离值；

将与该变量距离值最小的变量设置为该变量的替换变量。

6.根据权利要求5所述基于数据模型的信用评估装置，其特征在于，

所述评估模型建立模块，对训练集中的样本数据进行分类，获取分类结果时，具体用于：若所述训练集中的样本数据为数值变量，则采用决策树对所述数值变量进行分类，确定所述分类结果；若所述训练集中的样本数据为分类变量，则采用聚类算法对所述分类变量进行分类，确定所述分类结果。