CN113139687A

CN113139687A - 一种预测***用户违约的方法及装置

Info

Publication number: CN113139687A
Application number: CN202110446344.5A
Authority: CN
Inventors: 汪志艺; 王伟权; 郭锡超; 杨俊勉
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-07-20
Anticipated expiration: 2041-04-25
Also published as: CN113139687B

Abstract

本发明公开了一种预测***用户违约的方法及装置，涉及银行数据处理技术领域，其中，该方法包括：获取用户信息及***使用信息；根据用户信息及***使用信息，获取预设的第一变量集合及数据集；采用逐步回归法对第一自变量集合中的自变量进行反复筛选，剔除不具有显著性的自变量；将数据集按照一定比例划分得到训练集及测试集，根据筛选后的自变量集合及训练集建立多元逻辑回归模型；将测试集输入到多元逻辑回归模型中，得到预测超过第一天数的逾期拖欠数据的混淆矩阵；根据混淆矩阵计算得到正确预测***用户是否违约的概率和违约用户的概率，当预测的概率满足预测要求时，利用多元逻辑回归模型，根据用户资料预测***违约情况。

Description

一种预测***用户违约的方法及装置

技术领域

本发明涉及银行数据处理技术领域，尤指一种预测***用户违约的方法及装置。

背景技术

随着经济的发展，银行***业务快速普及，逐渐成为银行营收的重要组成部分。研究***用户是否存在违约情况，有利于银行决策者更好的规避风险，减少由于***用户信誉一般而导致违约概率增加的风险。

在现有技术的方案中，利用逻辑回归算法进行违约预测时，采用的自变量包括无担保放款的循环利用，借款人借款时的年龄，35-59天逾期但不糟糕次数，负债比率，月收入，开放式信贷和贷款数量，90天逾期次数，不动产贷款或额度数量，60-89天逾期但不糟糕次数以及家属数量。因变量为超过90天或更糟的逾期拖欠，建立预测客户信用的逻辑回归模型。

但是，基于上述过程所得到的逻辑回归模型进行违约预测时，未对数据做描述性统计，对数据认识不够。建模之前的数据预处理不够精确，筛选变量未采用逐步回归的方式筛选变量，训练集和测试集的分配比例不够合理。没有将训练集训练出来的模型运用到测试集，并最终计算出模型准确率和预测坏客户的准确率。

因此，亟需一种可以克服上述缺陷，提高预测准确率的技术方案。

发明内容

为解决现有技术存在的问题，本发明提出了一种预测***用户违约的方法及装置，本发明采用逐步回归和更合理分配训练集和测试集等方式来提高模型的精确性，从而提高预测坏客户的准确率，银行利用该模型可以初步根据用户的背景判断用户是否违约，有利于减少银行因为用户逾期不还带来的损失，规范***市场。

在本发明实施例的第一方面，提出了一种预测***用户违约的方法，该方法包括：

获取用户信息及***使用信息；

根据所述用户信息及***使用信息，获取预设的第一变量集合及数据集，其中，所述数据集包括预设的第一自变量集合每个自变量及超过第一天数的逾期拖欠数据；

采用逐步回归法对第一自变量集合中的自变量进行反复筛选，剔除不具有显著性的自变量，得到筛选后的自变量集合；

将数据集按照一定比例划分得到训练集及测试集，根据筛选后的自变量集合及训练集建立多元逻辑回归模型，其中，多元逻辑回归方程的因变量为超过第一天数的逾期拖欠数据；

将测试集输入到多元逻辑回归模型中，得到预测超过第一天数的逾期拖欠数据的混淆矩阵；

根据混淆矩阵计算得到正确预测***用户是否违约的概率和违约用户的概率，当预测的概率满足预测要求时，利用多元逻辑回归模型，根据用户资料预测***违约情况。

进一步的，获取的用户信息及***使用信息至少包括：***用户的自身情况，历史逾期情况及贷款情况在内的信息。

进一步的，根据所述用户信息及***使用信息，获取预设的第一变量集合及数据集，包括：

根据***用户的自身情况，选取的自变量至少包括：借款人借款时的年龄，月收入及家属数量；

根据历史逾期情况，选取的自变量至少包括：选取第一天数内逾期次数，第二天数范围内逾期次数及第三天数范围内逾期次数；

根据贷款情况，选取的自变量至少包括：无担保放款的循环利用，负债比率，开放式信贷和贷款数量及不动产贷款或额度数量。

进一步的，该方法还包括：

对所述第一变量集合的数据进行预处理，将缺失值进行填充，将数值范围超过阈值范围或不合理的自变量进行删除。

进一步的，采用逐步回归法对第一自变量集合中的自变量进行反复筛选，剔除不具有显著性的自变量，得到筛选后的自变量集合，包括：

采用逐步回归法对第一自变量集合中的每个自变量进行显著性校验，将不具有显著性的自变量剔除，经过筛选得到第二自变量集合；

对第二自变量集合进行显著性校验，经过筛选得到第三自变量集合，并重复以上筛选过程，直至自变量集合中的每个自变量都通过显著性校验；

对筛选后自变量集合进行多重共线性判断，其中，当多重共线性的相关系数小于阈值，筛选后自变量集合不存在多重共线性。

进一步的，将数据集按照一定比例划分得到训练集及测试集，根据筛选后的自变量集合及训练集建立多元逻辑回归模型，包括：

将数据集划分为训练集和测试集，其中，训练集和测试集的比例为4：1；

根据筛选后的自变量集合及训练集建立多元逻辑回归模型，并利用测试集的数据对模型进行验证。

进一步的，超过第一天数的逾期拖欠数据为超过90天的逾期拖欠数据。

进一步的，第一天数内逾期次数为90天内逾期次数；

第二天数范围内逾期次数为35至59天内逾期次数；

第三天数范围内逾期次数为60至89天内逾期次数。

在本发明实施例的第二方面，提出了一种预测***用户违约的装置，该装置包括：

信息获取模块，用于获取用户信息及***使用信息；

数据获取模块，用于根据所述用户信息及***使用信息，获取预设的第一变量集合及数据集，其中，所述数据集包括预设的第一自变量集合每个自变量及超过第一天数的逾期拖欠数据；

逐步回归处理模块，用于采用逐步回归法对第一自变量集合中的自变量进行反复筛选，剔除不具有显著性的自变量，得到筛选后的自变量集合；

多元逻辑回归模型建立模块，用于将数据集按照一定比例划分得到训练集及测试集，根据筛选后的自变量集合及训练集建立多元逻辑回归模型，其中，多元逻辑回归方程的因变量为超过第一天数的逾期拖欠数据；

模型测试模块，用于将测试集输入到多元逻辑回归模型中，得到预测超过第一天数的逾期拖欠数据的混淆矩阵；

违约预测模块，用于根据混淆矩阵计算得到正确预测***用户是否违约的概率和违约用户的概率，当预测的概率满足预测要求时，利用多元逻辑回归模型，根据用户资料预测***违约情况。

进一步的，所述信息获取模块获取的用户信息及***使用信息至少包括：***用户的自身情况，历史逾期情况及贷款情况在内的信息。

进一步的，所述数据获取模块具体用于：

进一步的，该装置还包括：

数据预处理模块，用于对所述第一变量集合的数据进行预处理，将缺失值进行填充，将数值范围超过阈值范围或不合理的自变量进行删除。

进一步的，所述逐步回归处理模块具体用于：

进一步的，所述多元逻辑回归模型建立模块具体用于：

进一步的，第一天数内逾期次数为90天内逾期次数；

第二天数范围内逾期次数为35至59天内逾期次数；

第三天数范围内逾期次数为60至89天内逾期次数。

在本发明实施例的第三方面，提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现预测***用户违约的方法。

在本发明实施例的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现预测***用户违约的方法。

本发明提出的预测***用户违约的方法及装置采用逐步回归和更合理分配训练集和测试集等方式来提高模型的精确性，从而提高预测坏客户的准确率，相较于其他方法具有更好的预测效果，银行利用该模型可以初步根据用户的背景判断用户是否违约，有利于减少银行因为用户逾期不还带来的损失，规范***市场。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一实施例的预测***用户违约的方法流程示意图。

图2是本发明一实施例的筛选变量的流程示意图。

图3是本发明一实施例的预测***用户违约的装置架构示意图。

图4是本发明另一实施例的预测***用户违约的装置架构示意图。

图5是本发明一实施例的计算机设备结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种预测***用户违约的方法及装置，涉及银行数据处理技术领域，可以对***用户违约进行预测。

在本发明实施例中，需要说明的术语有：

无担保放款的循环利用：除了不动产像车贷那样除以信用额度总和的无分期付款债务的***和个人信用额度总额。

多元逻辑回归模型：多元逻辑回归不要求数据正态分布，是一种多个自变量对二分类因变量分类的统计方法。

逐步回归法：逐步回归的基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止。以保证最后的解释变量集是最优的。

多重共线性：是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

Summary函数：拟合线性方程计算得出估值，标准误差，T值和P值，其中T检验是检验解释变量的显著性，R-Squared是查看方程拟合程度的，F检验是检验方程整体显著性的，也就是说R-Squared，T-p，F-p值决定了线性关系是否成立。

混淆矩阵：也称误差矩阵，是表示精度评价的一种标准格式。在人工智能中，混淆矩阵是可视化工具，特别用于监督学习。

KNN二分类算法：对于n维输入向量，分别对应特征空间中的一个点，输出为该特征向量所对应的类别标签或预测值。

明可夫斯基距离：一般指闵氏距离。当p取1的时候为曼哈顿距离，当p取2的时候为欧式距离。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

图1是本发明一实施例的预测***用户违约的方法流程示意图。如图1所示，该方法包括：

步骤S101，获取用户信息及***使用信息；

步骤S102，根据所述用户信息及***使用信息，获取预设的第一变量集合及数据集，其中，所述数据集包括预设的第一自变量集合每个自变量及超过第一天数的逾期拖欠数据；

步骤S103，采用逐步回归法对第一自变量集合中的自变量进行反复筛选，剔除不具有显著性的自变量，得到筛选后的自变量集合；

步骤S104，将数据集按照一定比例划分得到训练集及测试集，根据筛选后的自变量集合及训练集建立多元逻辑回归模型，其中，多元逻辑回归方程的因变量为超过第一天数的逾期拖欠数据；

步骤S105，将测试集输入到多元逻辑回归模型中，得到预测超过第一天数的逾期拖欠数据的混淆矩阵；

步骤S106，根据混淆矩阵计算得到正确预测***用户是否违约的概率和违约用户的概率，当预测的概率满足预测要求时，利用多元逻辑回归模型，根据用户资料预测***违约情况。

本发明采用逐步回归和更合理分配训练集和测试集等方式来提高模型的精确性，从而提高预测坏客户的准确率，银行利用该模型可以初步根据用户的背景判断用户是否违约，有利于减少银行因为用户逾期不还带来的损失，规范***市场。

为了对上述预测***用户违约的方法进行更为清楚的解释，下面结合一个具体的实施例来进行详细说明。

步骤S101：

获取用户信息及***使用信息。

在本实施例中，数据来源主要是Kaggle的Give Me Some Credit项目。

使用Kaggle的原因有以下三点：

第一，数据由Kaggle网站专业人员收集，数据可靠。

第二，选用的变量基本涵盖了影响***客户是否为好客户的因素，变量选取合理。

第三，Give Me Some Credit数据集一共有15万条数据，数据量比较大，建立的模型精确度也比较高。

其中，获取的用户信息及***使用信息至少包括：***用户的自身情况，历史逾期情况及贷款情况在内的信息。

步骤S102：

根据所述用户信息及***使用信息，获取预设的第一变量集合及数据集。

在本实施例中，从***用户的自身情况，历史逾期情况以及贷款情况三个显著影响***用户是否违约的方向选取变量，建立的模型精确度更高。

根据***用户的自身情况，选取的自变量至少包括：借款人借款时的年龄X₂，月收入X₅及家属数量X₁₀；

根据历史逾期情况，选取的自变量至少包括：选取第一天数内逾期次数X₃，第二天数范围内逾期次数X₇及第三天数范围内逾期次数X₉；

其中，第一天数内逾期次数为90天内逾期次数；

第二天数范围内逾期次数为35至59天内逾期次数；

第三天数范围内逾期次数为60至89天内逾期次数。

根据贷款情况，选取的自变量至少包括：无担保放款的循环利用X₁，负债比率X₄，开放式信贷和贷款数量X₆及不动产贷款或额度数量X₈。

在本实施例中，所述数据集包括预设的第一自变量集合每个自变量及超过第一天数的逾期拖欠数据；这里，超过第一天数的逾期拖欠数据为超过90天的逾期拖欠数据。

进一步的，可以运用R软件，对Give Me Some Credit数据集相关变量进行描述性统计分析，得到的结果见表1。

表1 Give Me Some Credit数据集相关变量描述性统计

由表1可以看出，无担保放款的循环利用，负债比率，月收入和家属数量的中位数和平均值差距较大，说明数据攀升明显。

由于***的申请年龄区间为18-65，所以本次数据预处理之后借款人的年龄区间应该在18-65之间，本组数据年龄最小值为0，最大值为109，需要做数据预处理。同时，35-59天逾期但不糟糕次数，60-89天逾期但不糟糕次数和90天逾期次数这三个变量最大值为98，次数太多，不太符合实际情况，也极有可能是异常数据。

因此，需要对该些数据进行预处理，将缺失值进行填充，将数值范围超过阈值范围或不合理的自变量进行删除；具体流程为：

数据是否存在缺失值的时候，月收入和家属数量这两个变量存在缺失值。为了更加准确的建模，选择月收入和家属数量的平均值替代缺失值。

由于借款人申请***的年龄应该在16-65岁之间，所以将申请者年龄小于16周岁或者大于65周岁的数据直接删除掉。

查看35-59天逾期但不糟糕次数，90天逾期次数和60-89天逾期但不糟糕次数数据分布时候，发现存在接近100的数据，大部分数据都是小于50的。三个月内逾期接近100次显然是不符合常理的，所以删除掉35-59天逾期但不糟糕次数等于96或者98的数据。

对于负债比率出现了大于1的情况，显然是不符合常理，同时删掉负债比率大于1的数据。经过一系列数据预处理之后，剩下94607条满足上述条件的数据。

步骤S103：

采用逐步回归法对第一自变量集合中的自变量进行反复筛选，剔除不具有显著性的自变量，得到筛选后的自变量集合。

参考图2，为本发明一实施例的筛选变量的流程示意图。如图2所示，具体流程为：

步骤S1031，采用逐步回归法对第一自变量集合中的每个自变量进行显著性校验，将不具有显著性的自变量剔除，经过筛选得到第二自变量集合；

步骤S1032，对第二自变量集合进行显著性校验，经过筛选得到第三自变量集合，并重复以上筛选过程，直至自变量集合中的每个自变量都通过显著性校验；

步骤S1033，对筛选后自变量集合进行多重共线性判断，其中，当多重共线性的相关系数小于阈值，筛选后自变量集合不存在多重共线性。

在本具体实施例中，当超过90天或更糟的逾期拖欠Y等于0的时候，代表用户信用良好。当超过90天或更糟的逾期拖欠Y等于1的时候，指的是用户信用一般。这样子建立的逻辑回归分析方程，自变量和因变量是呈负相关的。

由于一般情况下习惯让自变量和因变量呈现正相关关系，所以对超过90天或更糟的逾期拖欠做预处理。当超过90天或更糟的逾期拖欠Y等于0的时候，指的是用户信用一般。当超过90天或更糟的逾期拖欠Y等于1的时候，指的是用户信用良好。

以无担保放款的循环利用X₁，借款人借款时的年龄X₂，35-59天逾期但不糟糕次数X₃，负债比率X₄，月收入X₅，开放式信贷和贷款数量X₆，90天逾期次数X₇，不动产贷款或额度数量X₈，60-89天逾期但不糟糕次数X₉和家属数量X₁₀为自变量，超过90天或更糟的逾期拖欠Y为因变量，建立多元逻辑回归模型。

参考表2，为本发明一实施例的未对变量进行筛选建立回归模型的显著性检验表。

表2未对变量进行筛选建立回归模型的显著性检验

	估计值	标准差	z value	Pr(>\|z\|)
					截距	2.182	0.06874	37.741	<2e-16
无担保放款的循环利用	0.00009911	0.0001207	0.821	0.411374
					借款人借款时的年龄	0.02037	0.001492	13.651	<2e-16
35-59天逾期但不糟糕次数	-0.5448	0.01458	-37.365	<2e-16
					负债比率	-0.8838	0.08252	-10.71	<2e-16
月收入	0.00001023	0.000003706	2.76	0.005787
					开放式信贷和贷款数量	0.0186	0.003795	4.901	9.53e-07
90天逾期次数	-0.806	0.02215	-36.38	<2e-16
					不动产贷款或额度数量	0.07636	0.02013	3.794	0.000148
60-89天逾期但不糟糕次数	-0.7218	0.03008	-23.997	<2e-16
					家属数量	-0.05929	0.0123	-4.82	1.44e-06

由表2可以看出，建立的多元逻辑回归模型存在不显著变量，因此，可以采用逐步回归法筛选变量。

运用逐步回归法筛选出AIC值最小的情况，筛选之后的变量组合为借款人借款时的年龄X₂，35-59天逾期但不糟糕次数X₃，负债比率X₄，月收入X₅，开放式信贷和贷款数量X₆，90天逾期次数X₇，不动产贷款或额度数量X₈，60-89天逾期但不糟糕次数X₉和家属数量X₁₀。

再建立多元逻辑回归分析方程，如表3所示：

表3经过逐步回归法筛选变量后建立回归模型的显著性检验

	估计值	标准差	z value	Pr(>\|z\|)
					截距	2.182	0.06874	37.741	<2e-16
借款人借款时的年龄	0.02037	0.001492	13.651	<2e-16
					35-59天逾期但不糟糕次数	-0.5448	0.01458	-37.365	<2e-16
负债比率	-0.8838	0.08252	-10.71	<2e-16
					月收入	0.00001023	0.000003706	2.76	0.005787
开放式信贷和贷款数量	0.0186	0.003795	4.901	9.53e-07
					90天逾期次数	-0.806	0.02215	-36.38	<2e-16
不动产贷款或额度数量	0.07636	0.02013	3.794	0.000148
					60-89天逾期但不糟糕次数	-0.7218	0.03008	-23.997	<2e-16
家属数量	-0.05929	0.0123	-4.82	1.44e-06

经过筛选后，由表3可以看出，月收入X₅这个变量不够显著，剔除之后，可以得到表4：

表4剔除不够显著变量后建立回归模型的显著性检验

	估计值	标准差	z value	Pr(>\|z\|)
					截距	2.182	0.06874	37.741	<2e-16
借款人借款时的年龄	0.02037	0.001492	13.651	<2e-16
					35-59天逾期但不糟糕次数	-0.5448	0.01458	-37.365	<2e-16
负债比率	-0.8838	0.08252	-10.71	<2e-16
					开放式信贷和贷款数量	0.0186	0.003795	4.901	9.53e-07
90天逾期次数	-0.806	0.02215	-36.38	<2e-16
					不动产贷款或额度数量	0.07636	0.02013	3.794	0.000148
60-89天逾期但不糟糕次数	-0.7218	0.03008	-23.997	<2e-16
					家属数量	-0.05929	0.0123	-4.82	1.44e-06

结合表4可以发现，剩余八个变量都是显著的。

进一步的，再检查剩余八个变量是否存在多重共线性，参考表5所示：

表5检查剩余八个变量的多重共线性

由表5可知发现，剩余八个变量不存在多重共线性。

所以，最终选定借款人借款时的年龄X₂，35-59天逾期但不糟糕次数X₃，负债比率X₄，开放式信贷和贷款数量X₆，90天逾期次数X₇，不动产贷款或额度数量X₈，60-89天逾期但不糟糕次数X₉和家属数量X₁₀为自变量，超过90天或更糟的逾期拖欠Y为因变量，建立多元逻辑回归分析方程。

步骤S104：

在本实施例中，将数据集分为训练集和测试集，训练集和测试集的比例为4:1，用训练集的数据建模并用测试集的数据对模型进行验证，将借款人借款时的年龄X₂，35-59天逾期但不糟糕次数X₃，负债比率X₄，开放式信贷和贷款数量X₆，90天逾期次数X₇，不动产贷款或额度数量X₈，60-89天逾期但不糟糕次数X₉和家属数量X₁₀作为自变量，超过90天或更糟的逾期拖欠Y为因变量，运用Summary函数得到参数估计结果，如表6所示，可以看出，对Y来说，X₂,X₃,X₄,X₆,X₇,X₈,X9,X10都通过了显著性检验，模型有效。

表6模型参数估计结果

	估计值	标准差	Z值	Pr(>\|z\|)
					截距	2.13327	0.067998	32.550	<2e-16
X<sub>2</sub>	0.020904	0.001482	14.101	<2e-16
					X<sub>3</sub>	-0.544369	0.014578	-37.341	<2e-16
X<sub>4</sub>	-0.974695	0.076165	-12.797	<2e-16
					X<sub>6</sub>	0.0204	0.003743	5.450	5.03e-08
X<sub>7</sub>	-0.80712	0.022165	-36.415	<2e-16
					X<sub>8</sub>	0.098491	0.018698	5.268	1.38e-07
X<sub>9</sub>	-0.722034	0.030104	-23.985	<2e-16
					X<sub>10</sub>	-0.054725	0.012194	-4.488	7.20e-06

步骤S105：

将测试集的数据代入到训练集所建立的模型进行预测，并与实际训练集的超过90天或更糟的逾期进行比较，建立混淆矩阵如表7所示：

表7混淆矩阵

超过90天或更糟的逾期	0	1
			0	222	145
1	1158	17396

可以计算出，建立的模型预测正确***用户是否违约的准确率为93.11％，预测***用户为违约的准确率为60.49％。整体准确率达到九成，说明模型精度较高，由于违约用户样本数据较少，采用二分类算法时候容易受到样本数据量大的不违约用户影响，在这种情况下预测违约用户的概率还达到六成左右，说明模型预测效果良好。

步骤S106：

进一步的，为了突出本发明的多元逻辑回归方法的准确率，本实施例采用KNN二分类算法分类进行建模，利用该模型的预测结果与本发明的预测结果进行比较，主要关注的是模型正确预测***用户是否违约的概率和违约用户的概率。

设置KNN算法的时候，k设置为7，表示选择7个最近的样本为代表，distance设置为2，表示的是使用哪个明可夫斯基距离。变量选择的和上面多元逻辑回归分析模型的变量一样，将测试集的数据代入到训练集所建立的模型进行预测，并与实际训练集的超过90天或更糟的逾期进行比较，建立混淆矩阵如表8所示：

表8混淆矩阵

超过90天或更糟的逾期	0	1
			0	265	1115
1	402	17139

可以计算出，建立的模型预测正确***用户是否违约的准确率为91.98％，预测***用户为违约用户的准确率为19.20％。可以看出，虽然两个模型整体预测率相差无几，但是多元逻辑回归模型在预测违约用户的性能上，展现出更好的一面，本发明所采用多元逻辑回归模型预测结果更佳。

需要说明的是，尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

在介绍了本发明示例性实施方式的方法之后，接下来，参考图3至图4对本发明示例性实施方式的预测***用户违约的装置进行介绍。

预测***用户违约的装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的术语“模块”或者“单元”，可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

基于同一发明构思，本发明还提出了一种预测***用户违约的装置，如图3所示，该装置包括：

信息获取模块310，用于获取用户信息及***使用信息；

数据获取模块320，用于根据所述用户信息及***使用信息，获取预设的第一变量集合及数据集，其中，所述数据集包括预设的第一自变量集合每个自变量及超过第一天数的逾期拖欠数据；

逐步回归处理模块330，用于采用逐步回归法对第一自变量集合中的自变量进行反复筛选，剔除不具有显著性的自变量，得到筛选后的自变量集合；

多元逻辑回归模型建立模块340，用于将数据集按照一定比例划分得到训练集及测试集，根据筛选后的自变量集合及训练集建立多元逻辑回归模型，其中，多元逻辑回归方程的因变量为超过第一天数的逾期拖欠数据；

模型测试模块350，用于将测试集输入到多元逻辑回归模型中，得到预测超过第一天数的逾期拖欠数据的混淆矩阵；

违约预测模块360，用于根据混淆矩阵计算得到正确预测***用户是否违约的概率和违约用户的概率，当预测的概率满足预测要求时，利用多元逻辑回归模型，根据用户资料预测***违约情况。

在一实施例中，所述信息获取模块310获取的用户信息及***使用信息至少包括：***用户的自身情况，历史逾期情况及贷款情况在内的信息。

在一实施例中，所述数据获取模块320具体用于：

在一实施例中，参考图3，为本发明另一实施例的预测***用户违约的装置架构示意图。如图4所示，该装置还包括：

数据预处理模块370，用于对所述第一变量集合的数据进行预处理，将缺失值进行填充，将数值范围超过阈值范围或不合理的自变量进行删除。

在一实施例中，所述逐步回归处理模块330具体用于：

在一实施例中，所述多元逻辑回归模型建立模块340具体用于：

在一实施例中，超过第一天数的逾期拖欠数据为超过90天的逾期拖欠数据。

在一实施例中，第一天数内逾期次数为90天内逾期次数；

第二天数范围内逾期次数为35至59天内逾期次数；

第三天数范围内逾期次数为60至89天内逾期次数。

应当注意，尽管在上文详细描述中提及了预测***用户违约的装置的若干模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

基于前述发明构思，如图5所示，本发明还提出了一种计算机设备500，包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530，所述处理器520执行所述计算机程序530时实现前述预测***用户违约的方法。

基于前述发明构思，本发明提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现前述预测***用户违约的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种预测***用户违约的方法，其特征在于，该方法包括：

获取用户信息及***使用信息；

2.根据权利要求1所述的预测***用户违约的方法，其特征在于，获取的用户信息及***使用信息至少包括：***用户的自身情况，历史逾期情况及贷款情况在内的信息。

3.根据权利要求2所述的预测***用户违约的方法，其特征在于，根据所述用户信息及***使用信息，获取预设的第一变量集合及数据集，包括：

4.根据权利要求3所述的预测***用户违约的方法，其特征在于，该方法还包括：

5.根据权利要求1所述的预测***用户违约的方法，其特征在于，采用逐步回归法对第一自变量集合中的自变量进行反复筛选，剔除不具有显著性的自变量，得到筛选后的自变量集合，包括：

6.根据权利要求1所述的预测***用户违约的方法，其特征在于，将数据集按照一定比例划分得到训练集及测试集，根据筛选后的自变量集合及训练集建立多元逻辑回归模型，包括：

7.根据权利要求1所述的预测***用户违约的方法，其特征在于，超过第一天数的逾期拖欠数据为超过90天的逾期拖欠数据。

8.根据权利要求3所述的预测***用户违约的方法，其特征在于，第一天数内逾期次数为90天内逾期次数；

第二天数范围内逾期次数为35至59天内逾期次数；

第三天数范围内逾期次数为60至89天内逾期次数。

9.一种预测***用户违约的装置，其特征在于，该装置包括：

信息获取模块，用于获取用户信息及***使用信息；

10.根据权利要求9所述的预测***用户违约的装置，其特征在于，所述信息获取模块获取的用户信息及***使用信息至少包括：***用户的自身情况，历史逾期情况及贷款情况在内的信息。

11.根据权利要求10所述的预测***用户违约的装置，其特征在于，所述数据获取模块具体用于：

12.根据权利要求11所述的预测***用户违约的装置，其特征在于，该装置还包括：

13.根据权利要求9所述的预测***用户违约的装置，其特征在于，所述逐步回归处理模块具体用于：

14.根据权利要求9所述的预测***用户违约的装置，其特征在于，所述多元逻辑回归模型建立模块具体用于：

15.根据权利要求9所述的预测***用户违约的装置，其特征在于，超过第一天数的逾期拖欠数据为超过90天的逾期拖欠数据。

16.根据权利要求11所述的预测***用户违约的装置，其特征在于，第一天数内逾期次数为90天内逾期次数；

第二天数范围内逾期次数为35至59天内逾期次数；

第三天数范围内逾期次数为60至89天内逾期次数。

17.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一所述方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至8任一所述方法。