CN115619539A

CN115619539A - 贷前风险评价方法以及装置

Info

Publication number: CN115619539A
Application number: CN202211315879.XA
Authority: CN
Inventors: 张亢亢
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-17

Abstract

本申请实施例提供一种贷前风险评价方法以及装置。所述方法包括：获取待评价用户数据；提取所述用户数据的特征数据，形成风险特征库；将所述特征数据输入至风险预警模型，根据所述风险预警模型进行贷前风险预警和提示，其中，所述风险预警模型为使用训练样本对决策树模型进行训练以及优化得到的，所述训练样本包括：对用于模型训练的风险特征库中的特征进行标准化处理得到的关键指标的数据集。由此，基于用户的特征数据以及决策树模型生成风险预警模型，能够高效、准确地识别出用户的贷前风险以及为授信审批提供可靠地参考。

Description

贷前风险评价方法以及装置

技术领域

本申请涉及人工智能技术领域，特别涉及一种贷前风险评价方法以及装置。

背景技术

目前，***用户风险防范贯穿在贷前、贷中、贷后的各个阶段，其中贷前用户准入阶段是对风险防范最为重要的环节。在贷前用户准入阶段，如何根据用户信息判断用户还款能力，规避用户风险是贷前审批授信的核心内容。

然而，目前在授信审批环节，主要存在以下问题：一方面以人工审批为主的方式会存在审批效率低，主观因素强等问题，由于使用的审批参考信息仅为用户个人标签，特征维度多，变化范围大，难以快速有效地对用户进行授信审批；另一方面，从银行监管和内部管理层面来看，为了掌握信贷业务的细节，需要对业务流程以及行为进行监管，要求信贷风险预警模型具有可解释性。数据表明，同一单位的员工，信贷风险可能存在聚集现象，例如高风险单位的用户出现违约的可能性要比低风险单位的用户出现违约的可能性高，而且，高风险单位的用户即使当前表现正常，未来劣变风险也相对较高。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

目前，在贷前授信审批阶段，可以通过用户单位风险级别评估申请人风险，授信相应单位等级的额度，需要根据用户单位风险级别，针对性地采用不同风险控制模型以及营销策略，以便及时发现用户资信下降态势，避免对银行资产造成损失。

为了解决上述问题中的至少一个，本申请实施例提供一种贷前风险评价方法以及装置。由此，基于用户的特征数据以及决策树模型生成风险预警模型，能够高效、准确地识别出用户的贷前风险，以及为授信审批提供可靠地参考，提升审批效率和质量。

根据本申请实施例的一方面，提供一种贷前风险评价方法，所述方法包括：

获取待评价用户数据；

提取所述用户数据的特征数据，形成风险特征库；

将所述特征数据输入至风险预警模型，根据所述风险预警模型进行贷前风险预警和提示，其中，所述风险预警模型为使用训练样本对决策树模型进行训练以及优化得到的，所述训练样本包括：对用于模型训练的风险特征库中的特征进行标准化处理得到的关键指标的数据集。

在一些实施方式中，其中，对所述风险特征库中的特征进行标准化处理得到关键指标的数据集，包括：根据所述特征的分类标签和所述特征的变化趋势筛选所述特征；在确定筛选出来的所述特征具有发散性的情况下，选取具有发散性的所述特征；使用单变量特征选择来分析具有发散性的所述特征与目标变量的相关性，选择具有高相关性的所述特征作为关键指标的数据集。

在一些实施方式中，其中，所述特征的分类标签包括二级分类标签，其中，所述二级分类标签包括以下标签的至少一种：基础标签、资产类标签、用户增长类标签、风险标签、或者融资标签。

在一些实施方式中，使用训练样本对决策树模型进行训练以及优化得到所述风险预警模型，包括：使用决策树算法以及***属性构建所述关键指标的数据集的决策树；通过自底向上对所述决策树的非叶子结点进行分析和剪枝，将剪枝后的所述决策树作为风险预警模型。

在一些实施方式中，其中，使用决策树算法以及***属性构建所述关键指标的数据集的决策树，包括：选择具有最高信息增益的***属性作为所述决策树结点的属性；使用递归算法对所述关键指标的数据集持续分类，直到获得完整的决策树。

在一些实施方式中，其中，根据所述风险预警模型进行贷前风险预警和提示还包括，使用混淆矩阵计算所述风险预警模型的准确率和召回率。

在一些实施方式中，其中，所述方法还包括：基于所述风险预警模型生成预言模型标记语言(Predictive Model Markup Language，PMML)格式的模型文件；调用所述(Predictive Model Markup Language，PMML)格式的模型文件，封装成用户风险的联机应用程序界面(Application Program Interface，API)接口。

根据本申请实施例的一方面，提供了一种贷前风险评价装置，所述装置包括：

获取单元，其获取待评价用户数据；

提取单元，其提取所述用户数据的特征数据，形成风险特征库；

评价单元，其将所述特征数据输入至风险预警模型，根据所述风险预警模型进行贷前风险预警和提示，其中，所述风险预警模型为使用训练样本对决策树模型进行训练以及优化得到的，所述训练样本包括：对用于模型训练的风险特征库中的特征进行标准化处理得到的关键指标的数据集。

根据本申请实施例的一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述贷前风险评价方法。

根据本申请实施例的一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行前述贷前风险评价方法。

根据本申请实施例的一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现前述贷前风险评价方法。

本申请实施例的有益效果之一在于：基于用户的特征数据以及决策树模型生成风险预警模型，能够高效、准确地识别出用户的贷前风险以及为授信审批提供可靠地参考。

参照后文的说明和附图，详细公开了本申请的特定实施方式，指明了本申请的原理可以被采用的方式。应该理解，本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本申请的实施方式包括许多改变、修改和等同。

针对一种实施方式描述以及示出的特征信息可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征信息相组合，或替代其它实施方式中的特征信息。

应该强调，术语“包括/包含”在本文使用时指特征信息、整件、步骤或组件的存在，但并不排除一个或更多个其它特征信息、整件、步骤或组件的存在或附加。

附图说明

参照以下的附图可以更好地理解本申请的很多方面。附图中的部件不是成比例绘制的，而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分，附图中对应部分可能被放大或缩小。在本申请的一个附图或一种实施方式中描述的元素和特征信息可以与一个或更多个其它附图或实施方式中示出的元素和特征信息相结合。此外，在附图中，类似的标号表示几个附图中对应的部件，并可用于指示多于一种实施方式中使用的对应部件。

在附图中：

图1是本申请实施例的贷前风险评价装置的一构成图；

图2是本申请实施例的确定关键指标的数据集的一示意图；

图3是本申请实施例的决策树生成流程图；

图4是本申请实施例的风险预警模型部署及应用的一示意图；

图5是本申请实施例的贷前风险评价方法的一示意图；

图6为本申请实施例中计算机设备600的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

需要说明的是，本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

需要说明的是，本发明贷前风险评价方法以及装置可用于金融领域，也可用于除金融领域之外的任意领域，本发明贷前风险评价方法以及装置的应用领域不做限定。参照附图，通过下面的说明书，本申请的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本申请的特定实施方式，其表明了其中可以采用本申请的原则的部分实施方式，应了解的是，本申请不限于所描述的实施方式，相反，本申请包括落入所附权利要求的范围内的全部修改、变型以及等同物。

在本申请实施例中，术语“第一”、“第二”等用于对不同元素从称谓上进行区分，但并不表示这些元素的空间排列或时间顺序等，这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在，但并不排除存在或添加一个或多个其他特征、元素、元件或组件。

在本申请实施例中，单数形式“一”、“该”等包括复数形式，应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义；此外术语“所述”应理解为既包括单数形式也包括复数形式，除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”，术语“基于”应理解为“至少部分基于……”，除非上下文另外明确指出。

针对上述问题，下面结合附图对本申请实施例的各种实施方式进行说明。这些实施方式只是示例性的，不是对本申请的限制。

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本申请实施例做进一步详细说明。在此，本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。

本申请实施例提供一种贷前风险评价装置。

图1是本申请实施例的贷前风险评价装置的一构成图。如图1所示，贷前风险评价装置100包括：

获取单元110，其获取待评价用户数据；

提取单元120，其提取所述用户数据的特征数据，形成风险特征库；

评价单元130，其将所述特征数据输入至风险预警模型，根据所述风险预警模型进行贷前风险预警和提示，其中，所述风险预警模型为使用训练样本对决策树模型进行训练以及优化得到的，所述训练样本包括：对用于模型训练的风险特征库中的特征进行标准化处理得到的关键指标的数据集。

由此，基于用户的特征数据以及决策树模型生成风险预警模型，能够高效、准确地识别出用户的贷前风险以及为授信审批提供可靠地参考。

例如，贷前风险控制的主要目标是根据申请用户所在单位风险，结合用户在银行内外的数据，判断该用户是否有违约风险。例如，贷前可以指申请***之前，申请贷款之前等授信审批阶段，待评价用户可以指申请***的新湖，“用户”可以替换为“客户”，“用户单位”可以替换为“客户单位”等，本申请对此不进行限制。

例如，由于用户单位相关指标种类复杂，以及银行经营策略在不同时期有所差异，需要准确的提取待评价用户的特征数据，例如可以与业务专家咨询沟通，以确定风险预警模型的业务目标及建设方向；确定业务目标后，提取待评价用户的特征数据，形成风险特征库。

在一些实施方式中，提取待评价用户的特征数据后需要对该特征数据进行预处理。

例如，对待评价用户的特征数据(也可以称为样本)进行数据清洗，分析该样本是否有缺失值、重复值等脏数据；若存在脏数据，则需要通过填补遗漏数据等方式消除异常数据，以及纠正不一致数据等操作对样本进行处理；进一步，对特征数据的类别型特征进行编码，其中，选取的类别型特征没有明显的顺序，且决策树算法不需要对特征之间的距离进行计算，因此，使用标签编码将类别特征转换为机器学习识别的类型；进一步，对样本进行数据离散化，将属性域值空间划分为若干区间，利用取值范围替代初始数据，削减连续属性的取值个数，获得精简完整的数据集，避免出现过拟合。

由此，通过数据预处理的过程，能够更好的进行风险预警模型的建模，进一步提高风险预测的准确性。

在一些实施方式中，对所述风险特征库中的特征进行标准化处理得到关键指标的数据集，包括：根据特征的分类标签和该特征的变化趋势筛选特征；在确定筛选出来的所述特征具有发散性的情况下，选取具有发散性的所述特征；使用单变量特征选择来分析具有发散性的所述特征与目标变量的相关性，选择具有高相关性的所述特征作为关键指标的数据集。

在一些实施方式中，特征的分类标签包括二级分类标签，其中，二级分类标签包括以下标签的至少一种：基础标签、资产类标签、用户增长类标签、风险标签、或者融资标签。

例如，在上述数据预处理完成后，以及在与业务人员合作选取的风险特征库的基础上，对该风险特征库中的特征进行标准化处理得到关键指标的数据集。

根据特征的分类标签和该特征的变化趋势筛选特征包括：

在一些实施方式中，特征的分类标签(也可称为一级分类)包括二级分类标签(也可称为二级分类)，二级分类标签包括三级分类标签(也可称为三级分类)。

例如，参考单位维度常用指标分类，主要有五类二级分类标签，分别是基础标签、资产类标签、用户增长类标签、风险标签、融资类标签，以及初步筛选每个二级分类标签中和用户单位风险相关的三级分类特征变量，例如表1所示，例如，根据和业务人员沟通确定；进一步，对每个二级分类标签中变化趋势相近的特征进行筛选，如用户增长类标签中的“本月新增账户数”和“本月新增用户数”变化趋势相差不大，因此可以选择只使用“本月新增用户数”这个特征。

表1常用的用户单位风险特征变量

进一步，确定筛选出来的特征是否具有发散性，选取具有发散性的所述特征，例如，若样本在该特征上不发散，则说明该特征对于样本的区分度差异不大，通过计算样本每一个特征的方差值，设定阈值，去掉取值变化小的特征来筛选具有发散性的特征；

进一步，使用单变量特征选择来分析具有发散性的所述特征与目标变量的相关性，选择具有高相关性的所述特征作为关键指标的数据集，例如，使用单变量特征选择方法分析特征与目标变量的相关性，由于特征和目标变量之间的关系有可能是非线性的，因此，可以使用树模型对特征和目标变量建立模型，通过模型训练后的结果选择相关性较高的特征；

进一步，例如，经过上述发散性和相关性的分析之后，对表1中的特征进行筛选，最终选择成立时间、所在地区、注册资本等特征，作为反映单位逾期风险的关键指标。

图2是本申请实施例的确定关键指标的数据集的一示意图，如图2所示，

步骤201，基于上述方法进行数据预处理，例如，进行数据清洗，类别特征编码，数据离散化等处理；

步骤202，基于基础标签、资产类标签、用户增长类标签、风险标签、融资类标签等筛选特征，以及确定筛选的特征是否具有发散性，以及确定具有发散性的特征与目标变量的相关性较高；

步骤203，基于上述方法确定关键指标的数据集，例如关键指标为成立时间、所在地区、注册资本。

由此，能够准确的确定作为反映单位逾期风险的关键指标。

在一些实施方式中，使用训练样本对决策树模型进行训练以及优化得到所述风险预警模型包括：使用决策树算法以及***属性构建所述关键指标的数据集的决策树；通过自底向上对所述决策树的非叶子结点进行分析和剪枝，将剪枝后的所述决策树作为风险预警模型。

在一些实施方式中，使用决策树算法以及***属性构建所述关键指标的数据集的决策树，包括：选择具有最高信息增益的***属性作为所述决策树结点的属性；使用递归算法对所述关键指标的数据集持续分类，直到获得完整的决策树。

例如，判断用户单位是否具有违约风险，是一个二分类任务。在特征加工时，设定“违约”为1，“不违约”为0。使用决策树算法，每一个内部结点代表属性的判断，每个分支代表一个被划分的样本子集，最终的叶子结点表示分类结果。例如，某内部结点为单位人数，左分支为大于500人的单位子集，右分支为小于等于500人的单位子集，若左分支内的单位都是“不违约”，则左分支下的结点为叶子结点，表示分类结果为“不违约”，使用样本特征属性按照决策树分支进行逐步分类，最终根据所处的叶子结点判断用户单位是否违约。

例如，属性选择决定了决策树如何***，具有最好度量得分的属性被选择为数据集的***属性，信息增益作为常用的属性度量指标，通过信息熵对属性进行度量。假如当前数据集D中第k类样本所占比例为p_k(k＝1,2,3,...|K|)，K为当前数据类别的总数，对于二分类样本而言，K＝2，样本的信息熵为

例如，Ent(D)的值越小，则样本S的纯度越高。若选择属性a作为***属性，初始信息熵与***后的总信息熵的差值大小表明选择属性a***后样本纯度提升的多少，因此，选择使用信息增益率作为待分类特征的选择标准。

对于离散属性a有V个可能的取值{a¹,a²,...a^V},选择特征a对数据集D进行划分，则会产生V个分支结点，其中第v个结点包含了数据集D中取值为a^V的样本数D^v。考虑到不同分支结点包含样本数量不同，给分支结点赋予权重|D^v|/|D|，计算使用特征a对数据集S进行划分所获得的信息增益：

例如，信息增益越大，则该属性a对于数据集的划分纯度提升越大。因此，选择具有最高信息增益的属性作为当前数据集中决策树结点的属性，以便对划分之后的样本子集进行分类所需信息最少，使用递归算法对划分后的子集继续分类，直到获得完整决策树。

例如，决策树是充分考虑所有数据结点生成的复杂的树，因此，基于训练集获得的决策树可能会存在过拟合，导致分支过多，造成决策树过于庞大；为了避免过拟合，需要对决策树进行后剪枝，通过自底向上对非叶子结点进行分析，若将该结点对应的子树替换为叶子结点，会带来决策树泛化性能的提升，则可以进行剪枝，否则，保留该结点，直至遍历所有非叶子结点，将剪枝后的决策树作为最终的风险预警模型。

图3是本申请实施例的决策树生成流程图。如图3所示：

步骤301：开始生成决策树；

步骤302：按照上述方法确定关键指标的数据集；

步骤303：确定数据集中的样本是否为同一类，在是的情况下，进入步骤304，在否的情况下进入步骤306；

步骤304：选择该类；

步骤305：生成叶节点；

步骤306：提取特征集；

步骤307：判断特征集是否为空，在是的情况下，进入步骤308；在否的情况下进入步骤309；

步骤308：选择数据集中占比较多的类；

步骤309：判断特征取值是否唯一，在是的情况下，进入步骤308；在否的情况下进入步骤310；

步骤310：选择最优划分特征生成节点；

步骤311：特征值遍历是否接收，在是的情况下，进入步骤313；在否的情况下进入步骤312；

步骤312：生成数据子集；

步骤313：结束。

由此，能够生成决策树。

在一些实施方式中，根据所述风险预警模型进行贷前风险预警和提示还包括，使用混淆矩阵计算所述风险预警模型的准确率和召回率。

二分类任务可以通过混淆矩阵计算模型的准确率和召回率，例如，可以根据业务目标，评估风险预警模型效果。

表2混淆矩阵

表2为混淆矩阵的一个示例，其中，TP(True Positive)为真正类，表示样本真实类别为违约，风险预警模型识别的结果也是违约的样本个数；FN(False Negative)为假负类，表示样本的真实类别为违约，但是风险预警模型将其识别为不违约的样本个数；同理，FP(False Positive)表示将真实值为不违约的样本识别为违约，TN(True Negative)表示将真实值为不违约的样本识别为不违约。

准确率计算公式：

召回率计算公式：

在一些实施方式中，表3为采用本申请的风险预警模型对***用户单位风险进行预测的测试集的准确率以及召回率。

表3测试集的准确率与召回率

例如，根据表3所示的准确率和召回率采用本申请的风险预警模型对于用户单位风险的预测有较好的效果。例如，***用户单位违约风险是小概率事件，还可以评估模型的准确性、模型区分度、模型稳定性等指标，其中，f1分数(f1-score)作为衡量模型精确度的指标，兼顾了模型的准确率和召回率，从模型的整体平均值(avg/total)来看，本申请的风险预警模型具有较好的准确率和召回率。

由此，本申请的风险预警模型不仅有较好的预测效果，同时，还具有较好的可解释性，对于风险预警模型使用的基础类、资产类等标签属性，可以通过风险预警模型获得与用户单位风险相关性的直观解释，有利于对模型的分析与调整，从而提升授信审批的效率。

在一些实施方式中，本申请还基于风险预警模型生成预言模型标记语言(Predictive Model Markup Language，PMML)格式的模型文件；调用该(Predictive ModelMarkup Language，PMML)格式的模型文件，封装成用户风险的联机应用程序界面(Application Program Interface，API)接口。

例如，在风险预警模型训练完成后，部署到生产环境的过程中，通过生产环境的训练样本，训练风险预警模型以及评价风险预警模型效果，进一步生成PMML格式的模型文件；以及在WEB、RPC等环境中，调用PMML文件，封装成用户风险的联机API接口，供下游应用调用。

例如，当用户办理***业务时，客户端审批***实时调用用户单位风险联机API，判断用户所在单位是否存在违约风险；若用户所在单位的存在违约风险，划分风险等级，进行相应的风险预警和提示，由此能够有效的进行审批决策。

图4是本申请实施例的风险预警模型部署及应用的一示意图。如图4所示：

步骤401：银行客户端开始进行风险评价；

步骤402：发送API请求给服务器；

步骤403：服务器读取分布式应用；

步骤404：解析请求参数；

步骤405：读取预言模型标记语言(Predictive Model Markup Language，PMML)格式的模型文件；

步骤406：获取风险评价结果；

步骤407：封装响应信息发送给客户端；

步骤408：结束。

由此，能够应用本申请实施例的风险预警模型。

需要说明的是，以上示例中的硬件结构还可以包括图中未示出的器件，具体可以参考现有技术，本申请实施例并不以此作为限制，或者，该硬件结构也不并不是必须要包括图中所示的所有部件，此处不再一一示例。

为了简单起见，图中仅示例性示出了各个部件或模块之间的连接关系或信号走向，但是本领域技术人员应该清楚的是，该连接可以采用电连接等各种相关技术。本申请实施例并不对此进行限制。

以上各个实施例仅对本申请实施例进行了示例性说明，但本申请不限于此，还可以在以上各个实施例的基础上进行适当的变型。例如，可以单独使用上述各个实施例，也可以将以上各个实施例中的一种或多种结合起来。

本申请基于用户的特征数据以及决策树模型生成风险预警模型，能够高效、准确地识别出用户的贷前风险以及为授信审批提供可靠地参考。

本申请实施例还提供一种贷前风险评价方法。

该方法对应于前述实施例的贷前风险评价装置。该方法的实施例可以参照前述实施例中的记载，重复的内容不再具体说明。

图5是本申请实施例的贷前风险评价方法的一示意图；如图5所示，该方法包括：

步骤501，获取待评价用户数据；

步骤502，提取所述用户数据的特征数据，形成风险特征库；

步骤503，将所述特征数据输入至风险预警模型，根据所述风险预警模型进行贷前风险预警和提示，其中，所述风险预警模型为使用训练样本对决策树模型进行训练以及优化得到的，所述训练样本包括：对用于模型训练的风险特征库中的特征进行标准化处理得到的关键指标的数据集。

上述各个步骤的执行及其具体内容可以参考前述实施例中对于各个相关部件的功能及其结构的描述，此处不再重复说明。

本申请的实施例还提供一种计算机设备，图6为本申请实施例中计算机设备600的示意图，计算机设备600能够实现上述实施例中的贷前风险评价方法中全部步骤，计算机设备600具体包括如下内容：

处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和通信总线604；

其中，所述处理器601、存储器602、通信接口603通过所述通信总线604完成相互间的通信；所述通信接口603用于实现服务器端设备、检测设备以及用户端设备等相关设备之间的信息传输；

所述处理器601用于调用所述存储器602中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的贷前风险评价方法中的全部步骤。

本申请的实施例还提供一种计算机可读存储介质，能够实现上述实施例中的贷前风险评价方法中全部步骤，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的贷前风险评价方法中的全部步骤。

本申请的实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述实施例中的贷前风险评价方法。

需要说明的是，本申请中技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。本申请实施例中的用户信息均是通过合法合规途径获得，并且对用户信息的获取、存储、使用、处理等经过用户授权同意的。

虽然本发明提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或用户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合具体的实施方式对本申请进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本申请保护范围的限制。本领域技术人员可以根据本申请的精神和原理对本申请做出各种变型和修改，这些变型和修改也在本申请的范围内。

Claims

1.一种贷前风险评价方法，其特征在于，所述方法包括：

获取待评价用户数据；

提取所述用户数据的特征数据，形成风险特征库；

2.根据权利要求1所述的方法，其中，对所述风险特征库中的特征进行标准化处理得到关键指标的数据集，包括：

根据所述特征的分类标签和所述特征的变化趋势筛选所述特征；

在确定筛选出来的所述特征具有发散性的情况下，选取具有发散性的所述特征；

使用单变量特征选择来分析具有发散性的所述特征与目标变量的相关性，选择具有高相关性的所述特征作为关键指标的数据集。

3.根据权利要求2所述的方法，其中，所述特征的分类标签包括二级分类标签，其中，所述二级分类标签包括以下标签的至少一种：

基础标签、资产类标签、用户增长类标签、风险标签、或者融资标签。

4.根据权利要求1所述的方法，其中，使用训练样本对决策树模型进行训练以及优化得到所述风险预警模型，包括：

使用决策树算法以及***属性构建所述关键指标的数据集的决策树；

通过自底向上对所述决策树的非叶子结点进行分析和剪枝，将剪枝后的所述决策树作为风险预警模型。

5.根据权利要求4所述的方法，其中，使用决策树算法以及***属性构建所述关键指标的数据集的决策树，包括：

选择具有最高信息增益的***属性作为所述决策树结点的属性；

使用递归算法对所述关键指标的数据集持续分类，直到获得完整的决策树。

6.根据权利要求1所述的方法，其中，根据所述风险预警模型进行贷前风险预警和提示还包括，

使用混淆矩阵计算所述风险预警模型的准确率和召回率。

7.根据权利要求1所述的方法，其中，所述方法还包括：

基于所述风险预警模型生成预言模型标记语言(Predictive Model MarkupLanguage，PMML)格式的模型文件；

调用所述(Predictive Model Markup Language，PMML)格式的模型文件，封装成用户风险的联机应用程序界面(Application Program Interface，API)接口。

8.一种贷前风险评价装置，其特征在于，所述装置包括：

获取单元，其获取待评价用户数据；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至7任意一项所述方法的计算机程序。