CN106960387A - 个人信用风险评估方法及*** - Google Patents
个人信用风险评估方法及*** Download PDFInfo
- Publication number
- CN106960387A CN106960387A CN201710296949.4A CN201710296949A CN106960387A CN 106960387 A CN106960387 A CN 106960387A CN 201710296949 A CN201710296949 A CN 201710296949A CN 106960387 A CN106960387 A CN 106960387A
- Authority
- CN
- China
- Prior art keywords
- random forest
- data
- evaluation index
- classification
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种个人信用评估方法及***,其中方法包括:获取P2P有效客户的数据将其作为原始数据集,采用bootstrap法从原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树,进而将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,最后利用随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对P2P客户的个人信用风险进行评估。本发明通过改进的随机森林法能够大大提高用户分类的准确度。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种个人信用风险评估方法及***。
背景技术
伴随着我国经济转型对刺激消费、扩大内需、调整经济发展结构的迫切需求,以及居民收入和消费能力的提升,我国消费信贷市场取得了快速的发展。然而在P2P(个人对个人)在线信贷中投资人承受着巨大的信用风险。其一,多数P2P在线信贷在借贷过程中都没有抵押,借款人一旦毁约,会导致投资方遭受巨大的损失;其二,投资人对借款人的信息认知来自于P2P在线信贷平台,存在信息不对称的因素。所以,借款人的信用风险评估是P2P在线信贷中至关重要的一个环节,其严重影响着一个平台的生命周期。因此,一个稳定、高效的信用风险评估体系显得尤为重要。
目前,国际上通用的信用评估要素主要为“5C”、“5P”和“LAPP”,主流商业银行将客户的数据通过一些评分体系,如美国的FICO评分***,对用户数据进行分析,量化用户的信用评估指标,最后根据不同的权重进行加权得到信用评分。P2P在线信贷由于对用户提供的信息要求并不严格,一般只拥有其基本资产信息、学历、年龄、身份等信息,然后通过第三方的认证平台对借款人进行信息认证,然后评定借款人的信用等级,供投资人进行参考。
由于从P2P在线信贷平台获得的数据样本是有限的、非均衡的,所以,利用现有的在线信贷风险评估***对P2P信贷用户进行分类,其精度较低,难以实现个人信用风险的准确评估。
发明内容
本发明提供了一种个人信用风险评估方法,包括以下步骤:
S100、获取P2P有效客户的数据将其作为原始数据集;
S200、采用bootstrap法(自助法)从所述原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;
S300、将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;
S400、利用所述随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对所述P2P客户的个人信用风险进行评估。
其中,步骤S300中,将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,包括以下步骤:
S310、对每个节点随机选择M个评价指标作为待选特征集,M为整数;
S320、在所述待选特征集中选择m(m<M)个评价指标计算其***值Φ(α):
Φ(α)=β1Ginidivide(S)-β2GiniRatio(A)
其中,Ginidivide(S)为:
S1,S2为样本集S分隔成的两个子集;
Gini(S1)为CART算法划分度量:
GiniRatio(A)为改进的C4.5算法中的信息增益率:
S330、比较每个评价指标的***值Φ(α),将***值Φ(α)最小的评价指标作为节点***特征,并在待选特征集中删除该评价指标;
S340、检查节点的分支所覆盖的样本是否属于同一类;如不属于同一类,则根据该***特征将其分为两个子集,在两个子集中分别依次执行步骤S310至S340;如属于同一类,则生成子节点,输出分类结果。
基于同一发明构思,本发明还提供一种个人信用风险评估***,包括原始数据获取模块、数据抽取模块、随机森林生成模块以及分类模块;
所述原始数据获取模块,用于获取P2P有效客户的数据将其作为原始数据集;
所述数据抽取模块,用于采用bootstrap法从所述原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;
所述随机森林生成模块,用于将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;
所述分类模块,用于利用所述随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对所述P2P客户的个人信用风险进行评估。
作为一种可实施方式,所述随机森林生成模块包括选取单元、计算单元、比较单元以及检查单元;
所述选取单元,用于对每个节点随机选择M个评价指标作为待选特征集,M为整数;
所述计算单元,用于在所述待选特征集中选择m(m<M)个评价指标计算其***值Φ(α):
Φ(α)=β1Ginidivide(S)-β2GiniRatio(A)
其中,Ginidivide(S)为:
S1,S2为样本集S分隔成的两个子集;
Gini(S1)为CART算法划分度量:
GiniRatio(A)为改进的C4.5算法中的信息增益率:
所述比较单元,用于比较每个评价指标的***值Φ(α),将***值Φ(α)最小的评价指标作为节点***特征,并在待选特征集中删除该评价指标;
所述检查单元,用于检查节点的分支所覆盖的样本是否属于同一类;如不属于同一类,则根据该***特征将其分为两个子集,在两个子集中分别依次执行选取单元、计算单元、比较单元的动作;如属于同一类,则生成子节点,输出分类结果。
本发明相比于现有技术的有益效果在于:
本发明提供的个人信用风险评估方法及***,通过获取P2P有效客户的数据将其作为原始数据集,采用bootstrap法从原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树,进而将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,最后利用随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对P2P客户的个人信用风险进行评估。本发明通过改进的随机森林法能够大大提高用户分类的准确度。
附图说明
图1为本发明一实施例提供的个人信用风险评估方法的流程示意图;
图2为图1所示的个人信用风险评估方法的原理示意图;
图3为图1所示的个人信用风险评估方法中的步骤S300的一实施方式的流程示意图;
图4为本发明另一实施例提供的个人信用风险评估***的原理示意图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部实施例。
随机森林算法具有极高的准确率、以及对非均衡样本和噪声良好的容忍度,所以本发明将随机森林方法引入P2P在线信贷风险评估中。随机森林方法建模思想是利用bootstrap方法从原始的样本集中随机抽取获得多个子样本集,对每个子样本集进行决策树建模,然后根据投票法对多棵决策树的预测结果进行投票来确定随机森林的预测结果。
请参阅图1和图2,本发明一实施例提供的个人信用风险评估方法,本发明提供了一种个人信用风险评估方法,包括以下步骤:
S100、获取P2P有效客户的数据将其作为原始数据集;
S200、采用自助法从原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;
S300、将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;
S400、利用随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对P2P客户的个人信用风险进行评估。
作为一种可实施方式,步骤S300中,将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,包括以下步骤:
S310、对每个节点随机选择M个评价指标作为待选特征集,M为整数;
S320、在待选特征集中选择m(m<M)个评价指标计算其***值Φ(α):
Φ(α)=β1Ginidivide(S)-β2GiniRatio(A)
其中,Ginidivide(S)为:
S1,S2为样本集S分隔成的两个子集;
Gini(S1)为CART算法划分度量:
GiniRatio(A)为改进的C4.5算法中的信息增益率:
S330、比较每个评价指标的***值Φ(α),将***值Φ(α)最小的评价指标作为节点***特征,并在待选特征集中删除该评价指标;
S340、检查节点的分支所覆盖的样本是否属于同一类;如不属于同一类,则根据该***特征将其分为A、B两个子集,在A、B两个子集中分别依次执行步骤S310至S340;如属于同一类,则生成子节点,输出分类结果。
参见图3,本发明另一实施例提供的个人信用风险评估方法,步骤S300中的将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,可以通过以下步骤实现:
S301、随机选择m个评价指标得到待选特征集;
S302、在待选特征集中选择n个评价指标并计算其***值;
S303、将***值最小的评价指标作为节点***特征;
S304、在待选特征集中删除该评价指标;
S305、判断节点的分支所覆盖的样本是否属于同一类,若否,则返回步骤S302;
S306、若是,则生成子节点,输出分类结果。
基于同一发明构思,本发明还提供一种个人信用风险评估***,该***与上述方法的原理相同,***的实施可参照上述方法实现,重复之处不再冗述。
参见图4,本发明提供的个人信用风险评估***包括原始数据获取模块100、数据抽取模块200、随机森林生成模块300以及分类模块400。其中,原始数据获取模块100用于获取P2P有效客户的数据将其作为原始数据集;数据抽取模块200用于采用bootstrap法从原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;随机森林生成模块300用于将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;分类模块400用于利用随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对P2P客户的个人信用风险进行评估。
作为一种可实施方式,随机森林生成模块300包括选取单元、计算单元、比较单元以及检查单元。其中:
选取单元用于对每个节点随机选择M个评价指标作为待选特征集,M为整数。
计算单元用于在待选特征集中选择m(m<M)个评价指标计算其***值Φ(α):
Φ(α)=β1Ginidivide(S)-β2GiniRatio(A)
其中,Ginidivide(S)为:
S1,S2为样本集S分隔成的两个子集;
Gini(S1)为CART算法划分度量:
GiniRatio(A)为改进的C4.5算法中的信息增益率:
比较单元用于比较每个评价指标的***值Φ(α),将***值Φ(α)最小的评价指标作为节点***特征,并在待选特征集中删除该评价指标。
检查单元用于检查节点的分支所覆盖的样本是否属于同一类;如不属于同一类,则根据该***特征将其分为两个子集,在两个子集中分别依次执行选取单元、计算单元、比较单元的动作;如属于同一类,则生成子节点,输出分类结果。
本发明提供的个人信用风险评估方法及***,通过获取P2P有效客户的数据将其作为原始数据集,采用bootstrap法从所述原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树,进而将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,最后利用所述随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对所述P2P客户的个人信用风险进行评估。本发明通过改进的随机森林法能够大大提高用户分类的准确度。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种个人信用风险评估方法,其特征在于,包括以下步骤:
S100、获取P2P有效客户的数据将其作为原始数据集;
S200、采用bootstrap法从所述原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;
S300、将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;
S400、利用所述随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对所述P2P客户的个人信用风险进行评估。
2.根据权利要求1所述的个人信用风险评估方法,其特征在于,步骤S300中,将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,包括以下步骤:
S310、对每个节点随机选择M个评价指标作为待选特征集,M为整数;
S320、在所述待选特征集中选择m(m<M)个评价指标计算其***值Φ(α):
Φ(α)=β1Ginidivide(S)-β2GiniRatio(A)
其中,Ginidivide(S)为:
S1,S2为样本集S分隔成的两个子集;
Gini(S1)为CART算法划分度量:
GiniRatio(A)为改进的C4.5算法中的信息增益率:
S330、比较每个评价指标的***值Φ(α),将***值Φ(α)最小的评价指标作为节点***特征,并在待选特征集中删除该评价指标;
S340、检查节点的分支所覆盖的样本是否属于同一类;如不属于同一类,则根据该***特征将其分为两个子集,在两个子集中分别依次执行步骤S310至S340;如属于同一类,则生成子节点,输出分类结果。
3.一种个人信用风险评估***,其特征在于,包括原始数据获取模块、数据抽取模块、随机森林生成模块以及分类模块;
所述原始数据获取模块,用于获取P2P有效客户的数据将其作为原始数据集;
所述数据抽取模块,用于采用bootstrap法从所述原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;
所述随机森林生成模块,用于将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;
所述分类模块,用于利用所述随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对所述P2P客户的个人信用风险进行评估。
4.根据权利要求3所述的个人信用风险评估***,其特征在于,所述随机森林生成模块包括选取单元、计算单元、比较单元以及检查单元;
所述选取单元,用于对每个节点随机选择M个评价指标作为待选特征集,M为整数;
所述计算单元,用于在所述待选特征集中选择m(m<M)个评价指标计算其***值Φ(α):
Φ(α)=β1Ginidivide(S)-β2GiniRatio(A)
其中,Ginidivide(S)为:
S1,S2为样本集S分隔成的两个子集;
Gini(S1)为CART算法划分度量:
GiniRatio(A)为改进的C4.5算法中的信息增益率:
所述比较单元,用于比较每个评价指标的***值Φ(α),将***值Φ(α)最小的评价指标作为节点***特征,并在待选特征集中删除该评价指标;
所述检查单元,用于检查节点的分支所覆盖的样本是否属于同一类;如不属于同一类,则根据该***特征将其分为两个子集,在两个子集中分别依次执行选取单元、计算单元、比较单元的动作;如属于同一类,则生成子节点,输出分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710296949.4A CN106960387A (zh) | 2017-04-28 | 2017-04-28 | 个人信用风险评估方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710296949.4A CN106960387A (zh) | 2017-04-28 | 2017-04-28 | 个人信用风险评估方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106960387A true CN106960387A (zh) | 2017-07-18 |
Family
ID=59484653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710296949.4A Pending CN106960387A (zh) | 2017-04-28 | 2017-04-28 | 个人信用风险评估方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106960387A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960561A (zh) * | 2018-05-04 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种基于不平衡数据的风控模型处理方法、装置及设备 |
CN109325844A (zh) * | 2018-06-25 | 2019-02-12 | 南京工业大学 | 多维数据下的网***人信用评价方法 |
CN109767317A (zh) * | 2018-12-15 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 基于会员等级评定的贷款审核方法、装置、设备及介质 |
CN109903140A (zh) * | 2019-03-07 | 2019-06-18 | 阿里巴巴集团控股有限公司 | 一种信用服务推荐方法、装置及设备 |
WO2019120023A1 (zh) * | 2017-12-22 | 2019-06-27 | Oppo广东移动通信有限公司 | 性别预测方法、装置、存储介质及电子设备 |
CN110334737A (zh) * | 2019-06-04 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的客户风险指标筛选的方法和*** |
CN110443692A (zh) * | 2019-07-04 | 2019-11-12 | 平安科技(深圳)有限公司 | 企业信贷审核方法、装置、设备及计算机可读存储介质 |
CN110827131A (zh) * | 2018-07-23 | 2020-02-21 | 中国软件与技术服务股份有限公司 | 一种分布式自动特征组合的纳税人信用评估方法 |
CN110826618A (zh) * | 2019-11-01 | 2020-02-21 | 南京信息工程大学 | 一种基于随机森林的个人信用风险评估方法 |
-
2017
- 2017-04-28 CN CN201710296949.4A patent/CN106960387A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019120023A1 (zh) * | 2017-12-22 | 2019-06-27 | Oppo广东移动通信有限公司 | 性别预测方法、装置、存储介质及电子设备 |
CN109961077A (zh) * | 2017-12-22 | 2019-07-02 | 广东欧珀移动通信有限公司 | 性别预测方法、装置、存储介质及电子设备 |
CN108960561A (zh) * | 2018-05-04 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种基于不平衡数据的风控模型处理方法、装置及设备 |
CN109325844A (zh) * | 2018-06-25 | 2019-02-12 | 南京工业大学 | 多维数据下的网***人信用评价方法 |
CN110827131A (zh) * | 2018-07-23 | 2020-02-21 | 中国软件与技术服务股份有限公司 | 一种分布式自动特征组合的纳税人信用评估方法 |
CN110827131B (zh) * | 2018-07-23 | 2022-06-28 | 中国软件与技术服务股份有限公司 | 一种分布式自动特征组合的纳税人信用评估方法 |
CN109767317A (zh) * | 2018-12-15 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 基于会员等级评定的贷款审核方法、装置、设备及介质 |
CN109903140A (zh) * | 2019-03-07 | 2019-06-18 | 阿里巴巴集团控股有限公司 | 一种信用服务推荐方法、装置及设备 |
CN110334737A (zh) * | 2019-06-04 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的客户风险指标筛选的方法和*** |
CN110334737B (zh) * | 2019-06-04 | 2023-04-07 | 创新先进技术有限公司 | 一种基于随机森林的客户风险指标筛选的方法和*** |
CN110443692A (zh) * | 2019-07-04 | 2019-11-12 | 平安科技(深圳)有限公司 | 企业信贷审核方法、装置、设备及计算机可读存储介质 |
CN110443692B (zh) * | 2019-07-04 | 2024-05-10 | 平安科技(深圳)有限公司 | 企业信贷审核方法、装置、设备及计算机可读存储介质 |
CN110826618A (zh) * | 2019-11-01 | 2020-02-21 | 南京信息工程大学 | 一种基于随机森林的个人信用风险评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106960387A (zh) | 个人信用风险评估方法及*** | |
CN110334737B (zh) | 一种基于随机森林的客户风险指标筛选的方法和*** | |
Ahn et al. | The integrated methodology of rough set theory and artificial neural network for business failure prediction | |
CN108665159A (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN111311416B (zh) | 一种基于多通道图和图神经网络的区块链洗钱节点检测方法 | |
CN103886108B (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN111080442A (zh) | 信用评分模型的构建方法、装置、设备及存储介质 | |
Verma et al. | Credit Card Fraud Detection using Selective Class Sampling and Random Forest Classifier | |
CN110084603A (zh) | 训练欺诈交易检测模型的方法、检测方法以及对应装置 | |
Mathew et al. | Perceptions and intentions of customers towards mobile banking adoption | |
Habiba et al. | A comparative study on fake job post prediction using different data mining techniques | |
CN110084609A (zh) | 一种基于表征学习的交易欺诈行为深度检测方法 | |
CN114298834A (zh) | 一种基于自组织映射网络的个人信用评估方法及*** | |
CN115204901A (zh) | 基于多特征融合的***欺诈检测方法、装置及介质 | |
Liu et al. | An innovative model fusion algorithm to improve the recall rate of peer-to-peer lending default customers | |
CN109801162A (zh) | 一种社交媒体数据与多标准交叉认证融合的信用评级方法 | |
Wijesoma et al. | Selecting optimal personalized features for on-line signature verification using GA | |
Zhang | Research on credit risk forecast model based on data mining technology | |
Zhang | Applications of the decision tree in business field | |
Faraj et al. | Comparison of different ensemble methods in credit card default prediction | |
Reddy et al. | Peer to peer lending, default prediction-evidence from lending club | |
Uriawan et al. | Laps: Computing loan default risk from user activity, profile, and recommendations | |
Shaik et al. | Customer loan eligibility prediction using machine learning | |
CN109840699A (zh) | 合格投资者线上评估方法、装置、计算机设备和存储介质 | |
Jiang | Analysis of WeChat Pay Based on Technology Acceptance Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170718 |