CN111738870A - 基于特征工程的工程履约保证保险风险识别方法与平台 - Google Patents

基于特征工程的工程履约保证保险风险识别方法与平台 Download PDF

Info

Publication number
CN111738870A
CN111738870A CN202010739603.9A CN202010739603A CN111738870A CN 111738870 A CN111738870 A CN 111738870A CN 202010739603 A CN202010739603 A CN 202010739603A CN 111738870 A CN111738870 A CN 111738870A
Authority
CN
China
Prior art keywords
feature
engineering
data
features
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010739603.9A
Other languages
English (en)
Other versions
CN111738870B (zh
Inventor
曾雪强
谢仑辰
徐学武
史清江
陈海军
化允
陈华龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gongbao Technology Zhejiang Co ltd
Original Assignee
Gongbao Technology Zhejiang Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gongbao Technology Zhejiang Co ltd filed Critical Gongbao Technology Zhejiang Co ltd
Priority to CN202010739603.9A priority Critical patent/CN111738870B/zh
Publication of CN111738870A publication Critical patent/CN111738870A/zh
Application granted granted Critical
Publication of CN111738870B publication Critical patent/CN111738870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于特征工程的工程履约保证保险风险识别方法与平台,首先,对工程业务数据执行预处理操作,根据预处理后的数据构造初始训练数据集;然后,根据初始训练数据集,利用XGBoost模型训练得到一个基准风险评估模型;接着,针对初始训练数据集,利用基于最大互信息特征选择策略与基准风险评估模型进行特征筛选,得到筛选后的训练数据集,并使用XGBoost模型训练得到最终的风险评估模型;最后,利用得到的风险评估模型对待评估项目进行风险评估。本发明可以从大量冗余的工程项目数据中找出关键特征,在保证模型预测性能的同时减小模型复杂度。

Description

基于特征工程的工程履约保证保险风险识别方法与平台
技术领域
本发明涉及工程保证保险与机器学***台。
背景技术
建设工程项目的施工工艺和施工流程复杂,项目参与方较多,项目周期长,涉及面广,施工单位的违约会造成多方面的损失,因此引入建设工程保证保险的风控机制尤为重要,能够有效帮助建筑企业释放现金保证金压力,减轻企业负担。对于保险行业而言,开展建设工程保证保险面临的主要难题是数据和风控,保险公司对于建设工程项目专业知识和技术的缺乏,导致对投保人、投保项目和被保险人的风险难以评估。而非融资类保证保险审批速度要求较快,无法对投保人、工程项目、被保险人进行全面审查。
造成工程违约的风险因素具有多样性、普遍性、客观性和偶然性等特性,导致履约的风险因素数量庞大且各风险因素之间具有很强的关联性。当前的工程保证保险多以人力判断为主,耗时长、未利用到广泛的项目数据信息,此为目前风险判别方法的不足。而本发明的算法模型利用到大量数据信息与智能算法模型,对投保人、工程项目、被保险人的风险因素进行整合分析,能够真正达到对建设工程违约风险进行快速识别,辅助保险公司降低承保风险。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于特征工程的工程履约保证保险风险识别方法与平台。
本发明的目的是通过以下技术方案来实现的:一种基于特征工程的工程履约保证保险风险识别方法,所述方法包括如下步骤:
S1:对工程项目信息数据执行预处理操作得到工程业务数据,根据工程业务数据构造初始训练数据集;
S2:根据初始训练数据集,利用XGBoost模型训练得到基准风险评估模型,并记录基准 风险评估模型的判别准确率
Figure 319634DEST_PATH_IMAGE001
S3:针对初始训练数据集,利用特征工程进行特征筛选,所述特征工程为最大相关最小 冗余联合最大互信息系数特征选择策略,记为MR-MIC,并结合基准风险评估模型及其判别 准确率
Figure 331453DEST_PATH_IMAGE002
,得到筛选后的训练数据集;具体为:首先计算工程业务数据中每一对 特征和每个特征与其对应类别标签的最大互信息系数,然后构建特征索引集,并记录每个 特征索引集的判别准确率
Figure 155052DEST_PATH_IMAGE003
,选出准确率最高的特征索引集,同时记录最高判别 准确率
Figure 746571DEST_PATH_IMAGE004
,与基准风险评估模型的判别准确率
Figure 972016DEST_PATH_IMAGE002
进行对比,若
Figure 154735DEST_PATH_IMAGE005
,则确定选出的特征索引集为最终选用的特征索引集,若
Figure 731210DEST_PATH_IMAGE006
,则按照特征索引集中的特征数将特征索引集从大到小排序并 遍历,找到一个特征索引集,其判别准确率
Figure 923157DEST_PATH_IMAGE003
大于准确率阈值,准确率阈值根据判 别准确率
Figure 504573DEST_PATH_IMAGE002
以及需求的精度选择,且满足被筛去的特征数量大于特征数量阈值; 基于找到的特征索引集进行特征筛选,得到筛选后的训练数据集;
S4:针对筛选后的训练数据集,使用XGBoost模型训练得到最终的风险评估模型;
S5:对待评估工程项目信息数据经过步骤S1所述的数据预处理及步骤S3所述的MR-MIC特征筛选,然后将经过预处理和特征筛选后的工程业务数据输入到步骤S4得到的最终的风险评估模型,得到待评估项目的风险评估结果。
进一步地,步骤S1中预处理操作具体包括:
对于工程业务数据中以文字形式描述的类别特征进行独热编码处理得到离散数值型特征,同时,对于工程业务数据中以数值形式描述的特征利用中位值填充方法对缺失值进行填充,完成数据预处理。
进一步地,步骤S3中特征筛选策略具体包括:
S31:设定网格划分尺寸参数B,产生满足mn<B的各种(m,n)的正整数组合,mn为网格横向和纵向划分的取值;
S32:对工程业务数据中每一对特征XY,遍历每一组(m,n),将X的特征取值空间均匀划分成m份,并利用动态规划找到使得特征XY之间互信息最大的特征Y的划分,然后,固定特征Y的划分,利用动态规划找到使得特征XY之间互信息最大的特征X的划分,接着,固定特征X的划分,再利用动态规划找到使得特征XY之间互信息最大的特征Y的划分,最后输出每一组(m,n)对应的最大互信息值I mn (X,Y);
S33:根据下面的公式计算每一对XY的最大互信息系数
Figure 123773DEST_PATH_IMAGE007
Figure 125228DEST_PATH_IMAGE008
工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征XY的最大互信息系数计算方法一致;
S34:构建特征索引集S 1
Figure 855286DEST_PATH_IMAGE009
其中
Figure 789744DEST_PATH_IMAGE010
为工程业务数据中的第k个特征,c为类别标签;
Figure 579846DEST_PATH_IMAGE011
为根据步骤S32和步 骤S33计算得到的特征
Figure 865333DEST_PATH_IMAGE010
和其对应的类别标签c之间的最大互信息系数;
S35:通过如下公式生成其余特征索引集
Figure 399083DEST_PATH_IMAGE012
Figure 453627DEST_PATH_IMAGE013
其中T表示工程业务数据中的特征总数;
Figure 927813DEST_PATH_IMAGE014
为特征索引集S t 中的索引为i的特征,
Figure 435018DEST_PATH_IMAGE015
为 未被选出的特征索引集
Figure 710141DEST_PATH_IMAGE016
中索引为j的特征;
S36:将每一个特征索引集S t 对应的数据集输入到XGBoost模型,记录判别准确率
Figure 884771DEST_PATH_IMAGE003
,并选出准确率最高的特征索引集
Figure 751095DEST_PATH_IMAGE017
,同时记录最高判别准确率
Figure 276755DEST_PATH_IMAGE018
S37:将
Figure 886728DEST_PATH_IMAGE018
与步骤S2所述的基准风险评估模型的判别准确率
Figure 650284DEST_PATH_IMAGE019
进 行比较,若
Figure 687510DEST_PATH_IMAGE020
,则确定
Figure 201931DEST_PATH_IMAGE017
为最终选用的特征索引集,若
Figure 615594DEST_PATH_IMAGE021
,则从大到小遍历t,找到一个t,其判别准确率
Figure 499237DEST_PATH_IMAGE003
大于准 确率阈值,即
Figure 972943DEST_PATH_IMAGE022
,且满足被筛去的特征数量大于特征数量阈 值,即筛去的特征数量
Figure 145299DEST_PATH_IMAGE023
,并确定S t 作为最终选用的特征索引集,其中,ab为根据 需求设定的参数;
S38:基于最终选用的特征索引集进行特征筛选,得到筛选后的训练数据集。
一种基于特征工程的工程履约保证保险风险识别平台,所述平台包括数据输入模块、数据处理模块、特征计算与筛选模块、模型训练模块和风险评估模块:
所述数据输入模块,用于接受需要进行风险识别的工程项目信息数据,该模块包括录入用于模型训练的工程项目信息数据或待评估的工程项目信息数据;
所述数据处理模块,用于对工程项目信息数据执行预处理操作得到工程业务数据,生成初始训练数据集或对待评估工程项目信息数据进行预处理;
所述特征计算与筛选模块,用于对数据处理模块预处理后的数据利用特征工程进行特 征筛选,所述特征工程为最大相关最小冗余联合最大互信息系数特征选择策略,记为MR- MIC,并结合模型训练模块得到的基准风险判别模型及其判别准确率
Figure 97074DEST_PATH_IMAGE001
进行特征 筛选,得到筛选后的训练数据集,具体为:首先计算工程业务数据中每一对特征和每个特征 与其对应类别标签的最大互信息系数,然后构建特征索引集,并记录每个特征索引集的判 别准确率
Figure 100802DEST_PATH_IMAGE003
,选出准确率最高的特征索引集,同时记录最高判别准确率
Figure 745410DEST_PATH_IMAGE004
,与基准风险评估模型的判别准确率
Figure 201799DEST_PATH_IMAGE024
进行对比,若
Figure 458731DEST_PATH_IMAGE025
,则确定选出的特征索引集为最终选用的特征索引集,若
Figure 316965DEST_PATH_IMAGE006
,则按照特征索引集中的特征数将特征索引集从大到小排序并 遍历,找到一个特征索引集,其判别准确率
Figure 335737DEST_PATH_IMAGE003
大于准确率阈值,准确率阈值根据判 别准确率
Figure 279422DEST_PATH_IMAGE001
以及需求的精度选择,且满足被筛去的特征数量大于特征数量阈值; 基于找到的特征索引集进行特征筛选,得到筛选后的训练数据集;
所述模型训练模块,用于对数据处理模块预处理后的数据使用XGBoost模型进行训练 得到基准风险判别模型,并记录基准风险判别模型的判别准确率
Figure 573000DEST_PATH_IMAGE024
;或者对特征 计算与筛选模块产生的筛选后的训练数据集使用XGBoost模型进行训练,得到最终的风险 判别模型;
所述风险评估模块,用于依据最终的风险评估模型给出数据输入模块录入的待评估的工程项目信息数据的风险判别结果。
进一步地,所述数据输入模块包括从外界接受统一方式输入的数据,并存入数据库。
进一步地,所述数据处理模块包括文字特征处理模块和数值特征处理模块;
所述文字特征处理模块,用于针对工程业务数据中以文字形式描述的类别特征,进行独热编码处理,得到离散数值型特征;
所述数值特征处理模块,用于针对工程业务数据中以数值形式描述的特征,利用中位值填充方法对缺失值进行填充。
进一步地,所述特征计算与筛选模块包括最大互信息系数计算模块、特征索引集生成模块和特征筛选模块;
所述最大互信息系数计算模块,用于计算数据处理模块得到的工程业务数据中的每一对特征XY的最大互信息系数或者每个特征和其对应类别标签之间的最大互信息系数;具体如下:
a. 设定网格划分尺寸参数B,产生满足mn<B的各种(m,n)的正整数组合,mn为网格横向和纵向划分的取值;
b. 对工程业务数据中每一对特征XY,遍历每一组(m,n),将X的特征取值空间均匀划分成m份,并利用动态规划找到使得特征XY之间互信息最大的特征Y的划分,然后,固定特征Y的划分,利用动态规划找到使得特征XY之间互信息最大的特征X的划分,接着,固定特征X的划分,再利用动态规划找到使得特征XY之间互信息最大的特征Y的划分,最后输出每一组(m,n)对应的最大互信息值I mn (X,Y);
c. 根据下面的公式计算每一对XY的最大互信息系数
Figure 285741DEST_PATH_IMAGE007
Figure 537731DEST_PATH_IMAGE026
工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征XY的最大互信息系数计算方法一致;
所述特征索引集生成模块,用于根据最大互信息系数模块计算的每一对特征之间和每个特征和其对应类别标签之间的最大互信息系数,使用MR-MIC特征选择策略,对通过数据处理模块预处理后的数据进行特征筛选,生成所有特征索引集,具体如下:
a. 构建特征索引集S 1
Figure 968712DEST_PATH_IMAGE027
其中
Figure 65981DEST_PATH_IMAGE010
为工程业务数据中的第k个特征,c为类别标签;
Figure 134694DEST_PATH_IMAGE011
为根据最大互信息 系数计算模块得到的特征
Figure 495268DEST_PATH_IMAGE010
和其对应的类别标签c之间的最大互信息系数;
b. 通过如下公式生成其余特征索引集
Figure 413545DEST_PATH_IMAGE012
Figure 48926DEST_PATH_IMAGE028
其中T表示工程业务数据中的特征总数;
Figure 736259DEST_PATH_IMAGE014
为特征索引集S t 中的索引为i的特征,
Figure 330052DEST_PATH_IMAGE015
为 未被选出的特征索引集
Figure 470046DEST_PATH_IMAGE029
中索引为j的特征;
所述特征筛选模块,用于从特征索引集生成模块获得的所有特征索引集中选出准确率 值最高的特征索引集
Figure 174697DEST_PATH_IMAGE017
,同时记录最高判别准确率
Figure 716537DEST_PATH_IMAGE018
,与基准风险评估模型的判 别准确率
Figure 418913DEST_PATH_IMAGE019
进行对比,若
Figure 547669DEST_PATH_IMAGE030
,则确定
Figure 524852DEST_PATH_IMAGE031
为最终选用的特征 索引集,若
Figure 452357DEST_PATH_IMAGE032
,则从大到小遍历t,找到一个t,其判别准确率
Figure 122373DEST_PATH_IMAGE003
大于准确率阈值,即
Figure 236959DEST_PATH_IMAGE033
,且满足被筛去的特征数量大于特征数 量阈值,即筛去的特征数量
Figure 17833DEST_PATH_IMAGE023
,并确定S t 作为最终选用的特征索引集,其中,ab为 根据需求设定的参数,并基于最终选用的特征索引集进行特征筛选,得到筛选后的训练数 据集。
本发明的有益效果:本发明利用了MR-MIC特征选择策略,可以从大量工程项目数据中找出与类别标签最为相关的特征,同时保证挑选的特征之间冗余程度较低,从而在保证模型预测性能的同时减小模型复杂度。本发明同时选用了XGBoost算法构建模型,从而保证提出的风险识别方法的结果准确性。
附图说明
图1为本发明提供的基于特征工程的工程履约保证保险风险识别方法流程图;
图2为本发明提供的基于特征工程的工程履约保证保险风险识别平台结构示意图;
图3为工程履约保证保险领域特征结构图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的说明,所描述的实施例旨在便于对本发明的理解,但对其不起任何限定作用。
本发明提供的一种基于特征工程的工程履约保证保险风险识别方法,主要流程如图1所示,包括如下步骤:
1. 对工程业务数据执行预处理操作,根据预处理后的数据构造初始训练数据集。
本发明利用的XGBoost算法无法处理文字分类特征,因此需要对该类型特征进行编码转换,本发明处理的工程履约保证保险领域的特征结构图如图3所示,本实施例中使用独热编码,其含义为使用N位寄存器存储N种状态,每个状态都有独立的寄存器位,且寄存器中只有一位有效。例如,如表1所示,“施工难度”特征包含三种取值,因此可以被拓展为三个特征。原特征转换后的三位编码中,仅对应转换位为状态1,其余为0,即“简单”这一取值可以被转换为“施工难度_简单”、“施工难度_一般”、“施工难度_复杂”分别取1、0、0三个取值的编码。
表1 文字量特征编码示意表
施工难度 施工难度_简单 施工难度_一般 施工难度_复杂
简单 1 0 0
一般 0 1 0
复杂 0 0 1
另外,输入的工程业务信息中有部分缺失值。考虑到数据的实际含义与算法部署的要求,可以对某特征缺失位置使用同一特征维度数据的中位数进行填充,避免对数据分布与实际含义造成过大的影响。
2. 根据初始训练数据集,利用XGBoost模型训练得到一个基准风险评估模型,并 记录基准风险评估模型的判别准确率
Figure 534265DEST_PATH_IMAGE034
XGBoost(eXtreme Gradient Boosting)是梯度提升(Gradient Boosting,GB)方 法的高效实现,是一种用于回归和分类问题的学习模型,具有不易过拟合、灵活性高、收敛 速度快、准确度高等特点。使用XGBoost模型,可以保证风险评估性能较好。实施例中,使用 步骤1获得的训练数据集,利用默认参数的XGBoost模型直接训练,可以得到基准风险评估 模型,此时记录模型的判别准确率
Figure 375182DEST_PATH_IMAGE002
,以备后续使用。在观察模型结果的过程中, 评估模型的数据结果拥有以下四种可能:
a. 真阳性
Figure 478530DEST_PATH_IMAGE035
:样本真实类别为阳性,模型预测结果也是阳性;
b. 真阴性
Figure 63095DEST_PATH_IMAGE036
:样本真实类别为阴性,模型预测结果也是阴性;
c. 假阳性
Figure 637296DEST_PATH_IMAGE037
:样本真实类别为阴性,模型预测结果是阳性;
d. 假阴性
Figure 649114DEST_PATH_IMAGE038
:样本真实类别为阳性,模型预测结果是阴性。
本发明涉及的数据为二分类数据,包含“投保”与“不投保”两个类别。因“不投保”类数据较少,且对这一分类数据进行错误判别会对公司造成较大的损失,因此模型的比较标准以“不投保”数据的模型判别指标为主。若定义本发明所用的“不投保”数据为阳性类(Positive),“投保”数据为阴性类(Negative),则可以计算出“不投保”数据的精确率Precision、召回率RecallF1-Score,其含义如下:
a. 精确率Precision
Figure 472714DEST_PATH_IMAGE039
被判别为阳性的数据样本中真实类别为阳性的比例,即模型针对阳性类的判别准确度;
b. 召回率Recall
Figure 126549DEST_PATH_IMAGE040
真实类别为阳性的数据样本中被判别为阳性的比例;
c. F1-Score
Figure 351994DEST_PATH_IMAGE041
F1-Score是精确率与召回率的调和平均。
另外也需要比较所有样本被判别正确的比例,即总体准确率:
Figure 534713DEST_PATH_IMAGE042
综合考量后,本实施例使用的
Figure 314451DEST_PATH_IMAGE003
为“不投保”类的Recall值和模型总体准确率
Figure 240818DEST_PATH_IMAGE043
值之和,以达到考虑对业务有较大威胁的类别数据,同时也兼顾总体准确率的目 的。
3. 针对初始训练数据集,利用MR-MIC特征选择策略与基准风险评估模型进行特征筛选,得到筛选后的训练数据集。
A.产生网格划分
在实施时,需要设定网格划分参数B,产生满足mn<B的各种(m,n)的正整数组合,B为经 验参数,若该参数过大,会导致网格划分数多,从而计算复杂化,而过小会导致划分的区间 模式过于简单,因此一般设为
Figure 822235DEST_PATH_IMAGE044
B.确定最大互信息值
对工程业务数据中每一对特征XY,遍历每一组(m,n),将X的特征取值空间均匀划分成m份,并利用动态规划找到使得特征XY之间互信息最大的特征Y的划分,然后,固定特征Y的划分,利用动态规划找到使得特征XY之间互信息最大的特征X的划分,接着,固定特征X的划分,再利用动态规划找到使得特征XY之间互信息最大的特征Y的划分,最后输出每一组(m,n)对应的最大互信息值I mn (X,Y)。
C. 确定最大互信息系数
根据下面的公式计算每一对XY的最大互信息系数
Figure 441435DEST_PATH_IMAGE007
Figure 505206DEST_PATH_IMAGE026
工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征XY的最大互信息系数计算方法一致;
D.构建初始特征索引集
初始情况下,遍历所有特征
Figure 969685DEST_PATH_IMAGE045
,选取其中与类别标签c的最大互信息系数最大之特征索 引,并由此构建初始特征索引集S 1
Figure 169722DEST_PATH_IMAGE009
其中
Figure 163086DEST_PATH_IMAGE010
为工程业务数据中的第k个特征,c为类别标签;
Figure 182995DEST_PATH_IMAGE011
为根据步骤S32和步 骤S33计算得到的特征
Figure 716744DEST_PATH_IMAGE010
和其对应的类别标签c之间的最大互信息系数;
E.构建所有特征索引集
在得到初始特征索引集后,每次添加特征须选取一个与类别标签c相关度最高,且和已 挑选特征间相关度最低的特征的索引,因此通过如下公式生成其余特征索引集
Figure 36867DEST_PATH_IMAGE012
Figure 233755DEST_PATH_IMAGE046
其中T表示工程业务数据中的特征总数;
Figure 6539DEST_PATH_IMAGE047
为特征索引集S t 中的索引为i的特征,
Figure 78401DEST_PATH_IMAGE015
为 未被选出的特征索引集
Figure 987451DEST_PATH_IMAGE048
中索引为j的特征。
F.进行模型判定与结果记录
完成所有特征索引集生成后,需要将每一个索引集S t 对应的数据集输入到XGBoost模 型,记录判别准确率
Figure 322617DEST_PATH_IMAGE003
,并选出判别准确率最高的特征索引集
Figure 317118DEST_PATH_IMAGE049
,记录最高判别准 确率
Figure 192670DEST_PATH_IMAGE004
G.特征索引集挑选
Figure 487385DEST_PATH_IMAGE004
与步骤2所述的基准风险评估模型的判别准确率
Figure 524611DEST_PATH_IMAGE002
进行比 较,若
Figure 761734DEST_PATH_IMAGE050
,则确定
Figure 175397DEST_PATH_IMAGE017
为最终选用的特征索引集,该过程用于确定筛 选后性能超过原数据的特征筛选方式,实施例中通过该标准可以完成最佳特征索引集的筛 选。另外,当
Figure 262302DEST_PATH_IMAGE051
,表明筛选后都有不同程度的损失,则此时需要 从大到小遍历t,在实施例之中,设定找到一个满足
Figure 470430DEST_PATH_IMAGE052
,同时 被筛去的特征数量
Figure 439523DEST_PATH_IMAGE053
的特征索引集S t ,即准确率不降低超过5%且筛去超过20%特 征,并确定其为最终选用的特征索引集,该挑选标准用于达到在保留数据性能的情况下,删 除尽可能多特征的目的。
H.得到筛选后数据集
使用最终选用的特征索引集,可以对工程业务数据进行筛选,从而得到筛选后的训练数据集。
4. 针对筛选后的训练数据集,使用XGBoost模型训练得到最终的风险评估模型。
本实施例中,在确定最终的特征索引集和筛选后数据集后,利用筛选后数据重新对模型进行训练,特征筛选前后的“不投保”类模型指标与准确率对比如表2所示:
表2 特征筛选前后“不投保”类模型指标与准确率对比
<i>Precision</i> <i>Recall</i> <i>F1-Score</i> <i>Accuracy</i>
筛选前 0.67 0.55 0.61 0.86
筛选后 0.71 0.56 0.63 0.87
观察上表发现,经过特征筛选后,“不投保”类的模型指标有了明显提升,同时总体准确率上升,说明MR-MIC特征筛选方法有较好的效果。
5. 对待评估工程项目的数据经过步骤1所述的数据预处理及步骤3所述的特征筛选,然后将经过预处理和特征筛选后的数据输入到步骤4所得到的最终的风险评估模型,得到待评估项目的风险识别结果。
如图2所示,本发明还提供了一种基于特征工程的工程履约保证保险风险识别平台,包括数据输入模块、数据处理模块、特征计算与筛选模块、模型训练模块和风险评估模块
所述数据输入模块,用于接受需要进行风险识别的工程项目信息数据,该模块包括录入用于模型训练的工程项目信息数据或待评估的工程项目信息数据;
所述数据处理模块,用于对工程项目信息数据执行预处理操作得到工程业务数据,生成初始训练数据集或对待评估工程项目信息数据进行预处理;
所述特征计算与筛选模块,用于对数据处理模块预处理后的数据利用特征工程进行特 征筛选,所述特征工程为最大相关最小冗余联合最大互信息系数特征选择策略,记为MR- MIC,并结合模型训练模块得到的基准风险判别模型及其判别准确率
Figure 922457DEST_PATH_IMAGE001
,首先计 算工程业务数据中每一对特征和每个特征与其对应类别标签的最大互信息系数,然后构建 特征索引集,并记录每个特征索引集的判别准确率
Figure 660605DEST_PATH_IMAGE003
,选出准确率最高的特征索 引集,同时记录最高判别准确率
Figure 305213DEST_PATH_IMAGE004
,与基准风险评估模型的判别准确率
Figure 761602DEST_PATH_IMAGE034
进行对比,若
Figure 18534DEST_PATH_IMAGE054
,则确定选出的特征索引集为最终选 用的特征索引集,若
Figure 876768DEST_PATH_IMAGE006
,则按照特征索引集中的特征数将特征索 引集从大到小排序并遍历,找到一个特征索引集,其判别准确率
Figure 692278DEST_PATH_IMAGE003
大于准确率阈 值即
Figure 370384DEST_PATH_IMAGE052
,准确率阈值根据判别准确率
Figure 132803DEST_PATH_IMAGE055
以及需求 的精度选择,且满足被筛去的特征数量大于特征数量阈值即
Figure 845544DEST_PATH_IMAGE023
;基于该特征索引 集进行特征筛选,得到筛选后的训练数据集;
所述模型训练模块,用于对数据处理模块预处理后的数据使用XGBoost模型进行训练 得到基准风险判别模型,并记录该模型的判别准确率
Figure 831955DEST_PATH_IMAGE056
,或者对特征计算与筛选 模块产生的筛选后的训练数据集使用XGBoost模型进行训练,得到最终的风险判别模型;
所述风险评估模块,用于依据最终的风险评估模型给出数据输入模块录入的待评估的工程项目信息数据的风险判别结果。
本发明不仅局限于上述具体实施方式,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方案实施本发明。因此,凡是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落入本发明保护范围。

Claims (7)

1.一种基于特征工程的工程履约保证保险风险识别方法,其特征在于,所述方法包括如下步骤:
S1:对工程项目信息数据执行预处理操作得到工程业务数据,根据工程业务数据构造初始训练数据集;
S2:根据初始训练数据集,利用XGBoost模型训练得到基准风险评估模型,并记录基准 风险评估模型的判别准确率
Figure 575634DEST_PATH_IMAGE001
S3:针对初始训练数据集,利用特征工程进行特征筛选,所述特征工程为最大相关最小 冗余联合最大互信息系数特征选择策略,记为MR-MIC,并结合基准风险评估模型及其判别 准确率
Figure 23933DEST_PATH_IMAGE002
,得到筛选后的训练数据集;具体为:首先计算工程业务数据中每一对 特征和每个特征与其对应类别标签的最大互信息系数,然后构建特征索引集,并记录每个 特征索引集的判别准确率
Figure 334829DEST_PATH_IMAGE003
,选出准确率最高的特征索引集,同时记录最高判别 准确率
Figure 526776DEST_PATH_IMAGE004
,与基准风险评估模型的判别准确率
Figure 872306DEST_PATH_IMAGE002
进行对比,若
Figure 727392DEST_PATH_IMAGE005
,则确定选出的特征索引集为最终选用的特征索引集,若
Figure 525584DEST_PATH_IMAGE006
,则按照特征索引集中的特征数将特征索引集从大到小排序并 遍历,找到一个特征索引集,其判别准确率
Figure 255642DEST_PATH_IMAGE003
大于准确率阈值,准确率阈值根据判 别准确率
Figure 455680DEST_PATH_IMAGE002
以及需求的精度选择,且满足被筛去的特征数量大于特征数量阈值; 基于找到的特征索引集进行特征筛选,得到筛选后的训练数据集;
S4:针对筛选后的训练数据集,使用XGBoost模型训练得到最终的风险评估模型;
S5:对待评估工程项目信息数据经过步骤S1所述的数据预处理及步骤S3所述的MR-MIC特征筛选,然后将经过预处理和特征筛选后的工程业务数据输入到步骤S4得到的最终的风险评估模型,得到待评估项目的风险评估结果。
2.根据权利要求1所述的一种基于特征工程的工程履约保证保险风险识别方法,其特征在于,步骤S1中预处理操作具体包括:
对于工程业务数据中以文字形式描述的类别特征进行独热编码处理得到离散数值型特征,同时,对于工程业务数据中以数值形式描述的特征利用中位值填充方法对缺失值进行填充,完成数据预处理。
3.根据权利要求1所述的一种基于特征工程的工程履约保证保险风险识别方法,其特征在于,步骤S3中特征筛选策略具体包括:
S31:设定网格划分尺寸参数B,产生满足mn<B的各种(m,n)的正整数组合,mn为网格横向和纵向划分的取值;
S32:对工程业务数据中每一对特征XY,遍历每一组(m,n),将X的特征取值空间均匀划分成m份,并利用动态规划找到使得特征XY之间互信息最大的特征Y的划分,然后,固定特征Y的划分,利用动态规划找到使得特征XY之间互信息最大的特征X的划分,接着,固定特征X的划分,再利用动态规划找到使得特征XY之间互信息最大的特征Y的划分,最后输出每一组(m,n)对应的最大互信息值I mn (X,Y);
S33:根据下面的公式计算每一对XY的最大互信息系数
Figure 980202DEST_PATH_IMAGE007
Figure 265690DEST_PATH_IMAGE008
工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征XY的最大互信息系数计算方法一致;
S34:构建特征索引集S 1
Figure 533860DEST_PATH_IMAGE009
其中
Figure 791666DEST_PATH_IMAGE010
为工程业务数据中的第k个特征,c为类别标签;
Figure 752669DEST_PATH_IMAGE011
为根据步骤S32和步 骤S33计算得到的特征
Figure 15199DEST_PATH_IMAGE010
和其对应的类别标签c之间的最大互信息系数;
S35:通过如下公式生成其余特征索引集
Figure 87060DEST_PATH_IMAGE012
Figure 261689DEST_PATH_IMAGE013
其中T表示工程业务数据中的特征总数;
Figure 128014DEST_PATH_IMAGE014
为特征索引集S t 中的索引为i的特征,
Figure 591357DEST_PATH_IMAGE015
为未 被选出的特征索引集
Figure 201329DEST_PATH_IMAGE016
中索引为j的特征;
S36:将每一个特征索引集S t 对应的数据集输入到XGBoost模型,记录判别准确率
Figure 230465DEST_PATH_IMAGE003
,并选出准确率最高的特征索引集
Figure 533271DEST_PATH_IMAGE017
,同时记录最高判别准确率
Figure 280647DEST_PATH_IMAGE018
S37:将
Figure 195776DEST_PATH_IMAGE004
与步骤S2所述的基准风险评估模型的判别准确率
Figure 79418DEST_PATH_IMAGE019
进行 比较,若
Figure 756387DEST_PATH_IMAGE020
,则确定
Figure 725480DEST_PATH_IMAGE017
为最终选用的特征索引集,若
Figure 677255DEST_PATH_IMAGE021
,则从大到小遍历t,找到一个t,其判别准确率
Figure 946563DEST_PATH_IMAGE003
大于准 确率阈值,即
Figure 591171DEST_PATH_IMAGE022
,且满足被筛去的特征数量大于特征数量阈 值,即筛去的特征数量
Figure 47560DEST_PATH_IMAGE023
,并确定S t 作为最终选用的特征索引集,其中,ab为根据 需求设定的参数;
S38:基于最终选用的特征索引集进行特征筛选,得到筛选后的训练数据集。
4.一种基于特征工程的工程履约保证保险风险识别平台,其特征在于,所述平台包括数据输入模块、数据处理模块、特征计算与筛选模块、模型训练模块和风险评估模块:
所述数据输入模块,用于接受需要进行风险识别的工程项目信息数据,该模块包括录入用于模型训练的工程项目信息数据或待评估的工程项目信息数据;
所述数据处理模块,用于对工程项目信息数据执行预处理操作得到工程业务数据,生成初始训练数据集或对待评估工程项目信息数据进行预处理;
所述特征计算与筛选模块,用于对数据处理模块预处理后的数据利用特征工程进行特 征筛选,所述特征工程为最大相关最小冗余联合最大互信息系数特征选择策略,记为MR- MIC,并结合模型训练模块得到的基准风险判别模型及其判别准确率
Figure 6289DEST_PATH_IMAGE019
进行特征 筛选,得到筛选后的训练数据集,具体为:首先计算工程业务数据中每一对特征和每个特征 与其对应类别标签的最大互信息系数,然后构建特征索引集,并记录每个特征索引集的判 别准确率
Figure 598944DEST_PATH_IMAGE003
,选出准确率最高的特征索引集,同时记录最高判别准确率
Figure 915918DEST_PATH_IMAGE004
,与基准风险评估模型的判别准确率
Figure 859603DEST_PATH_IMAGE019
进行对比,若
Figure 684340DEST_PATH_IMAGE024
,则确定选出的特征索引集为最终选用的特征索引集,若
Figure 397081DEST_PATH_IMAGE006
,则按照特征索引集中的特征数将特征索引集从大到小排序并 遍历,找到一个特征索引集,其判别准确率
Figure 117912DEST_PATH_IMAGE003
大于准确率阈值,准确率阈值根据判 别准确率
Figure 752156DEST_PATH_IMAGE019
以及需求的精度选择,且满足被筛去的特征数量大于特征数量阈值; 基于找到的特征索引集进行特征筛选,得到筛选后的训练数据集;
所述模型训练模块,用于对数据处理模块预处理后的数据使用XGBoost模型进行训练 得到基准风险判别模型,并记录基准风险判别模型的判别准确率
Figure 849425DEST_PATH_IMAGE025
;或者对特征 计算与筛选模块产生的筛选后的训练数据集使用XGBoost模型进行训练,得到最终的风险 判别模型;
所述风险评估模块,用于依据最终的风险评估模型给出数据输入模块录入的待评估的工程项目信息数据的风险判别结果。
5.根据权利要求4所述的一种基于特征工程的工程履约保证保险风险识别平台,其特征在于,所述数据输入模块包括从外界接受统一方式输入的数据,并存入数据库。
6.根据权利要求4所述的一种基于特征工程的工程履约保证保险风险识别平台,其特征在于,所述数据处理模块包括文字特征处理模块和数值特征处理模块;
所述文字特征处理模块,用于针对工程业务数据中以文字形式描述的类别特征,进行独热编码处理,得到离散数值型特征;
所述数值特征处理模块,用于针对工程业务数据中以数值形式描述的特征,利用中位值填充方法对缺失值进行填充。
7.根据权利要求4所述的一种基于特征工程的工程履约保证保险风险识别平台,其特征在于,所述特征计算与筛选模块包括最大互信息系数计算模块、特征索引集生成模块和特征筛选模块;
所述最大互信息系数计算模块,用于计算数据处理模块得到的工程业务数据中的每一对特征XY的最大互信息系数或者每个特征和其对应类别标签之间的最大互信息系数;具体如下:
a. 设定网格划分尺寸参数B,产生满足mn<B的各种(m,n)的正整数组合,mn为网格横向和纵向划分的取值;
b. 对工程业务数据中每一对特征XY,遍历每一组(m,n),将X的特征取值空间均匀划分成m份,并利用动态规划找到使得特征XY之间互信息最大的特征Y的划分,然后,固定特征Y的划分,利用动态规划找到使得特征XY之间互信息最大的特征X的划分,接着,固定特征X的划分,再利用动态规划找到使得特征XY之间互信息最大的特征Y的划分,最后输出每一组(m,n)对应的最大互信息值I mn (X,Y);
c. 根据下面的公式计算每一对XY的最大互信息系数
Figure 682252DEST_PATH_IMAGE007
Figure 573984DEST_PATH_IMAGE008
工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征XY的最大互信息系数计算方法一致;
所述特征索引集生成模块,用于根据最大互信息系数模块计算的每一对特征之间和每个特征和其对应类别标签之间的最大互信息系数,使用MR-MIC特征选择策略,对通过数据处理模块预处理后的数据进行特征筛选,生成所有特征索引集,具体如下:
a. 构建特征索引集S 1
Figure 259306DEST_PATH_IMAGE026
其中
Figure 160266DEST_PATH_IMAGE010
为工程业务数据中的第k个特征,c为类别标签;
Figure 582020DEST_PATH_IMAGE011
为根据最大互信息系 数计算模块得到的特征
Figure 910233DEST_PATH_IMAGE010
和其对应的类别标签c之间的最大互信息系数;
b. 通过如下公式生成其余特征索引集
Figure 50227DEST_PATH_IMAGE012
Figure 754878DEST_PATH_IMAGE027
其中T表示工程业务数据中的特征总数;
Figure 296718DEST_PATH_IMAGE028
为特征索引集S t 中的索引为i的特征,
Figure 795832DEST_PATH_IMAGE015
为未 被选出的特征索引集
Figure 626385DEST_PATH_IMAGE029
中索引为j的特征;
所述特征筛选模块,用于从特征索引集生成模块获得的所有特征索引集中选出准确率 值最高的特征索引集
Figure 370612DEST_PATH_IMAGE017
,同时记录最高判别准确率
Figure 766959DEST_PATH_IMAGE004
,与基准风险评估模型的判 别准确率
Figure 702554DEST_PATH_IMAGE002
进行对比,若
Figure 817140DEST_PATH_IMAGE030
,则确定
Figure 598014DEST_PATH_IMAGE017
为最终选用的特征 索引集,若
Figure 114446DEST_PATH_IMAGE031
,则从大到小遍历t,找到一个t,其判别准确率
Figure 158626DEST_PATH_IMAGE003
大于准确率阈值,即
Figure 760508DEST_PATH_IMAGE032
,且满足被筛去的特征数量大于特征数 量阈值,即筛去的特征数量
Figure 345073DEST_PATH_IMAGE023
,并确定S t 作为最终选用的特征索引集,其中,ab为 根据需求设定的参数,并基于最终选用的特征索引集进行特征筛选,得到筛选后的训练数 据集。
CN202010739603.9A 2020-07-28 2020-07-28 基于特征工程的工程履约保证保险风险识别方法与平台 Active CN111738870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010739603.9A CN111738870B (zh) 2020-07-28 2020-07-28 基于特征工程的工程履约保证保险风险识别方法与平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010739603.9A CN111738870B (zh) 2020-07-28 2020-07-28 基于特征工程的工程履约保证保险风险识别方法与平台

Publications (2)

Publication Number Publication Date
CN111738870A true CN111738870A (zh) 2020-10-02
CN111738870B CN111738870B (zh) 2020-12-25

Family

ID=72656242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010739603.9A Active CN111738870B (zh) 2020-07-28 2020-07-28 基于特征工程的工程履约保证保险风险识别方法与平台

Country Status (1)

Country Link
CN (1) CN111738870B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159568A (zh) * 2021-04-19 2021-07-23 福建万川信息科技股份有限公司 一种保函风险估算***及方法
WO2022121217A1 (zh) * 2020-12-07 2022-06-16 平安科技(深圳)有限公司 额度预测方法、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193335A1 (en) * 2015-11-13 2017-07-06 Wise Athena Inc. Method for data encoding and accurate predictions through convolutional networks for actual enterprise challenges
CN108509388A (zh) * 2018-01-30 2018-09-07 天津大学 基于最大相关最小冗余和排序的特征选择方法
CN111401914A (zh) * 2020-04-02 2020-07-10 支付宝(杭州)信息技术有限公司 风险评估模型的训练、风险评估方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193335A1 (en) * 2015-11-13 2017-07-06 Wise Athena Inc. Method for data encoding and accurate predictions through convolutional networks for actual enterprise challenges
CN108509388A (zh) * 2018-01-30 2018-09-07 天津大学 基于最大相关最小冗余和排序的特征选择方法
CN111401914A (zh) * 2020-04-02 2020-07-10 支付宝(杭州)信息技术有限公司 风险评估模型的训练、风险评估方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022121217A1 (zh) * 2020-12-07 2022-06-16 平安科技(深圳)有限公司 额度预测方法、设备及计算机可读存储介质
CN113159568A (zh) * 2021-04-19 2021-07-23 福建万川信息科技股份有限公司 一种保函风险估算***及方法

Also Published As

Publication number Publication date
CN111738870B (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN109829631B (zh) 一种基于记忆网络的企业风险预警分析方法及***
Gordini A genetic algorithm approach for SMEs bankruptcy prediction: Empirical evidence from Italy
McKee Rough sets bankruptcy prediction models versus auditor signalling rates
CN108459955B (zh) 基于深度自编码网络的软件缺陷预测方法
Silva et al. Cross country relations in European tourist arrivals
CN111738870B (zh) 基于特征工程的工程履约保证保险风险识别方法与平台
CN112700319A (zh) 基于政务数据的企业授信额度确定方法及装置
Ko et al. Prediction of corporate financial distress: An application of the composite rule induction system
CN110930250A (zh) 企业信用风险的预测方法及***、存储介质及电子设备
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN111104975B (zh) 一种基于广度学习的信用评估方法
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN111754317A (zh) 一种金融投资数据测评方法及***
CN116340726A (zh) 一种能源经济大数据清洗方法、***、设备及存储介质
CN112232944A (zh) 一种评分卡创建方法、装置和电子设备
CN1653486B (zh) 模式的特征选择方法、分类方法、判定方法
CN117689209A (zh) 基于熵权模糊综合的桥梁安全风险评估方法、设备及介质
CN111626886A (zh) 基于多方协作的工程履约保证保险风险识别方法与平台
CN117114705A (zh) 一种基于持续学习的电商欺诈识别方法与***
CN114926261A (zh) 汽车金融用户申请欺诈概率预测方法及介质
CN112766765A (zh) 基于区间中智理论的专业学习能力评价方法及***
CN113191771A (zh) 采购商账期风险预测方法
CN114386647A (zh) 一种油气田行业能耗的预测方法及***
Liu et al. RETRACTED ARTICLE: Company financial path analysis using fuzzy c-means and its application in financial failure prediction
CN115640335B (zh) 基于企业画像的企业分析方法、***及云平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant