CN111738870A - 基于特征工程的工程履约保证保险风险识别方法与平台 - Google Patents
基于特征工程的工程履约保证保险风险识别方法与平台 Download PDFInfo
- Publication number
- CN111738870A CN111738870A CN202010739603.9A CN202010739603A CN111738870A CN 111738870 A CN111738870 A CN 111738870A CN 202010739603 A CN202010739603 A CN 202010739603A CN 111738870 A CN111738870 A CN 111738870A
- Authority
- CN
- China
- Prior art keywords
- feature
- engineering
- data
- features
- accuracy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于特征工程的工程履约保证保险风险识别方法与平台,首先,对工程业务数据执行预处理操作,根据预处理后的数据构造初始训练数据集;然后,根据初始训练数据集,利用XGBoost模型训练得到一个基准风险评估模型;接着,针对初始训练数据集,利用基于最大互信息特征选择策略与基准风险评估模型进行特征筛选,得到筛选后的训练数据集,并使用XGBoost模型训练得到最终的风险评估模型;最后,利用得到的风险评估模型对待评估项目进行风险评估。本发明可以从大量冗余的工程项目数据中找出关键特征,在保证模型预测性能的同时减小模型复杂度。
Description
技术领域
本发明涉及工程保证保险与机器学***台。
背景技术
建设工程项目的施工工艺和施工流程复杂,项目参与方较多,项目周期长,涉及面广,施工单位的违约会造成多方面的损失,因此引入建设工程保证保险的风控机制尤为重要,能够有效帮助建筑企业释放现金保证金压力,减轻企业负担。对于保险行业而言,开展建设工程保证保险面临的主要难题是数据和风控,保险公司对于建设工程项目专业知识和技术的缺乏,导致对投保人、投保项目和被保险人的风险难以评估。而非融资类保证保险审批速度要求较快,无法对投保人、工程项目、被保险人进行全面审查。
造成工程违约的风险因素具有多样性、普遍性、客观性和偶然性等特性,导致履约的风险因素数量庞大且各风险因素之间具有很强的关联性。当前的工程保证保险多以人力判断为主,耗时长、未利用到广泛的项目数据信息,此为目前风险判别方法的不足。而本发明的算法模型利用到大量数据信息与智能算法模型,对投保人、工程项目、被保险人的风险因素进行整合分析,能够真正达到对建设工程违约风险进行快速识别,辅助保险公司降低承保风险。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于特征工程的工程履约保证保险风险识别方法与平台。
本发明的目的是通过以下技术方案来实现的:一种基于特征工程的工程履约保证保险风险识别方法,所述方法包括如下步骤:
S1:对工程项目信息数据执行预处理操作得到工程业务数据,根据工程业务数据构造初始训练数据集;
S3:针对初始训练数据集,利用特征工程进行特征筛选,所述特征工程为最大相关最小
冗余联合最大互信息系数特征选择策略,记为MR-MIC,并结合基准风险评估模型及其判别
准确率,得到筛选后的训练数据集;具体为:首先计算工程业务数据中每一对
特征和每个特征与其对应类别标签的最大互信息系数,然后构建特征索引集,并记录每个
特征索引集的判别准确率,选出准确率最高的特征索引集,同时记录最高判别
准确率,与基准风险评估模型的判别准确率进行对比,若,则确定选出的特征索引集为最终选用的特征索引集,若,则按照特征索引集中的特征数将特征索引集从大到小排序并
遍历,找到一个特征索引集,其判别准确率大于准确率阈值,准确率阈值根据判
别准确率以及需求的精度选择,且满足被筛去的特征数量大于特征数量阈值;
基于找到的特征索引集进行特征筛选,得到筛选后的训练数据集;
S4:针对筛选后的训练数据集,使用XGBoost模型训练得到最终的风险评估模型;
S5:对待评估工程项目信息数据经过步骤S1所述的数据预处理及步骤S3所述的MR-MIC特征筛选,然后将经过预处理和特征筛选后的工程业务数据输入到步骤S4得到的最终的风险评估模型,得到待评估项目的风险评估结果。
进一步地,步骤S1中预处理操作具体包括:
对于工程业务数据中以文字形式描述的类别特征进行独热编码处理得到离散数值型特征,同时,对于工程业务数据中以数值形式描述的特征利用中位值填充方法对缺失值进行填充,完成数据预处理。
进一步地,步骤S3中特征筛选策略具体包括:
S31:设定网格划分尺寸参数B,产生满足mn<B的各种(m,n)的正整数组合,m和n为网格横向和纵向划分的取值;
S32:对工程业务数据中每一对特征X和Y,遍历每一组(m,n),将X的特征取值空间均匀划分成m份,并利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分,然后,固定特征Y的划分,利用动态规划找到使得特征X和Y之间互信息最大的特征X的划分,接着,固定特征X的划分,再利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分,最后输出每一组(m,n)对应的最大互信息值I mn (X,Y);
工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征X和Y的最大互信息系数计算方法一致;
S34:构建特征索引集S 1:
S37:将与步骤S2所述的基准风险评估模型的判别准确率进
行比较,若,则确定为最终选用的特征索引集,若,则从大到小遍历t,找到一个t,其判别准确率大于准
确率阈值,即,且满足被筛去的特征数量大于特征数量阈
值,即筛去的特征数量,并确定S t 作为最终选用的特征索引集,其中,a和b为根据
需求设定的参数;
S38:基于最终选用的特征索引集进行特征筛选,得到筛选后的训练数据集。
一种基于特征工程的工程履约保证保险风险识别平台,所述平台包括数据输入模块、数据处理模块、特征计算与筛选模块、模型训练模块和风险评估模块:
所述数据输入模块,用于接受需要进行风险识别的工程项目信息数据,该模块包括录入用于模型训练的工程项目信息数据或待评估的工程项目信息数据;
所述数据处理模块,用于对工程项目信息数据执行预处理操作得到工程业务数据,生成初始训练数据集或对待评估工程项目信息数据进行预处理;
所述特征计算与筛选模块,用于对数据处理模块预处理后的数据利用特征工程进行特
征筛选,所述特征工程为最大相关最小冗余联合最大互信息系数特征选择策略,记为MR-
MIC,并结合模型训练模块得到的基准风险判别模型及其判别准确率进行特征
筛选,得到筛选后的训练数据集,具体为:首先计算工程业务数据中每一对特征和每个特征
与其对应类别标签的最大互信息系数,然后构建特征索引集,并记录每个特征索引集的判
别准确率,选出准确率最高的特征索引集,同时记录最高判别准确率,与基准风险评估模型的判别准确率进行对比,若,则确定选出的特征索引集为最终选用的特征索引集,若,则按照特征索引集中的特征数将特征索引集从大到小排序并
遍历,找到一个特征索引集,其判别准确率大于准确率阈值,准确率阈值根据判
别准确率以及需求的精度选择,且满足被筛去的特征数量大于特征数量阈值;
基于找到的特征索引集进行特征筛选,得到筛选后的训练数据集;
所述模型训练模块,用于对数据处理模块预处理后的数据使用XGBoost模型进行训练
得到基准风险判别模型,并记录基准风险判别模型的判别准确率;或者对特征
计算与筛选模块产生的筛选后的训练数据集使用XGBoost模型进行训练,得到最终的风险
判别模型;
所述风险评估模块,用于依据最终的风险评估模型给出数据输入模块录入的待评估的工程项目信息数据的风险判别结果。
进一步地,所述数据输入模块包括从外界接受统一方式输入的数据,并存入数据库。
进一步地,所述数据处理模块包括文字特征处理模块和数值特征处理模块;
所述文字特征处理模块,用于针对工程业务数据中以文字形式描述的类别特征,进行独热编码处理,得到离散数值型特征;
所述数值特征处理模块,用于针对工程业务数据中以数值形式描述的特征,利用中位值填充方法对缺失值进行填充。
进一步地,所述特征计算与筛选模块包括最大互信息系数计算模块、特征索引集生成模块和特征筛选模块;
所述最大互信息系数计算模块,用于计算数据处理模块得到的工程业务数据中的每一对特征X和Y的最大互信息系数或者每个特征和其对应类别标签之间的最大互信息系数;具体如下:
a. 设定网格划分尺寸参数B,产生满足mn<B的各种(m,n)的正整数组合,m和n为网格横向和纵向划分的取值;
b. 对工程业务数据中每一对特征X和Y,遍历每一组(m,n),将X的特征取值空间均匀划分成m份,并利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分,然后,固定特征Y的划分,利用动态规划找到使得特征X和Y之间互信息最大的特征X的划分,接着,固定特征X的划分,再利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分,最后输出每一组(m,n)对应的最大互信息值I mn (X,Y);
工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征X和Y的最大互信息系数计算方法一致;
所述特征索引集生成模块,用于根据最大互信息系数模块计算的每一对特征之间和每个特征和其对应类别标签之间的最大互信息系数,使用MR-MIC特征选择策略,对通过数据处理模块预处理后的数据进行特征筛选,生成所有特征索引集,具体如下:
a. 构建特征索引集S 1:
所述特征筛选模块,用于从特征索引集生成模块获得的所有特征索引集中选出准确率
值最高的特征索引集,同时记录最高判别准确率,与基准风险评估模型的判
别准确率进行对比,若,则确定为最终选用的特征
索引集,若,则从大到小遍历t,找到一个t,其判别准确率
大于准确率阈值,即,且满足被筛去的特征数量大于特征数
量阈值,即筛去的特征数量,并确定S t 作为最终选用的特征索引集,其中,a和b为
根据需求设定的参数,并基于最终选用的特征索引集进行特征筛选,得到筛选后的训练数
据集。
本发明的有益效果:本发明利用了MR-MIC特征选择策略,可以从大量工程项目数据中找出与类别标签最为相关的特征,同时保证挑选的特征之间冗余程度较低,从而在保证模型预测性能的同时减小模型复杂度。本发明同时选用了XGBoost算法构建模型,从而保证提出的风险识别方法的结果准确性。
附图说明
图1为本发明提供的基于特征工程的工程履约保证保险风险识别方法流程图;
图2为本发明提供的基于特征工程的工程履约保证保险风险识别平台结构示意图;
图3为工程履约保证保险领域特征结构图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的说明,所描述的实施例旨在便于对本发明的理解,但对其不起任何限定作用。
本发明提供的一种基于特征工程的工程履约保证保险风险识别方法,主要流程如图1所示,包括如下步骤:
1. 对工程业务数据执行预处理操作,根据预处理后的数据构造初始训练数据集。
本发明利用的XGBoost算法无法处理文字分类特征,因此需要对该类型特征进行编码转换,本发明处理的工程履约保证保险领域的特征结构图如图3所示,本实施例中使用独热编码,其含义为使用N位寄存器存储N种状态,每个状态都有独立的寄存器位,且寄存器中只有一位有效。例如,如表1所示,“施工难度”特征包含三种取值,因此可以被拓展为三个特征。原特征转换后的三位编码中,仅对应转换位为状态1,其余为0,即“简单”这一取值可以被转换为“施工难度_简单”、“施工难度_一般”、“施工难度_复杂”分别取1、0、0三个取值的编码。
表1 文字量特征编码示意表
施工难度 | 施工难度_简单 | 施工难度_一般 | 施工难度_复杂 |
简单 | 1 | 0 | 0 |
一般 | 0 | 1 | 0 |
复杂 | 0 | 0 | 1 |
另外,输入的工程业务信息中有部分缺失值。考虑到数据的实际含义与算法部署的要求,可以对某特征缺失位置使用同一特征维度数据的中位数进行填充,避免对数据分布与实际含义造成过大的影响。
XGBoost(eXtreme Gradient Boosting)是梯度提升(Gradient Boosting,GB)方
法的高效实现,是一种用于回归和分类问题的学习模型,具有不易过拟合、灵活性高、收敛
速度快、准确度高等特点。使用XGBoost模型,可以保证风险评估性能较好。实施例中,使用
步骤1获得的训练数据集,利用默认参数的XGBoost模型直接训练,可以得到基准风险评估
模型,此时记录模型的判别准确率,以备后续使用。在观察模型结果的过程中,
评估模型的数据结果拥有以下四种可能:
本发明涉及的数据为二分类数据,包含“投保”与“不投保”两个类别。因“不投保”类数据较少,且对这一分类数据进行错误判别会对公司造成较大的损失,因此模型的比较标准以“不投保”数据的模型判别指标为主。若定义本发明所用的“不投保”数据为阳性类(Positive),“投保”数据为阴性类(Negative),则可以计算出“不投保”数据的精确率Precision、召回率Recall、F1-Score,其含义如下:
a. 精确率Precision:
被判别为阳性的数据样本中真实类别为阳性的比例,即模型针对阳性类的判别准确度;
b. 召回率Recall:
真实类别为阳性的数据样本中被判别为阳性的比例;
c. F1-Score:
F1-Score是精确率与召回率的调和平均。
另外也需要比较所有样本被判别正确的比例,即总体准确率:
3. 针对初始训练数据集,利用MR-MIC特征选择策略与基准风险评估模型进行特征筛选,得到筛选后的训练数据集。
A.产生网格划分
B.确定最大互信息值
对工程业务数据中每一对特征X和Y,遍历每一组(m,n),将X的特征取值空间均匀划分成m份,并利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分,然后,固定特征Y的划分,利用动态规划找到使得特征X和Y之间互信息最大的特征X的划分,接着,固定特征X的划分,再利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分,最后输出每一组(m,n)对应的最大互信息值I mn (X,Y)。
C. 确定最大互信息系数
工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征X和Y的最大互信息系数计算方法一致;
D.构建初始特征索引集
E.构建所有特征索引集
F.进行模型判定与结果记录
G.特征索引集挑选
将与步骤2所述的基准风险评估模型的判别准确率进行比
较,若,则确定为最终选用的特征索引集,该过程用于确定筛
选后性能超过原数据的特征筛选方式,实施例中通过该标准可以完成最佳特征索引集的筛
选。另外,当,表明筛选后都有不同程度的损失,则此时需要
从大到小遍历t,在实施例之中,设定找到一个满足,同时
被筛去的特征数量的特征索引集S t ,即准确率不降低超过5%且筛去超过20%特
征,并确定其为最终选用的特征索引集,该挑选标准用于达到在保留数据性能的情况下,删
除尽可能多特征的目的。
H.得到筛选后数据集
使用最终选用的特征索引集,可以对工程业务数据进行筛选,从而得到筛选后的训练数据集。
4. 针对筛选后的训练数据集,使用XGBoost模型训练得到最终的风险评估模型。
本实施例中,在确定最终的特征索引集和筛选后数据集后,利用筛选后数据重新对模型进行训练,特征筛选前后的“不投保”类模型指标与准确率对比如表2所示:
表2 特征筛选前后“不投保”类模型指标与准确率对比
<i>Precision</i> | <i>Recall</i> | <i>F1-Score</i> | <i>Accuracy</i> | |
筛选前 | 0.67 | 0.55 | 0.61 | 0.86 |
筛选后 | 0.71 | 0.56 | 0.63 | 0.87 |
观察上表发现,经过特征筛选后,“不投保”类的模型指标有了明显提升,同时总体准确率上升,说明MR-MIC特征筛选方法有较好的效果。
5. 对待评估工程项目的数据经过步骤1所述的数据预处理及步骤3所述的特征筛选,然后将经过预处理和特征筛选后的数据输入到步骤4所得到的最终的风险评估模型,得到待评估项目的风险识别结果。
如图2所示,本发明还提供了一种基于特征工程的工程履约保证保险风险识别平台,包括数据输入模块、数据处理模块、特征计算与筛选模块、模型训练模块和风险评估模块
所述数据输入模块,用于接受需要进行风险识别的工程项目信息数据,该模块包括录入用于模型训练的工程项目信息数据或待评估的工程项目信息数据;
所述数据处理模块,用于对工程项目信息数据执行预处理操作得到工程业务数据,生成初始训练数据集或对待评估工程项目信息数据进行预处理;
所述特征计算与筛选模块,用于对数据处理模块预处理后的数据利用特征工程进行特
征筛选,所述特征工程为最大相关最小冗余联合最大互信息系数特征选择策略,记为MR-
MIC,并结合模型训练模块得到的基准风险判别模型及其判别准确率,首先计
算工程业务数据中每一对特征和每个特征与其对应类别标签的最大互信息系数,然后构建
特征索引集,并记录每个特征索引集的判别准确率,选出准确率最高的特征索
引集,同时记录最高判别准确率,与基准风险评估模型的判别准确率进行对比,若,则确定选出的特征索引集为最终选
用的特征索引集,若,则按照特征索引集中的特征数将特征索
引集从大到小排序并遍历,找到一个特征索引集,其判别准确率大于准确率阈
值即,准确率阈值根据判别准确率以及需求
的精度选择,且满足被筛去的特征数量大于特征数量阈值即;基于该特征索引
集进行特征筛选,得到筛选后的训练数据集;
所述模型训练模块,用于对数据处理模块预处理后的数据使用XGBoost模型进行训练
得到基准风险判别模型,并记录该模型的判别准确率,或者对特征计算与筛选
模块产生的筛选后的训练数据集使用XGBoost模型进行训练,得到最终的风险判别模型;
所述风险评估模块,用于依据最终的风险评估模型给出数据输入模块录入的待评估的工程项目信息数据的风险判别结果。
本发明不仅局限于上述具体实施方式,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方案实施本发明。因此,凡是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落入本发明保护范围。
Claims (7)
1.一种基于特征工程的工程履约保证保险风险识别方法,其特征在于,所述方法包括如下步骤:
S1:对工程项目信息数据执行预处理操作得到工程业务数据,根据工程业务数据构造初始训练数据集;
S3:针对初始训练数据集,利用特征工程进行特征筛选,所述特征工程为最大相关最小
冗余联合最大互信息系数特征选择策略,记为MR-MIC,并结合基准风险评估模型及其判别
准确率,得到筛选后的训练数据集;具体为:首先计算工程业务数据中每一对
特征和每个特征与其对应类别标签的最大互信息系数,然后构建特征索引集,并记录每个
特征索引集的判别准确率,选出准确率最高的特征索引集,同时记录最高判别
准确率,与基准风险评估模型的判别准确率进行对比,若,则确定选出的特征索引集为最终选用的特征索引集,若,则按照特征索引集中的特征数将特征索引集从大到小排序并
遍历,找到一个特征索引集,其判别准确率大于准确率阈值,准确率阈值根据判
别准确率以及需求的精度选择,且满足被筛去的特征数量大于特征数量阈值;
基于找到的特征索引集进行特征筛选,得到筛选后的训练数据集;
S4:针对筛选后的训练数据集,使用XGBoost模型训练得到最终的风险评估模型;
S5:对待评估工程项目信息数据经过步骤S1所述的数据预处理及步骤S3所述的MR-MIC特征筛选,然后将经过预处理和特征筛选后的工程业务数据输入到步骤S4得到的最终的风险评估模型,得到待评估项目的风险评估结果。
2.根据权利要求1所述的一种基于特征工程的工程履约保证保险风险识别方法,其特征在于,步骤S1中预处理操作具体包括:
对于工程业务数据中以文字形式描述的类别特征进行独热编码处理得到离散数值型特征,同时,对于工程业务数据中以数值形式描述的特征利用中位值填充方法对缺失值进行填充,完成数据预处理。
3.根据权利要求1所述的一种基于特征工程的工程履约保证保险风险识别方法,其特征在于,步骤S3中特征筛选策略具体包括:
S31:设定网格划分尺寸参数B,产生满足mn<B的各种(m,n)的正整数组合,m和n为网格横向和纵向划分的取值;
S32:对工程业务数据中每一对特征X和Y,遍历每一组(m,n),将X的特征取值空间均匀划分成m份,并利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分,然后,固定特征Y的划分,利用动态规划找到使得特征X和Y之间互信息最大的特征X的划分,接着,固定特征X的划分,再利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分,最后输出每一组(m,n)对应的最大互信息值I mn (X,Y);
工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征X和Y的最大互信息系数计算方法一致;
S34:构建特征索引集S 1:
S37:将与步骤S2所述的基准风险评估模型的判别准确率进行
比较,若,则确定为最终选用的特征索引集,若,则从大到小遍历t,找到一个t,其判别准确率大于准
确率阈值,即,且满足被筛去的特征数量大于特征数量阈
值,即筛去的特征数量,并确定S t 作为最终选用的特征索引集,其中,a和b为根据
需求设定的参数;
S38:基于最终选用的特征索引集进行特征筛选,得到筛选后的训练数据集。
4.一种基于特征工程的工程履约保证保险风险识别平台,其特征在于,所述平台包括数据输入模块、数据处理模块、特征计算与筛选模块、模型训练模块和风险评估模块:
所述数据输入模块,用于接受需要进行风险识别的工程项目信息数据,该模块包括录入用于模型训练的工程项目信息数据或待评估的工程项目信息数据;
所述数据处理模块,用于对工程项目信息数据执行预处理操作得到工程业务数据,生成初始训练数据集或对待评估工程项目信息数据进行预处理;
所述特征计算与筛选模块,用于对数据处理模块预处理后的数据利用特征工程进行特
征筛选,所述特征工程为最大相关最小冗余联合最大互信息系数特征选择策略,记为MR-
MIC,并结合模型训练模块得到的基准风险判别模型及其判别准确率进行特征
筛选,得到筛选后的训练数据集,具体为:首先计算工程业务数据中每一对特征和每个特征
与其对应类别标签的最大互信息系数,然后构建特征索引集,并记录每个特征索引集的判
别准确率,选出准确率最高的特征索引集,同时记录最高判别准确率,与基准风险评估模型的判别准确率进行对比,若,则确定选出的特征索引集为最终选用的特征索引集,若,则按照特征索引集中的特征数将特征索引集从大到小排序并
遍历,找到一个特征索引集,其判别准确率大于准确率阈值,准确率阈值根据判
别准确率以及需求的精度选择,且满足被筛去的特征数量大于特征数量阈值;
基于找到的特征索引集进行特征筛选,得到筛选后的训练数据集;
所述模型训练模块,用于对数据处理模块预处理后的数据使用XGBoost模型进行训练
得到基准风险判别模型,并记录基准风险判别模型的判别准确率;或者对特征
计算与筛选模块产生的筛选后的训练数据集使用XGBoost模型进行训练,得到最终的风险
判别模型;
所述风险评估模块,用于依据最终的风险评估模型给出数据输入模块录入的待评估的工程项目信息数据的风险判别结果。
5.根据权利要求4所述的一种基于特征工程的工程履约保证保险风险识别平台,其特征在于,所述数据输入模块包括从外界接受统一方式输入的数据,并存入数据库。
6.根据权利要求4所述的一种基于特征工程的工程履约保证保险风险识别平台,其特征在于,所述数据处理模块包括文字特征处理模块和数值特征处理模块;
所述文字特征处理模块,用于针对工程业务数据中以文字形式描述的类别特征,进行独热编码处理,得到离散数值型特征;
所述数值特征处理模块,用于针对工程业务数据中以数值形式描述的特征,利用中位值填充方法对缺失值进行填充。
7.根据权利要求4所述的一种基于特征工程的工程履约保证保险风险识别平台,其特征在于,所述特征计算与筛选模块包括最大互信息系数计算模块、特征索引集生成模块和特征筛选模块;
所述最大互信息系数计算模块,用于计算数据处理模块得到的工程业务数据中的每一对特征X和Y的最大互信息系数或者每个特征和其对应类别标签之间的最大互信息系数;具体如下:
a. 设定网格划分尺寸参数B,产生满足mn<B的各种(m,n)的正整数组合,m和n为网格横向和纵向划分的取值;
b. 对工程业务数据中每一对特征X和Y,遍历每一组(m,n),将X的特征取值空间均匀划分成m份,并利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分,然后,固定特征Y的划分,利用动态规划找到使得特征X和Y之间互信息最大的特征X的划分,接着,固定特征X的划分,再利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分,最后输出每一组(m,n)对应的最大互信息值I mn (X,Y);
工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征X和Y的最大互信息系数计算方法一致;
所述特征索引集生成模块,用于根据最大互信息系数模块计算的每一对特征之间和每个特征和其对应类别标签之间的最大互信息系数,使用MR-MIC特征选择策略,对通过数据处理模块预处理后的数据进行特征筛选,生成所有特征索引集,具体如下:
a. 构建特征索引集S 1:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010739603.9A CN111738870B (zh) | 2020-07-28 | 2020-07-28 | 基于特征工程的工程履约保证保险风险识别方法与平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010739603.9A CN111738870B (zh) | 2020-07-28 | 2020-07-28 | 基于特征工程的工程履约保证保险风险识别方法与平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738870A true CN111738870A (zh) | 2020-10-02 |
CN111738870B CN111738870B (zh) | 2020-12-25 |
Family
ID=72656242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010739603.9A Active CN111738870B (zh) | 2020-07-28 | 2020-07-28 | 基于特征工程的工程履约保证保险风险识别方法与平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738870B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159568A (zh) * | 2021-04-19 | 2021-07-23 | 福建万川信息科技股份有限公司 | 一种保函风险估算***及方法 |
WO2022121217A1 (zh) * | 2020-12-07 | 2022-06-16 | 平安科技(深圳)有限公司 | 额度预测方法、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193335A1 (en) * | 2015-11-13 | 2017-07-06 | Wise Athena Inc. | Method for data encoding and accurate predictions through convolutional networks for actual enterprise challenges |
CN108509388A (zh) * | 2018-01-30 | 2018-09-07 | 天津大学 | 基于最大相关最小冗余和排序的特征选择方法 |
CN111401914A (zh) * | 2020-04-02 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 风险评估模型的训练、风险评估方法及装置 |
-
2020
- 2020-07-28 CN CN202010739603.9A patent/CN111738870B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193335A1 (en) * | 2015-11-13 | 2017-07-06 | Wise Athena Inc. | Method for data encoding and accurate predictions through convolutional networks for actual enterprise challenges |
CN108509388A (zh) * | 2018-01-30 | 2018-09-07 | 天津大学 | 基于最大相关最小冗余和排序的特征选择方法 |
CN111401914A (zh) * | 2020-04-02 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 风险评估模型的训练、风险评估方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022121217A1 (zh) * | 2020-12-07 | 2022-06-16 | 平安科技(深圳)有限公司 | 额度预测方法、设备及计算机可读存储介质 |
CN113159568A (zh) * | 2021-04-19 | 2021-07-23 | 福建万川信息科技股份有限公司 | 一种保函风险估算***及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111738870B (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829631B (zh) | 一种基于记忆网络的企业风险预警分析方法及*** | |
Gordini | A genetic algorithm approach for SMEs bankruptcy prediction: Empirical evidence from Italy | |
McKee | Rough sets bankruptcy prediction models versus auditor signalling rates | |
CN108459955B (zh) | 基于深度自编码网络的软件缺陷预测方法 | |
Silva et al. | Cross country relations in European tourist arrivals | |
CN111738870B (zh) | 基于特征工程的工程履约保证保险风险识别方法与平台 | |
CN112700319A (zh) | 基于政务数据的企业授信额度确定方法及装置 | |
Ko et al. | Prediction of corporate financial distress: An application of the composite rule induction system | |
CN110930250A (zh) | 企业信用风险的预测方法及***、存储介质及电子设备 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN111104975B (zh) | 一种基于广度学习的信用评估方法 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN111754317A (zh) | 一种金融投资数据测评方法及*** | |
CN116340726A (zh) | 一种能源经济大数据清洗方法、***、设备及存储介质 | |
CN112232944A (zh) | 一种评分卡创建方法、装置和电子设备 | |
CN1653486B (zh) | 模式的特征选择方法、分类方法、判定方法 | |
CN117689209A (zh) | 基于熵权模糊综合的桥梁安全风险评估方法、设备及介质 | |
CN111626886A (zh) | 基于多方协作的工程履约保证保险风险识别方法与平台 | |
CN117114705A (zh) | 一种基于持续学习的电商欺诈识别方法与*** | |
CN114926261A (zh) | 汽车金融用户申请欺诈概率预测方法及介质 | |
CN112766765A (zh) | 基于区间中智理论的专业学习能力评价方法及*** | |
CN113191771A (zh) | 采购商账期风险预测方法 | |
CN114386647A (zh) | 一种油气田行业能耗的预测方法及*** | |
Liu et al. | RETRACTED ARTICLE: Company financial path analysis using fuzzy c-means and its application in financial failure prediction | |
CN115640335B (zh) | 基于企业画像的企业分析方法、***及云平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |