CN111738870A

CN111738870A - 基于特征工程的工程履约保证保险风险识别方法与平台

Info

Publication number: CN111738870A
Application number: CN202010739603.9A
Authority: CN
Inventors: 曾雪强; 谢仑辰; 徐学武; 史清江; 陈海军; 化允; 陈华龙
Original assignee: Gongbao Technology Zhejiang Co ltd
Current assignee: Gongbao Technology Zhejiang Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-02
Anticipated expiration: 2040-07-28
Also published as: CN111738870B

Abstract

本发明公开了一种基于特征工程的工程履约保证保险风险识别方法与平台，首先，对工程业务数据执行预处理操作，根据预处理后的数据构造初始训练数据集；然后，根据初始训练数据集，利用XGBoost模型训练得到一个基准风险评估模型；接着，针对初始训练数据集，利用基于最大互信息特征选择策略与基准风险评估模型进行特征筛选，得到筛选后的训练数据集，并使用XGBoost模型训练得到最终的风险评估模型；最后，利用得到的风险评估模型对待评估项目进行风险评估。本发明可以从大量冗余的工程项目数据中找出关键特征，在保证模型预测性能的同时减小模型复杂度。

Description

基于特征工程的工程履约保证保险风险识别方法与平台

技术领域

本发明涉及工程保证保险与机器学***台。

背景技术

建设工程项目的施工工艺和施工流程复杂，项目参与方较多，项目周期长，涉及面广，施工单位的违约会造成多方面的损失，因此引入建设工程保证保险的风控机制尤为重要，能够有效帮助建筑企业释放现金保证金压力，减轻企业负担。对于保险行业而言，开展建设工程保证保险面临的主要难题是数据和风控，保险公司对于建设工程项目专业知识和技术的缺乏，导致对投保人、投保项目和被保险人的风险难以评估。而非融资类保证保险审批速度要求较快，无法对投保人、工程项目、被保险人进行全面审查。

造成工程违约的风险因素具有多样性、普遍性、客观性和偶然性等特性，导致履约的风险因素数量庞大且各风险因素之间具有很强的关联性。当前的工程保证保险多以人力判断为主，耗时长、未利用到广泛的项目数据信息，此为目前风险判别方法的不足。而本发明的算法模型利用到大量数据信息与智能算法模型，对投保人、工程项目、被保险人的风险因素进行整合分析，能够真正达到对建设工程违约风险进行快速识别，辅助保险公司降低承保风险。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于特征工程的工程履约保证保险风险识别方法与平台。

本发明的目的是通过以下技术方案来实现的：一种基于特征工程的工程履约保证保险风险识别方法，所述方法包括如下步骤：

S1：对工程项目信息数据执行预处理操作得到工程业务数据，根据工程业务数据构造初始训练数据集；

S2：根据初始训练数据集，利用XGBoost模型训练得到基准风险评估模型，并记录基准风险评估模型的判别准确率

；

S3：针对初始训练数据集，利用特征工程进行特征筛选，所述特征工程为最大相关最小冗余联合最大互信息系数特征选择策略，记为MR-MIC，并结合基准风险评估模型及其判别准确率

，得到筛选后的训练数据集；具体为：首先计算工程业务数据中每一对特征和每个特征与其对应类别标签的最大互信息系数，然后构建特征索引集，并记录每个特征索引集的判别准确率

，选出准确率最高的特征索引集，同时记录最高判别准确率

，与基准风险评估模型的判别准确率

进行对比，若

，则确定选出的特征索引集为最终选用的特征索引集，若

，则按照特征索引集中的特征数将特征索引集从大到小排序并遍历，找到一个特征索引集，其判别准确率

大于准确率阈值，准确率阈值根据判别准确率

以及需求的精度选择，且满足被筛去的特征数量大于特征数量阈值；基于找到的特征索引集进行特征筛选，得到筛选后的训练数据集；

S4：针对筛选后的训练数据集，使用XGBoost模型训练得到最终的风险评估模型；

S5：对待评估工程项目信息数据经过步骤S1所述的数据预处理及步骤S3所述的MR-MIC特征筛选，然后将经过预处理和特征筛选后的工程业务数据输入到步骤S4得到的最终的风险评估模型，得到待评估项目的风险评估结果。

进一步地，步骤S1中预处理操作具体包括：

对于工程业务数据中以文字形式描述的类别特征进行独热编码处理得到离散数值型特征，同时，对于工程业务数据中以数值形式描述的特征利用中位值填充方法对缺失值进行填充，完成数据预处理。

进一步地，步骤S3中特征筛选策略具体包括：

S31：设定网格划分尺寸参数B，产生满足mn<B的各种(m,n)的正整数组合，m和n为网格横向和纵向划分的取值；

S32：对工程业务数据中每一对特征X和Y，遍历每一组(m,n)，将X的特征取值空间均匀划分成m份，并利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分，然后，固定特征Y的划分，利用动态规划找到使得特征X和Y之间互信息最大的特征X的划分，接着，固定特征X的划分，再利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分，最后输出每一组(m,n)对应的最大互信息值I _mn (X,Y)；

S33：根据下面的公式计算每一对X和Y的最大互信息系数

：

工程业务数据中每个特征和其对应类别标签之间的最大互信息系数的计算方法与每一对特征X和Y的最大互信息系数计算方法一致；

S34：构建特征索引集S ₁：

其中

为工程业务数据中的第k个特征，c为类别标签；

为根据步骤S32和步骤S33计算得到的特征

和其对应的类别标签c之间的最大互信息系数；

S35：通过如下公式生成其余特征索引集

：

其中T表示工程业务数据中的特征总数；

为特征索引集S _t中的索引为i的特征，

为未被选出的特征索引集

中索引为j的特征；

S36：将每一个特征索引集S _t对应的数据集输入到XGBoost模型，记录判别准确率

，并选出准确率最高的特征索引集

，同时记录最高判别准确率

；

S37：将

与步骤S2所述的基准风险评估模型的判别准确率

进行比较，若

，则确定

为最终选用的特征索引集，若

，则从大到小遍历t，找到一个t，其判别准确率

大于准确率阈值，即

，且满足被筛去的特征数量大于特征数量阈值，即筛去的特征数量

，并确定S _t作为最终选用的特征索引集，其中，a和b为根据需求设定的参数；

S38：基于最终选用的特征索引集进行特征筛选，得到筛选后的训练数据集。

一种基于特征工程的工程履约保证保险风险识别平台，所述平台包括数据输入模块、数据处理模块、特征计算与筛选模块、模型训练模块和风险评估模块：

所述数据输入模块，用于接受需要进行风险识别的工程项目信息数据，该模块包括录入用于模型训练的工程项目信息数据或待评估的工程项目信息数据；

所述数据处理模块，用于对工程项目信息数据执行预处理操作得到工程业务数据，生成初始训练数据集或对待评估工程项目信息数据进行预处理；

所述特征计算与筛选模块，用于对数据处理模块预处理后的数据利用特征工程进行特征筛选，所述特征工程为最大相关最小冗余联合最大互信息系数特征选择策略，记为MR- MIC，并结合模型训练模块得到的基准风险判别模型及其判别准确率

进行特征筛选，得到筛选后的训练数据集，具体为：首先计算工程业务数据中每一对特征和每个特征与其对应类别标签的最大互信息系数，然后构建特征索引集，并记录每个特征索引集的判别准确率

，选出准确率最高的特征索引集，同时记录最高判别准确率

，与基准风险评估模型的判别准确率

进行对比，若

，则确定选出的特征索引集为最终选用的特征索引集，若

大于准确率阈值，准确率阈值根据判别准确率

所述模型训练模块，用于对数据处理模块预处理后的数据使用XGBoost模型进行训练得到基准风险判别模型，并记录基准风险判别模型的判别准确率

；或者对特征计算与筛选模块产生的筛选后的训练数据集使用XGBoost模型进行训练，得到最终的风险判别模型；

所述风险评估模块，用于依据最终的风险评估模型给出数据输入模块录入的待评估的工程项目信息数据的风险判别结果。

进一步地，所述数据输入模块包括从外界接受统一方式输入的数据，并存入数据库。

进一步地，所述数据处理模块包括文字特征处理模块和数值特征处理模块；

所述文字特征处理模块，用于针对工程业务数据中以文字形式描述的类别特征，进行独热编码处理，得到离散数值型特征；

所述数值特征处理模块，用于针对工程业务数据中以数值形式描述的特征，利用中位值填充方法对缺失值进行填充。

进一步地，所述特征计算与筛选模块包括最大互信息系数计算模块、特征索引集生成模块和特征筛选模块；

所述最大互信息系数计算模块，用于计算数据处理模块得到的工程业务数据中的每一对特征X和Y的最大互信息系数或者每个特征和其对应类别标签之间的最大互信息系数；具体如下：

a. 设定网格划分尺寸参数B，产生满足mn<B的各种(m,n)的正整数组合，m和n为网格横向和纵向划分的取值；

b. 对工程业务数据中每一对特征X和Y，遍历每一组(m,n)，将X的特征取值空间均匀划分成m份，并利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分，然后，固定特征Y的划分，利用动态规划找到使得特征X和Y之间互信息最大的特征X的划分，接着，固定特征X的划分，再利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分，最后输出每一组(m,n)对应的最大互信息值I _mn (X,Y)；

c. 根据下面的公式计算每一对X和Y的最大互信息系数

：

所述特征索引集生成模块，用于根据最大互信息系数模块计算的每一对特征之间和每个特征和其对应类别标签之间的最大互信息系数，使用MR-MIC特征选择策略，对通过数据处理模块预处理后的数据进行特征筛选，生成所有特征索引集，具体如下：

a. 构建特征索引集S ₁：

其中

为工程业务数据中的第k个特征，c为类别标签；

为根据最大互信息系数计算模块得到的特征

和其对应的类别标签c之间的最大互信息系数；

b. 通过如下公式生成其余特征索引集

：

其中T表示工程业务数据中的特征总数；

为特征索引集S _t中的索引为i的特征，

为未被选出的特征索引集

中索引为j的特征；

所述特征筛选模块，用于从特征索引集生成模块获得的所有特征索引集中选出准确率值最高的特征索引集

，同时记录最高判别准确率

，与基准风险评估模型的判别准确率

进行对比，若

，则确定

为最终选用的特征索引集，若

，则从大到小遍历t，找到一个t，其判别准确率

大于准确率阈值，即

，并确定S _t作为最终选用的特征索引集，其中，a和b为根据需求设定的参数，并基于最终选用的特征索引集进行特征筛选，得到筛选后的训练数据集。

本发明的有益效果：本发明利用了MR-MIC特征选择策略，可以从大量工程项目数据中找出与类别标签最为相关的特征，同时保证挑选的特征之间冗余程度较低，从而在保证模型预测性能的同时减小模型复杂度。本发明同时选用了XGBoost算法构建模型，从而保证提出的风险识别方法的结果准确性。

附图说明

图1为本发明提供的基于特征工程的工程履约保证保险风险识别方法流程图；

图2为本发明提供的基于特征工程的工程履约保证保险风险识别平台结构示意图；

图3为工程履约保证保险领域特征结构图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的说明，所描述的实施例旨在便于对本发明的理解，但对其不起任何限定作用。

本发明提供的一种基于特征工程的工程履约保证保险风险识别方法，主要流程如图1所示，包括如下步骤：

1. 对工程业务数据执行预处理操作，根据预处理后的数据构造初始训练数据集。

本发明利用的XGBoost算法无法处理文字分类特征，因此需要对该类型特征进行编码转换，本发明处理的工程履约保证保险领域的特征结构图如图3所示，本实施例中使用独热编码，其含义为使用N位寄存器存储N种状态，每个状态都有独立的寄存器位，且寄存器中只有一位有效。例如，如表1所示，“施工难度”特征包含三种取值，因此可以被拓展为三个特征。原特征转换后的三位编码中，仅对应转换位为状态1，其余为0，即“简单”这一取值可以被转换为“施工难度_简单”、“施工难度_一般”、“施工难度_复杂”分别取1、0、0三个取值的编码。

表1 文字量特征编码示意表

施工难度	施工难度_简单	施工难度_一般	施工难度_复杂
				简单	1	0	0
一般	0	1	0
				复杂	0	0	1

另外，输入的工程业务信息中有部分缺失值。考虑到数据的实际含义与算法部署的要求，可以对某特征缺失位置使用同一特征维度数据的中位数进行填充，避免对数据分布与实际含义造成过大的影响。

2. 根据初始训练数据集，利用XGBoost模型训练得到一个基准风险评估模型，并记录基准风险评估模型的判别准确率

。

XGBoost（eXtreme Gradient Boosting）是梯度提升（Gradient Boosting，GB）方法的高效实现，是一种用于回归和分类问题的学习模型，具有不易过拟合、灵活性高、收敛速度快、准确度高等特点。使用XGBoost模型，可以保证风险评估性能较好。实施例中，使用步骤1获得的训练数据集，利用默认参数的XGBoost模型直接训练，可以得到基准风险评估模型，此时记录模型的判别准确率

，以备后续使用。在观察模型结果的过程中，评估模型的数据结果拥有以下四种可能：

a. 真阳性

：样本真实类别为阳性，模型预测结果也是阳性；

b. 真阴性

：样本真实类别为阴性，模型预测结果也是阴性；

c. 假阳性

：样本真实类别为阴性，模型预测结果是阳性；

d. 假阴性

：样本真实类别为阳性，模型预测结果是阴性。

本发明涉及的数据为二分类数据，包含“投保”与“不投保”两个类别。因“不投保”类数据较少，且对这一分类数据进行错误判别会对公司造成较大的损失，因此模型的比较标准以“不投保”数据的模型判别指标为主。若定义本发明所用的“不投保”数据为阳性类（Positive），“投保”数据为阴性类（Negative），则可以计算出“不投保”数据的精确率Precision、召回率Recall、F1-Score，其含义如下：

a. 精确率Precision：

被判别为阳性的数据样本中真实类别为阳性的比例，即模型针对阳性类的判别准确度；

b. 召回率Recall：

真实类别为阳性的数据样本中被判别为阳性的比例；

c. F1-Score：

F1-Score是精确率与召回率的调和平均。

另外也需要比较所有样本被判别正确的比例，即总体准确率：

综合考量后，本实施例使用的

为“不投保”类的Recall值和模型总体准确率

值之和，以达到考虑对业务有较大威胁的类别数据，同时也兼顾总体准确率的目的。

3. 针对初始训练数据集，利用MR-MIC特征选择策略与基准风险评估模型进行特征筛选，得到筛选后的训练数据集。

A.产生网格划分

在实施时，需要设定网格划分参数B，产生满足mn<B的各种(m,n)的正整数组合，B为经验参数，若该参数过大，会导致网格划分数多，从而计算复杂化，而过小会导致划分的区间模式过于简单，因此一般设为

。

B.确定最大互信息值

对工程业务数据中每一对特征X和Y，遍历每一组(m,n)，将X的特征取值空间均匀划分成m份，并利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分，然后，固定特征Y的划分，利用动态规划找到使得特征X和Y之间互信息最大的特征X的划分，接着，固定特征X的划分，再利用动态规划找到使得特征X和Y之间互信息最大的特征Y的划分，最后输出每一组(m,n)对应的最大互信息值I _mn (X,Y)。

C. 确定最大互信息系数

根据下面的公式计算每一对X和Y的最大互信息系数

：

D.构建初始特征索引集

初始情况下，遍历所有特征

，选取其中与类别标签c的最大互信息系数最大之特征索引，并由此构建初始特征索引集S ₁：

其中

为工程业务数据中的第k个特征，c为类别标签；

为根据步骤S32和步骤S33计算得到的特征

和其对应的类别标签c之间的最大互信息系数；

E.构建所有特征索引集

在得到初始特征索引集后，每次添加特征须选取一个与类别标签c相关度最高，且和已挑选特征间相关度最低的特征的索引，因此通过如下公式生成其余特征索引集

：

其中T表示工程业务数据中的特征总数；

为特征索引集S _t中的索引为i的特征，

为未被选出的特征索引集

中索引为j的特征。

F.进行模型判定与结果记录

完成所有特征索引集生成后，需要将每一个索引集S _t对应的数据集输入到XGBoost模型，记录判别准确率

，并选出判别准确率最高的特征索引集

，记录最高判别准确率

。

G.特征索引集挑选

将

与步骤2所述的基准风险评估模型的判别准确率

进行比较，若

，则确定

为最终选用的特征索引集，该过程用于确定筛选后性能超过原数据的特征筛选方式，实施例中通过该标准可以完成最佳特征索引集的筛选。另外，当

，表明筛选后都有不同程度的损失，则此时需要从大到小遍历t，在实施例之中，设定找到一个满足

，同时被筛去的特征数量

的特征索引集S _t，即准确率不降低超过5%且筛去超过20%特征，并确定其为最终选用的特征索引集，该挑选标准用于达到在保留数据性能的情况下，删除尽可能多特征的目的。

H.得到筛选后数据集

使用最终选用的特征索引集，可以对工程业务数据进行筛选，从而得到筛选后的训练数据集。

4. 针对筛选后的训练数据集，使用XGBoost模型训练得到最终的风险评估模型。

本实施例中，在确定最终的特征索引集和筛选后数据集后，利用筛选后数据重新对模型进行训练，特征筛选前后的“不投保”类模型指标与准确率对比如表2所示：

表2 特征筛选前后“不投保”类模型指标与准确率对比

	<i>Precision</i>	<i>Recall</i>	<i>F1-Score</i>	<i>Accuracy</i>
					筛选前	0.67	0.55	0.61	0.86
筛选后	0.71	0.56	0.63	0.87

观察上表发现，经过特征筛选后，“不投保”类的模型指标有了明显提升，同时总体准确率上升，说明MR-MIC特征筛选方法有较好的效果。

5. 对待评估工程项目的数据经过步骤1所述的数据预处理及步骤3所述的特征筛选，然后将经过预处理和特征筛选后的数据输入到步骤4所得到的最终的风险评估模型，得到待评估项目的风险识别结果。

如图2所示，本发明还提供了一种基于特征工程的工程履约保证保险风险识别平台，包括数据输入模块、数据处理模块、特征计算与筛选模块、模型训练模块和风险评估模块

，首先计算工程业务数据中每一对特征和每个特征与其对应类别标签的最大互信息系数，然后构建特征索引集，并记录每个特征索引集的判别准确率

，选出准确率最高的特征索引集，同时记录最高判别准确率

，与基准风险评估模型的判别准确率

进行对比，若

，则确定选出的特征索引集为最终选用的特征索引集，若

大于准确率阈值即

，准确率阈值根据判别准确率

以及需求的精度选择，且满足被筛去的特征数量大于特征数量阈值即

；基于该特征索引集进行特征筛选，得到筛选后的训练数据集；

所述模型训练模块，用于对数据处理模块预处理后的数据使用XGBoost模型进行训练得到基准风险判别模型，并记录该模型的判别准确率

，或者对特征计算与筛选模块产生的筛选后的训练数据集使用XGBoost模型进行训练，得到最终的风险判别模型；

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据本发明公开的内容，可以采用其它多种具体实施方案实施本发明。因此，凡是采用本发明的设计结构和思路，做一些简单的变化或更改的设计，都落入本发明保护范围。

Claims

1.一种基于特征工程的工程履约保证保险风险识别方法，其特征在于，所述方法包括如下步骤：

；

，选出准确率最高的特征索引集，同时记录最高判别准确率

，与基准风险评估模型的判别准确率

进行对比，若

，则确定选出的特征索引集为最终选用的特征索引集，若

大于准确率阈值，准确率阈值根据判别准确率

2.根据权利要求1所述的一种基于特征工程的工程履约保证保险风险识别方法，其特征在于，步骤S1中预处理操作具体包括：

3.根据权利要求1所述的一种基于特征工程的工程履约保证保险风险识别方法，其特征在于，步骤S3中特征筛选策略具体包括：

S33：根据下面的公式计算每一对X和Y的最大互信息系数

：

S34：构建特征索引集S ₁：

其中

为工程业务数据中的第k个特征，c为类别标签；

为根据步骤S32和步骤S33计算得到的特征

和其对应的类别标签c之间的最大互信息系数；

S35：通过如下公式生成其余特征索引集

：

其中T表示工程业务数据中的特征总数；

为特征索引集S _t中的索引为i的特征，

为未被选出的特征索引集

中索引为j的特征；

，并选出准确率最高的特征索引集

，同时记录最高判别准确率

；

S37：将

与步骤S2所述的基准风险评估模型的判别准确率

进行比较，若

，则确定

为最终选用的特征索引集，若

，则从大到小遍历t，找到一个t，其判别准确率

大于准确率阈值，即

4.一种基于特征工程的工程履约保证保险风险识别平台，其特征在于，所述平台包括数据输入模块、数据处理模块、特征计算与筛选模块、模型训练模块和风险评估模块：

，选出准确率最高的特征索引集，同时记录最高判别准确率

，与基准风险评估模型的判别准确率

进行对比，若

，则确定选出的特征索引集为最终选用的特征索引集，若

大于准确率阈值，准确率阈值根据判别准确率

5.根据权利要求4所述的一种基于特征工程的工程履约保证保险风险识别平台，其特征在于，所述数据输入模块包括从外界接受统一方式输入的数据，并存入数据库。

6.根据权利要求4所述的一种基于特征工程的工程履约保证保险风险识别平台，其特征在于，所述数据处理模块包括文字特征处理模块和数值特征处理模块；

7.根据权利要求4所述的一种基于特征工程的工程履约保证保险风险识别平台，其特征在于，所述特征计算与筛选模块包括最大互信息系数计算模块、特征索引集生成模块和特征筛选模块；

c. 根据下面的公式计算每一对X和Y的最大互信息系数

：

a. 构建特征索引集S ₁：

其中

为工程业务数据中的第k个特征，c为类别标签；

为根据最大互信息系数计算模块得到的特征

和其对应的类别标签c之间的最大互信息系数；

b. 通过如下公式生成其余特征索引集

：

其中T表示工程业务数据中的特征总数；

为特征索引集S _t中的索引为i的特征，

为未被选出的特征索引集

中索引为j的特征；

，同时记录最高判别准确率

，与基准风险评估模型的判别准确率

进行对比，若

，则确定

为最终选用的特征索引集，若

，则从大到小遍历t，找到一个t，其判别准确率

大于准确率阈值，即