CN116645221A - 风险评估方法及装置、设备和存储介质 - Google Patents
风险评估方法及装置、设备和存储介质 Download PDFInfo
- Publication number
- CN116645221A CN116645221A CN202211585558.1A CN202211585558A CN116645221A CN 116645221 A CN116645221 A CN 116645221A CN 202211585558 A CN202211585558 A CN 202211585558A CN 116645221 A CN116645221 A CN 116645221A
- Authority
- CN
- China
- Prior art keywords
- user data
- sample
- historical user
- determining
- risk assessment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 136
- 238000000034 method Methods 0.000 title claims abstract description 125
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000013210 evaluation model Methods 0.000 claims abstract description 19
- 239000000523 sample Substances 0.000 claims description 297
- 239000012468 concentrated sample Substances 0.000 claims description 56
- 238000004422 calculation algorithm Methods 0.000 claims description 51
- 238000009826 distribution Methods 0.000 claims description 39
- 239000002245 particle Substances 0.000 claims description 23
- 238000007477 logistic regression Methods 0.000 claims description 20
- 230000006978 adaptation Effects 0.000 claims description 19
- 238000012163 sequencing technique Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012954 risk control Methods 0.000 description 3
- 239000010755 BS 2869 Class G Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013058 risk prediction model Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种风险评估方法及装置、设备和存储介质,其中,所述方法包括:获取待评估对象的当前用户数据;确定所述当前用户数据对应的目标样本类别;从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
Description
技术领域
本申请实施例涉及数据处理技术,涉及但不限于一种风险评估方法及装置、设备和存储介质。
背景技术
随着云计算技术和大数据技术的不断发展,诸如保险数据也朝着多维度、大数据量方向发展。目前,在保单生效后,客户常常因各种原因提出终止保险合同,即主动发起退保。保险公司每年有许多保单发生退保,客户退保无论是对客户还是对保险公司都会带来一定的损失。退保的发生存在较大的不可预见性,一般难以提前介入挽留客户。
发明内容
有鉴于此,本申请实施例提供一种风险评估方法及装置、设备和存储介质。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种风险评估方法,所述方法包括:获取待评估对象的当前用户数据;确定所述当前用户数据对应的目标样本类别;从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
通过上述方式,能够提高用户数据风险等级评估的准确性,并提高评估效率。
在一些实施例中,所述风险评估模型通过以下步骤进行训练:设定不同的样本类别;确定所述不同的样本类别中每一样本类别下的历史用户数据;对所述每一样本类别下的历史用户数据进行浓缩处理,得到所述每一样本类别下浓缩后的历史用户数据;其中,浓缩后的历史用户数据的数据量小于浓缩前的历史用户数据的数据量;基于所述每一样本类别下浓缩后的历史用户数据,对对应样本类别下的待训练的风险评估模型进行训练,直至训练后的所述风险评估模型满足收敛条件。
通过上述方式,在不丢失样本的有用特征的同时减少各簇内的样本量,如此,在使用浓缩后的历史用户数据进行训练的情况下,能够保证信息有效性的同时节约计算资源和空间。
在一些实施例中,所述确定所述不同的样本类别中每一样本类别下的历史用户数据,包括:获取预设时间段内的历史用户数据;对所述预设时间段内的历史用户数据进行初始聚类,得到所述不同的样本类别的初始聚类中心;利用粒子群算法对所述不同的样本类别的初始聚类中心进行优化,得到优化后的聚类中心;基于所述优化后的聚类中心和所述预设时间段内的历史用户数据,确定所述不同的样本类别中每一样本类别下的历史用户数据。
通过上述方式,能够适用于高维量大的样本进行分簇,提升用户群预测分析的精细化程度,从而提高风险预测评估的准确性。
在一些实施例中,所述利用粒子群算法对所述不同的样本类别的初始聚类中心进行优化,得到优化后的聚类中心,包括:利用粒子群算法对所述预设时间段内的历史用户数据进行处理,得到每一所述历史用户数据的适应值;其中,所述粒子群算法中利用曼哈顿距离确定每一历史用户数据与其对应的初始聚类中心的相似度;对具有第一初始聚类中心的样本类别下的历史用户数据的适应值进行排序,得到第一排序结果;将所述第一排序结果中适应值最优的历史用户数据,确定为所述第一初始聚类中心对应的优化后的聚类中心。
通过上述方式,能够在优化聚类中心时使用曼哈顿距离计算样本相似度,从而仅需计算加减公式,较大提升计算效率。
在一些实施例中,所述基于所述优化后的聚类中心和所述预设时间段内的历史用户数据,确定所述不同的样本类别中每一样本类别下的历史用户数据,包括:确定所述预设时间段内的每一历史用户数据与优化后的聚类中心的相似度;根据所述相似度对所述预设时间段内的历史用户数据进行分簇,得到所述不同的样本类别中每一样本类别下的历史用户数据。
通过上述方式,能够使用优化有的聚类中心对预设时间段内的历史用户数据进行分簇,从而提高簇内样本的精确度,进而提高模型训练的准确性。
在一些实施例中,所述对所述每一样本类别下的历史用户数据进行浓缩处理,得到所述每一样本类别下浓缩后的历史用户数据,包括:确定所述每一样本类别下的历史用户数据的统计分布特征;将每一所述历史用户数据与其对应的统计分布特征进行比对,得到比对结果;其中,所述比对结果用于表明每一所述历史用户数据为浓缩样本或非浓缩样本;利用所述每一样本类别下的多个浓缩样本,确定所述每一样本类别下的新样本;根据所述新样本和所述每一样本类别下的非浓缩样本,确定所述每一样本类别下浓缩后的历史用户数据。
通过上述方式,能够充分利用样本群体性特征进行信息浓缩提取,并且使用样本相似度保证数据信息提取的质量,同时提升了最终模型的计算运行效率。
在一些实施例中,所述确定所述每一样本类别下的历史用户数据的统计分布特征,包括:确定所述每一样本类别下的历史用户数据的均值和标准差;对应地,所述将每一所述历史用户数据与其对应的统计分布特征进行比对,得到比对结果,包括:根据第一样本类别下的历史用户数据的均值和标准差,确定比对值;如果所述第一样本类别下的第一历史用户数据小于等于所述比对值,确定所述第一历史用户数据为浓缩样本;如果所述第一历史用户数据大于所述比对值,确定所述第一历史用户数据为非浓缩样本。
通过上述方式,首先进行样本分簇,并充分利用各簇类的群体特征,使用簇类中心分布期望计算为单样本替代与簇类中心相似度高的数据样本,对比现有技术此方法只需要计算一次簇类分布期望,计算资源消耗小,且因为利用了簇类分布特征,对相似度高的样本直接替代,能够更精确地提取浓缩数据信息。
在一些实施例中,所述利用所述每一样本类别下的多个浓缩样本,确定所述每一样本类别下的新样本,包括:确定所述每一样本类别下的多个浓缩样本的特征均值;根据所述多个浓缩样本的特征均值,确定所述每一样本类别下的新样本。
通过上述方式,能够利用多个浓缩样本的特征均值来进行样本浓缩,在保证特征的质量的同时提高运算效率。
在一些实施例中,所述方法还包括:基于所述每一样本类别下浓缩后的历史用户数据的风险等级标签和训练时风险评估模型输出的风险预测结果,构建损失函数;对应地,所述基于所述每一样本类别下浓缩后的历史用户数据,对对应样本类别下的待训练的风险评估模型进行训练,直至训练后的所述风险评估模型满足收敛条件,包括:基于所述每一样本类别下浓缩后的历史用户数据和所述浓缩后的历史用户数据的风险等级标签,对对应样本类别下的待训练的风险评估模型进行训练,直至利用所述损失函数确定出的损失小于预设阈值。
通过上述方式,能够减小由于用户数据和维度的增加导致的复杂程度的增加,同时在用户风险评级中提升评级模型的预测精准度。
在一些实施例中,所述待训练的风险评估模型通过以下步骤获得:对所述每一样本类别下浓缩后的历史用户数据进行特征提取,得到多个特征和所述多个特征中每一特征的重要程度;按照重要程度对所述多个特征进行排序,得到第二排序结果;利用所述第二排序结果中预设排序位置上的特征构建逻辑回归模型;将构建的所述逻辑回归模型确定为待训练的风险评估模型。
通过上述方式,能够为呈现可视化的评定规则打下基础,进而更好地展现各簇用户群的重要指标以及指标间的关系,令业务人员理解各簇用户群的业务特征,从而制定相应的业务策略。
在一些实施例中,在所述目标风险评估模型为已训练的逻辑回归模型的情况下,所述方法还包括:确定得到所述待评估对象的当前风险等级时所述已训练的逻辑回归模型中的多个特征的系数值;基于所述多个特征的系数值,实现所述待评估对象的当前风险等级的可视化分析。
通过上述方式,能够基于分簇及特征提取结果,制定可视化的特征评定规则,解决传统机器学习结果黑盒、业务解释性差的问题。
第二方面,本申请实施例提供一种风险评估装置,所述装置包括:当前数据获取单元,用于获取待评估对象的当前用户数据;目标类别确定单元,用于确定所述当前用户数据对应的目标样本类别;评估模型确定单元,用于从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;风险等级预测单元,用于基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
附图说明
图1为本申请实施例风险评估方法的实现流程示意图一;
图2为本申请实施例风险评估方法的实现流程示意图二;
图3A为本申请实施例风险评估装置的组成结构示意图一;
图3B为本申请实施例样本浓缩方法的实现流程示意图;
图3C为本申请实施例模型的训练流程的示意图;
图4为本申请实施例风险评估装置的组成结构示意图二;
图5为本申请实施例电子设备的一种硬件实体示意图。
具体实施方式
下面结合附图和实施例对本申请的技术方案进一步详细阐述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
需要指出,本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
基于此,本申请实施例提供一种风险评估方法,所述方法应用于电子设备,该方法所实现的功能可以通过所述电子设备的处理器调用程序代码来实现,当然程序代码可以保存在所述电子设备的存储介质中。图1为本申请实施例风险评估方法的实现流程示意图一,如图1所示,所述方法包括:
步骤S101、获取待评估对象的当前用户数据;
这里,所述电子设备可以为各种类型的具有信息处理能力的设备,例如导航仪、智能手机、平板电脑、可穿戴设备、膝上型便携计算机、一体机和台式计算机、服务器集群等。
需要说明的是,本申请实施例中的风险评估方法可以用于各领域的风险评估,例如保险类的风险评估(如用户退保风险评估),金融类的风险评估(如用户贷款风险评估)等,本申请实施例对此并不做限制。
本申请实施例中,待评估对象可以为风险评估的目标人物,也可以为风险评估的目标事物等等,本申请实施例对此并不做限制。所述待评估对象的当前用户数据指的是待评估对象的测试数据。
步骤S102、确定所述当前用户数据对应的目标样本类别;
本申请实施例中,在训练阶段会对所有的训练数据进行聚类,并且每一类对应训练一风险评估模型,因此在测试阶段需要先将当前用户数据进行分类,然后利用对应类别下已训练的风险评估模型进行测试,如此,能够提升风险评估模型的预测精度,从而提高风险评估的准确率。例如,可以将训练数据聚类为三个分簇,分别为高风险、中风险,以及低风险。如果当前用户数据属于高风险类,则选择高风险类对应的已训练的风险评估模型进行预测。
步骤S103、从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;
这里,不同样本类别对应不同的已训练的风险评估模型,因此获取待评估对象的当前用户数据后,需要利用对应样本类别下的已训练的风险评估模型,来预测该待评估对象的当前风险状态。
本申请实施例中,不同的已训练的风险评估模型是通过不同样本类别下的历史用户数据训练得到,进而在进行预测时也是分类预测,如此能够更好地展现各类用户群的业务风险指标,从而针对风险制定相应的业务策略。
步骤S104、基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
这里,通过上述步骤S101至步骤S104,能够提高用户数据风险等级评估的准确性,并提高评估效率。
基于前述的实施例,本申请实施例再提供一种风险评估方法,所述方法应用于电子设备,图2为本申请实施例风险评估方法的实现流程示意图二,如图2所示,所述方法包括:
步骤S201、设定不同的样本类别;
这里,可以根据实际需求设定不同的样本类别,例如,可以设定高风险、中风险和低风险三个样本类别。
步骤S202、确定所述不同的样本类别中每一样本类别下的历史用户数据;
例如,可以获取预设时间段内的历史用户数据,然后按照设定的样本类别对该预设时间段内的历史用户数据进行聚类,得到每一样本类别下的历史用户数据。
这里,所述历史用户数据可以为某领域常用的数据集,也可以为特定的数据集,本申请实施例对此并不做限制。并且,所述历史用户数据携带有标签信息,该标签信息表征历史用户数据的风险等级。
步骤S203、对所述每一样本类别下的历史用户数据进行浓缩处理,得到所述每一样本类别下浓缩后的历史用户数据;其中,浓缩后的历史用户数据的数据量小于浓缩前的历史用户数据的数据量;
本申请实施例中,可以对每一样本类别下的历史用户数据进行浓缩处理,在不丢失样本的有用特征的同时减少各簇内的样本量。如此,在使用浓缩后的历史用户数据进行训练的情况下,能够保证信息有效性的同时节约计算资源和空间。
步骤S204、基于所述每一样本类别下浓缩后的历史用户数据,对对应样本类别下的待训练的风险评估模型进行训练,直至训练后的所述风险评估模型满足收敛条件;
这里,训练后的所述风险评估模型满足收敛条件,可以有以下三种方式实现:第一种是所述风险评估模型输出的损失小于某一预设值;第二种是两次迭代之间权值的变化小于某一预设值;第三种是迭代次数达到预设次数。
步骤S205、获取待评估对象的当前用户数据;
步骤S206、确定所述当前用户数据对应的目标样本类别;
步骤S207、从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;
步骤S208、基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
基于前述的实施例,本申请实施例再提供一种风险评估方法,所述方法应用于电子设备,所述方法包括:
步骤S211、设定不同的样本类别;
步骤S212、获取预设时间段内的历史用户数据;
步骤S213、对所述预设时间段内的历史用户数据进行初始聚类,得到所述不同的样本类别的初始聚类中心;
这里,可以利用各种现有的聚类算法对所述预设时间段内的历史用户数据进行初始聚类,得到不同的样本类别的初始聚类中心。例如,使用MFCM(Modified Fuzzy C Means,修正模糊C均值聚类)算法进行初始聚类。当然,还可以使用其他的聚类算法对所述预设时间段内的历史用户数据进行初始聚类,本申请实施例并不做限制。
其中,可以根据曼哈顿距离进行样本相似度对比及划分,对比现有聚类算法通常使用欧式距离进行样本间相似度对比,此方法使用曼哈顿距离计算样本相似度,仅需计算加减公式,较大提升计算效率。
步骤S214、利用粒子群算法对所述不同的样本类别的初始聚类中心进行优化,得到优化后的聚类中心;
这里,可以利用粒子群算法对步骤S213中得到的初始聚类中心进行优化,对比现有成熟的聚类算法通常使用距离计算迭代、EM(Expectation-maximizationalgorithm,期望最大化算法)算法等不断进行类别更新,此方法使用粒子群算法进行聚类中心更新,计算复杂度较低,迭代速度快,将各用户数据适应值与其所在分簇的聚类中心的适应值进行比较,若优于则自动化替换簇类中心,能够适用于高维样本量大的样本进行分簇,提升用户群预测分析的精细化程度,从而提高风险预测评估的准确性。
步骤S215、基于所述优化后的聚类中心和所述预设时间段内的历史用户数据,确定所述不同的样本类别中每一样本类别下的历史用户数据;
这里,可以将与优化后的聚类中心相似的历史用户数据作为优化后的聚类中心的同类。例如,先计算历史用户数据和各优化后的聚类中心的曼哈顿距离,并根据各历史用户数据对应的曼哈顿距离最小,选择相应优化后的聚类中心对应的分簇,以将该历史用户数据分配至相应分簇中,从而得到不同簇(即不同样本类别)的历史用户数据。
步骤S216、对所述每一样本类别下的历史用户数据进行浓缩处理,得到所述每一样本类别下浓缩后的历史用户数据;其中,浓缩后的历史用户数据的数据量小于浓缩前的历史用户数据的数据量;
步骤S217、基于所述每一样本类别下浓缩后的历史用户数据,对对应样本类别下的待训练的风险评估模型进行训练,直至训练后的所述风险评估模型满足收敛条件;
步骤S218、获取待评估对象的当前用户数据;
步骤S219、确定所述当前用户数据对应的目标样本类别;
步骤S220、从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;
步骤S221、基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
在一些实施例中,所述步骤S214、利用粒子群算法对所述不同的样本类别的初始聚类中心进行优化,得到优化后的聚类中心,可以通过以下步骤实现:
步骤S2141、利用粒子群算法对所述预设时间段内的历史用户数据进行处理,得到每一所述历史用户数据的适应值;其中,所述粒子群算法中利用曼哈顿距离确定每一历史用户数据与其对应的初始聚类中心的相似度;
这里,可以利用公式F=α1Ni+α2Davg+α3Ci计算每一所述历史用户数据的适应值;其中,α1、α2和a3为各因素对应的权重,Ni为第i个用户数据的节点度,Dik为用户数据i与聚类中心k的曼哈顿距离,n表示为用户所在簇的用户总数,Ci表示为用户数据i的信道容量。
步骤S2142、对具有第一初始聚类中心的样本类别下的历史用户数据的适应值进行排序,得到第一排序结果;
这里,具有第一初始聚类中心的样本类别下的历史用户数据包括第一初始聚类中心对应的用户历史数据,也包括与该第一初始聚类中心同类的用户历史数据(即该类中的其他历史用户数据)。
步骤S2143、将所述第一排序结果中适应值最优的历史用户数据,确定为所述第一初始聚类中心对应的优化后的聚类中心。
这里,可以对具有第一初始聚类中心的样本类别下的历史用户数据的适应值进行排序,得到第一排序结果;将所述第一排序结果中适应值最优的历史用户数据,确定为所述第一初始聚类中心对应的优化后的聚类中心。还可以通过将各历史用户数据的适应值与其所在分簇的初始聚类中心的适应值进行比较,若历史用户数据适应值优于初始聚类中心适应值,则将历史用户数据作为当前优化后的聚类中心。这两种方式达到的效果相同,在应用时可以选择实际情况选择其中一种实施。
在一些实施例中,所述步骤S215、基于所述优化后的聚类中心和所述预设时间段内的历史用户数据,确定所述不同的样本类别中每一样本类别下的历史用户数据,可以通过以下步骤实现:
步骤S2151、确定所述预设时间段内的每一历史用户数据与优化后的聚类中心的相似度;
这里,可以利用曼哈顿距离进行样本相似度对比及划分,对比现有聚类算法通常使用欧式距离进行样本间相似度对比,此方法使用曼哈顿距离计算样本相似度,仅需计算加减公式,较大提升计算效率。
步骤S2152、根据所述相似度对所述预设时间段内的历史用户数据进行分簇,得到所述不同的样本类别中每一样本类别下的历史用户数据。
基于前述的实施例,本申请实施例再提供一种风险评估方法,所述方法应用于电子设备,所述方法包括:
步骤S231、设定不同的样本类别;
步骤S232、确定所述不同的样本类别中每一样本类别下的历史用户数据;
步骤S233、确定所述每一样本类别下的历史用户数据的统计分布特征;
这里,可以对每一样本类别下的历史用户数据进行样本浓缩,因此需要确定每一样本类别下的历史用户数据的统计分布特征。即,本申请实施例中对全量数据样本进行聚类分簇,再计算各簇内数据样本分布,针对样本相似度高的数据使用该簇的聚类分布特征替代,同时保留相似度较低的原始数据,由此作为最终入模的样本数据。对比现有针对全量数据进行特征提取的方法,能够充分利用样本群体性特征进行信息浓缩提取,并且使用样本相似度保证数据信息提取的质量,同时提升了最终模型的计算运行效率。
步骤S234、将每一所述历史用户数据与其对应的统计分布特征进行比对,得到比对结果;其中,所述比对结果用于表明每一所述历史用户数据为浓缩样本或非浓缩样本;
举例来说,设定三个样本类别,分别为高风险类别、中风险类别和低风险类别;某一历史用户数据属于高风险类别,则将该历史用户数据与高风险类别下的历史用户数据的统计分布特征进行比对,从而判断该历史用户数据属于浓缩样本还是非浓缩样本。
步骤S235、利用所述每一样本类别下的多个浓缩样本,确定所述每一样本类别下的新样本;
这里,多个浓缩样本可以由一个新样本进行替换,因此减少了该类别下的样本量。
步骤S236、根据所述新样本和所述每一样本类别下的非浓缩样本,确定所述每一样本类别下浓缩后的历史用户数据;
本申请实施例中,进入模型训练的样本为每一样本类别下的新样本和非浓缩样本,即对各类别样本进行符合该类样本特征的提炼,在保证分析效果的同时减少大量多维样本对模型建设产生的资源损耗。
步骤S237、基于所述每一样本类别下浓缩后的历史用户数据,对对应样本类别下的待训练的风险评估模型进行训练,直至训练后的所述风险评估模型满足收敛条件;
步骤S238、获取待评估对象的当前用户数据;
步骤S239、确定所述当前用户数据对应的目标样本类别;
步骤S240、从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;
步骤S241、基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
在一些实施例中,所述步骤S233、确定所述每一样本类别下的历史用户数据的统计分布特征,包括:确定所述每一样本类别下的历史用户数据的均值和标准差;
对应地,所述步骤S234、将每一所述历史用户数据与其对应的统计分布特征进行比对,得到比对结果,可以通过以下步骤实现:
步骤S2341、根据第一样本类别下的历史用户数据的均值和标准差,确定比对值;
步骤S2342、如果所述第一样本类别下的第一历史用户数据小于等于所述比对值,确定所述第一历史用户数据为浓缩样本;
步骤S2343、如果所述第一历史用户数据大于所述比对值,确定所述第一历史用户数据为非浓缩样本。
这里,如果第一历史用户数据满足公式xij-EGk≤3*εGk,则确定所述第一历史用户数据为浓缩样本;如果第一历史用户数据满足公式xij-EGk>3*εGk,则确定所述第一历史用户数据为非浓缩样本;其中,xij为第一历史用户数据,EGk为所述第一历史用户数据所属类别下的历史用户数据的均值,εGk为所述第一历史用户数据所属类别下的历史用户数据的标准差。
在一些实施例中,所述步骤S235、利用所述每一样本类别下的多个浓缩样本,确定所述每一样本类别下的新样本,可以通过以下步骤实现:
步骤S2351、确定所述每一样本类别下的多个浓缩样本的特征均值;
步骤S2352、根据所述多个浓缩样本的特征均值,确定所述每一样本类别下的新样本。
这里,通过上述的样本浓缩处理,能够在保证样本特征的同时大量降低样本复杂度,又保留了样本的特异性,对各簇类样本总体特征进行了浓缩提炼。即,对比现有的数据样本降维方法和特征提取方法针对大量高维样本的计算复杂度较高,此方法首先进行样本分簇,并充分利用各簇类的群体特征,使用簇类中心分布期望计算为单样本替代与簇类中心相似度高的数据样本,对比现有技术此方法只需要计算一次簇类分布期望,计算资源消耗小,且因为利用了簇类分布特征,对相似度高的样本直接替代,能够更精确地提取浓缩数据信息。
基于前述的实施例,本申请实施例再提供一种风险评估方法,所述方法应用于电子设备,所述方法包括:
步骤S251、设定不同的样本类别;
步骤S252、确定所述不同的样本类别中每一样本类别下的历史用户数据;
步骤S253、对所述每一样本类别下的历史用户数据进行浓缩处理,得到所述每一样本类别下浓缩后的历史用户数据;其中,浓缩后的历史用户数据的数据量小于浓缩前的历史用户数据的数据量;
步骤S254、基于所述每一样本类别下浓缩后的历史用户数据的风险等级标签和训练时风险评估模型输出的风险预测结果,构建损失函数;
本申请实施例中,可以利用公式确定损失函数,其中,L表示为损失函数,yi表示为风险等级标签,/>表示为模型预测得到的风险概率,n表示为数据总量。
步骤S255、基于所述每一样本类别下浓缩后的历史用户数据和所述浓缩后的历史用户数据的风险等级标签,对对应样本类别下的待训练的风险评估模型进行训练,直至利用所述损失函数确定出的损失小于预设阈值;
步骤S256、获取待评估对象的当前用户数据;
步骤S257、确定所述当前用户数据对应的目标样本类别;
步骤S258、从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;
步骤S259、基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
在一些实施例中,所述待训练的风险评估模型通过以下步骤获得:
步骤S11、对所述每一样本类别下浓缩后的历史用户数据进行特征提取,得到多个特征和所述多个特征中每一特征的重要程度;
这里,可以利用机器学习GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法提取用户数据的显著特征(GBDT算法能够输出各特征的重要程度)。在聚类结果的基础上使用GBDT提取各分簇用户数据的特征方法,以便于灵活处理各种类型的数据,相较于主成分提取特征的方法,此方法对异常值的鲁棒性较强,以便准确提取用户数据的特征。
步骤S12、按照重要程度对所述多个特征进行排序,得到第二排序结果;
步骤S13、利用所述第二排序结果中预设排序位置上的特征构建逻辑回归模型;
例如,可以提取用户数据的前5位显著特征,使用该前5位的变量构建逻辑回归模型,形成风险等级的可视化评定规则其中,x1,x2,...,x5为使用GBDT算法提取的前5位显著特征,β0,β1,β2,...,β5为5个变量的参数值。如此,能够为呈现可视化的评定规则打下基础,进而更好地展现各簇用户群的重要指标以及指标间的关系,令业务人员理解各簇用户群的业务特征,从而制定相应的业务策略。
本申请实施例中,可以通过逻辑回归模型预测用户数据的业务风险概率,再根据业务风险概率判断用户对应的风险等级。
步骤S14、将构建的所述逻辑回归模型确定为待训练的风险评估模型。
在一些实施例中,在所述目标风险评估模型为已训练的逻辑回归模型的情况下,所述方法还包括:
步骤S21、确定得到所述待评估对象的当前风险等级时所述已训练的逻辑回归模型中的多个特征的系数值;
这里,所述多个特征的系数值即上述公式中的β0,β1,β2,...,β5。
步骤S22、基于所述多个特征的系数值,实现所述待评估对象的当前风险等级的可视化分析。
本申请实施例中,可以在测试后通过分析β0,β1,β2,...,β5中各β值的大小,来实现所述待评估对象的当前风险等级的可视化分析。例如,β越大则说明该β对应的特征x越重要(即该特征x对风险概率的影响越大),再确定该特征x所属的样本维度(例如可以划分为用户信息、行为信息和业务信息等维度),从而进行可视化分析。如此,本申请实施例能够基于分簇及特征提取结果,制定可视化的特征评定规则,便于业务理解。
目前保险行业需要对核保赔保等业务进行审核和风险控制,而现有技术中进行审核和风险控制的方法可以分为以下两种:
一、人工风险评估方式。人工风险评估方式利用人工手动收集数据并对数据进行人工分析,主要手段包括业务规则设置进行评估,该种方法应用较多,但容易受业务人员本身的经验限制,从而产生较大的评估偏差。
二、现有基于机器学习算法进行风险评估。通过历史保单数据分别提取特征数据值,使用大数据机器挖掘算法训练分类器,得到预设模型,将当前保单数据属性值输入训练模型中得到退保概率,根据概率高低划分进行风险等级的评估。此种方法相较于人工评估方式有更高的准确性,但此方法对多维度、大数量数据的信息挖掘方式较为单一,提取的特征较为模糊,且输出结果比较黑盒,在实际业务场景的退保风险评估中还具有较大的优化空间。
现有机器学习中的聚类算法主要有层次聚类、K-Means聚类、密度聚类等,需要通过不断计算样本相似度而迭代更新样本,通常相似度的判别使用欧式距离进行计算,计算效率较低。另一方面,现有技术中的特征提取算法主要有主成分分析降维、特征筛选(过滤式、嵌入式和包裹式等),这些方法通常是对全量样本所有特征进行分析计算,未分开考虑样本特征间的统一性和差异性,计算资源消耗较大的同时特征信息提取的精准度有待提升。
通过对现有技术中进行审核和风险控制的方法进行分析,发现现有技术存在以下问题:
1、针对现有人工风险评估的方式,由于人工的方式往往带有主观因素,且没有统一的量化标准,容易导致风险评估的准确率不高;另外,由于需要人工收集数据并进行风险评估,效率较低,且人力成本较大。
2、缺乏对多维度、大数量的数据进行风险评估的机器学习算法,现有技术直接将数据输入至机器学习算法模型中,当数据为高维度、大数量时,使用直接样本进行建模分析,容易造成风险评估结果准确度较差以及处理效率较低的问题,增加了风险评估的复杂程度。
3、针对现有技术利用机器学习算法模型提取特征时,大多采用主成分分析方式、特征筛选等方法,直接对全量样本进行计算,未利用样本的群体性特征,使得提取的特征带有模糊性,容易造成最终风险评估结果不准的情形。
4、在对数据进行风险等级评定时,大多采用不可见规则,输出结果黑盒,不利于业务人员理解。
针对上述现有技术中存在的问题,本申请实施例提出一种基于MFCM-PSO和特征浓缩的用户退保风险评估方法和装置,重点优化用户聚类准确性,并分簇提取用户数据特征,形成可视化退保预测阶梯群。据此,本申请实施例中的评估方法和装置具有以下特点:
(1)使用一种基于MFCM结合PSO(Particle Swarm Optimization,粒子群算法)的聚类算法,使用曼哈顿距离计算衡量样本的相似度,对比现有技术中的欧式距离计算,能够直接进行加减运算,较大提升计算效率。另外使用粒子群算法进行簇类中心优化,对比现有技术不断计算相似度来迭代更新簇类中心的办法,收敛性能好,能够应对多维度、大数量数据的风险评估,提高风险评估的处理效率。
(2)创新一种基于聚类+特征浓缩的数据信息提取算法,首先对全量数据样本进行聚类分簇,再计算各簇内数据样本分布,针对样本相似度高的数据使用该簇的聚类分布特征替代,同时保留相似度较低的原始数据,由此作为最终入模的样本数据。对比现有针对全量数据进行特征提取的方法,能够充分利用样本群体性特征进行信息浓缩提取,并且使用样本相似度保证数据信息提取的质量,同时提升了最终模型的计算运行效率。
(3)创新一种在聚类结果的基础上使用GBDT提取各分簇用户数据的特征方法,以便于灵活处理各种类型的数据,相较于主成分提取特征的方法,此方法对异常值的鲁棒性较强,以便准确提取用户数据的特征。
(4)基于分簇及特征提取结果,制定可视化的特征评定规则,便于业务理解。
下面,对本申请实施例中基于MFCM-PSO和特征浓缩的用户退保风险评估方法和装置进行详细地说明:
本申请实施例提供了一种基于MFCM-PSO和特征浓缩的高效用户退保风险评估方法和装置,该装置针对大样本高维度的投保用户数据,对投保用户的退保概率进行内部评价的等级制度。首先通过基于曼哈顿距离的粒子群算法对用户数据进行快速聚类,以将用户数据初步分类,第二根据粒子群算法得到的聚类中心分布进行统计,划分在聚类中心分布范围内和范围外的样本,在分布范围内样本使用各指标均值代表,能够高效浓缩该类样本特征,提升用户识别效率,加上分布范围外样本,作为此类用户群的最终入模样本。
通过此创新设定的聚类+浓缩的样本处理模式,快速定位各簇聚类中心,根据使用聚类中心分布期望替代相似度高的样本从而浓缩各簇样本特征,便于后续对同簇用户数据的退保风险等级预测,避免由于用户数据和维度的增加导致的复杂程度的增加,通过各簇建模评估同一簇内各用户数据的退保概率,以加快用户退保等级的评定,通过风险预测模型输出退保等级,实现了对保险行业各项风险进行客观准确的评价,从而提高保险风险评估的准确率。
图3A为本申请实施例风险评估装置的组成结构示意图一,如图3A所示,所述风险评估装置由数据样本抽取模块31、数据聚簇划分模块32、样本特征浓缩模块33和分簇结果输出模块34四个模块组成。其中,所述数据样本抽取模块31的关键词主要包括数据时间、特征维度、数据采集和数据清洗。所述数据聚簇划分模块32的关键词主要包括聚类分簇、曼哈顿举例、粒子群算法和优化簇类中心。所述样本特征浓缩模块33的关键词主要包括分簇结果、簇群分布、样本相似度和特征浓缩。所述分簇结果输出模块34的关键词主要包括分簇建模、GBDT和结果可视化。
其中,
第一、数据样本抽取模块31:
该模块的内容是为了获取历史投保用户数据及其相应的风险等级标签,具体内容包括:
1)、设定数据时间区间。投保用户数据为预设时间段投保用户的保险数据,预设时间段可根据业务需求设定数据收集的时间段、数据收集的类型等,比如数据时间段可以为月度、季度或半年度等。需要说明的是,由于风险预测模型针对不同的预设时间段分别提供不同的模型参数,因此在获取投保用户保险数据时,可以根据实际风险分析的需要选择合适的预设时间段。
2)、设定数据特征维度。保险数据具体为不同保险类型用户信息和保费信息,用户信息包括但不限于用户的身份信息、联系信息、职业信息,以及财产信息等,保费信息包括但不限于参保类型信息、保费缴存信息以及保险额度信息等。
3)、设定数据采集方式。保险数据的获取方式可以是人工采集或者自动定时采集。比如,从本地保险数据库按照预设时间段提取对应的保险数据,或者接收相关工作人员上传的该预设时间段的保险数据。
4)、数据清洗标记。对数据进行重复值、异常值、缺失值等清洗操作。获取历史投保用户数据及其相应风险等级标签,用户数据样本表示为X={x1,...,xn},其中,n为大于1的自然数,风险等级标签样本表示为Y={y1,...,yn},其中,y为大于1的自然数。
第二、数据聚簇划分模块32:
该模块内容是为获取的用户数据进行聚类,并创新基于MFCM-PSO的方法对聚类中心进行优化,具体内容如下:
1)、对获取的用户数据进行初始分簇。
①设定k个分簇,并根据各分簇确定其初始聚类中心。分簇数量可根据实际需求设定,比如根据用户退保风险设定三个分簇,分别为高风险用户、中风险用户以及低风险用户。
②在对获取的用户数据进行初始分簇时,基于曼哈顿距离判断用户数据与各聚类中心的相似性。
第i个投保用户数据表示为(xi,yi),第j个聚类中心表示为(xj,yj),则曼哈顿距离可以用下述公式(1)表示:
d=xi-xj+yi-yj………………(1);
其中,d表示为曼哈顿距离。
③将与聚类中心相似的用户数据作为聚类中心的同类。
在判断相似性时,需要先计算用户数据和各聚类中心的曼哈顿距离,并根据各用户数据对应的曼哈顿距离最小,选择相应聚类中心对应的分簇,以将该用户数据分配至相应分簇中。
需要说明的是,通过对用户数据进行聚类,以实现对用户数据的初步分类,便于后续根据每一个类别的用户数据分别利用一个模型进行风险等级评估,提高用户数据风险等级评估的准确性,并提高评估效率。
2)、利用粒子群优化算法PSO对聚类中心进行优化。
首先,评估各用户数据的适应值,可以通过下述公式(2)确定各用户数据的适应值:
F=α1Ni+α2Davg+α3Ci………………(2);
其中,a1、α2和α3表示为各因素对应的权重,Ni表示为第i个用户数据的节点度,Dik表示为用户数据i与聚类中心k的曼哈顿距离,n表示为用户所在簇的用户总数,Ci表示为用户数据的信道容量。
通过将各用户数据的适应值与其所在分簇的聚类中心的适应值进行比较,若用户数据适应值优于聚类中心适应值,则将用户数据作为当前的最优聚类中心。
第三、样本特征浓缩模块33:
该模块内容是通过创立一种聚类+浓缩的样本处理方法,使用聚类结果对各类别样本进行符合该类样本特征的提炼,在保证分析效果的同时减少大量多维样本对模型建设产生的资源损耗。
图3B为本申请实施例样本浓缩方法的实现流程示意图,如图3B所示,该样本浓缩方法包括:
步骤S301、获取各簇样本数据;
步骤S302、是否所有样本已被浓缩处理;
这里,如果所有样本已被浓缩处理,则执行下述步骤S308;如果还存在未被浓缩处理的样本,则执行下述步骤S303。
步骤S303、计算样本所属簇类的簇群分布特征;
步骤S304、计算样本相似度从而划分浓缩样本和非浓缩样本;
步骤S305、归属非浓缩样本则保留原样本信息;
步骤S306、归属浓缩样本则使用簇群分布特征进行单样本替换;
步骤S307、使用新替代样本作为浓缩处理后的样本;
步骤S308、输出所有浓缩处理后的样本。
1)、基于数据聚簇划分模块32得到的N类聚簇结果,首先对数据样本进行群体标签,标记为G(G1,G2,...GN),统计围绕各聚类中心的各个簇类样本Gk(k=1,2,...,N)统计分布特征情况PGk。
2)、可以通过下述公式(3)计算各簇类Gk的均值EGk,通过下述公式(4)计算各簇类Gk的标准差εGk;其中,G(xi)j表示各簇类Gk有n个特征维度x,M个样本量;
由此形成各个簇类的分布特征PGk(EGk,εGk),如下公式(5)所示,可以通过将各簇类样本Gk对比分布特征,将各簇类内的样本分为浓缩样本Gk(C)和非浓缩样本Gk(N);
3)、针对簇内浓缩样本,表示样本相似度高,因此可以使用簇内浓缩样本的各特征均值形成单个样本来代表簇内浓缩样本,即,通过下述公式(6)得到代表簇内浓缩样本的单个样本Gk(C)(x)j,以及簇内非浓缩样本Gk(N)(x)j;
4)、最终入模分析样本=簇内浓缩单个样本+簇内非浓缩样本,既在保证样本特征的同时大量降低样本复杂度,又保留了样本的特异性,对各簇类样本总体特征进行了浓缩提炼。
第四、分簇结果输出模块34:
该模块内容是根据聚类结果中的每一类分别构建模型,并行训练模型。图3C为本申请实施例模型的训练流程的示意图,如图3C所示,首先获取历史投保用户数据及其相应风险等级标签,然后对获取的用户数据进行聚类并优化聚类中心,最后进行样本特征浓缩处理,得到浓缩后的样本。进而,可以得到N类聚类结果(第一聚类结果至第N聚类结果),且每一聚类结果中的样本均为浓缩后的样本。然后对N类聚类结果中的每一聚类结果分别构建相应的模型(构建第一模型至构建第N模型)、训练相应的模型(训练第一模型至训练第N模型)直至结束。
1)、针对聚类结果中的每一分簇分别构建模型,并设置初始参数值。
2)、将不同分簇的用户数据以及数据样本抽取模块31中获取的用户数据对应的风险等级标签输入至相应模型内,以训练模型,具体如下:
①将各个分簇内包含的用户数据输入各个模型训练,使用机器学习GBDT算法提取用户数据的前h个显著特征,使用该前h个变量构建逻辑回归模型,形成退保等级的可视化评定规则,例如当h取值为5时可以用如下公式(7)形成退保等级的可视化评定规则;
其中,x1,x2,...,x5为使用GBDT算法提取的前5个显著特征,通过逻辑回归模型预测用户数据的退保概率,再根据退保概率判断用户对应的退保等级。
②基于训练模型时输出的退保等级和第一步中获取的用户数据对应的风险等级标签构建损失函数,其中损失函数用如下公式(8)表示;
其中,L表示为损失函数,yi表示为风险等级标签,表示为模型预测得到的退保概率,n表示为数据总量。
该模块的主要内容是利用训练好的模型对用户数据进行风险评估,得到退保等级,通过多个模型分别对不同类别的待测试用户数据分别进行风险等级的预测,以得到多个风险等级进行加权融合,得到结果。输出的前h个特征也在此模块输出可视化的评定规则,能够更好地展现各簇用户群的重要指标以及指标间的关系,令业务人员理解各簇用户群的业务特征,从而制定相应的业务策略。
需要说明的是,上述公式中标识不同参数的字母有存在重复,各字母代表的参数含义根据参数后的说明为准。
如此,本申请实施例中基于MFCM-PSO和特征浓缩的用户退保风险评估方法和装置可以达到如下技术效果:
1、本申请实施例提出了一种基于MFCM-PSO优化聚类用户簇核心点算法,该方法使用曼哈顿距离测算样本间的相似度,对比现有传统常用的聚类算法使用欧式距离,使用曼哈顿距离能够快速计算位置差距数值,提升计算效率。另一方面,传统聚类算法需要较大的计算资源去反复计算样本相似度从而不断迭代更新簇类中心,该方法使用粒子群算法通过将适应值与其所在分簇的聚类中心的适应值比较与自动化替换,能够高效迭代优化聚类中心,并且能够处理多维度、大体量的样本数据。
2、本申请实施例提出了一种聚类+特征浓缩的样本信息提取算法,对比现有的数据样本降维方法和特征提取方法针对大量高维样本的计算复杂度较高,此方法首先使用MFCM-PSO方法进行样本分簇,并充分利用各簇类的群体特征,使用簇类中心分布期望计算为单样本替代与簇类中心相似度高的数据样本,对比现有技术此方法只需要计算一次簇类分布期望,计算资源消耗小,且因为利用了簇类分布特征,对相似度高的样本直接替代,能够更精确地提取浓缩数据信息。
3、本申请实施例对比根据分类建模的数据处理方法及装置相比,提案优点在于使用了基于改进的MFCM-PSO算法,算法识别预测能力强,且容易给出模型解释,适用于保险数据数量较大的场景,保证快速获得最优解集,算法的收敛性能好,算法效率高,解决较大数据量分析的情况下预测精度差的问题。
4、本申请对比传统机器学习的用户风险分类方法相比,优点在于构建一种评级装置,先对用户数据进行聚类,以将用户数据初步分类,从而便于后续对同簇用户数据的退保风险等级预测,避免由于用户数据和维度的增加导致的复杂程度的增加,另外对多类聚类结果进行特征提取,得到可视化评定规则,更有利于指导业务的开展,解决传统机器学习结果黑盒、业务解释性差的问题。
基于前述的实施例,本申请实施例提供一种风险评估装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过电子设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为CPU(Central Processing Unit,中央处理器)、MPU(Microprocessor Unit,微处理器)、DSP(Digital Signal Processing,数字信号处理器)或FPGA(Field Programmable Gate Array,现场可编程门阵列)等。
图4为本申请实施例风险评估装置的组成结构示意图二,如图4所示,所述装置400包括:
当前数据获取单元401,用于获取待评估对象的当前用户数据;
目标类别确定单元402,用于确定所述当前用户数据对应的目标样本类别;
评估模型确定单元403,用于从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;
风险等级预测单元404,用于基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
在一些实施例中,所述装置还包括训练单元,所述训练单元用于对所述风险评估模型进行训练。
在一些实施例中,所述训练单元,包括:
类别设定模块,用于设定不同的样本类别;
数据确定模块,用于确定所述不同的样本类别中每一样本类别下的历史用户数据;
数据浓缩模块,用于对所述每一样本类别下的历史用户数据进行浓缩处理,得到所述每一样本类别下浓缩后的历史用户数据;其中,浓缩后的历史用户数据的数据量小于浓缩前的历史用户数据的数据量;
模型训练模块,用于基于所述每一样本类别下浓缩后的历史用户数据,对对应样本类别下的待训练的风险评估模型进行训练,直至训练后的所述风险评估模型满足收敛条件。
在一些实施例中,所述数据确定模块,包括:
数据获取部件,用于获取预设时间段内的历史用户数据;
初始聚类部件,用于对所述预设时间段内的历史用户数据进行初始聚类,得到所述不同的样本类别的初始聚类中心;
优化部件,用于利用粒子群算法对所述不同的样本类别的初始聚类中心进行优化,得到优化后的聚类中心;
数据确定部件,用于基于所述优化后的聚类中心和所述预设时间段内的历史用户数据,确定所述不同的样本类别中每一样本类别下的历史用户数据。
在一些实施例中,所述优化部件,包括:
适应值确定部件,用于利用粒子群算法对所述预设时间段内的历史用户数据进行处理,得到每一所述历史用户数据的适应值;其中,所述粒子群算法中利用曼哈顿距离确定每一历史用户数据与其对应的初始聚类中心的相似度;
第一排序部件,用于对具有第一初始聚类中心的样本类别下的历史用户数据的适应值进行排序,得到第一排序结果;
优化子部件,用于将所述第一排序结果中适应值最优的历史用户数据,确定为所述第一初始聚类中心对应的优化后的聚类中心。
在一些实施例中,所述数据确定部件,包括:
相似度确定部件,用于确定所述预设时间段内的每一历史用户数据与优化后的聚类中心的相似度;
分簇部件,用于根据所述相似度对所述预设时间段内的历史用户数据进行分簇,得到所述不同的样本类别中每一样本类别下的历史用户数据。
在一些实施例中,所述数据浓缩模块,包括:
统计特征确定部件,用于确定所述每一样本类别下的历史用户数据的统计分布特征;
比对部件,用于将每一所述历史用户数据与其对应的统计分布特征进行比对,得到比对结果;其中,所述比对结果用于表明每一所述历史用户数据为浓缩样本或非浓缩样本;
新样本确定部件,用于利用所述每一样本类别下的多个浓缩样本,确定所述每一样本类别下的新样本;
数据浓缩部件,用于根据所述新样本和所述每一样本类别下的非浓缩样本,确定所述每一样本类别下浓缩后的历史用户数据。
在一些实施例中,所述统计特征确定部件,包括:
统计特征确定子部件,用于确定所述每一样本类别下的历史用户数据的均值和标准差;
对应地,所述比对部件,包括:
比对值确定部件,用于根据第一样本类别下的历史用户数据的均值和标准差,确定比对值;
比对子部件,用于如果所述第一样本类别下的第一历史用户数据小于等于所述比对值,确定所述第一历史用户数据为浓缩样本;
所述比对子部件,还用于如果所述第一历史用户数据大于所述比对值,确定所述第一历史用户数据为非浓缩样本。
在一些实施例中,所述新样本确定部件,包括:
均值确定部件,用于确定所述每一样本类别下的多个浓缩样本的特征均值;
新样本确定子部件,用于根据所述多个浓缩样本的特征均值,确定所述每一样本类别下的新样本。
在一些实施例中,所述装置还包括:
损失函数构建单元,用于基于所述每一样本类别下浓缩后的历史用户数据的风险等级标签和训练时风险评估模型输出的风险预测结果,构建损失函数;
对应地,所述模型训练模块,包括:
模型训练子模块,用于基于所述每一样本类别下浓缩后的历史用户数据和所述浓缩后的历史用户数据的风险等级标签,对对应样本类别下的待训练的风险评估模型进行训练,直至利用所述损失函数确定出的损失小于预设阈值。
在一些实施例中,所述装置还包括模型构建单元,所述模型构建单元用于构建待训练的风险评估模型;
在一些实施例中,所述模型构建单元,包括:
特征提取模块,用于对所述每一样本类别下浓缩后的历史用户数据进行特征提取,得到多个特征和所述多个特征中每一特征的重要程度;
第二排序模块,用于按照重要程度对所述多个特征进行排序,得到第二排序结果;
构建模块,用于利用所述第二排序结果中预设排序位置上的特征构建逻辑回归模型;
所述构建模块,还用于将构建的所述逻辑回归模型确定为待训练的风险评估模型。
在一些实施例中,在所述目标风险评估模型为已训练的逻辑回归模型的情况下,所述装置还包括:
系数确定单元,用于确定得到所述待评估对象的当前风险等级时所述已训练的逻辑回归模型中的多个特征的系数值;
可视化单元,用于基于所述多个特征的系数值,实现所述待评估对象的当前风险等级的可视化分析。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的风险评估方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、ROM(Read Only Memory,只读存储器)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例中提供的风险评估方法中的步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述风险评估方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质、设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,图5为本申请实施例电子设备的一种硬件实体示意图,如图5所示,该电子设备500的硬件实体包括:处理器501、通信接口502和存储器503,其中
处理器501通常控制电子设备500的总体操作。
通信接口502可以使电子设备500通过网络与其他电子设备或服务器或平台通信。
存储器503配置为存储由处理器501可执行的指令和应用,还可以缓存待处理器501以及电子设备500中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过FLASH(闪存)或RAM(Random Access Memory,随机访问存储器)实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种风险评估方法,其特征在于,所述方法包括:
获取待评估对象的当前用户数据;
确定所述当前用户数据对应的目标样本类别;
从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;
基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
2.根据权利要求1所述的方法,其特征在于,所述风险评估模型通过以下步骤进行训练:
设定不同的样本类别;
确定所述不同的样本类别中每一样本类别下的历史用户数据;
对所述每一样本类别下的历史用户数据进行浓缩处理,得到所述每一样本类别下浓缩后的历史用户数据;其中,浓缩后的历史用户数据的数据量小于浓缩前的历史用户数据的数据量;
基于所述每一样本类别下浓缩后的历史用户数据,对对应样本类别下的待训练的风险评估模型进行训练,直至训练后的所述风险评估模型满足收敛条件。
3.根据权利要求2所述的方法,其特征在于,所述确定所述不同的样本类别中每一样本类别下的历史用户数据,包括:
获取预设时间段内的历史用户数据;
对所述预设时间段内的历史用户数据进行初始聚类,得到所述不同的样本类别的初始聚类中心;
利用粒子群算法对所述不同的样本类别的初始聚类中心进行优化,得到优化后的聚类中心;
基于所述优化后的聚类中心和所述预设时间段内的历史用户数据,确定所述不同的样本类别中每一样本类别下的历史用户数据。
4.根据权利要求3所述的方法,其特征在于,所述利用粒子群算法对所述不同的样本类别的初始聚类中心进行优化,得到优化后的聚类中心,包括:
利用粒子群算法对所述预设时间段内的历史用户数据进行处理,得到每一所述历史用户数据的适应值;其中,所述粒子群算法中利用曼哈顿距离确定每一历史用户数据与其对应的初始聚类中心的相似度;
对具有第一初始聚类中心的样本类别下的历史用户数据的适应值进行排序,得到第一排序结果;
将所述第一排序结果中适应值最优的历史用户数据,确定为所述第一初始聚类中心对应的优化后的聚类中心。
5.根据权利要求3或4所述的方法,其特征在于,所述基于所述优化后的聚类中心和所述预设时间段内的历史用户数据,确定所述不同的样本类别中每一样本类别下的历史用户数据,包括:
确定所述预设时间段内的每一历史用户数据与优化后的聚类中心的相似度;
根据所述相似度对所述预设时间段内的历史用户数据进行分簇,得到所述不同的样本类别中每一样本类别下的历史用户数据。
6.根据权利要求2所述的方法,其特征在于,所述对所述每一样本类别下的历史用户数据进行浓缩处理,得到所述每一样本类别下浓缩后的历史用户数据,包括:
确定所述每一样本类别下的历史用户数据的统计分布特征;
将每一所述历史用户数据与其对应的统计分布特征进行比对,得到比对结果;其中,所述比对结果用于表明每一所述历史用户数据为浓缩样本或非浓缩样本;
利用所述每一样本类别下的多个浓缩样本,确定所述每一样本类别下的新样本;
根据所述新样本和所述每一样本类别下的非浓缩样本,确定所述每一样本类别下浓缩后的历史用户数据。
7.根据权利要求6所述的方法,其特征在于,所述确定所述每一样本类别下的历史用户数据的统计分布特征,包括:
确定所述每一样本类别下的历史用户数据的均值和标准差;
对应地,所述将每一所述历史用户数据与其对应的统计分布特征进行比对,得到比对结果,包括:
根据第一样本类别下的历史用户数据的均值和标准差,确定比对值;
如果所述第一样本类别下的第一历史用户数据小于等于所述比对值,确定所述第一历史用户数据为浓缩样本;
如果所述第一历史用户数据大于所述比对值,确定所述第一历史用户数据为非浓缩样本。
8.根据权利要求6或7所述的方法,其特征在于,所述利用所述每一样本类别下的多个浓缩样本,确定所述每一样本类别下的新样本,包括:
确定所述每一样本类别下的多个浓缩样本的特征均值;
根据所述多个浓缩样本的特征均值,确定所述每一样本类别下的新样本。
9.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述每一样本类别下浓缩后的历史用户数据的风险等级标签和训练时风险评估模型输出的风险预测结果,构建损失函数;
对应地,所述基于所述每一样本类别下浓缩后的历史用户数据,对对应样本类别下的待训练的风险评估模型进行训练,直至训练后的所述风险评估模型满足收敛条件,包括:
基于所述每一样本类别下浓缩后的历史用户数据和所述浓缩后的历史用户数据的风险等级标签,对对应样本类别下的待训练的风险评估模型进行训练,直至利用所述损失函数确定出的损失小于预设阈值。
10.根据权利要求9所述的方法,其特征在于,所述待训练的风险评估模型通过以下步骤获得:
对所述每一样本类别下浓缩后的历史用户数据进行特征提取,得到多个特征和所述多个特征中每一特征的重要程度;
按照重要程度对所述多个特征进行排序,得到第二排序结果;
利用所述第二排序结果中预设排序位置上的特征构建逻辑回归模型;
将构建的所述逻辑回归模型确定为待训练的风险评估模型。
11.根据权利要求10所述的方法,其特征在于,在所述目标风险评估模型为已训练的逻辑回归模型的情况下,所述方法还包括:
确定得到所述待评估对象的当前风险等级时所述已训练的逻辑回归模型中的多个特征的系数值;
基于所述多个特征的系数值,实现所述待评估对象的当前风险等级的可视化分析。
12.一种风险评估装置,其特征在于,所述装置包括:
当前数据获取单元,用于获取待评估对象的当前用户数据;
目标类别确定单元,用于确定所述当前用户数据对应的目标样本类别;
评估模型确定单元,用于从多个已训练的风险评估模型中,确定与所述目标样本类别匹配的目标风险评估模型;其中,不同的所述风险评估模型对应不同的样本类别,并通过对应样本类别下的历史用户数据训练得到;
风险等级预测单元,用于基于所述当前用户数据和所述目标风险评估模型,确定所述待评估对象的当前风险等级。
13.一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至11任一项所述风险评估方法中的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至11任一项所述风险评估方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211585558.1A CN116645221A (zh) | 2022-12-09 | 2022-12-09 | 风险评估方法及装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211585558.1A CN116645221A (zh) | 2022-12-09 | 2022-12-09 | 风险评估方法及装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116645221A true CN116645221A (zh) | 2023-08-25 |
Family
ID=87623457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211585558.1A Pending CN116645221A (zh) | 2022-12-09 | 2022-12-09 | 风险评估方法及装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645221A (zh) |
-
2022
- 2022-12-09 CN CN202211585558.1A patent/CN116645221A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710766B (zh) | 一种工单数据的投诉倾向分析预警方法及装置 | |
WO2007106786A2 (en) | Methods and systems for multi-credit reporting agency data modeling | |
CN111079941B (zh) | 信用信息处理方法、***、终端和存储介质 | |
CN110119948B (zh) | 基于时变权重动态组合的电力用户信用评价方法及*** | |
CN109389321B (zh) | 一种项目清单的分类方法及装置 | |
CN112488507B (zh) | 一种基于聚类的专家分类画像方法、装置及存储介质 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN117151870B (zh) | 一种基于客群画像行为分析方法及*** | |
CN113111924A (zh) | 电力客户分类方法及装置 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN115081515A (zh) | 能效评价模型构建方法、装置、终端及存储介质 | |
CN117455529A (zh) | 基于大数据技术的用户用电特征画像构建方法及*** | |
CN116883153A (zh) | 一种基于人行征信的汽车金融预授信评分卡开发方法及终端 | |
CN114372835B (zh) | 综合能源服务潜力客户识别方法、***及计算机设备 | |
CN114238615B (zh) | 一种企业服务成果数据处理方法及*** | |
CN113554307B (zh) | 一种基于rfm模型的用户分组方法、装置及可读介质 | |
CN116645221A (zh) | 风险评估方法及装置、设备和存储介质 | |
CN115034762A (zh) | 一种岗位推荐方法、装置、存储介质、电子设备及产品 | |
CN115081893A (zh) | 用户用电数据分析方法、装置、电子设备及可读存储介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
Zhao et al. | A User Portrait of Express Software Based on Full Life Cycle Data | |
CN118333737A (zh) | 构建零***风险预测模型的方法和消费信贷业务Scorebetai模型 | |
CN117788133A (zh) | 构建零***风险预测模型的方法和零售信贷Scoresigma模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |