CN114612251A - 风险评估方法、装置、设备及存储介质 - Google Patents
风险评估方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114612251A CN114612251A CN202210246481.9A CN202210246481A CN114612251A CN 114612251 A CN114612251 A CN 114612251A CN 202210246481 A CN202210246481 A CN 202210246481A CN 114612251 A CN114612251 A CN 114612251A
- Authority
- CN
- China
- Prior art keywords
- data
- wind control
- service data
- risk assessment
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及大数据技术领域,公开了一种风险评估方法、装置、设备及存储介质。本方法包括:获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;根据风控规则确定目标业务数据对应风控评估因子;将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高了风控效率。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种风险评估方法、装置、设备及存储介质。
背景技术
在各行各业,各个领域,各个渠道,为保证事情向好的方向发展,而免受不可预估的经济和财产损失而绰手不及。这时候一套完备的风控***应运而生,以解决实际在生产业务中的各种难题。作为事物的主体,可以采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或减少风险事件发生时造成的损失。
目前已有的报销风险管控***存在规则固定,扩展困难,无法做到动态更新,且大都没有进行事前事后双重管控,安全度不够,此方案对这些痛点进行了解决,提升用户体验。
发明内容
本发明的主要目的在于提供一种风险评估方法、装置、设备及存储介质,本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高了风控效率。
本发明第一方面提供了一种风险评估方法,包括:获取原始业务数据,并对所述业务数据进行清洗,得到标准业务数据;根据所述标准业务数据的数据类型获取历史业务数据,并根据所述历史业务数据配置风控规则;根据预设维度对所述业务数据进行维度拆分,生成多个目标业务数据;根据所述风控规则确定所述目标业务数据对应风控评估因子;将所述目标业务数据和所述风险评估因子输入预设风控模型进行分析,得到所述业务数据的风险评估结果。
可选地,在本发明第一方面的第一种实现方式中,所述获取原始业务数据,并对所述业务数据进行清洗,得到标准业务数据包括:对所述原始业务数据进行去重操作,并检测去重后的所述原始业务数据是否存在数据缺失值;若不存在数据缺失值,则将去重后的所述原始业务数据作为标准业务数据;若存在数据缺失值,则对所述数据缺失值进行数据填充,得到标准业务数据。
可选地,在本发明第一方面的第二种实现方式中,所述根据所述标准业务数据的数据类型获取历史业务数据,并根据所述历史业务数据配置风控规则包括:确定所述业务数据的类型,基于所述类型获取历史业务数据,并提取所述历史业务数据中的风控分析结果,确定风险阈值;根据所述风险阈值对预设的风控策略进行调整,得到实际风控策略;根据所述实际风控策略和所述风控分析结果,确定所述实际风控策略对应的风控效果表征值;根据所述风控效果表征值和所述历史业务数据配置风控规则。
可选地,在本发明第一方面的第三种实现方式中,所述根据所述目标风控效果表征值对应的风控策略和所述历史业务数据配置风控规则包括:根据所述风控策略和所述历史业务数据,确定所述风控策略对应的目标风控效果表征值;将所述目标风控效果表征值作为测试参数,并根据所述目标范围和所述历史业务数据配置风控规则。
可选地,在本发明第一方面的第四种实现方式中,所述根据预设维度对所述业务数据进行维度拆分,生成多个目标业务数据包括:获取所述标准业务数据的数据字段,根据所述数据字段,识别所述标准业务数据的数据属性;将相同数据属性的标准业务数据进行聚类,得到数据聚类中心点;根据所述数据聚类中心点,生成对应的目标业务数据。
可选地,在本发明第一方面的第五种实现方式中,在所述将所述目标业务数据和所述风险评估因子输入预设风控模型进行分析,得到所述业务数据的风险评估结果之前,还包括:获取多个风控样本用户的样本特征数据、所述风控样本用户在待风控场景中的风控表现数据和所述风控样本用户在所述待风控场景中的被风控时长信息;根据所述风控表现数据,确定所述风控样本用户的风控评价标签;根据所述风控评价标签,对所述样本特征数据进行处理,得到所述风控样本用户的目标特征数据;将所述目标特征数据、所述被风控时长信息和所述风控评价标签按照预设比例进行划分,得到训练样本数据和测试样本数据;将所述训练样本数据输入预设卷积神经网络模型中进行训练,得到原始风控模型;将所述测试样本数据输入所述原始风控模型进行测试,得到目标风控模型。
可选地,在本发明第一方面的第六种实现方式中,将所述训练样本数据输入预设卷积神经网络模型中进行训练,得到原始风控模型包括:初始化卷积神经网络模型的模型参数;采用卷积神经网络对所述训练样本数据进行特征提取,得到所述训练样本数据的特征向量;将所述训练样本数据的特征向量输入到所述卷积神经网络模型中进行训练,得到所述原始风控模型。
本发明第二方面提供了一种风险评估装置,包括:数据清洗模块,用于获取原始业务数据,并对所述业务数据进行清洗,得到标准业务数据;配置模块,用于根据所述标准业务数据的数据类型获取历史业务数据,并根据所述历史业务数据配置风控规则;生成模块,用于根据预设维度对所述业务数据进行维度拆分,生成多个目标业务数据;第一确定模块,用于根据所述风控规则确定所述目标业务数据对应风控评估因子;分析模块,用于将所述目标业务数据和所述风险评估因子输入预设风控模型进行分析,得到所述业务数据的风险评估结果。
可选地,在本发明第二方面的第一种实现方式中,所述数据清洗模块具体用于:对所述原始业务数据进行去重操作,并检测去重后的所述原始业务数据是否存在数据缺失值;若不存在数据缺失值,则将去重后的所述原始业务数据作为标准业务数据;若存在数据缺失值,则对所述数据缺失值进行数据填充,得到标准业务数据。
可选地,在本发明第二方面的第二种实现方式中,所述配置模块包括:提取单元,用于确定所述业务数据的类型,基于所述类型获取历史业务数据,并提取所述历史业务数据中的风控分析结果,确定风险阈值;调整单元,用于根据所述风险阈值对预设的风控策略进行调整,得到实际风控策略;确定单元,用于根据所述实际风控策略和所述风控分析结果,确定所述实际风控策略对应的风控效果表征值;配置单元,用于根据所述风控效果表征值和所述历史业务数据配置风控规则。
可选地,在本发明第二方面的第三种实现方式中,所述配置单元具体用于:
根据所述实际风控策略和所述历史业务数据,确定所述实际风控策略对应的风控效果表征值;将所述风控效果表征值作为测试参数,并根据预设风控效果表征值对应目标范围和所述历史业务数据配置风控规则。
可选地,在本发明第二方面的第四种实现方式中,所述生成模块具体用于:获取所述标准业务数据的数据字段,根据所述数据字段,识别所述标准业务数据的数据属性;将相同数据属性的标准业务数据进行聚类,得到数据聚类中心点;根据所述数据聚类中心点,生成对应的目标业务数据。
可选地,在本发明第二方面的第五种实现方式中,所述风险评估装置还包括:获取模块,用于获取多个风控样本用户的样本特征数据、所述风控样本用户在待风控场景中的风控表现数据和所述风控样本用户在所述待风控场景中的被风控时长信息;第二确定模块,用于根据所述风控表现数据,确定所述风控样本用户的风控评价标签;根据所述风控评价标签,对所述样本特征数据进行处理,得到所述风控样本用户的目标特征数据;划分模块,用于将所述目标特征数据、所述被风控时长信息和所述风控评价标签按照预设比例进行划分,得到训练样本数据和测试样本数据;训练模块,用于将所述训练样本数据输入预设卷积神经网络模型中进行训练,得到原始风控模型;测试模块,用于将所述测试样本数据输入所述原始风控模型进行测试,得到目标风控模型。
可选地,在本发明第二方面的第六种实现方式中,所述训练模块具体用于:初始化卷积神经网络模型的模型参数;采用卷积神经网络对所述训练样本数据进行特征提取,得到所述训练样本数据的特征向量;将所述训练样本数据的特征向量输入到所述卷积神经网络模型中进行训练,得到所述原始风控模型。
本发明第三方面提供了风险评估设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述风险评估设备执行上述的风险评估方法的步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的风险评估方法的步骤。
本发明提供的技术方案中,通过获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;根据风控规则确定目标业务数据对应风控评估因子;将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高风控效率。
附图说明
图1为本发明提供的风险评估方法的第一个实施例示意图;
图2为本发明提供的风险评估方法的第二个实施例示意图;
图3为本发明提供的风险评估方法的第三个实施例示意图;
图4为本发明提供的风险评估方法的第四个实施例示意图;
图5为本发明提供的风险评估方法的第五个实施例示意图;
图6为本发明提供的风险评估装置的第一个实施例示意图;
图7为本发明提供的风险评估装置的第二个实施例示意图;
图8为本发明提供的风险评估设备的一个实施例示意图。
具体实施方式
本发明实施例提供的风险评估方法、装置、设备及存储介质,先通过获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;根据风控规则确定目标业务数据对应风控评估因子;将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高风控效率。
本发明的说明书和权利要求书及上述附中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中风险评估方法的第一个实施例包括:
101、获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;
本实施例中,原始业务数据基于不同业务场景产生,例如业务场景为企业贷款审批场景,则所述原始业务数据包括:企业数据和企业股东数据,所述企业数据包括工商数据、司法数据、舆情数据、上游客户数据、下游客户数据、财务数据、流水数据以及行业数据等,所述企业股东数据包括个人征信数据、贷款数据以及资产数据等。进一步地,本实施例中,所述原始业务数据可以业务人员的线下采集;也可以通过采集工具的在线采集,如爬虫工具,以实现风控数据来源的多样性,保障风控数据的全面性,从而保障后续数据的风控分析准确度。
进一步地,应该了解,在采集的原始业务数据中,会存在一些无用数据和重复数据,为提高后续数据风控分析报告生成的快速性,本发明实施例对所述原始业务数据进行数据清洗,以减少后续数据分析的数据量。
具体地,在本发明的一个可选实施例中,所述对所述原始业务数据进行数据清洗,得到标准业务数据,包括:对所述原始业务数据进行去重操作,并检测去重后的所述原始业务数据是否存在数据缺失值;若不存在数据缺失值,则将去重后的所述原始业务数据作为标准业务数据;若存在数据缺失值,则对所述数据缺失值进行数据填充,得到标准业务数据。
进一步地,所述对所述原始业务数据进行去重操作,包括:计算所述原始业务数据中任意两个风控数据的相似度,若所述相似度不大于预设相似度,则同时保留所述两个风控数据,若所述相似度大于预设相似度,则删除所述两个风控数据中任意一个风控数据。
102、根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;
本实施例中,风控人员需要根据实际的风控需求配置风控策略时,通常需要设定一个目标,即配置后的风控策略能够达到怎样的风控效果。所以,在本申请实施例中,可以根据实际的风控需求,设定风控效果表征值的目标范围,并将这一目标范围输入到服务器中。
具体地,服务器在获取到各历史业务数据后,需要针对获取到的每个历史业务数据,确定出该历史业务数据所对应的业务数据量,并进一步确定出的各历史业务数据所对应的业务数据总量,进而根据确定出的业务数据总量,确定各风险阈值。其中,历史业务数据对应的业务数据量可以包含在历史业务数据中。
进一步地,确定出各风险阈值后,可以根据预设的各风险概率,确定出的若干风控策略。其中,这里提到的预设的各风险概率可以是风控模型所能输出的所有风险概率。在实际应用中,虽然不同风控模型所输出的风险概率在概率标准上不尽相同,但是,各风控模型所能输出的各风险概率在数值上可以是相同的。在确定出每个风控策略后,服务器可分别确定出各风控策略所对应的风控效果表征值。在确定出各风控策略对应的各风控效果表征值后,服务器可选择出落入到风控效果表征值的目标范围的风控效果表征值,并在后续过程中,将该风控效果表征值所对应的风控策略进行配置。而当风控效果表征值既包含覆盖率也包含打扰率时,服务器应选择出覆盖率和打扰率均落入与之对应的目标范围内的风控策略。。
103、根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;
本实施例中,由于所述标准业务数据中的数据会存在不同的属性,因此,所述标准业务数据中会存在不同维度的数据,即不同类别的数据,比如时间维度数据、基础信息维度数据以及行为维度数据,于是,本发明实施例对所述标准业务数据进行维度拆分,以将相同属性的数据归并至一类,方便后续数据计算,提高数据分析的效率。
具体地,在另一个可选实施例中,所述对所述标准业务数据进行维度拆分,生成多个目标业务数据,包括:获取所述标准业务数据的数据字段,根据所述数据字段,识别所述标准业务数据的数据属性,将相同数据属性的标准业务数据进行聚类,得到数据聚类中心点,根据所述数据聚类中心点,生成对应的目标业务数据。其中,所述数据字段是用于表征所述标准业务数据的实体对象参数,所述数据属性用于表征所述标准业务数据的数据类型,如数据名称、数据特征等。
104、根据风控规则确定目标业务数据对应风控评估因子;
本实施例中,所述风控评估因子是指对应风控数据的分析规则,包括风控数据的分析逻辑和分析方式。所述风控模板包括FreeMarker Template Language(FTL)组件,是指风控数据的底层模板引擎,用于将加载至风控模板中的数据生成输出文本,如文档文本、html文本以及邮件文本等,在本发明实施例中,所述风控模板可以理解为是一种用于生成风控分析子报告的工具。
在另一个实施例中,所述构建每个所述目标业务数据的风控评估因子,包括:获取所述目标业务数据的数据属性,根据所述数据属性,配置所述目标业务数据的数据分析逻辑,并确定所述目标业务数据的数据分析方式,根据所述数据分析逻辑和数据分析方式,生成所述目标业务数据的风控评估因子。
105、将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。
本实施例中,采用前向传播算法对特征向量进行训练,获取第一状态参数。具体地,采用前向传播(Forward Propagation)算法对人脸特征进行训练,是指采用前向传播算法依据人脸特征携带的时序状态的先后顺序进行训练。其中,第一状态参数是指基于人脸特征进行模型训练的初始迭代过程所得到的参数。
其中,前向传播(Forward Propagation)算法是依据时间的顺序进行模型训练的算法。具体地,前向传播算法的计算公式为和其中,St表示当前时刻隐藏层的输出;表示隐藏层上一时刻到当前时刻的权值;表示输入层到隐藏层的权值;表示当前时刻的预测输出;表示隐藏层到输出层的权值。
本发明实施例中,通过获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;根据风控规则确定目标业务数据对应风控评估因子;将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高风控效率。
请参阅图2,本发明实施例中风险评估方法的第二个实施例包括:
201、获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;
202、确定业务数据的类型,基于类型获取历史业务数据,并提取历史业务数据中的风控分析结果,确定风险阈值;
本实施例中,在实际应用中,风控人员需要根据实际的风控需求配置风控策略时,通常需要设定一个目标,即配置后的风控策略能够达到怎样的风控效果。所以,在本申请实施例中,可以根据实际的风控需求,设定风控效果表征值的目标范围,并将这一目标范围输入到服务器中。
其中,这里提到的风控效果表征值是能够对风控效果进行量化的数值,该风控效果表征值能够反映出风控策略所能达到的风控效果。例如,风控效果表征值可以是覆盖率和打扰率。覆盖率表示在实际存在风险的业务信息中,通过风控策略所能识别出的存在风险的业务信息占所有实际存在风险的业务信息的比率,所以,覆盖率作为风控效果表征值能够有效的反映出风控策略识别风险的能力,覆盖率越高,风控策略识别风险的能力则越强。打扰率表示为实际风控结果为安全,而服务器通过风控策略却识别出存在风险的业务信息的数量占所有业务信息总数的比率。打扰率越高,服务器通过风控策略进行风险识别时出现误识别的可能就越高。
而这里提到的风控效果表征值的目标范围则是指期望风控策略所能达到的风控效果。该风控效果表征值的目标范围可以是一个取值范围,也可以是一个数值,如,覆盖率的目标范围为92%。
在本实施例中,服务器获取该目标范围的方式可以有很多,如,服务器可以通过风控人员输入风控效果表征值的目标范围,获取到该目标范围,也可以通过风控人员选取的选项,获取到该目标范围,在此就不做一一举例说明了。
在本实施例中,服务器除了需要获取到上述风控效果表征值的目标范围外,还需要获取历史业务数据,用以在后续过程中,通过获取到的历史业务数据及其实际风控结果,确定出相应的风控策略。
服务器在获取到各历史业务数据后,需要针对获取到的每个历史业务数据,确定出该历史业务数据所对应的业务数据量,并进一步确定出的各历史业务数据所对应的业务数据总量,进而根据确定出的业务数据总量,确定各风险阈值。其中,历史业务数据对应的业务数据量可以包含在历史业务数据中。
例如,仍以交易业务为例,假设服务器获取到的历史业务数据为过去一段时间内,各用户向服务器发起的历史交易请求。服务器在获取到这些历史交易请求后,可以针对每个历史交易请求,确定出该历史交易请求中所涉及的交易金额,该交易金额即为上述历史业务数据所对应的业务数据量。服务器确定出每笔历史交易请求所涉及的交易金额后,可以确定出获取到的所有历史交易请求的交易金额之和(即交易总金额),该交易总金额即为上述提到的业务数据总量。
203、根据风险阈值对预设的风控策略进行调整,得到实际风控策略;
本实施例中,确定出各风险阈值后,可以根据预设的各风险概率,确定出的若干风控策略。其中,这里提到的预设的各风险概率可以是风控模型所能输出的所有风险概率。在实际应用中,虽然不同风控模型所输出的风险概率在概率标准上不尽相同,但是,各风控模型所能输出的各风险概率在数值上可以是相同的。例如,对于不同的风控模型来说,其所能输出的风险概率均为0.01~1,每个相邻的风险概率之间的差为0.01。
每一个风控策略中可以包含有一个风险概率及其对应的风险阈值,不同风险概率和风险阈值的组合得到了不同的风控策略。例如,假设服务器确定出100~10000这100个风险阈值(每两个相邻的风险阈值之间的差为100),预设的各风险概率为0.01~1(每两个相邻的风险概率之间的差为0.01)。服务器可将这100个风险阈值和100个风险概率进行两两组合,得到10000个风险概率和风险阈值的组合,每一个组合即为一个风控策略。
204、根据实际风控策略和风控分析结果,确定实际风控策略对应的风控效果表征值;
本实施例中,在确定出每个风控策略后,服务器可分别确定出各风控策略所对应的风控效果表征值。具体的确定方式可以是:针对每个风控策略,服务器可以根据获取到的每个历史业务数据对应的业务数据量、归一化风险概率以及该风控策略包含的风险阈值和风险概率,从各历史业务数据中确定满足第一设定条件的历史业务数据,并根据确定出的历史业务数据以及历史业务数据所对应的实际风控结果,确定出该风控策略对应的风控效果表征值。
在本实施例中,风控效果表征值可以包括打扰率和覆盖率,其中,当风控效果表征值为打扰率时,服务器可以根据每个历史业务数据对应的业务数据量以及归一化风险概率,从获取到的各历史业务数据中确定出归一化风险概率大于该风控策略包含的风险概率,且业务数据量大于该风控策略包含的风险阈值的历史业务数据。
205、根据风控效果表征值和历史业务数据配置风控规则;
本实施例中,在确定出各风控策略对应的各风控效果表征值后,服务器可选择出落入到风控效果表征值的目标范围的风控效果表征值,并在后续过程中,将该风控效果表征值所对应的风控策略进行配置。而当风控效果表征值既包含覆盖率也包含打扰率时,服务器应选择出覆盖率和打扰率均落入与之对应的目标范围内的风控策略。例如,假设风控效果表征值的目标范围为:覆盖率85%~100%,打扰率0~2%,服务器需要将覆盖率在85%~100%内,且打扰率在0~2%内的风控策略选择出来并配置。
当服务器通过上述方式,确定不存在落入到该目标范围内的风控效果表征值时,则可以根据确定出的每个风控策略对应的风控效果表征值、风控效果表征值的目标范围以及预设的风控评分方式,确定出各风控策略对应的风控评分,并从各风控评分中选择满足第二设定条件的风控评分,进而在后续过程中,将该风控评分所对应的风控策略进行配置。
本实施例中,服务器若直接根据获取到的所有用户的历史业务数据及其实际风控结果,确定出各风控策略所对应的风控效果表征值,则选择出的风控效果表征值所对应的风控策略也是适用于所有用户的。因此,可以直接将选择出的风控策略进行配置,继而在后续过程中,通过该风控策略,对所有用户发送的业务请求进行风控。
而若是服务器先从所有用户中选取出一个用户组作为第一用户组,并针对该第一用户组,选取出针对该第一用户组的风控策略,则不能将该风控策略针对所有用户直接进行配置,而是需要通过该风控策略对获取到的各历史业务数据进行风控测试,以确定该风控策略是否适用于对所有用户进行风控。
本实施例中,在选择出针对该第一用户组的风控策略后,服务器可针对所有用户中除该第一用户组以外的每个其他用户组,确定出该风控策略针对该其他用户组的风控效果表征值并作为测试参数。当确定该测试参数也落入到风控效果表征值的目标范围时,则将该风控策略进行配置,以用于对与该其他用户组的类别相同的用户进行风控。
而当服务器确定出上述测试参数未落入风控效果表征值的目标范围时,则可将针对第一用户组所选择的风控策略进行配置,以用于在后续过程中,对与该第一用户组的类别相同的用户进行风控。与此同时,服务器可以针对每个其他用户组,根据获取到的历史业务数据,确定出该其他用户组对应的历史风控策略。其中,该历史风控策略为先前针对该其他用户组的用户进行风控时所使用的风控策略。
服务器可以通过预设的调整方式,对该历史风控策略进行调整,以使调整后的历史风控策略得到针对该其他用户组的风控效果表征值落入到风控效果表征值的目标范围内。换句话说,服务器可以通过调整后的历史风控策略对该其他用户组所对应的历史业务数据进行风控测试,得到的风控效果表征值能够落入到风控效果表征值的目标范围内。
206、根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;
207、根据风控规则确定目标业务数据对应风控评估因子;
208、将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。
本实施例中步骤207-210与第一实施例中的步骤102-105类似,此处不再赘述。
本发明实施例中,通过获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;根据风控规则确定目标业务数据对应风控评估因子;将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高风控效率。
请参阅图3,本发明实施例中风险评估方法的第三个实施例包括:
301、获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;
302、对原始业务数据进行去重操作,并检测去重后的原始业务数据是否存在数据缺失值;
本实施例中,原始业务数据基于不同业务场景产生,例如所述业务场景为企业贷款审批场景,则所述原始业务数据包括:企业数据和企业股东数据,所述企业数据包括工商数据、司法数据、舆情数据、上游客户数据、下游客户数据、财务数据、流水数据以及行业数据等,所述企业股东数据包括个人征信数据、贷款数据以及资产数据等。进一步地,本发明一可选实施例中,所述原始业务数据通过以下三种方式采集:方式一、专业网页的后台数据库查询,如天眼查;方式二、业务人员的线下采集;方式三、采集工具的在线采集,如爬虫工具,以实现风控数据来源的多样性,保障风控数据的全面性,从而保障后续数据的风控分析准确度。
303、若不存在数据缺失值,则将去重后的原始业务数据作为标准业务数据;
本实施例中,在采集的原始业务数据中,会存在一些无用数据和重复数据,为提高后续数据风控分析报告生成的快速性,本发明实施例对原始业务数据进行数据清洗,以减少后续数据分析的数据量。
具体地,在另一个可选实施例中,所述对所述原始业务数据进行数据清洗,得到标准业务数据,包括:对所述原始业务数据进行去重操作,并检测去重后的所述原始业务数据是否存在数据缺失值;若不存在数据缺失值,则将去重后的所述原始业务数据作为标准业务数据;若存在数据缺失值,则对所述数据缺失值进行数据填充,得到标准业务数据。
304、若存在数据缺失值,则对数据缺失值进行数据填充,得到标准业务数据;
本实施例中,所述对所述原始业务数据进行去重操作,包括:计算所述原始业务数据中任意两个风控数据的相似度,若所述相似度不大于预设相似度,则同时保留所述两个风控数据,若所述相似度大于预设相似度,则删除所述两个风控数据中任意一个风控数据。
需要说明的是,本发明实施例在计算所述原始业务数据的相似度之前,还包括:利用hash算法将所述原始业务数据转换成对应hash值,以实现后续原始业务数据相似度的计算。
305、获取标准业务数据的数据字段,根据数据字段,识别标准业务数据的数据属性;
本实施例中,由于所述标准业务数据中的数据会存在不同的属性,因此,所述标准业务数据中会存在不同维度的数据,即不同类别的数据,比如时间维度数据、基础信息维度数据以及行为维度数据,于是,本发明实施例对所述标准业务数据进行维度拆分,以将相同属性的数据归并至一类,方便后续数据计算,提高数据分析的效率。
306、将相同数据属性的标准业务数据进行聚类,得到数据聚类中心点;
本实施例中,所述对所述标准业务数据进行维度拆分,生成多个目标业务数据,包括:获取所述标准业务数据的数据字段,根据所述数据字段,识别所述标准业务数据的数据属性,将相同数据属性的标准业务数据进行聚类,得到数据聚类中心点,根据所述数据聚类中心点,生成对应的目标业务数据。
307、根据数据聚类中心点,生成对应的目标业务数据;
本实施例中,数据字段是用于表征所述标准业务数据的实体对象参数,所述数据属性用于表征所述标准业务数据的数据类型,如数据名称、数据特征等。
308、根据风控规则确定目标业务数据对应风控评估因子;
309、将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。
本实施例中步骤301、308-309与第一实施例中的步骤101、104-105类似,此处不再赘述。
本发明实施例中,通过获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;根据风控规则确定目标业务数据对应风控评估因子;将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高风控效率。
请参阅图4,本发明实施例中风险评估方法的第四个实施例包括:
401、获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;
402、根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;
403、根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;
404、根据风控规则确定目标业务数据对应风控评估因子;
405、获取多个风控样本用户的样本特征数据、风控样本用户在待风控场景中的风控表现数据和风控样本用户在待风控场景中的被风控时长信息;
本实施例中,可以获取各个候选报销用户的报销时长,根据预设的时长阈值的各个候选报销用户的报销时长,对各个候选报销用户进行筛选,得到样本报销用户。其中,预设的时长阈值可以是一个月或多个月,也可以是预设天数,还可以是报销期数,本发明不对此进行特殊限定。
以预设的时长阈值为一个月为例,获取多个候选报销用户的报销时长,例如,候选报销用户1的报销时长为0个月,候选报销用户2的报销时长为3个月,候选报销用户3的报销时长为1个月。将报销时长大于等于预设的时长阈值的候选报销用户作为样本报销用户,例如,对前述的三个候选报销用户进行筛选,将前述的候选报销用户2和候选报销用户3作为样本报销用户。
此处,报销时长为0个月可以是候选报销用户1从放款日到样本采集日的天数为零,即样本采集当天候选报销用户1成功申请到贷款;报销时长为0个月也可以指的是从放款日到样本采集当天的天数不到一个月。其他各个候选报销用户的报销时长与该候选报销用户1的报销时长类似,此处不再赘述。
406、根据风控表现数据,确定风控样本用户的风控评价标签;
本实施例中,风控评价标签可以用于表征风控样本用户是否存在风险。在报销风控场景中,风控评价标签可以是逾期严重程度标签,逾期严重程度标签包括第一标签和第二标签,第一标签用于表征该样本特征用户严重逾期,第二标签用于表征该样本特征用户未严重逾期。
可选的,根据风控表现数据,确定风控样本用户的风控评价标签,包括:从风控表现数据中提取风控样本用户的风险行为数据;风险行为数据包括风险行为时长和/或风险行为次数;对风险行为数据进行滚动率分析,得到风险行为数据阈值;根据风控样本用户的风险行为数据和风险行为数据阈值,确定风控样本用户的风控评价标签。
在一个实施例中,针对每个风控样本用户,该风控样本用户与对应的风控时长标签、风控评价标签进行绑定。
407、根据风控评价标签,对样本特征数据进行处理,得到风控样本用户的目标特征数据;
本实施例中,根据风控样本用户的风控评价标签,对风控样本用户的样本特征数据进行卡方分箱、筛选并编码,得到风控样本用户的目标特征数据。
当多个样本特征用户的同一样本特征变量的变量值相近时,其对风控模型的影响微乎其微,故可以确定将变量值属于某个变量值范围的目标风控样本用户,将各个目标风控样本用户的变量值均转换为与该变量值范围对应的编码值。通过样本特征数据进行卡方分箱、筛选并编码,得到目标特征数据,并利用该目标特征数据建模,能够简化风控模型的复杂程度,降低计算量。
可选的,样本特征数据包括多种样本特征变量的变量值;根据风控样本用户的风控评价标签,对风控样本用户的样本特征数据进行处理,得到风控样本用户的目标特征数据,包括:针对风控样本用户的任一样本特征变量,对该样本特征变量的变量值进行卡方分箱,得到该样本特征变量的多个分箱;根据各个样本特征变量的各个分箱,对多种样本特征变量进行筛选,得到目标变量;针对任一目标变量的任一分箱,根据风控样本用户的风控评价标签,确定该目标变量的该分箱对应的编码值;将该分箱对应的编码值确定为该目标变量的变量值落入该分箱的风控样本用户的目标特征数据。
408、将目标特征数据、被风控时长信息和风控评价标签按照预设比例进行划分,得到训练样本数据和测试样本数据;
本实施例中,根据风控样本用户的目标特征数据,由风控样本用户的被风控时长信息得到的风控时长标签和风控评价标签,生成训练样本数据和测试样本数据。
其中,训练样本数据(training set)是学习样本数据集,是通过匹配一些参数来建立分类器,即采用训练样本数据中的目标训练数据来训练机器学习模型,以确定机器学习模型的参数。测试样本数据(test set)是用于测试训练好的机器学习模型的分辨能力,如识别率。本实施例中,可按照9:1的比例对训练人脸图片进行划分,即可将90%的训练人脸图片作为训练样本数据,剩余10%的数据作为测试样本数据。
409、将训练样本数据输入预设卷积神经网络模型中进行训练,得到原始风控模型;
本实施例中,卷积神经网络模型是由卷积神经网络模型和长短时递归神经网络模型相结合所得到的模型。可以理解地,卷积神经网络-长短时递归神经网络模型相当于卷积神经网络与长短时递归神经网络模型相连接形成的模型。
卷积神经网络(Convolutional Neural Network,CNN))是局部连接网络。相对于全连接网络其最大的特点就是局部连接性和权值共享性。对于一副图像中的某个像素p来说,离像素p越近的像素对其影响也就越大(局部连接性)。另外,根据自然图像的统计特性,某个区域的权值也可以用于另一个区域,即权值共享性。权值共享可以理解为卷积核共享,在卷积神经网络(CNN)中,将一个卷积核与给定的图像做卷积运算就可以提取一种图像特征,不同的卷积核可以提取不同的图像特征。由于卷积神经网络的局部连接性,使得模型的复杂度降低,提高模型训练的效率;并且,由于卷积神经网络的权值共享性,因此卷积神经网络可以并行学习,进一步提高模型训练效率。
410、将测试样本数据输入原始风控模型进行测试,得到目标风控模型;
本实施例中,目标风控模型是采用测试样本数据中的训练人脸图片对原始风险模型进行测试,以使原始风控模型的准确度达到预设准确度的模型。具体地,采用测试样本数据中的目标训练数据即连续N帧的训练人脸图片对原始风控模型进行测试,以获取对应的准确度;若准确度达到预设准确度,则将该原始风控模型作为目标风控模型。
411、将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。
本实施例中步骤401-404、411与第一实施例中的步骤101-104、105类似,此处不再赘述。
在本发明实施例中,通过获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;根据风控规则确定目标业务数据对应风控评估因子;将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高风控效率。
请参阅图5,本发明实施例中风险评估方法的第五个实施例包括:
501、获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;
502、根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;
503、根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;
504、根据风控规则确定目标业务数据对应风控评估因子;
505、获取多个风控样本用户的样本特征数据、风控样本用户在待风控场景中的风控表现数据和风控样本用户在待风控场景中的被风控时长信息;
506、根据风控表现数据,确定风控样本用户的风控评价标签;
507、根据风控评价标签,对样本特征数据进行处理,得到风控样本用户的目标特征数据;
508、将目标特征数据、被风控时长信息和风控评价标签按照预设比例进行划分,得到训练样本数据和测试样本数据;
509、初始化卷积神经网络模型的模型参数;
本实施例中,初始化卷积神经网络模型是指预先初始化卷积神经网络模型的模型参数(即卷积核和偏置)。卷积核是指卷积神经网络的权值,当输入训练数据时,会乘上一个权值即卷积核,然后得到神经元的输出,它反映了训练数据的重要程度。偏置是用于更改权重乘输入的范围的线性分量。基于确定的卷积核、偏置中各层之间的连接权值,即可完成模型训练的过程。
510、采用卷积神经网络对训练样本数据进行特征提取,得到训练样本数据的特征向量;
本实施例中,特征向量是采用卷积神经网络对训练集中的目标训练数据进行特征提取所得到的面部特征。具体地,采用卷积神经网络对训练集中的目标训练数据进行特征提取,具体包括如下步骤:
其中,特征向量是采用卷积神经网络模型对训练集中的目标训练数据进行卷积运算所得到的特征。具体地,采用最大池化下采样对卷积后的特征图进行下采样操作以实现对特征图的降维,其计算公式为其中,yj表示下采样过程中的第i个输出谱(即下采样后的特征图),下采样过程中的每一个神经元是从第i个输入谱(卷积后的特征图)中采用S*S的下采样框局部采样得到的;m与n分别表示下采样框移动的步长。
511、将训练样本数据的特征向量输入到卷积神经网络模型中进行训练,得到原始风控模型;
本实施例中,LSTM模型是具有长时记忆能力的神经网络模型中的一种,具有输入层、隐藏层和输出层这三层网络结构。其中,输入层是LSTM模型的第一层,用于接收外界信号,即负责接收携带时序状态的特征向量。本实施例中,由于训练样本数据具有时序性,因此,训练样本数据的特征向量也具有时序性,使其可应用在LSTM模型中,使得LSTM获取携带时序状态的特征向量。输出层是LSTM模型的最后一层,用于向外界输出信号,即负责输出LSTM模型的计算结果。隐藏层是LSTM模型中除输入层和输出层之外的各层,用于对输入的特征向量进行处理,获取LSTM模型的计算结果。
其中,原始风控模型是采用LSTM模型对携带时序状态的特征向量进行多次迭代直至收敛所得到的模型。可以理解地,采用LSTM模型对提取的特征向量进行模型训练增强了获取到的原始风控模型的时序性,从而提高了原始风控模型的准确率。
本实施例中,先初始化卷积神经网络-长短时递归神经网络模型,以便基于卷积神经网络模型对训练集中的目标训练数据进行训练,获取特征向量,然后将获取到的人脸特征输入LSTM模型进行训练,该过程无需人为提取特征,只需将训练人脸图片直接输入到卷积神经网络-长短时递归神经网络模型中,即可由模型自行提取特征,提高模型训练效率。
512、将测试样本数据输入原始风控模型进行测试,得到目标风控模型;
513、将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。
本实施例中步骤501-504、513与第一实施例中的步骤101-104、105类似,此处不再赘述。
本发明实施例中,通过获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;根据风控规则确定目标业务数据对应风控评估因子;将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高风控效率。
上面对本发明实施例中风险评估方法进行了描述,下面对本发明实施例中风险评估装置进行描述,请参阅图6,本发明实施例中风险评估装置的第一个实施例包括:
数据清洗模块601,用于获取原始业务数据,并对所述业务数据进行清洗,得到标准业务数据;
配置模块602,用于根据所述标准业务数据的数据类型获取历史业务数据,并根据所述历史业务数据配置风控规则;
生成模块603,用于根据预设维度对所述业务数据进行维度拆分,生成多个目标业务数据;
第一确定模块604,用于根据所述风控规则确定所述目标业务数据对应风控评估因子;
分析模块605,用于将所述目标业务数据和所述风险评估因子输入预设风控模型进行分析,得到所述业务数据的风险评估结果。
本发明实施例中,通过获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;根据风控规则确定目标业务数据对应风控评估因子;将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高风控效率。
请参阅图7,本发明实施例中风险评估装置的第二个实施例,该风险评估装置具体包括:
数据清洗模块601,用于获取原始业务数据,并对所述业务数据进行清洗,得到标准业务数据;
配置模块602,用于根据所述标准业务数据的数据类型获取历史业务数据,并根据所述历史业务数据配置风控规则;
生成模块603,用于根据预设维度对所述业务数据进行维度拆分,生成多个目标业务数据;
第一确定模块604,用于根据所述风控规则确定所述目标业务数据对应风控评估因子;
分析模块605,用于将所述目标业务数据和所述风险评估因子输入预设风控模型进行分析,得到所述业务数据的风险评估结果。
在本实施例中,所述数据清洗模块601具体用于:
对所述原始业务数据进行去重操作,并检测去重后的所述原始业务数据是否存在数据缺失值;
若不存在数据缺失值,则将去重后的所述原始业务数据作为标准业务数据;
若存在数据缺失值,则对所述数据缺失值进行数据填充,得到标准业务数据。
在本实施例中,配置模块602包括:
提取单元6021,用于确定所述业务数据的类型,基于所述类型获取历史业务数据,并提取所述历史业务数据中的风控分析结果,确定风险阈值;
调整单元6022,用于根据所述风险阈值对预设的风控策略进行调整,得到实际风控策略;
确定单元6023,用于根据所述实际风控策略和所述风控分析结果,确定所述实际风控策略对应的风控效果表征值;
配置单元6024,用于根据所述风控效果表征值和所述历史业务数据配置风控规则。
所述配置单元6024具体用于:
根据所述风控策略和所述历史业务数据,确定所述风控策略对应的目标风控效果表征值;
将所述目标风控效果表征值作为测试参数,并根据所述目标范围和所述历史业务数据配置风控规则。
在本实施例中,所述生成模块603具体用于:
获取所述标准业务数据的数据字段,根据所述数据字段,识别所述标准业务数据的数据属性;
将相同数据属性的标准业务数据进行聚类,得到数据聚类中心点;
根据所述数据聚类中心点,生成对应的目标业务数据。
在本实施例中,所述风险评估装置还包括:
获取模块606,用于获取多个风控样本用户的样本特征数据、所述风控样本用户在待风控场景中的风控表现数据和所述风控样本用户在所述待风控场景中的被风控时长信息;
第二确定模块607,用于根据所述风控表现数据,确定所述风控样本用户的风控评价标签;根据所述风控评价标签,对所述样本特征数据进行处理,得到所述风控样本用户的目标特征数据;
划分模块608,用于将所述目标特征数据、所述被风控时长信息和所述风控评价标签按照预设比例进行划分,得到训练样本数据和测试样本数据;
训练模块609,用于将所述训练样本数据输入预设卷积神经网络模型中进行训练,得到原始风控模型;
测试模块610,用于将所述测试样本数据输入所述原始风控模型进行测试,得到目标风控模型。
在本实施例中,所述训练模块609具体用于:
初始化卷积神经网络模型的模型参数;
采用卷积神经网络对所述训练样本数据进行特征提取,得到所述训练样本数据的特征向量;
将所述训练样本数据的特征向量输入到所述卷积神经网络模型中进行训练,得到所述原始风控模型。
本发明实施例中,通过获取原始业务数据,并对业务数据进行清洗,得到标准业务数据;根据标准业务数据的数据类型获取历史业务数据,并根据历史业务数据配置风控规则;根据预设维度对业务数据进行维度拆分,生成多个目标业务数据;根据风控规则确定目标业务数据对应风控评估因子;将目标业务数据和风险评估因子输入预设风控模型进行分析,得到业务数据的风险评估结果。本发明通过报销规则的动态配置,拦截报销过程的风险,并对风险拦截成果进行校验,减少用户损失。提高风控效率。
上面图6和图7从模块化功能实体的角度对本发明实施例中的风险评估装置进行详细描述,下面从硬件处理的角度对本发明实施例中风险评估设备进行详细描述。
图8是本发明实施例提供的风险评估设备的结构示意图,该风险评估设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对风险评估设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在风险评估设备800上执行存储介质830中的一系列指令操作,以实现上述各方法实施例提供的风险评估方法的步骤。
风险评估设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作***831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的风险评估设备结构并不构成对本申请提供的风险评估设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行上述风险评估方法的步骤。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种风险评估方法,其特征在于,所述风险评估方法包括:
获取原始业务数据,并对所述业务数据进行清洗,得到标准业务数据;
根据所述标准业务数据的数据类型获取历史业务数据,并根据所述历史业务数据配置风控规则;
根据预设维度对所述业务数据进行维度拆分,生成多个目标业务数据;
根据所述风控规则确定所述目标业务数据对应风控评估因子;
将所述目标业务数据和所述风险评估因子输入预设风控模型进行分析,得到所述业务数据的风险评估结果。
2.根据权利要求1所述的风险评估方法,其特征在于,所述获取原始业务数据,并对所述业务数据进行清洗,得到标准业务数据包括:
获取原始业务数据,对所述原始业务数据进行去重操作,并检测去重后的所述原始业务数据是否存在数据缺失值;
若不存在数据缺失值,则将去重后的所述原始业务数据作为标准业务数据;
若存在数据缺失值,则对所述数据缺失值进行数据填充,得到标准业务数据。
3.根据权利要求1所述的风险评估方法,其特征在于,所述根据所述标准业务数据的数据类型获取历史业务数据,并根据所述历史业务数据配置风控规则包括:
确定所述业务数据的类型,基于所述类型获取历史业务数据,并提取所述历史业务数据中的风控分析结果,确定风险阈值;
根据所述风险阈值对预设的风控策略进行调整,得到实际风控策略;
根据所述实际风控策略和所述风控分析结果,确定所述实际风控策略对应的风控效果表征值;
根据所述风控效果表征值和所述历史业务数据配置风控规则。
4.根据权利要求3所述的风险评估方法,其特征在于,所述根据所述风控效果表征值和所述历史业务数据配置风控规则包括:
根据所述实际风控策略和所述历史业务数据,确定所述实际风控策略对应的风控效果表征值;
将所述风控效果表征值作为测试参数,并根据预设风控效果表征值对应目标范围和所述历史业务数据配置风控规则。
5.根据权利要求1所述的风险评估方法,其特征在于,所述根据预设维度对所述业务数据进行维度拆分,生成多个目标业务数据包括:
获取所述标准业务数据的数据字段,根据所述数据字段,识别所述标准业务数据的数据属性;
将相同数据属性的标准业务数据进行聚类,得到数据聚类中心点;
根据所述数据聚类中心点,生成对应的目标业务数据。
6.根据权利要求1所述的风险评估方法,其特征在于,在所述将所述目标业务数据和所述风险评估因子输入预设风控模型进行分析,得到所述业务数据的风险评估结果之前,还包括:
获取多个风控样本用户的样本特征数据、所述风控样本用户在待风控场景中的风控表现数据和所述风控样本用户在所述待风控场景中的被风控时长信息;
根据所述风控表现数据,确定所述风控样本用户的风控评价标签;
根据所述风控评价标签,对所述样本特征数据进行处理,得到所述风控样本用户的目标特征数据;
将所述目标特征数据、所述被风控时长信息和所述风控评价标签按照预设比例进行划分,得到训练样本数据和测试样本数据;
将所述训练样本数据输入预设卷积神经网络模型中进行训练,得到原始风控模型;
将所述测试样本数据输入所述原始风控模型进行测试,得到目标风控模型。
7.根据权利要求6所述的风险评估方法,其特征在于,所述将所述训练样本数据输入预设卷积神经网络模型中进行训练,得到原始风控模型包括:
初始化卷积神经网络模型的模型参数;
采用卷积神经网络对所述训练样本数据进行特征提取,得到所述训练样本数据的特征向量;
将所述训练样本数据的特征向量输入到所述卷积神经网络模型中进行训练,得到所述原始风控模型。
8.一种风险评估装置,其特征在于,所述风险评估装置包括:
数据清洗模块,用于获取原始业务数据,并对所述业务数据进行清洗,得到标准业务数据;
配置模块,用于根据所述标准业务数据的数据类型获取历史业务数据,并根据所述历史业务数据配置风控规则;
生成模块,用于根据预设维度对所述业务数据进行维度拆分,生成多个目标业务数据;
第一确定模块,用于根据所述风控规则确定所述目标业务数据对应风控评估因子;
分析模块,用于将所述目标业务数据和所述风险评估因子输入预设风控模型进行分析,得到所述业务数据的风险评估结果。
9.一种风险评估设备,其特征在于,所述风险评估设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述风险评估设备执行如权利要求1-7中任一项所述的风险评估方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的风险评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210246481.9A CN114612251A (zh) | 2022-03-14 | 2022-03-14 | 风险评估方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210246481.9A CN114612251A (zh) | 2022-03-14 | 2022-03-14 | 风险评估方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114612251A true CN114612251A (zh) | 2022-06-10 |
Family
ID=81862126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210246481.9A Pending CN114612251A (zh) | 2022-03-14 | 2022-03-14 | 风险评估方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114612251A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730605A (zh) * | 2022-11-21 | 2023-03-03 | 刘奕涵 | 基于多维信息的数据分析方法 |
CN116051296A (zh) * | 2022-12-28 | 2023-05-02 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及*** |
CN116485185A (zh) * | 2023-04-23 | 2023-07-25 | 深圳市精锐纵横网络技术有限公司 | 基于比对数据的企业风险分析***及方法 |
CN117113929A (zh) * | 2023-09-08 | 2023-11-24 | 中电金信数字科技集团有限公司 | 一种字段数据拆分方法、装置、电子设备及存储介质 |
CN117235608A (zh) * | 2023-11-14 | 2023-12-15 | 山东京北方金融科技有限公司 | 风险检测方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-14 CN CN202210246481.9A patent/CN114612251A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730605A (zh) * | 2022-11-21 | 2023-03-03 | 刘奕涵 | 基于多维信息的数据分析方法 |
CN115730605B (zh) * | 2022-11-21 | 2024-02-02 | 暨南大学 | 基于多维信息的数据分析方法 |
CN116051296A (zh) * | 2022-12-28 | 2023-05-02 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及*** |
CN116051296B (zh) * | 2022-12-28 | 2023-09-29 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及*** |
CN116485185A (zh) * | 2023-04-23 | 2023-07-25 | 深圳市精锐纵横网络技术有限公司 | 基于比对数据的企业风险分析***及方法 |
CN117113929A (zh) * | 2023-09-08 | 2023-11-24 | 中电金信数字科技集团有限公司 | 一种字段数据拆分方法、装置、电子设备及存储介质 |
CN117235608A (zh) * | 2023-11-14 | 2023-12-15 | 山东京北方金融科技有限公司 | 风险检测方法、装置、电子设备及存储介质 |
CN117235608B (zh) * | 2023-11-14 | 2024-03-29 | 山东京北方金融科技有限公司 | 风险检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
CN114612251A (zh) | 风险评估方法、装置、设备及存储介质 | |
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
CN112418653A (zh) | 一种基于机器学习算法的携号转网潜客识别***及方法 | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
Tounsi et al. | CSMAS: Improving multi-agent credit scoring system by integrating big data and the new generation of gradient boosting algorithms | |
CN115063035A (zh) | 基于神经网络的客户评估方法、***、设备及存储介质 | |
Dabab et al. | A decision model for data mining techniques | |
CN115034654A (zh) | 资产评估方法、装置、设备及存储介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
Nurlybayeva et al. | Algorithmic scoring models | |
Nagaraju et al. | Methodologies used for customer churn detection in customer relationship management | |
CN116385151A (zh) | 基于大数据进行风险评级预测的方法及计算设备 | |
CN111143533A (zh) | 一种基于用户行为数据的客服方法及*** | |
CN113706258B (zh) | 基于组合模型的产品推荐方法、装置、设备及存储介质 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
EP3493082A1 (en) | A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends | |
CN113128739B (zh) | 用户触达时间的预测方法、预测模型训练方法及相关装置 | |
CN113987351A (zh) | 基于人工智能的智能推荐方法、装置、电子设备及介质 | |
CN110472680B (zh) | 目标分类方法、装置和计算机可读存储介质 | |
CN115080732A (zh) | 投诉工单处理方法、装置、电子设备和存储介质 | |
CN113792149B (zh) | 一种基于用户关注度分析产生获客方案的方法和装置 | |
Mäkinen et al. | Predicting jump arrivals in stock prices using neural networks with limit order book data | |
Karrar et al. | Applying K-Means Clustering Algorithm to Discover Knowledge from Insurance Dataset Using WEKA Tool |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |