CN112837142A - 一种金融风险模型训练方法和装置 - Google Patents

一种金融风险模型训练方法和装置 Download PDF

Info

Publication number
CN112837142A
CN112837142A CN202110071185.5A CN202110071185A CN112837142A CN 112837142 A CN112837142 A CN 112837142A CN 202110071185 A CN202110071185 A CN 202110071185A CN 112837142 A CN112837142 A CN 112837142A
Authority
CN
China
Prior art keywords
data
risk model
training
risk
financial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110071185.5A
Other languages
English (en)
Inventor
张东凯
吴勇
李宁
陈亚君
蔡朴锐
卢世温
林莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110071185.5A priority Critical patent/CN112837142A/zh
Publication of CN112837142A publication Critical patent/CN112837142A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及机器学习技术领域,具体涉及一种金融风险模型训练方法和装置。所述方法包括:获取与金融风险相关原始数据;根据所述原始数据构建所述原始数据的特征因子;根据预设算法利用所述特征因子数据对预构建的风险模型进行训练获取目标风险模型。本申请提供的技术方案可以提高风险模型的准确性。

Description

一种金融风险模型训练方法和装置
技术领域
本发明涉及机器学习技术领域,具体涉及一种金融风险模型训练方法和装置。
背景技术
随着计算机和互联网技术的迅速发展,各行业在互联网上开展的业务越来越多元化。地方金融机构的监管也在逐步往非现场监管为主的模式转变,达到各项业务的在线办理,对地方金融机构的在线实时监测。地方金融机构在实际监管过程中,通常是通过风险预警模型对机构行为数据进行风险预测,以预测结果来表明机构行为数据的风险程度,因此风险预警模型的准确性显得至关重要。
发明内容
本申请的目的旨在提高金融机构风险预警模型的准确性。本申请所采用的技术方案如下:
第一方面,本申请实施例公开了一种金融风险模型训练方法,所述方法包括:
获取与金融风险相关原始数据;
根据所述原始数据构建所述原始数据的特征因子;
根据预设算法利用所述特征因子数据对预构建的风险模型进行训练获取目标风险模型。
进一步地,所述获取与金融风险相关原始数据包括:
获取目标金融机构的历史业务数据和资金数据;
根据预设的风险判断规则,对所述历史业务数据和资金数据进行风险标注;
将完成风险标注的示例业务数据和资金数据确定为原始数据。
进一步地,所述获取与金融风险相关原始数据还包括:
获取目标金融机构所在区域的政务数据和舆情数据;
根据预设的风险判断规则,对所述政务数据和舆情数据进行风险标注;
将完成风险标注的政务数据和舆情数据确定为原始数据。
进一步地,所述预设风险判断规则包括:获取并将所述目标金融机构内部的业务黑白名单和业务异常规则确定为预设的风险判断规则;和/或,
根据大数据分析和专家判断规则,设定所述政务数据和舆情数据的风险判断规则。
进一步地,所述获取目标金融机构所在区域的政务数据和舆情数据包括:
向政务***和舆情分析***申请数据接口;
通过所述数据接口从所述政务***和舆情分析***获取政务数据和舆情数据。
进一步地,所述根据所述原始数据构建所述原始数据的特征因子包括:
根据获取的原始数据的属性特征,构建原始数据以下至少一种特征因子:
基础特征因子、偏离特征因子、交叉特征因子。
进一步地,所述方法还包括:按照预定的排列组合规则,将所述特征因子数据进行分组;其中每组特征因子数据均至少包括两类数据;
利用每组中第一类特征因子数据对所述预构建的风险模型进行训练;
利用每组中第二类特征因子数据对所述目标风险模型进行验证。
进一步地,所述预定的排列组合规则包括但不限于:
根据特征因子数据的原始数据产生的时间,将时间维度相邻的两类特征因子组合为一组;或,
将同一时间范围内的特征因子数据随机分为两类并将所述两类特征因子数据组合为一组。
进一步地,利用每组中第二类特征因子数据对所述目标风险模型进行验证之后,所述方法还包括:
获取所述验证结果;
当所述验证结果与设定的标准结果不符时,根据所述验证结果与所述标准结果的差距确定修正变量;
根据所述修正变量对所述目标风险模型进行修正。
进一步地,所述根据预设算法利用所述特征因子数据对预构建的风险模型进行训练包括但不限于:
根据预设的随机森林算法或决策树算法利用所述特征因子数据对预构建的风险模型进行训练。
进一步地,所述根据预设的随机森林算法利用所述特征因子数据对预构建的风险模型进行训练包括:
采用自助法重采样技术,从特征因子数据中M次随机有放回地抽取K个样本形成M个的特征因子数据集合;其中所述M和K均为大于等于1的正整数;
利用所述M个特征因子数据集合对所述预构建的风险模型进行训练获取目标风险模型。
进一步地,所述根据预设的决策树算法利用所述特征因子数据预构建的风险模型进行训练包括:
初始化决策树算法对应的层级参数;
采用CART算法对训练集中的目标训练数据进行训练,在决策树的生长层数达到所述层级参数时,获取所述原始风险模型。
另一方面本申请实施例提供了一种金融风险模型训练装置,所述装置包括:获取模块、构建模块、存储模块和训练模块,其中,
所述获取模块,用于获取与金融风险相关原始数据;
所述构建模块,用于根据所述原始数据构建所述原始数据的特征因子;
所述存储模块,用于存储预设算法和预构建的风险模型;
所述训练模块,用于根据预设算法利用所述特征因子数据对预构建的风险模型进行训练获取目标风险模型。
进一步地,所述装置还包括数据处理模块和验证模块,其中,
所述存储模块,还用于存储预定的排列组合规则;
所述数据处理模块,还用于按照预定的排列组合规则,将所述特征因子数据进行分组;其中每组特征因子数据均至少包括两类数据;
所述训练模块,具体用于利用每组中第一类特征因子数据对所述预构建的风险模型进行训练;
所述验证模块,用于利用每组中第二类特征因子数据对所述目标风险模型进行验证。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行上述任一实施例中所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法。
本申请实施例提供的金融风险模型训练方案包括获取与金融风险相关原始数据;根据所述原始数据构建所述原始数据的特征因子;根据预设算法利用所述特征因子数据对预构建的风险模型进行训练获取目标风险模型。本申请实施例提供的技术方案带来的有益效果包括可以在相对短的时间内对大型数据源做出可行且有效的预测结果,大大提高了风险预警模型的准确率。同时利用一部分数据对构建训练的模型进行验证并修正进一步提高风险模型的准确率,以使目标风险模型的辅助识别效果更佳。更加有效的协助地方金融监管机构维护金融安全,营造良好的金融行业环境。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种金融风险模型训练方法的流程示意图;
图2为本申请实施例提供的一种金融风险模型训练方法的流程示意图;
图3为本申请实施例提供的一种金融风险模型训练装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
需要说明的是,在本技术领域技术人员可以理解的范围内,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式,其中的“第一”“第二”等只是为了介绍清楚方案而进行的对象区分定义,并不对对象本身进行限制,当然“第一”和“第二”限定的对象可能是同一个终端、设备和用户等,也可能是同一种终端、设备和用户。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。此外应理解,本申请实施例中“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一(项)个”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b或c中的至少一项(个),可以表示:a,b,c,a和b,a和c,b和c,或a、b和c,其中a、b、c可以是单个,也可以是多个。
金融风险控制是地方金融监管体系健康运营管理的重要保障环节。金融风险控制的核心在于风险预警模型的应用。风险预警模型的准确性很大程度上取决于机构历史行为数据的细粒度的选取,机构历史行为数据的细粒度的如果不够,训练得到的风险预警模型的识别效率低且风险预警模型识别的准确率不高。反之越是细粒度的机构历史行为数据会对机构的隐私暴露的越多。基于此,本申请实施例从业务数据、资金数据以及与金融风险相关的政务数据和舆情数据等维度出发并细化这些维度的细粒度来提高金融风险模型的准确度。
图1示出了本申请实施例提供的一种金融风险模型的流程示意图,如图1所示,该方法主要可以包括:
S101、获取与金融风险相关原始数据;
S102、根据所述原始数据构建所述原始数据的特征因子;
在本申请实施例中,所述与金融风险相关的原始数据包括历史业务数据和资金数据,还可以包括与目标金融机构(待评估的金融机构)所在区域的政务数据和舆情数据。其中上述各个维度的原始数据的获取过程分别为:
(1)在可选的一个实施例中,获取目标金融机构的历史业务数据和资金数据方面的原始数据的步骤包括:
步骤1、获取目标金融机构的历史业务数据和资金数据:从待评估的金融机构处获取其历史业务数据和资金数据,其中业务数据包括但不限于转账业务数据、存款业务数据、贷款业务数据、保函业务数据等;资金数据即为上述这些业务中所涉及到的资金数量、资金流向和资金往来。
步骤2、根据预设的风险判断规则,对所述历史业务数据和资金数据进行风险标注;
步骤3、将完成风险标注的示例业务数据和资金数据确定为原始数据。
(2)在可选的一个实施例中,获取所述获取与金融风险相关的政务数据和舆情数据的原始数据的步骤包括:
步骤1、获取目标金融机构所在区域的政务数据和舆情数据;其中获取方式可以为向政务***和舆情分析***申请数据接口,通过所述数据接口从所述政务***和舆情分析***获取政务数据和舆情数据。其中政务数据包括金融机构的客户在法院***公布的诉讼案件(对应的政务***可以为法院数据库***)、工商异常信息(对应的政务***可以是工商***)等。舆情数据包括但不限于金融机构的客户在网络新闻上发布的一些公司经营信息。
步骤2、根据预设的风险判断规则,对所述政务数据和舆情数据进行风险标注;
步骤3、将完成风险标注的政务数据和舆情数据确定为原始数据。
在上述实施例的基础上,进一步的申请实施例中,所述预设风险判断规则包括:获取并将所述目标金融机构内部或其他与存储原始数据有关的***的业务黑白名单和业务异常规则确定为预设的风险判断规则,该规则可以用于对业务数据、资金数据、政务数据和舆情数据进行风险标注;和/或,根据大数据分析和专家判断规则,设定所述政务数据和舆情数据的风险判断规则。其中所述专家判断规则是指根据专家对风险的判断和评估结论来对所述政务数据和舆情数据进行风险标准。
上述实施例中的原始数据主要是从地方金融组织机构、银行、政府的内部大数据等部门获取到与地方金融组织机构相关日常业务办理数据、财务报表数据、账户资金流水、工商数据、法院信息以及舆情信息等数据。针对地方金融组织对象和预设风险判断规则,进行高低风险标注,高风险对象的相关数据即为高风险,低风险对象的相关数据即为低风险,最终得到原始训练数据。
在上述实施例中,根据原始数据构建所述原始数据的特征因子包括:根据获取的原始数据的属性特征,构建原始数据的基础特征因子、偏离特征因子或交叉特征因子。特征因子,即为模型训练所需的训练数据。其中主要有基础特征、偏离值特征、交叉特征。
基础特征是指原始数据基础字段,主要包含:保留字段、统计特征、特地集合中的统计特征,例如:资产总额等;
偏离特征是指的是单个个体与分组之前的均值、最小值、最大值分别与求和值之间的偏离距离,例如:资产总额与行业资产总额平均值的偏离率等。
交叉特征是指不单单从一个角度去构建特征,而从多个角度构建特征,或者说将特征之间相互作用后生成新的特征,例如:资产负债率=负债总额/资产总额等。
S103、根据预设算法利用所述特征因子数据对预构建的风险模型进行训练获取目标风险模型。
在一个优选实施例中,如图2所示,本申请实施例所述的金融风险模型训练步骤可以包括:
S201、获取与金融风险相关原始数据;
S202、根据所述原始数据构建所述原始数据的特征因子;
S203、按照预定的排列组合规则,将所述特征因子数据进行分组;其中每组特征因子数据均至少包括两类数据;
在本申请实施例中,所述预定的排列组合规则包括但不限于以下两种:
(1)根据特征因子数据的原始数据产生的时间,将时间维度相邻的两类特征因子组合为一组;例如,获取2015年-2020年的原始数据,按照该规则,可以将上述数据分为三组,分别为{2015,2016}、{2017,2018}和{2019,2020},其中2015年的原始数据的特征因子可以作为第一类数据,即训练数据集,2016年的数据作为第二类数据即测试数据集,另外两组也同样。
(2)将同一时间范围内的特征因子数据随机分为两类并将所述两类特征因子数据组合为一组。例如将2015年-2020年每一年的原始数据的特征因子随机分为两类,其中一类作为训练数据,一类作为测试数据。
S204、利用每组中第一类特征因子数据对所述预构建的风险模型进行训练;第一类特征因子数据是学习样本数据集,用来训练机器学习模型,以确定机器学习模型的参数。
S205、利用每组中第二类特征因子数据对所述目标风险模型进行验证。第二类特征因子数据是用于测试训练好的机器学习模型的分辨能力,提高模型准确率。
S206、获取所述验证结果;
S207、当所述验证结果与设定的标准结果不符时,根据所述验证结果与所述标准结果的差距确定修正变量;根据所述修正变量对所述目标风险模型进行修正。
在上述实施例中,所述预设算法利包括但不限于随机森林算法或决策树算法。
在进一步的实施例中,所述根据预设的随机森林算法利用所述特征因子数据对预构建的风险模型进行训练包括:
步骤1、采用自助法重采样技术,从特征因子数据中M次随机有放回地抽取K个样本形成M个的特征因子数据集合;其中所述M和K均为大于等于1的正整数;
步骤2、利用所述M个特征因子数据集合对所述预构建的风险模型进行训练获取目标风险模型。
随机森林算法的优点有很多,其中最出众的要属——算法中每棵树都尽最大程度的生长(并且不减枝),这保证了模型能更深入更细致的进行学习。同时它还在算法中加入了两个随机性——随机选择样本和特征,这保证了模型在深度学习时更难陷入过度拟合。
在进一步的可选实施例中,所述根据预设的决策树算法利用所述特征因子数据预构建的风险模型进行训练包括:
步骤1、初始化决策树算法对应的层级参数;
步骤2、采用CART算法对训练集中的目标训练数据进行训练,在决策树的生长层数达到所述层级参数时,获取所述原始风险模型。具体为:
基于图1和图2所示的金融风险模型训练方法,另一方面本申请实施例提供了一种金融风险模型训练装置,如图3所示,装置可以包括:301获取模块、302构建模块、303存储模块和304训练模块,其中,
所述301获取模块,用于获取与金融风险相关原始数据;
所述302构建模块,用于根据所述原始数据构建所述原始数据的特征因子;
所述303存储模块,用于存储预设算法和预构建的风险模型;
所述304训练模块,用于根据预设算法利用所述特征因子数据对预构建的风险模型进行训练获取目标风险模型。
进一步地,所述装置还包括305数据处理模块和306验证模块,其中,
所述303存储模块,还用于存储预定的排列组合规则;其中,所述预定的排列组合规则包括但不限于:根据特征因子数据的原始数据产生的时间,将时间维度相邻的两类特征因子组合为一组;或,将同一时间范围内的特征因子数据随机分为两类并将所述两类特征因子数据组合为一组。
所述305数据处理模块,还用于按照预定的排列组合规则,将所述特征因子数据进行分组;其中每组特征因子数据均至少包括两类数据;
所述304训练模块,具体用于利用每组中第一类特征因子数据对所述预构建的风险模型进行训练;
所述306验证模块,用于利用每组中第二类特征因子数据对所述目标风险模型进行验证。
在进一步的实施例中,所述301获取模块包括获取单元、标注单元和确定单元,其中,
所述获取单元具体用于获取目标金融机构的历史业务数据和资金数据;
所述标注单元,具体用于根据预设的风险判断规则,对所述历史业务数据和资金数据进行风险标注;
所述确定单元,用于将完成风险标注的示例业务数据和资金数据确定为原始数据。
在进一步的实施例中,所述301获取模块的获取单元、标注单元和确定单元还用于,
所述获取单元,还用于获取目标金融机构所在区域的政务数据和舆情数据;进一步地,所述获取目标金融机构所在区域的政务数据和舆情数据包括:向政务***和舆情分析***申请数据接口;通过所述数据接口从所述政务***和舆情分析***获取政务数据和舆情数据。
所述标注单元,还用于根据预设的风险判断规则,对所述政务数据和舆情数据进行风险标注;
所述确定单元,还用于将完成风险标注的政务数据和舆情数据确定为原始数据。
在进一步的可选实施例中,所述303存储模块存储的预设风险判断规则包括:获取并将所述目标金融机构内部的业务黑白名单和业务异常规则确定为预设的风险判断规则;和/或,根据大数据分析和专家判断规则,设定所述政务数据和舆情数据的风险判断规则。
在具体实施例中,所述302构建模块具体用于根据获取的原始数据的属性特征,构建原始数据以下至少一种特征因子:基础特征因子、偏离特征因子、交叉特征因子。
在进一步的可选实施例中,所述装置还包括307修正模块,其中所述307修正模块用于当所述验证结果与设定的标准结果不符时,根据所述验证结果与所述标准结果的差距确定修正变量;并根据所述修正变量对所述目标风险模型进行修正。
在进一步的可选实施例中,所述304训练模块具体用于根据预设的随机森林算法或决策树算法利用所述特征因子数据对预构建的风险模型进行训练。
进一步地,所述304训练模块根据预设的随机森林算法利用所述特征因子数据对预构建的风险模型进行训练包括:
采用自助法重采样技术,从特征因子数据中M次随机有放回地抽取K个样本形成M个的特征因子数据集合;其中所述M和K均为大于等于1的正整数;
利用所述M个特征因子数据集合对所述预构建的风险模型进行训练获取目标风险模型。
可选地,所述304训练模块根据预设的决策树算法利用所述特征因子数据预构建的风险模型进行训练包括:
初始化决策树算法对应的层级参数;
采用CART算法对训练集中的目标训练数据进行训练,在决策树的生长层数达到所述层级参数时,获取所述原始风险模型。
可以理解的是,本实施例中的金融风险模型训练装置的上述各组成设备具有实现图1和图2中所示的实施例中的方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或装置。上述模块和装置可以是软件和/或硬件,上述各模块和装置可以单独实现,也可以多个模块和装置集成实现。对于上述各模块和装置的功能描述具体可以参见图1和图2中所示实施例中的方法的对应描述,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
可以理解的是,本发明实施例示意的结构并不构成对金融风险模型训练装置的具体结构的具体限定。在本申请另一些实施例中,金融风险模型训练装置可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
本申请实施例提供了一种电子设备,包括处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行本申请任一实施方式中所提供的金融风险模型训练方法。
作为一个示例,图4示出了本申请实施例所适用的一种电子设备的结构示意图,如图4所示,该电子设备400包括:处理器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。可选的,电子设备400还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个。可以理解的是,本发明实施例示意的结构并不构成对电子设备400的具体结构的具体限定。在本申请另一些实施例中,电子设备400可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实。可选地,电子设备还可以包括显示屏405,用于显示图像,或需要时接收用户的操作指令。
其中,处理器401应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器404可以包括接收机和发射机,收发器404应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。
处理器401可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
处理器401也可以包括一个或多个处理单元,例如:处理器401可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphicsprocessingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。其中,控制器可以是电子设备400的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。处理器401中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器401中的存储器为高速缓冲存储器。该存储器可以保存处理器401刚用过或循环使用的指令或数据。如果处理器401需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器401的等待时间,因而提高了***的效率。
处理器401可以运行本申请实施例提供的金融风险模型训练方法,以便于降低用户的操作复杂度、提高终端设备的智能化程度,提升用户的体验。处理器401可以包括不同的器件,比如集成CPU和GPU时,CPU和GPU可以配合执行本申请实施例提供的金融风险模型训练方法,比如金融风险模型训练方法中部分算法由CPU执行,另一部分算法由GPU执行,以得到较快的处理效率。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器403可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘),也可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flashstorage,UFS),或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以实现本申请任一实施方式中所提供的金融风险模型训练方法。
存储器403可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器401通过运行存储在存储器403的指令,从而执行电子设备400的各种功能应用以及数据处理。存储器403可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,应用程序的代码等。存储数据区可存储电子设备400使用过程中所创建的数据(比如相机应用采集的图像、视频等)等。
存储器403还可以存储本申请实施例提供的金融风险模型训练方法对应的一个或多个计算机程序。该一个或多个计算机程序被存储在上述存储器403中并被配置为被该一个或多个处理器401执行,该一个或多个计算机程序包括指令,上述指令可以用于执行上述相应实施例中的各个步骤。
当然,本申请实施例提供的金融风险模型训练方法的代码还可以存储在外部存储器中。这种情况下,处理器401可以通过外部存储器接口运行存储在外部存储器中的金融风险模型训练方法的代码,处理器401可以控制运行金融风险模型流程。
显示屏405包括显示面板。显示面板可以采用液晶显示屏(liquid crystaldisplay,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备400可以包括1个或N个显示屏405,N为大于1的正整数。显示屏405可用于显示由用户输入的信息或提供给用户的信息以及各种图形用户界面(graphical userinterface,GUI)。例如,显示屏405可以显示照片、视频、网页、或者文件等。
本申请实施例提供的电子设备,适用于上述方法任一实施例,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的金融风险模型训练方法。
本申请实施例提供的计算机可读存储介质,适用于上述方法任一实施例,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的方法。本申请实施例提供的计算机程序产品,适用于上述方法任一实施例,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本申请实施例提供的金融风险模型训练方案包括获取与金融风险相关原始数据;根据所述原始数据构建所述原始数据的特征因子;根据预设算法利用所述特征因子数据对预构建的风险模型进行训练获取目标风险模型。本申请实施例提供的技术方案可以在相对短的时间内对大型数据源做出可行且有效的预测结果,大大提高了风险预警模型的准确率。同时利用一部分数据对构建训练的模型进行验证并修正进一步提高风险模型的准确率,以使目标风险模型的辅助识别效果更佳。更加有效的协助地方金融监管机构维护金融安全,营造良好的金融行业环境。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块或单元的划分,仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以丢弃,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,还可以做出若干改进和润饰,这些变化、替换、改进和润饰也应视为都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (16)

1.一种金融风险模型训练方法,其特征在于,所述方法包括:
获取与金融风险相关原始数据;
根据所述原始数据构建所述原始数据的特征因子;
根据预设算法利用所述特征因子数据对预构建的风险模型进行训练获取目标风险模型。
2.根据权利要求1所述的金融风险模型训练方法,其特征在于,所述获取与金融风险相关原始数据包括:
获取目标金融机构的历史业务数据和资金数据;
根据预设的风险判断规则,对所述历史业务数据和资金数据进行风险标注;
将完成风险标注的示例业务数据和资金数据确定为原始数据。
3.根据权利要求1或2所述的金融风险模型训练方法,其特征在于,所述获取与金融风险相关原始数据还包括:
获取目标金融机构所在区域的政务数据和舆情数据;
根据预设的风险判断规则,对所述政务数据和舆情数据进行风险标注;
将完成风险标注的政务数据和舆情数据确定为原始数据。
4.根据权利要求3所述的金融风险模型训练方法,其特征在于,所述预设风险判断规则包括:
获取并将所述目标金融机构内部的业务黑白名单和业务异常规则确定为预设的风险判断规则;和/或,
根据大数据分析和专家判断规则,设定所述政务数据和舆情数据的风险判断规则。
5.根据权利要求3或4所述的金融风险模型训练方法,其特征在于,所述获取目标金融机构所在区域的政务数据和舆情数据包括:
向政务***和舆情分析***申请数据接口;
通过所述数据接口从所述政务***和舆情分析***获取政务数据和舆情数据。
6.根据权利要求5所述的金融风险模型训练方法,其特征在于,所述根据所述原始数据构建所述原始数据的特征因子包括:
根据获取的原始数据的属性特征,构建原始数据以下至少一种特征因子:
基础特征因子、偏离特征因子、交叉特征因子。
7.根据权利要求1或6述的金融风险模型训练方法,其特征在于,所述方法还包括:
按照预定的排列组合规则,将所述特征因子数据进行分组;其中每组特征因子数据均至少包括两类数据;
利用每组中第一类特征因子数据对所述预构建的风险模型进行训练;
利用每组中第二类特征因子数据对所述目标风险模型进行验证。
8.根据权利要求7所述的金融风险模型训练方法,其特征在于,所述预定的排列组合规则包括但不限于:
根据特征因子数据的原始数据产生的时间,将时间维度相邻的两类特征因子组合为一组;或,
将同一时间范围内的特征因子数据随机分为两类并将所述两类特征因子数据组合为一组。
9.根据权利要求8所述的金融风险模型训练方法,其特征在于,利用每组中第二类特征因子数据对所述目标风险模型进行验证之后,所述方法还包括:
获取所述验证结果;
当所述验证结果与设定的标准结果不符时,根据所述验证结果与所述标准结果的差距确定修正变量;
根据所述修正变量对所述目标风险模型进行修正。
10.根据权利要求1或9所述的金融风险模型训练方法,其特征在于,所述根据预设算法利用所述特征因子数据对预构建的风险模型进行训练包括但不限于:
根据预设的随机森林算法或决策树算法利用所述特征因子数据对预构建的风险模型进行训练。
11.根据权利要求10所述的金融风险模型训练方法,其特征在于,所述根据预设的随机森林算法利用所述特征因子数据对预构建的风险模型进行训练包括:
采用自助法重采样技术,从特征因子数据中M次随机有放回地抽取K个样本形成M个的特征因子数据集合;其中所述M和K均为大于等于1的正整数;
利用所述M个特征因子数据集合对所述预构建的风险模型进行训练获取目标风险模型。
12.根据权利要求10所述的金融风险模型训练方法,其特征在于,所述根据预设的决策树算法利用所述特征因子数据预构建的风险模型进行训练包括:
初始化决策树算法对应的层级参数;
采用CART算法对训练集中的目标训练数据进行训练,在决策树的生长层数达到所述层级参数时,获取所述原始风险模型。
13.一种金融风险模型训练装置,其特征在于,所述装置包括:获取模块、构建模块、存储模块和训练模块,其中,
所述获取模块,用于获取与金融风险相关原始数据;
所述构建模块,用于根据所述原始数据构建所述原始数据的特征因子;
所述存储模块,用于存储预设算法和预构建的风险模型;
所述训练模块,用于根据预设算法利用所述特征因子数据对预构建的风险模型进行训练获取目标风险模型。
14.根据权利要求13述的金融风险模型训练装置,其特征在于,所述装置还包括数据处理模块和验证模块,其中,
所述存储模块,还用于存储预定的排列组合规则;
所述数据处理模块,还用于按照预定的排列组合规则,将所述特征因子数据进行分组;其中每组特征因子数据均至少包括两类数据;
所述训练模块,具体用于利用每组中第一类特征因子数据对所述预构建的风险模型进行训练;
所述验证模块,用于利用每组中第二类特征因子数据对所述目标风险模型进行验证。
15.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行权利要求1-12中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-12中任一项所述的方法。
CN202110071185.5A 2021-01-19 2021-01-19 一种金融风险模型训练方法和装置 Pending CN112837142A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110071185.5A CN112837142A (zh) 2021-01-19 2021-01-19 一种金融风险模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110071185.5A CN112837142A (zh) 2021-01-19 2021-01-19 一种金融风险模型训练方法和装置

Publications (1)

Publication Number Publication Date
CN112837142A true CN112837142A (zh) 2021-05-25

Family

ID=75928721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110071185.5A Pending CN112837142A (zh) 2021-01-19 2021-01-19 一种金融风险模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN112837142A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112352A (zh) * 2021-05-27 2021-07-13 中国工商银行股份有限公司 风险业务检测模型训练方法、风险业务检测方法及装置
CN113837764A (zh) * 2021-09-22 2021-12-24 平安科技(深圳)有限公司 风险预警方法、装置、电子设备和存储介质
CN114638439A (zh) * 2022-04-11 2022-06-17 中国工商银行股份有限公司 大额敞口风险的预测方法及装置
CN115408702A (zh) * 2022-11-01 2022-11-29 浙江城云数字科技有限公司 Stacking接口运行风险等级评估方法及其应用

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112352A (zh) * 2021-05-27 2021-07-13 中国工商银行股份有限公司 风险业务检测模型训练方法、风险业务检测方法及装置
CN113837764A (zh) * 2021-09-22 2021-12-24 平安科技(深圳)有限公司 风险预警方法、装置、电子设备和存储介质
CN113837764B (zh) * 2021-09-22 2023-07-25 平安科技(深圳)有限公司 风险预警方法、装置、电子设备和存储介质
CN114638439A (zh) * 2022-04-11 2022-06-17 中国工商银行股份有限公司 大额敞口风险的预测方法及装置
CN115408702A (zh) * 2022-11-01 2022-11-29 浙江城云数字科技有限公司 Stacking接口运行风险等级评估方法及其应用
CN115408702B (zh) * 2022-11-01 2023-02-14 浙江城云数字科技有限公司 Stacking接口运行风险等级评估方法及其应用

Similar Documents

Publication Publication Date Title
WO2020020088A1 (zh) 神经网络模型的训练方法和***以及预测方法和***
CN112837142A (zh) 一种金融风险模型训练方法和装置
WO2021189364A1 (zh) 一种对抗图像生成方法、装置、设备以及可读存储介质
CN113822494A (zh) 风险预测方法、装置、设备及存储介质
CN112541786A (zh) 一种网点选址方法、装置、电子设备和存储介质
CN109284371B (zh) 反欺诈方法、电子装置及计算机可读存储介质
US20180365594A1 (en) Systems and methods for generative learning
CN112488719A (zh) 一种账户风险识别方法和装置
CN112541443B (zh) ***信息抽取方法、装置、计算机设备及存储介质
Chen et al. Survey on AI sustainability: emerging trends on learning algorithms and research challenges
CN114398557A (zh) 基于双画像的信息推荐方法、装置、电子设备及存储介质
CN113256191A (zh) 基于分类树的风险预测方法、装置、设备及介质
CN115859302A (zh) 源代码漏洞检测方法、装置、设备及存储介质
CN112214588A (zh) 多意图识别方法、装置、电子设备及存储介质
CN115204971A (zh) 产品推荐方法、装置、电子设备及计算机可读存储介质
CN111709415A (zh) 目标检测方法、装置、计算机设备和存储介质
CN114282258A (zh) 截屏数据脱敏方法、装置、计算机设备及存储介质
CN112651782A (zh) 基于缩放点积注意力的行为预测方法、装置、设备及介质
CN114973374A (zh) 基于表情的风险评测方法、装置、设备及存储介质
CN114219184A (zh) 产品交易数据预测方法、装置、设备、介质和程序产品
CN114694150A (zh) 一种提升数字图像分类模型泛化能力的方法及***
CN116092094A (zh) 图像文本识别方法、装置、计算机可读介质及电子设备
CN113343882A (zh) 人群计数方法、装置、电子设备及存储介质
CN117314756B (zh) 基于遥感图像的验保方法、装置、计算机设备及存储介质
US12051259B2 (en) Method and system for processing subpoena documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination