CN112561320A - 机构风险预测模型的训练方法、机构风险预测方法和装置 - Google Patents

机构风险预测模型的训练方法、机构风险预测方法和装置 Download PDF

Info

Publication number
CN112561320A
CN112561320A CN202011475410.3A CN202011475410A CN112561320A CN 112561320 A CN112561320 A CN 112561320A CN 202011475410 A CN202011475410 A CN 202011475410A CN 112561320 A CN112561320 A CN 112561320A
Authority
CN
China
Prior art keywords
risk
prediction model
sample
target
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011475410.3A
Other languages
English (en)
Inventor
张东凯
吴勇
李宁
陈亚君
蔡朴锐
卢世温
林莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011475410.3A priority Critical patent/CN112561320A/zh
Publication of CN112561320A publication Critical patent/CN112561320A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种机构风险预测模型的训练方法装置、机构风险预测方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取机构样本集,所述机构样本集包括多个机构样本,每个所述机构样本包括多个机构指标及风险标签;将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型;确定每个所述目标预测模型对应的权重;根据多个所述目标预测模型及所述目标预测模型对应的权重,确定机构风险预测模型。通过该实施方式的机构风险预测模型确定的机构风险预测结果具有较高的准确性。

Description

机构风险预测模型的训练方法、机构风险预测方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种机构风险预测模型的训练方法、机构风险预测方法和装置。
背景技术
在机构日常经营过程中,由于受到诸如内部控制不完善、外部经济环境迅速变化等各种各样的影响,导致机构的生产经营可能遭受到巨大的冲击。而这不仅会使机构本身受损,还可能使得公司的股东连带受损,另外,诸如银行之类的信贷机构也可能因未及时识别机构的财务风险而遭受到坏账损失。
因此,对机构的风险进行预测是非常必要的,比如识别机构是否存在欺诈风险、洗钱风险以及违约风险等。传统的机构风险评估通常由人工对各种指标打分计算得到,机构风险预测结果缺乏一定的准确性。
发明内容
有鉴于此,本发明实施例提供一种机构风险预测模型的训练方法、机构风险预测方法和装置,能够较准确地预测出机构可能存在的风险。
第一方面,本发明实施例提供了一种机构风险预测模型的训练方法,包括:
获取机构样本集,所述机构样本集包括多个机构样本,每个所述机构样本包括多个机构指标及风险标签;
将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型;
确定每个所述目标预测模型对应的权重;
根据多个所述目标预测模型及所述目标预测模型对应的权重,确定机构风险预测模型。
可选地,所述确定每个所述目标预测模型对应的权重,包括:
确定每个所述目标预测模型的性能参数;
根据所述性能参数,确定每个所述目标预测模型对应的权重。
可选地,所述性能参数包括以下至少之一:接收者操作特征曲线、混淆矩阵、模型得分、模型准确率或模型精确率。
可选地,所述根据所述性能参数,确定每个所述目标预测模型对应的权重,包括:
若当前性能参数小于性能阈值,则当前目标预测模型对应的权重为0,所述当前目标预测模型对应于所述当前性能参数。
可选地,所述多个初始预测模型包括:第一预测模型,所述第一预测模型采用神经网络模型;
所述将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型,包括:
将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对第一初始预测模型进行训练,得到第一目标预测模型。
可选地,所述多个初始预测模型包括:第二预测模型,所述第二预测模型采用支持向量机模型;
所述将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型,包括:
将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对第二初始预测模型进行训练,得到第二目标预测模型。
可选地,所述多个初始预测模型包括:第三预测模型,所述第三预测模型采用随机森林模型;
所述将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型,包括:
将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对第三初始预测模型进行训练,得到第三目标预测模型。
可选地,所述获取机构样本集,包括:
获取多个机构的财务数据和非财务数据;
针对所述多个机构中的每个所述机构:根据所述机构的财务数据和非财务数据,确定所述机构的多个指标;确定所述机构的风险标签;根据所述机构的多个指标及所述机构的风险标签,构建所述机构样本。
可选地,在所述根据所述机构的财务数据和非财务数据,确定所述机构的多个指标之前,还包括:
对所述根据所述财务数据和所述非财务数据进行清洗处理,所述清洗处理包括以下至少之一:缺失值处理、异常值处理、数据转置及数据求和。
第二方面,本发明实施例提供了一种机构风险预测方法,包括:
获取目标机构的多个指标值;
将所述多个指标值输入至机构风险预测模型中,得到所述目标机构的风险预测结果,所述机构风险预测模型由多个目标预测模型及所述目标预测模型对应的权重生成。
可选地,所述目标预测模型对应的权重是根据所述目标预测模型的性能参数确定的。
第三方面,本发明实施例提供了一种机构风险预测模型的训练装置,包括:
样本获取模块,用于获取机构样本集,所述机构样本集包括多个机构样本,每个所述机构样本包括多个机构指标及风险标签;
模型训练模块,用于将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型;
权重确定模块,用于确定每个所述目标预测模型对应的权重;
模型确定模块,用于根据多个所述目标预测模型及所述目标预测模型对应的权重,确定机构风险预测模型。
第四方面,本发明实施例提供了一种机构风险预测装置,包括:
指标获取模块,用于获取目标机构的多个指标值;
风险预测模块,用于将所述多个指标值输入至机构风险预测模型中,得到所述目标机构的风险预测结果,所述机构风险预测模型由多个目标预测模型及所述目标预测模型对应的权重生成。
第五方面,本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
第六方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:根据多个目标预测模型及目标预测模型对应的权重,确定机构风险预测模型。确定出的机构风险预测模型是以具有较多样本的机构样本集训练得到的。相比由人工对指标打分对机构进行风险预测的传统方式,由机构风险预测模型得到的机构风险预测结果的准确性更高。
此外,单一模型往往对参数和函数的选择比较敏感,从而对大规模训练样本难以实施。本发明实施例的机构风险预测模型是由多个目标预测模型组合得到的,对大规模训练样本也能够较好地实施。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例可以应用于其中的示例性***架构图;
图2是本发明的一个实施例提供的一种机构风险预测模型的训练方法的流程的示意图;
图3是本发明的一个实施例提供的另一种机构风险预测模型的训练方法的流程的示意图;
图4是本发明的一个实施例提供的一种机构风险预测方法的流程的示意图;
图5是本发明的一个实施例提供的一种机构风险预测模型的训练装置的结构示意图;
图6是本发明的一个实施例提供的一种机构风险预测装置的结构示意图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明;其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本发明实施例的机构风险预测模型的训练方法、机构风险预测方法、机构风险预测模型的训练装置及机构风险预测装置的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103中存储有通过各种渠道采集的多个机构的财务数据和非财务数据。终端设备101、102、103可以是手机、笔记本、服务器、平板电脑、膝上型便携计算机等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103通过网络104将存储的视频发送给服务器105。
服务器105接收终端设备101、102、103发送的多个机构的财务数据和非财务数据;基于多个机构的财务数据和非财务数据,生成机构样本集;将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型;确定每个所述目标预测模型对应的权重;根据多个所述目标预测模型及所述目标预测模型对应的权重,确定机构风险预测模型。确定出的机构风险预测模型用于根据机构的多个指标,确定机构的风险预测结果。
需要说明的是,本发明实施例所提供的机构风险预测模型的训练方法或机构风险预测方法一般由服务器105执行,相应地,机构风险预测模型的训练装置或机构风险预测装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是本发明的一个实施例提供的一种机构风险预测模型的训练方法的流程的示意图。本发明实施例提供了一种机构风险预测模型的训练方法,如图2所示,包括:
步骤201:获取机构样本集,机构样本集包括多个机构样本,每个机构样本包括多个机构指标及风险标签。
机构指标可以为机构在各种统计维度下机构经营情况的统计值。统计维度可包括:风险警示维度、盈利能力维度、流动性风险维度、经营等。机构指标可包括:在某段统计周期内的统计净利润、期末所有者权益合计、营业收入、经营现金流入额、商誉、审计意见、***处罚信息等。其中,商誉、审计意见、***处罚信息等通过具体的分值来表示。
风险标签可以是机构存在风险或者不存在风险,也可以是机构的风险等级,比如高风险、中风险、中低风险、低风险、无风险等,各等级对应一个风险系数范围。风险标签还可以通过具体的分值来表示,不同的分值指示了目标机构可能存在的不同风险。
在本发明的一个实施例中,获取机构样本集,包括:
获取多个机构的财务数据和非财务数据;
针对多个机构中的每个机构:根据机构的财务数据和非财务数据,确定机构的多个指标;确定机构的风险标签;根据机构的多个指标及机构的风险标签,构建机构样本。
可在***中预设每个指标的计算方式,并根据各机构在某段统计周期内的财务数据和非财务数据,确定出机构在该段统计周期内的各个指标。
可获取各机构在与上述指标相同的统计周期内的实际经营状况,如机构在统计周期内经营状况良好、出现破产、违约、欺诈或洗钱等正负面情况,确定出各机构在统计周期内的风险标签。
在本发明的一个实施例中,在根据机构的财务数据和非财务数据,确定机构的多个指标之前,还包括:
对财务数据和非财务数据进行清洗处理,清洗处理包括以下至少之一:缺失值处理、异常值处理、数据转置及数据求和。
财务数据和非财务数据在加工和提取的过程中,可能会出现缺少值或异常值等情况。对财务数据和非财务数据进行清洗处理,可方便后续指标确定步骤的顺利执行,并使得到的指标数据具有较高的准确性。
步骤202:将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型。
不同初始模型采用的训练方法不同。不同初始模型采用的训练方法为:任一种机器学***均算法、随机森林算法、朴素贝叶斯算法、反向传播、随机梯度下降等。
各目标预测模型的输出结果可以是0或1,0代表机构存在风险,1代表机构不存在风险。各目标预测模型的输出结果也可以是机构的风险等级,比如高风险、中风险、中低风险、低风险、无风险等。输出结果还可以是具体的分值来表示,不同的分值指示了机构可能存在的不同风险的概率。
需要说明的是,各目标预测模型的输出结果的表现形式,及输出结果对应的含义都相同,便于下列步骤204中,将各目标预测模型组合成机构风险预测模型步骤的执行。
步骤203:确定每个目标预测模型对应的权重。
可在***中预设每个目标预测模型对应的权重,也可根据每个目标预测模型的性能参数,如模型准确率等,确定每个目标模型对应的权重。可选地,所有目标预测模型对应的权重的总和为1。
步骤204:根据多个目标预测模型及目标预测模型对应的权重,确定机构风险预测模型。
机构风险预测模型是根据多个目标预测模型及目标预测模型对应的权重组合而得到的。机构风险预测模型得出的结果可以为各个目标预测模型得出的结果的加权和。
举例来说,***中共有三个目标预测模型,三个目标预测模型的权重分别为0.7、0.2和0.1。针对某一目标机构,三个目标预测模型的输出结果分别为:0、0、1。其中,0代表机构存在风险,1代表机构不存在风险。则该目标机构存在风险的概率为0.7+0.2=0.9,该目标机构不存在风险的概率为0.1。
又如,***中共有两个目标预测模型,两个目标预测模型的权重分别为0.6和0.4。针对某一目标机构,三个目标预测模型的输出的欺诈风险的分值分别为:80和50。则该目标机构的欺诈风险的分值为80*0.6+50*0.4=68。
在本发明实施例中,根据多个目标预测模型及目标预测模型对应的权重,确定机构风险预测模型。确定出的机构风险预测模型是以具有较多样本的机构样本集训练得到的,由人工对指标打分对机构进行风险预测的传统方式,可使得到的机构风险预测结果的准确性更高。
此外,单一模型往往对参数和函数的选择比较敏感,从而对大规模训练样本难以实施。本发明实施例的机构风险预测模型是由多个目标预测模型组合得到的,对大规模训练样本也能够较好地实施。
本发明实施例采用神经网络模型、支持向量机模型和随机森林模型相结合的机器学习算法,通过分析大量数据来进行验证和改善模型。本发明实施例重在寻找数据中的模式,并使用这些模式来做出预测的研究和算法。
在本发明的一个实施例中,多个初始预测模型包括:第一预测模型,第一预测模型采用神经网络模型;
将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型,包括:
将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对第一初始预测模型进行训练,得到第一目标预测模型。
神经网络最基本的结构是常说的神经元,神经元具结合自身的映射函数,在阈值和权重的辅助下完成线性或非线性转换并进行记忆(记住所学习到的东西,并通过权重的改变来记忆,而阈值是恒定不变的)。BP神经网络最基本的机构明确的来讲应该是感知机。一个感知机其实就是一个最简单的BP神经网络。它由两层神经元组成,输入层接受外界输入信号后传递给输出层,输出层是M-P神经元(具有阈值函数的神经元)。在进行BP网络训练之前需要先对网络参数进行设定,主要包括网络结构参数和训练参数的设定。网络结构参数主要包括网络层数和各层节点数的设置。神经网络的层数过多会导致过拟合现象的发生,三层的BP神经网络是应用最为普遍的,可解决现实中大部分非线性的数据处理问题。本方法论也选用包含输入层、单层隐含层和输出层三层结构的BP神经网络作为预测模型。输入层的节点数由样本指标的个数决定。输出层的节点数确定为2个,输出向量为(1,0)代表分类为0类即信用异常的公司,(0,1)代表分类为1类即信用正常的公司。
在本发明的一个实施例中,多个初始预测模型包括:第二预测模型,第二预测模型采用支持向量机模型;
将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型,包括:
将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对第二初始预测模型进行训练,得到第二目标预测模型。
支持向量机有小样本上高分类准确率的特点。在寻找到最优分离超平面后,基于超平面(hyperplane),支持向量机可以对数据群进行分类。支持向量机擅长在变量X与其它变量之间进行二元分类操作,无论其关系是否是线性的。本方法论是将支持向量机方法应用到信用风险预警上来,希望在统计样本较少的情况下,SVM模型亦能获得良好的分类效果,能更好地在众多地方金融机构中迅速判断出信用风险处于危机状态的公司,起到地方金融机构信用风险预警的作用。
在本发明的一个实施例中,多个初始预测模型包括:第三预测模型,第三预测模型采用随机森林模型;
将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型,包括:
将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对第三初始预测模型进行训练,得到第三目标预测模型。
随机森林其实是运用自助法重采样技术,从原始训练样本集N中随机有放回地抽取k个样本,不断重复多次,生成不一样的训练样本集合,然后根据所生成的样本集合产生对应的k个分类树组成随机森林。
随机森林的优点有很多,其中最出众的要属——算法中每棵树都尽最大程度的生长(并且不减枝),这保证了该学习器能更深入更细致的进行学习。同时它还在算法中加入了两个随机性——随机选择样本和特征,这保证了模型在深度学习时更难陷入过度拟合。
机构风险预测模型的输出结果能够根据风险将受评机构划分为好机构和坏机构,如果机构的风险出现实际频率与模型估算的概率相吻合,则机构风险预测模型预测能力较好,即监管模型能够甄别机构的好坏。
还可以对机构风险预测模型的预测能力进行验证,具体做法为,利用机构风险预测模型判断出坏机构,即预计会出现破产、违约等负面情况的机构,在一定时间范围内与实际出现破产、违约等负面情况的机构做对比,验证机构风险预测模型的有效性。
本发明实施例通过对机器学习算法相关技术的研究,建立神经网络模型、支持向量机模型和随机森林模型,通过学习地方金融机构中的财务数据和非财务数据与地方金融机构信用风险之间的关系,寻找出数据中的结构、模式和规律,进而在己知某个地方金融机构的财务数据和非财务数据的情况下使用这些学习到的结构、模式和规律来对地方金融机构的信用风险做出警示或正常的预测,判断出该地方金融机构目前是信用异常还是信用正常,更好地防范信用风险。
通过本发明实施例的方法,可以辅助建立地方金融机构风险模型,并提高模型有效性验证,提高各地地方金融监管局快速高效的判断出该地方金融机构目前是信用异常还是信用正常,更好地防范信用风险,提高地方经济运行水平。
图3是本发明的一个实施例提供的另一种机构风险预测模型的训练方法的流程的示意图。本发明实施例提供了一种机构风险预测模型的训练方法,如图3所示,包括:
步骤301:获取机构样本集,机构样本集包括多个机构样本,每个机构样本包括多个机构指标及风险标签。
步骤302:将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型。
步骤303:确定每个目标预测模型的性能参数。
性能参数用于指示模型的准确性。性能参数包括以下至少之一:接收者操作特征曲线、混淆矩阵、模型得分、模型准确率或模型精确率。
在本发明的一个实施例中,生成测试样本集,测试样本集包括多个机构样本,每个机构样本包括多个机构指标及风险标签。将测试样本集中的样本数据输入分别输入至该多个目标预测模型中,由该多个目标预测模型分别对输入的样本数据进行处理,得到多个预测结果,根据每个预测结果与样本风险标签的差异,得到每个目标预测模型的性能参数。
步骤304:根据性能参数,确定每个目标预测模型对应的权重。
预测结果与样本风险标签的差异越小,目标预测模型的性能参数越高,模型的性能参数越高表示该目标预测模型越准确,该目标预测模型对应的权重越大。
可选地,各目标预测模型对应的权重的比值与目标预测模型的性能参数的比值相同。比如,目标预测模型的性能参数分别为60%、30%及10%,则目标预测模型的权重可以分别为0.6、0.3、0.1。
在本发明的一个实施例中,根据性能参数,确定每个目标预测模型对应的权重,包括:
若当前性能参数小于性能阈值,则当前目标预测模型对应的权重为0,当前目标预测模型对应于当前性能参数。
性能阈值可根据具体需要进行设定。如果当前目标预测模型的当前性能参数小于性能阈值,则说明当前目标预测模型无法提供准确有效的机构风险预测结果,从而将当前目标预测模型对应的权重为0。
步骤305:根据多个目标预测模型及目标预测模型对应的权重,确定机构风险预测模型。
在本发明实施例中,根据每个目标预测模型的性能参数,确定每个目标预测模型对应的权重,可以使具有较高性能参数的目标预测模型的权重较小,具有较低性能参数的目标预测模型的权重较小,从而使机构风险预测模型具有较好的机构风险识别效果。
图4是本发明的一个实施例提供的一种机构风险预测方法的流程的示意图。本发明实施例提供了一种机构风险预测方法,如图4所示,包括:
步骤401:获取目标机构的多个指标值。
机构的指标值可以为机构在各种统计维度下机构经营情况统计值。统计维度可包括:风险警示维度、盈利能力维度、流动性风险维度、经营等。机构指标可包括:在某段统计周期内的统计净利润、期末所有者权益合计、营业收入、经营现金流入额、商誉、审计意见、***处罚信息等。其中,商誉、审计意见、***处罚信息等通过具体的分值来表示。
步骤402:将多个指标值输入至机构风险预测模型中,得到目标机构的风险预测结果,机构风险预测模型由多个目标预测模型及目标预测模型对应的权重生成。
不同目标预测模型是通过不同的训练方法训练得到的。训练方法为任一种机器学***均算法、随机森林算法、朴素贝叶斯算法、反向传播、随机梯度下降等。
机构风险预测模型的输出结果可以是0或1,0代表机构存在风险,1代表机构不存在风险。各目标预测模型的输出结果也可以是机构的风险等级,比如高风险、中风险、中低风险、低风险、无风险等。输出结果还可以是具体的分值来表示,不同的分值指示了机构可能存在的不同风险的概率。
机构风险预测模型是根据多个目标预测模型及目标预测模型对应的权重组合而得到的。机构风险预测模型得出的结果可以为各个目标预测模型得出的结果的加权和。
举例来说,***中共有三个目标预测模型,三个目标预测模型的权重分别为0.7、0.2和0.1。针对某一目标机构,三个目标预测模型的输出结果分别为:0、0、1。其中,0代表机构存在风险,1代表机构不存在风险。则该目标机构存在风险的概率为0.7+0.2=0.9,该目标机构不存在风险的概率为0.1。
又如,***中共有两个目标预测模型,两个目标预测模型的权重分别为0.6和0.4。针对某一目标机构,三个目标预测模型的输出的欺诈风险的分值分别为:80和50。则该目标机构的欺诈风险的分值为80*0.6+50*0.4=68。
在本发明实施例中,根据多个目标预测模型及目标预测模型对应的权重,确定机构风险预测模型。确定出的机构风险预测模型是以具有较多样本的机构样本集训练得到的,由人工对指标打分对机构进行风险预测的传统方式,可使得到的机构风险预测结果的准确性更高。
此外,单一模型往往对参数和函数的选择比较敏感,从而对大规模训练样本难以实施。本发明实施例的机构风险预测模型是由多个目标预测模型组合得到的,对大规模训练样本也能够较好地实施。
可选地,目标预测模型对应的权重是根据目标预测模型的性能参数确定的。
性能参数用于指示模型的准确性。性能参数包括以下至少之一:接收者操作特征曲线、混淆矩阵、模型得分、模型准确率或模型精确率。
在本发明实施例中,根据每个目标预测模型的性能参数,确定每个目标预测模型对应的权重,可以使具有较高性能参数的目标预测模型的权重较小,具有较低性能参数的目标预测模型的权重较小,从而使机构风险预测模型具有较好的机构风险识别效果。
图5是本发明的一个实施例提供的一种机构风险预测模型的训练装置的结构示意图,包括:
样本获取模块501,用于获取机构样本集,机构样本集包括多个机构样本,每个机构样本包括多个机构指标及风险标签;
模型训练模块502,用于将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型;
权重确定模块503,用于确定每个目标预测模型对应的权重;
模型确定模块504,用于根据多个目标预测模型及目标预测模型对应的权重,确定机构风险预测模型。
可选地,权重确定模块503具体用于:确定每个目标预测模型的性能参数;
根据性能参数,确定每个目标预测模型对应的权重。
可选地,性能参数包括以下至少之一:接收者操作特征曲线、混淆矩阵、模型得分、模型准确率或模型精确率。
可选地,权重确定模块503具体用于:若当前性能参数小于性能阈值,则当前目标预测模型对应的权重为0,当前目标预测模型对应于当前性能参数。
可选地,多个初始预测模型包括:第一预测模型,第一预测模型采用神经网络模型;
模型训练模块502具体用于:将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对第一初始预测模型进行训练,得到第一目标预测模型。
可选地,多个初始预测模型包括:第二预测模型,第二预测模型采用支持向量机模型;
模型训练模块502具体用于:将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对第二初始预测模型进行训练,得到第二目标预测模型。
可选地,多个初始预测模型包括:第三预测模型,第三预测模型采用随机森林模型;
模型训练模块502具体用于:将机构样本中的多个机构指标作为输入,机构样本中的风险标签作为输出,对第三初始预测模型进行训练,得到第三目标预测模型。
可选地,样本获取模块501具体用于:获取多个机构的财务数据和非财务数据;
针对多个机构中的每个机构:根据机构的财务数据和非财务数据,确定机构的多个指标;确定机构的风险标签;根据机构的多个指标及机构的风险标签,构建机构样本。
图6是本发明的一个实施例提供的一种机构风险预测装置的结构示意图,包括:
指标获取模块601,用于获取目标机构的多个指标值;
风险预测模块602,用于将多个指标值输入至机构风险预测模型中,得到目标机构的风险预测结果,机构风险预测模型由多个目标预测模型及目标预测模型对应的权重生成。
可选地,目标预测模型对应的权重是根据目标预测模型的性能参数确定的。
本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述任一实施例的方法。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机***700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机***700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括样本获取模块、模型训练模块、权重确定模块及模型确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,样本获取模块还可以被描述为“获取机构样本集,所述机构样本集包括多个机构样本,每个所述机构样本包括多个机构指标及风险标签的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
获取机构样本集,所述机构样本集包括多个机构样本,每个所述机构样本包括多个机构指标及风险标签;
将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型;
确定每个所述目标预测模型对应的权重;
根据多个所述目标预测模型及所述目标预测模型对应的权重,确定机构风险预测模型。
根据本发明实施例的技术方案,利用多个目标预测模型及目标预测模型对应的权重,确定机构风险预测模型。确定出的机构风险预测模型是以具有较多样本的机构样本集训练得到的。相比由人工对指标打分对机构进行风险预测的传统方式,由机构风险预测模型确定的机构风险预测结果的准确性更高。
此外,单一模型往往对参数和函数的选择比较敏感,从而对大规模训练样本难以实施。本发明实施例的机构风险预测模型是由多个目标预测模型组合得到的,对大规模训练样本也能够较好地实施。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (15)

1.一种机构风险预测模型的训练方法,其特征在于,包括:
获取机构样本集,所述机构样本集包括多个机构样本,每个所述机构样本包括多个机构指标及风险标签;
将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型;
确定每个所述目标预测模型对应的权重;
根据多个所述目标预测模型及所述目标预测模型对应的权重,确定机构风险预测模型。
2.根据权利要求1所述的方法,其特征在于,所述确定每个所述目标预测模型对应的权重,包括:
确定每个所述目标预测模型的性能参数;
根据所述性能参数,确定每个所述目标预测模型对应的权重。
3.根据权利要求2所述的方法,其特征在于,所述性能参数包括以下至少之一:接收者操作特征曲线、混淆矩阵、模型得分、模型准确率或模型精确率。
4.根据权利要求2所述的方法,其特征在于,所述根据所述性能参数,确定每个所述目标预测模型对应的权重,包括:
若当前性能参数小于性能阈值,则当前目标预测模型对应的权重为0,所述当前目标预测模型对应于所述当前性能参数。
5.根据权利要求1所述的方法,其特征在于,所述多个初始预测模型包括:第一预测模型,所述第一预测模型采用神经网络模型;
所述将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型,包括:
将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对第一初始预测模型进行训练,得到第一目标预测模型。
6.根据权利要求1所述的方法,其特征在于,所述多个初始预测模型包括:第二预测模型,所述第二预测模型采用支持向量机模型;
所述将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型,包括:
将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对第二初始预测模型进行训练,得到第二目标预测模型。
7.根据权利要求1所述的方法,其特征在于,所述多个初始预测模型包括:第三预测模型,所述第三预测模型采用随机森林模型;
所述将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型,包括:
将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对第三初始预测模型进行训练,得到第三目标预测模型。
8.根据权利要求1所述的方法,其特征在于,所述获取机构样本集,包括:
获取多个机构的财务数据和非财务数据;
针对所述多个机构中的每个所述机构:根据所述机构的财务数据和非财务数据,确定所述机构的多个指标;确定所述机构的风险标签;根据所述机构的多个指标及所述机构的风险标签,构建所述机构样本。
9.根据权利要求8所述的方法,其特征在于,在所述根据所述机构的财务数据和非财务数据,确定所述机构的多个指标之前,还包括:
对所述根据所述财务数据和所述非财务数据进行清洗处理,所述清洗处理包括以下至少之一:缺失值处理、异常值处理、数据转置及数据求和。
10.一种机构风险预测方法,其特征在于,包括:
获取目标机构的多个指标值;
将所述多个指标值输入至机构风险预测模型中,得到所述目标机构的风险预测结果,所述机构风险预测模型由多个目标预测模型及所述目标预测模型对应的权重生成。
11.根据权利要求10所述的方法,其特征在于,所述目标预测模型对应的权重是根据所述目标预测模型的性能参数确定的。
12.一种机构风险预测模型的训练装置,其特征在于,包括:
样本获取模块,用于获取机构样本集,所述机构样本集包括多个机构样本,每个所述机构样本包括多个机构指标及风险标签;
模型训练模块,用于将所述机构样本中的多个机构指标作为输入,所述机构样本中的风险标签作为输出,对多个初始预测模型进行训练,得到多个目标预测模型;
权重确定模块,用于确定每个所述目标预测模型对应的权重;
模型确定模块,用于根据多个所述目标预测模型及所述目标预测模型对应的权重,确定机构风险预测模型。
13.一种机构风险预测装置,其特征在于,包括:
指标获取模块,用于获取目标机构的多个指标值;
风险预测模块,用于将所述多个指标值输入至机构风险预测模型中,得到所述目标机构的风险预测结果,所述机构风险预测模型由多个目标预测模型及所述目标预测模型对应的权重生成。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。
CN202011475410.3A 2020-12-14 2020-12-14 机构风险预测模型的训练方法、机构风险预测方法和装置 Pending CN112561320A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011475410.3A CN112561320A (zh) 2020-12-14 2020-12-14 机构风险预测模型的训练方法、机构风险预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011475410.3A CN112561320A (zh) 2020-12-14 2020-12-14 机构风险预测模型的训练方法、机构风险预测方法和装置

Publications (1)

Publication Number Publication Date
CN112561320A true CN112561320A (zh) 2021-03-26

Family

ID=75063770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011475410.3A Pending CN112561320A (zh) 2020-12-14 2020-12-14 机构风险预测模型的训练方法、机构风险预测方法和装置

Country Status (1)

Country Link
CN (1) CN112561320A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379530A (zh) * 2021-06-09 2021-09-10 中国工商银行股份有限公司 用户风险的确定方法、装置和服务器
CN113823411A (zh) * 2021-09-26 2021-12-21 萱闱(北京)生物科技有限公司 风险预测模型的训练方法、装置、介质和计算设备
CN114091902A (zh) * 2021-11-22 2022-02-25 支付宝(杭州)信息技术有限公司 风险预测模型的训练方法及装置、风险预测方法及装置
CN114154891A (zh) * 2021-12-08 2022-03-08 中国建设银行股份有限公司 风险控制模型的重训练方法及装置
CN114629797A (zh) * 2022-03-11 2022-06-14 阿里巴巴(中国)有限公司 带宽预测方法、模型生成方法及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408423A (zh) * 2016-11-25 2017-02-15 泰康保险集团股份有限公司 用于风险评估的方法、***及构建风险评估***的方法
CN109359818A (zh) * 2018-09-20 2019-02-19 重庆誉存大数据科技有限公司 一种对企业进行风险量化评估的方法及六棱星模型
CN109523117A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 风险预测方法、装置、计算机设备和存储介质
CN109993412A (zh) * 2019-03-01 2019-07-09 百融金融信息服务股份有限公司 风险评估模型的构建方法及装置、存储介质、计算机设备
CN110378545A (zh) * 2018-04-13 2019-10-25 北京三快在线科技有限公司 商户信用评估方法及装置、存储介质、电子设备
CN110599335A (zh) * 2019-09-27 2019-12-20 北京淇瑀信息科技有限公司 一种基于多模型的用户金融风险评估方法和装置
CN110866696A (zh) * 2019-11-15 2020-03-06 成都数联铭品科技有限公司 商铺掉铺风险评估模型训练方法及装置
CN110956273A (zh) * 2019-11-07 2020-04-03 中信银行股份有限公司 融合多种机器学习模型的征信评分方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408423A (zh) * 2016-11-25 2017-02-15 泰康保险集团股份有限公司 用于风险评估的方法、***及构建风险评估***的方法
CN110378545A (zh) * 2018-04-13 2019-10-25 北京三快在线科技有限公司 商户信用评估方法及装置、存储介质、电子设备
CN109359818A (zh) * 2018-09-20 2019-02-19 重庆誉存大数据科技有限公司 一种对企业进行风险量化评估的方法及六棱星模型
CN109523117A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 风险预测方法、装置、计算机设备和存储介质
CN109993412A (zh) * 2019-03-01 2019-07-09 百融金融信息服务股份有限公司 风险评估模型的构建方法及装置、存储介质、计算机设备
CN110599335A (zh) * 2019-09-27 2019-12-20 北京淇瑀信息科技有限公司 一种基于多模型的用户金融风险评估方法和装置
CN110956273A (zh) * 2019-11-07 2020-04-03 中信银行股份有限公司 融合多种机器学习模型的征信评分方法及***
CN110866696A (zh) * 2019-11-15 2020-03-06 成都数联铭品科技有限公司 商铺掉铺风险评估模型训练方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379530A (zh) * 2021-06-09 2021-09-10 中国工商银行股份有限公司 用户风险的确定方法、装置和服务器
CN113823411A (zh) * 2021-09-26 2021-12-21 萱闱(北京)生物科技有限公司 风险预测模型的训练方法、装置、介质和计算设备
CN114091902A (zh) * 2021-11-22 2022-02-25 支付宝(杭州)信息技术有限公司 风险预测模型的训练方法及装置、风险预测方法及装置
CN114154891A (zh) * 2021-12-08 2022-03-08 中国建设银行股份有限公司 风险控制模型的重训练方法及装置
CN114629797A (zh) * 2022-03-11 2022-06-14 阿里巴巴(中国)有限公司 带宽预测方法、模型生成方法及设备
CN114629797B (zh) * 2022-03-11 2024-03-08 阿里巴巴(中国)有限公司 带宽预测方法、模型生成方法及设备

Similar Documents

Publication Publication Date Title
US20210049700A1 (en) System and method for machine learning architecture for enterprise capitalization
CN112561320A (zh) 机构风险预测模型的训练方法、机构风险预测方法和装置
CN110378786B (zh) 模型训练方法、违约传导风险识别方法、装置及存储介质
Keramati et al. A proposed classification of data mining techniques in credit scoring
Shah et al. A comprehensive review on multiple hybrid deep learning approaches for stock prediction
Cao et al. A two‐stage Bayesian network model for corporate bankruptcy prediction
US20090043715A1 (en) Method to Continuously Diagnose and Model Changes of Real-Valued Streaming Variables
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
CN113095927B (zh) 一种反洗钱可疑交易识别方法及设备
CN113627566A (zh) 一种网络诈骗的预警方法、装置和计算机设备
Kompella et al. Stock market prediction using machine learning methods
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
Agarwal et al. Sentiment analysis in stock price prediction: a comparative study of algorithms
CN115760332A (zh) 基于企业数据分析的风险预测方法、***、介质及设备
Wimmer et al. Leveraging vision-language models for granular market change prediction
CN110704803A (zh) 目标对象的评估值计算方法及装置、存储介质、电子设备
Boz et al. Reassessment and monitoring of loan applications with machine learning
CN116911994B (zh) 对外贸易风险预警***
CN117252688A (zh) 一种金融风险评估方法、***、终端设备及存储介质
CN109741172B (zh) 信贷预警方法、装置、***及存储介质
Hajek et al. Interval-valued fuzzy cognitive maps with genetic learning for predicting corporate financial distress
Yang et al. An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity
CN114612239A (zh) 基于算法、大数据、人工智能的股票舆情监测和风控***
Wang Abnormal behavior identification of enterprise cloud platform financial system based on artificial neural network
Lee et al. Application of machine learning in credit risk scorecard

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination