CN115829722A - 信用风险评分模型的训练方法及信用风险评分方法 - Google Patents

信用风险评分模型的训练方法及信用风险评分方法 Download PDF

Info

Publication number
CN115829722A
CN115829722A CN202211521953.3A CN202211521953A CN115829722A CN 115829722 A CN115829722 A CN 115829722A CN 202211521953 A CN202211521953 A CN 202211521953A CN 115829722 A CN115829722 A CN 115829722A
Authority
CN
China
Prior art keywords
data
training
model
neural network
financial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211521953.3A
Other languages
English (en)
Inventor
张欢
李卓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211521953.3A priority Critical patent/CN115829722A/zh
Publication of CN115829722A publication Critical patent/CN115829722A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种信用风险评分模型的训练方法及信用风险评分方法。该方法包括:获取多个企业的多个财务指标的数据和多个非财务指标的数据,以及根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵;获取初始评分模型,初始评分模型包括差分自回归移动平均ARIMA模型和反向传播BP神经网络;以多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型,目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值。本申请的方法可以解决如何基于真实的企业经营数据对企业的信用风险进行客观评价,提升信用风险评价的准确度的问题。

Description

信用风险评分模型的训练方法及信用风险评分方法
技术领域
本申请涉及互联网金融技术,尤其涉及一种信用风险评分模型的训练方法及信用风险评分方法。
背景技术
信用风险又称财务违约风险,是指贷款方、债务人或交易参与人因各种原因无法履行合同条款而构成违约的概率。银行在对接企业时,为了避免出现违约,一般会对企业的信用风险进行评价。
截止2020年,全国注册的中小企业占我国注册工商企业整体数量比例达到97%,提供了65%的国内生产总值。但是银行在对中小企业的信用风险进行评价时,常依赖专业审查人员的审查经验进行评价,而专业审查人员对于中小企业的刻板印象(如企业经营状况多、经营时间短)会导致无法对中心企业做出客观的信用风险评价。
如何基于真实的企业经营数据对企业的信用风险进行客观评价,提升信用风险评价的准确度,仍然是需要解决的。
发明内容
本申请提供一种信用风险评分模型的训练方法及信用风险评分方法,用以解决如何基于真实的企业经营数据对企业的信用风险进行客观评价,提升信用风险评价的准确度的问题。
一方面,本申请提供一种如何基于真实得企业经营数据对企业的信用风险进行客观评价,提升信用风险评价的准确度,包括:
获取多个企业的多个财务指标的数据和多个非财务指标的数据,每个财务指标的数据和每个非财务指标的数据均携带时间信息,以及根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵;
获取初始评分模型,所述初始评分模型包括差分自回归移动平均ARIMA模型和反向传播BP神经网络,所述ARIMA模型用于输出每个输入至ARIMA模型的数据在时间上的预测数据,所述BP神经网络用于输出每个输入至BP神经网络的数据的权重,所述输入至BP神经网络的数据包括预测数据;
以所述多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型,所述目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值。
其中一个实施例中,所述以所述多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,得到目标风险评分模型包括:
以所述多维时间序列数据中的前F列数据为ARIMA模型的输入数据,以所述多维时间序列数据中的后P列数据为ARIMA模型输出数据的参考数据,对ARIMA模型进行训练,直到达到ARIMA模型的训练终止条件时得到目标ARIMA模型,其中,ARIMA模型的训练终止条件包括以下中的一种或多种:ARIMA模型的输出数据与所述ARIMA模型输出数据的参考数据之间的差值在第一预设范围、训练时长达到预设时长、训练次数达到预设次数;
获取所述多维时间序列数据中具有相同时刻的每个数据为BP神经网络的第一输入数据,以及获取所述第一输入数据的已知权重为BP神经网络输出数据的参考数据,以所述ARIMA模型的输出数据为BP神经网络的第二输入数据,对BP神经网络进行训练,直到达到BP神经网络的训练终止条件时得到目标BP神经网络,其中,BP神经网络的训练终止条件包括以下中的一种或多种:BP神经网络的输出数据与所述BP神经网络输出数据的参考数据之间的差值在第二预设范围、训练时长达到预设时长、训练次数达到预设次数;
基于目标ARIMA模型和目标BP神经网络得到目标风险评分模型,目标风险评分模型用于根据待评价数据、待评价数据的预测数据、待评价数据的权重、待评价数据的预测数据的权重,生成待评价数据的风险值。
其中一个实施例中,所述根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵包括:
对多个非财务指标的数据进行聚类处理,得到一个维度的时间序列数据;
分别以每个财务指标的数据为一个维度的时间序列数据,得到多个维度的时间序列数据;
基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间序列数据,生成多维时间序列数据矩阵。
其中一个实施例中,所述基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间序列数据,生成多维时间序列数据矩阵包括:
基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间序列数据,生成初始多维时间序列数据矩阵;
基于具有预设采集步长的滑动窗口算法对初始多维时间序列数据矩阵进行处理,得到多个数据集;
基于所述多个数据集生成所述多维时间序列数据矩阵。
其中一个实施例中,所述对多个非财务指标的数据进行聚类处理,得到一个维度的时间序列数据包括:
获取预设分类标准,所述预设分类标准包括M个类,M为大于1的自然数;
以随机选取的M个非财务指标的数据分别为M个类的第一中心点数据;
根据每个非财务指标的数据分别与M个类的第一中心点数据之间的距离,确定多个非财务指标的数据的类均为第一类时,根据所述多个非财务指标的数据确定第一类的第二中心点数据;
重复执行步骤所述以随机选取的M个非财务指标的数据分别为M个类的第一中心点数据,直到每次确定的第一类的第二中心点数据为固定值时,确定第二中心点数据为一个维度的时间序列数据。
另一方面,本申请提供一种信用风险评分方法,包括:
获取待评价数据,所述待评价数据包括多个财务指标的数据和/或多个非财务指标的数据;
将所述待评价数据输入至如第一方面所述的信用风险评分模型的训练方法训练得到的目标风险评分模型,得到待评价数据的风险值。
另一方面,本申请提供一种信用风险评分模型的训练装置,包括:
获取模块,用于获取多个企业的多个财务指标的数据和多个非财务指标的数据,每个财务指标的数据和每个非财务指标的数据均携带时间信息,以及根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵;
所述获取模块还用于获取初始评分模型,所述初始评分模型包括差分自回归移动平均ARIMA模型和反向传播BP神经网络,所述ARIMA模型用于输出每个输入至ARIMA模型的数据在时间上的预测数据,所述BP神经网络用于输出每个输入至BP神经网络的数据的权重,所述输入至BP神经网络的数据包括预测数据;
训练模块,用于以所述多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型,所述目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值。
另一方面,本申请提供一种信用风险评分装置,包括:
获取模块,用于获取待评价数据,所述待评价数据包括多个财务指标的数据和/或多个非财务指标的数据;
评价模块,用于将所述待评价数据输入至如第一方面所述的信用风险评分模型的训练方法训练得到的目标风险评分模型,得到待评价数据的风险值。
另一方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的信用风险评分模型的训练方法,或,实现如第二方面所述的信用风险评分方法。
另一方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述指令被执行时,使得计算机执行如第一方面所述的信用风险评分模型的训练方法,或,实现如第二方面所述的信用风险评分方法。
另一方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的信用风险评分模型的训练方法,或,实现如第二方面所述的信用风险评分方法。
本申请的实施例提供的信用风险评分模型的训练方法用于训练一种可以对企业的经营数据(包括财务数据和非财务数据)进行风险计算,得到风险值的风险评分模型。具体的,获取多个企业的多个财务指标的数据和多个非财务指标的数据,根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵。获取初始评分模型,所述初始评分模型包括ARIMA模型和反向传播BP神经网络,所述ARIMA模型用于输出每个输入至ARIMA模型的数据在时间上的预测数据,所述BP神经网络用于输出每个输入至BP神经网络的数据的权重和每个预测数据的权重。以所述多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型,所述目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值。
本申请的实施例提供的信用风险评分模型的训练方法中所使用的初始评分模型包括ARIMA模型和BP神经网络,其中,ARIMA模型为预测模型,用于进行数据预测,可以合理推测出企业未来的经营数据。BP神经网络则用于提供计算风险值时所需的权重,为风险值的计算提供一定的科学依据。如此,训练得到的目标风险评分模型在接收到待评价数据时,不仅可以合理推测出企业未来的经营数据,还可以基于科学的权重计算得到待评价数据的风险值。因此,本申请的实施例提供的信用风险评分模型的训练方法可以用于基于真实的企业经营数据对企业的信用风险进行客观评价,从而提升信用风险评价的准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请提供的信用风险评分模型的训练方法的一种应用场景示意图;
图2为本申请的一个实施例提供的信用风险评分模型的训练方法的流程示意图;
图3为本申请的一个实施例提供的测试目标信用风险评分模型的方法的示意图;
图4为本申请的一个实施例提供的信用风险评分方法的流程示意图;
图5为本申请的一个实施例提供的信用风险评分模型的训练装置的示意图;
图6为本申请的一个实施例提供的信用风险评分装置的示意图;
图7为本申请的一个实施例提供的电子设备的示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
首先对本申请涉及到的名词进行解释:
信用风险:信用风险又称财务违约风险,是指贷款方、债务人或交易参与人因各种原因无法履行合同条款而构成的违约概率,并使交易方以及投资者遭受损失的可能性。信用风险产生的根本原因在于信用市场上存在的严重的信息不对称,这种信息的不对称会导致信用风险中的逆向选择。
ARIMA模型:ARIMA模型全称为差分自回归移动平均模型,其基本思想是将预测对象随时间推移而形成的时间序列视为一个随机序列,用一定的数据模型近似的描述该序列,该模型确定后就可以通过时间序列的历史数据和实时数据预测未来数据,通常被应用于金融领域。
BP神经网络:BP神经网络又称为反向传播网络,通过样本数据的训练,不断修正网络权值和阈值使误差函数沿负梯度方向下降,逼近期望输出。BP神经网络是一种广泛的神经网络模型,多用于函数逼近、模型识别分类、数据压缩和时间序列预测等。
截止2020年,全国注册的中小企业占我国注册工商企业整体数量比例达到97%,提供了65%的国内生产总值。银行在对接企业时,为了避免出现违约,一般会对企业的信用风险进行评价。但是银行在对中小企业的信用风险进行评价时,常依赖专业审查人员的审查经验进行评价,而专业审查人员对于中小企业的刻板印象(如企业经营状况多、经营时间短)会导致无法对中心企业做出客观的信用风险评价。如何基于真实的企业经营数据对企业的信用风险进行客观评价,提升信用风险评价的准确度,仍然是需要解决的。
基于此,本申请提供一种信用风险评分模型的训练方法及信用风险评分方法。该信用风险评分模型的训练方法用于训练一种可以对企业的经营数据(包括财务数据和非财务数据)进行风险计算,得到风险值的风险评分模型。具体的,获取多个企业的多个财务指标的数据和多个非财务指标的数据,根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵。获取初始评分模型,该初始评分模型包括ARIMA模型和反向传播BP神经网络,该ARIMA模型用于输出每个输入至ARIMA模型的数据在时间上的预测数据,该BP神经网络用于输出每个输入至BP神经网络的数据的权重和每个预测数据的权重。以该多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型,该目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值。由此,通过使用该目标风险评分模型,实现通过企业的真实经营数据对企业做出客观的信用风险评价,提升信用风险评价的准确度。
本申请提供的信用风险评分模型的训练方法应用于电子设备,该电子设备例如计算机、后台服务器、云服务器等。图1为本申请提供的信用风险评分模型的训练方法的应用示意图,图中,该电子设备获取初始评分模型,该初始评分模型包括差分自回归移动平均ARIMA模型和反向传播BP神经网络。获取多个企业的多个财务指标的数据和多个非财务指标的数据,以及根据多个企业的多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵。以该多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型。
请参见图2,本申请的一个实施例提供一种信用风险评分模型的训练方
法,包括:
S210,获取多个企业的多个财务指标的数据和多个非财务指标的数据,5每个财务指标的数据和每个非财务指标的数据均携带时间信息,以及根据多
个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵。
通过相关研究对中小企业信用风险的成因、特征以及风险因素体系进行***的梳理,发现影响中小企业信用风险的要素中,不能单纯的依靠财务指标,还应全面的考虑非财务指标。
0多个财务指标例如包括资产负债、资本结构、收入利润和现金流四大基
本数据指标和偿还能力、盈利能力、营运能力、和成长能力四个重点评级指标。对应的,财务指标的数据为具体的数值。以上八种财务指标的数据可以通过企业年报等文件得到。
非财务指标主要包括企业的经营状况、管理能力、外部环境等企业重要5的经营条件,主要包括企业的基本情况(企业的征信记录、诉讼相关信息、企业透明度)、企业实际控制人的基本情况(个人征信记录、行业经验)等。非财务指标没有具体的数值,非财务指标的数据可以理解为所统计的非财务指标的信息。
每个财务指标的数据和每个非财务指标的数据均携带时间信息,所携带0的时间信息为数据的生成时刻。根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵时,是基于所携带的时间信息生成多维时间序列数据矩阵,其中,多维时间序列数据矩阵中一个维度的时间序列数据为一个财务指标的数据或多个财务指标的数据形成的一维时间序列数据。
具体的,根据多个财务指标的数据和多个非财务指标的数据生成多维时5间序列数据矩阵时,对多个非财务指标的数据进行聚类处理,得到一个维度的时间序列数据。分别以每个财务指标的数据为一个维度的时间序列数据,得到多个维度的时间序列数据。最后,基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间
序列数据,生成多维时间序列数据矩阵。如以上举例的8个财务指标和多个0非财务指标,则该多维时间序列数据矩阵包含9个维度的时间序列数据,9个维度的时间序列数据中有8个维度的时间序列数据对应8个财务指标,1个维度的时间序列数据对应多个非财务指标。
在一个可选的实施例中,对多个非财务指标的数据进行聚类处理,得到一个维度的时间序列数据时,先获取预设分类标准,该预设分类标准包括M个类,M为大于1的自然数。以随机选取的M个非财务指标的数据分别为M个类的第一中心点数据。此时该第一中心点数据是随机选取的初始中心点数据,需要重新确定更准确的中心点数据。于是,根据每个非财务指标的数据分别与M个类的第一中心点数据之间的距离。确定多个非财务指标的数据的类均为第一类时,根据该多个非财务指标的数据确定第一类的第二中心点数据。此时所确定的第二中心点数据更加准确。为了确定出固定不变的中心点数据,重复执行步骤该以随机选取的M个非财务指标的数据分别为M个类的第一中心点数据,直到每次确定的第一类的第二中心点数据为固定值时结束重复执行步骤。当确定的第一类的第二中心点数据为固定值时,确定第二中心点数据为一个维度的时间序列数据。
在一个可选的实施例中,基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间序列数据,生成多维时间序列数据矩阵时,分为以下三个步骤。
第一步:基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间序列数据,生成初始多维时间序列数据矩阵。
该初始多维时间序列数据矩阵为X,X可以表示为一个m*n的矩阵,为
Figure BDA0003974141290000091
X矩阵中,xij表示第i个维度在第j时刻的数据的数值,X中的每一行都是一个时间序列。
第二步:基于具有预设采集步长的滑动窗口算法对初始多维时间序列数据矩阵进行处理,得到多个数据集。
具体的,通过滑动窗口的方法将X转换为数据集Z,设滑动的步长为F+P,则Z={Z1,Z2,...,ZL},其中,L=n-F-P+1。其中,Z1、Z2、……、ZL分别代表一个数据集。
第三步:基于该多个数据集生成该多维时间序列数据矩阵。
根据Z={Z1,Z2,...,ZL},构建多维时间序列数据矩阵
Figure BDA0003974141290000101
其中1≤j≤n-F-P+1。
S220,获取初始评分模型,该初始评分模型包括差分自回归移动平均ARIMA模型和反向传播BP神经网络,该ARIMA模型用于输出每个输入至ARIMA模型的数据在时间上的预测数据,该BP神经网络用于输出每个输入至BP神经网络的数据的权重,该输入至BP神经网络的数据包括预测数据。
ARIMA模型的基本思想是将预测对象随时间推移而形成的时间序列视为一个随机序列,用一定的数据模型近似的描述该序列,该模型确定后就可以通过时间序列的历史数据和实时数据预测未来数据,通常被应用于金融领域。因此,本实施例所使用的ARIMA模型在应用时用于输出每个输入至ARIMA模型的数据在时间上的预测数据。
BP神经网络通过样本数据的训练,不断修正网络权值和阈值使误差函数沿负梯度方向下降,逼近期望输出。因此,本实施例所使用的BP神经网络在应用时用于输出每个输入至BP神经网络的数据的权重,该输入至BP神经网络的数据包括预测数据,还包括用于训练BP神经网络的训练数据。也就是说,该初始评分模型中,ARIMA模型的输出作为BP神经网络的一部分输入。
S230,以该多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型,该目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值。
在一个可选的实施例中,以该多维时间序列数据中的前F列数据为ARIMA模型的输入数据,以该多维时间序列数据中的后P列数据为ARIMA模型输出数据的参考数据,对ARIMA模型进行训练。如上所描述的,ARIMA模型的作用是数据预测,为了保障ARIMA模型的训练结果,可以将已知的数据作为参考数据以确定ARIMA模型输出的预测数据比较准确。对ARIMA模型进行训练时是多次训练的,直到达到ARIMA模型的训练终止条件时得到目标ARIMA模型。
ARIMA模型的训练终止条件包括以下中的一种或多种:ARIMA模型的输出数据与该ARIMA模型输出数据的参考数据之间的差值在第一预设范围、训练时长达到预设时长、训练次数达到预设次数。其中,该第一预设范围可以根据实际需要设置,本实施例不做限定。
具体的,以该多维时间序列数据中的前F列数据为ARIMA模型的输入数据对ARIMA模型进行训练时,是基于每一维度的时间序列数据对ARIMA模型进行训练。例如以上描述的,共有9个维度的时间序列数据,则基于9个维度的时间序列数据分别对9个ARIMA模型进行训练,得到适合每一维度的时间序列数据的ARIMA模型。
在一个可选的实施例中,获取该多维时间序列数据中具有相同时刻的每个数据为BP神经网络的第一输入数据,以及获取该第一输入数据的已知权重为BP神经网络输出数据的参考数据,以该ARIMA模型的输出数据为BP神经网络的第二输入数据,对BP神经网络进行训练。如上所描述的,BP神经网络用于不断修正网络权值和阈值使误差函数沿负梯度方向下降,逼近期望输出。该第一输入数据的已知权重为BP神经网络输出数据的参考数据,以保障BP神经网络输出的权重比较准确。对BP神经网络进行训练时是多次训练的,直到达到BP神经网络的训练终止条件时得到目标BP神经网络。
BP神经网络的训练终止条件包括以下中的一种或多种:BP神经网络的输出数据与该BP神经网络输出数据的参考数据之间的差值在第二预设范围、训练时长达到预设时长、训练次数达到预设次数。该第二预设范围可以根据实际需要设置,本实施例不做限定。
最后,在得到目标ARIMA模型和目标BP神经网络以后,基于目标ARIMA模型和目标BP神经网络得到目标风险评分模型,目标风险评分模型用于根据待评价数据、待评价数据的预测数据、待评价数据的权重、待评价数据的预测数据的权重,生成待评价数据的风险值。例如,待评价数据为a,待评价数据的预测数据为b,待评价数据数据的权重为A,待评价数据的预测数据的权重为B。则,待评价数据的风险值=a*A+b*B。
请参见图3,在一个可选的实施例中,还可以使用已知数据对该目标风险评分模型进行评价。如图,在收集多个企业的多个财务指标的数据和多个非财务指标的数据后,对多个财务指标的数据和多个非财务指标的数据进行处理得到多维时间序列数据矩阵,以多维时间序列数据矩阵中的部分数据或全部数据作为训练集对ARIMA模型和BP神经网络进行训练,得到目标风险评分模型。再以收集多个企业的多个财务指标的数据和多个非财务指标的数据众的部分数据作为测试集,或者以多维时间序列数据矩阵中的部分数据作为测试集,对该目标风险评分模型进行测试。测试的目的是确定该目标风险评分模型基于该测试集输出的风险值是否与测试集已知的风险值基本一致,以获知该目标风险评分模型的性能。
在一个可选的实施例中,当该目标风险评分模型基于该测试集输出的风险值与测试集已知的风险值基本一致(例如差值在第三预设范围)时,认为该目标风险评分模型可以用于实际的风险评分使用场景。
在一个可选的实施例中,当该目标风险评分模型基于该测试集输出的风险值与测试集已知的风险值相差较大(例如差值超过第三预设范围)时,需要继续训练得到新的目标风险评分模型。直到新的目标风险评分模型基于该测试集输出的风险值与测试集已知的风险值基本一致时,认为该新的目标风险评分模型可以用于实际的风险评分使用场景。
综上,本申请的实施例提供的信用风险评分模型的训练方法用于训练一种可以对企业的经营数据(包括财务数据和非财务数据)进行风险计算,得到风险值的风险评分模型。具体的,获取多个企业的多个财务指标的数据和多个非财务指标的数据,根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵。获取初始评分模型,该初始评分模型包括ARIMA模型和反向传播BP神经网络,该ARIMA模型用于输出每个输入至ARIMA模型的数据在时间上的预测数据,该BP神经网络用于输出每个输入至BP神经网络的数据的权重和每个预测数据的权重。以该多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型,该目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值。
本申请的实施例提供的信用风险评分模型的训练方法中所使用的初始评分模型包括ARIMA模型和BP神经网络,其中,ARIMA模型为预测模型,用于进行数据预测,可以合理推测出企业未来的经营数据。BP神经网络则用于提供计算风险值时所需的权重,为风险值的计算提供一定的科学依据。如此,训练得到的目标风险评分模型在接收到待评价数据时,不仅可以合理推测出企业未来的经营数据,还可以基于科学的权重计算得到待评价数据的风险值。因此,本申请的实施例提供的信用风险评分模型的训练方法可以用于基于真实的企业经营数据对企业的信用风险进行客观评价,从而提升信用风险评价的准确度。
请参见图4,本申请的一个实施例还提供一种信用风险评分方法,包括:
S410,获取待评价数据,该待评价数据包括多个财务指标的数据和/或多个非财务指标的数据。
该待评价数据还可以包括其他指标的数据,当该其他指标的数据具有数值时,被作为一个维度的时间序列数据使用,如多个财务指标的数据被作为多个维度的时间序列数据使用。当该其他指标的数据不具有数值时,多个其他指标的数据被作为一个维度的时间序列数据使用,如多个非财务指标的数据作为一个维度的时间序列数据使用。
S420,将该待评价数据输入至根据预设方法训练得到的目标风险评分模型,得到待评价数据的风险值。
该预设方法如以上任一项实施例提供的信用风险评分模型的训练方法。
该目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值,具体的,用于根据待评价数据、待评价数据的预测数据、待评价数据的权重、待评价数据的预测数据的权重,生成待评价数据的风险值。待评价数据的预测数据由训练得到的目标ARIMA模型输出,待评价数据的权重和待评价数据的预测数据的权重由训练得到的目标BP神经网络输出。
如上所描述的信用风险评分模型的训练方法中所使用的初始评分模型包括ARIMA模型和BP神经网络,其中,ARIMA模型为预测模型,用于进行数据预测,可以合理推测出企业未来的经营数据。BP神经网络则用于提供计算风险值时所需的权重,为风险值的计算提供一定的科学依据。如此,训练得到的目标风险评分模型在接收到待评价数据时,不仅可以合理推测出企业未来的经营数据,还可以基于科学的权重计算得到待评价数据的风险值。因此,本申请的实施例提供的信用风险评分模型的训练方法可以用于基于真实的企业经营数据对企业的信用风险进行客观评价,从而提升信用风险评价的准确度。
请参见图5,本申请的一个实施例还提供一种信用风险评分模型的训练装置10,包括:
获取模块11,用于获取多个企业的多个财务指标的数据和多个非财务指标的数据,每个财务指标的数据和每个非财务指标的数据均携带时间信息,以及根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵。
该获取模块11还用于获取初始评分模型,该初始评分模型包括差分自回归移动平均ARIMA模型和反向传播BP神经网络,该ARIMA模型用于输出每个输入至ARIMA模型的数据在时间上的预测数据,该BP神经网络用于输出每个输入至BP神经网络的数据的权重,该输入至BP神经网络的数据包括预测数据。
训练模块12,用于以该多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型,该目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值。
该训练模块12具体用于以该多维时间序列数据中的前F列数据为ARIMA模型的输入数据,以该多维时间序列数据中的后P列数据为ARIMA模型输出数据的参考数据,对ARIMA模型进行训练,直到达到ARIMA模型的训练终止条件时得到目标ARIMA模型,其中,ARIMA模型的训练终止条件包括以下中的一种或多种:ARIMA模型的输出数据与该ARIMA模型输出数据的参考数据之间的差值在第一预设范围、训练时长达到预设时长、训练次数达到预设次数;获取该多维时间序列数据中具有相同时刻的每个数据为BP神经网络的第一输入数据,以及获取该第一输入数据的已知权重为BP神经网络输出数据的参考数据,以该ARIMA模型的输出数据为BP神经网络的第二输入数据,对BP神经网络进行训练,直到达到BP神经网络的训练终止条件时得到目标BP神经网络,其中,BP神经网络的训练终止条件包括以下中的一种或多种:BP神经网络的输出数据与该BP神经网络输出数据的参考数据之间的差值在第二预设范围、训练时长达到预设时长、训练次数达到预设次数;基于目标ARIMA模型和目标BP神经网络得到目标风险评分模型,目标风险评分模型用于根据待评价数据、待评价数据的预测数据、待评价数据的权重、待评价数据的预测数据的权重,生成待评价数据的风险值。
该获取模块11具体用于对多个非财务指标的数据进行聚类处理,得到一个维度的时间序列数据;分别以每个财务指标的数据为一个维度的时间序列数据,得到多个维度的时间序列数据;基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间序列数据,生成多维时间序列数据矩阵。
该获取模块11具体用于基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间序列数据,生成初始多维时间序列数据矩阵;基于具有预设采集步长的滑动窗口算法对初始多维时间序列数据矩阵进行处理,得到多个数据集;基于该多个数据集生成该多维时间序列数据矩阵。
该获取模块11具体用于获取预设分类标准,该预设分类标准包括M个类,M为大于1的自然数;以随机选取的M个非财务指标的数据分别为M个类的第一中心点数据;根据每个非财务指标的数据分别与M个类的第一中心点数据之间的距离,确定多个非财务指标的数据的类均为第一类时,根据该多个非财务指标的数据确定第一类的第二中心点数据;重复执行步骤该以随机选取的M个非财务指标的数据分别为M个类的第一中心点数据,直到每次确定的第一类的第二中心点数据为固定值时,确定第二中心点数据为一个维度的时间序列数据。
请参见图6,本申请的一个实施例还提供一种信用风险评分装置20,包括:
获取模块21,用于获取待评价数据,该待评价数据包括多个财务指标的数据和/或多个非财务指标的数据;
评价模块22,用于将该待评价数据输入至预设方法训练得到的目标风险评分模型,得到待评价数据的风险值。
请参见图7,本申请的一个实施例还提供一种电子设备30,包括:处理器31,以及与该处理器31通信连接的存储器32。该存储器32存储计算机执行指令,该处理器31执行该存储器32存储的计算机执行指令,以实现如以上任一项实施例提供的信用风险评分模型的训练方法,或,实现如以上任一项实施例提供的信用风险评分方法。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当该指令被执行时,使得计算机执行指令被处理器执行时用于实现如以上任一项实施例提供的信用风险评分模型的训练方法,或,实现如以上任一项实施例提供的信用风险评分方法。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如以上任一项实施例提供的信用风险评分模型的训练方法,或,实现如以上任一项实施例提供的信用风险评分方法。
需要说明的是,上述计算机可读存储介质可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器。也可以是包括上述存储器之一或任意组合的各种电子设备,如移动电话、计算机、平板设备、个人数字助理等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所描述的方法。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种信用风险评分模型的训练方法,其特征在于,包括:
获取多个企业的多个财务指标的数据和多个非财务指标的数据,每个财务指标的数据和每个非财务指标的数据均携带时间信息,以及根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵;
获取初始评分模型,所述初始评分模型包括差分自回归移动平均ARIMA模型和反向传播BP神经网络,所述ARIMA模型用于输出每个输入至ARIMA模型的数据在时间上的预测数据,所述BP神经网络用于输出每个输入至BP神经网络的数据的权重,所述输入至BP神经网络的数据包括预测数据;
以所述多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型,所述目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值。
2.根据权利要求1所述的方法,其特征在于,所述以所述多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,得到目标风险评分模型包括:
以所述多维时间序列数据中的前F列数据为ARIMA模型的输入数据,以所述多维时间序列数据中的后P列数据为ARIMA模型输出数据的参考数据,对ARIMA模型进行训练,直到达到ARIMA模型的训练终止条件时得到目标ARIMA模型,其中,ARIMA模型的训练终止条件包括以下中的一种或多种:ARIMA模型的输出数据与所述ARIMA模型输出数据的参考数据之间的差值在第一预设范围、训练时长达到预设时长、训练次数达到预设次数;
获取所述多维时间序列数据中具有相同时刻的每个数据为BP神经网络的第一输入数据,以及获取所述第一输入数据的已知权重为BP神经网络输出数据的参考数据,以所述ARIMA模型的输出数据为BP神经网络的第二输入数据,对BP神经网络进行训练,直到达到BP神经网络的训练终止条件时得到目标BP神经网络,其中,BP神经网络的训练终止条件包括以下中的一种或多种:BP神经网络的输出数据与所述BP神经网络输出数据的参考数据之间的差值在第二预设范围、训练时长达到预设时长、训练次数达到预设次数;
基于目标ARIMA模型和目标BP神经网络得到目标风险评分模型,目标风险评分模型用于根据待评价数据、待评价数据的预测数据、待评价数据的权重、待评价数据的预测数据的权重,生成待评价数据的风险值。
3.根据权利要求1或2所述的方法,其特征在于,所述根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵包括:
对多个非财务指标的数据进行聚类处理,得到一个维度的时间序列数据;
分别以每个财务指标的数据为一个维度的时间序列数据,得到多个维度的时间序列数据;
基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间序列数据,生成多维时间序列数据矩阵。
4.根据权利要求3所述的方法,其特征在于,所述基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间序列数据,生成多维时间序列数据矩阵包括:
基于多个非财务指标的数据得到的一个维度的时间序列数据,和基于多个财务指标的数据得到的多个维度的时间序列数据,生成初始多维时间序列数据矩阵;
基于具有预设采集步长的滑动窗口算法对初始多维时间序列数据矩阵进行处理,得到多个数据集;
基于所述多个数据集生成所述多维时间序列数据矩阵。
5.根据权利要求3所述的方法,其特征在于,所述对多个非财务指标的数据进行聚类处理,得到一个维度的时间序列数据包括:
获取预设分类标准,所述预设分类标准包括M个类,M为大于1的自然数;
以随机选取的M个非财务指标的数据分别为M个类的第一中心点数据;
根据每个非财务指标的数据分别与M个类的第一中心点数据之间的距离,确定多个非财务指标的数据的类均为第一类时,根据所述多个非财务指标的数据确定第一类的第二中心点数据;
重复执行步骤所述以随机选取的M个非财务指标的数据分别为M个类的第一中心点数据,直到每次确定的第一类的第二中心点数据为固定值时,确定第二中心点数据为一个维度的时间序列数据。
6.一种信用风险评分方法,其特征在于,包括:
获取待评价数据,所述待评价数据包括多个财务指标的数据和/或多个非财务指标的数据;
将所述待评价数据输入至如权利要求1-5任一项所述的信用风险评分模型的训练方法训练得到的目标风险评分模型,得到待评价数据的风险值。
7.一种信用风险评分模型的训练装置,其特征在于,包括:
获取模块,用于获取多个企业的多个财务指标的数据和多个非财务指标的数据,每个财务指标的数据和每个非财务指标的数据均携带时间信息,以及根据多个财务指标的数据和多个非财务指标的数据生成多维时间序列数据矩阵;
所述获取模块还用于获取初始评分模型,所述初始评分模型包括差分自回归移动平均ARIMA模型和反向传播BP神经网络,所述ARIMA模型用于输出每个输入至ARIMA模型的数据在时间上的预测数据,所述BP神经网络用于输出每个输入至BP神经网络的数据的权重,所述输入至BP神经网络的数据包括预测数据;
训练模块,用于以所述多维时间序列数据中的数据作为训练数据,分别对ARIMA模型和BP神经网络进行训练,达到训练终止条件时得到目标风险评分模型,所述目标风险评分模型用于基于输入的待评价数据生成待评价数据的风险值。
8.一种信用风险评分装置,其特征在于,包括:
获取模块,用于获取待评价数据,所述待评价数据包括多个财务指标的数据和/或多个非财务指标的数据;
评价模块,用于将所述待评价数据输入至如权利要求1-5任一项所述的信用风险评分模型的训练方法训练得到的目标风险评分模型,得到待评价数据的风险值。
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至5中任一项所述的信用风险评分模型的训练方法,或,实现如权利要求6所述的信用风险评分方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当所述指令被执行时,使得计算机执行如权利要求1至5中任一项所述的信用风险评分模型的训练方法,或,实现如权利要求6所述的信用风险评分方法。
CN202211521953.3A 2022-11-30 2022-11-30 信用风险评分模型的训练方法及信用风险评分方法 Pending CN115829722A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211521953.3A CN115829722A (zh) 2022-11-30 2022-11-30 信用风险评分模型的训练方法及信用风险评分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211521953.3A CN115829722A (zh) 2022-11-30 2022-11-30 信用风险评分模型的训练方法及信用风险评分方法

Publications (1)

Publication Number Publication Date
CN115829722A true CN115829722A (zh) 2023-03-21

Family

ID=85533184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211521953.3A Pending CN115829722A (zh) 2022-11-30 2022-11-30 信用风险评分模型的训练方法及信用风险评分方法

Country Status (1)

Country Link
CN (1) CN115829722A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258579A (zh) * 2023-04-28 2023-06-13 成都新希望金融信息有限公司 用户信用评分模型的训练方法及用户信用评分方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258579A (zh) * 2023-04-28 2023-06-13 成都新希望金融信息有限公司 用户信用评分模型的训练方法及用户信用评分方法

Similar Documents

Publication Publication Date Title
US10482079B2 (en) Data de-duplication systems and methods
US11599939B2 (en) System, method and computer program for underwriting and processing of loans using machine learning
US20180260891A1 (en) Systems and methods for generating and using optimized ensemble models
US8489502B2 (en) Methods and systems for multi-credit reporting agency data modeling
CN104321794B (zh) 一种使用多维评级来确定一实体的未来商业可行性的***和方法
Kuzior et al. Global digital convergence: Impact of cybersecurity, business transparency, economic transformation, and AML efficiency
CN110796539A (zh) 一种征信评估方法及装置
CN111882140A (zh) 风险评测方法、模型训练方法、装置、设备及存储介质
CN115829722A (zh) 信用风险评分模型的训练方法及信用风险评分方法
CN112434862B (zh) 上市企业财务困境预测方法及装置
CN114493142A (zh) 扶持政策与企业匹配的方法、装置、设备及存储介质
CN117114812A (zh) 一种针对企业的金融产品推荐方法及装置
CN111310931A (zh) 参数生成方法、装置、计算机设备及存储介质
CN113706258B (zh) 基于组合模型的产品推荐方法、装置、设备及存储介质
CN117252677A (zh) 信贷额度确定方法和装置、电子设备及存储介质
CN111160929B (zh) 一种客户类型的确定方法及装置
CN113177733A (zh) 基于卷积神经网络的中小微企业数据建模方法及***
Tselekidou A machine learning approach for micro-credit scoring and limit optimization
CN116644372B (zh) 一种账户类型的确定方法、装置、电子设备及存储介质
Anusha et al. An Approach to Loan Approval prediction Using Boosting Ensemble Learning
Bøe Predicting defaults in the automotive credit Industry: an empircial study using machine learning techniques predicting loan defaults
CN118212035A (zh) 金融产品的推荐方法、装置、存储介质及电子设备
CN117710095A (zh) 基于评估模型的风险评估方法、装置、设备及存储介质
CN117196827A (zh) 房贷早偿率预测方法、装置、设备及存储介质
CN114997999A (zh) 一种人工智能金融数据管理***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination