CN112364182A

CN112364182A - 基于图特征的企业风险传导预测方法、设备及存储介质

Info

Publication number: CN112364182A
Application number: CN202011433564.6A
Authority: CN
Inventors: 殷伟; 仇钧; 姚利虎; 韩静; 李志刚
Original assignee: Bank of Communications Co Ltd
Current assignee: Bank of Communications Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-02-12
Anticipated expiration: 2040-12-09

Abstract

本发明涉及一种基于图特征的企业风险传导预测方法、设备及存储介质，其中方法包括：1：基于银行数据构建企业关联图谱数据，并存储于图数据库中；2：从图数据库中抽取用于作为企业风险传导预测对象样本的企业‑企业节点对；3：针对企业‑企业节点对所对应数据的图模式特征进行栏位划分并利用逻辑回归得到风险传导边权重；4：基于企业‑企业节点对所对应的拓扑结构构建LightGBM算法模型的特征变量，模型训练完毕后输出得到各个单边传导概率结果；5：将各个单边传导概率结果进行多边概率融合，得到风险传导整合概率结果；6：针对风险传导整合概率结果进行逻辑回归后得到最终企业风险传导预测结果。本发明具有精确预测企业风险等优点。

Description

基于图特征的企业风险传导预测方法、设备及存储介质

技术领域

本发明涉及金融科技技术领域，尤其是涉及一种基于图特征的企业风险传导预测方法、设备及存储介质。

背景技术

风险控制和预警是银行经营中非常重要的部分，经营银行某种意义上就是经营风险。而在一个开放的世界中，经济***存在直接或间接的关联性，导致风险传导的普遍性，常见情况比如有(1)股权关系：母公司发生信用风险，可能会处置子公司股权，对原本正常经营的子公司造成巨大的影响，同时子公司会遭受信誉风险；(2)担保关系：被担保公司一旦违约，代偿义务会对原本正常经营的担保企业现金流造成直接的冲击，加重担保企业的债务负担；(3)供应链关系：下游客户支付困难，延迟支付上游供应商的款项，如果长期不能回笼资金，容易造成供应商资金流断裂。等等这些关系都有可能导致风险从一个企业传导到另一个企业，因此对于风险传导的分析是十分有价值和必要的，有助于银行控制和提前预警风险。

传统的对于风险传导的分析通常需要大量的人力去分析企业之间的关联关系，并在某一企业出现风险后，对于其供应链上下游、有控股、有流水交易、担保关系等等关联企业进行一一的排查，而通常关联企业都比较多，纯人工排查效率较低，同时由于风险的传导并不是实时出现，存在着一定时间的潜伏期，人工排查发现风险传导的准确率也很低。

现有技术方案之一是银行某有贷户发生逾期、欠息、垫款等行为出现风险后，银行相关工作人员对风险进行分析，审查和风险企业相关的企业授信审查报告以及实际走访。

上述方案中主要依赖于银行工作人员对相关企业的实际审查走访和审查。一方面，和企业有关联的企业数量一般较多，特别是预测较长的风险路径时，需要消耗巨大的人力成本；另一方面对于和风险企业关联情况非常复杂，资金流水、股权、任职、上下游等等关系重要程度并不相同，一概而论的调查无法高效的提前预警到风险传导的过程，也无法很好的描述风险传导的链条路径；此外风险传导有一个潜伏到爆发的时间过程，人工走访也无法很好的发现，容易出现后知后觉的情况。

企业间的风险传导目前多依赖于上述方案一中有专家经验的审查人员人工去分析，费时费力而又无法可以考虑到全局信息和在潜伏期内发现。导致风险传导的预测不准确或者遗漏。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于图特征的企业风险传导预测方法、设备及存储介质。

本发明的目的可以通过以下技术方案来实现：

一种基于图特征的企业风险传导预测方法，该方法包括以下步骤：

步骤1：基于银行数据构建企业关联图谱数据，并存储于图数据库中；

步骤2：从图数据库中抽取用于作为企业风险传导预测对象样本的企业-企业节点对；

步骤3：针对企业-企业节点对所对应数据的图模式特征进行栏位划分并利用逻辑回归得到风险传导边权重；

步骤4：基于企业-企业节点对所对应的拓扑结构构建用于训练作为风险事件传导模型的LightGBM算法模型的特征变量，模型训练完毕后输出得到各个单边传导概率结果；

步骤5：将各个单边传导概率结果进行多边概率融合，得到风险传导整合概率结果；

步骤6：针对风险传导整合概率结果进行逻辑回归后得到最终企业风险传导预测结果。

进一步地，所述的步骤1中的银行数据包括股权、任职、担保、资金、受益人、贸易及相同地址电话，其中，所述股权对应的数据分类包括50％以上控股股东、50％以下第一大股东和其他股东关系；所述任职对应的数据分类包括法人代表关系和高管关系；所述担保对应的数据分类包括第三方资产抵质押关系、一般保证和担保圈；所述资金对应的数据分类包括资金关系和资金圈，所述贸易对应的数据分类包括贸易关系和贸易圈。

进一步地，所述的步骤2具体包括：按照抽取逻辑从图数据库中抽取用于作为企业风险传导预测对象样本的企业-企业节点对，所述抽取逻辑为：

以风险客户，不含金融机构，为出发点，提取与风险客户有一手直接关系，包括进边或出边的企业法人有贷户，不含金融机构，组成的节点对；

如与风险客户有一手特定直接关系，包括进边或出边的是个人客户，则选取与该个人客户有一手特定直接关系的企业法人有贷户，不含金融机构，组成的节点对，但在加工边权重模型时，则保留风险客户至个人和个人至与个人有一手特定关系企业两组节点对。

进一步地，所述的步骤3具体包括：针对企业-企业节点对所对应数据的图模式特征通过WOE的方式进行栏位划分，并对划分后的结果进行逻辑回归得到风险传导边权重，其中，所述WOE的方式，其对应的计算公式为：

式中，WOE_i为第i个类别的WOE栏位划分结果，i为计算特征变量的第i个类别，N_1i为第i个类别目标变量为1正样本的数量，N₁为目标变量为1正样本的数量，N_0i为第i个类别目标变量为0负样本的数量，N₀为目标变量为0正样本的数量。

进一步地，所述的步骤4中的特征变量包括图特征变量和业务特征，所述图特征变量包括图指标特征和图模式特征。

进一步地，所述的步骤4中的LightGBM算法模型的参数调优采用GridSearch方法。

进一步地，所述的步骤5包括以下分步骤：

步骤501：基于企业-企业节点对所对应的关联关系，提取由风险客户和正常客户组成的风险传导节点对；

步骤502：基于用于训练作为风险事件传导模型的LightGBM算法模型，分别预测风险传导节点对的传导风险概率；

步骤503：基于多边概率影响相对独立假设和多边概率整合计算公式，整合各个风险传导节点对的传导风险概率，得到风险传导整合概率结果。

进一步地，所述的步骤503中的多边概率整合计算公式为：

β＝1-Π_i∈Edges(1-β_i)

式中，β为风险传导整合概率结果，β_i为各个风险传导节点对的传导风险概率。

本发明还提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的一种基于图特征的企业风险传导预测方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的一种基于图特征的企业风险传导预测方法的步骤。

与现有技术相比，本发明具有以下优点：

(1)本发明通过多种企业之间的关系构建企业的关系图谱，基于行为图谱设计了模型的特征变量，并设计训练使用风险传导边权重、风险事件传导模型、风险整合模型最后得到风险传导的结果，描述了一种基于图数据库，利用知识图谱和机器学习模型进行风险传导预测的方法，通过该方法，可以有效及时的预测风险传导的过程。便于银行对风险进行良好的控制，提前避免损失。

(2)本发明主要为一种基于图特征，利用大数据和有监督的机器学习模型进行企业风险传导预测的方法。通过该方法，将多种数据进行融合。提取图拓扑结构和业务特征，基于企业所处的各类关联关系联通体拓扑结构，预测当风险事件发生后，该事件在通体内，通过关联关系路径、在一定时间内，由一家企业传导至另一家企业的可能性。在减少风控人员的工作量的基础上，可以提高预测的准确率并且同时在风险潜伏期时就可以有效预警风险。便于银行对风险更好的控制和预测,从而提高风险管理能力。

(3)本发明设计了一套基于图特征的企业风险传导预测模型，企业风险传导预测模型基于使用大数据分析处理、知识图谱、图拓扑结构分析，以及有监督的机器学习等技术，将多种来源的数据源进行整合结合专家知识以及人工智能等技术进行风险传导预测，可以提高风险预测的准确度并且可以在企业受到风险传染之前***，对于风险管理管控有着非常大的价值。

附图说明

图1为本发明的方法流程图；

图2为本发明实施例中的方法流程图；

图3为本发明实施例中的样本抽取过程示意图；

图4为本发明实施例中的多边概率整合过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一、本发明技术方案中的缩略语和关键术语定义如下：

风险传导：基于企业所处的各类关联关系联通体拓扑结构，当风险事件发生后，该事件在通体内，通过关联关系路径、在一定时间内，由一家企业传导至另一家企业的可能性。

多边概率整合：一个企业会同时受多个风险客户的影响，从而有多个风险传导概率结果，多边概率整合即将受到的多个风险客户影响进行整合。

风险企业客户：客户项下任意一笔债项发生逾期且逾期天数>7天的客户或客户项下任意一笔债项发生欠息且欠息天数>7天的客户或客户项下任意一笔债项发生垫款且垫款天数>7天的客户

企业法人有贷户：授信余额大于零并保留客户名称为全英文和客户名称包含“公司”或“合伙”关键字客户，剔除银行、保险、基金、信托、金融租赁、金融资产管理、证券、期货、基金、财务公司、消费金融、汽车金融、贷款公司、货币经纪等公司。

知识图谱：一种大规模语义网络，以实体或者概念作为节点，通过语义关系相连接。

通过发掘实体之间的关联，将半结构化、非结构化的数据整合，知识图谱可以帮助机器理解数据、解释现象、知识推理，从而发掘深层关系、实现智慧搜索与智能交互。

图数据库：一种非关系型数据库，应用图形理论存储实体信息与实体之间的关系信息，主流工具有TigerGraph、Neo4j等。

有监督的机器学习：基于窗口期数据定义的特征变量(the feature variables)以及通过在特定时间的信用表现形成的目标变量(the target variable)，构建机器学习的训练集(the training set)；基于训练集，开发机器学习算法(the machine learningalgorithm)训练分类模型(the classification model)，最终应用训练出的模型预测客户的信用表现。

时间窗口：根据对于建模周期的需求，将历史数据在时间维度上切分成若干个数据集，进而为模型训练提供数据素材。观察点的设计依据业务运用模型的实际需求，即何时需要隐性关联关系挖掘模型对企业的隐性关联关系进行预测，常见有季末、半年末等；观察点以前将选定固定时期作为观察期，从而构建训练集的特征变量(X变量)；观察点以后同样选定固定时期作为表现期，即收集客户样本在观察点之后的表现，进而构建训练集的目标变量(Y变量)。

二、本发明提供的完整技术方案：

如图1所示，首先，将企业作为点，企业之间的关系作为边生成图结构存储在图数据库中，也即是进行关联图谱构建；其次，在时间窗口里面抽取需要研究的节点对；构建风险传导边权重模型，将多条边回归出一条风险传导整合边的权重，然后使用得到的风险传导整合边计算图指标和业务指标，使用LightGBM算法得到风险传导模型并对多边概率进行整合；最后使用逻辑回归进行风险整合，得到最后一个企业是否会被传导变成风险企业的概率。

图中各个阶段详细描述如下：

1、关联图谱构建

本发明的关联关系图结合行内外数据，包含了股权、任职、担保、资金、受益人、贸易及相同地址电话共7大类关系类型。其中股权还分为50％以上控股股东，50％以下第一大股东，其他股东关系三个小类，任职包括法人代表关系，高管关系两小类，担保关系包括第三方资产抵质押关系，一般保证，担保圈三小类，资金关系包括资金关系，资金圈两小类，贸易关系包括贸易关系，贸易圈两小类。

2、样本抽取

本发明中风险传导的研究对象为企业-企业节点对。基于8大类14子类关联关系图谱，按照以下抽取逻辑进行提取：(1)以风险客户(不含金融机构)为出发点，提取与风险客户有一手直接关系(进边或出边)的企业法人有贷户(不含金融机构)组成的节点对；(2)如与风险客户有一手特定直接关系(进边或出边)的是个人客户，则选取与该个人客户有一手特定直接关系的企业法人有贷户(不含金融机构)组成的节点对。但在加工边权重模型时，则保留风险客户->个人和个人->与个人有一手特定关系企业两组节点对。

3、风险传导边权重计算

两个企业之间可能有多个关系边，我们首先将多条边进行WOE划分，使其变成数值变量，再通过逻辑回归成一条带有权重的边，我们将这条边命名为风险传导边，边的权重可以代表两个企业之间的影响程度，后续的操作都将在这一条权重边上执行。

4、风险事件传导模型

风险事件传导模型，本发明设计使用14种图指标变量，基于企业节点对的拓扑结构计算得到、可以反映图特征的量化指标，主要包括节点对相邻性特征、节点本身特征、基于路径特征三大类指标。图模式变量是分析企业节点对的关联构成模式的指标，用以反应其对风险传导的影响程度，本发明共设计使用15种，此外还设计使用了12种非图指标变量，这些指标分析企业节点对中各企业经营所在地区情况、所属行业、各企业的企业经济性质、各企业的企业规模的指标，用以反应其对企业节点对风险传导的影响程度。在这些指标上，我们使用LightGBM算法进行建模，同时考虑到一个企业会同时受多个风险客户的影响，从而有多个风险传导概率结果，因此本发明还进行多边概率整合。

5、风险整合模型

风险整合模型的输入变量为风险传导的概率和源发风险概率进行整合，由于这两个均为概率结果，其统计分布和单调性均有很高的保证。因此风险整合模型将不会采用特征变量转换方法，直接使用概率结果使用逻辑回归拟合模型。

三、具体实施方式

如图2所示，具体实施方式按建模步骤说明如下：

1、关联图谱构建

关联图谱是企业之间关系的体现，也是后续数据处理模型开发的基础，所采用的关系具体如下：

共使用20180331、20180630、20180930、20181231、20190331、20190630时点8大类14子类关联关系数据，这些数据导入到TigerGraph图数据库中进行进一步的处理。下表为得到的企业个数和关系个数。

2、样本抽取

样本抽取逻辑如下：

以图3为例，以A、F分别为出发点，抽取出的边权重模型开发/验证/预测样本节点对为：(A，B)，(A，E)，(F，E)，(F，G)，(F，e)，(e，C)；抽取出的传导模型开发/验证样本节点对为：(A，B)，(A，E)，(F，E)，(F，G)，(F，C)；传导模型预测样本节点对为：(A，B)，(A，E)，(F，E)，(F，G)，(F，C)，(B，C)，(C，D)，(E，C)。

3、风险传导边权重计算

3.1、WOE栏位划分

为了确保入模变量的单调性，本发明将模型候选变量进行适当的变换，然后将变化后的值作为模型候选变量的输入值进行建模。本发明使用的是WOE的方式，WOE的变换方式有以下优势：

1.处理异常值较为方便，一般模型变换的方式需要通过对每个设定上下限(Capand Floor)，而栏位划分则仅需将异常值与正常范围的值合并即可，从而避免异常值的影响，保证模型的稳定性；

2.通过栏位划分对变量进行变换，可以使得变量对于风险的趋势更加符合业务逻辑，便于业务理解；

3.使得非线性的变量可以作为模型候选变量；

4.对变量的变换更加易于操控；

5.针对模型变量相应的缺失率、“0”值、异常值和极端值的处理，在栏位划分时可以有针对性特殊处理。

WOE表达的是变量不同类别(分组或分箱)中负样本占正样本的比例与全量样本负样本与正样本占比的比例关系，计算公式如下：

3.2、逻辑回归

对于WOE后得到的结果进行逻辑回归，逻辑回归(logistic regression)属于广义线性回归，与传统线性模型相比，LR使用了Logit变换将函数值映射到0～1区间。它是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法，是应用最成熟也最广泛的分类模型，也是传统的违约概率模型的建模方法，获得监管机构的认可。

逻辑回归后就可以得到风险传导边权重。

4、风险事件传导模型

4.1、特征变量设计

特征变量的设计最终决定了模型表现的上限，因此特征变量的设计需要对风险业务的较好理解，力求多角度、立体地、多渠道、全面地刻画客户的信用风险情况。借助关联关系拓扑结构，引入图特征变量，刻画风险事件传导路径。风险事件传导模型的特征变量包括图特征和非图特征两个维度，共45个特征变量。

4.1.1、图特征变量

基于企业节点对在风险传导图上的拓扑结构，通过图算法构建的特征变量。根据变量类型的不同，由可以进一步细分为图指标和图模式两大类。

a)、图指标：基于企业节点对的拓扑结构计算得到的、反映图特征的量化指标，主要包括节点相邻性特征、节点本身特征、节点路径特征三大类指标。具体见下表：

b)、图模式分析企业节点对的关联构成模式的指标，反应其对风险传导的影响程度。具体见下表：

4.1.2、业务类指标变量

分析企业节点对中各企业经营所在地区情况、所属行业、各企业的企业经济性质、各企业的企业规模的指标，用以反应其对企业节点对风险传导的影响程度。具体见下表：

4.2、模型训练

4.2.1、LightGBM算法概述

本发明主要使用LightGBM算法，LightGBM是Booting算法新进成员，它是梯度提升树的一种高效实现，由微软于2016年推出。原理上它和XGBoost类似，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。相比XGBoost，它有更快的训练效率、低内存使用、支持直接使用类别特征等。在工业界应用，具有一定的优势，具体如下：

特征变量数据预处理要求相对较少，对输入不敏感，包括对异常值的容忍程度、自动处理缺失值、不要求变量相关性处理,、特征变量不要求归一化等。拿到入模数据，可以快速得到baseline结果。

工业化程度比较高，工业界大量应用。主要原因在于底层语言C++，效率比较高，且支持计算的并行，同时在数据量比较大时候，引入数据压缩、分片的方法，尽可能的提高算法的效率。

引入的更多的防止过拟合的处理方法，包括加入正则化项、缩减因子、行列采样等。

具有高度的灵活性，用户能够自定义优化目标和评价标准。

LightGBM优化了对类别特征的支持，可以直接输入类别特征，不需要额外的分类特征的数据预处理。

4.2.2、模型参数

本传导模型参数调优采用GridSearch方法，主要调优参数及调优结果如下表所示：

4.2.3、多边概率整合

考虑到一个企业会同时受多个风险客户的影响，从而有多个风险传导概率结果，因此需要进行多边概率整合。示意图如图4所示：

具体整合步骤如下：

1、提取风险传导节点对：在T0时刻，基于关联关系，提取由风险客户和X组成的风险传导节点对。以上图为例，提取的风险传导节点对为(1->X)、(3->X)、(N-1->X)；

2、预测风险传导节点对：基于风险事件传导模型，分别预测风险传导节点对(1->X)、(3->X)、(N-1->X)的传导风险概率；

3、整合节点对多边概率：基于多边概率影响相对独立假设，多边概率整合计算公式为：

β＝1-Π_i∈Edges(1-β_i)

多边整合概率结果统计如下表所示：

5、风险整合模型

5.1、使用算法

风险整合模型和风险传导边权重计算一样使用逻辑回归

5.2、模型结果分析

采用2018031、20180630、20180930、20181231和20190331五个时点数据，按照开发集和时间内验证比例为70％：30％生成开发数据集和样本内验证数据集，惩罚系数C设定为79.34，采用L2正则化训练模型。模型表现：开发集AUC＝0.9857，样本内验证集AUC＝0.984。边权重逻辑回归模型参数估计如下表所示：

20180331、20180630、20180930、20181231和20190331五个时点全量样本预测结果分布结果如下表所示，整体预测结果分布符合预期。

预测结果	样本数量	负样本数量	正样本数量
				[0.0，0.1)	3686	3685	1
[0.1，0.2)	165	163	2
				[0.2，0.3)	93	93	0
[0.3，0.4)	68	64	4
				[0.4，0.5)	95	92	3
[0.5，0.6)	94	87	7
				[0.6，0.7)	93	89	4
[0.7，0.8)	61	49	12
				[0.8，0.9)	50	34	16
[0.9，1.0]	166	46	120
				合计	4571	4402	169

阈值设定在0.9的情况下，模型的准确率为72.29％，查全率为71.01％。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于图特征的企业风险传导预测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于图特征的企业风险传导预测方法，其特征在于，所述的步骤1中的银行数据包括股权、任职、担保、资金、受益人、贸易及相同地址电话，其中，所述股权对应的数据分类包括50％以上控股股东、50％以下第一大股东和其他股东关系；所述任职对应的数据分类包括法人代表关系和高管关系；所述担保对应的数据分类包括第三方资产抵质押关系、一般保证和担保圈；所述资金对应的数据分类包括资金关系和资金圈，所述贸易对应的数据分类包括贸易关系和贸易圈。

3.根据权利要求1所述的一种基于图特征的企业风险传导预测方法，其特征在于，所述的步骤2具体包括：按照抽取逻辑从图数据库中抽取用于作为企业风险传导预测对象样本的企业-企业节点对，所述抽取逻辑为：

4.根据权利要求1所述的一种基于图特征的企业风险传导预测方法，其特征在于，所述的步骤3具体包括：针对企业-企业节点对所对应数据的图模式特征通过WOE的方式进行栏位划分，并对划分后的结果进行逻辑回归得到风险传导边权重，其中，所述WOE的方式，其对应的计算公式为：

5.根据权利要求1所述的一种基于图特征的企业风险传导预测方法，其特征在于，所述的步骤4中的特征变量包括图特征变量和业务特征，所述图特征变量包括图指标特征和图模式特征。

6.根据权利要求1所述的一种基于图特征的企业风险传导预测方法，其特征在于，所述的步骤4中的LightGBM算法模型的参数调优采用GridSearch方法。

7.根据权利要求1所述的一种基于图特征的企业风险传导预测方法，其特征在于，所述的步骤5包括以下分步骤：

8.根据权利要求7所述的一种基于图特征的企业风险传导预测方法，其特征在于，所述的步骤503中的多边概率整合计算公式为：

β＝1-Π_i∈Edges(1-β_i)

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的一种基于图特征的企业风险传导预测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的一种基于图特征的企业风险传导预测方法的步骤。