CN115545437A

CN115545437A - 一种基于多源异构数据融合的金融企业经营风险预警方法

Info

Publication number: CN115545437A
Application number: CN202211164313.1A
Authority: CN
Inventors: 张磊; 陶虹; 张旭方; 熊懿清
Original assignee: Suzhou Chengfang Information Technology Co ltd
Current assignee: Suzhou Chengfang Information Technology Co ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-30

Abstract

本发明涉及一种基于多源异构数据融合的金融企业经营风险预警方法，针对金融企业经营风险模型构建的数据获取模块，通过数据获取模块获取的数据进行分析、加工后构建特征，对构建的特征进行相关性分析获得相关系数，筛选获得金融企业经营风险预警模型特征，融合网格搜索和交叉验证策略对金融企业经营风险预警模型进行训练，根据金融企业经营风险预警模型对金融企业进行实时监控，并提供监管的优先级名单；本发明提供的基于多源异构数据融合的金融企业经营风险预警方法充分挖掘各个预警特征背后的交叉和掩藏关系，可以根据模型得到金融企业预警的优先级，大大节约了人力成本，提升监管的效率和准确率。

Description

一种基于多源异构数据融合的金融企业经营风险预警方法

技术领域

本发明涉及自然语言处理(NLP)和机器学习(ML)领域，具体涉及一种基于多源异构数据融合的金融企业经营风险预警方法。

背景技术

现有技术中的金融企业经营风险预警方法，主要用于政府监管部门对金融企业的监管，可以划分企业的金融风险等级，实现对金融企业监管的优先级划分，提升监管的效率。金融市场主体可以通过线上、线下的形式，以高额的利息回报吸引大量的资本。金融市场主体涉及资本大，如果一旦出现“暴雷”情况，就会产生巨大的社会影响，对人民群众的财产带来不可弥补的损失。正确地对金融市场主体的经营风险进行分析与预测，准确地对风险作出预警，并迅速地措施与决策，是规避金融风险的有效途径。建立金融企业的经营风险预警模型，坚持用数据说话，对于指导相关部门执法的针对性、时效性，维护社会稳定有重大意义。

在自然语言处理领域，预训练语言模型在2015年被首次提出，但在2018年才发生了重大进展，以Google提出的BERT为代表的预训练语言模型，被证实在大量NLP任务上都很有效，例如ELMO，XLNet，GPT，RoBERTa,ALBERT等。这些预训练语言模型均是无监督形式，使得模型能够从无标注语料中获得通用的语言建模能力。而预训练模型的成功之处是Self-Attention机制的使用，它可以有效融合文本前后之间的语义关系，将文本编码成掩藏语义关系的特征向量，在一些下游的NLP任务中，借助预训练模型的文本表达能力，使用少量的标注数据，对下游的NLP任务进行微调，使得模型不需要大量的训练数据也能够达到不错的效果，可很大程度缓解低资源任务对大量标注数据的需求。

当前金融企业经营风险预警技术主要是接到投诉电话，相关部门去被投诉的企业查访，但投诉电话也可能不准确，过程耗时且需要的人力大；较为先进一些的地区会构建相应的金融企业风险预警的指标体系或使用统计预警的方式来实现，但都不能够将多源的数据融合使用，发现数据背后特征之间的交叉掩藏规律，进行金融企业的风险预警。

本发明提供了一种能够充分挖掘各个预警特征背后的交叉和掩藏关系，可以根据模型得到金融企业预警的优先级，大大节约了人力成本，提升监管的效率和准确率的一种基于多源异构数据融合的金融企业经营风险预警方法。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于多源异构数据融合的金融企业经营风险预警方法。

本发明的基于多源异构数据融合的金融企业经营风险预警方法，包括以下步骤：

S1、针对金融企业经营风险模型构建的数据获取模块；

S2、对步骤S1中通过数据获取模块获取的数据进行分析、加工后构建特征；

S3、对步骤S2构建的特征进行相关性分析获得相关系数，筛选获得金融企业经营风险预警模型特征；

S4、融合网格搜索和交叉验证策略对金融企业经营风险预警模型进行训练；

S5、根据金融企业经营风险预警模型对金融企业进行实时监控，并提供监管的优先级名单。

在本发明提供的具体实施例中，所述步骤S2中通过数据获取模块获取的数据包括12345热线的工单内容、企业舆情信息、企业工商信息以及公安经侦的经营异常金融企业名单。

在本发明提供的具体实施例中，所述步骤S2中的12345热线的工单内容是通过对12345热线使用BERT算法进行提取，借助预训练模型的有效的特征表达能力，对一小部分的工单中企业名称进行标注，进行12345工单中企业实体识别的模型微调，使用训练得到的模型，在新的工单内容进行自动的企业实体识别，得到被投诉工单中的标准企业名称，再使用BLEU算法对提取的企业进行标准化映射，最后获取12345热线中企业被投诉的次数特征。

在本发明提供的具体实施例中，所述步骤S2是将所述企业舆情信息经过tokenizer编码，并添加特殊字符，输入BERT模型获取对企业舆情信息的编码向量，关注特殊字符对应的输出结果，将输出结果送入一个softmax全连接层进行分类输出，BERT模型为企业舆情数据打上标签，最后获取企业存在消极标签舆情的次数特征。

在本发明提供的具体实施例中，所述步骤S2中企业工商信息包括对企业经营范围变更前后的文本进行清洗，包括；一、标点符号统一化，因为文本中中英文符号使用的混淆，会导致后续文本切分的错误，导致文本相似度计算的误差，本案列中全部清洗成中文状态下的标点符号；二、经营范围文本中一些无关文本的删除，如”许可项目“等内容；对于清洗后的文本按照事项名称进行切分，得到经营范围变更前后文本的两个事项列表，统计变化前后企业经营范围文本的交并比，将通过以下公式计算出交并比作为特征输入：

式(1)中A和B分别指的是变化前后的企业经营范围变更的文本清洗后，经过切分的事项列表。

在本发明提供的具体实施例中，所述步骤S2中的特征指的是对于步骤S1中获得的文本数据进行量化操作后得到的金融企业经营风险模型的文本特征，并且融合已经包含详细数据条目的企业工商信息特征等，作为金融企业经营风险模型的特征。

在本发明提供的具体实施例中，所述步骤S3中特征之间相关性是通过相关系数来刻画的，相关系数定义特征(X,Y)之间的相关程度计算如下式所示：

(2)式中cov(X，Y)为协方差，σ为标准差，计算公式如式(3)(4)和(5)所示：

将上述公式代入到(2)式中得到最终的相关系数得计算公式：

删除相关性高的维度特征，降低训练数据的维度，加快模型训练速度，并得到训练数据集，降低模型过拟合的风险，在一定程度上会提升模型泛化能力，删除相关性高的特征后留下的特征数据就是用于金融企业经营风险预警模型的训练数据集。

在本发明提供的具体实施例中，所述步骤S4中金融企业经营风险预警模型的训练包括构建LR分类器，将步骤S3中得到的特征作为训练LR分类器的数据，公安经侦的经营异常金融企业名单作为训练LR分类器的标签数据，对数据进行均匀划分，训练LR金融企业经营风险预警模型。逻辑回归是通过将线性函数的结果映射到Sigmoid()函数中，预估单个金融企业出现经营风险的概率。

在本发明提供的具体实施例中，所述步骤S4中金融企业经营风险预警模型的训练具体包括以下步骤：

S41、逻辑回归模型输入及输出：

S42、逻辑回归模型：

通过Logistic函数归一化到(0,1)间，y的取值有特殊的含义，它表示结果取1的概率；

S43、逻辑回归损失函数：得到逻辑回归的表达式后，采用极大似然估计法求解模型中的参数，似然函数的表达式为：

S44、逻辑回归采用梯度下降优化损失：对损失函数的参数进行求导，使用梯度下降的方式来更新参数θ,其中对参数θ求导的过程如下：

并通过下面的方式对参数θ进行更新：

其中α为逻辑回归模型的学习率，当

小于某个阈值或达到最大迭代次数时，模型停止学习。

在本发明提供的具体实施例中，所述逻辑回归中的θ和α属于金融企业经营风险预警模型的超参数，属于金融企业经营风险预警模型可优化的对象，对模型中超参数的优化可以进一步提升模型的性能，故在金融企业风险预警模型训练的过程中，使用了网格搜索交叉验证的策略，提升了该模型的泛化性能。

借由上述方案，本发明至少具有以下优点：

1、建立金融企业的经营风险预警模型对于指导相关部门执法的针对性、时效性，维护社会稳定有重大意义；

2、通过金融风险预警模型(LR)可以将金融企业的风险进行量化，辅助监管部门对企业进行预测式监管，降低人民财产损失，提升监管的效率；

3、充分挖掘各个预警特征背后的交叉和掩藏关系，可以根据金融企业经营风险预警模型得到金融企业预警的优先级，大大节约了人力成本，提升监管的效率和准确率；

4、金融企业经营风险预警模型的精确率(Precision)为0.886，召回率(Recall)为0.838，F1值为0.861；

5、金融企业经营风险预警模型预测的结果是位于0-1之间的一个概率值，可以设置更多预警临界值，包括优秀值a1、良好值a2、一般值a3、较差值a4、危险值a5，当某企业预警指数超过较差值a4时，黄灯预警，建议执法部门解决，当超过危险值a5时，红灯预警，说明应企业存在经营风险的可能性非常大等情况，为监管部门提供企业监管名单和监管的优先级，提升监管的效率。

综上，模型预测的准确性、有效性、及时性在实战中得到了充分认可和肯定，实现了“登管协同、良性循环”的双赢模式。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明的基于多源异构数据融合的金融企业经营风险预警方法的流程图；

图2是本发明的基于多源异构数据融合的金融企业经营风险预警方法中获取12345热线中企业被投诉的次数特征的流程图；

图3是本发明的基于多源异构数据融合的金融企业经营风险预警方法中金融企业经营风险预警模型的训练流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

自然语言处理(Natural Language Processing,NLP)是一种让计算机能够理解人类语言的技术，而分词技术是NLP的一种基础任务。NLP算法通常以词作为基本单位，将深层次的语法进行语义分析。当建立NLP模型时，一般需要建模人员掌握一定的语言学知识以利于提取合适的特征。而深度学习优秀的泛化能力,能够无监督地基于数据抽取特征，并从训练数据中学习到上下文信息特征，从而提供优质的训练数据，减少对建模人员的语言学要求，使实验者只需要设计神经网络的结构。

多源异构数据融合用于本发明中的数据来源多样，获取的数据结构也不一样，而且大多数数据是动态实时更新的，多源异构数据融合就是可以自动的将这些来源不同的数据可以快速的自动进行更新的流程，为后续处理和分析数据提供基础。

在得到逻辑回归的表达式后，需要去求解模型中的参数。本发明采用统计学上常使用的极大似然估计法来求解，即找到一组参数，使得在这组参数下，数据的似然度(概率)最大。

实施例

本发明提供的一种基于多源异构数据融合的金融企业经营风险预警方法，包括以下步骤：

S1、针对金融企业经营风险模型构建的数据获取模块，包括获取12345投诉的工单内容、企业舆情信息、企业工商信息以及公安经侦的经营异常金融企业名单，其中企业工商信息包括注册资本、实缴资本、注册地址、经营地址、经营状态、注册时长、市场主体类型、公积金缴纳、社保缴纳、审批办件记录、处罚记录、经营范围变更、注册资本变更、法人关联注销企业等；

S2、对获取的数据进行分析、加工构建特征，对于文本数据需要进行量化操作得到金融企业经营风险预警模型的特征，包括12345热线的工单内容、企业舆情信息、企业工商信息以及公安经侦的经营异常金融企业名单；

S3、对构建的金融企业经营风险模型特征进行相关性分析获得相关系数，包括：

①12345投诉企业提取算法是使用相应的文本信息抽取算法，常见的有条件随机场、LSTM、BERT等算法，直接从12345投诉文本中提取被投诉的企业，比如对12345投诉使用BERT算法进行被投诉企业提取，得到被投诉的企业，这里得到的可能是企业的简称也可能是企业全称，再使用BLEU算法对提取的企业进行标准化映射，即将企业的简称映射到全称上，最后获取12345投诉中企业被投诉次数特征；

②舆情文本分类算法指的是以找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类的算法。其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别中，为舆情文本打上相应的标签。企业舆情数据对企业经营风险的影响是至关重要的，使用BERT分类算法，即将舆情数据经过tokenizer编码，并添加并加入一些特殊字符，如[CLS],[SEP]等,输入BERT模型对获取对舆情文本的编码向量，关注[CLS]对应的输出结果即可，将其输出结果再送入一个softmax全连接层进行分类输出即可，模型为企业舆情数据打上“积极”、“中立”、“消极”标签，最后获取企业近半年内存在消极舆情的次数特征。经营范围变更前后相似度算法指的是一个企业在存续过程中可能会进行经营范围变更，用来衡量经营范围变更前后的幅度，相似度的值在一定程度上可以说明企业经营的稳定性；

③企业在存续过程中可能会进行经营范围变更，经营范围变更前后相似度算法指的是一个企业在存续过程中可能会进行经营范围变更，用来衡量经营范围变更前后的幅度，相似度的值在一定程度上可以说明企业经营的稳定性，对于企业经营范围变更前后的文本进行清洗，经营范围的事项名称都是存在规范表述的，故在进行企业经营范围变更前后的文本相似度时，统计两个文本经营范围中事项的交并比，见式(1)，将计算出的交并比作为特征输入：

式(1)中A和B分别指的是变化前后的企业经营范围变更的文本，相关系数定义特征(X,Y)之间的相关程度如下式所示：

式(2)中cov(X，Y)为协方差，σ为标准差，计算公式如式(3)(4)和(5)所示：

将上述公式代入到(2)式中得到最终的相关系数得计算公式：

删除相关性高的维度特征，降低训练数据的维度，加快模型训练速度，并得到训练数据集；

根据计算特征与特征之间的相关系数的大小，可判定两两特征之间的相关程度。一般情况下我们取相关系数的绝对值，然后将相关系数值大于90％～100％的两两特征中的某一个特征剔除，因为值说明两两特征之间基本一致，可相互替代，最后留下的金融企业的经营风险预警模型特征包括：企业工商信息(注册资本、经营状态、法定代表人关联其他注销企业的数量、注册时长、企业类型、政策地址是否重复、注册地址是否存疑、公积金缴纳人数、近半年公积金缴纳情况、社保缴纳人数、近半年来审批办件次数、是否存在处罚记录、被处罚的金额和次数、经营范围变更次数、经营范围变更后的相似度、注册资本减资比例)；企业舆情信息(12345投诉次数、网络舆情次数)。

逻辑回归是通过将线性函数的结果映射到Sigmoid()函数中，预估单个金融企业出现经营风险的概率并分类。

Sigmoid()函数是归一化函数，可以把连续数值转化为0到1的范围，提供一种将连续型数据转换为离散型数据的方法。

金融企业经营风险预警模型的训练具体包括以下步骤：

S41、逻辑回归模型输入及输出：

S42、逻辑回归模型：

并通过下面的方式对参数θ进行更新：

其中α为逻辑回归模型的学习率，当

小于某个阈值或达到最大迭代次数时，模型停止学习，逻辑回归中的θ和α属于金融企业经营风险预警模型的超参数，属于金融企业经营风险预警模型可优化的对象，交叉验证是为了得到可靠稳定的模型。

S5、构建金融企业风险预警模块，针对得到的模型，使用该风险预警模块用于对金融企业经营风险的分析，为监管部门提供金融企业监管得优先级名单。

通过以上具体实施方式，可以获得以下的有益技术效果：

以上仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于多源异构数据融合的金融企业经营风险预警方法，其特征在于，包括以下步骤：

S1、针对金融企业经营风险模型构建的数据获取模块；

2.根据权利要求1所述的基于多源异构数据融合的金融企业经营风险预警方法，其特征在于：所述步骤S2中通过数据获取模块获取的数据包括12345热线的工单内容、企业舆情信息、企业工商信息以及公安经侦的经营异常金融企业名单。

3.根据权利要求2所述的基于多源异构数据融合的金融企业经营风险预警方法，其特征在于：所述步骤S2中的12345热线的工单内容是通过对12345热线使用BERT算法进行提取，得到被投诉的企业，再使用BLEU算法对提取的企业进行标准化映射，最后获取12345热线中企业被投诉的次数特征。

4.根据权利要求2所述的基于多源异构数据融合的金融企业经营风险预警方法，其特征在于：所述步骤S2是将所述企业舆情信息经过tokenizer编码，并添加特殊字符，输入BERT模型获取对企业舆情信息的编码向量，关注特殊字符对应的输出结果，将输出结果送入一个softmax全连接层进行分类输出，BERT模型为企业舆情数据打上标签，最后获取企业存在消极标签舆情的次数特征。

5.根据权利要求2所述的基于多源异构数据融合的金融企业经营风险预警方法，其特征在于：所述步骤S2中企业工商信息包括对企业经营范围变更前后的文本进行清洗，统计变化前后企业经营范围文本的交并比，将通过以下公式计算出交并比作为特征输入：

式(1)中A和B分别指的是变化前后的企业经营范围变更的文本。

6.根据权利要求1所述的基于多源异构数据融合的金融企业经营风险预警方法，其特征在于：所述步骤S2中的特征指的是对于步骤S1中获得的文本数据进行量化操作后得到的金融企业经营风险模型的特征。

7.根据权利要求1所述的基于多源异构数据融合的金融企业经营风险预警方法，其特征在于：所述步骤S3中特征之间相关性是通过相关系数来刻画的，相关系数定义特征(X,Y)之间的相关程度如下式所示：

将上述公式代入到(2)式中得到最终的相关系数得计算公式：

删除相关性高的维度特征，降低训练数据的维度，加快模型训练速度，并得到训练数据集。

8.根据权利要求1所述的基于多源异构数据融合的金融企业经营风险预警方法，其特征在于，所述步骤S4中金融企业经营风险预警模型的训练包括构建LR分类器，逻辑回归是通过将线性函数的结果映射到Sigmoid()函数中，预估单个金融企业出现经营风险的概率并进行分类。

9.根据权利要求8所述的基于多源异构数据融合的金融企业经营风险预警方法，其特征在于，所述步骤S4中金融企业经营风险预警模型的训练具体包括以下步骤：

S41、逻辑回归模型输入及输出：

S42、逻辑回归模型：

并通过下面的方式对参数θ进行更新：

其中α为逻辑回归模型的学习率，当

小于某个阈值或达到最大迭代次数时，模型停止学习。

10.根据权利要求9所述的基于多源异构数据融合的金融企业经营风险预警方法，其特征在于：所述逻辑回归中的θ和α属于金融企业经营风险预警模型的超参数，属于金融企业经营风险预警模型可优化的对象。