CN115545437A - 一种基于多源异构数据融合的金融企业经营风险预警方法 - Google Patents

一种基于多源异构数据融合的金融企业经营风险预警方法 Download PDF

Info

Publication number
CN115545437A
CN115545437A CN202211164313.1A CN202211164313A CN115545437A CN 115545437 A CN115545437 A CN 115545437A CN 202211164313 A CN202211164313 A CN 202211164313A CN 115545437 A CN115545437 A CN 115545437A
Authority
CN
China
Prior art keywords
early warning
operation risk
model
financial
risk early
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211164313.1A
Other languages
English (en)
Inventor
张磊
陶虹
张旭方
熊懿清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Chengfang Information Technology Co ltd
Original Assignee
Suzhou Chengfang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Chengfang Information Technology Co ltd filed Critical Suzhou Chengfang Information Technology Co ltd
Priority to CN202211164313.1A priority Critical patent/CN115545437A/zh
Publication of CN115545437A publication Critical patent/CN115545437A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Mathematical Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)

Abstract

本发明涉及一种基于多源异构数据融合的金融企业经营风险预警方法,针对金融企业经营风险模型构建的数据获取模块,通过数据获取模块获取的数据进行分析、加工后构建特征,对构建的特征进行相关性分析获得相关系数,筛选获得金融企业经营风险预警模型特征,融合网格搜索和交叉验证策略对金融企业经营风险预警模型进行训练,根据金融企业经营风险预警模型对金融企业进行实时监控,并提供监管的优先级名单;本发明提供的基于多源异构数据融合的金融企业经营风险预警方法充分挖掘各个预警特征背后的交叉和掩藏关系,可以根据模型得到金融企业预警的优先级,大大节约了人力成本,提升监管的效率和准确率。

Description

一种基于多源异构数据融合的金融企业经营风险预警方法
技术领域
本发明涉及自然语言处理(NLP)和机器学习(ML)领域,具体涉及一种基于多源异构数据融合的金融企业经营风险预警方法。
背景技术
现有技术中的金融企业经营风险预警方法,主要用于政府监管部门对金融企业的监管,可以划分企业的金融风险等级,实现对金融企业监管的优先级划分,提升监管的效率。金融市场主体可以通过线上、线下的形式,以高额的利息回报吸引大量的资本。金融市场主体涉及资本大,如果一旦出现“暴雷”情况,就会产生巨大的社会影响,对人民群众的财产带来不可弥补的损失。正确地对金融市场主体的经营风险进行分析与预测,准确地对风险作出预警,并迅速地措施与决策,是规避金融风险的有效途径。建立金融企业的经营风险预警模型,坚持用数据说话,对于指导相关部门执法的针对性、时效性,维护社会稳定有重大意义。
在自然语言处理领域,预训练语言模型在2015年被首次提出,但在2018年才发生了重大进展,以Google提出的BERT为代表的预训练语言模型,被证实在大量NLP任务上都很有效,例如ELMO,XLNet,GPT,RoBERTa,ALBERT等。这些预训练语言模型均是无监督形式,使得模型能够从无标注语料中获得通用的语言建模能力。而预训练模型的成功之处是Self-Attention机制的使用,它可以有效融合文本前后之间的语义关系,将文本编码成掩藏语义关系的特征向量,在一些下游的NLP任务中,借助预训练模型的文本表达能力,使用少量的标注数据,对下游的NLP任务进行微调,使得模型不需要大量的训练数据也能够达到不错的效果,可很大程度缓解低资源任务对大量标注数据的需求。
当前金融企业经营风险预警技术主要是接到投诉电话,相关部门去被投诉的企业查访,但投诉电话也可能不准确,过程耗时且需要的人力大;较为先进一些的地区会构建相应的金融企业风险预警的指标体系或使用统计预警的方式来实现,但都不能够将多源的数据融合使用,发现数据背后特征之间的交叉掩藏规律,进行金融企业的风险预警。
本发明提供了一种能够充分挖掘各个预警特征背后的交叉和掩藏关系,可以根据模型得到金融企业预警的优先级,大大节约了人力成本,提升监管的效率和准确率的一种基于多源异构数据融合的金融企业经营风险预警方法。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于多源异构数据融合的金融企业经营风险预警方法。
本发明的基于多源异构数据融合的金融企业经营风险预警方法,包括以下步骤:
S1、针对金融企业经营风险模型构建的数据获取模块;
S2、对步骤S1中通过数据获取模块获取的数据进行分析、加工后构建特征;
S3、对步骤S2构建的特征进行相关性分析获得相关系数,筛选获得金融企业经营风险预警模型特征;
S4、融合网格搜索和交叉验证策略对金融企业经营风险预警模型进行训练;
S5、根据金融企业经营风险预警模型对金融企业进行实时监控,并提供监管的优先级名单。
在本发明提供的具体实施例中,所述步骤S2中通过数据获取模块获取的数据包括12345热线的工单内容、企业舆情信息、企业工商信息以及公安经侦的经营异常金融企业名单。
在本发明提供的具体实施例中,所述步骤S2中的12345热线的工单内容是通过对12345热线使用BERT算法进行提取,借助预训练模型的有效的特征表达能力,对一小部分的工单中企业名称进行标注,进行12345工单中企业实体识别的模型微调,使用训练得到的模型,在新的工单内容进行自动的企业实体识别,得到被投诉工单中的标准企业名称,再使用BLEU算法对提取的企业进行标准化映射,最后获取12345热线中企业被投诉的次数特征。
在本发明提供的具体实施例中,所述步骤S2是将所述企业舆情信息经过tokenizer编码,并添加特殊字符,输入BERT模型获取对企业舆情信息的编码向量,关注特殊字符对应的输出结果,将输出结果送入一个softmax全连接层进行分类输出,BERT模型为企业舆情数据打上标签,最后获取企业存在消极标签舆情的次数特征。
在本发明提供的具体实施例中,所述步骤S2中企业工商信息包括对企业经营范围变更前后的文本进行清洗,包括;一、标点符号统一化,因为文本中中英文符号使用的混淆,会导致后续文本切分的错误,导致文本相似度计算的误差,本案列中全部清洗成中文状态下的标点符号;二、经营范围文本中一些无关文本的删除,如”许可项目“等内容;对于清洗后的文本按照事项名称进行切分,得到经营范围变更前后文本的两个事项列表,统计变化前后企业经营范围文本的交并比,将通过以下公式计算出交并比作为特征输入:
Figure BDA0003861524870000031
式(1)中A和B分别指的是变化前后的企业经营范围变更的文本清洗后,经过切分的事项列表。
在本发明提供的具体实施例中,所述步骤S2中的特征指的是对于步骤S1中获得的文本数据进行量化操作后得到的金融企业经营风险模型的文本特征,并且融合已经包含详细数据条目的企业工商信息特征等,作为金融企业经营风险模型的特征。
在本发明提供的具体实施例中,所述步骤S3中特征之间相关性是通过相关系数来刻画的,相关系数定义特征(X,Y)之间的相关程度计算如下式所示:
Figure BDA0003861524870000032
(2)式中cov(X,Y)为协方差,σ为标准差,计算公式如式(3)(4)和(5)所示:
Figure BDA0003861524870000033
Figure BDA0003861524870000034
Figure BDA0003861524870000035
将上述公式代入到(2)式中得到最终的相关系数得计算公式:
Figure BDA0003861524870000036
删除相关性高的维度特征,降低训练数据的维度,加快模型训练速度,并得到训练数据集,降低模型过拟合的风险,在一定程度上会提升模型泛化能力,删除相关性高的特征后留下的特征数据就是用于金融企业经营风险预警模型的训练数据集。
在本发明提供的具体实施例中,所述步骤S4中金融企业经营风险预警模型的训练包括构建LR分类器,将步骤S3中得到的特征作为训练LR分类器的数据,公安经侦的经营异常金融企业名单作为训练LR分类器的标签数据,对数据进行均匀划分,训练LR金融企业经营风险预警模型。逻辑回归是通过将线性函数的结果映射到Sigmoid()函数中,预估单个金融企业出现经营风险的概率。
在本发明提供的具体实施例中,所述步骤S4中金融企业经营风险预警模型的训练具体包括以下步骤:
S41、逻辑回归模型输入及输出:
Figure BDA0003861524870000041
S42、逻辑回归模型:
Figure BDA0003861524870000042
通过Logistic函数归一化到(0,1)间,y的取值有特殊的含义,它表示结果取1的概率;
S43、逻辑回归损失函数:得到逻辑回归的表达式后,采用极大似然估计法求解模型中的参数,似然函数的表达式为:
Figure BDA0003861524870000043
S44、逻辑回归采用梯度下降优化损失:对损失函数的参数进行求导,使用梯度下降的方式来更新参数θ,其中对参数θ求导的过程如下:
Figure BDA0003861524870000044
并通过下面的方式对参数θ进行更新:
Figure BDA0003861524870000045
其中α为逻辑回归模型的学习率,当
Figure BDA0003861524870000051
小于某个阈值或达到最大迭代次数时,模型停止学习。
在本发明提供的具体实施例中,所述逻辑回归中的θ和α属于金融企业经营风险预警模型的超参数,属于金融企业经营风险预警模型可优化的对象,对模型中超参数的优化可以进一步提升模型的性能,故在金融企业风险预警模型训练的过程中,使用了网格搜索交叉验证的策略,提升了该模型的泛化性能。
借由上述方案,本发明至少具有以下优点:
1、建立金融企业的经营风险预警模型对于指导相关部门执法的针对性、时效性,维护社会稳定有重大意义;
2、通过金融风险预警模型(LR)可以将金融企业的风险进行量化,辅助监管部门对企业进行预测式监管,降低人民财产损失,提升监管的效率;
3、充分挖掘各个预警特征背后的交叉和掩藏关系,可以根据金融企业经营风险预警模型得到金融企业预警的优先级,大大节约了人力成本,提升监管的效率和准确率;
4、金融企业经营风险预警模型的精确率(Precision)为0.886,召回率(Recall)为0.838,F1值为0.861;
5、金融企业经营风险预警模型预测的结果是位于0-1之间的一个概率值,可以设置更多预警临界值,包括优秀值a1、良好值a2、一般值a3、较差值a4、危险值a5,当某企业预警指数超过较差值a4时,黄灯预警,建议执法部门解决,当超过危险值a5时,红灯预警,说明应企业存在经营风险的可能性非常大等情况,为监管部门提供企业监管名单和监管的优先级,提升监管的效率。
综上,模型预测的准确性、有效性、及时性在实战中得到了充分认可和肯定,实现了“登管协同、良性循环”的双赢模式。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明的基于多源异构数据融合的金融企业经营风险预警方法的流程图;
图2是本发明的基于多源异构数据融合的金融企业经营风险预警方法中获取12345热线中企业被投诉的次数特征的流程图;
图3是本发明的基于多源异构数据融合的金融企业经营风险预警方法中金融企业经营风险预警模型的训练流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
自然语言处理(Natural Language Processing,NLP)是一种让计算机能够理解人类语言的技术,而分词技术是NLP的一种基础任务。NLP算法通常以词作为基本单位,将深层次的语法进行语义分析。当建立NLP模型时,一般需要建模人员掌握一定的语言学知识以利于提取合适的特征。而深度学习优秀的泛化能力,能够无监督地基于数据抽取特征,并从训练数据中学习到上下文信息特征,从而提供优质的训练数据,减少对建模人员的语言学要求,使实验者只需要设计神经网络的结构。
多源异构数据融合用于本发明中的数据来源多样,获取的数据结构也不一样,而且大多数数据是动态实时更新的,多源异构数据融合就是可以自动的将这些来源不同的数据可以快速的自动进行更新的流程,为后续处理和分析数据提供基础。
在得到逻辑回归的表达式后,需要去求解模型中的参数。本发明采用统计学上常使用的极大似然估计法来求解,即找到一组参数,使得在这组参数下,数据的似然度(概率)最大。
实施例
本发明提供的一种基于多源异构数据融合的金融企业经营风险预警方法,包括以下步骤:
S1、针对金融企业经营风险模型构建的数据获取模块,包括获取12345投诉的工单内容、企业舆情信息、企业工商信息以及公安经侦的经营异常金融企业名单,其中企业工商信息包括注册资本、实缴资本、注册地址、经营地址、经营状态、注册时长、市场主体类型、公积金缴纳、社保缴纳、审批办件记录、处罚记录、经营范围变更、注册资本变更、法人关联注销企业等;
S2、对获取的数据进行分析、加工构建特征,对于文本数据需要进行量化操作得到金融企业经营风险预警模型的特征,包括12345热线的工单内容、企业舆情信息、企业工商信息以及公安经侦的经营异常金融企业名单;
S3、对构建的金融企业经营风险模型特征进行相关性分析获得相关系数,包括:
①12345投诉企业提取算法是使用相应的文本信息抽取算法,常见的有条件随机场、LSTM、BERT等算法,直接从12345投诉文本中提取被投诉的企业,比如对12345投诉使用BERT算法进行被投诉企业提取,得到被投诉的企业,这里得到的可能是企业的简称也可能是企业全称,再使用BLEU算法对提取的企业进行标准化映射,即将企业的简称映射到全称上,最后获取12345投诉中企业被投诉次数特征;
②舆情文本分类算法指的是以找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类的算法。其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中,为舆情文本打上相应的标签。企业舆情数据对企业经营风险的影响是至关重要的,使用BERT分类算法,即将舆情数据经过tokenizer编码,并添加并加入一些特殊字符,如[CLS],[SEP]等,输入BERT模型对获取对舆情文本的编码向量,关注[CLS]对应的输出结果即可,将其输出结果再送入一个softmax全连接层进行分类输出即可,模型为企业舆情数据打上“积极”、“中立”、“消极”标签,最后获取企业近半年内存在消极舆情的次数特征。经营范围变更前后相似度算法指的是一个企业在存续过程中可能会进行经营范围变更,用来衡量经营范围变更前后的幅度,相似度的值在一定程度上可以说明企业经营的稳定性;
③企业在存续过程中可能会进行经营范围变更,经营范围变更前后相似度算法指的是一个企业在存续过程中可能会进行经营范围变更,用来衡量经营范围变更前后的幅度,相似度的值在一定程度上可以说明企业经营的稳定性,对于企业经营范围变更前后的文本进行清洗,经营范围的事项名称都是存在规范表述的,故在进行企业经营范围变更前后的文本相似度时,统计两个文本经营范围中事项的交并比,见式(1),将计算出的交并比作为特征输入:
Figure BDA0003861524870000081
式(1)中A和B分别指的是变化前后的企业经营范围变更的文本,相关系数定义特征(X,Y)之间的相关程度如下式所示:
Figure BDA0003861524870000082
式(2)中cov(X,Y)为协方差,σ为标准差,计算公式如式(3)(4)和(5)所示:
Figure BDA0003861524870000083
Figure BDA0003861524870000084
Figure BDA0003861524870000085
将上述公式代入到(2)式中得到最终的相关系数得计算公式:
Figure BDA0003861524870000086
删除相关性高的维度特征,降低训练数据的维度,加快模型训练速度,并得到训练数据集;
根据计算特征与特征之间的相关系数的大小,可判定两两特征之间的相关程度。一般情况下我们取相关系数的绝对值,然后将相关系数值大于90%~100%的两两特征中的某一个特征剔除,因为值说明两两特征之间基本一致,可相互替代,最后留下的金融企业的经营风险预警模型特征包括:企业工商信息(注册资本、经营状态、法定代表人关联其他注销企业的数量、注册时长、企业类型、政策地址是否重复、注册地址是否存疑、公积金缴纳人数、近半年公积金缴纳情况、社保缴纳人数、近半年来审批办件次数、是否存在处罚记录、被处罚的金额和次数、经营范围变更次数、经营范围变更后的相似度、注册资本减资比例);企业舆情信息(12345投诉次数、网络舆情次数)。
S4、融合网格搜索和交叉验证策略对金融企业经营风险预警模型进行训练;
逻辑回归是通过将线性函数的结果映射到Sigmoid()函数中,预估单个金融企业出现经营风险的概率并分类。
Sigmoid()函数是归一化函数,可以把连续数值转化为0到1的范围,提供一种将连续型数据转换为离散型数据的方法。
金融企业经营风险预警模型的训练具体包括以下步骤:
S41、逻辑回归模型输入及输出:
Figure BDA0003861524870000091
S42、逻辑回归模型:
Figure BDA0003861524870000092
通过Logistic函数归一化到(0,1)间,y的取值有特殊的含义,它表示结果取1的概率;
S43、逻辑回归损失函数:得到逻辑回归的表达式后,采用极大似然估计法求解模型中的参数,似然函数的表达式为:
Figure BDA0003861524870000093
S44、逻辑回归采用梯度下降优化损失:对损失函数的参数进行求导,使用梯度下降的方式来更新参数θ,其中对参数θ求导的过程如下:
Figure BDA0003861524870000094
并通过下面的方式对参数θ进行更新:
Figure BDA0003861524870000095
其中α为逻辑回归模型的学习率,当
Figure BDA0003861524870000096
小于某个阈值或达到最大迭代次数时,模型停止学习,逻辑回归中的θ和α属于金融企业经营风险预警模型的超参数,属于金融企业经营风险预警模型可优化的对象,交叉验证是为了得到可靠稳定的模型。
S5、构建金融企业风险预警模块,针对得到的模型,使用该风险预警模块用于对金融企业经营风险的分析,为监管部门提供金融企业监管得优先级名单。
通过以上具体实施方式,可以获得以下的有益技术效果:
1、建立金融企业的经营风险预警模型对于指导相关部门执法的针对性、时效性,维护社会稳定有重大意义;
2、通过金融风险预警模型(LR)可以将金融企业的风险进行量化,辅助监管部门对企业进行预测式监管,降低人民财产损失,提升监管的效率;
3、充分挖掘各个预警特征背后的交叉和掩藏关系,可以根据金融企业经营风险预警模型得到金融企业预警的优先级,大大节约了人力成本,提升监管的效率和准确率;
4、金融企业经营风险预警模型的精确率(Precision)为0.886,召回率(Recall)为0.838,F1值为0.861;
5、金融企业经营风险预警模型预测的结果是位于0-1之间的一个概率值,可以设置更多预警临界值,包括优秀值a1、良好值a2、一般值a3、较差值a4、危险值a5,当某企业预警指数超过较差值a4时,黄灯预警,建议执法部门解决,当超过危险值a5时,红灯预警,说明应企业存在经营风险的可能性非常大等情况,为监管部门提供企业监管名单和监管的优先级,提升监管的效率。
综上,模型预测的准确性、有效性、及时性在实战中得到了充分认可和肯定,实现了“登管协同、良性循环”的双赢模式。
以上仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (10)

1.一种基于多源异构数据融合的金融企业经营风险预警方法,其特征在于,包括以下步骤:
S1、针对金融企业经营风险模型构建的数据获取模块;
S2、对步骤S1中通过数据获取模块获取的数据进行分析、加工后构建特征;
S3、对步骤S2构建的特征进行相关性分析获得相关系数,筛选获得金融企业经营风险预警模型特征;
S4、融合网格搜索和交叉验证策略对金融企业经营风险预警模型进行训练;
S5、根据金融企业经营风险预警模型对金融企业进行实时监控,并提供监管的优先级名单。
2.根据权利要求1所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述步骤S2中通过数据获取模块获取的数据包括12345热线的工单内容、企业舆情信息、企业工商信息以及公安经侦的经营异常金融企业名单。
3.根据权利要求2所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述步骤S2中的12345热线的工单内容是通过对12345热线使用BERT算法进行提取,得到被投诉的企业,再使用BLEU算法对提取的企业进行标准化映射,最后获取12345热线中企业被投诉的次数特征。
4.根据权利要求2所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述步骤S2是将所述企业舆情信息经过tokenizer编码,并添加特殊字符,输入BERT模型获取对企业舆情信息的编码向量,关注特殊字符对应的输出结果,将输出结果送入一个softmax全连接层进行分类输出,BERT模型为企业舆情数据打上标签,最后获取企业存在消极标签舆情的次数特征。
5.根据权利要求2所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述步骤S2中企业工商信息包括对企业经营范围变更前后的文本进行清洗,统计变化前后企业经营范围文本的交并比,将通过以下公式计算出交并比作为特征输入:
Figure FDA0003861524860000021
式(1)中A和B分别指的是变化前后的企业经营范围变更的文本。
6.根据权利要求1所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述步骤S2中的特征指的是对于步骤S1中获得的文本数据进行量化操作后得到的金融企业经营风险模型的特征。
7.根据权利要求1所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述步骤S3中特征之间相关性是通过相关系数来刻画的,相关系数定义特征(X,Y)之间的相关程度如下式所示:
Figure FDA0003861524860000022
(2)式中cov(X,Y)为协方差,σ为标准差,计算公式如式(3)(4)和(5)所示:
Figure FDA0003861524860000023
Figure FDA0003861524860000024
Figure FDA0003861524860000025
将上述公式代入到(2)式中得到最终的相关系数得计算公式:
Figure FDA0003861524860000026
删除相关性高的维度特征,降低训练数据的维度,加快模型训练速度,并得到训练数据集。
8.根据权利要求1所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于,所述步骤S4中金融企业经营风险预警模型的训练包括构建LR分类器,逻辑回归是通过将线性函数的结果映射到Sigmoid()函数中,预估单个金融企业出现经营风险的概率并进行分类。
9.根据权利要求8所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于,所述步骤S4中金融企业经营风险预警模型的训练具体包括以下步骤:
S41、逻辑回归模型输入及输出:
Figure FDA0003861524860000031
S42、逻辑回归模型:
Figure FDA0003861524860000032
通过Logistic函数归一化到(0,1)间,y的取值有特殊的含义,它表示结果取1的概率;
S43、逻辑回归损失函数:得到逻辑回归的表达式后,采用极大似然估计法求解模型中的参数,似然函数的表达式为:
Figure FDA0003861524860000033
S44、逻辑回归采用梯度下降优化损失:对损失函数的参数进行求导,使用梯度下降的方式来更新参数θ,其中对参数θ求导的过程如下:
Figure FDA0003861524860000034
并通过下面的方式对参数θ进行更新:
Figure FDA0003861524860000035
其中α为逻辑回归模型的学习率,当
Figure FDA0003861524860000036
小于某个阈值或达到最大迭代次数时,模型停止学习。
10.根据权利要求9所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述逻辑回归中的θ和α属于金融企业经营风险预警模型的超参数,属于金融企业经营风险预警模型可优化的对象。
CN202211164313.1A 2022-09-23 2022-09-23 一种基于多源异构数据融合的金融企业经营风险预警方法 Pending CN115545437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211164313.1A CN115545437A (zh) 2022-09-23 2022-09-23 一种基于多源异构数据融合的金融企业经营风险预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211164313.1A CN115545437A (zh) 2022-09-23 2022-09-23 一种基于多源异构数据融合的金融企业经营风险预警方法

Publications (1)

Publication Number Publication Date
CN115545437A true CN115545437A (zh) 2022-12-30

Family

ID=84730399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211164313.1A Pending CN115545437A (zh) 2022-09-23 2022-09-23 一种基于多源异构数据融合的金融企业经营风险预警方法

Country Status (1)

Country Link
CN (1) CN115545437A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787792A (zh) * 2023-12-27 2024-03-29 江苏科佳软件开发有限公司 一种基于医疗器械质量安全风险监管的方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787792A (zh) * 2023-12-27 2024-03-29 江苏科佳软件开发有限公司 一种基于医疗器械质量安全风险监管的方法及***

Similar Documents

Publication Publication Date Title
CN110532542B (zh) 一种基于正例与未标注学习的***虚开识别方法及***
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
CN111914087B (zh) 一种舆情分析方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
WO2021098651A1 (zh) 一种风险实体获取方法及装置
CN116383399A (zh) 一种事件舆情风险预测方法及***
CN112182248A (zh) 一种电价的关键政策的统计方法
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN114860882A (zh) 一种基于文本分类模型的公平竞争审查辅助方法
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配***
CN117473431A (zh) 一种基于知识图谱的机场数据分类分级方法及***
CN115545437A (zh) 一种基于多源异构数据融合的金融企业经营风险预警方法
CN111626331B (zh) 一种自动化行业分类装置及其工作方法
AL-Rubaiee et al. Techniques for improving the labelling process of sentiment analysis in the saudi stock market
CN116205350A (zh) 基于法律文书的再犯人身危险性分析预测***和方法
Luo et al. L1-regularized logistic regression for event-driven stock market prediction
KR20210001625A (ko) 뉴스 기사의 감성 정보 레이블링에 기초한 기업 부실 정보 서비스 제공 방법 및 그 장치
KR20210001649A (ko) 기업 부실 예측 프로그램
CN116304011A (zh) 一种区域产业链的生成方法、装置与存储介质
Zhang et al. TTED-PU: a transferable tax evasion detection method based on positive and unlabeled learning
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及***
KR20210001693A (ko) 뉴스 기사 레이블링 기반 기업 부실 예측 정보 서비스 제공 프로그램 기록매체
KR20210001686A (ko) 뉴스 기사 레이블링 기반 기업 부실 예측 정보 서비스 제공 프로그램
KR20210001670A (ko) 기업 부실 예측 프로그램
KR20210001645A (ko) 기업 부실 예측 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination