CN113177831B - 一种应用公开数据构建的金融预警***及预警方法 - Google Patents

一种应用公开数据构建的金融预警***及预警方法 Download PDF

Info

Publication number
CN113177831B
CN113177831B CN202110271010.9A CN202110271010A CN113177831B CN 113177831 B CN113177831 B CN 113177831B CN 202110271010 A CN202110271010 A CN 202110271010A CN 113177831 B CN113177831 B CN 113177831B
Authority
CN
China
Prior art keywords
early warning
financial
warning
denotes
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110271010.9A
Other languages
English (en)
Other versions
CN113177831A (zh
Inventor
廖丽娟
林巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110271010.9A priority Critical patent/CN113177831B/zh
Publication of CN113177831A publication Critical patent/CN113177831A/zh
Application granted granted Critical
Publication of CN113177831B publication Critical patent/CN113177831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明一种应用公开数据构建的金融预警***,包括:寻找警源模块,用于监测互联网信息以获取输入数据;辨识警讯与分析警兆模块,用于将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;预报警度模块,用于预测企业的警度信息,能够对金融风险进行预警,并划分出风险等级;本发明还公开了应用公开数据构建的金融预警方法,能够高效、快速及准确得到预警信息。

Description

一种应用公开数据构建的金融预警***及预警方法
技术领域
本发明属于数据处理技术领域,具体涉及一种应用公开数据构建的金融预警***,本发明还涉及一种应用公开数据构建的金融预警方法。
背景技术
金融风险预警***,是金融监理机关为了更好的对金融经营机构实施有效监控,既是对其可能发生的金融风险进行预警、预报所建立的早期预警***。其在性质上系属一种兼具风险管理及经营评鉴的双重功能,尤其是对上市公司之财务及业务具有预防及警戒作用。其意义系指依据有关之监理法规与公司财务业务之经营原则,选定若干变数而订定之一套预警函数、指标(Indicator)、临界值或基准值(Decimal Value),或判别模型等,在金融预警实务作业上,对于财务危机公司的预测,监理者大都以传统的财务指标对金融经营机构的经营状况进行监测。
然而,目前的预警***仅依据与金融直接相关的量价数据对金融风险进行预警的方式,忽视了互联网中海量文本数据的影响,其存在预警准确性低的问题。
发明内容
本发明的目的是提供一种应用公开数据构建的金融预警***,能够对金融风险进行预警。
本发明的第二个目的是提供一种应用公开数据构建的金融预警方法,能够提供有效的金融风险预警方式。
本发明所采用的技术方案是,一种应用公开数据构建的金融预警***,寻找警源模块,用于监测互联网信息以获取输入数据;
辨识警讯与分析警兆模块,用于将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;
预报警度模块,用于预测企业的警度信息。
本发明的特征还在于,
互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情公开数据。
警度等级包括有警、无警两个级别。
本发明所采用的第二种技术方案是,一种应用公开数据构建的金融预警方法,具体按照以下步骤实施:
步骤1,实时监测互联网信息以获取输入数据;
步骤2,利用BERT模型将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;
步骤3,利用LSTM预测企业的警度信息,划分出不同的警度等级。
本发明的特征还在于,
步骤1中,互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情公开数据。
步骤2的具体过程为:
步骤2.1,进行词嵌入,词嵌入表达式为:
X=Epos(onehot(S)+Eseg) (1)
式(1)中,onehot表示词嵌入,Eseg表示句子嵌入,Epos表示位置嵌入;
步骤2.2,定义单注意力机制:
式(2)中,WQ、WK、WV是可训练的参数;softmax表示softmax归一化函数,将值映像到0-1的范围内;d表示向量的维度;
步骤2.3,将多个单注意力机制进行组合,组成多头注意力机制层,多头注意力机制层表达式为:
MultiHead(X)=Concat(Att1,...,Atth)WO (3)
式(3)中,Concate表示链接操作,h表示注意力机制头的数目,WO表示可训练的参数;
步骤2.4,将多头注意力机制层的输出向量与词嵌入相加,构成残差网络,再经过批次归一化得到注意力机制层的最终输出:
Matt=BN(MultiHead(X)+X) (4)
式(4)中,BN就表示批次归一化;
步骤2.5,步骤2.4得到的最终输出经过带有残差网络与批次归一化的全连接层,得到文文件特征B:
B=BERT(X)=BN(Dense(Matt)+Matt) (5);
对于字数为n的文档S,文文件特征B={b1,…,bn+1},其中,d表示向量的维度。
步骤3的具体过程为:
步骤3.1,假设上一LSTM的隐藏层输出ht-1和第t个文档向量Bt,则LSTM可以表达式为:
ft=σ(Wf·Y+bf) (7)
it=σ(Wi·Y+bi) (8)
ot=σ(Wo·Y+bo) (9)
ct=ft⊙ct-1+it⊙tanh(Wc·Y+bc) (10)
ht=ot⊙tanh(ct) (11)
式中,Wi,Wf,Wo,Wc,bi,bf,bo,bc是可训练的参数,σ是sigmod启动函数,⊙表示Hadamard乘积,ct表示第t个文档的输出;
步骤3.2,通过步骤3.1得到的向量ht预测企业的警度等级:
lt=softmax(Dense(ht)) (12)。
当lt≥0.5表示有警,即异常;当lt<0.5表示无警,即正常。
本发明的有益效果是:
(1)本发明一种应用公开数据构建的金融预警***,避免依据与金融直接相关的量价数据对金融风险进行预警的方式造成了准确性低的问题;
(2)本发明一种应用公开数据构建的金融预警方法,通过对互联网中的海量文本数据进行特征提取,产生预测企业的警度信息,提高了金融风险预测的准确性。
附图说明
图1为本发明一种应用公开数据构建的金融预警方法的流程图;
图2为本发明一种应用公开数据构建的金融预警方法中步骤2的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种应用公开数据构建的金融预警***,包括:寻找警源模块,用于监测互联网信息以获取输入数据,互联网信息包括业官网、财报、交易、新闻、杂质、媒体、网络及舆情等公开数据;
辨识警讯与分析警兆模块,用于将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;
预报警度模块,用于预测企业的警度信息,警度等级分为有警和无警两个级别。
本发明提供一种应用公开数据构建的金融预警方法,通过应用公开数据构建的金融预警***实现,如图1所示,具体按照以下步骤实施:
步骤1,实时监测互联网信息以获取输入数据,其中互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情等公开数据;
步骤2,利用金融新闻数据预训练的BERT模型将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;
BERT是2018年由***提出的语言模型,通过在大笔资料上的预训练,提高在特定任务上的结果,BERT网络主要由三个部分组成,词嵌入层,注意力机制层与全连接层。词嵌入层将字转化为编码,这些编码通过由注意力机制层与全连接层组成的多层网络模块,就是最后获得的输出。词嵌入层包括三种词嵌入,字嵌入,句子嵌入,和位置嵌入。其中字嵌入就是对字进行编码,句子嵌入是用编码表示不同的句子,位置嵌入是使用学习的位置嵌入;
步骤2.1,假设n个文文件的文文件集合S={s1,s2,…,sn},文文件集合按时间排序,进行词嵌入,词嵌入表达式为:
X=Epos(onehot(S)+Eseg) (1)
式(1)中,onehot表示词嵌入,Eseg表示句子嵌入,Epos表示位置嵌入;
步骤2.2,定义单注意力机制:
式(2)中,WQ、WK、WV是可训练的参数;softmax表示softmax归一化函数,将值映像到0-1的范围内;d表示向量的维度;
步骤2.3,将多个单注意力机制进行组合,组成多头注意力机制层,多头注意力机制层表达式为:
MultiHead(X)=Concat(Att1(X),...,Atth(X))WO (3)
式(3)中,Concate表示链接操作,h表示注意力机制头的数目,WO表示可训练的参数;
步骤2.4,将多头注意力机制层的输出向量与词嵌入相加,构成残差网络,再经过批次归一化得到注意力机制层的最终输出:
Matt=BN(MultiHead(X)+X) (4)
式(4)中,BN就表示批次归一化;
步骤2.5,步骤2.4得到的最终输出经过带有残差网络与批次归一化的全连接层,得到文文件特征B:
B=BERT(X)=BN(Dense(Matt)+Matt) (5);
对于字数为n的文档S,文文件特征B={b1,…,bn+1},其中,d表示向量的维度,Dense表示全连接层;
步骤3,利用LSTM预测企业的警度信息,划分出不同的警度等级;
长短期记忆(long short-term memory,LSTM)是一种用于进程列数据的神经网络。相比一般网络,他能够进程列变化的数据。比如某个文档的意思会因为上一个文档的内容不同而有不同的含义,LSTM就能够很好的解决这类问题;
步骤3.1,由于每一个LSTM单元都存在两个输入,假设上一LSTM的隐藏层输出ht-1和第t个文档向量Bt,则LSTM可以表达式为:
ft=σ(Wf·Y+bf) (7)
it=σ(Wi·Y+bi) (8)
ot=σ(Wo·Y+bo) (9)
ct=ft⊙ct-1+it⊙tanh(Wc·Y+bc) (10)
ht=ot⊙tanh(ct) (11)
式中,Wi,Wf,Wo,Wc,bi,bf,bo,bc是可训练的参数,σ是sigmod启动函数,⊙表示Hadamard乘积,ct表示第t个文档的输出;
步骤3.2,通过步骤3.1得到的向量ht预测企业的警度等级:
lt=softmax(Dense(ht)) (12)
当lt≥0.5表示有警,即异常;
当lt<0.5表示无警,即正常。

Claims (1)

1.一种应用公开数据构建的金融预警方法,其特征在于,具体按照以下步骤实施:
步骤1,实时监测互联网信息以获取输入数据;
所述步骤1中,互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情公开数据;
步骤2,利用BERT模型将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;
所述步骤2的具体过程为:
步骤2.1,进行词嵌入,词嵌入表达式为:
X=Epos(onehot(S)+Eseg) (1)
式(1)中,onehot表示词嵌入,Eseg表示句子嵌入,Epos表示位置嵌入,S为n个文件的文件集合,S={s1,s2,…,sn};
步骤2.2,定义单注意力机制:
式(2)中,WQ、WK、WV是可训练的参数;softmax表示softmax归一化函数,将值映像到0-1的范围内;d表示向量的维度;
步骤2.3,将多个单注意力机制进行组合,组成多头注意力机制层,多头注意力机制层表达式为:
MultiHead(X)=Concat(Att1,...,Atth)WO (3)
式(3)中,Concate表示链接操作,h表示注意力机制头的数目,WO表示可训练的参数;
步骤2.4,将多头注意力机制层的输出向量与词嵌入相加,构成残差网络,再经过批次归一化得到注意力机制层的最终输出:
Matt=BN(MultiHead(X)+X) (4)
式(4)中,BN就表示批次归一化;
步骤2.5,步骤2.4得到的最终输出经过带有残差网络与批次归一化的全连接层,得到文件特征B:
B=BERT(X)=BN(Dense(Matt)+Matt) (5);
对于字数为n的文档S,文件特征B={b1,…,bn+1},其中,d表示向量的维度;
步骤3,利用LSTM预测企业的警度信息,划分出不同的警度等级;
所述步骤3的具体过程为:
步骤3.1,假设上一LSTM的隐藏层输出ht-1和第t个文档向量Bt,则LSTM可以表达式为:
ft=σ(Wf·Y+bf) (7)
it=σ(Wi·Y+bi) (8)
ot=σ(Wo·Y+bo) (9)
ct=ft⊙ct-1+it⊙tanh(Wc·Y+bc) (10)
ht=ot⊙tanh(ct) (11)
式中,Wi,Wf,Wo,Wc,bi,bf,bo,bc是可训练的参数,σ是sigmod启动函数,⊙表示Hadamard乘积,ct表示第t个文档的输出;
步骤3.2,通过步骤3.1得到的向量ht预测企业的警度等级:
lt=softmax(Dense(ht)) (12);
当lt≥0.5表示有警,即异常;当lt<0.5表示无警,即正常。
CN202110271010.9A 2021-03-12 2021-03-12 一种应用公开数据构建的金融预警***及预警方法 Active CN113177831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110271010.9A CN113177831B (zh) 2021-03-12 2021-03-12 一种应用公开数据构建的金融预警***及预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110271010.9A CN113177831B (zh) 2021-03-12 2021-03-12 一种应用公开数据构建的金融预警***及预警方法

Publications (2)

Publication Number Publication Date
CN113177831A CN113177831A (zh) 2021-07-27
CN113177831B true CN113177831B (zh) 2024-05-17

Family

ID=76922013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110271010.9A Active CN113177831B (zh) 2021-03-12 2021-03-12 一种应用公开数据构建的金融预警***及预警方法

Country Status (1)

Country Link
CN (1) CN113177831B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理***及方法
CN111241300A (zh) * 2020-01-09 2020-06-05 中信银行股份有限公司 舆情预警以及风险传播分析方法、***、设备及存储介质
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN111523301A (zh) * 2020-06-05 2020-08-11 泰康保险集团股份有限公司 合同文档合规性检查方法及装置
CN111831895A (zh) * 2019-04-19 2020-10-27 天津科技大学 一种基于lstm模型的网络舆情预警方法
CN112231472A (zh) * 2020-09-18 2021-01-15 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN112395482A (zh) * 2020-11-06 2021-02-23 北京工商大学 一种食品安全事件预警平台

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11354506B2 (en) * 2019-07-30 2022-06-07 Baidu Usa Llc Coreference-aware representation learning for neural named entity recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831895A (zh) * 2019-04-19 2020-10-27 天津科技大学 一种基于lstm模型的网络舆情预警方法
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理***及方法
CN111241300A (zh) * 2020-01-09 2020-06-05 中信银行股份有限公司 舆情预警以及风险传播分析方法、***、设备及存储介质
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN111523301A (zh) * 2020-06-05 2020-08-11 泰康保险集团股份有限公司 合同文档合规性检查方法及装置
CN112231472A (zh) * 2020-09-18 2021-01-15 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN112395482A (zh) * 2020-11-06 2021-02-23 北京工商大学 一种食品安全事件预警平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于自注意力和胶囊网络的短文本情感分析;徐龙;;计算机与现代化;20200715(07);全文 *

Also Published As

Publication number Publication date
CN113177831A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
US11556992B2 (en) System and method for machine learning architecture for enterprise capitalization
Hao et al. Predicting stock price trends based on financial news articles and using a novel twin support vector machine with fuzzy hyperplane
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
Sharmin et al. Attention-based convolutional neural network for Bangla sentiment analysis
CN111950932A (zh) 基于多源信息融合的中小微企业综合质量画像方法
CN117453921B (zh) 一种大语言模型的数据信息标签处理方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
Liang et al. A stock time series forecasting approach incorporating candlestick patterns and sequence similarity
US20240078389A1 (en) Generative language model for few-shot aspect-based sentiment analysis
Kim et al. Stock price prediction through sentiment analysis of corporate disclosures using distributed representation
Debener et al. Detecting insurance fraud using supervised and unsupervised machine learning
Chen et al. Association mining of near misses in hydropower engineering construction based on convolutional neural network text classification
Singh et al. A Novel Approach of Stock Price Direction and Price Prediction Based on Investor’s Sentiments
Dong et al. Exploring the linear and nonlinear causality between internet big data and stock markets
Anese et al. Impact of public news sentiment on stock market index return and volatility
CN113177831B (zh) 一种应用公开数据构建的金融预警***及预警方法
Schwenker et al. EXSCLAIM!: Harnessing materials science literature for self-labeled microscopy datasets
Li et al. A deep learning approach of financial distress recognition combining text
Tian et al. Machine learning in internet financial risk management: A systematic literature review
Kim et al. Do SEC filings indicate any trends? Evidence from the sentiment distribution of forms 10-K and 10-Q with FinBERT
CN110705597A (zh) 基于事件因果关系抽取的网络苗头事件检测方法及***
Arora et al. Prediction of corporate bankruptcy using financial ratios and news
Wu et al. Interpretable corn future price forecasting with multivariate time series
Baginski Automatic Detection and classification of suicide-related content in English texts
CN118171645B (zh) 一种基于文本分类的商业信息分析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant