CN113177831B - 一种应用公开数据构建的金融预警***及预警方法 - Google Patents
一种应用公开数据构建的金融预警***及预警方法 Download PDFInfo
- Publication number
- CN113177831B CN113177831B CN202110271010.9A CN202110271010A CN113177831B CN 113177831 B CN113177831 B CN 113177831B CN 202110271010 A CN202110271010 A CN 202110271010A CN 113177831 B CN113177831 B CN 113177831B
- Authority
- CN
- China
- Prior art keywords
- early warning
- financial
- warning
- denotes
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012544 monitoring process Methods 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims description 23
- 238000010606 normalization Methods 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 6
- 239000012535 impurity Substances 0.000 claims description 5
- 230000005856 abnormality Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 6
- 230000008520 organization Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明一种应用公开数据构建的金融预警***,包括:寻找警源模块,用于监测互联网信息以获取输入数据;辨识警讯与分析警兆模块,用于将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;预报警度模块,用于预测企业的警度信息,能够对金融风险进行预警,并划分出风险等级;本发明还公开了应用公开数据构建的金融预警方法,能够高效、快速及准确得到预警信息。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种应用公开数据构建的金融预警***,本发明还涉及一种应用公开数据构建的金融预警方法。
背景技术
金融风险预警***,是金融监理机关为了更好的对金融经营机构实施有效监控,既是对其可能发生的金融风险进行预警、预报所建立的早期预警***。其在性质上系属一种兼具风险管理及经营评鉴的双重功能,尤其是对上市公司之财务及业务具有预防及警戒作用。其意义系指依据有关之监理法规与公司财务业务之经营原则,选定若干变数而订定之一套预警函数、指标(Indicator)、临界值或基准值(Decimal Value),或判别模型等,在金融预警实务作业上,对于财务危机公司的预测,监理者大都以传统的财务指标对金融经营机构的经营状况进行监测。
然而,目前的预警***仅依据与金融直接相关的量价数据对金融风险进行预警的方式,忽视了互联网中海量文本数据的影响,其存在预警准确性低的问题。
发明内容
本发明的目的是提供一种应用公开数据构建的金融预警***,能够对金融风险进行预警。
本发明的第二个目的是提供一种应用公开数据构建的金融预警方法,能够提供有效的金融风险预警方式。
本发明所采用的技术方案是,一种应用公开数据构建的金融预警***,寻找警源模块,用于监测互联网信息以获取输入数据;
辨识警讯与分析警兆模块,用于将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;
预报警度模块,用于预测企业的警度信息。
本发明的特征还在于,
互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情公开数据。
警度等级包括有警、无警两个级别。
本发明所采用的第二种技术方案是,一种应用公开数据构建的金融预警方法,具体按照以下步骤实施:
步骤1,实时监测互联网信息以获取输入数据;
步骤2,利用BERT模型将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;
步骤3,利用LSTM预测企业的警度信息,划分出不同的警度等级。
本发明的特征还在于,
步骤1中,互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情公开数据。
步骤2的具体过程为:
步骤2.1,进行词嵌入,词嵌入表达式为:
X=Epos(onehot(S)+Eseg) (1)
式(1)中,onehot表示词嵌入,Eseg表示句子嵌入,Epos表示位置嵌入;
步骤2.2,定义单注意力机制:
式(2)中,WQ、WK、WV是可训练的参数;softmax表示softmax归一化函数,将值映像到0-1的范围内;d表示向量的维度;
步骤2.3,将多个单注意力机制进行组合,组成多头注意力机制层,多头注意力机制层表达式为:
MultiHead(X)=Concat(Att1,...,Atth)WO (3)
式(3)中,Concate表示链接操作,h表示注意力机制头的数目,WO表示可训练的参数;
步骤2.4,将多头注意力机制层的输出向量与词嵌入相加,构成残差网络,再经过批次归一化得到注意力机制层的最终输出:
Matt=BN(MultiHead(X)+X) (4)
式(4)中,BN就表示批次归一化;
步骤2.5,步骤2.4得到的最终输出经过带有残差网络与批次归一化的全连接层,得到文文件特征B:
B=BERT(X)=BN(Dense(Matt)+Matt) (5);
对于字数为n的文档S,文文件特征B={b1,…,bn+1},其中,d表示向量的维度。
步骤3的具体过程为:
步骤3.1,假设上一LSTM的隐藏层输出ht-1和第t个文档向量Bt,则LSTM可以表达式为:
ft=σ(Wf·Y+bf) (7)
it=σ(Wi·Y+bi) (8)
ot=σ(Wo·Y+bo) (9)
ct=ft⊙ct-1+it⊙tanh(Wc·Y+bc) (10)
ht=ot⊙tanh(ct) (11)
式中,Wi,Wf,Wo,Wc,bi,bf,bo,bc是可训练的参数,σ是sigmod启动函数,⊙表示Hadamard乘积,ct表示第t个文档的输出;
步骤3.2,通过步骤3.1得到的向量ht预测企业的警度等级:
lt=softmax(Dense(ht)) (12)。
当lt≥0.5表示有警,即异常;当lt<0.5表示无警,即正常。
本发明的有益效果是:
(1)本发明一种应用公开数据构建的金融预警***,避免依据与金融直接相关的量价数据对金融风险进行预警的方式造成了准确性低的问题;
(2)本发明一种应用公开数据构建的金融预警方法,通过对互联网中的海量文本数据进行特征提取,产生预测企业的警度信息,提高了金融风险预测的准确性。
附图说明
图1为本发明一种应用公开数据构建的金融预警方法的流程图;
图2为本发明一种应用公开数据构建的金融预警方法中步骤2的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种应用公开数据构建的金融预警***,包括:寻找警源模块,用于监测互联网信息以获取输入数据,互联网信息包括业官网、财报、交易、新闻、杂质、媒体、网络及舆情等公开数据;
辨识警讯与分析警兆模块,用于将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;
预报警度模块,用于预测企业的警度信息,警度等级分为有警和无警两个级别。
本发明提供一种应用公开数据构建的金融预警方法,通过应用公开数据构建的金融预警***实现,如图1所示,具体按照以下步骤实施:
步骤1,实时监测互联网信息以获取输入数据,其中互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情等公开数据;
步骤2,利用金融新闻数据预训练的BERT模型将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;
BERT是2018年由***提出的语言模型,通过在大笔资料上的预训练,提高在特定任务上的结果,BERT网络主要由三个部分组成,词嵌入层,注意力机制层与全连接层。词嵌入层将字转化为编码,这些编码通过由注意力机制层与全连接层组成的多层网络模块,就是最后获得的输出。词嵌入层包括三种词嵌入,字嵌入,句子嵌入,和位置嵌入。其中字嵌入就是对字进行编码,句子嵌入是用编码表示不同的句子,位置嵌入是使用学习的位置嵌入;
步骤2.1,假设n个文文件的文文件集合S={s1,s2,…,sn},文文件集合按时间排序,进行词嵌入,词嵌入表达式为:
X=Epos(onehot(S)+Eseg) (1)
式(1)中,onehot表示词嵌入,Eseg表示句子嵌入,Epos表示位置嵌入;
步骤2.2,定义单注意力机制:
式(2)中,WQ、WK、WV是可训练的参数;softmax表示softmax归一化函数,将值映像到0-1的范围内;d表示向量的维度;
步骤2.3,将多个单注意力机制进行组合,组成多头注意力机制层,多头注意力机制层表达式为:
MultiHead(X)=Concat(Att1(X),...,Atth(X))WO (3)
式(3)中,Concate表示链接操作,h表示注意力机制头的数目,WO表示可训练的参数;
步骤2.4,将多头注意力机制层的输出向量与词嵌入相加,构成残差网络,再经过批次归一化得到注意力机制层的最终输出:
Matt=BN(MultiHead(X)+X) (4)
式(4)中,BN就表示批次归一化;
步骤2.5,步骤2.4得到的最终输出经过带有残差网络与批次归一化的全连接层,得到文文件特征B:
B=BERT(X)=BN(Dense(Matt)+Matt) (5);
对于字数为n的文档S,文文件特征B={b1,…,bn+1},其中,d表示向量的维度,Dense表示全连接层;
步骤3,利用LSTM预测企业的警度信息,划分出不同的警度等级;
长短期记忆(long short-term memory,LSTM)是一种用于进程列数据的神经网络。相比一般网络,他能够进程列变化的数据。比如某个文档的意思会因为上一个文档的内容不同而有不同的含义,LSTM就能够很好的解决这类问题;
步骤3.1,由于每一个LSTM单元都存在两个输入,假设上一LSTM的隐藏层输出ht-1和第t个文档向量Bt,则LSTM可以表达式为:
ft=σ(Wf·Y+bf) (7)
it=σ(Wi·Y+bi) (8)
ot=σ(Wo·Y+bo) (9)
ct=ft⊙ct-1+it⊙tanh(Wc·Y+bc) (10)
ht=ot⊙tanh(ct) (11)
式中,Wi,Wf,Wo,Wc,bi,bf,bo,bc是可训练的参数,σ是sigmod启动函数,⊙表示Hadamard乘积,ct表示第t个文档的输出;
步骤3.2,通过步骤3.1得到的向量ht预测企业的警度等级:
lt=softmax(Dense(ht)) (12)
当lt≥0.5表示有警,即异常;
当lt<0.5表示无警,即正常。
Claims (1)
1.一种应用公开数据构建的金融预警方法,其特征在于,具体按照以下步骤实施:
步骤1,实时监测互联网信息以获取输入数据;
所述步骤1中,互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情公开数据;
步骤2,利用BERT模型将输入数据变为警讯的过程的文档数据特征提取,以明确与预警企业相关的事件信息;
所述步骤2的具体过程为:
步骤2.1,进行词嵌入,词嵌入表达式为:
X=Epos(onehot(S)+Eseg) (1)
式(1)中,onehot表示词嵌入,Eseg表示句子嵌入,Epos表示位置嵌入,S为n个文件的文件集合,S={s1,s2,…,sn};
步骤2.2,定义单注意力机制:
式(2)中,WQ、WK、WV是可训练的参数;softmax表示softmax归一化函数,将值映像到0-1的范围内;d表示向量的维度;
步骤2.3,将多个单注意力机制进行组合,组成多头注意力机制层,多头注意力机制层表达式为:
MultiHead(X)=Concat(Att1,...,Atth)WO (3)
式(3)中,Concate表示链接操作,h表示注意力机制头的数目,WO表示可训练的参数;
步骤2.4,将多头注意力机制层的输出向量与词嵌入相加,构成残差网络,再经过批次归一化得到注意力机制层的最终输出:
Matt=BN(MultiHead(X)+X) (4)
式(4)中,BN就表示批次归一化;
步骤2.5,步骤2.4得到的最终输出经过带有残差网络与批次归一化的全连接层,得到文件特征B:
B=BERT(X)=BN(Dense(Matt)+Matt) (5);
对于字数为n的文档S,文件特征B={b1,…,bn+1},其中,d表示向量的维度;
步骤3,利用LSTM预测企业的警度信息,划分出不同的警度等级;
所述步骤3的具体过程为:
步骤3.1,假设上一LSTM的隐藏层输出ht-1和第t个文档向量Bt,则LSTM可以表达式为:
ft=σ(Wf·Y+bf) (7)
it=σ(Wi·Y+bi) (8)
ot=σ(Wo·Y+bo) (9)
ct=ft⊙ct-1+it⊙tanh(Wc·Y+bc) (10)
ht=ot⊙tanh(ct) (11)
式中,Wi,Wf,Wo,Wc,bi,bf,bo,bc是可训练的参数,σ是sigmod启动函数,⊙表示Hadamard乘积,ct表示第t个文档的输出;
步骤3.2,通过步骤3.1得到的向量ht预测企业的警度等级:
lt=softmax(Dense(ht)) (12);
当lt≥0.5表示有警,即异常;当lt<0.5表示无警,即正常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110271010.9A CN113177831B (zh) | 2021-03-12 | 2021-03-12 | 一种应用公开数据构建的金融预警***及预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110271010.9A CN113177831B (zh) | 2021-03-12 | 2021-03-12 | 一种应用公开数据构建的金融预警***及预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113177831A CN113177831A (zh) | 2021-07-27 |
CN113177831B true CN113177831B (zh) | 2024-05-17 |
Family
ID=76922013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110271010.9A Active CN113177831B (zh) | 2021-03-12 | 2021-03-12 | 一种应用公开数据构建的金融预警***及预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177831B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209401A (zh) * | 2020-01-03 | 2020-05-29 | 西安电子科技大学 | 网络舆情文本信息情感极性分类处理***及方法 |
CN111241300A (zh) * | 2020-01-09 | 2020-06-05 | 中信银行股份有限公司 | 舆情预警以及风险传播分析方法、***、设备及存储介质 |
CN111401061A (zh) * | 2020-03-19 | 2020-07-10 | 昆明理工大学 | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 |
CN111523301A (zh) * | 2020-06-05 | 2020-08-11 | 泰康保险集团股份有限公司 | 合同文档合规性检查方法及装置 |
CN111831895A (zh) * | 2019-04-19 | 2020-10-27 | 天津科技大学 | 一种基于lstm模型的网络舆情预警方法 |
CN112231472A (zh) * | 2020-09-18 | 2021-01-15 | 昆明理工大学 | 融入领域术语词典的司法舆情敏感信息识别方法 |
CN112395482A (zh) * | 2020-11-06 | 2021-02-23 | 北京工商大学 | 一种食品安全事件预警平台 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11354506B2 (en) * | 2019-07-30 | 2022-06-07 | Baidu Usa Llc | Coreference-aware representation learning for neural named entity recognition |
-
2021
- 2021-03-12 CN CN202110271010.9A patent/CN113177831B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831895A (zh) * | 2019-04-19 | 2020-10-27 | 天津科技大学 | 一种基于lstm模型的网络舆情预警方法 |
CN111209401A (zh) * | 2020-01-03 | 2020-05-29 | 西安电子科技大学 | 网络舆情文本信息情感极性分类处理***及方法 |
CN111241300A (zh) * | 2020-01-09 | 2020-06-05 | 中信银行股份有限公司 | 舆情预警以及风险传播分析方法、***、设备及存储介质 |
CN111401061A (zh) * | 2020-03-19 | 2020-07-10 | 昆明理工大学 | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 |
CN111523301A (zh) * | 2020-06-05 | 2020-08-11 | 泰康保险集团股份有限公司 | 合同文档合规性检查方法及装置 |
CN112231472A (zh) * | 2020-09-18 | 2021-01-15 | 昆明理工大学 | 融入领域术语词典的司法舆情敏感信息识别方法 |
CN112395482A (zh) * | 2020-11-06 | 2021-02-23 | 北京工商大学 | 一种食品安全事件预警平台 |
Non-Patent Citations (1)
Title |
---|
基于自注意力和胶囊网络的短文本情感分析;徐龙;;计算机与现代化;20200715(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113177831A (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11556992B2 (en) | System and method for machine learning architecture for enterprise capitalization | |
Hao et al. | Predicting stock price trends based on financial news articles and using a novel twin support vector machine with fuzzy hyperplane | |
CN106611375A (zh) | 一种基于文本分析的信用风险评估方法及装置 | |
Sharmin et al. | Attention-based convolutional neural network for Bangla sentiment analysis | |
CN111950932A (zh) | 基于多源信息融合的中小微企业综合质量画像方法 | |
CN117453921B (zh) | 一种大语言模型的数据信息标签处理方法 | |
CN111597340A (zh) | 一种文本分类方法及装置、可读存储介质 | |
Liang et al. | A stock time series forecasting approach incorporating candlestick patterns and sequence similarity | |
US20240078389A1 (en) | Generative language model for few-shot aspect-based sentiment analysis | |
Kim et al. | Stock price prediction through sentiment analysis of corporate disclosures using distributed representation | |
Debener et al. | Detecting insurance fraud using supervised and unsupervised machine learning | |
Chen et al. | Association mining of near misses in hydropower engineering construction based on convolutional neural network text classification | |
Singh et al. | A Novel Approach of Stock Price Direction and Price Prediction Based on Investor’s Sentiments | |
Dong et al. | Exploring the linear and nonlinear causality between internet big data and stock markets | |
Anese et al. | Impact of public news sentiment on stock market index return and volatility | |
CN113177831B (zh) | 一种应用公开数据构建的金融预警***及预警方法 | |
Schwenker et al. | EXSCLAIM!: Harnessing materials science literature for self-labeled microscopy datasets | |
Li et al. | A deep learning approach of financial distress recognition combining text | |
Tian et al. | Machine learning in internet financial risk management: A systematic literature review | |
Kim et al. | Do SEC filings indicate any trends? Evidence from the sentiment distribution of forms 10-K and 10-Q with FinBERT | |
CN110705597A (zh) | 基于事件因果关系抽取的网络苗头事件检测方法及*** | |
Arora et al. | Prediction of corporate bankruptcy using financial ratios and news | |
Wu et al. | Interpretable corn future price forecasting with multivariate time series | |
Baginski | Automatic Detection and classification of suicide-related content in English texts | |
CN118171645B (zh) | 一种基于文本分类的商业信息分析方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |