CN113177831B

CN113177831B - 一种应用公开数据构建的金融预警***及预警方法

Info

Publication number: CN113177831B
Application number: CN202110271010.9A
Authority: CN
Inventors: 廖丽娟; 林巍
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2024-05-17
Anticipated expiration: 2041-03-12
Also published as: CN113177831A

Abstract

本发明一种应用公开数据构建的金融预警***，包括：寻找警源模块，用于监测互联网信息以获取输入数据；辨识警讯与分析警兆模块，用于将输入数据变为警讯的过程的文档数据特征提取，以明确与预警企业相关的事件信息；预报警度模块，用于预测企业的警度信息，能够对金融风险进行预警，并划分出风险等级；本发明还公开了应用公开数据构建的金融预警方法，能够高效、快速及准确得到预警信息。

Description

一种应用公开数据构建的金融预警***及预警方法

技术领域

本发明属于数据处理技术领域，具体涉及一种应用公开数据构建的金融预警***，本发明还涉及一种应用公开数据构建的金融预警方法。

背景技术

金融风险预警***，是金融监理机关为了更好的对金融经营机构实施有效监控，既是对其可能发生的金融风险进行预警、预报所建立的早期预警***。其在性质上系属一种兼具风险管理及经营评鉴的双重功能，尤其是对上市公司之财务及业务具有预防及警戒作用。其意义系指依据有关之监理法规与公司财务业务之经营原则，选定若干变数而订定之一套预警函数、指标(Indicator)、临界值或基准值(Decimal Value)，或判别模型等，在金融预警实务作业上，对于财务危机公司的预测，监理者大都以传统的财务指标对金融经营机构的经营状况进行监测。

然而，目前的预警***仅依据与金融直接相关的量价数据对金融风险进行预警的方式，忽视了互联网中海量文本数据的影响，其存在预警准确性低的问题。

发明内容

本发明的目的是提供一种应用公开数据构建的金融预警***，能够对金融风险进行预警。

本发明的第二个目的是提供一种应用公开数据构建的金融预警方法，能够提供有效的金融风险预警方式。

本发明所采用的技术方案是，一种应用公开数据构建的金融预警***，寻找警源模块，用于监测互联网信息以获取输入数据；

辨识警讯与分析警兆模块，用于将输入数据变为警讯的过程的文档数据特征提取，以明确与预警企业相关的事件信息；

预报警度模块，用于预测企业的警度信息。

本发明的特征还在于，

互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情公开数据。

警度等级包括有警、无警两个级别。

本发明所采用的第二种技术方案是，一种应用公开数据构建的金融预警方法，具体按照以下步骤实施：

步骤1，实时监测互联网信息以获取输入数据；

步骤2，利用BERT模型将输入数据变为警讯的过程的文档数据特征提取，以明确与预警企业相关的事件信息；

步骤3，利用LSTM预测企业的警度信息，划分出不同的警度等级。

本发明的特征还在于，

步骤1中，互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情公开数据。

步骤2的具体过程为：

步骤2.1，进行词嵌入，词嵌入表达式为：

X＝E_pos(onehot(S)+E_seg) (1)

式(1)中，onehot表示词嵌入，E_seg表示句子嵌入，E_pos表示位置嵌入；

步骤2.2，定义单注意力机制：

式(2)中，W_Q、W_K、W_V是可训练的参数；softmax表示softmax归一化函数，将值映像到0-1的范围内；d表示向量的维度；

步骤2.3，将多个单注意力机制进行组合，组成多头注意力机制层，多头注意力机制层表达式为：

MultiHead(X)＝Concat(Att₁,...,Att_h)W^O (3)

式(3)中，Concate表示链接操作，h表示注意力机制头的数目，W^O表示可训练的参数；

步骤2.4，将多头注意力机制层的输出向量与词嵌入相加，构成残差网络，再经过批次归一化得到注意力机制层的最终输出：

M_att＝BN(MultiHead(X)+X) (4)

式(4)中，BN就表示批次归一化；

步骤2.5，步骤2.4得到的最终输出经过带有残差网络与批次归一化的全连接层，得到文文件特征B：

B＝BERT(X)＝BN(Dense(M_att)+M_att) (5)；

对于字数为n的文档S,文文件特征B＝{b₁,…,b_n+1},其中，d表示向量的维度。

步骤3的具体过程为：

步骤3.1，假设上一LSTM的隐藏层输出h_t-1和第t个文档向量B_t，则LSTM可以表达式为：

f_t＝σ(W_f·Y+b_f) (7)

i_t＝σ(W_i·Y+b_i) (8)

o_t＝σ(W_o·Y+b_o) (9)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_c·Y+b_c) (10)

h_t＝o_t⊙tanh(c_t) (11)

式中，W_i，W_f，W_o，W_c，b_i，b_f，b_o，b_c是可训练的参数，σ是sigmod启动函数，⊙表示Hadamard乘积，c_t表示第t个文档的输出；

步骤3.2，通过步骤3.1得到的向量h_t预测企业的警度等级：

l_t＝softmax(Dense(h_t)) (12)。

当l_t≥0.5表示有警，即异常；当l_t＜0.5表示无警，即正常。

本发明的有益效果是：

(1)本发明一种应用公开数据构建的金融预警***，避免依据与金融直接相关的量价数据对金融风险进行预警的方式造成了准确性低的问题；

(2)本发明一种应用公开数据构建的金融预警方法，通过对互联网中的海量文本数据进行特征提取，产生预测企业的警度信息，提高了金融风险预测的准确性。

附图说明

图1为本发明一种应用公开数据构建的金融预警方法的流程图；

图2为本发明一种应用公开数据构建的金融预警方法中步骤2的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种应用公开数据构建的金融预警***，包括：寻找警源模块，用于监测互联网信息以获取输入数据，互联网信息包括业官网、财报、交易、新闻、杂质、媒体、网络及舆情等公开数据；

预报警度模块，用于预测企业的警度信息，警度等级分为有警和无警两个级别。

本发明提供一种应用公开数据构建的金融预警方法，通过应用公开数据构建的金融预警***实现，如图1所示，具体按照以下步骤实施：

步骤1，实时监测互联网信息以获取输入数据，其中互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情等公开数据；

步骤2，利用金融新闻数据预训练的BERT模型将输入数据变为警讯的过程的文档数据特征提取，以明确与预警企业相关的事件信息；

BERT是2018年由***提出的语言模型，通过在大笔资料上的预训练，提高在特定任务上的结果，BERT网络主要由三个部分组成，词嵌入层，注意力机制层与全连接层。词嵌入层将字转化为编码，这些编码通过由注意力机制层与全连接层组成的多层网络模块，就是最后获得的输出。词嵌入层包括三种词嵌入，字嵌入，句子嵌入，和位置嵌入。其中字嵌入就是对字进行编码，句子嵌入是用编码表示不同的句子，位置嵌入是使用学习的位置嵌入；

步骤2.1，假设n个文文件的文文件集合S＝{s₁,s₂,…,s_n}，文文件集合按时间排序，进行词嵌入，词嵌入表达式为：

X＝E_pos(onehot(S)+E_seg) (1)

步骤2.2，定义单注意力机制：

MultiHead(X)＝Concat(Att₁(X),...,Att_h(X))W^O (3)

M_att＝BN(MultiHead(X)+X) (4)

式(4)中，BN就表示批次归一化；

B＝BERT(X)＝BN(Dense(M_att)+M_att) (5)；

对于字数为n的文档S，文文件特征B＝{b₁,…,b_n+1},其中，d表示向量的维度，Dense表示全连接层；

步骤3，利用LSTM预测企业的警度信息，划分出不同的警度等级；

长短期记忆(long short-term memory,LSTM)是一种用于进程列数据的神经网络。相比一般网络，他能够进程列变化的数据。比如某个文档的意思会因为上一个文档的内容不同而有不同的含义，LSTM就能够很好的解决这类问题；

步骤3.1，由于每一个LSTM单元都存在两个输入，假设上一LSTM的隐藏层输出h_t-1和第t个文档向量B_t，则LSTM可以表达式为：

f_t＝σ(W_f·Y+b_f) (7)

i_t＝σ(W_i·Y+b_i) (8)

o_t＝σ(W_o·Y+b_o) (9)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_c·Y+b_c) (10)

h_t＝o_t⊙tanh(c_t) (11)

步骤3.2，通过步骤3.1得到的向量h_t预测企业的警度等级：

l_t＝softmax(Dense(h_t)) (12)

当l_t≥0.5表示有警，即异常；

当l_t＜0.5表示无警，即正常。

Claims

1.一种应用公开数据构建的金融预警方法，其特征在于，具体按照以下步骤实施：

步骤1，实时监测互联网信息以获取输入数据；

所述步骤1中，互联网信息包括企业官网、财报、交易、新闻、杂质、媒体、网络及舆情公开数据；

所述步骤2的具体过程为：

步骤2.1，进行词嵌入，词嵌入表达式为：

X＝E_pos(onehot(S)+E_seg) (1)

式(1)中，onehot表示词嵌入，E_seg表示句子嵌入，E_pos表示位置嵌入，S为n个文件的文件集合，S＝{s₁,s₂,…,s_n}；

步骤2.2，定义单注意力机制：

MultiHead(X)＝Concat(Att₁,...,Att_h)W^O (3)

M_att＝BN(MultiHead(X)+X) (4)

式(4)中，BN就表示批次归一化；

步骤2.5，步骤2.4得到的最终输出经过带有残差网络与批次归一化的全连接层，得到文件特征B：

B＝BERT(X)＝BN(Dense(M_att)+M_att) (5)；

对于字数为n的文档S,文件特征B＝{b₁,…,b_n+1},其中，d表示向量的维度；

所述步骤3的具体过程为：

f_t＝σ(W_f·Y+b_f) (7)

i_t＝σ(W_i·Y+b_i) (8)

o_t＝σ(W_o·Y+b_o) (9)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_c·Y+b_c) (10)

h_t＝o_t⊙tanh(c_t) (11)

步骤3.2，通过步骤3.1得到的向量h_t预测企业的警度等级：

l_t＝softmax(Dense(h_t)) (12)；

当l_t≥0.5表示有警，即异常；当l_t＜0.5表示无警，即正常。