CN112419029A

CN112419029A - 类金融机构风险监控方法、风险模拟***及存储介质

Info

Publication number: CN112419029A
Application number: CN202011368381.0A
Authority: CN
Inventors: 华秀萍; 程思睿
Original assignee: Nottingham Ningbo Free Trade Zone Blockchain Co ltd
Current assignee: Nottingham Ningbo Free Trade Zone Blockchain Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-26
Anticipated expiration: 2040-11-27
Also published as: CN112419029B

Abstract

本申请涉及一种类金融机构风险监控方法、风险模拟***及存储介质，其方法包括获取样本数据信息；将样本数据信息进行数据预处理以形成若干相关联的类金融机构的舆情指数信息；将舆情指数信息进行曲线拟合以形成概率分布拟合曲线，判断该概率分布拟合曲线服从的分布函数及其对应参数以获取参数已知的概率分布函数；将参数已知的概率分布函数通过马尔科夫链蒙特卡洛模拟进行抽样以获取抽样样本数据；获取若干相关联的类金融机构的实缴资本信息；将若干相关联的类金融机构所对应的实缴资本信息以及抽样样本数据通过动态网络仿真方法分析并获取对应该类相关联的类金融机构的风险状况。本申请具有可以对类金融机构较好地进行风险监控的效果。

Description

类金融机构风险监控方法、风险模拟***及存储介质

技术领域

本发明涉及金融风险管理的技术领域，尤其是涉及一种类金融机构风险监控方法、风险模拟***及存储介质。

背景技术

类金融机构是从事金融活动，但是并未获得金融许可证，非由国家金融监管部门直接监管的企业。与传统的金融机构不同，其通常以地方性机构以及民营形式为主，客户质量较低且业务风险大，财务数据往往不公开且未经第三方审计，融资能力有限并需要银行等正规金融机构支持而有可能造成金融***性风险。

如今对于风险的度量以及风险情景模拟通常针对一些数据易于获取，且数据分布较为常见的机构(例如上市公司、银行等具有资质的金融机构)，通过资产收益波动率、VaR(风险价值模型)、资产价格以及收益情景模拟等方式来对风险进行评定。

但是由于类金融机构与传统的金融机构不同，其并不存在公开交易的股权市场，也没有公开披露可信度高的财务数据，其产品也往往并没有高流动性高透明度的公开交易平台，数据较为稀疏，因而无法采用对传统的金融机构的度量方式来进行类金融机构的风险评估。

发明内容

为了对类金融机构进行较好地风险监控，本申请提供一种类金融机构风险监控方法、风险模拟***及存储介质。

第一方面，本申请提供的一种类金融机构风险监控方法采用如下的技术方案：

一种类金融机构风险监控方法，包括：

获取样本数据信息；

将样本数据信息进行数据预处理以形成若干相关联的类金融机构的舆情指数信息；

将舆情指数信息进行曲线拟合以形成概率分布拟合曲线，判断该概率分布拟合曲线服从的分布函数及其对应参数以获取参数已知的概率分布函数；

将参数已知的概率分布函数通过马尔科夫链蒙特卡洛模拟进行抽样以获取抽样样本数据；获取若干相关联的类金融机构的实缴资本信息；

将若干相关联的类金融机构所对应的实缴资本信息以及抽样样本数据通过动态网络仿真方法分析并获取对应该类相关联的类金融机构的风险状况。

通过采用上述技术方案，由于用于传统金融机构风险度量的数据，例如回报率、坏账率、债务结构等信息，在类金融机构方面无法获取，因而可以采用舆情指数作为风险量化分析的主要数据来源，但同时由于类金融机构的特殊性，采样获取的样本数据通常难以直接通过简单地积分等方式生成模拟样本以进行风险的监控以及量化，而通过马尔科夫链蒙特卡洛模拟，其对概率分布函数的要求较低，可以对一些较为复杂难以进行抽样的分布函数进行抽样以供风险模拟模型的搭建，解决了一些复杂的分布函数难以生成样本、难以进行模拟的问题。同时，由于相互关联的类金融机构之间会相互制约，相互影响，因而通过动态网络仿真方法可以对该类关联的类金融机构进行更为精确的模拟已做到风险监控。

优选的，所述对样本数据进行数据预处理的方法包括：

根据预设的机构名称信息以将样本数据信息进行分类；

在对样本数据信息进行分类过程中，对样本数据信息进行切词处理以形成样本切词信息；根据机构名称信息与样本切词信息之间的关联关系以对样本数据信息进行分类。

通过采用上述技术方案，这种通过切词后对样本数据进行分类处理的方式，相比LDA等主题模型的归类方式，计算量更小，效率更高，构建速度更快，效率更高。

优选的，所述舆情指数信息包括关注度指数信息，所述关注度指数信息的构建方法包括：

统计若干预设时间段内同一类金融机构所对应的样本数据信息以形成若干与预设时间段一一对应的标准关注度信息；

统计若干标准关注度信息以形成关注度指数信息。

优选的，所述舆情指数信息包括情绪指数信息，所述情绪指数信息的构建方法包括：

将若干样本数据信息通过识别标点符号以划分形成若干单句文本信息；

对单句文本信息进行情感评分以形成单句情感指数信息；

基于同一目标的样本数据信息以将若干单句情感指数信息求均值以形成目标的样本数据信息的情感分数信息；

统计若干预设时间段内同一类金融机构的情感分数信息以形成若干与预设时间段一一对应的标准情感分信息；

统计若干标准情感分信息以形成情绪指数信息。

通过采用上述技术方案，情绪指数会直观反映出获取的文本数据的评价，在一定程度上，评价越正向说明该金融机构的口碑以及风险更好，因而可以通过情绪指数来构成后续风险监控的样本。同时，通过将情感评分汇总得到每篇文章对应的分值的方案，相比深度学习等情感识别的方案，该方案对于人工标注的工作量要求更小，也无需进行有监督的人工智能模型训练，效率更高，同时判断和打分逻辑也更加透明。

优选的，所述舆情指数信息的构建方法包括：

对单句文本信息进行情感评分以形成单句情感指数信息；

将同一预设时间段内的标准关注度信息与标准情感分信息进行逻辑运算以求得标准舆情信息；

统计若干预设时间段内的标准舆情信息以形成舆情指数信息。

通过采用上述技术方案，通过结合关注度指数以及情绪指数可以更精确地获取对类金融机构的舆情评价，高关注度指数意味着社会公众的关注度更高，因而其情绪指数的波动会造成更大的影响。将其二者结合可以提高舆情指数评价的正确性，使得在后续风险监控的过程中可以更准确地对关联的类金融机构的风险性做出评价。

优选的，所述单句文本信息的情感评分方法包括：

根据预设的至少两个词汇情感类目以对单句文本信息中的词汇依次进行分类，对不同词汇情感类目中的内容进行累计以形成累计数量信息；

根据词汇情感类目对应预设的权重以及该词汇情感类目所对应的累计数量信息以形成该词汇情感类目信息所对应的词汇情感指数信息；

将多个词汇情感指数信息进行逻辑运算以形成单句情感指数信息。

通过采用上述技术方案，通过该种方式进行获取的单句情感指数信息的准确度较高。

优选的，对所述舆情指数信息进行曲线拟合的方法包括：

根据舆情指数信息构建频率分布图；

对频率分布图通过多项式高次回归进行拟合以形成概率分布拟合曲线。

优选的，根据抽样样本数据计算VaR阈值；

根据抽样样本数据计算VaR阈值；

将VaR阈值的负向划分为若干风险冲击阈值区间，定义每个风险冲击阈值区间一一对应预设有风险冲击等级d_i，判断抽样样本数据所对应的数值所落入的风险冲击阈值区间以获取风险冲击等级d_i；

类金融机构包含风险冲击等级d_i、抗风险载荷额度U_i、破产判断因子

与风险冲击因子

所述抗风险载荷额度U_i与实缴资本信息相关联，其中，U_i＝ln(实缴资本信息)；

构建破产节点集合B与风险传导集合S，其中，当类金融机构的抗风险载荷额度U_i小于0时，该类金融机构录入破产节点集合B中，当一类金融机构的相关联的类金融机构的风险冲击等级d_i大于0时，该类金融机构录入风险传导集合S中；

所述动态网络仿真方法包括：

S0：根据预设的类金融机构之间的关联关系构建网络链接，并赋予各链接不同的权重L_ji，其中，i和j代表不同的类金融机构，L_ji代表j至i的链接的权重；

S1、判断各类金融机构属于破产节点集合B或风险传导集合S；

S2、将当前模拟时刻的抽样样本数据存入类金融机构，并获取该时刻下类金融机构的风险冲击等级d_i；

S3、计算不属于S∪B集合内的类金融机构的风险冲击因子

其中，

k为当前模拟时刻，d_ji代表节点j对指定节点i造成影响，且d_ji＝d_i；

S4、将

的类金融机构记录入风险传导集合S内；

S5、计算属于风险传导集合S且不属于破产节点集合B的类金融机构的破产判断因子

其中，

k为当前模拟时刻，d_ji代表节点j对指定节点i造成影响，且d_ji＝d_i，l代表同一集团外公司的网络连接权重；

S6、将

的类金融机构记录入破产节点集合B内；

S7、计算破产节点总量

S8、判断

与

是否相等，若是，进入S9，若否，回到S1，并使模拟时刻k+1；

S9、计算净资产损失LOSS_L，其中，LOSS_L＝∑_j∈BU_j；

S10、清空所有数据并从S1重新开始，直至模拟次数达到预设次数；

S11、获取若干模拟次数下的净资产损失LOSS_L；

S12、对若干净资产损失LOSS_L通过正态分布拟合获取偏度信息以及峰度信息；

S13、通过偏度信息以及峰度信息判断该类关联的类金融机构的风险状况。

通过采用上述技术方案，由于相关联的类金融机构之间会相互影响，因此通过动态网络仿真方法可以较为准确地贴合实际情况而对相关联的类金融机构的风险进行模拟以及监控。

第二方面，本申请提供的一种类金融机构风险模拟***，采用如下的技术方案：

一种类金融机构风险模拟***，包括：

样本数据信息获取模块，用于获取样本数据信息；

数据预处理模块，用于将样本数据信息进行数据预处理以形成舆情指数信息；

曲线拟合模块，用于将舆情指数信息进行曲线拟合以形成概率分布拟合曲线；

判断模块，判断该概率分布拟合曲线服从的分布函数及其对应参数以获取参数已知的概率分布函数。

抽样模块，用于将参数已知的概率分布函数通过马尔科夫链蒙特卡洛模拟进行抽样以获取抽样样本数据；

资产信息获取模块，用于获取若干相关联的类金融机构的实缴资本信息；

风险结果模拟模块，用于将若干相关联的类金融机构所对应的实缴资本信息以及抽样样本数据通过动态网络仿真方法分析并获取对应该类相关联的类金融机构的风险状况。

第三方面，本申请提供的一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行上述任一种类金融机构风险监控方法的计算机程序。

综上所述，本申请具有对类金融机构进行较为准确的风险监控的优点。

附图说明

图1是本申请实施例中类金融机构风险监控方法的流程示意图。

图2是本申请实施例中对样本数据信息进行数据预处理以形成若干相关联的类金融机构的舆情指数信息的流程示意图。

图3是本申请实施例中一种实施方式下舆情指数信息的获取方法的流程示意图，具体为通过单一的关注度指数信息来构成舆情指数信息。

图4是本申请实施例中另一种实施方式下舆情指数信息的获取方法的流程示意图，具体为通过单一的情绪指数信息来构成舆情指数信息。

图5是本申请实施例中另一种实施方式下舆情指数信息的获取方法的流程示意图，具体为舆情指数信息通过关注度指数信息与情绪指数信息共同进行构建。

图6是本申请实施例中对单句文本信息进行情感评分以形成单句情感指数信息的流程示意图。

图7是本申请实施例中对舆情指数信息进行曲线拟合的方法的流程示意图。

图8是本申请实施例中马尔科夫链蒙特卡洛模拟的Metropolis–Hasting算法的流程示意图。

图9是本申请实施例中动态网络仿真方法的流程示意图。

图10是本申请实施例中一个示例下的网络链接的示意图。

图11是本申请实施例中风险冲击等级的获取方法的流程示意图。

具体实施方式

以下结合附图1-11对本申请作进一步详细说明。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

本发明实施例提供一种类金融机构风险监控方法，包括：获取样本数据信息；将样本数据信息进行数据预处理以形成若干相关联的类金融机构的舆情指数信息；将舆情指数信息进行曲线拟合以形成概率分布拟合曲线，判断该概率分布拟合曲线服从的分布函数及其对应参数以获取参数已知的概率分布函数；将参数已知的概率分布函数通过马尔科夫链蒙特卡洛模拟进行抽样以获取抽样样本数据；获取若干相关联的类金融机构的实缴资本信息；将若干相关联的类金融机构所对应的实缴资本信息以及抽样样本数据通过动态网络仿真方法分析并获取对应该类相关联的类金融机构的风险状况。

本发明实施例中，由于用于传统金融机构风险度量的数据，例如回报率、坏账率、债务结构等信息，在类金融机构方面无法获取，因而可以采用舆情指数作为风险量化分析的主要数据来源，但同时由于类金融机构的特殊性，采样获取的样本数据通常难以直接通过简单地积分等方式生成模拟样本以进行风险的监控以及量化，而通过马尔科夫链蒙特卡洛模拟，其对概率分布函数的要求较低，可以对一些较为复杂难以进行抽样的分布函数进行抽样以供风险模拟模型的搭建，解决了一些复杂的分布函数难以生成样本、难以进行模拟的问题。同时，由于相互关联的类金融机构之间会相互制约，相互影响，因而通过动态网络仿真方法可以对该类关联的类金融机构进行更为精确的模拟已做到风险监控。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本发明实施例作进一步详细描述。

本发明实施例提供一种类金融机构风险监控方法，所述方法的主要流程描述如下。

如图1所示：

步骤1000：获取样本数据信息。

其中，由于类金融机构往往缺乏公开的财务和运营数据，过往的风险管理的数据采集过程往往无法实现，且其不存在公开交易的股权市场，其产品往往也没有高流动性高透明度的公开交易平台，而用于传统金融机构风险度量的数据，例如回报率、坏账率、债务结构等信息，在类金融机构方面也无法获取。因而，在本实施例中，样本数据信息的获取采用公开的新闻文本作为样本数据信息以进行后续的处理。

新闻文本的数据获取操作需要通过自动网站浏览以及网站信息记录功能来实现，具体可以通过Python的selenuim库进行操作。与传动采用无差别采集海量新闻以及通过主题模型进行新闻主体判断以筛选相关新闻的方式不同，新闻采集需要先确定关键词信息再进行针对性的爬取，通过使用搜索引擎搜索与关键词信息相关的新闻，并且通过自动点击网页和复制新闻数据到本地计算机中。如此往复，即可获得所需要的新闻信息。

而关键词信息的指定主要针对类金融机构的具体类型以及机构名称，例如：“商业保理”、“典当行”等类型；“平安壹账通”、“壹链盟”、“E-Bill”等类金融机构以及其相关类金融产品名称。同时可以辅以按公开的工商经营范围分类中的“金融信息服务”、“资产管理”、 “投资咨询”、“区块链”等关键词匹配筛选的方式，进行相关类金融机构的信息的收集，大幅提升效率。

步骤2000：将样本数据信息进行数据预处理以形成若干相关联的类金融机构的舆情指数信息。

其中，舆情指数信息包括关注度指数信息以及情绪指数信息。同时，舆情指数信息可以通过单一的关注度指数信息进行替代，也可以通过单一的情绪指数信息进行替代，但若考虑到较高的关注度会放大情绪指数带来的影响，也可以通过将关注度指数信息与情绪指数信息相互结合的方式来实现舆情指数信息的获取。

步骤3000：将舆情指数信息进行曲线拟合以形成概率分布拟合曲线，判断该概率分布拟合曲线服从的分布函数及其对应参数以获取参数已知的概率分布函数。

其中，通过曲线拟合后获得的概率分布拟合曲线并不等同于概率分布函数，无法直接应用于后续的抽样。而对于不同的分布以及分布相同参数不同的概率分布拟合曲线，由于其图像的形式不同，因此可以通过深度学习网络进行识别。

其中，先将统计学中各种分布图像进行收集，其中也包括个函数在其参数不同的情况下的图像，并人工标注其服从的概率分布函数及其参数。然后通过深度学习中卷积神经网络的方式，以图像作为训练数据、人工标注作为有监督学习的实际结果数据进行训练。深度学习网络的训练以及输出的识别结果，不仅包括概率分布函数的形式，也包括概率分布函数的参数。

而由于曲线图像不具有复杂性，卷积神经网络的选取可以参考较为原始但高效的LeNet或AlexNet网络，以ReLU激活函数，构建2组卷积层和全连接层，最后到达输出层。具体实现可以借助Python的Tensorflow框架实现。

除此之外，该步的判断方式也可以通过人工识别的方式进行核验，找到与该概率分布拟合曲线最接近的概率分布函数，其方法在此处不再赘述。

步骤4000：将参数已知的概率分布函数通过马尔科夫链蒙特卡洛模拟进行抽样以获取抽样样本数据。

其中，类金融机构由于存在流动性差、缺乏有效市场等问题，导致其舆情指数的分布往往不服从常见的概率分布，难于直接进行抽样和风险模拟，因而通过马尔科夫链蒙特卡洛模拟可以针对复杂的非常见的概率分布进行抽样模拟的特性来对舆情指数所服从的概率分布函数进行抽样。其中，马尔科夫链蒙特卡洛模拟是一种将马尔科夫过程引入到蒙特卡洛模拟中的方法，其可以实现抽样分布随模拟的进行而改变的动态模拟。

步骤5000：获取若干相关联的类金融机构的实缴资本信息。

其中，该步骤的实缴资本信息根据工商信息所查询实缴资本金作为实缴资本信息，但需要注意的是，该步骤并不一定要设置于步骤4000与步骤6000之间，其这仅仅是为了方便描述本实施例的其中一种实施方式，其也可以对应调换至本实施例的任意步骤之间。

步骤6000：将若干相关联的类金融机构所对应的实缴资本信息以及抽样样本数据通过动态网络仿真方法分析并获取对应该类相关联的类金融机构的风险状况。

其中，在实际情况下，风险通常会在关联的类金融机构之间进行传导，而其传导方式主要包括直接传导和间接传导，直接传导包括类金融机构股权投资关系与债务关系以及处于同一集团母公司下的关系。这类关系主要是在财务方面进行直接的风险传导，当股权或债务关系中有公司发生了财务风险，往往会将财务风险传导至对其拥有股权或者债务的公司或关联企业中。而间接传导也可以分为两个方面，其一是以传统金融机构为媒介的传导，当传统金融机构拥有债权的某类金融机构由于严重的财务问题发生违约，其也会影响到其他同类型类金融机构在该银行的信用情况，甚至发生资金链断裂，导致***性风险。此外，间接传导最可能发生于社会舆情，当类金融机构有严重的财务违约事件发生，往往会在社会产生严重的负面影响，最终影响到其他的类金融机构的信用和财务流动性。因而通过动态网络仿真方法可以较为准确地对该类相关联的类金融机构进行风险监控。

参考图2，为对样本数据信息进行数据预处理以形成若干相关联的类金融机构的舆情指数信息的具体流程图，其步骤具体包括：

步骤2100：根据预设的机构名称信息以将样本数据信息进行分类，在对样本数据信息进行分类过程中，对样本数据信息进行切词处理以形成样本切词信息，根据机构名称信息与样本切词信息之间的关联关系以对样本数据信息进行分类。

其中，切词处理可以采用Python的jieba库以用于切词，而机构名称信息具体为步骤 1000中进行搜索的关键词信息中的类金融机构的“类型”、“机构名称”、“机构产品”作为关键词进行搜索和匹配，将新闻数据进一步归类和汇集到各类别、各机构以及机构的产品。这种分类方式由于先行采集时已经避免了无关信息的采集，计算量更小，效率更高。

另外，当需要对不同网络的关联的类金融机构进行风险监控时，无需重复对样本数据信息进行爬取，而是直接采用原有的样本数据信息中不同的机构名称信息即可直接进行数据预处理。

步骤2200：获取对同一分类下的类金融机构的舆情指数信息。

参照图3，在一个实施方式的步骤2200中，当通过单一的关注度指数信息来构成舆情指数信息时，其具体步骤包括：

步骤2210：统计若干预设时间段内同一类金融机构所对应的样本数据信息以形成若干与预设时间段一一对应的标准关注度信息。

其中，预设时间段可以通过预设的方式进行限定，通常而言，预设时间段设定为一天。而当前预设时间段内的标准关注度信息即为当前预设时间段内新闻文章对应出现的次数。

步骤2211：统计若干标准关注度信息以形成关注度指数信息。

其中，当预设时间段以天为单位时，关注度指数信息会统计并整合不同日期下的标准关注度信息，形成一串日期与标准关注度信息一一对应的数据组。

参照图4，在另一个实施方式的步骤2200中，当通过单一的情绪指数信息来构成舆情指数信息时，其具体步骤包括：

步骤2220：将若干样本数据信息通过识别标点符号以划分形成若干单句文本信息。

其中，标点符号识别是以逗号、句号、感叹号、省略号等表示语句终止的标点符号作为切分点来将文章划分为若干单句文本信息。

步骤2221：对单句文本信息进行情感评分以形成单句情感指数信息。

步骤2222：基于同一目标的样本数据信息以将若干单句情感指数信息求均值以形成目标的样本数据信息的情感分数信息。

其中，求均值的目的是为了降低新闻文本的句子或字数过多所导致不同的样本数据信息所对应的情感分数信息相差过大，从而标准化每个样本数据信息所对应的情感分数信息。

步骤2223：统计若干预设时间段内同一类金融机构的情感分数信息以形成若干与预设时间段一一对应的标准情感分信息。

其中，预设时间段可以通过预设的方式进行限定，通常而言，预设时间段设定为一天。同时，在当同一预设时间段内情感分数信息出现不止一次时，可以通过求取情感分数信息的均值来获取标准情感分信息。

步骤2224：统计若干标准情感分信息以形成情绪指数信息。

其中，当预设时间段以天为单位时，情绪指数信息会统计并整合不同日期下的标准情感分信息，形成一串日期与标准情感分信息一一对应的数据组。

参照图5，在另一个实施方式的步骤2200中，舆情指数信息通过关注度指数信息与情绪指数信息进行构建，其具体包括：

步骤2230：统计若干预设时间段内同一类金融机构所对应的样本数据信息以形成若干与预设时间段一一对应的标准关注度信息。

步骤2231：将若干样本数据信息通过识别标点符号以划分形成若干单句文本信息。

步骤2232：对单句文本信息进行情感评分以形成单句情感指数信息。

步骤2233：基于同一目标的样本数据信息以将若干单句情感指数信息求均值以形成目标的样本数据信息的情感分数信息。

步骤2234：统计若干预设时间段内同一类金融机构的情感分数信息以形成若干与预设时间段一一对应的标准情感分信息。

其中，预设时间段可以通过预设的方式进行限定，通常而言，预设时间段设定为一天，且需与标准关注度信息的预设时间段相同。同时，在当同一预设时间段内情感分数信息出现不止一次时，可以通过求取情感分数信息的均值来获取标准情感分信息。

步骤2235：将同一预设时间段内的标准关注度信息与标准情感分信息进行逻辑运算以求得标准舆情信息。

其中，标准关注度信息与标准情感分信息可以通过简单的相加或相乘运算来得到标准舆情信息。但是为了放大标准关注度信息带来的影响，标准舆情信息的计算方法包括：

其中，S为标准舆情信息，X为标准情感分信息，Y为标准关注度信息。

此处，标准关注度信息除以标准关注度信息的标准差的目的在于避免原本为负数的标准舆情信息由于指数为偶数而被错误计算为正数的情况。

步骤2236：统计若干预设时间段内的标准舆情信息以形成舆情指数信息。

其中，当预设时间段以天为单位时，舆情指数信息会统计并整合不同日期下的标准舆情信息，形成一串日期与标准舆情信息一一对应的数据组，该数据组即为上述的舆情指数信息。

在本实施例中，步骤2221与步骤2232中关于对单句文本信息进行情感评分以形成单句情感指数信息的方法均相同，如图6所示，其具体包括：

步骤7000：根据预设的至少两个词汇情感类目以对单句文本信息中的词汇依次进行分类，对不同词汇情感类目中的内容进行累计以形成累计数量信息。

其中，词汇情感类目可以根据实际情况进行设定。在本实施例中，词汇情感类目共包括“对象词”、“情感词”、“状态词”、“不确定性词”等大类。“对象词”具体可以包括 “壹账通”、“客户”、“债权人”等描述对象的对象词。“情感词”具体可以包括“风险”、 “危机”、“困难”等描述情感的词语，其具体可以分为描述正向情感的正向词以及描述负向情感的负向词。“状态词”具体可以包括“存在”、“处于”、“现状”等状态词。“不确定性词”具体可以包括“必然”、“一定”、“可能”、“也许”等不确定性词语。

步骤7100：根据词汇情感类目对应预设的权重以及该词汇情感类目所对应的累计数量信息以形成该词汇情感类目信息所对应的词汇情感指数信息。

步骤7200：将多个词汇情感指数信息进行逻辑运算以形成单句情感指数信息。

其中，以上述的词汇情感类目的实施方式为例，其可以对各个词汇情感类目分与不同的权重，具体举例如下表所示：

以上述的词汇情感类目及其对应的权重为例，词汇情感指数信息的数据即为同一词汇情感类目下的数量乘以其对应的权重即可，而单句情感指数信息的计算规则可以通过将若干词汇情感指数信息进行累乘的方式进行计算。

此外，为了保证词语的可替换性和分析的准确性，***可以采用CBOW等词向量模型进行同义词替换。其中，词向量模型可以采用Python的word2vec库实现。

参考图7，为本申请实施例中对舆情指数信息进行曲线拟合的方法，具体包括：

步骤3100：根据舆情指数信息构建频率分布图。

其中，频率分布图的构建方法具体为将舆情指数信息按顺序排列成频率分布的形式，并将频率数据作为因变量。

步骤3200：对频率分布图通过多项式高次回归进行拟合以形成概率分布拟合曲线。

其中，概率分布拟合曲线的表达式具体为表达式为

而为了防止过拟合，可以采用LASSO等方法，在线性回归的损失函数

中加入

等损失项，使得各系数、特别是高次项的系数能够保持在较低的水平，从而减少过拟合的问题。除此之外，也可以人为控制自变量N的次数，人工判断回归出的曲线的平滑程度，避免曲线出现较频繁的波动。一般情况下，自变量N控制在4至6之间。

马尔科夫链蒙特卡洛模拟具体可以通过Metropolis–Hasting算法进行实现，参考图8，为Metropolis–Hasting算法的具体流程图，其具体包括：

将平稳状态下的概率分布定义为p(x)，并定义便于抽样的参考分布g(x)，例如正态分布。同时，随机选取分布中一个可能的值作为t时刻的状态，记为x_t，则g(x)～N(x_t，1)。其中，流程具体包括：

步骤4100：参考分布g(x′|x_t)采样马尔科夫链下一时刻的状态x′。即，根据分布g(x′|x_t)进行抽样，并将结果记为x′。

其中，每次经过抽样后，若马尔科夫链上的状态转移，则服从正态分布的参考分布，其中心值或均值将变更为新的状态，即g(x)～N(x_t+1，1)。

步骤4200：通过均匀分布生成一个0到1之间的随机数u，并判断随机数u与接受概率a(x′，x_t)之间的关系。如果接受概率a(x′，x_t)＞u，则进入步骤4300中；否则x_t+1＝x_t，并回到步骤4100中。其中，

步骤4300：令x_t+1＝x′，即接受x作为马尔科夫链在t+1时刻的状态，并回到步骤4100中，进入下一个状态的循环。

最后通过步骤4100至步骤4300之间往复循环，选取马尔科夫链收敛后的样本，就可以得到一串马尔科夫链的参数的样本数据，且这些样本数据服从马尔科夫链收敛时的稳定分布(即p(x))。而这组数据即为抽样样本数据。

除此之外，马尔科夫链蒙特卡洛模拟还可以通过吉布斯采样的算法进行实现，其可以通过基于Python的PyMC3库实现，此处不再赘述。

参照图9，为本申请实施例中动态网络仿真方法的具体流程：

步骤6010：根据预设的类金融机构之间的关联关系构建网络链接，并赋予各链接不同的权重L_ji。

其中，i和j代表不同的类金融机构，L_ji代表j至i的链接的权重。

举例说明，参照图10所示，为一个示例下的网络链接图。其中，BDEF为同一集团下的类金融机构，而A与C相对于B为集团外的类金融机构，且A与B之间，A与C之间相互关联。在实际情况下，同一集团下的类金融机构之间赋予的权重更高，而集团外的类金融机构之间的权重相比于同一集团下的较低。

步骤6020：判断各类金融机构属于破产节点集合B或风险传导集合S；

其中，类金融机构包含风险冲击等级d_i、抗风险载荷额度U_i、破产判断因子

与风险冲击因子

抗风险载荷额度U_i与实缴资本信息相关联且U_i＝ln(实缴资本信息)，其中，风险冲击等级d_i会随着网络链接进行传递。而破产节点集合B以及风险传导集合S需要预先进行构建。此处，当类金融机构的抗风险载荷额度U_i小于0时，该类金融机构录入破产节点集合B中，当一类金融机构的相关联的类金融机构的风险冲击等级d_i大于0时(即某一类金融机构受到相邻类金融机构的风险冲击时)，该类金融机构录入风险传导集合S中。

同时，在同一集团中，由于子公司的净资产存在母公司补缴的可能，故子公司的类金融机构的实缴资本信息可以相对应的进行上浮。

步骤6030：将当前模拟时刻的抽样样本数据存入类金融机构，并获取该时刻下类金融机构的风险冲击等级d_i；

其中，抽样样本数据来源于通过马尔科夫链蒙特卡洛模拟进行抽样所得到的抽样样本数据。参照图11，风险冲击等级d_i的获取方法具体包括：

步骤6031：根据抽样样本数据计算VaR阈值。

其中，VaR阈值指的是在一定概率水平(置信度)下，类金融机构在未来特定时期内的最大可能损失。其求解方式是本领域技术人员的常用技术手段，此处不再赘述。

步骤6032：将VaR阈值的负向划分为若干风险冲击阈值区间，定义每个风险冲击阈值区间一一对应预设有风险冲击等级d_i，判断抽样样本数据所对应的数值所落入的风险冲击阈值区间以获取风险冲击等级d_i。

其中，VaR阈值的负向指的是VaR阈值对应至概率分布函数中的左侧，当抽样样本数据落入该区间中时即进行风险冲击等级d_i的获取。在本实施例中，风险冲击阈值区间可以划分为十个区间，其中，越远离VaR阈值的风险冲击阈值区间所对应的风险冲击等级d_i越高。

回看图9，步骤6040：计算不属于S∪B集合内的类金融机构的风险冲击因子

其中，

其中，k为当前模拟时刻，d_ji代表类金融机构j对指定类金融机构i造成影响，而由于同一类金融机构对相关联的类金融机构的冲击均相同，故d_ji＝d_i；

步骤6050：将

的类金融机构记录入风险传导集合S内；

步骤6060：计算属于风险传导集合S且不属于破产节点集合B的类金融机构的破产判断因子

其中，

其中，k为当前模拟时刻，d_ji代表类金融机构j对指定类金融机构i造成影响，且d_ji＝d_i，l代表同一集团外公司的网络连接权重，而一般来说，同一集团内公司的网络连接权重会大于统一集团外公司的网络连接权重，即L_ji＞l；

步骤6070：将

的类金融机构记录入破产节点集合B内；

步骤6080：计算破产节点总量

步骤6090：判断

与

是否相等，若是，进入步骤6100，若否，回到步骤6020，并使模拟时刻k+1；

其中，以图10所示的网络链接对上述步骤进行简述，假定在某一模拟时刻中，若类金融机构B破产，其会产生对应的风险冲击等级d_B，并根据网络链接将该风险冲击等级d_B传导至相邻的类金融机构ADEF处(例如步骤6040)。而由于类金融机构DEF处于同一集团内，因而类金融机构B破产带来的冲击会导致类金融机构DEF之间再次发生冲击，而类金融机构A却只收到类金融机构B破产所带来的影响(例如步骤6060)。当计算完毕后进入下一模拟时刻，此时由于类金融机构B破产使其与类金融机构A断开链接，因而使类金融机构A 与类金融机构DEF也断开链接，在下一模拟时刻中，将分为两个分离的***进行传导冲击。而当相邻模拟时刻的破产节点总量相同时，即说明整个网络链接趋于平衡。

步骤6100：计算净资产损失LOSS_L，其中，LOSS_L＝∑_j∈BU_j；

步骤6110：清空所有数据并从步骤6020重新开始，直至模拟次数达到预设次数；

步骤6120：获取若干模拟次数下的净资产损失LOSS_L；

步骤6130：对若干净资产损失LOSS_L通过正态分布拟合获取偏度信息以及峰度信息；

其中，可以采用R语言或MATLAB等统计软件对若干净资产损失LOSS_L进行拟合，并可以获得对应的偏度以及峰度。

步骤6140：通过偏度信息以及峰度信息判断该类关联的类金融机构的风险状况。

其中，偏度越左偏(分布左侧极端值更极端)、峰度越高(代表肥尾，极端值更多)，则代表整个***出现大规模财务问题的黑天鹅事件的可能性越高，因而其风险越高，需要进行风险控制。一般情况下，可认为当偏度小于0时，存在左偏，模拟中发生极端负面情况的次数更多，该类金融机构网络***存在更高的风险。当峰度大于3时，说明模拟数据的分布存在“肥尾”，即两侧的极端值会更多，特别是在左偏的情况下，发生极端负面情况的次数更多，说明该类金融机构网络***存在更高的风险。

基于同一发明构思，本申请实施例还公开一种类金融机构风险模拟***，其包括：

样本数据信息获取模块，用于获取样本数据信息；

判断模块，用于判断该概率分布拟合曲线服从的分布函数及其对应参数以获取参数已知的概率分布函数。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，存储有能够被处理器加载执行时实现如图1-图6流程中所述的各个步骤。

所述计算机可读存储介质例如包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，不应理解为对本发明的限制。本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。