CN112581006A

CN112581006A - 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法

Info

Publication number: CN112581006A
Application number: CN202011562957.7A
Authority: CN
Inventors: 吴美娟
Original assignee: Hangzhou Hengtai Software Co ltd
Current assignee: Hangzhou Hengtai Software Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-30

Abstract

本发明涉及筛选舆情信息及监测企业主体风险等级的舆情引擎及方法，舆情引擎，包括：主体情感分类模块，包括多个分类的情感分类模型，用于对获取的舆情信息的情感倾向；主题分类模块，用于对获取的舆情信息进行单主题分类或多主题分类；命名体识别模块，用于进行命名体识别，并计算命名体与所述舆情信息的紧密度；舆情风险得分模块，用于获取包含命名体的所述舆情信息的风险等级；相似性检索模块，用于对获取的不同舆情信息进行相似度计算，及进行线上舆情信息筛选；企业主体风险等级监测模块，用于获取不同企业主体当前的风险等级并进行实时监测。本发明可实时从海量新闻资讯数据中快速筛选指定的相关资讯并实时对企业主体的风险等级进行监测。

Description

筛选舆情信息及监测企业主体风险等级的舆情引擎及方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种筛选舆情信息及监测企业主体风险等级的舆情引擎及方法。

背景技术

舆情信息目的用于提醒风控人员关注舆情信息，展示信息包括主体名称、舆情内容、验证程度、消息批露时间等。现有的舆情引擎通常采用NLP和ML技术，结合金融知识背景，捕捉各业务场景的痛点构建算法模型，对各类新闻精准分析。目前，市面上大多数舆情引擎往往只重视新闻数量而忽视新闻质量，盲目推送海量新闻信息，导致类似新闻重复性较高，往往导致低效或错误的预警报送。进而，导致用户抓取新闻要点困难，受无关新闻干扰性较大，容易被无关新闻误导。

发明内容

本发明的目的在于提供一种筛选舆情信息及监测企业主体风险等级的舆情引擎及方法。

为实现上述发明目的，本发明提供一种筛选舆情信息及监测企业主体风险等级的舆情引擎，包括：

主体情感分类模块，包括多个分类的情感分类模型，用于对获取的舆情信息的情感倾向；

主题分类模块，用于对获取的所述舆情信息进行单主题分类或多主题分类；

命名体识别模块，用于进行命名体识别，并计算所述命名体与所述舆情信息的紧密度；

舆情风险得分模块，用于获取包含所述命名体的所述舆情信息的风险等级；

相似性检索模块，用于对获取的不同舆情信息进行相似度计算，并进行线上舆情信息筛选；

企业主体风险等级监测模块，用于获取不同企业主体当前的风险等级并动态监测与各命名体相对应的企业主体的风险等级变化。

根据本发明的一个方面，所述主体情感分类模块采用以下步骤获得，包括：

构建训练样本集，并对所述样本集中的样本给予正面、中性、负面三个类别的标注；

对所述样本集进行划分，对每一个情感分类模型，分别采用交叉验证方式进行所述情感分类模型的参数网格最优搜索，并用验证集验证所述情感分类模型，将表现最佳的参数作为最优模型；

所述主体情感分类模块将所有最优的情感分类模型的预测结果通过多数投票规则获得的结果作为主体最终的情感倾向。

根据本发明的一个方面，所述命名体识别模块基于对获取的舆情信息进行句法分析后，提取获得的关键句中的命名体，并计算所述命名体与所述舆情信息之间的紧密度。

根据本发明的一个方面，所述舆情风险得分模块包括：

关键词词典，用于进行关键词提取，以及计算所述关键词在所述舆情信息中的词得分；

负面事件库，用于获取历年与所述命名体相关的负面事件；

所述舆情风险得分模块基于所述命名体识别模块、所述关键词词典和所述负面事件库对舆情信息中的关键句进行评分获得句子得分，以及基于所述句子得分获取包含所述命名体的所述舆情信息的风险等级。

根据本发明的一个方面，所述舆情风险得分模块基于所述命名体识别模块、所述关键词词典和所述负面事件库对所述关键句进行评分获得句子得分的过程中，包括：

基于所述命名体识别模块获取所述舆情信息中关键句的命名体以及所述命名体与所述舆情信息的紧密度；

基于所述关键词词典获取所述舆情信息中关键句的关键词、词得分和词频；

基于所述负面事件库获取所述舆情信息中关键句的负面事件；

基于所述命名体、所述紧密度、所述关键词、所述词得分、所述词频和所述负面事件对所述舆情信息中关键句进行评分获得所述句子得分。

根据本发明的一个方面，所述舆情风险得分模块通过句子得分公式对所述舆情信息中关键句进行评分；

所述句子得分公式为：

K*(Max(max(keyscore*(1+(词频-1)/10))*0.8,max(scenescore)))

其中，K表示句子与命名体的紧密度，keyscore表示词得分，scenescore表示负面事件得分；

根据本发明的一个方面，所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合，以及对完成整合的命名体内容进行评分获得包含所述命名体的所述舆情信息的风险等级。

根据本发明的一个方面，所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合的过程中，包括：

所述舆情风险得分模块对完成评分的所述关键句进行判断；其中，判断所述关键句是否为疑问句，若是，则直接忽略，否则保留；

判断所述关键句是否为样例句，若是，则该句忽略，否则保留；

基于判断结果，将保留的所述关键句中涉及同一命名体的句子按照舆情信息顺序进行合并。

根据本发明的一个方面，对完成整合的命名体内容进行评分获得包含所述命名体的所述舆情信息的风险等级的过程中，通过命名体风险得分公式获取所述命名体的风险得分并获得相应的风险等级，其中，所述命名体风险得分公式为：

命名体风险得分＝min(1,max(同一命名体下所有句子得分)*(1+min(1,(同一命名体下句子数量-1)/10))+同一命名体下句子数量*舆情信息额外得分的平均值)；

其中，舆情信息额外得分的计算方法为：

Max(词得分*(1+(词频-1)/10))*min(2,(1+(得分高词的词频-1)/10))*0.8

其中，词得分和词频是基于所述关键词词典提取的其余句子中出现的关键词所获得，得分高词的词频为Max(词得分*(1+(词频-1)/10))中所获得的关键词的词频。

根据本发明的一个方面，计算所述关键词在所述舆情信息中的词得分的过程中，采用词得分公式获得所述词得分，其中，所述词得分公式为：

词得分＝1/词等级+0.5*词的情感+主题风险

根据本发明的一个方面，计算所述命名体与所述舆情信息的紧密度的过程中，包括：

判断所述命名体所在句子中是否存在观点，若存在观点，则进入下一步，否则输出预设的第一紧密度值；

判断所述命名体所在句子是否为疑问句、条件句或者样例句，若均不属于上述语句，则进入下一步，否则输出预设的第一紧密度值；

判断所述命名体是否携带后缀词，若不携带后缀词，则进入一步，否则输出预设的第一紧密度值；

判断所述命名体所在句子中的命名体是否只有一个，若只有一个，则判断所述句子的句法结构是否满足主谓关系，若满足则输出预设的第二紧密度值，否则输出预设的第一紧密度值；若所述句子中存在多个，则判断所述句子是否为并列结构，若是，则拆分所述句子的结构，并确定是否具有主要主体，若存在主要主体，则输出预设的第二紧密度值，否则输出预设的第三紧密度值；若所述句子不是并列结构，则输出预设的第二紧密度值。

根据本发明的一个方面，所述相似性检索模块用于舆情信息的相似度计算，以及进行实时舆情信息筛选；

所述相似性检索模块对舆情信息的相似度计算的过程中包括：

计算任意两篇舆情信息之间的相似关系，其中，若标题相似度或者正文相似度大于预设阈值，则定义所述舆情信息之间存在相似关系，否则不存在相似关系；

将具有相似关系的所述舆情信息构建成舆情相似集合；

对所述舆情相似集合中的所述舆情信息的发布时间进行排序，保留最早的一条所述舆情信息作为比较样本，删除相似集合中其余所述舆情信息；

所述相似性检索模块进行实时舆情信息筛选的过程中包括：

获取线上的舆情信息并基于所述比较样本进行相似度计算构建实时舆情集合。

根据本发明的一个方面，基于所述主体情感分类模块、所述主题分类模块、所述命名体识别模块、所述舆情风险得分模块,按照企业主体对比较样本集中的舆情信息进行分组；

根据相应舆情信息中的命名体风险得分获取当前节点相应企业主体的风险得分，并基于所述企业主体风险得分映射出当前所述企业主体的风险等级并输出，用以动态监测与各命名体相对应的企业主体的风险等级变化。

为实现上述发明目的，本发明提供一种采用前述的舆情引擎的企业主体风险等级监测方法，包括：

S1.获取线上的舆情信息，并计算所述舆情信息的各维度标签结果，并根据预设的各维度标签值，筛选满足要求的舆情信息并构建信息集合，其中，各维度标签结果包括情感倾向、主题分布、命名体、风险得分；

S2.对所述信息集合进行相似分析，计算所述信息集合中所述舆情信息之间的相似度，剔除相似的舆情信息并构建比较样本集；

S3.按照企业主体对比较样本集中的舆情信息进行分类，并根据相应舆情信息中的命名体风险得分计算当前节点该企业主体的风险得分，基于企业主体的风险得分映射出每个企业主体的风险等级，用于动态监测与各命名体相对应的企业主体的风险等级变化。

根据本发明的一个方面，步骤S1中，获取线上的舆情信息，并计算所述舆情信息的各维度标签结果的步骤中，计算所述情感倾向的步骤包括：

通过所述情感分类模型对所述舆情信息分别进行识别，并获得预测结果；

将所有情感分类模型的预测结果通过多数投票规则获得的结果作为最终的情感倾向。

根据本发明的一个方面，步骤S1中，获取线上的舆情信息，并计算所述舆情信息的各维度标签结果的步骤中，计算所述风险得分的步骤包括：

基于命名体识别模块获取所述舆情信息中关键句的命名体以及所述命名体与所述舆情信息的紧密度；

基于舆情风险得分模块中的关键词词典获取所述关键句中的关键词、词得分和词频；

基于舆情风险得分模块中的负面事件库获取所述关键句中的负面事件；

基于所述命名体、所述紧密度、所述关键词、所述词得分、所述词频和所述负面事件对所述关键句进行评分获得所述关键句的句子得分。

根据本发明的一个方面，步骤S1中，所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合，以及对完成整合的命名体内容进行评分获取包含所述命名体的所述舆情信息的风险等级。

根据本发明的一个方面，所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合的步骤中，包括：

根据本发明的一个方面，步骤S2中，对所述信息集合进行相似分析，计算所述信息集合中所述舆情信息之间的相似度，剔除相似的舆情信息并构建比较样本集的步骤中：

基于所述相似性检索模块计算任意两篇舆情信息之间的相似关系，其中，若标题相似度或者正文相似度大于预设阈值，则定义所述舆情信息之间存在相似关系，否则不存在相似关系；

将具有相似关系的所述舆情信息构建成舆情相似集合；

基于获取的所述比较样本和不存在相似关系的舆情集合样本构建比较样本集。

根据本发明的一个方面，步骤S3中，基于所述主体情感分类模块、所述主题分类模块、所述命名体识别模块、所述舆情风险得分模块,按照企业主体对比较样本集中的舆情信息进行分组；

对于根据企业主体所筛选出来的每一条舆情信息，将其命名体风险得分乘以由当前舆情信息与最早发布的舆情信息之间的时间间隔所获得的衰减系数，并按照从小到大排序，取某一分位数的值作为企业主体风险得分的备选选项一；

同时，获取最近某一预定时间间隔内的舆情信息，将其命名体风险得分乘以相应的衰减系数后的最大值作为企业主体风险得分的备选选项二；

获取两个备选选项中的最大值，作为当前节点相应企业主体的风险得分；

基于所述企业主体风险得分映射出当前所述企业主体的风险等级并输出，用以动态监测与各命名体相对应的企业主体的风险等级变化。

根据本发明的一种方案，本发明的舆情引擎能够对海量的负面新闻进行及时抓取、合理分类以及分析，萃取出投资人认为与主体违约风险相关的负面新闻，大大提高用户审阅资讯新闻的效率。

根据本发明的一种方案，解决了实时从***式增长海量新闻资讯数据中快速筛选指定的相关资讯问题，通过对舆情资讯不同维度标签控制，快速高效筛选满足需求的舆情信息。

根据本发明的一种方案，本发明的舆情引擎能够对获取的文档进行细致化处理并完整分析获得整篇文档所表达的命名体和观点，以及能够得出对整篇文档准确的评分。

根据本发明的一种方案，本发明的舆情引擎对获取的文档的划分更为全面，同时实现了命名体库、白名单、关键词词典、负面事件库等结合金融业务场景的创建方式，使得语义分析结果更符合客户的需求。

根据本发明的一种方案，本发明的舆情分析引擎具有高效性和高准确性的优点，其处理过程并发进行，每条资讯均能在短时间内完成，极大的提高了分析效率。

附图说明

图1示意性表示本发明的舆情引擎的结构框图；

图2示意性表示根据本发明的舆情引擎中主体情感分类模块的处理流程图；

图3示意性表示根据本发明的舆情引擎中命名体与舆情信息紧密度计算流程图；

图4示意性表示根据本发明的舆情风险得分模块的处理流程图；

图5示意性表示根据本发明的舆情引擎进行企业主体风险等级监测的方法的步骤框图。

具体实施方式

下面结合附图和具体实施方式对本发明作详细地描述，实施方式不能在此一一赘述，但本发明的实施方式并不因此限定于以下实施方式。

本发明解决了实时从***式增长海量新闻资讯数据中快速筛选指定的相关资讯并根据资讯信息对相关企业主体的风险状况进行监测的问题。本发明涉及通过对舆情资讯不同维度标签控制，快速高效筛选满足需求的舆情分析引擎。该引擎中各维度的标签主要包含两大类，一类是，结合机器学习方法论，构建情感倾向、主题分布和文本相似模型，获得新闻资讯的情感倾向和主题标签以及所有资讯聚类后的相似资讯集合；另一类是，将金融领域知识和自然语言处理技术相结合，构建命名体识别模型和资讯风险得分的量化方法，提取新闻资讯的命名体和企业主体风险得分。首先，通过控制每个维度的标签，剔除不满足条件的资讯；然后，从相似的资讯中保留一条最早的资讯，剔除其余的相似资讯；最后保留所有满足条件的资讯。该引擎一方面提供高效的资讯筛选功能，另一方面动态的观测实体的风险等级的变化，为金融机构进行风控管理提供依据。

如图1所示，根据本发明的一种实施方式，本发明的一种筛选舆情信息及监测企业主体风险等级的舆情引擎，包括：主体情感分类模块，主题分类模块，命名体识别模块、舆情风险得分模块、相似性检索模块和企业主体风险等级监测模块。

在本实施方式中，通过资讯采集端口爬取互联网上的网页信息，并将网页信息中的原始内容输入至结构化提取模块进行结构化处理(例如，内容过滤、自动排重等)获得舆情信息并进行数据存储。

在本实施方式中，舆情引擎接收获取的舆情信息并分别进行处理。其中，主体情感分类模块对获取的舆情信息进行情感分类获取其情感倾向，且主体情感分类模块包括多个分类的情感分类模型；主题分类模块对获取的舆情信息进行单主题分类或多主题分类；命名体识别模块用于进行命名体识别，并计算命名体与舆情信息的紧密度；舆情风险得分模块获取包含所述命名体的所述舆情信息的风险等级；相似性检索模块用于对获取的不同舆情信息进行相似度计算，以及进行线上舆情信息筛选；企业主体风险等级监测模块用于获取企业主体当前的风险等级并动态监测与各命名体相对应的企业主体的风险等级变化。

参见图2所示，根据本发明的一种实施方式，主体情感分类模块基于机器学习集成方法，以9种不同特质的机器学习算法作为基学习器，对新闻资讯情感倾向进行***识别，最终选择9种学习器多数投票结果作为最终的情感倾向结果。

在本实施方式中，主体情感分类模块通过以下方式获得：

首先，通过专家和研究员通过采样分析近3W篇新闻，最终挑选1W多篇与企业信用相关的报道性新闻作为训练样本集，并给与正、中、负3个类别的标注；

其次，对于样本集进行划分，对每一个情感分类模型，分别采用多种交叉验证方式进行情感分类模型的参数网格最优搜索，并用验证集验证情感分类模型，将表现最佳的参数作为最优模型；在本实施方式中，基学习器分别从特征不同的线性分类算法、基于概率分布的算法、惰性算法、以决策数为核心的算法和神经网络5类算法中挑选，例如情感分类模型采用LR、NB、决策树、KNN、SVM等多种机器学习方法中的至少一种进行独立训练，采用网格优化方法调整参数获取每种模型的最优模型；

最后，将所有分类器预测结果通过多数投票规则获得的结果作为最终的情感倾向。

通过实际应用验证，该方法能够显著提升负面资讯召回率和预测精准度，提高整体学习器预测性能，准确率达到86％以上。

根据本发明的一种实施方式，主题分类模块通过以下方式获得；

在本实施方式中，采用LDA方法进行主题分类模块的获得；

首先，在原虚拟词、介词、代词等基础上，增加命名体、机构词典，构建stopwords词典；

其次，利用LDA模型进行训练170W东方财富19年财经频道的所有新闻资讯，通过调整新闻资讯中通用词和特异词词频的阈值，优化模型；

最终，挑选前70个主题，根据主题中各个词的概率分布情况，对主题命名，然后将主题映射到偿债能力、偿债意愿、法律法规、信用合规、市场情况、高管动态、其他信用相关等7大类中。LDA主题合并映射关系如下：

根据本发明，所获得主题分类模块对单主题的分类准确率达到80％以上，对多主题的分类准确高达90％以上。

根据本发明的一种实施方式，命名体识别模块是基于句法分析的基础上，不但提取文本中涉及的命名体列表，同时计算命名体与文本之间的关系程度，其用于进行舆情信息的命名体识别并提取识别出的命名体，以及计算命名体与舆情信息的紧密度(紧密度影响主体打分过程权重)。在本实施方式中，命名体识别模块通过以下方式获得：首先，基于工商数据，获取与企业主体相关联的命名体的全称、简称、曾用名，同时，根据市场数据获取与企业主体相关联的命名体发行的股票代码、股票名称、债券代码、债券名称；其次，参考同一命名体的识别规则，并结合词向量相似度结果，收集资讯中模糊匹配出的命名体表达；最后，对于命名体的表达列表进行审核，剔除异常和歧义命名体表达形式。

如图3所示，根据本发明的一种实施方式，计算命名体与舆情信息的紧密度的过程中，包括：

判断命名体所在句子中是否存在观点，若存在观点，则进入下一步，否则输出预设的第一紧密度值(例如，取0)；

判断命名体所在句子是否为疑问句、条件句或者样例句，若均不属于上述语句，则进入下一步，否则输出预设的第一紧密度值；

判断命名体是否携带后缀词，若不携带后缀词，则进入一步，否则输出预设的第一紧密度值；

判断命名体所在句子中的命名体是否只有一个，若只有一个，则判断句子的句法结构是否满足主谓关系，若满足则输出预设的第二紧密度值(例如，取1)，否则输出预设的第一紧密度值；若句子中存在多个，则判断句子是否为并列结构，若是，则拆分句子的结构，并确定是否具有主要主体(主要主体代表的是句法分析中，句子满足主谓关系，且企业名称作为主语)，若存在主要主体，则输出预设的第二紧密度值，否则输出预设的第三紧密度值(例如，取0.3)；若句子不是并列结构，则输出预设的第二紧密度值。

根据本发明的一种实施方式，舆情风险得分模块用于获取包含所述命名体的所述舆情信息的风险等级。在本实施方式中，舆情风险得分模块包括：关键词词典，负面事件库。

在本实施方式中，关键词词典用于进行舆情信息的关键词提取，以及计算关键词在舆情信息中的词得分；在本实施方式中，关键词词典的创建方式与前述的命名体识别模块的创建方法相似，采用来源于财经网站的新闻资讯进行无监督训练后，结合命名体在信用风险领域提出的关注点作为基础扩展该关键词词典，最后通过专家审核，并采用交叉验证后确定。在本实施方式中，在生成关键词词典的同时，依据业务场景对关键词的词等级、词的情感、主题风险分别进行标注。进而，词等级可理解为是专家预定义的，词的情感首先由语料训练，并经过专家调整，主题风险，词所属主题是根据预料训练获得，所在主体的主题风险由专家预定义。

在本实施方式中，负面事件库用于获取历年与命名体相关的负面事件。在本实施方式中，负面事件库的生成方式为：获取历年与已经违约的命名体相关的所有资讯舆情信息，整理其时间类型；通过统计分析以及事件与违约之间的相关性分析，确定负面事件库，并结合信用风险场景，标注事件的情感倾向、等级、风险、类型等属性值。在本实施方式中，通过有监督学习的方式对资讯舆情信息中的负面事件进行提取，具体提取步骤为：1)事件与句子的交集字符>＝事件长度*0.9；2)以事件长度*1.2作为窗口，在句子中滚动。由于场景的固定性，通过最终输出的两个步骤中所提取出的事件合并，确保事件提取的精准度。

参见图4所示，根据本发明的一种实施方式，舆情引擎获取舆情信息后将对其进行句子划分。例如，按照句号、分号、问号、叹号等通常代表句子结束的标点符号将舆情信息划分成独立句子。上述的划分过程对于简单句子而言较为有效，且不存在歧义。而对于连词句、比较句、转折句、排序句等复合句，在本实施方式中采用分号、连词等作为分隔符对复合句作二次拆分。

完成对句子的拆分后，再对每个句子去空格处理，若句子长度大于300字，同时空格数量大于11个，则按照空格进行断句，并补充分号为分隔符。

在本实施方式中，在对舆情信息完成拆分后，根据关键词典，负面事件库，对舆情信息进行内容抽取关键词、关键词组，并使用抽取式的自动文摘方法提取出该文本的关键句。

进而，舆情风险得分模块基于命名体识别模块、关键词词典和负面事件库对关键句进行评分获得句子得分，以及基于句子得分获取包含所述命名体的舆情信息的风险等级。

参见图4所示，根据本发明的一种实施方式，舆情风险得分模块基于命名体识别模块、关键词词典和负面事件库对关键句进行评分获得句子得分的过程中，包括：

基于命名体识别模块获取关键句中的命名体以及命名体与舆情信息的紧密度；

基于关键词词典获取关键句中的关键词、词得分和词频；

基于负面事件库获取关键句中的负面事件；

基于命名体、紧密度、关键词、词得分、词频和负面事件对关键句进行评分获得句子得分。

根据本发明的一种实施方式，舆情风险得分模块通过句子得分公式对所述舆情信息中关键句进行评分；

句子得分公式为：

K*(Max(max(keyscore*(1+(词频-1)/10))*0.8,max(scenescore)))

其中，K表示句子与命名体的紧密度，keyscore表示词得分，scenescore表示负面事件得分。

根据本发明的一种实施方式，舆情风险得分模块对完成评分的关键句进行命名体内容整合，以及对完成整合的命名体内容进行评分获得获取包含命名体的舆情信息的风险等级。

根据本发明的一种实施方式，舆情风险得分模块对完成评分的关键句进行命名体内容整合的过程中，包括：

舆情风险得分模块对完成评分的关键句进行判断；其中，判断关键句是否为疑问句，若是，则直接忽略，否则保留；

判断关键句是否为样例句，若是，则该句忽略，否则保留；

基于判断结果，将保留的关键句中涉及同一命名体的句子按照舆情信息顺序进行合并。

参见图4所示，根据本发明的一种实施方式，对完成整合的命名体内容进行评分获得获取包含所述命名体的所述舆情信息的风险等级的过程中，通过命名体风险得分公式获取命名体风险得分并获得相应的风险等级，其中，命名体风险得分公式为：

其中，舆情信息额外得分的计算方法为：

Max(词得分*(1+(词频-1)/10))*min(2,(1+(得分高词的词频-1)/10))*0.8

其中，词得分和词频是基于关键词词典提取的其余句子中出现的关键词所获得，得分高词的词频为Max(词得分*(1+(词频-1)/10))中所获得的关键词的词频。需要指出的是，在计算额外得分的方法中所涉及的其余句子是指舆情信息中不含企业主体(即命名体)的句子的统称。

根据本发明的一种实施方式，计算关键词在舆情信息中的词得分的过程中，采用词得分公式获得词得分，其中，词得分公式为：

词得分＝1/词等级+0.5*词的情感+主题风险

在本实施方式中，词得分的分值范围为[0,1]之间。

在本实施方式中，通过构建所获得的命名体风险得分与风险等级的映射关系以实现风险等级的输出。具体的，根据历史300W条测试数据风险得分统计分析后，剔除上下1％的数据，取最大值、最小值作为风险得分归一化依据。随即对于归一化之后的舆情信息中命名体风险得分按如下关系映射成风险等级，映射表如下：

Scaler_score	Risk_level
		[0,0.3)	无风险
[0.3,0.5)	低风险
		[0.5,0.8)	中风险
[0.8,1]	高风险

根据本发明的一种实施方式，相似性检索模块用于舆情信息的相似度计算，以及进行实时舆情信息筛选。在本实施方式中，相似性检索模块对舆情信息的相似度计算的过程中包括：

将具有相似关系的舆情信息构建成舆情相似集合；

对所述舆情相似集合中的舆情信息的发布时间进行排序，保留最早的一条所述舆情信息作为比较样本，删除相似集合中其余舆情信息；

相似性检索模块进行实时舆情信息筛选的过程中包括：

获取线上的舆情信息并基于比较样本进行相似度计算构建实时舆情集合。

根据本发明的一种实施方式，企业主体风险等级监测模块，用于获取不同企业主体当前的风险等级并动态监测与各命名体相对应的企业主体的风险等级变化。

具体的，基于主体情感分类模块、主题分类模块、命名体识别模块、舆情风险得分模块,按照企业主体对比较样本集中的舆情信息进行分组；

根据相应舆情信息中的命名体风险得分获取当前节点相应企业主体的风险得分，并基于企业主体风险得分映射出当前企业主体的风险等级并输出，用以动态监测与各命名体相对应的企业主体的风险等级变化。

参见图5所示，根据本发明的一种实施方式，基于本发明的舆情引擎执行企业主体风险等级监测的方法，包括：

S1.获取线上的舆情信息，并计算舆情信息的各维度标签结果，并根据预设的各维度标签值，筛选满足要求的舆情信息并构建信息集合，其中，各维度标签结果包括情感倾向、主题分布、命名体、风险得分，预设的各维度标签值包括预设情感倾向条件、预设主题分布条件、预设命名体条件、预设风险得分条件。

S2.对信息集合进行相似分析，计算信息集合中舆情信息之间的相似度，剔除相似的舆情信息并构建比较样本集；

参见图5所示，步骤S1中，获取线上的舆情信息的步骤中，基于前述对舆情信息的划分方式，通过采用Jieba中文自然语言处理分词库中的HMM模型进行划分，并通过自定义词典的方式，强制保留词典的完整性。然后通过摘要生成模块获取舆情信息中的关键词、关键词组，并使用抽取式的自动文摘方法提取出该文本的关键句。

步骤S1中，获取线上的舆情信息，并计算舆情信息的各维度标签结果的步骤中，计算情感倾向的步骤包括：

通过情感分类模型对所述舆情信息分别进行识别，并获得预测结果；

将所有情感分类模型的预测结果通过多数投票规则获得的结果作为最终的情感倾向(如负面)。

步骤S1中，根据本发明的一种实施方式，获取线上的舆情信息，并计算所述舆情信息的各维度标签结果的步骤中，计算所述风险得分的步骤包括：

基于命名体识别模块获取关键句中的命名体以及命名体与舆情信息的紧密度；在本实施方式中，需要判断舆情信息的句子中是否包含命名体，具体的，在前述步骤中，对句子进行分词后与命名体识别模块求交，提取句子中出现的命名体列表；对于出现的命名体，判断命名体是否携带后缀词，若携带后缀词，则命名体去除。如果句子只剩一个命名体且命名体在白名单中，进行主谓句法判断，若命名体为主语，则保留，否则，命名体去除。如果句子中剩余为多个主体的复杂结构，若其中有金融机构，则剔除，其余保留并按照句法分析，若是被动句，被字后第一个命名体打分*100％，其余主体打分*30％。例如，新华控股持有赛轮的股份被冻结，新华控股向中国银行抵押赛轮股份。

基于关键词词典获取关键句中的关键词、词得分和词频；在本实施方式中，通过关键词词典实现热点/敏感词分析。舆情信息完成分词后与关键词词典求交，提取关键词、词频、词距等信息。

基于负面事件库获取关键句中的负面事件；

根据本发明的一种实施方式，舆情风险得分模块通过句子得分公式对所述舆情信息中关键句进行评分，所述句子得分公式为：

K*(Max(max(keyscore*(1+(词频-1)/10))*0.8,max(scenescore)))

根据本发明的一种实施方式，步骤S1中，舆情风险得分模块对完成评分的关键句进行命名体内容整合，以及对完成整合的命名体内容进行风险评分获得命名体风险得分。

根据本发明的一种实施方式，舆情风险得分模块对完成评分的关键句进行命名体内容整合的步骤中，包括：

判断关键句是否为样例句，若是，则该句忽略，否则保留；

根据本发明的一种实施方式，对完成整合的命名体内容进行评分获得获取包含所述命名体的所述舆情信息的风险等级的过程中，通过命名体风险得分公式获取所述命名体的命名体风险得分并获得相应的风险等级，其中，命名体风险得分公式为：

其中，舆情信息额外得分的计算方法为：

Max(词得分*(1+(词频-1)/10))*min(2,(1+(得分高词的词频-1)/10))*0.8

其中，词得分和词频是基于关键词词典提取的其余句子中出现的关键词所获得，得分高词的词频为Max(词得分*(1+(词频-1)/10))中所获得的关键词的词频。

根据本发明的一种实施方式，步骤S1中，计算关键词在所述舆情信息中的词得分的过程中，采用词得分公式获得所述词得分，其中，词得分公式为：

词得分＝1/词等级+0.5*词的情感+主题风险。

判断命名体所在句子中是否存在观点，若存在观点，则进入下一步，否则输出预设的第一紧密度值；

判断命名体所在句子中的命名体是否只有一个，若只有一个，则判断句子的句法结构是否满足主谓关系，若满足则输出预设的第二紧密度值，否则输出预设的第一紧密度值；若句子中存在多个，则判断句子是否为并列结构，若是，则拆分句子的结构，并确定是否具有主要主体，若存在主要主体，则输出预设的第二紧密度值，否则输出预设的第三紧密度值；若句子不是并列结构，则输出预设的第二紧密度值。

参见图5所示，步骤S2中，根据本发明的一种实施方式，对信息集合进行相似分析，计算所述信息集合中舆情信息之间的相似度，剔除相似的舆情信息并构建比较样本集的步骤中：

基于相似性检索模块计算任意两篇舆情信息之间的相似关系，其中，若标题相似度或者正文相似度大于预设阈值，则定义所述舆情信息之间存在相似关系，否则不存在相似关系；

将具有相似关系的舆情信息构建成舆情相似集合；

对舆情相似集合中的舆情信息的发布时间进行排序，保留最早的一条舆情信息作为比较样本，删除相似集合中其余舆情信息。

根据本发明的一种实施方式，相似性检索模块由2部分构成，一部分用于新闻标题的相似性检索，分别按照字符匹配规则和word embedding计算相似度。其中，字符匹配规则为：首先，对标题清洗，后分词；其次，计算两文本标题的词交集/词并集值，记为sim_title；最后，确定两标题的相似度simvalue。计算相似度的过程为：当sim_title>＝0.8，则simvalue＝sim_title；否则，继续判断，若词交集个数大于任意标题词长度的0.9倍，则simvalue＝0.9，否则，simvalue＝sim_title。而word embedding是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术，首先，利用历史300万条新闻基于机器学习word2vec方法训练wordembedding；然后，文本标题通过word embedding后获得一个低维的词向量；最后，采用余弦距离作为相似度值。对于标题的相似度最终取max(两种方法的最大值)。第二部分用于新闻正文的相似性检索，基于simhash纯词频统计方法，经过模型验证，最终滚动窗口长度选择5个单词。

在本实施方式中，相似性检索模块的工作流程如下：

首先，计算任意两篇新闻资讯之间的相似关系，其中，若标题相似度或者正文相似度大于0.8，则定义文本之间存在相似关系，否则不存在相似关系；

然后，将具有相似关系的新闻构建成相似集合；

最后，按照新闻发布的时间进行排序，保留最早的一条新闻资讯(最早发布的舆情信息)，删除相似集合中其余新闻资讯。

在本实施方式中，相似性检索模块中的相似性检索模块还可以实现实时舆情信息筛选。其从海量的新闻资讯中，筛选出符合需求的资讯数据。根据本发明，基于指定的各个维度的标签(情感倾向、主题分布、命名体识别、风险得分)，本发明的舆情引擎对舆情信息进行处理，筛选出满足条件的所有资讯构成资讯集。例如，希望获取城投企业负面高风险的新闻，则命名体标签为城投企业对应的所有命名体企业，紧密度标签大于0，情感标签为负面，主题标签为None，风险标签为高风险。

参见图5所示，步骤S3中，按照企业主体对比较样本集中的舆情信息进行分类，并根据相应舆情信息中的命名体风险得分计算当前节点该企业主体的风险得分，基于企业主体的风险得分映射出每个企业主体的风险等级步骤包括：

基于主体情感分类模块、主题分类模块、命名体识别模块、舆情风险得分模块，按照企业主体对比较样本集中的舆情信息进行分组；

然后，对于每一个企业主体所筛选出来的舆情信息，将其中的命名体风险得分乘以其衰减系数(由当前舆情信息与最早发布的舆情信息之间的时间间隔所获得)，并按照从小到大排序，取其95分位数，记为S_95；同时，取最近3天内舆情信息，将其命名体风险得分乘以相应的衰减系数后的最大值，记为s3_max；最后，计算max(s3_max,s_95)的值，将其作为企业主体的风险得分。企业主体的风险得分按照下表所示的映射关系映射成风险等级，作为该企业主体当前的风险等级并输出，用以动态监测与各命名体相对应的企业主体的风险等级变化。其中，衰减系数＝0.97^T，其中，T表示当前时间与舆情最早发布时间之间的时间间隔(例如，天数)。

Scaler_score	Risk_level
		[0,0.8)	无风险
[0.8,0.9)	低风险
		[0.9,0.95)	中风险
[0.95,1]	高风险

上述内容仅为本发明的具体方案的例子，对于其中未详尽描述的设备和结构，应当理解为采取本领域已有的通用设备及通用方法来予以实施。

以上所述仅为本发明的一个方案而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种筛选舆情信息及监测企业主体风险等级的舆情引擎，其特征在于，包括：

2.根据权利要求1所述的舆情引擎，其特征在于，所述主体情感分类模块采用以下步骤获得，包括：

3.根据权利要求2所述的舆情引擎，其特征在于，所述命名体识别模块基于对获取的舆情信息进行句法分析后，提取获得的关键句中的命名体，并计算所述命名体与所述舆情信息之间的紧密度；

计算所述命名体与所述舆情信息的紧密度的过程中，包括：

4.根据权利要求3所述的舆情引擎，其特征在于，所述舆情风险得分模块包括：

负面事件库，用于获取历年与所述命名体相关的负面事件；

所述舆情风险得分模块基于所述命名体识别模块、所述关键词词典和所述负面事件库对舆情信息中的关键句进行评分获得句子得分，以及基于所述句子得分获取包含所述命名体的所述舆情信息的风险等级；

计算所述关键词在所述舆情信息中的词得分的过程中，采用词得分公式获得所述词得分，其中，所述词得分公式为：

词得分＝1/词等级+0.5*词的情感+主题风险；

所述舆情风险得分模块基于所述命名体识别模块、所述关键词词典和所述负面事件库对所述关键句进行评分获得句子得分的过程中，包括：

基于所述命名体、所述紧密度、所述关键词、所述词得分、所述词频和所述负面事件对所述舆情信息中关键句进行评分获得所述句子得分；

所述舆情风险得分模块通过句子得分公式对所述舆情信息中关键句进行评分；

所述句子得分公式为：

K*(Max(max(keyscore*(1+(词频-1)/10))*0.8,max(scenescore)))

所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合，以及对完成整合的命名体内容进行评分获得包含所述命名体的所述舆情信息的风险等级；

所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合的过程中，包括：

基于判断结果，将保留的所述关键句中涉及同一命名体的句子按照舆情信息顺序进行合并；

对完成整合的命名体内容进行评分获得包含所述命名体的所述舆情信息的风险等级的过程中，通过命名体风险得分公式获取所述命名体的风险得分并获得相应的风险等级，其中，所述命名体风险得分公式为：

其中，舆情信息额外得分的计算方法为：

Max(词得分*(1+(词频-1)/10))*min(2,(1+(得分高词的词频-1)/10))*0.8

5.根据权利要求4所述的舆情引擎，其特征在于，所述相似性检索模块用于舆情信息的相似度计算，以及进行实时舆情信息筛选；

将具有相似关系的所述舆情信息构建成舆情相似集合；

所述相似性检索模块进行实时舆情信息筛选的过程中包括：

6.根据权利要求5所述的舆情引擎，其特征在于，基于所述主体情感分类模块、所述主题分类模块、所述命名体识别模块、所述舆情风险得分模块,按照企业主体对比较样本集中的舆情信息进行分组；

7.一种采用权利要求1至6任一项所述的舆情引擎的企业主体风险等级监测方法，包括：

8.根据权利要求7所述的方法，其特征在于，步骤S1中，获取线上的舆情信息，并计算所述舆情信息的各维度标签结果的步骤中，计算所述情感倾向的步骤包括：

将所有情感分类模型的预测结果通过多数投票规则获得的结果作为最终的情感倾向；

步骤S1中，获取线上的舆情信息，并计算所述舆情信息的各维度标签结果的步骤中，计算所述风险得分的步骤包括：

基于所述命名体、所述紧密度、所述关键词、所述词得分、所述词频和所述负面事件对所述关键句进行评分获得所述关键句的句子得分；

步骤S1中，所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合，以及对完成整合的命名体内容进行评分获取包含所述命名体的所述舆情信息的风险等级；

所述舆情风险得分模块对完成评分的所述关键句进行命名体内容整合的步骤中，包括：

9.根据权利要求8所述的舆情引擎，其特征在于，步骤S2中，对所述信息集合进行相似分析，计算所述信息集合中所述舆情信息之间的相似度，剔除相似的舆情信息并构建比较样本集的步骤中：

将具有相似关系的所述舆情信息构建成舆情相似集合；

10.根据权利要求9所述的舆情引擎，其特征在于，步骤S3中，基于所述主体情感分类模块、所述主题分类模块、所述命名体识别模块、所述舆情风险得分模块,按照企业主体对比较样本集中的舆情信息进行分组；