CN109582796A

CN109582796A - 企业舆情事件网络的生成方法、装置、设备及存储介质

Info

Publication number: CN109582796A
Application number: CN201811483713.2A
Authority: CN
Inventors: 陈琢; 江旻; 郑少杰; 付勇; 易剑韬; 范增虎
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2019-04-05

Abstract

本发明公开了一种企业舆情事件网络的生成方法，包括：分别获取目标企业在预设的不同时间节点下的情报文本集合；将所述情报文本集合转换为对应的情报文本向量；分别对不同时间节点下的情报文本向量进行聚类处理，得到一个事件备选集；将所述事件备选集转换为一个事件组序列；根据所述事件组序列提取不同类型的事件的摘要信息，将所述摘要信息按照不同类型的事件发生的先后顺序串联起来，得到所述目标企业的舆情事件网络链。本发明还公开了一种企业舆情事件网络的生成装置、设备和一种存储介质。本发明能够解决现有技术在对企业舆情事件进行分析时，存在人工成本高，且分析结果不能全面、准确地反映企业在一段时间之内的事件关联的技术问题。

Description

企业舆情事件网络的生成方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及企业舆情事件网络的生成方法、装置、设备及存储介质。

背景技术

企业舆情事件能够反映一段时间内社会整体对于该企业的情感态度，在实际应用中，对企业的舆情事件进行分析，不仅可以满足对企业的信息调研需要，还可以基于分析结果对企业未来可能发生的事情进行推导预测。

传统的企业舆情事件分析方法在对情报进行事件归纳和推演过程中往往需要大量的人工专家进行参与，并且由于海量的情报信息存在，往往不能完全的对事件进行多角度归纳；而一些现存的自然语言处理技术方法，也大多集中在使用有监督的机器学习模型进行情报的定向抽取，使用这种方法进行事件归纳很大程度需要考虑该有监督机器学习模型的训练语料的标注情况，而建立基于情报和对应事件的关系的有标注语料信息本身难度便十分巨大，并且现存的模型和算法对情报进行事件归纳推理的输出方案也存在一定不足：模型和算法的结构本身使得对一个情报进行归纳提取后，最后的输出往往只是对于该情报信息的本身子结构，即只能获得情报本身的一段或几段关键词、句，而无法建立周期性关系。

因此，现有技术在对企业舆情事件进行分析时，存在人工成本高，且分析结果不能全面、准确地反映企业在一段时间之内的事件关联的技术问题。

发明内容

本发明的主要目的在于提出一种企业舆情事件网络的生成方法、装置、设备及存储介质，旨在解决现有技术在对企业舆情事件进行分析时，存在人工成本高，且分析结果不能全面、准确地反映企业在一段时间之内的事件关联的技术问题。

为实现上述目的，本发明提供一种企业舆情事件网络的生成方法，所述方法包括如下步骤：

分别获取目标企业在预设的不同时间节点下的情报文本集合；

将所述情报文本集合转换为对应的情报文本向量；

分别对不同时间节点下的情报文本向量进行聚类处理，得到一个事件备选集；

将所述事件备选集转换为一个事件组序列，所述事件组序列中包含若干个不同类型的事件对应的事件组；

根据所述事件组序列提取不同类型的事件的摘要信息，将所述摘要信息按照不同类型的事件发生的先后顺序串联起来，得到所述目标企业的舆情事件网络链。

优选地，所述分别获取目标企业在预设的不同时间节点下的情报文本集合的步骤包括：

在预设的不同时间节点下，从预设媒体源获取目标企业的情报文本，形成与所述预设媒体源对应的情报文本集合，其中每一时间节点下包括若干个情报文本集合，且不同的情报文本集合对应不同的预设媒体源。

优选地，所述将所述情报文本集合转换为对应的情报文本向量的步骤包括：

采用文档主题生成模型LDA模型对所述情报文本集合进行计算，得到与所述情报文本集合对应的主题向量；

采用预设的词向量生成算法对所述情报文本集合进行计算，得到与所述情报文本集合对应的综合词向量；

将所述主题向量、所述综合词向量和预设的所述目标企业的特征向量，按照向量维度进行横向拼接，得到与所述情报文本集合对应的情报文本向量。

优选地，所述采用预设的词向量生成算法对所述情报文本集合进行计算，得到与所述情报文本集合对应的综合词向量的步骤包括：

分别采用doc2vec词向量生成算法、Glove词向量生成算法和FastText词向量生成算法对所述情报文本集合进行计算，对应得到doc2vec词向量值、Glove词向量值，以及FastText词向量值；

根据所述doc2vec词向量值、Glove词向量值，以及FastText词向量值，生成与所述情报文本集合对应的综合词向量。

优选地，所述分别对不同时间节点下的情报文本向量进行聚类处理，得到一个事件备选集的步骤包括：

设置聚类的终止类别个数为n-1个，其中n为时间节点的个数；

采用层次聚类算法对不同时间节点下的情报文本向量进行聚类处理，得到一个大小为n*n-1的事件备选集，所述事件备选集中的每个元素代表某一时间节点下用于描述一类事件的所有情报文本向量的集合。

优选地，所述将所述事件备选集转换为一个事件组序列的步骤包括：

对所述事件备选集中的每个元素进行文档过滤和归并处理，得到若干个不同类型的事件对应的事件组；

获取每个事件组中最早发表的文档的发表时间；

根据所述发表时间的先后顺序，对各事件组进行排序，得到一个事件组序列。

优选地，所述根据所述事件组序列提取不同类型的事件的摘要信息的步骤包括：

采用预设的词向量转换算法对所述事件组序列中的每个事件组包含的文档进行计算，得到与每个事件组对应的全局词向量；

采用预设的聚类算法对所述全局词向量进行聚类，得到若干个向量集合，其中不同的向量集合用于表示不同类型的事件，且每个向量集合中包括若干个所述全局词向量；

根据所述事件组序列中事件组的排列顺序，对所述若干个向量集合进行排序，得到一个向量集合序列；

采用预设的摘要提取算法，提取所述向量集合序列中的每个向量集合对应的摘要信息。

优选地，所述预设的聚类算法为Newman快速合并算法，所述预设的摘要提取算法为textrank算法。

此外，为实现上述目的，本发明还提供一种企业舆情事件网络的生成装置，所述装置包括：

获取模块，用于分别获取目标企业在预设的不同时间节点下的情报文本集合；

情报文本向量生成模块，用于将所述情报文本集合转换为对应的情报文本向量；

事件备选集生成模块，用于分别对不同时间节点下的情报文本向量进行聚类处理，得到一个事件备选集；

事件组序列生成模块，用于将所述事件备选集转换为一个事件组序列，所述事件组序列中包含若干个不同类型的事件对应的事件组；

舆情事件网络链生成模块，用于根据所述事件组序列提取不同类型的事件的摘要信息，将所述摘要信息按照不同类型的事件发生的先后顺序串联起来，得到所述目标企业的舆情事件网络链。

优选地，所述获取模块，还用于在预设的不同时间节点下，从预设媒体源获取目标企业的情报文本，形成与所述预设媒体源对应的情报文本集合，其中每一时间节点下包括若干个情报文本集合，且不同的情报文本集合对应不同的预设媒体源。

优选地，所述情报文本向量生成模块，还用于采用文档主题生成模型LDA模型对所述情报文本集合进行计算，得到与所述情报文本集合对应的主题向量；采用预设的词向量生成算法对所述情报文本集合进行计算，得到与所述情报文本集合对应的综合词向量；将所述主题向量、所述综合词向量和预设的所述目标企业的特征向量，按照向量维度进行横向拼接，得到与所述情报文本集合对应的情报文本向量。

优选地，所述情报文本向量生成模块，还用于分别采用doc2vec词向量生成算法、Glove词向量生成算法和FastText词向量生成算法对所述情报文本集合进行计算，对应得到doc2vec词向量值、Glove词向量值，以及FastText词向量值；根据所述doc2vec词向量值、Glove词向量值，以及FastText词向量值，生成与所述情报文本集合对应的综合词向量。

优选地，所述事件备选集生成模块，还用于设置聚类的终止类别个数为n-1个，其中n为时间节点的个数；采用层次聚类算法对不同时间节点下的情报文本向量进行聚类处理，得到一个大小为n*n-1的事件备选集，所述事件备选集中的每个元素代表某一时间节点下用于描述一类事件的所有情报文本向量的集合。

优选地，所述事件组序列生成模块，还用于对所述事件备选集中的每个元素进行文档过滤和归并处理，得到若干个不同类型的事件对应的事件组；获取每个事件组中最早发表的文档的发表时间；根据所述发表时间的先后顺序，对各事件组进行排序，得到一个事件组序列。

优选地，所述舆情事件网络链生成模块，还用于采用预设的词向量转换算法对所述事件组序列中的每个事件组包含的文档进行计算，得到与每个事件组对应的全局词向量；采用预设的聚类算法对所述全局词向量进行聚类，得到若干个向量集合，其中不同的向量集合用于表示不同类型的事件，且每个向量集合中包括若干个所述全局词向量；根据所述事件组序列中事件组的排列顺序，对所述若干个向量集合进行排序，得到一个向量集合序列；采用预设的摘要提取算法，提取所述向量集合序列中的每个向量集合对应的摘要信息。

此外，为实现上述目的，本发明还提供一种企业舆情事件网络的生成设备，所述企业舆情事件网络的生成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业舆情事件网络的生成程序，所述企业舆情事件网络的生成程序被所述处理器执行时实现如上所述的企业舆情事件网络的生成方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有企业舆情事件网络的生成程序，所述企业舆情事件网络的生成程序被处理器执行时实现如上所述的企业舆情事件网络的生成方法的步骤。

本发明提出的企业舆情事件网络的生成方法，通过将企业的舆情信息，即情报文本作为主要应用实体自动归纳其摘要信息，即事件本身，然后将摘要信息按照不同事件发生的先后顺序串联起来，形成企业舆情事件网络链，不仅节省了人工成本，而且实现了全面、准确地反映企业在一段时间之内的事件关联情况，有利于对企业进行情报追溯和对未来待发生的事件进行推导预测。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明企业舆情事件网络的生成方法第一实施例的流程示意图；

图3为本发明实施例中获取到的不同时间节点下的情报文本集合的示意图；

图4为将图3中的情报文本集合转换为对应的情报文本向量的示意图；

图5为将图4中的情报文本向量进行聚类处理，得到一个事件备选集的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例企业舆情事件网络的生成设备可以是PC机或服务器设备。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及企业舆情事件网络的生成程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的企业舆情事件网络的生成程序，并执行下述企业舆情事件网络的生成方法实施例中的操作。

基于上述硬件结构，提出本发明企业舆情事件网络的生成方法各个实施例。

参照图2，图2为本发明企业舆情事件网络的生成方法第一实施例的流程示意图，所述方法包括：

步骤S10，分别获取目标企业在预设的不同时间节点下的情报文本集合；

在本实施例中，舆情事件网络主要指一种在一个周期之内，针对一个事件所属的实体(如企业、单位)，通过分析该周期内可以收集到的情报文本信息，将各类情报信息按照时间推演的顺序进行提炼，以期将情报集以主题或者总结的形式定义为事件实体，最后获得在该周期下的一连串事件演进网络。在实际应用中，构建企业的舆情事件网络，可以满足对企业的信息调研需要，并可以基于网络结构情况对企业未来可能发生的事情进行推导预测。

首先，本实施例可以结合实际需要，在一个周期之内确定多个不同的时间节点，且每个时间节点之间的时间间隔相同，比如，当周期为一个月时，可以设置4个时间节点，且每个时间节点的间隔为一周，此时第1个时间节点下的情报文本集合表示在这个月的第1周产生的情报信息的集合，第2个时间节点下的情报文本集合表示在这个月的第2周产生的情报信息的集合，依此类推。然后，分别获取目标企业在该预设的不同时间节点下的情报文本集合，其中情报文本集合中包含若干份和目标企业相关的情报文本，进一步地，为保证收集到尽可能多的情报信息，一个时间节点可以对应多个情报文本集合，其中不同的情报文本集合中的情报文本来源于不同的媒体源，媒体源的类型包括但不限于新闻、公告、研究报告等。

进一步地，上述步骤S10可以包括：在预设的不同时间节点下，从预设媒体源获取目标企业的情报文本，形成与所述预设媒体源对应的情报文本集合，其中每一时间节点下包括若干个情报文本集合，且不同的情报文本集合对应不同的预设媒体源。

具体地，预设媒体源的类型和数量可以灵活设置，比如预设媒体源为新闻、公告和研究报告，则对于每一时间节点，需分别从新闻、公告和研究报告平台上获取目标企业的情报文本，形成三种不同类型的情报文本集合，情报文本具体的获取方式可以是通过专业软件在各媒体源上爬取，也可以是发送请求给预设媒体源，以使预设媒体源返回相应的情报文本等，具体实施时可灵活设置。

参照图3，图3为本发明实施例中获取到的不同时间节点下的情报文本集合的示意图。图中预设n-1个时间节点Time_seq_1，Time_seq_2，…Time_seq_n-1，对于给定n-1的时间序列间隔下，对于情报文本集合来说，j代表时间节点序数，i代表情报文本集合的类型序数，在每个时间节点下，取最小公共数量为k的情报类型集合，由此可以形成一个行列对其的矩阵，即对于n-1个时间节点，对应每个节点的情报类型皆为k个，且k个类型保持一致。

步骤S20，将所述情报文本集合转换为对应的情报文本向量；

该步骤中，为便于后续计算，需将上述获取到的每个情报文本集合转换为对应的情报文本向量。

在一实施方式中，该步骤S20可以进一步包括：采用文档主题生成模型LDA模型对所述情报文本集合进行计算，得到与所述情报文本集合对应的主题向量；采用预设的词向量生成算法对所述情报文本集合进行计算，得到与所述情报文本集合对应的综合词向量；将所述主题向量、所述综合词向量和预设的所述目标企业的特征向量，按照向量维度进行横向拼接，得到与所述情报文本集合对应的情报文本向量。

具体地，将情报文本集合转换为对应的情报文本向量可以包括：

a、生成情报文本集合对应的主题向量。

对于任意一个情报文本集合，可以使用现有的文档主题生成模型LDA(LatentDirichlet Allocation)模型对其进行计算，即能生成一个主题向量Topic，比如Topic＝{“上市”，“融资”，“发债”}，进一步地，为便于后续计算，可以预先对可能存在的N个词建立一个数字ID词典，假定“上市”，“融资”，“发债”在词典中分别对应1，5，6，则Topic＝{“上市”，“融资”，“发债”}进而可表示成Topic＝{1，5，6}的向量形式。

b、生成情报文本集合对应的综合词向量。

该步骤具体可以包括：分别采用doc2vec词向量生成算法、Glove词向量生成算法和FastText词向量生成算法对所述情报文本集合进行计算，对应得到doc2vec词向量值、Glove词向量值，以及FastText词向量值；根据所述doc2vec词向量值、Glove词向量值，以及FastText词向量值，生成与所述情报文本集合对应的综合词向量。

对于任意一个情报文本集合，选定使用已有的：doc2vec词向量生成算法，Glove词向量生成算法，以及FastText词向量生成算法，分别计算该份情报文本集合的doc2vec向量值，Glove词向量值，以及FastText词向量值，然后，根据所述doc2vec词向量值、Glove词向量值，以及FastText词向量值，生成与所述情报文本集合对应的综合词向量，该综合词向量的表达形式可以为{doc2vec，Glove，FastText}。

经过实际试验测试，上述综合词向量生成方法，可以较为全面、准确地反映情报文本集合中包含的情报信息。当然，在更多的实施方式中，也可以灵活选用其他词向量生成算法生成情报文本集合对应的综合词向量，本实施例对此不作限定。

c、将主题向量、综合词向量和预设的目标企业的特征向量，按照向量维度进行横向拼接，得到与情报文本集合对应的情报文本向量。

本实施例可以预先给定目标企业的定制特征，具体的特征形式给出得越准确，越能对后续的网络的建立起到正反馈作用。比如，可以给定目标企业的特征向量形式为Features＝{企业名字，企业所属行业，企业所属公司性质}，同样类似于步骤a中的使用数字ID词典将中文向量转换为数字向量的形式，可以将Features转换为Features＝{feature1，feature2，feature3}的向量形式，其中feature1，feature2，feature3为数字编码。

之后，将上述主题向量、综合词向量和预设的所述目标企业的特征向量，按照向量维度进行横向拼接，得到与所述情报文本集合对应的情报文本向量，即生成向量形式为{Topic1，Topic2，Topic3，feature1，feature2，feature3，doc2vec，Glove，FastText}的一组长向量，作为与情报文本集合对应的情报文本向量。参照图4，图4为将图3中的情报文本集合转换为对应的情报文本向量的示意图。通过上述方式，对于图3中的任一情报文本集合来说，都可以将其转换为一个对应的情报文本向量。

步骤S30，分别对不同时间节点下的情报文本向量进行聚类处理，得到一个事件备选集；

该步骤中，可以采用现有的聚类算法，如层次聚类算法，分别对不同时间节点下的情报文本向量进行聚类处理，由此得到一个事件备选集，该事件备选集中的每个元素代表某一时间节点下用于描述一类事件的所有情报文本向量的集合。

步骤S40，将所述事件备选集转换为一个事件组序列，所述事件组序列中包含若干个不同类型的事件对应的事件组；

针对上述生成的事件备选集矩阵，本步主要用于对矩阵中元素进行合并，从而让时间-事件的二维矩阵关系维度转换成[事件组1，事件组2，…，事件组n]的形式，即和时间节点无关的事件组序列。通过消除以具体时间节点划分的矩阵，形成只包含前后顺序的事件组序列，从而为后续生成企业舆情事件网络步骤打下基础。事件组序列可以表示为[[S1,S2,S3,…,Sn],[S1,S2,S3,…,Sm]，…，[S1,S2,S3,…,Sz]]的形式，其中任一子集比如[S1,S2,S3..Sn]代表一个事件组，任一事件组中拥有最大近似的事件内容。

步骤S50，根据所述事件组序列提取不同类型的事件的摘要信息，将所述摘要信息按照不同类型的事件发生的先后顺序串联起来，得到所述目标企业的舆情事件网络链。

该步骤中，根据上述事件组序列，根据预设的摘要提取算法提取不同类型的事件的摘要信息，然后将摘要信息按照不同类型的事件发生的先后顺序串联起来，得到目标企业的舆情事件网络链。该舆情事件网络链能够反映目标企业在预设周期内发生的一连串事件，比如股票下跌-公司破产-老板跑路，如此可以满足对企业的信息调研需要，并可以基于网络结构情况对企业未来可能发生的事情进行推导预测。

本实施例提出的企业舆情事件网络的生成方法，通过将企业的舆情信息，即情报文本作为主要应用实体自动归纳其摘要信息，即事件本身，然后将摘要信息按照不同事件发生的先后顺序串联起来，形成企业舆情事件网络链，不仅节省了人工成本，而且实现了全面、准确地反映企业在一段时间之内的事件关联情况，有利于对企业进行情报追溯和对未来待发生的事件进行推导预测。

进一步地，基于上述第一实施例，提出本发明企业舆情事件网络的生成方法第二实施例。

本实施例中，上述步骤S40可以包括：设置聚类的终止类别个数为n-1个，其中n为时间节点的个数；采用层次聚类算法对不同时间节点下的情报文本向量进行聚类处理，得到一个大小为n*n-1的事件备选集，所述事件备选集中的每个元素代表某一时间节点下用于描述一类事件的所有情报文本向量的集合。

在对不同时间节点下的情报文本向量进行聚类处理时，可以采用现有的层次聚类算法进行聚类，且设置聚类的终止类别个数为n-1个，其中n为时间节点的个数，由此可以得到一个大小为n*n-1的事件备选集，该事件备选集中的任一元素代表某一时间节点下用于描述一类事件的所有情报文本向量的集合。参照图5，图5为将图4中的情报文本向量进行聚类处理，得到一个事件备选集的示意图，由于预设时间节点为n-1个，因此对每个时间节点下的情报文本向量进行聚类，可以得到一个(n-1)*(n-2)大小的矩阵S，即事件备选集。

进一步地，所述将所述事件备选集转换为一个事件组序列的步骤可以包括：对所述事件备选集中的每个元素进行文档过滤和归并处理，得到若干个不同类型的事件对应的事件组；获取每个事件组中最早发表的文档的发表时间；根据所述发表时间的先后顺序，对各事件组进行排序，得到一个事件组序列。

具体地，由于矩阵S中每个元素均包含数个文档信息，假定包含k个文档信息，则对进行如下过滤和归并处理：

(1)针对选中的中的i行中的任意第I个文档，提取其首段句子，末尾句子，并将两者合并成一段文本一起加入一个备选集合SetA中，如果在执行该过程时候，发现SetA里面有完全一样的文本，则不做任何操作；同样针

对中的j列中的任意第J个文档使用上述操作得到SetB；

(2)定义一个连续事件集合new_S＝[]，分别将Set_A和Set_B中的文档按其出现的时间顺序***到new_S中，如果***过程中，在待***的位置已存在文档，则将当前文档与此文档直接拼接成一个文档，最终生成new_S＝[拼接文档1，拼接文档2，拼接文档3，…]。

通过上述过程，对于矩阵S，经过文档之间的过滤、归并步骤，可以使其转变为一个二维度的序列，即[S1,S2,S3,…,Sn]，[S1,S2,S3,…,Sm]，…，[S1,S2,S3,…,Sz]，其中[S1,S2,S3,…,Sn]，[S1,S2,S3,…,Sm]，[S1,S2,S3,…,Sz]分别代表不同的事件组；然后，获取每个事件组中最早发表的文档的发表时间，并根据该发表时间的先后顺序，对事件组进行排列，由此可以得到一个按不同事件发生的先后顺序排列的事件组序列。通过定义此步，对于某企业的各类情报信息集合最后可以汇聚成按时间顺序展开的一系列文档集，并且该划分尽可能保证了任一事件组拥有最大近似的事件内容。

进一步地，所述根据所述事件组序列提取不同类型的事件的摘要信息的步骤可以包括：采用预设的词向量转换算法对所述事件组序列中的每个事件组包含的文档进行计算，得到与每个事件组对应的全局词向量；采用预设的聚类算法对所述全局词向量进行聚类，得到若干个向量集合，其中不同的向量集合用于表示不同类型的事件，且每个向量集合中包括若干个所述全局词向量；根据所述事件组序列中事件组的排列顺序，对所述若干个向量集合进行排序，得到一个向量集合序列；采用预设的摘要提取算法，提取所述向量集合序列中的每个向量集合对应的摘要信息。

其中，聚类算法和摘要提取算法可以灵活选择，在本实施例中，预设的聚类算法优选为Newman快速合并算法，预设的摘要提取算法优选为textrank算法。

本实施例中，为生成网络推演形式，假定对于一个企业，其事件组序列表示为[[S1,S2,S3,…,Sn],[S1,S2,S3,…,Sm]，…，[S1,S2,S3,…,Sz]]，共C个子序列集，为此，定义每个子序列集为一个结点，即：Net1，Net2，…，NetC，为获得一个数值表达，在此步可以对任一个Net结点里面的文档使用word2vec模型计算其全局的词向量，并设置生成的词向量维度为300维，最终得到每个事件组对应的全局词向量表示为：Net1<vec1,vec2,vec3,…,vec300>,Net2<vec1,vec2,vec3,…,vec300>，…，NetC<vec1,vec2,vec3,…,vec300>。

然后，使用Newman快速合并算法对上述全局词向量进行聚类，得到若干个向量集合Affair，每个Affair中包含一个或多个Net结点；之后，根据Affair中的Net下标对这若干个Affair进行排序，具体为：获取每个Affair中的Net下标最小的Net的下标，然后根据Net下标大小，将不同的Affair进行排序，如此能够保证能生成按时间顺序排列的向量集合序列：Affair_1<netj,netk，….>,Affair_2<netz,netv,netn>，…，其中i,j,k,z,v,n均为不同的Net的下标。

最后，通过textrank算法分别将每个Affair中的所有Net结点对应的文档合并，并对该合并的文档提取一段摘要Affair_Text，则该摘要能表征一类事件，并且由于Affair结点之间存在顺序关系，因此最终便能生成企业一段时间的事件网络表示，该事件网络的具体结构为保持时间顺序递进的一连串摘要描述，即企业舆情事件网络。该企业舆情事件网络能够全面、准确地反映企业在一段时间之内的事件关联情况，有利于对企业进行情报追溯和对未来待发生的事件进行推导预测。

本发明还提供一种企业舆情事件网络的生成装置。本发明企业舆情事件网络的生成装置包括：

进一步地，所述获取模块，还用于在预设的不同时间节点下，从预设媒体源获取目标企业的情报文本，形成与所述预设媒体源对应的情报文本集合，其中每一时间节点下包括若干个情报文本集合，且不同的情报文本集合对应不同的预设媒体源。

进一步地，所述情报文本向量生成模块，还用于采用文档主题生成模型LDA模型对所述情报文本集合进行计算，得到与所述情报文本集合对应的主题向量；采用预设的词向量生成算法对所述情报文本集合进行计算，得到与所述情报文本集合对应的综合词向量；将所述主题向量、所述综合词向量和预设的所述目标企业的特征向量，按照向量维度进行横向拼接，得到与所述情报文本集合对应的情报文本向量。

进一步地，所述情报文本向量生成模块，还用于分别采用doc2vec词向量生成算法、Glove词向量生成算法和FastText词向量生成算法对所述情报文本集合进行计算，对应得到doc2vec词向量值、Glove词向量值，以及FastText词向量值；根据所述doc2vec词向量值、Glove词向量值，以及FastText词向量值，生成与所述情报文本集合对应的综合词向量。

进一步地，所述事件备选集生成模块，还用于设置聚类的终止类别个数为n-1个，其中n为时间节点的个数；采用层次聚类算法对不同时间节点下的情报文本向量进行聚类处理，得到一个大小为n*n-1的事件备选集，所述事件备选集中的每个元素代表某一时间节点下用于描述一类事件的所有情报文本向量的集合。

进一步地，所述事件组序列生成模块，还用于对所述事件备选集中的每个元素进行文档过滤和归并处理，得到若干个不同类型的事件对应的事件组；获取每个事件组中最早发表的文档的发表时间；根据所述发表时间的先后顺序，对各事件组进行排序，得到一个事件组序列。

进一步地，所述舆情事件网络链生成模块，还用于采用预设的词向量转换算法对所述事件组序列中的每个事件组包含的文档进行计算，得到与每个事件组对应的全局词向量；采用预设的聚类算法对所述全局词向量进行聚类，得到若干个向量集合，其中不同的向量集合用于表示不同类型的事件，且每个向量集合中包括若干个所述全局词向量；根据所述事件组序列中事件组的排列顺序，对所述若干个向量集合进行排序，得到一个向量集合序列；采用预设的摘要提取算法，提取所述向量集合序列中的每个向量集合对应的摘要信息。

上述各程序模块所实现的方法可参照本发明消息总线异常的根因分析方法实施例，此处不再赘述。

本发明还提供一种企业舆情事件网络的生成设备。

本发明企业舆情事件网络的生成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业舆情事件网络的生成程序，所述企业舆情事件网络的生成程序被所述处理器执行时实现如上所述的企业舆情事件网络的生成方法的步骤。

其中，在所述处理器上运行的企业舆情事件网络的生成程序被执行时所实现的方法可参照本发明企业舆情事件网络的生成方法各个实施例，此处不再赘述。

本发明还提供一种存储介质。

本发明存储介质上存储有企业舆情事件网络的生成程序，所述企业舆情事件网络的生成程序被处理器执行时实现如上所述的企业舆情事件网络的生成方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种企业舆情事件网络的生成方法，其特征在于，所述企业舆情事件网络的生成方法包括如下步骤：

将所述情报文本集合转换为对应的情报文本向量；

2.如权利要求1所述的企业舆情事件网络的生成方法，其特征在于，所述分别获取目标企业在预设的不同时间节点下的情报文本集合的步骤包括：

3.如权利要求1所述的企业舆情事件网络的生成方法，其特征在于，所述将所述情报文本集合转换为对应的情报文本向量的步骤包括：

4.如权利要求3所述的企业舆情事件网络的生成方法，其特征在于，所述采用预设的词向量生成算法对所述情报文本集合进行计算，得到与所述情报文本集合对应的综合词向量的步骤包括：

5.如权利要求1至4中任一项所述的企业舆情事件网络的生成方法，其特征在于，所述分别对不同时间节点下的情报文本向量进行聚类处理，得到一个事件备选集的步骤包括：

设置聚类的终止类别个数为n-1个，其中n为时间节点的个数；

6.如权利要求1至4中任一项所述的企业舆情事件网络的生成方法，其特征在于，所述将所述事件备选集转换为一个事件组序列的步骤包括：

获取每个事件组中最早发表的文档的发表时间；

7.如权利要求1至4中任一项所述的企业舆情事件网络的生成方法，其特征在于，所述根据所述事件组序列提取不同类型的事件的摘要信息的步骤包括：

8.如权利要求7所述的企业舆情事件网络的生成方法，其特征在于，所述预设的聚类算法为Newman快速合并算法，所述预设的摘要提取算法为textrank算法。

9.一种企业舆情事件网络的生成装置，其特征在于，所述装置包括：

10.如权利要求9所述的企业舆情事件网络的生成装置，其特征在于，

所述获取模块，还用于在预设的不同时间节点下，从预设媒体源获取目标企业的情报文本，形成与所述预设媒体源对应的情报文本集合，其中每一时间节点下包括若干个情报文本集合，且不同的情报文本集合对应不同的预设媒体源。

11.如权利要求9所述的企业舆情事件网络的生成装置，其特征在于，

所述情报文本向量生成模块，还用于采用文档主题生成模型LDA模型对所述情报文本集合进行计算，得到与所述情报文本集合对应的主题向量；采用预设的词向量生成算法对所述情报文本集合进行计算，得到与所述情报文本集合对应的综合词向量；将所述主题向量、所述综合词向量和预设的所述目标企业的特征向量，按照向量维度进行横向拼接，得到与所述情报文本集合对应的情报文本向量。

12.如权利要求11所述的企业舆情事件网络的生成装置，其特征在于，

所述情报文本向量生成模块，还用于分别采用doc2vec词向量生成算法、Glove词向量生成算法和FastText词向量生成算法对所述情报文本集合进行计算，对应得到doc2vec词向量值、Glove词向量值，以及FastText词向量值；根据所述doc2vec词向量值、Glove词向量值，以及FastText词向量值，生成与所述情报文本集合对应的综合词向量。

13.如权利要求9至12中任一项所述的企业舆情事件网络的生成装置，其特征在于，

所述事件备选集生成模块，还用于设置聚类的终止类别个数为n-1个，其中n为时间节点的个数；采用层次聚类算法对不同时间节点下的情报文本向量进行聚类处理，得到一个大小为n*n-1的事件备选集，所述事件备选集中的每个元素代表某一时间节点下用于描述一类事件的所有情报文本向量的集合。

14.如权利要求9至12中任一项所述的企业舆情事件网络的生成装置，其特征在于，

所述事件组序列生成模块，还用于对所述事件备选集中的每个元素进行文档过滤和归并处理，得到若干个不同类型的事件对应的事件组；获取每个事件组中最早发表的文档的发表时间；根据所述发表时间的先后顺序，对各事件组进行排序，得到一个事件组序列。

15.如权利要求9至12中任一项所述的企业舆情事件网络的生成装置，其特征在于，

所述舆情事件网络链生成模块，还用于采用预设的词向量转换算法对所述事件组序列中的每个事件组包含的文档进行计算，得到与每个事件组对应的全局词向量；采用预设的聚类算法对所述全局词向量进行聚类，得到若干个向量集合，其中不同的向量集合用于表示不同类型的事件，且每个向量集合中包括若干个所述全局词向量；根据所述事件组序列中事件组的排列顺序，对所述若干个向量集合进行排序，得到一个向量集合序列；采用预设的摘要提取算法，提取所述向量集合序列中的每个向量集合对应的摘要信息。

16.一种企业舆情事件网络的生成设备，其特征在于，所述企业舆情事件网络的生成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业舆情事件网络的生成程序，所述企业舆情事件网络的生成程序被所述处理器执行时实现如权利要求1至8中任一项所述的企业舆情事件网络的生成方法的步骤。

17.一种存储介质，其特征在于，所述存储介质上存储有企业舆情事件网络的生成程序，所述企业舆情事件网络的生成程序被处理器执行时实现如权利要求1至8中任一项所述的企业舆情事件网络的生成方法的步骤。