CN113449508B

CN113449508B - 一种基于事件链的网络舆情关联推演预测分析方法

Info

Publication number: CN113449508B
Application number: CN202110799240.2A
Authority: CN
Inventors: 李仁德; 马皓添; 曹春萍
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2023-01-17
Anticipated expiration: 2041-07-15
Also published as: CN113449508A

Abstract

本发明公开了一种基于事件链的网络舆情关联推演预测分析方法，包括：将微博博文文本数据根据事件发展提取相关节点事件，通过聚类关联和模式挖掘匹配预测，形成主题演化树和舆情演化概率图；其中，通过ELMO模型对微博训练集语料进行预训练，并向量化微博博文；通过One‑Pass聚类算法合并相似微博数据，得到节点事件集合；通过ActiveLearning进行少标签数据学习，人机交互提高标签质量；通过Seq2Pat发现标签之间转移对数，进而构建马尔科夫链，形成主题树和预测节点事件演化趋势。根据本发明，弥补了复杂舆情事件中子事件的提取、关联、与预测，并充分考虑了专家介入的人机互动标签方法，适用于舆情推演分析定位与精准预测。

Description

一种基于事件链的网络舆情关联推演预测分析方法

技术领域

本发明涉及图书推荐***的技术领域，特别涉及一种基于事件链的网络舆情关联推演预测分析方法。

背景技术

微博舆情是互联网舆情表现的新形式，已成为影响国家安全和社会稳定的不确定性因素。研究网络舆情突发事件微博讨论内容的变化，挖掘事件发展过程中的舆情演化规律，对于辅助网络舆论的引导工作以及预测类似事件的宏观发展方向具有现实意义。然而，面对海量的舆情信息如何对其有效组织一直是近年来的研究热点。传统的网络舆情分析往往只关注舆情整体在社交媒体中的内容演化，却忽略了事件的细粒度强度演化过程，致使用户很难捕捉事件不同方面的演化过程。而且面对愈加庞大的数据信息也限制了对舆情演化的解读。在这种情况下，如何在海量的数据中发现并跟踪事件的产生、演变，挖掘事件的态势走向，成为舆情分析中的一个重要问题。

发明专利CN201910120187.1提出了一种网络舆情演化结果的预测方法，获取网络舆情传播所有个体信息，并根据所述个体信息构建有向加权网络；从所述个体信息中提取个体初始意见，根据所述初始意见和所述有向加权网络计算网络舆情随时间演化的预测结果；发明专利CN201910452142.4提供一种提出了一种基于连续马尔科夫的双层网络舆情信息传播预测方法，能够根据线上和线下双层网络节点预测舆情状况；发明专利CN201610096775.2给出了一种基于LDA主题模型来分析和预测网络舆情的方法，从训练结果中得到各LDA主题模型强度随时间的变化趋势，实现网络舆情的动态分析和预测功能。发明专利CN202010668147.3公开了一种舆情传播的稳定条件的预测方法、装置及设备，用于精确判断在目标社交平台中舆情传播的稳定条件。

上述的发明专利，并没有对话题内容的联系和发展过程进行深入分析，致使用户不能清楚的掌握事件的主要内容和演变历程。基本思路是提取事件在不同发展阶段的内容信息，并按时间顺序展示给用户。但关键在于提取哪些事件最主要，事件之间是否具有演化关系，以及以何种方法能预测类似网络舆情的态势走向，传统的演化研究并没有做深入的回答。

发明内容

针对现有技术中存在的不足之处，本发明的目的是提供一种基于事件链的网络舆情关联推演预测分析方法，弥补了复杂舆情事件中子事件的提取、关联、与预测，并充分考虑了专家介入的人机互动标签方法，适用于舆情推演分析定位与精准预测。为了实现根据本发明的上述目的和其他优点，提供了一种基于事件链的网络舆情关联推演预测分析方法，包括：

S1、通过ELMO模型对微博训练集语料进行预训练，得到预训练模型后对测试集进行词向量处理；

S2、通过One-Pass聚类算法合并相似微博数据，得到节点事件集合；

S3、对步骤S2中的节点事件集合的关键词再次使用预训练模型向量化处理，得到节点集合的向量化表示；

S4、通过Active Learning进行少标签数据学习，为每个节点贴标；

S5、通过Seq2Pat发现标签之间转移对数；

S6、通过马尔科夫链构建节点事件之间关联，并生成关联树；

S7、通过n步马尔科夫链预测每个节点事件的舆情发展趋势。

优选的，所述步骤S1还包括对微波文本进行数据预处理，包括以下步骤：

S11、通过TextRank算法对分词后的博文词汇集进行关键词提取，得到博文关键词词汇集，构建在EMLo模型；

S12、使用一个双向的LSTM语言模型，将ELMo直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上，对测试集语料中词向量化。

优选的，所述步骤S2包括对于每条向量化后的博文进行余弦相似性计算，通过One-Pass聚类，得到节点事件。

优选的，所述步骤S3包括以下步骤：

S31、通过步骤S1得到的预训练模型，再次进行词向量化；

S32、随后进行语义消歧任务，使用SemCor3.0语料库，利用BiLMs来计算语料库中所有的词汇向量表示；

S33、再利用1近邻法求这个词汇可能的位置及向量化。

优选的，所述步骤S4中通过基于池的采样(Pool-based Sampling)的ActiveLearning对节点事件进行标注。

优选的，所述步骤S5中使用Seq2Pat基于约束的顺序模式挖掘算法，使用多值决策图(MDD)的顺序数据库表示方法，通过利用对称性对项目序列及其属性进行紧凑编码。

优选的，所述步骤S6中，根据节点事件的先验概率和转移概率，计算得到马尔科夫链模型，并生成事件链状态转移概率树。

优选的，所述步骤S7中，通过n步马尔科夫链，计算达到稳态，并生成每个子节点事件演化概率图。

本发明与现有技术相比，其有益效果是：通过ELMO模型词向量化，通过One-Pass聚类对于每条向量化后的博文进行相似性计算，节点事件表述衍生舆情事件的核心含义，可以作为事件的摘要帮助刻画事件包含哪些侧面或分析角度，不同的侧面也对应了舆论不同的关注点，将节点事件向量化，得到的节点事件簇关键词集合结合原数据对应的文本内容，概括性描述出舆情事件摘要；人机交互贴标，通过基于池的采样(Pool-based Sampling)的Active Learning对节点事件进行标注，将构建的事件链图中的舆情事件以节点事件对的形式两两结合进行存储，每个事件对代表着网络舆情事件链节点之间的可能演化，强度演化过程通过计算不同时间片上事件的强度值，来反应该事件所受到的关注度从高潮到低潮或从低潮到高潮的变化过程，采用马尔可夫对每一衍生舆情事件的强度演化趋势进行预测。根据演化概率构建马尔可夫状态转移矩阵P，利用初始状态向量和状态转移矩阵来预测以后舆情强度的状态概率，通过n步转移公式，得到马尔可夫链的平稳分布。该稳态概率反应了***达到稳定时处于某一状态的可能性。同时呈现每个节点事件的演化概率图。

附图说明

图1为根据本发明的基于事件链的网络舆情关联推演预测分析方法的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，一种基于事件链的网络舆情关联推演预测分析方法，包括：S1、通过ELMO模型对微博训练集语料进行预训练，得到预训练模型后对测试集进行词向量处理；

S5、通过Seq2Pat发现标签之间转移对数；

S7、通过n步马尔科夫链预测每个节点事件的舆情发展趋势。

进一步的，所述步骤S1还包括对微博文本进行数据预处理，包括以下步骤：

S11、通过TextRank算法对分词后的微博文词汇集进行关键词提取，得到博文关键词词汇集，构建在EMLo模型；

进一步的，所述步骤S2包括对于每条向量化后的博文进行余弦相似性计算，通过One-Pass聚类，得到节点事件。

进一步的，所述步骤S3包括以下步骤：

S31、通过步骤S1得到的预训练模型，再次进行词向量化；

S33、再利用1近邻法求这个词汇可能的位置及向量化。

进一步的，所述步骤S4中通过基于池的采样(Pool-based Sampling)的ActiveLearning对节点事件进行标注。

进一步的，所述步骤S5中使用Seq2Pat基于约束的顺序模式挖掘算法，使用多值决策图(MDD)的顺序数据库表示方法，通过利用对称性对项目序列及其属性进行紧凑编码。

进一步的，所述步骤S6中，根据节点事件的先验概率和转移概率，计算得到马尔科夫链模型，并生成事件链状态转移概率树

进一步的，所述步骤S7中，通过n步马尔科夫链，计算达到稳态，并生成每个子节点事件演化概率图。

实施例方式如下：

步骤S1 ELMO模型词向量化。(1)文本预处理。在对数据预处理的基础上进一步对文本进行处理。其中包含了许多与事件无关的特殊符号、表情、链接等。如频繁出现的词语“转发”、“微博”、“@用户”以及标记性符号等，如果不去掉对之后的文本分析会造成干扰。其中“#话题#”的文字内容直观表达了一个话题内容，因此需要保留。对处理后的微博文本内容进行分词处理，这里使用jieba分词工具。并对分词后的微博文本去除停用词、拟声词、特殊符号。如“的”、“地”、“啊”等词以及无用的标点符号，得到每条博文词汇集；(2)关键词提取。为了快速获取文本的核心内容，高度凝练文本的主题，首先对文本进行关键词提取。通过TextRank算法对分词后的博文词汇集进行关键词提取，得到博文关键词词汇集；(3)构建在EMLo模型，使用的一个双向的LSTM语言模型，由一个前向和一个后向语言模型构成，每层的LSTM cell拥有4096个单元和512维度映射，目标函数就是取这两个方向语言模型的最大似然。在预训练好这个语言模型之后，把这个双向语言模型的每一中间层进行一个求和，使用最高层的表示来作为ELMo。(4)进行有监督的NLP任务时，将ELMo直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上，对测试集语料中词向量化。

步骤S2 One-Pass聚类。对于每条向量化后的博文进行相似性计算。①初始时从数据集读入一个新的博文；②以这个博文构建一个新的簇；③若达到数据集末尾，则转6，否则读入一个新的博文；计算它与每个已有簇之间的距离，并选择与它距离最小的簇。④若最小距离超过给定的阈值，转②；⑤否则将对象并入该簇，并更新簇心，转③；⑥结束。在本算法中，采用的是余弦距离公式计算节点与簇心之间的距离。一次网络舆情对应着多个不同阶段以及相关的衍生舆情事件，记为节点事件，根据提取的舆情事件簇概括性描述出其发展阶段对应的节点事件。例如9.11恐怖袭击事件包含“袭恐发生”、“政府紧急应对”、“伤亡人员抚恤”、“遇难者哀悼”和“嫌疑人抓捕”等发展阶段，即为节点事件。节点事件表述衍生舆情事件的核心含义，可以作为事件的摘要帮助我们刻画事件包含哪些侧面或分析角度，不同的侧面也对应了舆论不同的关注点。

步骤S3节点事件向量化。根据S2的聚类，每个节点事件包含了若干显示博文，对每个簇中的博文博文词汇集求并集，得到节点事件的综合表达。通过文本聚类已将海量的舆情事件降低到人工可判读的数量级，同时有助于获得相互独立的节点事件。仅仅将节点事件的表示视为一个简单的词袋不便于之后的演化分析，因此对得到的节点事件簇关键词集合结合原数据对应的文本内容，概括性描述出舆情事件摘要。对于每个节点事件，通过S1得到的预训练模型，再次进行词向量化。随后进行语义消歧任务，使用SemCor3.0语料库，这是一个标注了多义的预料库，库中的每个词汇都对应着wordnet的一个位置。基于该预料库进行计算的方法是，先利用BiLMs来计算出了语料库中所有的词汇向量表示。然后将位于wordnet相同位置的词汇的向量取了平均。测试的时候，对于一个给出的目标博文中的目标词，利用BiLM得出结果后，利用训练时获得的每个wordnet位置中的词汇的初始向量，再利用1近邻法求这个词汇可能的位置。

步骤S4人机交互贴标。通过基于池的采样(Pool-based Sampling)的ActiveLearning对节点事件进行标注。①将数据分为“池”和测试集；②从池中为初始训练选择k个样本设置并标记它们，其余数据将成为验证集；③对所有集合进行归一化；④使用训练集以平衡的权重训练模型；⑤将训练好的模型与验证集一起使用，获得每个样本的概率；⑥将训练好的模型与测试集一起使用，获得性能指标；⑦根据每个样本的概率选择k个最有信息的样本，即模型关于其标记最不确定的那些样本；⑧将这k个样本从验证集中移到训练集中，并查询其标签；⑨对所有数据集进行逆归一化；⑩根据停止标准停止，否则转到③。在贴标过程从，需要注意以下几点：(1)所选算法的完全监督性能通常是上限，需要建议尝试几种算法，如带有线性核的支持向量机(SVM)，随机森林(RF)和逻辑回归(LOG)。(2)从验证集中删除样本后，必须颠倒所有集合的归一化并再次进行标准化，因为在新的验证集和新的训练集中，我们的样本分布都发生了变化。(3)样本选择功能依赖于从训练后的模型得出的测试样本概率，因此，我们只能使用提供访问样本概率的算法。(4)k是一个超参数。提出了四个已知的选择函数：a.随机选择——从验证集中选择k个随机样本；b.熵选择——选择熵最高的k个样本；c.保证金选择—我们选择k个样本，其两个最高类别概率之间的差异最小，即对于模型非常确定为一个类别的样本，将给出一个较高的数字，而对于类别概率非常大的样本，将给出一个较高的数字相似的。

步骤S5 Seq2Pat关联挖掘。Seq2Pat是用于基于约束的顺序模式挖掘算法，使用多值决策图(MDD)的顺序数据库表示方法，通过利用对称性对项目序列及其属性进行紧凑编码。MDD表示用约束特定的信息来扩充，以便在挖掘算法期间保证或强制满足约束。首先，约束满足只执行一次，而不是像预投影算法那样对每个投影数据库执行一次。其次，可以同时考虑几个约束条件，这与单独考虑每个约束条件并导致较大计算成本的迭代方法相反。最后，强加约束导致较小的MDD，并因此降低了对挖掘算法的计算要求。如果MDD是前缀单调的或前缀反单调的，则可以直接对其施加约束条件。通过不在它们各自的节点之间创建弧来防止这种约束的不可行扩展。对于序列S，算法从节点相关开始对应于位置S[j]处的项目S[j]:j＝|S|，并检查该项目是否可用于扩展以序列的任何先前项目I∈LJ′<LJ结束的模式。只要扩展是可行的，就会在MDD的各个项目节点之间创建一个弧(u，v)。然后，算法对j-1位置的项目递增并重复相同的过程。通过上面的构造，一个节点连接到所有节点，表示相对于强加的约束的可行扩展。因此，挖掘算法只需要搜索节点u∈U的子节点来扩展以U结尾的任何模式。如果S[j]处的项I到S[j’]处的项的扩展是不可行的，则保证I到项S[k]:k≥j′的任何扩展也是不可行的。如果一个约束是非单调的，需要检查它对于所有可能的扩展的满足性，这只有在所有单调和反单调约束都满足的情况下才能完成。各种约束类型包括：平均——此约束指定模式中所有事件的属性平均值；差距——这个约束指定的图案中每两个连续事件的属性值之间的差异；中位数——此约束指定模式中所有事件中属性的中位数；跨度——此约束指定模式中所有事件中属性的最大值和最小值之间的差。

步骤S6～7将构建的事件链图中的舆情事件以节点事件对的形式两两结合进行存储，每个事件对代表着网络舆情事件链节点之间的可能演化。计算出各节点事件的先验概率，然后再利用条件概率公式计算出事件对间的演化概率。在构建的事件链图上添加对应的事件间的演化概率即为事件内容演化图。与事件内容演化对应的是事件生命周期内不同时间片上的强度演化过程，揭示了用户的关注点逐渐转移的变化过程。强度演化过程通过计算不同时间片上事件的强度值，来反应该事件所受到的关注度从高潮到低潮或从低潮到高潮的变化过程。依据强度演化图可以考察一段时间内舆论对于同一事件关注角度的变化以及事件本身的发展过程。而事件的强度主要通过关于所发生事件的语料文本集合中所占的比例来衡量,用来表示时间片k上事件t的强度马尔可夫是预测事件发生概率的一种有效方法。在该过程中，过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状态)是无关的，即下一状态的概率分布只能由当前状态决定。针对舆情演化而言，首先，舆情的发展可以看作是一个非平稳的时间序列，并且其时间划分和状态划分都可以描述为离散的过程；其次，舆情的演化受当前时刻状态的影响非常强烈，即t+1时刻的状态只与t时刻的状态有关，而与过去的状态无关；最后，从一个状态到另一个状态的转移过程是随机的。这些特点正好满足马尔可夫的无后效性应用条件。因此，采用马尔可夫对每一衍生舆情事件的强度演化趋势进行预测。根据演化概率构建马尔可夫状态转移矩阵P，利用初始状态向量和状态转移矩阵来预测以后舆情强度的状态概率，通过n步转移公式，得到马尔可夫链的平稳分布。该稳态概率反应了***达到稳定时处于某一状态的可能性。同时呈现每个节点事件的演化概率图。

这里说明的设备数量和处理规模是用来简化本发明的说明的，对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。尽管本发明的实施方案已公开如上，但其并不仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于事件链的网络舆情关联推演预测分析方法，其特征在于，包括以下步骤：

S5、通过Seq2Pat发现标签之间转移对数，Seq2Pat是用于基于约束的顺序模式挖掘算法，使用多值决策图(MDD)的顺序数据库表示方法，通过利用对称性对项目序列及其属性进行紧凑编码，MDD表示用约束特定的信息来扩充，如果MDD是前缀单调的或前缀反单调的，则可以直接对其施加约束条件，对于序列S，算法从节点相关开始对应于位置S[j]处的项目S[j]:j＝|S|，并检查该项目是否可用于扩展以序列的任何先前项目I∈LJ′<LJ结束的模式；只要扩展是可行的，在MDD的各个项目节点之间创建一个弧(u，v)；然后，算法对j-1位置的项目递增并重复相同的过程；通过上面的构造，一个节点连接到所有节点，表示相对于强加的约束的可行扩展；如果S[j]处的项I到S[j’]处的项的扩展是不可行，则保证I到项S[k]:k≥j′的任何扩展也是不可行；

S7、通过n步马尔科夫链预测每个节点事件的舆情发展趋势。

2.如权利要求1所述的一种基于事件链的网络舆情关联推演预测分析方法，其特征在于，所述步骤S1还包括对微博文本进行数据预处理，包括以下步骤：

S11、通过TextRank算法对分词后的博文词汇集进行关键词提取，得到博文关键词词汇集，构建EMLo模型；

3.如权利要求1所述的一种基于事件链的网络舆情关联推演预测分析方法，其特征在于，所述步骤S2包括对于每条向量化后的博文进行余弦相似性计算，通过One-Pass聚类，得到节点事件。

4.如权利要求1所述的一种基于事件链的网络舆情关联推演预测分析方法，其特征在于，所述步骤S3包括以下步骤：

S31、通过步骤S1得到的预训练模型，再次进行词向量化；

S33、再利用1近邻法求这个词汇可能的位置及向量化。

5.如权利要求1所述的一种基于事件链的网络舆情关联推演预测分析方法，其特征在于，所述步骤S4中通过基于池的采样(Pool-based Sampling)的Active Learning对节点事件进行标注。

6.如权利要求1所述的一种基于事件链的网络舆情关联推演预测分析方法，其特征在于，所述步骤S5中使用Seq2Pat基于约束的顺序模式挖掘算法，使用多值决策图(MDD)的顺序数据库表示方法，通过利用对称性对项目序列及其属性进行紧凑编码。

7.如权利要求1所述的一种基于事件链的网络舆情关联推演预测分析方法，其特征在于，所述步骤S6中，根据节点事件的先验概率和转移概率，计算得到马尔科夫链模型，并生成事件链状态转移概率树

8.如权利要求1所述的一种基于事件链的网络舆情关联推演预测分析方法，其特征在于，所述步骤S7中，通过n步马尔科夫链，计算达到稳态，并生成每个子节点事件演化概率图。