CN115858899A

CN115858899A - 一种基于多标签影响的网络事件标签流行度预测方法

Info

Publication number: CN115858899A
Application number: CN202211605375.1A
Authority: CN
Inventors: 周斌; 田磊; 高立群; 赵学臣; 韩跃; 谢锋; 张中; 李爱平; 江荣; 王晔; 涂宏魁
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-03-28

Abstract

本发明提供一种基于多标签影响的网络事件标签流行度预测方法，采集事件相关的事件标签传播数据与相关用户数据；构造标签传播关系网络，获取节点关系和节点属性，建立包含：特征聚合组件，包括静态语义特征聚合和动态群体传播特征聚合过程；局部聚合组件，由图胶囊网络组成，学习标签局部聚集的特征表示；动态时序表示组件，学习标签传播演化的时序过程；三个组件模拟标签之间传播影响过程的传播流行度预测模型，训练模型；将需要预测的事件标签和标签相关的传播影响网络数据输入训练好的模型，输出关注的社交网络事件标签在未来可能产生的流行度指标。本发明可以预测关注的社交网络事件标签未来在社交媒体的流行程度。

Description

一种基于多标签影响的网络事件标签流行度预测方法

技术领域

本发明涉及深度学习、社交网络舆情分析技术领域，具体涉及一种基于多标签影响的网络事件标签流行度预测方法。

背景技术

社交媒体作为现实事件在互联网上的延伸，成为了社会事件内容在网络传播的重要平台。官方媒体或自媒体通过社交网络服务，将社会正在发生的事件实时的发布到社交网络，通过传播成为网络事件后吸引广泛的用户参与，并进一步造成社会影响。因此，网络事件的流行于否与现实中的具体事件的影响程度有直接的关系。社会中的事件通常被冠以语义概括性的标签(以#号开头概括性短语)，进入到爆发的传播态势时，会出现多个标签对其进行引流和维护。网络事件在这些标签的相互影响下继续扩散传播，以实现扩大社交网络影响范围的作用。现实中，如果网络事件在社交媒体中已经造成了一定影响，例如成为“热搜”事件后，伴随事件的发展往往会产生多个反馈事件语义内涵的标签，这些与事件相关的标签之间相互影响，形成传播流量上的竞争或合作关系，这种标签之间的强相关性推动了事件在网络中传播的范围。社交网络事件标签模式的出现，改变了社会热点事件在网络中传播的模式，标签具有更强的聚集效应以及语义概括能力，推动了网络用户参与传播过程。社交网络中网络热门事件的传播，通常伴随着多个标签的形式，以不同标签为话题的形式吸引流量。

社交内容流行度预测是网络传播预测中的一项热点研究问题。流行度预测的研究能够直观的评估用户关注的事件在未来一段时间内获得了多少传播量，为理解社交网络事件的传播规律提供数据支持，通过社交媒体数据预测事件的传播规模。由于网络事件所产生每一个子话题都会被不同兴趣的用户群体参与，这些话题代表了群体的针对事件的表达，因此事件标签集合的传播流行度可以看作评估事件中群体注意力的一种度量方法，对网络热门事件下的诸多标签的传播影响关系进行分析，并通过利用标签的相互影响力预测流行度的研究能够为舆情事件监测，观点及立场预测等具体任务提供支持。

先前有大量的工作对社交网络事件的话题标签的流行度预测进行了研究，一方面，这些方法通常建立在宏观分析的基础上，提供了单个标签项的级联传播模型，但它们不能直接捕捉以网络事件为整体的一组标签信息项的联合动态传播过程，这样无法反映出网络事件在爆发期产生多个相关的、复杂的标签在同一时间窗口内产生的传播影响。另一方面，现有社交网络标签传播影响的分析方法大多基于点过程时序模型，这一类模型通常仅包含事件标签本身的单一的属性(例如转发量，时序关系等)，并利用生成模型预测未来标签的流行度，这一类方法通常依赖较强的假设条件，在获取标签特征潜在关系存在不足，在预测性能方面存在一定的局限性。

当网络事件传播处于热门时期，所产生的标签可以视为一种具有群体聚集的语义表示，即事件的不同标签下隐含不同的用户群体变量，因此这些标签隐含着群体的传播属性。故本发明提出了一种端到端的深度学习回归预测模型，考虑了事件标签传播阶段不同标签之间相互传播影响进行深度学习建模，并引入了语义特征和两个群体指标作为影响传播的关键特征，从而更准确地预测目标标签在未来的社交网络流行度。

发明内容

本发明旨在提供一种基于多标签影响的网络事件标签流行度预测方法，解决目前存在的问题。

其技术方案是这样的：

一种基于多标签影响的网络事件标签流行度预测方法，包括以下步骤：

S1.在真实世界的社交网络事件传播，爬取社交网络事件相关的标签和文本；

进一步的，S1中，在真实世界的社交网络事件传播的数据集中以等主题词作为关键字，对某一时间段的社交文本进行爬取。

S2对爬取的数据进行清洗和整理；并对关系特征预处理进行预处理。具体包括：

S201.数据清洗，数据清洗后的csv文件中记录推文的发表情况，数据字段包括发表该推文的用户id、推文内容、表发时间、推文交互的用户id(包括转发/原创/评论，原创的交互id与发文id相同)。每一条记录表示一条与事件相关的推文发布；

S202.关系特征预处理，针对不同据集中推文特点，预处理过程额外抽取了表示概括性事件标题，并对一条推文中存在多个标签的推文建立标签关系。

S3.针对网络事件收集事件相关标签，并利用标签之间的关联构造事件标签传播关系图、全局标签关系图G和局部影响属性图G_i；以及计算节点的传播特征属性，首先根据基于可观测数据对时间进行窗口划分，然后根据时间窗口下的数据构造网络事件标签i的局部传播影响特征图G_i，包括提取静态语义特征图

以及动态群体传播时序图序列/>

具体包括：S301.构造事件标签传播关系图，选择了两个指标作为关系图中标签关系的来源，这两个指标是显式关系和隐式语义关系；

(A)显式关系指标，如果用户显式的将两个以上的标签聚合在一条推文中，则表示这些标签在传播的过程中具有传播影响关系。具体形式化如下：

其中C_O-occur(i,j)表示两个标签同时在一条推文中出现的频率，N表示节点i所有邻居共现节点集合，该公式表达了标签i和标签j在整个事件语料库中的关联程度，能够代表显式的传播影响。

(B)隐式语义关系指标，当爆发后的网络事件标签缺乏显式关系时，利用已经抽取到的显式标签，并通过观测窗口内的语义相似度建立关系关联，这样的目的是提取出语义相关的但是没有显式标记#字符的事件标签。具体的，模型使用了逐点互信息(PMI)方法对标签之间的语义关系建立链接，该方法能够表达标签在事件语义数据间的权重关系，具体形式化如下：

/>

其中，d(i,j)是可观测窗口事件标签i和标签j同时出现的推文总数，这里与显式特征不同的是，显式特征是在推文中明显带有#号的显式标签，而这里的d(i,j)是出现在推文正文中而未包含#的共现关系。d(i)和d(j)是集合中至少包含一次i和j的推文总数。D是社交网络事件中的推文总数。一般来说，正的PMI值意味着事件标签库中标签具有高度语义相关性。

(C)社交网络事件标签之间关系权重建立，隐式的语义关系只针对正PMI值的标签对之间建立关联。最后通过加和的方法确定社交网络事件标签之间关系权重：

R(i,j)＝{R_ex(i,j)+R_im(i,j)}

对于社交网络事件，上述过程能够在可观测时间窗口的数据中建立事件标签关系图G＝<V,E>；

(D)从网络事件标签关系全局图G中针对目标标签i采样一个固定大小的子网络G_i，而不是直接处理具有诸多噪声信息的全局网络G本身，此步骤的抽样方法选择了重启随机行走算法RWR，利用RWR方法可以选择出最可能影响传播的相关标签，并且约束关联标签节点的上限，即：

G_i＝RWR(G,i,m,R)

其中G表示事件标签全局关系图，m表示采样节点的约束数量，i表示目标标签，R表示事件标签关系图的节点之间权重R(i,j)。

S302.构造静态语义关系属性图，将语义特征作为标签关系图中的静态属性(标签语义与时序无关)来构建事件标签语义关系属性图G^sem，过程如下：

(A)标签语义特征的抽取，由于大部分标签都是事件概括式的缩写，尤其在英文数据集中表现明显，这样导致很难直接从标签自身的文本中获取足够的语义信息。将标签所在的推文补充可观测时间窗口内标签的语义信息，因此获取可观测时间内被转发数量最多的带有标签的推文s，并将其作为解释标签语义的特征。

(B)事件标签语义特征的嵌入表示，建立标签的语义解释的文本库后，调用了基于bert模型的sentenceTransformer5接口对标签进行语义初始向量嵌入，形式化为：

H_s＝{bert2sentence(i)}

其中0≤i≤|V|，H_s∈R^|v|×d，|V|表示所有标签节点数量，d表示嵌入维度；

(C)静态的语义关系属性图构造，利用步骤301中事件标签传播局部影响关系图G_i与上一步获得的节点属性构造静态的语义关系属性图

其中，V_i为目标标签i的关联节点集合，E_i为标签节点关系集合，/>

为节点V_i的语义特征表示集合，且

S303.构造事件标签传播时序属性图序列，基于事件标签传播时序属性图

本模型对基于时序子图分割，即在保留时间窗口t内有效的节点/>

和边/>

并且根据标签节点在不同时刻的群体影响，计算影响传播的节点群体特征Ht，使得/>

其中0≤t<n，表示序列化的时间窗口。这样的采样方法可以反馈出时间窗口内不同话题标签之间的动态影响过程，该步骤分为四步：/>

(A)计算参与群体社会影响力，定义标签i在t窗口内的群体社会影响力，对于每一个标签节点进行如下计算：

其中N^t(n)表示时间窗口t中包含标签推文的总数数量，N^t(E)表示时间窗口t下子图中所有关联标签节点的推文总数。直观上，该指标表达参与该标签的群体在t时刻对于事件标签的整体影响程度。

(B)计算参与群体传播影响力，定义hashtagi在t时刻的群体传播影响力。对于每一个节点进行如下计算：

其中，

表示表示时间窗口t时刻发布由标签的推文的用户粉丝数量总和，

表示时间窗口t下发布事件相关推文的用户总量。该指标表达参与事件标签的群体对当前标签的群体关注程度。

(C)构造标签动态群体属性H^inf(t)，选择了对传播有决定性动态群体影响特征H^inf(t)作为节点属性。由于不同时间窗口内，不同标签的传播影响不同，使用两个标签影响的关键指标作为时序下标签参与群体的影响评价标准，于是获得了目标标签i的动态传播属性H^inf(t)，形式化如下：

H^inf(t)＝[O(t),M(t)]

(D)构造时序图序列

通过动态传播属性H^inf(t)构造基于动态属性和动态关系的属性图G_t，然后获取每一个时间窗口内的事件标签传播时序属性图序列：

其中

然后对于数据集中每一个热点事件的标签i，根据上述方法构造了目标标签i的特征图/>

作为深度学习模型的样本输入。

步骤4：构造语义特征和时序群体特征，所述构造的语义特征和时序群体特征包括：基于图注意力网络的传播关系特征嵌入层、融合静态和动态特征的特征融合层、基于图胶囊网络的局部特征聚合层，其中基于图注意力网络的传播关系特征嵌入层又包括静态语义特征聚合表示和动态传播特征聚合表示。将所述针对静态语义关系属性图，将

作为输入到上述静态语义特征聚合表示层中，得到静态语义节点向量表示矩阵H^sem，针对动态传播时序属性图序列，对每一个时间窗口下的传播属性图/>

作为输入到动态传播特征聚合表示层中，获取可观测时间内t个窗口内组成的动态传播矩阵H'_dym；将静态语义节点向量表示矩阵H^sem和动态传播矩阵H'_dym作为输入到特征融合层，得到融合标签节点的语义特征和传播特征融合的融合特征H_f；将传播属性图/>

作为输入基于图胶囊网络的局部特征聚合层得到图嵌入向量h_G。

具体包括：

S401.学习传播关系特征嵌入层，传播关系特征嵌入主要负责学习不同标签之间的传播影响关系，包括静态语义特征聚合表示和动态传播特征聚合表示。选择了能够学习影响关系权重的图神经网络GAT作为图神经网络特征表示的方法，用GAT有监督的学习过程中学习到节点之间不同的权重系数，并在节点表示中获得隐藏的相互影响关系。

GAT的输入包含两个部分，节点特征向量H∈R^|V|×d和邻接矩阵N^t∈R^|V|×|V|，d表示特征的维度，n表示子图中节点的数量。对于图中每一个节点vi以及属性hi，有：

H＝[h₁,h₂,...,h₁,]^T

H_o＝[h'₁,h'₂,...,h'_n,]^T,H_o∈R^|V|×d'

其中α∈R^2×d’，Θ表示可训练的权重矩阵，j∈N(i)表示标签节点j与i在邻接矩阵中存在边(表示j与i是相关的)，选择LeakyReLu方法作为非线性激活函数，a_i,j表示标签节点i与标签节点j之间的相互影响关系权重，H_O为输出的嵌入向量组成的矩阵，|V|表示图节点数量，d’表示输出节点特征的维度，||表示拼接操作。

针对静态语义关系属性图，将

作为输入到学习传播关系特征嵌入层中，得到静态语义节点向量表示矩阵H_sem，/>

针对动态传播时序属性图序列，对每一个时间窗口下的传播属性图/>

作为输入，获取可观测时间内t个窗口内组成的张量H'_dym：

易见

其中t表示时间窗口数量，|V|表示子图节点数量，F'₂表示输出节点的特征维度。

S402.特征融合模块主要负责将标签节点的语义特征和传播特征融合，进而作为下一层的输入，为了保持在时序过程中节点语义不变性，模型将H_sem在矩阵H'_dym中进行广播，即特征表示层形式化如下：

H_f＝H_sem||H’_dym

||表示拼接操作，于是有

S403.根据事件态势发展出现标签语义局部强相关的特点，这些标签存在图内强连接的状态，为了捕获这种传播图之间的局部性的强关联，更好地表达由局部到整体的层次结构关系，受到图胶囊网络的启发，本发明提出的模型应用路由机制对标签节点的群体效应进行投票，以更好地捕捉图中局部到整体的关系，然后通过多轮迭代的方式推理局部到整体的层次关系，最终获得时序图特征表示。具体的，这一过程主要由时序属性图

映射到图嵌入向量h_G的过程，本步骤分为三步：

(A)将时序图层次化，通过投票机制建立时序图低层局部与高层整体的关系。规定v表示低层投票图中的胶囊节点，u表示高层路由图的胶囊节点，首先使用特征融合层与时序图作为初始的投票矩阵，即：

其中N^t表示低层投票图的邻接矩阵，

表示图胶囊网络中初始底层网络的投票表示向量，每一个向量/>

视为v_i对高层集群中的胶囊节点u_j的投票权重表示，|N|表示胶囊中的节点数量，F'₃＝F'₁+F'₁表示输入向量的维度。

(B)建立动态路由选择，这一过程的任务通过迭代计算低层节点v到更高层胶囊u之间的路由权重C_i,j，即哪些低层的v_j群体可以激活高层集群节点u_j(u_j可以看做子图中关联更紧密的关系集群)，以获取局部到整体的激活关系。于是对步骤(A)中的投票进行加权计算，获得低层图中的b_j到局部聚合高层图的路由权重C_i,jj，即：

初始化为0.然后通过式下面三个公式进行R次迭代计算出动态路由权重/>

三个公式具体如下：

b_i,j＝b_i,j+v_j|i.u_j

其中，squash(非线性“挤压”函数)的作用是计算胶囊u_j中的节点v_j|i的路由可能性，即节点v_i|j投票给u_j的概率，其中v_i|j·u_j的作用是计算每组投票和高层胶囊之间的一致性，这样可以更专注于聚合来自可能在同一集群中的邻居的信息。经过R次迭代，这一过程获得了高层聚合图的胶囊节点u和高层抽象的邻接矩阵，表示为：

G_route＝(A,u)

A＝C^TNC,A∈R^|V|×|U|

其中，N是低层投票图中的邻接矩阵，|V|表示低层投票图的节点数量，|U|表示高层路由图的节点数量，C表示由C_i,j构成的由低层到高层的路由权重矩阵，C∈R^|V|×|U|，因此A可视为高层路由图的邻接矩阵，u是高层路由图中节点的特征向量，由上一步公式得出。因此上述过程可以简化为下变换：

U,A＝Route(Vote(V,N))

即：

U,A＝RV(V,N)

(C)建立时序属性图表示，然后重复上述步骤A和步骤B，将高层集群图再次抽象到整图嵌入的表示，这样做的作用是在图胶囊网络的基础上，最大限度的保留了局部的hashtag标签对传播的影响的特征，即：

式中的1表示抽象到更高层后仅聚合出一个节点的图表示，这个节点的特征向量表示为当前时间窗口t下的标签关系图传播影响表示向量。于是对于每一个时序属性图，使用局部聚合层对其进行图表示过程：

S5.将样本中不同时序子图的表示向量h_t输入到LSTM模型进行动态时序表示学习，然后将其结果过输入到全连接层得到预测结果，将预测结果与获取的样本真实值标签的误差来指导模型学习，分为三个步骤：

S501.然后通过样本中不同时序子图的表示向量h^t，为了利用这些时序特征，更好的获取时序中特征变化所带来的传播影响，在这一部分应用了长短时记忆LSTM内核。具体计算公式如下：

h_t＝tanh(c_i)*o_i

其中h_t是第t时刻输出的隐式特征，

表示Hadamard积，U_j，W_j，b_j，j∈({z,f,o,c})是可学习的参数，z_i、f_i和o_i分别是第t个窗口特征的遗忘门向量、输入门向量和输出门向量。最后通过全连接层对t+1时刻的结果进行预测：

Δy’＝σ(Wh_t)

S502.获取样本的真实值标签，对于网络事件标签i的局部传播影响特征图Gⁱ，统计该样本在t+1快照内的

并将该值设置为样本的真实值标签y_i。由于标签在社交网络中传播的特殊性，原创并带有标签的推文也视为对传播的行为。因此本发明使用了包括转发数和带有标签形式的原创数量之和作为用户群体的关注指标，即/>

其中/>

表示有多少人转发了带有事件标签的推文，/>

表示有多少原创推文涵盖了目标标签。

S503.针对网络流行度的预测，将流行度预测视为一种回归的模型，因此文中使用MLSE作为基于回归模型的目标损失函数：

其中Δy'表示预测的流行度指标，y_i表示的实际传播指标。

一种计算机装置，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述的基于多标签影响的网络事件标签流行度预测方法。

一种计算机可读存储介质，其上存储有程序，程序被处理器执行时实现如上述的基于多标签影响的网络事件标签流行度预测方法。

本发明建立了一种基于多标签影响的网络事件标签流行度预测方法，具体来说，首先针对事件相关的标签在网络传播的过程中存在相互的传播影响，利用网络事件收集事件相关标签和标签之间的关联构造事件标签传播关系图、全局标签关系图和局部影响属性图，然后针对社交网络事件的传播过程是动态变化的，其产生的事件标签会出现语义聚集过程和演化过程，利用图注意力网络的传播关系特征嵌入层、融合静态和动态特征的特征融合层和基于图胶囊网络的局部特征聚合层来构造语义特征和时序群体特征，针对网络事件标签流行度预测提供了更可靠的准确性，最后通过时序模型进行动态时序表示学***台，可以根据数据训练出基于多标签影响的网络事件标签流行度预测模型，更好的解决热点事件流行度预测问题。可以用于预测舆情影响大的事件，例如社会热点问题，舆情事件，立场事件，观点事件，外交事件和国际事件等。

本发明与现有技术相比，具有以下技术效果：

1.本发明针对见建模社交网络博文传播过程中节点表示中获得隐藏的相互影响关系，设计了一种基于图注意力网络的特征聚合组件，包括静态语义特征聚合和动态群体传播特征聚合过程，引入了语义特征和两个群体指标作为影响传播的关键特征，该组件建模标签之间的关联以及标签内在语义关系。

2.本发明针对事件态势发展出现标签语义局部强相关，提供一种使用图胶囊网络对结合了静态语义特征和动态时序特征背后的群体聚集特性进行表示学习，捕获这种传播图之间的局部性的强关联，更好地表达由局部到整体的层次结构关系，来建模传播影响网络，从而体现不同标签下群体对事件传播的相互影响关系，

3.本发明针对社交网络事件的传播过程是动态变化的，其产生的事件标签会出现语义聚集过程和演化过程，利用了应用LSTM时序模型学习传播演化过程的特征表示，计算语义相关性和结构相关性，模拟事件标签语义聚集过程和演化过程，学习时序过程下不同标签之间传播影响的潜在特征，进而预测目标标签在未来的流行度。

4本发明针对会产生标签关系网络图的节点不断增加的问题，这样可能产生大量的噪声标签，使用随机游走算法下采样了影响力强的标签子图，筛选关键的影响力的标签集合，构造基于时序的事件标签关系网络子图，避免全局图的节点噪声，降低深度学习的运算复杂性。

附图说明

图1为本发明的多标签影响的网络事件标签流行度预测方法的步骤示意图；

图2为本发明的多标签影响的网络事件标签流行度预测方法步骤的流程示意图；

图3为一个实施例中计算机装置的内部结构图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

见图1和图2，本发明的一种基于多标签影响的网络事件标签流行度预测方法，至少包括以下步骤：

步骤1：在大型真实世界的社交网络事件传播的数据集中，爬取社交网络事件相关的标签和文本；

步骤2：对爬取的数据进行清洗和整理；并对关系特征进行预处理。

步骤3：针对网络事件收集事件相关标签，并利用标签之间的关联构造事件标签传播关系图、全局标签关系图G和局部影响属性图G_i；以及计算节点的传播特征属性，首先根据基于可观测数据对时间进行窗口划分，然后根据时间窗口下的数据构造网络事件标签i的局部传播影响特征图G_i，包括提取静态语义特征图

以及动态群体传播时序图序列

步骤5：将样本中不同时序子图的表示向量h_t输入到LSTM模型进行动态时序表示学习，然后将其结果过输入到全连接层得到预测结果，将预测结果与获取的样本真实值标签的误差来指导模型学习。

具体在本发明的一个实施例中，包括以下步骤：

步骤1：在真实世界的社交网络事件传播，以主题词作为关键字，对某一时间段的社交文本进行爬取。

步骤2：对爬取的数据进行清洗和整理；并对关系特征预处理进行预处理。具体包括：

步骤201：数据清洗，数据清洗后的csv文件中记录推文的发表情况，数据字段包括发表该推文的用户id、推文内容、表发时间、推文交互的用户id(包括转发/原创/评论，原创的交互id与发文id相同)。每一条记录表示一条与事件相关的推文发布；

步骤202：关系特征预处理，针对不同据集中推文特点，预处理过程额外抽取了表示概括性事件标题，并对一条推文中存在多个标签的推文建立标签关系；

以及动态群体传播时序图序列

步骤301：构造事件标签传播关系图，选择了两个指标作为关系图中标签关系的来源，这两个指标是显式关系和隐式语义关系；

步骤A：显式关系指标，如果用户显式的将两个以上的标签聚合在一条推文中，则表示这些标签在传播的过程中具有传播影响关系。具体形式化如下：

步骤B：隐式语义关系指标，当爆发后的网络事件标签缺乏显式关系时，利用已经抽取到的显式标签，并通过观测窗口内的语义相似度建立关系关联，这样的目的是提取出语义相关的但是没有显式标记#字符的事件标签。具体的，模型使用了逐点互信息(PMI)方法对标签之间的语义关系建立链接，该方法能够表达标签在事件语义数据间的权重关系，具体形式化如下：

步骤C：社交网络事件标签之间关系权重建立，隐式的语义关系只针对正PMI值的标签对之间建立关联。最后通过加和的方法确定社交网络事件标签之间关系权重：

R(i,j)＝{R_ex(i,j)+R_im(i,j)}

步骤D：从网络事件标签关系全局图G中针对目标标签i采样一个固定大小的子网络G_i，而不是直接处理具有诸多噪声信息的全局网络G本身，此步骤的抽样方法选择了重启随机行走算法RWR，利用RWR方法可以选择出最可能影响传播的相关标签，并且约束关联标签节点的上限，即：

G_i＝RWR(G,i,m,R)

其中G表示事件标签全局关系图，m表示采样节点的约束数量，i表示目标标签，R表示事件标签关系图的节点之间权重R(i,j)。在本实施例中，m＝15；

步骤302：构造静态语义关系属性图，将语义特征作为标签关系图中的静态属性(标签语义与时序无关)来构建事件标签语义关系属性图G^sem，过程如下：

步骤A：标签语义特征的抽取，由于大部分标签都是事件概括式的缩写，尤其在英文数据集中表现明显，这样导致很难直接从标签自身的文本中获取足够的语义信息。将标签所在的推文补充可观测时间窗口内标签的语义信息，因此获取可观测时间内被转发数量最多的带有标签的推文s，并将其作为解释标签语义的特征。

步骤B：事件标签语义特征的嵌入表示，建立标签的语义解释的文本库后，调用了基于bert模型的sentence Transformer5接口对标签进行语义初始向量嵌入，形式化为：

H_s＝{bert2sentence(i)}

其中0≤i≤|V|，H_s∈R^|v|×d，|V|表示所有标签节点数量，d表示嵌入维度，在本实施例中，在本实施例中，d＝32，|V|＝20；

步骤C：静态的语义关系属性图构造，利用步骤301中事件标签传播局部影响关系图G_i与上一步获得的节点属性构造静态的语义关系属性图

为节点V_i的语义特征表示集合，且

步骤303：构造事件标签传播时序属性图序列，基于事件标签传播时序属性图

和边/>

其中0≤t<n，表示序列化的时间窗口。这样的采样方法可以反馈出时间窗口内不同话题标签之间的动态影响过程，该步骤分为两步：

步骤A：计算参与群体社会影响力，定义标签i在t窗口内的群体社会影响力，对于每一个标签节点进行如下计算：

步骤B：计算参与群体传播影响力，定义hashtagi在t时刻的群体传播影响力。对于每一个节点进行如下计算：

其中，

步骤C：构造标签动态群体属性H^inf(t)，选择了对传播有决定性动态群体影响特征H^inf(t)作为节点属性。由于不同时间窗口内，不同标签的传播影响不同，使用两个标签影响的关键指标作为时序下标签参与群体的影响评价标准，于是获得了目标标签i的动态传播属性H^inf(t)，形式化如下：

H^inf(t)＝[O(t),M(t)]

步骤D：构造时序图序列

其中

作为深度学习模型的样本输入。

具体包括：

步骤401，学习传播关系特征嵌入层，传播关系特征嵌入主要负责学习不同标签之间的传播影响关系，包括静态语义特征聚合表示和动态传播特征聚合表示。选择了能够学习影响关系权重的图神经网络GAT作为图神经网络特征表示的方法，用GAT有监督的学习过程中学习到节点之间不同的权重系数，并在节点表示中获得隐藏的相互影响关系。

GAT的输入包含两个部分，节点特征向量H∈R^V|×d和邻接矩阵N^t∈R^|V|×|V|，d表示特征的维度，n表示子图中节点的数量。对于图中每一个节点v_i以及属性h_i，有：

H＝[h₁,h₂,...,h₁,]^T

H_O＝[h'₁,h'₂,...,h'_n,]^T,H_o∈R^|V|×d'

其中α∈R^2×d’，Θ表示可训练的权重矩阵，j∈N(i)表示标签节点j与i在邻接矩阵中存在边(表示j与i是相关的)，选择LeakyReLu方法作为非线性激活函数，a_i,j表示标签节点i与标签节点j之间的相互影响关系权重，H_O为输出的嵌入向量组成的矩阵，|V|表示图节点数量，d’表示输出节点特征的维度，||表示拼接操作。在本实施案例中，|V|＝20，d’＝64；

针对静态语义关系属性图，将

作为输入，获取可观测时间内t个窗口内组成的张量H‘_dym：

易见

其中t表示时间窗口数量，|V|表示子图节点数量，F'₂表示输出节点的特征维度。在本实施案例中，|V|＝20，t＝8，F'₁＝32，F'₂＝32；

步骤402：特征融合模块主要负责将标签节点的语义特征和传播特征融合，进而作为下一层的输入，为了保持在时序过程中节点语义不变性，模型将H_sem在矩阵H‘_dym中进行广播，即特征表示层形式化如下：

H_f＝H_sem||H’_dym

||表示拼接操作，于是有

在本实施案例中，|V|＝20，t＝8，F'₁＝32，F’₂＝32；

步骤403：根据事件态势发展出现标签语义局部强相关的特点，这些标签存在图内强连接的状态，为了捕获这种传播图之间的局部性的强关联，更好地表达由局部到整体的层次结构关系，受到图胶囊网络的启发，本发明提出的模型应用路由机制对标签节点的群体效应进行投票，以更好地捕捉图中局部到整体的关系，然后通过多轮迭代的方式推理局部到整体的层次关系，最终获得时序图特征表示。具体的，这一过程主要由时序属性图

映射到图嵌入向量h_G的过程，本步骤分为三步：

步骤A：将时序图层次化，通过投票机制建立时序图低层局部与高层整体的关系。规定v表示低层投票图中的胶囊节点，u表示高层路由图的胶囊节点，首先使用特征融合层与时序图作为初始的投票矩阵，即：

其中N^t表示低层投票图的邻接矩阵，

视为v_i对高层集群中的胶囊节点u_j的投票权重表示，|N|表示胶囊中的节点数量，F'₃＝F'₁+F'₁表示输入向量的维度。在本实施案例中，|N|＝10，F'₁＝32，F’₂＝32；F’₃＝64；

步骤B：建立动态路由选择，这一过程的任务通过迭代计算低层节点v到更高层胶囊u之间的路由权重C_i,j，即哪些低层的v_j群体可以激活高层集群节点u_j(u_j可以看做子图中关联更紧密的关系集群)，以获取局部到整体的激活关系。于是对步骤A中的投票进行加权计算，获得低层图中的v_j到局部聚合高层图的路由权重C_i,jj，即：

三个公式具体如下：

b_i,j＝b_i,j+v_j|i.u_j

其中，squash(非线性“挤压”函数)的作用是计算胶囊u_j中的节点v_j|i的路由可能性，即节点v_i|j投票给u_j的概率，其中v_i|j·u_j的作用是计算每组投票和高层胶囊之间一致性，这样可以更专注于聚合来自可能在同一集群中的邻居的信息。经过R次迭代，这一过程获得了高层聚合图的胶囊节点u和高层抽象的邻接矩阵，表示为：

G_route＝(A,u)

A＝C^TNC,A∈R^|V|×|U|

U,A＝Route(Vote(V,N))

即：

U,A＝RV(V,N)

步骤C：建立时序属性图表示，然后重复上述步骤A和步骤B，将高层集群图再次抽象到整图嵌入的表示，这样做的作用是在图胶囊网络的基础上，最大限度的保留了局部的hashtag标签对传播的影响的特征，即：

步骤5：将样本中不同时序子图的表示向量h_t输入到LSTM模型进行动态时序表示学习，然后将其结果过输入到全连接层得到预测结果，将预测结果与获取的样本真实值标签的误差来指导模型学习，分为三个步骤：

/>

h_t＝tanh(c_i)*o_i

其中h_t是第t时刻输出的隐式特征，

Δy’＝σ(Wh_t)

其中/>

表示有多少人转发了带有事件标签的推文，/>

表示有多少原创推文涵盖了目标标签。

其中Δy'表示预测的流行度指标，y_i表示的实际传播指标。

这样的架构具有两个优势：

(1)更优异的特征建模能力。考虑了事件标签之间的传播影响机理，研究了推文传播的数据规律，并设计了事件标签传播关联关系的构造方法，然后抽取了事件标签传播背后的群体性指标和引发标签聚合的语义特征，针对社交网络中成为热点事件的标签设计了一种基于多标签影响的网络事件标签流行度预测模型。该模型考虑标签在网络传播中的相互影响关系，通过标签隐含的语义和群体关系预测社交网络中传播流行度。

(2)更准确的标签流行度预测能力。在事件标签流行度预测任务上具有显著的性能提升。同时实验验证了事件标签在传播过程中在数据集上的核心指标MLSE都超过了现有最优的基准流行度预测模型，与最优的基线模型相比，在实例化的两个数据集上分别提升了25.9％和29.3％，这表明提出的标签传播影响关系以及语义特征对流行度预测模型具有很大的帮助，并且证明了提出的模型在性能上是优越的，相互传播影响对流行度有显著的影响，说明了模型的提出的假设是可靠且有效的。

本实施例利用了信息传播中标签特征、静态语义、动态群体、语义聚集的特征，针对多标签影响的网络事件标签有更准确的预测，所以针对不同的社交文本，可以通过调整获得针对性不同的深度学习模型参数，更好的解决语义范畴内的预测问题，例如观点及立场的传播预测和舆情事件预测等。

本实施例提供的方法可以用于在线舆情事件预测，观点及立场传播预测，舆情事件监测，谣言监测以及公共事件应急预防等，尤其可以用于社交网络中多标签影响的热点事件的预测，例如舆情热点事件，观点热点事件，立场热点事件等，也可用于企业的网络信息监管，预测企业发布的信息在未来是否会被大量传播。

在本发明的实施例中，还提供了一种计算机装置，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如上述的基于多标签影响的网络事件标签流行度预测方法。

该计算机装置可以是终端，其内部结构图可以如图3所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于多标签影响的网络事件标签流行度预测方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机装置的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机装置外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

存储器可以是，但不限于，随机存取存储器(RandomAccess Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机装置的限定，具体的计算机装置可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的实施例中，还提供了一种计算机可读存储介质，其上存储有程序，其特征在于：程序被处理器执行时实现如上述的基于异质网络的社交网络影响力预测方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

以上对本发明所提供的基于多标签影响的网络事件标签流行度预测方法、计算机装置、计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多标签影响的网络事件标签流行度预测方法，其特征在于，包括以下步骤：

S2.对爬取的数据进行清洗和整理；并对关系特征进行预处理；

具体包括：

S201.数据清洗，数据清洗后的csv文件中记录推文的发表情况，数据字段包括发表该推文的用户id、推文内容、表发时间、推文交互的用户id；每一条记录表示一条与事件相关的推文发布；

S202.关系特征预处理，针对不同据集中推文特点，预处理过程额外抽取了表示概括性事件标题，并对一条推文中存在多个标签的推文建立标签关系；

以及动态群体传播时序图序列/>

S4.构造语义特征和时序群体特征；

所述构造的语义特征和时序群体特征包括：基于图注意力网络的传播关系特征嵌入层、融合静态和动态特征的特征融合层、基于图胶囊网络的局部特征聚合层，其中基于图注意力网络的传播关系特征嵌入层又包括静态语义特征聚合表示和动态传播特征聚合表示；

将所述针对静态语义关系属性图，将

作为输入到动态传播特征聚合表示层中，获取可观测时间内t个窗口内组成的动态传播矩阵H'_dym；

将静态语义节点向量表示矩阵H^sem和动态传播矩阵H'_dym作为输入到特征融合层，得到融合标签节点的语义特征和传播特征融合的融合特征H_f；将传播属性图

作为输入基于图胶囊网络的局部特征聚合层得到图嵌入向量h_G；

S5.将样本中不同时序子图的表示向量h_t输入到LSTM模型进行动态时序表示学习，然后将其结果过输入到全连接层得到预测结果，将预测结果与获取的样本真实值标签的误差来指导模型学习。

2.根据权利要求1所述的一种基于多标签影响的网络事件标签流行度预测方法，其特征在于，S3具体包括：

S301.构造事件标签传播关系图，选择两个指标作为关系图中标签关系的来源，这两个指标是显式关系和隐式语义关系；

S302.构造静态语义关系属性图，将语义特征作为标签关系图中的静态属性来构建事件标签语义关系属性图G^sem；

和边/>

其中0≤t<n，表示序列化的时间窗口。

3.根据权利要求2所述的一种基于多标签影响的网络事件标签流行度预测方法，其特征在于，S301具体包括：

(A)显式关系指标，如果用户显式的将两个以上的标签聚合在一条推文中，则表示这些标签在传播的过程中具有传播影响关系；具体形式化如下：

其中C_o-occur(i,j)表示两个标签同时在一条推文中出现的频率，N表示节点i所有邻居共现节点集合，该公式表达了标签i和标签j在整个事件语料库中的关联程度，代表显式的传播影响；

(B)隐式语义关系指标，当爆发后的网络事件标签缺乏显式关系时，利用已经抽取到的显式标签，并通过观测窗口内的语义相似度建立关系关联，提取出语义相关的但是没有显式标记#字符的事件标签；

具体的，模型使用逐点互信息PMI方法对标签之间的语义关系建立链接，具体形式化如下：

其中，d(i,j)是可观测窗口事件标签i和标签j同时出现的推文总数，这里与显式特征不同的是，显式特征是在推文中明显带有#号的显式标签，而这里的d(i,j)是出现在推文正文中而未包含#的共现关系；d(i)和d(j)是集合中至少包含一次i和j的推文总数；D是社交网络事件中的推文总数；

(C)社交网络事件标签之间关系权重建立，隐式的语义关系只针对正PMI值的标签对之间建立关联；最后通过加和的方法确定社交网络事件标签之间关系权重：

R(i,j)＝{R_ex(i,j)+R_im(i,j)}

对于社交网络事件，上述过程在可观测时间窗口的数据中建立事件标签关系图G＝<V,E>；

(D)从网络事件标签关系全局图G中针对目标标签i采样一个固定大小的子网络G_i，而不是直接处理具有诸多噪声信息的全局网络G本身，此步骤的抽样方法选择了重启随机行走算法RWR，利用RWR方法选择出最可能影响传播的相关标签，并且约束关联标签节点的上限，即：

G_i＝RWR(G,i,m,R)

4.根据权利要求2所述的一种基于多标签影响的网络事件标签流行度预测方法，其特征在于，S302具体包括：

(A)标签语义特征的抽取；

将标签所在的推文补充可观测时间窗口内标签的语义信息，获取可观测时间内被转发数量最多的带有标签的推文s，并将其作为解释标签语义的特征；

H_s＝{bert2sentence(i)}

其中0≤i≤V，H_s∈R^|v|×d，V表示所有标签节点数量，d表示嵌入维度；

(C)静态的语义关系属性图构造，利用步骤301中事件标签传播局部影响关系图G_i与上一步获得的节点属性构造静态的语义关系属性图：

其中，V_i为目标标签i的关联节点集合，E_i为标签节点关系集合，

为节点V_i的语义特征表示集合，且/>

5.根据权利要求1所述的一种基于多标签影响的网络事件标签流行度预测方法，其特征在于，S303具体包括：

其中N^t(n)表示时间窗口t中包含标签推文的总数数量，N^t(E)表示时间窗口t下子图中所有关联标签节点的推文总数，该指标表达参与该标签的群体在t时刻对于事件标签的整体影响程度；

(B)计算参与群体传播影响力，定义hashtagi在t时刻的群体传播影响力；对于每一个节点进行如下计算：

其中，

表示表示时间窗口t时刻发布由标签的推文的用户粉丝数量总和；/>

表示时间窗口t下发布事件相关推文的用户总量，该指标表达参与事件标签的群体对当前标签的群体关注程度；

(C)构造标签动态群体属性H^inf(t)，选择对传播有决定性动态群体影响特征H^inf(t)作为节点属性；使用两个标签影响的关键指标作为时序下标签参与群体的影响评价标准，获得了目标标签i的动态传播属性H^inf(t)，形式化如下：

H^inf(t)＝[O(t),M(t)]

(D)构造时序图序列

其中

作为深度学习模型的样本输入。

6.根据权利要求1所述的一种基于多标签影响的网络事件标签流行度预测方法，其特征在于，步骤4具体包括：

S401.学习传播关系特征嵌入层，传播关系特征嵌入负责学习不同标签之间的传播影响关系，包括静态语义特征聚合表示和动态传播特征聚合表示；选择能够学习影响关系权重的图神经网络GAT作为图神经网络特征表示的方法，用GAT有监督的学习过程中学习到节点之间不同的权重系数，并在节点表示中获得隐藏的相互影响关系；

GAT的输入包含两个部分，节点特征向量H∈R^|V|×d和邻接矩阵N^t∈R^|V|×|V|，d表示特征的维度，n表示子图中节点的数量；对于图中每一个节点v_i以及属性h_i，有：

H＝[h₁,h₂,...,h₁,]^T

H_o＝[h'₁,h'₂,...,h'_n,]^T,H_o∈R^|V|×d'

其中α∈R^2×d’，Θ表示可训练的权重矩阵，j∈N(i)表示标签节点j与i在邻接矩阵中存在边，即表示j与i是相关的；选择LeakyReLu方法作为非线性激活函数，a_i，j表示标签节点i与标签节点j之间的相互影响关系权重，H_O为输出的嵌入向量组成的矩阵，|V|表示图节点数量，d’表示输出节点特征的维度，||表示拼接操作；

针对静态语义关系属性图，将