CN115858899A - 一种基于多标签影响的网络事件标签流行度预测方法 - Google Patents

一种基于多标签影响的网络事件标签流行度预测方法 Download PDF

Info

Publication number
CN115858899A
CN115858899A CN202211605375.1A CN202211605375A CN115858899A CN 115858899 A CN115858899 A CN 115858899A CN 202211605375 A CN202211605375 A CN 202211605375A CN 115858899 A CN115858899 A CN 115858899A
Authority
CN
China
Prior art keywords
label
graph
propagation
event
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211605375.1A
Other languages
English (en)
Inventor
周斌
田磊
高立群
赵学臣
韩跃
谢锋
张中
李爱平
江荣
王晔
涂宏魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211605375.1A priority Critical patent/CN115858899A/zh
Publication of CN115858899A publication Critical patent/CN115858899A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于多标签影响的网络事件标签流行度预测方法,采集事件相关的事件标签传播数据与相关用户数据;构造标签传播关系网络,获取节点关系和节点属性,建立包含:特征聚合组件,包括静态语义特征聚合和动态群体传播特征聚合过程;局部聚合组件,由图胶囊网络组成,学习标签局部聚集的特征表示;动态时序表示组件,学习标签传播演化的时序过程;三个组件模拟标签之间传播影响过程的传播流行度预测模型,训练模型;将需要预测的事件标签和标签相关的传播影响网络数据输入训练好的模型,输出关注的社交网络事件标签在未来可能产生的流行度指标。本发明可以预测关注的社交网络事件标签未来在社交媒体的流行程度。

Description

一种基于多标签影响的网络事件标签流行度预测方法
技术领域
本发明涉及深度学习、社交网络舆情分析技术领域,具体涉及一种基于多标签影响的网络事件标签流行度预测方法。
背景技术
社交媒体作为现实事件在互联网上的延伸,成为了社会事件内容在网络传播的重要平台。官方媒体或自媒体通过社交网络服务,将社会正在发生的事件实时的发布到社交网络,通过传播成为网络事件后吸引广泛的用户参与,并进一步造成社会影响。因此,网络事件的流行于否与现实中的具体事件的影响程度有直接的关系。社会中的事件通常被冠以语义概括性的标签(以#号开头概括性短语),进入到爆发的传播态势时,会出现多个标签对其进行引流和维护。网络事件在这些标签的相互影响下继续扩散传播,以实现扩大社交网络影响范围的作用。现实中,如果网络事件在社交媒体中已经造成了一定影响,例如成为“热搜”事件后,伴随事件的发展往往会产生多个反馈事件语义内涵的标签,这些与事件相关的标签之间相互影响,形成传播流量上的竞争或合作关系,这种标签之间的强相关性推动了事件在网络中传播的范围。社交网络事件标签模式的出现,改变了社会热点事件在网络中传播的模式,标签具有更强的聚集效应以及语义概括能力,推动了网络用户参与传播过程。社交网络中网络热门事件的传播,通常伴随着多个标签的形式,以不同标签为话题的形式吸引流量。
社交内容流行度预测是网络传播预测中的一项热点研究问题。流行度预测的研究能够直观的评估用户关注的事件在未来一段时间内获得了多少传播量,为理解社交网络事件的传播规律提供数据支持,通过社交媒体数据预测事件的传播规模。由于网络事件所产生每一个子话题都会被不同兴趣的用户群体参与,这些话题代表了群体的针对事件的表达,因此事件标签集合的传播流行度可以看作评估事件中群体注意力的一种度量方法,对网络热门事件下的诸多标签的传播影响关系进行分析,并通过利用标签的相互影响力预测流行度的研究能够为舆情事件监测,观点及立场预测等具体任务提供支持。
先前有大量的工作对社交网络事件的话题标签的流行度预测进行了研究,一方面,这些方法通常建立在宏观分析的基础上,提供了单个标签项的级联传播模型,但它们不能直接捕捉以网络事件为整体的一组标签信息项的联合动态传播过程,这样无法反映出网络事件在爆发期产生多个相关的、复杂的标签在同一时间窗口内产生的传播影响。另一方面,现有社交网络标签传播影响的分析方法大多基于点过程时序模型,这一类模型通常仅包含事件标签本身的单一的属性(例如转发量,时序关系等),并利用生成模型预测未来标签的流行度,这一类方法通常依赖较强的假设条件,在获取标签特征潜在关系存在不足,在预测性能方面存在一定的局限性。
当网络事件传播处于热门时期,所产生的标签可以视为一种具有群体聚集的语义表示,即事件的不同标签下隐含不同的用户群体变量,因此这些标签隐含着群体的传播属性。故本发明提出了一种端到端的深度学习回归预测模型,考虑了事件标签传播阶段不同标签之间相互传播影响进行深度学习建模,并引入了语义特征和两个群体指标作为影响传播的关键特征,从而更准确地预测目标标签在未来的社交网络流行度。
发明内容
本发明旨在提供一种基于多标签影响的网络事件标签流行度预测方法,解决目前存在的问题。
其技术方案是这样的:
一种基于多标签影响的网络事件标签流行度预测方法,包括以下步骤:
S1.在真实世界的社交网络事件传播,爬取社交网络事件相关的标签和文本;
进一步的,S1中,在真实世界的社交网络事件传播的数据集中以等主题词作为关键字,对某一时间段的社交文本进行爬取。
S2对爬取的数据进行清洗和整理;并对关系特征预处理进行预处理。具体包括:
S201.数据清洗,数据清洗后的csv文件中记录推文的发表情况,数据字段包括发表该推文的用户id、推文内容、表发时间、推文交互的用户id(包括转发/原创/评论,原创的交互id与发文id相同)。每一条记录表示一条与事件相关的推文发布;
S202.关系特征预处理,针对不同据集中推文特点,预处理过程额外抽取了表示概括性事件标题,并对一条推文中存在多个标签的推文建立标签关系。
S3.针对网络事件收集事件相关标签,并利用标签之间的关联构造事件标签传播关系图、全局标签关系图G和局部影响属性图Gi;以及计算节点的传播特征属性,首先根据基于可观测数据对时间进行窗口划分,然后根据时间窗口下的数据构造网络事件标签i的局部传播影响特征图Gi,包括提取静态语义特征图
Figure BDA0003998594570000021
以及动态群体传播时序图序列/>
Figure BDA0003998594570000022
具体包括:S301.构造事件标签传播关系图,选择了两个指标作为关系图中标签关系的来源,这两个指标是显式关系和隐式语义关系;
(A)显式关系指标,如果用户显式的将两个以上的标签聚合在一条推文中,则表示这些标签在传播的过程中具有传播影响关系。具体形式化如下:
Figure BDA0003998594570000031
其中CO-occur(i,j)表示两个标签同时在一条推文中出现的频率,N表示节点i所有邻居共现节点集合,该公式表达了标签i和标签j在整个事件语料库中的关联程度,能够代表显式的传播影响。
(B)隐式语义关系指标,当爆发后的网络事件标签缺乏显式关系时,利用已经抽取到的显式标签,并通过观测窗口内的语义相似度建立关系关联,这样的目的是提取出语义相关的但是没有显式标记#字符的事件标签。具体的,模型使用了逐点互信息(PMI)方法对标签之间的语义关系建立链接,该方法能够表达标签在事件语义数据间的权重关系,具体形式化如下:
Figure BDA0003998594570000032
/>
Figure BDA0003998594570000033
其中,d(i,j)是可观测窗口事件标签i和标签j同时出现的推文总数,这里与显式特征不同的是,显式特征是在推文中明显带有#号的显式标签,而这里的d(i,j)是出现在推文正文中而未包含#的共现关系。d(i)和d(j)是集合中至少包含一次i和j的推文总数。D是社交网络事件中的推文总数。一般来说,正的PMI值意味着事件标签库中标签具有高度语义相关性。
(C)社交网络事件标签之间关系权重建立,隐式的语义关系只针对正PMI值的标签对之间建立关联。最后通过加和的方法确定社交网络事件标签之间关系权重:
R(i,j)={Rex(i,j)+Rim(i,j)}
对于社交网络事件,上述过程能够在可观测时间窗口的数据中建立事件标签关系图G=<V,E>;
(D)从网络事件标签关系全局图G中针对目标标签i采样一个固定大小的子网络Gi,而不是直接处理具有诸多噪声信息的全局网络G本身,此步骤的抽样方法选择了重启随机行走算法RWR,利用RWR方法可以选择出最可能影响传播的相关标签,并且约束关联标签节点的上限,即:
Gi=RWR(G,i,m,R)
其中G表示事件标签全局关系图,m表示采样节点的约束数量,i表示目标标签,R表示事件标签关系图的节点之间权重R(i,j)。
S302.构造静态语义关系属性图,将语义特征作为标签关系图中的静态属性(标签语义与时序无关)来构建事件标签语义关系属性图Gsem,过程如下:
(A)标签语义特征的抽取,由于大部分标签都是事件概括式的缩写,尤其在英文数据集中表现明显,这样导致很难直接从标签自身的文本中获取足够的语义信息。将标签所在的推文补充可观测时间窗口内标签的语义信息,因此获取可观测时间内被转发数量最多的带有标签的推文s,并将其作为解释标签语义的特征。
(B)事件标签语义特征的嵌入表示,建立标签的语义解释的文本库后,调用了基于bert模型的sentenceTransformer5接口对标签进行语义初始向量嵌入,形式化为:
Hs={bert2sentence(i)}
其中0≤i≤|V|,Hs∈R|v|×d,|V|表示所有标签节点数量,d表示嵌入维度;
(C)静态的语义关系属性图构造,利用步骤301中事件标签传播局部影响关系图Gi与上一步获得的节点属性构造静态的语义关系属性图
Figure BDA0003998594570000041
其中,Vi为目标标签i的关联节点集合,Ei为标签节点关系集合,/>
Figure BDA0003998594570000042
为节点Vi的语义特征表示集合,且
Figure BDA0003998594570000043
S303.构造事件标签传播时序属性图序列,基于事件标签传播时序属性图
Figure BDA0003998594570000048
本模型对基于时序子图分割,即在保留时间窗口t内有效的节点/>
Figure BDA0003998594570000044
和边/>
Figure BDA0003998594570000045
并且根据标签节点在不同时刻的群体影响,计算影响传播的节点群体特征Ht,使得/>
Figure BDA0003998594570000046
其中0≤t<n,表示序列化的时间窗口。这样的采样方法可以反馈出时间窗口内不同话题标签之间的动态影响过程,该步骤分为四步:/>
(A)计算参与群体社会影响力,定义标签i在t窗口内的群体社会影响力,对于每一个标签节点进行如下计算:
Figure BDA0003998594570000047
其中Nt(n)表示时间窗口t中包含标签推文的总数数量,Nt(E)表示时间窗口t下子图中所有关联标签节点的推文总数。直观上,该指标表达参与该标签的群体在t时刻对于事件标签的整体影响程度。
(B)计算参与群体传播影响力,定义hashtagi在t时刻的群体传播影响力。对于每一个节点进行如下计算:
Figure BDA0003998594570000051
其中,
Figure BDA0003998594570000052
表示表示时间窗口t时刻发布由标签的推文的用户粉丝数量总和,
Figure BDA0003998594570000053
表示时间窗口t下发布事件相关推文的用户总量。该指标表达参与事件标签的群体对当前标签的群体关注程度。
(C)构造标签动态群体属性Hinf(t),选择了对传播有决定性动态群体影响特征Hinf(t)作为节点属性。由于不同时间窗口内,不同标签的传播影响不同,使用两个标签影响的关键指标作为时序下标签参与群体的影响评价标准,于是获得了目标标签i的动态传播属性Hinf(t),形式化如下:
Hinf(t)=[O(t),M(t)]
(D)构造时序图序列
Figure BDA0003998594570000054
通过动态传播属性Hinf(t)构造基于动态属性和动态关系的属性图Gt,然后获取每一个时间窗口内的事件标签传播时序属性图序列:
Figure BDA0003998594570000055
其中
Figure BDA0003998594570000056
然后对于数据集中每一个热点事件的标签i,根据上述方法构造了目标标签i的特征图/>
Figure BDA0003998594570000057
作为深度学习模型的样本输入。
步骤4:构造语义特征和时序群体特征,所述构造的语义特征和时序群体特征包括:基于图注意力网络的传播关系特征嵌入层、融合静态和动态特征的特征融合层、基于图胶囊网络的局部特征聚合层,其中基于图注意力网络的传播关系特征嵌入层又包括静态语义特征聚合表示和动态传播特征聚合表示。将所述针对静态语义关系属性图,将
Figure BDA0003998594570000058
作为输入到上述静态语义特征聚合表示层中,得到静态语义节点向量表示矩阵Hsem,针对动态传播时序属性图序列,对每一个时间窗口下的传播属性图/>
Figure BDA0003998594570000059
作为输入到动态传播特征聚合表示层中,获取可观测时间内t个窗口内组成的动态传播矩阵H'dym;将静态语义节点向量表示矩阵Hsem和动态传播矩阵H'dym作为输入到特征融合层,得到融合标签节点的语义特征和传播特征融合的融合特征Hf;将传播属性图/>
Figure BDA00039985945700000510
作为输入基于图胶囊网络的局部特征聚合层得到图嵌入向量hG
具体包括:
S401.学习传播关系特征嵌入层,传播关系特征嵌入主要负责学习不同标签之间的传播影响关系,包括静态语义特征聚合表示和动态传播特征聚合表示。选择了能够学习影响关系权重的图神经网络GAT作为图神经网络特征表示的方法,用GAT有监督的学习过程中学习到节点之间不同的权重系数,并在节点表示中获得隐藏的相互影响关系。
GAT的输入包含两个部分,节点特征向量H∈R|V|×d和邻接矩阵Nt∈R|V|×|V|,d表示特征的维度,n表示子图中节点的数量。对于图中每一个节点vi以及属性hi,有:
H=[h1,h2,...,h1,]T
Figure BDA0003998594570000061
Figure BDA0003998594570000062
Ho=[h'1,h'2,...,h'n,]T,Ho∈R|V|×d'
其中α∈R2×d’,Θ表示可训练的权重矩阵,j∈N(i)表示标签节点j与i在邻接矩阵中存在边(表示j与i是相关的),选择LeakyReLu方法作为非线性激活函数,ai,j表示标签节点i与标签节点j之间的相互影响关系权重,HO为输出的嵌入向量组成的矩阵,|V|表示图节点数量,d’表示输出节点特征的维度,||表示拼接操作。
针对静态语义关系属性图,将
Figure BDA0003998594570000063
作为输入到学习传播关系特征嵌入层中,得到静态语义节点向量表示矩阵Hsem,/>
Figure BDA0003998594570000064
针对动态传播时序属性图序列,对每一个时间窗口下的传播属性图/>
Figure BDA0003998594570000065
作为输入,获取可观测时间内t个窗口内组成的张量H'dym
Figure BDA0003998594570000066
易见
Figure BDA0003998594570000067
其中t表示时间窗口数量,|V|表示子图节点数量,F'2表示输出节点的特征维度。
S402.特征融合模块主要负责将标签节点的语义特征和传播特征融合,进而作为下一层的输入,为了保持在时序过程中节点语义不变性,模型将Hsem在矩阵H'dym中进行广播,即特征表示层形式化如下:
Hf=Hsem||H’dym
||表示拼接操作,于是有
Figure BDA0003998594570000068
S403.根据事件态势发展出现标签语义局部强相关的特点,这些标签存在图内强连接的状态,为了捕获这种传播图之间的局部性的强关联,更好地表达由局部到整体的层次结构关系,受到图胶囊网络的启发,本发明提出的模型应用路由机制对标签节点的群体效应进行投票,以更好地捕捉图中局部到整体的关系,然后通过多轮迭代的方式推理局部到整体的层次关系,最终获得时序图特征表示。具体的,这一过程主要由时序属性图
Figure BDA0003998594570000071
映射到图嵌入向量hG的过程,本步骤分为三步:
(A)将时序图层次化,通过投票机制建立时序图低层局部与高层整体的关系。规定v表示低层投票图中的胶囊节点,u表示高层路由图的胶囊节点,首先使用特征融合层与时序图作为初始的投票矩阵,即:
Figure BDA0003998594570000072
其中Nt表示低层投票图的邻接矩阵,
Figure BDA0003998594570000073
表示图胶囊网络中初始底层网络的投票表示向量,每一个向量/>
Figure BDA0003998594570000074
视为vi对高层集群中的胶囊节点uj的投票权重表示,|N|表示胶囊中的节点数量,F'3=F'1+F'1表示输入向量的维度。
(B)建立动态路由选择,这一过程的任务通过迭代计算低层节点v到更高层胶囊u之间的路由权重Ci,j,即哪些低层的vj群体可以激活高层集群节点uj(uj可以看做子图中关联更紧密的关系集群),以获取局部到整体的激活关系。于是对步骤(A)中的投票进行加权计算,获得低层图中的bj到局部聚合高层图的路由权重Ci,jj,即:
Figure BDA0003998594570000075
Figure BDA0003998594570000079
初始化为0.然后通过式下面三个公式进行R次迭代计算出动态路由权重/>
Figure BDA0003998594570000078
三个公式具体如下:
bi,j=bi,j+vj|i.uj
Figure BDA0003998594570000076
Figure BDA0003998594570000077
其中,squash(非线性“挤压”函数)的作用是计算胶囊uj中的节点vj|i的路由可能性,即节点vi|j投票给uj的概率,其中vi|j·uj的作用是计算每组投票和高层胶囊之间的一致性,这样可以更专注于聚合来自可能在同一集群中的邻居的信息。经过R次迭代,这一过程获得了高层聚合图的胶囊节点u和高层抽象的邻接矩阵,表示为:
Groute=(A,u)
A=CTNC,A∈R|V|×|U|
其中,N是低层投票图中的邻接矩阵,|V|表示低层投票图的节点数量,|U|表示高层路由图的节点数量,C表示由Ci,j构成的由低层到高层的路由权重矩阵,C∈R|V|×|U|,因此A可视为高层路由图的邻接矩阵,u是高层路由图中节点的特征向量,由上一步公式得出。因此上述过程可以简化为下变换:
U,A=Route(Vote(V,N))
即:
U,A=RV(V,N)
(C)建立时序属性图表示,然后重复上述步骤A和步骤B,将高层集群图再次抽象到整图嵌入的表示,这样做的作用是在图胶囊网络的基础上,最大限度的保留了局部的hashtag标签对传播的影响的特征,即:
Figure BDA0003998594570000081
式中的1表示抽象到更高层后仅聚合出一个节点的图表示,这个节点的特征向量表示为当前时间窗口t下的标签关系图传播影响表示向量。于是对于每一个时序属性图,使用局部聚合层对其进行图表示过程:
Figure BDA0003998594570000082
S5.将样本中不同时序子图的表示向量ht输入到LSTM模型进行动态时序表示学习,然后将其结果过输入到全连接层得到预测结果,将预测结果与获取的样本真实值标签的误差来指导模型学习,分为三个步骤:
S501.然后通过样本中不同时序子图的表示向量ht,为了利用这些时序特征,更好的获取时序中特征变化所带来的传播影响,在这一部分应用了长短时记忆LSTM内核。具体计算公式如下:
Figure BDA0003998594570000083
Figure BDA0003998594570000084
Figure BDA0003998594570000085
Figure BDA0003998594570000086
Figure BDA0003998594570000087
ht=tanh(ci)*oi
其中ht是第t时刻输出的隐式特征,
Figure BDA0003998594570000088
表示Hadamard积,Uj,Wj,bj,j∈({z,f,o,c})是可学习的参数,zi、fi和oi分别是第t个窗口特征的遗忘门向量、输入门向量和输出门向量。最后通过全连接层对t+1时刻的结果进行预测:
Δy’=σ(Wht)
S502.获取样本的真实值标签,对于网络事件标签i的局部传播影响特征图Gi,统计该样本在t+1快照内的
Figure BDA0003998594570000091
并将该值设置为样本的真实值标签yi。由于标签在社交网络中传播的特殊性,原创并带有标签的推文也视为对传播的行为。因此本发明使用了包括转发数和带有标签形式的原创数量之和作为用户群体的关注指标,即/>
Figure BDA0003998594570000092
其中/>
Figure BDA0003998594570000095
表示有多少人转发了带有事件标签的推文,/>
Figure BDA0003998594570000093
表示有多少原创推文涵盖了目标标签。
S503.针对网络流行度的预测,将流行度预测视为一种回归的模型,因此文中使用MLSE作为基于回归模型的目标损失函数:
Figure BDA0003998594570000094
其中Δy'表示预测的流行度指标,yi表示的实际传播指标。
一种计算机装置,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述的基于多标签影响的网络事件标签流行度预测方法。
一种计算机可读存储介质,其上存储有程序,程序被处理器执行时实现如上述的基于多标签影响的网络事件标签流行度预测方法。
本发明建立了一种基于多标签影响的网络事件标签流行度预测方法,具体来说,首先针对事件相关的标签在网络传播的过程中存在相互的传播影响,利用网络事件收集事件相关标签和标签之间的关联构造事件标签传播关系图、全局标签关系图和局部影响属性图,然后针对社交网络事件的传播过程是动态变化的,其产生的事件标签会出现语义聚集过程和演化过程,利用图注意力网络的传播关系特征嵌入层、融合静态和动态特征的特征融合层和基于图胶囊网络的局部特征聚合层来构造语义特征和时序群体特征,针对网络事件标签流行度预测提供了更可靠的准确性,最后通过时序模型进行动态时序表示学***台,可以根据数据训练出基于多标签影响的网络事件标签流行度预测模型,更好的解决热点事件流行度预测问题。可以用于预测舆情影响大的事件,例如社会热点问题,舆情事件,立场事件,观点事件,外交事件和国际事件等。
本发明与现有技术相比,具有以下技术效果:
1.本发明针对见建模社交网络博文传播过程中节点表示中获得隐藏的相互影响关系,设计了一种基于图注意力网络的特征聚合组件,包括静态语义特征聚合和动态群体传播特征聚合过程,引入了语义特征和两个群体指标作为影响传播的关键特征,该组件建模标签之间的关联以及标签内在语义关系。
2.本发明针对事件态势发展出现标签语义局部强相关,提供一种使用图胶囊网络对结合了静态语义特征和动态时序特征背后的群体聚集特性进行表示学习,捕获这种传播图之间的局部性的强关联,更好地表达由局部到整体的层次结构关系,来建模传播影响网络,从而体现不同标签下群体对事件传播的相互影响关系,
3.本发明针对社交网络事件的传播过程是动态变化的,其产生的事件标签会出现语义聚集过程和演化过程,利用了应用LSTM时序模型学习传播演化过程的特征表示,计算语义相关性和结构相关性,模拟事件标签语义聚集过程和演化过程,学习时序过程下不同标签之间传播影响的潜在特征,进而预测目标标签在未来的流行度。
4本发明针对会产生标签关系网络图的节点不断增加的问题,这样可能产生大量的噪声标签,使用随机游走算法下采样了影响力强的标签子图,筛选关键的影响力的标签集合,构造基于时序的事件标签关系网络子图,避免全局图的节点噪声,降低深度学习的运算复杂性。
附图说明
图1为本发明的多标签影响的网络事件标签流行度预测方法的步骤示意图;
图2为本发明的多标签影响的网络事件标签流行度预测方法步骤的流程示意图;
图3为一个实施例中计算机装置的内部结构图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
见图1和图2,本发明的一种基于多标签影响的网络事件标签流行度预测方法,至少包括以下步骤:
步骤1:在大型真实世界的社交网络事件传播的数据集中,爬取社交网络事件相关的标签和文本;
步骤2:对爬取的数据进行清洗和整理;并对关系特征进行预处理。
步骤3:针对网络事件收集事件相关标签,并利用标签之间的关联构造事件标签传播关系图、全局标签关系图G和局部影响属性图Gi;以及计算节点的传播特征属性,首先根据基于可观测数据对时间进行窗口划分,然后根据时间窗口下的数据构造网络事件标签i的局部传播影响特征图Gi,包括提取静态语义特征图
Figure BDA0003998594570000111
以及动态群体传播时序图序列
Figure BDA0003998594570000112
步骤4:构造语义特征和时序群体特征,所述构造的语义特征和时序群体特征包括:基于图注意力网络的传播关系特征嵌入层、融合静态和动态特征的特征融合层、基于图胶囊网络的局部特征聚合层,其中基于图注意力网络的传播关系特征嵌入层又包括静态语义特征聚合表示和动态传播特征聚合表示。将所述针对静态语义关系属性图,将
Figure BDA0003998594570000113
作为输入到上述静态语义特征聚合表示层中,得到静态语义节点向量表示矩阵Hsem,针对动态传播时序属性图序列,对每一个时间窗口下的传播属性图/>
Figure BDA0003998594570000114
作为输入到动态传播特征聚合表示层中,获取可观测时间内t个窗口内组成的动态传播矩阵H'dym;将静态语义节点向量表示矩阵Hsem和动态传播矩阵H'dym作为输入到特征融合层,得到融合标签节点的语义特征和传播特征融合的融合特征Hf;将传播属性图/>
Figure BDA0003998594570000115
作为输入基于图胶囊网络的局部特征聚合层得到图嵌入向量hG
步骤5:将样本中不同时序子图的表示向量ht输入到LSTM模型进行动态时序表示学习,然后将其结果过输入到全连接层得到预测结果,将预测结果与获取的样本真实值标签的误差来指导模型学习。
具体在本发明的一个实施例中,包括以下步骤:
步骤1:在真实世界的社交网络事件传播,以主题词作为关键字,对某一时间段的社交文本进行爬取。
步骤2:对爬取的数据进行清洗和整理;并对关系特征预处理进行预处理。具体包括:
步骤201:数据清洗,数据清洗后的csv文件中记录推文的发表情况,数据字段包括发表该推文的用户id、推文内容、表发时间、推文交互的用户id(包括转发/原创/评论,原创的交互id与发文id相同)。每一条记录表示一条与事件相关的推文发布;
步骤202:关系特征预处理,针对不同据集中推文特点,预处理过程额外抽取了表示概括性事件标题,并对一条推文中存在多个标签的推文建立标签关系;
步骤3:针对网络事件收集事件相关标签,并利用标签之间的关联构造事件标签传播关系图、全局标签关系图G和局部影响属性图Gi;以及计算节点的传播特征属性,首先根据基于可观测数据对时间进行窗口划分,然后根据时间窗口下的数据构造网络事件标签i的局部传播影响特征图Gi,包括提取静态语义特征图
Figure BDA0003998594570000121
以及动态群体传播时序图序列
Figure BDA0003998594570000122
步骤301:构造事件标签传播关系图,选择了两个指标作为关系图中标签关系的来源,这两个指标是显式关系和隐式语义关系;
步骤A:显式关系指标,如果用户显式的将两个以上的标签聚合在一条推文中,则表示这些标签在传播的过程中具有传播影响关系。具体形式化如下:
Figure BDA0003998594570000123
其中Co-occur(i,j)表示两个标签同时在一条推文中出现的频率,N表示节点i所有邻居共现节点集合,该公式表达了标签i和标签j在整个事件语料库中的关联程度,能够代表显式的传播影响。
步骤B:隐式语义关系指标,当爆发后的网络事件标签缺乏显式关系时,利用已经抽取到的显式标签,并通过观测窗口内的语义相似度建立关系关联,这样的目的是提取出语义相关的但是没有显式标记#字符的事件标签。具体的,模型使用了逐点互信息(PMI)方法对标签之间的语义关系建立链接,该方法能够表达标签在事件语义数据间的权重关系,具体形式化如下:
Figure BDA0003998594570000124
Figure BDA0003998594570000125
其中,d(i,j)是可观测窗口事件标签i和标签j同时出现的推文总数,这里与显式特征不同的是,显式特征是在推文中明显带有#号的显式标签,而这里的d(i,j)是出现在推文正文中而未包含#的共现关系。d(i)和d(j)是集合中至少包含一次i和j的推文总数。D是社交网络事件中的推文总数。一般来说,正的PMI值意味着事件标签库中标签具有高度语义相关性。
步骤C:社交网络事件标签之间关系权重建立,隐式的语义关系只针对正PMI值的标签对之间建立关联。最后通过加和的方法确定社交网络事件标签之间关系权重:
R(i,j)={Rex(i,j)+Rim(i,j)}
对于社交网络事件,上述过程能够在可观测时间窗口的数据中建立事件标签关系图G=<V,E>;
步骤D:从网络事件标签关系全局图G中针对目标标签i采样一个固定大小的子网络Gi,而不是直接处理具有诸多噪声信息的全局网络G本身,此步骤的抽样方法选择了重启随机行走算法RWR,利用RWR方法可以选择出最可能影响传播的相关标签,并且约束关联标签节点的上限,即:
Gi=RWR(G,i,m,R)
其中G表示事件标签全局关系图,m表示采样节点的约束数量,i表示目标标签,R表示事件标签关系图的节点之间权重R(i,j)。在本实施例中,m=15;
步骤302:构造静态语义关系属性图,将语义特征作为标签关系图中的静态属性(标签语义与时序无关)来构建事件标签语义关系属性图Gsem,过程如下:
步骤A:标签语义特征的抽取,由于大部分标签都是事件概括式的缩写,尤其在英文数据集中表现明显,这样导致很难直接从标签自身的文本中获取足够的语义信息。将标签所在的推文补充可观测时间窗口内标签的语义信息,因此获取可观测时间内被转发数量最多的带有标签的推文s,并将其作为解释标签语义的特征。
步骤B:事件标签语义特征的嵌入表示,建立标签的语义解释的文本库后,调用了基于bert模型的sentence Transformer5接口对标签进行语义初始向量嵌入,形式化为:
Hs={bert2sentence(i)}
其中0≤i≤|V|,Hs∈R|v|×d,|V|表示所有标签节点数量,d表示嵌入维度,在本实施例中,在本实施例中,d=32,|V|=20;
步骤C:静态的语义关系属性图构造,利用步骤301中事件标签传播局部影响关系图Gi与上一步获得的节点属性构造静态的语义关系属性图
Figure BDA0003998594570000131
其中,Vi为目标标签i的关联节点集合,Ei为标签节点关系集合,/>
Figure BDA0003998594570000132
为节点Vi的语义特征表示集合,且
Figure BDA0003998594570000133
步骤303:构造事件标签传播时序属性图序列,基于事件标签传播时序属性图
Figure BDA0003998594570000134
本模型对基于时序子图分割,即在保留时间窗口t内有效的节点/>
Figure BDA0003998594570000135
和边/>
Figure BDA0003998594570000136
并且根据标签节点在不同时刻的群体影响,计算影响传播的节点群体特征Ht,使得/>
Figure BDA0003998594570000141
其中0≤t<n,表示序列化的时间窗口。这样的采样方法可以反馈出时间窗口内不同话题标签之间的动态影响过程,该步骤分为两步:
步骤A:计算参与群体社会影响力,定义标签i在t窗口内的群体社会影响力,对于每一个标签节点进行如下计算:
Figure BDA0003998594570000142
其中Nt(n)表示时间窗口t中包含标签推文的总数数量,Nt(E)表示时间窗口t下子图中所有关联标签节点的推文总数。直观上,该指标表达参与该标签的群体在t时刻对于事件标签的整体影响程度。
步骤B:计算参与群体传播影响力,定义hashtagi在t时刻的群体传播影响力。对于每一个节点进行如下计算:
Figure BDA0003998594570000143
其中,
Figure BDA0003998594570000144
表示表示时间窗口t时刻发布由标签的推文的用户粉丝数量总和,
Figure BDA0003998594570000145
表示时间窗口t下发布事件相关推文的用户总量。该指标表达参与事件标签的群体对当前标签的群体关注程度。
步骤C:构造标签动态群体属性Hinf(t),选择了对传播有决定性动态群体影响特征Hinf(t)作为节点属性。由于不同时间窗口内,不同标签的传播影响不同,使用两个标签影响的关键指标作为时序下标签参与群体的影响评价标准,于是获得了目标标签i的动态传播属性Hinf(t),形式化如下:
Hinf(t)=[O(t),M(t)]
步骤D:构造时序图序列
Figure BDA0003998594570000146
通过动态传播属性Hinf(t)构造基于动态属性和动态关系的属性图Gt,然后获取每一个时间窗口内的事件标签传播时序属性图序列:
Figure BDA0003998594570000147
其中
Figure BDA0003998594570000148
然后对于数据集中每一个热点事件的标签i,根据上述方法构造了目标标签i的特征图/>
Figure BDA0003998594570000149
作为深度学习模型的样本输入。
步骤4:构造语义特征和时序群体特征,所述构造的语义特征和时序群体特征包括:基于图注意力网络的传播关系特征嵌入层、融合静态和动态特征的特征融合层、基于图胶囊网络的局部特征聚合层,其中基于图注意力网络的传播关系特征嵌入层又包括静态语义特征聚合表示和动态传播特征聚合表示。将所述针对静态语义关系属性图,将
Figure BDA0003998594570000151
作为输入到上述静态语义特征聚合表示层中,得到静态语义节点向量表示矩阵Hsem,针对动态传播时序属性图序列,对每一个时间窗口下的传播属性图/>
Figure BDA0003998594570000152
作为输入到动态传播特征聚合表示层中,获取可观测时间内t个窗口内组成的动态传播矩阵H'dym;将静态语义节点向量表示矩阵Hsem和动态传播矩阵H'dym作为输入到特征融合层,得到融合标签节点的语义特征和传播特征融合的融合特征Hf;将传播属性图/>
Figure BDA0003998594570000153
作为输入基于图胶囊网络的局部特征聚合层得到图嵌入向量hG
具体包括:
步骤401,学习传播关系特征嵌入层,传播关系特征嵌入主要负责学习不同标签之间的传播影响关系,包括静态语义特征聚合表示和动态传播特征聚合表示。选择了能够学习影响关系权重的图神经网络GAT作为图神经网络特征表示的方法,用GAT有监督的学习过程中学习到节点之间不同的权重系数,并在节点表示中获得隐藏的相互影响关系。
GAT的输入包含两个部分,节点特征向量H∈RV|×d和邻接矩阵Nt∈R|V|×|V|,d表示特征的维度,n表示子图中节点的数量。对于图中每一个节点vi以及属性hi,有:
H=[h1,h2,...,h1,]T
Figure BDA0003998594570000154
Figure BDA0003998594570000155
HO=[h'1,h'2,...,h'n,]T,Ho∈R|V|×d'
其中α∈R2×d’,Θ表示可训练的权重矩阵,j∈N(i)表示标签节点j与i在邻接矩阵中存在边(表示j与i是相关的),选择LeakyReLu方法作为非线性激活函数,ai,j表示标签节点i与标签节点j之间的相互影响关系权重,HO为输出的嵌入向量组成的矩阵,|V|表示图节点数量,d’表示输出节点特征的维度,||表示拼接操作。在本实施案例中,|V|=20,d’=64;
针对静态语义关系属性图,将
Figure BDA0003998594570000156
作为输入到学习传播关系特征嵌入层中,得到静态语义节点向量表示矩阵Hsem,/>
Figure BDA0003998594570000157
针对动态传播时序属性图序列,对每一个时间窗口下的传播属性图/>
Figure BDA0003998594570000158
作为输入,获取可观测时间内t个窗口内组成的张量H‘dym
Figure BDA0003998594570000161
易见
Figure BDA0003998594570000162
其中t表示时间窗口数量,|V|表示子图节点数量,F'2表示输出节点的特征维度。在本实施案例中,|V|=20,t=8,F'1=32,F'2=32;
步骤402:特征融合模块主要负责将标签节点的语义特征和传播特征融合,进而作为下一层的输入,为了保持在时序过程中节点语义不变性,模型将Hsem在矩阵H‘dym中进行广播,即特征表示层形式化如下:
Hf=Hsem||H’dym
||表示拼接操作,于是有
Figure BDA0003998594570000163
在本实施案例中,|V|=20,t=8,F'1=32,F’2=32;
步骤403:根据事件态势发展出现标签语义局部强相关的特点,这些标签存在图内强连接的状态,为了捕获这种传播图之间的局部性的强关联,更好地表达由局部到整体的层次结构关系,受到图胶囊网络的启发,本发明提出的模型应用路由机制对标签节点的群体效应进行投票,以更好地捕捉图中局部到整体的关系,然后通过多轮迭代的方式推理局部到整体的层次关系,最终获得时序图特征表示。具体的,这一过程主要由时序属性图
Figure BDA0003998594570000167
映射到图嵌入向量hG的过程,本步骤分为三步:
步骤A:将时序图层次化,通过投票机制建立时序图低层局部与高层整体的关系。规定v表示低层投票图中的胶囊节点,u表示高层路由图的胶囊节点,首先使用特征融合层与时序图作为初始的投票矩阵,即:
Figure BDA0003998594570000164
其中Nt表示低层投票图的邻接矩阵,
Figure BDA0003998594570000165
表示图胶囊网络中初始底层网络的投票表示向量,每一个向量/>
Figure BDA0003998594570000166
视为vi对高层集群中的胶囊节点uj的投票权重表示,|N|表示胶囊中的节点数量,F'3=F'1+F'1表示输入向量的维度。在本实施案例中,|N|=10,F'1=32,F’2=32;F’3=64;
步骤B:建立动态路由选择,这一过程的任务通过迭代计算低层节点v到更高层胶囊u之间的路由权重Ci,j,即哪些低层的vj群体可以激活高层集群节点uj(uj可以看做子图中关联更紧密的关系集群),以获取局部到整体的激活关系。于是对步骤A中的投票进行加权计算,获得低层图中的vj到局部聚合高层图的路由权重Ci,jj,即:
Figure BDA0003998594570000171
Figure BDA0003998594570000172
初始化为0.然后通过式下面三个公式进行R次迭代计算出动态路由权重/>
Figure BDA0003998594570000173
三个公式具体如下:
bi,j=bi,j+vj|i.uj
Figure BDA0003998594570000174
Figure BDA0003998594570000175
其中,squash(非线性“挤压”函数)的作用是计算胶囊uj中的节点vj|i的路由可能性,即节点vi|j投票给uj的概率,其中vi|j·uj的作用是计算每组投票和高层胶囊之间一致性,这样可以更专注于聚合来自可能在同一集群中的邻居的信息。经过R次迭代,这一过程获得了高层聚合图的胶囊节点u和高层抽象的邻接矩阵,表示为:
Groute=(A,u)
A=CTNC,A∈R|V|×|U|
其中,N是低层投票图中的邻接矩阵,|V|表示低层投票图的节点数量,|U|表示高层路由图的节点数量,C表示由Ci,j构成的由低层到高层的路由权重矩阵,C∈R|V|×|U|,因此A可视为高层路由图的邻接矩阵,u是高层路由图中节点的特征向量,由上一步公式得出。因此上述过程可以简化为下变换:
U,A=Route(Vote(V,N))
即:
U,A=RV(V,N)
步骤C:建立时序属性图表示,然后重复上述步骤A和步骤B,将高层集群图再次抽象到整图嵌入的表示,这样做的作用是在图胶囊网络的基础上,最大限度的保留了局部的hashtag标签对传播的影响的特征,即:
Figure BDA0003998594570000176
式中的1表示抽象到更高层后仅聚合出一个节点的图表示,这个节点的特征向量表示为当前时间窗口t下的标签关系图传播影响表示向量。于是对于每一个时序属性图,使用局部聚合层对其进行图表示过程:
Figure BDA0003998594570000177
步骤5:将样本中不同时序子图的表示向量ht输入到LSTM模型进行动态时序表示学习,然后将其结果过输入到全连接层得到预测结果,将预测结果与获取的样本真实值标签的误差来指导模型学习,分为三个步骤:
S501.然后通过样本中不同时序子图的表示向量ht,为了利用这些时序特征,更好的获取时序中特征变化所带来的传播影响,在这一部分应用了长短时记忆LSTM内核。具体计算公式如下:
Figure BDA0003998594570000181
Figure BDA0003998594570000182
Figure BDA0003998594570000183
Figure BDA0003998594570000184
Figure BDA0003998594570000185
/>
ht=tanh(ci)*oi
其中ht是第t时刻输出的隐式特征,
Figure BDA00039985945700001811
表示Hadamard积,Uj,Wj,bj,j∈({z,f,o,c})是可学习的参数,zi、fi和oi分别是第t个窗口特征的遗忘门向量、输入门向量和输出门向量。最后通过全连接层对t+1时刻的结果进行预测:
Δy’=σ(Wht)
S502.获取样本的真实值标签,对于网络事件标签i的局部传播影响特征图Gi,统计该样本在t+1快照内的
Figure BDA0003998594570000186
并将该值设置为样本的真实值标签yi。由于标签在社交网络中传播的特殊性,原创并带有标签的推文也视为对传播的行为。因此本发明使用了包括转发数和带有标签形式的原创数量之和作为用户群体的关注指标,即/>
Figure BDA0003998594570000187
其中/>
Figure BDA0003998594570000188
表示有多少人转发了带有事件标签的推文,/>
Figure BDA0003998594570000189
表示有多少原创推文涵盖了目标标签。
S503.针对网络流行度的预测,将流行度预测视为一种回归的模型,因此文中使用MLSE作为基于回归模型的目标损失函数:
Figure BDA00039985945700001810
其中Δy'表示预测的流行度指标,yi表示的实际传播指标。
这样的架构具有两个优势:
(1)更优异的特征建模能力。考虑了事件标签之间的传播影响机理,研究了推文传播的数据规律,并设计了事件标签传播关联关系的构造方法,然后抽取了事件标签传播背后的群体性指标和引发标签聚合的语义特征,针对社交网络中成为热点事件的标签设计了一种基于多标签影响的网络事件标签流行度预测模型。该模型考虑标签在网络传播中的相互影响关系,通过标签隐含的语义和群体关系预测社交网络中传播流行度。
(2)更准确的标签流行度预测能力。在事件标签流行度预测任务上具有显著的性能提升。同时实验验证了事件标签在传播过程中在数据集上的核心指标MLSE都超过了现有最优的基准流行度预测模型,与最优的基线模型相比,在实例化的两个数据集上分别提升了25.9%和29.3%,这表明提出的标签传播影响关系以及语义特征对流行度预测模型具有很大的帮助,并且证明了提出的模型在性能上是优越的,相互传播影响对流行度有显著的影响,说明了模型的提出的假设是可靠且有效的。
本实施例利用了信息传播中标签特征、静态语义、动态群体、语义聚集的特征,针对多标签影响的网络事件标签有更准确的预测,所以针对不同的社交文本,可以通过调整获得针对性不同的深度学习模型参数,更好的解决语义范畴内的预测问题,例如观点及立场的传播预测和舆情事件预测等。
本实施例提供的方法可以用于在线舆情事件预测,观点及立场传播预测,舆情事件监测,谣言监测以及公共事件应急预防等,尤其可以用于社交网络中多标签影响的热点事件的预测,例如舆情热点事件,观点热点事件,立场热点事件等,也可用于企业的网络信息监管,预测企业发布的信息在未来是否会被大量传播。
在本发明的实施例中,还提供了一种计算机装置,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上述的基于多标签影响的网络事件标签流行度预测方法。
该计算机装置可以是终端,其内部结构图可以如图3所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于多标签影响的网络事件标签流行度预测方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机装置的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机装置外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(RandomAccess Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机装置的限定,具体的计算机装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,其上存储有程序,其特征在于:程序被处理器执行时实现如上述的基于异质网络的社交网络影响力预测方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
以上对本发明所提供的基于多标签影响的网络事件标签流行度预测方法、计算机装置、计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于多标签影响的网络事件标签流行度预测方法,其特征在于,包括以下步骤:
S1.在真实世界的社交网络事件传播,爬取社交网络事件相关的标签和文本;
S2.对爬取的数据进行清洗和整理;并对关系特征进行预处理;
具体包括:
S201.数据清洗,数据清洗后的csv文件中记录推文的发表情况,数据字段包括发表该推文的用户id、推文内容、表发时间、推文交互的用户id;每一条记录表示一条与事件相关的推文发布;
S202.关系特征预处理,针对不同据集中推文特点,预处理过程额外抽取了表示概括性事件标题,并对一条推文中存在多个标签的推文建立标签关系;
S3.针对网络事件收集事件相关标签,并利用标签之间的关联构造事件标签传播关系图、全局标签关系图G和局部影响属性图Gi;以及计算节点的传播特征属性,首先根据基于可观测数据对时间进行窗口划分,然后根据时间窗口下的数据构造网络事件标签i的局部传播影响特征图Gi,包括提取静态语义特征图
Figure FDA0003998594560000011
以及动态群体传播时序图序列/>
Figure FDA0003998594560000012
S4.构造语义特征和时序群体特征;
所述构造的语义特征和时序群体特征包括:基于图注意力网络的传播关系特征嵌入层、融合静态和动态特征的特征融合层、基于图胶囊网络的局部特征聚合层,其中基于图注意力网络的传播关系特征嵌入层又包括静态语义特征聚合表示和动态传播特征聚合表示;
将所述针对静态语义关系属性图,将
Figure FDA0003998594560000013
作为输入到上述静态语义特征聚合表示层中,得到静态语义节点向量表示矩阵Hsem,针对动态传播时序属性图序列,对每一个时间窗口下的传播属性图/>
Figure FDA0003998594560000014
作为输入到动态传播特征聚合表示层中,获取可观测时间内t个窗口内组成的动态传播矩阵H'dym
将静态语义节点向量表示矩阵Hsem和动态传播矩阵H'dym作为输入到特征融合层,得到融合标签节点的语义特征和传播特征融合的融合特征Hf;将传播属性图
Figure FDA0003998594560000015
作为输入基于图胶囊网络的局部特征聚合层得到图嵌入向量hG
S5.将样本中不同时序子图的表示向量ht输入到LSTM模型进行动态时序表示学习,然后将其结果过输入到全连接层得到预测结果,将预测结果与获取的样本真实值标签的误差来指导模型学习。
2.根据权利要求1所述的一种基于多标签影响的网络事件标签流行度预测方法,其特征在于,S3具体包括:
S301.构造事件标签传播关系图,选择两个指标作为关系图中标签关系的来源,这两个指标是显式关系和隐式语义关系;
S302.构造静态语义关系属性图,将语义特征作为标签关系图中的静态属性来构建事件标签语义关系属性图Gsem
S303.构造事件标签传播时序属性图序列,基于事件标签传播时序属性图
Figure FDA0003998594560000024
本模型对基于时序子图分割,即在保留时间窗口t内有效的节点/>
Figure FDA0003998594560000025
和边/>
Figure FDA0003998594560000026
并且根据标签节点在不同时刻的群体影响,计算影响传播的节点群体特征Ht,使得/>
Figure FDA0003998594560000027
其中0≤t<n,表示序列化的时间窗口。
3.根据权利要求2所述的一种基于多标签影响的网络事件标签流行度预测方法,其特征在于,S301具体包括:
(A)显式关系指标,如果用户显式的将两个以上的标签聚合在一条推文中,则表示这些标签在传播的过程中具有传播影响关系;具体形式化如下:
Figure FDA0003998594560000021
其中Co-occur(i,j)表示两个标签同时在一条推文中出现的频率,N表示节点i所有邻居共现节点集合,该公式表达了标签i和标签j在整个事件语料库中的关联程度,代表显式的传播影响;
(B)隐式语义关系指标,当爆发后的网络事件标签缺乏显式关系时,利用已经抽取到的显式标签,并通过观测窗口内的语义相似度建立关系关联,提取出语义相关的但是没有显式标记#字符的事件标签;
具体的,模型使用逐点互信息PMI方法对标签之间的语义关系建立链接,具体形式化如下:
Figure FDA0003998594560000022
Figure FDA0003998594560000023
其中,d(i,j)是可观测窗口事件标签i和标签j同时出现的推文总数,这里与显式特征不同的是,显式特征是在推文中明显带有#号的显式标签,而这里的d(i,j)是出现在推文正文中而未包含#的共现关系;d(i)和d(j)是集合中至少包含一次i和j的推文总数;D是社交网络事件中的推文总数;
(C)社交网络事件标签之间关系权重建立,隐式的语义关系只针对正PMI值的标签对之间建立关联;最后通过加和的方法确定社交网络事件标签之间关系权重:
R(i,j)={Rex(i,j)+Rim(i,j)}
对于社交网络事件,上述过程在可观测时间窗口的数据中建立事件标签关系图G=<V,E>;
(D)从网络事件标签关系全局图G中针对目标标签i采样一个固定大小的子网络Gi,而不是直接处理具有诸多噪声信息的全局网络G本身,此步骤的抽样方法选择了重启随机行走算法RWR,利用RWR方法选择出最可能影响传播的相关标签,并且约束关联标签节点的上限,即:
Gi=RWR(G,i,m,R)
其中G表示事件标签全局关系图,m表示采样节点的约束数量,i表示目标标签,R表示事件标签关系图的节点之间权重R(i,j)。
4.根据权利要求2所述的一种基于多标签影响的网络事件标签流行度预测方法,其特征在于,S302具体包括:
(A)标签语义特征的抽取;
将标签所在的推文补充可观测时间窗口内标签的语义信息,获取可观测时间内被转发数量最多的带有标签的推文s,并将其作为解释标签语义的特征;
(B)事件标签语义特征的嵌入表示,建立标签的语义解释的文本库后,调用了基于bert模型的sentenceTransformer5接口对标签进行语义初始向量嵌入,形式化为:
Hs={bert2sentence(i)}
其中0≤i≤V,Hs∈R|v|×d,V表示所有标签节点数量,d表示嵌入维度;
(C)静态的语义关系属性图构造,利用步骤301中事件标签传播局部影响关系图Gi与上一步获得的节点属性构造静态的语义关系属性图:
Figure FDA0003998594560000031
其中,Vi为目标标签i的关联节点集合,Ei为标签节点关系集合,
Figure FDA0003998594560000032
为节点Vi的语义特征表示集合,且/>
Figure FDA0003998594560000033
5.根据权利要求1所述的一种基于多标签影响的网络事件标签流行度预测方法,其特征在于,S303具体包括:
(A)计算参与群体社会影响力,定义标签i在t窗口内的群体社会影响力,对于每一个标签节点进行如下计算:
Figure FDA0003998594560000041
其中Nt(n)表示时间窗口t中包含标签推文的总数数量,Nt(E)表示时间窗口t下子图中所有关联标签节点的推文总数,该指标表达参与该标签的群体在t时刻对于事件标签的整体影响程度;
(B)计算参与群体传播影响力,定义hashtagi在t时刻的群体传播影响力;对于每一个节点进行如下计算:
Figure FDA0003998594560000042
其中,
Figure FDA0003998594560000047
表示表示时间窗口t时刻发布由标签的推文的用户粉丝数量总和;/>
Figure FDA0003998594560000048
表示时间窗口t下发布事件相关推文的用户总量,该指标表达参与事件标签的群体对当前标签的群体关注程度;
(C)构造标签动态群体属性Hinf(t),选择对传播有决定性动态群体影响特征Hinf(t)作为节点属性;使用两个标签影响的关键指标作为时序下标签参与群体的影响评价标准,获得了目标标签i的动态传播属性Hinf(t),形式化如下:
Hinf(t)=[O(t),M(t)]
(D)构造时序图序列
Figure FDA0003998594560000045
通过动态传播属性Hinf(t)构造基于动态属性和动态关系的属性图Gt,然后获取每一个时间窗口内的事件标签传播时序属性图序列:
Figure FDA0003998594560000043
其中
Figure FDA0003998594560000044
然后对于数据集中每一个热点事件的标签i,根据上述方法构造了目标标签i的特征图/>
Figure FDA0003998594560000046
作为深度学习模型的样本输入。
6.根据权利要求1所述的一种基于多标签影响的网络事件标签流行度预测方法,其特征在于,步骤4具体包括:
S401.学习传播关系特征嵌入层,传播关系特征嵌入负责学习不同标签之间的传播影响关系,包括静态语义特征聚合表示和动态传播特征聚合表示;选择能够学习影响关系权重的图神经网络GAT作为图神经网络特征表示的方法,用GAT有监督的学习过程中学习到节点之间不同的权重系数,并在节点表示中获得隐藏的相互影响关系;
GAT的输入包含两个部分,节点特征向量H∈R|V|×d和邻接矩阵Nt∈R|V|×|V|,d表示特征的维度,n表示子图中节点的数量;对于图中每一个节点vi以及属性hi,有:
H=[h1,h2,...,h1,]T
Figure FDA0003998594560000051
Figure FDA0003998594560000052
Ho=[h'1,h'2,...,h'n,]T,Ho∈R|V|×d'
其中α∈R2×d’,Θ表示可训练的权重矩阵,j∈N(i)表示标签节点j与i在邻接矩阵中存在边,即表示j与i是相关的;选择LeakyReLu方法作为非线性激活函数,ai,j表示标签节点i与标签节点j之间的相互影响关系权重,HO为输出的嵌入向量组成的矩阵,|V|表示图节点数量,d’表示输出节点特征的维度,||表示拼接操作;
针对静态语义关系属性图,将
Figure FDA0003998594560000054
作为输入到学习传播关系特征嵌入层中,得到静态语义节点向量表示矩阵Hsem,/>
Figure FDA0003998594560000055
针对动态传播时序属性图序列,对每一个时间窗口下的传播属性图/>
Figure FDA0003998594560000056
作为输入,获取可观测时间内t个窗口内组成的张量H'dym
Figure FDA0003998594560000053
Figure FDA0003998594560000057
其中t表示时间窗口数量,|V|表示子图节点数量,F'2表示输出节点的特征维度;
S402.特征融合模块负责将标签节点的语义特征和传播特征融合,进而作为下一层的输入,模型将Hsem在矩阵H'dym中进行广播,即特征表示层形式化如下:
Hf=Hsem||H′dym
||表示拼接操作,于是有
Figure FDA0003998594560000058
S403.根据事件态势发展出现标签语义局部强相关的特点,模型应用路由机制对标签节点的群体效应进行投票,捕捉图中局部到整体的关系,然后通过多轮迭代的方式推理局部到整体的层次关系,最终获得时序图特征表示。
7.根据权利要求6所述的一种基于多标签影响的网络事件标签流行度预测方法,其特征在于,S403中由时序属性图
Figure FDA0003998594560000059
映射到图嵌入向量hG的过程,本步骤分为三步:
(A)将时序图层次化,通过投票机制建立时序图低层局部与高层整体的关系;规定v表示低层投票图中的胶囊节点,u表示高层路由图的胶囊节点,首先使用特征融合层与时序图作为初始的投票矩阵,即:
Figure FDA0003998594560000061
/>
其中Nt表示低层投票图的邻接矩阵,
Figure FDA0003998594560000062
表示图胶囊网络中初始底层网络的投票表示向量,每一个向量/>
Figure FDA0003998594560000063
视为vi对高层集群中的胶囊节点uj的投票权重表示,|N|表示胶囊中的节点数量,F'3=F'1+F'1表示输入向量的维度;
(B)建立动态路由选择,这一过程的任务通过迭代计算低层节点v到更高层胶囊u之间的路由权重Ci,j,即哪些低层的vj群体可以激活高层集群节点uj,以获取局部到整体的激活关系;对步骤(A)中的投票进行加权计算,获得低层图中的vj到局部聚合高层图的路由权重Ci,jj,即:
Figure FDA0003998594560000064
Figure FDA0003998594560000065
初始化为0.然后通过式下面三个公式进行R次迭代计算出动态路由权重/>
Figure FDA0003998594560000066
三个公式具体如下:
bi,j=bi,j+vj|i·uj
Figure FDA0003998594560000067
Figure FDA0003998594560000068
其中,squash非线性“挤压”函数的作用是计算胶囊uj中的节点vj|i的路由可能性,即节点vi|j投票给uj的概率,其中vi|j·uj的作用是计算每组投票和高层胶囊之间的一致性;经过R次迭代,这一过程获得了高层聚合图的胶囊节点u和高层抽象的邻接矩阵,表示为:
Groute=(A,u)
A=CTNC,A∈R|V|×|U|
其中,N是低层投票图中的邻接矩阵,|V|表示低层投票图的节点数量,|U|表示高层路由图的节点数量,C表示由Ci,j构成的由低层到高层的路由权重矩阵,C∈R|V|×|U|,A为高层路由图的邻接矩阵,u是高层路由图中节点的特征向量,步骤B定义为如下变换:
U,A=Route(Vote(V,N))
即:
U,A=RV(V,N)
(C)建立时序属性图表示,然后重复上述步骤(A)和步骤(B),将高层集群图再次抽象到整图嵌入的表示,图胶囊网络的基础上,保留局部的hashtag标签对传播的影响的特征,即:
Figure FDA0003998594560000071
式中的1表示抽象到更高层后仅聚合出一个节点的图表示,这个节点的特征向量表示为当前时间窗口t下的标签关系图传播影响表示向量;对于每一个时序属性图,使用局部聚合层对其进行图表示过程:
Figure FDA0003998594560000072
8.根据权利要求1所述的一种基于多标签影响的网络事件标签流行度预测方法,其特征在于,S5具体包括:
S501.通过样本中不同时序子图的表示向量ht,应用长短时记忆LSTM内核;具体计算公式如下:
Figure FDA0003998594560000073
Figure FDA0003998594560000074
Figure FDA0003998594560000075
Figure FDA0003998594560000076
Figure FDA0003998594560000077
ht=tanh(ci)*oi
其中ht是第t时刻输出的隐式特征,
Figure FDA00039985945600000714
表示Hadamard积,Uj,Wj,bj,j∈({z,f,o,c})是可学习的参数,zi、fi和oi分别是第t个窗口特征的遗忘门向量、输入门向量和输出门向量;
最后通过全连接层对t+1时刻的结果进行预测:
Δy′=σ(Wht)
S502.获取样本的真实值标签,对于网络事件标签i的局部传播影响特征图Gi,统计该样本在t+1快照内的
Figure FDA0003998594560000078
并将该值设置为样本的真实值标签yi
使用包括转发数和带有标签形式的原创数量之和作为用户群体的关注指标,即
Figure FDA0003998594560000079
Figure FDA00039985945600000710
其中/>
Figure FDA00039985945600000711
表示有多少人转发了带有事件标签的推文,/>
Figure FDA00039985945600000712
表示有多少原创推文涵盖了目标标签;
S503.针对网络流行度的预测,将流行度预测视为一种回归的模型,使用MLSE作为基于回归模型的目标损失函数:
Figure FDA00039985945600000713
其中Δy'表示预测的流行度指标,yi表示的实际传播指标。
9.一种计算机装置,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如上述的基于多标签影响的网络事件标签流行度预测方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于:程序被处理器执行时实现如上述的基于多标签影响的网络事件标签流行度预测方法。
CN202211605375.1A 2022-12-14 2022-12-14 一种基于多标签影响的网络事件标签流行度预测方法 Pending CN115858899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211605375.1A CN115858899A (zh) 2022-12-14 2022-12-14 一种基于多标签影响的网络事件标签流行度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211605375.1A CN115858899A (zh) 2022-12-14 2022-12-14 一种基于多标签影响的网络事件标签流行度预测方法

Publications (1)

Publication Number Publication Date
CN115858899A true CN115858899A (zh) 2023-03-28

Family

ID=85672812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211605375.1A Pending CN115858899A (zh) 2022-12-14 2022-12-14 一种基于多标签影响的网络事件标签流行度预测方法

Country Status (1)

Country Link
CN (1) CN115858899A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251770A (zh) * 2023-11-17 2023-12-19 北京新兴科遥信息技术有限公司 一种识别低效用地的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251770A (zh) * 2023-11-17 2023-12-19 北京新兴科遥信息技术有限公司 一种识别低效用地的方法
CN117251770B (zh) * 2023-11-17 2024-02-13 北京新兴科遥信息技术有限公司 一种识别低效用地的方法

Similar Documents

Publication Publication Date Title
Balaji et al. Machine learning algorithms for social media analysis: A survey
Peng et al. Influence analysis in social networks: A survey
Bamakan et al. Opinion leader detection: A methodological review
Zhou et al. A survey of information cascade analysis: Models, predictions, and recent advances
Riquelme et al. Measuring user influence on Twitter: A survey
Zhang et al. Data-driven computational social science: A survey
Yin et al. Deep fusion of multimodal features for social media retweet time prediction
Wang et al. CasSeqGCN: Combining network structure and temporal sequence to predict information cascades
Cai et al. Neighborhood-enhanced transfer learning for one-class collaborative filtering
Li et al. Modeling and evaluating information propagation in a microblogging social network
Yang et al. Recommender system-based diffusion inferring for open social networks
Zhang et al. Understanding WeChat user preferences and “Wow” diffusion
Song et al. A subgraph-based knowledge reasoning method for collective fraud detection in E-commerce
Zheng et al. Rumor detection on social media through mining the social circles with high homogeneity
Nirav Shah et al. A systematic literature review and existing challenges toward fake news detection models
Niu et al. Predicting image popularity in an incomplete social media community by a weighted bi-partite graph
Tajrian et al. A review of methodologies for fake news analysis
Das et al. A key review on graph data science: The power of graphs in scientific studies
CN115858899A (zh) 一种基于多标签影响的网络事件标签流行度预测方法
Tang et al. Semantic mining of social networks
Kanakaris et al. Making personnel selection smarter through word embeddings: A graph-based approach
Zheng et al. Flickr group recommendation based on user-generated tags and social relations via topic model
Fu et al. Natural and artificial dynamics in graphs: Concept, progress, and future
Colbaugh et al. Emerging topic detection for business intelligence via predictive analysis of'meme'dynamics
Girgin et al. From past to present: Spam detection and identifying opinion leaders in social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination