CN113870040B - 融合不同传播模式的双流图卷积网络微博话题检测方法 - Google Patents
融合不同传播模式的双流图卷积网络微博话题检测方法 Download PDFInfo
- Publication number
- CN113870040B CN113870040B CN202111044665.9A CN202111044665A CN113870040B CN 113870040 B CN113870040 B CN 113870040B CN 202111044665 A CN202111044665 A CN 202111044665A CN 113870040 B CN113870040 B CN 113870040B
- Authority
- CN
- China
- Prior art keywords
- user
- topic
- user node
- matrix
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000009826 distribution Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 45
- 238000009792 diffusion process Methods 0.000 claims description 24
- 238000005096 rolling process Methods 0.000 claims description 19
- 238000005295 random walk Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 238000011423 initialization method Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000001427 coherent effect Effects 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000001537 neural effect Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012733 comparative method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000025721 COVID-19 Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种融合不同传播模式的双流图卷积网络微博话题检测方法,包括如下步骤:(1)根据用户交互关系构建用户级社交网络;(2)针对不同的传播模式,利用图卷积网络的消息传递机制,聚合每个用户节点的相关节点的属性信息,学习包含特定传播模式特征的用户节点嵌入表示;(3)将包含两种传播模式特征的用户节点嵌入表示拼接起来,利用变分自编码器中的编码器部分生成潜在话题向量与话题分布,利用解码器部分训练话题‑词分布,重构用户节点嵌入表示。本发明通过建模更加完整的社交上下文信息,学到了更好的用户节点嵌入表示,生成了更加连贯的话题。实验结果相较现有模型取得了更好的结果。
Description
技术领域
本发明涉及自然语言处理以及社会媒体数据挖掘技术领域,具体为一种融合不同传播模式的双流图卷积网络微博话题检测方法。
背景技术
随着推特和新浪微博等社交媒体的流行,互联网上每天都会产生无数的短文本。这些文本包含了用户的意见、观点等丰富的信息。人工分析这些帖子的内容是一项艰巨的任务,耗时耗力。话题模型是一种常见的自动分析海量文本的工具。它可以从文档中自动地检测话题,输出文档-话题分布和话题-词分布。传统的话题模型基于文档中丰富的词共现模式来推断话题。它们采用马尔可夫链蒙特卡罗(Markov chain Monte Carlo,MCMC)或期望最大化(Expectation-Maximum,EM)算法进行参数推断。这些方法在长文本上已经被证明是有效的。然而,由于短文本中缺乏足够的词共现模式,这些方法在社交媒体中的文本上表现较差。
为了解决上述问题,研究者提出了三种改进策略:(1)一些模型将短文本聚合起来捕获跨文档的词共现模式。聚合策略包括按照用户聚合、按照hashtag聚合等等。还有些模型直接建模语料库中无序的词对的共现模式。(2)一些研究侧重于表示学习和话题建模的结合,利用词嵌入技术来捕获文本中的语义信息。然而,上述两种方法都只考虑了社交网络中的内容信息。(3)一些方法在话题建模中集成静态网络结构信息,如社交网络中的关注关系。结构是对内容信息的补充,对社交媒体话题检测具有重要作用。然而,随着模型变得越来越复杂,贝叶斯推理变得难以处理。参数推断成为了限制话题检测发展的一大障碍。
神经变分推理(Neural variational inference,NVI)提供了一个强大的自动编码器框架。它用强大的神经网络代替了概率模型中繁重的推理工作,也促进了神经话题模型的发展。变分自动编码器(Variational auto-encoder,VAE)是最流行的应用。它以文档的词袋向量作为输入,经过推理网络和生成网络,输出文档的话题-词分布。在此基础上,又有模型在话题推断之前建模社交上下文,挖掘用户动态行为,学到了更好的节点嵌入表示。
上述方法尽管取得了不错的效果,然而在建模社交上下文时忽视了对传播特征的挖掘。一个话题在社交网络中有两种传播方式:宽度扩散和深度传播。(1)对于宽度扩散(中心式传播,从中心向四周扩散),话题以“从点到面”的方式渗透到低阶邻域中的每个用户个体。根据社会相关性理论,同一个社区内的好友会看到相同的话题,发布高度相关的内容。它们将具有更相似的属性。好友所发表的信息可以被视为个体信息的补充,以获取更完整信息。(2)对于深度传播(链式传播,从起始用户沿着传播链传播),话题以“从点到线”的方式到达各个社区或群体。由于这些社区的兴趣和背景不同,面对同一话题,他们将关注不同的方面。例如,对于COVID-19话题,一些群体或社区更关注其对人类社会的影响,有的更关注其疫苗的研制进展,另一些则更关注其病毒的可追溯性。沿着传播链,话题的焦点将继续变化。这些不同的内容可以构成更多样化的信息。宽度扩散和深度传播是两种不同的模式。如何在话题检测时对不同的传播模式进行综合建模是一个重要的问题。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种融合不同传播模式的双流图卷积网络微博话题检测方法。GCN在整合网络结构信息和内容信息方面已经被证明是有效的。本方法使用GCN来聚合社交网络中相关用户节点的信息。针对社交媒体中存在的不同话题传播模式,提出一种适用于用户级社交网络的双流图卷积网络模型。该模型建模不同的传播模式,以更好地建模社交上下文,学习更好的用户节点嵌入表示。最后引入变分自动编码器来融合两种传播模式的特征并推断更加连贯的话题。
本发明的目的是通过以下技术方案实现的:
一种融合不同传播模式的双流图卷积网络微博话题检测方法,包括以下步骤:
(1)根据社交网络中用户的交互关系,构建用户级社交网络;
(2)针对话题在社交网络中的两种传播模式,即宽度扩散和深度传播,利用双流图卷积网络,训练得到包含不同传播模式特征的用户节点嵌入表示;
(3)将包含不同传播模式特征的用户节点嵌入表示拼接起来,利用变分自编码器中的编码器生成潜在话题向量与话题分布,利用解码器训练话题-词分布矩阵并重构用户节点嵌入表示。
进一步的,步骤(1)具体包括:
根据用户之间的转发、评论关系,构建一个用户级的社交网络G=(V,E,T);其中,V={vi|1≤i≤n}是节点集合,vi代表社交网络中的用户i,n代表用户总数;E={eij|1≤i,j≤n}表示边的集合;如果vi所代表的用户i与vj所代表的用户j有过交互,则eij=1;如果vi所代表的用户i与vj所代表的用户j从未交互过,则eij=0;将用户发表的帖子作为用户节点的属性信息;T={t1,t2,...,tn}是帖子的集合,其中ti表示用户i发表的帖子的文本内容;为了初步缓解数据稀疏问题,将每个用户的所有帖子都聚合在一起,包括原始帖子、评论帖子和转发帖子;
根据用户交互关系,得到一阶邻接矩阵A;根据帖子集合T,将帖子中的每个词替换为其对应的词嵌入向量,得到属性矩阵X;由于每个用户的帖子长度不同,使用截断和填充方法标准化为相同的长度;词嵌入向量采用随机初始化的方法。
进一步的,步骤(2)具体包括:
利用双流图卷积网络学习包含不同传播模式特征的用户节点嵌入表示;对于宽度扩散模式,以用户级社交网络作为输入,使用两层图卷积网络GCN学习包含宽度扩散特征的用户节点嵌入表示:
其中I是对角线矩阵,对角线元素全为1;/>表示一阶邻接矩阵的度矩阵;X代表属性矩阵,/>和/>是图卷积网络的参数,使用ReLU作为激活函数,Aw=A;/>表示经过第一层GCN得到的用户节点嵌入表示,/>表示经过第二层GCN得到的用户节点嵌入表示,每个用户节点都会聚合一阶邻居节点的属性信息,得到/>中的用户节点嵌入表示包含了宽度扩散的特征;
对于深度传播模式,要计算高阶邻接矩阵Ad;首先对一阶邻接矩阵进行幂运算得到二阶、三阶,直到R阶邻接矩阵;在每次幂运算之前,将矩阵的对角线置为零,以避免出现环路现象;接着,将二阶、三阶、直到R阶邻接矩阵加起来,并减去一阶邻接矩阵,得到用户之间的高阶邻接矩阵,计算过程如公式(4)所示:
其中,diag_zero表示将对角线置为零;同样使用两层图卷积网络GCN学习包含深度传播特征的用户节点嵌入表示,邻接矩阵采用公式(4)计算得到的高阶邻接矩阵,属性矩阵X与宽度扩散模式中所使用的属性矩阵相同;具体公式如下:
其中I是对角线矩阵,对角线元素全为1;/>表示高阶邻接矩阵的度矩阵;/>和/>是图卷积网络的参数,使用ReLU作为激活函数;/>表示经过第一层GCN得到的用户节点嵌入表示,/>表示经过第二层GCN得到的用户节点嵌入表示;每个用户节点都会聚合高阶邻居节点的属性信息,得到/>中的用户节点嵌入表示包含了深度传播的特征;
图卷积网络GCN的损失函数采用无监督的双流损失函数;两种传播模式使用相同的损失函数公式,但有不同的输入;损失函数的公式如(8)(9)所示:
上述损失函数的目标是,给定用户vi,目标是将用户节点vi与用户节点vj∈Ni嵌入表示的相似度最大化;对于宽度扩散模式,Ni表示社交网络中直接相连的一阶邻居的集合;在该模式下,使中心节点与周围的一阶邻居节点的嵌入表示相似度最大;对于深度传播模式,首先进行随机游走,得到随机游走序列,Ni表示该随机游走序列上的用户节点;在该模式下,使游走序列起始节点与游走序列上的其他用户节点的嵌入表示的相似度最大;P(vj|υi)表示用户vi与用户vj相关节点的概率;V是用户节点的集合;vu代表社交网络中任一用户节点;hi表示第i个用户节点嵌入表示,hj表示第j个用户节点嵌入表示,hu表示第u个用户节点嵌入表示;将宽度扩散的损失函数与深度传播的损失函数相加,得到最终的双流图卷积网络的损失函数。
进一步的,步骤(3)具体包括:
将每个用户的两种用户节点嵌入表示拼接起来,如公式(10)所示;将拼接后的向量送入变分自编码器中的编码器部分;编码器为两层全连接网络,首先将拼接的用户节点嵌入表示映射到非线性空间,然后计算话题后验分布的均值和方差;
和/>分别表示包含宽度扩散特征和深度传播特征的用户节点嵌入表示;对应的潜在话题向量z通过重参数技巧z=μ+∈*σ计算得到,μ表示话题后验分布的均值,σ表示话题后验分布的标准差,∈∈N(0,I),表示从标准高斯分布中采样得到;将z通过线性变换与softmax函数得到话题分布θ=(p(t1|h),p(t2|h),...,p(tk|h)),h代表输入的用户节点嵌入表示,t1表示第一个话题,p(t1|h)表示出现第一个话题的概率;K代表话题总数;
接着,定义一个话题-词分布矩阵φword=(p(w|t1),p(w|t2),...,p(w|tK)),将话题-词分布矩阵随机初始化后作为变分自编码器中第一层解码器的参数;p(w|t1)代表第一个话题下各个词出现的概率;通过第二层解码器生成重构的用户节点嵌入表示;第二层解码器采用全连接层,ReLU作为激活函数;
损失函数如下所示,由重构误差项Ez~p9z|h)[logp(h|z)]和KL散度项KL[p(z|h)|q(z)]组成;p(z|h)表示话题后验分布的概率密度函数;p(h|z)表示根据z重构h的概率;q(z)是标准高斯分布,即q(z)~N(0,I);
lossV=KL[p(z|h)q|(z)]-Ez~p(z|h)[logp(h|z)] (11)
将双流图卷积网络的损失函数与变分自编码器的损失函数相加,联合训练图卷积网络与变分自编码器,得到最终的损失函数,如下所示:
L=lossG+lossV (12)。
与现有技术相比,本发明的技术方案所带来的有益效果是:
(1)为了缓解社交媒体中帖子简短且表达不正式的问题,本发明方法同时考虑了帖子内容和社交网络结构信息,建模更加完整的社交上下文。
(2)为了综合建模话题在社交网络上不同的传播模式,本发明方法提出双流图卷积网络模型,分别学习包含宽度扩散特征以及深度传播特征的用户节点嵌入表示。。
(3)为训练双流图卷积网络,本发明方法设计了双流损失函数,分别对用不同传播模式的建模,训练得到用户节点嵌入表示。
(4)为了生成更加连贯的话题,本发明方法将包含两种传播模式特征的用户节点嵌入表示拼接起来,融合不同的传播模式,得到话题在社交网络中更加全面的信息。输入到变分自编码器中,利用神经网络的强大能力,推断连贯性得分更高的话题。
(5)在真实的新浪微博数据集上的实验结果表明本发明方法的有效性,并证明了建模话题不同的传播模式对微博话题检测的有效性。
附图说明
图1为通过本发明方法提供的融合不同传播模式的双流图卷积微博话题模型框架示意图。按照本发明方法其组成框架依次为用户级社交网络、双流图卷积网络模块和基于变分自编码器的话题推断模块。
图2为双流图卷积网络模块中损失函数的示意图。
图3为模型的评价指标连贯性得分在随机游走序列长度取不同值时的变化情况。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以新浪微博数据集为例给出本发明的具体实施方法,该方法的整体框架如图1和图2所示。整个算法流程包含构建用户级社交网络、双流图卷积网络模块、基于变分自编码器的话题推断模块三个步骤。
具体步骤如下:
(1)构建用户级社交网络:
本发明使用公开的新浪微博数据集。该数据集收集了2014年5月、6月和7月三个月份的涵盖50个热门话题的相关微博。本发明以这三个月的数据集为原始语料,并按照以下步骤来构建用户级社交网络:1)过滤删除没有转发或评论关系的用户;2)将用户的所有帖子都拼接在一起,作为该用户的帖子文本;3)根据用户之间的交互关系构建网络,若两个用户之间存在交互,则两个用户节点之间存在边,相反则不存在。用户的帖子文本作为社交网络中用户节点的属性信息。图1左侧用户级社交网络部分展示了根据转发和评论关系构建的用户级对话网络。
表1展示了三个月数据集的统计信息,具体如下:5月数据集共包括8907个用户,10435次交互,词表大小为5914;6月数据集共包括19293个用户,35962次交互,词表大小为9368;7月数据集共包括16990个用户,20971次交互,词表大小为9663。
表1微博数据集统计信息
(2)双流图卷积网络模块:
利用两个平行的图卷积网络学习用户节点嵌入表示。对于宽度扩散模式,使用一阶邻接矩阵Aw和属性矩阵X作为输入。通过消息传递机制,每个用户节点会聚合周围一阶邻居节点的属性信息,用户节点嵌入表示包含了宽度扩散的特征。对于深度传播模式,以高阶邻接矩阵Ad和属性矩阵X作为输入。通过消息传递机制,每个用户节点会聚合高阶邻居用户的属性信息,用户节点嵌入表示中包含了深度传播的特征。双流损失函数以下面的公式所示,对于宽度扩散模式,使得中心节点与周围用户节点的嵌入表示的相似度更大,对于深度传播模式,使得起始节点与传播链上用户节点的嵌入表示相似度更大。
(3)基于变分自编码器的话题推断模块:
将每个用户的两种用户节点嵌入表示拼接起来。将拼接后的向量送入变分自编码器中的编码器部分。编码器为全连接网络,首先将拼接的用户节点嵌入表示映射到非线性空间,然后计算话题后验分布的均值和方差,过程如下公式所示:
e=f(Weh+be)
μ=Wue+bu logσ2=Wσe+bσ
其中,和/>分别表示包含宽度扩散特征和深度传播特征的用户节点嵌入表示。We,Wμ以及Wσ是编码器参数,be,bμ以及bσ是编码器的偏差,μ是话题后验分布的均值,σ2是话题后验分布的方差。对应的潜在语义向量z通过重参数技巧z=μ+∈*σ计算得到,∈∈N(0,I),表示从标准高斯分布中采样得到。
将z通过线性变换与softmax函数得到话题分布θ=(p(t1|h),p(t2|h),...,p(tk|h)),h代表输入的用户节点嵌入表示,t1表示第一个话题,p(t1|h)表示出现第一个话题的概率。K代表话题总数,如下公式所示:
θ=softmax(Wθz)
其中,Wθ是神经网络的参数。接着,将话题-词分布φword=(p(w|t1),p(w|t2),...,p(w|tK))作为变分自编码器中第一层解码器的参数。p(w|t1)代表第一个话题下各个词出现的概率。通过第二层解码器生成重构的用户节点嵌入表示。第二层解码器采用全连接层,ReLU作为激活函数。如下公式所示:
d=softmax(φword×θ)
h′=f(Wdd+bd)
其中,d表示每个用户节点的属性信息中出现各个词的概率值,h′表示解码器重构的用户节点嵌入表示。损失函数定义如下所示,由重构误差项Ez~p(z|h)[logp(h|z)]和KL散度项KL[p(z|h)|q(z)]组成。根据采样得到的潜在变量重构得到原始的用户节点嵌入表示,KL散度项衡量先验分布与后验变分分布的近似程度。q(z)是标准高斯分布,即q(z)~N(0,I)。
lossV=KL[p(z|h)|q(z)]-Ez~p(z|h)[logp(h|z)]
将双流图卷积网络模块的损失函数与话题推断模块的损失函数相加,得到该方法损失函数,联合训练双流图卷积网络与变分自编码器,如下所示:
L=lossG+lossV
在具体实施过程中,首先对每个用户节点的帖子文本进行预处理。经过聚合,每个用户的帖子文本将包含50个词。在双流图卷积网络中,将隐藏层的维度设置为400和200,学习率设置为0.01。为了防止过拟合,采用了dropout。在话题推断模块,第一层编码器的维度设置为200,学习速率被设置为0.01。同样使用了dropout以避免过拟合。
为了验证本发明方法的有效性,将本发明方法(DGTM)与当前先进并具有代表性的方法(BAT[1]、BTM[2]、LCTM[3]、LeadLDA[4]、AdjEnc[5]、IATM[6])以及本发明方法的两个变体(DGTM(remove wide)、DGTM(remove deep))进行比较。
BAT探索了双向对抗训练在神经话题模型中的应用。它是为长文档设计的,在应用于短文本时面临严重的数据稀疏性。
BTM通过直接建模整个语料库中词对的生成来学习话题。
LCTM通过建模潜在概念的共现模式来揭示话题,这些潜在概念用来捕获词汇的概念相似性。
LeadLDA将帖子区分为领导者帖子和跟随者帖子,并认为到领导者信息和跟随者帖子包含关键话题词的不同程度。
AdjEnc在学术论文、网页等结构化长文档中将网络结构引入了话题推理。
IATM建模了动态交互,以学习交互感知的边嵌入,利用神经变分推理生成话题。
DGTM(remove wide)去除宽度扩散模式的建模,只保留深度传播模式。
DGTM(remove deep)去除深度传播模式的建模,只保留宽度扩散模式。
模型性能的评价指标采用话题连贯性(Topic coherence),公式如下:
表2,3,4分别展示了本方法和所有比较方法在三个月微博数据集上的话题连贯性结果。对每个数据集,分别记录了话题数K=50,100时所推断话题的前10(N=10),15(N=15),20(N=20)个词的连贯性得分。话题连贯性越高表示该模型性能越好。
表2本发明方法与比较方法在5月数据集上的性能比较
表3本发明方法与比较方法在6月数据集上的性能比较
表4本发明方法与比较方法在7月数据集上的性能比较
从表2,3,4的话题连贯性结果可以看出,建模话题在社交网络中不同的传播模式,可以整合更完整的社交上下文信息,话题连贯性得到了进一步的提升。为了进一步研究随机游走序列长度对话题连贯性的影响,图3展示了本发明方法在五月份数据集上话题连贯性分数随着随机游走长度变化而变化的情况。
以上内容旨在示意性地说明本发明的技术方案,本发明并不限于上文描述的实施方式。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]Rui Wang,Xuemeng Hu,Deyu Zhou,Yulan He,Yuxuan Xiong,Chenchen Ye,and Haiyang Xu.2020.Neural Topic Modeling with Bidirectional AdversarialTraining.In Proceedings of the58th Annual Meeting of the Association forComputational Linguistics.340–350.
[2]Xiaohui Yan,Jiafeng Guo,Yanyan Lan,and Xueqi Cheng.2013.A bitermtopic model for short texts.In In Proceedings of the 22nd internationalconference on World Wide Web.ACM,1445–1456.
[3]Weihua Hu and Jun’ichi Tsujii.2016.A Latent Concept Topic Modelfor Robust Topic Inference Using Word Embeddings.In Proceedings of the 54thAnnual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers).380–386.
[4]Jing Li,Ming Liao,Wei Gao,Yulan He,and Kam-Fai Wong.2016.TopicExtraction from Microblog Posts Using Conversation Structures.In Proceedingsof the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2114–2123.
[5]Ce Zhang and Hady W.Lauw.2020.Topic Modeling on Document Networkswith Adjacent-Encoder.Proceedings of the AAAI Conference on ArtificialIntelligence 34,04(2020),6737–6745.
[6]Ruifang He,Xuefei Zhang,Di Jin,Longbiao Wang,Jianwu Dang,andXiangang Li.2018.Interaction-Aware Topic Model for Microblog Conversationsthrough Network Embedding and User Attention.In Proceedings of the 27thInternational Conference on Computational Linguistics.1398–1409.
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (3)
1.一种融合不同传播模式的双流图卷积网络微博话题检测方法,其特征在于,包括以下步骤:
(1)根据社交网络中用户的交互关系,构建用户级社交网络;
(2)针对话题在社交网络中的两种传播模式,即宽度扩散和深度传播,利用双流图卷积网络,训练得到包含不同传播模式特征的用户节点嵌入表示;具体包括:
利用双流图卷积网络学习包含不同传播模式特征的用户节点嵌入表示;对于宽度扩散模式,以用户级社交网络作为输入,使用两层图卷积网络GCN学习包含宽度扩散特征的用户节点嵌入表示:
其中I是对角线矩阵,对角线元素全为1;/>表示一阶邻接矩阵的度矩阵;X代表属性矩阵,/>和/>是图卷积网络的参数,使用ReLU作为激活函数,Aw=A;/>表示经过第一层GCN得到的用户节点嵌入表示,/>表示经过第二层GCN得到的用户节点嵌入表示,每个用户节点都会聚合一阶邻居节点的属性信息,得到/>中的用户节点嵌入表示包含了宽度扩散的特征;
对于深度传播模式,要计算高阶邻接矩阵Ad;首先对一阶邻接矩阵进行幂运算得到二阶、三阶,直到R阶邻接矩阵;在每次幂运算之前,将矩阵的对角线置为零,以避免出现环路现象;接着,将二阶、三阶、直到R阶邻接矩阵加起来,并减去一阶邻接矩阵,得到用户之间的高阶邻接矩阵,计算过程如公式(4)所示:
其中,diag_zero表示将对角线置为零;同样使用两层图卷积网络GCN学习包含深度传播特征的用户节点嵌入表示,邻接矩阵采用公式(4)计算得到的高阶邻接矩阵,属性矩阵X与宽度扩散模式中所使用的属性矩阵相同;具体公式如下:
其中I是对角线矩阵,对角线元素全为1;/>表示高阶邻接矩阵的度矩阵;和/>是图卷积网络的参数,使用ReLU作为激活函数;/>表示经过第一层GCN得到的用户节点嵌入表示,/>表示经过第二层GCN得到的用户节点嵌入表示;每个用户节点都会聚合高阶邻居节点的属性信息,得到/>中的用户节点嵌入表示包含了深度传播的特征;
图卷积网络GCN的损失函数采用无监督的双流损失函数;两种传播模式使用相同的损失函数公式,但有不同的输入;损失函数的公式如(8)(9)所示:
上述损失函数的目标是,给定用户vi,目标是将用户节点vi与用户节点vj∈Ni嵌入表示的相似度最大化;对于宽度扩散模式,Ni表示社交网络中直接相连的一阶邻居的集合;在该模式下,使中心节点与周围的一阶邻居节点的嵌入表示相似度最大;对于深度传播模式,首先进行随机游走,得到随机游走序列,Ni表示该随机游走序列上的用户节点;在该模式下,使游走序列起始节点与游走序列上的其他用户节点的嵌入表示的相似度最大;P(vj|vi)表示用户vi与用户vj相关节点的概率;V是用户节点的集合;vu代表社交网络中任一用户节点;hi表示第i个用户节点嵌入表示,hj表示第j个用户节点嵌入表示,hu表示第u个用户节点嵌入表示;将宽度扩散的损失函数与深度传播的损失函数相加,得到最终的双流图卷积网络的损失函数;
(3)将包含不同传播模式特征的用户节点嵌入表示拼接起来,利用变分自编码器中的编码器生成潜在话题向量与话题分布,利用解码器训练话题-词分布矩阵并重构用户节点嵌入表示。
2.根据权利要求1所述一种融合不同传播模式的双流图卷积网络微博话题检测方法,其特征在于,步骤(1)具体包括:
根据用户之间的转发、评论关系,构建一个用户级的社交网络G=(V,E,T);其中,V={vi|1≤i≤n}是节点集合,vi代表社交网络中的用户i,n代表用户总数;E={eij|1≤i,j≤n}表示边的集合;如果vi所代表的用户i与vj所代表的用户j有过交互,则eij=1;如果vi所代表的用户i与vj所代表的用户j从未交互过,则eij=0;将用户发表的帖子作为用户节点的属性信息;T={t1,t2,…,tn}是帖子的集合,其中ti表示用户i发表的帖子的文本内容;为了初步缓解数据稀疏问题,将每个用户的所有帖子都聚合在一起,包括原始帖子、评论帖子和转发帖子;
根据用户交互关系,得到一阶邻接矩阵A;根据帖子集合T,将帖子中的每个词替换为其对应的词嵌入向量,得到属性矩阵X;由于每个用户的帖子长度不同,使用截断和填充方法标准化为相同的长度;词嵌入向量采用随机初始化的方法。
3.根据权利要求1所述一种融合不同传播模式的双流图卷积网络微博话题检测方法,其特征在于,步骤(3)具体包括:
将每个用户的两种用户节点嵌入表示拼接起来,如公式(10)所示;将拼接后的向量送入变分自编码器中的编码器部分;编码器为两层全连接网络,首先将拼接的用户节点嵌入表示映射到非线性空间,然后计算话题后验分布的均值和方差;
和/>分别表示包含宽度扩散特征和深度传播特征的用户节点嵌入表示;对应的潜在话题向量z通过重参数技巧z=μ+∈*σ计算得到,μ表示话题后验分布的均值,σ表示话题后验分布的标准差,∈∈N(0,I),表示从标准高斯分布中采样得到;将z通过线性变换与softmax函数得到话题分布θ=(p(t1|h),p(t2|h),…,p(tk|h)),h代表输入的用户节点嵌入表示,t1表示第一个话题,p(t1|h)表示出现第一个话题的概率;K代表话题总数;
定义一个话题-词分布矩阵φword=(p(w|t1),p(w|t2),…,p(w|tK)),将话题-词分布矩阵随机初始化后作为变分自编码器中第一层解码器的参数;p(w|t1)代表第一个话题下各个词出现的概率;通过第二层解码器生成重构的用户节点嵌入表示;第二层解码器采用全连接层,ReLU作为激活函数;
损失函数如下所示,由重构误差项Ez~p(z|h)[log p(h|z)]和KL散度项KL[p(z|h)|q(z)]组成;p(z|h)表示话题后验分布的概率密度函数;p(h|z)表示根据z重构h的概率;q(z)是标准高斯分布,即q(z)~N(0,I);
lossV=KL[p(z|h)|q(z)]-Ez~p(z|h)[logp(h|z)] (11)
将双流图卷积网络的损失函数与变分自编码器的损失函数相加,联合训练图卷积网络与变分自编码器,得到最终的损失函数,如下所示:
L=lossG+lossV (12)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111044665.9A CN113870040B (zh) | 2021-09-07 | 2021-09-07 | 融合不同传播模式的双流图卷积网络微博话题检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111044665.9A CN113870040B (zh) | 2021-09-07 | 2021-09-07 | 融合不同传播模式的双流图卷积网络微博话题检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113870040A CN113870040A (zh) | 2021-12-31 |
CN113870040B true CN113870040B (zh) | 2024-05-21 |
Family
ID=78994672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111044665.9A Active CN113870040B (zh) | 2021-09-07 | 2021-09-07 | 融合不同传播模式的双流图卷积网络微博话题检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113870040B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114741515B (zh) * | 2022-04-25 | 2024-07-26 | 西安交通大学 | 基于图生成的社交网络用户属性预测方法及*** |
CN117610717B (zh) * | 2023-11-13 | 2024-08-02 | 重庆大学 | 一种基于双变分级联自编码器的信息流行度预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN106991673A (zh) * | 2017-05-18 | 2017-07-28 | 深思考人工智能机器人科技(北京)有限公司 | 一种可解释性的宫颈细胞图像快速分级识别方法及*** |
CN112199607A (zh) * | 2020-10-30 | 2021-01-08 | 天津大学 | 基于可变邻域内平行社交上下文融合的微博主题挖掘方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552613B2 (en) * | 2014-01-27 | 2017-01-24 | Facebook, Inc. | Label inference in a social network |
-
2021
- 2021-09-07 CN CN202111044665.9A patent/CN113870040B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN106991673A (zh) * | 2017-05-18 | 2017-07-28 | 深思考人工智能机器人科技(北京)有限公司 | 一种可解释性的宫颈细胞图像快速分级识别方法及*** |
CN112199607A (zh) * | 2020-10-30 | 2021-01-08 | 天津大学 | 基于可变邻域内平行社交上下文融合的微博主题挖掘方法 |
Non-Patent Citations (2)
Title |
---|
刘冰玉 ; 王翠荣 ; 王聪 ; 王军伟 ; 王兴伟 ; 黄敏.基于动态主题模型融合多维数据的微博社区发现算法.软件学报.28(2),全文. * |
郭瑞强 ; 郭阿为 ; 韩忠明 ; 周萌 ; 张伟.网络热点话题传播的脉冲时序行为动力模型.计算机工程与应用.51(16),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113870040A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113870040B (zh) | 融合不同传播模式的双流图卷积网络微博话题检测方法 | |
Yang et al. | From properties to links: Deep network embedding on incomplete graphs | |
CN111914185B (zh) | 一种基于图注意力网络的社交网络中文本情感分析方法 | |
CN111538848A (zh) | 一种融合多源信息的知识表示学习方法 | |
Chen et al. | Visual and textual sentiment analysis using deep fusion convolutional neural networks | |
CN109033069A (zh) | 一种基于社会媒体用户动态行为的微博主题挖掘方法 | |
Zheng et al. | Heterogeneous graph neural networks to predict what happen next | |
Jia et al. | OpenKN: An open knowledge computational engine for network big data | |
CN112199607A (zh) | 基于可变邻域内平行社交上下文融合的微博主题挖掘方法 | |
Liu et al. | AMFF: A new attention-based multi-feature fusion method for intention recognition | |
Chien et al. | Hierarchical and self-attended sequence autoencoder | |
Pan et al. | Unsupervised attributed network embedding via cross fusion | |
Dritsas et al. | An apache spark implementation for graph-based hashtag sentiment classification on twitter | |
Wan et al. | A novel rumor detection with multi-objective loss functions in online social networks | |
Wang et al. | Multimodal graph convolutional networks for high quality content recognition | |
Xu et al. | Adversarial attacks on text classification models using layer‐wise relevance propagation | |
Richardson et al. | Integrating summarization and retrieval for enhanced personalization via large language models | |
Chen et al. | A Neural Inference of User Social Interest for Item Recommendation | |
Hou et al. | Identification of Chinese dark jargons in Telegram underground markets using context-oriented and linguistic features | |
Wei et al. | Analysis of information dissemination based on emotional and the evolution life cycle of public opinion | |
He et al. | Interaction-aware topic model for microblog conversations through network embedding and user attention | |
Yang et al. | A model for early rumor detection base on topic-derived domain compensation and multi-user association | |
Hu et al. | An association rule-based bilateral multi-issue negotiation model | |
Sharma et al. | Hyperedge2vec: Distributed representations for hyperedges | |
CN113870041B (zh) | 一种基于消息传递和图先验分布的微博话题检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |