CN113870041A

CN113870041A - 一种基于消息传递和图先验分布的微博话题检测方法

Info

Publication number: CN113870041A
Application number: CN202111052898.3A
Authority: CN
Inventors: 贺瑞芳; 王浩成; 刘焕宇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-31
Anticipated expiration: 2041-09-07
Also published as: CN113870041B

Abstract

本发明公开一种基于消息传递和图先验分布的微博话题检测方法，包括如下步骤：(1)以微博语料为基础，根据用户间的交互关系构建用户级的社交网络；(2)基于消息传递的用户节点嵌入表示：利用图卷积网络，整合社交媒体中帖子的内容信息与结构信息，将用户间的交互关系嵌入到用户节点嵌入表示中；(3)基于图先验变分自编码器的话题生成：将整合了用户交互关系的用户节点嵌入表示作为输入，将变分自编码器的标准高斯先验分布替换为包含用户交互的图先验分布，在话题推断过程中考虑用户间的相关性。总体而言，从用户节点嵌入表示和话题推断两阶段整合用户交互。本方法检测的话题更好地关注了用户间的相关性，得到了更高的连贯性。

Description

一种基于消息传递和图先验分布的微博话题检测方法

技术领域

本发明涉及自然语言处理以及社会媒体数据挖掘技术领域，具体为一种基于消息传递和图先验分布的微博话题检测方法。

背景技术

互联网的快速发展给我们的生活带来了巨大的进步。社交媒体的流行使得我们每个人都有平台可以发表自己的意见与观点。由此每天都会产生大量的短文本，分析它们中的话题是一项重要的任务，但人工进行分析费时费力。话题模型可以自动地提取文档-话题分布与话题-词分布，帮助快速人们分析文本，掌握文本信息。

传统的话题模型，如LDA，被广泛用于从文本语料库中发现潜在的话题。本质上，这些方法通过隐式地捕捉词共现模式来揭示潜在的话题。然而，当它们应用于简短的帖子上时，会面临严重的数据稀疏问题(即稀疏的帖子级词共现模式)。

为了解决上述问题，已有一些成功的研究：(1)基于聚合的方法：一些研究基于启发式的策略将多个帖子聚合起来。聚合策略包括基于作者关系聚合，基于对话关系聚合等等；BTM等方法直接建模biterms(即词对)的生成过程。(2)基于表示学习的方法：有的方法通过建模潜在概念的共现模式来揭示话题，还有的方法有效地融合了词的上下文信息。(3)基于社交上下文的方法：这类方法联合建模文本信息和社交网络结构信息。它建模社交网络结构，并将消息分为领导者消息或追随者消息。然而，学习概率生成模型的标准方法，如变分技术(Variational techniques)和吉布斯采样(Gibbs sampling)，在后验推理时都具有很高的计算复杂度，阻碍了这些方法应用于复杂的社交媒体场景。

变分自编码器(Variational auto-encoder，VAE)能够识别数据的结构并学习其潜在分布，是话题检测的常用的参数推理框架。NVDM是一种典型的基于VAE的话题模型。它将每个文档独立地输入推理网络，计算话题后验分布的均值和方差。然后从后验变分分布中提取潜在话题向量。最后通过生成网络重构输入文档。但它是为长文档设计的，对于社交媒体话题检测，IATM是经典的基于VAE的神经话题模型。它输入多个短帖子，通过挖掘用户动态交互来学习社交网络中的边嵌入表示。边嵌入表示也被独立地输入到VAE中，以推断语料级别的话题-词分布。本质上，IATM在VAE的基础上整合了表示学习和社会上下文。

虽然前面方法将用户交互嵌入到边表示中，但是VAE假设每个数据点是独立的。因此，在计算潜在语义向量时削弱了用户或帖子之间的相关性。在社交网络中，交互可能意味着的相关关系或兴趣。潜在语义向量对于话题推理是至关重要的。因此将用户间的交互特征整合到潜在语义向量中更为合理。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于消息传递和图先验分布的微博话题检测方法。从用户节点嵌入表示和话题推理两个阶段考虑社交媒体中的用户交互信息。在用户节点嵌入表示阶段，利用图卷积网络学习融合社交网络结构信息和帖子消息内容信息的用户节点嵌入表示，同时将用户的交互关系嵌入用户节点嵌入表示中。在话题推理阶段，引入图先验分布，将交互关系融入到VAE的先验分布中，使得用户的潜在话题向量中包含了交互关系。最终VAE推理得到考虑用户相关性的话题分布，得到连贯性更高的话题。

本发明的目的是通过以下技术方案实现的：

一种基于消息传递和图先验分布的微博话题检测方法，其特征在于，包括以下步骤：

(1)构建用户级社交网络：以用户为网络节点，以交互关系为网络中的边；

(2)通过消息传递机制编码用户交互关系：引入图神经网络，利用消息传递机制，整合社交媒体中帖子的内容信息与结构信息，将用户间的交互关系嵌入到用户节点嵌入表示中；

(3)基于图先验变分自编码器的话题生成：将整合了用户交互关系的用户节点嵌入表示作为输入，将采用标准高斯分布作为先验分布的变分自编码器(VAE)中的标准高斯先验替换为包含用户交互关系的图先验分布，在话题推断过程中考虑用户间的相关性。

进一步的，步骤(1)具体包括：

根据用户之间的转发、评论关系，构建一个用户级的社交网络G＝(V，E，T)；其中，V＝{v_i|1≤i≤n}是节点集合，v_i代表社交网络中第i个用户，n表示用户数量；E＝{e_ij|1≤i，j≤n}是边的集合，如果v_i所代表的用户i与v_j所代表的用户j有交互，则e_ij＝1；如果v_i所代表的用户i与v_j所代表的用户j从未交互过，则e_ij＝0；用户所发表的帖子作为用户节点的属性信息；T＝{t₁，t₂，...，t_n}是帖子的集合，其中每个帖子t_i表示第i个用户的帖子的内容；为缓解数据稀疏性，采用基于用户的聚合策略，聚合用户的所有帖子，包括源帖子、转发帖子、回复消息；根据用户之间的交互关系，得到用户级社交网络的邻接矩阵A；根据帖子集和T，将帖子中每个词替换为其对应的词嵌入表示，得到每个用户的属性向量，从而得到社交网络的属性矩阵X；每个词对应的词嵌入表示通过随机初始化得到。

进一步的，步骤(2)具体包括：

使用网络嵌入技术学习用户节点嵌入表示；社交网络中每个帖子都很短而且表达不正式，因此帖子的表示学习十分重要。仅使用词袋(Bag of Words，BoW)向量作为用户节点的表示会面临数据稀疏问题，影响话题推理的性能。根据社会相关性理论，好友间关注的是更相似的内容。因此，通过建模社交网络中的用户交互以缓解数据的稀疏性；考虑图卷积网络GCN聚合周围节点信息的能力，利用图卷积网络GCN对好友间的交互行为进行建模，并学习用户节点嵌入表示；具体来说，该微博话题检测方法采用两层GCN，如下公式所示：

其中

I表示对角线矩阵，对角线元素全为1；

表示邻接矩阵的度矩阵；X代表属性矩阵；W¹和W²是图卷积网络的参数；使用ReLU作为激活函数，H²是社交网络中所有用户节点嵌入表示构成的矩阵；

话题检测是一个无监督的方法，所以图卷积网络没有标签用于训练。本微博话题检测方法使用无监督的损失函数，如下公式所示：

给定用户v_i，目标是使用户v_i与其相关用户节点v_j∈N_i的相似度最大化；这里的相关用户节点是指在社交网络中存在边直接相连的一阶邻居集合N_i中的用户节点；在公式(5)中，h_i是H2中用户节点i的嵌入表示，h_j是H2中用户节点j的嵌入表示，h_u是H²中用户节点u的嵌入表示，v_u∈V表示社交网络中所有用户节点。

基于GCN的消息传递机制，将一阶邻居用户的相关内容传播到相连的用户属性中，弥补了单个用户的数据稀疏性；同时，相连节点的用户节点嵌入表示之间的相似度更高，进一步保留了社交网络中好友的相关性。

进一步的，步骤(3)具体包括：

步骤(2)将用户之间的交互关系编码到用户节点嵌入表示中，并作为步骤(3)中图先验变分自编码器的输入；采用标准高斯分布作为先验分布的变分自编码器包含编码器和解码器两部分，其中编码器计算话题后验分布的均值和方差，并通过重参数技巧从话题后验分布中采样得到话题向量，经过softmax得到话题分布；每个用户节点嵌入表示再由解码器重构得到；

采用标准高斯分布作为先验分布的变分自编码器能够从独立的长文档中推断出潜在的话题；而对于多用户输入的情况，它假设用户是独立的，这削弱了话题推断过程中用户之间的相关性。VAE中的先验分布采用标准的高斯分布，这导致了数据点的独立性。本微博话题检测方法先构造一个图先验分布来代替标准高斯分布；该图先验分布包含了用户交互关系，使得每个用户的话题向量服从社交网络中用户间对应的交互关系。图先验分布如下公式所示：

其中，z_i和z_j是用户v_i，v_j的潜在话题向量，p_s(z_i)使用标准高斯分布；

采用如下形式：

α是超参数，I表示对角线矩阵；基于图先验分布，得出图先验变分自编码器新的变分下界，如下公式所示：

其中，变分分布q(z_i，z_j|h_i，h_j)采用如下形式：

其中，μ_i，μ_j和

是变分分布的均值和方差；c_ij是z_i和z_j的相关系数；最终的损失函数的公式如下所示：

从损失函数得到图先验变分自编码器由以下三部分组成：1)一个变分网络，它以用户节点嵌入表示[h_i]作为输入，计算均值μ_i和方差

2)相关性编码网络，以成对的用户节点对[h_i，h_j]作为输入，计算两个用户潜在话题向量的相关系数c_ij；3)生成网络，与采用标准高斯分布作为先验分布的变分自编码器一样，以潜变量z_i为输入重构原始的用户节点嵌入表示得到h′_i。总体而言，该方法从用户节点嵌入表示和话题推理两个阶段保留了用户之间的交互，考虑了好友之间的相关性，从而得到更为连贯的话题。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.为缓解社交媒体话题检测中的数据稀疏问题，本发明方法同时考虑帖子文本内容与社交网络结构，整合用户交互关系。将结构信息作为补充，丰富了社交网络中的上下文信息；

2.为引入用户相关性，从用户节点嵌入表示和话题推理两阶段整合用户交互关系。在社交媒体话题检测的全周期内综合考虑用户相关性；

3.在用户节点嵌入表示阶段，利用图卷积网络的消息传递机制，一方面可以聚合每个用户周围好友用户的信息，缓解稀疏性；另一方面可以将社交网络结构整合到用户节点嵌入表示中，在用户节点嵌入表示中保留用户交互关系；

4.在话题推理阶段，使用基于图先验的变分自编码器进行话题推理。与传统的变分自编码器VAE不同的是，本发明方法利用图先验分布代替标准高斯分布。图先验分布将用户交互考虑进来，用户的潜在话题向量服从用户之间的交互结构。最终推断的话题具有更好的连贯性。

5.在三个月的新浪微博数据集的实验结果充分表明本发明方法的有效性，并证明了引入图先验分布对于微博话题挖掘的有效性。

附图说明

图1是本发明方法的流程示意图

图2a是使用标准高斯分布作为先验的标准变分自编码器推断的话题向量可视化图；图2b是使用图先验的变分自编码器推断的话题向量可视化图。

图3是具体实施方式中评价指标话题连贯性随图先验分布的参数α的变化情况。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以3个月的真实微博数据集为例给出本发明的具体实施方法。整个***算法流程构建用户级社交网络、基于消息传递的用户节点嵌入表示、基于图先验变分自编码器的话题生成的三个步骤，见图1。具体步骤如下：

S1.构建用户级社交网络：

前人工作在新浪微博上收集了2014年5月、6月和7月三个月份的涵盖50个热门话题的相关微博。本实施例以该微博语料为基础，构建用户级的社交网络。具体步骤包括：1)过滤没有转发或评论关系的用户；2)将用户的所有帖子都拼接在一起，作为该用户的属性信息；3)根据用户之间的交互关系，若两个用户之间存在交互关系，则两个用户节点之间存在边，相反则不存在。用户的帖子文本作为社交网络中用户节点的属性信息。

表1展示了三个月数据集的统计信息，具体如下：5月数据集共包括8907个用户，10435次交互，词表大小为5914；6月数据集共包括19293个用户，35962次交互，词表大小为9368；7月数据集共包括16990个用户，20971次交互，词表大小为9663。

表1微博数据集统计信息

S2.基于消息传递的用户节点嵌入表示：

仅使用词袋(Bag of Words，BoW)向量作为用户节点的表示会面临数据稀疏问题，影响话题推理的性能。因为每个帖子都很短并且表达不正式，因此社交网络中帖子的表示学习十分重要。考虑到图卷积网络聚合周围节点信息的能力，利用两层GCN对好友间的交互行为进行建模，并学习用户节点嵌入表示。基于GCN的消息传递机制，将邻居用户的相关内容传播到相连的用户属性中，弥补了单个用户的数据稀疏性。同时，相连节点的用户节点嵌入表示之间的相似度更高，进一步保留了社交网络中好友的相关性。该步骤的损失函数如下公式所示：

S3.基于图先验变分自编码器的话题生成：

以用户节点嵌入表示作为输入，利用变分自编码器推断话题。变分自编码器包含编码器和解码器两部分，其中编码器计算话题后验分布的均值和方差，如下公式所示：

μ_i＝MLP(h_i)

其中，h_i表示第i个用户节点嵌入表示，μ_i，

分别表示均值与方差。MLP代表多层感知机(Multi-Layer Perceptron，MLP)。通过重参数技巧z_i＝μ_i+∈*σ_i可以从后验分布中采样得到潜在话题向量z_i。话题分布θ＝(p(t₁|h)，p(t₂|h)，...，p(t_k|h))可以通过softmax函数得到：

θ_i＝softmax(z_i)

其中，h代表输入的用户表示，t₁表示第一个话题，p(t₁|h)表示出现第一个话题的概率。K代表话题总数。每个用户节点嵌入表示再由解码器网络重构得到，解码器也选择MLP。解码器的参数W即为语料库的话题-词分布φ_word＝(p(w|t₁)，p(w|t₂)，...，p(w|t_K))。具体公式如下：

d_i＝softmax(θ_iW)

h′_i＝f(W_dd_i+b_d)

其中，p(w|t₁)代表第一个话题下各个词出现的概率。d_i代表每个用户节点的属性信息中出现各个词的概率值。W_d表示神经网络的参数，b_d表示神经网络的偏差。h′_i表示解码器重构的用户节点嵌入表示。

以标准高斯分布为先验分布的变分自编码器可以从独立的长文档中推断出潜在的话题。而对于多用户输入的情况，它假设用户是独立的，这削弱了话题推断过程中用户之间的相关性。本发明先构造一个图先验分布来代替标准高斯。该先验分布包含了用户交互关系，使得每个用户的话题向量服从社交网络中用户间的对应关系。然后根据新的变分下界计算损失函数，具体的损失函数的公式如下：

公式中符号的含义如前文所述。

在具体实施过程中，首先对每个用户节点的帖子文本进行预处理。经过聚合，每个用户的帖子文本将包含50个单词。随机初始化单词嵌入并将其维数设置为200。在GCN中，隐藏层的维数设置为200。在变分自编码器中，第一层编码器的维数设置为200。学习率设置为0.001。本方法在GCN和相关VAE中都采用了dropout以避免过拟合。Adam用于优化各模块的损失函数。

为了验证本发明方法的有效性，将本发明方法(MGTM)与当前先进并具有代表性的方法(BAT^[1]、BTM^[2]、LCTM^[3]、LeadLDA^[4]、AdjEnc^[5]、IATM^[6])以及本发明方法的变体(MGTM(Standard Gaussian))进行比较。

BAT探索了双向对抗训练在神经话题模型中的应用。它是为长文档设计的，在应用于短文本时面临严重的数据稀疏问题。

BTM通过直接建模整个语料库中词对的生成来学习话题。

LCTM通过建模潜在概念的共现模式来揭示话题，这些潜在概念用来捕获词汇的概念相似性。

LeadLDA将帖子区分为领导者帖子和跟随者帖子，并认为到领导者信息和跟随者帖子包含关键话题词的不同程度。

AdjEnc在学术论文、网页等结构化长文档中将网络结构引入了话题推理。

IATM建模了用户的动态交互，以学习交互感知的边嵌入，利用神经变分推理生成话题。

MGTM(Standard Gaussian)退化为标准高斯分布作为先验，验证图先验分布的作用。

模型性能的评价指标采用话题连贯性(topic coherence)，公式如下：

表2，3，4分别展示了本方法和所有比较方法在三个月微博数据集上的话题连贯性结果。对每个数据集，分别记录了话题数K＝50，100时所推断话题的前10(N＝10)，15(N＝15)，20(N＝20)个词的连贯性得分。话题连贯性越高表示该模型性能越好。

表2本发明方法与比较方法在5月数据集上的性能比较

表3本发明方法与比较方法在6月数据集上的性能比较

表4本发明方法与比较方法在7月数据集上的性能比较

从表2，3，4的话题连贯性结果可以看出，在用户节点嵌入表示和话题推理两阶段建模用户的交互关系可以使话题嵌入一定的用户相关性，话题连贯性得到了进一步的提升。为了研究图先验分布是否对用户潜在话题向量保存用户交互关系有提升，图2a和图2b展示了潜在话题向量的可视化图像。其中图2a是使用标准高斯分布作为先验的变分自编码器推断的话题向量；图2b是图先验变分自编码器推断的话题向量。可以看到在圆圈标注的部分，本发明方法可以得到聚合性更好的用户话题向量。为了进一步研究图先验分布中参数α对话题连贯性的影响，图3展示了本发明方法在三个月的微博数据集上话题连贯性分数与参数α的相关变化。

以上内容旨在示意性地说明本发明的技术方案，本发明并不限于上文描述的实施方式。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]Rui Wang，Xuemeng Hu，Deyu Zhou，Yulan He，Yuxuan Xiong，Chenchen Ye，and Haiyang Xu.2020.Neural Topic Modeling with Bidirectional AdversarialTraining.In Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics.340-350.

[2]Xiaohui Yan，Jiafeng Guo，Yanyan Lan，and Xueqi Cheng.2013.A bitermtopic model for short texts.In In Proceedings of the 22nd internationalconference on World Wide Web.ACM.1445-1456.

[3]Weihua Hu and Jun’ichi Tsujii.2016.A Latent Concept Topic Modelfor Robust Topic Inference Using Word Embeddings.In Proceedings of the 54thAnnual Meeting of the Association for Computational Linguistics(Volume 2：Short Papers).380-386.

[4]Jing Li，Ming Liao，Wei Gao，Yulan He，and Kam-Fai Wong.2016.TopicExtraction from Microblog Posts Using Conversation Structures.In Proceedingsof the 54^th Annual Meeting of the Association for Computational Linguistics(Volume 1：Long Papers).2114-2123.

[5]Ce Zhang and Hady W.Lauw.2020.Topic Modeling on Document Networkswith Adjacent-Encoder.Proceedings of the AAAI Conference on ArtificialIntelligence 34，04(2020)，6737-6745.

[6]Ruifang He，Xuefei Zhang，Di Jin，Longbiao Wang，Jianwu Dang，andXiangang Li.2018.Interaction-Aware Topic Model for Microblog Conversationsthrough Network Embedding and User Attention.In Proceedings of the 27thInternational Conference on Computational Linguistics.1398-1409.

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于消息传递和图先验分布的微博话题检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于消息传递和图先验分布的微博话题检测方法，其特征在于，步骤(1)具体包括：

根据用户之间的转发、评论关系，构建一个用户级的社交网络G＝(V,E,T)；其中，V＝{v_i|1≤i≤n}是节点集合，v_i代表社交网络中第i个用户，n表示用户数量；E＝{e_ij|1≤i,j≤n}是边的集合，如果v_i所代表的用户i与v_j所代表的用户j有交互，则e_ij＝1；如果v_i所代表的用户i与v_j所代表的用户j从未交互过，则e_ij＝0；用户所发表的帖子作为用户节点的属性信息；T＝{t₁,t₂,…,t_n}是帖子的集合，其中每个帖子t_i表示第i个用户的帖子的内容；为缓解数据稀疏性，采用基于用户的聚合策略，聚合用户的所有帖子，包括源帖子、转发帖子、回复消息；根据用户之间的交互关系，得到用户级社交网络的邻接矩阵A；根据帖子集和T，将帖子中每个词替换为其对应的词嵌入表示，得到每个用户的属性向量，从而得到社交网络的属性矩阵X；每个词对应的词嵌入表示通过随机初始化得到。

3.根据权利要求1所述一种基于消息传递和图先验分布的微博话题检测方法，其特征在于，步骤(2)具体包括：

使用网络嵌入技术学习用户节点嵌入表示；通过建模社交网络中的用户交互以缓解数据的稀疏性；考虑图卷积网络GCN聚合周围节点信息的能力，利用图卷积网络GCN对好友间的交互行为进行建模，并学习用户节点嵌入表示；具体来说，该微博话题检测方法采用两层GCN，如下公式所示：

其中

I表示对角线矩阵，对角线元素全为1；

本微博话题检测方法使用无监督的损失函数，如下公式所示：

给定用户v_i，目标是使用户v_i与其相关用户节点v_j∈N_i的相似度最大化；这里的相关用户节点是指在社交网络中存在边直接相连的一阶邻居集合N_i中的用户节点；在公式(5)中，h_i是H²中用户节点i的嵌入表示，h_j是H²中用户节点j的嵌入表示,h_u是H²中用户节点u的嵌入表示,v_u∈V表示社交网络中所有用户节点；

4.根据权利要求1所述一种基于消息传递和图先验分布的微博话题检测方法，其特征在于，步骤(3)具体包括：

本微博话题检测方法先构造一个图先验分布来代替标准高斯分布；该图先验分布包含了用户交互关系，使得每个用户的话题向量服从社交网络中用户间对应的交互关系；图先验分布如下公式所示：

其中，z_i和z_j是用户v_i,v_j的潜在话题向量，p_s(z_i)是单态边缘分布，此处使用标准高斯分布；

是双态边缘分布，采用如下形式：

其中，变分分布q(z_i,z_j|h_i,h_j)采用如下形式：

其中，μ_i，μ_j和

是变分分布的均值和方差；c_ij是x_i和z_j的相关系数；最终的损失函数的公式如下所示：

2)相关性编码网络，以成对的用户节点对[h_i,h_j]作为输入，计算两个用户潜在话题向量的相关系数c_ij；3)生成网络，与采用标准高斯分布作为先验分布的变分自编码器一样，以潜变量z_i为输入重构原始的用户节点嵌入表示得到h′_i。