CN109558546A

CN109558546A - 一种基于行为分析的微博话题表示模型生成方法及装置

Info

Publication number: CN109558546A
Application number: CN201811315209.1A
Authority: CN
Inventors: 韩伟红; 李树栋; 黄子中; 方滨兴; 贾焰; 王乐; 周斌; 殷丽华; 田志宏
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-04-02

Abstract

本发明一种基于行为分析的微博话题表示模型生成方法及装置，该方法包括：步骤S1，将微博用户发布、转发及评论的文档结合在一起生成用户文档集合；步骤S2，对用户文档集合采用LDA模型生成话题模型；步骤S3，对每个话题的每个词项，计算基于行为分析的词项内部权重；步骤S4，对用户文档集合中的每个词项，计算基于行为分析的词项外部权重；步骤S5，根据得到的权重计算每个话题下每个词项的基于行为分析的综合权重；步骤S6，根据获得的综合权重对每个话题计算基于行为分析的话题表示模型，本发明通过于话题模型中结合用户行为因素，可提高后续使用话题模型进行话题发现、演化分析等的准确度。

Description

一种基于行为分析的微博话题表示模型生成方法及装置

技术领域

本发明涉及微博话题表示模型技术领域，特别是涉及一种基于行为分析的微博话题表示模型生成方法及装置。

背景技术

当前，互联网已逐步演变为无处不在的信息传播和计算平台，由此诞生的社交网络服务应用得到了快速发展，变得越来越流行。越来越多的人使用社交平台讨论内容、发表意见、分享信息等，这就导致每天产生数以亿计的信息，如何在这样的数据规模下快速准确的发现新话题，对信息推荐、舆情控制等方面有着至关重要的作用。而话题发现的基础研究任务之一就是如何表示话题，任何的话题发现方法都是建立在某一特定话题表示模型的基础之上，同一话题发现方法在不同的话题表示模型下的效果很可能大相径庭，所以针对话题表示模型的研究显得尤为重要。

话题模型自出现以来就成为话题发现、多文档总结、词义识别与消歧、情感分析、信息检索等多个领域的主流技术，这些领域通过话题模型训练获取话题，为了使话题更容易被用户理解，如何选取代表性词项集合表示话题的问题值得更多关注。

话题在形式上是在词项上的多项式分布，词项在每个话题中存在一个确切数值的概率，可以通过最高概率的几个或十几个词项组成的集合表示话题。举个简单的例子，下表是话题“体育”、“新闻”和“娱乐”在词项上的分布，如果选取三个最高概率的词项组成的集合表示话题，则“体育”话题就可以用{冠军、比赛、篮球}代表，而“新闻”话题用{总统、演唱会、冠军}代表，“娱乐”用{演唱会、歌星、冠军}代表。

表1.话题在词项上的分布

话题	篮球	歌星	总统	发布会	比赛	冠军	演唱会	竞选
									体育	0.2	0.02	0	0.08	0.3	0.4	0	0
新闻	0.1	0.1	0.2	0	0.1	0.2	0.2	0.1
									娱乐	0	0.3	0	0.1	0.1	0.2	0.3	0

目前使用最普遍的话题表示模型是LDA模型。LDA模型是一种话题模型，它假设每篇文档由k个话题组成，每个话题有一个固定的词项概率分布。LDA模型可以按照概率分布的形式给出文档集合中每篇文档的话题情况以及每个话题的词项分布情况，同时它是一种无监督学习算法，在训练时不需要手工标注训练集，需要的仅是文档集合以及指定话题的数量k。

Gibbs Sampling以其理解容易、处理简单的优势被大量应用在模型的参数估计方面，其参数估计的流程简单介绍如下：初始时随机给文本中的每个词项分配话题，再统计每个话题下出现term的数量以及每个文档出现话题中词项的数量，每一轮计算排除当前词项的话题分配，根据其他所有词项的话题分配估计当前词项分配给各个话题的概率，得到当前词项属于所有话题的概率分布后，根据这个概率分布为该词项分配一个新主题，然后用同样的方法不断更新所有词项的主题，直到发现每个文档的话题分布和每个话题的词项分布均收敛才停止迭代，输出待估计的参数。

因此，目前通过LDA模型和Gibbs Sampling可以由一组文档集合，通过无监督学习算法(即不需要手工标注训练集)，得到每个文档的话题分布和每个话题的词项。

LDA模型目前在文本挖掘领域包括文本话题识别、文本分类以及文本相似度计算方面都有广泛应用。人们围绕LDA模型还做了很多改进工作，总体来说，主要是针对基于词项集合的话题表示具有可读性差、语义关联性弱等问题。一些相关研究通过在模型中引入外界知识的方法提升基于词项集合的话题表示方法的适用应用场景：Kitajima等人考虑事件因素，将LDA模型中的词项替换为事件或是单个的动词；Sridhar等人在传统的主题模型中融入了短语元素表示话题；Wang等人基于***里的词条，将话题映射为词条中的向量，利用词条的可读性提升话题的可读性。这些工作可以在一定程度上弥补基于词项集合表示的可读性差、语义关联性弱的问题，但是并未关注如何在话题中选取具有更好区分性词项的问题。

现有话题表示模型主要针对长文本以及规范文本，例如TDT(Topic Detectionand Tracking，话题检测与跟踪)的话题发现任务主要是面向新闻信息流。而微博文本一方面具有篇幅短小，用语随意等特点，这使得传统针对长文本的一篇文档包括多个话题的假设出现问题，例如，新浪微博规定字符大小不可以超过140，在这样的短文本中，一篇文档一般只有一个话题；另一方面，微博中包含很多用户的行为信息，例如转发、评论等，这些行为信息对话题的识别和表示也是有价值的，但是传统的话题表示方法中并没有考虑用户的行为因素。因此，现有的话题模型用于微博话题表示时效果并不理想，需要对其进行改进。

发明内容

为克服上述现有技术存在的不足，本发明之一目的在于提供一种基于行为分析的微博话题表示模型生成方法及装置，以解决微博短文在话题分析时信息量不够的问题。

本发明之另一目的在于提供一种基于行为分析的微博话题表示模型生成方法及装置，以通过于话题模型中结合用户行为因素，提高后续使用话题模型进行话题发现、演化分析等的准确度。

为达上述及其它目的，本发明提出一种基于行为分析的微博话题表示模型生成方法，包括如下步骤：

步骤S1，将微博用户发布、转发及其评论的文档结合在一起生成用户文档集合；

步骤S2，对生成的用户文档集合采用LDA模型生成话题模型；

步骤S3，对用户文档集合中每个话题的每个词项，计算基于行为分析的词项内部权重；

步骤S4，对用户文档集合中的每个词项，计算基于行为分析的词项外部权重；

步骤S5，根据步骤S3与步骤S4得到的基于行为分析的词项内部权重与词项外部权重计算每个话题下每个词项的基于行为分析的综合权重；

步骤S6，根据获得的每个话题下每个词项的基于行为分析的综合权重对每个话题计算基于行为分析的话题表示模型。

优选地，于步骤S6后，还包括如下步骤：

步骤S7，根据步骤S6获得的每个话题的基于行为分析的话题表示模型以及步骤S2采用LDA得出的话题模型对每个话题计算基于行为分析的LDA话题表示，得到最终的话题表示模型。

优选地，步骤S2进一步包括：

步骤S200，对用户文档集合，采用LDA模型生成文档-话题模型和话题-词项模型ρ(θ)_LDA；

步骤S201，对用户文档集合中的每一个文档，从LDA模型生成的文档--话题中选取概率最高的话题作为文档话题。

优选地，步骤S3进一步包括：

步骤S300，根据行为类型分别计算每种行为的词项的内部权重H(w，θ，b)_inside；

步骤S301，根据每种行为的词项的内部权重H(w，θ，b)_inside计算基于行为分析的词项的内部权重H(w，θ)_ins_ide。

优选地，所述基于行为分析的词项内部权重的计算如下：

H(w，θ)_inside＝σ*H(w，θ，b₁)_inside+μ*H(w，θ，b₂)_inside+τ*H(w，θ，b₃)_inside

其中，H(w，θ，b)_inside表示词项w在话题θ下，行为类型b中的行为内部权重，D(θ，b)表示在话题θ，行为b下的文档集合，TF_wi是词项w在文档D_i中的出现频率，TF_w是词项w在行为文档集合D(θ，b)下所有文档的频率之和，σ，μ，τ表示不同行为的权重因子。

优选地，步骤S4进一步包括：

步骤S400，根据行为类型分别计算每种行为的词项的外部权重H(w，b)_outside；

步骤S401，根据每种行为的词项的外部权重H(w，b)_outside计算基于行为分析的词项的外部权重H(w)_outside。

优选地，所述基于行为分析的词项的外部权重H(w)_outside的计算如下：

H(w)_outside＝σ*H(w，b₁)_outside+μ*H(w，b₂)_outside+τ*H(w，b₃)_outside

其中，H(w，b)_outside表示词项w在所有话题中，行为类型b中的行为外部权重，D(b)表示在所有文档中行为b下的文档集合，k是话题的数量，DF_wj表示话题j的文档集合中包含词项w的文档数量，DF_w是语料库中所有包含词项w的文档数量，σ，μ，τ表示不同行为的权重因子。

优选地，于步骤S5中，每个话题下每个词项的基于行为分析的综合权重计算如下：

为达到上述目的，本发明还提供一种基于行为分析的微博话题表示模型生成装置，包括：

用户文档集合生成单元，用于将微博用户发布、转发及其评论的文档结合在一起生成用户文档集合；

初始话题模型生成单元，用于对生成的用户文档集合采用LDA模型生成话题模型；

基于行为分析的词项内部权重计算单元，用于对用户文档集合中每个话题的每个词项，计算基于行为分析的词项内部权重；

基于行为分析的词项外部权重，用于对用户文档集合中的每个词项，计算基于行为分析的词项外部权重；

综合权重计算单元，用于根据所述基于行为分析的词项内部权重计算单元与基于行为分析的词项外部权重得到的基于行为分析的词项内部权重与词项外部权重计算每个话题下每个词项的基于行为分析的综合权重；

基于行为分析的话题表示模型计算单元，用于根据获得的每个话题下每个词项的基于行为分析的综合权重对每个话题计算基于行为分析的话题表示模型。

优选地，所述装置还包括：

话题表示模型生成单元，用于根据所述基于行为分析的话题表示模型计算单元获得的每个话题的基于行为分析的话题表示模型以及所述初始话题模型生成单元采用LDA得出的话题模型对每个话题计算基于行为分析的LDA话题表示，得到最终的话题表示模型。

与现有技术相比，本发明一种基于行为分析的微博话题表示模型生成方法及装置针对微博短文本特点，把转发的微博及其评论与原博文合在一起作为一个文档处理，在LDA模型得出的一个文档的多个话题中只选取一个话题作为文档的话题来构建话题模型，并根据LDA模型获取的话题-词项分布，考虑词项在用户不同行为内部的分布情况，允许用户设定不同用户行为对话题模型的影响因子，使得话题模型中结合了用户行为因素，使得得到的话题表示模型更精确，更有针对性，提高后续使用话题模型进行话题发现、演化分析等算法的准确度。

附图说明

图1为本发明一种基于行为分析的微博话题表示模型生成方法的步骤流程图；

图2为本发明一种基于行为分析的微博话题表示模型生成装置的***架构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于行为分析的微博话题表示模型生成方法的步骤流程图。如图1所示，本发明一种基于行为分析的微博话题表示模型生成方法，包括如下步骤：

步骤S1，将微博用户发布、转发及其评论的文档结合在一起生成用户文档集合。在本发明具体实施例中，对微博用户发布、转发、评论的文档进行整理，用户评论的微博与原博文一起组成一个文档，所有文档带上行为标签bi，分别为b1(发布)，b2(转发)，b3(评论)。

步骤S2，对生成的用户文档集合采用LDA模型生成话题模型。

具体地，步骤S2进一步包括：

步骤S200，对用户文档集合，采用LDA模型生成“文档—话题”模型和“话题—词项”模型ρ(θ)_LDA。

步骤S201，对用户文档集合中的每一个文档，从LDA模型生成的文档--话题中选取概率最高的话题作为文档话题。需注意的是，对微博短文本，每个文档只对应一个话题。

步骤S3，对用户文档集合中每个话题中的每个词项，计算基于行为分析的词项内部权重。

具体地，步骤S3进一步包括：

步骤S300，根据行为类型分别计算每种行为的词项的内部权重H(w，θ，b)_inside。

内部权重是描述在一个特定话题的各个文档间词项分布的均匀程度，一般认为，在微博中，不同行为对用户内部权重的影响存在差异。因此，首先根据行为类型分别讨论词项的行为内部权重。

行为内部权重是描述在一个特定的话题中，词项在某一行为类型下文档间分布的均匀程度。也就是说，它分布的越均匀，就越适合表示在特定话题下该行为的属性特点，其计算如下面公式所示：

其中，H(w，θ，b)_inside表示词项w在话题θ下，行为类型b中的行为内部权重。D(θ，b)表示在话题θ，行为b下的文档集合，TF_wi是词项w在文档D_i中的出现频率，TF_w是词项w在行为文档集合D(θ，b)下所有文档的频率之和。

行为内部权重越大，词项在特定话题的某一行为下分布越均匀，也就是说，可以更好地表示特定话题下的该行为特点。最好的情形是在所有行为文档集合D(θ，b)下的文档中出现的频率相同。

从公式1可以看出H(w，θ，b)_inside需要计算多次，因为对于特定话题下每个行为都需要计算一次。真实的社交网络存在多种类型的行为，如发布，转发，评论，点赞等。为了简化过程，本发明只考虑微博的发布，转发，评论三种类型的行为。

步骤S301，根据每种行为的词项的内部权重H(w，θ，b)_inside计算基于行为分析的词项的内部权重H(w，θ)_inside：

对微博的发布，转发，评论三种类型的行为分别赋予它们不同的权重，权重表示这种行为对话题表示的重要程度，所以最后基于行为分析的内部权重的计算如下：

H(w，θ)_inside＝σ*H(w，θ，b₁)_inside+μ*H(w，θ，b₂)_inside+τ*H(w，θ，b₃)_inside (公式2)

其中σ，μ，τ表示不同行为的权重因子。由于这里暂时不考虑其它因素，所以三个权重因子之和为1。

步骤S4，对用户文档集合中的每个词项，计算基于行为分析的词项外部权重。

具体地，步骤S4进一步包括：

步骤S400，根据行为类型分别计算每种行为的词项的外部权重H(w，b)_outside。

外部权重是描述词项在所有话题中分布的均匀情况，词项分布越均匀，这个词项就越不适合描述任何话题。在微博中，不同行为对用户外部权重的影响存在差异。因此，首先根据行为类型分别讨论词项的行为外部权重。

行为外部权重是描述在一个文档集合中，词项在某一行为类型下文档间分布的均匀程度。也就是说，它分布的越均匀，就越不适合表示任何话题，其计算如下面公式所示：

其中，H(w，b)_outside表示词项w在所有话题中，行为类型b中的行为外部权重，D(b)表示在所有文档中行为b下的文档集合，k是话题的数量，DF_wi表示话题j的文档集合中包含词项w的文档数量，DF_w是语料库中所有包含词项w的文档数量。根据公式(3)计算可以得出，外部行为权重越大，词项w在所有话题行为中分布越均匀，最坏的情况是每个话题行为下包含词项w的文档数量是相同的。

从公式可以看出H(w，b)_outside需要计算多次，对于每个行为都需要计算一次。真实的社交网络存在多种类型的行为，如发布，转发，评论，点赞等。为了简化过程，本发明只考虑微博的发布，转发，评论三种类型的行为。

步骤S401，根据每种行为的词项的外部权重H(w，b)_outside计算基于行为分析的词项的外部权重H(w)_outside：

对微博的发布，转发，评论三种类型的行为分别赋予它们不同的权重，权重表示这种行为对话题表示的重要程度，所以最后基于行为分析的外部权重的计算如下：

H(w)_outside＝σ*H(w，b₁)_outside+μ*H(w，b₂)_outside+τ*H(w，b₃)_outside (公式4)

步骤S5，根据步骤S3与步骤S4得到的基于行为分析的词项内部权重与词项外部权重计算每个话题下每个词项的基于行为分析的综合权重。

通过步骤S3与步骤S4关于内部权重和外部权重的讨论分析可知，这两种权重对于衡量典型词项起到很大作用。因此，本发明在LDA模型得出的话题模型基础上，结合词项的内部权重和外部权重以衡量其对于指定话题的综合权重情况，计算公式如下：

在本发明具体实施例中，按不同词项对指定话题的权重比例将话题在各个词项下的权重归一化后得到了基于行为分析的话题表示，如下公式(6)所示：

ρ_behavior(θ)＝(ω(w_l，θ)，ω(w₂，θ)，...，ω(w_n，θ)) (公式6)

在计算出基于行为分析的话题表示模型ρ_behavior(θ)以后，还需结合步骤S2采用LDA得出的话题模型ρ(θ)_LDA，即综合考虑词项在话题中出现的频率以及行为分析情况给出最终的话题表示模型，通过ρ(θ)_behavior和ρ(θ)_LDA得到话题θ分布敏感的LDA话题表示，如下公式7所示：

ρ(θ)_BEH-LDA＝p*ρ(θ)_LDA+(1-p)*ρ(θ)_behavior (公式7)

其中p∈(0，1)是一个线性参数，衡量ρ(θ)_LDA和ρ(θ)_behavior间的线性权重。

图2为本发明一种基于行为分析的微博话题表示模型生成装置的***架构图。如图2所示，本发明一种基于行为分析的微博话题表示模型生成装置，包括：

用户文档集合生成单元201，用于将微博用户发布、转发及其评论的文档结合在一起生成用户文档集合。在本发明具体实施例中，用户文档集合生成单元201对微博用户发布、转发、评论的文档进行整理，用户评论的微博与原博文一起组成一个文档，所有文档带上行为标签bi，分别为b1(发布)，b2(转发)，b3(评论)。

初始话题模型生成单元202，用于对生成的用户文档集合采用LDA模型生成话题模型。

具体地，初始话题模型生成单元202进一步包括：

话题模型生成模块，用于对用户文档集合，采用LDA模型生成“文档-话题”模型和“话题-词项”模型ρ(θ)_LDA。

文档话题选取单元，用于对用户文档集合中的每一个文档，从LDA模型生成的文档--话题中选取概率最高的话题作为文档话题。需注意的是，对微博短文本，每个文档只对应一个话题)。

基于行为分析的词项内部权重计算单元203，用于对用户文档集合中每个话题中的每个词项，计算基于行为分析的词项内部权重。

在本发明具体实施例中，基于行为分析的词项内部权重计算单元203具体用于：

根据行为类型分别计算每种行为的词项的内部权重H(w，θ，b)_inside，然后根据每种行为的词项的内部权重H(w，θ，b)_inside计算基于行为分析的词项的内部权重H(w，θ)_inside，具体如下：

从上述公式可以看出H(w，θ，b)_inside需要计算多次，因为对于特定话题下每个行为都需要计算一次。真实的社交网络存在多种类型的行为，如发布，转发，评论，点赞等。为了简化过程，本发明只考虑微博的发布，转发，评论三种类型的行为。

基于行为分析的词项外部权重计算单元204，用于对用户文档集合中的每个词项，计算基于行为分析的词项外部权重。

在本发明具体实施例中，基于行为分析的词项外部权重计算单元204具体用于：

根据行为类型分别计算每种行为的词项的外部权重H(w，b)_outside，根据每种行为的词项的外部权重H(w，b)_outside计算基于行为分析的词项的外部权重H(w)_outside，具体如下：

其中，H(w，b)_outside表示词项w在所有话题中，行为类型b中的行为外部权重，D(b)表示在所有文档中行为b下的文档集合，k是话题的数量，DF_wj表示话题j的文档集合中包含词项w的文档数量，DF_w是语料库中所有包含词项w的文档数量。根据上述公式计算可以得出，外部行为权重越大，词项w在所有话题行为中分布越均匀，最坏的情况是每个话题行为下包含词项w的文档数量是相同的。

综合权重计算单元205，用于根据基于行为分析的词项内部权重计算单元203与基于行为分析的词项外部权重计算单元204得到的词项内部权重与词项外部权重计算每个话题下每个词项的基于行为分析的综合权重。

通过基于行为分析的词项内部权重计算单元203与基于行为分析的词项外部权重计算单元204关于内部权重和外部权重的讨论分析可知，这两种权重对于衡量典型词项起到很大作用。因此，本发明在LDA模型得出的话题模型基础上，结合词项的内部权重和外部权重以衡量其对于指定话题的综合权重情况，计算公式如下：

基于行为分析的话题表示模型计算单元206，用于根据获得的每个话题下每个词项的基于行为分析的综合权重对每个话题计算基于行为分析的话题表示模型。

在本发明具体实施例中，按不同词项对指定话题的权重比例将话题在各个词项下的权重归一化后得到了基于行为分析的话题表示，如下公式所示：

ρ_behavior(θ)＝(ω(w₁，θ)，ω(w₂，θ)，...，ω(w_n，θ))

话题表示模型生成单元207，用于根据基于行为分析的话题表示模型计算单元206获得的每个话题的基于行为分析的话题表示模型以及LDA得出的话题模型对每个话题计算基于行为分析的LDA话题表示，得到最终的话题表示模型。

在计算出基于行为分析的话题表示模型ρ_behavior(θ)以后，还需结合LDA得出的话题模型ρ(θ)_LDA，即综合考虑词项在话题中出现的频率以及行为分析情况给出最终的话题表示模型，通过ρ(θ)_behavior和ρ(θ)_LDA得到话题θ分布敏感的LDA话题表示，如下公式所示：

ρ(θ)_BEH-LDA＝p*ρ(θ)_LDA+(1-p)*ρ(θ)_behavior

综上所述，本发明一种基于行为分析的微博话题表示模型生成方法及装置针对微博短文本特点，把转发的微博及其评论与原博文合在一起作为一个文档处理，在LDA模型得出的一个文档的多个话题中只选取一个话题作为文档的话题来构建话题模型，并根据LDA模型获取的话题-词项分布，考虑词项在用户不同行为内部的分布情况，允许用户设定不同用户行为对话题模型的影响因子，使得话题模型中结合了用户行为因素，使得得到的话题表示模型更精确，更有针对性，提高后续使用话题模型进行话题发现、演化分析等算法的准确度。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于行为分析的微博话题表示模型生成方法，包括如下步骤：

步骤S2，对生成的用户文档集合采用LDA模型生成话题模型；

2.如权利要求1所述的一种基于行为分析的微博话题表示模型生成方法，其特征在于，于步骤S6后，还包括如下步骤：

3.如权利要求2所述的一种基于行为分析的微博话题表示模型生成方法，其特征在于，步骤S2进一步包括：

4.如权利要求3所述的一种基于行为分析的微博话题表示模型生成方法，其特征在于，步骤S3进一步包括：

步骤S301，根据每种行为的词项的内部权重H(w，θ，b)_inside计算基于行为分析的词项的内部权重H(w，θ)_inside。

5.如权利要求4所述的一种基于行为分析的微博话题表示模型生成方法，其特征在于，所述基于行为分析的词项内部权重的计算如下：

6.如权利要求4所述的一种基于行为分析的微博话题表示模型生成方法，其特征在于，步骤S4进一步包括：

7.如权利要求6所述的一种基于行为分析的微博话题表示模型生成方法，其特征在于，所述基于行为分析的词项的外部权重H(w)_outside的计算如下：

8.如权利要求6所述的一种基于行为分析的微博话题表示模型生成方法，其特征在于，于步骤S5中，每个话题下每个词项的基于行为分析的综合权重计算如下：

9.一种基于行为分析的微博话题表示模型生成装置，包括：

10.如权利要求9所述的一种基于行为分析的微博话题表示模型生成装置，其特征在于，所述装置还包括：