CN102194012A

CN102194012A - 微博话题检测方法及***

Info

Publication number: CN102194012A
Application number: CN2011101645607A
Authority: CN
Inventors: 夏云庆
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-06-17
Filing date: 2011-06-17
Publication date: 2011-09-21
Anticipated expiration: 2031-06-17
Also published as: CN102194012B

Abstract

本发明涉及话题检测技术领域，公开了一种微博话题检测方法及***，该方法包括步骤：S1，将微博文本切分为词汇；S2，构造微博文本线索和微博文本森林；S3，针对特定的微博文本线索，进行微博话题分析，以找出微博文本线索中的主话题和噪音话题；S4，针对每个微博文本线索，合并其主话题中的微博文本，从而为每个微博文本线索生成一个微博线索文本；S5，进行全局微博话题分析，从而检测到全局微博话题，形成微博话题库。本发明还可以快速、准确地实现微博话题检测，从而提高微博搜索命中率，缩短用户的微博搜索时间，提升用户体验。

Description

微博话题检测方法及***

技术领域

本发明涉及话题检测技术领域，特别是涉及一种以微博为对象的话题检测方法及***。

背景技术

微博是互联网的又一个跨时代产品，它的一个显著特点，是能非常迅速地将信息传递到其他听众。由于微博极大促进了信息的传播和共享，其潜在的商业价值开始显现，在危机公关、媒体炒作和网络推广等方面凸显商业优势。同时，微博迅速发展，也给互联网监管部门带来了三个挑战：第一，微博文本数量惊人，产生速度和传播速度惊人。仅新浪微博网站，2010年末已积累了20亿条微博，并以每秒钟785条微博的速度增长。微博文本规模之大、影响之广，令人震惊。由此对微博内容监管产生严峻考验。要有效应对这一挑战，迫切需要强大的智能文本处理软件。第二，微博内容极其独特，具有“短”、“对话性”等特点。这些特点给传统文本分析处理带来了严重的数据稀疏问题。

微博是新生事物，相关的研究最近刚刚开始。研究人员试图采取传统方法，将微波文本与正规文本一视同仁地进行处理，其效果并不好。主要原因在于微博文本的特殊性，即“短”。因此，迫切需要一种方法来解决微博文本处理中的数据稀疏问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何解决微博文本处理中的数据稀疏问题。

(二)技术方案

为解决上述技术问题，本发明提供了一种微博话题检测方法，所述方法包括以下步骤：

S1，将微博文本切分为词汇；

S2，利用切分后的微博文本中的信息，构造微博文本线索和微博文本森林，所述信息包括首帖、跟帖类型和回复关系信息，所述微博文本森林由微博文本线索组成；

S3，针对特定的微博文本线索，进行微博话题分析，以找出微博文本线索中的主话题和噪音话题，其中，包含一定阈值以上的微博文本的话题称为主话题，其余话题称为噪音话题；

S4，针对每个微博文本线索，合并其主话题中的微博文本，从而为每个微博文本线索生成一个微博线索文本；

S5，针对步骤S4生成的微博线索文本所组成的微博线索文本集，进行全局微博话题分析，从而检测到全局微博话题，所述全局微博话题形成微博话题库。

其中，在步骤S1中，对微博文本进行词汇切分时采用双向最大匹配策略判断汉语词汇边界。

其中，步骤S3具体包括：

S31、建立融合作者和时间信息的话题模型

该话题模型的概率分布如下：

给定时间-作者-话题分布概率P(t，a，w，z)＝ρ(z)，

给定时间-作者-话题分派概率P(t，a，w|z)＝σ(w)；

其中，时间-作者-话题分布概率是指给定发布时间信息和作者信息分布于不同话题中的概率，时间-作者-话题分派概率是指给定话题分布后，发布时间信息和作者信息出现的概率；z代表话题，w代表词汇，a代表作者，取值范围为{1，0}，1表示作者相同，0表示作者不同；t代表时间，取值范围为{1，0}，1表示时间间隔在预定时间段范围内，0表示时间间隔超越了一个时间段；

S32、对给定微博文本线索中的微博文本d，结合所述话题模型

判定其话题分布θ(d)。

其中，步骤S4中，从合并微博文本所得到的微博文本集中滤除噪音微博文本得到微博线索文本。

步骤S32具体为：采用LDA算法进行特征选择，然后以VSM向量表示微博文本，以K-means聚类算法对向量所表示的微博文本进行聚类，得到若干个类簇，取最大的类簇为主话题，而其余类簇为噪音话题；然后得到微博文本线索的主话题下的所有帖子和噪音话题下的所有帖子，即得到了每个帖子的话题分布。

本发明还提供了一种微博话题检测***，所述***包括：

预处理模块，用于将微博文本切分为词汇；

微博线索与森林构造模块，用于利用切分后的微博文本中的信息，构造微博文本线索和微博文本森林，所述信息包括首帖、跟帖类型和回复关系信息，所述微博文本森林由微博文本线索组成；

微博线索内话题分析模块，用于针对特定的微博文本线索，进行微博话题分析，以找出微博文本线索中的主话题和噪音话题，其中，包含一定阈值以上的微博文本的话题称为主话题，其余话题称为噪音话题；

微博线索文本生成模块，用于针对每个微博文本线索，合并其主话题中的微博文本，从而为每个微博文本线索生成一个微博线索文本；

微博全局话题分析模块，用于针对生成的微博线索文本所组成的微博线索文本集，进行全局微博话题分析，从而检测到全局微博话题，所述全局微博话题形成微博话题库。

(三)有益效果

本发明基于对微博文本“对话性”特点的认识，通过回复关系建立了微博文本线索结构，利用这一结构，很好地解决了微博文本处理中的数据稀疏问题。本发明所提供的微博话题检测方法和***，还可以快速、准确地实现微博话题检测，从而提高微博搜索命中率，缩短用户的微博搜索时间，提升用户体验。

附图说明

图1是依照本发明实施例的微博话题检测方法的流程示意图；

图2示出了以表1为例所产生的微博文本线索；

图3是依照本发明实施例的微博话题检测***的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1示出了本发明实施例所提供的微博话题检测方法的流程示意图，如图1所示，所述方法包括以下步骤：

S1：将对从互联网微博***中获取的微博文本切分为词汇

微博文本以纯文本格式存储。在汉语词汇切分时，采取双向最大匹配策略判定词汇边界，所用词典为标准现代汉语词典。双向最大匹配是一种通用机械分词方法，它同时从正向(由左到右)和逆向(由右到左)将待分析汉字串与通用汉语词典中的词条进行匹配；若在词典中找到某个字符串，则匹配成功(识别出一个词)；若双向存在不一致，则结合统计信息来判断。例如，“北京***获得圆满成功”被切分为“北京***/获得/圆满/成功”，而不是“北京/***/获得/圆满/成功”。这是因为双向最大匹配策略能有效处理词汇切分歧义。

S2：利用微博文本中的信息，构造微博文本线索和微博文本森林，所述信息包括首帖、跟帖类型和回复关系信息。

为表述方便，表1给出一组微博文本。

表1

图1中微博文本线索的首帖是#1微博文本，其余微博文本均为跟贴。注意到微博文本中包含字符串“//@”，这是表征回复关系的符号，称为回复符号。回复符号之前是本帖文本内容，之后是被回复贴的文本内容。如果能满足微博字符限制(通常140个字)，一个微博文本可以包含多个回复符号，即包含多个被回复的微博文本。但距离本帖文本最近的回复符号就足以反映微博文本线索的构造。例如，表1所给出的例子中，#2、#3、#4、#5微博文本是首帖(#1)的回复，#6微博文本是#2微博文本的回复，#8微博文本是#4微博文本的回复。根据以上回复关系的分析，最终可以为这些微博形成一棵树形的微博文本线索。纵观微博文本全集，多个微博首帖将引导出多个微博文本线索，最终形成微博文本森林。而在首帖、跟帖类型和回复关系信息的基础上，再借助回复符号，能将微博文本线索和微博文本森林分析构造出来。

图2示出了以表1为例所产生的微博文本线索。图2所示的微博文本线索，是从表1例子的纯文本形式构造出来的，这个构造过程依赖于对回复符号的匹配和上下文分析，即匹配到回复符号后，认为回复符号之前的内容是本帖发言，而回复符号之后的内容属于被回复帖的发言。

S3：针对特定的微博文本线索，进行微博话题分析，以找出线索中的主话题和噪音话题

观察发现，微博文本线索具有较强的话题凝聚性。线索中走题和垃圾微博文本占少数。这样，通过微博文本线索局部话题分析，可以定义包含一定阈值以上的微博文本的话题主话题，而其余话题则列为噪音话题。

微博文本与正规文本不同，它包含了作者和时间等结构化信息。这些信息对微博文本话题检测具有重要作用。因此本发明提出融合了作者和时间信息的话题模型。对于作者信息，取作者名字。假定，属于同一作者的微博文本，话题相关概率较高。对于时间信息，定义如果两条微博的发布时间落在预先定义的时间段内，那么认为这两条微博的时间信息相同。这里的时间段可在算法实现时根据具体情况调节。假定属于同一时间段内的微博，话题相关概率较高。

为便于表述，先给出传统的“词汇-话题”模型：

(I)给定词汇-话题分布概率

(II)给定词汇-话题分派概率P(w|z)＝δ(w)，

(III)词汇-文档分布概率P(w，d)＝ψ(d)；

上述词汇-话题分布概率是指给定词汇分布于不同话题中的概率。例如，词汇w在文本全集中出现了100次，这100次的出现应分布到不同的话题中。假如话题z中词汇w出现了20次，则

上述词汇-话题分派概率是指给定话题分布后，词汇出现的概率。例如，给定的文本话题为z，它包含500个词，词汇w在此话题下出现了20次，则

P (w | z) = \frac{20}{500} = 0.04 = δ (w) .

上述词汇-文档分布概率是指给定词汇分布于不同文档(也称为微博文本)中的概率。例如，词汇w在文本全集中出现了100次，这100次的出现应分布到不同的文档中。假如文档d中词汇w出现了15次，则

P (w | d) = \frac{15}{100} = 0.15 = ψ (d) .

其中，z代表话题，取K个话题之一，K表示话题总数；w代表词汇，取词汇表V中的|V|个离散值之一，例如V表示一个给定的词表，词表中共有100个词汇，那个|V|的值就为100。取词汇表V中的|V|个离散值之一就是指在词汇表V中取一个词汇。进行微博话题分析就是要判定：文档d的话题分布θ(d)。

S31、建立加入作者和时间信息的话题模型的概率分布，如下：

(IV)给定时间-作者-话题分布概率P(t，a，w，z)＝ρ(z)，

(V)给定时间-作者-话题分派概率P(t，a，w|z)＝σ(w)。

其中，时间-作者-话题分布概率是指给定发布时间信息和作者信息分布于不同话题中的概率，时间-作者-话题分派概率是指给定话题分布后，发布时间信息和作者信息出现的概率；a代表作者，取值范围为{1，0}，1表示作者相同，0表示作者不同；t代表时间，取值范围为{1，0}，1表示时间间隔在预定时间段范围内，0表示时间间隔超越了一个时间段。

S32、对给定微博文本线索中的文本d，结合话题模型

判定其话题分布θ(d)。

对一个微博文本线索中的所有微博文本d，如在上述表1产生的微博文本线索中，“长安福特”所发布的微博在该微博文本线索中属于噪音，其余与首帖话题密切相关；这些与首帖话题密切相关的微博文本形成主话题，而其余微博文本形成噪音话题。由于噪音话题与整个微博线索所谈论的话题没有关系，所以需要将其滤除。而滤除的依据就是主话题和噪音话题之分。

根据该发明所述的话题模型(融合了作者和时间信息)，采用LDA算法进行特征选择，以VSM向量表示微博文本，形式为(t₁:p₁；t₂:p₂；...t_N:p_N)，这里的t_i代表词汇，p_i代表其权重，i＝1，...，N。以K-means(K均值)聚类算法对向量所表示的微博文本进行聚类，这样，最终可得到一些类簇，取最大的类簇为主话题，而其余类簇为噪音话题。得到微博文本线索的主话题下的所有帖子和噪音话题下的所有帖子后，就可以得到对于每个帖子来说，属于哪个话题，即得到了每个帖子的话题分布θ(d)。

本发明采用LDA(Latent Dirichlet Allocation)算法进行特征选择，以VSM(Vector Space Model，向量空间模型)表示文本向量，以K-means聚类算法对微博文本进行聚类。最终发现线索主话题和噪音话题。

S4：针对每个微博文本线索，合并其主话题中的微博文本，从而为每个微博文本线索生成一个微博线索文本d^T

从合并微博文本所得到的微博文本集中滤除噪音微博文本就得到了微博线索文本。这一步骤的重要意义是，滤除噪音微博文本，与主话题无关的为噪音微博文本。例如，表1中的#5微博文本属于与主话题无关的“灌水帖”，微博线索文本d^T将不包含它。由于排除了噪音微博文本，代表一个微博文本线索的线索文本具有规模更大、内容更集中的特点，这非常有利于解决微波文本处理中的数据稀疏问题。

S5：针对步骤S4生成的微博线索文本所组成的微博线索文本集，进行全局微博话题分析，最终得到微博话题库

分析的具体方式为：采用LDA算法进行特征选择，以VSM表示文本向量，以K-means聚类算法对微博线索文本进行聚类，检测到全局微博话题，形成微博话题库。

采用LDA算法进行特征选择，以VSM表示文本向量，以K-means聚类算法对微博文本进行聚类这三个步骤是微博文本聚类的三个步骤。具体来说，首先使用LDA对微博文本进行特征选择，特征确定后，就可以采取VSM模型将微博文本表示为一个VSM向量，形式为(t₁:p₁；t₂:p₂；...t_N:p_N)，这里的t_i代表词汇，p_i代表其权重，i＝1，...，N。这样一个文本就表示成了一个向量，叫做文本向量。最后一步是使用K-means算法对这些文本向量进行聚类。

全局微博话题是与微博文本线索内的局部微博话题相对应的。全局微博话题指的是微博全集上获得的聚类结果，后者指的是在微博文本线索局部上获得的聚类结果。例如之前的线索文本集合中一共有5000个微博文本，分布在300个微博文本线索上。某个微博文本线索包含40个微博文本，该微博文本线索内的局部话题是从这40个微博文本上产生的。

为了保证噪音微博文本不参与全局计算，因此在微博文本线索内局部聚类后，可以将噪音话题里的微博文本滤除。同时，由于单个微博文本都比较短，会造成数据稀疏问题，因此将线索主话题中的微博文本合并为一个规模较大、内容更集中的线索文本。本例子中，能产生300个线索文本。而全局微博话题正是在这300个线索文本上产生的。

图3示出了本发明一实施例的一种微博话题检测***，其包括：预处理模块，用于对微博文本进行词汇切分；微博线索与森林构造模块，用于为微博文本集构造微博文本线索和森林；微博线索内话题分析模块，用于在微博文本线索范围内发现线索主话题；微博线索文本生成模块，用于将线索主话题所包含的微博文本合并为一个规模较大、内容集中的微博文本；微博全局话题分析模块，用于在微博森林全局范围内发现全局微博话题。

由以上实施例可以看出，基于本发明所提供的微博话题检测方法和***，可以快速、准确地进行微博文本话题。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种微博话题检测方法，其特征在于，所述方法包括以下步骤：

S1，将微博文本切分为词汇；

2.如权利要求1所述的微博话题检测方法，其特征在于，在步骤S1中，对微博文本进行词汇切分时采用双向最大匹配策略判断汉语词汇边界。

3.如权利要求1所述的微博话题检测方法，其特征在于，步骤S3具体包括：

S31、建立融合作者和时间信息的话题模型

该话题模型的概率分布如下：

给定时间-作者-话题分布概率P(t，a，w，z)＝ρ(z)，

给定时间-作者-话题分派概率P(t，a，w|z)＝σ(w)；

S32、对给定微博文本线索中的微博文本d，结合所述话题模型判定其话题分布θ(d)。

4.如权利要求1所述的微博话题检测方法，其特征在于，步骤S4中，从合并微博文本所得到的微博文本集中滤除噪音微博文本得到微博线索文本。

5.如权利要求3所述的微博话题检测方法，其特征在于，步骤S32具体为：采用LDA算法进行特征选择，然后以VSM向量表示微博文本，以K-means聚类算法对向量所表示的微博文本进行聚类，得到若干个类簇，取最大的类簇为主话题，而其余类簇为噪音话题；然后得到微博文本线索的主话题下的所有帖子和噪音话题下的所有帖子，即得到了每个帖子的话题分布。

6.一种微博话题检测***，其特征在于，所述***包括：

预处理模块，用于将微博文本切分为词汇；