CN105787121B

CN105787121B - 一种基于多故事线的微博事件摘要提取方法

Info

Publication number: CN105787121B
Application number: CN201610179286.3A
Authority: CN
Inventors: 林鸿飞; 刘龙飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2018-08-14
Anticipated expiration: 2036-03-25
Also published as: CN105787121A

Abstract

一种基于多故事线的微博事件摘要提取方法，包括：S1、微博语料预处理；S2、微博矢量化；S3、初步提取微博事件故事线；S4、故事线合并；S5、故事线重构；S6、展示摘要结果。本发明利用词嵌入技术将微博矢量化，通过矢量余弦值获得微博间的相似度配合改进条件随机域方法，实现故事线的构建与合并；本发明对某一微博事件可以生成一份包含多条故事线的微博事件摘要，故事线中的节点内容为该时间段内最有代表性微博。通过多条故事线对事件的多个方面进行刻画，可以让用户更加高效、更加全面的了解某个微博事件。为了评估摘要的优劣，在n位置上的精度P@N被选作度量标准。本发明达到的精度基本上维持在0.6以上，明显优于现有方法。

Description

一种基于多故事线的微博事件摘要提取方法

技术领域

本发明涉及数据挖掘领域和自然语言处理领域，尤其是一种基于多故事线的微博事件摘要提取方法。

背景技术

随着互联网的迅猛发展,微博已经成为了流行的社会化网络中的一个典型应用。微博可以让用户在任何时间、任何地点发布短的消息(通常最大长度为140个中或英文字符),这种发布信息的方式降低了信息发布的壁垒,加快了信息传播的速度,从而使微博几乎成为了一种实时的发布应用。生活中的某些事件，会引起微博用户的广泛讨论，产生大量有关该事件的微博，这种事件便被称为微博事件。微博网站往往会收集这些微博的主题词，展示在热门微博列表中。但是这些微博主题词并不能让微博用户对这些微博事件有一个全面的理解,特别对于那些没有相关背景知识的微博用户。另外,微博用户为了弄明白这些微博事件的细节,就必须自己去阅读与该事件有关的很多微博,即面对大量过载信息，从而导致过高的时间代价。

一般而言，传统的摘要生成，主要从传统的文档数据出发，从文档中选择有代表性的句子作为文档的摘要，或者采用一些自然语言处理的算法对文档数据进行处理。事件摘要相对而言是一个新鲜的工作。但是对于事件的多文档摘要而言，这种忽略文档的时间信息只考虑文档内容的抽取方式不能很好的刻画事件的发展演化。

在近期的微博摘要研究中，时间轴成为了一种流行的展示形式。通过引入时间信息，让事件的发展演化得以更清晰的展示。然而，相对复杂的事件都会包含多个不同的方面，而一条时间轴则将事件的多个方面混为一个方面，不能很好的从多个方面刻画事件的发展演化。

发明内容

本发明的目的是提供一种对微博事件从多个方面进行摘要，使用户更高效、全面的了解其感兴趣的微博事件的基于多故事线的微博事件摘要提取方法。

本发明解决现有技术问题所采用的技术方案：一种基于多故事线的微博事件摘要提取方法，包括以下步骤：

S1、微博语料预处理：

采集包含所关注的微博事件的微博语料集，对所述微博语料集中的每条微博进行分词处理并去除标点符号得到每条微博的微博词语集，统计微博词语集中的词语个数，将词语个数少于第一预设阈值的微博及其微博词语集删除；将微博语料集中的剩余微博作为微博事件摘要提取集，提取微博事件摘要提取集中的每条微博的发布时间信息并对所述微博进行编号，将微博内容、微博的发布时间及微博编号存入字典数据库中；

S2、微博矢量化：

利用词嵌入技术将微博事件摘要提取集中每条微博所对应的微博词语集中的词语表示为词矢量的形式，得到每条微博所对应的微博词语矢量集；将每个微博词语矢量集中的词语矢量累加即得到每条微博的矢量表示；

S3、初步提取微博事件故事线：

A1、根据步骤S2得到的每条微博的矢量表示，随机选取其中任一微博的矢量表示作为一条微博事件故事线；

A2、从剩余微博中任取一条微博，分别计算该微博与已有的微博事件故事线的矢量相似度并提取出矢量相似度最大的微博事件故事线作为最大相似微博事件故事线；若该微博与最大相似微博事件故事线的矢量相似度大于第一阈值，则将该微博的矢量表示归入最大相似微博事件故事线中作为一条微博事件故事线，并将二者的矢量和作为该条微博事件故事线的矢量表示；若所述矢量相似度小于第一阈值，则将该微博作为新的微博事件故事线；

A3、重复步骤A2直至所有微博的矢量表示以微博事件故事线的形式输出；

S4、故事线合并：

B1、对于步骤S3中得到的微博事件故事线，任取一条微博事件故事线作为一条合并故事线；

B2、从剩余的微博事件故事线中任取一条微博事件故事线，分别计算该微博事件故事线与已有的合并故事线的矢量相似度并提取出矢量相似度最大的合并故事线作为最大相似合并故事线；若该微博事件故事线与最大相似合并故事线的矢量相似度大于第二阈值，则将该微博事件故事线的矢量表示归入最大相似合并故事线中作为一条合并故事线，并将二者的矢量和作为该合并故事线的矢量表示；若所述矢量相似度小于第二阈值，则随机生成一实数r，其中，0<＝r<＝1，若r小于第二阈值，则将该微博事件故事线单独作为一条合并故事线；否则，将该微博事件故事线归入最大相似合并故事线中作为合并故事线，并将二者的矢量和作为该合并故事线的矢量表示；

B3、重复步骤B2，直至每条微博事件故事线以合并故事线的形式输出；

S5、故事线重构：

将步骤S4获得的每条故事线中所包含的微博按照时间顺序进行排列，选取每个预设时间段内的代表性微博作为该故事线在每个时间段内节点的内容；选取代表性微博的方法如下：

提取每条故事线中发布时间在预设时间段内的所有微博，作为代表性微博提取集，将所述代表性微博提取集中所有微博的矢量形式进行加和得到所述代表性微博提取集的矢量表示；枚举代表性微博提取集中的每一条微博，计算该微博与代表性微博提取集的矢量夹角余弦值作为代表性微博相似度，将所得到代表性微博相似度值降序排列，选取前K个代表性微博相似度值所对应的微博作为该条故事线在预设时间段内的节点内容，其中K为自然数；

S6、展示摘要结果

利用Javascript在网页上将每条故事线以线状形式展示出来。

步骤S1中第一预设阈值为5。

步骤S3中，所述第一阈值为1/(1+n)，n为当前生成的微博事件故事线的数量。

步骤S4中，所述第二阈值为1/(1+m)，m为当前生成的合并故事线的数量。

步骤S2中将微博词语集中的词语表示为词矢量的具体方法为：对每条微博所对应的微博词语集中的词语，按照其在对应微博中出现的词频以二进制字符串的形式进行Huffman编码；建立一颗Huffman树，并用叶子节点来代表该词语，根节点到该叶子节点的路径表示该词的Huffman编码，节点间路径上的边值组成该词语的Huffman编码；对于每个词语定义一k维实数向量作为该词语的词矢量，k维实数向量的每维向量为一变量，并通过逻辑回归二元分类方法预测Huffman树中每个词语所在路径上每条边值的概率；逻辑回归二元分类方法的具体预测过程如下：

随机地产生一整数N，其中，1<＝N<＝L，L为第二预设阈值，对于Huffman编码为C的预测词语w，分别将预测词语w前后共2*N个词的词向量作为|C|个逻辑回归模型的输入。其中，|C|表示这个二进制字符串的长度，第i个逻辑回归模型的输出表示预测词语w的Huffman编码的第i位为1的概率；对于输入向量X的第i个逻辑回归模型的损失函数为：J(θ)＝-[C_i*logh_θ(X)+(1-C_i)*log(1-h_θ(X))],其中即采用sigmoid作为分类函数；C_i表示二进制字符串的第i位数值；

通过求导可得梯度下降公式为θ_j＝θ_j-α*(h_θ(X)-C_i)*X_j，X_j＝X_j-α*(h_θ(X)-C_i)*θ_j，其中，α为学习率，即步长，θ_j表示某个逻辑回归模型的参数，X_j表示词矢量θ_j，X_j同步更新；

最后将更新后的得到的输入向量作为该词的矢量表示。

步骤S1中，利用分词器对所述微博语料集中的每条微博进行分词处理，将所得到的分词词语存入微博词语集中，并使分词词语之间以空格分隔；利用正则表达式去掉微博中的标点符号。

将所得到的微博矢量、词语的Huffman编码、词语矢量存储至字典数据库中，并使微博矢量与其微博编号相对应，词语的Huffman编码与词语矢量相对应。

步骤S4中还包括提取故事线关键词，提取的方法为：遍历微博词语矢量集，通过词语矢量与每条故事线矢量的矢量夹角余弦值作为关键词相似度，将每条故事线与微博词语矢量集的关键词相似度做降序排列，选取排序在前K1个的关键词作为该故事线的关键词，其中K1为自然数。

本发明的有益效果在于：本发明利用词嵌入技术将微博矢量化，通过矢量余弦值获得微博间的相似度配合改进条件随机域方法，实现故事线的构建与合并，该方法既降低了聚类方法的复杂度，实现了启发式聚类的目的，又保留了微博信息；本发明对某一微博事件可以生成一份包含多条故事线的微博事件摘要，故事线中的节点内容为该时间段内最有代表性微博。通过多条故事线对事件的多个方面进行刻画，可以让用户更加高效、更加全面的了解某个微博事件。为了评估摘要的优劣，在n位置上的精度P@N被选作度量标准。本发明达到的精度基本上维持在0.6以上，明显优于现有方法。

附图说明

图1为本发明的总体流程图。

图2为本发明的微博事件摘要示意图。

图3为本发明的11.22青岛***事件结果展示示意图。

具体实施方式

以下结合附图及具体实施方式对本发明进行说明：

图1为本发明一种基于多故事线的微博事件摘要提取方法的总体流程图。如图1所示，本发明首先对微博语料进行预处理，之后对微博矢量化，然后利用对微博事件故事线进行初步提取，对故事线进行合并，对合并之后的故事线进行重构，最后将摘要结果以美观的方式展示。

一种基于多故事线的微博事件摘要提取方法，包括以下步骤：

S1、微博语料预处理：

采集包含有所关注的微博事件的微博语料集，对所述微博语料集中的每条微博使用公开的分词器进行分词处理并利用正则表达式去除标点符号，将分词后得到的分词词语作为微博词语集进行保存从而得到每条微博的微博词语集。优选将微博词语集中的各分词词语之间以空格分隔。对于分词之后词语少于某个数量的微博，其表述的内容相对匮乏，因此需要对这样的微博进行删除，具体方法是：统计微博词语集中的词语个数，将词语个数少于第一预设阈值的微博及其微博词语集删除，通常情况下选择5作为第一预设阈值；将微博语料集中的剩余微博作为微博事件摘要提取集，提取微博事件摘要提取集中的每条微博的发布时间信息并对这些微博进行编号，将微博内容、微博的发布时间及微博编号存入字典数据库中进行保存，以便通过微博编号，就可以快速的获取该微博的内容和该微博的发布时间。

S2、微博矢量化：

具体方法为：对每条微博所对应的微博词语集V中的词语，按照其在对应微博中出现的词频以二进制字符串的形式进行Huffman编码；建立一颗Huffman树，并用叶子节点来代表该词语，根节点到该叶子节点的路径表示该词的Huffman编码，节点间路径上的边值组成该词语的Huffman编码；对于每个词语定义一k维实数向量作为该词语的词矢量，k维实数向量的每维向量为一变量，并通过逻辑回归二元分类方法预测Huffman树中每个词语所在路径上每条边值的概率；由于Huffman树为二叉树，内部节点有(|V|-1)个，因此总共有(|V|-1)个逻辑回归模型.逻辑回归二元分类方法的具体预测过程如下：

通过求导可得梯度下降公式为θ_j＝θ_j-α*(h_θ(X)-C_i)*X_j，X_j＝X_j-α*(h_θ(X)-C_i)*θ_j，其中，α表示学习率(步长)，即每次下降多少，θ_j表示某个逻辑回归模型的参数，X_j表示词矢量θ_j，X_j同步更新；

最后将更新后的得到的输入向量作为该词的矢量表示。

将所得到的微博矢量、词语的Huffman编码、词语矢量存储至字典数据库中，并使微博矢量与其微博编号相对应，词语的Huffman编码与词语矢量相对应。以使得在需要对词语矢量及微博矢量进行遍历时，通过词语字符串可以快速获取该词语的矢量，通过微博编号可以快速获取该微博的矢量。

S3、初步提取微博事件故事线：该步骤的主要设计思路是通过微博矢量和已形成的故事线矢量的夹角余弦值来衡量微博与故事线的相似度。微博矢量与故事线矢量的矢量夹角余弦值越大，表明两者相似度越高，因此可将当前微博归入该条故事线中。具体步骤如下：

A1、根据步骤S2得到的每条微博的矢量表示，随机选取其中任一微博的矢量表示作为初始的一条微博事件故事线；

A2、从剩余微博中任取一条微博，分别计算该微博与已有的每条微博事件故事线的矢量相似度并提取出矢量相似度最大的微博事件故事线作为最大相似微博事件故事线。若该微博与最大相似微博事件故事线的矢量相似度大于第一阈值1/(1+n)，其中n表示当前微博事件故事线的数量，则将该微博的矢量表示归入最大相似微博事件故事线中作为一条微博事件故事线，并将二者的矢量和作为该微博事件故事线的矢量表示；若所述矢量相似度小于第一阈值1/(1+n)，则将该微博作为一条新的微博事件故事线；

A3、重复步骤A2直至所有微博的矢量表示以微博事件故事线的形式输出。

S4、故事线合并：

当微博数目较大时，步骤S3初步提取的微博故事线数目较多，对微博事件的刻画会过于细致，因此，我们需要对故事线进行进一步的合并。在这里，我们对条件随机域方法进行了另外一种改变。改变之后的条件随机域方法如下：

B1、对于步骤S3中得到的n条不同的微博事件故事线，任取一条微博事件故事线作为初始的一条合并故事线；

B2、从剩余的经步骤S3得到的微博事件故事线中任取一条微博事件故事线，分别计算该微博事件故事线与已有的合并故事线的矢量相似度并提取出矢量相似度最大的合并故事线作为最大相似合并故事线。若该微博事件故事线与最大相似合并故事线的矢量相似度大于第二阈值1/(1+m)，其中m表示当前合并故事线的数量，则将该微博事件故事线的矢量表示归入最大相似合并故事线中作为一条合并故事线,并将二者的矢量和作为该合并故事线的矢量表示；若所述矢量相似度小于第二阈值1/(1+m)，则随机生成一实数r，其中，0<＝r<＝1，若r小于第二阈值1/(1+m)，则将该微博事件故事线单独作为一条合并故事线；否则，将该微博事件故事线归入最大相似合并故事线中作为一条合并故事线，并将二者的矢量和作为该合并故事线的矢量表示；

B4、重复步骤B3，直至每条微博事件故事线以合并故事线的形式输出；

步骤S4中还包括提取故事线关键词，提取的方法为：遍历微博词语矢量集，通过词语矢量与每条故事线矢量的矢量夹角余弦值作为关键词相似度，将每条故事线与微博词语矢量集的关键词相似度做降序排列，选取排序在前K1个的关键词相似度所微博词语作为该故事线的关键词，其中K1为自然数。

S5、故事线重构

提取每条故事线中发布时间在预设时间段内的所有微博，作为代表性微博提取集，将代表性微博提取集中所有微博的矢量形式进行加和得到该代表性微博提取集的矢量表示；枚举代表性微博提取集中的每一条微博，计算该微博与代表性微博提取集的矢量夹角余弦值作为代表性微博相似度，将所得到代表性微博相似度值降序排列，选取前K个代表性微博相似度值所对应的微博作为该条故事线在预设时间段内的节点内容，其中K为自然数；

S6、展示摘要结果

利用Javascript在网页上将每条故事线以如图2所示的线状形式展示出来。用户可以通过浏览器查看摘要结果。用户点击节点时，会展示该节点所代表的微博。

实施例

为了详细的说明本方法的工作流程，下面结合具体实例，对本发明的具体流程进行介绍。

步骤1、微博语料预处理

现有关于青岛***的微博事件语料43152条，每条微博都包含该微博的发送时间。利用公开的分词器对语料进行分词处理，去掉标点符号。去掉分词之后词语数目少于5个的微博。对语料中剩余的微博，获取其时间信息，并对微博进行编号。通过字典数据库存储微博编号、微博内容、微博发布时间等信息。之后，通过微博编号可以快速的获取该微博的内容和该微博的发布时间。

步骤2、微博矢量化

利用词嵌入技术，将分词之后的词语矢量化。为了便于说明，我们这里把问题简化成对四个词训练，将词语矢量化为2维的矢量。假定某条微博为“青岛发生***事件”，分词之后共包含“青岛”“发生”“***”“事件”四个词语。将“青岛”“发生”“***”“事件”四个字分别随机初始化为(0.4,0.5)，(0.3,0.2)，(0.1,0.6)，(0.9,0.4)，通过词嵌入技术训练之后，得到(0.7,0.3)，(0.5,0.7)，(0.2,0.6)，(0.7,0.6)，通过累加该条微博所包含的词语的词矢量得到该条微博的矢量表示(2.1,2.2)。用字典结构存储微博编号、微博矢量、词语字符串、词语矢量等信息。之后通过词语字符串可以快速获取该词语的矢量，通过微博编号可以快速获取该微博的矢量。

步骤3、初步提取微博事件故事线

根据上述步骤S3、初步提取微博事件故事线的方法，通过对青岛***事件进行故事线提取，我们得到了17条故事线。

步骤4、故事线合并

对17条故事线进行合并，最终得到了3条故事线。如图3所示。

步骤5、故事线重构

将每条故事线包含的微博按照时间顺序排列，选取每个时间段内最有代表性的微博作为该故事线在每个时间段内节点的内容。选取规则如下：

求故事线L在时间段T所有微博的矢量和V_LT，枚举时间段T内的每一条微博，计算该微博W(矢量为V_W)与V_LT的相似度，选择相似度最高的前K条微博作为故事线L在时间段T的节点内容。

步骤6、展示摘要结果

利用Javascript技术创建展示结果，将重构之后的微博故事线，以形象直观

的方式展示，

用户可以通过浏览器查看摘要结果。用户点击节点时，会展示该节点所代表的微博(如图3所示)。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多故事线的微博事件摘要提取方法，其特征在于，包括以下步骤：

S1、微博语料预处理：

采集包含所关注的微博事件的微博语料集，对所述微博语料集中的每条微博进行分词处理并去除标点符号得到每条微博的微博词语集，统计微博词语集中的词语个数，将词语个数少于第一预设阈值的微博及其微博词语集删除；将微博语料集中的剩余微博作为微博事件摘要提取集，提取微博事件摘要提取集中的每条微博的发布时间信息并对所述微博进行编号，将微博内容、微博的发布时间、及微博编号存入字典数据库中；

S2、微博矢量化：

S3、初步提取微博事件故事线：

S4、故事线合并：

B2、从剩余的微博事件故事线中任取一条微博事件故事线，分别计算该微博事件故事线与已有的合并故事线的矢量相似度并提取出矢量相似度最大的合并故事线作为最大相似合并故事线；若该微博事件故事线与最大相似合并故事线的矢量相似度大于第二阈值，则将该微博事件故事线的矢量表示归入最大相似合并故事线中作为一条合并故事线，并将二者的矢量和作为该合并故事线的矢量表示；若所述矢量相似度小于第二阈值，则随机生成一实数r，其中，0〈＝r〈＝1，若r小于第二阈值，则将该微博事件故事线单独作为一条合并故事线；否则，将该微博事件故事线归入最大相似合并故事线中作为合并故事线，并将二者的矢量和作为该合并故事线的矢量表示；

S5、故事线重构：

将步骤S4获得的每条合并后的故事线中所包含的微博按照时间顺序进行排列，选取每个预设时间段内的代表性微博作为该故事线在每个时间段内节点的内容；选取代表性微博的方法如下：

S6、展示摘要结果：

利用Javascript在网页上将每条合并后的故事线以线状形式展示出来。

2.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法，其特征在于，步骤S1中第一预设阈值为5。

3.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法，其特征在于，步骤S3中，所述第一阈值为1/(1+n)，n为当前生成的微博事件故事线的数量。

4.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法，其特征在于，步骤S4中，所述第二阈值为1/(1+m)，m为当前生成的合并故事线的数量。

5.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法，其特征在于，步骤S2中将微博词语集中的词语表示为词矢量的具体方法为：对每条微博所对应的微博词语集中的词语，按照其在对应微博中出现的词频以二进制字符串的形式进行Huffman编码；建立一颗Huffman树，并用叶子节点来代表该词语，根节点到该叶子节点的路径表示该词的Huffman编码，节点间路径上的边值组成该词语的Huffman编码；对于每个词语定义一k维实数向量作为该词语的词矢量，k维实数向量的每维向量为一变量，并通过逻辑回归二元分类方法预测Huffman树中每个词语所在路径上每条边值的概率；逻辑回归二元分类方法的具体预测过程如下：

随机地产生一整数N，其中，1<＝N<＝L，L为第二预设阈值，对于Huffman编码为C的预测词语w，分别将预测词语w前后共2*N个词的词向量作为|C|个逻辑回归模型的输入；其中，|C|表示这个二进制字符串的长度，第i个逻辑回归模型的输出表示预测词语w的Huffman编码的第i位为1的概率；对于输入向量X的第i个逻辑回归模型的损失函数为：J(θ)＝-[C_i*logh_θ(X)+(1-C_i)*log(1-h_θ(X))],其中即采用sigmoid作为分类函数；C_i表示二进制字符串的第i位数值；

通过求导可得梯度下降公式为θ_j＝θ_j-α*(h_θ(X)-C_i)*X_j，X_j＝X_j-α*(h_θ(X)-C_i)*θ_j，其中，α为学习率，即步长，θ_j表示逻辑回归模型的参数，X_j表示词矢量，θ_j，X_j同步更新；

最后将更新后的输入向量作为该词的矢量表示。

6.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法，其特征在于，步骤S1中，利用分词器对所述微博语料集中的每条微博进行分词处理，将所得到的分词词语存入微博词语集中，并使分词词语之间以空格分隔；利用正则表达式去掉微博中的标点符号。

7.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法，其特征在于，将所得到的微博矢量、词语的Huffman编码、词语矢量存储至字典数据库中，并使微博矢量与其微博编号相对应，词语的Huffman编码与词语矢量相对应。

8.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法，其特征在于，步骤S4中还包括提取故事线关键词，提取的方法为：遍历微博词语矢量集，通过词语矢量与每条故事线矢量的矢量夹角余弦值作为关键词相似度，将每条故事线与微博词语矢量集的关键词相似度做降序排列，选取排序在前K1个的关键词作为该故事线的关键词，其中K1为自然数。