CN105787121B - 一种基于多故事线的微博事件摘要提取方法 - Google Patents
一种基于多故事线的微博事件摘要提取方法 Download PDFInfo
- Publication number
- CN105787121B CN105787121B CN201610179286.3A CN201610179286A CN105787121B CN 105787121 B CN105787121 B CN 105787121B CN 201610179286 A CN201610179286 A CN 201610179286A CN 105787121 B CN105787121 B CN 105787121B
- Authority
- CN
- China
- Prior art keywords
- microblogging
- story line
- word
- vector
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 163
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 239000000463 material Substances 0.000 claims abstract description 9
- 238000013139 quantization Methods 0.000 claims abstract description 8
- 239000012141 concentrate Substances 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 238000007477 logistic regression Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000009795 derivation Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000004880 explosion Methods 0.000 description 3
- 239000002360 explosive Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于多故事线的微博事件摘要提取方法,包括:S1、微博语料预处理;S2、微博矢量化;S3、初步提取微博事件故事线;S4、故事线合并;S5、故事线重构;S6、展示摘要结果。本发明利用词嵌入技术将微博矢量化,通过矢量余弦值获得微博间的相似度配合改进条件随机域方法,实现故事线的构建与合并;本发明对某一微博事件可以生成一份包含多条故事线的微博事件摘要,故事线中的节点内容为该时间段内最有代表性微博。通过多条故事线对事件的多个方面进行刻画,可以让用户更加高效、更加全面的了解某个微博事件。为了评估摘要的优劣,在n位置上的精度P@N被选作度量标准。本发明达到的精度基本上维持在0.6以上,明显优于现有方法。
Description
技术领域
本发明涉及数据挖掘领域和自然语言处理领域,尤其是一种基于多故事线的微博事件摘要提取方法。
背景技术
随着互联网的迅猛发展,微博已经成为了流行的社会化网络中的一个典型应用。微博可以让用户在任何时间、任何地点发布短的消息(通常最大长度为140个中或英文字符),这种发布信息的方式降低了信息发布的壁垒,加快了信息传播的速度,从而使微博几乎成为了一种实时的发布应用。生活中的某些事件,会引起微博用户的广泛讨论,产生大量有关该事件的微博,这种事件便被称为微博事件。微博网站往往会收集这些微博的主题词,展示在热门微博列表中。但是这些微博主题词并不能让微博用户对这些微博事件有一个全面的理解,特别对于那些没有相关背景知识的微博用户。另外,微博用户为了弄明白这些微博事件的细节,就必须自己去阅读与该事件有关的很多微博,即面对大量过载信息,从而导致过高的时间代价。
一般而言,传统的摘要生成,主要从传统的文档数据出发,从文档中选择有代表性的句子作为文档的摘要,或者采用一些自然语言处理的算法对文档数据进行处理。事件摘要相对而言是一个新鲜的工作。但是对于事件的多文档摘要而言,这种忽略文档的时间信息只考虑文档内容的抽取方式不能很好的刻画事件的发展演化。
在近期的微博摘要研究中,时间轴成为了一种流行的展示形式。通过引入时间信息,让事件的发展演化得以更清晰的展示。然而,相对复杂的事件都会包含多个不同的方面,而一条时间轴则将事件的多个方面混为一个方面,不能很好的从多个方面刻画事件的发展演化。
发明内容
本发明的目的是提供一种对微博事件从多个方面进行摘要,使用户更高效、全面的了解其感兴趣的微博事件的基于多故事线的微博事件摘要提取方法。
本发明解决现有技术问题所采用的技术方案:一种基于多故事线的微博事件摘要提取方法,包括以下步骤:
S1、微博语料预处理:
采集包含所关注的微博事件的微博语料集,对所述微博语料集中的每条微博进行分词处理并去除标点符号得到每条微博的微博词语集,统计微博词语集中的词语个数,将词语个数少于第一预设阈值的微博及其微博词语集删除;将微博语料集中的剩余微博作为微博事件摘要提取集,提取微博事件摘要提取集中的每条微博的发布时间信息并对所述微博进行编号,将微博内容、微博的发布时间及微博编号存入字典数据库中;
S2、微博矢量化:
利用词嵌入技术将微博事件摘要提取集中每条微博所对应的微博词语集中的词语表示为词矢量的形式,得到每条微博所对应的微博词语矢量集;将每个微博词语矢量集中的词语矢量累加即得到每条微博的矢量表示;
S3、初步提取微博事件故事线:
A1、根据步骤S2得到的每条微博的矢量表示,随机选取其中任一微博的矢量表示作为一条微博事件故事线;
A2、从剩余微博中任取一条微博,分别计算该微博与已有的微博事件故事线的矢量相似度并提取出矢量相似度最大的微博事件故事线作为最大相似微博事件故事线;若该微博与最大相似微博事件故事线的矢量相似度大于第一阈值,则将该微博的矢量表示归入最大相似微博事件故事线中作为一条微博事件故事线,并将二者的矢量和作为该条微博事件故事线的矢量表示;若所述矢量相似度小于第一阈值,则将该微博作为新的微博事件故事线;
A3、重复步骤A2直至所有微博的矢量表示以微博事件故事线的形式输出;
S4、故事线合并:
B1、对于步骤S3中得到的微博事件故事线,任取一条微博事件故事线作为一条合并故事线;
B2、从剩余的微博事件故事线中任取一条微博事件故事线,分别计算该微博事件故事线与已有的合并故事线的矢量相似度并提取出矢量相似度最大的合并故事线作为最大相似合并故事线;若该微博事件故事线与最大相似合并故事线的矢量相似度大于第二阈值,则将该微博事件故事线的矢量表示归入最大相似合并故事线中作为一条合并故事线,并将二者的矢量和作为该合并故事线的矢量表示;若所述矢量相似度小于第二阈值,则随机生成一实数r,其中,0<=r<=1,若r小于第二阈值,则将该微博事件故事线单独作为一条合并故事线;否则,将该微博事件故事线归入最大相似合并故事线中作为合并故事线,并将二者的矢量和作为该合并故事线的矢量表示;
B3、重复步骤B2,直至每条微博事件故事线以合并故事线的形式输出;
S5、故事线重构:
将步骤S4获得的每条故事线中所包含的微博按照时间顺序进行排列,选取每个预设时间段内的代表性微博作为该故事线在每个时间段内节点的内容;选取代表性微博的方法如下:
提取每条故事线中发布时间在预设时间段内的所有微博,作为代表性微博提取集,将所述代表性微博提取集中所有微博的矢量形式进行加和得到所述代表性微博提取集的矢量表示;枚举代表性微博提取集中的每一条微博,计算该微博与代表性微博提取集的矢量夹角余弦值作为代表性微博相似度,将所得到代表性微博相似度值降序排列,选取前K个代表性微博相似度值所对应的微博作为该条故事线在预设时间段内的节点内容,其中K为自然数;
S6、展示摘要结果
利用Javascript在网页上将每条故事线以线状形式展示出来。
步骤S1中第一预设阈值为5。
步骤S3中,所述第一阈值为1/(1+n),n为当前生成的微博事件故事线的数量。
步骤S4中,所述第二阈值为1/(1+m),m为当前生成的合并故事线的数量。
步骤S2中将微博词语集中的词语表示为词矢量的具体方法为:对每条微博所对应的微博词语集中的词语,按照其在对应微博中出现的词频以二进制字符串的形式进行Huffman编码;建立一颗Huffman树,并用叶子节点来代表该词语,根节点到该叶子节点的路径表示该词的Huffman编码,节点间路径上的边值组成该词语的Huffman编码;对于每个词语定义一k维实数向量作为该词语的词矢量,k维实数向量的每维向量为一变量,并通过逻辑回归二元分类方法预测Huffman树中每个词语所在路径上每条边值的概率;逻辑回归二元分类方法的具体预测过程如下:
随机地产生一整数N,其中,1<=N<=L,L为第二预设阈值,对于Huffman编码为C的预测词语w,分别将预测词语w前后共2*N个词的词向量作为|C|个逻辑回归模型的输入。其中,|C|表示这个二进制字符串的长度,第i个逻辑回归模型的输出表示预测词语w的Huffman编码的第i位为1的概率;对于输入向量X的第i个逻辑回归模型的损失函数为:J(θ)=-[Ci*loghθ(X)+(1-Ci)*log(1-hθ(X))],其中即采用sigmoid作为分类函数;Ci表示二进制字符串的第i位数值;
通过求导可得梯度下降公式为θj=θj-α*(hθ(X)-Ci)*Xj,Xj=Xj-α*(hθ(X)-Ci)*θj,其中,α为学习率,即步长,θj表示某个逻辑回归模型的参数,Xj表示词矢量θj,Xj同步更新;
最后将更新后的得到的输入向量作为该词的矢量表示。
步骤S1中,利用分词器对所述微博语料集中的每条微博进行分词处理,将所得到的分词词语存入微博词语集中,并使分词词语之间以空格分隔;利用正则表达式去掉微博中的标点符号。
将所得到的微博矢量、词语的Huffman编码、词语矢量存储至字典数据库中,并使微博矢量与其微博编号相对应,词语的Huffman编码与词语矢量相对应。
步骤S4中还包括提取故事线关键词,提取的方法为:遍历微博词语矢量集,通过词语矢量与每条故事线矢量的矢量夹角余弦值作为关键词相似度,将每条故事线与微博词语矢量集的关键词相似度做降序排列,选取排序在前K1个的关键词作为该故事线的关键词,其中K1为自然数。
本发明的有益效果在于:本发明利用词嵌入技术将微博矢量化,通过矢量余弦值获得微博间的相似度配合改进条件随机域方法,实现故事线的构建与合并,该方法既降低了聚类方法的复杂度,实现了启发式聚类的目的,又保留了微博信息;本发明对某一微博事件可以生成一份包含多条故事线的微博事件摘要,故事线中的节点内容为该时间段内最有代表性微博。通过多条故事线对事件的多个方面进行刻画,可以让用户更加高效、更加全面的了解某个微博事件。为了评估摘要的优劣,在n位置上的精度P@N被选作度量标准。本发明达到的精度基本上维持在0.6以上,明显优于现有方法。
附图说明
图1为本发明的总体流程图。
图2为本发明的微博事件摘要示意图。
图3为本发明的11.22青岛***事件结果展示示意图。
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
图1为本发明一种基于多故事线的微博事件摘要提取方法的总体流程图。如图1所示,本发明首先对微博语料进行预处理,之后对微博矢量化,然后利用对微博事件故事线进行初步提取,对故事线进行合并,对合并之后的故事线进行重构,最后将摘要结果以美观的方式展示。
一种基于多故事线的微博事件摘要提取方法,包括以下步骤:
S1、微博语料预处理:
采集包含有所关注的微博事件的微博语料集,对所述微博语料集中的每条微博使用公开的分词器进行分词处理并利用正则表达式去除标点符号,将分词后得到的分词词语作为微博词语集进行保存从而得到每条微博的微博词语集。优选将微博词语集中的各分词词语之间以空格分隔。对于分词之后词语少于某个数量的微博,其表述的内容相对匮乏,因此需要对这样的微博进行删除,具体方法是:统计微博词语集中的词语个数,将词语个数少于第一预设阈值的微博及其微博词语集删除,通常情况下选择5作为第一预设阈值;将微博语料集中的剩余微博作为微博事件摘要提取集,提取微博事件摘要提取集中的每条微博的发布时间信息并对这些微博进行编号,将微博内容、微博的发布时间及微博编号存入字典数据库中进行保存,以便通过微博编号,就可以快速的获取该微博的内容和该微博的发布时间。
S2、微博矢量化:
利用词嵌入技术将微博事件摘要提取集中每条微博所对应的微博词语集中的词语表示为词矢量的形式,得到每条微博所对应的微博词语矢量集;将每个微博词语矢量集中的词语矢量累加即得到每条微博的矢量表示;
具体方法为:对每条微博所对应的微博词语集V中的词语,按照其在对应微博中出现的词频以二进制字符串的形式进行Huffman编码;建立一颗Huffman树,并用叶子节点来代表该词语,根节点到该叶子节点的路径表示该词的Huffman编码,节点间路径上的边值组成该词语的Huffman编码;对于每个词语定义一k维实数向量作为该词语的词矢量,k维实数向量的每维向量为一变量,并通过逻辑回归二元分类方法预测Huffman树中每个词语所在路径上每条边值的概率;由于Huffman树为二叉树,内部节点有(|V|-1)个,因此总共有(|V|-1)个逻辑回归模型.逻辑回归二元分类方法的具体预测过程如下:
随机地产生一整数N,其中,1<=N<=L,L为第二预设阈值,对于Huffman编码为C的预测词语w,分别将预测词语w前后共2*N个词的词向量作为|C|个逻辑回归模型的输入。其中,|C|表示这个二进制字符串的长度,第i个逻辑回归模型的输出表示预测词语w的Huffman编码的第i位为1的概率;对于输入向量X的第i个逻辑回归模型的损失函数为:J(θ)=-[Ci*loghθ(X)+(1-Ci)*log(1-hθ(X))],其中即采用sigmoid作为分类函数;Ci表示二进制字符串的第i位数值;
通过求导可得梯度下降公式为θj=θj-α*(hθ(X)-Ci)*Xj,Xj=Xj-α*(hθ(X)-Ci)*θj,其中,α表示学习率(步长),即每次下降多少,θj表示某个逻辑回归模型的参数,Xj表示词矢量θj,Xj同步更新;
最后将更新后的得到的输入向量作为该词的矢量表示。
将所得到的微博矢量、词语的Huffman编码、词语矢量存储至字典数据库中,并使微博矢量与其微博编号相对应,词语的Huffman编码与词语矢量相对应。以使得在需要对词语矢量及微博矢量进行遍历时,通过词语字符串可以快速获取该词语的矢量,通过微博编号可以快速获取该微博的矢量。
S3、初步提取微博事件故事线:该步骤的主要设计思路是通过微博矢量和已形成的故事线矢量的夹角余弦值来衡量微博与故事线的相似度。微博矢量与故事线矢量的矢量夹角余弦值越大,表明两者相似度越高,因此可将当前微博归入该条故事线中。具体步骤如下:
A1、根据步骤S2得到的每条微博的矢量表示,随机选取其中任一微博的矢量表示作为初始的一条微博事件故事线;
A2、从剩余微博中任取一条微博,分别计算该微博与已有的每条微博事件故事线的矢量相似度并提取出矢量相似度最大的微博事件故事线作为最大相似微博事件故事线。若该微博与最大相似微博事件故事线的矢量相似度大于第一阈值1/(1+n),其中n表示当前微博事件故事线的数量,则将该微博的矢量表示归入最大相似微博事件故事线中作为一条微博事件故事线,并将二者的矢量和作为该微博事件故事线的矢量表示;若所述矢量相似度小于第一阈值1/(1+n),则将该微博作为一条新的微博事件故事线;
A3、重复步骤A2直至所有微博的矢量表示以微博事件故事线的形式输出。
S4、故事线合并:
当微博数目较大时,步骤S3初步提取的微博故事线数目较多,对微博事件的刻画会过于细致,因此,我们需要对故事线进行进一步的合并。在这里,我们对条件随机域方法进行了另外一种改变。改变之后的条件随机域方法如下:
B1、对于步骤S3中得到的n条不同的微博事件故事线,任取一条微博事件故事线作为初始的一条合并故事线;
B2、从剩余的经步骤S3得到的微博事件故事线中任取一条微博事件故事线,分别计算该微博事件故事线与已有的合并故事线的矢量相似度并提取出矢量相似度最大的合并故事线作为最大相似合并故事线。若该微博事件故事线与最大相似合并故事线的矢量相似度大于第二阈值1/(1+m),其中m表示当前合并故事线的数量,则将该微博事件故事线的矢量表示归入最大相似合并故事线中作为一条合并故事线,并将二者的矢量和作为该合并故事线的矢量表示;若所述矢量相似度小于第二阈值1/(1+m),则随机生成一实数r,其中,0<=r<=1,若r小于第二阈值1/(1+m),则将该微博事件故事线单独作为一条合并故事线;否则,将该微博事件故事线归入最大相似合并故事线中作为一条合并故事线,并将二者的矢量和作为该合并故事线的矢量表示;
B4、重复步骤B3,直至每条微博事件故事线以合并故事线的形式输出;
步骤S4中还包括提取故事线关键词,提取的方法为:遍历微博词语矢量集,通过词语矢量与每条故事线矢量的矢量夹角余弦值作为关键词相似度,将每条故事线与微博词语矢量集的关键词相似度做降序排列,选取排序在前K1个的关键词相似度所微博词语作为该故事线的关键词,其中K1为自然数。
S5、故事线重构
将步骤S4获得的每条故事线中所包含的微博按照时间顺序进行排列,选取每个预设时间段内的代表性微博作为该故事线在每个时间段内节点的内容;选取代表性微博的方法如下:
提取每条故事线中发布时间在预设时间段内的所有微博,作为代表性微博提取集,将代表性微博提取集中所有微博的矢量形式进行加和得到该代表性微博提取集的矢量表示;枚举代表性微博提取集中的每一条微博,计算该微博与代表性微博提取集的矢量夹角余弦值作为代表性微博相似度,将所得到代表性微博相似度值降序排列,选取前K个代表性微博相似度值所对应的微博作为该条故事线在预设时间段内的节点内容,其中K为自然数;
S6、展示摘要结果
利用Javascript在网页上将每条故事线以如图2所示的线状形式展示出来。用户可以通过浏览器查看摘要结果。用户点击节点时,会展示该节点所代表的微博。
实施例
为了详细的说明本方法的工作流程,下面结合具体实例,对本发明的具体流程进行介绍。
步骤1、微博语料预处理
现有关于青岛***的微博事件语料43152条,每条微博都包含该微博的发送时间。利用公开的分词器对语料进行分词处理,去掉标点符号。去掉分词之后词语数目少于5个的微博。对语料中剩余的微博,获取其时间信息,并对微博进行编号。通过字典数据库存储微博编号、微博内容、微博发布时间等信息。之后,通过微博编号可以快速的获取该微博的内容和该微博的发布时间。
步骤2、微博矢量化
利用词嵌入技术,将分词之后的词语矢量化。为了便于说明,我们这里把问题简化成对四个词训练,将词语矢量化为2维的矢量。假定某条微博为“青岛发生***事件”,分词之后共包含“青岛”“发生”“***”“事件”四个词语。将“青岛”“发生”“***”“事件”四个字分别随机初始化为(0.4,0.5),(0.3,0.2),(0.1,0.6),(0.9,0.4),通过词嵌入技术训练之后,得到(0.7,0.3),(0.5,0.7),(0.2,0.6),(0.7,0.6),通过累加该条微博所包含的词语的词矢量得到该条微博的矢量表示(2.1,2.2)。用字典结构存储微博编号、微博矢量、词语字符串、词语矢量等信息。之后通过词语字符串可以快速获取该词语的矢量,通过微博编号可以快速获取该微博的矢量。
步骤3、初步提取微博事件故事线
根据上述步骤S3、初步提取微博事件故事线的方法,通过对青岛***事件进行故事线提取,我们得到了17条故事线。
步骤4、故事线合并
对17条故事线进行合并,最终得到了3条故事线。如图3所示。
步骤5、故事线重构
将每条故事线包含的微博按照时间顺序排列,选取每个时间段内最有代表性的微博作为该故事线在每个时间段内节点的内容。选取规则如下:
求故事线L在时间段T所有微博的矢量和VLT,枚举时间段T内的每一条微博,计算该微博W(矢量为VW)与VLT的相似度,选择相似度最高的前K条微博作为故事线L在时间段T的节点内容。
步骤6、展示摘要结果
利用Javascript技术创建展示结果,将重构之后的微博故事线,以形象直观
的方式展示,
用户可以通过浏览器查看摘要结果。用户点击节点时,会展示该节点所代表的微博(如图3所示)。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
1.一种基于多故事线的微博事件摘要提取方法,其特征在于,包括以下步骤:
S1、微博语料预处理:
采集包含所关注的微博事件的微博语料集,对所述微博语料集中的每条微博进行分词处理并去除标点符号得到每条微博的微博词语集,统计微博词语集中的词语个数,将词语个数少于第一预设阈值的微博及其微博词语集删除;将微博语料集中的剩余微博作为微博事件摘要提取集,提取微博事件摘要提取集中的每条微博的发布时间信息并对所述微博进行编号,将微博内容、微博的发布时间、及微博编号存入字典数据库中;
S2、微博矢量化:
利用词嵌入技术将微博事件摘要提取集中每条微博所对应的微博词语集中的词语表示为词矢量的形式,得到每条微博所对应的微博词语矢量集;将每个微博词语矢量集中的词语矢量累加即得到每条微博的矢量表示;
S3、初步提取微博事件故事线:
A1、根据步骤S2得到的每条微博的矢量表示,随机选取其中任一微博的矢量表示作为一条微博事件故事线;
A2、从剩余微博中任取一条微博,分别计算该微博与已有的微博事件故事线的矢量相似度并提取出矢量相似度最大的微博事件故事线作为最大相似微博事件故事线;若该微博与最大相似微博事件故事线的矢量相似度大于第一阈值,则将该微博的矢量表示归入最大相似微博事件故事线中作为一条微博事件故事线,并将二者的矢量和作为该条微博事件故事线的矢量表示;若所述矢量相似度小于第一阈值,则将该微博作为新的微博事件故事线;
A3、重复步骤A2直至所有微博的矢量表示以微博事件故事线的形式输出;
S4、故事线合并:
B1、对于步骤S3中得到的微博事件故事线,任取一条微博事件故事线作为一条合并故事线;
B2、从剩余的微博事件故事线中任取一条微博事件故事线,分别计算该微博事件故事线与已有的合并故事线的矢量相似度并提取出矢量相似度最大的合并故事线作为最大相似合并故事线;若该微博事件故事线与最大相似合并故事线的矢量相似度大于第二阈值,则将该微博事件故事线的矢量表示归入最大相似合并故事线中作为一条合并故事线,并将二者的矢量和作为该合并故事线的矢量表示;若所述矢量相似度小于第二阈值,则随机生成一实数r,其中,0〈=r〈=1,若r小于第二阈值,则将该微博事件故事线单独作为一条合并故事线;否则,将该微博事件故事线归入最大相似合并故事线中作为合并故事线,并将二者的矢量和作为该合并故事线的矢量表示;
B3、重复步骤B2,直至每条微博事件故事线以合并故事线的形式输出;
S5、故事线重构:
将步骤S4获得的每条合并后的故事线中所包含的微博按照时间顺序进行排列,选取每个预设时间段内的代表性微博作为该故事线在每个时间段内节点的内容;选取代表性微博的方法如下:
提取每条故事线中发布时间在预设时间段内的所有微博,作为代表性微博提取集,将所述代表性微博提取集中所有微博的矢量形式进行加和得到所述代表性微博提取集的矢量表示;枚举代表性微博提取集中的每一条微博,计算该微博与代表性微博提取集的矢量夹角余弦值作为代表性微博相似度,将所得到代表性微博相似度值降序排列,选取前K个代表性微博相似度值所对应的微博作为该条故事线在预设时间段内的节点内容,其中K为自然数;
S6、展示摘要结果:
利用Javascript在网页上将每条合并后的故事线以线状形式展示出来。
2.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法,其特征在于,步骤S1中第一预设阈值为5。
3.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法,其特征在于,步骤S3中,所述第一阈值为1/(1+n),n为当前生成的微博事件故事线的数量。
4.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法,其特征在于,步骤S4中,所述第二阈值为1/(1+m),m为当前生成的合并故事线的数量。
5.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法,其特征在于,步骤S2中将微博词语集中的词语表示为词矢量的具体方法为:对每条微博所对应的微博词语集中的词语,按照其在对应微博中出现的词频以二进制字符串的形式进行Huffman编码;建立一颗Huffman树,并用叶子节点来代表该词语,根节点到该叶子节点的路径表示该词的Huffman编码,节点间路径上的边值组成该词语的Huffman编码;对于每个词语定义一k维实数向量作为该词语的词矢量,k维实数向量的每维向量为一变量,并通过逻辑回归二元分类方法预测Huffman树中每个词语所在路径上每条边值的概率;逻辑回归二元分类方法的具体预测过程如下:
随机地产生一整数N,其中,1<=N<=L,L为第二预设阈值,对于Huffman编码为C的预测词语w,分别将预测词语w前后共2*N个词的词向量作为|C|个逻辑回归模型的输入;其中,|C|表示这个二进制字符串的长度,第i个逻辑回归模型的输出表示预测词语w的Huffman编码的第i位为1的概率;对于输入向量X的第i个逻辑回归模型的损失函数为:J(θ)=-[Ci*loghθ(X)+(1-Ci)*log(1-hθ(X))],其中即采用sigmoid作为分类函数;Ci表示二进制字符串的第i位数值;
通过求导可得梯度下降公式为θj=θj-α*(hθ(X)-Ci)*Xj,Xj=Xj-α*(hθ(X)-Ci)*θj,其中,α为学习率,即步长,θj表示逻辑回归模型的参数,Xj表示词矢量,θj,Xj同步更新;
最后将更新后的输入向量作为该词的矢量表示。
6.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法,其特征在于,步骤S1中,利用分词器对所述微博语料集中的每条微博进行分词处理,将所得到的分词词语存入微博词语集中,并使分词词语之间以空格分隔;利用正则表达式去掉微博中的标点符号。
7.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法,其特征在于,将所得到的微博矢量、词语的Huffman编码、词语矢量存储至字典数据库中,并使微博矢量与其微博编号相对应,词语的Huffman编码与词语矢量相对应。
8.根据权利要求1所述的一种基于多故事线的微博事件摘要提取方法,其特征在于,步骤S4中还包括提取故事线关键词,提取的方法为:遍历微博词语矢量集,通过词语矢量与每条故事线矢量的矢量夹角余弦值作为关键词相似度,将每条故事线与微博词语矢量集的关键词相似度做降序排列,选取排序在前K1个的关键词作为该故事线的关键词,其中K1为自然数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179286.3A CN105787121B (zh) | 2016-03-25 | 2016-03-25 | 一种基于多故事线的微博事件摘要提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179286.3A CN105787121B (zh) | 2016-03-25 | 2016-03-25 | 一种基于多故事线的微博事件摘要提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105787121A CN105787121A (zh) | 2016-07-20 |
CN105787121B true CN105787121B (zh) | 2018-08-14 |
Family
ID=56391724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610179286.3A Active CN105787121B (zh) | 2016-03-25 | 2016-03-25 | 一种基于多故事线的微博事件摘要提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105787121B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815310B (zh) * | 2016-12-20 | 2020-04-21 | 华南师范大学 | 一种对海量文档集的层次聚类方法及*** |
CN109726726B (zh) * | 2017-10-27 | 2023-06-20 | 北京邮电大学 | 视频中的事件检测方法及装置 |
CN108062796B (zh) * | 2017-11-24 | 2021-02-12 | 山东大学 | 基于移动终端的手工制品与虚拟现实体验***及方法 |
CN108280772B (zh) * | 2018-01-24 | 2022-02-18 | 北京航空航天大学 | 社交网络中基于事件关联的故事脉络生成方法 |
CN109146999B (zh) * | 2018-08-20 | 2020-12-01 | 浙江大学 | 一种故事线可视化布局的增强方法 |
CN109657071B (zh) * | 2018-12-13 | 2020-12-01 | 北京锐安科技有限公司 | 词汇预测方法、装置、设备和计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646114A (zh) * | 2012-02-17 | 2012-08-22 | 清华大学 | 一种基于突破点的新闻话题时间线摘要生成方法 |
CN105005590A (zh) * | 2015-06-29 | 2015-10-28 | 北京信息科技大学 | 一种信息媒介的专题阶段性摘要的生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8849462B2 (en) * | 2009-12-02 | 2014-09-30 | Velvetwire Llc | Method and apparatus for automation of a programmable device |
-
2016
- 2016-03-25 CN CN201610179286.3A patent/CN105787121B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646114A (zh) * | 2012-02-17 | 2012-08-22 | 清华大学 | 一种基于突破点的新闻话题时间线摘要生成方法 |
CN105005590A (zh) * | 2015-06-29 | 2015-10-28 | 北京信息科技大学 | 一种信息媒介的专题阶段性摘要的生成方法 |
Non-Patent Citations (1)
Title |
---|
基于时间轴和搜索引擎的电子健康档案交互使用实践;余增华等;《信息技术应用》;20141031;第11卷(第5期);第483-488页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105787121A (zh) | 2016-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105787121B (zh) | 一种基于多故事线的微博事件摘要提取方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与*** | |
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
Zhang et al. | Encoding conversation context for neural keyphrase extraction from microblog posts | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
CN101727500A (zh) | 一种基于流聚类的中文网页文本分类方法 | |
CN108197144B (zh) | 一种基于BTM和Single-pass的热点话题发现方法 | |
CN103390051A (zh) | 一种基于微博数据的话题发现与追踪方法 | |
CN107577671A (zh) | 一种基于多特征融合的主题词提取方法 | |
CN104504024B (zh) | 基于微博内容的关键词挖掘方法及*** | |
CN110457711B (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类***及方法 | |
Dovgopol et al. | Twitter hash tag recommendation | |
CN116050397A (zh) | 一种长文本摘要生成方法、***、设备及存储介质 | |
Saha et al. | Sentiment Classification in Bengali News Comments using a hybrid approach with Glove | |
Fernandes et al. | Analysis of product Twitter data though opinion mining | |
Yu et al. | Exploiting structured news information to improve event detection via dual-level clustering | |
CN108595466B (zh) | 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法 | |
Munot et al. | Conceptual framework for abstractive text summarization | |
CN108710650B (zh) | 一种针对论坛文本的主题挖掘方法 | |
CN107807918A (zh) | 泰语词语识别的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |