CN104536956A - 一种基于微博平台的事件可视化方法及*** - Google Patents

一种基于微博平台的事件可视化方法及*** Download PDF

Info

Publication number
CN104536956A
CN104536956A CN201410354273.6A CN201410354273A CN104536956A CN 104536956 A CN104536956 A CN 104536956A CN 201410354273 A CN201410354273 A CN 201410354273A CN 104536956 A CN104536956 A CN 104536956A
Authority
CN
China
Prior art keywords
microblogging
microblog
event
word
time range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410354273.6A
Other languages
English (en)
Inventor
曹娟
储达峰
周兴
张勇东
谢菲
苏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XINHUA NEWS AGENCY
Institute of Computing Technology of CAS
Original Assignee
XINHUA NEWS AGENCY
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XINHUA NEWS AGENCY, Institute of Computing Technology of CAS filed Critical XINHUA NEWS AGENCY
Priority to CN201410354273.6A priority Critical patent/CN104536956A/zh
Publication of CN104536956A publication Critical patent/CN104536956A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于微博平台的事件可视化方法及***,本发明涉及信息抽取及可视化技术,该方法包括根据该事件的关键词和时间范围,通过该微博平台的事件搜索接口,检索与该事件相关的该时间范围内的微博;将该微博按照时间进行排序,生成一个微博集合;该微博集合通过聚类算法,生成多个聚类子集;对该多个聚类子集进行关键词抽取,生成多个词云,并将重复出现在该多个词云中的该关键词赋予相同的颜色、位置、旋转方式;通过将每个该聚类子集和与其相对应的该词云进行展示的方式,将该事件进行可视化展示。依托微博平台,通过事件关键词对相关的微博进行采集,可以全面的获取关于某个事件的微博信息。

Description

一种基于微博平台的事件可视化方法及***
技术领域
本发明涉及信息抽取及可视化技术,特别涉及一种基于微博平台的事件可视化方法及***。
背景技术
随着互联网的飞速发展,近年来各种社交媒体应运而生,常见的有Facebook(脸书)、Twitter(推特)、新浪微博、人人网,其中以Twitter、新浪微博为代表的微博平台以其开放的信息分享及传播特性成为当前热门的互联网应用。
微博,即微博客(Microblog)的简称,用户可以在平台上随时随地发布140字以内的文字、图片、视频等信息。微博具有原创性、时效性、碎片性、重复性等特点。在微博平台当中,用户可以搜索查看自己感兴趣的话题,浏览话题相关的内容并参与话题内容的讨论。但是由于在微博平台当中,充斥着大量关于某一个事件的相关微博,同时因为微博的短文本特性,这带来了发布信息碎片化、难理解等问题。发布信息参差不齐在微博平台是一个十分显著的现象。正是因为上述的各种原因,使得用户对很难在短时间内快速了解一个事件的发展动态,使用户交互体验变差。
在现有微博事件可视化的技术当中,一般简单对事件相关的微博按时间进行排序,将最近时间段内的微博展示给用户,也有按微博的热度进行排序,将热门的微博展示给用户,另外还有方法通过选择一定时间范围内的微博进行时间或者热度排序的展示。以上这些展示方法均为对原始微博内容的直接展示,具有多方面的不足之处。第一,由于网络信息量呈***式增长,传统的对原始微博进行可视化展示的方法很难让用户快速的获取事件相关的信息内容;第二,由于微博的短文本特性,微博发布信息质量参差不齐,微博口语化的问题使得用户很难快速理解微博的内容,而要从微博文本中挖掘关于事件的重要信息更是大海捞针。
在事件可视化方法当中,有一类是对事件的所有文本信息,进行关键词抽取,然后对抽取的关键词通过一个词云来展示。这种方式,可以让微博用户从主要的关键词当中了解事件主要的话题,但是微博用户并不能对事件的各个子事件及事件的发展演变有一个直观的了解。
另外一些可视化的方式通过抽取事件当中的人物、地点、事件摘要句,将它们作为事件发展的节点信息,以它们之间的关联关系为边,对事件进行可视化的展示。但是这种基于人物、地点、事件摘要句的可视化展示方式对于微博事件来说具有很大的局限性,因为微博不像正式的新闻报道具有规范的人物、地点、组织机构等信息,所以从微博中很难获取这些信息。因此这种可视化方式对于微博来说具有很大的局限性。
发明专利“基于用户兴趣挖掘的微博词云生成方法及访问支持***”,该发明公开一种基于用户兴趣挖掘的微博词云生成方法及微博消息访问支持***,该方法包括:给定当前登录用户所关注用户新发布的微博消息集,从中抽取出关键词集;分别基于用户关系、基于关键词的相似度计算当前登录用户对该关键词集中关键词的兴趣度,并将两种计算所得的兴趣度融合,计算最终兴趣度;从所述关键词集中选择兴趣度最高的k个关键词;在一个区域内显示所选择出的k个关键词。该***包括用户信息获取模块、词云生成器等关键模块。该发明能够使用户更加高效地从微博消息中获取其感兴趣的信息。但是本发明与该发明研究对象不同:该发明以微博用户为研究对象,分析微博用户的微博内容,通过提取关键词进行词云展示。而本发明以新闻事件为研究对象;可视化的不同:该发明仅对微博进行关键词抽取以词云方式进行展示。而本发明以事件的子事件进行关键词抽取,进行组合词云的多维度展示。
发明专利“基于微博的事件特征演化挖掘方法及***”,该发明公开一种基于微博的事件特征演化挖掘方法,包括:在微博时序序列中选取演化起始文档集,并在微博文档集合上基于词汇的共现特征构造文档的图模型以得到事件的知识网络结构;依据词汇的字面特征,词汇倾向性的相容性特征将微博图模型进行合并,构造事件特征的微观演化图;在事件的微观演化图上进行剪枝、切分和转化,形成事件特征的宏观演化图。该方法在挖掘事件特征的演化规律过程中采用了基于事件的知识网络的图挖掘方法,使得整个事件特征演化挖掘方法在知识的继承性方面得到提升,挖掘结果的可解释性更强。但是本发明与该发明特征抽取不同:该发明主要从词汇结构上进行特征抽取,通过构建知识网络结构进行事件的演化展示。本发明主要对事件聚类,挖掘事件的子话题特征信息进行演化展示。
发明内容
针对现有技术不足,本发明提出了一种基于微博平台的事件可视化方法及***,以解决以上技术问题。
本发明提出了一种基于微博平台的事件可视化方法,包括:
步骤1,根据该事件的关键词和时间范围,通过该微博平台的事件搜索接口,检索与该事件相关的该时间范围内的微博;
步骤2,将该微博按照时间进行排序,生成一个微博集合;
步骤3,该微博集合通过聚类算法,生成多个聚类子集;
步骤4,对该多个聚类子集进行关键词抽取,生成多个词云,并将重复出现在该多个词云中的该关键词赋予相同的颜色、位置、旋转方式;
步骤5,通过将每个该聚类子集和与其相对应的该词云进行展示的方式,将该事件进行可视化展示。
所述的基于微博平台的事件可视化方法,该步骤2之前还包括:
步骤21,过滤该时间范围内的该微博中字数小于某阈值的微博;
步骤22,过滤该时间范围内的该微博中热度小于某阈值的微博;
步骤23,过滤该时间范围内的该微博中非文本格式的信息;
步骤24,过滤该时间范围内的该微博中的“用户名”。
所述的基于微博平台的事件可视化方法,该步骤22中该热度的计算公式为:
Heat = retweets + comments 3
其中retweets代表微博转发数量,comments代表微博的评论数,Heat代表微博热度。
所述的基于微博平台的事件可视化方法,该步骤4中对每个该聚类子集进行关键词抽取,生成组合词云的具体步骤包括:
步骤41,对每个该聚类子集进行分词处理,生成词语集合;
步骤42,通过***词条与网络热词对该词语集合进行合并,生成该组合词云。
所述的基于微博平台的事件可视化方法,其特征在于,该步骤4还包括:根据逆文档频率,将该词语赋予高透明度。
本发明还提出了一种基于微博平台的事件可视化***,包括:
检索模块,用于根据该事件的关键词和时间范围,通过该微博平台的事件搜索接口,检索与该事件相关的该时间范围内的微博;
排序模块,用于将该微博按照时间进行排序,生成一个微博集合;
聚类模块,用于该微博集合通过聚类算法,生成多个聚类子集;
生成组合词云模块,用于对该多个聚类子集进行关键词抽取,生成多个词云,并将重复出现在该多个词云中的该关键词赋予相同的颜色、位置、旋转方式;
展示模块,用于通过将每个该聚类子集和与其相对应的该词云进行展示的方式,将该事件进行可视化展示。
所述的基于微博平台的事件可视化***,还包括过滤模块,用于过滤该时间范围内的该微博中字数小于某阈值的微博;过滤该时间范围内的该微博中热度小于某阈值的微博;过滤该时间范围内的该微博中非文本格式的信息;过滤该时间范围内的该微博中的“用户名”。
所述的基于微博平台的事件可视化***,该过滤模块中该热度的计算公式为:
Heat = retweets + comments 3
其中retweets代表微博转发数量,comments代表微博的评论数,Heat代表微博热度。
所述的基于微博平台的事件可视化***,该生成组合词云模块中对每个该聚类子集进行关键词抽取,生成组合词云的具体步骤包括:对每个该聚类子集进行分词处理,生成词语集合;通过***词条与网络热词对该词语集合进行合并,生成该组合词云。
所述的基于微博平台的事件可视化***,该展示模块还用于:根据逆文档频率,将该词语赋予高透明度。
由以上方案可知,本发明的优点在于:
依托微博平台,通过事件关键词对相关的微博进行采集,可以全面的获取关于某个事件的微博信息;采用微博信息过滤技术,可以得到高质量有意义的微博信息;通过对事件的微博数据集进行基于时间维度的聚类,得到的事件聚类子集具有时间维度的信息,这些数据子集在既可以代表事件的某个话题,也可以从总体上看出事件的发展演变过程;通过关键词抽取技术,可以从一组微博中抽取出代表性的微博关键词,一组事件的关键词可以让微博用户对微博内容有个直观的了解;通过控制多个词云当中相同词语的颜色、位置信息,使得它们在组合词云的可视化显示过程中具有高度的一致性,使得微博用户可以很方便的通过组合词云看出整个事件的主要话题,以及各个子事件当中的话题,并可以很方便的对各个子事件进行对比分析。
附图说明
图1为基于微博平台的时间可视化方法的流程图;
图2为组合词云可视化展示流程图;
图3为事件的可视化展示实例图。
其中附图标记为:
步骤100基于微博平台的事件可视化方法的具体步骤,包括:
步骤101/102/103/104/105/106/107。
具体实施方式
下面结合附图和实施例详细对本发明的具体实施方式进行说明。
本发明的具体流程包括以下步骤,如图1所示:
步骤101,模拟登陆微博平台;
由于本发明是针对微博平台的新闻事件进行可视化展示,所以在获取事件的信息之前,需要模拟用户登陆微博网站的过程。
在模拟登陆微博平台这一过程当中,首先注册一批微博账户,利用这些账户信息构成模拟登陆的用户信息表,在进行模拟登陆时,其次向微博的站点发送登陆页面的请求链接,利用本地的注册用户信息表,就可以向站点提供登陆所需的用户名、密码、加密方式等参数,实现用户的模拟登陆操作。
由于微博平台对用户在一定时间范围内的操作具有访问次数的限制,过度频繁的访问可能会造成账户封锁的现象,所以当一个用户登陆成功之后,在用户访问的页面次数超过一定次数时,就从本地的用户信息表中选择另外一个用户进行模拟登陆操作,通过这种方式,就可以对微博平台进行的各项服务进行访问请求,获得所需要的新闻事件数据信息。
步骤102,根据事件关键词检索相关的微博;
一个事件通常由关键词和时间两部分组成。通过在一定时间范围内进行筛选,就可以通过微博平台获取到指定时间范围内的微博。
在本步骤中,依托微博平台提供的事件搜索接口,通过用户输入的事件关键词及时间范围,获取相关的微博页面。
步骤103,微博信息预处理;
在本步骤中对微博信息进行预处理,得到待分析的数据集。具体的处理包括如下几部分:
对数据集当中的短文本进行过滤处理,将字数小于某个阈值的微博过滤;
过滤掉数据集当中影响力较小、冷门的微博(即微博热度小于某一阈值的微博),微博热度按下式进行计算:
Heat = retweets + comments 3
其中retweets代表微博转发数量,comments代表微博的评论数;
过滤微博中的表情符号、网页链接地址等非文本格式化的内容信息;
对微博中特有的“用户名”进行过滤处理;
根据微博的时间信息进行排序处理,得到时间上连续的微博集合。
步骤104,微博事件聚类;
在该步骤中,对排序好的微博数据集进行聚类处理,得到在时间上连续的聚类子集。为了使各个聚类子集能代表一类的话题,采用层次聚类算法或者单遍聚类算法(Single-Pass Clustering),同时为了使聚类事件在时间上保持一定的连续性,取数据集中的第一条微博作为初始的一个聚类子集,在之后的每一步当中,都将文档划分到与该文档最相似的聚类子集当中,如果该文档与当前所有的文档的相似度都小于设定的阈值,则将他作为一个新的聚类子集,其中文档相似度计算采用如下公式度量:
sim ( d , c ) ′ = ( 1 - i m ) × sim ( d , c )
sim ( d , c ) = d → × c → | | d → | | × | | c → | |
其中,m代表在文档d所在时间之前时间窗口中的文档数量,i表示聚类c中与文档d时间距离相距最近的文档在时间窗口当中的位置。通过上述方式的计算,文档距离聚类的时间越近,其相似度就越高。在计算文档的相似度时,对文档建立向量空间模型,将每一篇文档表示成空间中的向量,向量中的每一个项是文档中的词语,每个项的权值本发明采用归一化的TF-IDF(termfrequency–inverse document frequency)来计算,公式如下:
w i = TF i × IDF i Σ j = 1 n [ TF j × IDF j ] 2
TF i , j = n i , j Σ k n k , j , IDF i = log ( D | { j : t i ∈ d j } | )
其中,ni,j是该词在文档d中的出现次数,则是在文档中所有字词的出现次数之和。D表示所有文件的数量,|{j:ti∈dj}|表示包含词语ti的文件数量。
步骤105,子事件数据集关键词抽取;
通过对所有相关的微博进行聚类处理,得到在时间上具有一定连续性的子数据集合,其中每个子数据集合代表该事件一个子话题,通过对各个子事件进行微博的关键词抽取,就可以得到需要进行组合词云可视化展示的候选关键词集合。通过如下的方式进行关键词抽取:
首先对文档集合的每一篇文档进行分词处理,本发明采用ICTCLAS分词工具(Institute of Computing Technology,Chinese Lexical Analysis System,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典)进行文档分词处理,得到处理后的单词集合。为了使词语的语义信息更加丰富,采用***词条及网络热词两个词典对原始单词集合进行短语合并,得到意义更加丰富的词语集合,在上述短语合并过程中,采用基于最大匹配的算法对原始单词集合进行处理,根据以下方式衡量每个词语的权重:
wi=tfi×dfi×Heat×|wi|
其中tfi表示词语i在文档中出现的频率,dfi表示文档集合中包含词语i的文档数量,Heat表示微博的热度,|wi|表示词语i的长度,即字的个数。
为了突出热门微博中的词语,本发明将每个词语出现的权重与微博热度相融合,将微博的热度与词语出现的频率相乘,作为词语的权重,这样选出来的词语更加具有意义,并且基于长词相对短词有更丰富的语义信息,所以本发明引入词语长度项,让长词的权重相对增大。
步骤106,基于组合词云的事件可视化;
一种简单的生成组合词云的方式是采用标签云技术,对事件中的每一个子事件生成一个词云,但是这种方式产生的词云在可视化上并不好,因为即使两个话题讨论的内容很相似,他们的词云也会非常不同。因此,在进行组合词云展示的时候,本发明需要对产生的词云进行优化处理,具体处理方式如下,如图2所示:
出现在多个词云当中的词语赋予相同的颜色、位置、旋转方式,使它们在可视化效果上保持属性的一致性,方便读者快速浏览找到话题之间的共性。
以词语的idf(逆文档频率)来控制单词的透明度,使得在多个词云中共同出现的词语赋予较高的透明度,而使文档频率低的词语赋予较低的透明度。通过这种方式来突出各个词云当中独特的词语而淡化多文档出现的高频词语,从而使读者很快的掌握话题所讨论的内容。
步骤107,事件可视化展示;
以时间节点为纵坐标(取每个聚类中所有事件的平均时间作为时间结点),将聚类子集通过文本信息和组合词云的方式展示出来,以此展现该特定事件的演变过程,同时让读者在快速掌握事件话题的同时了解各个子事件的细节内容。
图3给出了事件可视化展示的一个具体实施方式,整个可视化图以一根时间轴贯穿,左边的原点代表每一个时间结点。在时间轴的右边分为两列展示框,一个为子事件微博聚类结果展示框,另一个为子事件的词云。实施例中以事件“深圳暴雨”为例,取其中的三个子事件进行可视化展示:第一个为深圳暴雨造成路面积水给人们出行带来不便;第二个为深圳暴雨不能阻挡深圳人买房;第三个为深圳暴雨由红色预警降为黄色。首先可以从整体上看出事件在一段时间内的发展趋势,通过观察三个词云,可以看出“深圳”、“暴雨”等词在三个词云中都出现,说明各个子事件有共同的话题特性,由于他们出现的文档频率较高,所以被赋予了较高的透明度。
从另外一个方面,可以看出各个词云具有代表性的词语,这些词语通常在本数据集合中出现的频率高而在其他数据子集中出现较低或者不出现。比如词云一中的“积水”、“出行”、词云二中的“买房”、“开盘”、词云三中的“全市”、“预警”等词语。由于这些词语的低文档频率,所以这些词语往往具有较低的透明度,从而在词云中更加突显。根据这些词语读者可以快速的了解各个话题谈论的主要内容,通过观察一个词语在其它词云中相同的位置是否出现可以对比两个文档话题之间的差异现象。
该实例体现了本发明所提供的事件可视化展现方法的特点,可以协助读者快速、全面的了解事件的主要内容及随事件演变的过程,同时也可以使读者通过子事件词云之间的对比快速了解事件之间的差异。

Claims (10)

1.一种基于微博平台的事件可视化方法,其特征在于,包括:
步骤1,根据该事件的关键词和时间范围,通过该微博平台的事件搜索接口,检索与该事件相关的该时间范围内的微博;
步骤2,将该微博按照时间进行排序,生成一个微博集合;
步骤3,该微博集合通过聚类算法,生成多个聚类子集;
步骤4,对该多个聚类子集进行关键词抽取,生成多个词云,并将重复出现在该多个词云中的该关键词赋予相同的颜色、位置、旋转方式;
步骤5,通过将每个该聚类子集和与其相对应的该词云进行展示的方式,将该事件进行可视化展示。
2.如权利要求1所述的基于微博平台的事件可视化方法,其特征在于,该步骤2之前还包括:
步骤21,过滤该时间范围内的该微博中字数小于某阈值的微博;
步骤22,过滤该时间范围内的该微博中热度小于某阈值的微博;
步骤23,过滤该时间范围内的该微博中非文本格式的信息;
步骤24,过滤该时间范围内的该微博中的“用户名”。
3.如权利要求2所述的基于微博平台的事件可视化方法,其特征在于,该步骤22中该热度的计算公式为:
Heat = retweets + comments 3
其中retweets代表微博转发数量,comments代表微博的评论数,Heat代表微博热度。
4.如权利要求1所述的基于微博平台的事件可视化方法,其特征在于,该步骤4中对每个该聚类子集进行关键词抽取,生成组合词云的具体步骤包括:
步骤41,对每个该聚类子集进行分词处理,生成词语集合;
步骤42,通过***词条与网络热词对该词语集合进行合并,生成该组合词云。
5.如权利要求1所述的基于微博平台的事件可视化方法,其特征在于,该步骤4还包括:根据逆文档频率,将该词语赋予高透明度。
6.一种基于微博平台的事件可视化***,其特征在于,包括:
检索模块,用于根据该事件的关键词和时间范围,通过该微博平台的事件搜索接口,检索与该事件相关的该时间范围内的微博;
排序模块,用于将该微博按照时间进行排序,生成一个微博集合;
聚类模块,用于该微博集合通过聚类算法,生成多个聚类子集;
生成组合词云模块,用于对该多个聚类子集进行关键词抽取,生成多个词云,并将重复出现在该多个词云中的该关键词赋予相同的颜色、位置、旋转方式;
展示模块,用于通过将每个该聚类子集和与其相对应的该词云进行展示的方式,将该事件进行可视化展示。
7.如权利要求6所述的基于微博平台的事件可视化***,其特征在于,还包括过滤模块,用于过滤该时间范围内的该微博中字数小于某阈值的微博;过滤该时间范围内的该微博中热度小于某阈值的微博;过滤该时间范围内的该微博中非文本格式的信息;过滤该时间范围内的该微博中的“用户名”。
8.如权利要求7所述的基于微博平台的事件可视化***,其特征在于,该过滤模块中该热度的计算公式为:
Heat = retweets + comments 3
其中retweets代表微博转发数量,comments代表微博的评论数,Heat代表微博热度。
9.如权利要求6所述的基于微博平台的事件可视化***,其特征在于,该生成组合词云模块中对每个该聚类子集进行关键词抽取,生成组合词云的具体步骤包括:对每个该聚类子集进行分词处理,生成词语集合;通过***词条与网络热词对该词语集合进行合并,生成该组合词云。
10.如权利要求6所述的基于微博平台的事件可视化***,其特征在于,该展示模块还用于:根据逆文档频率,将该词语赋予高透明度。
CN201410354273.6A 2014-07-23 2014-07-23 一种基于微博平台的事件可视化方法及*** Pending CN104536956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410354273.6A CN104536956A (zh) 2014-07-23 2014-07-23 一种基于微博平台的事件可视化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410354273.6A CN104536956A (zh) 2014-07-23 2014-07-23 一种基于微博平台的事件可视化方法及***

Publications (1)

Publication Number Publication Date
CN104536956A true CN104536956A (zh) 2015-04-22

Family

ID=52852484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410354273.6A Pending CN104536956A (zh) 2014-07-23 2014-07-23 一种基于微博平台的事件可视化方法及***

Country Status (1)

Country Link
CN (1) CN104536956A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933129A (zh) * 2015-06-12 2015-09-23 百度在线网络技术(北京)有限公司 基于微博的事件脉络获取方法和***
CN105159998A (zh) * 2015-09-08 2015-12-16 海南大学 一种基于文档聚类关键词计算方法
CN106484724A (zh) * 2015-08-31 2017-03-08 富士通株式会社 信息处理装置和信息处理方法
CN106528624A (zh) * 2016-09-30 2017-03-22 财付通支付科技有限公司 信息显示方法及装置
CN106874419A (zh) * 2017-01-22 2017-06-20 北京航空航天大学 一种多粒度实时热点聚合方法
CN106886576A (zh) * 2017-01-22 2017-06-23 广东广业开元科技有限公司 一种基于预分类的短文本关键词提取方法及***
CN107741929A (zh) * 2017-10-18 2018-02-27 网智天元科技集团股份有限公司 舆情分析方法及装置
CN107918644A (zh) * 2017-10-31 2018-04-17 北京锐思爱特咨询股份有限公司 声誉管理框架内的新闻议题分析方法和实施***
CN108170830A (zh) * 2018-01-10 2018-06-15 清华大学 群组事件数据可视化方法及***
CN108376175A (zh) * 2018-03-02 2018-08-07 成都睿码科技有限责任公司 一种展示新闻事件的可视化方法
CN108415900A (zh) * 2018-02-05 2018-08-17 中国科学院信息工程研究所 一种基于多级共现关系词图的可视化文本信息发现方法及***
CN108595388A (zh) * 2018-04-23 2018-09-28 乐山师范学院 一种面向网络新闻报道的大事记自动生成方法
CN108733791A (zh) * 2018-05-11 2018-11-02 北京科技大学 网络事件检测方法
CN109063198A (zh) * 2018-09-10 2018-12-21 浙江广播电视集团 融媒体资源的多维可视化搜索推荐***
CN111858908A (zh) * 2020-03-03 2020-10-30 北京市计算中心 一种摘报文本生成方法、装置、服务器及可读存储介质
CN112417026A (zh) * 2020-09-23 2021-02-26 郑州大学 一种基于众包内涝反馈的城市内涝预警暴雨阈值划分方法
CN113157908A (zh) * 2021-03-22 2021-07-23 北京邮电大学 一种展示社交媒体热点子话题的文本可视化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
US20140019119A1 (en) * 2012-07-13 2014-01-16 International Business Machines Corporation Temporal topic segmentation and keyword selection for text visualization
CN103631862A (zh) * 2012-11-02 2014-03-12 中国人民解放军国防科学技术大学 基于微博的事件特征演化挖掘方法及***
CN103793481A (zh) * 2014-01-16 2014-05-14 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140019119A1 (en) * 2012-07-13 2014-01-16 International Business Machines Corporation Temporal topic segmentation and keyword selection for text visualization
CN103631862A (zh) * 2012-11-02 2014-03-12 中国人民解放军国防科学技术大学 基于微博的事件特征演化挖掘方法及***
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN103793481A (zh) * 2014-01-16 2014-05-14 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
单月光: "基于微博的网络舆情关键技术的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
邱云飞等: "微博突发话题检测方法研究", 《计算机工程》 *
黄珊珊: "基于用户行为的微博信息聚合可视化***设计和实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933129B (zh) * 2015-06-12 2019-04-30 百度在线网络技术(北京)有限公司 基于微博的事件脉络获取方法和***
CN104933129A (zh) * 2015-06-12 2015-09-23 百度在线网络技术(北京)有限公司 基于微博的事件脉络获取方法和***
US10324989B2 (en) 2015-06-12 2019-06-18 Baidu Online Network Technology (Beijing) Co., Ltd Microblog-based event context acquiring method and system
CN106484724A (zh) * 2015-08-31 2017-03-08 富士通株式会社 信息处理装置和信息处理方法
CN105159998A (zh) * 2015-09-08 2015-12-16 海南大学 一种基于文档聚类关键词计算方法
CN106528624A (zh) * 2016-09-30 2017-03-22 财付通支付科技有限公司 信息显示方法及装置
CN106874419A (zh) * 2017-01-22 2017-06-20 北京航空航天大学 一种多粒度实时热点聚合方法
CN106886576A (zh) * 2017-01-22 2017-06-23 广东广业开元科技有限公司 一种基于预分类的短文本关键词提取方法及***
CN106886576B (zh) * 2017-01-22 2018-04-03 广东广业开元科技有限公司 一种基于预分类的短文本关键词提取方法及***
CN106874419B (zh) * 2017-01-22 2019-09-10 北京航空航天大学 一种多粒度实时热点聚合方法
CN107741929A (zh) * 2017-10-18 2018-02-27 网智天元科技集团股份有限公司 舆情分析方法及装置
CN107918644A (zh) * 2017-10-31 2018-04-17 北京锐思爱特咨询股份有限公司 声誉管理框架内的新闻议题分析方法和实施***
CN108170830B (zh) * 2018-01-10 2020-07-31 华控清交信息科技(北京)有限公司 群组事件数据可视化方法及***
CN108170830A (zh) * 2018-01-10 2018-06-15 清华大学 群组事件数据可视化方法及***
CN108415900A (zh) * 2018-02-05 2018-08-17 中国科学院信息工程研究所 一种基于多级共现关系词图的可视化文本信息发现方法及***
CN108376175A (zh) * 2018-03-02 2018-08-07 成都睿码科技有限责任公司 一种展示新闻事件的可视化方法
CN108595388A (zh) * 2018-04-23 2018-09-28 乐山师范学院 一种面向网络新闻报道的大事记自动生成方法
CN108733791A (zh) * 2018-05-11 2018-11-02 北京科技大学 网络事件检测方法
CN109063198A (zh) * 2018-09-10 2018-12-21 浙江广播电视集团 融媒体资源的多维可视化搜索推荐***
CN109063198B (zh) * 2018-09-10 2022-02-11 浙江广播电视集团 融媒体资源的多维可视化搜索推荐***
CN111858908A (zh) * 2020-03-03 2020-10-30 北京市计算中心 一种摘报文本生成方法、装置、服务器及可读存储介质
CN112417026A (zh) * 2020-09-23 2021-02-26 郑州大学 一种基于众包内涝反馈的城市内涝预警暴雨阈值划分方法
CN112417026B (zh) * 2020-09-23 2022-10-25 郑州大学 一种基于众包内涝反馈的城市内涝预警暴雨阈值划分方法
CN113157908A (zh) * 2021-03-22 2021-07-23 北京邮电大学 一种展示社交媒体热点子话题的文本可视化方法

Similar Documents

Publication Publication Date Title
CN104536956A (zh) 一种基于微博平台的事件可视化方法及***
Agarwal et al. Applying social media intelligence for predicting and identifying on-line radicalization and civil unrest oriented threats
CN109829089B (zh) 基于关联图谱的社交网络用户异常检测方法和***
CN103390051B (zh) 一种基于微博数据的话题发现与追踪方法
US9229977B2 (en) Real-time and adaptive data mining
CN103324665B (zh) 一种基于微博的热点信息提取的方法和装置
CA3138730C (en) Public-opinion analysis method and system for providing early warning of enterprise risks
CN103745000A (zh) 一种中文微博客的热点话题检测方法
Chawla et al. Product opinion mining using sentiment analysis on smartphone reviews
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
Middleton et al. Geoparsing and geosemantics for social media: Spatiotemporal grounding of content propagating rumors to support trust and veracity analysis during breaking news
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN103577404A (zh) 一种面向微博的全新突发事件发现方法
CN105378730A (zh) 社交媒体分析与输出
CN104504024A (zh) 基于微博内容的关键词挖掘方法及***
CN104077417A (zh) 社交网络中的人物标签推荐方法和***
CN103150335A (zh) 一种基于联合聚类的煤矿舆情监测***
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
Sun et al. Efficient event detection in social media data streams
CN104408083A (zh) 一种社会化媒体分析***
CN106529492A (zh) 面向网络查询基于多图融合视频主题分类与描述方法
CN109857869A (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法
Singh et al. Current trends in text mining for social media
CN104063428A (zh) 一种中文微博突发热点话题检测方法

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150422

WD01 Invention patent application deemed withdrawn after publication