CN103177090A - 一种基于大数据的话题检测方法及装置 - Google Patents

一种基于大数据的话题检测方法及装置 Download PDF

Info

Publication number
CN103177090A
CN103177090A CN2013100751294A CN201310075129A CN103177090A CN 103177090 A CN103177090 A CN 103177090A CN 2013100751294 A CN2013100751294 A CN 2013100751294A CN 201310075129 A CN201310075129 A CN 201310075129A CN 103177090 A CN103177090 A CN 103177090A
Authority
CN
China
Prior art keywords
talked
webpage
user
much
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100751294A
Other languages
English (en)
Other versions
CN103177090B (zh
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES Co.,Ltd.
Original Assignee
IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IZP (BEIJING) TECHNOLOGIES Co Ltd filed Critical IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority to CN201310075129.4A priority Critical patent/CN103177090B/zh
Publication of CN103177090A publication Critical patent/CN103177090A/zh
Application granted granted Critical
Publication of CN103177090B publication Critical patent/CN103177090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于大数据的话题检测方法及装置,能够在互联网环境中大量网页文本快速更新的情况下,同时保证检测效果的准确性和时效性。所述的方法包括:依据用户网络行为数据抽取热点网页;采集所述热点网页的内容;依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。

Description

一种基于大数据的话题检测方法及装置
技术领域
本发明涉及互联网信息处理技术领域,特别是涉及一种基于大数据的话题检测方法及装置。
背景技术
随着互联网的高速发展,网络上的信息越来越多元和丰富,与此同时,网络舆情的社会影响力不断增强,很多社会热点事件都是在网络中第一时间披露和传播,网络话题检测因而愈发显现出其重要价值。在互联网环境中,存在大量自然语言形式的网页文本,其类型包括新闻、博客、论坛帖子以及新兴的微博等,这些网页文本为发现热点话题提供了最基本的数据来源。
美国国防部开展的TDT(话题检测与跟踪,Topic Detection andTracking)项目最早展开了话题检测方面的研究,并取得了一定的进展。
根据话题检测进行的时间,目前的话题检测方法可以分为回溯检测和在线检测两种。其中,回溯检测首先获取全部的网页,然后对获取的网页文本利用传统的文本聚类算法进行聚类,以发现其中包含的话题;在线检测则以在线的形式从实时获取到的网页文本流中标识新话题的开始位置,并将新话题加入到已有的话题中去。
上述两种话题检测方法各有其优劣。其中,回溯检测方法的优势在于可以选择一些效果较佳的文本挖掘算法对收集到的网页数据进行离线处理,故能够得到较为优化的结果,但由于其以离线的方式处理网页数据,故其最大的缺点是时效性差;在线检测方法目前受到越来越多的关注,其能满足热点话题实时检测的需求,但由于受到处理时间的约束,其所使用的算法一般比较简单,故跟回溯检测方法相比检测效果还存在一定差距。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够解决在互联网环境中大量网页文本快速更新的情况下,话题检测面临的检测效果准确性与时效性的尖锐矛盾。
发明内容
本发明所要解决的技术问题是提供一种基于大数据的话题检测方法及装置,能够在互联网环境中大量网页文本快速更新的情况下,同时保证检测效果的准确性和时效性。
为了解决上述问题,本发明公开了一种基于大数据的话题检测方法,包括:
依据用户网络行为数据抽取热点网页;
采集所述热点网页的内容;
依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;
依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;
以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;
针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
可选的,所述用户网络行为数据包括用户访问行为数据和用户搜索行为数据中的一项或多项;则所述依据用户网络行为数据抽取热点网页的步骤,包括:依据所述用户访问行为数据,获取用户访问量或用户访问频率符合第一预置条件的网页,作为热点网页;和/或,依据所述用户搜索行为数据,获取用户搜索量或用户搜索频率符合第二预置条件的关键词所关联的网页,作为热点网页。
可选的,所述针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类的步骤,包括:当增量聚类后的某潜在热点话题类对应的用户关注度参数的加权处理结果与增量聚类后的所有潜在热点话题类对应的用户关注度参数的加权处理结果的比值大于第一阈值时,判定该潜在热点话题类为热点话题类。
可选的,所述以所述潜在热点话题类作为种子类,对新增网页进行增量聚类的步骤,包括:计算新增网页的网页特征向量与各潜在热点话题类的质心向量的相似度;在某新增网页的网页特征向量与某潜在热点话题类的质心向量的相似度大于等于第一相似度阈值时,将该新增网页加入至该潜在热点话题类。
可选的,所述潜在热点话题类的质心向量为对潜在热点话题类所包括的热点网页的网页特征向量进行加权处理得到,其中,某热点网页的网页特征向量的权重为依据该热点网页的用户访问量与该热点网页所属潜在热点话题类中所有热点网页的总用户访问量的比率确定。
可选的,还包括:针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数在以往时段内的变化,预测其是否为下一时段的热点话题类。
可选的,还包括:对所判定或预测的热点话题类进行提示,相应的提示内容包括:相应热点话题类的描述关键词。
可选的,所述描述关键词包括:相应热点话题类的所有网页的中共现度最高的若干个特征词。
可选的,所述用户关注度参数包括网页文档数量和用户网络行为数量。
相应的,本发明还公开了一种基于大数据的话题检测装置,包括:
抽取模块,用于依据用户网络行为数据抽取热点网页;
采集模块,用于采集所述热点网页的内容;
提取模块,用于依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;
聚类模块,用于依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;
增量聚类模块,用于以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;及
判定模块,用于针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
与现有技术相比,本发明实施例具有以下优点:
本发明实施例的检测流程所使用的数据既可以包括热点网页这样的历史网页数据,又可以包括在线网页数据,故本发明实施例可以同时具备回溯检测与在线检测各自的优点,既具备回溯检测的效果,又具备在线检测的时效性;另外,由于本发明实施例检测所使用的热点网页为依据用户网络行为数据抽取得到,其数据量不大,故能够保证检测效率;因此,本发明实施例能够在互联网环境中大量网页文本快速更新的情况下,同时保证检测效果的准确性、时效性和高效性。
附图说明
图1是本发明实施例一种基于大数据的话题检测方法实施例的流程图;
图2是本发明实施例一种基于大数据的话题检测装置实施例的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯,其经常用于社会情绪统计领域如社会舆情中或者民意统计,用以发现热点话题。
其中,热点话题往往是受到众多用户关注的话题,即用户关注度高的话题,其产生与广大用户的关注是密不可分的,因此,用户行为在热点话题的检测过程中有着重要的作用。
用户网络行为主要包括用户访问行为和用户搜索行为。其中,用户访问行为能够体现用户的行为习惯或个人兴趣,而从全局上看,多个用户的访问行为则能够体现出用户对某些或类网页的关注度。而用户搜索行为是用户在搜索引擎中输入关键字进行搜索的动作,它能够准确表达用户的意图,且用户搜索行为后往往将对搜索结果中页面产生访问行为。在一次搜索和关联的页面访问行为中,用户的搜索关键词可以用于对所访问页面的主题特征描述,故从全局上看,多个用户的搜索行为也能够体现用户对某些关键词的关注。
因此,本发明实施例以用户网络行为数据作为话题检测的重要依据,对应的检测流程具体可以包括:首先依据用户网络行为数据抽取热点网页(所述热点网页可用于表示用户关注度高的网页),然后对这些热点网页进行聚类,得到相应的潜在热点话题类(所述潜在热点话题类可能具有热点性),并且以所述潜在热点话题类作为种子类,对新增网页进行增量聚类,最后针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。由于所述新增网页既可以包括历史网页也可以包括在线网页,可见,本发明实施例的检测流程所使用的数据既可以包括热点网页这样的历史网页数据,又可以包括在线网页数据,故本发明实施例可以同时具备回溯检测与在线检测各自的优点,既具备回溯检测的效果,又具备在线检测的时效性;另外,由于本发明实施例检测所使用的热点网页为依据用户网络行为数据抽取得到,其数据量不大,故能够保证检测效率;因此,本发明实施例能够在互联网环境中大量网页文本快速更新的情况下,同时保证检测效果的准确性、时效性和高效性。
参照图1,示出了本发明实施例一种基于大数据的话题检测方法实施例的流程图,具体可以包括:
步骤101、依据用户网络行为数据抽取热点网页;
本技术领域中,用户网络行为数据可用于表征用户网络行为的主要数据,其可以来自运营商或网站的网络服务器中的日志文件集,这些日志文件集即可视为本文所述的大数据。这些日志文件集包含了运营商用户或网站用户的HTTP(超文本传输协议,Hypertext transfer protocol)事务的执行记录,可以通过利用类似于网络数据包嗅探技术的这种技术从日志文件集中获取用于表征用户网络行为的数据。
具体而言,日志文件集中的用户行为数据主要包含用户搜索行为数据和用户访问行为数据。其中,所述用户搜索行为数据记录有用户的搜索关键词和相应的搜索结果页面,所述用户访问行为数据记录有用户的访问页面,所述搜索结果页面和访问页面通常以URL(统一资源定位符,UniformResource Locator)的形式记录。具体的,有些运营商或网站的用户访问行为数据还会记录有用户物理地址和搜索跳转信息,有些运营商或网站的用户搜索行为数据还会记录有用户物理地址和搜索结果页面中网页的超链接信息;这里,用户物理地址主要可以包括用户IP((网络之间互连的协议,Internet Protocol)地址,搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,还会记录有搜索结果页面的信息(如页面地址等)。
在本发明的一种优选实施例中,所述用户网络行为数据具体可以包括用户访问行为数据和用户搜索行为数据中的一项或多项;
则所述依据用户网络行为数据抽取热点网页的步骤,具体可以包括:
子步骤S111、依据所述用户访问行为数据,获取用户访问量或用户访问频率符合第一预置条件的网页,作为热点网页;和/或
子步骤S112、依据所述用户搜索行为数据,获取用户搜索量或用户搜索频率符合第二预置条件的关键词所关联的网页,作为热点网页。
其中,所述第一预置条件可以为用户访问量或用户访问频率排在前K1位,所述第二预置条件可以为用户搜索量或用户搜索频率排在前K2位;本领域技术人员可以依据实际需求预置所述K1和K2,本发明实施例对具体的K1和K2的数值不加以限制。
在本发明实施例的一种应用示例中,用户访问行为数据可以表示为:<(time1,url1),(time2,url2),…,(timen,urln)>,其中time1……timen和url1……urln分别表示访问的时间及URL;在实际应用中,通过对大量用户访问行为数据的分析,可以得到排名前K1的网页URL,可表示为(ti,<(url1,visitors1),….,(urlk1,visitorsk1)>)。
用户搜索行为数据可以表示为:<(time1,se1,keyword1),(time2,se2,keyword2)…(timen,sen,keywordn)>,其中,time1……timen表示搜索时间,se1……sen表示使用的搜索引擎,keyword1……keywordn表示搜索关键词;通过对大量用户搜索行为数据的分析,可以得到排名前K2的搜索关键词,可表示为ti,<(keywords1,num1),…,(keywordsk2,numk2)>)。
上述参数中,ti表示指定时间段,url1和visitor1分别表示url1及其访问量,keywords1和num1分别表示搜索关键词及其搜索量。
在获得Top K2搜索关键词的基础上,可以进一步分析获得各个Top K2搜索关键词关联的网页URL,可以表示为(keywords,<(url1,visitors1),…,(urlk,visitk)>)。
步骤102、采集所述热点网页的内容;
在实际应用中,可以采用网络爬虫等技术采集所述热点网页的内容,本发明实施例对具体的采集方法不加以限制。
步骤103、依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;
在本发明的一种应用示例中,所述依据所述热点网页的内容,提取得到所述热点网页的网页特征向量的步骤,具体可以包括:
子步骤S131、依据采集到的内容,提取所述热点网页的网页内容特征;
子步骤S131可以对采集到的网页内容进行解析,获取网页标题、网页正文、网页描述等特征信息。
子步骤S132、依据所述网页内容特征构建所述热点网页的网页特征向量。
子步骤S132可以根据网页内容特征的获取初步结果,进行分词和词性标注等工作,进行停用词过滤等处理,处理后的内容词汇集合可以作为构建网页特征向量的依据。
在本发明的一种优选实施例中,可以采用VSM型(向量空间模,VectorSpace Model)作为文本特征表示,VSM将文档表示成一个向量,向量的每一维表示一个特征词;其具体可通过TF*IDF(词频-逆向文件频率,termfrequency–inverse document frequency)来定义特征词的权重:
wi=tfsi×log(N/ni)    (1)
其中,wi表示词项ti的权重,tfsi表示词项ti在当前网页中的重要程度,N表示所述热点网页对应背景语料库所包括的网页文档数量,ni表示背景语料库中包含ti的网页文档数量。
在本发明的一种优选实施例中,可以分别考虑词项ti在网页标题、网页内容和网页表述中出现的次数,并按重要性求加权和,以得到tfsi,相应的计算公式如下:
tfsi=pi×α+mi×β+ci×γ    (2)
其中,pi,mi,ci分别表示词项ti在网页标题、网页内容和网页表述中中出现的次数,α,β,γ则分别表示各自的权重。
为降低特征维数,简化计算,以及防止过拟合等现象,在本发明的一种优选实施例中,可以按照权重值的大小对某热点网页的词项ti进行排序,并选取权重值大于指定阈值w的词项ti作为特征词,某热点网页的所有特征词构成相应的网页特征向量。其中的指定阈值w可由本领域技术人员依据实际需求预置,本发明实施例对具体的指定阈值w不加以限制。
需要说明的是,上述VSM只是作为本发明一种构建所述热点网页的网页特征向量的优选实施例,并不作为本发明实施例的应用限制。
步骤104、依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;
用户关注度高是热点话题的一个重要特征,因此,本发明实施例通过聚类获取用户关注度高的潜在热点话题类。需要说明的是,所述潜在热点话题类可能具有热点性,也可能不具有热点性,需要在后续的检测流程中进一步判定。
聚类的可以描述为:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
传统的聚类方法具体可以包括:划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法、传递闭包法、布尔矩阵法、直接聚类法、相关性分析聚类法和基于统计的聚类方法等等。
在本发明的一种优选实施例中,可以采用划分方法中的K均值(K-Means)聚类方法,K均值聚类的基本思想为:接受输入量K;然后将n个数据对象划分为K个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。
在本发明的一种应用示例中,K均值聚类的实现过程具体可以包括:首先从所有热点网页中选择K个作为K个初始聚类的中心;对于其它热点网页,则根据它们与初始聚类的中心的相似度,分别将它们分配给其最相近的初始聚类;然后再重新计算每个新聚类的聚类中心(相应聚类中所有热点网页的均值);不断重复这一过程直到标准测度函数(例如均方差)开始收敛为止。
在具体实现中,K值可由本领域技术人员依据实际需要进行设置;可利用VSM计算某热点网页D1与某聚类的中心D2的相似度sim(D1,D2),当该相似度大于某一相似度阈值时,可将该热点网页分配给该聚类,本发明实施例对具体的该相似度阈值不加以限制。,
在本发明的一种应用示例中,sim(D1,D2)可以表示为:
sim ( D 1 , D 2 ) = W ( D 1 ) &CenterDot; W ( D 2 ) | W ( D 1 ) | | W ( D 2 ) | - - - ( 3 )
其中,W(D1)、W(D2)分别表示D1和D2的特征向量,W(D1)、W(D2)分别表示特征向量W(D1)、W(D2)的模或长度,W(D1)·W(D2)表示两个特征向量W(D1)、W(D2)的点积。
在实际中,得到的潜在话题类的数量可能比较多。为了保证潜在话题类的有效性,本发明实施例可以对聚类得到的所有潜在热点话题类进行筛选,相应的筛选方法可以包括:依据所包含的两个热点网页的数量对聚类得到的所有潜在热点话题类进行从大到小的排序,并选取排在前面的若干个潜在热点话题类作为最终的潜在热点话题类;或者,可以将所包含的两个热点网页的数量大于类阈值的潜在热点话题类作为最终的潜在热点话题类,等等;可以理解,本发明实施例对具体的筛选方法和类阈值不加以限制。
步骤105、以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页具体可以包括在线网页;
对新增网页的处理,可以在增加后的整个数据集上重新进行聚类,这种重新聚类的方法虽然简单,但是其不仅对于重新执行一遍聚类造成计算上的浪费,而且容易使大多数基于内存的聚类算法的效率大大降低,因此这种重新聚类的方法一般不被使用。
本发明实施例则采用增量聚类方法,增量聚类方法只对数据库中的增量部分数据进行处理,并对已有的聚类结果进行增量式修改与完善。而对于新增数据的处理,可以一个一个数据的增加,也可以批量的增加。
在本发明的一种优选实施例中,所述以所述潜在热点话题类作为种子类,对新增网页进行增量聚类的步骤,具体可以包括:
子步骤S151、计算新增网页的网页特征向量与各潜在热点话题类的质心向量的相似度;
子步骤S152、在某新增网页的网页特征向量与某潜在热点话题类的质心向量的相似度大于等于第一相似度阈值时,将该新增网页加入至该潜在热点话题类。
在本发明的一种优选实施例中,所述潜在热点话题类的质心向量可以为依据潜在热点话题类所包括的热点网页的网页特征向量加权处理得到,其中,某热点网页的网页特征向量的权重为该热点网页的用户访问量与该热点网页所属潜在热点话题类中所有热点网页的总用户访问量的比率确定。
在具体实现中,子步骤S151可以利用公式(3)求得。第一相似度阈值可由本领域技术人员依据实际需要进行设置,本发明实施例对具体的第一相似度阈值不加以限制。所述加权处理可以包括加权平均、移动加权平均等,本发明实施例对具体的加权处理不加以限制。
需要说明的是,子步骤S151和子步骤S152的增量聚类方法只是作为优选实施例,并不理解为本发明实施例的应用限制。
另外,新增网页中包括有包括在线网页,是为了使本发明实施例具备在线检测的优点;可以理解,新增网页中也可以包括历史网页。
步骤106、针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
所述潜在热点话题类可能具有热点性,也可能不具有热点性,步骤106则是对增量聚类后的潜在热点话题类是否为热点话题类进行判定。
本发明实施例中,所述用户关注度参数具体可以包括网页文档数量和用户网络行为数量。其中,所述用户网络行为数量具体可以包括用户访问量和用户搜索量中的一项或多项。
在本发明的一种优选实施例中,所述针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类的步骤,具体可以包括:
子步骤S161、当增量聚类后的某潜在热点话题类对应的用户关注度参数的加权处理结果与增量聚类后的所有潜在热点话题类对应的用户关注度参数的加权处理结果的比值大于第一阈值时,判定该潜在热点话题类为热点话题类。
其中,第一阈值可由本领域技术人员依据实际需要进行设置,本发明实施例对具体的第一阈值不加以限制。所述加权处理可以包括加权平均、移动加权平均等,本发明实施例对具体的加权处理不加以限制。在用户关注度参数为多个时,每个用户关注度参数的权重可由本领域技术人员依据实际需要进行设置,本发明实施例对具体的用户关注度参数的权重不加以限制。
当然,子步骤S161的判定方法只是作为优选实施例,实际上其它判定方法也是可行的,例如,可以按照用户关注度参数对所有的增量聚类后的潜在热点话题类进行从大到小的排序,并选取排在前面的若干位作为热点话题类等等。
在本发明的一种优选实施例中,所述方法还可以包括:
步骤S201、针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数在以往时段内的变化,预测其是否为下一时段的热点话题类。
在实际应用中,可以进行时段划分,例如,以天、半天、小时、分钟为单位进行时段划分,用户关注度参数在以往时段内的变化可以为当前时段内用户关注度参数相对于上一时段内用户关注度参数的变化,具体可以用如下公式表示:
用户关注度参数在以往时段内的变化=(当前时段内用户关注度参数-上一时段内用户关注度参数)/上一时段内用户关注度参数    (4)
在本发明的一种应用示例中,如果增量聚类后的某潜在热点话题类对应的用户关注度参数在以往时段内的变化大于第三阈值,则可以预测该潜在热点话题类为下一时段的热点话题类。其中,第三阈值可由本领域技术人员依据实际需要进行设置,本发明实施例对具体的第三阈值不加以限制。
需要说明的是,步骤S201的预测方案只是作为优选方案,实际上,依据用户关注度参数的变化趋势对下一时段的热点话题类进行预测的方案均是可行的。
在本发明的一种优选实施例中,所述方法还可以包括:
对所判定或预测的热点话题类进行提示,相应的提示内容具体可以包括:相应热点话题类的描述关键词。
在本发明的一种优选实施例中,所述描述关键词具体可以包括:相应热点话题类的所有网页的中共现度最高的若干个特征词。其中,某个特征词的共现度可以用该特征词所存在的网页的数量来表示;所述若干个对应的数量可由本领域技术人员依据实际需求设置。
进一步,如果某热点话题类的所有网页的中共现度较高的特征词较多,可以按照特征词的权重从大到小的顺序对共现度较高的特征词进行进一步筛选,其中,特征词的权重可利用公式(1)求得。
与前述方法实施例相应,本发明实施例还公开了一种基于大数据的话题检测装置,参照图2所示的结构图,具体可以包括:
抽取模块201,用于依据用户网络行为数据抽取热点网页;
采集模块202,用于采集所述热点网页的内容;
提取模块203,用于依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;
聚类模块204,用于依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;
增量聚类模块205,用于以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;及
判定模块206,用于针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
在本发明的一种优选实施例中,所述用户网络行为数据具体可以包括用户访问行为数据和用户搜索行为数据中的一项或多项;
则所述抽取模块201具体可以包括:
第一抽取子模块,用于依据所述用户访问行为数据,获取用户访问量或用户访问频率符合第一预置条件的网页,作为热点网页;和/或
第二抽取子模块,用于依据所述用户搜索行为数据,获取用户搜索量或用户搜索频率符合第二预置条件的关键词所关联的网页,作为热点网页。
在本发明的另一种优选实施例中,所述判定模块包括:
加权判定子模块,用于当增量聚类后的某潜在热点话题类对应的用户关注度参数的加权处理结果与增量聚类后的所有潜在热点话题类对应的用户关注度参数的加权处理结果的比值大于第一阈值时,判定该潜在热点话题类为热点话题类。
在本发明的再一种优选实施例中,所述增量聚类模块205具体可以包括:
相似度计算子模块,用于计算新增网页的网页特征向量与各潜在热点话题类的质心向量的相似度;
比较子模块,用于在某新增网页的网页特征向量与某潜在热点话题类的质心向量的相似度大于等于第一相似度阈值时,将该新增网页加入至该潜在热点话题类。
在本发明的一种优选实施例中,所述潜在热点话题类的质心向量可为对潜在热点话题类所包括的热点网页的网页特征向量进行加权处理得到,其中,某热点网页的网页特征向量的权重可为依据该热点网页的用户访问量与该热点网页所属潜在热点话题类中所有热点网页的总用户访问量的比率确定。
在本发明的另一种优选实施例中,所述装置还可以包括:
预测模块,用于针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数在以往时段内的变化,预测其是否为下一时段的热点话题类。
在本发明实施例中,优选的是,所述装置还可以包括:
提示模块,用于对所判定或预测的热点话题类进行提示,相应的提示内容包括:相应热点话题类的描述关键词。
在本发明的一种优选实施例中,所述描述关键词具体可以包括:相应热点话题类的所有网页的中共现度最高的若干个特征词。
在本发明的一种优选实施例中,所述用户关注度参数具体可以包括网页文档数量和用户网络行为数量。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
以上对本发明所提供的一种基于大数据的话题检测方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于大数据的话题检测方法,其特征在于,包括:
依据用户网络行为数据抽取热点网页;
采集所述热点网页的内容;
依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;
依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;
以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;
针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
2.如权利要求1所述的方法,其特征在于,所述用户网络行为数据包括用户访问行为数据和用户搜索行为数据中的一项或多项;
则所述依据用户网络行为数据抽取热点网页的步骤,包括:
依据所述用户访问行为数据,获取用户访问量或用户访问频率符合第一预置条件的网页,作为热点网页;和/或
依据所述用户搜索行为数据,获取用户搜索量或用户搜索频率符合第二预置条件的关键词所关联的网页,作为热点网页。
3.如权利要求1所述的方法,其特征在于,所述针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类的步骤,包括:
当增量聚类后的某潜在热点话题类对应的用户关注度参数的加权处理结果与增量聚类后的所有潜在热点话题类对应的用户关注度参数的加权处理结果的比值大于第一阈值时,判定该潜在热点话题类为热点话题类。
4.如权利要求1所述的方法,其特征在于,所述以所述潜在热点话题类作为种子类,对新增网页进行增量聚类的步骤,包括:
计算新增网页的网页特征向量与各潜在热点话题类的质心向量的相似度;
在某新增网页的网页特征向量与某潜在热点话题类的质心向量的相似度大于等于第一相似度阈值时,将该新增网页加入至该潜在热点话题类。
5.如权利要求4所述的方法,其特征在于,所述潜在热点话题类的质心向量为对潜在热点话题类所包括的热点网页的网页特征向量进行加权处理得到,其中,某热点网页的网页特征向量的权重为依据该热点网页的用户访问量与该热点网页所属潜在热点话题类中所有热点网页的总用户访问量的比率确定。
6.如权利要求1所述的方法,其特征在于,还包括:
针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数在以往时段内的变化,预测其是否为下一时段的热点话题类。
7.如权利要求1至6中任一项所述的方法,其特征在于,还包括:
对所判定或预测的热点话题类进行提示,相应的提示内容包括:相应热点话题类的描述关键词。
8.如权利要求7所述的方法,其特征在于,所述描述关键词包括:相应热点话题类的所有网页的中共现度最高的若干个特征词。
9.如权利要求1至6中任一项所述的方法,其特征在于,所述用户关注度参数包括网页文档数量和用户网络行为数量。
10.一种基于大数据的话题检测装置,其特征在于,包括:
抽取模块,用于依据用户网络行为数据抽取热点网页;
采集模块,用于采集所述热点网页的内容;
提取模块,用于依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;
聚类模块,用于依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;
增量聚类模块,用于以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;及
判定模块,用于针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
CN201310075129.4A 2013-03-08 2013-03-08 一种基于大数据的话题检测方法及装置 Active CN103177090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310075129.4A CN103177090B (zh) 2013-03-08 2013-03-08 一种基于大数据的话题检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310075129.4A CN103177090B (zh) 2013-03-08 2013-03-08 一种基于大数据的话题检测方法及装置

Publications (2)

Publication Number Publication Date
CN103177090A true CN103177090A (zh) 2013-06-26
CN103177090B CN103177090B (zh) 2016-11-23

Family

ID=48636951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310075129.4A Active CN103177090B (zh) 2013-03-08 2013-03-08 一种基于大数据的话题检测方法及装置

Country Status (1)

Country Link
CN (1) CN103177090B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063428A (zh) * 2014-06-09 2014-09-24 国家计算机网络与信息安全管理中心 一种中文微博突发热点话题检测方法
CN104461842A (zh) * 2013-09-23 2015-03-25 伊姆西公司 基于日志相似性来处理故障的方法和装置
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和***
CN104850606A (zh) * 2015-05-03 2015-08-19 西北工业大学 一种移动群智感知中社会事件的总结方法
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及***
CN106021425A (zh) * 2016-05-13 2016-10-12 北京奇虎科技有限公司 热点新闻的挖掘方法及装置
CN106126632A (zh) * 2016-06-22 2016-11-16 北京小米移动软件有限公司 推荐方法及装置
CN106130756A (zh) * 2016-06-15 2016-11-16 晶赞广告(上海)有限公司 一种预测访问内容点击率的方法及装置
CN106354846A (zh) * 2016-08-31 2017-01-25 成都广电视讯文化传播有限公司 基于大数据的新闻智能选稿方法及***
CN106874292A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 话题处理方法及装置
CN106874299A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及***
CN107784127A (zh) * 2017-11-30 2018-03-09 杭州数梦工场科技有限公司 一种热点定位方法和装置
CN107944931A (zh) * 2017-12-18 2018-04-20 平安科技(深圳)有限公司 种子用户拓展方法、电子设备及计算机可读存储介质
CN108228602A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 网站的分类方法及装置
CN108255978A (zh) * 2017-12-28 2018-07-06 曙光信息产业(北京)有限公司 新闻稿件话题聚类的方法和***
CN108512873A (zh) * 2017-02-27 2018-09-07 中国科学院沈阳自动化研究所 一种分布式自组织结构的分组语义消息过滤与路由方法
CN109190003A (zh) * 2018-08-20 2019-01-11 上海蜜度信息技术有限公司 用于确定列表页节点的方法与设备
CN109408639A (zh) * 2018-10-31 2019-03-01 广州虎牙科技有限公司 一种弹幕分类方法、装置、设备和存储介质
CN111026990A (zh) * 2019-12-05 2020-04-17 中国银行股份有限公司 热点话题日志信息的展示方法及装置
CN111339784A (zh) * 2020-03-06 2020-06-26 支付宝(杭州)信息技术有限公司 一种新话题的自动挖掘方法和***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080010292A1 (en) * 2006-07-05 2008-01-10 Krishna Leela Poola Techniques for clustering structurally similar webpages based on page features
CN101231640A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及***
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN102708153A (zh) * 2012-04-18 2012-10-03 中国信息安全测评中心 自适应在线社交网络热点话题发现预测方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080010292A1 (en) * 2006-07-05 2008-01-10 Krishna Leela Poola Techniques for clustering structurally similar webpages based on page features
CN101231640A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及***
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN102708153A (zh) * 2012-04-18 2012-10-03 中国信息安全测评中心 自适应在线社交网络热点话题发现预测方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张柱山: "基于聚类分析的网络论坛热点话题检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 July 2011 (2011-07-15) *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461842A (zh) * 2013-09-23 2015-03-25 伊姆西公司 基于日志相似性来处理故障的方法和装置
CN104063428A (zh) * 2014-06-09 2014-09-24 国家计算机网络与信息安全管理中心 一种中文微博突发热点话题检测方法
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和***
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及***
CN104850606A (zh) * 2015-05-03 2015-08-19 西北工业大学 一种移动群智感知中社会事件的总结方法
CN104850606B (zh) * 2015-05-03 2019-03-26 西北工业大学 一种移动群智感知中社会事件的总结方法
CN106874292A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 话题处理方法及装置
CN106874292B (zh) * 2015-12-11 2020-05-05 北京国双科技有限公司 话题处理方法及装置
CN106874299A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN106021425A (zh) * 2016-05-13 2016-10-12 北京奇虎科技有限公司 热点新闻的挖掘方法及装置
CN106130756A (zh) * 2016-06-15 2016-11-16 晶赞广告(上海)有限公司 一种预测访问内容点击率的方法及装置
CN106130756B (zh) * 2016-06-15 2019-06-14 晶赞广告(上海)有限公司 一种预测访问内容点击率的方法及装置
CN106126632A (zh) * 2016-06-22 2016-11-16 北京小米移动软件有限公司 推荐方法及装置
CN106354846A (zh) * 2016-08-31 2017-01-25 成都广电视讯文化传播有限公司 基于大数据的新闻智能选稿方法及***
CN108228602A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 网站的分类方法及装置
CN108512873A (zh) * 2017-02-27 2018-09-07 中国科学院沈阳自动化研究所 一种分布式自组织结构的分组语义消息过滤与路由方法
CN108512873B (zh) * 2017-02-27 2020-02-04 中国科学院沈阳自动化研究所 一种分布式自组织结构的分组语义消息过滤与路由方法
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及***
CN107784127A (zh) * 2017-11-30 2018-03-09 杭州数梦工场科技有限公司 一种热点定位方法和装置
CN107944931A (zh) * 2017-12-18 2018-04-20 平安科技(深圳)有限公司 种子用户拓展方法、电子设备及计算机可读存储介质
CN108255978A (zh) * 2017-12-28 2018-07-06 曙光信息产业(北京)有限公司 新闻稿件话题聚类的方法和***
CN109190003A (zh) * 2018-08-20 2019-01-11 上海蜜度信息技术有限公司 用于确定列表页节点的方法与设备
CN109190003B (zh) * 2018-08-20 2021-03-02 上海蜜度信息技术有限公司 用于确定列表页节点的方法与设备
CN109408639A (zh) * 2018-10-31 2019-03-01 广州虎牙科技有限公司 一种弹幕分类方法、装置、设备和存储介质
CN109408639B (zh) * 2018-10-31 2022-05-31 广州虎牙科技有限公司 一种弹幕分类方法、装置、设备和存储介质
CN111026990A (zh) * 2019-12-05 2020-04-17 中国银行股份有限公司 热点话题日志信息的展示方法及装置
CN111026990B (zh) * 2019-12-05 2024-04-16 中国银行股份有限公司 热点话题日志信息的展示方法及装置
CN111339784A (zh) * 2020-03-06 2020-06-26 支付宝(杭州)信息技术有限公司 一种新话题的自动挖掘方法和***

Also Published As

Publication number Publication date
CN103177090B (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN103177090A (zh) 一种基于大数据的话题检测方法及装置
Orlandi et al. Aggregated, interoperable and multi-domain user profiles for the social web
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN109934721A (zh) 理财产品推荐方法、装置、设备及存储介质
Yu et al. BC-PDM: data mining, social network analysis and text mining system based on cloud computing
Ziegler Methods for bibliometric analysis of research: renewable energy case study
CN105243087A (zh) It资讯聚合阅读个性化推荐方法
CN102955810B (zh) 一种网页分类方法和设备
CN103714140A (zh) 一种基于主题网络爬虫的搜索方法及装置
CN103309960A (zh) 一种网络舆情事件多维信息提取的方法及装置
Du et al. An approach for selecting seed URLs of focused crawler based on user-interest ontology
Li et al. CoWS: An Internet-enriched and quality-aware Web services search engine
Liu et al. Applying ontology learning and multi-objective ant colony optimization method for focused crawling to meteorological disasters domain knowledge
CN103823847A (zh) 一种关键词的扩充方法及装置
Chi et al. Expert identification based on dynamic LDA topic model
Lee et al. Web document classification using topic modeling based document ranking
Shu et al. Automatic extraction of web page text information based on network topology coincidence degree
Ghanadi Nezhad et al. Forecasting the subject trend of international library and information science research by 2030 using the deep learning approach
Annam et al. Entropy based informative content density approach for efficient web content extraction
Sumathi et al. Hybrid recommendation system using particle swarm optimization and user access based ranking
Li et al. Research on hot news discovery model based on user interest and topic discovery
CN102495844B (zh) 用于构建用户模型的改进的GuTao法
Aditya et al. Effective algorithm for frequent pattern mining
CN101751409A (zh) 免疫***在搜索引擎中的应用
Gangurde et al. Biogeography optimization algorithm based next web page prediction using weblog and web content features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170817

Address after: 834000, cloud computing industry park, Xinjiang, Karamay A-00027

Patentee after: Karamay Silk Road Digital Technology Co., Ltd.

Address before: 100081, Haidian District, Beijing South Street, northeast flourishing, Beijing Zhongguancun software incubator, building 1, block C, three, 1322-D

Patentee before: IZP (Beijing) Technologies Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201230

Address after: No. a9-9009, floor 1, No. 28, information road, Haidian District, Beijing

Patentee after: IZP (BEIJING) TECHNOLOGIES Co.,Ltd.

Address before: No. a-00027, cloud computing Industrial Park, Karamay, Xinjiang 834000

Patentee before: Karamay Silk Road Digital Technology Co.,Ltd.

TR01 Transfer of patent right