CN101158957A - 互联网热点主题相关性挖掘方法 - Google Patents
互联网热点主题相关性挖掘方法 Download PDFInfo
- Publication number
- CN101158957A CN101158957A CNA2007101561821A CN200710156182A CN101158957A CN 101158957 A CN101158957 A CN 101158957A CN A2007101561821 A CNA2007101561821 A CN A2007101561821A CN 200710156182 A CN200710156182 A CN 200710156182A CN 101158957 A CN101158957 A CN 101158957A
- Authority
- CN
- China
- Prior art keywords
- key words
- subject key
- focus subject
- focus
- hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000009412 basement excavation Methods 0.000 title claims description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 239000000284 extract Substances 0.000 claims abstract description 16
- 238000001914 filtration Methods 0.000 claims description 3
- 240000007594 Oryza sativa Species 0.000 claims 1
- 235000007164 Oryza sativa Nutrition 0.000 claims 1
- 235000009566 rice Nutrition 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000976 ink Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种互联网热点主题相关性挖掘的方法。本发明是通过搜索引擎查询日志提取热点主题关键词,并对热点主题关键词间的相关程度进行建模分析。采用有效的哈希方法来构造稀疏矩阵,增加了算法的执行效率。本发明可以对新增的热点主题关键词和数据进行增量处理,并且便于实现分布式处理。算法仅对数据源进行一次性扫描更新相应的稀疏矩阵区域,最终进行排序得到热点主题关键词之间的相关程度的序。本发明能够准确快速地挖掘出热点主题之间的相关性,克服了现有算法性能不高,特别对于新增的热点主题关键词处理效果差的问题,能够更好的满足互联网中大规模热点主题推荐的性能要求。
Description
技术领域
本发明设计属于关联规则挖掘领域,特别涉及一种互联网热点主题相关性挖掘方法。
背景技术
随着互联网络的日渐普及,blog也被越来越多的人使用。在数据迅速膨胀的背景下,对热点主题进行关联是梳理海量信息的一个必要和有效手段。所谓热点主题相关性挖掘的目的是将具有内在关联的热点主题关键词从海量的数据中快速准确的自动提取出来,并在用户检索时推荐出来。例如:***以目前用户检索的3万多热点关键词作为待挖掘主题,在对用户博客标题作为数据源,扫描分析得到结果文件后,当用户检索刘德华时,***将会推荐:墨攻,电影,范冰冰,墨子等关键词,从而提升整个***的用户满意度。但是传统的关联规则挖掘的一个先决条件就是结果必须是高频繁词,也就是说支持度要达到一定阈值。但是,本发明更侧重的是新的热点主题关键词的发现与关联,则传统的算法不能较好的挖掘出主题关键词间的相关性。如果能对候选空间加以合理的约束则能够克服上述的问题。
目前常用的互联网热点主题挖掘的技术和方法有:
1.通过提取预设类别的热门查询记录,当用户查询相关类别主题时,自动提示本类别已经提取的热门主题。该方法只是将非热门与热门进行机械的关联,没有主题内在的关联性,某个类别的关联主题都是一致的,用户体验很差。
2.通过编辑将特性的人,物,事件,进行关联。这样做,虽然语义上很准确,但是因为是人工编辑,所以能够处理的量很小且不能及时自动发现网络中的热点关联。
3.利用经典的apriori算法进行计算,但是因为apriori的局限性,对于新出现的热点主题算法效果不佳,将对大大降低用户的体验。
以上算法都不能满足及时,准确,快速挖掘互联网热点主题关联性。
发明内容
本发明目的在于提供一种互联网热点主题相关性挖掘方法,利用条件概率来克服传统算法对于不频繁关键词处理不当的问题,并实现了对辞典与数据源的增量式处理。
本发明解决其技术问题采用的技术方案是,该方法的步骤如下:
1)根据热门查询,提取热点主题关键词,组成热点主题关键词词典;
2)扫描数据源,对每条记录过滤热点主题关键词对,更新在稀疏矩阵中对应的频率,同时更新每个热点主题关键词的频率;
3)采用公式SCORE(B|A)=min(P(A,B)/P(A),P(A,B)/P(B))来计算热点主题关键词A与B的相关性得分;
4)将与每个热点主题关键词相关的热点主题关键词按照上述3)中的公式计算得分并排序;
5)用户查询时,按照得分降序将与该热点主题关键词相应的热点主题关键词作为结果反馈。
2.步骤1)中,热门查询为一定时间段内用户的热点查询词,以此作为待分析的热点主题关键词,并组成词典。
步骤2)中,稀疏矩阵为问题本身特性所决定,其横纵坐标均为热点主题关键词的标号,其全局序即热点主题关键词之间的关系以((x-1)*(x))/2+y来确定,其中x,y分别为两热点主题关键词中标号大的一个,小的一个。
步骤2)中,扫描数据源时,处理每条记录,将其分词后出现的热点主题关键词成对更新矩阵中对应的频率,并更新相应的热点主题关键词的频率。直至处理完整个数据源。
步骤3)中,当所有数据处理完毕,遍历该稀疏矩阵,并按照步骤3)中公式计算相对得分,针对矩阵每列或每行以此得分进行排序,得出结果集。
本发明具有的有益效果是:
能够准确快速地挖掘出热点主题之间的相关性,克服了现有算法性能不高,特别对于新增的热点主题关键词处理效果差的问题,能够更好的满足互联网中大规模热点主题推荐的性能要求。
附图说明
图1是***整体框架图。
图2是***处理流程图。
图3是稀疏矩阵的表示图。
图4是增量处理的示意图。
具体实施方式
图1给出互联网热点主题相关性挖掘的***框架图,首先根据热门查询,提取热点主题关键词,组成热点主题关键词词典;然后扫描数据源,对每条记录过滤热点主题关键词对,更新在稀疏矩阵中对应的频率,同时更新每个热点主题关键词的频率;通过计算热点主题关键词间的相关性得分,根据得分排序;用户查询时,按照得分降序将与该热点主题关键词相应的热点主题关键词作为结果反馈。
具体实施流程如图2所示,其中重要的步骤为:
1.加载原始热点主题关键词词典。词典的内容应该为大多数用户所关心的热点主题关键词。加载原始热点主题关键词词典文件,利用Set数据结构来保证关键词的唯一性,最后根据该结构中最终的顺序来确定每个热点主题关键词的order,同时以该order为下标建立热点主题关键词数组,同时建立以热点主题关键词为key,order为value的map数据结构。利用这两个数据结构实现string,order的双向快速查询。
2.初始化矩阵,该矩阵的横纵坐标分别都是热点主题关键词的编号,注意由于问题的属性决定了该矩阵为稀疏矩阵,故采用hash的形式存放,例如:hashMap等实现。按照图3方式存放,主要是因为这样分布可以保证hashcode分布的均匀,提高HashMap的性能并且很自然的实现了增量式的处理,并且很容易实现分布式的方案。其中关键是为一个二元的索引结构设计hashcode,经过测试比较,选择hashcode生成方法:如果二元索引的x坐标和y坐标,分别为x和y,那么它的hashcode为:Value=((x-1)*(x))/2+y;就有这样图3这样的hashcode分布图。
3.扫描数据源,加载需要扫描的数据,并提取每个逻辑的文档,利用热点主题关键词词典过滤不感兴趣的主题关键词。形成:doc(i):(w1,w2,w3,...)。其中每个w为该文档过滤后的热点主题关键词。分词后将热点主题关键词扫描计算次序并且提交到上述矩阵。例如:扫描的一条记录为:(刘德华出席上海墨攻首映式),则***按照上述公式计算出“刘德华”与“墨攻”的hashcode(次序),将增加相应的出现频率也就是它们的联合概率。同时,记录每个热点主题关键词出现的概率即更新P(A)。例如某文档含有主题关键词为:aababbced。提取主题关键词对为:ab,ab,ab,ac,bc,ae,be,ce,ad,bd,cd,ed。将热点主题关键词的词频更新至词典:即(a,3),(b,3),(c,1),(e,1),(d,1)。将热点主题关键词对更新至矩阵:即(ab,3),(ac,1),(bc,1),(ae,1),(be,1),(ce,1),(ad,1),(bd,1),(cd,1),(ed,1)。该过程直至数据源扫描完毕。
4.扫描热点主题关键词词典,提取每个热点主题关键词的相关热点主题关键词,按照相关度排序并保存(假设提取按照列提取)。具体流程如下:对于每个关键词通过步骤一提及的map,找到其对应的下标作为y坐标,x坐标从0到热点主题关键词词典关键词个数遍历,然后针对每一对(x,y)在矩阵中查找,将提取到的所有热点相关关键词计算得分:SCORE(B)=min(P(B|A),P(A|B)),并且根据其score排序,然后保存结果。
数据源增量build流程,如图2所示:
1.该热点主题关键词词典为之前分析数据后回写的词典,每个项目包括热点主题关键词和它在之前数据源中的词频。按照加载顺序来确定每个热点主题关键词的order,同时以该order为下标建立热点主题关键词数组,同时建立以热点主题关键词为key,order为value的map数据结构。利用这两个数据结构实现string,order的双向快速查询。
2.初始化矩阵,加载前次处理回写后的矩阵数据,每个项目包括一维坐标和该热点主题关键词对出现的频率。加载进实现的稀疏矩阵数据结构(现用hashmap实现,以一维坐标为key,score为value)。
3.扫描数据源,加载需要扫描的数据,并提取每个逻辑的文档,利用热点主题关键词词典过滤不感兴趣的热点主题关键词。形成:doc(i):(w1,w2,w3,...)。其中每个w为该文档过滤后的热点主题关键词。分词后将热点主题关键词扫描计算次序并且提交到上述矩阵。
4.扫描热点主题关键词词典,提取每个热点主题关键词的相关热点主题关键词,按照相关度排序并保存(假设提取按照列提取)。
热点主题关键词词典增量build流程,如图2所示:
1.加载结果热点主题关键词词典,并且加载新增热点主题关键词词典文件,利用Set数据结构来保证热点主题关键词的唯一性,初始化order为步骤一加载的热点主题关键词词典末尾(新增词典应追加在原始词典后),最后根据该结构中最终的顺序加上初始order作为该新增热点主题关键词的最终order,建立以热点主题关键词为key,order为value的map数据结构。
2.初始化矩阵,加载前次处理回写后的矩阵数据,每个项目包括一维坐标和该热点主题关键词对出现的频率。加载进实现的稀疏矩阵数据结构(现用hashmap实现,以一维坐标为key,score为value)。
3.扫描数据源,加载原始数据源,并提取每个逻辑的文档,处理热点主题关键词的条件为:两个热点主题关键词中至少有一个为新增热点主题关键词(即图4的I,II两个部分)。对这样的热点主题关键词扫描更新矩阵数据。并对新增热点主题关键词进行词频更新。在处理完原始数据源后,将新增的热点主题关键词词典添加至已有的热点主题关键词词典后面。
4.扫描热点主题关键词词典,提取每个热点主题关键词的相关热点主题关键词,按照相关度排序并保存(假设提取按照列提取)。
数据与热点主题关键词词典同时增量build流程,如图2所示:
1.加载结果热点主题关键词词典,并且加载新增热点主题词典文件,利用Set数据结构来保证热点主题关键词的唯一性,初始化order为步骤一加载的热点主题关键词词典末尾(新增词典应追加在原始词典后),最后根据该结构中最终的顺序加上初始order作为该新增热点主题关键词的最终order,建立以关键词为key,order为value的map数据结构。
2.初始化矩阵,加载前次处理回写后的矩阵数据,每个项目包括一维坐标和该热点主题关键词对出现的频率。加载进实现的稀疏矩阵数据结构(现用hashmap实现,以一维坐标为key,score为value)。
3.扫描数据源,加载原始数据源,并提取每个逻辑的文档,处理热点主题关键词的条件为:两个热点主题关键词中至少有一个为新增热点主题关键词(即图4的I,II两个部分)。对这样的热点主题关键词扫描更新矩阵数据。并对新增热点主题关键词进行词频更新。在处理完原始数据源后,将新增的热点主题关键词词典添加至已有热点主题关键词词典后面。
4.扫描新数据源,加载需要扫描的数据,并提取每个逻辑的文档,利用新的结果辞典过滤不感兴趣的热点主题关键词。分词后将热点主题关键词扫描计算次序并且提交到上述矩阵。
5.扫描热点主题词典词典,提取每个热点主题关键词的相关热点主题关键词,按照相关度排序并保存(假设提取按照列提取)。
Claims (5)
1.一种互联网热点主题相关性挖掘方法,其特征在于该方法的步骤如下:
1)根据热门查询,提取热点主题关键词,组成热点主题关键词词典;
2)扫描数据源,对每条记录过滤热点主题关键词对,更新在稀疏矩阵中对应的频率,同时更新每个热点主题关键词的频率;
3)米用公式SCORE(B|A)=min(P(A,B)/P(A),P(A,B)/P(B))来计算热点主题关键词A与B的相关性得分;
4)将与每个热点主题关键词相关的热点主题关键词按照上述3)中的公式计算得分并排序;
5)用户查询时,按照得分降序将与该热点主题关键词相应的热点主题关键词作为结果反馈。
2.根据权利要求1所述的一种互联网热点主题相关性挖掘方法,其特征在于:步骤1)中,热门查询为一定时间段内用户的热点查询词,以此作为待分析的热点主题关键词,并组成词典。
3.根据权利要求1所述的一种互联网热点主题相关性挖掘方法,其特征在于:步骤2)中,稀疏矩阵为问题本身特性所决定,其横纵坐标均为热点主题关键词的标号,其全局序即热点主题关键词之间的关系以((x-1)*(x))/2+y来确定,其中x,y分别为两热点主题关键词中标号大的一个,小的一个。
4.根据权利要求1所述的一种互联网热点主题相关性挖掘方法,其特征在于:步骤2)中,扫描数据源时,处理每条记录,将其分词后出现的热点主题关键词成对更新矩阵中对应的频率,并更新相应的热点主题关键词的频率。直至处理完整个数据源。
5.根据权利要求1所述的一种互联网热点主题相关性挖掘方法,其特征在于:步骤3)中,当所有数据处理完毕,遍历该稀疏矩阵,并按照步骤3)中公式计算相对得分,针对矩阵每列或每行以此得分进行排序,得出结果集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101561821A CN101158957A (zh) | 2007-10-23 | 2007-10-23 | 互联网热点主题相关性挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101561821A CN101158957A (zh) | 2007-10-23 | 2007-10-23 | 互联网热点主题相关性挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101158957A true CN101158957A (zh) | 2008-04-09 |
Family
ID=39307059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101561821A Pending CN101158957A (zh) | 2007-10-23 | 2007-10-23 | 互联网热点主题相关性挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101158957A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011014979A1 (en) * | 2009-08-04 | 2011-02-10 | Google Inc. | Query suggestions from documents |
CN102419773A (zh) * | 2011-12-13 | 2012-04-18 | 百度在线网络技术(北京)有限公司 | 一种用于对资源项进行排序的方法、装置和设备 |
CN102646108A (zh) * | 2011-02-02 | 2012-08-22 | 微软公司 | 使用主题意识文件评级器的信息检索 |
CN103823803A (zh) * | 2012-11-16 | 2014-05-28 | 腾讯科技(深圳)有限公司 | 一种关键词筛选的方法、装置和设备 |
CN103942403A (zh) * | 2013-01-22 | 2014-07-23 | 阿里巴巴集团控股有限公司 | 一种对海量变量进行筛选的方法及设备 |
CN104537100A (zh) * | 2011-01-04 | 2015-04-22 | 张越峰 | 一种初具人类思维的智能***及方法 |
CN104572915A (zh) * | 2014-12-29 | 2015-04-29 | 浙江大学 | 一种基于内容环境增强的用户事件相关度计算方法 |
CN105210048A (zh) * | 2013-01-15 | 2015-12-30 | 盖帝图像(美国)有限公司 | 基于社交媒体的内容识别引擎 |
CN105491117A (zh) * | 2015-11-26 | 2016-04-13 | 北京航空航天大学 | 面向实时数据分析的流式图数据处理***及方法 |
CN105608217A (zh) * | 2015-12-31 | 2016-05-25 | 中国科学院电子学研究所 | 一种基于遥感数据的热点主题展示方法 |
CN106202129A (zh) * | 2015-05-08 | 2016-12-07 | 富士通株式会社 | 为未发表的微博推荐话题词的方法和设备 |
-
2007
- 2007-10-23 CN CNA2007101561821A patent/CN101158957A/zh active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011014979A1 (en) * | 2009-08-04 | 2011-02-10 | Google Inc. | Query suggestions from documents |
US9589071B2 (en) | 2009-08-04 | 2017-03-07 | Google Inc. | Query suggestions from documents |
US9098568B2 (en) | 2009-08-04 | 2015-08-04 | Google Inc. | Query suggestions from documents |
CN104537100A (zh) * | 2011-01-04 | 2015-04-22 | 张越峰 | 一种初具人类思维的智能***及方法 |
CN104537100B (zh) * | 2011-01-04 | 2019-03-19 | 张越峰 | 一种初具人类思维的智能***及方法 |
CN102646108A (zh) * | 2011-02-02 | 2012-08-22 | 微软公司 | 使用主题意识文件评级器的信息检索 |
CN102646108B (zh) * | 2011-02-02 | 2016-07-06 | 微软技术许可有限责任公司 | 使用主题意识文件评级器的信息检索 |
CN102419773A (zh) * | 2011-12-13 | 2012-04-18 | 百度在线网络技术(北京)有限公司 | 一种用于对资源项进行排序的方法、装置和设备 |
CN102419773B (zh) * | 2011-12-13 | 2014-09-03 | 百度在线网络技术(北京)有限公司 | 一种用于对资源项进行排序的方法、装置和设备 |
CN103823803A (zh) * | 2012-11-16 | 2014-05-28 | 腾讯科技(深圳)有限公司 | 一种关键词筛选的方法、装置和设备 |
CN103823803B (zh) * | 2012-11-16 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 一种关键词筛选的方法、装置和设备 |
CN105210048A (zh) * | 2013-01-15 | 2015-12-30 | 盖帝图像(美国)有限公司 | 基于社交媒体的内容识别引擎 |
CN105210048B (zh) * | 2013-01-15 | 2019-07-19 | 盖帝图像(美国)有限公司 | 基于社交媒体的内容识别方法 |
CN103942403B (zh) * | 2013-01-22 | 2017-07-14 | 阿里巴巴集团控股有限公司 | 一种对海量变量进行筛选的方法及设备 |
CN103942403A (zh) * | 2013-01-22 | 2014-07-23 | 阿里巴巴集团控股有限公司 | 一种对海量变量进行筛选的方法及设备 |
CN104572915B (zh) * | 2014-12-29 | 2017-10-10 | 浙江大学 | 一种基于内容环境增强的用户事件相关度计算方法 |
CN104572915A (zh) * | 2014-12-29 | 2015-04-29 | 浙江大学 | 一种基于内容环境增强的用户事件相关度计算方法 |
CN106202129A (zh) * | 2015-05-08 | 2016-12-07 | 富士通株式会社 | 为未发表的微博推荐话题词的方法和设备 |
CN105491117A (zh) * | 2015-11-26 | 2016-04-13 | 北京航空航天大学 | 面向实时数据分析的流式图数据处理***及方法 |
CN105491117B (zh) * | 2015-11-26 | 2018-12-21 | 北京航空航天大学 | 面向实时数据分析的流式图数据处理***及方法 |
CN105608217A (zh) * | 2015-12-31 | 2016-05-25 | 中国科学院电子学研究所 | 一种基于遥感数据的热点主题展示方法 |
CN105608217B (zh) * | 2015-12-31 | 2019-03-26 | 中国科学院电子学研究所 | 一种基于遥感数据的热点主题展示方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101158957A (zh) | 互联网热点主题相关性挖掘方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
US7730060B2 (en) | Efficient evaluation of object finder queries | |
Chakrabarti et al. | Ranking objects based on relationships | |
CN103546326B (zh) | 一种网站流量统计的方法 | |
CN102662936B (zh) | 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法 | |
CN101706807A (zh) | 一种中文网页新词自动获取方法 | |
CN104750496B (zh) | 一种模型变更影响度自动检查方法 | |
CN102236677A (zh) | 一种基于问答***的信息匹配方法及*** | |
CN101246499A (zh) | 网络信息搜索方法及*** | |
CN102339294B (zh) | 一种对关键词进行预处理的搜索方法和*** | |
CN102567409A (zh) | 一种提供检索关联词的方法及装置 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN103064842B (zh) | 信息订阅处理装置和信息订阅处理方法 | |
CN102722498A (zh) | 搜索引擎及其实现方法 | |
CN110321446B (zh) | 相关数据推荐方法、装置、计算机设备及存储介质 | |
CN102722501A (zh) | 搜索引擎及其实现方法 | |
CN102722499A (zh) | 搜索引擎及其实现方法 | |
CN102110123A (zh) | 倒排索引建立方法 | |
CN102063454A (zh) | 一种搜索与应用相结合的方法和设备 | |
CN102737021A (zh) | 搜索引擎及其实现方法 | |
CN103942268A (zh) | 搜索与应用相结合的方法、设备以及应用接口 | |
CN105718585A (zh) | 文档与标签词语义关联方法及其装置 | |
CN102890683A (zh) | 信息提供方法及装置 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |