CN101158957A

CN101158957A - 互联网热点主题相关性挖掘方法

Info

Publication number: CN101158957A
Application number: CNA2007101561821A
Authority: CN
Inventors: 寿黎但; 陈刚; 胡天磊; 陈珂; 汪源
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2007-10-23
Filing date: 2007-10-23
Publication date: 2008-04-09

Abstract

本发明公开了一种互联网热点主题相关性挖掘的方法。本发明是通过搜索引擎查询日志提取热点主题关键词，并对热点主题关键词间的相关程度进行建模分析。采用有效的哈希方法来构造稀疏矩阵，增加了算法的执行效率。本发明可以对新增的热点主题关键词和数据进行增量处理，并且便于实现分布式处理。算法仅对数据源进行一次性扫描更新相应的稀疏矩阵区域，最终进行排序得到热点主题关键词之间的相关程度的序。本发明能够准确快速地挖掘出热点主题之间的相关性，克服了现有算法性能不高，特别对于新增的热点主题关键词处理效果差的问题，能够更好的满足互联网中大规模热点主题推荐的性能要求。

Description

互联网热点主题相关性挖掘方法

技术领域

本发明设计属于关联规则挖掘领域，特别涉及一种互联网热点主题相关性挖掘方法。

背景技术

随着互联网络的日渐普及，blog也被越来越多的人使用。在数据迅速膨胀的背景下，对热点主题进行关联是梳理海量信息的一个必要和有效手段。所谓热点主题相关性挖掘的目的是将具有内在关联的热点主题关键词从海量的数据中快速准确的自动提取出来，并在用户检索时推荐出来。例如：***以目前用户检索的3万多热点关键词作为待挖掘主题，在对用户博客标题作为数据源，扫描分析得到结果文件后，当用户检索刘德华时，***将会推荐：墨攻，电影，范冰冰，墨子等关键词，从而提升整个***的用户满意度。但是传统的关联规则挖掘的一个先决条件就是结果必须是高频繁词，也就是说支持度要达到一定阈值。但是，本发明更侧重的是新的热点主题关键词的发现与关联，则传统的算法不能较好的挖掘出主题关键词间的相关性。如果能对候选空间加以合理的约束则能够克服上述的问题。

目前常用的互联网热点主题挖掘的技术和方法有：

1.通过提取预设类别的热门查询记录，当用户查询相关类别主题时，自动提示本类别已经提取的热门主题。该方法只是将非热门与热门进行机械的关联，没有主题内在的关联性，某个类别的关联主题都是一致的，用户体验很差。

2.通过编辑将特性的人，物，事件，进行关联。这样做，虽然语义上很准确，但是因为是人工编辑，所以能够处理的量很小且不能及时自动发现网络中的热点关联。

3.利用经典的apriori算法进行计算，但是因为apriori的局限性，对于新出现的热点主题算法效果不佳，将对大大降低用户的体验。

以上算法都不能满足及时，准确，快速挖掘互联网热点主题关联性。

发明内容

本发明目的在于提供一种互联网热点主题相关性挖掘方法，利用条件概率来克服传统算法对于不频繁关键词处理不当的问题，并实现了对辞典与数据源的增量式处理。

本发明解决其技术问题采用的技术方案是，该方法的步骤如下：

1)根据热门查询，提取热点主题关键词，组成热点主题关键词词典；

2)扫描数据源，对每条记录过滤热点主题关键词对，更新在稀疏矩阵中对应的频率，同时更新每个热点主题关键词的频率；

3)采用公式SCORE(B|A)＝min(P(A，B)/P(A)，P(A，B)/P(B))来计算热点主题关键词A与B的相关性得分；

4)将与每个热点主题关键词相关的热点主题关键词按照上述3)中的公式计算得分并排序；

5)用户查询时，按照得分降序将与该热点主题关键词相应的热点主题关键词作为结果反馈。

2.步骤1)中，热门查询为一定时间段内用户的热点查询词，以此作为待分析的热点主题关键词，并组成词典。

步骤2)中，稀疏矩阵为问题本身特性所决定，其横纵坐标均为热点主题关键词的标号，其全局序即热点主题关键词之间的关系以((x-1)*(x))/2+y来确定，其中x，y分别为两热点主题关键词中标号大的一个，小的一个。

步骤2)中，扫描数据源时，处理每条记录，将其分词后出现的热点主题关键词成对更新矩阵中对应的频率，并更新相应的热点主题关键词的频率。直至处理完整个数据源。

步骤3)中，当所有数据处理完毕，遍历该稀疏矩阵，并按照步骤3)中公式计算相对得分，针对矩阵每列或每行以此得分进行排序，得出结果集。

本发明具有的有益效果是：

能够准确快速地挖掘出热点主题之间的相关性，克服了现有算法性能不高，特别对于新增的热点主题关键词处理效果差的问题，能够更好的满足互联网中大规模热点主题推荐的性能要求。

附图说明

图1是***整体框架图。

图2是***处理流程图。

图3是稀疏矩阵的表示图。

图4是增量处理的示意图。

具体实施方式

图1给出互联网热点主题相关性挖掘的***框架图，首先根据热门查询，提取热点主题关键词，组成热点主题关键词词典；然后扫描数据源，对每条记录过滤热点主题关键词对，更新在稀疏矩阵中对应的频率，同时更新每个热点主题关键词的频率；通过计算热点主题关键词间的相关性得分，根据得分排序；用户查询时，按照得分降序将与该热点主题关键词相应的热点主题关键词作为结果反馈。

具体实施流程如图2所示，其中重要的步骤为：

1.加载原始热点主题关键词词典。词典的内容应该为大多数用户所关心的热点主题关键词。加载原始热点主题关键词词典文件，利用Set数据结构来保证关键词的唯一性，最后根据该结构中最终的顺序来确定每个热点主题关键词的order，同时以该order为下标建立热点主题关键词数组，同时建立以热点主题关键词为key，order为value的map数据结构。利用这两个数据结构实现string，order的双向快速查询。

2.初始化矩阵，该矩阵的横纵坐标分别都是热点主题关键词的编号，注意由于问题的属性决定了该矩阵为稀疏矩阵，故采用hash的形式存放，例如：hashMap等实现。按照图3方式存放，主要是因为这样分布可以保证hashcode分布的均匀，提高HashMap的性能并且很自然的实现了增量式的处理，并且很容易实现分布式的方案。其中关键是为一个二元的索引结构设计hashcode，经过测试比较，选择hashcode生成方法：如果二元索引的x坐标和y坐标，分别为x和y，那么它的hashcode为：Value＝((x-1)*(x))/2+y；就有这样图3这样的hashcode分布图。

3.扫描数据源，加载需要扫描的数据，并提取每个逻辑的文档，利用热点主题关键词词典过滤不感兴趣的主题关键词。形成：doc(i)：(w1，w2，w3，...)。其中每个w为该文档过滤后的热点主题关键词。分词后将热点主题关键词扫描计算次序并且提交到上述矩阵。例如：扫描的一条记录为：(刘德华出席上海墨攻首映式)，则***按照上述公式计算出“刘德华”与“墨攻”的hashcode(次序)，将增加相应的出现频率也就是它们的联合概率。同时，记录每个热点主题关键词出现的概率即更新P(A)。例如某文档含有主题关键词为：aababbced。提取主题关键词对为：ab，ab，ab，ac，bc，ae，be，ce，ad，bd，cd，ed。将热点主题关键词的词频更新至词典：即(a，3)，(b，3)，(c，1)，(e，1)，(d，1)。将热点主题关键词对更新至矩阵：即(ab，3)，(ac，1)，(bc，1)，(ae，1)，(be，1)，(ce，1)，(ad，1)，(bd，1)，(cd，1)，(ed，1)。该过程直至数据源扫描完毕。

4.扫描热点主题关键词词典，提取每个热点主题关键词的相关热点主题关键词，按照相关度排序并保存(假设提取按照列提取)。具体流程如下：对于每个关键词通过步骤一提及的map，找到其对应的下标作为y坐标，x坐标从0到热点主题关键词词典关键词个数遍历，然后针对每一对(x，y)在矩阵中查找，将提取到的所有热点相关关键词计算得分：SCORE(B)＝min(P(B|A)，P(A|B))，并且根据其score排序，然后保存结果。

数据源增量build流程，如图2所示：

1.该热点主题关键词词典为之前分析数据后回写的词典，每个项目包括热点主题关键词和它在之前数据源中的词频。按照加载顺序来确定每个热点主题关键词的order，同时以该order为下标建立热点主题关键词数组，同时建立以热点主题关键词为key，order为value的map数据结构。利用这两个数据结构实现string，order的双向快速查询。

2.初始化矩阵，加载前次处理回写后的矩阵数据，每个项目包括一维坐标和该热点主题关键词对出现的频率。加载进实现的稀疏矩阵数据结构(现用hashmap实现，以一维坐标为key，score为value)。

3.扫描数据源，加载需要扫描的数据，并提取每个逻辑的文档，利用热点主题关键词词典过滤不感兴趣的热点主题关键词。形成：doc(i)：(w1，w2，w3，...)。其中每个w为该文档过滤后的热点主题关键词。分词后将热点主题关键词扫描计算次序并且提交到上述矩阵。

4.扫描热点主题关键词词典，提取每个热点主题关键词的相关热点主题关键词，按照相关度排序并保存(假设提取按照列提取)。

热点主题关键词词典增量build流程，如图2所示：

1.加载结果热点主题关键词词典，并且加载新增热点主题关键词词典文件，利用Set数据结构来保证热点主题关键词的唯一性，初始化order为步骤一加载的热点主题关键词词典末尾(新增词典应追加在原始词典后)，最后根据该结构中最终的顺序加上初始order作为该新增热点主题关键词的最终order，建立以热点主题关键词为key，order为value的map数据结构。

3.扫描数据源，加载原始数据源，并提取每个逻辑的文档，处理热点主题关键词的条件为：两个热点主题关键词中至少有一个为新增热点主题关键词(即图4的I，II两个部分)。对这样的热点主题关键词扫描更新矩阵数据。并对新增热点主题关键词进行词频更新。在处理完原始数据源后，将新增的热点主题关键词词典添加至已有的热点主题关键词词典后面。

数据与热点主题关键词词典同时增量build流程，如图2所示：

1.加载结果热点主题关键词词典，并且加载新增热点主题词典文件，利用Set数据结构来保证热点主题关键词的唯一性，初始化order为步骤一加载的热点主题关键词词典末尾(新增词典应追加在原始词典后)，最后根据该结构中最终的顺序加上初始order作为该新增热点主题关键词的最终order，建立以关键词为key，order为value的map数据结构。

3.扫描数据源，加载原始数据源，并提取每个逻辑的文档，处理热点主题关键词的条件为：两个热点主题关键词中至少有一个为新增热点主题关键词(即图4的I，II两个部分)。对这样的热点主题关键词扫描更新矩阵数据。并对新增热点主题关键词进行词频更新。在处理完原始数据源后，将新增的热点主题关键词词典添加至已有热点主题关键词词典后面。

4.扫描新数据源，加载需要扫描的数据，并提取每个逻辑的文档，利用新的结果辞典过滤不感兴趣的热点主题关键词。分词后将热点主题关键词扫描计算次序并且提交到上述矩阵。

5.扫描热点主题词典词典，提取每个热点主题关键词的相关热点主题关键词，按照相关度排序并保存(假设提取按照列提取)。

Claims

1.一种互联网热点主题相关性挖掘方法，其特征在于该方法的步骤如下：

3)米用公式SCORE(B|A)＝min(P(A，B)/P(A)，P(A，B)/P(B))来计算热点主题关键词A与B的相关性得分；

2.根据权利要求1所述的一种互联网热点主题相关性挖掘方法，其特征在于：步骤1)中，热门查询为一定时间段内用户的热点查询词，以此作为待分析的热点主题关键词，并组成词典。

3.根据权利要求1所述的一种互联网热点主题相关性挖掘方法，其特征在于：步骤2)中，稀疏矩阵为问题本身特性所决定，其横纵坐标均为热点主题关键词的标号，其全局序即热点主题关键词之间的关系以((x-1)*(x))/2+y来确定，其中x，y分别为两热点主题关键词中标号大的一个，小的一个。

4.根据权利要求1所述的一种互联网热点主题相关性挖掘方法，其特征在于：步骤2)中，扫描数据源时，处理每条记录，将其分词后出现的热点主题关键词成对更新矩阵中对应的频率，并更新相应的热点主题关键词的频率。直至处理完整个数据源。

5.根据权利要求1所述的一种互联网热点主题相关性挖掘方法，其特征在于：步骤3)中，当所有数据处理完毕，遍历该稀疏矩阵，并按照步骤3)中公式计算相对得分，针对矩阵每列或每行以此得分进行排序，得出结果集。