CN102122291A

CN102122291A - 一种基于树形日志模式分析的博客好友推荐方法

Info

Publication number: CN102122291A
Application number: CN2011100204787A
Authority: CN
Inventors: 陈刚; 胡天磊; 寿黎但; 陈珂; 周健; 贝毅君
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-01-18
Filing date: 2011-01-18
Publication date: 2011-07-13

Abstract

本发明公开了一种基于树形日志模式分析的博客好友推荐方法。采用离线挖掘方法，通过对服务器日志的解析，提取出访问者对博客页面的访问记录，通过分组，排序，去回环等技术进一步构造出以待推荐的博客为根的访问日志树，对构造出的访问日志树做频繁挖掘，找出符合预设要求的频繁子树，把频繁子树中的节点作为候选博客好友，按设定的公式进行推荐度计算，取分值最高的若干个进行推荐。算法不同于传统的基于频繁项挖掘或频繁序列挖掘的算法，针对博客圈特有的平行链接关系和间接访问特性，采用了频繁树形结构挖掘的方法，充分发掘，提取了博客间潜在的访问联系，并推荐给访问用户，提高了用户体验，是一种高效，实用的博客推荐方法。

Description

一种基于树形日志模式分析的博客好友推荐方法

技术领域

本发明涉及对博客服务器日志的数据分析技术和频繁访问模式的挖掘技术，特别是涉及一种基于树形日志模式分析的博客好友推荐方法。

背景技术

随着互联网技术的不断发展，博客已经不仅仅是一个单纯的发布个人文章、信息的平台，在增加了各种类如留言、关注、好友等互动功能后，用户之间会逐渐形成一个博客圈。博客圈中包含好友、潜在好友（尚未加入好友名单的博客或者是好友的好友）和志趣相投的其他博客等等。在博客这样的典型web2.0应用中，建立志趣相投的用户社会关系是决定***成败的关键，因此面向博客的好友推荐已经成为博客***的主体功能。博客好友推荐应用通过用户对博客的访问行为，发现博客用户间潜在的关联性，并试着建议博客根据关联性将与有可能其具有共同兴趣的人群转化为好友关系。

博客圈是一种复杂的树形或者图形结构，目前已经存在一些面向博客的好友推荐***。他们一般基于博客间已经建立的好友关系和服务器记录的访问量来做推荐，这些推荐方法基于频繁项挖掘或是频繁序列挖掘，存在以下不足和缺点：1）没有考虑博客间特有的平行链接关系和间接访问特性；2）没有考虑用户访问页面的先后顺序所隐藏的博客页面间的逻辑关系；3）没有充分考虑网站组织架构的层次关系和深度关系。

发明内容

针对博客服务器日志所隐含的丰富的用户行为信息和页面组织信息，本发明的目的在于提供一种基于树形日志模式分析的博客好友推荐方法，是针对博客日志的，基于树形结构挖掘的博客推荐方法。

本发明解决其技术问题采用的技术方案是：

该方法采用的步骤如下：

1) 解析原始日志，提取有效信息，在数据库中创建会话表，用来记录用户的访问路径；

2) 针对待推荐的博客，在数据库中找出访问过待推荐的博客的用户，根据用户的访问日志，去回环，构建以待推荐的博客为根的访问日志树；

3) 对构造出的访问日志树做频繁递归无序树挖掘，找出符合预设要求的频繁子树；

4) 把频繁子树中的节点作为候选博客好友，按设定的公式进行推荐度计算，取分值最高的若干个进行推荐。

2、根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法，其特征在于：所述步骤1)中解析原始日志，提取有效信息，就是用日志解析器提取服务器中的日志，得到一个时间片内的访问记录，去掉用户请求中的冗余信息，转化成访问三元组<访问者，访问时间，访问博客>存入会话表中，时间片大小的选择依据博客访问量和运行挖掘算法的计算机的性能，访问者为注册用户的，以用户名为“访问者”的标识，访问者为匿名用户的，以用户IP为“访问者”的标识。

3、根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法，其特征在于：所述步骤2)中针对待推荐的博客，在数据库中找出访问过待推荐的博客的用户，根据用户的访问日志，去回环，构建以待推荐的博客为根的访问日志树，就是根据网站的组织结构信息，针对待推荐的博客，在会话表中查找出访问过该博客的用户和用户第一次访问该博客的时间，针对每个查找得到的访问者，提取出查找得到的访问者在访问待推荐的博客后访问的其它博客的记录；树形结构生成器以每个访问者为单位构造访问日志树，访问者访问的每个博客对应一个节点，每个节点包含访问三元组信息，父子节点关系的形成依据连续访问请求的时间上的先后顺序；对于产生的回环，删除访问时间上最迟的边，产生的访问日志树具有三个特点：第一，访问日志树具有相同的根节点，即为待推荐的博客；第二，所有的访问日志树不存在标签相同的兄弟节点；第三，访问日志树是无序的，即每个节点的子节点是无序的。

4、根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法，其特征在于：所述步骤3)中对构造出的访问日志树做频繁递归无序树挖掘，找出符合预设要求的频繁子树，就是把所有的访问日志树分别记为t1,t2…tn,选择合适的最小支持度minsupÎ(0,1),用频繁子树挖掘器进行挖掘，具体步骤如下：

第一步、遍历t1,t2…tn，把“访问三元组”中“访问博客”相同的节点归为相同节点，统计每种节点在访问日志树中出现的次数fre1,对于fre1>minsup*n的节点，记为频繁子树EQ1；

第二步、对EQ1做扩展，把两个EQ1中的节点做连接操作，构成父子关系，形成包含2个节点的树，作为候选子树，统计出候选子树在所有访问日志树中的出现次数fre2,对于fre2>minsup*n的候选子树，记为频繁子树EQ2；

第三步、从EQ2开始，对于每棵树的最右路径，做枚举扩展，每次扩展一个节点，找出所有可能的候选子树，统计出出现次数frei>minsup*n的树，记为新的频繁子树EQi，做类似的递归操作，不断增加挖掘的频繁子树的节点数目，直到没有符合的候选子树为止。

5、根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法，其特征在于：所述步骤4)中把挖掘得到的频繁子树中的节点作为候选博客好友，按设定的公式进行推荐度计算，取分值最高的若干个进行推荐，就是对节点数大于3的频繁子树，按照出现频度fre从大到小排序，依次拿出每棵频繁子树，做如下操作：根据宽度优先遍历，从树的第2层开始，计算每个节点的推荐度R，公式如下：

Figure 2011100204787100002DEST_PATH_IMAGE001

参数说明：fre为频繁子树的频度；T表示是否存在直接的页面链接，存在，则T为1，不存在,则T为0；d是该节点的深度，根节点深度记为0； W_k是每层的权重参数，默认为1；B_k为每层的分支数目，即同一父节点下兄弟节点数目;计算出所有候选节点的推荐度后，根据需要，选出分值最高的若干个节点,取节点对应的博客作为博客好友进行推荐。

本发明具有的有益效果是：

根据访问者对博客的访问行为和博客网站的结构特点，结合现有的数据挖掘技术，针对服务器的访问日志，挖掘出树形结构的频繁访问模式。博客的服务提供商根据挖掘出的频繁访问模式研究分析用户的访问行为，为用户推荐博客好友，改善用户体验；同时也可协助网站架构师更好地组织网站架构，提高用户对博客的访问率。

附图说明

图1是基于树形日志模式分析的博客好友推荐方法的总体结构图。

图2是访问会话及其索引。

图3是根据图2中visitor1的会话构造出的访问日志树。

图4是频繁子树挖掘方法的示意图。

图5是推荐度计算方法的示意图。

具体实施方式

以下结合具体实例和附图对本发明作进一步的描述。

通过本发明所提供的博客日志分析方法，可以快速，有效地提取出频繁访问模式，通过智能化的筛选过程把潜在的博客好友推荐给访问用户，总体结构图如图1所示，具体的实施步骤如下：

1)图1中的日志解析器对一个时间段内的服务器日志进行解析，删除冗余信息，构建访问三元组<访问者，访问时间，访问博客>（triple<visitor, access_time, blog_url>），以Apache服务器日志为例，具体过程如下：

记录在Apache服务器中的日志可以表示成下面的形式：

117.24.255.86 - - [01/Jul/2010:18:01:25 +0800] "GET

http://B.blog.163.com HTTP/1.0" 200 1231

"117.24.255.230.1277794615926482" 46807 "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30)"

这条日志记录给出了IP为117.24.255.86的匿名用户在01/Jul/2010:18:01:25 +0800时间访问了页面http://A.blog.163.com。

所以，可以依次构建访问三元组<117.24.255.86, 2010-7-1 18:01:25, blogA>，对于访问者为注册用户的，以注册ID作为visitor的标识；为匿名用户的，用IP作为区分，创建一个临时ID；对于访问的页面,为了便于下一步的处理，可以结合网站的组织结构信息，将页面的url地址进行简化，如这里将http://A.blog.163.com简化为blogA,两者必须一一对应。

2) 针对待推荐的博客，图1中的树形结构生成器在数据库中找出访问过待推荐的博客的用户，根据用户的访问日志，去回环，构建以待推荐的博客为根的访问日志树，具体步骤如下：

第一步，根据网站的组织结构信息，针对某个待推荐的博客blogA，树形结构生成器的分组排序模块在会话表中查找出所有访问过blogA的用户和该用户第一次访问blogA的时间（SQL查询：select visitor ，distinct access_time from triple where access_url = blogA）。假设用户visitor0第一次访问blogA的时间是access_time0,查找用户visitor0的所有的访问时间在access_time0之后的页面，对每个查询得到的用户都做相同操作（SQL查询：select visitor ,access_time，access_url from triple where visitor = visitor0 and access_time > access_time0，经过以上操作，可以得到如图2所示的用户会话信息

第二步，对查询得到的记录，以访问者为单位构造访问日志树，父子节点关系的形成依据连续访问请求的时间上的先后顺序；对于产生的回环，树形结构生成器中的去回环模块通过删除回环上时间最迟的那条边来消除回环，根据图2中visitor1的会话产生的访问日志树如图3所示。产生的访问日志树有三个特点：第一，所有的访问日志树具有相同的根节点，即为待推荐的博客；第二，所有的访问日志树中不存在标签相同的节点；第三，访问日志树是无序的，即不考虑兄弟节点间的先后顺序。

3) 图1所示的频繁子树挖掘器对上一步构造出的访问日志树做频繁递归无序树挖掘，找出符合预设要求的频繁子树，具体步骤如下：树形结构生成器把上一步得到的访问日志树编号，分别为t1,t2,…tn。

第一步：树形结构生成器中的候选子树生成模块遍历所有的访问日志树，把“访问三元组”中“访问博客”相同的节点归为相同节点，子树频度统计模块统计每种节点在访问日志树中出现的位置及含有该种节点的树的总数fre1（频度），对于fre1>minsup*n的节点，记为频繁子树 EQ1；

第二步：对EQ1中的节点两两做连接操作，构成父子关系，作为候选的频繁子树，统计出候选的频繁子树在所有日志中出现的次数fre2，具体步骤如图4所示，节点A和节点B都属于EQ1，对A，B做连接操作，A为B的父节点，同时记录最后新添加的节点在原树中的位置（图4中为B节点），对于fre2>minsup*n的候选子树，记为频繁子树 EQ2。

第三步：从EQ2开始，对于每棵树的最右路径，做枚举扩展，每次扩展一个节点，找出所有可能的候选子树，统计出出现次数frei>minsup*n的树，记为新的频繁子树 EQi。如图4所示，首先对于节点A做了最右路径的扩展，扩展出了一个新的节点B，也可以对原来的B节点做扩展，但一次只能扩展一个节点。如此做类似的递归操作，不断增加挖掘的频繁子树的节点数目，直到没有符合的候选频繁子树为止。挖掘树的过程中，为了便于树的记录，采用了对树的字符串编码，例如图4中树t1编码为ABC-1BD-1E-1-1B，t2的字符编码为ABC-1DE-1-1-1B，编码根据深度优先遍历顺序，每次往回走时***一个-1，根据这种方法，树和字符串编码是一一对应的。

4)挖掘出所有的频繁子树后，图1所示的候选节点推荐器按照频繁子树的出现频度fre从大到小排序，依次拿出每棵频繁子树做如下操作：根据宽度优先遍历顺序，从树的第2层开始，节点推荐度计算模块计算每个节点的推荐度R，公式如下：

参数说明：fre为频繁子树的频度；T表示是否存在直接的页面链接，存在，则T为1，不存在，则T为0；d是该节点的深度，根节点深度记为0；是每层的权重参数，默认为1；

为每层的分支数目，即同一父节点下兄弟节点数目。

如图5所示，挖掘出了频繁子树ABC-1D-1-1B（字符串编码）,这棵树在t1,t2中都出现，所以频度fre是100%，计算该候选子树的推荐度R，步骤如下：对于点A，在树的第1层，所以略过，对于第二层的节点B，若网站结构中不存在A到B的直接链接，则T为0，所以R_B=0；若网站结构中存在A到B的直接链接，T=1,则R_B=1*1*1/2=0.5。对于节点C，若不存在节点B到节点C的直接链接，则T=0,从而R_C=0；若存在，则T=1，则R_C=1*1*（1/2）（1/3）=0.167。节点D的情况与C相同。

计算出所有候选节点的推荐度后，根据需要，选出分值最高的若干个节点对应的博客作为博客好友进行推荐。按图5计算的节点，假使都存在直接的链接，根据计算，B节点，E节点的推荐度都为0.5，所以这两个节点对应的博客作为博客好友首先被推荐，节点C和节点D的推荐度为0.167，如果需要，它们对应的博客作为博客好友被进一步被推荐。

Claims

1.一种基于树形日志模式分析的博客好友推荐方法，其特征在于该方法采用的步骤如下：

2.根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法，其特征在于：所述步骤1)中解析原始日志，提取有效信息，就是用日志解析器提取服务器中的日志，得到一个时间片内的访问记录，去掉用户请求中的冗余信息，转化成访问三元组<访问者，访问时间，访问博客>存入会话表中，时间片大小的选择依据博客访问量和运行挖掘算法的计算机的性能，访问者为注册用户的，以用户名为“访问者”的标识，访问者为匿名用户的，以用户IP为“访问者”的标识。

3.根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法，其特征在于：所述步骤2)中针对待推荐的博客，在数据库中找出访问过待推荐的博客的用户，根据用户的访问日志，去回环，构建以待推荐的博客为根的访问日志树，就是根据网站的组织结构信息，针对待推荐的博客，在会话表中查找出访问过该博客的用户和用户第一次访问该博客的时间，针对每个查找得到的访问者，提取出查找得到的访问者在访问待推荐的博客后访问的其它博客的记录；树形结构生成器以每个访问者为单位构造访问日志树，访问者访问的每个博客对应一个节点，每个节点包含访问三元组信息，父子节点关系的形成依据连续访问请求的时间上的先后顺序；对于产生的回环，删除访问时间上最迟的边，产生的访问日志树具有三个特点：第一，访问日志树具有相同的根节点，即为待推荐的博客；第二，所有的访问日志树不存在标签相同的兄弟节点；第三，访问日志树是无序的，即每个节点的子节点是无序的。

4.根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法，其特征在于：所述步骤3)中对构造出的访问日志树做频繁递归无序树挖掘，找出符合预设要求的频繁子树，就是把所有的访问日志树分别记为t1,t2…tn,选择合适的最小支持度minsupÎ(0,1),用频繁子树挖掘器进行挖掘，具体步骤如下：

5.根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法，其特征在于：所述步骤4)中把挖掘得到的频繁子树中的节点作为候选博客好友，按设定的公式进行推荐度计算，取分值最高的若干个进行推荐，就是对节点数大于3的频繁子树，按照出现频度fre从大到小排序，依次拿出每棵频繁子树，做如下操作：根据宽度优先遍历，从树的第2层开始，计算每个节点的推荐度R，公式如下：

Figure 2011100204787100001DEST_PATH_IMAGE002