CN101576933A

CN101576933A - 基于标题分隔符的全自动web页面分组法

Info

Publication number: CN101576933A
Application number: CNA2009101485494A
Authority: CN
Inventors: 王凯
Original assignee: BEIJING HITME INFORMATION TECHNOLOGY Co Ltd
Current assignee: Beijing Heimi Tiancheng Technology Co., Ltd.
Priority date: 2009-06-29
Filing date: 2009-06-29
Publication date: 2009-11-11

Abstract

本发明公开了基于标题分隔符的全自动WEB页面分组法，即：充分利用WEB页面标题(title)内的分隔符，自动生成页面分组树，并将页面自动归类到各个分组中。本发明可应用于互联网WEB分析领域。核心思想是：(1)利用WEB行为采集技术获取包括title(标题)在内的被访网页的信息；(2)利用title文字中的分隔符，将title分割成多个关键词组；(3)设定各关键词组对应的树形结构层次，通过对页面Title层次分解后，可以得到途径树形结构的根节点、中间节点，到叶子节点的路径；(4)若从根节点到叶节点的路径中，某经Title层次分解的关键词是树形结构对应层次节点中没有的(仅限该路径中)，则按树形层次规则以该关键词为属性建立新节点，从而实现页面分类树形结构的创建。

Description

基于标题分隔符的全自动WEB页面分组法

技术领域

本发明涉及互联网WEB分析相关领域。

背景技术

随着互联网的发展，WEB分析已经成为企业了解自身网站经营情况的重要手段。对于很多网站来讲，所展示的内容页面数量是非常庞大的，如：电子商务网站就会有产品目录，对应着多个产品类别页面和产品终端页面，而对这些页面进行分级、分组，划分类别归属，是非常必要的。如何自动识别千万个页面的类别归属，已经成为WEB内容分析的重要课题。

目前市场上的WEB分析工具在页面分组分析上均无法很好的解决这一问题。

发明内容

为了解决上述存在的问题，本发明公开了基于标题分隔符的全自动WEB页面分组法，即：充分利用WEB页面标题(title)内的分隔符，自动生成页面分组树形结构，并将页面自动归类到各个分组中。本发明可应用于互联网WEB分析领域。其核心思想是：

(1)利用WEB行为采集技术获取包括title(标题)在内的被访网页的信息；

(2)利用title文字中的分隔符，将title分割成多个关键词组；

(3)设定各关键词组对应的树形结构层次，通过对页面Title层次分解后，可以得到途径树形结构的根节点、中间节点，到叶子节点的路径；

(4)若从根节点到叶节点的路径中，某经Title层次分解的关键词是树形结构对应层次节点中没有的(仅限该路径中)，则按树形层次规则以该关键词为属性建立新节点，从而实现页面分类树形结构的创建。

上述“WEB页面”是指可以在浏览器中浏览、查看的静态HTML页面和程序编写的动态页面。

上述“WEB页面标题”是指WEB页面中<title>与</title>标示符之间的文字。

上述“分组”是指对所有页面的归类和细分。

具体实施方式

本发明采用的技术方案是：通过在WEB页面源码中嵌入javascript脚本来采集WEB页面title信息；利用全文检索技术识别title中的分隔符，将title拆分成多个关键词，以这些关键词为分组名，自动生成树形结构，并将相关页面自动归类到各个分组中。

具体工作流程如下：

(1)、首先将javascript采集脚本嵌入到所有待分组的WEB页面的源码中；

(2)、javascript脚本能够自动工作，采集到每一次的访问行为日志，包括访客的来源IP地址、来源URL、来访时间、被访页面的URL、被访页面的标题(title)、停留时间、离开时的去向页面……，并将这些信息存入数据库；

(3)、***利用全文检索技术，识别title中的分隔符，将title分割成多个关键词组；

(4)、设定各关键词组对应的树形结构层次，通过对页面Title层次分解后，可以得到途径树形结构的根节点、中间节点，到叶子节点的路径；

(5)、若从根节点到叶节点的路径中，某经Title层次分解的关键词是树形结构对应层次节点中没有的(仅限该路径中)，则按树形层次规则以该关键词为属性建立新节点。从而实现页面分类树形结构的创建。

以上所提及的采集方式可以用javascript脚本方式实现，也可以使用其他数据采集手段实现，如：网络嗅探器方式、WEB Server日志、端口镜像、光纤分光等；提取关键词的方法可以是全文检索技术，也可以是其他相关技术。应该理解，对于本领域技术人员来说很明显可以对根据本发明权利要求中描述的方法，并结合以上范例做出多种修改和变更，甚至寻求其他编程手段而不脱离本发明的精神和范围。本发明意在覆盖在所附权利要求及其等效物范围内提供的本发明的修改和变型。

附图说明

说明书附图中的图1是某待分组页面。其中，方框内为页面标题，该页面标题使用“-”作为关键词的分隔符。

说明书附图中的图2描述的是通过分隔符对关键词进行提取的配置界面。

说明书附图中的图3描述的是图2方法处理分组的结果。即：在图2中配置如下参数：

●“选择分隔符”为“-”(减号)(括号、引号内的分隔符会被忽略)

●“排列顺序”(即树形结构的层次关系)为“从根节点开始到叶节点”

●“例外”为“无例外”(是否排除根节点，“无例外”则树形结构包括根节点)

对图1处理后，图1页面将被自动归类到图3中的第3级分组下。

Claims

1.本发明公开了基于标题分隔符的全自动WEB页面分组法，即：充分利用WEB页面标题(title)内的分隔符，自动生成页面分组树形结构，并将页面自动归类到各个树形结构的叶节点中。本发明可应用于互联网WEB分析领域。其核心思想是：

(2)利用title文字中的分隔符，将title分割成多个关键词组；

上述“分组”是指对所有页面的归类和细分。

2.根据权利1要求所述的基于标题分隔符的全自动WEB页面分组法，其特征在于：所述方法的特征是基于WEB页面的分组。

3.根据权利1要求所述的基于标题分隔符的全自动WEB页面分组法，其特征在于：所述方法的实现方式是利用WEB分析的行为采集技术，采集技术包括javascript脚本方式、网络嗅探器方式、WEB Server日志、端口镜像、光纤分光等，但不限于这些技术。

4.根据权利1要求所述的基于标题分隔符的全自动WEB页面分组法，其特征在于：所述方法分组的结果是自动生成一个分组的树形结构。

5.根据权利1要求所述的基于标题分隔符的全自动WEB页面分组法，其特征在于：所述方法分组的结果是各个页面会自动归类到各个分组的树形结构中。