CN101576933A - 基于标题分隔符的全自动web页面分组法 - Google Patents

基于标题分隔符的全自动web页面分组法 Download PDF

Info

Publication number
CN101576933A
CN101576933A CNA2009101485494A CN200910148549A CN101576933A CN 101576933 A CN101576933 A CN 101576933A CN A2009101485494 A CNA2009101485494 A CN A2009101485494A CN 200910148549 A CN200910148549 A CN 200910148549A CN 101576933 A CN101576933 A CN 101576933A
Authority
CN
China
Prior art keywords
title
grouping
page
web
tree structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2009101485494A
Other languages
English (en)
Inventor
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Heimi Tiancheng Technology Co., Ltd.
Original Assignee
BEIJING HITME INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HITME INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING HITME INFORMATION TECHNOLOGY Co Ltd
Priority to CNA2009101485494A priority Critical patent/CN101576933A/zh
Publication of CN101576933A publication Critical patent/CN101576933A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于标题分隔符的全自动WEB页面分组法,即:充分利用WEB页面标题(title)内的分隔符,自动生成页面分组树,并将页面自动归类到各个分组中。本发明可应用于互联网WEB分析领域。核心思想是:(1)利用WEB行为采集技术获取包括title(标题)在内的被访网页的信息;(2)利用title文字中的分隔符,将title分割成多个关键词组;(3)设定各关键词组对应的树形结构层次,通过对页面Title层次分解后,可以得到途径树形结构的根节点、中间节点,到叶子节点的路径;(4)若从根节点到叶节点的路径中,某经Title层次分解的关键词是树形结构对应层次节点中没有的(仅限该路径中),则按树形层次规则以该关键词为属性建立新节点,从而实现页面分类树形结构的创建。

Description

基于标题分隔符的全自动WEB页面分组法
技术领域
本发明涉及互联网WEB分析相关领域。
背景技术
随着互联网的发展,WEB分析已经成为企业了解自身网站经营情况的重要手段。对于很多网站来讲,所展示的内容页面数量是非常庞大的,如:电子商务网站就会有产品目录,对应着多个产品类别页面和产品终端页面,而对这些页面进行分级、分组,划分类别归属,是非常必要的。如何自动识别千万个页面的类别归属,已经成为WEB内容分析的重要课题。
目前市场上的WEB分析工具在页面分组分析上均无法很好的解决这一问题。
发明内容
为了解决上述存在的问题,本发明公开了基于标题分隔符的全自动WEB页面分组法,即:充分利用WEB页面标题(title)内的分隔符,自动生成页面分组树形结构,并将页面自动归类到各个分组中。本发明可应用于互联网WEB分析领域。其核心思想是:
(1)利用WEB行为采集技术获取包括title(标题)在内的被访网页的信息;
(2)利用title文字中的分隔符,将title分割成多个关键词组;
(3)设定各关键词组对应的树形结构层次,通过对页面Title层次分解后,可以得到途径树形结构的根节点、中间节点,到叶子节点的路径;
(4)若从根节点到叶节点的路径中,某经Title层次分解的关键词是树形结构对应层次节点中没有的(仅限该路径中),则按树形层次规则以该关键词为属性建立新节点,从而实现页面分类树形结构的创建。
上述“WEB页面”是指可以在浏览器中浏览、查看的静态HTML页面和程序编写的动态页面。
上述“WEB页面标题”是指WEB页面中<title>与</title>标示符之间的文字。
上述“分组”是指对所有页面的归类和细分。
具体实施方式
本发明采用的技术方案是:通过在WEB页面源码中嵌入javascript脚本来采集WEB页面title信息;利用全文检索技术识别title中的分隔符,将title拆分成多个关键词,以这些关键词为分组名,自动生成树形结构,并将相关页面自动归类到各个分组中。
具体工作流程如下:
(1)、首先将javascript采集脚本嵌入到所有待分组的WEB页面的源码中;
(2)、javascript脚本能够自动工作,采集到每一次的访问行为日志,包括访客的来源IP地址、来源URL、来访时间、被访页面的URL、被访页面的标题(title)、停留时间、离开时的去向页面……,并将这些信息存入数据库;
(3)、***利用全文检索技术,识别title中的分隔符,将title分割成多个关键词组;
(4)、设定各关键词组对应的树形结构层次,通过对页面Title层次分解后,可以得到途径树形结构的根节点、中间节点,到叶子节点的路径;
(5)、若从根节点到叶节点的路径中,某经Title层次分解的关键词是树形结构对应层次节点中没有的(仅限该路径中),则按树形层次规则以该关键词为属性建立新节点。从而实现页面分类树形结构的创建。
以上所提及的采集方式可以用javascript脚本方式实现,也可以使用其他数据采集手段实现,如:网络嗅探器方式、WEB Server日志、端口镜像、光纤分光等;提取关键词的方法可以是全文检索技术,也可以是其他相关技术。应该理解,对于本领域技术人员来说很明显可以对根据本发明权利要求中描述的方法,并结合以上范例做出多种修改和变更,甚至寻求其他编程手段而不脱离本发明的精神和范围。本发明意在覆盖在所附权利要求及其等效物范围内提供的本发明的修改和变型。
附图说明
说明书附图中的图1是某待分组页面。其中,方框内为页面标题,该页面标题使用“-”作为关键词的分隔符。
说明书附图中的图2描述的是通过分隔符对关键词进行提取的配置界面。
说明书附图中的图3描述的是图2方法处理分组的结果。即:在图2中配置如下参数:
●“选择分隔符”为“-”(减号)(括号、引号内的分隔符会被忽略)
●“排列顺序”(即树形结构的层次关系)为“从根节点开始到叶节点”
●“例外”为“无例外”(是否排除根节点,“无例外”则树形结构包括根节点)
对图1处理后,图1页面将被自动归类到图3中的第3级分组下。

Claims (5)

1.本发明公开了基于标题分隔符的全自动WEB页面分组法,即:充分利用WEB页面标题(title)内的分隔符,自动生成页面分组树形结构,并将页面自动归类到各个树形结构的叶节点中。本发明可应用于互联网WEB分析领域。其核心思想是:
(1)利用WEB行为采集技术获取包括title(标题)在内的被访网页的信息;
(2)利用title文字中的分隔符,将title分割成多个关键词组;
(3)设定各关键词组对应的树形结构层次,通过对页面Title层次分解后,可以得到途径树形结构的根节点、中间节点,到叶子节点的路径;
(4)若从根节点到叶节点的路径中,某经Title层次分解的关键词是树形结构对应层次节点中没有的(仅限该路径中),则按树形层次规则以该关键词为属性建立新节点,从而实现页面分类树形结构的创建。
上述“WEB页面”是指可以在浏览器中浏览、查看的静态HTML页面和程序编写的动态页面。
上述“WEB页面标题”是指WEB页面中<title>与</title>标示符之间的文字。
上述“分组”是指对所有页面的归类和细分。
2.根据权利1要求所述的基于标题分隔符的全自动WEB页面分组法,其特征在于:所述方法的特征是基于WEB页面的分组。
3.根据权利1要求所述的基于标题分隔符的全自动WEB页面分组法,其特征在于:所述方法的实现方式是利用WEB分析的行为采集技术,采集技术包括javascript脚本方式、网络嗅探器方式、WEB Server日志、端口镜像、光纤分光等,但不限于这些技术。
4.根据权利1要求所述的基于标题分隔符的全自动WEB页面分组法,其特征在于:所述方法分组的结果是自动生成一个分组的树形结构。
5.根据权利1要求所述的基于标题分隔符的全自动WEB页面分组法,其特征在于:所述方法分组的结果是各个页面会自动归类到各个分组的树形结构中。
CNA2009101485494A 2009-06-29 2009-06-29 基于标题分隔符的全自动web页面分组法 Pending CN101576933A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2009101485494A CN101576933A (zh) 2009-06-29 2009-06-29 基于标题分隔符的全自动web页面分组法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2009101485494A CN101576933A (zh) 2009-06-29 2009-06-29 基于标题分隔符的全自动web页面分组法

Publications (1)

Publication Number Publication Date
CN101576933A true CN101576933A (zh) 2009-11-11

Family

ID=41271867

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2009101485494A Pending CN101576933A (zh) 2009-06-29 2009-06-29 基于标题分隔符的全自动web页面分组法

Country Status (1)

Country Link
CN (1) CN101576933A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012012915A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Co Detecting separator lines in a web page
CN103607322A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站流量数据分析方法及装置
WO2015018238A1 (zh) * 2013-08-08 2015-02-12 广州市动景计算机科技有限公司 定位页面内容的方法、装置及媒体对象展示方法、装置
CN105721578A (zh) * 2016-02-17 2016-06-29 中国建设银行股份有限公司 一种用户行为数据采集方法和***
CN108931962A (zh) * 2017-05-24 2018-12-04 发那科株式会社 数值控制装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012012915A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Co Detecting separator lines in a web page
US8867837B2 (en) 2010-07-30 2014-10-21 Hewlett-Packard Development Company, L.P. Detecting separator lines in a web page
WO2015018238A1 (zh) * 2013-08-08 2015-02-12 广州市动景计算机科技有限公司 定位页面内容的方法、装置及媒体对象展示方法、装置
CN103607322A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站流量数据分析方法及装置
CN105721578A (zh) * 2016-02-17 2016-06-29 中国建设银行股份有限公司 一种用户行为数据采集方法和***
CN105721578B (zh) * 2016-02-17 2019-05-24 中国建设银行股份有限公司 一种用户行为数据采集方法和***
CN108931962A (zh) * 2017-05-24 2018-12-04 发那科株式会社 数值控制装置
US10838405B2 (en) 2017-05-24 2020-11-17 Fanuc Corporation Numerical controller

Similar Documents

Publication Publication Date Title
CN102473190B (zh) 为网页分配关键词
CN105608134B (zh) 一种基于多线程的网络爬虫***及其网页爬取方法
CN102681994B (zh) 一种网页信息抽取方法及***
CN103294781B (zh) 一种用于处理页面数据的方法与设备
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及***
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN101908071A (zh) 一种提高搜索引擎搜索效率的方法及其***
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别***及方法
CN102693271A (zh) 一种网络信息推荐方法及***
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
CN103051637A (zh) 用户识别方法与装置
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析***及方法
CN104268148A (zh) 一种基于时间串的论坛页面信息自动抽取方法及***
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及***
CN100447793C (zh) 基于视觉特征的页面查询接口抽取方法
CN102567494A (zh) 网站分类方法及装置
CN103530429A (zh) 一种网页正文抽取的方法
CN101576933A (zh) 基于标题分隔符的全自动web页面分组法
CN103778238A (zh) 一种从***半结构化数据自动构建分类树的方法
CN101114284A (zh) 一种显示网页内容相关信息的方法及***
CN103870495B (zh) 用于从网站中提取信息的方法和装置
CN110222251A (zh) 一种基于网页分割和搜索算法的服务包装方法
CN105117434A (zh) 一种网页分类方法和***
US20110270691A1 (en) Method and system for providing url possible new advertising
CN115168401A (zh) 数据分级处理方法及装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: BEIJING HEIMITIANCHENG SCIENCE AND TECHNOLOGY CO.,

Free format text: FORMER OWNER: BEIJING CENTURY BLACK RICE INFORMATION TECHNOLOGY CO.

Effective date: 20091106

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20091106

Address after: Beijing city Chaoyang District West Road No. 19 No. 5 (residential) building 1 unit 202

Applicant after: Beijing Heimi Tiancheng Technology Co., Ltd.

Address before: Beijing city Chaoyang District West Road No. 19 Hong Kong International Garden 5-1-202

Applicant before: Beijing Hitme Information Technology Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Beijing Heimi Tiancheng Technology Co., Ltd.

Document name: the First Notification of an Office Action

DD01 Delivery of document by public notice

Addressee: Beijing Heimi Tiancheng Technology Co., Ltd.

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20091111