CN104050281A - 一种基于http协议的网页信息提取方法及装置 - Google Patents

一种基于http协议的网页信息提取方法及装置 Download PDF

Info

Publication number
CN104050281A
CN104050281A CN201410299203.5A CN201410299203A CN104050281A CN 104050281 A CN104050281 A CN 104050281A CN 201410299203 A CN201410299203 A CN 201410299203A CN 104050281 A CN104050281 A CN 104050281A
Authority
CN
China
Prior art keywords
page
information
template
target pages
info
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410299203.5A
Other languages
English (en)
Inventor
马春新
董磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201410299203.5A priority Critical patent/CN104050281A/zh
Publication of CN104050281A publication Critical patent/CN104050281A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于http协议的网页信息提取方法及装置,所述方法包括:模板生成步骤:根据要提取信息的目标页面,定制相应的页面解析模板,并在页面解析模板中预定义目标字段和校验规则;网页地址解析步骤:解析目标页面的网页地址,获取目标页面的HTML源文件;信息提取步骤:读取并解析目标页面的HTML源文件,在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息;信息校验步骤:根据预定义的校验规则,校验提取出的页面信息是否符合要求;信息保存步骤:保存经信息校验后的页面信息。本发明通过开放的http协议,对网络中的页面信息进行有效数据过滤采集、归集,并对不同的目标页面进行模板定制,实现特定信息的提取。

Description

一种基于http协议的网页信息提取方法及装置
技术领域
本发明涉及网络技术中的信息爬取及解析领域,特别是涉及一种基于http协议的网页信息提取方法及装置。
背景技术
Web2.0时代是信息大***的时代,海量的数据信息充斥在工作和生活的方方面面,因此基于数据的分析和潜在价值的挖掘需求也日益迫切起来。然而,在实际中,因数据拥有方对数据的管控非常严格,很多有价值的数据信息是不能够很方便的被采集和提取出的。在这样的背景下,数据重要性凸显,数据可获得性却不高,甚至于受到限制。因此,如何基于数据的互联网特性,对所关心的目标数据进行采集、提取和加以利用已成为一个急待解决的问题。
发明内容
本发明所要解决的技术问题是提供一种基于http协议的信息提取方法及装置,用于解决现有技术中目标信息不易获取的技术问题。
本发明解决上述技术问题的技术方案如下:一种基于http协议的网页信息提取方法,包括:
模板生成步骤:根据要提取信息的目标页面,定制相应的页面解析模板,并在页面解析模板中预定义目标字段和校验规则;
网页地址解析步骤:解析目标页面的网页地址,获取目标页面的HTML源文件;
信息提取步骤:读取并解析目标页面的HTML源文件,在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息;
信息校验步骤:根据预定义的校验规则,校验提取出的页面信息是否符合要求;
信息保存步骤:保存经信息校验后的页面信息。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述信息提取步骤中以块方式提取出匹配到的页面信息。
进一步,定制的页面解析模板为XML文件,且该XML文件中包括预定义的节点信息、目标字段信息和校验规则信息。
进一步,预定义的校验规则为正则表达式。
进一步,采用SAX技术读取并解析目标页面的HTML源文件。
进一步,在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息具体包括:采用DOM技术读取定制的页面解析模板,并遍历页面解析模板中包括的节点,在目标页面的HTML源文件中匹配目标字段,提出与目标字段相匹配的页面信息,并保存到临时表中。
对应上述网页信息提取方法,本发明的技术方案还包括一种基于http协议的网页信息提取装置,包括:
模板生成模块,用于根据要提取信息的目标页面,定制相应的页面解析模板,并在页面解析模板中预定义目标字段和校验规则;
网页地址解析模块,其用于解析目标页面的网页地址,获取目标页面的HTML源文件;
信息提取模块,其用于读取并解析目标页面的HTML源文件,在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息;
信息校验模块,其用于校验所述信息提取模块提取出的页面信息是否符合需求;
信息保存模块,其用于保存经信息校验后的页面信息。进一步,所述信息保存模块采用数据库服务器。
本发明的有益效果是:本发明不依赖于数据拥有方的开放度,可根据基本的互联网通信协议(http),对互联网中数据进行采集、提取,有利于进行数据的价值挖掘和分析。本发明通过开放的http协议,对网络中可以访问到的页面信息进行有效数据过滤采集、归集,并对不同的目标页面进行模板定制,实现特定信息的提取。不同于边提取边生成模板的形式,本发明提前定制目标页面的模板,针对性更强,有利于提高信息提取的效率和准确度。
附图说明
图1为本发明基于http协议的信息提取方法的流程示意图;
图2为本发明实施例所述信息提取方法的***架构图;
图3为本发明基于http协议的信息提取装置的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本实施例给出了一种基于http协议的网页信息提取方法,包括:
模板生成步骤:根据要提取信息的目标页面,定制相应的页面解析模板,并在页面解析模板中预定义目标字段和校验规则;
网页地址解析步骤:解析目标页面的网页地址,获取目标页面的HTML源文件;
信息提取步骤:读取并解析目标页面的HTML源文件,在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息;
信息校验步骤:根据预定义的校验规则,校验提取出的页面信息是否符合要求;
信息保存步骤:保存经信息校验后的页面信息。
其中,所述模板生成步骤还包括:在定制的页面解析模块中配置用于提取所需的页面信息的关键字。对应该步骤,所述信息提取步骤中从目标页面提取所需的页面信息则具体包括:根据页面解析模块中配置的关键字从目标页面中以块方式提取出所需的页面信息。
如图2所示,在具体实施时,相应的架构***为目标页面层、服务层和数据层三层架构。目标页面层主要是需要获取信息的页面;而服务层部署有若干采集服务器,相应的程序功能作为服务部署在服务层中,实现对目标页面的建模和采集,即上述模板生成步骤、网页地址解析步骤、信息提取步骤和信息校验步骤的相应功能均在该层实现;数据层部署有若干数据库服务器,用于将采集和提取到的有效信息作为数据进行存储。
相应的程序功能的编程思路说明如下:1、首先在前台制定目标页面模板并保存为xml文件,文件中包含节点名称和校验规则信息(通常为正则表达式)。2、前台手动触发(也有后台启动定时线程发送请求)向目标URL发送请求,并获得目标页面的HTML源文件。并将源文件保存为临时文件。3、使用SAX解析读取临时文件,使用DOM读取模板文件,遍历模板节点,从临时文件中匹配目标字段,将匹配到的数据临时保存到临时表。4、读取临时表中数据,根据预定义的校验规则,对数据进行校验,将满足条件的数据***抽取结果表。
采用上述三层架构时,在具体实施时,对上述步骤细化,则具体的实施过程如下:
第一步,***进行初始化加载,加载服务层程序,用于目标网址信息解析、校验和保存。
第二步,设置需要提取的网页地址、定制好页面解析模板。需要针对目标页面,提前定制页面解析模板,在模板中可配置重点关注内容的界面要素关键字。
第三步,启动提取、解析服务。
第四步,根据第二步定制的模板和网页地址,从目标网址获取信息,加载页面信息、完成块方式的提取,可根据关键字配置提取关键内容。
第五步,对提取到的信息进行校验、使用正则表达式,将特殊字符替换,以便保存入库,完成保存;
如图3所示,对应上述信息提取方法,本实施例还给出了一种基于http协议的信息提取装置,包括:
模板生成模块,用于根据要提取信息的目标页面,定制相应的页面解析模板,并在页面解析模板中预定义目标字段和校验规则;
网页地址解析模块,其用于解析目标页面的网页地址,获取目标页面的HTML源文件;
信息提取模块,其用于读取并解析目标页面的HTML源文件,在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息;
信息校验模块,其用于校验所述信息提取模块提取出的页面信息是否符合需求;
信息保存模块,其用于保存经信息校验后的页面信息。
本实施例的信息提取装置的工作原理及具体实施细节与上述的信息提取方法相同,这里不再多述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于http协议的网页信息提取方法,其特征在于,包括:
模板生成步骤:根据要提取信息的目标页面,定制相应的页面解析模板,并在页面解析模板中预定义目标字段和校验规则;
网页地址解析步骤:解析目标页面的网页地址,获取目标页面的HTML源文件;
信息提取步骤:读取并解析目标页面的HTML源文件,在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息;
信息校验步骤:根据预定义的校验规则,校验提取出的页面信息是否符合要求;
信息保存步骤:保存经信息校验后的页面信息。
2.根据权利要求1所述的网页信息提取方法,其特征在于,所述信息提取步骤中以块方式提取出匹配到的页面信息。
3.根据权利要求1所述的网页信息提取方法,其特征在于,定制的页面解析模板为XML文件,且该XML文件中包括预定义的节点信息、目标字段信息和校验规则信息。
4.根据权利要求1所述的网页信息提取方法,其特征在于,预定义的校验规则为正则表达式。
5.根据权利要求1所述的网页信息提取方法,其特征在于,采用SAX技术读取并解析目标页面的HTML源文件。
6.根据权利要求1所述的网页信息提取方法,其特征在于,在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息具体包括:采用DOM技术读取定制的页面解析模板,并遍历页面解析模板中包括的节点,在目标页面的HTML源文件中匹配目标字段,提出与目标字段相匹配的页面信息,并保存到临时表中。
7.一种基于http协议的网页信息提取装置,其特征在于,包括:
模板生成模块,用于根据要提取信息的目标页面,定制相应的页面解析模板,并在页面解析模板中预定义目标字段和校验规则;
网页地址解析模块,其用于解析目标页面的网页地址,获取目标页面的HTML源文件;
信息提取模块,其用于读取并解析目标页面的HTML源文件,在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息;
信息校验模块,其用于校验所述信息提取模块提取出的页面信息是否符合需求;
信息保存模块,其用于保存经信息校验后的页面信息。
8.根据权利要求7所述的网页信息提取装置,其特征在于,所述信息保存模块采用数据库服务器。
CN201410299203.5A 2014-06-26 2014-06-26 一种基于http协议的网页信息提取方法及装置 Pending CN104050281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410299203.5A CN104050281A (zh) 2014-06-26 2014-06-26 一种基于http协议的网页信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410299203.5A CN104050281A (zh) 2014-06-26 2014-06-26 一种基于http协议的网页信息提取方法及装置

Publications (1)

Publication Number Publication Date
CN104050281A true CN104050281A (zh) 2014-09-17

Family

ID=51503113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410299203.5A Pending CN104050281A (zh) 2014-06-26 2014-06-26 一种基于http协议的网页信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN104050281A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239577A (zh) * 2014-10-09 2014-12-24 北京奇虎科技有限公司 检测网页数据真伪的方法和装置
CN104267953A (zh) * 2014-09-27 2015-01-07 昆明钢铁集团有限责任公司 一种基于浏览器的Word试题导入控件与方法
CN104317948A (zh) * 2014-11-05 2015-01-28 北京中科辅龙信息技术有限公司 页面数据抓取方法和***
CN104484424A (zh) * 2014-12-19 2015-04-01 浪潮通用软件有限公司 基于互联网建筑施工企业资源价格信息库的构建方法
CN104965783A (zh) * 2015-06-16 2015-10-07 百度在线网络技术(北京)有限公司 一种网页内容展现监测的方法和装置
CN105468730A (zh) * 2015-11-20 2016-04-06 广州华多网络科技有限公司 一种网页信息提取方法及其设备
CN106445950A (zh) * 2015-08-10 2017-02-22 刘挺 个性化分布式数据挖掘***
CN106547749A (zh) * 2015-09-16 2017-03-29 北京国双科技有限公司 网页数据采集的方法和装置
CN106570133A (zh) * 2016-10-27 2017-04-19 任子行网络技术股份有限公司 一种可视化的网页信息提取规则的构建方法和装置
CN106649392A (zh) * 2015-11-03 2017-05-10 任子行网络技术股份有限公司 一种基于所见即所得技术获取信息的方法及装置
CN106845092A (zh) * 2017-01-03 2017-06-13 青岛海信医疗设备股份有限公司 一种***对接方法及装置
CN107302584A (zh) * 2017-07-11 2017-10-27 上海精数信息科技有限公司 一种高效的数据采集方法
CN107623624A (zh) * 2016-07-15 2018-01-23 阿里巴巴集团控股有限公司 提供通知消息的方法及装置
CN107992346A (zh) * 2017-10-19 2018-05-04 用友网络科技股份有限公司 应用程序的界面显示方法、界面显示***
CN108460001A (zh) * 2017-12-29 2018-08-28 中国平安财产保险股份有限公司 一种合作伙伴产品线上对接方法、装置、设备及存储介质
CN109474678A (zh) * 2018-10-31 2019-03-15 新华三信息安全技术有限公司 一种信息传送方法及装置
CN109683951A (zh) * 2018-12-21 2019-04-26 北京量子保科技有限公司 一种代码自动发布方法、***、介质和电子设备
CN110020358A (zh) * 2017-11-07 2019-07-16 北京京东尚科信息技术有限公司 用于生成动态页面的方法和装置
CN111125589A (zh) * 2018-10-31 2020-05-08 北大方正集团有限公司 数据采集方法及装置、计算机可读存储介质
CN111125483A (zh) * 2019-12-17 2020-05-08 湖南星汉数智科技有限公司 一种网页数据抽取模板的生成方法、装置、计算机装置及计算机可读存储介质
CN111966881A (zh) * 2020-10-14 2020-11-20 成都数联铭品科技有限公司 一种网页信息提取方法及***、电子设备
CN113535568A (zh) * 2021-07-22 2021-10-22 工银科技有限公司 应用部署版本的验证方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129067A1 (en) * 2001-03-06 2002-09-12 Dwayne Dames Method and apparatus for repurposing formatted content
CN101561802A (zh) * 2008-04-18 2009-10-21 上海复旦光华信息科技股份有限公司 网页结构化数据提取方法与***
CN103514189A (zh) * 2012-06-25 2014-01-15 上海博腾信息科技有限公司 一种基于搜索引擎的网络爬虫的实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129067A1 (en) * 2001-03-06 2002-09-12 Dwayne Dames Method and apparatus for repurposing formatted content
CN101561802A (zh) * 2008-04-18 2009-10-21 上海复旦光华信息科技股份有限公司 网页结构化数据提取方法与***
CN103514189A (zh) * 2012-06-25 2014-01-15 上海博腾信息科技有限公司 一种基于搜索引擎的网络爬虫的实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张彦超 等: "基于自动生成模板的Web信息抽取技术", 《北京交通大学学报》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104267953A (zh) * 2014-09-27 2015-01-07 昆明钢铁集团有限责任公司 一种基于浏览器的Word试题导入控件与方法
CN104239577A (zh) * 2014-10-09 2014-12-24 北京奇虎科技有限公司 检测网页数据真伪的方法和装置
CN104317948A (zh) * 2014-11-05 2015-01-28 北京中科辅龙信息技术有限公司 页面数据抓取方法和***
CN104484424A (zh) * 2014-12-19 2015-04-01 浪潮通用软件有限公司 基于互联网建筑施工企业资源价格信息库的构建方法
CN104965783A (zh) * 2015-06-16 2015-10-07 百度在线网络技术(北京)有限公司 一种网页内容展现监测的方法和装置
CN106445950A (zh) * 2015-08-10 2017-02-22 刘挺 个性化分布式数据挖掘***
CN106547749A (zh) * 2015-09-16 2017-03-29 北京国双科技有限公司 网页数据采集的方法和装置
CN106547749B (zh) * 2015-09-16 2021-02-12 北京国双科技有限公司 网页数据采集的方法和装置
CN106649392A (zh) * 2015-11-03 2017-05-10 任子行网络技术股份有限公司 一种基于所见即所得技术获取信息的方法及装置
CN105468730A (zh) * 2015-11-20 2016-04-06 广州华多网络科技有限公司 一种网页信息提取方法及其设备
CN107623624B (zh) * 2016-07-15 2021-03-16 阿里巴巴集团控股有限公司 提供通知消息的方法及装置
CN107623624A (zh) * 2016-07-15 2018-01-23 阿里巴巴集团控股有限公司 提供通知消息的方法及装置
CN106570133A (zh) * 2016-10-27 2017-04-19 任子行网络技术股份有限公司 一种可视化的网页信息提取规则的构建方法和装置
CN106570133B (zh) * 2016-10-27 2019-07-23 任子行网络技术股份有限公司 一种可视化的网页信息提取规则的构建方法和装置
CN106845092A (zh) * 2017-01-03 2017-06-13 青岛海信医疗设备股份有限公司 一种***对接方法及装置
CN107302584A (zh) * 2017-07-11 2017-10-27 上海精数信息科技有限公司 一种高效的数据采集方法
CN107992346B (zh) * 2017-10-19 2021-09-03 用友网络科技股份有限公司 应用程序的界面显示方法、界面显示***
CN107992346A (zh) * 2017-10-19 2018-05-04 用友网络科技股份有限公司 应用程序的界面显示方法、界面显示***
CN110020358B (zh) * 2017-11-07 2021-08-17 北京京东尚科信息技术有限公司 用于生成动态页面的方法和装置
CN110020358A (zh) * 2017-11-07 2019-07-16 北京京东尚科信息技术有限公司 用于生成动态页面的方法和装置
CN108460001A (zh) * 2017-12-29 2018-08-28 中国平安财产保险股份有限公司 一种合作伙伴产品线上对接方法、装置、设备及存储介质
CN111125589A (zh) * 2018-10-31 2020-05-08 北大方正集团有限公司 数据采集方法及装置、计算机可读存储介质
CN109474678B (zh) * 2018-10-31 2021-04-02 新华三信息安全技术有限公司 一种信息传送方法及装置
CN109474678A (zh) * 2018-10-31 2019-03-15 新华三信息安全技术有限公司 一种信息传送方法及装置
CN111125589B (zh) * 2018-10-31 2023-09-05 新方正控股发展有限责任公司 数据采集方法及装置、计算机可读存储介质
CN109683951A (zh) * 2018-12-21 2019-04-26 北京量子保科技有限公司 一种代码自动发布方法、***、介质和电子设备
CN111125483A (zh) * 2019-12-17 2020-05-08 湖南星汉数智科技有限公司 一种网页数据抽取模板的生成方法、装置、计算机装置及计算机可读存储介质
CN111966881A (zh) * 2020-10-14 2020-11-20 成都数联铭品科技有限公司 一种网页信息提取方法及***、电子设备
CN113535568A (zh) * 2021-07-22 2021-10-22 工银科技有限公司 应用部署版本的验证方法、装置、设备和介质
CN113535568B (zh) * 2021-07-22 2023-09-05 工银科技有限公司 应用部署版本的验证方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN104050281A (zh) 一种基于http协议的网页信息提取方法及装置
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN107085549B (zh) 故障信息生成的方法和装置
CN104317948A (zh) 页面数据抓取方法和***
CN105335246B (zh) 一种基于问答网站分析的程序崩溃缺陷自动修复方法
CN102214244A (zh) docx文件信息解析方法及***
CN105162822A (zh) 一种网站日志数据处理方法及装置
CN111046000B (zh) 一种面向政府数据交换共享的***元数据组织方法
CN106021301B (zh) 一种不同文件格式的数据比对***及方法
CN106341407A (zh) 基于网站画像的异常访问日志挖掘方法及装置
CN104038821A (zh) 统一收集Android电视各功能模块故障信息的方法
CN102571922B (zh) 一种数据流处理方法及装置
CN108228664B (zh) 非结构化数据处理方法及装置
CN104102701A (zh) 一种基于hive的历史数据存档与查询方法
CN109582504A (zh) 一种用于苹果设备的数据恢复方法和装置
CN102063470B (zh) 一种适用于无线传感器网络的节点实时数据解析方法
CN104361007B (zh) 浏览器及其收藏夹的处理方法
CN103853770A (zh) 一种抽取论坛网页中帖子内容的方法及***
CN105975599B (zh) 一种监测网站的页面埋点的方法和装置
CN104166545A (zh) 一种网页资源的嗅探方法以及装置
CN107579976A (zh) 自定义检测网站敏感信息的方法及装置
CN104636340A (zh) 网页url过滤方法、装置及***
CN103678041A (zh) 一种增量备份方法及***
CN103092973A (zh) 信息抽取方法和装置
US20150341381A1 (en) Apparatus and method for collecting harmful website information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140917