CN104050281A

CN104050281A - 一种基于http协议的网页信息提取方法及装置

Info

Publication number: CN104050281A
Application number: CN201410299203.5A
Authority: CN
Inventors: 马春新; 董磊
Original assignee: Beijing Si Tech Information Technology Co Ltd
Current assignee: Beijing Si Tech Information Technology Co Ltd
Priority date: 2014-06-26
Filing date: 2014-06-26
Publication date: 2014-09-17

Abstract

本发明涉及一种基于http协议的网页信息提取方法及装置，所述方法包括：模板生成步骤：根据要提取信息的目标页面，定制相应的页面解析模板，并在页面解析模板中预定义目标字段和校验规则；网页地址解析步骤：解析目标页面的网页地址，获取目标页面的HTML源文件；信息提取步骤：读取并解析目标页面的HTML源文件，在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息；信息校验步骤：根据预定义的校验规则，校验提取出的页面信息是否符合要求；信息保存步骤：保存经信息校验后的页面信息。本发明通过开放的http协议，对网络中的页面信息进行有效数据过滤采集、归集，并对不同的目标页面进行模板定制，实现特定信息的提取。

Description

一种基于http协议的网页信息提取方法及装置

技术领域

本发明涉及网络技术中的信息爬取及解析领域，特别是涉及一种基于http协议的网页信息提取方法及装置。

背景技术

Web2.0时代是信息大***的时代，海量的数据信息充斥在工作和生活的方方面面，因此基于数据的分析和潜在价值的挖掘需求也日益迫切起来。然而，在实际中，因数据拥有方对数据的管控非常严格，很多有价值的数据信息是不能够很方便的被采集和提取出的。在这样的背景下，数据重要性凸显，数据可获得性却不高，甚至于受到限制。因此，如何基于数据的互联网特性，对所关心的目标数据进行采集、提取和加以利用已成为一个急待解决的问题。

发明内容

本发明所要解决的技术问题是提供一种基于http协议的信息提取方法及装置，用于解决现有技术中目标信息不易获取的技术问题。

本发明解决上述技术问题的技术方案如下：一种基于http协议的网页信息提取方法，包括：

模板生成步骤：根据要提取信息的目标页面，定制相应的页面解析模板，并在页面解析模板中预定义目标字段和校验规则；

网页地址解析步骤：解析目标页面的网页地址，获取目标页面的HTML源文件；

信息提取步骤：读取并解析目标页面的HTML源文件，在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息；

信息校验步骤：根据预定义的校验规则，校验提取出的页面信息是否符合要求；

信息保存步骤：保存经信息校验后的页面信息。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述信息提取步骤中以块方式提取出匹配到的页面信息。

进一步，定制的页面解析模板为XML文件，且该XML文件中包括预定义的节点信息、目标字段信息和校验规则信息。

进一步，预定义的校验规则为正则表达式。

进一步，采用SAX技术读取并解析目标页面的HTML源文件。

进一步，在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息具体包括：采用DOM技术读取定制的页面解析模板，并遍历页面解析模板中包括的节点，在目标页面的HTML源文件中匹配目标字段，提出与目标字段相匹配的页面信息，并保存到临时表中。

对应上述网页信息提取方法，本发明的技术方案还包括一种基于http协议的网页信息提取装置，包括：

模板生成模块，用于根据要提取信息的目标页面，定制相应的页面解析模板，并在页面解析模板中预定义目标字段和校验规则；

网页地址解析模块，其用于解析目标页面的网页地址，获取目标页面的HTML源文件；

信息提取模块，其用于读取并解析目标页面的HTML源文件，在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息；

信息校验模块，其用于校验所述信息提取模块提取出的页面信息是否符合需求；

信息保存模块，其用于保存经信息校验后的页面信息。进一步，所述信息保存模块采用数据库服务器。

本发明的有益效果是：本发明不依赖于数据拥有方的开放度，可根据基本的互联网通信协议(http)，对互联网中数据进行采集、提取，有利于进行数据的价值挖掘和分析。本发明通过开放的http协议，对网络中可以访问到的页面信息进行有效数据过滤采集、归集，并对不同的目标页面进行模板定制，实现特定信息的提取。不同于边提取边生成模板的形式，本发明提前定制目标页面的模板，针对性更强，有利于提高信息提取的效率和准确度。

附图说明

图1为本发明基于http协议的信息提取方法的流程示意图；

图2为本发明实施例所述信息提取方法的***架构图；

图3为本发明基于http协议的信息提取装置的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本实施例给出了一种基于http协议的网页信息提取方法，包括：

信息保存步骤：保存经信息校验后的页面信息。

其中，所述模板生成步骤还包括：在定制的页面解析模块中配置用于提取所需的页面信息的关键字。对应该步骤，所述信息提取步骤中从目标页面提取所需的页面信息则具体包括：根据页面解析模块中配置的关键字从目标页面中以块方式提取出所需的页面信息。

如图2所示，在具体实施时，相应的架构***为目标页面层、服务层和数据层三层架构。目标页面层主要是需要获取信息的页面；而服务层部署有若干采集服务器，相应的程序功能作为服务部署在服务层中，实现对目标页面的建模和采集，即上述模板生成步骤、网页地址解析步骤、信息提取步骤和信息校验步骤的相应功能均在该层实现；数据层部署有若干数据库服务器，用于将采集和提取到的有效信息作为数据进行存储。

相应的程序功能的编程思路说明如下：1、首先在前台制定目标页面模板并保存为xml文件，文件中包含节点名称和校验规则信息(通常为正则表达式)。2、前台手动触发(也有后台启动定时线程发送请求)向目标URL发送请求，并获得目标页面的HTML源文件。并将源文件保存为临时文件。3、使用SAX解析读取临时文件，使用DOM读取模板文件，遍历模板节点，从临时文件中匹配目标字段，将匹配到的数据临时保存到临时表。4、读取临时表中数据，根据预定义的校验规则，对数据进行校验，将满足条件的数据***抽取结果表。

采用上述三层架构时，在具体实施时，对上述步骤细化，则具体的实施过程如下：

第一步，***进行初始化加载，加载服务层程序，用于目标网址信息解析、校验和保存。

第二步，设置需要提取的网页地址、定制好页面解析模板。需要针对目标页面，提前定制页面解析模板，在模板中可配置重点关注内容的界面要素关键字。

第三步，启动提取、解析服务。

第四步，根据第二步定制的模板和网页地址，从目标网址获取信息，加载页面信息、完成块方式的提取，可根据关键字配置提取关键内容。

第五步，对提取到的信息进行校验、使用正则表达式，将特殊字符替换，以便保存入库，完成保存；

如图3所示，对应上述信息提取方法，本实施例还给出了一种基于http协议的信息提取装置，包括：

信息保存模块，其用于保存经信息校验后的页面信息。

本实施例的信息提取装置的工作原理及具体实施细节与上述的信息提取方法相同，这里不再多述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于http协议的网页信息提取方法，其特征在于，包括：

信息保存步骤：保存经信息校验后的页面信息。

2.根据权利要求1所述的网页信息提取方法，其特征在于，所述信息提取步骤中以块方式提取出匹配到的页面信息。

3.根据权利要求1所述的网页信息提取方法，其特征在于，定制的页面解析模板为XML文件，且该XML文件中包括预定义的节点信息、目标字段信息和校验规则信息。

4.根据权利要求1所述的网页信息提取方法，其特征在于，预定义的校验规则为正则表达式。

5.根据权利要求1所述的网页信息提取方法，其特征在于，采用SAX技术读取并解析目标页面的HTML源文件。

6.根据权利要求1所述的网页信息提取方法，其特征在于，在目标页面的HTML源文件中提取与页面解析模板预定义的目标字段相匹配的页面信息具体包括：采用DOM技术读取定制的页面解析模板，并遍历页面解析模板中包括的节点，在目标页面的HTML源文件中匹配目标字段，提出与目标字段相匹配的页面信息，并保存到临时表中。

7.一种基于http协议的网页信息提取装置，其特征在于，包括：

信息保存模块，其用于保存经信息校验后的页面信息。

8.根据权利要求7所述的网页信息提取装置，其特征在于，所述信息保存模块采用数据库服务器。