CN104462547B

CN104462547B - 一种可配置的网页数据采集的方法及***

Info

Publication number: CN104462547B
Application number: CN201410822548.4A
Authority: CN
Inventors: 吴正辉
Original assignee: SHENZHEN LAN-YOU TECHNOLOG Co Ltd
Current assignee: SHENZHEN LAN-YOU TECHNOLOG Co Ltd
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2019-04-02
Anticipated expiration: 2034-12-25
Also published as: CN104462547A

Abstract

本发明涉及一种可配置的网页数据采集的方法及***，特别适用于需要不断更新对网页数据的采集方式的情况，该方法包括：S1、从数据库中获取网页数据采集的配置信息；S2、根据配置信息，获取所需的分类网站并登陆；S3、根据登录后的网站信息，获取网站下所需要采集的主题；S4、根据配置信息，采集到的主题，采集所需的网页内容；S5、根据配置的数据表，通过配置的数据表中正则表达式或者一定的规则提取采集内容页的所需信息；S6、将提取出的表格数据存储到数据库中。实施本发明的可配置的网页数据采集的方法及***，用户可自行任意配置需要采集的网页数据，通过配置好的采集方案采集全网的相关的数据信息，实现灵活、方便地网页数据采集。

Description

一种可配置的网页数据采集的方法及***

技术领域

本发明涉及网络通信技术领域，更具体地说，涉及一种用于实现不断更新对网页数据的采集方式的情况的可配置的网页数据采集的方法及***。

背景技术

随着Web技术及Web应用的高速发展，大数据时代的来临，对各种Web应用网站，特别社交平台的监控、各个公司的舆论监控、用户数据采集、大数据挖掘的应用越来越广泛；各行各业也越来越依赖互联网并对互联网信息高度依赖。但是，互联网的数据都是海量的，那么怎么去提取出我们需要的数据呢？

目前市场上只有针对某一网站或几个网站的采集***，并没有可配置的、指定特定数据的网页数据采集方法。

网页排版设计既可以采用Table方式也可以采用DIV方式或者两者混合排版，所以在采集数据的时候会出现采集错误或异常；采集的网站改版后需要重新开发程序，增加开发成本。

这就需要我们去开发个***采集这些数据，而各个网站又是各有各的设计及展现方式，不能用同一个种解析方式采集所有的网站，为避免针对每个网站做个解析方法及网站改版需要修改程序，很有必要需要开发一种通用的、可配置的网页数据采集***。

发明内容

本发明所要解决的技术问题是，针对现有的网页数据采集***只能采集一个或几个网站，具有单一性和实用性不强的缺陷，提供一种可配置，运用范围广泛的可配置的网页数据采集的方法及***。

本发明解决上述技术问题的技术方案如下：一种可配置的网页数据采集的方法，该方法包括：

S1、从数据库中获取网页数据采集的配置信息，该配置信息包括：配置采集网站的分类信息，配置采集主题模板信息，配置采集内容页模板信息和配置数据表信息；

S2、根据配置采集网站的分类信息，判断是否启用采集网站的分类，如果是则启用采集网站的分类，获取分类网站，否则结束程序；

S3、根据配置采集网站的分类信息，判断是否登录采集到的分类网站，如果是则登陆该分类网站，否则将采用虚拟登录网页登陆该分类网站；

S4、根据配置采集主题模板信息，获取网站下所需要采集的主题；

S5、根据采集的主题，判断该主题的内容是否存在多页面情况，如果是则根据分页标志获取网址列表信息，否则直接获取该主题的内容页；

S6、根据内容页的开始标志和结束标志截取采集内容，并根据表达式获取内容页的网址集合；

S7、根据配置的采集内容页模板信息，获取采集的内容页；

S8、根据采集的内容页，判断其是否存在多页面情况，如果是则根据分页标志获取多页面的网址列表信息，然后根据内容页的开始标志和结束标志截取内容，否则直接根据开始标志和结束标志截取内容页的内容；

S9、根据配置的数据表信息获取字段对应的表达式或者相关规则提取表格数据；

S10、将提取出的表格数据存储到数据库中。

在本发明所述的可配置的网页数据采集的方法中，所述采集属性信息包括：采集网址、采集网站编码和采集频率。

所述采集网址，用于采集符合配置的网页地址；

所述采集网站编码，用于采集网站的源代码；

所述采集频率设置为每5分钟一次。

在本发明所述的可配置的网页数据采集的方法中，所述数据表信息包括：采集标题、采集时间、采集内容以及采集内容的来源。

采集标题，用于采集内容页的标题名称；

采集内容，用于采集内容页的内容；

采集内容的来源，用于采集内容页的内容来源的信息。

在本发明所述的可配置的网页数据采集的方法中，所述步骤S1的配置信息的配置步骤包括：

a、配置采集网站的分类以及采集属性信息；

b、配置采集主题模板信息；

c、配置采集内容页模板信息；

d、存储配置信息至数据库中，方便以后调取使用。

构造一种可配置的网页数据采集的***，包括：启动模块、调取配置模块、判断模块、获取配置信息模块、数据库、截取内容模块和存储模块；

所述数据库，用于存储配置信息及表格数据；

所述获取配置信息模块，用于配置用户所需采集的网页数据；

所述获取配置信息模块包括获取网站模块、获取网站主题模块、获取内容页模块和获取表格数据模块，其中，

所述获取网站模块，用于获取用户所需的分类网站；

所述获取网站主题模块，用于获取分类网站中用户所需的主题；

所述获取内容页模块，用于获取主题中用户所需的内容页；

获取表格数据模块，用于获取内容页中表格数据。

所述判断模块包括：第一判断模块、第二判断模块、第三判断模块和第四判断模块；

所述截取内容模块包括：第一截取内容模块和第二截取内容模块；

所述获取配置信息模块包括：获取网站模块、获取网站主题模块、获取内容页模块和获取表格数据模块。

启动模块，用于启动可配置的网页数据采集***；

调取配置模块，用于从数据库中调取所需采集的相应配置信息；

第一判断模块，用于判断是否配置采集网站的分类以及采集属性的功能，判断是否启用采集网站的分类，如果是则启用采集网站的分类，获取分类网站，否则结束程序；

第二判断模块，用于判断是否登录采集到的分类网站，如果是则登陆该网站，否则将采用虚拟登录网页登陆该分类网站；

获取网站主题模块，用于根据配置的网站主题模板信息，获取登陆分类网站的所需的主题；

第三判断模块，用于判断该主题内容是否存在多页面情况，如果是则根据分页标志获取多页面的网址列表信息，通过该列表信息获取多页面的内容页，否则直接获取该主题的内容页；

第一截取内容模块，用于通过内容页的开始标志和结束标志截取内容信息；

获取采集内容页模块，用于根据配置的采集内容页信息，从网站的主题模块中获取所需的内容页；

第四判断模块，用于判断其是否存在多页面情况，如果是则根据分页标志获取多页面的网址列表信息，然后根据开始标志和结束标志截取内容页的内容，否则直接根据开始标志和结束标志截取内容页的内容；

第二截取内容模块，用于通过网页内容页的开始标志和结束标志截取内容信息；

提取表格数据模块，用于根据配置的采集数据表信息，提取字段对应的表达式或者规则获取表格数据；

存储模块，用于将提取出的数据存储到数据库中。

在本发明所述的可配置的网页数据采集的***中，所述获取网站模块在执行之前先进行是否启用和登陆网站的判断，如果是则进行获取网站主题和内容页的模块，否则将结束进程。

在本发明所述的可配置的网页数据采集的***中，所述第四判断模块若遇到多页面情况，分页采集内容时采用数据循环合并的方式采集数据。

实施本发明的可配置的网页数据采集的方法及***，具有以下有益效果：用户可自行任意配置需要采集的网页数据信息及条件，通过配置好的采集方案采集全网的相关的数据信息，实现灵活、方便地对任意网页进行数据内容的采集。

附图说明

图1为本发明的可配置的网页数据采集的方法的第一优选实施例的流程图；

图2为本发明的可配置的网页数据采集的方法的第二优选实施例的流程图；

图3为本发明的可配置的网页数据采集的方法的第一或二优选实施例的配置信息步骤的流程图；

图4为本发明的可配置的网页数据采集的***框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，在本发明的可配置的网页数据采集的方法的第一优选实施例的流程图中，所述可配置的网页数据采集的方法开始于步骤S100：步骤S100之后进行到步骤S110，从数据库中获取网页数据采集的配置信息，该配置信息包括：配置采集网站的分类信息，配置采集主题模板信息，配置采集内容页模板信息和配置数据表信息；随后，到下一步骤S120，根据配置采集网站的分类信息，判断是否启用采集网站的分类，如果是则启用采集网站的分类，获取分类网站；否则结束程序；随后，到下一步骤S130，根据配置采集网站的分类信息，判断是否登录采集到的分类网站，如果是则登陆该分类网站，否则将采用虚拟登录网页登陆该分类网站；随后，到下一步骤S140，根据配置采集主题模板信息，获取网站下所需要采集的主题；随后，到下一步骤S150，根据采集的主题，判断该主题内容是否存在多页面情况，如果是则根据分页标志获取多页面的网址列表信息，通过该列表信息获取多页面的内容页，否则直接获取该主题的内容页；随后，到下一步骤S160，根据内容页的开始标志和结束标志截取采集内容并根据表达式获取内容页的多页面的网址集合；随后，到下一步骤S170，根据配置的采集内容页模板信息，获取采集的内容页；随后，到下一步骤180，根据采集的内容页，判断其是否存在多页面情况，如果是则根据分页标志获取多页面的网址列表信息，然后根据开始标志和结束标志截取内容页的内容，否则直接根据开始标志和结束标志截取内容页的内容；随后，到下一步骤S190，根据配置的数据表信息获取字段对应的表达式或者相关规则提取表格数据，随后，到下一步骤S200，将提取出的表格数据存储到数据库中，最后该方法结束于步骤S210。

进一步的，所述采集属性信息包括：采集网址、采集网站编码和采集频率。

进一步的，所述数据表信息包括：采集标题、采集时间、采集内容以及采集内容的来源。

进一步的，所述的表达式采用正则表达式，例如通过正则表达式找出采集时间，则正则表达式来提取日期的公式为：\d{4}(\-|\/|\.)\d{1,2}\1\d{1,2}。

本发明的可配置的网页数据采集的方法，能为用户提供一种可自定义配置需求的网页数据采集的方式，增大了其实用性与有效性。

如图2所示，在本发明的可配置的网页数据采集的方法的第二优选实施例的流程图中，所述可配置的网页数据采集的方法开始于步骤S300：步骤S300之后进行到步骤S310，从数据库中获取网页数据采集的配置信息；随后，到下一步骤S320，根据配置采集网站的分类信息，获取分类的网站，随后到下一步骤S330，根据配置采集的主题信息，获取网站下所需要采集的主题；随后，到下一步骤S340，根据采集到的主题，采集所需的网页内容；随后，到下一步骤S350，根据配置的数据表信息，通过配置的数据表信息采用正则表达式或者一定的规则获取采集内容页的信息；随后，到下一步骤S360，将提取出的表格数据存储到数据库中；最后该方法结束于步骤S370。

本发明的可配置的网页数据采集的方法，能为用户提供一种可自定义配置需求的网页数据采集的方式，更加简化以及方便用户使用，并且增大了其实用性与有效性。

如图3所示，在本发明的可配置的网页数据采集的方法的第一或二优选实施例的配置信息步骤的流程图中，所述可配置的网页数据采集的方法中的配置信息步骤开始于步骤S400：步骤S400之后进行到步骤S410，配置采集网站的分类以及采集属性；随后，到下一步骤S420，配置采集主题模板；随后，进行下一步骤S430，配置采集内容页模板；随后，进行下一步骤S440，存储配置信息至数据库中，方便以后调取使用；最后该方法结束于步骤S450。

本发明的配置信息步骤的流程，能够实现清晰，详细的搜索采集所需相关网站的数据信息提供采集的条件支撑，便于方法流程的进行。

如图4所示，在本发明的可配置的网页数据采集的***框图中，该可配置的网页数据采集的***，包括：启动模块510、调取配置模块520、判断模块530、获取配置信息模块540、截取内容模块550和存储模块560，数据库570；

所述判断模块530包括：第一判断模块531、第二判断模块532、第三判断模块533和第四判断模块534；

所述截取内容模块550包括：第一截取内容模块551和第二截取内容模块552；

所述数据库570用于存储配置信息及表格数据；

所述获取配置信息模块540包括：获取网站模块541、获取网站主题模块542、获取内容页模块543和获取表格数据模块544。

所述启动模块510，用于启动可配置的网页数据采集***；

所述调取配置模块520，用于从数据库中调取所需采集的相应配置信息；

所述第一判断模块531，用于判断是否配置采集网站的分类以及采集属性的功能，判断是否启用采集网站的分类，如果是则启用采集网站的分类，否则结束程序；

所述获取网站模块541，用于根据配置的采集网站的分类及属性信息，从各类网站中获取所需网站；

所述第二判断模块532，用于判断是否登录采集到的分类网站，如果是则登陆该网站，否则将采用虚拟登录网页登陆该网站；

所述获取网站主题模块542，用于根据配置的网站主题模板信息，获取登陆网站的所需的主题信息；

所述第三判断模块533，用于判断该主题内容是否存在多页面情况，如果是则根据分页标志获取多页面的网址列表信息，否则直接获取该主题的网页内容；

所述第一截取内容模块551，用于通过网页内容的开始标志和结束标志截取内容信息；

所述获取内容页模块543，用于根据配置的采集内容页信息，从网站的主题模块中获取所需的内容页信息；

所述第四判断模块534，用于判断其是否存在多页面情况，如果是则根据分页标志获取多页面的网址列表信息，然后根据开始标志和结束标志截取内容，否则直接根据开始标志和结束标志截取内容；

所述第二截取内容模块552，用于通过网页内容页的开始标志和结束标志截取内容信息；

所述获取表格数据模块544，用于根据配置的采集数据表信息，提取字段对应的表达式或者规则获取表格数据；

所述存储模块560，用于将提取出的数据存储到数据库中。

进一步的，所述获取网站模块在执行之前先进行是否启用和登陆网站的判断，如果是则进行获取网站主题和内容页的模块，否则将结束进程。

进一步的，所述第四判断模块若遇到多页面情况，分页采集内容时采用数据循环合并的方式采集数据。

与现有技术相比，本发明的可配置的网页数据采集的方法及***的优点在于，用户可自行任意配置需要采集的网页数据，通过配置好的采集方案采集全网的相关的数据信息，实现灵活、方便地网页数据采集。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种可配置的网页数据采集的方法，其特征在于，该方法包括：

S2、根据配置采集网站的分类信息，获取所需采集的分类网站，判断是否登录采集到的分类网站，如果是则登录该分类网站，否则将采用虚拟登录网页登录该分类网站；

S3、根据配置采集主题模板信息，在采集的分类网站中获取所需采集的主题，判断该主题是否存在多页面情况，如果是则根据分页标志获取多页面网址的列表信息，通过该列表信息获取多页面的内容页，否则直接获取内容页；

S4、根据配置采集内容页模板信息，从采集的主题获取所需采集的内容页，判断其是否存在多页面情况，如果是则根据分页标志获取多页面的网址列表信息以及所述内容页的开始标志和结束标志，截取内容页的内容，否则直接根据内容页的开始标志和结束标志，截取内容页的内容；

S5、根据配置数据表信息，获取字段对应的表达式或者相关规则，从采集的内容页中提取表格数据；

S6、将提取的表格数据存储到数据库中。

2.根据权利要求1所述的可配置的网页数据采集的方法，其特征在于，所述数据表信息包括：采集标题、采集时间、采集内容以及采集内容的来源。

3.根据权利要求1所述的可配置的网页数据采集的方法，其特征在于，所述的步骤S1的配置信息的配置步骤包括：

a、配置采集网站的分类以及采集属性；

b、配置采集主题模板；

c、配置采集内容页模板；

d、存储配置信息至数据库中，以待调取使用。

4.根据权利要求3所述的可配置的网页数据采集的方法，其特征在于，所述采集属性包括：采集网址、采集网站编码和采集频率。

5.一种基于权利要求1所述方法的可配置的网页数据采集的***，其特征在于，包括数据库以及获取配置信息模块，其中：

所述获取配置信息模块，用于从数据库中获取网页数据采集的配置信息；

所述数据库，用于存储配置信息及表格数据；

所述获取网站模块，用于根据配置采集网站的分类信息，获取所需采集的分类网站；

所述获取网站主题模块，用于根据配置采集主题模板信息，在采集的分类网站中获取所需采集的主题；

所述获取内容页模块，用于根据配置采集内容页模板信息，从采集的主题获取所需采集的内容页；

获取表格数据模块，用于获取字段对应的表达式或者相关规则，从采集的内容页中提取表格数据。

6.根据权利要求5所述的可配置的网页数据采集的***，其特征在于，所述获取网站模块还用于在执行之后判断是否启用分类网站，如果是则进行获取网站主题模块和内容页的模块，否则将结束进程。