CN106126747A

CN106126747A - 基于爬虫的数据获取方法及装置

Info

Publication number: CN106126747A
Application number: CN201610556254.0A
Authority: CN
Inventors: 陈剑
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2016-11-16

Abstract

本发明提供一种基于爬虫的数据获取方法及装置，该方法包括获取第一待抓取页面上的第一数据和至少一个跳转链接，其中，至少一个跳转链接为第一待抓取页面上可跳转至第二待抓取页面的跳转地址，根据至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面，并获取第二待抓取页面上的第二数据，将第一数据和第二数据存储在预设的数据库中。通过获取页面中的数据实现数据的抓取，通过获取页面中的跳转链接，并跳转至该跳转链接对应的页面，模拟人工操作浏览器的行为，以实现交互丰富的动态页面的页面跳转，解决了传统爬虫在抓取动态网页时无法对页面全部数据获取的问题。

Description

基于爬虫的数据获取方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于爬虫的数据获取方法及装置。

背景技术

随着主流Web技术的迅猛发展，互联网平台无时无刻发生着变化。如今，互联网由静态网页和黄页信息，用户通过各种社交网络平台如博客、微博、电子公告板(英文：Bulletin Board System，简称：BBS)、社交网站(英文：Social Network Site，简称：SNS)、新闻评论等进行信息的获取、评论等。

基于各种网络上热门话题的信息被广泛分析和关注，快速、准确获取网络上的用户数据、评论数据等数据就凸显出其重要性。目前，网络数据采集方法主要有以下两种：一种是利用网络自身提供的应用程序编程接口(英文：Application ProgrammingInterface，简称：API)，通常不能满足多向的数据分析需求；另一种是利用传统爬虫程序获取相关数据，需要分析和解析复杂的网页元素，筛选所需数据，具体如，获取至少一个包括统一资源定位符(英文：Uniform Resource Locator，简称：URL)、网站编号和类型的种子，将种子的URL作为当前URL，将种子的网站编号作为当前网站编号，将种子的类型作为当前类型；获取至少一个策略，根据策略确定至少一个爬虫抓取参数；根据当前类型获取与当前类型对应的规则；按照爬虫抓取参数从当前URL抓取网页数据，根据规则对网页数据进行解析获得解析数据。上述两种方式均是采用传统的爬虫程序获取网络数据。

对于利用传统爬虫程序获取网络相关数据，通过获取页面的URL来获取静态页面中的数据，而对于如今交互丰富的动态页面和复杂的跳转方式，传统的爬虫程序不能实现全部数据的获取。

发明内容

本发明提供一种基于爬虫的数据获取方法及装置，以实现对拥有丰富动态交互页面的网页中的数据的抓取，提高动态交互页面的网页中数据抓取的速度和稳定性。

本发明第一方面提供一种网络爬虫的数据抓取方法，包括：

获取第一待抓取页面上的第一数据和至少一个跳转链接；其中，所述至少一个跳转链接为所述第一待抓取页面上可跳转至第二待抓取页面的跳转地址；

根据所述至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面，并获取所述第二待抓取页面上的第二数据；

将所述第一数据和所述第二数据存储在预设的数据库中。

进一步的，所述获取第一待抓取页面上的第一数据和至少一个跳转链接，包括：

解析所述第一待抓取页面的布局，定位所述第一待抓取页面上的第一数据位置和所述至少一个跳转链接的位置；

采用爬虫方式获取所述第一待抓取页面上所述第一数据位置对应的所述第一数据，及获取所述至少一个跳转链接的位置对应的所述至少一个跳转链接。

可选的，所述解析所述待抓取页面的布局，定位所述第一待抓取页面的第一数据的位置和所述至少一个跳转链接的位置，包括：

采用可扩展标记语言路径语言解析所述待抓取页面的位置和布局，获取所述第一数据的位置和所述至少一个跳转链接的位置。

进一步的，所述获取第一待抓取页面上的第一数据和至少一个跳转链接之前，所述方法还包括，

从预设的至少一个账号信息中选择第一账号信息，并根据所述第一账号信息登录待抓取页面所在的网站，进入所述第一待抓取页面；

其中，每个账号信息包括登录账号和登录密码。

进一步的，所述方法还包括：

检测第一账号信息是否失效；

若所述第一账号信息失效，则将所述第一账号信息进行标记，并在所述至少一个账号信息中选择第二账号信息；

根据所述第二账号信息登录所述网站，进入所述第一待抓取页面。

进一步的，检测所述第一账号信息的抓取数据次数和/或抓取时间；

当所述抓取数据次数超过预设的抓取次数阈值时，从所述至少一个账号信息中选择第三账号信息，并根据所述第三账号信息登录所述网站，进入所述第一待抓取页面；和/或，当所述抓取时间超过预设的抓取时间阈值时，从所述至少一个账号信息中选择第三账号信息，并根据所述第三账号信息登录所述网站，进入所述第一待抓取页面。

本发明第二方面提供一种网络爬虫的数据抓取装置，包括：

数据获取模块，用于获取第一待抓取页面上的第一数据和至少一个跳转链接；其中，所述至少一个跳转链接为所述第一待抓取页面上可跳转至第二待抓取页面的跳转地址；

处理模块，用于根据所述至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面；

所述数据获取模块还用于获取所述第二待抓取页面上的第二数据；

存储模块，用于将所述第一数据和所述第二数据存储在预设的数据库中。

进一步的，所述数据获取模块，具体用于：

可选的，所述数据获取模块，具体用于采用可扩展标记语言路径语言解析所述待抓取页面的位置和布局，获取所述第一数据的位置和所述至少一个跳转链接的位置。

进一步的，所述处理模块还用于从预设的至少一个账号信息中选择第一账号信息，并根据所述第一账号信息登录待抓取页面所在的网站，进入所述第一待抓取页面；其中，每个账号信息包括登录账号和登录密码。

进一步的，所述处理模块还用于检测第一账号信息是否失效；

若所述第一账号信息失效，则将所述第一账号信息进行标记，并在所述至少一个账号信息中选择第二账号信息；根据所述第二账号信息登录所述网站，进入所述第一待抓取页面。

进一步的，所述处理模块还用于检测所述第一账号信息的抓取数据次数和/或抓取时间；

本发明提供的网络爬虫的数据抓取方法及装置，通过获取第一待抓取页面上的第一数据和至少一个跳转链接，根据至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面，并获取第二待抓取页面上的第二数据；并将抓取的数据存储在预设的数据库中。本发明通过获取页面中的数据实现数据的抓取，通过获取页面中的跳转链接，并跳转至该跳转链接对应的页面，实现页面的跳转，模拟人工操作浏览器的行为，以实现交互丰富的动态页面的页面跳转，即使是随机生成的跳转链接，只要获取该链接，并跳转至该链接对应的页面后，即可实现该页面的数据抓取，解决了传统爬虫在抓取动态网页时无法对页面全部数据的获取的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于爬虫的数据获取方法实施例一的流程图；

图2为本发明实施例提供的基于爬虫的数据获取方法实施例二的流程图；

图3为本发明实施例提供的基于爬虫的数据获取方法实施例三的流程图；

图4为本发明实施例提供的基于爬虫的数据获取方法实施例三的流程图；

图5为本发明实施例提供的基于爬虫的数据获取装置实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例的应用场景是对交互丰富的动态页面中数据的抓取，以进行统计与分析。例如分析微博的关于热门话题的用户评论、以及对参与评论的用户的分类与统计，又如统计对某一新闻的评论持支持、反对及中立态度的用户的比例等。因此需要对这些交互丰富的动态页面中的数据进行快速、准确获取。

图1为本发明实施例提供的基于爬虫的数据获取方法实施例一的流程图，如图1所示，本实施例的执行主体为计算机、手机、平板电脑等能够实现数据抓取功能的终端设备，该基于爬虫的数据获取方法的步骤具体包括：

S101：获取第一待抓取页面上的第一数据和至少一个跳转链接；其中，至少一个跳转链接为第一待抓取页面上可跳转至第二待抓取页面的跳转地址。

在本实施例中，模拟人工操作浏览器的行为，打开的第一待抓取页面中进行抓取，其中，可以采用现有浏览器打开待抓取页面，也可以采用其他可以打开页面的应用程序客户端。首先，获取第一待抓取页面上的第一数据和至少一个跳转链接，其中跳转链接可以是静态页面或动态页面中下一页的跳转链接，如下一页按钮或下拉加载所对应的链接，也可以是发表评论用户个人主页或个人***息的跳转链接等，其中，即使是对于拥有丰富动态交互的页面和随机生成下一页地址的页面，例如微博等社交平台的话题页面，在该页面中获取跳转链接，该跳转链接为可跳转至第二待抓取页面的跳转地址，并采用模拟人工操作浏览器的行为，打开第二待抓取页面，获取第二待抓取页面上的数据和跳转链接，即可实现拥有丰富动态交互的页面和随机生成下一页地址的页面的跳转和数据获取，解决现有技术中传统爬虫爬取动态页面时无法跳转的问题。其中，待抓取的第一数据的数据类型和跳转链接的类型可以根据数据获取的需求进行设置。本实施例中，模拟人工操作浏览器的行为，可以有效的回避反爬虫验证机制。

S102：根据至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面，并获取第二待抓取页面上的第二数据。

在本实施例中，模拟人工操作浏览器的行为，根据至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面，在对第二待抓取页面上的数据进行抓取，当第二待抓取页面上也存在跳转链接时，获取该跳转链接，并对该跳转链接对应的页面进行抓取。本实施例采用深度优先的方式，沿页面上的跳转链接走到不能再深入为止，然后再返回上一页面，继续数据及跳转链接的抓取。

S103：将第一数据和第二数据存储在预设的数据库中。

在本实施例中，将步骤S101和步骤S102中抓取的数据存储在预设的数据库中，存储过程将数据存于预设的数据库中的相应位置，以方便数据的统计和分析。

由于传统爬虫并不是以浏览器方式访问页面，只下载网页的html源代码，采用URL方式进行页面数据抓取，不加载包含在页面中的js/css/图片等，而对于交互丰富的动态页面，由于其具有复杂的跳转方式，且这些页面其并不是真正的在网络空间中存储，而是动态生成的，是根据用户的访问要求才动态生成页面，具体的，动态生成的页面由脚本语言编写，直到脚本程序运行以后，才能得到页面中的内容。因此传统爬虫不能实现动态页面中全部数据的获取。而本实施例中提供的基于爬虫的数据获取方法采用浏览器行为，模拟人工操作的方式实现动态网页随机生成下一跳网址的跳转，进入该下一跳网址对应的页面，然后进行抓取数据，可以实现动态网页中数据的抓取。

本实施例提供的基于爬虫的数据获取方法，通过模拟人工操作浏览器的行为，获取第一待抓取页面上的第一数据和至少一个跳转链接，根据至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面，并获取第二待抓取页面上的第二数据；并将抓取的数据存储在预设的数据库中。本发明通过获取页面中的数据实现数据的抓取，通过获取页面中的跳转链接，并跳转至该跳转链接对应的页面，实现页面的跳转，模拟人工操作浏览器的行为，以实现交互丰富的动态页面的页面跳转，即使是随机生成的跳转链接，只要获取该链接，并跳转至该链接对应的页面后，即可实现该页面的数据抓取，解决了传统爬虫在抓取动态网页时无法对页面全部数据的获取的问题。

图2为本发明实施例提供的基于爬虫的数据获取方法实施例二的流程图，如图2所示，本实施例在实施例一的基础上进一步改进，其中，步骤S101中获取第一待抓取页面上的第一数据和至少一个跳转链接的具体实现步骤为：

S201：解析第一待抓取页面的布局，定位第一待抓取页面上的第一数据位置和至少一个跳转链接的位置。

在本实施例中，通过解析第一待抓取页面的页面布局，可以快速定位页面上的数据分布的位置和跳转链接的分布位置，抓取时即可针对对应位置进行数据的检索和抓取以及跳转链接的获取，省去了传统爬虫数据抓取过程中对整个页面繁杂的解析工作，不需要从头到尾遍历整个页面，可以快速排除网页噪声(广告栏、导航栏、版权栏等与待抓取数据不相关的内容)，更加有效的提升爬虫抓取的速度和跳转链接获取的速度，具有更高的灵活性。另外，通常情况下同一网站下的页面中的各部分具有相同的页面布局，例如网页的最上面部分往往是网站的名称、logo图片及导航栏等，网页最下面为版权信息，左或右侧栏是相关链接或广告信息，中间部分是主体信息，通过解析第一待抓取页面的页面布局，定位第一待抓取页面上的数据分布的位置和跳转链接的分布位置，当抓取同一网站下其他页面上的数据和跳转链接时，可根据第一抓取页面的解析得到的数据分布的位置和跳转链接的分布位置，直接针对该位置进行数据和跳转链接的抓取，可进一步提高数据获取速度。

S202：采用爬虫方式获取第一待抓取页面上第一数据位置对应的第一数据，及获取至少一个跳转链接的位置对应的至少一个跳转链接。

在本实施例中，在解析获得第一待抓取页面上第一数据位置和至少一个跳转链接的位置后，采用爬虫方式抽取过滤该位置中对应的数据和跳转链接，以实现数据和跳转链接的获取。

本实施例提供的基于爬虫的数据获取方法，通过解析待抓取页面的页面布局，可以快速定位页面上的数据分布的位置和跳转链接的分布位置，抓取时针对对应位置进行数据的检索和抓取以及跳转链接的获取，省去了传统爬虫数据抓取过程中对整个页面繁杂的解析工作，排除网页噪声(广告栏、导航栏、版权栏等与待抓取数据不相关的内容)，更加有效的提升爬虫抓取的速度和跳转链接获取的速度，具有更高的灵活性。

图3为本发明实施例提供的基于爬虫的数据获取方法实施例三的流程图，在上述任一实施例的基础上，如图3所示，步骤S201中根据至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面，并获取第二待抓取页面上的第二数据的一种具体实现步骤为：

S301：采用可扩展标记语言路径语言解析待抓取页面的位置和布局，获取第一数据的位置和至少一个跳转链接的位置。

在本实施例中，采用可扩展标记语言路径语言解析待抓取页面的位置和布局，其中，可扩展标记语言路径语言(英文：Xml Path Language，简称：XPath)用来确定可扩展标记语言(英文：Extensible Markup Language，简称：XML)(也称为：标准通用标记语言的子集)文档中某部分位置的语言，XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力，在XML文档中通过元素、属性、文本等进行导航。

而网页通常采用DIV布局，通过定义文档中的分区或节，搭建网站结构(框架)。本实施例中利用XPath解析页面的DIV布局，从而快速定位页面上的数据分布的位置和跳转链接的分布位置，抓取时即可针对对应位置进行数据的检索和抓取以及跳转链接的获取，省去了传统爬虫数据抓取过程中对整个页面繁杂的解析工作，排除网页噪声(广告栏、导航栏、版权栏等与待抓取数据不相关的内容)，更加有效的提升爬虫抓取的速度和跳转链接获取的速度，具有更高的灵活性。而且，XPath可以直接定位到XML文档中包含信息的节点，可以根据页面中各DIV布局快速定位到页面上的数据分布的位置和跳转链接的分布位置，从而大大提到解析页面布局速度，以实现数据的快速获取。

S302：采用爬虫方式获取第一待抓取页面上第一数据位置对应的第一数据，及获取至少一个跳转链接的位置对应的至少一个跳转链接。

图4为本发明实施例提供的基于爬虫的数据获取方法实施例四的流程图，如图4所示，在实施例一至实施例三提供的基于爬虫的数据获取方法的基础上，本实施例提供一种该方法的具体实现方式，具体步骤包括：

S401：从预设的至少一个账号信息中选择第一账号信息，并根据第一账号信息登录待抓取页面所在的网站，进入第一待抓取页面。

其中，每个账号信息包括登录账号和登录密码。

在本实施例中，本实施例中，增加账号登录的步骤S401，主要针对微博等社交网络平台在未登录状态下开放浏览的数据有限，而登录账号后才开放全部数据，通过步骤S401后，可实现对第一待抓取页面的全部数据的抓取，保证数据抓取的完整性。具体可采用Xpath识别页面中的账号登录表单，并根据选择的第一账号信息在账号登录表单相应位置填写第一账号信息对应的登录账号和登录密码，完成账号登录的过程。

此外，在账号登录的过程中可能会遇到需要验证码验证后才可登录的状况，因此，作为本实施例的进一步改进，账号登录的步骤S401中，具体还可以包括，通过页面解析判断是否需要验证码验证，若需要验证码，则抓取该验证码图片，并将验证码图片上传至验证码识别平台的服务器，通过服务器的识别后，返回验证码的文本信息，并填写在验证码对应表单中，继续执行登录操作。

S402：获取第一待抓取页面上的第一数据和至少一个跳转链接。

其中，至少一个跳转链接为第一待抓取页面上可跳转至第二待抓取页面的跳转地址。

S403：根据至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面，并获取第二待抓取页面上的第二数据。

S404：将第一数据和所述第二数据存储在预设的数据库中。

在本实施例中，通过模拟人工操作浏览器的行为，获取第一待抓取页面上的第一数据和至少一个跳转链接，根据至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面，并获取第二待抓取页面上的第二数据；并将抓取的数据存储在预设的数据库中。本实施例中通过获取页面中的数据实现数据的抓取，通过获取页面中的跳转链接，并跳转至该跳转链接对应的页面，实现页面的跳转，模拟人工操作浏览器的行为，以实现交互丰富的动态页面的页面跳转，即使是随机生成的跳转链接，只要获取该链接，并跳转至该链接对应的页面后，即可实现该页面的数据抓取，解决了传统爬虫在抓取动态网页时无法对页面全部数据的获取的问题。

作为本实施例的进一步改进，上述步骤S401与S402之间，还可以对第一账号信息进行检测，检测第一账号信息是否能够继续进行使用，具体检测方式为：

首先，检测第一账号信息是否失效。若第一账号信息没有失效，则直接登录进入第一待抓取页面，然后按照上述的过程进行页面上所有的数据的抓取。若第一账号信息失效，则将第一账号信息进行标记，并在至少一个账号信息中选择第二账号信息，根据第二账号信息登录网站，进入第一待抓取页面。

在该方案中，检测第一账号信息是否失效，包括在登录待抓取应用后的检测和抓取过程中的第一账号信息的登录状态进行检测。具体的，账号的登录信息通常会显示在待抓取页面中，例如在页面导航栏会显示有登录账号信息栏，登录账号信息栏显示登录账号的头像、昵称或账号ID等信息，而当未登录或账号失效时，该处为空，不显示头像、昵称或账号ID，利用Xpath定位该登录账号信息栏，并获取该处内容，判断第一账号登录状态是否正常，即当判断该处存在第一账号对应的头像、昵称或账号ID时认定第一账号登录状态正常；当判断该处不存在第一账号对应的头像、昵称或账号ID时认定第一账号登录状态失效。

当判断第一账号信息失效后，对该第一账号信息进行标记，标记方式可以采用在该第一账号信息中增加一账号状态码，该账号状态码用于记录该第一账号信息失效。而每次在至少一个账号信息中选取账号信息登录时，首先识别账号信息中是否包含账号状态码，从而判断该账号信息是否有为失效的账号信息，当选取的账号信息为失效的账号信息，则重新选取另一账号信息。在本实施例中，当第一账号信息失效后，更换第二账号信息登录，以保证数据抓取的继续进行。

当然，在数据抓取的过程中，也可以对第一账号信息是否失效进行检测，以确保在数据抓取过程中账号正常登录。

在具体实现过程中，除了可以对账号信息的有效性进行检测，确定是否继续使用该账号信息进行数据的抓取，还可以对账号信息的抓取数据次数和抓取时间进行检测，确定是否要变更别的账号信息进行登录，具体的实现方式如下：

检测第一账号信息的抓取数据次数和/或抓取时间；当抓取数据次数超过预设的抓取次数阈值时，从至少一个账号信息中选择第三账号信息，并根据第三账号信息登录网站，进入第一待抓取页面；和/或，当抓取时间超过预设的抓取时间阈值时，从至少一个账号信息中选择第三账号信息，并根据第三账号信息登录网站，进入第一待抓取页面。

在本方案中，针对一些网络平台较强的反爬虫验证机制，本实施例中采用多账号的轮换式登录，以保证每个有效账号抓取的时间不会太长以致封号。具体的，可采用限制抓取数据次数或抓取时间。例如，当抓取数据次数超过预设的抓取次数阈值时，从至少一个账号信息中选择第三账号信息，并根据第三账号信息登录待抓取应用，进入待抓取页面，其中，抓取数据次数可以为获取待抓取数据的次数，也可以为向待抓取页面的网络服务器请求数据的次数等等；又如，当抓取时间超过预设的抓取时间阈值时，从至少一个账号信息中选择第三账号信息，并根据第三账号信息登录待抓取应用，进入待抓取页面。当然也可以同时对抓取数据次数和抓取时间进行限制。通过上述的方案，可以保证在一定时间内每个一账号向网络平台服务器请求数据的次数不超过该网络平台反爬虫验证机制中的请求阈值，从而保证该账号的有效状态，也保证数据抓取过程的顺利持续进行。其中，抓取数据的次数或抓取时间的检测可以在一个待抓取页面被抓取完毕后进行检测，也可以实时进行检测。

此外，一些社交网络设置反爬虫机制可能为填写验证码，即数据抓取过程中达到其反爬虫机制的触发条件时，会弹出输入验证码的窗口。作为本实施例的进一步改进，可以以下采用两种处理方式之一进行应对：第一、填写验证码继续数据爬取，第二、更换账号重新登录后继续数据抓取。第一种方式，具体可通过页面解析到待抓取页面中存在需要填写验证码的表单时，则抓取该验证码图片，并将验证码图片上传至验证码识别平台的服务器，通过服务器的识别后，返回验证码的文本信息，并填写在验证码对应表单中，完成验证码验证，并继续数据的抓取。第二种方式具体可为，重新选择另一账号信息进行登录，并继续数据的抓取。

上述实施例提供的基于爬虫的数据获取方法也可以为分布式数据获取，即同时执行多个数据获取任务，对多个页面进行数据的分布式并行抓取，可以提高数据抓取效率。

作为本实施的进一步改进，也可以采用第一数据获取任务中获取第一待抓取页面上的第一数据和至少一个跳转链接后，启动第二数据获取任务，由第二数据获取任务跳转至该跳转链接对应的跳转地址，而第一数据获取任务继续执行待抓取页面上的数据和跳转链接的获取。

此外存储已抓取数据的预设的数据库可以为MySQL数据库，在分布式数据抓取时，在一定数据级别以内MySQL数据自身的隔离特性可保证对每条数据的读写加以完整性的保护，不会出现数据读写冲突。

图5为本发明实施例提供的基于爬虫的数据获取装置实施例的结构示意图，如图5所示，本实施例的提供的基于爬虫的数据获取装置10包括：

数据获取模块11，用于获取第一待抓取页面上的第一数据和至少一个跳转链接；其中，至少一个跳转链接为第一待抓取页面上可跳转至第二待抓取页面的跳转地址；

处理模块12，还用于根据至少一个跳转链接，进入每个跳转链接对应的第二待抓取页面；

数据获取模块11还用于获取第二待抓取页面上的第二数据；

存储模块13，用于将第一数据和第二数据存储在预设的数据库中。

在本实施例中，数据获取模块11通过模拟人工操作浏览器的行为，获取第一待抓取页面上的第一数据和至少一个跳转链接，处理模块12根据至少一个跳转链接，通过模拟人工操作浏览器的行为进入每个跳转链接对应的第二待抓取页面，并由数据获取模块11获取第二待抓取页面上的第二数据和跳转链接，即可实现拥有丰富动态交互的页面和随机生成下一页地址的页面的跳转和数据获取，解决现有技术中传统爬虫爬取动态页面时无法跳转的问题。存储模块13用于将抓取的数据存储在预设的数据库中，存储过程将数据存于预设的数据库中的相应位置，以方便数据的统计和分析。

作为本实施例的进一步改进，数据获取模块11，具体用于：

解析第一待抓取页面的布局，定位第一待抓取页面上的第一数据位置和至少一个跳转链接的位置；

在本实施例中，采用爬虫方式获取第一待抓取页面上第一数据位置对应的第一数据，及获取至少一个跳转链接的位置对应的至少一个跳转链接。

数据获取模块11，具体用于解析第一待抓取页面的页面布局，并快速定位页面上的数据分布的位置和跳转链接的分布位置，抓取时即可针对对应位置进行数据的检索和抓取以及跳转链接的获取，省去了传统爬虫数据抓取过程中对整个页面繁杂的解析工作，不需要从头到尾遍历整个页面，可以快速排除网页噪声(广告栏、导航栏、版权栏等与待抓取数据不相关的内容)，更加有效的提升爬虫抓取的速度和跳转链接获取的速度，具有更高的灵活性。在解析获得第一待抓取页面上第一数据位置和至少一个跳转链接的位置后，数据获取模块11采用爬虫方式抽取过滤该位置中对应的数据和跳转链接，以实现数据和跳转链接的获取。

作为本实施例的进一步改进，数据获取模块11，具体用于：

采用可扩展标记语言路径语言解析待抓取页面的位置和布局，获取第一数据的位置和至少一个跳转链接的位置。

在本实施例中，数据获取模块11通过利用XPath解析页面的DIV布局，从而快速定位页面上的数据分布的位置和跳转链接的分布位置，抓取时即可针对对应位置进行数据的检索和抓取以及跳转链接的获取，省去了传统爬虫数据抓取过程中对整个页面繁杂的解析工作，排除网页噪声(广告栏、导航栏、版权栏等与待抓取数据不相关的内容)，更加有效的提升爬虫抓取的速度和跳转链接获取的速度，具有更高的灵活性。而且，XPath可以直接定位到XML文档中包含信息的节点，可以根据页面中各DIV布局快速定位到页面上的数据分布的位置和跳转链接的分布位置，从而大大提到解析页面布局速度，以实现数据的快速获取。

作为本实施例的进一步改进，处理模块12还用于从预设的至少一个账号信息中选择第一账号信息，并根据第一账号信息登录待抓取页面所在的网站，进入第一待抓取页面；其中，每个账号信息包括登录账号和登录密码。

本实施例中，增加处理模块12，可实现登录账号后才开放全部数据的网站待抓页面的全部数据的抓取，例如微博等社交网络平台等，保证数据抓取的完整性。具体可由数据获取模块11采用Xpath识别页面中的账号登录表单，并根据选择的第一账号信息在账号登录表单相应位置填写第一账号信息对应的登录账号和登录密码，完成账号登录的过程。

此外，处理模块12在账号登录的过程中可能会遇到需要验证码验证后才可登录的状况，因此，作为本实施例的进一步改进，处理模块12具体还可以用于通过页面解析判断是否需要验证码验证，若需要验证码，则抓取该验证码图片，并将验证码图片上传至验证码识别平台的服务器，通过服务器的识别后，返回验证码的文本信息，并填写在验证码对应表单中，继续执行登录操作。

作为本实施例的进一步改进，本实施例提供的装置中，处理模块12还用于检测第一账号信息是否失效；

若第一账号信息失效，则将第一账号信息进行标记，并在至少一个账号信息中选择第二账号信息；

根据第二账号信息登录网站，进入第一待抓取页面。

本实施例中，处理模块12还用于检测第一账号信息是否失效，包括在登录待抓取应用后的检测和抓取过程中的第一账号信息的登录状态进行检测。具体的，账号的登录信息通常会显示在待抓取页面中，例如在页面导航栏会显示有登录账号信息栏，登录账号信息栏显示登录账号的头像、昵称或账号ID等信息，而当未登录或账号失效时，该处为空，不显示头像、昵称或账号ID，处理模块12利用Xpath定位该登录账号信息栏，并获取该处内容，判断第一账号登录状态是否正常，即当判断该处存在第一账号对应的头像、昵称或账号ID时认定第一账号登录状态正常；当判断该处不存在第一账号对应的头像、昵称或账号ID时认定第一账号登录状态失效。当判断第一账号信息失效后，处理模块12对该第一账号信息进行标记，标记方式可以采用在该第一账号信息中增加一账号状态码，该账号状态码用于记录该第一账号信息失效。而每次处理模块12在至少一个账号信息中选取账号信息登录时，首先识别账号信息中是否包含账号状态码，从而判断该账号信息是否有为失效的账号信息，当选取的账号信息为失效的账号信息，则重新选取另一账号信息。在本实施例中，当第一账号信息失效后，处理模块12更换第二账号信息登录，以保证数据抓取的继续进行。

作为本实施例的进一步改进，本实施例的处理模块12，还用于检测第一账号信息的抓取数据次数和/或抓取时间；当抓取数据次数超过预设的抓取次数阈值时，从至少一个账号信息中选择第三账号信息，并根据第三账号信息登录网站，进入第一待抓取页面；和/或，当抓取时间超过预设的抓取时间阈值时，从至少一个账号信息中选择第三账号信息，并根据第三账号信息登录网站，进入第一待抓取页面。

本实施例中，针对一些网络平台较强的反爬虫验证机制，本实施例中采用多账号的轮换式登录，以保证每个有效账号抓取的时间不会太长以致封号。具体的，可采用处理模块12限制在预设的抓取数据次数阈值或抓取时间阈值切换账号。例如，当抓取数据次数超过预设的抓取次数阈值时，处理模块12从至少一个账号信息中选择第三账号信息，并根据第三账号信息登录待抓取应用，进入待抓取页面，其中，抓取数据次数可以为获取待抓取数据的次数，也可以为向待抓取页面的网络服务器请求数据的次数等等；又如，当抓取时间超过预设的抓取时间阈值时，处理模块12从至少一个账号信息中选择第三账号信息，并根据第三账号信息登录待抓取应用，进入待抓取页面。当然处理模块12也可以同时对抓取数据次数和抓取时间进行限制。通过处理模块12执行上述的方案，可以保证在一定时间内每个一账号向网络平台服务器请求数据的次数不超过该网络平台反爬虫验证机制中的请求阈值，从而保证该账号的有效状态，也保证数据抓取过程的顺利持续进行。其中，抓取数据的次数或抓取时间的检测可以在一个待抓取页面被抓取完毕后进行检测，也可以实时进行检测。

本发明实施例所提供的进行基于爬虫的数据获取方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于爬虫的数据获取方法，其特征在于，包括：

将所述第一数据和所述第二数据存储在预设的数据库中。

2.根据权利要求1所述的方法，其特征在于，所述获取第一待抓取页面上的第一数据和至少一个跳转链接，包括：

解析所述第一待抓取页面的布局，定位所述第一待抓取页面上的第一数据的位置和所述至少一个跳转链接的位置；

3.根据权利要求2所述的方法，其特征在于，所述解析所述待抓取页面的布局，定位所述第一待抓取页面的第一数据的位置和所述至少一个跳转链接的位置，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述获取第一待抓取页面上的第一数据和至少一个跳转链接之前，所述方法还包括，

其中，每个账号信息包括登录账号和登录密码。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

检测第一账号信息是否失效；

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

检测所述第一账号信息的抓取数据次数和/或抓取时间；

7.一种基于爬虫的数据获取装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述数据获取模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述数据获取模块，具体用于：

10.根据权利要求7至9任一项所述的装置，其特征在于，

所述处理模块还用于从预设的至少一个账号信息中选择第一账号信息，并根据所述第一账号信息登录待抓取页面所在的网站，进入所述第一待抓取页面；

其中，每个账号信息包括登录账号和登录密码。