CN110968760A

CN110968760A - 网页数据的爬取方法、装置、网页登录方法及装置

Info

Publication number: CN110968760A
Application number: CN201811162477.4A
Authority: CN
Inventors: 满悦
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2020-04-07

Abstract

本发明公开了一种网页数据的爬取方法、装置、网页登录方法及装置，涉及网络技术领域，主要目的在于解决对此类网站中网页数据进行爬取的过程中存在极易失败的问题。本发明的方法包括：接收到爬取请求时，获取身份凭证信息，其中，所述身份凭证信息是根据用户登录网页时的用户名和密码生成的；通过所述身份凭证信息，对所述网页进行登录；当登录所述网页后，爬取所述网页中的网页数据。本发明适用于对通过爬虫对网站中的数据进行爬取。

Description

网页数据的爬取方法、装置、网页登录方法及装置

技术领域

本发明涉及网络技术领域，尤其涉及一种网页数据的爬取方法及装置、以及，网页登录方法及装置。

背景技术

随着网名的逐步增多，网络中不同网站的访问量也逐步增多。通常，为了更为全面的获取到网站中数据，很多用户都喜欢通过网络爬虫来对网站中的数据进行爬取。其中，爬虫，通常被称为网络爬虫、网页蜘蛛或网络机器人。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

目前，有很多网站设置有用户身份的验证机制，需要用户通过账号及密码进行登录，当爬虫对此类网站中的网页数据进行爬取时，爬虫一般需要账号名称及密码来模仿用户的登录行为，并在每次爬取网页数据时模拟一次账号登录行为。然而，在实际应用中，在对此类需要用户登录账号的网站中的网页数据进行爬取时，现有的爬虫爬取方式在爬取此网站的过程中需要在每一次爬取时进行一次账号的登录操作，这样就导致爬虫在爬取此类网站中的网页数据时，存在账号多次重复登录的行为，而基于网站安全机制，当网站检测出某账号出现多次重复登录的现象时，会限制或禁止该账号的访问行为，继而导致现有的网页数据的爬取方式在对设置有账号名称及密码的验证的网站进行爬取时，易出现被限制或禁止访问的问题，从而导致爬虫爬取此类网站内的网页数据的过程中极易出现爬取失败的问题。

发明内容

鉴于上述问题，本发明提供一种网页数据的爬取方法及装置，主要目的在于对设置有用户账号验证机制的网站进行爬取时，实现网页数据的爬取功能，解决对此类网站中网页数据进行爬取的过程中存在极易失败的问题。

为解决上述技术问题，第一方面，本发明提供了一种网页登录方法，该方法包括：

接收到网页登录请求时，获取身份凭证信息，所述身份凭证信息根据用户登录网页时的用户名和密码生成；

通过所述身份凭证信息，登录所述网页。

可选的，所述通过所述身份凭证信息，登录所述网页包括：

获取所述网页的登录阈值，所述登录阈值为所述网页允许同一身份凭证信息同时登录的数量；

根据所述登录阈值，确定登录请求的数量；

根据所述登录请求的数量对应的登录请求，登录所述网页。

可选的，所述获取身份凭证信息包括：

监控目标浏览器中的操作行为；

当监测到所述目标浏览器中存在网页登录行为时，从所述操作行为对应的操作数据中获取所述身份凭证信息。

第二方面，本发明实施例还提供了一种网页登录装置，包括：

获取单元，用于接收到网页登录请求时，获取身份凭证信息，所述身份凭证信息根据用户登录网页时的用户名和密码生成；

登录单元，用于通过所述身份凭证信息，登录所述网页。

可选的，所述登录单元包括：

获取模块，用于获取所述网页的登录阈值，所述登录阈值为所述网页允许同一身份凭证信息同时登录的数量；

确定模块，用于根据所述登录阈值，确定登录请求的数量；

登录模块，用于根据所述登录请求的数量，登录所述网页。

可选的，所述获取单元包括：

监控模块，用于监控目标浏览器中的操作行为；

获取模块，用于当监测到所述目标浏览器中存在网页登录行为时，从所述操作行为对应的操作数据中获取所述身份凭证信息。

第三方面，本发明实施例还提供了一种网页数据爬取方法，包括：

接收到爬取请求时，获取身份凭证信息，其中，所述身份凭证信息是根据用户登录网页时的用户名和密码生成的；

通过所述身份凭证信息，对所述网页进行登录；

当登录所述网页后，爬取所述网页中的网页数据。

可选的，所述通过所述身份凭证信息，对所述网页进行登录包括：

将所述身份凭证信息发送至用于登录所述网页的目标爬虫；

所述目标爬虫根据所述身份凭证信息，对所述网页进行登录操作。

可选的，在所述将所述身份凭证信息发送至用于登录所述网页的目标爬虫之前，所述方法还包括：

获取所述网页的登录阈值，所述登录阈值为所述网页允许的同一身份凭证信息同时登录的数量；

根据所述登录阈值，确定爬取请求的数量；

所述目标爬虫根据所述身份凭证信息，对所述网页进行登录操作，包括：

所述目标爬虫根据所述爬取请求的数量对应的爬取请求，登录所述网页。

可选的，所述当登录所述网页后，爬取所述网页中的网页数据包括：

根据所述身份凭证信息保持所述爬虫的登录状态，并爬取所述网页中的网页数据。

可选的，所述将所述身份凭证信息发送至用于登录所述网页的目标爬虫包括：

将所述身份凭证信息发送至分配服务器中，所述分配服务器中包含每一个爬虫的地址信息；

当所述分配服务器接收到所述身份凭证信息后，将根据所述地址信息将所述身份凭证信息发送至用于登录所述网页的目标爬虫。

可选的，所述获取身份凭证信息包括：

监控目标浏览器中的操作行为；

第四方面，本发明还提供了一种网页数据的爬取装置，该装置包括：

获取单元，用于接收到爬取请求时，获取身份凭证信息，其中，所述身份凭证信息是根据用户登录网页时的用户名和密码生成的；

登录单元，用于通过所述身份凭证信息，对所述网页进行登录；

爬取单元，用于当登录所述网页后，爬取所述网页中的网页数据。

可选的，所述登录单元包括：

发送模块，用于将所述身份凭证信息发送至用于登录所述网页的目标爬虫；

登录模块，用于所述目标爬虫根据所述身份凭证信息，对所述网页进行登录操作。

可选的，所述登录单元还包括：

获取模块，用于获取所述网页的登录阈值，所述登录阈值为所述网页允许的同一身份凭证信息同时登录的数量；

确定模块，用于根据所述登录阈值，确定爬取请求的数量；

所述登录模块，具体用于所述目标爬虫根据所述爬取请求的数量对应的爬取请求，登录所述网页。

可选的，所述爬取单元，具体用于根据所述身份凭证信息保持所述爬虫的登录状态，并爬取所述网页中的网页数据。

可选的，所述发送模块包括：

第一发送子模块，用于将所述身份凭证信息发送至分配服务器中，所述分配服务器中包含每一个爬虫的地址信息；

第二发送子模块，用于当所述分配服务器接收到所述身份凭证信息后，将根据所述地址信息将所述身份凭证信息发送至用于登录所述网页的目标爬虫。

可选的，所述获取单元包括：

监控模块，用于监控目标浏览器中的操作行为；

为了实现上述目的，根据本发明的第五方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如上述第一方面所述的网页登录方法，或者，执行如上述第三方面网页数据的爬取方法。

为了实现上述目的，根据本发明的第六方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行如上述第一方面所述的网页登录方法，或者，执行如上述第三方面网页数据的爬取方法。

由此，借由上述技术方案，本发明实施例提供了一种网页登录方法及装置，对于现有的网页登录方式，存在多次通过用户名及密码进行重复登录，导致网站会限制或禁止该账号的访问行为的问题，本发明通过接收到网页登录请求时，获取身份凭证信息，并通过所述身份凭证信息，登录所述网页，从而实现对网页的登录。由于身份凭证信息根据用户登录网页时的用户名和密码生成的，因此，能够通过身份凭证信息保持与网站的登录状态，从而避免现有的在爬取网页数据过程中根据账号及密码来模拟用户登录出现的多次重复登录的现象，继而能够避免触发网站基于多次重复登录所导致限制或禁止访问的情况。

进一步的，借由上述技术方案，本发明还提供了一种网页数据的爬取方法及装置，对于现有技术在对设置有用户账号验证机制的网站进行爬取时，存在极易爬取失败的问题，本发明当用户进行网页登录操作时，通过接收到爬取请求时，获取身份凭证信息，然后通过所述身份凭证信息，对所述网页进行登录，最后当登录所述网页后，爬取所述网页中的网页数据，能够通过身份凭证信息保持与网站的登录状态，从而避免现有的在爬取网页数据过程中根据账号及密码来模拟用户登录出现的多次重复登录的现象，继而能够避免触发网站基于多次重复登录所导致限制或禁止访问的情况，继而实现了对设置有用户账号验证机制的网站中网页数据的爬取功能。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种网页登录方法流程图；

图2示出了本发明实施例提供的另一种网页登录方法流程图；

图3示出了本发明实施例提供的一种网页登录装置的组成框图；

图4示出了本发明实施例提供的另一种网页登录装置的组成框图；

图5示出了本发明实施例提供的一种网页数据爬取方法流程图；

图6示出了本发明实施例提供的另一种网页数据爬取方法流程图；

图7示出了本发明实施例提供的一种网页数据爬取装置的组成框图；

图8示出了本发明实施例提供的另一种网页数据爬取装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为了解决对设置有账号名称及密码的验证的网站进行登录过程中，易出现多次登录导致访问请求被限制或禁止问题，本发明实施例提供了一种网页登录方法，如图1所示，该方法包括：

101、接收到网页登录请求时，获取身份凭证信息。

其中，所述身份凭证信息根据用户登录网页时的用户名和密码生成。

通常情况下，当用户访问设置有用户账号验证机制的网站时，网站会对访问者的身份进行验证，其验证方式是基于用户请求信息中的账号名称及密码来进行的，当用户发出的请求信息中包含正确的账号名称和密码时，网站会对此用户反馈用于确保数据连接的身份凭证信息，并且该用户在后续与该网站进行交互时则可以直接使用该身份凭证信息进行交互，从而无需在每次交互时进行账号名称和密码的验证。

因此，为了避免在登录此类网站时，每次都需要根据用户名及密码进行账号登录行为，导致因重复登录的问题，在本发明实施例中，可以依照本步骤所述的方法在接收到网页的登录请求时，获取对应登录请求对应的网页的身份凭证信息，具体的该身份凭证信息可以是用户在进行登录操作时所获取的，具体的，在用户进行网页登录操作时，获取该用户在进行登录时的访问数据，其中该身份凭证信息中包含用户在进行用户名及密码所生成的身份凭证信息，该身份凭证信息的具体形式与网站验证身份时的类别有关，当验证方式是基于cookie信息进行时，则本步骤所获取的身份凭证信息则可以为用户请求信息中的cookie信息。

102、通过所述身份凭证信息，登录所述网页。

当前述步骤101获取到用户进行登录操作时的身份凭证信息后，则可以根据访问请求中的网页信息确定所需登录的网页，根据身份凭证信息则可以确保登录后保持在该网页中的登录状态。其中，在对所述网页进行登录时，可以模拟用户在接收到网站反馈的身份凭证信息后，以该身份凭证信息进行交互的认证依据来进行爬虫与网站的交互。

在本发明实施例中，在对所述网页进行登录时的方式具体的根据网站的认证方式确定，例如，当所述网站的认证方式为网站在验证用户的用户名和密码后，通过为用户录取对应的cookie信息来进行交互时的验证时，则在本步骤中可以根据前述步骤101中获取到用户登录某网站时所获取的访问数据中的cookie信息，添加到访问请求中，以此确保在与该网页进行交互时，能够以该cookie信息作为确保操持登录状态的依据从而避免反复利用用户名及密码进行登录的问题。

本发明实施例所述的网页登录方法，对于现有的网页登录方式，存在多次通过用户名及密码进行重复登录，导致网站会限制或禁止该账号的访问行为的问题，本发明通过接收到网页登录请求时，获取身份凭证信息，并通过所述身份凭证信息，登录所述网页，从而实现对网页的登录。由于身份凭证信息根据用户登录网页时的用户名和密码生成的，因此，能够通过身份凭证信息保持与网站的登录状态，从而避免现有的在爬取网页数据过程中根据账号及密码来模拟用户登录出现的多次重复登录的现象，继而能够避免触发网站基于多次重复登录所导致限制或禁止访问的情况。

进一步的，作为对图1所示实施例的细化及扩展，本发明实施例还提供了另一种网页登录方法，如图2所示，其具体步骤包括：

201、接收到网页登录请求时，获取身份凭证信息。

其中，在进行身份凭证信息的获取过程中，可以通过对用户的网页登录行为进行监控，并从访问数据中获取对应的网页的身份凭证信息。因此，本步骤具体可以为：首先，监控目标浏览器中的操作行为。然后，当监测到所述目标浏览器中存在网页登录行为时，从所述操作行为对应的操作数据中获取所述身份凭证信息。

进一步的，在本发明实施例中，所述身份凭证信息可以具体为浏览器中保存的访问数据中的cookie信息，其中cookie信息，有时也用其复数形式cookies，是指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据，通常经过加密保存，目前cookies最广泛的是记录用户登录信息，这样下次访问时可以不需要输入自己的用户名、密码，网站可根据用户请求信息中的cookie信息确定用户的身份，从而保持用户的登录状态。因此，当身份凭证信息为cookie信息时，则本步骤具体获取身份凭证信息的方式可以为：当用户进行网页登录操作时，首先需要从用户与网站进行登录的过程中，获取其操作时的访问数据，并从访问数据中获取cookie信息作为身份凭证信息。

在本发明实施例中，所述目标浏览器可以为Chrome浏览器，其中，Chrome浏览器全称为Google Chrome，是一款由谷歌公司开发的网页浏览器，该浏览器基于其他开源软件撰写，包括WebKit，目标是提升稳定性、速度和安全性，并创造出简单且有效率的使用者界面，由于该浏览器是一种面向用户的开源浏览器，因此较其他浏览器相比，用户能够根据需要调用浏览器中底层的服务和程序，例如，webRquest接口，该接口为一种监控用户浏览器操作行为的接口服务程序。当目标浏览器为Chrome浏览器时，在进行本步骤所述的方法对用户的访问数据进行获取时，可以首先在从Chrome浏览器中调用的webRquest接口来注册网络监控器，并在用户在该浏览器中的目标页面中进行访网页登录行为时，对身份凭证信息中的cookie信息进行监控并进行获取。

由此，通过监控目标浏览器中的操作行为，并当监测到所述目标浏览器中存在网页登录行为时，从所述操作行为对应的操作数据中获取所述身份凭证信息，从而能够确保在用户进行登录行为时，及时获取用户的身份凭证信息，从而确保身份凭证信息中身份凭证信息的实时性，继而为后续通过该身份凭证信息成功登录所述网页提供保障。

202、通过所述身份凭证信息，登录所述网页

由于在进行登录的过程中，有些网页允许同一身份凭证信息在多个终端或通过多个地址进行登录。由此，在本步骤中，可以通过多个地址或终端进行网页的登录，因此，在登录所述网页时在本步骤中还具体的包括：首先，获取所述网页的登录阈值，其中，该登录阈值为所述网页允许同一身份凭证信息同时登录的数量。然后根据所述登录阈值，确定登录请求的数量。最后再根据所述登录请求的数量对应的多个登录请求，登录所述网页。

由此，通过获取所述网页的登录阈值，并根据所述登录阈值，确定登录请求的数量，再根据所述登录请求的数量对应的多个登录请求，登录所述网页，这样，能够以多个访问请求同时登录网页，继而可以提高访问网页的效率。

进一步的，作为对上述图1所示方法的实现，本发明实施例还提供了一种网页登录装置，用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示，该装置包括：获取单元31、及登录单元32，其中

获取单元31，可以用于接收到网页登录请求时，获取身份凭证信息，所述身份凭证信息根据用户登录网页时的用户名和密码生成；

登录单元32，可以用于通过所述获取单元31获取的身份凭证信息，登录所述网页。

进一步的，作为对上述图2所示方法的实现，本发明实施例还提供了一种网页数据的爬取装置，用于对上述图2所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图4所示，该装置包括：获取单元41、及登录单元42，其中

获取单元41，可以用于接收到网页登录请求时，获取身份凭证信息，所述身份凭证信息根据用户登录网页时的用户名和密码生成；

登录单元42，可以用于通过所述获取单元41获取的身份凭证信息，登录所述网页。

进一步的，所述登录单元42包括：

获取模块421，可以用于获取所述网页的登录阈值，所述登录阈值为所述网页允许同一身份凭证信息同时登录的数量；

确定模块422，可以用于根据所述获取模块421获取的登录阈值，确定登录请求的数量；

登录模块423，可以用于根据所述确定模块422确定的登录请求的数量，登录所述网页。

进一步的，所述获取单元41包括：

监控模块411，可以用于监控目标浏览器中的操作行为；

获取模块412，可以用于当监控模块411监测到所述目标浏览器中存在网页登录行为时，从所述操作行为对应的操作数据中获取所述身份凭证信息。

借由上述技术方案，本发明实施例提供一种网页登录方法及装置，，对于现有的网页登录方式，存在多次通过用户名及密码进行重复登录，导致网站会限制或禁止该账号的访问行为的问题，本发明通过接收到网页登录请求时，获取身份凭证信息，并通过所述身份凭证信息，登录所述网页，从而实现对网页的登录。由于身份凭证信息根据用户登录网页时的用户名和密码生成的，因此，能够通过身份凭证信息保持与网站的登录状态，从而避免现有的在爬取网页数据过程中根据账号及密码来模拟用户登录出现的多次重复登录的现象，继而能够避免触发网站基于多次重复登录所导致限制或禁止访问的情况。

同时，，通过监控目标浏览器中的操作行为，并当监测到所述目标浏览器中存在网页登录行为时，从所述操作行为对应的操作数据中获取所述身份凭证信息，从而能够确保在用户进行登录行为时，及时获取用户的身份凭证信息，从而确保身份凭证信息中身份凭证信息的实时性，继而为后续通过该身份凭证信息成功登录所述网页提供保障。另外，通过获取所述网页的登录阈值，并根据所述登录阈值，确定登录请求的数量，再根据所述登录请求的数量对应的多个登录请求，登录所述网页，这样，能够以多个访问请求同时登录网页，继而可以提高访问网页的效率

进一步的，为了解决在对设置有用户账号验证机制的网站中网页数据进行爬取的过程中极易失败的问题，本发明实施例提还供了一种网页数据的爬取方法，如图5所示，该方法包括：

501、接收到爬取请求时，获取身份凭证信息。

其中，所述身份凭证信息是根据用户登录网页时的用户名和密码生成的。

为了避免爬虫在爬取此类网站时，每次都需要进行账号登录行为的问题，在本发明实施例中，可以依照本步骤所述的方法，在用户进行网页登录操作时，获取该用户在进行登录时的身份凭证信息，其中该身份凭证信息中包含用户在进行用户名及密码所生成的身份凭证信息，该身份凭证信息的具体形式与网站验证身份时的类别有关，当验证方式是基于cookie信息进行时，则本步骤所获取的身份凭证信息则可以为用户请求信息中的cookie信息。此外，在本发明实施例中，由于爬虫在爬取网页数据时，需要确定所需爬取的网页，因此，在本步骤中在接收到爬取请求时，可以通过该爬取请求确定被登录的网页所对应的网页信息，具体可以为网页对应的URL，其中URL(Uniform Resource Locator，统一资源定位符，缩写为URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址，当然，在本发明实施例中，网页信息还可以选取其他方式的如域名或IP等信息，在此不做具体的限定。

502、通过所述身份凭证信息，对所述网页进行登录。

当前述步骤501获取到用户进行登录操作时的身份凭证信息，以及根据爬取请求中网页信息所确定需爬取的网页后，根据身份凭证信息则可以确保在进行爬取前保持在该网页中的登录状态。其中，在对所述网页进行登录时，可以模拟用户在接收到网站反馈的身份凭证信息后，以该身份凭证信息进行交互的认证依据来进行爬虫与网站的交互。

在本发明实施例中，对于爬虫对所述网页进行登录时的方式具体的根据网站的认证方式进行，例如，当所述网站的认证方式为网站在验证用户的用户名和密码后，通过为用户录取对应的cookie信息来进行交互时的验证时，则在本步骤中可以根据前述步骤501中获取到用户登录某网站时所获取的访问数据中的cookie信息，添加到爬虫的访问请求中，以此确保爬虫在于该网页进行交互时，能够以该cookie信息作为确保该爬虫操持登录状态的依据，并在确保登录状态后进行后续的网页数据爬取操作。

503、当登录所述网页后，爬取所述网页中的网页数据。

当前述步骤502中爬虫对所述网页进行登录后，基于爬虫所进行登录操作是基于身份凭证信息进行的，而不是以常规的账号、密码方式来模拟登录的，因此，在本步骤中爬虫所进行网页数据的爬取操作的过程是基于爬虫与网站保持登录状态下进行的，因此，在对网站中的每一个网页进行爬取时无需反复多次进行登录操作。具体的，在对网页数据进行爬取的具体方式可以根据现有的方式中任一种方式进行，而网站中网页间数据的爬取顺序可可以根据需要选取，例如，可以根据网站的层级按照每一层级进行逐级爬取，或者是其他顺序，在此不再枚举。

本发明实施例提供的网页数据的爬取方法，对于现有技术在对设置有用户账号验证机制的网站进行爬取时，存在极易爬取失败的问题，本发明当用户进行网页登录操作时，通过接收到爬取请求时，获取身份凭证信息，然后通过所述身份凭证信息，对所述网页进行登录，最后当登录所述网页后，爬取所述网页中的网页数据，能够通过身份凭证信息保持与网站的登录状态，从而避免现有的在爬取网页数据过程中根据账号及密码来模拟用户登录出现的多次重复登录的现象，继而能够避免触发网站基于多次重复登录所导致限制或禁止访问的情况，继而实现了对设置有用户账号验证机制的网站中网页数据的爬取功能。

进一步的，作为对图5所示实施例的细化及扩展，本发明实施例还提供了另一种网页数据的爬取方法，如图6所示，其具体步骤包括：

601、接收到爬取请求时，获取身份凭证信息。

在本发明实施例中，所述身份凭证信息可以具体为浏览器中保存的访问数据中的cookie信息，其中cookie信息，描述与前述实施例中的描述一致，在此不再赘述。

因此，在本发明实施例中，当用户进行网页登录操作时，首先需要从用户登录操作时与网站进行交互的过程中，获取其操作时的访问数据，其中包括用于表征用户身份的身份凭证信息，即cookie信息。此外，在进行爬取前，还可以根据爬取请求来确定所需爬取网页的网页信息，而在本发明实施例中，所述网页信息可以具体为网页的URL，其中，URL又叫统一资源定位符，是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

具体的，本步骤可以包括：首先，监控目标浏览器中的操作行为。然后，当监测到所述目标浏览器中存在网页登录行为时，从所述操作行为对应的操作数据中获取所述身份凭证信息。

由此，在本发明实施例中，通过监控目标浏览器中的操作行为，并当监测到所述目标浏览器中存在网页登录行为时，从所述操作行为对应的操作数据中获取所述身份凭证信息，从而能够确保在用户进行登录行为时，及时获取用户的身份凭证信息，从而确保身份凭证信息中身份凭证信息的实时性，继而为后续爬虫根据该身份凭证信息成功登录所述网页提供保障。

602、通过所述身份凭证信息，对所述网页进行登录。

具体的，在本发明实施例中，当根据本步骤所述的方法利用爬虫及身份凭证信息中的身份凭证信息登录所述网页之前，还可以按照以下步骤进行：首先，将所述身份凭证信息发送至用于登录所述网页的目标爬虫。然后，所述目标爬虫根据所述身份凭证信息及所述网页信息，对所述网页进行登录操作。这样，能够确保当存在多个爬虫时，能够选取所需的爬虫对网页进行登录和后续的爬取操作，避免了当网页仅允许一个身份凭证信息在一个设备上登录该网页时，检测出多个爬取使用同一个身份凭证信息登录所导致网页禁止爬虫访问或登录的问题，以确保爬虫能够成功爬取网页数据。

进一步的，由于很多网页允许同一个身份凭证信息在多个设备或终端上同时登录，因此，在这种情况下，通过所述身份凭证信息进行登录之前，本发明实施例所述的方法还可以包括：首先，获取所述网页的登录阈值，然后确定所述目标爬虫的目标数量，其中，所述登录阈值为网页允许的同一身份凭证信息的同时登录的数量。然后，根据所述登录阈值，确定爬取请求的数量；在此，对于确定爬虫在去网页时的爬取请求的数量是，该数量一般可以小于或等于登录阈值的数量，当然，对于一些特殊的网页允许超出设定的阈值一定比例的登录数量时，则该爬取请求的数量也可以据此进行调整。

此外，由于存在同一爬虫利用多个爬取请求进行爬取的情况，也存在多个爬虫分别根据对应的一个爬取请求进行爬取的情况，因此，基于网页允许同一身份凭证信息同时登录的数量为多个的情况下，则本步骤所述的将所述身份凭证信息发送至用于登录所述网页的目标爬虫的方法还可以包括：将所述目标数量的身份凭证信息分别发送至每一个目标爬虫中。同时，本步骤所述的方法则可以具体为：通过所述目标数量的身份凭证信息中的身份凭证信息，利用多个目标爬虫对所述网页同时进行登录。

由此，通过获取所述网页的登录阈值，并根据登录阈值确定爬取请求的数量，在此确定所述目标爬虫的目标数量，并将所述身份凭证信息复制至目标数量，再将所述目标数量的身份凭证信息分别发送至每一个目标爬虫中，能够确保当网页信息所对应的网页允许同一个身份凭证信息在多个设备或终端登录时，能够使用多个爬虫进行登录，继而能够使得多个爬虫同时对网页中的数据进行爬取，提高了爬虫爬取网页数据的效率。

进一步的，本发明实施例所述的方法还可以基于两端不同的设备来执行，一端为用于监测用户操作的设备，当用户在目标浏览器进行登录操作时，获取其访问数据中的身份凭证信息，而另一端则可以为专用于使用爬虫对网页数据进行爬取的设备，这样本步骤具体可以包括：将所述身份凭证信息发送至分配服务器中，所述分配服务器中包含每一个爬虫的地址信息；当所述分配服务器接收到所述身份凭证信息后，将根据所述地址信息将所述身份凭证信息发送至用于登录所述网页的目标爬虫。

通过将身份凭证信息发送至分配服务器，然后再由分配服务器将身份凭证信息发送到爬虫所在的设备中，可以避免获取身份凭证信息的操作与利用爬虫爬取网页数据操作之间的影响，同时，实现了以远程方式实施爬虫爬取网页数据的功能。

603、当登录所述网页后，爬取所述网页中的网页数据。

具体的，本步骤可以为：根据所述身份凭证信息保持所述爬虫的登录状态，并爬取所述网页中的网页数据。

通常，在用户与网页的交互过程中，网页会对用户的身份进行验证，例如使用用户名及密码来验证用户的身份，在用户所发送的用户名和密码正确的情况下，网页会为用户分配对应的身份凭证信息，并为该身份凭证信息保持登录的状态，当用户在于网页进行交互的过程中，用户仅需在交互时发送身份凭证信息，即可保持该身份凭证信息对应的身份在网页中的登录状态。

基于此，在本发明实施例中，可以具体的根据所述身份凭证信息保持所述爬虫的登录状态，并爬取所述网页中的网页数据。另外，在本步骤中当爬虫爬取网页数据时，可以在请求信息中添加该身份凭证信息，继而确保爬虫在爬取该网页时，网页能够识别该爬虫是保持了登录状态的用户，从而避免了爬虫模拟用户登录信息导致的反复登录的现象。

例如，当身份凭证信息为cookie信息时，则在本步骤中，当爬虫每次爬取网页中的数据时，在其与网页进行交互过程中可以将该cookie信息添加到请求信息中，从而确保网页根据请求信息中的cookie信息确定该爬虫与当前网页是已登录状态。

进一步的，作为对上述图5所示方法的实现，本发明实施例还提供了一种网页数据的爬取装置，用于对上述图5所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图7所示，该装置包括：获取单元71、登录单元72以及爬取单元73，其中

获取单元71，可以用于接收到爬取请求时，获取身份凭证信息，其中，所述身份凭证信息是根据用户登录网页时的用户名和密码生成的。

登录单元72，可以用于通过所述获取单元71获取的身份凭证信息，对所述网页进行登录。

爬取单元73，可以用于当所述登录单元72确定登录所述身份凭证信息对应的网页后，爬取所述网页中的网页数据。

进一步的，作为对上述图6所示方法的实现，本发明实施例还提供了一种网页数据的爬取装置，用于对上述图6所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图8所示，该装置包括：获取单元81、登录单元82以及爬取单元83，其中

获取单元81，可以用于接收到爬取请求时，获取身份凭证信息，其中，所述身份凭证信息是根据用户登录网页时的用户名和密码生成的。

登录单元82，可以用于通过所述获取单元81获取的身份凭证信息，对所述网页进行登录。

爬取单元83，可以用于当所述登录单元82确定登录所述身份凭证信息对应的网页后，爬取所述网页中的网页数据。

进一步的，所述登录单元82包括：

发送模块821，可以用于将所述身份凭证信息发送至用于登录所述网页的目标爬虫；

登录模块822，可以用于所述目标爬虫根据所述发送模块821发送的所述身份凭证信息及所述网页信息，对所述网页进行登录操作。

进一步的，所述登录单元82还包括：

获取模块823，可以用于获取所述网页的登录阈值，所述登录阈值为所述网页允许的同一身份凭证信息同时登录的数量；

确定模块824，可以用于根据所述获取模块823获取的登录阈值，确定爬取请求的数量；

所述登录模块822，可以具体用于所述目标爬虫根据所述确定模块824确定的爬取请求的数量对应的爬取请求，登录所述网页。

进一步的，所述爬取单元83，可以具体用于根据所述身份凭证信息保持所述爬虫的登录状态，并爬取所述网页中的网页数据。

进一步的，所述发送模块821包括：

第一发送子模块8211，可以用于将所述身份凭证信息发送至分配服务器中，所述分配服务器中包含每一个爬虫的地址信息；

第二发送子模块8212，可以用于当所述分配服务器接收到所述身份凭证信息后，将根据所述地址信息将所述身份凭证信息发送至用于登录所述网页的目标爬虫。

进一步的，所述获取单元81包括：

监控模块811，可以用于监控目标浏览器中的操作行为；

获取模块812，可以用于当所述监控模块811监测到所述目标浏览器中存在网页登录行为时，从所述操作行为对应的操作数据中获取所述身份凭证信息。

借由上述技术方案，本发明实施例提供一种网页数据的爬取方法及装置，对于现有技术在对设置有用户账号验证机制的网站进行爬取时，存在极易爬取失败的问题，本发明当用户进行网页登录操作时，通过接收到爬取请求时，获取身份凭证信息，然后通过所述身份凭证信息，对所述网页进行登录，最后当登录所述网页后，爬取所述网页中的网页数据，能够通过身份凭证信息保持与网站的登录状态，从而避免现有的在爬取网页数据过程中根据账号及密码来模拟用户登录出现的多次重复登录的现象，继而能够避免触发网站基于多次重复登录所导致限制或禁止访问的情况，继而实现了对设置有用户账号验证机制的网站中网页数据的爬取功能。

同时，通过监控目标浏览器中的操作行为，并当监测到所述目标浏览器中存在网页登录行为时，从所述操作行为对应的操作数据中获取所述身份凭证信息，从而能够确保在用户进行登录行为时，及时获取用户的身份凭证信息，从而确保身份凭证信息中身份凭证信息的实时性，继而为后续爬虫根据该身份凭证信息成功登录所述网页提供保障。进一步的，通过获取所述网页的登录阈值，并根据登录阈值确定爬取请求的数量，在此确定所述目标爬虫的目标数量，并将所述身份凭证信息复制至目标数量，再将所述目标数量的身份凭证信息分别发送至每一个目标爬虫中，能够确保当网页信息所对应的网页允许同一个身份凭证信息在多个设备或终端登录时，能够使用多个爬虫进行登录，继而能够使得多个爬虫同时对网页中的数据进行爬取，提高了爬虫爬取网页数据的效率。又进一步的，通过将身份凭证信息。此外，通过将身份凭证信息发送至分配服务器，然后再由分配服务器将身份凭证信息发送到爬虫所在的设备中，可以避免获取身份凭证信息的操作与利用爬虫爬取网页数据操作之间的影响，同时，实现了以远程方式实施爬虫爬取网页数据的功能。

进一步的，基于上述描述，在上述实施例中，所述的网页登录装置包括处理器和存储器，上述获取单元机登录单元等作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决对设置有账号名称及密码的验证的网站进行登录过程中，易出现多次登录导致访问请求被限制或禁止问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述网页登录方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述网页登录方法。

再进一步的，基于上述描述，在上述实施例中，所述的网页数据的爬取装置包括处理器和存储器，上述获取单元、登录单元以及爬取单元等作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来对设置有用户账号验证机制的网站进行爬取时，实现网页数据的爬取功能。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述网页数据的爬取方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述网页数据的爬取方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：接收到网页登录请求时，获取身份凭证信息，所述身份凭证信息根据用户登录网页时的用户名和密码生成；通过所述身份凭证信息，登录所述网页。

进一步的，所述通过所述身份凭证信息，登录所述网页包括：

根据所述登录阈值，确定登录请求的数量；

根据所述登录请求的数量对应的登录请求，登录所述网页。

进一步的，所述获取身份凭证信息包括：

监控目标浏览器中的操作行为；

本发明实施例中的设备可以是服务器、PC、PAD、手机等。

本发明实施例还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：接收到网页登录请求时，获取身份凭证信息，所述身份凭证信息根据用户登录网页时的用户名和密码生成；通过所述身份凭证信息，登录所述网页。

根据所述登录阈值，确定登录请求的数量；

根据所述登录请求的数量对应的登录请求，登录所述网页。

进一步的，所述获取身份凭证信息包括：

监控目标浏览器中的操作行为；

进一步的，本发明实施例提供了又一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：接收到爬取请求时，获取身份凭证信息，其中，所述身份凭证信息是根据用户登录网页时的用户名和密码生成的；通过所述身份凭证信息，对所述网页进行登录；当登录所述网页后，爬取所述网页中的网页数据。

进一步的，所述通过所述身份凭证信息，对所述网页进行登录包括：

将所述身份凭证信息发送至用于登录所述网页的目标爬虫；

进一步的，在所述将所述身份凭证信息发送至用于登录所述网页的目标爬虫之前，所述方法还包括：

根据所述登录阈值，确定爬取请求的数量；

进一步的，所述当登录所述网页后，爬取所述网页中的网页数据包括：

进一步的，所述将所述身份凭证信息发送至用于登录所述网页的目标爬虫包括：

进一步的，所述获取身份凭证信息包括：

监控目标浏览器中的操作行为；

本发明实施例还提供了又一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：接收到爬取请求时，获取身份凭证信息，其中，所述身份凭证信息是根据用户登录网页时的用户名和密码生成的；通过所述身份凭证信息，对所述网页进行登录；当登录所述网页后，爬取所述网页中的网页数据。

将所述身份凭证信息发送至用于登录所述网页的目标爬虫；

根据所述登录阈值，确定爬取请求的数量；

进一步的，所述获取身份凭证信息包括：

监控目标浏览器中的操作行为；

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种网页登录方法，其特征在于，包括：

通过所述身份凭证信息，登录所述网页。

2.根据权利要求1所述的方法，其特征在于，所述通过所述身份凭证信息，登录所述网页包括：

根据所述登录阈值，确定登录请求的数量；

根据所述登录请求的数量对应的登录请求，登录所述网页。

3.根据权利要求1或2所述的方法，其特征在于，所述获取身份凭证信息包括：

监控目标浏览器中的操作行为；

4.一种网页数据爬取方法，其特征在于，包括：

通过所述身份凭证信息，对所述网页进行登录；

当登录所述网页后，爬取所述网页中的网页数据。

5.根据权利要求4所述的方法，其特征在于，所述通过所述身份凭证信息，对所述网页进行登录包括：

将所述身份凭证信息发送至用于登录所述网页的目标爬虫；

6.根据权利要求5所述的方法，其特征在于，在所述将所述身份凭证信息发送至用于登录所述网页的目标爬虫之前，所述方法还包括：

根据所述登录阈值，确定爬取请求的数量；

7.根据权利要求6所述的方法，其特征在于，所述当登录所述网页后，爬取所述网页中的网页数据包括：

8.根据权利要求4-7中任一项所述的方法，其特征在于，所述将所述身份凭证信息发送至用于登录所述网页的目标爬虫包括：

9.根据权利要求8所述的方法，其特征在于，所述获取身份凭证信息包括：

监控目标浏览器中的操作行为；

10.一种网页登录装置，其特征在于，包括：

登录单元，用于通过所述身份凭证信息，登录所述网页。

11.一种网页数据的爬取装置，其特征在于，包括：

12.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1-3中任意一项所述的网页登录方法，或执行如权利要求4-9中任一项所述的网页数据的爬取方法。

13.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行如权利要求1-3中任意一项所述的网页登录方法，或执行如权利要求4-9中任一项所述的网页数据的爬取方法。