CN111552853A - 数据抓取方法、装置、电子设备及存储介质 - Google Patents

数据抓取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111552853A
CN111552853A CN202010313363.6A CN202010313363A CN111552853A CN 111552853 A CN111552853 A CN 111552853A CN 202010313363 A CN202010313363 A CN 202010313363A CN 111552853 A CN111552853 A CN 111552853A
Authority
CN
China
Prior art keywords
website
field value
cookie information
data
accessing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010313363.6A
Other languages
English (en)
Inventor
吴良顺
李纯懿
向舜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN202010313363.6A priority Critical patent/CN111552853A/zh
Publication of CN111552853A publication Critical patent/CN111552853A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种数据抓取方法、装置、电子设备及存储介质。其中,方法包括:保存设定用户身份对应的cookie信息;所述cookie信息在以所述设定用户身份成功登录网站的情况下获取到;当需要抓取所述网站的数据时,基于保存的所述cookie信息登录网站以进行数据抓取;其中,在基于保存的cookie信息登录网站之前,所述方法还包括:访问所述网站,获取访问所述网站的过程中得到的相关信息;在所述相关信息中确定所述网站的第一字段值;所述网站的第一字段值表征所述网站的登录状态;当所述第一字段值表征所述网站的登录状态失效时,对保存的cookie信息进行更新。

Description

数据抓取方法、装置、电子设备及存储介质
技术领域
本发明涉及互联网领域,尤其涉及一种数据抓取方法、装置、电子设备及存储介质。
背景技术
目前,在网站处于登录的状态时,才能使用爬虫技术获取网站的更多数据,由于网站的登录状态是有时限限制的,网站无法一直保持登录状态,由此降低了网站数据的抓取效率。
发明内容
有鉴于此,本发明实施例提供一种数据抓取方法、装置、电子设备及存储介质,以至少解决相关技术中网站无法一直保持登录状态,由此降低了网站数据的抓取效率的问题。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种数据抓取方法,包括:
保存设定用户身份对应的cookie信息;所述cookie信息在以所述设定用户身份成功登录网站的情况下获取到;
当需要抓取所述网站的数据时,基于保存的所述cookie信息登录网站以进行数据抓取;其中,在基于保存的cookie信息登录网站之前,所述方法还包括:
访问所述网站,获取访问所述网站的过程中得到的相关信息;
在所述相关信息中确定所述网站的第一字段值;所述网站的第一字段值表征所述网站的登录状态;
当所述第一字段值表征所述网站的登录状态失效时,对保存的cookie信息进行更新。
上述方案中,所述获取访问所述网站的过程中得到的相关信息,包括:
获取访问所述网站的过程中得到的所述网站对应的代码文档。
上述方案中,所述在所述相关信息中确定所述网站的第一字段值,包括:
确定第一位置;所述第一位置为通过访问路径表征的第一字段在所述代码文档中的位置;
从所述代码文档的所述第一位置中读取所述第一字段值。
上述方案中,所述在所述相关信息中确定所述网站的第一字段值,包括:
根据第一字段的类名,在所述代码文档中搜索对应的类;
从搜索到的类中读取所述第一字段值。
上述方案中,所述获取访问所述网站的过程中得到的相关信息,包括:
获取访问所述网站产生的cookie信息。
上述方案中,所述在所述相关信息中确定所述网站的第一字段值,包括:
在设定时间点,确定所述网站的第一字段值。
上述方案中,所述方法还包括:
在抓取所述网站的数据时触发所述设定时间点。
本发明实施例还提供了一种数据抓取装置,包括:
保存单元,用于保存设定用户身份对应的cookie信息;所述cookie信息在以所述设定用户身份成功登录网站的情况下获取到;
数据抓取单元,用于当需要抓取所述网站的数据时,基于保存的所述cookie信息登录网站以进行数据抓取;
获取单元,用于访问所述网站,获取访问所述网站的过程中得到的相关信息;
确定单元,用于在所述相关信息中确定所述网站的第一字段值;所述网站的第一字段值表征所述网站的登录状态;
更新单元,用于当所述第一字段值表征所述网站的登录状态失效时,对保存的cookie信息进行更新。
本发明实施例还提供了一种电子设备,包括:
处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述任一方法的步骤。
本发明实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
在本发明实施例中,在以设定用户身份成功登录网站的情况下,获取并保存设定用户身份对应的cookie信息,在需要抓取网站的数据时,根据保存的cookie信息登录网站进行数据抓取,在根据保存的cookie信息登录网站之前,访问网站,获取访问网站的过程中得到的相关信息,在相关信息中确定网站的第一字段值,网站的第一字段值表征网站的登录状态,在第一字段值表征网站的登录状态失效时,对保存的cookie信息进行更新,能够在对网站进行抓取数据的时候,使网站保持登录状态,避免在对网站进行数据抓取时,出现频繁登录的情况,提高了网站数据的抓取效率。
附图说明
图1为本发明一实施例提供的数据抓取方法的实现流程示意图;
图2为本发明又一实施例提供的数据抓取方法的实现流程示意图;
图3为本发明又一实施例提供的数据抓取方法的实现流程示意图;
图4为本发明一实施例提供的数据抓取装置的结构示意图;
图5为本发明一实施例提供的电子设备的硬件组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
需要说明的是,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
另外,在本发明实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1示出了本发明实施例提供的数据抓取方法的实现流程。如图1所示,所述方法包括:
S101:保存设定用户身份对应的cookie信息;所述cookie信息在以所述设定用户身份成功登录网站的情况下获取到。
这里,cookie信息属于一种小型文本文件,是网站为了辨别用户身份,进行跟踪存储在用户本地终端上的数据。当用户成功登录网站时,服务器则会返回一条cookie到客户端,返回的cookies信息记录了用户成功登录网站的行为。在实际应用中,在对抓取网站的数据时,为了避免被网站的检测机制监测到,通常会采用无头模式,在无头模式下或者切换了浏览的页面的情况下,均无法自动保存cookie信息,因此需要将服务器发送的cookie信息保存至客户端,该cookie信息是在设定用户身份成功登录网站的情况下获取到的,一般包含登录网站的用户信息与ip信息。在pyppeteer爬虫框架中,实现获取并存储cookie信息的代码为:
Figure BDA0002458525520000041
其中,cookies_list就是设定用户身份成功登录网站时的cookie信息。cookie信息是在设定用户身份成功登录网站时产生的,可以通过数据抓取工具向网站的登录框中输入设定用户身份信息,进行自动登录。具体地,由于数据抓取工具是通过账号与密码信息登录网站的,可以通过数据抓取工具根据“密码登录”等相关关键词,确定网站中的密码登录的入口位置,对应的代码为“input type=text”,数据抓取工具在确定了密码登录入口位置之后,模拟点击操作,切换至网站的密码输入框,输入账号密码相关信息,通过验证之后,会跳转至登录成功的页面,并产生cookie信息,从而能够获取并保存cookie信息。
S102:当需要抓取所述网站的数据时,基于保存的所述cookie信息登录网站以进行数据抓取;其中,在基于保存的cookie信息登录网站之前,所述方法还包括:
访问所述网站,获取访问所述网站的过程中得到的相关信息;
在所述相关信息中确定所述网站的第一字段值;所述网站的第一字段值表征所述网站的登录状态;
当所述第一字段值表征所述网站的登录状态失效时,对保存的cookie信息进行更新。
这里,当需要抓取网站的数据的时候,基于保存的cookie信息登录网站并进行数据抓取。在实际应用中,某些网站需要处于登录状态下,才能抓取到网站的数据,而某些网站虽然在未登录的状态下,也能抓取到网站的数据,但是抓取的数据量较少,因此,通常都会保持网站处于登录状态下,对网站的数据进行抓取。根据保存的cookie信息,能够实现对网站的自动登录,不需要手动输入账号和密码,才能完成对网站的登录,由于保存的cookie信息对应的网站与需要进行数据抓取的网站是相同的,因此,利用保存的cookie信息进行登录时,网站可认为是用户的登录操作,不会被要求再次验证。在pyppeteer爬虫框架中,实现通过保存的cookie信息登录网站的代码为:
for cookie in cookies:
await self.page.setCookie(cookie)
根据上述代码,能够基于保存的cookie信息登录网站。在实际应用中,cookie信息是有期限限制的,当cookie信息超过有效期限时,网站就不能继续保持登录状态,因此需要检测网站的登录状态,保证cookie信息处于有效期限。在访问网站时,获取访问网站的过程中得到的相关信息,访问网站的过程中得到的相关信息中记录了网站的基本信息,通过在相关信息中确定网站的第一字段值,其中,第一字段值表征网站的登录状态,根据第一字段值,能够确定网站的登录状态,从而确定是否需要对保存的cookie信息进行更新。当第一字段值表征网站的登录状态失效时,说明保存的cookie信息已经超过了有效时限,需要对保存的cookie信息进行更新,保证保存的cookie信息都能处于有效期限内,从而保持了网站的登录状态。例如,网站会在页面顶部的状态栏中显示用户的登录状态,那么通过确定网站的顶部的状态栏的内容,就可以确定网站的登录状态。在实际应用中,当用户登录了网站时,会在网站的状态栏上显示用户名或者账号信息,而当用户没有登录网站,或者用户的登录状态失效时,会在网站的状态栏上显示“重新登录”等相关的关键词。因此,当第一字段值对应的是用户名或者账号信息时,可以确定网站处于登录状态。当第一字段值对应的是重新登录等相关字样时,可以确定网站的登录状态失效。当网站的登录状态失效时,数据抓取工具会根据设定用户身份信息在网站进行自动登录,在登录成功后,将产生的cookie信息保存在终端,并将之前保存在终端的cookie信息进行更新。在实际应用中,对保存的cookie信息进行及时的更新,能够避免在对网站进行数据抓取的时候出现频繁登录的情况。并且,在对网站进行反复登录时,相应的cookie信息也会发生改变,从而会更容易被检测机制识别,出现被网站禁止登录的风险。
在上述实施例中,通过保存设定用户身份对应的cookie信息,cookie信息在以设定用户身份登录成功网站的情况下获取到,当需要抓取网站的数据时,基于保存的cookie信息登录网站进行数据抓取,并且,在基于保存的cookie信息登录网站之前,访问网站,获取访问网站的过程中得到的相关信息,在相关信息中确定网站的第一字段值,所述网站的第一字段值表征网站的登录状态,当网站的第一字段值表征网站的登录状态失效时,对保存的cookie信息进行更新,能够保证保存的cookie信息都处于有效期限内,能够在网站保持登录的状态下,对网站的数据进行抓取,避免在对网站进行数据抓取时,出现频繁登录的情况,提高了数据的抓取效率。
在一实施例中,所述获取访问所述网站的过程中得到的相关信息,包括:
获取访问所述网站的过程中得到的所述网站对应的代码文档。
这里,网站都是根据对应的代码构建的,网站中显示登录状态的登录状态栏也是网站的代码中的一部分。在访问网站的过程中,获取网站对应的代码文档,在网站的对应的代码文档中,定位至关于网站的登录状态栏的相关代码,能够确定网站的第一字段值。
在上述实施例中,通过获取访问网站的过程中得到的网站对应的代码文档,能够通过代码文档确定网站的登录状态,提高了判断网站的登录状态的准确性。
在一实施例中,如图2所示,所述在所述相关信息中确定所述网站的第一字段值,包括:
S201:确定第一位置;所述第一位置为通过访问路径表征的第一字段在所述代码文档中的位置。
这里,获取了网站对应的代码文档后,能够确定第一字段在网站对应的代码文档中的第一位置,其中,第一位置为通过访问路径表征的,根据第一位置,能够在网站对应的代码文档中直接定位到第一字段。在实际应用中,通过文档对象化模型将网站的页面进行解析,生成与网站对应的树状结构和对应访问方法,与网站对应的树状结构实质上是网站对应的代码文档,确定第一字段在与网站对应的树状结构中的位置,可以通过XML路径语言(XPath,XML Path Language)表示第一字段在网站对应的树状结构中的位置。例如,一个网站的登录状态栏位于网站的顶部,第一字段对应的第一位置为//*[@id="J_SiteNavLogin"]/div[1]/div[2]/a,表示第一字段在id为“J_SiteNavLogin”的div层级中的相对位置。
S202:从所述代码文档的所述第一位置中读取所述第一字段值。
这里,在确定第一位置之后,从代码文档的第一位置中读取第一字段值。在实际应用中,可以在网站对应的代码文档中定位至第一位置,并读取网站对应的代码文档的第一位置的第一字段值。例如,第一字段在网站对应的文档代码中的第一位置为//*[@id="J_SiteNavLogin"]/div[1]/div[2]/a,那么读取第一字段值的代码可以表示为://*[@id="J_SiteNavLogin"]/div[1]/div[2]/a/text(),其中text()表示第一字段值。在实际应用中,第一位置对应的是网站下的一个页面,在对网站的数据进行抓取的时候,可能需要抓取相同网站下的不同页面的数据,在相同网站下的不同页面确定第一字段值的时候,由于在相同的网站的不同页面中,第一位置均不会变化,那么在相同网站下的其他页面也可以根据第一位置,在代码文档的第一位置中读取第一字段值。
在上述实施例中,通过确定第一位置,第一位置为通过访问路径表征的第一字段在代码文档中的位置,从代码文档的第一位置中读取第一字段值,从而能够直接定位到第一字段在代码文档中的位置,快速地从代码文档中确定网站的登录状态,提高了判断网站登录状态的速度和准确度。
在一实施例中,如图3所示,所述在所述相关信息中确定所述网站的第一字段值,包括:
S301:根据第一字段的类名,在所述代码文档中搜索对应的类。
这里,在网站对应的代码文档中,每个类都有一个相应的对象,第一字段的类名对应第一字段,并且第一字段的类名与其他对象的类名是不同的,根据第一字段的类名,在代码文档中搜索对应的类,从而能够在代码文档中找到第一字段。例如,可以在代码文档中,搜索与第一字段的类名site-nav-user相同的类。
S302:从搜索到的类中读取所述第一字段值。
这里,根据第一字段的类名,完成代码文档的搜索后,从搜索到的类中读取第一字段值。通过在代码文档中搜索第一字段的类名,能够在文档代码中定位至第一字段,再读取第一字段值,能够确定网站的登录状态。例如,第一字段的类名site-nav-user,那么读取第一字段值的代码为://div[@class="site-nav-user"/text()],其中text()表示第一字段值。在实际应用中,在同一个网站中,第一字段对应的类名是相同的,那么在同一网站下的不同页面确定第一字段值的时候,可以根据相同的类名,在同一网站下的不同页面的代码文档中,从搜索到的类中读取第一字段值,从而判断网站的登录状态。当读取的第一字段值为用户名等相关信息时,则表明当前的网站保持登录状态,读取的第一字段值为与请求登录有关的字样时,例如“请登录”、“重新登录”等字样时,则表明当前的网站的登录状态失效。
在上述实施例中,根据第一字段的类名,在代码文档中搜索对应的类,从搜索到的类中读取第一字段值,能够快速地在代码文档中定位至第一字段,并直接获取第一字段值,提高了确定网站的登录状态的速度与准确性。
在一实施例中,所述获取访问所述网站的过程中得到的相关信息,包括:
获取访问所述网站产生的cookie信息。
这里,在访问网站的时候,网站会产生相应的cookie信息,获取访问网站产生的cookie信息,能够从cookie信息中判断网站的登录状态。具体地,在网站进行刷新之后,如果访问的网站的登录状态发生改变,那么访问网站产生的cookie信息也会发生变化,通过检测访问网站产生的cookie信息中代表网站登录状态的第一字段值,能够确定访问网站的登录状态。具体地,在网站对应的cookie信息中检索第一字段值,如果检索的第一字段值为“login.网站地址”,说明当前网站的登录状态失效,如果检索的第一字段值为“网站地址”,说明当前网站处于登录状态。在实际应用中,cookie通常以字典的形式表示网站的登录状态,还可以通过检索字典名称为“__cn_logon_id__”对应的字段值,如果字典名称为“__cn_logon_id__”对应的字段值代表着用户名,说明当前网站处于登录状态,如果字典名称为“__cn_logon_id__”对应的字段值为空值,说明当前网站的登录状态失效。
在上述实施例中,获取访问网站产生的cookie信息,可以通过访问网站产生的cookie信息确定访问网站的登录状态,从而能够在访问网站时,使网站保持登录状态,提高了抓取数据的效率。
在一实施例中,所述在所述相关信息中确定所述网站的第一字段值,包括:
在设定时间点,确定所述网站的第一字段值。
这里,由于cookie信息具有时限性,当cookie信息处于有效期限时,能够根据cookie信息进行登录,且网站保持登录状态。而当cookie信息处于无效期限时,根据cookie信息进行登录时,网站的登录状态失效。因此,需要将检测网站的登录状态作为一个定时任务,通过在设定时间点,确定网站的第一字段值,从而判断cookie信息当前的有效性。可以通过python的scheduler执行定时检测网站的登录状态这个任务,具体的代码为:
scheduler.start()
scheduler.add_job(task1,'interval',seconds=interval,id=job_id,args=(job_id,))
其中,interval为设定时间点。在实际应用中,设定时间点的取值范围应当略小于cookie信息的有效时限,从而保证能够及时检测网站的登录状态,且服务器的负荷也不会过大。
在上述实施例中,在设定时间点,确定网站的第一字段,从而能够定时检测网站的登录状态,避免网站的登录状态失效,从而能够提高抓取数据的效率。
在一实施例中,其特征在于,所述方法还包括:
在抓取所述网站的数据时触发所述设定时间点。
这里,在抓取网站的数据时,触发设定时间点,执行检测网站登录状态的定时任务。在访问网站时,如果cookie信息处于无效状态,那么网站的登录状态也会失效,因此,在对网站进行数据抓取的时候,也要定期检测网站的登录状态,从而在对网站进行数据抓取的过程中,网站能够保持登录状态。
在上述实施例中,在抓取网站的数据时触发设定时间点,能够在抓取网站数据时,检测网站的登录状态,使网站能够保持登录状态,实现在网站登录状态,抓取网站的数据,从而能够提高抓取数据的数据量,以及提高抓取数据的效率。为实现本发明实施例的数据抓取方法,本发明实施例还提供了一种数据抓取装置,如图4所示,该数据抓取装置包括:
保存单元401,用于保存设定用户身份对应的cookie信息;所述cookie信息在以所述设定用户身份成功登录网站的情况下获取到;
数据抓取单元402,用于当需要抓取所述网站的数据时,基于保存的所述cookie信息登录网站以进行数据抓取;
获取单元403,用于访问所述网站,获取访问所述网站的过程中得到的相关信息;
确定单元404,用于在所述相关信息中确定所述网站的第一字段值;所述网站的第一字段值表征所述网站的登录状态;
更新单元405,用于当所述第一字段值表征所述网站的登录状态失效时,对保存的cookie信息进行更新。
在一实施例中,所述获取单元403获取访问所述网站的过程中得到的相关信息,包括:
获取访问所述网站的过程中得到的所述网站对应的代码文档。
在一实施例中,所述确定单元404在所述相关信息中确定所述网站的第一字段值,包括:
确定第一位置;所述第一位置为通过访问路径表征的第一字段在所述代码文档中的位置;
从所述代码文档的所述第一位置中读取所述第一字段值。
在一实施例中,所述确定单元404在所述相关信息中确定所述网站的第一字段值,包括:
根据第一字段的类名,在所述代码文档中搜索对应的类;
从搜索到的类中读取所述第一字段值。
在一实施例中,所述获取单元403获取访问所述网站的过程中得到的相关信息,包括:
获取访问所述网站产生的cookie信息。
在一实施例中,所述确定单元404在所述相关信息中确定所述网站的第一字段值,包括:
在设定时间点,确定所述网站的第一字段值。
在一实施例中,所述装置还包括:
在抓取所述网站的数据时触发所述设定时间点。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备,图5为本发明实施例电子设备的硬件组成结构示意图,如图5所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的数据抓取方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线***4耦合在一起。可理解,总线***4用于实现这些组件之间的连接通信。总线***4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线***4。
本发明实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagneticrandom access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random AccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus RandomAccess Memory)。本发明实施例描述的存储器2旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本发明实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、终端和方法,可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据抓取方法,其特征在于,包括:
保存设定用户身份对应的cookie信息;所述cookie信息在以所述设定用户身份成功登录网站的情况下获取到;
当需要抓取所述网站的数据时,基于保存的所述cookie信息登录网站以进行数据抓取;其中,在基于保存的cookie信息登录网站之前,所述方法还包括:
访问所述网站,获取访问所述网站的过程中得到的相关信息;
在所述相关信息中确定所述网站的第一字段值;所述网站的第一字段值表征所述网站的登录状态;
当所述第一字段值表征所述网站的登录状态失效时,对保存的cookie信息进行更新。
2.根据权利要求1所述方法,其特征在于,所述获取访问所述网站的过程中得到的相关信息,包括:
获取访问所述网站的过程中得到的所述网站对应的代码文档。
3.根据权利要求2所述方法,其特征在于,所述在所述相关信息中确定所述网站的第一字段值,包括:
确定第一位置;所述第一位置为通过访问路径表征的第一字段在所述代码文档中的位置;
从所述代码文档的所述第一位置中读取所述第一字段值。
4.根据权利要求2所述方法,其特征在于,所述在所述相关信息中确定所述网站的第一字段值,包括:
根据第一字段的类名,在所述代码文档中搜索对应的类;
从搜索到的类中读取所述第一字段值。
5.根据权利要求1所述方法,其特征在于,所述获取访问所述网站的过程中得到的相关信息,包括:
获取访问所述网站产生的cookie信息。
6.根据权利要求1所述方法,其特征在于,所述在所述相关信息中确定所述网站的第一字段值,包括:
在设定时间点,确定所述网站的第一字段值。
7.根据权利要求6所述方法,其特征在于,所述方法还包括:
在抓取所述网站的数据时触发所述设定时间点。
8.一种数据抓取装置,其特征在于,包括:
保存单元,用于保存设定用户身份对应的cookie信息;所述cookie信息在以所述设定用户身份成功登录网站的情况下获取到;
数据抓取单元,用于当需要抓取所述网站的数据时,基于保存的所述cookie信息登录网站以进行数据抓取;
获取单元,用于访问所述网站,获取访问所述网站的过程中得到的相关信息;
确定单元,用于在所述相关信息中确定所述网站的第一字段值;所述网站的第一字段值表征所述网站的登录状态;
更新单元,用于当所述第一字段值表征所述网站的登录状态失效时,对保存的cookie信息进行更新。
9.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202010313363.6A 2020-04-20 2020-04-20 数据抓取方法、装置、电子设备及存储介质 Pending CN111552853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010313363.6A CN111552853A (zh) 2020-04-20 2020-04-20 数据抓取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010313363.6A CN111552853A (zh) 2020-04-20 2020-04-20 数据抓取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111552853A true CN111552853A (zh) 2020-08-18

Family

ID=72002923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010313363.6A Pending CN111552853A (zh) 2020-04-20 2020-04-20 数据抓取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111552853A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112073404A (zh) * 2020-09-03 2020-12-11 中国平安财产保险股份有限公司 一种基于浏览器的账号登录方法及装置
CN113242131A (zh) * 2021-04-22 2021-08-10 卓尔智联(武汉)研究院有限公司 区块链跨链方法、装置、电子设备及存储介质
CN113254831A (zh) * 2021-05-26 2021-08-13 深圳壹账通智能科技有限公司 信息处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153516A1 (en) * 2008-12-15 2010-06-17 Google Inc. Controlling Content Distribution
CN103179134A (zh) * 2013-04-19 2013-06-26 中国建设银行股份有限公司 基于Cookie的单点登录方法、***及其应用服务器
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
CN110968760A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 网页数据的爬取方法、装置、网页登录方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153516A1 (en) * 2008-12-15 2010-06-17 Google Inc. Controlling Content Distribution
CN103179134A (zh) * 2013-04-19 2013-06-26 中国建设银行股份有限公司 基于Cookie的单点登录方法、***及其应用服务器
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
CN110968760A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 网页数据的爬取方法、装置、网页登录方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112073404A (zh) * 2020-09-03 2020-12-11 中国平安财产保险股份有限公司 一种基于浏览器的账号登录方法及装置
CN112073404B (zh) * 2020-09-03 2023-09-29 中国平安财产保险股份有限公司 一种基于浏览器的账号登录方法及装置
CN113242131A (zh) * 2021-04-22 2021-08-10 卓尔智联(武汉)研究院有限公司 区块链跨链方法、装置、电子设备及存储介质
CN113242131B (zh) * 2021-04-22 2023-10-24 卓尔智联(武汉)研究院有限公司 区块链跨链方法、装置、电子设备及存储介质
CN113254831A (zh) * 2021-05-26 2021-08-13 深圳壹账通智能科技有限公司 信息处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111552853A (zh) 数据抓取方法、装置、电子设备及存储介质
US9426200B2 (en) Updating dynamic content in cached resources
US8893043B2 (en) Method and system for predictive browsing
US9858273B2 (en) Speculative rendering during cache revalidation
US8935798B1 (en) Automatically enabling private browsing of a web page, and applications thereof
JP6748734B2 (ja) データキャッシング方法及び装置
CN109474640B (zh) 恶意爬虫检测方法、装置、电子设备及存储介质
US20140330962A1 (en) Unified tracking data management
US20150154313A1 (en) A method, device, browser and program for accessing web page
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
CN106302512B (zh) 一种用于控制访问的方法、设备与***
US10885143B2 (en) Determining whether an authenticated user session is active for a domain
US9021087B1 (en) Method to improve caching accuracy by using snapshot technology
JP2012507778A (ja) ブラウザベースの不正行為防止方法およびシステム
US11477158B2 (en) Method and apparatus for advertisement anti-blocking
CN109298987B (zh) 一种检测网络爬虫运行状态的方法及装置
CN106202368B (zh) 预加载方法和装置
CN112612546A (zh) 页面加载方法、装置、电子设备和存储介质
EP3446236A1 (en) Method and system for providing additional information relating to primary information
US8365064B2 (en) Hyperlinking web content
CN110708270B (zh) 异常链接检测方法以及装置
CN112384940A (zh) 用于web爬取电子商务资源页面的机制
CN103246656A (zh) 生成静态缓存页面的方法及服务器
KR101111956B1 (ko) 컴퓨팅 장치의 모니터링 내용 제공 시스템 및 방법
US20150089338A1 (en) System and methods for providing a network application proxy agent

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200818