CN109492149A - 爬虫任务处理方法及装置 - Google Patents

爬虫任务处理方法及装置 Download PDF

Info

Publication number
CN109492149A
CN109492149A CN201811441550.1A CN201811441550A CN109492149A CN 109492149 A CN109492149 A CN 109492149A CN 201811441550 A CN201811441550 A CN 201811441550A CN 109492149 A CN109492149 A CN 109492149A
Authority
CN
China
Prior art keywords
task
crawler
webpage
queue
crawled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811441550.1A
Other languages
English (en)
Other versions
CN109492149B (zh
Inventor
徐伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN DAYU WUXIAN TECHNOLOGY Co.,Ltd.
Original Assignee
Shenzhen Moshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Moshi Technology Co Ltd filed Critical Shenzhen Moshi Technology Co Ltd
Priority to CN201811441550.1A priority Critical patent/CN109492149B/zh
Publication of CN109492149A publication Critical patent/CN109492149A/zh
Application granted granted Critical
Publication of CN109492149B publication Critical patent/CN109492149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供了一种爬虫任务处理方法及装置,涉及数据处理技术领域。方法包括:获得爬虫任务;根据爬虫任务的优先级,将爬虫任务加入到至少两个任务队列中与优先级对应的目标任务队列;从至少两个任务队列中选择出目标任务队列以待处理爬虫任务,其中,目标任务队列对应的优先级越高使得目标任务队列被选择出的概率越大。故在保证各任务基于优先级而有序被处理的情况下,不会对设备性能要求很高,实现低成本的设备也可以良好执行爬虫任务。

Description

爬虫任务处理方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种爬虫任务处理方法及装置。
背景技术
爬虫***可以进行一些爬虫任务,即通过这些爬虫任务对响应网页上数据的爬取,而获得需要的数据。但目前,爬虫***对爬虫任务的执行为同步执行,这样的好处是可以快速完成对任务的执行并获得爬取结果,但这会对设备的性能要求很高,导致设备的投入成本也很高。
发明内容
本申请在于提供一种爬虫任务处理方法及装置,以实现低成本的设备也可以良好执行爬虫任务。
第一方面,本申请实施例提供了一种爬虫任务处理方法,所述方法包括:
获得爬虫任务;
根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列;
从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
结合第一方面,在一些可选地的实现方式中,根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列,包括:
根据所述爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将所述爬虫任务加入到所述至少两个任务队列中目标权重与所述优先级对应的目标任务队列,所述优先级越高对应的所述目标权重越大;
对应的,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,包括:
根据每个任务队列的权重在所述至少两个任务队列的至少两个权重之和中所占比值,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务。
结合第一方面,在一些可选地的实现方式中,在从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务之后,所述方法还包括:
根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征;
根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据;
从所述网页原始数据中提取出需要获得的数据。
结合第一方面,在一些可选地的实现方式中,根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据,包括:
根据所述待爬取网页的特征,从至少两种爬取规则中确定出与所述待爬取网页的特征对应的一种目标爬取规则;
根据所述目标爬取规则爬取所述待爬取网页,获得所述待爬取网页的网页原始数据。
结合第一方面,在一些可选地的实现方式中,在根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列之后,所述方法还包括:
响应用户对所述爬虫任务的查询操作,判断所述爬虫任务是否开始处理;
若是,生成表示所述爬虫任务的正在处理的信息并发送给所述用户,若否,生成表示所述爬虫任务当前在所述目标任务队列中所在位置的信息并发送给所述用户。
第二方面,本申请实施例提供了一种爬虫任务处理装置,所述装置包括:
任务获得模块,用于获得爬虫任务。
队列加入模块,用于根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列。
队列选择模块,用于从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
结合第二方面,在一些可选地的实现方式中,
所述队列加入模块,还用于根据所述爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将所述爬虫任务加入到所述至少两个任务队列中目标权重与所述优先级对应的目标任务队列,所述优先级越高对应的所述目标权重越大。
所述队列选择模块,还用于根据每个任务队列的权重在所述至少两个任务队列的至少两个权重之和中所占比值,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务。
结合第二方面,在一些可选地的实现方式中,所述装置还包括:
特征获得模块,用于根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征。
数据爬取模块,用于根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据。
数据提取模块,用于从所述网页原始数据中提取出需要获得的数据。
结合第二方面,在一些可选地的实现方式中,
所述数据爬取模块,还用于根据所述待爬取网页的特征,从至少两种爬取规则中确定出与所述待爬取网页的特征对应的一种目标爬取规则;根据所述目标爬取规则爬取所述待爬取网页,获得所述待爬取网页的网页原始数据。
结合第二方面,在一些可选地的实现方式中,所述装置还包括:
任务交互模块,用于响应用户对所述爬虫任务的查询操作,判断所述爬虫任务是否开始处理。
信息反馈模块,用于若是,生成表示所述爬虫任务的正在处理的信息并发送给所述用户,若否,生成表示所述爬虫任务当前在所述目标任务队列中所在位置的信息并发送给所述用户。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器、总线和通信接口,所述存储器和所述通信接口通过所述总线与所述处理器连接;
所述存储器用于存储程序;
所述处理器用于读取并执行所述程序以执行如第一方面,以及第一方面的任一种可能实现的方式所述的爬虫任务处理方法。
第四方面,本申请实施例提供了一种具有计算机可执行的非易失程序代码的计算机可读储存介质,所述程序代码使所述计算机执行如第一方面,以及第一方面的任一种可能实现的方式所述的爬虫任务处理方法。
本申请的有益效果包括:
由于可以根据爬虫任务的优先级,将其加入到至少两个任务队列中与该优先级对应的目标任务队列,而目标任务队列对应的优先级越高使得目标任务队列被选择出并对其任务进行处理的概率越大。故使得优先级越高的爬虫任务越容易被优先处理,反之则会延后处理。故在保证各任务基于优先级而有序被处理的情况下,不会对设备性能要求很高,实现低成本的设备也可以良好执行爬虫任务。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种电子设备的结构框图;
图2示出了本申请实施例提供的一种爬虫任务处理方法的第一流程图;
图3示出了本申请实施例提供的一种爬虫任务处理方法的第二流程图;
图4示出了本申请实施例提供的一种爬虫任务处理装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
请参阅图1,本申请一些实施例提供了一种电子设备10,电子设备10可以是终端或者服务器。
终端可以是个人电脑、智能手机、平板电脑或笔记本电脑等。
服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式***)。在一些实施例中,服务器可以是本地的、也可以是远程的。作为另一示例,服务器存储的信息和/或数据可以被客户端访问。在一些实施例中,服务器可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。本实施例中,电子设备10可以与其它设备交互而执行爬虫任务处理方法。
本实施例中,电子设备10可以包括连接到网络的网络端口11、用于执行程序指令的一个或多个处理器12、通信总线13、和不同形式的存储介质14,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备10还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口15。
为了便于说明,在电子设备10中仅描述了一个处理器。然而,应当注意,本申请中的电子设备10还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备10的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
请参阅图2,本申请的一些实施例提供了一种爬虫任务处理方法,该爬虫任务处理方法应用于电子设备,该爬虫任务处理方法可以包括:步骤S100、步骤S200和步骤S300。
步骤S100:获得爬虫任务。
步骤S200:根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列。
步骤S300:从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
以下将对爬虫任务处理方法的各流程进行详细地说明。
步骤S100:获得爬虫任务。
在需要去爬取某一网址的数据时,用户可以通过与电子设备的交互,使得电子设备响应用户的交互操作而建立用于爬取该网址数据的爬虫任务。这样,电子设备相应的就获得了该爬虫任务。
其中,在用户在执行交互操作时,用户可以根据自己的需求选择建立的该爬虫任务是同步任务还是异步任务。若爬虫任务是同步任务,那么电子设备则马上执行该爬虫任务。而若爬虫任务是异步任务,则用户需要选择该爬虫任务的优先级,使得电子设备根据优先级来执行该爬虫任务。
再者,爬虫任务中还包括需要爬取的网站的网址,以便电子设备基于该网址去访问该网站,从而爬取到该网站的数据。
本实施例中,电子设备在获得该爬虫任务时,电子设备可以确定该爬虫任务是否为重复的任务,若是,则终止该爬虫任务的后续执行流程,若否,则正常执行该爬虫任务。从而可以避免对任务的重复执行。
步骤S200:根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列。
电子设备中预先设置了至少两个任务队列,而针对至少两个任务队列中每个任务队列,电子设备也设置了每个任务队列对应的权重,并也设置了每个权重所关联的优先级。其中,优先级越高则该优先级基于关联关系所对应的目标权重则越大,权重越高则表示该任务队列越是处理优先级高的爬虫任务,而优先级越高的爬虫任务则越是容易被快速处理。
基于此,电子设备则可以根据爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将该爬虫任务加入到至少两个任务队列中目标权重与优先级对应的目标任务队列中,以待电子设备后续能够对该爬虫任务进行处理。
步骤S300:从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
电子设备可以根据每个任务队列的权重来选择对哪一个任务队列中的爬虫任务进行处理。
可选地,电子设备可以根据每个任务队列的权重在至少两个任务队列的至少两个权重之和中所占比值,从至少两个任务队列中选择出目标任务队列。由于权重越大,则越大的权重所占比值则越大,因此,权重越大的任务队列则越容易被选择到。
那么随着电子设备基于此规则对各任务队列中的爬虫任务进行处理,在该爬虫任务位于目标任务队列中的首位时,若电子设备从两个任务队列中选择出目标任务队列,那么便可以对该爬虫任务进行处理。
请参阅图3,在本申请的一些实施例中,在步骤S300之后,爬虫任务处理方法还包括:步骤S400、步骤S500和步骤S600。
步骤S400:根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征。
步骤S500:根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据。
步骤S600:从所述网页原始数据中提取出需要获得的数据。
以下将继续对爬虫任务处理方法的各流程进行详细地说明。
步骤S400:根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征。
电子设备的数据库中预设了的各网页的特征,其中,这些特征可以是该网页的登陆信息、爬起方式、多语言配置以及针对该网页反爬取的破解方式。电子设备需要基于每个网页的特征去访问每个网页,以及数据库中每个网页的特征和每个网页的网址关联关系。
基于此,电子设备就可以根据该爬虫任务需要爬取的待爬取网页的网址,从数据库中确定出该待爬取网页的网址的关联关系,以及再根据该关联关系从数据库预设的各网页的特征中确定出该待爬取网页的特征。
步骤S500:根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据。
电子设备中还预设了针对网页的爬取方式,可选地,电子设备的预设的爬取方式可以包括Html Fetcher和JS Engine Fetcher。
基于此,电子设备基于该待爬取网页的特征去访问该待爬取网页后,电子设备便可以从爬取方式的Html Fetcher和JS Engine Fetcher中选择一种方式来对该待爬取网页的网页原始数据。
本实施例中,选择爬取方式的规则可以是随机选择,或者也可以根据网页的特征进选择。
步骤S600:从所述网页原始数据中提取出需要获得的数据。
电子设备获取到网页原始数据后,电子设备需要对网页原始数据进行提取,以获得网页原始数据中自己需要的数据。
可选地,电子设备中可以设置提取数据的通用规则,即针对爬取到的所有网页的都可以基于此规则来提取出自己需要的数据。而针对一些精确性的提取,电子设备中还可以设置针对特定代码的特征规则,即电子设备基于这些特定规则可以提取出精确性的代码。
本实施例中,在电子设备提取出需要获得的数据后,电子设备便可以将该需要获得的数据存储到相应的存储介质中,并确定该爬虫任务的执行结束,从而可以告知用户该任务结束,以提醒用户查看。
再者,用户也可以根据在确定为异步任务时为该爬虫任务分配的任务ID对该爬虫任务进行查询。从而电子设备便可以响应用户对爬虫任务的查询操作,以判断爬虫任务是否开始处理。若是,电子设备生成表示爬虫任务的正在处理的信息并发送给该用户,若否,生成表示爬虫任务当前在目标任务队列中所在位置的信息并发送给用户。
再者,若在执行该爬虫任务的过程中,对该爬虫任务的执行失败,那么电子设备可以重新执行该爬虫任务。直至该爬虫的失败次数达到预设次数,那么电子设备不再重复执行该爬虫任务,并生成爬取失败的信息告知用户。
请参阅图4,在本申请的一些实施例提供了一种爬虫任务处理装置100,该爬虫任务处理装置100应用于电子设备,该爬虫任务处理装置100可以包括:
任务获得模块110,用于获得爬虫任务。
队列加入模块120,用于根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列。
队列选择模块130,用于从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
可选地,所述队列加入模块120,还用于根据所述爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将所述爬虫任务加入到所述至少两个任务队列中目标权重与所述优先级对应的目标任务队列,所述优先级越高对应的所述目标权重越大。
所述队列选择模块130,还用于根据每个任务队列的权重在所述至少两个任务队列的至少两个权重之和中所占比值,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务。
可选地,该爬虫任务处理装置100还可以包括:
特征获得模块140,用于根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征。
数据爬取模块150,用于根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据。
数据提取模块160,用于从所述网页原始数据中提取出需要获得的数据。
可选地,所述数据爬取模块150,还用于根据所述待爬取网页的特征,从至少两种爬取规则中确定出与所述待爬取网页的特征对应的一种目标爬取规则;根据所述目标爬取规则爬取所述待爬取网页,获得所述待爬取网页的网页原始数据。
可选地,该爬虫任务处理装置100还可以包括:
任务交互模块170,用于响应用户对所述爬虫任务的查询操作,判断所述爬虫任务是否开始处理。
信息反馈模块180,用于若是,生成表示所述爬虫任务的正在处理的信息并发送给所述用户,若否,生成表示所述爬虫任务当前在所述目标任务队列中所在位置的信息并发送给所述用户。
需要说明的是,由于所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请一些实施例还提供了一种计算机可执行的非易失的程序代码的计算机可读储存介质,该计算机可读存储介质上存储有程序代码,该程序代码被计算机运行时执行上述任一实施例的爬虫任务处理方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的程序代码被运行时,能够以实现数据处理***能够快速的对数据进行处理,提高了获得处理结果的实效性。
本申请实施例所提供的爬虫任务处理方法的程序代码产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
综上所述,本申请实施例提供了一种爬虫任务处理方法及装置。方法包括:获得爬虫任务;根据爬虫任务的优先级,将爬虫任务加入到至少两个任务队列中与优先级对应的目标任务队列;从至少两个任务队列中选择出目标任务队列以待处理爬虫任务,其中,目标任务队列对应的优先级越高使得目标任务队列被选择出的概率越大。
由于可以根据爬虫任务的优先级,将其加入到至少两个任务队列中与该优先级对应的目标任务队列,而目标任务队列对应的优先级越高使得目标任务队列被选择出并对其任务进行处理的概率越大。故使得优先级越高的爬虫任务越容易被优先处理,反之则会延后处理。故在保证各任务基于优先级而有序被处理的情况下,不会对设备性能要求很高,实现低成本的设备也可以良好执行爬虫任务。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种爬虫任务处理方法,其特征在于,所述方法包括:
获得爬虫任务;
根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列;
从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
2.根据权利要求1所述的爬虫任务处理方法,其特征在于,根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列,包括:
根据所述爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将所述爬虫任务加入到所述至少两个任务队列中目标权重与所述优先级对应的目标任务队列,所述优先级越高对应的所述目标权重越大;
对应的,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,包括:
根据每个任务队列的权重在所述至少两个任务队列的至少两个权重之和中所占比值,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务。
3.根据权利要求1所述的爬虫任务处理方法,其特征在于,在从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务之后,所述方法还包括:
根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征;
根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据;
从所述网页原始数据中提取出需要获得的数据。
4.根据权利要求3所述的爬虫任务处理方法,其特征在于,根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据,包括:
根据所述待爬取网页的特征,从至少两种爬取规则中确定出与所述待爬取网页的特征对应的一种目标爬取规则;
根据所述目标爬取规则爬取所述待爬取网页,获得所述待爬取网页的网页原始数据。
5.根据权利要求1-4任一权项所述的爬虫任务处理方法,其特征在于,在根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列之后,所述方法还包括:
响应用户对所述爬虫任务的查询操作,判断所述爬虫任务是否开始处理;
若是,生成表示所述爬虫任务的正在处理的信息并发送给所述用户,若否,生成表示所述爬虫任务当前在所述目标任务队列中所在位置的信息并发送给所述用户。
6.一种爬虫任务处理装置,其特征在于,所述装置包括:
任务获得模块,用于获得爬虫任务;
队列加入模块,用于根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列;
队列选择模块,用于从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
7.根据权利要求6所述的爬虫任务处理装置,其特征在于,
所述队列加入模块,还用于根据所述爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将所述爬虫任务加入到所述至少两个任务队列中目标权重与所述优先级对应的目标任务队列,所述优先级越高对应的所述目标权重越大;
所述队列选择模块,还用于根据每个任务队列的权重在所述至少两个任务队列的至少两个权重之和中所占比值,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务。
8.根据权利要求6所述的爬虫任务处理装置,其特征在于,所述装置还包括:
特征获得模块,用于根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征;
数据爬取模块,用于根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据;
数据提取模块,用于从所述网页原始数据中提取出需要获得的数据。
9.根据权利要求8所述的爬虫任务处理装置,其特征在于,
所述数据爬取模块,还用于根据所述待爬取网页的特征,从至少两种爬取规则中确定出与所述待爬取网页的特征对应的一种目标爬取规则;根据所述目标爬取规则爬取所述待爬取网页,获得所述待爬取网页的网页原始数据。
10.根据权利要求6-9任一权项所述的爬虫任务处理装置,其特征在于,所述装置还包括:
任务交互模块,用于响应用户对所述爬虫任务的查询操作,判断所述爬虫任务是否开始处理;
信息反馈模块,用于若是,生成表示所述爬虫任务的正在处理的信息并发送给所述用户,若否,生成表示所述爬虫任务当前在所述目标任务队列中所在位置的信息并发送给所述用户。
CN201811441550.1A 2018-11-29 2018-11-29 爬虫任务处理方法及装置 Active CN109492149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811441550.1A CN109492149B (zh) 2018-11-29 2018-11-29 爬虫任务处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811441550.1A CN109492149B (zh) 2018-11-29 2018-11-29 爬虫任务处理方法及装置

Publications (2)

Publication Number Publication Date
CN109492149A true CN109492149A (zh) 2019-03-19
CN109492149B CN109492149B (zh) 2021-04-09

Family

ID=65698612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811441550.1A Active CN109492149B (zh) 2018-11-29 2018-11-29 爬虫任务处理方法及装置

Country Status (1)

Country Link
CN (1) CN109492149B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457556A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 分布式爬虫***架构、爬取数据的方法和计算机设备
CN112488676A (zh) * 2021-02-05 2021-03-12 连连(杭州)信息技术有限公司 一种项目的进度和质量的自动控制方法、装置及存储介质
CN115774564A (zh) * 2022-11-03 2023-03-10 北京大学重庆大数据研究院 任务处理方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092817A (zh) * 2013-01-18 2013-05-08 五八同城信息技术有限公司 一种基于脚本引擎的数据采集方法和装置
CN103377207A (zh) * 2012-04-17 2013-10-30 北京拓尔思信息技术股份有限公司 基于脚本引擎的微博用户关系采集方法
CN103902365A (zh) * 2012-12-26 2014-07-02 华为技术有限公司 任务调控方法、装置和***
CN104866517A (zh) * 2014-12-30 2015-08-26 智慧城市信息技术有限公司 一种抓取网页内容的方法及装置
US20170169514A1 (en) * 2000-06-28 2017-06-15 Buymetrics, Inc. System and method for adapting market data and evaluating unequal offers
CN107025235A (zh) * 2016-02-01 2017-08-08 北京国双科技有限公司 爬取网页的方法及装置
CN108762903A (zh) * 2018-05-23 2018-11-06 四川斐讯信息技术有限公司 一种面向海量工作节点的抢占式任务调度方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169514A1 (en) * 2000-06-28 2017-06-15 Buymetrics, Inc. System and method for adapting market data and evaluating unequal offers
CN103377207A (zh) * 2012-04-17 2013-10-30 北京拓尔思信息技术股份有限公司 基于脚本引擎的微博用户关系采集方法
CN103902365A (zh) * 2012-12-26 2014-07-02 华为技术有限公司 任务调控方法、装置和***
CN103092817A (zh) * 2013-01-18 2013-05-08 五八同城信息技术有限公司 一种基于脚本引擎的数据采集方法和装置
CN104866517A (zh) * 2014-12-30 2015-08-26 智慧城市信息技术有限公司 一种抓取网页内容的方法及装置
CN107025235A (zh) * 2016-02-01 2017-08-08 北京国双科技有限公司 爬取网页的方法及装置
CN108762903A (zh) * 2018-05-23 2018-11-06 四川斐讯信息技术有限公司 一种面向海量工作节点的抢占式任务调度方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457556A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 分布式爬虫***架构、爬取数据的方法和计算机设备
CN110457556B (zh) * 2019-07-04 2023-11-14 重庆金融资产交易所有限责任公司 分布式爬虫***架构、爬取数据的方法和计算机设备
CN112488676A (zh) * 2021-02-05 2021-03-12 连连(杭州)信息技术有限公司 一种项目的进度和质量的自动控制方法、装置及存储介质
CN115774564A (zh) * 2022-11-03 2023-03-10 北京大学重庆大数据研究院 任务处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN109492149B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN108804450B (zh) 信息推送的方法和装置
CN111552880B (zh) 基于知识图谱的数据处理方法、装置、介质及电子设备
US20130239006A1 (en) Aggregator, filter and delivery system for online context dependent interaction, systems and methods
CN106648688B (zh) 一种信息展示方法和装置
CN112036577B (zh) 基于数据形式的应用机器学习的方法、装置和电子设备
CN109492149A (zh) 爬虫任务处理方法及装置
Chappell Introducing azure machine learning
US11334758B2 (en) Method and apparatus of data processing using multiple types of non-linear combination processing
CN108536467B (zh) 代码的定位处理方法、装置、终端设备及存储介质
CN107578659A (zh) 电子题目的生成方法、生成装置及终端
CN107807935B (zh) 应用推荐方法及装置
CN106471497A (zh) 使用上下文的辅助浏览
JP2020501277A (ja) サービスオペレーションを実施するための画像ベースの方法および装置
CN110321546B (zh) 账号识别、显示方法、装置、服务器、终端及存储介质
US20150112898A1 (en) Site flow optimization
CN115344341A (zh) 基于捆绑会话组的交互方法、装置和计算机设备
CN108604248A (zh) 利用基于人工智能的相关性计算的笔记提供方法及装置
KR101494795B1 (ko) 문서를 매트릭스로 표현하는 방법
WO2024099446A1 (zh) 用户互动的方法、装置、设备和存储介质
CN110019750A (zh) 呈现两个以上标准文本问题的方法和装置
CN109710874A (zh) 页面数据的处理方法及装置、存储介质、计算机设备
CN115237783A (zh) 一种测试数据生成方法及装置
US20140019394A1 (en) Providing expert elicitation
US11007443B2 (en) Method for performing game by using activity count
CN109451018B (zh) 信息对象的推送方法、计算设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210322

Address after: Unit 1701e, China energy storage building, 3099 Keyuan South Road, high tech community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Applicant after: SHENZHEN DAYU WUXIAN TECHNOLOGY Co.,Ltd.

Address before: Unit 2301-l, bicker building, No.9, Keke Road, Gaoxin Middle District, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Applicant before: SHENZHEN MOSHI TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant