CN101187925B - 自动优化爬虫的抓取方法 - Google Patents

自动优化爬虫的抓取方法 Download PDF

Info

Publication number
CN101187925B
CN101187925B CN2006101458116A CN200610145811A CN101187925B CN 101187925 B CN101187925 B CN 101187925B CN 2006101458116 A CN2006101458116 A CN 2006101458116A CN 200610145811 A CN200610145811 A CN 200610145811A CN 101187925 B CN101187925 B CN 101187925B
Authority
CN
China
Prior art keywords
information
frequency
page
leaf
grasp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006101458116A
Other languages
English (en)
Other versions
CN101187925A (zh
Inventor
陈华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuxun Technology Co Ltd
Original Assignee
Beijing Kuxun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuxun Technology Co Ltd filed Critical Beijing Kuxun Technology Co Ltd
Priority to CN2006101458116A priority Critical patent/CN101187925B/zh
Publication of CN101187925A publication Critical patent/CN101187925A/zh
Application granted granted Critical
Publication of CN101187925B publication Critical patent/CN101187925B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动优化爬虫的抓取方法。现有的爬虫抓取网页的方法是用相同的频率去抓取发布高峰期的信息和发布低谷期的信息,影响了所抓取信息的时效性,降低了***效能,增加了无谓的资源消耗。为解决上述问题,本发明包括以下步骤:(1)从互联网上抓取的信息页中抽取信息,如果抽取成功,加快再次抓取该信息页的频率;否则减慢再次抓取该信息页的频率;(2)在修改后的频率到时,重复步骤(1)。本发明适用于现有的各种搜索引擎。

Description

自动优化爬虫的抓取方法
技术领域
本发明涉及一种网络爬虫信息抓取的方法,尤其是搜索引擎利用爬虫技术抓取信息并自动优化抓取频率的方法。
背景技术
搜索引擎是现今互联网上广为应用的一项技术,人们只需要输入自己所寻找信息的部分关键字就可以通过搜索引擎找到大量与该关键字相关的信息,例如谷歌、百度。
搜索引擎的信息来源多种多样,有的是通过竞价广告的形式由发起这项广告的广告商向搜索引擎运营商支付广告费,然后搜索引擎运营商在自己的搜索引擎中刊登该广告的简要信息及该广告的链接,而更多的非广告信息,例如新闻、学术信息是需要搜索引擎运营商自己去寻找并抓取加入搜索引擎的,面对互联网上的海量信息,如何将大量搜索引擎运营商关心的信息从其他的无用信息中区分出来,并分门别类的加入搜索引擎成为了搜索引擎运营商关心的问题。
爬虫技术的出现解决了这种问题,爬虫技术是一种成熟的网页抓取技术,它能够按照设定的条件将符合该条件的信息从互联网的海量信息中抓取出来,将其应用于搜索引擎可以有效地解决对各种有用信息的抓取问题。但是,爬虫在抓取信息时仍需遍历网页,这在网页数量较少的时候并不会出现什么问题,但是,在面对互联网上海量的网页时,遍历所有网页几乎是不可想象的,也是很难办到的,即使办到了,由于更新一次信息需要消耗大量的时间和资源,必将影响抓取信息的时效性,所以为了折中利与弊,现在往往只是利用爬虫在一定数量、一定范围的网页中抓取信息,而这些网页一般是事先通过统计得出的含有有用信息的概率和数量都较高的网页。比如,我们现在要搜索关于北京的租房信息,图1是一个有租房信息的搜索列表页(index页),上面是租房信息的列表、该房的简要信息以及该房信息页(item页)的链接(链接只要用鼠标点击该房在列表中的简要信息即可),根据链接我们可以找到如图2所示的记录该房具体信息的信息页,这样,我们可以将该搜索列表页记录入爬虫的搜索范围,使爬虫每隔一段时间在该搜索列表页上检索一次是否有新的信息页链接,如果有根据链接下载该信息页,抽取该信息页中我们关心的信息,这样既能保证爬虫抽取有用网页的效率又能缩短遍历一次所有网页的时间。
但是,以上的利用爬虫抓取网上信息的方法仍旧是一种基于理想状态下的信息抓取方式,在实际应用中并不能让爬虫的抓取效率达到最高,这是因为新信息的发布往往具有极强的时效性,发布也更多是集中在一个时间段内,在其他时间则相对比较平静,比如,每年火车票、飞机票和长途汽车票的发售高峰是寒暑假及黄金周,房屋租赁高峰是每年高等院校毕业生离校前后的一段日子等。如果我们用相同的频率去抓取以上发布高峰期的信息和发布低谷期的信息,显然不能达到信息抓取的最高效率,因为对发布高峰期来说信息抓取频率相对较低,影响了所抓取信息的时效性,对发布低谷期来说信息抓取频率相对又较高,降低了***效能,增加了无谓的资源消耗。直到目前,还没有一种方法能够有效解决此问题。
发明内容
针对现有技术存在的缺陷和不足,本发明提供一种自动优化爬虫的抓取方法,能够动态的根据对信息的抓取结果自动修正***以后再次检索该信息页的频率。
为了达到上述发明目的,本发明自动优化爬虫的抓取方法,其特征在于:包括以下步骤:
(1)从互联网上抓取的信息页中抽取信息,如果抽取成功,加快再次抓取该信息页的频率;否则减慢再次抓取该信息页的频率;
(2)在修改后的频率到时,重复步骤(1);
步骤(1)进一步包括:
(11)抓取检测模块按照频道分类,从互联网上抓取内容与各频道分类相对应的索引列表页,如果抓取失败,则降低再次抓取这个索引列表页的频率,进入步骤(15);如果抓取成功,进入步骤(12);
(12)抓取检测模块检测抓取成功的索引列表页同上次抓取时相比是否添加了新的信息,如果是,进入步骤(13);否则,降低再次抓取这个索引列表页的频率,进入步骤(15);
(13)抓取检测模块下载索引列表页所添加的新的信息所对应的信息页,如果下载成功,进入步骤(14);否则,降低再次抓取这个索引列表页的频率,进入步骤(15);
(14)抓取检测模块将所述下载成功的信息页发送给抽取模块,抽取模块每成功从该信息页中抽取一条信息,通知抓取检测模块加快一次以后抓取包含该信息的信息页所属的索引列表页的频率,然后抽取模块将该信息存入与该信息内容的频道分类对应的频道,进入步骤(2);
(15)抓取检测模块根据当前时间对修改后的再次抓取所述索引列表页的频率进行再修正。
本发明根据每次对信息的抓取结果自动修正***以后再次检索该信息页的频率,这样,在信息的发布高峰期通过本发明的方法可以不断提高再次抓取该信息页的频率;在信息的发布低谷期又可以不断降低再次抓取该信息页的频率,优化了***资源,提高了***效能,提高了信息抓取的效率。
附图说明
图1为索引列表页示意图;
图2为信息页示意图;
图3为本方法流程图。
具体实施方式
下面结合附图对本发明作进一步的详细说明:
酷讯的爬虫调度算法采用观测index页下载是否成功、大小是否变化、时候页面信息符号需求、是否有有效的信息链接、是有效的信息被抓取条数、以及抓取时间等几个因数来计算刷新频率。本方法主要是通过在计算机***中按照以下公式对信息抓取频率进行修正的。
freq ( n , ch , t ) = fCH ( ( α k down ( 1 - b down ) · k index ( 1 - b index ) θk item mβ ) n 1 Ω , ch ) · ftime ( t ) · freq ( n - 1 )
本公式中,freq(n,ch,t)表示当前为t时刻,爬虫的第n次对ch频道的抓取;fCH()是各个频道对各自特征对结果加以修正的函数,其中,kdown(1-bdown)表示index页下载失败后降低再次抓取这个索引列表页的频率数,kindex(1-bindex)表示item页下载失败后降低再次抓取这个信息页的频率数,θkitem 表示item页下载成功后提高再次抓取这个索引列表页的频率数,α为每个频道对再次抓取这个索引列表页的频率的基于统计和推理得出的专家修正值,n1/Ω表示每个频道根据该频道本身的特性对再次抓取该索引列表页的频率的修正,ch为该频道的频道号;ftime(t)是根据当前时间是白天还是晚上,节假日还是非节假日做的调整函数;freq(n-1)是上一次爬虫对该频道的抓取频率值。
如图3所示,本公式是通过以下步骤实现的:
(1)从互联网上抓取的信息页中抽取信息,如果抽取成功,加快再次抓取该信息页的频率;否则减慢再次抓取该信息页的频率;
(2)在修改后的频率到时,重复步骤(1)。
具体为,步骤(1)进一步包括:
(11)用于从互联网上抓取信息并根据抓取结果修正抓取频率的抓取检测模块,按照频道分类选择一个频道,从互联网上抓取内容与该频道分类相对应的索引列表页,如果抓取失败,则说明该索引列表页的链接下载不可靠,对该索引列表页过于频繁的抓取可能会造成更多的抓取失败,从而浪费***资源,所以抓取检测模块在上一次爬虫对该频道的抓取频率值上乘以一个kdown(1-bdown)系数以降低再次抓取这个索引列表页的频率,进而达到节省***资源的目的,然后进入步骤(15);如果抓取成功,进入步骤(12);
(12)抓取检测模块检测抓取成功的索引列表页同上次抓取时相比是否添加了新的信息,如果是,进入步骤(13);否则,说明该索引列表页的更新频率赶不上爬虫对该索引列表页的检索频率,抓取检测模块同样是在上一次爬虫对该频道的抓取频率值上乘以一个kdown(1-bdown)系数以降低再次抓取这个索引列表页的频率,使爬虫对该索引列表页的检索频率降到与该索引列表页自身的更新频率相匹配的程度,从而达到节省***资源的目的,进入步骤(15);
(13)抓取检测模块下载索引列表页所添加的新的信息所对应的信息页,如果下载成功,进入步骤(14);否则,如果抓取失败,说明该信息页的链接下载不可靠,对该信息页过于频繁的抓取可能会造成更多的抓取失败,从而浪费***资源,所以在上一次爬虫对该频道的抓取频率值上乘以一个kindex(1-bindex)系数以降低再次抓取链接该信息页的索引列表页的频率,以达到节省***资源的目的,进入步骤(15);
(14)抓取检测模块将所述下载成功的信息页发送给用于从信息页中抽取有用信息的抽取模块,抽取模块每成功从该信息页中抽取一条信息,说明该信息页的利用价值增大,通知抓取检测模块加快一次以后抓取包含该信息的信息页所属的索引列表页的频率,然后抽取模块将该信息存入与该信息内容的频道分类对应的频道,抓取检测模块在上一次爬虫对该频道的抓取频率值上除以一个θkitem 系数(其中m为成功从该信息页中抽取的信息条数),以降低再次抓取链接该信息页的索引列表页的频率,达到优化***资源,提高***效能,提高信息抓取效率的目的,然后进入步骤(2);
(15)抓取检测模块根据当前时间对修改后的再次抓取所述索引列表页的频率进行再修正。如果当前时间为晚上或节假日,可能由于网络原因或是处于休息时间的原因,链接质量或者索引列表页的更新频率会降低,但这并不能代表常态下(工作日的白天)该索引列表页的链接质量或者更新频率,所以抓取检测模块在上一次爬虫对该频道的抓取频率值上乘以一个ftime(t)系数,用来将再次抓取这个索引列表页的频率的降低幅度减缓,以使该频率值更接近实际情况。
为了使得到的频率值更贴近各频道的实际需要,在步骤(15)之后还可以包括:
(16)抓取检测模块再次对步骤(15)修正后的再次抓取这个索引列表页的频率进行修正,所述步骤(16)的修正包括根据频道分类特性进行的修正和根据各频道共性进行的专家修正。
根据频道分类特性进行的修正是根据各频道自身的特点,比如,有的频道活跃时间很集中(例如火车票购买高峰就集中在一年里的几天,该频道的点击高峰也就是那几天),针对这一特点,可以考虑用n1/Ω指数适当提高或降低得到的该频道的频率值以适应该频道特性。
根据各频道共性进行的专家修正是指实际得到的频率值与我们经过长期统计或其他方法得到的频率值可能有出入,为本发明得到的频率值乘以一个专家修正值α以取得折衷值。
本发明能适应大多数网站。包括信息发布频率变化大无规律的和信息发布有规律的,并且大多数情况能在1到2分钟内把刚刚发布的信息抓取回来。本发明优化了***资源,提高了***效能,提高了信息抓取的效率。

Claims (3)

1.一种自动优化爬虫的抓取方法,其特征在于:包括以下步骤:
(1)从互联网上抓取的信息页中抽取信息,如果抽取成功,加快再次抓取该信息页的频率;否则减慢再次抓取该信息页的频率;
(2)在修改后的频率到时,重复步骤(1);
步骤(1)进一步包括:
(11)抓取检测模块按照频道分类,从互联网上抓取内容与各频道分类相对应的索引列表页,如果抓取失败,则降低再次抓取这个索引列表页的频率,进入步骤(15);如果抓取成功,进入步骤(12);
(12)抓取检测模块检测抓取成功的索引列表页同上次抓取时相比是否添加了新的信息,如果是,进入步骤(13);否则,降低再次抓取这个索引列表页的频率,进入步骤(15);
(13)抓取检测模块下载索引列表页所添加的新的信息所对应的信息页,如果下载成功,进入步骤(14);否则,降低再次抓取这个索引列表页的频率,进入步骤(15);
(14)抓取检测模块将所述下载成功的信息页发送给抽取模块,抽取模块每成功从该信息页中抽取一条信息,通知抓取检测模块加快一次以后抓取包含该信息的信息页所属的索引列表页的频率,然后抽取模块将该信息存入与该信息内容的频道分类对应的频道,进入步骤(2);
(15)抓取检测模块根据当前时间对修改后的再次抓取所述索引列表页的频率进行再修正。
2.根据权利要求1所述的自动优化爬虫的抓取方法,其特征在于:步骤(15)具体为:如果当前时间为晚上或节假日,将再次抓取这个索引列表页的频率的降低幅度减缓。
3.根据权利要求2所述的自动优化爬虫的抓取方法,其特征在于:在步骤(15)之后还包括:
(16)抓取检测模块再次对步骤(15)修正后的再次抓取这个索引列表页的频率进行修正,所述步骤(16)的修正包括根据频道分类特性进行的修正和根据各频道共性进行的专家修正。
CN2006101458116A 2006-11-17 2006-11-17 自动优化爬虫的抓取方法 Expired - Fee Related CN101187925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006101458116A CN101187925B (zh) 2006-11-17 2006-11-17 自动优化爬虫的抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101458116A CN101187925B (zh) 2006-11-17 2006-11-17 自动优化爬虫的抓取方法

Publications (2)

Publication Number Publication Date
CN101187925A CN101187925A (zh) 2008-05-28
CN101187925B true CN101187925B (zh) 2010-11-03

Family

ID=39480322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101458116A Expired - Fee Related CN101187925B (zh) 2006-11-17 2006-11-17 自动优化爬虫的抓取方法

Country Status (1)

Country Link
CN (1) CN101187925B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902438B (zh) * 2009-05-25 2013-05-15 北京启明星辰信息技术股份有限公司 一种自动识别网页爬虫的方法和装置
US8782031B2 (en) * 2011-08-09 2014-07-15 Microsoft Corporation Optimizing web crawling with user history
CN103945278A (zh) * 2013-01-21 2014-07-23 中国科学院声学研究所 一种视频内容及内容源爬取方法
CN103617264B (zh) * 2013-12-02 2020-07-07 北京奇虎科技有限公司 时效性种子页的抓取方法及装置
CN106407219B (zh) * 2015-07-31 2019-12-10 北京国双科技有限公司 网页链接的爬取方法及装置
CN106445966A (zh) * 2015-08-11 2017-02-22 北京国双科技有限公司 一种数据获取方法和装置
CN105608134B (zh) * 2015-12-18 2019-06-14 盐城工学院 一种基于多线程的网络爬虫***及其网页爬取方法
CN106294789A (zh) * 2016-08-15 2017-01-04 广州招商壹零壹网络科技股份有限公司 一种基于物业信息的数据处理方法及装置
CN106528779A (zh) * 2016-11-03 2017-03-22 北京知道未来信息技术有限公司 一种基于可变url的爬虫识别方法
CN110874430B (zh) * 2018-08-09 2022-06-14 北大方正集团有限公司 网络爬虫调度方法、装置及设备
CN109413050B (zh) * 2018-10-05 2020-11-24 国网湖南省电力有限公司 一种访问速率自适应的互联网漏洞信息采集方法及***
CN112100472B (zh) * 2020-09-11 2023-11-28 深圳市科盾科技有限公司 爬虫调度方法、装置、终端设备和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564157A (zh) * 2004-03-23 2005-01-12 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
CN1601528A (zh) * 2003-09-25 2005-03-30 微软公司 用于基于客户机的web蠕动的***和方法
CN1770159A (zh) * 2005-10-28 2006-05-10 北大方正集团有限公司 一种网络内容引用自动发现的方法
CN1862530A (zh) * 2005-05-13 2006-11-15 赵然 网络搜索引擎

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1601528A (zh) * 2003-09-25 2005-03-30 微软公司 用于基于客户机的web蠕动的***和方法
CN1564157A (zh) * 2004-03-23 2005-01-12 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
CN1862530A (zh) * 2005-05-13 2006-11-15 赵然 网络搜索引擎
CN1770159A (zh) * 2005-10-28 2006-05-10 北大方正集团有限公司 一种网络内容引用自动发现的方法

Also Published As

Publication number Publication date
CN101187925A (zh) 2008-05-28

Similar Documents

Publication Publication Date Title
CN101187925B (zh) 自动优化爬虫的抓取方法
Theodori Public perception of the natural gas industry: data from the Barnett Shale
CN101231641B (zh) 一种自动分析互联网上热点主题传播过程的方法及***
CN109902225A (zh) 一种基于大数据的政策信息查询推送***及方法
CN103177036A (zh) 一种标签自动提取方法和***
CN109213908A (zh) 一种基于数据挖掘的学术会议论文推送***
Chapman et al. Towards zero carbon? Constrained policy action in two New Zealand cities
Basyuk Popularization of website and without anchor promotion
Li et al. Does government supervision suppress free-floating bike sharing development? Evidence from Mobike in China
CN103778160B (zh) 一种基于社交网络的交通信息服务方法
CN112214658A (zh) 基于网络爬虫的数据分析***
Koc The role and potential of marketing communications in the Turkish domestic tourism market
Yi et al. An environmentally related policy impact analysis considering wind effect: evidence from suspending old coal-fired generators in South Korea
Jamdar et al. Management and Optimization of Combined Utilization of Water Resources to Reduce the Hashtgerd Aquifer
Suroso et al. The Impact Of Digital Marketing On Rural Products: A Case Study In Sumbang, Indonesia
REZAEIAN et al. Modelling of a knowledge network in knowledge-based enterprises
Najafi et al. Investigation of economic and environmental impacts of optimization of sugar beet distribution network in Iran’s sugar supply chain
Yavari et al. Strategy of Knowledge Management in Establishment of Disciplinary Command and Control System
KR20190054230A (ko) 미디어 마케팅 서비스 제공 시스템
Salehi et al. Multi-objective planning in order to manage the quantitative and qualitative effects of optimal utilization of groundwater resources in Shahriar plain
Razavizadeh et al. Justification of conspicuous consumption: A study of consumption of commodities and services of body management among women in Mashhad
Shakiba et al. Studying the Social Construction of the Elite International Migration and Its Developmental Consequences Using Grounded Method
Eslami et al. Assessment and Sustainable Urban Landscape Design in 2th Region of Tehran Municipality, with Eco-City Approach
Babaakbari et al. Presenting the pattern of employing retirees in Iran's National Oil Company
Tubex et al. The profile of women in prison 2008

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101103