CN103279492A - 一种抓取网页的方法和装置 - Google Patents
一种抓取网页的方法和装置 Download PDFInfo
- Publication number
- CN103279492A CN103279492A CN2013101549416A CN201310154941A CN103279492A CN 103279492 A CN103279492 A CN 103279492A CN 2013101549416 A CN2013101549416 A CN 2013101549416A CN 201310154941 A CN201310154941 A CN 201310154941A CN 103279492 A CN103279492 A CN 103279492A
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- page
- weighted value
- url address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种抓取网页的方法和装置,包括如下步骤:(1)根据新链接的关键词和URL地址,计算所述新链接URL地址的关键词的权重值;(2)将关键词按照权重值生成关键词列表;(3)从关键词列表中提取关键词放置到指定页面里;(4)根据关键词抓取页面。本发明所提出的方案通过内链接的平衡性,提高了搜索引擎的网页抓取率。
Description
技术领域
本发明涉及互联网搜索引擎领域,特别涉及一种抓取网页的方法和装置。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体,为有效地提取并利用这些信息,搜索引擎(Search Engine)作为一个辅助人们检索信息的工具,成为用户访问万维网的入口和指南。
搜索引擎抓取网页是通过自己的网页抓取程序(spider)实现的。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍。理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓取网页的方法分为深度优先、宽度优先、权重优先。
深度优先:深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件) 。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。
宽度优先:宽度优先搜索算法(又称广度优先搜索)是最简便的图的搜索算法之一,这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想。其别名又叫BFS,属于一种盲目搜寻法,目的是***地展开并检查图中的所有节点,以找寻结果。换句话说,它并不考虑结果的可能位址,彻底地搜索整张图,直到找到结果为止。
权重优先:指的是结合深度优先和宽度优先两个步骤实现的抓取方式,通过优先实行广度优先抓取前几层,根据抓取URL地址数量结果,来决定后续优先抓取那些页面。是深度优先和宽度优先的结合体。权重优先是目前主流搜索引擎采用的算法。
合理的搜索引擎都是通过权重优先来实现抓取网页的。由于网站的设计是以用户为中心,导致没有更多的考虑搜索引擎抓取。导致真正重点内容和搜索引擎认为的重点内容有出入。
现有技术的一种解决方案为,借鉴通用搜索引擎的链接分析技术,对URL的重要性进行排序,优先抓取那些重要性高的页面。比如 Junghoo Cho在其论文(Junghoo 1998)中利用页面的PageRank(Sergey 1998)值排序URL,优先抓取PageRank值高的页面。但是这种方法仅仅计算待抓页面的重要性值,并没有考虑页面与特定关键词的相关性,因此用这种算法引导的聚焦爬虫很容易迷失方向,抓下的页面很少是与特定关键词相关的,如果统计聚焦爬虫抓取的所有网页中与关键词相关的页面所占的比重为抓取率,那么这种解决方案的抓取率是比较低的。
现有技术中的另一种解决方案为,基于Davison(Davison 2000)发现的互联网页面的主题相邻性(topical locality)现象,即用超链接连接起来的两个页面比随机的两个页面具有更大的相似性,来预测待抓取页面与特定关键词的相关性,即如果一张页面与特定关键词相关,那么它所连出去的页面与该关键词相关的可能性比较大,所以顺着与特定关键词相关的页面出去的链接更可能找到其他关键词相关的页面。然而,这种仅仅利用父页面与关键词的相关度来预测子页面与关键词的相关度,并以此作为指导的聚焦爬虫,不可避免地会错失许多与该关键词相关的页面,如果统计聚焦爬虫抓取的关键词相关页面与互联网上所有的关键词相关页面的比率为抓取率,那么这种解决方案的抓取率是比较低的。
发明内容
针对现有技术存在的不足,本发明提供了一种在权重优先的状态下,按照关键词和链接地址的重要性分配内部链接地址,通过分配内部链接地址,提升新产生的页面优先被搜索引擎抓取的效率的方法和装置。
本发明提出的一个技术方案为一种抓取网页的方法,包括如下步骤:
(1)根据新链接的关键词和URL地址,计算所述新链接URL地址的关键词的权重值;
(2)将关键词按照权重值生成关键词列表;
(3)从关键词列表中提取关键词放置到指定页面里;
(4)根据关键词抓取页面。
本发明提出的另一个技术方案为一种抓取网页的装置,包括:
权重计算模块,用于根据得到的全部新链接的关键词和URL地址,计算所述新链接URL地址的关键词的权重值;
关键词列表生成模块,用于将关键词按照权重值生成关键词列表;
关键词提取模块,从关键词列表中提取关键词放置到指定页面里;
页面抓取模块,用于根据关键词抓取页面。
本发明的有益效果在于通过内链接的平衡性,提高了搜索引擎的网页抓取率:
1.利用超链接的指向,人为指定重点内容,增加了新页面的抓取效率,提高搜索引擎识别重点页面效率。
2.为新页面按照权重值分配链接数,以达到提升搜索引擎抓取率。
附图说明
图1是本发明提出的抓取网页的方法的流程图;
图2是建立页面ID与URL地址的对应表;
图3是提取关键词放置到指定页面的示意图;
图4是本发明提出的抓取网页的装置的结构图;
图5是本发明的技术方案实施前的链接模式示意图;
图6是本发明的技术方案实施后的链接模式示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的说明。
本发明提供了一种在权重优先的状态下,按照关键词和链接地址的重要性分配内部链接地址,通过分配内部链接地址,提升新产生的页面优先被搜索引擎抓取的效率。包括以下两步:
1.在页面中开辟板块,板块中设立N个链接位置。则总链接=页面数*单页链接数。
2.为“新页面”按照“权重值”分配链接数,以达到提升搜索引擎抓取率。
如图1所示,一种抓取网页的方法,具体包括:
步骤101,在页面中开辟链接板块。
步骤102,在所述链接板块中预留N个链接位置,其中N为自然数。
步骤103,根据新链接的关键词和URL地址,计算所述新链接URL地址的关键词的权重值。其中,计算所述权重值的公式如下:
其中,表示关键词指数,例如在index.***.com中检索关键词得到的一段时期内的日平均检索量值,例如最近20天、30天或60天内的日平均检索量值; 表示关键词竞争度,例如在百度里面检索关键词得到的百度收录数; 表示以自然数e为底的关键词竞争度的对数取整;
rank表示检索关键词所对应的网站排名,例如1≤rank≤50。
步骤104,为所有页面建立ID与URL地址的对应表,如图2所示,此对应表的目的是为了将展示的“关键词”和“展示页面”关联起来,所述ID为页面的序列号。
步骤105,将关键词按照权重值生成关键词列表。
步骤106,从关键词列表中提取关键词放置到指定页面里;例如,按照URL地址列表中的关键承载数量M,取M个关键词放置到指定页面里,M为自然数,从而达到内链接指向实际是按照权重高低来分配的效果,具体步骤如下:
a) 首先通过内部建立所有要推送的关键词和URL地址列表;
b) 通过所述计算权重值公式得到关键词对应的权重值;
c) 如图3所示,将所有关键词按照权重值倍数生成一个列表,称为关键词总列表,并将所有关键词随机打撒重新排列,再将所有关键词混杂;例如A关键词权重值=5,则在关键词总列表里A关键词出现五次,再将所有关键词混杂。
d) 在所述ID与URL地址的对应表中按顺序从所述关键词总列表中按ID顺序抽取M个关键词展示到页面中,如果超出所述关键词总列表则进行循环处理。
步骤107,根据关键词抓取页面。
优选地,上述基于权重优先的搜索引擎抓取网页的方法中还包括步骤:按照权重值定期更新所述关键词列表。例如,每月整体更新1次或多次。
如图4所示,一种抓取网页的装置,包括:
链接板块开辟模块201,用于在页面中开辟链接板块;
预留链接位置模块202,用于在所述链接板块中预留N个链接位置,其中N为自然数;
权重计算模块203,用于根据得到的全部新链接的关键词和URL地址,计算所述新链接URL地址的关键词的权重值;其中,计算所述权重值的公式如下:
其中,表示关键词指数,例如在index.***.com中检索关键词得到的一段时期内的日平均检索量值,例如最近20天、30天或60天内的日平均检索量值; 表示关键词竞争度,例如在百度里面检索关键词得到的“百度收录数”; 表示以自然数e为底的关键词竞争度的对数取整;
rank表示检索关键词所对应的网站排名,例如1≤rank≤50。
对应表建立模块204,用于为所有页面建立ID与URL地址的对应表,如图2所示,此对应表的目的是为了将展示的“关键词”和“展示页面”关联起来,所述ID为页面的序列号;
关键词列表生成模块205,用于将关键词按照权重值生成关键词列表;
关键词提取模块206,用于从关键词列表中提取关键词放置到指定页面里;例如,按照URL地址列表中的关键承载数量M,取M个关键词放置到指定页面里,其中M为自然数,从而达到内链接指向实际是按照权重高低来分配的效果,具体操作步骤如下:
a) 首先通过内部建立所有要推送的关键词和URL地址列表;
b) 通过所述计算权重值公式得到关键词对应的权重值;
c) 如图3所示,将所有关键词按照权重值倍数生成一个列表,称为关键词总列表,并将所有关键词随机打撒重新排列,再将所有关键词混杂;例如A关键词权重值=5,则在关键词总列表里A关键词出现五次,再将所有关键词混杂。
d) 在所述ID与URL地址的对应表中按顺序从所述关键词总列表中按ID顺序抽取M个关键词展示到页面中,如果超出所述关键词总列表则进行循环处理。
页面抓取模块207,用于根据关键词抓取页面。
优选地,上述装置还包括关键词列表更新模块208,用于按照权重值定期更新关键词总列表。例如,每月整体更新1次或多次。
本发明的技术方案通过内链接的平衡性,提高了搜索引擎的网页抓取率。利用超链接的指向,人为指定重点内容,提高搜索引擎识别重点页面效率,增加新页面的抓取效率。本发明的技术方案实施前的链接模式如图5所示,本发明的技术方案实施后链接模式如图6所示。
从图5和图6的对比可以看出,(请客户针对图5和图6的内容进行对应的文字描述)本发明按照关键词和链接地址的重要性分配内部链接地址,通过分配内部链接地址,明显提升了新产生的页面优先被搜索引擎抓取的效率。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解,依然可对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换而不脱离本发明技术方案的精神,其均应当涵盖本发明请求保护的技术方案范围当中。
Claims (10)
1.一种抓取网页的方法,其特征在于,包括如下步骤:
(1)根据新链接的关键词和URL地址,计算所述新链接URL地址的关键词的权重值;
(2)将关键词按照权重值生成关键词列表;
(3)从关键词列表中提取关键词放置到指定页面里;
(4)根据关键词抓取页面。
2.如权利要求1所述的方法,其中所述步骤(1)中计算所述权重值的公式如下:
其中,表示关键词指数;表示关键词竞争度,表示以自然数e为底的关键词竞争度的对数取整;rank表示检索关键词所对应的网站排名。
3.如权利要求1所述的方法,还包括步骤:为所有页面建立唯一ID与URL地址的对应表,所述ID为页面的序列号。
4.如权利要求3所述的方法,其中所述步骤(3)为取M个关键词放置到指定页面里,M为URL地址列表中的关键承载数量,具体包括:
a) 首先通过内部建立所有要推送的关键词和URL地址列表;
b) 通过所述计算权重值公式得到关键词对应的权重值;
c) 将所有关键词按照权重值倍数生成一个列表,称为关键词总列表,并将所有关键词随机打撒重新排列,再将所有关键词混杂;
d) 在所述ID与URL地址的对应表中按顺序从所述关键词总列表中按ID顺序抽取M个关键词展示到页面中。
5.如权利要求4所述的方法,其中所述步骤 d)中,如果超出所述关键词总列表则进行循环处理。
6.如权利要求2所述的方法,其中所述的关键词指数为在index.***.com中检索关键词得到的一段时期内的日平均检索量值。
7.如权利要求2所述的方法,其中所述的关键词竞争度为在指定搜索网站中检索关键词得到的收录数。
8.如权利要求4所述的方法,其中还包括步骤:按照权重值定期更新所述关键词列表。
9.一种抓取网页的装置,包括:
权重计算模块,用于根据得到的全部新链接的关键词和URL地址,计算所述新链接URL地址的关键词的权重值;
关键词列表生成模块,用于将关键词按照权重值生成关键词列表;
关键词提取模块,从关键词列表中提取关键词放置到指定页面里;
页面抓取模块,用于根据关键词抓取页面。
10.如权利要求9所述的装置,其中所述权重计算模块计算所述权重值的公式如下:
其中,表示关键词指数;表示关键词竞争度,表示以自然数e为底的关键词竞争度的对数取整;rank表示检索关键词所对应的网站排名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310154941.6A CN103279492B (zh) | 2013-04-28 | 2013-04-28 | 一种抓取网页的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310154941.6A CN103279492B (zh) | 2013-04-28 | 2013-04-28 | 一种抓取网页的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103279492A true CN103279492A (zh) | 2013-09-04 |
CN103279492B CN103279492B (zh) | 2016-12-28 |
Family
ID=49062012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310154941.6A Expired - Fee Related CN103279492B (zh) | 2013-04-28 | 2013-04-28 | 一种抓取网页的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279492B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955465A (zh) * | 2014-03-28 | 2014-07-30 | 百度在线网络技术(北京)有限公司 | 一种用于生成推荐页面的方法和装置 |
WO2015103997A1 (zh) * | 2014-01-09 | 2015-07-16 | 北京京东尚科信息技术有限公司 | 一种基于关键词检索的网络爬虫调度方法及*** |
CN106156230A (zh) * | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种生成内链的方法及装置 |
CN108345615A (zh) * | 2017-01-23 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种页面链接的投放和投放调整方法及*** |
CN112100500A (zh) * | 2020-09-23 | 2020-12-18 | 高小翎 | 范例学习驱动的内容关联网站发掘方法 |
CN116186368A (zh) * | 2023-03-17 | 2023-05-30 | 广东朝恒科技有限公司 | 一种数据爬取方法以及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫***的设计方法 |
WO2011052116A1 (ja) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | ウェブクローリング初期点選択システム、方法及びプログラム |
CN102915380A (zh) * | 2012-11-19 | 2013-02-06 | 北京奇虎科技有限公司 | 用于对数据进行搜索的方法和*** |
-
2013
- 2013-04-28 CN CN201310154941.6A patent/CN103279492B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫***的设计方法 |
WO2011052116A1 (ja) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | ウェブクローリング初期点選択システム、方法及びプログラム |
CN102915380A (zh) * | 2012-11-19 | 2013-02-06 | 北京奇虎科技有限公司 | 用于对数据进行搜索的方法和*** |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015103997A1 (zh) * | 2014-01-09 | 2015-07-16 | 北京京东尚科信息技术有限公司 | 一种基于关键词检索的网络爬虫调度方法及*** |
US10185771B2 (en) | 2014-01-09 | 2019-01-22 | Beijing Jingdong Shangke Information Technology Co., Ltd. | Method and system for scheduling web crawlers according to keyword search |
CN103955465A (zh) * | 2014-03-28 | 2014-07-30 | 百度在线网络技术(北京)有限公司 | 一种用于生成推荐页面的方法和装置 |
US10140368B2 (en) | 2014-03-28 | 2018-11-27 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating a recommendation page |
CN106156230A (zh) * | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种生成内链的方法及装置 |
CN106156230B (zh) * | 2015-04-24 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 一种生成内链的方法及装置 |
CN108345615A (zh) * | 2017-01-23 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种页面链接的投放和投放调整方法及*** |
CN112100500A (zh) * | 2020-09-23 | 2020-12-18 | 高小翎 | 范例学习驱动的内容关联网站发掘方法 |
CN116186368A (zh) * | 2023-03-17 | 2023-05-30 | 广东朝恒科技有限公司 | 一种数据爬取方法以及*** |
CN116186368B (zh) * | 2023-03-17 | 2023-11-14 | 广东朝恒科技有限公司 | 一种数据爬取方法以及*** |
Also Published As
Publication number | Publication date |
---|---|
CN103279492B (zh) | 2016-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2321745B1 (en) | Providing posts to discussion threads in response to a search query | |
Pal et al. | Effective focused crawling based on content and link structure analysis | |
CN103279492A (zh) | 一种抓取网页的方法和装置 | |
US20060190446A1 (en) | Web search system and method thereof | |
Agre et al. | Keyword focused web crawler | |
Bhatia | Link analysis algorithms for web mining | |
CN103745006B (zh) | 一种互联网信息搜索***及方法 | |
Pavani et al. | A novel web crawling method for vertical search engines | |
Hati et al. | An approach for identifying URLs based on division score and link score in focused crawler | |
Kumar et al. | Framework for distributed semantic web crawler | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
Qian et al. | A topic-specific web crawler based on content and structure mining | |
Nithya | Link Analysis Algorithm for Web Structure Mining | |
Nagappan et al. | Agent based weighted page ranking algorithm for Web content information retrieval | |
WO2017113324A1 (zh) | 基于正则表达式的url过滤方法 | |
JP2018151789A (ja) | 情報処理装置、情報処理方法、プログラム、および広告情報処理システム | |
Kumar et al. | Focused crawling based upon tf-idf semantics and hub score learning | |
kumar Sharma et al. | SAFSB: A self-adaptive focused crawler | |
Xu et al. | Method of deep web collection for mobile application store based on category keyword searching | |
Zhang et al. | Design and Implementation of a Web Crawler System based on an Adaptive Page-Rank algorithm | |
Jain et al. | A study of focused web crawlers for semantic web | |
Zubi | Ranking webpages using web structure mining concepts | |
Thwe | Web page access prediction based on integrated approach | |
US8495483B1 (en) | Using text surrounding hypertext links when indexing and generating page summaries | |
Kaur et al. | A Survey-Link Algorithm for Web Mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161228 Termination date: 20180428 |