CN102073730B - 一种主题网络爬虫***的构建方法 - Google Patents
一种主题网络爬虫***的构建方法 Download PDFInfo
- Publication number
- CN102073730B CN102073730B CN201110007710A CN201110007710A CN102073730B CN 102073730 B CN102073730 B CN 102073730B CN 201110007710 A CN201110007710 A CN 201110007710A CN 201110007710 A CN201110007710 A CN 201110007710A CN 102073730 B CN102073730 B CN 102073730B
- Authority
- CN
- China
- Prior art keywords
- correlation
- url
- degree
- theme
- urls
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的是一种主题网络爬虫***的构建方法。(1)定义主题初始描述向量,设定相关度初始阀值、初始化URL队列;(2)从初始URL队列中依次获取URL进行爬取;(3)对URL进行文本分析;(4)对URL进行链接分析;(5)计算URL与主题的相关度;(6)将相关度大于相关度阈值的URL加入有序的URL队列,URL依照与主题向量的相关度高低排序,依次爬取,直至队列为空,对于每个爬到的网页,提取其中的子URL,返回到步骤(3);(7)使用遗传算法进行遗传算法最优化;(8)Rocchio反馈模块对主题向量更新,并动态调整相关度阈值,继续爬取网页。本发明不需要事先准备大量的训练文本,速度快,适合处理海量的在线网页数据。
Description
技术领域
本发明涉及的是一种网络数据采集***中爬虫部分的构建方法,主要涉及主题网络爬虫***的构建方法。
背景技术
随着信息时代的来临和网络的迅速发展,网络上的信息量呈几何级数增长。面对网络上海量的信息,用户通常利用搜索引擎来定位自己需要的网络数据。目前主流的搜索引擎基本都是综合性搜索引擎。因为综合搜索引擎的爬虫并不针对特定内容进行专门爬取,所以用户使用综合搜索引擎检索出来的结果往往有很多与需求不相关或者相关度很小,用户需要浏览很多网页的内容才能获取到有用的信息。网络爬虫作为搜索引擎的一个核心部分,它的搜索技术很大程度上影响了搜索引擎的性能。普通爬虫会从URL集开始爬取,遇到网页就保存下来,然后再从网页中获取新的URL进行爬取,在网络上不断的获取到新的网页。因为普通爬虫在爬取的过程中相对缺乏标准,往往容易导致数据量过大、数据冗余的问题,造成搜索引擎给用户返回的最终结果与用户需求相关度偏低的问题。与普通的网络爬虫不同,主题爬虫可以根据已经设定的主题来爬取网页,为爬虫在爬行的过程提供一个标准,符合标准的网页就爬取,不符合的就不爬取。因为主题爬虫能够根据用户设定主题爬取,所以它能够为搜索引擎提供与用户需求的主题相关度更高的数据。按照本专利的方法,用户只需要使用自然语言来描述自己的主题,主题爬虫就可以通过自己的分析理解用户的需求,然后在网络上爬取与用户需求相关的网页作为搜索引擎的网页库。因为网页库中的网页与用户的需求更接近,所以最终给用户返回的网页内容也会与用户的需求更加接近。主题爬虫可以解决综合搜索引擎带来的返回结果与用户需求相关度低的问题,能够根据用户设定的主题获取到与用户需求相关度更高的网页。
发明内容
本发明的目的是提出一种新颖、高效、准确的主题网络爬虫***的构建方法。
本发明的目的是这样实现的:
(1)定义主题初始描述向量,设定相关度初始阀值,设定初始化URL队列;
(2)爬虫从初始URL队列中依次获取URL进行爬取;
(3)对URL进行文本分析;
(4)对URL进行链接分析;
(5)结合文本分析与链接分析的结果计算URL与主题的相关度;
(6)将相关度大于相关度阈值的URL加入有序的URL队列,URL依照与主题向量的相关度高低排序,相关度高的排在前面,相关度低的排在后面,主题爬虫先爬取队列中相关度高的网页,然后爬取相关度低的网页,依次爬取,直至队列为空,对于每个爬到的网页,提取其中的子URL,返回到步骤(3);
(7)使用遗传算法对队列中相关度最高的前N篇进行遗传算法最优化,选出最优特征;
(8)将遗传算法返回的最优特征送入Rocchio反馈模块对主题向量更新,并动态调整相关度阈值,继续爬取网页。
在上述的步骤(7)和(8)中,运用遗传算法和Rocchio算法对用户主题模板进行自适应更新,它们的步骤包括:
1)按照编码策略对伪相关反馈文档进行浮点数编码;
2)定义适应度函数Fitness;
3)确定交叉概率Pc和变异概率Pm等遗传参数;
4)初始化生成群体P;
5)计算群体中每个个体适应度值Fitness,并得到群体适应度均值AVG;
6)按照遗传策略,运用选择、扩展、交叉和变异算子作用于群体,形成下一代群体;
7)判断新一代群体适应度均值newAVG是否小于AVG,或者已完成预定迭代次数,不满足则返回6),或者修改遗传策略再返回6),若满足条件则结束;
8)将适应度函数值最好的结果指定为遗传算法的结果,作为送入Rocchio反馈模块的正例质心。
目前主题爬虫中主题描述是静态的,不能充分反映主题内容的动态变化。因为主题描述是不变化的,所以爬虫获取到的网页只是局部最优的数据。本发明采用遗传基因算法和Rocchio算法更新主题向量,使主题向量为全局最优解。同时,针对网页中的链接多以链接块的形式存在,本发明采用链接块代替块内单个链接来解决锚文本文字量少、表达信息不完全的问题。采用向量空间模型结合夹角余弦的计算方法来计算锚文本与主题向量的相似度,并考虑子链接与父网页的链接关系。因为主题向量已经实时更新,为全局最优解,再结合网络中数据的链接块的特性,网络爬虫能够在爬取网页前充分分析该网页内容与主题的相关度,从而爬取相关度高的网页。
本发明的有益效果主要体现在:本发明的方法摆脱了传统主题爬虫的相关度计算方法中容易陷入局部最优解的问题,由于主题的动态调整,使整个算法能够取得全局最优解。所以,与传统的主题爬虫URL相关性分析方法相比,本发明可以爬取更多符合主题的URL。而且,由于动态调整主题描述,因此不需要事先准备大量的训练文本,速度快,适合处理海量的在线网页数据。
附图说明
图1是***的组成结构图;
图2是***的工作流程图。
具体实施方式
下面结合附图举例对本发明作更详细的描述:
如图1所示,本发明方法所构建的网络爬虫主要包括构造初始化向量、动态调整主题向量模块和通过链接块和父子继承关系计算相关度模块组成。其中动态调整主题向量模块包括使用遗传算法选出新特征和运用反馈更新主题向量子模块。
本发明的工作流程如图2所示,下面介绍它的具体实施方式:
步骤(1):针对所要爬取的主题,定义基于关键词的主题初始描述向量,所有分量权重设为1;设定相关度阈值,设定初始URL队列。
步骤(2):爬虫从初始URL队列中获取URL进行爬取,依次获取URL。
步骤(3):对选取的URL进行文本分析。针对URL锚文本信息量少而网页正文周围链接多以成块形式出现的特点,用该URL所在的链接块中的所有URL对应的锚文本组成扩充锚文本向量,计算出该向量与主题向量的相关度anchor_score,以此相关度作为该链接块中所有链接与主题的相关度。
扩充锚文本向量中分量的权重采用TFIDF公式计算:
其中词语频率(Term Frequency,TF)为该词语在此文档中出现的频率;词语倒排文档频率(Inverse Document Frequency,IDF)为该词语在文档集合中分布情况的量化,常用的计算方法是log(N/nk+0.01),其中N为文档集合中的文档数目,nk为出现过该词语的文档数目;分母为归一化因子(Normalization Factor),用于对各分量进行标准化。
由于扩充锚文本由向量空间模型表示,因此扩充锚文本向量与主题描述向量采用向量空间夹角公式进行相似度计算:
步骤(4):对选取的URL进行链接分析。根据该URL的父URL的相关度计算出该URL的继承相关度inherited_score(child_node):
if(current_node相关)
inherited_score(child_node)=a*sim_score://a是预先定义的衰减因子
else
inherited_score(child_node)=a*inherited_score(current_node);
步骤(5):计算该URL与主题向量的相关度:
sim=c*inherited_score(child_node)+(1-c)*anchor_score//c是预先定义的常数。
步骤(6):将相关度大于相关度阈值的URL加入有序的URL队列,URL队列按照相关度从高到低排序。主题爬虫按URL相关度由高到低的顺序爬取URL队列中的URL。对于每个爬到的网页,提取其中的子URL,返回给(3)。
步骤(7):把爬取过的相关度高的网页作为伪相关反馈,使用遗传算法模块选择最优特征。
其中,步骤(7)包括如下几个小步骤:
1.编码:权重用浮点数进行编码。用户模板关键词向量:C=<c1(w1),c2(w2),...cn(wn)>,按关键词平均权重降序来构造向量,这样权重高的关键词大部分置于向量前部,在交叉操作中不易被破坏,有利于算法快速收敛。
2.选择:***采用轮盘法来选择。
3.交叉:本文采用单点交叉,由***随机在关键词权重向量中选取一个交叉点,该点之后的数据全部交换。
4.变异:首先采用随机算法来选择要发生变异的个体,以及个体中的位置,然后在[0,1]区间随机生成一个数来替换个体中发生变异的位置。
5.适应度函数设定:采用主题向量与多个与主题相关度大于阈值的扩充锚文本向量的相关度的平均值作为适应度函数:
在适应度函数中,P为用户模板,Di为伪相关反馈中的第i篇文档,n为伪相关反馈的文档数。两个文本P和D之间的内容相关程度的度量被称为相似度Sim(P,D)。对于文本P(Wi1,Wi2...Win)和文本D(Wj1,Wj2...Wjn),可以借助向量之间的某种距离来表示它们之间的相似度,常用向量之间的内积来计算sim(P,D),它等于:
6.将适应度函数值最好的结果指定为遗传算法的结果,作为送入Rocchio反馈模块的正例质心,并送入Rocchio反馈模块。
步骤(8):Rocchio反馈模块将遗传算法选取的最优特征返回给主题向量,并对其进行更新,同时更新相关阀值。
Claims (1)
1.一种主题网络爬虫***的构建方法,其特征是:
(1)定义主题初始描述向量,设定相关度初始阀值,设定初始化URL队列;
(2)爬虫从初始URL队列中依次获取URL进行爬取;
(3)对URL进行文本分析;
(4)对URL进行链接分析;
(5)结合文本分析与链接分析的结果计算URL与主题的相关度;
(6)将相关度大于相关度阈值的URL加入有序的URL队列,URL依照与主题向量的相关度高低排序,相关度高的排在前面,相关度低的排在后面,主题爬虫先爬取队列中相关度高的网页,然后爬取相关度低的网页,依次爬取,直至队列为空,对于每个爬到的网页,提取其中的子URL,返回到步骤(3);
(7)使用遗传算法对队列中相关度最高的前N篇进行遗传算法最优化,选出最优特征;
(8)将遗传算法返回的最优特征送入Rocchio反馈模块对主题向量更新,并动态调整相关度阈值,继续爬取网页;
运用遗传算法和Rocchio算法对用户主题模板进行自适应更新的方法为:
1)按照编码策略对伪相关反馈文档进行浮点数编码;
2)定义适应度函数Fitness;
3)确定交叉概率Pc和变异概率Pm遗传参数;
4)初始化生成群体P;
5)计算群体中每个个体适应度值Fitness,并得到群体适应度均值AVG;
6)按照遗传策略,运用选择、扩展、交叉和变异算子作用于群体,形成下一代群体;
7)判断新一代群体适应度均值newAVG是否小于AVG,或者已完成预定迭代次数,不满足则返回6),或者修改遗传策略再返回6),若满足条件则结束;
8)将适应度函数值最好的结果指定为遗传算法的结果,作为送入Rocchio反馈模块的正例质心。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110007710A CN102073730B (zh) | 2011-01-14 | 2011-01-14 | 一种主题网络爬虫***的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110007710A CN102073730B (zh) | 2011-01-14 | 2011-01-14 | 一种主题网络爬虫***的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102073730A CN102073730A (zh) | 2011-05-25 |
CN102073730B true CN102073730B (zh) | 2012-09-26 |
Family
ID=44032269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110007710A Expired - Fee Related CN102073730B (zh) | 2011-01-14 | 2011-01-14 | 一种主题网络爬虫***的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102073730B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710672A (zh) * | 2018-05-17 | 2018-10-26 | 南京大学 | 一种基于增量贝叶斯算法的主题爬虫方法 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102291469B (zh) * | 2011-09-23 | 2013-11-20 | 王楠 | 个性化定向采集云服务*** |
CN102982184A (zh) * | 2012-12-26 | 2013-03-20 | 福建师范大学 | 用于抓取网络商城中网页的爬虫算法 |
CN103186676B (zh) * | 2013-04-08 | 2016-03-02 | 湖南农业大学 | 一种主题知识自增长型聚焦网络爬虫搜索方法 |
CN104182412B (zh) * | 2013-05-24 | 2017-08-04 | ***通信集团安徽有限公司 | 一种网页爬取方法及*** |
CN104142985B (zh) * | 2014-07-23 | 2018-02-06 | 哈尔滨工业大学(威海) | 一种半自动化的垂直爬虫生成工具及方法 |
CN104182482B (zh) * | 2014-08-06 | 2018-05-22 | 中国科学院计算技术研究所 | 一种新闻列表页判断方法及筛选新闻列表页的方法 |
CN105589892B (zh) * | 2014-11-12 | 2019-01-18 | ***股份有限公司 | 基于锚文本回溯链的网页主题分析方法 |
CN107370718B (zh) * | 2016-05-12 | 2020-12-18 | 深信服科技股份有限公司 | 网页中黑链的检测方法和装置 |
CN106250512B (zh) * | 2016-08-04 | 2019-07-26 | 国家基础地理信息中心 | 一种顾及时间意图的主题网络信息采集方法 |
CN106980651B (zh) * | 2017-03-02 | 2020-05-12 | 中电海康集团有限公司 | 一种基于知识图谱的爬取种子列表更新方法及装置 |
CN107943838B (zh) * | 2017-10-30 | 2021-09-07 | 北京大数元科技发展有限公司 | 一种自动获取xpath生成爬虫脚本的方法及*** |
CN108153817B (zh) * | 2017-11-29 | 2021-08-10 | 成都东方盛行电子有限责任公司 | 一种智能网页数据采集方法 |
CN108959413B (zh) * | 2018-06-07 | 2020-09-11 | 吉林大学 | 一种主题网页爬取方法及主题爬虫*** |
CN109614534B (zh) * | 2018-11-29 | 2021-08-17 | 武汉大学 | 一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法 |
CN109766486B (zh) * | 2018-12-06 | 2023-03-31 | 重庆邮电大学 | 一种基于变异思想改进粒子群算法的主题爬虫***及方法 |
CN109739848B (zh) * | 2018-12-28 | 2021-11-09 | 深圳市科联汇通科技有限公司 | 一种数据提取方法 |
CN109815388A (zh) * | 2019-01-25 | 2019-05-28 | 东华大学 | 一种基于遗传算法的智能聚焦爬虫*** |
CN111143649A (zh) * | 2019-12-09 | 2020-05-12 | 杭州迪普科技股份有限公司 | 一种网页搜索方法及装置 |
CN111813905B (zh) * | 2020-06-17 | 2024-05-10 | 平安科技(深圳)有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
CN112035723A (zh) * | 2020-08-28 | 2020-12-04 | 光大科技有限公司 | 资源库的确定方法和装置、存储介质及电子装置 |
CN112836111B (zh) * | 2021-02-09 | 2022-05-31 | 沈阳麟龙科技股份有限公司 | 一种爬虫***的url爬取方法、装置、介质及电子设备 |
CN113449168B (zh) * | 2021-07-14 | 2024-02-20 | 北京锐安科技有限公司 | 主题网页数据抓取方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5838964A (en) * | 1995-06-26 | 1998-11-17 | Gubser; David R. | Dynamic numeric compression methods |
US6006232A (en) * | 1997-10-21 | 1999-12-21 | At&T Corp. | System and method for multirecord compression in a relational database |
CN100401301C (zh) * | 2006-05-30 | 2008-07-09 | 南京大学 | 基于本体学习的智能主题式网络爬虫***构建方法 |
CN101605141A (zh) * | 2008-08-05 | 2009-12-16 | 天津大学 | 基于语义的Web服务关系网络*** |
-
2011
- 2011-01-14 CN CN201110007710A patent/CN102073730B/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710672A (zh) * | 2018-05-17 | 2018-10-26 | 南京大学 | 一种基于增量贝叶斯算法的主题爬虫方法 |
CN108710672B (zh) * | 2018-05-17 | 2020-04-14 | 南京大学 | 一种基于增量贝叶斯算法的主题爬虫方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102073730A (zh) | 2011-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102073730B (zh) | 一种主题网络爬虫***的构建方法 | |
Talton et al. | Learning design patterns with bayesian grammar induction | |
CN104598611B (zh) | 对搜索条目进行排序的方法及*** | |
CN106202294B (zh) | 基于关键词和主题模型融合的相关新闻计算方法及装置 | |
CN104574192A (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
US8473486B2 (en) | Training parsers to approximately optimize NDCG | |
CN103235812B (zh) | 查询多意图识别方法和*** | |
CN105045875A (zh) | 个性化信息检索方法及装置 | |
CN109597995A (zh) | 一种基于bm25加权结合词向量的文本表示方法 | |
CN104516961A (zh) | 一种基于地域的话题挖掘及话题走势分析方法及*** | |
CN102646095A (zh) | 一种基于网页分类信息的对象分类方法和*** | |
CN108959580A (zh) | 一种标签数据的优化方法及*** | |
CN112084307A (zh) | 一种数据处理方法、装置、服务器及计算机可读存储介质 | |
Yanagimoto et al. | Document similarity estimation for sentiment analysis using neural network | |
CN101894129A (zh) | 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法 | |
CN103095849A (zh) | 基于QoS属性预测和纠错的有监督Web服务发现方法及*** | |
CN105095271A (zh) | 微博检索方法和微博检索装置 | |
CN109299007A (zh) | 一种缺陷修复者自动推荐方法 | |
CN102622378A (zh) | 从文本流检测事件的方法和设备 | |
Deng et al. | Regavae: A retrieval-augmented gaussian mixture variational auto-encoder for language modeling | |
US11971885B2 (en) | Retrieval aware embedding | |
CN114565436A (zh) | 基于时序建模的车型推荐***、方法、设备及存储介质 | |
CN113705217A (zh) | 一种面向电力领域知识学习的文献推荐方法及装置 | |
Choudhary et al. | An ensemble approach to enhance performance of webpage classification | |
CN101751409A (zh) | 免疫***在搜索引擎中的应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120926 Termination date: 20180114 |
|
CF01 | Termination of patent right due to non-payment of annual fee |