CN101299219A - 多线程断点续传可定制内部网爬虫*** - Google Patents

多线程断点续传可定制内部网爬虫*** Download PDF

Info

Publication number
CN101299219A
CN101299219A CNA2008101264567A CN200810126456A CN101299219A CN 101299219 A CN101299219 A CN 101299219A CN A2008101264567 A CNA2008101264567 A CN A2008101264567A CN 200810126456 A CN200810126456 A CN 200810126456A CN 101299219 A CN101299219 A CN 101299219A
Authority
CN
China
Prior art keywords
hyperlink
data
multithreading
extraction apparatus
reptile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101264567A
Other languages
English (en)
Inventor
杨溥
郭军
徐蔚然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CNA2008101264567A priority Critical patent/CN101299219A/zh
Publication of CN101299219A publication Critical patent/CN101299219A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多线程断点续传可定制内部网爬虫***,包括以下部件:多线程产生器,断点续传器,超链接分析提取器,内部网分析器,超链接存储库,数据类型评判器,数据下载器,数据存储库,异常处理器,以及超链接提供器。通过应用本发明所描述的***,可以有效地解决爬虫***无法采集内部网数据的问题;可以为搭建特色搜索引擎所需的重要技术——爬虫***的数据类型针对性提供通用的框架;可以避免爬虫的重复性爬取;显著提高爬虫***应对突发事件的能力,进一步提高爬抓效率和爬抓速度,有效地降低***开发成本。

Description

多线程断点续传可定制内部网爬虫***
技术领域
本发明涉及网络数据采集***,尤其涉及一种多线程断点续传可定制内部网爬虫***。
背景技术
随着信息时代的到来,越来越多的企业、学校等纷纷建立起自己的内部网,在内部网上搭建服务器实行数据的共享来提高工作、学习等效率。但是随着内部网数据量的激增,人们很难简单快捷地在内部网上找到所需的数据,因此数据的共享并没有带来显著的效率的提高。内部网和数据共享并没有发挥它们应有的潜力。于是,人们想能否通过因特网上的一般搜索引擎来检索内部网上的数据,但很不幸的是,由于这些数据只能在企业、学校等内部使用、交流和传播,因此因特网上的一般搜索引擎检索不到这些内部网的数据。为了解决这一问题,人们提出了内部网搜索引擎的概念。而从一般因特网上的搜索引擎转变到内部网上的搜索引擎,其他的搜索引擎***部分可以直接复制,惟一的不同是爬虫***,因此内部网爬虫***是内部网搜索引擎的核心。怎样做到爬虫***只在内部网上采集数据已受到越来越多的学者的关注。
由于内部网上的数据类型千差万别,如音频、视频、图像、文本等,其中,音频又包括:mp3、wma等,视频又包括:avi、rm、rmvb、wmv等,图像又包括:jpg、png、tif、bmp等,文本又包括:txt、doc、pdf等。为了提高检索效率和降低搜索引擎的开发难度,提出了只针对某一类数据类型的特色搜索引擎,如音频搜索引擎、视频搜索引擎、图像搜索引擎、文本搜索引擎等。因此,爬虫***的数据类型针对性是搭建特色搜索引擎的核心部分之一,怎样实现爬虫***的数据类型针对性也受到越来越多的学者的关注。
随着基于内部网的数据共享带来的高效率和好处,越来越多的服务器被建立,越来越多的数据被共享,内部网上的数据更新速度也在显著提高。这就给搜索引擎的核心部分之一的爬虫***提出了新的挑战。怎样进一步提高爬虫***爬抓效率和爬抓速度成为众多学者关注的热点。因此,本发明引入多线程技术和异常处理技术来解决这一问题。
针对网络和硬件的不可测突发事件,比如,突然断电、网络突断、服务器重新启动等等,怎样避免爬虫的重复性爬取,提高爬虫***应对突发事件的能力,进一步提高爬抓效率和怕抓速度也成为众多学者关注的热点。因此,本发明通过引入断点续传技术来解决这一问题。
发明内容
针对现有技术存在的问题,本发明的目的是提供一种高效、能够应对突发事件、可定制面向内部网爬虫***。
为达到上述目的,本发明提供一种多线程断点续传可定制内部网爬虫***,其特征在于包括:
多线程产生器,用于产生并提供多线程;
断点续传器,用于恢复爬虫***的爬取环境;
超链接分析提取器,用于分析并提取网页中的超链接;
内部网分析器,用于分析判定在所述超链接提取器中提取的超链接是否是内部网超链接,并判定是否需要保存超链接;
超链接存储库,用于保存在所述内部网分析器中被判定需要保存的超链接;
数据类型评判器,用于分析判定数据类型是否与预先定制的数据类型相同,并判定是否需要下载数据;
数据下载器,用于下载在所述数据类型评判器中被判定需要下载的数据;
数据存储库,用于存储在所述数据下载器中下载的数据;
异常处理器,用于处理在所述数据下载器中出现的异常;
超链接提供器,用于向所述多线程产生器提供需要处理的超链接。
所述***中,所述超链接分析提取器包括:
网页判断器,用于分析判断超链接所指向的数据是否是网页;
超链接提取器,用于提取在所述网页判断器中被判定是网页的超链接。
本发明的有益效果在于,通过应用本发明所描述的***,可以有效地解决爬虫***无法采集内部网数据的问题;可以为搭建特色搜索引擎所需的重要技术----爬虫***的数据类型针对性提供通用的框架;可以避免爬虫的重复性爬取;显著提高爬虫***应对突发事件的能力,进一步提高爬抓效率和怕抓速度,有效地降低***开发成本。
结合附图,本发明的其他特点和优点可以从下面通过举例来对本发明的原理进行解释的优选实施方式的说明中变得更清楚。
附图说明
图1是根据本发明的一个实施方式的***的结构图。
图2示出图1中超链接分析提取器内部结构的一个例子。
具体实施方式
下面将结合附图对本发明的具体实施方式进行详细描述。
图1是根据本发明的一个实施方式的***的结构图。101表示多线程产生器,102表示断点续传器,103表示超链接分析提取器,104表示内部网分析器,105表示超链接存储库,106表示数据类型评判器,107表示数据下载器,108表示数据存储库,109表示异常处理器,以及110表示超链接提供器。
多线程产生器101,用于产生并提供多线程,可以预先设定线程的数量。每一个处理的超链接都会经过断点续传器102、超链接分析提取器103、内部网分析器104、超链接存储库105、数据类型评判器106、数据下载器107、数据存储库108、超链接提供器110,若出现异常情况,也会经过异常处理器109。同一时刻,只会有一个部件在工作,而其他部件都处于闲置状态,显然这样极大的浪费资源。为避免这种资源的浪费,提高效率,多线程产生器101产生并提供多个线程,每一个线程引导处理一个超链接,多个线程可以在同一时刻同时工作,处理完一个超链接之后,此线程处于闲置状态,等待被调用。一个多线程产生器101的具体实施例是利用线程池技术,首先检测线程池是否有闲置线程,若有闲置线程,则将此闲置的线程用于引导处理超链接提供器110提供的超链接;若没有闲置的线程,则等待,直到有线程处理完超链接之后处于闲置状态,然后将此闲置的线程用于引导处理超链接提供器110提供的超链接。以上是多线程产生器101的一个具体实施例,其他不同的实施例不构成对本发明的限制。
断点续传器102,用于恢复爬虫***的爬取环境,针对网络和硬件的不可测突发事件,比如,突然断电、网络突断、服务器重新启动等等,爬虫***需要重新启动,此时为避免爬虫的重复性爬取,一个断点续传器102的具体实施例是首先分别从超链接存储库105和数据存储库108读取最后一次存储的超链接和数据,将此超链接作为爬虫***的初始超链接,将此数据作为作为爬虫***的初始下载数据。以上是断点续传器102的一个具体实施例,其他不同的实施例不构成对本发明的限制。
超链接分析提取器103,用于分析并提取网页中的超链接。一个具体实施例在图2中所示。
内部网分析器104,用于分析判定超链接分析提取器103中提取的超链接是否是内部网超链接,并判定是否需要保存超链接。一个内部网分析器104的具体实施例是通过正则表达式技术,来匹配内部网上的主机域名,能够匹配上的属于这一内部网,不能够匹配上的不属于这一内部网。若是属于这一内部网的超链接,则判定为需要保存的超链接;若不是属于这一内部网的超链接,则判定为不需要保存的超链接。以上是内部网分析器104的一个具体实施例,其他不同的实施例不构成对本发明的限制。
超链接存储库105,用于保存在内部网分析器104中被判定需要保存的超链接。
数据类型评判器106,用于分析判定数据类型是否与预先定制的数据类型相同,并判定是否需要下载数据。一个数据类型评判器106的具体实施例是通过正则表达式,匹配包含在超链接里的数据类型的后缀,然后与预先定制的数据类型比较。若当前待下载数据的类型与预先定制的数据类型相同,则判定为需要下载的数据;若当前待下载数据的类型与预先定制的数据类型不相同,则判定为不需要下载的数据。以上是数据类型评判器106的一个具体实施例,其他不同的实施例不构成对本发明的限制。
数据下载器107,用于下载在数据类型评判器106中被判定需要下载的数据。
数据存储库108,用于存储在数据下载器107中下载的数据。
异常处理器109,用于处理在数据下载器107中出现的异常。有时服务器上会有死超链接,所谓死超链接就是指网页中有此超链接存在,但此超链接所指向的数据已经被删除,在这种情况下,爬虫***数据下载器107会出现无休止的等待状态,即一直在等待下载根本不存在的数据。一个异常处理器109具体实施例是在这时,异常处理器109将立即停止数据下载器107,启动超链接提供器110,即丢弃当前死超链接,处理下一个需要处理的超链接。以上是异常处理器109的一个具体实施例,其他不同的实施例不构成对本发明的限制。
超链接提供器110,用于向多线程产生器101提供需要处理的超链接。一个超链接提供器110的具体实施例是检测超链接存储库105中是否还有未被处理的超链接,若还有未被处理的超链接,则读取此超链接,然后将此超链接提供给多线程产生器101;若没有未被处理的超链接,则爬虫***停止。以上是超链接提供器110的一个具体实施例,其他不同的实施例不构成对本发明的限制。
图2示出图1中超链接分析提取器内部结构的一个例子。除了超链接分析提取器103以外,图2中的各部件与图1中的各部件相同。
如图2所示,超链接分析提取器103包括网页判断器1031和超链接提取器1032。
网页判断器1031,用于分析判断超链接所指向的数据是否是网页。一个网页判断器1031具体实施例是通过HTTP协议Content-Type,即通过给服务器发送请求得到Content-Type数据,来分析判断超链接所指向的数据是否是网页。以上是网页判断器1031的一个具体实施例,其他不同的实施例不构成对本发明的限制。
超链接提取器1032,用于提取在网页判断器1031中被判定是网页的超链接。一个超链接提取器1032具体实施例是利用正则表达式,来匹配网页源码中的超链接,从而定位超链接,进而提取出超链接。以上是超链接提取器1032的一个具体实施例,其他不同的实施例不构成对本发明的限制。
以上结合附图描述了本发明的具体实施方式,各种举例说明不对发明的实质内容构成限制,本发明不限于上面提供的实施细节,可以在不脱离本发明特征的情况下以另外的实施例实现。所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形,而不背离发明的实质和范围。

Claims (2)

1.一种多线程断点续传可定制内部网爬虫***,其特征在于包括:
多线程产生器,用于产生并提供多线程;
断点续传器,用于恢复爬虫***的爬取环境;
超链接分析提取器,用于分析并提取网页中的超链接;
内部网分析器,用于分析判定在所述超链接提取器中提取的超链接是否是内部网超链接,并判定是否需要保存超链接;
超链接存储库,用于保存在所述内部网分析器中被判定需要保存的超链接;
数据类型评判器,用于分析判定数据类型是否与预先定制的数据类型相同,并判定是否需要下载数据;
数据下载器,用于下载在所述数据类型评判器中被判定需要下载的数据;
数据存储库,用于存储在所述数据下载器中下载的数据;
异常处理器,用于处理在所述数据下载器中出现的异常;
超链接提供器,用于向所述多线程产生器提供需要处理的超链接。
2.根据权利要求1所述的多线程断点续传可定制内部网爬虫***,其特征在于,所述超链接分析提取器包括:
网页判断器,用于分析判断超链接所指向的数据是否是网页;
超链接提取器,用于提取在所述网页判断器中被判定是网页的超链接。
CNA2008101264567A 2008-06-27 2008-06-27 多线程断点续传可定制内部网爬虫*** Pending CN101299219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101264567A CN101299219A (zh) 2008-06-27 2008-06-27 多线程断点续传可定制内部网爬虫***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008101264567A CN101299219A (zh) 2008-06-27 2008-06-27 多线程断点续传可定制内部网爬虫***

Publications (1)

Publication Number Publication Date
CN101299219A true CN101299219A (zh) 2008-11-05

Family

ID=40079048

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101264567A Pending CN101299219A (zh) 2008-06-27 2008-06-27 多线程断点续传可定制内部网爬虫***

Country Status (1)

Country Link
CN (1) CN101299219A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559297A (zh) * 2013-11-12 2014-02-05 北京邮电大学 一种针对图书检索信息进行断点续采的方法和***
WO2014040426A1 (zh) * 2012-09-14 2014-03-20 华为技术有限公司 查询处理方法和装置
CN103841181A (zh) * 2014-01-24 2014-06-04 东蓝数码股份有限公司 一种局域网多线程文件传输方法
CN105653599A (zh) * 2015-12-23 2016-06-08 浪潮软件集团有限公司 一种数据采集方法及装置
CN107239563A (zh) * 2017-06-13 2017-10-10 成都布林特信息技术有限公司 舆情信息动态监控方法
CN108073703A (zh) * 2017-12-14 2018-05-25 郑州云海信息技术有限公司 一种评论信息获取方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014040426A1 (zh) * 2012-09-14 2014-03-20 华为技术有限公司 查询处理方法和装置
CN103678368B (zh) * 2012-09-14 2017-02-08 华为技术有限公司 查询处理方法和装置
CN103559297A (zh) * 2013-11-12 2014-02-05 北京邮电大学 一种针对图书检索信息进行断点续采的方法和***
CN103841181A (zh) * 2014-01-24 2014-06-04 东蓝数码股份有限公司 一种局域网多线程文件传输方法
CN105653599A (zh) * 2015-12-23 2016-06-08 浪潮软件集团有限公司 一种数据采集方法及装置
CN107239563A (zh) * 2017-06-13 2017-10-10 成都布林特信息技术有限公司 舆情信息动态监控方法
CN108073703A (zh) * 2017-12-14 2018-05-25 郑州云海信息技术有限公司 一种评论信息获取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11429625B2 (en) Query engine for remote endpoint information retrieval
van Baar et al. Digital forensics as a service: A game changer
CN101299219A (zh) 多线程断点续传可定制内部网爬虫***
US20110077936A1 (en) System and method for generating vocabulary from network data
CN102054028B (zh) 一种网络爬虫***实现页面渲染功能的方法
US8972374B2 (en) Content acquisition system and method of implementation
CN101446954B (zh) 针对视频网站的广域网爬虫***
CN103577482B (zh) 一种网页收藏方法、装置及浏览器
KR20110096512A (ko) 단문 메시지를 이용한 미디어 이벤트 구조 및 콘텍스트 식별
CN102857572A (zh) 一种http访问请求处理方法、装置及网关设备
CN108520052B (zh) 慢查询信息检索方法、装置、服务器及可读存储介质
CN113656673A (zh) 面向广告投放的主从分布内容爬取机器人
WO2011137683A2 (zh) Web应用托管方法及装置
US20210334113A1 (en) Method and device for lazy loading of js scripts
Lu et al. The design and implementation of configurable news collection system based on web crawler
CN111444412B (zh) 网络爬虫任务的调度方法及装置
CN110502562A (zh) 数据导入方法及装置、可读存储介质
WO2022005821A1 (en) Distributed system for file analysis and malware detection
Hansen et al. Comparing open source search engine functionality, efficiency and effectiveness with respect to digital forensic search
Hurst et al. Social streams blog crawler
US20140067854A1 (en) Crawling of generated server-side content
US10380195B1 (en) Grouping documents by content similarity
CN103617224B (zh) 一种网页收藏方法、装置及***
CN113742550B (zh) 基于浏览器的数据获取方法、装置和***
CN105893416A (zh) 一种数据服务***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Yang Bu

Document name: Notification of Passing Preliminary Examination of the Application for Invention

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20081105