CN104978408A - 基于Berkeley DB数据库的主题爬虫*** - Google Patents
基于Berkeley DB数据库的主题爬虫*** Download PDFInfo
- Publication number
- CN104978408A CN104978408A CN201510342671.0A CN201510342671A CN104978408A CN 104978408 A CN104978408 A CN 104978408A CN 201510342671 A CN201510342671 A CN 201510342671A CN 104978408 A CN104978408 A CN 104978408A
- Authority
- CN
- China
- Prior art keywords
- webpage
- database
- url
- berkeley
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明设计并实现了基于Berkeley DB数据库的主题爬虫***,设计该***的目标是为用户提供一个领域信息采集工具,并且只采集与特定主题相关的网页,从而能节省软硬件资源和较快地更新页面。设计思想是:首先对网页进行分析,根据主题相关性算法和爬取策略对网页进行过滤,只保留与主题相关的网页的链接并将其加入到待爬取URL队列,之后再根据网页爬取策略选择下一个要爬取的页面的URL,循环重复此过程,直到满足***终止条件。在网页下载的过程中将其URL和概要信息***到Berkeley数据库中,在创建数据库配置对象时对该数据库设置延迟写功能,当在内存中存储了指定大小的数据时再一次写入磁盘,提高了***性能。在主题爬虫的参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数,在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数。
Description
技术领域
本发明属于互联网信息采集技术范畴,具体为基于Berkeley DB数据库的主题爬虫***。
背景技术
随着网络资源的***性增长,网络中网页的规模已经非常庞大。虽然机器性能相对有了不少的提高,但是面对数目如此巨大的URL,抓取整个Web上的网页是不现实的。对于网络爬虫,总是有“过于丰富”的URL资源。对网络爬虫的研究开始转移到使用一种比较好的URL选择或者排序策略,对URL进行排序或者取舍,尽量把质量高的或者接近“固定主题”的网页优先抓取下来,而不再单纯追求网页覆盖度。面向主题的Web信息采集(又叫聚焦网络爬虫),主要是指那些选择性地搜寻与预先定义好的主题相关页面进行爬取的信息采集,主题一般可以是关键词,也可以是样本文件,其和基于整个网络的信息采集不同,为了节省软硬件资源与较快地更新页面,基于主题的信息采集并不采集那些和特定主题无关的页面。
网络爬虫是搜索引擎的组成部分,其主要工作是抓取网页并下载到本地磁盘。传统的网络爬虫主要是根据一个或几个初始的种子站点进行抓取网页,在抓取过程中不断的对已下载到本地磁盘的网页进行分析,之后提取其中的URL超链接,放入到待爬取队列,不断地重复此过程,直到满足终止条件。与通用爬虫相比,主题爬虫的爬取工作就较为复杂,它需要首先对网页进行分析过滤,根据相关度的大小剔除掉一些与主题无关的页面的链接,将主题相关的页面链接放入到待爬取队列,之后主题爬虫会按照一定的爬取策略从URL队列中选择要爬取的URL,不断地重复此过程直到满足用户设定的爬取终止条件。此外由于需要对爬取下来的网页进行分析过滤有时还需要为其建立索引,以方便计算网页的主题相关度,同时根据分析的结果对以后的抓取给出反馈和指导。
为了过滤掉无关页面,只保留和主题相关的页面链接进行爬取,本发明采用了Best-First Search搜索策略,即最佳优先搜索策略,根据网页分析算法首先预测待爬取URL所对应页面的主题相似性,再从中选择一个或着几个URL进行爬取。同时该搜索算法是局部最优的,在其爬取路径上很多与主题相关的网页可能会被忽略,所以在实际实现该算法时做了相应的改进以跳出局部最优点。同时在计算主题相关度时本发明采用了余弦距离计算方式,在计算特征向量的特征值时采用了改进的TF*IDF算法。为了提高***性能,本发明采用了Berkeley DB数据库。Berkeley DB是一个嵌入式数据库,它适合于管理海量的、简单的数据。关键字/数据(key/value)是Berkeley DB用来进行数据库管理的基础。每个key/value对构成一条记录。而整个数据库实际上就是由许多这样的结构单元所构成的。通过这种方式,开发人员在使用Berkeley DB提供的API访问数据库时,只需提供关键字就能够访问到相应的数据。由于Berkeley DB数据库对数据的***采用的是哈希算法,因此能提高查重速度。
发明内容
本发明的目的在于提供一个主题爬取工具,能够自动采集专业领域的特定主题信息。具体来说,本发明内容包括以下几点。实现了主题相关度计算、网页爬取、用户爬取定制设置界面、用于主题网页爬取的Berkeley DB数据库等方面的功能,从而能为用户提供专业领域信息采集的功能。
(1)主题爬虫网页爬取模块:网页爬取模块是主题爬虫***的核心模块,主要完成与特定主题相关网页的爬取。首先对网页进行分析,根据主题相关性算法和爬取策略对网页进行过滤,只保留与主题相关的网页的链接并将其加入到待爬取URL队列,之后再根据网页爬取策略选择下一个要爬取的页面的URL,循环重复此过程,直到满足***终止条件。
(2)Berkeley DB数据库模块:Berkeley DB数据库对数据的***采用的是哈希算法,因此其查重速度是相当快的,在创建数据库后在网页下载的过程中将其URL和概要信息***到数据库中,在创建数据库配置对象时对该数据库设置延迟写功能,当在内存中存储了指定大小的数据时再一次写入磁盘,提高了***性能。
(3)主题相关度计算模块:主要是采用改进的TF*IDF算法基于向量空间模型完成对网页主题相关度的计算。在计算主题相关度时需要对网页中包含的主题关键词进行统计,需要先对网页建立索引并进行中文分词。本***中建立了两种索引,一种是对下载到本地的单个页面建立索引,另一种是对下载到本的所有页面建立索引(主要用于计算IDF值)。
(4)UI模块:主要是将主题爬虫***实现的功能通过用户界面提供给用户进行使用,主要包括参数设置、运行和统计几个选项卡,在参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数,在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数,在统计选项卡中会以图形方式呈现网页爬取情况。
(5)封装Bean:设立了两个封装Bean——UrlSerial和RunningOptionBean,前者主要实现对URL的封装和序列化,以方便在BDB数据库中存储,同时由于需要在URL优先级队列中根据该封装Bean的相关度对其进行排序,因此又需要将其定义为一个比较器。而RunningOptionBean类主要是对网络爬虫在运行时一些必需的信息的封装,以方便在其他程序中进行访问,同时完成对关键词集合的设置。
附图说明
图1为主题爬虫体系结构;
图2为主题爬虫***参数设置界面;
图3为主题爬虫***运行界面;
图4为主题爬虫***参数统计界面。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下对本发明做进一步的详细说明。本发明采用MyEclipse 8.5+ Berkeley DB工具实现。
1. 主题爬虫体系结构
主题爬虫体系结构如图1所示,其中包括页面下载、页面分析、相关度计算、已访问页面信息、URL重要性评分、URL队列几个组成部分,具体说明如下。
(1)页面下载:从URL优先级队列中取出队首元素,通过Apache工具类HttpClient对该URL对应的Web页面进行下载,保存在本地磁盘。
(2)页面分析:主要负责对页面下载模块爬取到本地磁盘的Web页面进行分析,使用HttpParser工具类进行解析,提取其中的URL、锚文本、网页标题、网页内容等信息。
(3)相关度计算:此模块主要根据页面分析模块所提取出来的信息(这里是除去html标签后的所有内容)作中文分词解析,并使用相关度分析算法计算出页面相关度(这里是主题特征向量的相关度),可能还需要和已访问的页面信息进行交互,同时将计算出来的信息保存,以便后续使用(在URL优先级队列中要用到)。
(4)已访问页面信息:这些信息主要保存在BerkeleyDB数据库中,其主要作用是持久化已访问页面的URL等信息,使用BerkeleyDB的高性能查取元素的特性进行URL消重。
(5)URL重要性评分:根据相关度计算模块计算出来的Web页面的相关度值,对该页面中所包含的URL进行一个重要性评分,然后根据评分决定是否将满足要求(达到设定阈值)的网页的URL放入待访问优先级队列,本***对不满足要求的URL和错误的无法访问的URL直接丢弃,不做进一步的处理。
(6)URL队列:此处的URL队列主要指待访问的URL优先级队列,其中存放的是根据URL重要性从大到小进行排序的URL队列,对于每次放入URL都需要进行一次排序操作,使得页面爬取模块每次取得的URL都是重要性最大的URL。
2. 主题相关度计算方法
将文档表示为空间向量,通过对空间向量之间的相似度来表示文档之间的相似性。其中相似性计算采用余弦距离方式:
(1)
其中,cos(Q i ,D i )表示用户查询Q i 和文档D i 之间的相似性。q代表查询的特征向量,w代表文档的特征向量。这里设定一个阈值r,将相似度值和该阈值进行比较,大于该阈值就说明满足主题相似性,否则就说明该页面和特定主题无关。
除此之外,需要对网页中的主题关键词集合进行统计,本***采用的是改进的TF*IDF特征值计算方法。用TF表示指一个词在网页文档中出现的次数,这里对其加以规范化,采用的计算公式如下:
W TF =α+(1-α)×TF/Max(TF) (2)
其中,α为调节因子;TF表示在文档中这个单词的实际出现次数;Max(TF)表示在所有关键词在该文档中出现次数最多的那个单词对应的出现次数。
IDF表示特征词在整个文档集合中的相对重要性,弥补TF只考虑关键词在单个文档中的出现次数而忽略整个全局文档的缺点。其计算公式为:
IDF k =log(N/n k ) (3)
其中,N代表文档集合中的文档数,n k 代表特征单词k在文档集合的多少个文档中出现过。
最终的特征向量的特征权值计算公式为:
W=W TF ×IDF (4)
3. 主题爬虫***的实现
主题爬虫***主要由网页爬取模块、Berkeley数据库模块、主题相关度模块和UI模块以及一个工具类和两个封装bean组成,程序结构如表1所示。
表1 主题爬虫***的程序结构
(1)主题爬虫网页爬取模块:网页爬取模块是主题爬虫***的核心模块,主要完成与特定主题相关网页的爬取,包括网页下载、HTML解析、URL优先级队列和爬取主控程序几部分。在实现该模块时使用到了多线程及线程池技术,每次下载网页的线程都是从此线程池中获得,线程池中的线程数量由用户指定,在运行的过程中最大数目保持不变,不重复创建线程,减少了***开销。在向优先级队列中添加元素时,除了需要判断该优先级队列中是否包含该元素,还需要判断BDB持久化数据库是否包含该元素,避免重复下载已下载的网页。URL优先级队列中存放的是URL的封装对象,而BDB持久化数据库的关键字设置的是URL经MD5压缩后的字符串。
(2)Berkeley DB数据库模块:因为在网络爬虫工作的过程中需要下载大量的网页,而这些已下载的网页的URL链接必须要做相应的标记,避免重复下载。由于内存的容量是有限的,因此不可能把所有的URL信息放在内存中,由于BerkeleyDB数据库对数据的***采用的是哈希算法,查重速度比其他数据库快很多,因此在网页下载过程中将其URL和概要信息***到BerkeleyDB数据库中。在本***中为了避免URL字符串过长导致存储不方便,对URL进行了MD5压缩处理。此外在创建数据库配置对象时对该数据库设置了延迟写功能,因为本***在实际运行的过程中需要向数据库中添加大量的数据,如果每次都直接写入磁盘进行IO操作,速度会很慢,当在内存中存储了指定大小的数据时再一次写入磁盘,提高了***性能。
(3)主题相关度计算模块:主要是采用改进的TF*IDF算法基于向量空间模型完成对网页主题相关度的计算。在计算主题相关度时需要对网页中包含的主题关键词进行统计,需要先对网页建立索引。本***中建立了两种索引,一种是对下载到本地的单个页面建立索引,另一种是对下载到本地的所有页面建立索引(主要用于计算IDF值),之后采用分词技术对主题关键词进行统计。
(4)UI模块:主要是将主题爬虫***实现的功能通过用户界面提供给用户进行使用,采用的是Java中的Swing技术实现,在主窗口的窗格中添加了多个功能选项卡,如图2-图4所示,主要包括参数设置、运行和统计几个选项卡,在参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数,在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数,在统计选项卡中以图形方式呈现网页爬取情况。其中有效网页数就是已下载到本地的网页中满足指定相关度要求的网页的数目。
(5)封装Bean:设立了两个封装Bean——UrlSerial和RunningOptionBean,前者主要实现对URL的封装和序列化,以方便在BDB数据库中存储,同时由于需要在URL优先级队列中根据该封装Bean的相关度对其进行排序,因此又需要将其定义为一个比较器。而RunningOptionBean类主要是对网络爬虫在运行时一些必需的信息的封装,以方便在其他程序中进行访问,同时完成对关键词集合的设置。
Claims (6)
1.基于Berkeley DB数据库的主题爬虫***,其特征在于,该***包含如下组成部分:
主题网页爬取;
主题相关度计算;
封装Bean;
Berkeley DB数据库;
主题爬虫用户界面。
2.根据权利要求1所述的基于Berkeley DB数据库的主题爬虫***,其特征在于,该***首先对网页进行分析,根据主题相关性算法和爬取策略对网页进行过滤,只保留与主题相关的网页的链接并将其加入到待爬取URL队列,之后再根据网页爬取策略选择下一个要爬取的页面的URL,循环重复此过程,直到满足***终止条件。
3.根据权利要求1所述的基于Berkeley DB数据库的主题爬虫***,其特征在于,采用改进的TF*IDF算法基于向量空间模型完成对网页主题相关度的计算,在计算主题相关度时需要对网页中包含的主题关键词进行统计,先对网页建立索引并进行中文分词;本***中建立了两种索引,一种是对下载到本地的单个页面建立索引,另一种是对下载到本的所有页面建立索引(主要用于计算IDF值)。
4.根据权利要求1所述的基于Berkeley DB数据库的主题爬虫***,其特征在于,设立了两个封装Bean——UrlSerial和RunningOptionBean,前者主要实现对URL的封装和序列化,以方便在BDB数据库中存储,同时由于需要在URL优先级队列中根据该封装Bean的相关度对其进行排序,因此又需要将其定义为一个比较器;而RunningOptionBean类主要是对网络爬虫在运行时一些必需的信息的封装,以方便在其他程序中进行访问,同时完成对关键词集合的设置。
5.根据权利要求1所述的基于Berkeley DB数据库的主题爬虫***,其特征在于,创建一个Berkeley数据库,在网页下载的过程中将其URL和概要信息***到数据库中,在创建数据库配置对象时对该数据库设置延迟写功能,当在内存中存储了指定大小的数据时再一次写入磁盘,提高了***性能。
6.根据权利要求1所述的基于Berkeley DB数据库的主题爬虫***,其特征在于,将主题爬虫***实现的功能通过用户界面提供给用户进行使用,主要包括参数设置、运行和统计几个选项卡,在参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数,在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数,在统计选项卡中会以图形方式呈现网页爬取情况;
基于Berkeley DB数据库的主题爬虫***,其特征在于,该***包含如下组成部分:
主题网页爬取;
主题相关度计算;
封装Bean;
Berkeley DB数据库;
主题爬虫用户界面;
其中,
(1)主题爬虫网页爬取模块:网页爬取模块是主题爬虫***的核心模块,主要完成与特定主题相关网页的爬取;
首先对网页进行分析,根据主题相关性算法和爬取策略对网页进行过滤,只保留与主题相关的网页的链接并将其加入到待爬取URL队列,之后再根据网页爬取策略选择下一个要爬取的页面的URL,循环重复此过程,直到满足***终止条件;
(2)Berkeley DB数据库模块:Berkeley DB数据库对数据的***采用的是哈希算法,因此其查重速度是相当快的,在创建数据库后在网页下载的过程中将其URL和概要信息***到数据库中,在创建数据库配置对象时对该数据库设置延迟写功能,当在内存中存储了指定大小的数据时再一次写入磁盘,提高了***性能;
(3)主题相关度计算模块:主要是采用改进的TF*IDF算法基于向量空间模型完成对网页主题相关度的计算;
在计算主题相关度时需要对网页中包含的主题关键词进行统计,需要先对网页建立索引并进行中文分词;
本***中建立了两种索引,一种是对下载到本地的单个页面建立索引,另一种是对下载到本的所有页面建立索引(主要用于计算IDF值);
(4)UI模块:主要是将主题爬虫***实现的功能通过用户界面提供给用户进行使用,主要包括参数设置、运行和统计几个选项卡,在参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数,在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数,在统计选项卡中会以图形方式呈现网页爬取情况;
(5)封装Bean:设立了两个封装Bean——UrlSerial和RunningOptionBean,前者主要实现对URL的封装和序列化,以方便在BDB数据库中存储,同时由于需要在URL优先级队列中根据该封装Bean的相关度对其进行排序,因此又需要将其定义为一个比较器;
而RunningOptionBean类主要是对网络爬虫在运行时一些必需的信息的封装,以方便在其他程序中进行访问,同时完成对关键词集合的设置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510342671.0A CN104978408A (zh) | 2015-08-05 | 2015-08-05 | 基于Berkeley DB数据库的主题爬虫*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510342671.0A CN104978408A (zh) | 2015-08-05 | 2015-08-05 | 基于Berkeley DB数据库的主题爬虫*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104978408A true CN104978408A (zh) | 2015-10-14 |
Family
ID=54274912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510342671.0A Pending CN104978408A (zh) | 2015-08-05 | 2015-08-05 | 基于Berkeley DB数据库的主题爬虫*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104978408A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589949A (zh) * | 2015-12-18 | 2016-05-18 | 晶赞广告(上海)有限公司 | 一种自定义职责链及后置处理模块的分布式爬虫框架 |
CN106354843A (zh) * | 2016-08-31 | 2017-01-25 | 虎扑(上海)文化传播股份有限公司 | 网络爬虫***以及方法 |
CN106528802A (zh) * | 2016-11-11 | 2017-03-22 | 金蝶软件(中国)有限公司 | 一种数据采集方法及装置 |
CN106776787A (zh) * | 2016-11-24 | 2017-05-31 | 山东浪潮云服务信息科技有限公司 | 一种对互联网数据进行采集的方法 |
CN107844601A (zh) * | 2017-11-23 | 2018-03-27 | 四川长虹电器股份有限公司 | 基于网络爬虫的招投标信息筛选***与方法 |
CN108052632A (zh) * | 2017-12-20 | 2018-05-18 | 成都律云科技有限公司 | 一种网络信息获取方法、***及企业信息搜索*** |
CN108415941A (zh) * | 2018-01-29 | 2018-08-17 | 湖北省楚天云有限公司 | 一种网页爬虫方法、装置以及电子设备 |
CN109471966A (zh) * | 2018-10-30 | 2019-03-15 | 中译语通科技股份有限公司 | 一种自动获取目标数据源的方法及*** |
CN109885794A (zh) * | 2019-01-24 | 2019-06-14 | 曲阜师范大学 | 基于区块链的循环式同步更新网页的处理方法 |
CN109918557A (zh) * | 2019-03-12 | 2019-06-21 | 厦门商集网络科技有限责任公司 | 一种网页数据爬取合并方法及计算机可读存储介质 |
CN110147476A (zh) * | 2019-04-12 | 2019-08-20 | 深圳壹账通智能科技有限公司 | 基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质 |
CN110175277A (zh) * | 2019-05-07 | 2019-08-27 | 南京邮电大学 | 面向电商平台的农药信息采集方法 |
CN110188300A (zh) * | 2019-05-30 | 2019-08-30 | 吉林大学 | 一种面向汽车领域的采购信息的处理方法及装置 |
CN110569430A (zh) * | 2019-08-13 | 2019-12-13 | 河北上通云天网络科技有限公司 | 一种移动端网络爬虫*** |
CN111259220A (zh) * | 2020-01-11 | 2020-06-09 | 杭州拾贝知识产权服务有限公司 | 一种基于大数据的数据采集方法和*** |
CN112035723A (zh) * | 2020-08-28 | 2020-12-04 | 光大科技有限公司 | 资源库的确定方法和装置、存储介质及电子装置 |
CN112487268A (zh) * | 2020-12-14 | 2021-03-12 | 安徽经邦软件技术有限公司 | 一种基于分布式爬虫技术的数据爬取实现方法 |
CN113722572A (zh) * | 2021-10-11 | 2021-11-30 | 上海易路软件有限公司 | 一种分布式深度爬取的方法、装置及介质 |
CN114117177A (zh) * | 2021-11-09 | 2022-03-01 | 智文有限公司 | 一种基于TextCNN的主题爬虫方法及*** |
CN114661973A (zh) * | 2022-03-17 | 2022-06-24 | 辽宁大学 | 一种基于神经网络的网页数据智能爬取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1873642A (zh) * | 2006-04-29 | 2006-12-06 | 上海世纪互联信息***有限公司 | 具有自动分类功能的搜索引擎 |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫***的设计方法 |
CN102314463A (zh) * | 2010-07-07 | 2012-01-11 | 北京瑞信在线***技术有限公司 | 分布式爬虫***及其提取网页数据的方法 |
CN103310026A (zh) * | 2013-07-08 | 2013-09-18 | 焦点科技股份有限公司 | 一种基于搜索引擎的轻量级通用网页主题爬虫方法 |
WO2014000576A1 (zh) * | 2012-06-28 | 2014-01-03 | 北京奇虎科技有限公司 | 一种网络搜索方法及网络搜索*** |
CN103714132A (zh) * | 2013-12-17 | 2014-04-09 | 北京本果信息技术有限公司 | 一种用于基于地域和行业进行热点事件挖掘的方法和设备 |
-
2015
- 2015-08-05 CN CN201510342671.0A patent/CN104978408A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1873642A (zh) * | 2006-04-29 | 2006-12-06 | 上海世纪互联信息***有限公司 | 具有自动分类功能的搜索引擎 |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫***的设计方法 |
CN102314463A (zh) * | 2010-07-07 | 2012-01-11 | 北京瑞信在线***技术有限公司 | 分布式爬虫***及其提取网页数据的方法 |
WO2014000576A1 (zh) * | 2012-06-28 | 2014-01-03 | 北京奇虎科技有限公司 | 一种网络搜索方法及网络搜索*** |
CN103310026A (zh) * | 2013-07-08 | 2013-09-18 | 焦点科技股份有限公司 | 一种基于搜索引擎的轻量级通用网页主题爬虫方法 |
CN103714132A (zh) * | 2013-12-17 | 2014-04-09 | 北京本果信息技术有限公司 | 一种用于基于地域和行业进行热点事件挖掘的方法和设备 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589949A (zh) * | 2015-12-18 | 2016-05-18 | 晶赞广告(上海)有限公司 | 一种自定义职责链及后置处理模块的分布式爬虫框架 |
CN105589949B (zh) * | 2015-12-18 | 2020-05-29 | 晶赞广告(上海)有限公司 | 一种自定义职责链及后置处理模块的分布式爬虫方法 |
CN106354843A (zh) * | 2016-08-31 | 2017-01-25 | 虎扑(上海)文化传播股份有限公司 | 网络爬虫***以及方法 |
CN106528802A (zh) * | 2016-11-11 | 2017-03-22 | 金蝶软件(中国)有限公司 | 一种数据采集方法及装置 |
CN106776787A (zh) * | 2016-11-24 | 2017-05-31 | 山东浪潮云服务信息科技有限公司 | 一种对互联网数据进行采集的方法 |
CN107844601A (zh) * | 2017-11-23 | 2018-03-27 | 四川长虹电器股份有限公司 | 基于网络爬虫的招投标信息筛选***与方法 |
CN108052632A (zh) * | 2017-12-20 | 2018-05-18 | 成都律云科技有限公司 | 一种网络信息获取方法、***及企业信息搜索*** |
CN108415941A (zh) * | 2018-01-29 | 2018-08-17 | 湖北省楚天云有限公司 | 一种网页爬虫方法、装置以及电子设备 |
CN109471966A (zh) * | 2018-10-30 | 2019-03-15 | 中译语通科技股份有限公司 | 一种自动获取目标数据源的方法及*** |
CN109885794A (zh) * | 2019-01-24 | 2019-06-14 | 曲阜师范大学 | 基于区块链的循环式同步更新网页的处理方法 |
CN109885794B (zh) * | 2019-01-24 | 2020-10-20 | 曲阜师范大学 | 基于区块链的循环式同步更新网页的处理方法 |
CN109918557A (zh) * | 2019-03-12 | 2019-06-21 | 厦门商集网络科技有限责任公司 | 一种网页数据爬取合并方法及计算机可读存储介质 |
CN110147476A (zh) * | 2019-04-12 | 2019-08-20 | 深圳壹账通智能科技有限公司 | 基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质 |
CN110175277A (zh) * | 2019-05-07 | 2019-08-27 | 南京邮电大学 | 面向电商平台的农药信息采集方法 |
CN110175277B (zh) * | 2019-05-07 | 2023-07-07 | 南京邮电大学 | 面向电商平台的农药信息采集方法 |
CN110188300A (zh) * | 2019-05-30 | 2019-08-30 | 吉林大学 | 一种面向汽车领域的采购信息的处理方法及装置 |
CN110188300B (zh) * | 2019-05-30 | 2023-04-07 | 吉林大学 | 一种面向汽车领域的采购信息的处理方法及装置 |
CN110569430A (zh) * | 2019-08-13 | 2019-12-13 | 河北上通云天网络科技有限公司 | 一种移动端网络爬虫*** |
CN111259220A (zh) * | 2020-01-11 | 2020-06-09 | 杭州拾贝知识产权服务有限公司 | 一种基于大数据的数据采集方法和*** |
CN112035723A (zh) * | 2020-08-28 | 2020-12-04 | 光大科技有限公司 | 资源库的确定方法和装置、存储介质及电子装置 |
CN112487268A (zh) * | 2020-12-14 | 2021-03-12 | 安徽经邦软件技术有限公司 | 一种基于分布式爬虫技术的数据爬取实现方法 |
CN113722572A (zh) * | 2021-10-11 | 2021-11-30 | 上海易路软件有限公司 | 一种分布式深度爬取的方法、装置及介质 |
CN113722572B (zh) * | 2021-10-11 | 2024-03-29 | 上海易路软件有限公司 | 一种分布式深度爬取的方法、装置及介质 |
CN114117177A (zh) * | 2021-11-09 | 2022-03-01 | 智文有限公司 | 一种基于TextCNN的主题爬虫方法及*** |
CN114661973A (zh) * | 2022-03-17 | 2022-06-24 | 辽宁大学 | 一种基于神经网络的网页数据智能爬取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104978408A (zh) | 基于Berkeley DB数据库的主题爬虫*** | |
CN107145496B (zh) | 基于关键词将图像与内容项目匹配的方法 | |
CN102930059B (zh) | 一种聚焦爬虫的设计方法 | |
Kumar et al. | Keyword query based focused Web crawler | |
Zhao et al. | SmartCrawler: a two-stage crawler for efficiently harvesting deep-web interfaces | |
CN102831199B (zh) | 建立兴趣模型的方法及装置 | |
US20170091178A1 (en) | System and method for locating bilingual web sites | |
US20090198676A1 (en) | Indexing Documents for Information Retrieval | |
CN101452463A (zh) | 定向抓取页面资源的方法和装置 | |
JP2017220205A (ja) | 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム | |
CN104516982A (zh) | 一种基于Nutch的Web信息提取方法和*** | |
CN107766399A (zh) | 用于使图像与内容项目匹配的方法和***及机器可读介质 | |
CN104391978B (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN103530429B (zh) | 一种网页正文抽取的方法 | |
JP6165955B1 (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
CN106844640A (zh) | 一种网页数据分析处理方法 | |
CN102819601A (zh) | 信息检索方法和信息检索设备 | |
CN103258017B (zh) | 一种并行的垂直交叉网络数据采集方法及*** | |
JP2017157193A (ja) | 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法 | |
Chhabra et al. | Inducing factors for search engine optimization techniques: A comparative analysis | |
Chang | A survey of modern crawler methods | |
Liu et al. | Topical Web Crawling for Domain-Specific Resource Discovery Enhanced by Selectively using Link-Context. | |
Saberi¹ et al. | What does the future of search engine optimization hold? | |
Kadam | Search Engine Optimization Techniques and Tools | |
Wong | Advanced Elasticsearch 7.0: A practical guide to designing, indexing, and querying advanced distributed search engines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151014 |
|
RJ01 | Rejection of invention patent application after publication |