CN104978408A

CN104978408A - 基于Berkeley DB数据库的主题爬虫***

Info

Publication number: CN104978408A
Application number: CN201510342671.0A
Authority: CN
Inventors: 杨月华; 刘红雅
Original assignee: Xuchang University
Current assignee: Xuchang University
Priority date: 2015-08-05
Filing date: 2015-08-05
Publication date: 2015-10-14

Abstract

本发明设计并实现了基于Berkeley DB数据库的主题爬虫***，设计该***的目标是为用户提供一个领域信息采集工具，并且只采集与特定主题相关的网页，从而能节省软硬件资源和较快地更新页面。设计思想是：首先对网页进行分析，根据主题相关性算法和爬取策略对网页进行过滤，只保留与主题相关的网页的链接并将其加入到待爬取URL队列，之后再根据网页爬取策略选择下一个要爬取的页面的URL，循环重复此过程，直到满足***终止条件。在网页下载的过程中将其URL和概要信息***到Berkeley数据库中，在创建数据库配置对象时对该数据库设置延迟写功能，当在内存中存储了指定大小的数据时再一次写入磁盘，提高了***性能。在主题爬虫的参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数，在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数。

Description

基于Berkeley DB数据库的主题爬虫***

技术领域

本发明属于互联网信息采集技术范畴，具体为基于Berkeley DB数据库的主题爬虫***。

背景技术

随着网络资源的***性增长，网络中网页的规模已经非常庞大。虽然机器性能相对有了不少的提高，但是面对数目如此巨大的URL，抓取整个Web上的网页是不现实的。对于网络爬虫，总是有“过于丰富”的URL资源。对网络爬虫的研究开始转移到使用一种比较好的URL选择或者排序策略，对URL进行排序或者取舍，尽量把质量高的或者接近“固定主题”的网页优先抓取下来，而不再单纯追求网页覆盖度。面向主题的Web信息采集（又叫聚焦网络爬虫），主要是指那些选择性地搜寻与预先定义好的主题相关页面进行爬取的信息采集，主题一般可以是关键词，也可以是样本文件，其和基于整个网络的信息采集不同，为了节省软硬件资源与较快地更新页面，基于主题的信息采集并不采集那些和特定主题无关的页面。

网络爬虫是搜索引擎的组成部分，其主要工作是抓取网页并下载到本地磁盘。传统的网络爬虫主要是根据一个或几个初始的种子站点进行抓取网页，在抓取过程中不断的对已下载到本地磁盘的网页进行分析，之后提取其中的URL超链接，放入到待爬取队列，不断地重复此过程，直到满足终止条件。与通用爬虫相比，主题爬虫的爬取工作就较为复杂，它需要首先对网页进行分析过滤，根据相关度的大小剔除掉一些与主题无关的页面的链接，将主题相关的页面链接放入到待爬取队列，之后主题爬虫会按照一定的爬取策略从URL队列中选择要爬取的URL，不断地重复此过程直到满足用户设定的爬取终止条件。此外由于需要对爬取下来的网页进行分析过滤有时还需要为其建立索引，以方便计算网页的主题相关度，同时根据分析的结果对以后的抓取给出反馈和指导。

为了过滤掉无关页面，只保留和主题相关的页面链接进行爬取，本发明采用了Best-First Search搜索策略，即最佳优先搜索策略，根据网页分析算法首先预测待爬取URL所对应页面的主题相似性，再从中选择一个或着几个URL进行爬取。同时该搜索算法是局部最优的，在其爬取路径上很多与主题相关的网页可能会被忽略，所以在实际实现该算法时做了相应的改进以跳出局部最优点。同时在计算主题相关度时本发明采用了余弦距离计算方式，在计算特征向量的特征值时采用了改进的TF*IDF算法。为了提高***性能，本发明采用了Berkeley DB数据库。Berkeley DB是一个嵌入式数据库，它适合于管理海量的、简单的数据。关键字/数据(key/value)是Berkeley DB用来进行数据库管理的基础。每个key/value对构成一条记录。而整个数据库实际上就是由许多这样的结构单元所构成的。通过这种方式，开发人员在使用Berkeley DB提供的API访问数据库时，只需提供关键字就能够访问到相应的数据。由于Berkeley DB数据库对数据的***采用的是哈希算法，因此能提高查重速度。

发明内容

本发明的目的在于提供一个主题爬取工具，能够自动采集专业领域的特定主题信息。具体来说，本发明内容包括以下几点。实现了主题相关度计算、网页爬取、用户爬取定制设置界面、用于主题网页爬取的Berkeley DB数据库等方面的功能，从而能为用户提供专业领域信息采集的功能。

（1）主题爬虫网页爬取模块：网页爬取模块是主题爬虫***的核心模块，主要完成与特定主题相关网页的爬取。首先对网页进行分析，根据主题相关性算法和爬取策略对网页进行过滤，只保留与主题相关的网页的链接并将其加入到待爬取URL队列，之后再根据网页爬取策略选择下一个要爬取的页面的URL，循环重复此过程，直到满足***终止条件。

（2）Berkeley DB数据库模块：Berkeley DB数据库对数据的***采用的是哈希算法，因此其查重速度是相当快的，在创建数据库后在网页下载的过程中将其URL和概要信息***到数据库中，在创建数据库配置对象时对该数据库设置延迟写功能，当在内存中存储了指定大小的数据时再一次写入磁盘，提高了***性能。

（3）主题相关度计算模块：主要是采用改进的TF*IDF算法基于向量空间模型完成对网页主题相关度的计算。在计算主题相关度时需要对网页中包含的主题关键词进行统计，需要先对网页建立索引并进行中文分词。本***中建立了两种索引，一种是对下载到本地的单个页面建立索引，另一种是对下载到本的所有页面建立索引（主要用于计算IDF值）。

（4）UI模块：主要是将主题爬虫***实现的功能通过用户界面提供给用户进行使用，主要包括参数设置、运行和统计几个选项卡，在参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数，在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数，在统计选项卡中会以图形方式呈现网页爬取情况。

（5）封装Bean：设立了两个封装Bean——UrlSerial和RunningOptionBean，前者主要实现对URL的封装和序列化，以方便在BDB数据库中存储，同时由于需要在URL优先级队列中根据该封装Bean的相关度对其进行排序，因此又需要将其定义为一个比较器。而RunningOptionBean类主要是对网络爬虫在运行时一些必需的信息的封装，以方便在其他程序中进行访问，同时完成对关键词集合的设置。

附图说明

图1为主题爬虫体系结构；

图2为主题爬虫***参数设置界面；

图3为主题爬虫***运行界面；

图4为主题爬虫***参数统计界面。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下对本发明做进一步的详细说明。本发明采用MyEclipse 8.5+ Berkeley DB工具实现。

1. 主题爬虫体系结构

主题爬虫体系结构如图1所示，其中包括页面下载、页面分析、相关度计算、已访问页面信息、URL重要性评分、URL队列几个组成部分，具体说明如下。

（1）页面下载：从URL优先级队列中取出队首元素，通过Apache工具类HttpClient对该URL对应的Web页面进行下载，保存在本地磁盘。

（2）页面分析：主要负责对页面下载模块爬取到本地磁盘的Web页面进行分析，使用HttpParser工具类进行解析，提取其中的URL、锚文本、网页标题、网页内容等信息。

（3）相关度计算：此模块主要根据页面分析模块所提取出来的信息（这里是除去html标签后的所有内容）作中文分词解析，并使用相关度分析算法计算出页面相关度（这里是主题特征向量的相关度），可能还需要和已访问的页面信息进行交互，同时将计算出来的信息保存，以便后续使用（在URL优先级队列中要用到）。

（4）已访问页面信息：这些信息主要保存在BerkeleyDB数据库中，其主要作用是持久化已访问页面的URL等信息，使用BerkeleyDB的高性能查取元素的特性进行URL消重。

（5）URL重要性评分：根据相关度计算模块计算出来的Web页面的相关度值，对该页面中所包含的URL进行一个重要性评分，然后根据评分决定是否将满足要求（达到设定阈值）的网页的URL放入待访问优先级队列，本***对不满足要求的URL和错误的无法访问的URL直接丢弃，不做进一步的处理。

（6）URL队列：此处的URL队列主要指待访问的URL优先级队列，其中存放的是根据URL重要性从大到小进行排序的URL队列，对于每次放入URL都需要进行一次排序操作，使得页面爬取模块每次取得的URL都是重要性最大的URL。

2. 主题相关度计算方法

将文档表示为空间向量，通过对空间向量之间的相似度来表示文档之间的相似性。其中相似性计算采用余弦距离方式：

（1）

其中，cos(Q _i,D _i)表示用户查询Q _i和文档D _i之间的相似性。q代表查询的特征向量，w代表文档的特征向量。这里设定一个阈值r，将相似度值和该阈值进行比较，大于该阈值就说明满足主题相似性，否则就说明该页面和特定主题无关。

除此之外，需要对网页中的主题关键词集合进行统计，本***采用的是改进的TF*IDF特征值计算方法。用TF表示指一个词在网页文档中出现的次数，这里对其加以规范化，采用的计算公式如下：

W _TF=α+(1-α)×TF/Max(TF) （2）

其中，α为调节因子；TF表示在文档中这个单词的实际出现次数；Max(TF)表示在所有关键词在该文档中出现次数最多的那个单词对应的出现次数。

IDF表示特征词在整个文档集合中的相对重要性，弥补TF只考虑关键词在单个文档中的出现次数而忽略整个全局文档的缺点。其计算公式为：

IDF _k =log(N/n _k) （3）

其中，N代表文档集合中的文档数，n _k代表特征单词k在文档集合的多少个文档中出现过。

最终的特征向量的特征权值计算公式为：

W=W _TF×IDF （4）

3. 主题爬虫***的实现

主题爬虫***主要由网页爬取模块、Berkeley数据库模块、主题相关度模块和UI模块以及一个工具类和两个封装bean组成，程序结构如表1所示。

表1 主题爬虫***的程序结构

（1）主题爬虫网页爬取模块：网页爬取模块是主题爬虫***的核心模块，主要完成与特定主题相关网页的爬取，包括网页下载、HTML解析、URL优先级队列和爬取主控程序几部分。在实现该模块时使用到了多线程及线程池技术，每次下载网页的线程都是从此线程池中获得，线程池中的线程数量由用户指定，在运行的过程中最大数目保持不变，不重复创建线程，减少了***开销。在向优先级队列中添加元素时，除了需要判断该优先级队列中是否包含该元素，还需要判断BDB持久化数据库是否包含该元素，避免重复下载已下载的网页。URL优先级队列中存放的是URL的封装对象，而BDB持久化数据库的关键字设置的是URL经MD5压缩后的字符串。

（2）Berkeley DB数据库模块：因为在网络爬虫工作的过程中需要下载大量的网页，而这些已下载的网页的URL链接必须要做相应的标记，避免重复下载。由于内存的容量是有限的，因此不可能把所有的URL信息放在内存中，由于BerkeleyDB数据库对数据的***采用的是哈希算法，查重速度比其他数据库快很多，因此在网页下载过程中将其URL和概要信息***到BerkeleyDB数据库中。在本***中为了避免URL字符串过长导致存储不方便，对URL进行了MD5压缩处理。此外在创建数据库配置对象时对该数据库设置了延迟写功能，因为本***在实际运行的过程中需要向数据库中添加大量的数据，如果每次都直接写入磁盘进行IO操作，速度会很慢，当在内存中存储了指定大小的数据时再一次写入磁盘，提高了***性能。

（3）主题相关度计算模块：主要是采用改进的TF*IDF算法基于向量空间模型完成对网页主题相关度的计算。在计算主题相关度时需要对网页中包含的主题关键词进行统计，需要先对网页建立索引。本***中建立了两种索引，一种是对下载到本地的单个页面建立索引，另一种是对下载到本地的所有页面建立索引（主要用于计算IDF值），之后采用分词技术对主题关键词进行统计。

（4）UI模块：主要是将主题爬虫***实现的功能通过用户界面提供给用户进行使用，采用的是Java中的Swing技术实现，在主窗口的窗格中添加了多个功能选项卡，如图2-图4所示，主要包括参数设置、运行和统计几个选项卡，在参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数，在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数，在统计选项卡中以图形方式呈现网页爬取情况。其中有效网页数就是已下载到本地的网页中满足指定相关度要求的网页的数目。

Claims

1.基于Berkeley DB数据库的主题爬虫***，其特征在于，该***包含如下组成部分：

主题网页爬取；

主题相关度计算；

封装Bean；

Berkeley DB数据库；

主题爬虫用户界面。

2.根据权利要求1所述的基于Berkeley DB数据库的主题爬虫***，其特征在于，该***首先对网页进行分析，根据主题相关性算法和爬取策略对网页进行过滤，只保留与主题相关的网页的链接并将其加入到待爬取URL队列，之后再根据网页爬取策略选择下一个要爬取的页面的URL，循环重复此过程，直到满足***终止条件。

3.根据权利要求1所述的基于Berkeley DB数据库的主题爬虫***，其特征在于，采用改进的TF*IDF算法基于向量空间模型完成对网页主题相关度的计算，在计算主题相关度时需要对网页中包含的主题关键词进行统计，先对网页建立索引并进行中文分词；本***中建立了两种索引，一种是对下载到本地的单个页面建立索引，另一种是对下载到本的所有页面建立索引（主要用于计算IDF值）。

4.根据权利要求1所述的基于Berkeley DB数据库的主题爬虫***，其特征在于，设立了两个封装Bean——UrlSerial和RunningOptionBean，前者主要实现对URL的封装和序列化，以方便在BDB数据库中存储，同时由于需要在URL优先级队列中根据该封装Bean的相关度对其进行排序，因此又需要将其定义为一个比较器；而RunningOptionBean类主要是对网络爬虫在运行时一些必需的信息的封装，以方便在其他程序中进行访问，同时完成对关键词集合的设置。

5.根据权利要求1所述的基于Berkeley DB数据库的主题爬虫***，其特征在于，创建一个Berkeley数据库，在网页下载的过程中将其URL和概要信息***到数据库中，在创建数据库配置对象时对该数据库设置延迟写功能，当在内存中存储了指定大小的数据时再一次写入磁盘，提高了***性能。

6.根据权利要求1所述的基于Berkeley DB数据库的主题爬虫***，其特征在于，将主题爬虫***实现的功能通过用户界面提供给用户进行使用，主要包括参数设置、运行和统计几个选项卡，在参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数，在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数，在统计选项卡中会以图形方式呈现网页爬取情况；

基于Berkeley DB数据库的主题爬虫***，其特征在于，该***包含如下组成部分：

主题网页爬取；

主题相关度计算；

封装Bean；

Berkeley DB数据库；

主题爬虫用户界面；

其中，

（1）主题爬虫网页爬取模块：网页爬取模块是主题爬虫***的核心模块，主要完成与特定主题相关网页的爬取；

首先对网页进行分析，根据主题相关性算法和爬取策略对网页进行过滤，只保留与主题相关的网页的链接并将其加入到待爬取URL队列，之后再根据网页爬取策略选择下一个要爬取的页面的URL，循环重复此过程，直到满足***终止条件；

（2）Berkeley DB数据库模块：Berkeley DB数据库对数据的***采用的是哈希算法，因此其查重速度是相当快的，在创建数据库后在网页下载的过程中将其URL和概要信息***到数据库中，在创建数据库配置对象时对该数据库设置延迟写功能，当在内存中存储了指定大小的数据时再一次写入磁盘，提高了***性能；

（3）主题相关度计算模块：主要是采用改进的TF*IDF算法基于向量空间模型完成对网页主题相关度的计算；

在计算主题相关度时需要对网页中包含的主题关键词进行统计，需要先对网页建立索引并进行中文分词；

本***中建立了两种索引，一种是对下载到本地的单个页面建立索引，另一种是对下载到本的所有页面建立索引（主要用于计算IDF值）；

（4）UI模块：主要是将主题爬虫***实现的功能通过用户界面提供给用户进行使用，主要包括参数设置、运行和统计几个选项卡，在参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数，在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数，在统计选项卡中会以图形方式呈现网页爬取情况；

（5）封装Bean：设立了两个封装Bean——UrlSerial和RunningOptionBean，前者主要实现对URL的封装和序列化，以方便在BDB数据库中存储，同时由于需要在URL优先级队列中根据该封装Bean的相关度对其进行排序，因此又需要将其定义为一个比较器；

而RunningOptionBean类主要是对网络爬虫在运行时一些必需的信息的封装，以方便在其他程序中进行访问，同时完成对关键词集合的设置。