CN106649823A

CN106649823A - 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法

Info

Publication number: CN106649823A
Application number: CN201611247621.5A
Authority: CN
Inventors: 掌明; 卢艳宏; 杨瑞; 樊纪山; 王经卓; 宋永献; 孙巧榆; 张金学; 洪露
Original assignee: Huaihai Institute of Techology
Current assignee: Huaihai Institute of Techology
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-10

Abstract

本发明公开了一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，属于网页搜索引擎技术领域，本发明是针对网页中动态变化的主题词垂直搜索引擎中的网页识别方法研究，主要研究如何判断一个动态变化的网页是否与主题词相关，通过计算页面的主题词关联度，筛出与综合主题词关联度较大的URL进入待爬行队列，利用垂直搜索和聚焦爬虫技术获得网页的分类信息，设计了网页分类识别模型和算法，通过对动态变化的网页识别，获得不同分类的URL，为用户对提供网页的精准搜索，也能给出未知的URL所属网页分类。本发明对于动态网页的分类识别具有非常广泛的意义和较高的应用价值。

Description

基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法

技术领域

本发明涉及网页搜索引擎技术领域，具体的涉及一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法。

背景技术

随着垂直搜索引擎的日益流行，作为垂直搜索引擎的关键技术—聚焦爬虫也显得越来越重要。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择地访问万维网上的网页与相关的链接，获取所需要的信息；爬虫最主要的处理对象就是URL，它根据URL地址取得所需要的文件内容，然后对它进行进一步的处理。

随着互联网的快速增长，网络上的信息量也在呈***性的呈现，人们特别关注如何在海量的信息中获取有效的信息，通用搜索引擎给人们提供了很多的便利，但无法满足个性化、多样化和精确化的需求，所以垂直搜索的出现受到了普遍关注，它搜索某一个特定行业或者主题的信息，针对性和目的性更强；通过主题词来提供语义信息查询，能满足特定用户的特殊需求；它更加专业，返回的结果也更具有针对性，使用很少的服务器资源可以覆盖某一特定行业、主题的数据。而聚焦爬虫作为垂直搜索的核心构件，根据指定的主题词访问互联网上相关的网页与链接，抓取需要的信息。

基本的垂直搜索和聚焦爬虫的网页分类识别方法包括下列步骤：

(1)输入待查询综合主题词；

(2)创建爬虫；

(3)读取预设网址导航站点的URL列表；

(4)判断URL列表是否为空，若为空，则转步骤(8)；

(5)取出一个站点URL，将其放入未访问的URL列表(UVURL列表)中；

(6)判断UVURL列表是否为空，若为空，则转步骤(3)；

(7)从UVURL列表中取出一个URL，根据表VURL判断此URL是否被访问过，若是，则转步骤(6)；

(8)对取得的URL进行网页源码获取，利用垂直搜索技术和聚焦爬虫技术对网页内容解析，获取此站点下的网页类别信息及各个类别中对应的网址信息；

(9)将网页类别信息及各个类别中对应的网址信息加入到Category列表中；

(10)从表UVURL中删除URL，并将其添加到VURL中，转步骤(6)；

(11)结束。

该方法存在一定的难度，有如下原因：聚焦爬虫很难从待爬行URL队列中选出与主题信息关系密切的爬行队列；网络爬虫在URL提取过程中，采用深度、宽度等搜索策略，容易产生“维数灾”问题；现有的很多开源爬虫***从抓取的网页中获取结构化信息的功能较弱；现有的聚焦爬虫策略很难适应网页的内容和结构的动态变化。综上所述，传统的聚焦爬虫技术不同类别的网页识别率较低，必须另辟蹊径。

发明内容

1.要解决的技术问题

本发明要解决的技术问题在于提供一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，通过对基于综合主题词的垂直搜索和聚焦爬虫技术研究，我们能够较好的解决下列问题：

(1)利用超链接价值和综合主题词相关性价值构建待爬行URL队列。

(2)能够根据用户特定的综合主题词的特殊搜索得到具有针对性的精准搜索结果。

(3)通过综合主题词垂直搜索和聚焦爬虫获取未知URL所属的网页类别。

2.技术方案

为解决上述问题，本发明采取如下技术方案：

通过对网站观察和分析发现如下规律：网站基本上由目录页面和内容页面组成，目录页面包含许多指向各种不同内容页面的链接，而内容页面则包括属于该页面内容的网站链接。属于同一类别的页面之间有着很强的相似性，即有相似的结构，可以通过正则表达式来获取页面的结构化信息。为了适应网页内容不定期的变化，更好的抽取页面特征的网页结构化信息，引入了URL正则表达式学习器来适应网页的动态变化和解决主题词孤岛问题，需要同时获取与主题词相关页面的URL正则表达式、与主题词相关的目录页面的正则表达式，只抓取和这两类正则表达式匹配的URL。与此同时本发明提出了基于综合主题词的定向深度优先搜索策略。

一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，包括如下步骤：

(1)输入待查询综合主题词；

(2)创建爬虫；

(3)调用页面内容分析算法；

(4)读取网址搜索表Search；

(5)判断网址搜索表Search是否为空，若为空则转步骤(15)；

(6)取出Search表中第一个URL，将其放入UVURL列表中；

(7)删除Search表中的第一个URL；

(8)判断UVURL列表是否为空，若为空则转步骤(4)；

(9)若UVURL列表不为空，则从UVURL列表中取出一个URL；

(10)根据表VURL判断此URL是否被访问过，若是，则转步骤(8)；

(11)若上述URL未被访问过，则获取该URL对应的网页源码；

(12)利用分布式垂直搜索和聚焦爬虫技术对网页内容解析，获取该URL的网页类别信息及对应的网址信息；

(13)将网页类别信息及对应的网址信息加入到Category列表中；

(14)从表UVURL中删除URL，并将其添加到VURL中，转步骤(8)；

(15)结束。

进一步地，步骤(3)中所述页面内容分析算法为：通过主题词关联度的计算，获取和综合主题词关联度最大的N个页面，通过垂直搜索和聚焦爬虫来准确识别页面的类别和对应的网址信息，具体步骤如下：

1)利用聚焦爬虫技术获取网页的源文件；

2)判断该网页是否同时匹配URL正则表达式定时学习器获取的与综合主题词相关页面的内容页面的正则表达式、与综合主题词相关页面的目录页面的正则表达式，若不匹配，则转步骤9)；

3)利用正则表达式抽取网页的结构化信息；

4)调用综合主题词关联度计算方法，得到该页面的综合主题词关联度值；

5)读取页面的综合主题词关联度R，并判断是否大于设定的阀值α，若不是，则放弃该页面，转步骤1)；

6)若该页面的综合主题词关联度R大于设定的阀值α，则把该页面的综合主题词关联度R值填入关联表Relevance中；

7)利用正则表达式从该页面的结构化信息中提取出新链接；

8)把该将新链填写到对应的Relevance表中，并按照Relevance值的降序方式排序；

9)判断Relevance表是否为空，若为空，则转步骤13)；

10)取出Relevance表的第一个URL，判断此URL是否满足搜索策略，若不满足，则转向步骤9)；

11)将满足搜索策略的URL加入到网址搜索表Search中，同时删除Relevance表中的第一个URL；

12)转向步骤1)；

13)结束。

更进一步地，步骤4)中所述的综合主题词关联度计算方法为：通过综合主题词的不同权重值体现待搜索页面的主题词的紧密度，按照词频度构建页面特征项库，并根据每个特征项处于页面的不同位置设置不同的权重来获得页面与综合主题词的关联度，具体步骤如下：

①构建M个主题词的综合权重向量q＝(q₁,q₂,...,q_M),其中q_i表示第i个主题词在查询表达式中的权值；

②获取待提取特征项页面；

③页面中单词词干提取：提取文本的分词做过滤处理--过滤掉抽象的或对检索无关的单词，并去除无关的前缀和后缀；

④计算提取出来的单词的词频度；

⑤过滤掉词频度小于设定阀值T的特征项，选取n个特征项构成页面特征项库(若页面中词频度大于T的特征项个数大于n，则按词频度从大到小选取n个特征项，若页面中词频度大于T的特征项个数小于n，则不足的词频度特征项全部为0),设为p＝(p₁,p₂,…,p_n)；

⑥若特征库中的特征项位于<title>标签中，设r＝5.0,若特征项在<meta>中，设r＝3.0,若特征项在<a>中，设r＝2.0,其他情况下设r＝1.0。构成特征项权重向量集合r＝(r₁，r₂，…，r_n)；

⑦对M个主题词依次在页面特征项库中查找其对应的p_i，若在特征项库中未找到，则记为0，构成的向量为p′＝(p₁′,p₂′,…,p_n′)；

⑧计算该页面中的综合主题词关联度R，其公式如下：

⑨结束。

3.有益效果

本发明在网页特征抓取的过程中，先根据网页与综合主题词的关联度大小构建搜索表，定向抽取网页的结构化信息，然后用深度优先策略从结构化信息中抓取与主题词关系密切的网页。最后获取与主题词关联度大的网页的URL及分类信息放入表Category中。该方法能有效减少采集页面的数量，同时节约网络带宽和提高信息搜索的效率。

本发明主要目的是针对动态变化的网页建立一种基于综合性主题词垂直搜索和聚焦爬虫技术的网页分类识别方法，给出识别模型和相关算法，通过对动态变化的网页识别，获得不同分类的URL，为用户对提供网页的精准搜索，也能给出未知的URL所属网页分类。

本发明对于动态网页的分类识别具有非常广泛的意义和较高的应用价值。主要可以应用于：专业人员对专业领域内特定信息的垂直搜索；深度搜索和挖掘；有效检索隐蔽网络资源和利用；WEB页面分析；提高多个主题词搜索的效率；建立数字图书馆。

附图说明

图1是基于综合主题词的垂直搜索和聚焦爬虫网页分类识别方法流程图，其中，UVURL表存放未访问的URL，VURL表存放已访问的URL，Category存放已识别的URL；

图2是网页内容解析方法的流程图；

图3是页面与主题词关联度计算方法流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细的说明。

实施例

本发明提出了一种能有效识别动态网页中各类URL的技术架构，并给出了详细的算法。***共分三层，自顶向下依次为：采集层、解析层和表示层。

1.网页数据采集层

功能：该层的主要功能是实现对动态网页数据的采集，并交给上一层面做内容解析处理。

接口：该层是聚焦爬虫和网络的接口，负责向上一层提供网页源码字符串输入数据

2.网页内容解析层

功能：该层是整个设计的核心层，主要根据网页数据采集层采集到的页面进行内容解析，根据主题词相关权重获取有效的超链接，构建待爬行URL队列顺序表。主题词相关页面链接中的URL格式的多样性需要采用网页内容解析算法来获取网页的结构化信息，构建相关的主题词库，用分布式垂直搜索方法获取待爬行网页的URL，得到综合主题词库关联度和URL的对应关系表Category，用来满足上一层对网页分类的搜索。

接口：该层的综合主题词关联度网页识别与上一层的接口是一张对应关系表，即综合主题词关联度和URL对应表。

该层的主要方法：网页内容解析算法，它主要有三个部分：获取关于动态网页的结构化信息、计算页面与主题词关联度、构建待爬行的URL关系表及聚焦爬虫的具体爬行策略。

页面与综合主题词关联度计算方法。具体流程如图3所示：

①构建M个主题词的综合权重向量q＝(q₁,q₂,…,q_M),其中q_i表示第i个主题词在查询表达式中的权值；

②获取待提取特征项页面；

④计算提取出来的单词的词频度；

⑧计算该页面中的综合主题词关联度R，其公式如下：

⑨结束。

网页内容解析算法。具体算法流程如图2所示：

1)利用聚焦爬虫技术获取网页的源文件；

3)利用正则表达式抽取网页的结构化信息；

7)利用正则表达式从该页面的结构化信息中提取出新链接；

9)判断Relevance表是否为空，若为空，则转步骤13)；

12)转向步骤1)；

13)结束。

3.网页分类识别的应用表示层

功能：为用户提供主题词输入和搜索结果的反馈。用户通过输入多个主题词可以精确地搜索到特定范围内的网址；也可以把未知的URL所属的网站分类提供给用户。

基于综合主题词的垂直搜索和聚焦爬虫技术网页分类识别方法。方法流程图如图1所示：

(1)输入待查询综合主题词；

(2)创建爬虫；

(3)调用页面内容分析算法；

(4)读取网址搜索表Search；

(5)判断网址搜索表Search是否为空，若为空则转步骤(15)；

(6)取出Search表中第一个URL，将其放入UVURL列表中；

(7)删除Search表中的第一个URL；

(8)判断UVURL列表是否为空，若为空则转步骤(4)；

(9)若UVURL列表不为空，则从UVURL列表中取出一个URL；

(10)根据表VURL判断此URL是否被访问过，若是，则转步骤(8)；

(11)若上述URL未被访问过，则获取该URL对应的网页源码；

(13)将网页类别信息及对应的网址信息加入到Category列表中；

(14)从表UVURL中删除URL，并将其添加到VURL中，转步骤(8)；

(15)结束。

本发明是针对网页中动态变化的主题词分布式垂直搜索引擎中的网页识别方法研究，主要研究如何判断一个动态变化的网页是否与主题词相关，通过计算页面的主题词关联度，筛出与综合主题词关联度较大的URL进入待爬行队列，利用垂直搜索和聚焦爬虫技术获得网页的分类信息，设计了网页分类识别模型和算法。

具体地，本发明在网页特征抓取的过程中，先根据网页与综合主题词的关联度大小构建搜索表，定向抽取网页的结构化信息；然后用深度优先策略从结构化信息中抓取与主题词关系密切的网页；最后获取与主题词关联度大的网页的URL及分类信息放入表Category中。该方法能有效减少采集页面的数量，同时节约网络带宽和提高信息搜索的效率。

基于综合主题词的搜索和网络用户行为分析***采用B/S架构，用vs2005+oracle9i作为开发环境，用户可方便接入到已有的需要进行网站分类的***。只需要修改配置文件就可以在一台或多台PC机上运行。该***已在苏州锐创通信有限公司进行了验证。该***在中文站点ALEXA TOP100中准确获取与综合主题词关联度大的URL的成功率达到97％，在全球站点ALEXA TOP 500中可以达到87％的覆盖率，在一些特色网站上获取与主题词关联度大的的URL比率达到53％。通过在苏州锐创通信有限公司的运行和测试验证了此方法的准确性。

本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求范围内。

Claims

1.一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，其特征在于，创建爬虫后，通过页面内容分析算法得到网址搜索表Search，具体步骤如下：

(1)利用聚焦爬虫技术获取网页的源文件；

(2)判断该网页是否同时匹配相关内容页面及目录页面的结构特征，若不匹配，则转步骤(9)；

(3)利用正则表达式抽取网页的结构化信息；

(4)调用综合主题词关联度计算方法，得到该页面的综合主题词关联度值，所述综合主题词关联度计算方法的具体步骤为：

②获取待提取特征项页面；

③页面中单词词干提取：提取文本的分词做过滤处理，过滤掉抽象的或对检索无关的单词，并去除无关的前缀和后缀；

④计算提取出来的单词的词频度；

⑤过滤掉词频度小于设定阀值T的特征项，选取n个特征项构成页面特征项库,设为p＝(p₁,p₂,…,p_n)；

⑧计算该页面中的综合主题词关联度R，其公式如下：

R = Σ_{i = 1}^{M} P_{i} * {p^{'}}_{i} * r_{i}

(5)读取页面的综合主题词关联度R，并判断是否大于设定的阀值α，若不是，则放弃该页面，转步骤(1)；

(6)若该页面的综合主题词关联度R大于设定的阀值α，则把该页面的综合主题词关联度R值填入关联表Relevance中；

(7)利用正则表达式从该页面的结构化信息中提取出新链接；

(8)把该将新链填写到对应的Relevance表中，并按照Relevance值的降序方式排序；

(9)判断Relevance表是否为空，若为空，则转步骤(13)；

(10)取出Relevance表中的第一个URL，判断此URL是否满足搜索策略，若不满足，则转向步骤(9)；

(11)将满足搜索策略的URL加入到网址搜索表Search中，同时删除Relevance表中的第一个URL；

(12)转向步骤(1)；

(13)结束；

得到网址搜索表Search后，读取网址搜索表Search，然后进行获取与主题词关联度大的网页的URL及分类信息的工作。

2.根据权利要求1所述的一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，其特征在于，步骤(2)中引入URL正则表达式学习器来获取与主题词相关内容页面的URL正则表达式、与主题词相关的目录页面的正则表达式，通过正则表达式验证该网页是否匹配相关内容页面及目录页面的结构特征。

3.根据权利要求1所述的一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法，其特征在于，步骤(4)⑤中选取n个特征项构成页面特征项库时，若页面中词频度大于T的特征项个数大于n，则按词频度从大到小选取n个特征项；若页面中词频度大于T的特征项个数小于n，则不足的词频度特征项全部为0。