CN105528422A

CN105528422A - 一种主题爬虫处理方法及装置

Info

Publication number: CN105528422A
Application number: CN201510890437.1A
Authority: CN
Inventors: 张晨; 邵小亮; 谢隆飞; 王全礼
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2015-12-07
Filing date: 2015-12-07
Publication date: 2016-04-27
Anticipated expiration: 2035-12-07
Also published as: CN105528422B

Abstract

本发明提供一种主题爬虫处理方法及装置，在获取到网页文档后，至少从网页文档中提取网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息，基于这些特征信息对网页文档进行主题相关性分析，得到分类结果，并在基于分类结果将网页文档存储至网页文档集合中的情况下，基于网页文档集合中网页文档增量情况，对主题分类器进行训练，因此在基于主题爬虫爬取的过程中，还可以对于主题爬虫相关的主题分类模型进行训练，使得主题爬虫基于的主题分类模型更接近于搜索主题，这样主题爬虫在基于主题分类模型进行爬取时，爬取到的内容与搜索主题更加相关，从而提高爬取的精确率和召回率。

Description

一种主题爬虫处理方法及装置

技术领域

本发明属于网络爬虫技术领域，更具体的说，尤其涉及一种主题爬虫处理方法及装置。

背景技术

网络爬虫，是一种“自动化浏览网络”的程序，或者说是一种网络机器人，目前网络爬虫已被广泛用于互联网搜索引擎或其他类似网站，其可以自动采集所有搜索引擎或网站中其能够访问到的页面内容，使得用户能够更快的通过网络爬虫检索到需要的信息，并且通过网络爬虫采集到的页面内容可以供搜索引擎或者网站做进一步处理，以使搜索引擎或网站可以基于采集到的页面内容进行训练。

在网络爬虫的基础上演变出一种主题爬虫，即主题爬虫作为网络爬虫的一种，其是一种带主题判别模块的网络爬虫，可以根据搜索主题，爬取互联网上与搜索主题相关的网络信息。目前主题爬虫主要是基于关键词或者正则表达式构建，这种方式使其爬取的内容存在低召回率的问题。

发明内容

有鉴于此，本发明的目的在于提供一种主题爬虫处理方法，用于提高召回率。技术方案如下：

本发明提供一种主题爬虫处理方法，所述方法包括：

获取待爬取队列中统一资源定位符对应的网页文档；

从所述网页文档中提取特征信息，其中所述特征信息至少包括网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息；

基于所述特征信息对所述网页文档进行主题相关性分类，得到分类结果；

基于所述分类结果，确定是否将所述网页文档存储至网页文档集合中；

当基于所述分类结果将所述网页文档存储至网页文档集合中时，基于网页文档集合中网页文档增量情况，对与所述主题爬虫相关的主题分类模型进行训练。

优选地，在获取待爬取队列中统一资源定位符对应的网页文档之后，所述方法还包括：判断所述统一资源定位符对应的页面是否是导航页；

如果是，则对所述导航页进行解析，获取所述导航页中的统一资源定位符，并将获取到的统一资源定位符写入所述待爬取队列中；

如果否，则触发从所述网页文档中提取特征信息的步骤。

优选地，所述从所述网页文档中提取特征信息，包括：

对所述网页文档的标题进行分词，得到第一分词结果，并基于所述第一分词结果，得到所述标题的一元组集合；

使用第一特征函数，对所述标题中各个词和所述标题的一元组集合的关系进行判定，得到标题特征向量，所述标题特征向量用于指示所述标题中各个词和所述一元组集合的关系；

对所述网页文档中元信息的关键词元信息进行分词，得到第二分词结果，并基于所述第二分词结果，得到所述关键词元信息的一元组集合；

使用第二特征函数，对所述关键词元信息中各个关键词和所述关键词元信息的一元组集合的关系进行判定，得到关键词特征向量，所述关键词特征向量用于指示所述关键词元信息中各个关键词和所述关键词元信息的一元组集合的关系；

对所述网页文档中元信息的描述元信息进行分词，得到第三分词结果，并基于所述第二分词结果，得到所述描述元信息的一元组集合；

使用第三特征函数，对所述描述元信息中各个网页描述词和所述描述元信息的一元组集合的关系进行判定，得到描述特征向量，所述描述特征向量用于指示所述描述元信息中各个网页描述词和所述描述元信息的一元组集合的关系；

对所述网页文档的网页正文进行处理后，得到所述网页正文的一元组集合和所述网页正文的二元组集合；

使用第四特征函数，对所述网页正文中各个关键词和所述网页正文的一元组集合的关系进行判定，得到网页正文的第一特征向量，所述网页正文的第一特征向量用于指示所述网页正文中各个关键词和所述网页正文的一元组集合的关系；

使用第五特征函数，对所述网页正文中各个关键词和所述网页正文的二元组集合的关系进行判定，得到网页正文的第二特征向量，所述网页正文的第二特征向量用于指示所述网页正文中各个关键词和所述网页正文的二元组集合的关系。

优选地，所述基于所述分类结果，确定是否将所述网页文档存储至网页文档集合中，包括：

当所述分类结果指示所述网页文档与搜索主题相关时，判断所述网页文档的主题相关概率是否大于主题相关概率阈值，其中所述搜索主题为所述主题爬虫爬取的主题；

当判断出所述网页文档的主题相关概率大于主题相关概率阈值时，将所述网页文档存储至所述网页文档集合中；

当所述分类结果指示所述网页文档与所述搜索主题不相关时，判断所述网页文档集合中主题相关文档数量与非主题相关文档数量之比是否小于主题相关占比阈值，其中所述主题相关文档数量是指与所述搜索主题相关的网页文档的数量，所述非主题相关文档数量是指与所述搜索主题不相关的网页文档的数量；

当判断出所述网页文档集合中主题相关文档数量与非主题相关文档数量之比小于主题相关占比阈值时，将所述网页文档存储至所述网页文档集合中。

优选地，所述当基于所述分类结果将所述网页文档存储至网页文档集合中时，基于网页文档集合中网页文档增量情况，对与所述主题爬虫相关的主题分类模型进行训练，包括：

当所述网页文档存储至所述网页文档集合中时，对增量计数器进行加一处理，其中所述增量计数器的初始值为0，且所述网页文档集合中每存储一个网页文档，所述增量计数器自动加一；

判断所述增量计数器的取值是否大于增量阈值，如果是，对所述主题分类模型进行重新训练，且将所述增量计数器的取值更新为初始值。

本发明还提供一种主题爬虫处理装置，所述装置包括：

获取单元，用于获取待爬取队列中统一资源定位符对应的网页文档；

提取单元，用于从所述网页文档中提取特征信息，其中所述特征信息至少包括网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息；

分类单元，用于基于所述特征信息对所述网页文档进行主题相关性分类，得到分类结果；

判断单元，用于基于所述分类结果，确定是否将所述网页文档存储至网页文档集合中；

训练单元，用于当基于所述分类结果将所述网页文档存储至网页文档集合中时，基于网页文档集合中网页文档增量情况，对与所述主题爬虫相关的主题分类模型进行训练。

优选地，所述装置还包括：页面判断单元，用于判断所述统一资源定位符对应的页面是否是导航页，如果是则触发所述获取单元对所述导航页进行解析，获取所述导航页中的统一资源定位符，并将获取到的统一资源定位符写入所述待爬取队列中；如果否则触发所述提取单元。

优选地，所述提取单元包括：

第一分词子单元，用于对所述网页文档的标题进行分词，得到第一分词结果，并基于所述第一分词结果，得到所述标题的一元组集合；

标题特征向量获取子单元，用于使用第一特征函数，对所述标题中各个词和所述标题的一元组集合的关系进行判定，得到标题特征向量，所述标题特征向量用于指示所述标题中各个词和所述一元组集合的关系；

第二分词子单元，用于对所述网页文档中元信息的关键词元信息进行分词，得到第二分词结果，并基于所述第二分词结果，得到所述关键词元信息的一元组集合；

关键词特征向量获取子单元，用于使用第二特征函数，对所述关键词元信息中各个关键词和所述关键词元信息的一元组集合的关系进行判定，得到关键词特征向量，所述关键词特征向量用于指示所述关键词元信息中各个关键词和所述关键词元信息的一元组集合的关系；

第三分词子单元，用于对所述网页文档中元信息的描述元信息进行分词，得到第三分词结果，并基于所述第二分词结果，得到所述描述元信息的一元组集合；

描述特征向量获取子单元，用于使用第三特征函数，对所述描述元信息中各个网页描述词和所述描述元信息的一元组集合的关系进行判定，得到描述特征向量，所述描述特征向量用于指示所述描述元信息中各个网页描述词和所述描述元信息的一元组集合的关系；

第四分词子单元，用于对所述网页文档的网页正文进行处理后，得到所述网页正文的一元组集合和所述网页正文的二元组集合；

第一特征向量获取子单元，用于使用第四特征函数，对所述网页正文中各个关键词和所述网页正文的一元组集合的关系进行判定，得到网页正文的第一特征向量，所述网页正文的第一特征向量用于指示所述网页正文中各个关键词和所述网页正文的一元组集合的关系；

第二特征向量获取子单元，用于使用第五特征函数，对所述网页正文中各个关键词和所述网页正文的二元组集合的关系进行判定，得到网页正文的第二特征向量，所述网页正文的第二特征向量用于指示所述网页正文中各个关键词和所述网页正文的二元组集合的关系。

优选地，所述判断单元包括：

第一判断子单元，用于当所述分类结果指示所述网页文档与搜索主题相关时，判断所述网页文档的主题相关概率是否大于主题相关概率阈值，其中所述搜索主题为所述主题爬虫爬取的主题；

第一存储子单元，用于当判断出所述网页文档的主题相关概率大于主题相关概率阈值时，将所述网页文档存储至所述网页文档集合中；

第二判断子单元，用于当所述分类结果指示所述网页文档与所述搜索主题不相关时，判断所述网页文档集合中主题相关文档数量与非主题相关文档数量之比是否小于主题相关占比阈值，其中所述主题相关文档数量是指与所述搜索主题相关的网页文档的数量，所述非主题相关文档数量是指与所述搜索主题不相关的网页文档的数量；

第二存储子单元，用于当判断出所述网页文档集合中主题相关文档数量与非主题相关文档数量之比小于主题相关占比阈值时，将所述网页文档存储至所述网页文档集合中。

优选地，所述训练单元包括：

计数器，用于当所述网页文档存储至所述网页文档集合中时，对增量计数器进行加一处理，其中所述增量计数器的初始值为0，且所述网页文档集合中每存储一个网页文档，所述增量计数器自动加一；

判断子单元，用于判断所述增量计数器的取值是否大于增量阈值；

训练子单元，用于当所述增量计数器的取值大于增量阈值时，对所述主题分类模型进行重新训练，且将所述增量计数器的取值更新为初始值。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

本发明提供的上述技术方案中，在获取到网页文档后，至少从网页文档中提取网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息，基于这些特征信息对网页文档进行主题相关性分析，得到分类结果，并在基于分类结果将网页文档存储至网页文档集合中的情况下，基于网页文档集合中网页文档增量情况，对主题分类器进行训练，因此在基于主题爬虫爬取的过程中，还可以对于主题爬虫相关的主题分类模型进行训练，使得主题爬虫基于的主题分类模型更接近于搜索主题，这样主题爬虫在基于主题分类模型进行爬取时，爬取到的内容与搜索主题更加相关，从而提高爬取的精确率和召回率。

并且本发明实施例在对主题分类模型进行训练时，采用的特征信息是主题爬虫在爬取过程中自动采集的信息，相对于人工标注数据训练主题分类模型的方式来说，降低人工标注数据的工作量。此外在对主题分类模型进行重新训练时，都会将新添加在网页文档集合中的网页文档作为训练输入变量纳入到主题分类模型中训练，使得训练输入变量增加，因此可以得到新的主题分类模型，并基于新的主题分类模型判断出新的主题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的主题爬虫处理方法的一种流程图；

图2是本发明实施例提供的主题爬虫处理方法的一种子流程图；

图3是本发明实施例提供的主题爬虫处理方法的另一种子流程图；

图4是本发明实施例提供的主题爬虫处理方法的另一种流程图；

图5是本发明实施例提供的主题爬虫处理装置的一种结构示意图；

图6是本发明实施例提供的主题爬虫处理装置中提取单元的结构示意图；

图7是本发明实施例提供的主题爬虫处理装置中判断单元的结构示意图；

图8是本发明实施例提供的主题爬虫装置的另一种结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的主题爬虫处理方法的一种流程图，可以包括以下步骤：

101：获取待爬取队列中统一资源定位符(UniformResourceLocator，URL)对应的网页文档。在本发明实施例中，主题爬虫可以通过现有技术进行页面资源请求，并采用现有技术解析出各个请求中的URL并添加至待爬取队列中。

例如主题爬虫使用开源的超文本传输协议(HyperTextTransferProtocol，HTTP)工具包中的ApacheHttpClient进行页面资源请求，其中ApacheHttpClient是使用Java语言的软件开发工具包(JavaDevelopmentKit，JDK)中提供的原生多线程包封装得到的进行并行的页面资源请求的工具。并且使用JDK中提供的原生多线程包进行解析，解析出来的URL添加至待爬取队列。

102：从网页文档中提取特征信息，其中特征信息至少包括网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息。

也就是说本发明实施例至少从网页文档的网络标题、元信息和网页正文中提取特征信息，而这三部分尤其是网络标题和元信息可以指示出网页文档对应的主题，因此通过从这三部分提取到的特征信息更贴合于主题。

其中元信息是网页文档对应的超文本记录语言(HyperTextMark-upLanguage，Html)文件的meta(元)标签中包含的网页文档的概括信息，如关键词、主题等，根据meta标签中的内容即可以提取到元信息中的各种特征信息，在本发明实施例中，采用元信息中的关键词元信息和元信息中的描述元信息，从关键词元信息中提取关键词特征信息以及从描述元信息中提取描述特征信息。

之所以从关键词元信息和描述元信息中提取特征信息是因为：关键词元信息是网页开发者写入的具有概括性的关键词信息，其至少包括网页文档的关键主题，形式如：<metaname＝"keywords"content＝"波兰申请加入亚投行系首个中东欧申请国">。描述元信息则是meta标签的名称，其记录的内容与关键词元信息类似，也是一些与干建筑体相关的概括性的信息，例如：“<metaname＝"Description"content＝"波兰申请加入亚投行系首个中东欧申请国波兰是中东欧最大的经济体。">”，即关键词元信息和描述元信息与网页文档的主题的相关性较高，因此优选元信息中的关键词元信息和描述元信息中提取特征。

在本发明实施例，上述特征信息的获取过程如图2所示，可以包括以下步骤：

201：对网页文档的标题进行分词，得到第一分词结果，并基于第一分词结果，得到标题的一元组集合。可以理解的是：标题是网页文档中一段起概括作用的描述性文字，对判断网页文档是否与主题相关有良好的指向性。

在本发明实施例中对标题的分词可以采用现有分词技术，如采用斯坦福分词技术对标题进行分词，得到第一分词结果，其中第一分词结果是标题分词后，每个词组成的单词集合，然后基于第一分词结果中各个词在标题中出现的前后顺序，得到一元组集合。

例如：“波兰申请加入亚投行系首个中东欧申请国”在分词后，得到的一元组集合为：(波兰)，(申请)，(加入)，(亚投行)，(首个)，(中东欧)，(申请国)。

在这里需要说明的一点是：在分词后，按照词在文档中出现的从前到后的顺序，每个分词结果可以看成是一个时间序列，其中的每个词处在一个时间t上，一元组集合中每个一元组就是当前时间t的词(w(t))；以此类推，二元组集合中每个二元组就是时间t和时间t-1的词的组合(w(t-1),w(t))，以“波兰申请加入亚投行系首个中东欧申请国”为例，二元组集合则是(波兰，愿意)，(愿意，加入)，(加入，亚投行)，(亚投行，首个)，(首个，中东欧)，(中东欧，申请国)。

202：使用第一特征函数，对标题中各个词和标题的一元组集合的关系进行判定，得到标题特征向量，标题特征向量用于指示标题中各个词和一元组集合的关系。在本发明实施例中，第一特征函数的形式如下：

从第一特征函数可以看出，当标题中的词w属于一元组集合中的一个一元组时，特征值为1，否则特征值为0，通过第一特征函数，可以得到一个由0和1组成的标题特征向量。

203：对网页文档中元信息的关键词元信息进行分词，得到第二分词结果，并基于第二分词结果，得到关键词元信息的一元组集合。关键词元信息的形式如：<metaname＝"keywords"content＝"波兰申请加入亚投行系首个中东欧申请国">。在对其进行分词时，首先提取出content属性中的信息：“波兰申请加入亚投行系首个中东欧申请国”，然后进行分词得到一元组集合。例如：“波兰申请加入亚投行系首个中东欧申请国”，构建的一元组集合为：(波兰)，(申请)，(加入)，(亚投行)，(首个)，(中东欧)，(申请国)。

204：使用第二特征函数，对关键词元信息中各个关键词和关键词元信息的一元组集合的关系进行判定，得到关键词特征向量，关键词特征向量用于指示关键词元信息中各个关键词和关键词元信息的一元组集合的关系。在本发明实施例中，第二特征函数的形式如下：

通过第二特征函数，可以得到一个由0和1组成的关键词特征向量。

205：对网页文档中元信息的描述元信息进行分词，得到第三分词结果，并基于第二分词结果，得到描述元信息的一元组集合。描述元信息的形式如：“<metaname＝"Description"content＝"波兰申请加入亚投行系首个中东欧申请国波兰是中东欧最大的经济体。">”。在对其进行分词时，首先提取出name属性中的信息：“波兰申请加入亚投行系首个中东欧申请国波兰是中东欧最大的经济体”，然后进行分词得到一元组集合。

206：使用第三特征函数，对描述元信息中各个网页描述词和描述元信息的一元组集合的关系进行判定，得到描述特征向量，描述特征向量用于指示描述元信息中各个网页描述词和描述元信息的一元组集合的关系。在本发明实施例中，第三特征函数的形式如下：

通过第三特征函数，可以得到一个由0和1组成的描述特征向量。

207：对网页文档的网页正文进行处理后，得到网页正文的一元组集合和网页正文的二元组集合。在得到一个网页文档后，需要从网页文档中提取出网页正文，例如可以采用中国哈尔滨工业大学提出的开源算法《基于行块分布函数的通用网页正文抽取》方法中的开源代码CXExtractor进行网页正文的提取。

在提取出网页正文后，会对网页正文进行一系列的预处理，如通过正则表达式，过滤替换掉网页正文中的特殊字符，如表1所示：

表1网页正文中的特殊字符

去掉特殊字符之后，对网页文本进行分词，并根据停词表去除分词结果中的停用词，即最终网页文本的分词结果中不包括特殊字符和停用词。

按照网页文本的分词结果中各个词在网页文本中出现的顺序，构建一个词的一元组、二元组。构建出的一元组组成网页正文的一元组集合，构建出的二元组组成网页正文的二元组集合。

例如网页正文中部分内容为：波兰愿意以创始成员国身份加入中国主导的亚投行，则其一元组集合为：(波兰)，(愿意)，(创始)，(成员国)，(身份)，(加入)，(中国)，(主导)，(亚投行)；二元组集合为：(波兰，愿意)，(愿意，创始)，(创始，成员国)，(成员国，身份)，(身份，加入)，(加入，中国)，(中国，主导)，(主导，亚投行)。

208：使用第四特征函数，对网页正文中各个关键词和网页正文的一元组集合的关系进行判定，得到网页正文的第一特征向量，网页正文的第一特征向量用于指示网页正文中各个关键词和网页正文的一元组集合的关系。在本发明实施例中，第四特征函数的形式如下：

通过第四特征函数，可以得到一个由0和1组成的第一特征向量。

209：使用第五特征函数，对网页正文中各个关键词和网页正文的二元组集合的关系进行判定，得到网页正文的第二特征向量，网页正文的第二特征向量用于指示网页正文中各个关键词和网页正文的二元组集合的关系。在本发明实施例中，第五特征函数的形式如下：

通过第五特征函数，可以得到一个由0和1组成的第二特征向量。

103：基于特征信息对网页文档进行主题相关性分类，得到分类结果。其中分类结果用于指示网页文档是否与主题爬虫的搜索主题相关，搜索主题可以是用户输入的主题。在本发明实施例中可以采用主题分类模型来判定，具体过程如下：

将上述特征信息，如标题特征向量、关键词特征向量、描述特征向量、第一特征向量和第二特征向量连接起来，组成一个一行多列的总特征向量，然后将总特征向量输入至主题分类模型中，主题分类模型的输出结果则为分类结果，指示出网页文档是否与搜索主题相关。具体的：当主题分类模型的输出结果为1，则表示网页文档与主题爬虫的搜索主题相关；当主题分类模型的输出结果为0，则表示网页文档与主题爬虫的搜索主题不相关。

104：基于分类结果，确定是否将所述网页文档存储至网页文档集合中。在本发明实施例中，网页文档集合中存储有多个网页文档，这些网页文档会进一步作为主题分类模型的训练数据，对主题分类模型进行训练，也就是说本发明实施例提供适用半监督学习方法对主题分类模型进行扩充，在主题爬虫采用主题分类模型进行预测时，会基于分类结果对网页文档进行处理，来扩充网页文档集合中作为训练数据的网页文档。

其中网页文档存储方式如图3所示，可以包括以下步骤：

301：判断分类结果是否指示网页文档与搜索主题相关，如果是执行步骤302，如果否执行步骤305。

302：当分类结果指示网页文档与搜索主题相关时，判断网页文档的主题相关概率是否大于主题相关概率阈值，如果是执行步骤303，如果否执行步骤304。

303：当判断出网页文档的主题相关概率大于主题相关概率阈值时，将网页文档存储至网页文档集合中。

304：当判断出网页文档的主题相关概率小于或等于主题相关概率阈值时，丢弃网页文档。

305：当分类结果指示网页文档与搜索主题不相关时，判断网页文档集合中主题相关文档数量与非主题相关文档数量之比是否小于主题相关占比阈值，如果是执行步骤306，如果否执行步骤307。其中主题相关文档数量是指与搜索主题相关的网页文档的数量，非主题相关文档数量是指与搜索主题不相关的网页文档的数量。

306：当判断出网页文档集合中主题相关文档数量与非主题相关文档数量之比小于主题相关占比阈值时，将网页文档存储至网页文档集合中。

307：当判断出网页文档集合中主题相关文档数量与非主题相关文档数量之比大于或等于主题相关占比阈值时，丢弃网页文档。

从上述存储方式可知，本发明实施例基于主题相关概率阈值和主题相关占比阈值来判定是否将网页文档存储至网页文档集合中，尤其是在存储与主题相关的网页文档时会选取主题相关概率大于主题相关概率阈值的网页文档，使得在训练主题分类模型时，基于的与主题相关的网页文档与搜索主题更加贴近，以提高主题分类模型的精确度。

其中上述主题相关概率阈值和主题相关占比阈值为人工经验数据，在不同应用场景下可以选取不同取值，对此本发明实施例不对其具体取值进行限定。

105：当基于分类结果将网页文档存储至网页文档集合中时，基于网页文档集合中网页文档增量情况，对与主题爬虫相关的主题分类模型进行训练。其可行方式是：当网页文档存储至网页文档集合中时，对增量计数器进行加一处理，其中增量计数器的初始值为0，且网页文档集合中每存储一个网页文档，增量计数器自动加一；判断所述增量计数器的取值是否大于增量阈值，如果是，对主题分类模型进行重新训练，且将增量计数器的取值更新为初始值。

即通过一个增量计数器来检测网页文档集合中网页文档的增量，当增量计数器指示出网页文档的增量大于增量阈值时，则需要对主题分类模型进行重新训练。在对主题分类模型进行重新训练时，是基于网页文档集合中存储的多个网页文档，且每个网页文档采用图2所示方式来自动提取特征信息，因此本发明实施例在重新训练主题分类模型时基于的网页文档是自动进行标注的，减少人工标注数据的工作量。

在这里需要说明的一点是：第一次训练主题分类模型时，需要用户对少量的网页文档进行手工标注，这些手工标注好的网络文档作为最初的网页文档集合中的训练数据来训练主题分类模型，而后续主题分类模型的训练是基于网页文档集合中存储的网页文档。其中手工标注的网页文档的来源可以是一般网络爬虫随机从互联网上爬取的网页，也可以是人为从互联网上获取的网页，也可以是开源的网页库。

从上述技术方案可知，本发明实施例提供的主题爬虫处理方法在获取到网页文档后，至少从网页文档中提取网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息，基于这些特征信息对网页文档进行主题相关性分析，得到分类结果，并在基于分类结果将网页文档存储至网页文档集合中的情况下，基于网页文档集合中网页文档增量情况，对主题分类器进行训练，因此在基于主题爬虫爬取的过程中，还可以对于主题爬虫相关的主题分类模型进行训练，使得主题爬虫基于的主题分类模型更接近于搜索主题，这样主题爬虫在基于主题分类模型进行爬取时，爬取到的内容与搜索主题更加相关，从而提高爬取的精确率和召回率。

并且本发明实施例在对主题分类模型进行训练时，采用的特征信息是主题爬虫在爬取过程中自动采集的信息，相对于人工标注数据训练主题分类模型的方式来说，降低人工标注数据的工作量。

请参阅图4，其示出了本发明实施例提供的主题爬虫处理方法的另一种流程图，可以包括以下步骤：

401：获取待爬取队列中URL对应的网页文档。

402：判断URL对应的页面是否是导航页，如果是执行步骤403；如果否执行步骤404。在本发明实施例中，可以使用现有技术，如逻辑回归模型来判断页面是否是导航页。

403：对导航页进行解析，获取导航页中的URL，并将获取到的URL写入待爬取队列中。

可以理解的是：网页类型按照功能划分分为导航页和内容页。其中导航页中不包含实质的内容，只包含一系列锚文本作为导航；而内容页则包含实质内容以及较少的锚文本。因此在判断出URL对应的页面是导航页之后，需要从导航页中获取到包含实质内容以及较少的锚文本的内容页的URL，并将这些URL添加至待爬取队列中，以对这些URL对应的网页文档进行分类。

404：从网页文档中提取特征信息，其中特征信息至少包括网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息。

405：基于特征信息对网页文档进行主题相关性分类，得到分类结果。

406：基于分类结果，确定是否将所述网页文档存储至网页文档集合中。

407：当基于分类结果将网页文档存储至网页文档集合中时，基于网页文档集合中网页文档增量情况，对与主题爬虫相关的主题分类模型进行训练。

其中上述步骤404至步骤407的具体实施过程：与上述步骤102至步骤105相同，对此本发明实施例不再阐述。

从上述技术方案可以看出，本发明实施例提供的主题爬虫处理方法可以对URL对应的页面是否为导航页进行判断，这样在判断出是导航页的情况下，可以不再对导航页执行特征提取以及分类判断过程，减少处理的数据量。

基于上述提供的主题爬虫处理方法，对其精确度和召回率进行验证，其中初始的网页文档集合使用人工摘取互联网上1000篇网页文档作为初始网页文档集合，并对其进行逐一手工标注，用作主题分类模型的训练数据；主题相关概率阈值设定为0.8；主题相关占比阈值设定为0.75；增量阈值为1000；逻辑回归模型进行参数训练时梯度下降的步长为0.05。此方法的应用环境如下：

中央处理器(CentralProcessingUnit，CPU)：IntelE52620；

随机存取存储器(RandomAccessMemory，RAM)：64GB；

操作***：Windows7UltimateSP1；

JAVA虚拟机环境：JDK1.6；

网络带宽：100Mbps；

应用环境下，网页请求线程数为10个线程；页面URL解析线程2个；正文抽取线程1个；

基于上述应用环境，主题爬虫的运行结果如表2所示：

表2运行结果统计

	数量
		爬取网页数量	370,561

对运行结果进行随机抽样100条进行评价，其混淆矩阵如表3所示：

表3混淆矩阵

由混淆矩阵可得：精确率为87％；召回率为82.1％。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

请参阅图5，其示出了本发明实施例提供的主题爬虫处理装置的一种结构示意图，可以包括：获取单元11、提取单元12、分类单元13、判断单元14和训练单元15。

获取单元11，用于获取待爬取队列中URL对应的网页文档。在本发明实施例中，获取单元11基于主题爬虫采用现有技术进行页面资源请求，并采用现有技术解析出各个请求中的URL并添加至待爬取队列中。

提取单元12，用于从网页文档中提取特征信息，其中特征信息至少包括网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息。也就是说本发明实施例至少从网页文档的网络标题、元信息和网页正文中提取特征信息，而这三部分尤其是网络标题和元信息可以指示出网页文档对应的主题，因此通过从这三部分提取到的特征信息更贴合于主题。

优选地可以采用图6所示提取单元12的结构，包括：第一分词子单元121、标题特征向量获取子单元122、第二分词子单元123、关键词特征向量获取子单元124、第三分词子单元125、描述特征向量获取子单元126、第四分词子单元127、第一特征向量获取子单元128和第二特征向量获取子单元129。

第一分词子单元121，用于对网页文档的标题进行分词，得到第一分词结果，并基于第一分词结果，得到标题的一元组集合。

标题特征向量获取子单元122，用于使用第一特征函数，对标题中各个词和标题的一元组集合的关系进行判定，得到标题特征向量，标题特征向量用于指示标题中各个词和一元组集合的关系。在本发明实施例中，第一特征函数的形式如下：

第二分词子单元123，用于对网页文档中元信息的关键词元信息进行分词，得到第二分词结果，并基于第二分词结果，得到关键词元信息的一元组集合。

关键词特征向量获取子单元124，用于使用第二特征函数，对关键词元信息中各个关键词和关键词元信息的一元组集合的关系进行判定，得到关键词特征向量，关键词特征向量用于指示关键词元信息中各个关键词和关键词元信息的一元组集合的关系。在本发明实施例中，第二特征函数的形式如下：

第三分词子单元125，用于对网页文档中元信息的描述元信息进行分词，得到第三分词结果，并基于第二分词结果，得到描述元信息的一元组集合。

描述特征向量获取子单元126，用于使用第三特征函数，对描述元信息中各个网页描述词和描述元信息的一元组集合的关系进行判定，得到描述特征向量，描述特征向量用于指示描述元信息中各个网页描述词和描述元信息的一元组集合的关系。在本发明实施例中，第三特征函数的形式如下：

第四分词子单元127，用于对网页文档的网页正文进行处理后，得到网页正文的一元组集合和网页正文的二元组集合，具体处理过程请参阅方法实施例部分的说明。

第一特征向量获取子单元128，用于使用第四特征函数，对网页正文中各个关键词和网页正文的一元组集合的关系进行判定，得到网页正文的第一特征向量，网页正文的第一特征向量用于指示网页正文中各个关键词和网页正文的一元组集合的关系。在本发明实施例中，第四特征函数的形式如下：

第二特征向量获取子单元129，用于使用第五特征函数，对网页正文中各个关键词和网页正文的二元组集合的关系进行判定，得到网页正文的第二特征向量，网页正文的第二特征向量用于指示网页正文中各个关键词和网页正文的二元组集合的关系。在本发明实施例中，第五特征函数的形式如下：

分类单元13，用于基于特征信息对网页文档进行主题相关性分类，得到分类结果。其中分类结果用于指示网页文档是否与主题爬虫的搜索主题相关，搜索主题可以是用户输入的主题。在本发明实施例中可以采用主题分类模型来判定，具体过程如下：

判断单元14，用于基于分类结果，确定是否将网页文档存储至网页文档集合中。在本发明实施例中，网页文档集合中存储有多个网页文档，这些网页文档会进一步作为主题分类模型的训练数据，对主题分类模型进行训练，也就是说本发明实施例提供适用半监督学习方法对主题分类模型进行扩充，在主题爬虫采用主题分类模型进行预测时，会基于分类结果对网页文档进行处理，来扩充网页文档集合中作为训练数据的网页文档。

其中判断单元14可以采用图7所示结构来确定是否存储网页文档，具体可以包括：第一判断子单元141、第一存储子单元142、第二判断子单元143和第二存储子单元144。

第一判断子单元141，用于当分类结果指示网页文档与搜索主题相关时，判断网页文档的主题相关概率是否大于主题相关概率阈值，其中搜索主题为主题爬虫爬取的主题。

第一存储子单元142，用于当判断出网页文档的主题相关概率大于主题相关概率阈值时，将网页文档存储至网页文档集合中。

第二判断子单元143，用于当分类结果指示网页文档与搜索主题不相关时，判断网页文档集合中主题相关文档数量与非主题相关文档数量之比是否小于主题相关占比阈值，其中主题相关文档数量是指与搜索主题相关的网页文档的数量，非主题相关文档数量是指与搜索主题不相关的网页文档的数量。

第二存储子单元144，用于当判断出网页文档集合中主题相关文档数量与非主题相关文档数量之比小于主题相关占比阈值时，将网页文档存储至网页文档集合中。

训练单元15，用于当基于分类结果将网页文档存储至网页文档集合中时，基于网页文档集合中网页文档增量情况，对与主题爬虫相关的主题分类模型进行训练。

在本发明实施例中，训练单元15可以包括：计数器、判断子单元和训练子单元。其中计数器，用于当网页文档存储至网页文档集合中时，对增量计数器进行加一处理，其中增量计数器的初始值为0，且网页文档集合中每存储一个网页文档，增量计数器自动加一。

判断子单元，用于判断增量计数器的取值是否大于增量阈值。

训练子单元，用于当增量计数器的取值大于增量阈值时，对主题分类模型进行重新训练，且将增量计数器的取值更新为初始值。

从上述技术方案可知，本发明实施例提供的主题爬虫处理装置在获取到网页文档后，至少从网页文档中提取网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息，基于这些特征信息对网页文档进行主题相关性分析，得到分类结果，并在基于分类结果将网页文档存储至网页文档集合中的情况下，基于网页文档集合中网页文档增量情况，对主题分类器进行训练，因此在基于主题爬虫爬取的过程中，还可以对于主题爬虫相关的主题分类模型进行训练，使得主题爬虫基于的主题分类模型更接近于搜索主题，这样主题爬虫在基于主题分类模型进行爬取时，爬取到的内容与搜索主题更加相关，从而提高爬取的精确率和召回率。

请参阅图8，其示出了本发明实施例提供的主题爬虫处理装置的另一种结构示意，在图5基础上还可以包括：页面判断单元16，用于判断URL对应的页面是否是导航页，如果是则触发获取单元11对导航页进行解析，获取导航页中的URL，并将获取到的URL写入待爬取队列中。如果否则触发提取单元12。

从上述技术方案可以看出，本发明实施例提供的主题爬虫处理装置可以对URL对应的页面是否为导航页进行判断，这样在判断出是导航页的情况下，可以不再对导航页执行特征提取以及分类判断过程，减少处理的数据量。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种主题爬虫处理方法，其特征在于，所述方法包括：

获取待爬取队列中统一资源定位符对应的网页文档；

2.根据权利要求1所述的方法，其特征在于，在获取待爬取队列中统一资源定位符对应的网页文档之后，所述方法还包括：判断所述统一资源定位符对应的页面是否是导航页；

如果否，则触发从所述网页文档中提取特征信息的步骤。

3.根据权利要求1或2所述的方法，其特征在于，所述从所述网页文档中提取特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述分类结果，确定是否将所述网页文档存储至网页文档集合中，包括：

5.根据权利要求4所述的方法，其特征在于，所述当基于所述分类结果将所述网页文档存储至网页文档集合中时，基于网页文档集合中网页文档增量情况，对与所述主题爬虫相关的主题分类模型进行训练，包括：

6.一种主题爬虫处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：页面判断单元，用于判断所述统一资源定位符对应的页面是否是导航页，如果是则触发所述获取单元对所述导航页进行解析，获取所述导航页中的统一资源定位符，并将获取到的统一资源定位符写入所述待爬取队列中；如果否则触发所述提取单元。

8.根据权利要求6或7所述的装置，其特征在于，所述提取单元包括：

9.根据权利要求8所述的装置，其特征在于，所述判断单元包括：

10.根据权利要求9所述的装置，其特征在于，所述训练单元包括：