CN109933707B

CN109933707B - 一种基于搜索引擎的主题语料构建方法及***

Info

Publication number: CN109933707B
Application number: CN201811285020.2A
Authority: CN
Inventors: 李鹏; 王斌; 周美林; 齐保元; 梅钰
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2022-10-14
Anticipated expiration: 2038-10-31
Also published as: CN109933707A

Abstract

本发明涉及一种基于搜索引擎的主题语料构建方法及***。该方法包括以下步骤：1)利用搜索引擎获取主题相关的种子网页；2)对种子网页进行扩展以发现列表页；3)对列表页进行判断，得到与主题真正相关的列表页；4)对与主题真正相关的列表页中的链接进行抽取，并对链接进行下载得到原始网页；5)对原始网页进行正文抽取，形成最终的主题语料。该***包括：种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比，构建同等规模主题语料本发明所需的人工标注量大幅减少，并且对各类主题语料构建都有较好的适用性。

Description

一种基于搜索引擎的主题语料构建方法及***

技术领域

本发明涉及语料自动构建以及基于统计机器学习的主题分类，尤其适用于主题分类缺少训练语料的问题。

背景技术

随着人工智能的发展，文本分类在各个领域得到了广泛应用。典型分类需求包括主题分类以及情感分类等。其中，主题分类根据文档讲述的内容主题进行类别划分，从计算机的输入输出来看，输入是文档，输出是主题类别。当前，文本分类主要使用基于机器学习的分类方法。基于机器学习的文本分类方法需要有训练数据，即对每个主题类别，都要有一批和该类别相关的文本文档。这些用于构造主题分类模型的数据集也被称作主题分类语料，主题分类语料是构建主题分类模型的基础。

现有主题分类语料构建往往基于人工标注。在学术界，研究人员一般采用半自动的方法收集整理互联网数据形成分类语料，构建语料的方法主要采用启发式的规则，没有统一方法。在工业界，网页分类一般使用ODP(https://en.wikipedia.org/wiki/DMOZ)项目提供的标注语料。ODP是一个开源项目，该项目包括一个类别体系(约有100多万类别)以及相关的类别文档，类别文档由广大网民人工标注提供。然而ODP的标注语料在应用中存在3个问题：一是ODP覆盖的网页大部分为英文网页；二是实际应用存在很多未定义的类别(新类)；三是ODP的标记文档数量不能满足需求。

发明内容

针对上述问题，本发明提出一种通用的基于搜索引擎的主题语料构建方法及***。

本发明的主要思想是借助搜索引擎发现相关网站，在网站内寻找列表页(hub)，对列表页进行人工审核获得相关列表页，对相关列表页进行自动翻页、下载列表中的文档形成主题语料。

本发明采用的技术方案如下：

一种基于搜索引擎的主题语料构建方法，包括以下步骤：

1)利用搜索引擎获取主题相关的种子网页；

2)对种子网页进行扩展以发现列表页；

3)对列表页进行判断，得到与主题真正相关的列表页；

4)对与主题真正相关的列表页中的链接进行抽取，并对链接进行下载得到原始网页；

5)对原始网页进行正文抽取，形成最终的主题语料。

进一步地，步骤1)包括：

1.1)将主题词转换为搜索引擎的查询词；

1.2)将查询词发送到搜索引擎，获取搜索引擎的查询结果，即相关链接，并对相关链接进行二次采集，获得网页原始内容即种子网页。

进一步地，步骤1.1)使用基于知识库的方法、基于反馈的方法或者人工方法进行查询转换。

进一步地，步骤2)包括：

2.1)对所述种子网页进行解析，抽取其中包含的站内链接，并对链接进行下载；

2.2)对下载的网页进行判别，挑选其中的列表页。

进一步地，步骤3)包括：

3.1)对列表页的质量进行评估，根据质量得分对页面进行过滤、排序操作；

3.2)通过人工对列表页的相关性进行最终确认。

一种基于搜索引擎的主题语料构建***，其包括：

种子网页获取单元，用于利用搜索引擎获取主题相关的种子网页；

列表页发现单元，用于对所述种子网页进行扩展以发现列表页；

列表页审核单元，用于对列表页进行判断，得到和主题真正相关的列表页；

网页下载单元，用于对列表页审核单元得到的列表页中的链接进行抽取，并对链接进行下载，得到原始网页；

正文抽取单元，用于对获得的原始网页进行正文抽取，形成最终的主题语料。

进一步地，所述种子网页获取单元包括：

查询转换模块，用于将主题词转换为搜索引擎的查询词；

元搜索模块，用于将查询词发送到搜索引擎，获取搜索引擎的查询结果，即相关链接，并对链接进行二次采集，获得网页原始内容即种子网页。

进一步地，所述列表页发现单元包括：

站内链接扩展模块，用于对所述种子网页进行解析，抽取其中包含的站内链接，并对链接进行下载；

列表页分类模块，用于对下载的网页进行判别，挑选其中的列表页。

进一步地，所述列表页审核单元包括：

列表页提炼模块，用于对列表页的质量进行评估，根据质量得分对页面进行过滤、排序操作；

人工审核模块，用于通过人工对列表页的相关性进行最终确认。

进一步地，所述网页下载单元包括自动翻页模块，所述自动翻页模块提取列表页中的翻页链接，并对其他页号的列表进行下载。

与现有技术相比，本发明的有益效果如下：

(1)构建同等规模主题语料，本发明所需的人工标注量较少。传统方法需要对具体单篇文档进行标注，而该方法只需要对包含文档的列表网页进行标注，列表网页所含的文档的主题相关性与列表网页主题相关性一致。列表网页借助搜索引擎以及自动化的判别工具完成初步筛选，能够提高列表网页的相关性，也大幅减少了后续人工标记的工作量。

(2)本发明对各类主题语料构建都有较好的适用性。借助搜索引擎可以快速发现相关线索，通过列表网页发现可以快速定位主题相关文档的入口，相当于是包含大量主题相关文档的“富矿”。

附图说明

图1.基于搜索引擎的主题语料构建方法及***的整体框架图。

图2.新闻列表页示例图。

图3.文档列表页示例图。

图4.查询转换示意图。

图5.元搜索模块示意图。

图6.站内链接扩展示意图。

图7.文档链接抽取示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本实施例的一种基于搜索引擎的主题语料构建方法，其输入为主题词，输出为主题文档集。整个方法的流程如图1所示，具体步骤包括：

(1)种子网页获取。该步骤利用搜索引擎获取主题相关的种子网页。主要模块包括查询转换模块、元搜索模块。查询转换模块将主题词转换为搜索引擎的查询词，可以使用基于知识库的方法、基于反馈的方法，也可以人工进行查询转换。元搜索模块用于将查询词发送到搜索引擎，获取搜索引擎的查询结果，即相关链接，并对相关链接进行二次采集，获得网页原始内容，即种子网页。

(2)列表页发现。该步骤对(1)中的种子网页进行扩展，目标是发现列表页。主要模块包括站内链接扩展模块、列表页分类模块。站内链接扩展模块对(1)中相关网页进行解析，抽取其中包含的站内链接，并对链接进行下载，扩展的深度可以作为参数提前指定。列表页分类模块对扩展网页进行判别，挑选其中的列表页。列表页是指包含多条文档链接的导航页，一般对应新闻列表或者文档列表，可以看作是进行主题文档下载的入口，常见示例如图2、图3所示。

(3)列表页审核。该步对(2)返回的列表页进行判断，得到和主题真正相关的待下载的列表页。主要模块包括列表页提炼模块以及人工审核模块。列表页提炼模块由机器算法自动完成，具体操作可以包括计算列表页的主题相关性得分、对列表页排序、对列表页过滤等；人工审核模块由人工对列表页的相关性进行最终确认。

(4)网页下载。该步对(3)返回的列表页中的链接进行抽取，并对链接进行下载，这些链接对应主题相关网页(或文件)，即原始网页。

(5)正文抽取。该步对(4)获得的原始网页进行正文抽取，去除html标记，或者提取文件中的文字内容信息，形成最终的主题语料。

下面以构建“水利”主题语料为例来说明本发明的实施过程，具体构建方法(***)包括以下7个部分(模块)：

1.查询转换

查询转换将主题词转换为搜索引擎查询词，可以使用基于知识库的方法、基于反馈的方法，也可以人工进行查询转换。示意图如图4所示。

(1)基于知识库的方法。可以使用***、百度百科等对主题词进行扩展。如果主题词在百度百科(或***)中出现，那么可以使用百科文档中的含链接的锚文本与主题词组合形成查询，也可以利用TextRank

(https://en.wikipedia.org/wiki/Automatic_summarization#Unsupervised_approach:_TextRank)计算百科文档中的关键词，利用关键词与主题词组合形成查询。

(2)基于反馈的方法。将主题词输入到搜索引擎，基于返回的网页结果，使用信息检索中的相关反馈以及伪相关反馈技术计算扩展词(https://en.wikipedia.org/wiki/Relevance_feedback)，将扩展词与主题词进行组合形成查询。

(3)人工进行查询转换。由人根据经验直接配置查询词。

2.元搜索

元搜索模块将查询发送到搜索引擎，获取搜索引擎的查询结果，对结果网页进行解析获得文档链接，并对链接进行二次采集，获得网页原始内容，即种子网页。示意图如图5所示。

3.站内链接扩展

对元搜索模块返回的种子页面进行扩展采集，目标是发现列表页。具体步骤包括：①对种子网页中的链接进行抽取，要求抽取出来的链接为站内链接；②对抽取出来的链接进行筛选；③对链接进行网页下载。①-③重复进行若干轮，直到到达指定扩展深度为止，如图6所示。

其中，第②步链接筛选的目的是为了提高列表页的发现效率。筛选目标是挑出可能的导航链接。可以使用基于规则方法或者统计机器学习方法。

4.列表页分类

列表页分类主要对网页的html代码进行分析，根据html代码的特点判断网页是否是列表页。列表页的判断过程包括2步：①提取网页正文内容(非导航，且在中央部分显示)；②对正文内容中的html标记进行统计，判断是否满足列表页标准。

对于第①步，可以使用VIPS

(https://www.microsoft.com/en-us/research/publication/vips-a-vision-based-page-segment ation-algorithm/)等网页正文抽取算法；

对于第②步，可以通过对html树中的重复(或者相似)节点进行统计，利用统计特征进行判别，判别方法可以采用基于规则的方法，也可以采用基于机器学习的方法。

(1)基于规则的方法通过人工指定的阈值参数对html的抽取特征进行判断，如果满足阈值条件，则将其作为列表页，反之则认为不是列表页。可以参考专利《一种元搜索列表结果抽取方法及***，发明，2017，专利号:201710880652.2》。

(2)机器学习方法将列表页判别作为一个2分类问题，通过构建一个小型标注数据集学习特征到类别的映射。使用的特征包括基于html标记的统计特征，也包括翻页链接特征等。

5.列表页提炼

列表页提炼是对列表页的质量进行评估，根据质量得分对页面进行过滤、排序等操作，目的是减少后续人工审核的工作量或者确定人工审核的顺序。页面过滤将质量较差的网页直接移除，认为该列表包含的文档主题不相关；页面排序决定了后续处理模块的处理顺序，质量排名高的列表页会优先进行处理。

计算质量得分的标准包括：

(1)主题相关性。主题相关性高的列表页质量高。可以通过构建分类器，利用分类器输出来计算主题相关性。具体地，分类器对应一个二分类问题，即主题相关和主题不相关。使用的分类训练集一方面可以离线构造，即通过人工整理获得；另一方面可以将“元搜索”模块返回搜索结果摘要或者搜索结果网页作为主题相关文档。

计算类别相关得分时，可以分别基于html的title字段、body字段等计算得分，并将最终得分进行综合。

(2)网页质量。利用搜索引擎提供的PageRank查询服务来获取网页所在网站的PageRank值。提供查询服务的网站有http://pr.chinaz.com/，https://pr.aizhan.com/等。

在计算质量得分时，可以选择其中的一条或者多条标准进行组合计算。

5.人工审核

人工审核提供对列表页的标记功能。由于列表页包含的所有链接都会被下载，所以列表页相关与否会决定构建的语料的质量。人工审核模块引入人的判断来决定哪些列表页进行后续处理，即对其中的所有文档链接进行采集。对列表页进行标记与传统方法对文档进行标记相比，具有成本低、效果好的优势。

6.文档链接抽取

文档链接抽取用于从列表页中提取文档链接。采用的方法可以参照第4步“列表页分类”模块的第②步。

文档链接抽取还包括一个自动翻页模块，自动翻页模块提取列表页中的翻页链接，并对其他页号的列表进行下载。

文档链接抽取的示意图如图7所示。

6.文档下载

文档下载模块对抽取的链接进行下载。根据网站的访问协议，下载模型需要支持基于HTTP Get的下载，基于HTTP Post的下载。可以使用开源的工具如Nutch(http://nutch.apache.org/)来完成下载。

7.正文抽取

下载的原始网页包含大量html标记和无关内容，需要抽取其中的正文内容。可以使用开源工具如Goose(https://pypi.org/project/goose-extractor/)等进行正文抽取。正文抽取后得到最终的主题语料。

本发明的核心流程包括种子网页获取、列表页发现、列表页审核、网页下载以及正文抽取。流程涉及到的处理环节除了使用本文所建议的处理模块外，也可以进行增删，比如，如果“列表页提炼”模块生成的列表页精度很高，那么“人工审核”模块可以省去。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于搜索引擎的主题语料构建方法，其特征在于，包括以下步骤：

1)利用搜索引擎获取主题相关的种子网页；

2)对种子网页进行扩展以发现列表页；

3)对列表页进行判断，得到与主题真正相关的列表页；

5)对原始网页进行正文抽取，形成最终的主题语料；

其中，步骤2)包括：

2.2)对下载的网页进行判别，挑选其中的列表页；

其中，步骤3)包括：

3.2)通过人工对列表页的相关性进行最终确认；

其中，步骤2.2)对网页的html代码进行分析，根据html代码的特点判断网页是否是列表页，列表页的判断过程包括2步：①提取网页正文内容；②对正文内容中的html标记进行统计，判断是否满足列表页标准；

其中，步骤3.1)计算所述质量得分的标准包括：

(1)主题相关性：主题相关性高的列表页质量高，通过构建分类器，利用分类器输出来计算主题相关性；分类器对应一个二分类问题，即主题相关和主题不相关；

(2)网页质量：利用搜索引擎提供的PageRank查询服务来获取网页所在网站的PageRank值。

2.根据权利要求1所述的方法，其特征在于，步骤1)包括：

1.1)将主题词转换为搜索引擎的查询词；

3.根据权利要求2所述的方法，其特征在于，步骤1.1)使用基于知识库的方法、基于反馈的方法或者人工方法进行查询转换。

4.一种基于搜索引擎的主题语料构建***，其特征在于，包括：

正文抽取单元，用于对获得的原始网页进行正文抽取，形成最终的主题语料；

所述列表页发现单元包括：

列表页分类模块，用于对下载的网页进行判别，挑选其中的列表页；

所述列表页审核单元包括：

人工审核模块，用于通过人工对列表页的相关性进行最终确认；

其中，列表页分类模块对网页的html代码进行分析，根据html代码的特点判断网页是否是列表页，列表页的判断过程包括2步：①提取网页正文内容；②对正文内容中的html标记进行统计，判断是否满足列表页标准；

其中，列表页提炼模块计算所述质量得分的标准包括：

5.根据权利要求4所述的***，其特征在于，所述种子网页获取单元包括：

查询转换模块，用于将主题词转换为搜索引擎的查询词；

6.根据权利要求4所述的***，其特征在于，所述网页下载单元包括自动翻页模块，所述自动翻页模块提取列表页中的翻页链接，并对其他页号的列表进行下载。