CN109933707B - 一种基于搜索引擎的主题语料构建方法及*** - Google Patents

一种基于搜索引擎的主题语料构建方法及*** Download PDF

Info

Publication number
CN109933707B
CN109933707B CN201811285020.2A CN201811285020A CN109933707B CN 109933707 B CN109933707 B CN 109933707B CN 201811285020 A CN201811285020 A CN 201811285020A CN 109933707 B CN109933707 B CN 109933707B
Authority
CN
China
Prior art keywords
list
webpage
page
list page
pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811285020.2A
Other languages
English (en)
Other versions
CN109933707A (zh
Inventor
李鹏
王斌
周美林
齐保元
梅钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201811285020.2A priority Critical patent/CN109933707B/zh
Publication of CN109933707A publication Critical patent/CN109933707A/zh
Application granted granted Critical
Publication of CN109933707B publication Critical patent/CN109933707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于搜索引擎的主题语料构建方法及***。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。该***包括:种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比,构建同等规模主题语料本发明所需的人工标注量大幅减少,并且对各类主题语料构建都有较好的适用性。

Description

一种基于搜索引擎的主题语料构建方法及***
技术领域
本发明涉及语料自动构建以及基于统计机器学习的主题分类,尤其适用于主题分类缺少训练语料的问题。
背景技术
随着人工智能的发展,文本分类在各个领域得到了广泛应用。典型分类需求包括主题分类以及情感分类等。其中,主题分类根据文档讲述的内容主题进行类别划分,从计算机的输入输出来看,输入是文档,输出是主题类别。当前,文本分类主要使用基于机器学习的分类方法。基于机器学习的文本分类方法需要有训练数据,即对每个主题类别,都要有一批和该类别相关的文本文档。这些用于构造主题分类模型的数据集也被称作主题分类语料,主题分类语料是构建主题分类模型的基础。
现有主题分类语料构建往往基于人工标注。在学术界,研究人员一般采用半自动的方法收集整理互联网数据形成分类语料,构建语料的方法主要采用启发式的规则,没有统一方法。在工业界,网页分类一般使用ODP(https://en.wikipedia.org/wiki/DMOZ)项目提供的标注语料。ODP是一个开源项目,该项目包括一个类别体系(约有100多万类别)以及相关的类别文档,类别文档由广大网民人工标注提供。然而ODP的标注语料在应用中存在3个问题:一是ODP覆盖的网页大部分为英文网页;二是实际应用存在很多未定义的类别(新类);三是ODP的标记文档数量不能满足需求。
发明内容
针对上述问题,本发明提出一种通用的基于搜索引擎的主题语料构建方法及***。
本发明的主要思想是借助搜索引擎发现相关网站,在网站内寻找列表页(hub),对列表页进行人工审核获得相关列表页,对相关列表页进行自动翻页、下载列表中的文档形成主题语料。
本发明采用的技术方案如下:
一种基于搜索引擎的主题语料构建方法,包括以下步骤:
1)利用搜索引擎获取主题相关的种子网页;
2)对种子网页进行扩展以发现列表页;
3)对列表页进行判断,得到与主题真正相关的列表页;
4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;
5)对原始网页进行正文抽取,形成最终的主题语料。
进一步地,步骤1)包括:
1.1)将主题词转换为搜索引擎的查询词;
1.2)将查询词发送到搜索引擎,获取搜索引擎的查询结果,即相关链接,并对相关链接进行二次采集,获得网页原始内容即种子网页。
进一步地,步骤1.1)使用基于知识库的方法、基于反馈的方法或者人工方法进行查询转换。
进一步地,步骤2)包括:
2.1)对所述种子网页进行解析,抽取其中包含的站内链接,并对链接进行下载;
2.2)对下载的网页进行判别,挑选其中的列表页。
进一步地,步骤3)包括:
3.1)对列表页的质量进行评估,根据质量得分对页面进行过滤、排序操作;
3.2)通过人工对列表页的相关性进行最终确认。
一种基于搜索引擎的主题语料构建***,其包括:
种子网页获取单元,用于利用搜索引擎获取主题相关的种子网页;
列表页发现单元,用于对所述种子网页进行扩展以发现列表页;
列表页审核单元,用于对列表页进行判断,得到和主题真正相关的列表页;
网页下载单元,用于对列表页审核单元得到的列表页中的链接进行抽取,并对链接进行下载,得到原始网页;
正文抽取单元,用于对获得的原始网页进行正文抽取,形成最终的主题语料。
进一步地,所述种子网页获取单元包括:
查询转换模块,用于将主题词转换为搜索引擎的查询词;
元搜索模块,用于将查询词发送到搜索引擎,获取搜索引擎的查询结果,即相关链接,并对链接进行二次采集,获得网页原始内容即种子网页。
进一步地,所述列表页发现单元包括:
站内链接扩展模块,用于对所述种子网页进行解析,抽取其中包含的站内链接,并对链接进行下载;
列表页分类模块,用于对下载的网页进行判别,挑选其中的列表页。
进一步地,所述列表页审核单元包括:
列表页提炼模块,用于对列表页的质量进行评估,根据质量得分对页面进行过滤、排序操作;
人工审核模块,用于通过人工对列表页的相关性进行最终确认。
进一步地,所述网页下载单元包括自动翻页模块,所述自动翻页模块提取列表页中的翻页链接,并对其他页号的列表进行下载。
与现有技术相比,本发明的有益效果如下:
(1)构建同等规模主题语料,本发明所需的人工标注量较少。传统方法需要对具体单篇文档进行标注,而该方法只需要对包含文档的列表网页进行标注,列表网页所含的文档的主题相关性与列表网页主题相关性一致。列表网页借助搜索引擎以及自动化的判别工具完成初步筛选,能够提高列表网页的相关性,也大幅减少了后续人工标记的工作量。
(2)本发明对各类主题语料构建都有较好的适用性。借助搜索引擎可以快速发现相关线索,通过列表网页发现可以快速定位主题相关文档的入口,相当于是包含大量主题相关文档的“富矿”。
附图说明
图1.基于搜索引擎的主题语料构建方法及***的整体框架图。
图2.新闻列表页示例图。
图3.文档列表页示例图。
图4.查询转换示意图。
图5.元搜索模块示意图。
图6.站内链接扩展示意图。
图7.文档链接抽取示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本实施例的一种基于搜索引擎的主题语料构建方法,其输入为主题词,输出为主题文档集。整个方法的流程如图1所示,具体步骤包括:
(1)种子网页获取。该步骤利用搜索引擎获取主题相关的种子网页。主要模块包括查询转换模块、元搜索模块。查询转换模块将主题词转换为搜索引擎的查询词,可以使用基于知识库的方法、基于反馈的方法,也可以人工进行查询转换。元搜索模块用于将查询词发送到搜索引擎,获取搜索引擎的查询结果,即相关链接,并对相关链接进行二次采集,获得网页原始内容,即种子网页。
(2)列表页发现。该步骤对(1)中的种子网页进行扩展,目标是发现列表页。主要模块包括站内链接扩展模块、列表页分类模块。站内链接扩展模块对(1)中相关网页进行解析,抽取其中包含的站内链接,并对链接进行下载,扩展的深度可以作为参数提前指定。列表页分类模块对扩展网页进行判别,挑选其中的列表页。列表页是指包含多条文档链接的导航页,一般对应新闻列表或者文档列表,可以看作是进行主题文档下载的入口,常见示例如图2、图3所示。
(3)列表页审核。该步对(2)返回的列表页进行判断,得到和主题真正相关的待下载的列表页。主要模块包括列表页提炼模块以及人工审核模块。列表页提炼模块由机器算法自动完成,具体操作可以包括计算列表页的主题相关性得分、对列表页排序、对列表页过滤等;人工审核模块由人工对列表页的相关性进行最终确认。
(4)网页下载。该步对(3)返回的列表页中的链接进行抽取,并对链接进行下载,这些链接对应主题相关网页(或文件),即原始网页。
(5)正文抽取。该步对(4)获得的原始网页进行正文抽取,去除html标记,或者提取文件中的文字内容信息,形成最终的主题语料。
下面以构建“水利”主题语料为例来说明本发明的实施过程,具体构建方法(***)包括以下7个部分(模块):
1.查询转换
查询转换将主题词转换为搜索引擎查询词,可以使用基于知识库的方法、基于反馈的方法,也可以人工进行查询转换。示意图如图4所示。
(1)基于知识库的方法。可以使用***、百度百科等对主题词进行扩展。如果主题词在百度百科(或***)中出现,那么可以使用百科文档中的含链接的锚文本与主题词组合形成查询,也可以利用TextRank
(https://en.wikipedia.org/wiki/Automatic_summarization#Unsupervised_approach:_TextRank)计算百科文档中的关键词,利用关键词与主题词组合形成查询。
(2)基于反馈的方法。将主题词输入到搜索引擎,基于返回的网页结果,使用信息检索中的相关反馈以及伪相关反馈技术计算扩展词(https://en.wikipedia.org/wiki/Relevance_feedback),将扩展词与主题词进行组合形成查询。
(3)人工进行查询转换。由人根据经验直接配置查询词。
2.元搜索
元搜索模块将查询发送到搜索引擎,获取搜索引擎的查询结果,对结果网页进行解析获得文档链接,并对链接进行二次采集,获得网页原始内容,即种子网页。示意图如图5所示。
3.站内链接扩展
对元搜索模块返回的种子页面进行扩展采集,目标是发现列表页。具体步骤包括:①对种子网页中的链接进行抽取,要求抽取出来的链接为站内链接;②对抽取出来的链接进行筛选;③对链接进行网页下载。①-③重复进行若干轮,直到到达指定扩展深度为止,如图6所示。
其中,第②步链接筛选的目的是为了提高列表页的发现效率。筛选目标是挑出可能的导航链接。可以使用基于规则方法或者统计机器学习方法。
4.列表页分类
列表页分类主要对网页的html代码进行分析,根据html代码的特点判断网页是否是列表页。列表页的判断过程包括2步:①提取网页正文内容(非导航,且在中央部分显示);②对正文内容中的html标记进行统计,判断是否满足列表页标准。
对于第①步,可以使用VIPS
(https://www.microsoft.com/en-us/research/publication/vips-a-vision-based-page-segment ation-algorithm/)等网页正文抽取算法;
对于第②步,可以通过对html树中的重复(或者相似)节点进行统计,利用统计特征进行判别,判别方法可以采用基于规则的方法,也可以采用基于机器学习的方法。
(1)基于规则的方法通过人工指定的阈值参数对html的抽取特征进行判断,如果满足阈值条件,则将其作为列表页,反之则认为不是列表页。可以参考专利《一种元搜索列表结果抽取方法及***,发明,2017,专利号:201710880652.2》。
(2)机器学习方法将列表页判别作为一个2分类问题,通过构建一个小型标注数据集学习特征到类别的映射。使用的特征包括基于html标记的统计特征,也包括翻页链接特征等。
5.列表页提炼
列表页提炼是对列表页的质量进行评估,根据质量得分对页面进行过滤、排序等操作,目的是减少后续人工审核的工作量或者确定人工审核的顺序。页面过滤将质量较差的网页直接移除,认为该列表包含的文档主题不相关;页面排序决定了后续处理模块的处理顺序,质量排名高的列表页会优先进行处理。
计算质量得分的标准包括:
(1)主题相关性。主题相关性高的列表页质量高。可以通过构建分类器,利用分类器输出来计算主题相关性。具体地,分类器对应一个二分类问题,即主题相关和主题不相关。使用的分类训练集一方面可以离线构造,即通过人工整理获得;另一方面可以将“元搜索”模块返回搜索结果摘要或者搜索结果网页作为主题相关文档。
计算类别相关得分时,可以分别基于html的title字段、body字段等计算得分,并将最终得分进行综合。
(2)网页质量。利用搜索引擎提供的PageRank查询服务来获取网页所在网站的PageRank值。提供查询服务的网站有http://pr.chinaz.com/,https://pr.aizhan.com/等。
在计算质量得分时,可以选择其中的一条或者多条标准进行组合计算。
5.人工审核
人工审核提供对列表页的标记功能。由于列表页包含的所有链接都会被下载,所以列表页相关与否会决定构建的语料的质量。人工审核模块引入人的判断来决定哪些列表页进行后续处理,即对其中的所有文档链接进行采集。对列表页进行标记与传统方法对文档进行标记相比,具有成本低、效果好的优势。
6.文档链接抽取
文档链接抽取用于从列表页中提取文档链接。采用的方法可以参照第4步“列表页分类”模块的第②步。
文档链接抽取还包括一个自动翻页模块,自动翻页模块提取列表页中的翻页链接,并对其他页号的列表进行下载。
文档链接抽取的示意图如图7所示。
6.文档下载
文档下载模块对抽取的链接进行下载。根据网站的访问协议,下载模型需要支持基于HTTP Get的下载,基于HTTP Post的下载。可以使用开源的工具如Nutch(http://nutch.apache.org/)来完成下载。
7.正文抽取
下载的原始网页包含大量html标记和无关内容,需要抽取其中的正文内容。可以使用开源工具如Goose(https://pypi.org/project/goose-extractor/)等进行正文抽取。正文抽取后得到最终的主题语料。
本发明的核心流程包括种子网页获取、列表页发现、列表页审核、网页下载以及正文抽取。流程涉及到的处理环节除了使用本文所建议的处理模块外,也可以进行增删,比如,如果“列表页提炼”模块生成的列表页精度很高,那么“人工审核”模块可以省去。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (6)

1.一种基于搜索引擎的主题语料构建方法,其特征在于,包括以下步骤:
1)利用搜索引擎获取主题相关的种子网页;
2)对种子网页进行扩展以发现列表页;
3)对列表页进行判断,得到与主题真正相关的列表页;
4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;
5)对原始网页进行正文抽取,形成最终的主题语料;
其中,步骤2)包括:
2.1)对所述种子网页进行解析,抽取其中包含的站内链接,并对链接进行下载;
2.2)对下载的网页进行判别,挑选其中的列表页;
其中,步骤3)包括:
3.1)对列表页的质量进行评估,根据质量得分对页面进行过滤、排序操作;
3.2)通过人工对列表页的相关性进行最终确认;
其中,步骤2.2)对网页的html代码进行分析,根据html代码的特点判断网页是否是列表页,列表页的判断过程包括2步:①提取网页正文内容;②对正文内容中的html标记进行统计,判断是否满足列表页标准;
其中,步骤3.1)计算所述质量得分的标准包括:
(1)主题相关性:主题相关性高的列表页质量高,通过构建分类器,利用分类器输出来计算主题相关性;分类器对应一个二分类问题,即主题相关和主题不相关;
(2)网页质量:利用搜索引擎提供的PageRank查询服务来获取网页所在网站的PageRank值。
2.根据权利要求1所述的方法,其特征在于,步骤1)包括:
1.1)将主题词转换为搜索引擎的查询词;
1.2)将查询词发送到搜索引擎,获取搜索引擎的查询结果,即相关链接,并对相关链接进行二次采集,获得网页原始内容即种子网页。
3.根据权利要求2所述的方法,其特征在于,步骤1.1)使用基于知识库的方法、基于反馈的方法或者人工方法进行查询转换。
4.一种基于搜索引擎的主题语料构建***,其特征在于,包括:
种子网页获取单元,用于利用搜索引擎获取主题相关的种子网页;
列表页发现单元,用于对所述种子网页进行扩展以发现列表页;
列表页审核单元,用于对列表页进行判断,得到和主题真正相关的列表页;
网页下载单元,用于对列表页审核单元得到的列表页中的链接进行抽取,并对链接进行下载,得到原始网页;
正文抽取单元,用于对获得的原始网页进行正文抽取,形成最终的主题语料;
所述列表页发现单元包括:
站内链接扩展模块,用于对所述种子网页进行解析,抽取其中包含的站内链接,并对链接进行下载;
列表页分类模块,用于对下载的网页进行判别,挑选其中的列表页;
所述列表页审核单元包括:
列表页提炼模块,用于对列表页的质量进行评估,根据质量得分对页面进行过滤、排序操作;
人工审核模块,用于通过人工对列表页的相关性进行最终确认;
其中,列表页分类模块对网页的html代码进行分析,根据html代码的特点判断网页是否是列表页,列表页的判断过程包括2步:①提取网页正文内容;②对正文内容中的html标记进行统计,判断是否满足列表页标准;
其中,列表页提炼模块计算所述质量得分的标准包括:
(1)主题相关性:主题相关性高的列表页质量高,通过构建分类器,利用分类器输出来计算主题相关性;分类器对应一个二分类问题,即主题相关和主题不相关;
(2)网页质量:利用搜索引擎提供的PageRank查询服务来获取网页所在网站的PageRank值。
5.根据权利要求4所述的***,其特征在于,所述种子网页获取单元包括:
查询转换模块,用于将主题词转换为搜索引擎的查询词;
元搜索模块,用于将查询词发送到搜索引擎,获取搜索引擎的查询结果,即相关链接,并对链接进行二次采集,获得网页原始内容即种子网页。
6.根据权利要求4所述的***,其特征在于,所述网页下载单元包括自动翻页模块,所述自动翻页模块提取列表页中的翻页链接,并对其他页号的列表进行下载。
CN201811285020.2A 2018-10-31 2018-10-31 一种基于搜索引擎的主题语料构建方法及*** Active CN109933707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811285020.2A CN109933707B (zh) 2018-10-31 2018-10-31 一种基于搜索引擎的主题语料构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811285020.2A CN109933707B (zh) 2018-10-31 2018-10-31 一种基于搜索引擎的主题语料构建方法及***

Publications (2)

Publication Number Publication Date
CN109933707A CN109933707A (zh) 2019-06-25
CN109933707B true CN109933707B (zh) 2022-10-14

Family

ID=66984542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811285020.2A Active CN109933707B (zh) 2018-10-31 2018-10-31 一种基于搜索引擎的主题语料构建方法及***

Country Status (1)

Country Link
CN (1) CN109933707B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831131B (zh) * 2011-06-16 2015-02-11 富士通株式会社 构建标注网页语料库的方法及装置
US9342563B2 (en) * 2003-12-31 2016-05-17 Google Inc. Interface for a universal search
CN105022827B (zh) * 2015-07-23 2016-06-15 合肥工业大学 一种面向领域主题的Web新闻动态聚合方法
CN105912527A (zh) * 2016-04-19 2016-08-31 北京高地信息技术有限公司 根据自然语言输出答案的方法、装置及***
CN108399213A (zh) * 2018-02-05 2018-08-14 中国科学院信息工程研究所 一种面向用户个人文件的聚类方法及***
CN108415900A (zh) * 2018-02-05 2018-08-17 中国科学院信息工程研究所 一种基于多级共现关系词图的可视化文本信息发现方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342563B2 (en) * 2003-12-31 2016-05-17 Google Inc. Interface for a universal search
CN102831131B (zh) * 2011-06-16 2015-02-11 富士通株式会社 构建标注网页语料库的方法及装置
CN105022827B (zh) * 2015-07-23 2016-06-15 合肥工业大学 一种面向领域主题的Web新闻动态聚合方法
CN105912527A (zh) * 2016-04-19 2016-08-31 北京高地信息技术有限公司 根据自然语言输出答案的方法、装置及***
CN108399213A (zh) * 2018-02-05 2018-08-14 中国科学院信息工程研究所 一种面向用户个人文件的聚类方法及***
CN108415900A (zh) * 2018-02-05 2018-08-17 中国科学院信息工程研究所 一种基于多级共现关系词图的可视化文本信息发现方法及***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Event Related Document Retrieval Based on Bipartite Graph;Wenjing Yang,Rui Li,Peng Li,Meilin Zhou,Bin Wang;《International Conference on Web-Age Information Management 2016》;20160528;全文 *
Leveraging External Knowledge to Enhance Query Model for Event Query;Wang Pengming,Li Peng,Li Rui,and Wang Bin;《China Conference on Information Retrieval 2017》;20171021;全文 *
一种基于用户互动话题的微博推荐算法;鲁骁,李鹏,王斌;《中文信息学报》;20160320;全文 *
基于社会化标签的信息检索研究;李鹏;《万方数据知识服务平台》;20121231;全文 *
面向领域的高质量微博用户发现;叶永君,李鹏,周美林;《中文信息学报》;20180720;全文 *

Also Published As

Publication number Publication date
CN109933707A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN100405371C (zh) 一种提取新词的方法和***
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和***
CN102254014B (zh) 一种网页特征自适应的信息抽取方法
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN104715064B (zh) 一种实现在网页上标注关键词的方法和服务器
CN100514323C (zh) 用于自动提取副标题信息的***和方法
US20070294252A1 (en) Identifying a web page as belonging to a blog
CN105045852A (zh) 一种教学资源的全文搜索引擎***
CN104102721A (zh) 信息推荐方法和装置
CN101404035A (zh) 一种基于文本或语音的信息搜索方法
CN101872347A (zh) 判断网页类型的方法和装置
CN113282955B (zh) 隐私政策中隐私信息提取方法、***、终端及介质
CN105740227A (zh) 一种求解中文分词中新词的遗传模拟退火方法
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐***和方法
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
Wu et al. Searching services" on the web": A public web services discovery approach
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其***
CN109165373B (zh) 一种数据处理方法及装置
Cardoso et al. An efficient language-independent method to extract content from news webpages
CN102902790A (zh) 网页分类***及方法
CN102902794A (zh) 网页分类***及方法
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
WO2016099422A2 (en) Content sensitive document ranking method by analyzing the citation contexts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant