CN108509469A - 一种基于分块的网页正文信息提取方法 - Google Patents

一种基于分块的网页正文信息提取方法 Download PDF

Info

Publication number
CN108509469A
CN108509469A CN201710349695.8A CN201710349695A CN108509469A CN 108509469 A CN108509469 A CN 108509469A CN 201710349695 A CN201710349695 A CN 201710349695A CN 108509469 A CN108509469 A CN 108509469A
Authority
CN
China
Prior art keywords
piecemeal
webpage
web page
content
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710349695.8A
Other languages
English (en)
Inventor
姚国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Pure Green Intelligent Technology Co Ltd
Original Assignee
Suzhou Pure Green Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Pure Green Intelligent Technology Co Ltd filed Critical Suzhou Pure Green Intelligent Technology Co Ltd
Priority to CN201710349695.8A priority Critical patent/CN108509469A/zh
Publication of CN108509469A publication Critical patent/CN108509469A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Medicines Containing Plant Substances (AREA)

Abstract

本发明提出了一种基于分块的网页正文信息提取方法,包括以下步骤:(1)网页标准化;(2)构造标签树;(3)将网页分割成块;(4)提取含有正文的块。本发明通过对网页进行分块和对内容块的取舍进行信息提取,网页分块采用自底向上分析标签树的自动分块算法,该方法比现有技术更准确,对复杂结构的页面分块效果更好,同时通过块的重要度和块特征分析每个内容块,来提取用户所需信息,准确性高,效果好。

Description

一种基于分块的网页正文信息提取方法
技术领域
本发明涉及数据采集技术领域,具体涉及一种基于分块的网页正文信息提取方法。
背景技术
随着网络资源的不断丰富和网络信息量的不断膨胀,人们对网络的依赖性越来越强,却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便;信息自古就有无限的价值,随着时代的不断发展,人类不知不觉已经来到了信息时代,各行各业都充斥了无数的信息,而信息的价值就在于数据的流通,如果数据能够及时的流通和传递起来,才能发挥信息真正的不可比拟的价值;在市场经济条件下,采集数据已经成为重要的工具和手段。
随着Web的迅速发展,Web的信息越来越丰富。为了更好的使用Web上的信息,人们不断追求能够有效组强和利用网上信息的技术和***。然页,Web文档不像传统的文本那样整齐、干净,其中包含大量的噪音内容,例如为了增强用户交互性而加入的脚本,为了便于用户浏览而加入的导航链接,以及出于商业因素加入的广告链接等。这些噪音内容不仅影响Web信息检索的效率,而且还导致了检索准确性的下降。
因此,针对上述问题,本发明提出了一种新的技术方案。
发明内容
本发明的目的是提供一种有效地去除噪音干扰,快速提取所需信息内容的基于分块的网页正文信息提取方法。
本发明是通过以下技术方案来实现的:
一种基于分块的网页正文信息提取方法,包括以下步骤:
网页标准化:首先对HTML代码进行预处理,将其标准化;
构造标签树:将整理好的规范网页构造标签树,将网页中的标签按照嵌套关系整理成一棵树状结构,在构造的过程中保留每个节点的视觉属性,同时,对标签树做裁剪,将无关节点删除;
将网页分割成块,依据网页中内容块标签作为容器标签对网页进行划分;
a、通过统计标签树上的各种容器标签的数量进行统计,判断网页是采用哪种容器标签来做布局;
b、考察最底层容器标签节点,将标签树最底层的节点下的所有文本节点合并,并统计该块的信息含量,同时考察视觉特征;
c、考察每个底层节点的上一层节点,并计算该节点的信息含量,判断该节点能否成为分块节点;
提取含有正文的块
分块结束后,对内容块根据用户的不同需要进行取舍,取出含有正文信息的内容块。
进一步地,所述步骤中构造标签树的方法采用DOM标签树构造工具。
进一步地,所述步骤中依据网页中内容块标签作为容器标签对网页进行划分,其它类型的标签信息作为所在内容块的属性。
进一步地,所述视觉特征包括表格的大小、位置、字体的大小和颜色、以及段落的长短。
进一步地,所述步骤中,依据内容块的重要度以及块特征对内容块进行取舍。
进一步地,所述块特征包括空间特征和内容特征,所述空间特征包括内容块的位置和大小,内容特征包括文字长度、链接数量和图片数量。
本发明的有益效果是:本发明通过对网页进行分块和对内容块的取舍进行信息提取,网页分块采用自底向上分析标签树的自动分块算法,该方法比现有技术更准确,对复杂结构的页面分块效果更好,同时通过块的重要度和块特征分析每个内容块,来提取用户所需信息,准确性高,效果好。
具体实施方式
下面结合实施例对本发明做进一步地说明。
实施例1
一种基于分块的网页正文信息提取方法,包括以下步骤:
网页标准化:首先对HTML代码进行预处理,将其标准化;
构造标签树:将整理好的规范网页构造标签树,将网页中的标签按照嵌套关系整理成一棵树状结构,在构造的过程中保留每个节点的视觉属性,同时,对标签树做裁剪,将无关节点删除;
将网页分割成块,依据网页中内容块标签作为容器标签对网页进行划分;
a、通过统计标签树上的各种容器标签的数量进行统计,判断网页是采用哪种容器标签来做布局;
b、考察最底层容器标签节点,将标签树最底层的节点下的所有文本节点合并,并统计该块的信息含量,同时考察视觉特征;
c、考察每个底层节点的上一层节点,并计算该节点的信息含量,判断该节点能否成为分块节点;
提取含有正文的块
分块结束后,对内容块根据用户的不同需要进行取舍,取出含有正文信息的内容块。
在本实施例中,步骤中构造标签树的方法采用DOM标签树构造工具。
在本实施例中,步骤中依据网页中内容块标签作为容器标签对网页进行划分,其它类型的标签信息作为所在内容块的属性。
在本实施例中,视觉特征包括表格的大小、位置、字体的大小和颜色、以及段落的长短。
在本实施例中,步骤中,依据内容块的重要度以及块特征对内容块进行取舍。
在本实施例中,块特征包括空间特征和内容特征,空间特征包括内容块的位置和大小,内容特征包括文字长度、链接数量和图片数量。
本发明通过对网页进行分块和对内容块的取舍进行信息提取,网页分块采用自底向上分析标签树的自动分块算法,该方法比现有技术更准确,对复杂结构的页面分块效果更好,同时通过块的重要度和块特征分析每个内容块,来提取用户所需信息,准确性高,效果好。

Claims (6)

1.一种基于分块的网页正文信息提取方法,其特征在于:包括以下步骤:
网页标准化:首先对HTML代码进行预处理,将其标准化;
构造标签树:将整理好的规范网页构造标签树,将网页中的标签按照嵌套关系整理成一棵树状结构,在构造的过程中保留每个节点的视觉属性,同时,对标签树做裁剪,将无关节点删除;
将网页分割成块,依据网页中内容块标签作为容器标签对网页进行划分;
a、通过统计标签树上的各种容器标签的数量进行统计,判断网页是采用哪种容器标签来做布局;
b、考察最底层容器标签节点,将标签树最底层的节点下的所有文本节点合并,并统计该块的信息含量,同时考察视觉特征;
c、考察每个底层节点的上一层节点,并计算该节点的信息含量,判断该节点能否成为分块节点;
提取含有正文的块
分块结束后,对内容块根据用户的不同需要进行取舍,取出含有正文信息的内容块。
2.根据权利要求1所述一种基于分块的网页正文信息提取方法,其特征在于:所述步骤中构造标签树的方法采用DOM标签树构造工具。
3.根据权利要求1所述一种基于分块的网页正文信息提取方法,其特征在于:所述步骤中依据网页中内容块标签作为容器标签对网页进行划分,其它类型的标签信息作为所在内容块的属性。
4.根据权利要求1所述一种基于分块的网页正文信息提取方法,其特征在于:所述视觉特征包括表格的大小、位置、字体的大小和颜色、以及段落的长短。
5.根据权利要求1所述一种基于分块的网页正文信息提取方法,其特征在于:所述步骤中,依据内容块的重要度以及块特征对内容块进行取舍。
6.根据权利要求5所述一种基于分块的网页正文信息提取方法,其特征在于:所述块特征包括空间特征和内容特征,所述空间特征包括内容块的位置和大小,内容特征包括文字长度、链接数量和图片数量。
CN201710349695.8A 2017-05-17 2017-05-17 一种基于分块的网页正文信息提取方法 Pending CN108509469A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710349695.8A CN108509469A (zh) 2017-05-17 2017-05-17 一种基于分块的网页正文信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710349695.8A CN108509469A (zh) 2017-05-17 2017-05-17 一种基于分块的网页正文信息提取方法

Publications (1)

Publication Number Publication Date
CN108509469A true CN108509469A (zh) 2018-09-07

Family

ID=63373328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710349695.8A Pending CN108509469A (zh) 2017-05-17 2017-05-17 一种基于分块的网页正文信息提取方法

Country Status (1)

Country Link
CN (1) CN108509469A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857956A (zh) * 2019-01-25 2019-06-07 四川大学 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN110377796A (zh) * 2019-07-25 2019-10-25 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727461A (zh) * 2008-10-13 2010-06-09 中国科学院计算技术研究所 一种网页的正文抽取方法
CN101944109A (zh) * 2010-09-06 2011-01-12 华南理工大学 一种基于页面分块的图片摘要提取***及方法
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727461A (zh) * 2008-10-13 2010-06-09 中国科学院计算技术研究所 一种网页的正文抽取方法
CN101944109A (zh) * 2010-09-06 2011-01-12 华南理工大学 一种基于页面分块的图片摘要提取***及方法
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857956A (zh) * 2019-01-25 2019-06-07 四川大学 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN109857956B (zh) * 2019-01-25 2019-12-31 四川大学 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN110377796A (zh) * 2019-07-25 2019-10-25 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质
CN110377796B (zh) * 2019-07-25 2021-11-02 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105183801B (zh) 网页正文抽取方法及装置
CN102156737B (zh) 一种中文网页主题内容的提取方法
Peters et al. Content extraction using diverse feature sets
CN104504086B (zh) 网页页面的聚类方法和装置
CN103488746B (zh) 一种获取业务信息的方法及装置
EP2633432A1 (en) Extraction of content from a web page
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN102314520A (zh) 基于统计回溯定位的网页正文提取方法和装置
CN103530429B (zh) 一种网页正文抽取的方法
CN107230123A (zh) 商品映射方法、装置及设备
CN106326451B (zh) 一种基于视觉特征提取的网页传感信息块判决方法
CN103440494A (zh) 一种基于视觉显著性分析的恐怖图像识别方法及***
Madan et al. Synthetically trained icon proposals for parsing and summarizing infographics
CN109144513B (zh) 一种自动抽取列表页的方法
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN108509469A (zh) 一种基于分块的网页正文信息提取方法
CN106528068A (zh) 一种网页内容重构方法和***
CN112084451A (zh) 一种基于视觉分块的网页logo提取***及方法
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
CN102141998B (zh) 网页视觉复杂度的自动评价方法
CN104462394B (zh) 一种识别网页正文楼层的***和方法
CN103744920A (zh) 一种商品属性名值对抽取方法及***
CN104484451B (zh) 网页页面信息的提取方法和装置
CN103729354B (zh) 网页信息处理方法及装置
CN108509472A (zh) 一种网页分块提取分块节点的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180907

WD01 Invention patent application deemed withdrawn after publication