CN102779169A

CN102779169A - 一种基于html标签的网页正文提取方法及装置

Info

Publication number: CN102779169A
Application number: CN2012102135540A
Authority: CN
Inventors: 刘迎春; 魏华峰; 方筠捷
Original assignee: JIANGSU XINRUIFENG INFORMATION TECHNOLOGY Co Ltd
Current assignee: JIANGSU XINRUIFENG INFORMATION TECHNOLOGY Co Ltd
Priority date: 2012-06-27
Filing date: 2012-06-27
Publication date: 2012-11-14

Abstract

本发明所提供一种基于HTML标签的网页正文提取方法和装置，能够比较准确地识别出非常规的网页结构中的网页正文，提高了提取网页正文内容的通用性、准确率、效率和可扩展性，不仅满足PAD和手机用户的即时访问需求，又可应用于信息检索领域的自动文摘和自动分类***。

Description

一种基于HTML标签的网页正文提取方法及装置

技术领域

本发明涉及计算机网络中网页文字信息处理领域，特别涉及网页正文的提取方法和装置。

背景技术

随着互联网的不断发展，Web页面数量急剧大幅增加，网页已经成为人们最为巨大和广泛的信息来源。许多有用的信息淹没在浩如烟海的Web页面中，网页中的正文数据往往被许多噪音数据所干扰，如广告、链接、产品推荐、导航条、版权说明等。如何帮助人们迅速提取有效的信息，研究和探索各种高效、实用的Web网页正文数据提取技术对于Web数据挖掘具有非常重要的意义，成为一个非常重要的问题。

针对HTML网页的特点，需要利用网页结构布局信息对网页进行区域分割，模拟IE浏览器的显示方式，对网页进行解析。***根据人类的视觉原理，把网页解析处理的结果进行分块，然后根据用户需求，提取用户需要的相关网页块的内容。因此网页分割是从网页中提取有效信息的常用手段，当前比较常用的网页分割方法主要有一下2种：

1、基于位置关系的分割法：该方法利用网页页面的布局进行分块，将一个网页分成上、下、左、右和中间5个部分，再根据这5个部分的特征进行分类。但是，实际的网页结构要复杂的多，这种基于网页布局的方法并不适用于所有的网页，而且这种方法切分的网页粒度比较粗，有可能破坏网页本身的内在特征，难以充分包括整个网页的语义特征。中国科学院声学研究所对上述方法进行了改进，提出了一种基于快速傅里叶变换的网页正文提取方法（专利申请号为200710063182.7），用网页的频域特征来分割页面、过滤噪声，进而提取有效信息，实验结果表明，此种方法能比较准确的对“正文式”网页的有效信息进行提取。但该方法必须局限在基于同一个模板的网页集，而Web上的网页模板不计其数，因此该方法显然不够通用。

2、基于文档对象模型（DOM，Document Object Model）的分割法：该方法通过找出网页HTML文档里的特定标签，利用标签项将HTML文档表示成一个DOM树的结构，然后根据特定标签包括heading、table、paragraph和list等来提取有效的树结点数据。但是，在许多情况下，文档对象模型不是用来表示网页内容结构的，所以利用该方法不能够准确地对网页中各分块的语义信息进行辨别。莫雅静对上述方法进行了改进，提出了一种基于统计回溯定位的正文提取方法（专利申请号为201110326226.7），在一定范围内能够较好地提取网页正文，但是其有一定的局限性，这种方法的缺点是不能高效识别正文区域块和删除正文中的无用链接。

以上方法都是对HTML语义结构进行分析，找到网页正文所在的位置进行处理，提取出网页的正文。但这些方法对于网页结构出现非常规现象时，效果不好。比如网页的正文极短，而该网页中的广告栏含有的文字量很大，这样会把广告所在的部分当成了正文部分提取出来，造成提取失效。

发明内容

本发明所提出的一种基于HTML标签的网页正文提取方法能够比较准确地识别出非常规的网页结构中的网页正文，提高提取网页正文内容的通用性、准确率和效率。由于本发明基于HTML规范，提取后的网页内容和结构与源网页一致，有很高的可扩展性。因此，本发明具有可观的应用价值，它不仅满足PAD和手机用户的即时访问需求，又可应用于信息检索领域的自动文摘和自动分类等***。

本发明的主要思想是：对普遍拥有相似结构的网页进行分块，先将整个网页分成head和body两个区域块，然后分别对这两个区域块中的HTML标签语义进行分析，由净化处理单元删除无用的标签元素及其内容，进而提取出网页的正文内容。

超文本标记语言(hyper text markup language，HTML)是网页编写的基本语言。要实现Web 网页的正文提取，必须对HTML的语法结构有个清楚的认识。

对于搜狐、新浪、网易等包含大量信息的大型门户网站而言，其各类网页中包含信息标题、文摘、超链接等可供用户检索用的有用信息，且这类网站结构稳定、类似具有普遍代表性，所以只要对这些网站信息做到高效滤除，则等于可以对这类网站的信息做到批量处理的目的。经对比得到该类网站普遍拥有相似的结构如下：

网页标题及其它与网页标题无关的信息

<／head><body>

正文标题，正文内容及其它与网页正文标题，正文内容无关的信息

<／body><／html>

本发明算法的分析和处理过程由“净化处理单元”完成，由3大环节构成：① 删除head区域块中与网页标题无关的内容；② 确定body区域块中网页正文标题的位置；③删除body区域块中与网页正文无关的内容。下面将分别对各处理环节逐一进行说明。

1、删除head区域块中与网页标题无关的内容

在<head><／head>区域块中，如果在<title></title>或<hn></hn>或<div></div>或<u1>或</ul>或或或里没有href,src或link出现，就将这些标签中的内容作为网页标题保留，其余的标签与内容全部删除。因为head区域块主要用于存放网页标题以及被浏览器所识别而不显示在网页正文内容里的用来描述所属页面的基本属性，或者用于存放网页标题以及被搜索引擎查找该网页但不显示在网页正文内容里的信息。

2、确定body区域块中网页正文标题的位置

首先，本发明通过从各大网站下载的近1万张各类网页进行分析和聚类实验，引入标题相似率概念，即标题相似率=正文标题长度／网页标题长度，得到标题相似率变化的大致范围是51％～100％，这是定位网页正文标题位置的第一个条件。

此外，本文定位网页正文标题位置用到的第二个条件是：

当搜索到下列标签之一时：

<DIVid=ArticleTit><／DIV>(出现几率大约60％)

<H1id=ArticleTit><／H1>(出现几率大约30％)

(与下面3组标签一起出现的几率大约10％)

<／strong>

<／b>

如果这些标签中不包含<a></a>，href或link标签，并且上面6种标签之一中的文档内容长度与在上节中的获得的网页标题长度的标题相似率范围在51％-100％之内，那么就把该标签内的文档内容作为网页正文标题保留。通过上述第1、第2个步骤，就确定了网页正文标题的位置。

3、删除body区域块中与网页正文无关的内容

确定了网页正文标题的位置后，就把位于<body>标签与网页正文标题之间的所有内容全部删除，因为这些内容都是LOGO链接、脚本、样式表等与网页正文无关的信息。在网页正文标题后就是网页正文区域块。接着，将按照下面两种方法删除网页正文区域块中与正文内容无关的文字链接和图片链接。

（1）网页正文区域中文字链接的处理

网页正文区域块里的文字链接处理起来相对比较简单，当搜索到“<ahref=相对地址URL>[hyperlinktext]</a>”形式的链接区块时，如果“[hyperlinktext]”在正文里出现超过2次，就认为该链接是正文内容，需要保留下来，否则就清除包括<a></a>的所有内容。

(2)网页正文区域中图片链接的处理

网页正文区域块里的图像主要用两种方式在网上发布：句内的(inlined)图片链接和引用的(referenced)图片链接。对两者之一或其综合出现情况，其HTML格式是不一样的。一般地，存在如下需要区别处理的3种情况：

1)对于句内的或嵌入的图片链接，图像是在网络文件内，文件里有下面的代码：<img src=绝对地址URL alt=[alt text]>

这里，URL给出了图像的绝对地址。可选的alt标签标明当浏览器正在载入图像的内容说明。一般情况下这种格式的图像是正文图像，可用下面给出的第二个判断条件进一步判断是否是正文图像，以提高准确率。

2)对于引用的图像是来自父页面的引用的情况，一般用下面的代码表示：<a><img href=相对地址URL>[hyperlink text]</a>

这里，可选的[hyperlink text]提供描述超链接所指向的图像的内容说明。这种格式的图像可能是正文图像，也可能是与正文无关的链接图像，也需要下面给出的第二个判断条件进一步判断是否是正文图像。

3)对于句内的和引用的图片链接同时出现的综合情况，文件里有下面的代码：

<ahref=相对地址URLl><img src=绝对地址URL2></a>

这种格式的图像可能是正文图像，也可能是与正文无关的链接图像，仍需要下面给出的第二个条件进一步判断是否是正文图像。

在上述3类情况中，给出的是处理图像链接内容的第一个判断条件。因为HTML网页中图像链接的处理相对比较复杂，所以对上述3类情况，还需用下面给出的第二个判断条件进行判断才能决定是保留或是删除该图像。

第二个判断条件：在上述3种情况中，如果src的绝对地址中是gif,wmf,swf(动画文件格式)等格式的图像，一般情况下都是与正文内容无关的按钮图像，要删除。如果是以jpg，jpeg，jpeg2000，png，bmp，svg等格式结尾的图像一般是正文图像，则要保留。

当扫描到网页正文内容结束后，删除body区域中除了</body></html>标签的所有信息，进而提取出网页的正文内容。

在待删除的无关内容中，一般地可能包括有style、script、link等元素及其内容。这是因为Style元素主要用来改善网页的显示效果，它的内容主要是设计网页显示的属性，和网页正文无关；script元素是脚本程序，用来设计动态网页，它的内容也和网页正文无关。因此要将这两个标签及其之间的内容全部删除。至于超链接元素a也要被删除，因为本发明只是解决网页的主体正文提取。超链接里面的内容需要根据上面的分析判断不是网页正文内容才能被删除。

在净化处理单元处理结束后，为确保提取正确的网页主体正文，需要进行由转义字符转换处理单元进行转义字符转换处理。转义字符串也称字符实体。在HTML中，定义转义字符串的原因有两个：第一个原因是像“<”和“>”这类符号已经用来表示HTML标签，因此就不能直接当作文本中的符号来使用。为了在HTML文档中使用这些符号，就需要定义它的转义字符串。当解释程序遇到这类字符串时就把它解释为真实的字符。在输入转义字符串时，要严格遵守字母大小写的规则。第二个原因是，有些字符在ASCII字符集中没有定义，因此需要使用转义字符串来表示。

综上所述，本发明所提出的一种基于HTML标签的网页正文提取方法通过含有中央处理器、寄存器、转义字符转换处理单元、净化处理单元、存储器的装置提取出网页的正文内容，包括以下步骤：

（1）中央处理器将网页的HTML代码以文本形式读入寄存器中，并将寄存器中的字符全部小写化，便于后面的字符匹配；

（2）通过扫描寄存器，将HTML网页划分成Head和Body两大区域块；

（3）调用净化处理单元，对寄存器进行净化；

（4）调用转义字符转换处理单元，把寄存器里面的转义字符转化成正常字符；

（5）依次在存储器中保存寄存器中网页信息，即为提取的网页正文部分。

本发明所提出的一种基于HTML标签的网页正文提取装置包括中央处理器、寄存器、转义字符转换处理单元、净化处理单元、存储器，提取出网页的正文内容包括以下步骤：

（3）调用净化处理单元，对寄存器进行净化；

附图说明

图1为Web全文检索中间件的架构模型图。

图2为文档搜索***的架构模型图。

具体实施方式

在具体实施过程中，可以用字符串str作为寄存器，净化处理单元在分析查找到网页标题、网页正文标题和网页正文后，先删除这些内容之外的所有信息，然后保留这些内容到清空后的字符串str中。

由于style元素，script元素，a元素，是必须有结束标签的，所以很容易定位这些元素所对应的子字符串在字符串str中的位置和长度，但考虑到很多网页的不规范性，为提高程序的容错性能，本实施方式采用了如下描述给出的一种标签配对方法，将这些要删除的元素各部分补齐，然后再进行匹配删除。

标签配对方法：由于在style元素、script元素和a元素的内容中，可能还会出现其它的标签，因此从开始标签向后查找，并记住查到的每一个标签的位置，在其它标签之前***结束标签即可完成标签配对。

虽然HTML协议允许出现元素的交叉，即<element1><element2></elementl><／element2>的情况，但因table元素，div元素，style元素，script元素和a元素不会出现这种情况，故在本实施方式不再考虑这种情况。

本发明所提出的一种基于HTML标签的网页正文提取方法及装置的***实现采用Delphi7进行设计，开发的硬件平台为：Pentium4 2.4G的CPU，512M 内存。为了验证这个新算法的正确性，特从新浪、搜狐、雅虎、网易、中国新闻网、腾讯网六大网站下载了1万张新闻网页进行了实验，并在其中随机抽取了3000张网页，分别用基于快速傅立叶变换的网页正文内容提取算法和本发明进行对比实验。实验结果表明，本发明提取网页正文的成功率高于85％，达到了提取当前网页正文的目的。本发明在执行效率上也很好，对一个3000字左右的网页抽取正文，平均时间为23毫秒。而基于快速傅立叶变换的网页正文内容提取算法提取的正文中，部分链接不能除去，成功率相对较低，不到80％。而该算法在执行效率上也较低，对于一个3000字左右的网页提取正文的平均时间为127毫秒。

在具体实施过程中，本发明还可以应用于信息检索领域，构建出以下一种Web全文检索中间件和一种文档搜索***。

图1给出了Web全文检索中间件的架构模型。整个中间件由信息采集模块、信息处理模块和全文检索模块组成。各个模块的简要描述如下。

1)信息采集模块。该模块主要是负责对Web网页进行多线程抓取并对抓取所得到的URL进行去重处理。在该模块中，采集接口面向Web网站，只需给定抓取的起始URL，即可通过宽度优先搜索策略完成整个站点所有网页的抓取。

2)信息处理模块。该模块包含两个主要内容，先对采集到的网页内容进行正文提取，采用所提出的基于标签的正文提取方法来实现；后对提取结果进行分词并建立索引，其中分词功能可通过使用中文分词组件JE-Analysis 来实现。

3)全文检索模块。全文检索模块提供了用户检索功能的接口，其内部封装了全文检索、用户检索条件解析、对检索结果进行排序以及若干提高用户体验的个性化操作功能，如搜索关键词智能提示、相关关键词搜索和高级检索等。

图2给出了文档搜索***的架构模型。文档搜索***采用J2EE技术结合MVC架构，利用Web全文检索中间件，采用Java语言开发实现。

1)表示层。用于生成用户访问的Web页面，包括文档搜索引擎的搜索界面、结果的返回页面、高级搜索页面，搜索引擎进行初始设置或者调整服务器功能的一些页面，都集中在表示层。简单地说，表示层就是该***与各种用户的人机接口。

2)逻辑层。逻辑层位于***的服务器端，包含众多的功能模块，是实现文档搜索***和搜索服务功能的核心层次。表示层中提出的各种功能都通过逻辑层相应的代码模块实现。逻辑层的设计包含两个主要的内容：一是面向Internet的网页信息自动采集功能，通过一个专门的多线程爬虫程序来实现，并把采集的页面信息存储在下面的数据存储层中；另一个则是分析用户条件，进行组合搜索，将检索结果按照特定的缓存策略进行缓存，同时对给予用户展示的结果按照时问排序或者相关度排序。逻辑层的设计是实现***健壮性、可重用性、可扩展性和可维护性的关键因素。

3)数据存储层。数据存储层主要是负责将网页爬虫采集到的HTML页面进行URL去重，然后用本发明所描述的基于HTML标签的正文提取方法对页面正文进行递归地提取，将提取结果封装成对象的形式，利用Lucene为其建立倒排索引，在索引文件中存储相应的数据。

Claims

1.一种基于HTML标签的网页正文提取装置，包括中央处理器、寄存器、转义字符转换处理单元、净化处理单元、存储器，其特征是，中央处理单元按照如下步骤执行网页正文的提取：

（2）中央处理器通过扫描寄存器，将HTML网页划分成Head和Body两大区域块；

（3）中央处理器调用净化处理单元，通过以下3个环节对寄存器进行净化：

①删除head区域块中与网页标题无关的内容，

②确定body区域块中网页正文标题的位置，

③删除body区域块中与网页正文无关的内容；

（4）中央处理器调用转义字符转换处理单元，把寄存器里面的转义字符转化成正常字符；

（5）中央处理器依次在存储器中保存寄存器中网页信息，即为提取的网页正文部分。

2.一种基于HTML标签的网页正文提取方法，通过含有中央处理器、寄存器、转义字符转换处理单元、净化处理单元、存储器的装置提取出网页的正文内容，其特征是，该方法包括以下步骤：

①删除head区域块中与网页标题无关的内容，

②确定body区域块中网页正文标题的位置，

③删除body区域块中与网页正文无关的内容；

3.一种Web全文检索中间件，由信息采集接口、信息采集模块、信息处理模块、全文检索模块和检索接口组成，其中，信息采集模块对来自信息采集接口的Web网页进行抓取并对抓取所得到的URL进行去重处理；信息处理模块先对信息采集模块采集到的网页内容进行正文提取，后对提取结果进行分词并建立索引；全文检索模块内部封装了全文检索、用户检索条件解析、对检索结果进行排序以及提高用户体验的个性化操作功能，对外提供了检索接口，其特征是，信息处理模块中对信息采集模块采集到的网页内容进行正文提取的装置是如权利要求1所述的一种基于HTML标签的网页正文提取装置。

4.如权利要求3所述的一种Web全文检索中间件，信息采集模块对来自信息采集接口的Web网页进行抓取时采用多线程抓取。

5.一种中间件的Web全文检索方法，该中间件由信息采集接口、信息采集模块、信息处理模块、全文检索模块和检索接口组成，全文检索包括以下步骤：

（1）信息采集模块对来自信息采集接口的Web网页进行抓取并对抓取所得到的URL进行去重处理；

（2）信息处理模块先对信息采集模块采集到的网页内容进行正文提取，后对提取结果进行分词并建立索引；

（3）全文检索模块内部封装了全文检索、用户检索条件解析、对检索结果进行排序以及提高用户体验的个性化操作功能，对外提供了检索接口；

其特征是，信息处理模块中对信息采集模块采集到的网页内容进行正文提取的方法是如权利要求2所述的一种基于HTML标签的网页正文提取方法。

6.如权利要求5所述的一种Web全文检索中间件的构造方法，信息采集模块对来自信息采集接口的Web网页进行抓取时采用多线程抓取。

7.一种文档搜索***，其特征是，由人机接口和如权利要求3所述的一种Web全文检索中间件组成，人机接口提供起始URL给中间件的信息采集接口，并显示中间件通过检索接口输出的检索结果。

8.一种文档搜索的方法，通过人机接口和一种Web全文检索中间件进行文档检索，其特征是，包括以下步骤：

（1）人机接口提供起始URL给中间件的信息采集接口；

（2）中间件调用如权利要求5所述的一种中间件的Web全文检索方法，检索结果通过检索接口输出；

（3）检索结果通过人机接口显示。