CN110069618A

CN110069618A - 一种抽取网页内容的方法及***

Info

Publication number: CN110069618A
Application number: CN201711135743.XA
Authority: CN
Inventors: 吴远辉
Original assignee: Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Current assignee: Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2019-07-30

Abstract

本发明公开了一种抽取网页内容的方法及***，包括以下步骤：S1、对网页进行基于正则表达式匹配的内容抽取处理，当判断抽取成功时，执行步骤S4，反之，继续执行步骤S2；S2、对网页进行基于CSS样式的内容抽取处理，当判断抽取成功时，执行步骤S4，反之，继续执行步骤S3；S3、对网页进行基于XPath匹配的内容抽取处理；S4、输出抽取结果。本发明通过采用正则表达式、CSS样式、XPath依序相结合的方式进行网页内容抽取，可以以最快的速度实现网页内容抽取，而且三种抽取方式相结合，大大提高了所抽取网页内容的准确率，可提供有效、精确的抽取结果，可广泛应用于网页的信息处理领域中。

Description

一种抽取网页内容的方法及***

技术领域

本发明涉及计算机应用和信息抽取领域，特别是涉及一种抽取网页内容的方法及***。

背景技术

名词解释：

CSS样式：层叠样式表，一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言；

XPath：一门在XML文档中查找信息的语言，它是一种用于确定XML文档中某部分位置的语言。Xpath基于XML的树状结构，提供在数据结构树中寻找节点的能力。

一般的文本挖掘分析，都会涉及到网页内容提取。网页内容是文本中基本的信息元素，是正确理解文本的基础。网页内容抽取是机器学习等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

在网页内容的抽取过程中，WEB网页的内容除了主题内容外，还有例如版权信息，广告、导航栏，装饰信息等与主题内容无关的内容，称为“噪音”信息，这些噪音增加了正文内容的自动抽取难度。如何清除噪音信息，将网页中的正文内容提取出来，在互联网技术迅猛发展的今天具有重要意义。目前在这个领域已经有了一些方法，但是技术手段比较单一，抽取速度比较慢，而且抽取准确率比较低，难以满足应用需求。

发明内容

为了解决上述的技术问题，本发明的目的是提供一种抽取网页内容的方法及***。

本发明解决其技术问题所采用的技术方案是：

一种抽取网页内容的方法，包括以下步骤：

S1、对网页进行基于正则表达式匹配的内容抽取处理，当判断抽取成功时，执行步骤S4，反之，继续执行步骤S2；

S2、对网页进行基于CSS样式的内容抽取处理，当判断抽取成功时，执行步骤S4，反之，继续执行步骤S3；

S3、对网页进行基于XPath匹配的内容抽取处理；

S4、输出抽取结果。

进一步作为优选的实施方式，所述步骤S1中所述对网页进行基于正则表达式匹配的内容抽取处理的步骤，具体包括：

S11、配置网页的正则表达式；

S12、利用正则表达式对网页进行内容抽取处理；

S13、对抽取结果进行数据清洗。

进一步作为优选的实施方式，所述步骤S2中所述对网页进行基于CSS样式的内容抽取处理的步骤，具体包括：

S21、配置网页的CSS样式表达式；

S22、利用CSS样式表达式对网页进行内容抽取处理；

S23、对抽取结果进行数据清洗。

进一步作为优选的实施方式，所述步骤S3，具体包括：

S31、配置网页的XPath路径表达式；

S32、利用XPath路径表达式对网页进行内容抽取处理；

S33、对抽取结果进行数据清洗。

进一步作为优选的实施方式，所述步骤S33，其具体为：

将抽取结果与预设的噪音词汇库进行匹配后，删除抽取结果中的噪音词汇。

本发明解决其技术问题所采用的另一技术方案是：

一种抽取网页内容的***，包括以下模块：

第一抽取模块，用于对网页进行基于正则表达式匹配的内容抽取处理，当判断抽取成功时，执行输出模块，反之，执行第二抽取模块；

第二抽取模块，用于对网页进行基于CSS样式的内容抽取处理，当判断抽取成功时，执行输出模块，反之，执行第三抽取模块；

第三抽取模块，用于对网页进行基于XPath匹配的内容抽取处理；

输出模块，用于输出抽取结果。

进一步作为优选的实施方式，所述第一抽取模块，具体包括：

第一配置单元，用于配置网页的正则表达式；

第一抽取单元，用于利用正则表达式对网页进行内容抽取处理；

第一清洗单元，用于对抽取结果进行数据；

第一判断单元，用于当判断抽取成功时，执行输出模块，反之，执行第二抽取模块。

进一步作为优选的实施方式，所述第二抽取模块，具体包括：

第二配置单元，用于配置网页的CSS样式表达式；

第二抽取单元，用于利用CSS样式表达式对网页进行内容抽取处理；

第二清洗单元，用于对抽取结果进行数据清洗；

第二判断单元，用于当判断抽取成功时，执行输出模块，反之，执行第三抽取模块。

进一步作为优选的实施方式，所述第三抽取模块，具体包括：

第三配置单元，用于配置网页的XPath路径表达式；

第三抽取单元，用于利用XPath路径表达式对网页进行内容抽取处理；

第三清洗单元，用于对抽取结果进行数据清洗。

进一步作为优选的实施方式，所述第三子模块，具体用于：

本发明方法、***的有益效果是：本发明通过采用正则表达式、CSS样式、XPath依序相结合的方式进行网页内容抽取，可以以最快的速度实现网页内容抽取，而且三种抽取方式相结合，大大提高了所抽取网页内容的准确率，可提供有效、精确的抽取结果。

附图说明

图1是本发明的抽取网页内容的方法的流程图。

具体实施方式

参照图1，本发明提供了一种抽取网页内容的方法，包括以下步骤：

S3、对网页进行基于XPath匹配的内容抽取处理；

S4、输出抽取结果。

本方法首先基于正则表达式对网页进行内容抽取处理，在抽取不成功时，基于CSS样式对网页进行内容抽取处理，并在再次抽取不成功时，对网页进行基于XPath匹配的内容抽取处理，根据网页的特性，通过采用正则表达式、CSS样式、XPath依序相结合的方式进行网页内容抽取，可以以最快的速度实现网页内容抽取，而且三种抽取方式相结合，大大提高了所抽取网页内容的准确率，可提供有效、精确的抽取结果。

S11、配置网页的正则表达式；

S12、利用正则表达式对网页进行内容抽取处理；

S13、对抽取结果进行数据清洗。

正则表达式是抽取网页内容的一种有效方法，步骤S11中，通过配置网页的正则表达式后，可以有效进行网页内容抽取，在抽取处理后，将抽取结果与预设的噪音词汇库进行匹配后，删除抽取结果中的噪音词汇，实现对抽取结果的数据清洗，从而可以删除掉不符合网页内容的抽取结果，使得抽取结果更准确。

S21、配置网页的CSS样式表达式；例如待抽取内容位于div标签中(<div class＝’content’id＝’conmain’)，通过观察该div标签的id或者class属性，可以配置抽取内容的节点的表达式为“\\div[@class＝'content']”。

S22、利用CSS样式表达式对网页进行内容抽取处理；通过利用CSS样式表达式，查找到网页中待抽取内容的HTML节点，可以对其进行内容抽取。

S23、对抽取结果进行数据清洗，去除无关的内容。

步骤S21中，通过配置网页的CSS样式表达式后，针对无法通过步骤S1中的正则表达式抽取的网页进行进一步抽取。在抽取处理后，将抽取结果与预设的噪音词汇库进行匹配后，删除抽取结果中的噪音词汇，实现对抽取结果的数据清洗，从而可以删除掉不符合网页内容的抽取结果，使得抽取结果更准确。

进一步作为优选的实施方式，所述步骤S3，具体包括：

S31、配置网页的XPath路径表达式；

S32、利用XPath路径表达式对网页进行内容抽取处理；通过利用XPath路径表达式，查找到网页中待抽取内容的HTML节点，可以对其进行内容抽取。

S33、对抽取结果进行数据清洗。

基于XPath匹配的内容抽取的原理为：

HTML网页为树状结构，可以逐层展开，逐层定位。XPath就是根据这一特性进行工作的。表达式主要形式如下：两根斜线//表示定位根节点，一根斜线/表示往下层寻找，其中一个HTML标签表示一层，提取文本内容的表达式为/text()，要提取某个属性的内容则采用表达式/@***，其中，***为具体属性的名字。

步骤S31中，通过配置网页的XPath路径表达式后，针对无法通过步骤S1也无法通过步骤S2中的CSS样式表达式抽取的网页进行进一步抽取，可以保证网页内容抽取的全面性，通过XPath路径抽取获得网页内容，保证抽取结果的准确。本方法通过步骤S1～S3的逐步的抽取判断过程，逐步采用不同的抽取方式进行网页内容抽取，可以在保证最快抽取速度的前提下，获得最高的抽取准确度。

进一步作为优选的实施方式，所述步骤S33，其具体为：

步骤S13和S23中的数据清洗步骤，与本步骤相同，目的均在于去除无关的内容。

本发明还提供了一种抽取网页内容的***，包括以下模块：

输出模块，用于输出抽取结果。

第一配置单元，用于配置网页的正则表达式；

第一清洗单元，用于对抽取结果进行数据；

第二配置单元，用于配置网页的CSS样式表达式；

第二清洗单元，用于对抽取结果进行数据清洗；

第三配置单元，用于配置网页的XPath路径表达式；

第三清洗单元，用于对抽取结果进行数据清洗。

进一步作为优选的实施方式，所述第三子模块，具体用于：

本发明的一种抽取网页内容的***，可执行本发明前述所提供的一种抽取网页内容的方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种抽取网页内容的方法，其特征在于，包括以下步骤：

S3、对网页进行基于XPath匹配的内容抽取处理；

S4、输出抽取结果。

2.根据权利要求1所述的一种抽取网页内容的方法，其特征在于，所述步骤S1中所述对网页进行基于正则表达式匹配的内容抽取处理的步骤，具体包括：

S11、配置网页的正则表达式；

S12、利用正则表达式对网页进行内容抽取处理；

S13、对抽取结果进行数据清洗。

3.根据权利要求1所述的一种抽取网页内容的方法，其特征在于，所述步骤S2中所述对网页进行基于CSS样式的内容抽取处理的步骤，具体包括：

S21、配置网页的CSS样式表达式；

S22、利用CSS样式表达式对网页进行内容抽取处理；

S23、对抽取结果进行数据清洗。

4.根据权利要求1所述的一种抽取网页内容的方法，其特征在于，所述步骤S3，具体包括：

S31、配置网页的XPath路径表达式；

S32、利用XPath路径表达式对网页进行内容抽取处理；

S33、对抽取结果进行数据清洗。

5.根据权利要求4所述的一种抽取网页内容的方法，其特征在于，所述步骤

S33，其具体为：

6.一种抽取网页内容的***，其特征在于，包括以下模块：

输出模块，用于输出抽取结果。

7.根据权利要求6所述的一种抽取网页内容的***，其特征在于，所述第一抽取模块，具体包括：

第一配置单元，用于配置网页的正则表达式；

第一清洗单元，用于对抽取结果进行数据；

8.根据权利要求6所述的一种抽取网页内容的***，其特征在于，所述第二抽取模块，具体包括：

第二配置单元，用于配置网页的CSS样式表达式；

第二清洗单元，用于对抽取结果进行数据清洗；

9.根据权利要求6所述的一种抽取网页内容的***，其特征在于，所述第三抽取模块，具体包括：

第三配置单元，用于配置网页的XPath路径表达式；

第三清洗单元，用于对抽取结果进行数据清洗。

10.根据权利要求9所述的一种抽取网页内容的***，其特征在于，所述第三子模块，具体用于：