CN110069618A - 一种抽取网页内容的方法及*** - Google Patents

一种抽取网页内容的方法及*** Download PDF

Info

Publication number
CN110069618A
CN110069618A CN201711135743.XA CN201711135743A CN110069618A CN 110069618 A CN110069618 A CN 110069618A CN 201711135743 A CN201711135743 A CN 201711135743A CN 110069618 A CN110069618 A CN 110069618A
Authority
CN
China
Prior art keywords
webpage
content
extraction
web pages
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711135743.XA
Other languages
English (en)
Inventor
吴远辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Original Assignee
Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wanlong Securities Advisory Consultants Co Ltd filed Critical Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Priority to CN201711135743.XA priority Critical patent/CN110069618A/zh
Publication of CN110069618A publication Critical patent/CN110069618A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种抽取网页内容的方法及***,包括以下步骤:S1、对网页进行基于正则表达式匹配的内容抽取处理,当判断抽取成功时,执行步骤S4,反之,继续执行步骤S2;S2、对网页进行基于CSS样式的内容抽取处理,当判断抽取成功时,执行步骤S4,反之,继续执行步骤S3;S3、对网页进行基于XPath匹配的内容抽取处理;S4、输出抽取结果。本发明通过采用正则表达式、CSS样式、XPath依序相结合的方式进行网页内容抽取,可以以最快的速度实现网页内容抽取,而且三种抽取方式相结合,大大提高了所抽取网页内容的准确率,可提供有效、精确的抽取结果,可广泛应用于网页的信息处理领域中。

Description

一种抽取网页内容的方法及***
技术领域
本发明涉及计算机应用和信息抽取领域,特别是涉及一种抽取网页内容的方法及***。
背景技术
名词解释:
CSS样式:层叠样式表,一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言;
XPath:一门在XML文档中查找信息的语言,它是一种用于确定XML文档中某部分位置的语言。Xpath基于XML的树状结构,提供在数据结构树中寻找节点的能力。
一般的文本挖掘分析,都会涉及到网页内容提取。网页内容是文本中基本的信息元素,是正确理解文本的基础。网页内容抽取是机器学习等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
在网页内容的抽取过程中,WEB网页的内容除了主题内容外,还有例如版权信息,广告、导航栏,装饰信息等与主题内容无关的内容,称为“噪音”信息,这些噪音增加了正文内容的自动抽取难度。如何清除噪音信息,将网页中的正文内容提取出来,在互联网技术迅猛发展的今天具有重要意义。目前在这个领域已经有了一些方法,但是技术手段比较单一,抽取速度比较慢,而且抽取准确率比较低,难以满足应用需求。
发明内容
为了解决上述的技术问题,本发明的目的是提供一种抽取网页内容的方法及***。
本发明解决其技术问题所采用的技术方案是:
一种抽取网页内容的方法,包括以下步骤:
S1、对网页进行基于正则表达式匹配的内容抽取处理,当判断抽取成功时,执行步骤S4,反之,继续执行步骤S2;
S2、对网页进行基于CSS样式的内容抽取处理,当判断抽取成功时,执行步骤S4,反之,继续执行步骤S3;
S3、对网页进行基于XPath匹配的内容抽取处理;
S4、输出抽取结果。
进一步作为优选的实施方式,所述步骤S1中所述对网页进行基于正则表达式匹配的内容抽取处理的步骤,具体包括:
S11、配置网页的正则表达式;
S12、利用正则表达式对网页进行内容抽取处理;
S13、对抽取结果进行数据清洗。
进一步作为优选的实施方式,所述步骤S2中所述对网页进行基于CSS样式的内容抽取处理的步骤,具体包括:
S21、配置网页的CSS样式表达式;
S22、利用CSS样式表达式对网页进行内容抽取处理;
S23、对抽取结果进行数据清洗。
进一步作为优选的实施方式,所述步骤S3,具体包括:
S31、配置网页的XPath路径表达式;
S32、利用XPath路径表达式对网页进行内容抽取处理;
S33、对抽取结果进行数据清洗。
进一步作为优选的实施方式,所述步骤S33,其具体为:
将抽取结果与预设的噪音词汇库进行匹配后,删除抽取结果中的噪音词汇。
本发明解决其技术问题所采用的另一技术方案是:
一种抽取网页内容的***,包括以下模块:
第一抽取模块,用于对网页进行基于正则表达式匹配的内容抽取处理,当判断抽取成功时,执行输出模块,反之,执行第二抽取模块;
第二抽取模块,用于对网页进行基于CSS样式的内容抽取处理,当判断抽取成功时,执行输出模块,反之,执行第三抽取模块;
第三抽取模块,用于对网页进行基于XPath匹配的内容抽取处理;
输出模块,用于输出抽取结果。
进一步作为优选的实施方式,所述第一抽取模块,具体包括:
第一配置单元,用于配置网页的正则表达式;
第一抽取单元,用于利用正则表达式对网页进行内容抽取处理;
第一清洗单元,用于对抽取结果进行数据;
第一判断单元,用于当判断抽取成功时,执行输出模块,反之,执行第二抽取模块。
进一步作为优选的实施方式,所述第二抽取模块,具体包括:
第二配置单元,用于配置网页的CSS样式表达式;
第二抽取单元,用于利用CSS样式表达式对网页进行内容抽取处理;
第二清洗单元,用于对抽取结果进行数据清洗;
第二判断单元,用于当判断抽取成功时,执行输出模块,反之,执行第三抽取模块。
进一步作为优选的实施方式,所述第三抽取模块,具体包括:
第三配置单元,用于配置网页的XPath路径表达式;
第三抽取单元,用于利用XPath路径表达式对网页进行内容抽取处理;
第三清洗单元,用于对抽取结果进行数据清洗。
进一步作为优选的实施方式,所述第三子模块,具体用于:
将抽取结果与预设的噪音词汇库进行匹配后,删除抽取结果中的噪音词汇。
本发明方法、***的有益效果是:本发明通过采用正则表达式、CSS样式、XPath依序相结合的方式进行网页内容抽取,可以以最快的速度实现网页内容抽取,而且三种抽取方式相结合,大大提高了所抽取网页内容的准确率,可提供有效、精确的抽取结果。
附图说明
图1是本发明的抽取网页内容的方法的流程图。
具体实施方式
参照图1,本发明提供了一种抽取网页内容的方法,包括以下步骤:
S1、对网页进行基于正则表达式匹配的内容抽取处理,当判断抽取成功时,执行步骤S4,反之,继续执行步骤S2;
S2、对网页进行基于CSS样式的内容抽取处理,当判断抽取成功时,执行步骤S4,反之,继续执行步骤S3;
S3、对网页进行基于XPath匹配的内容抽取处理;
S4、输出抽取结果。
本方法首先基于正则表达式对网页进行内容抽取处理,在抽取不成功时,基于CSS样式对网页进行内容抽取处理,并在再次抽取不成功时,对网页进行基于XPath匹配的内容抽取处理,根据网页的特性,通过采用正则表达式、CSS样式、XPath依序相结合的方式进行网页内容抽取,可以以最快的速度实现网页内容抽取,而且三种抽取方式相结合,大大提高了所抽取网页内容的准确率,可提供有效、精确的抽取结果。
进一步作为优选的实施方式,所述步骤S1中所述对网页进行基于正则表达式匹配的内容抽取处理的步骤,具体包括:
S11、配置网页的正则表达式;
S12、利用正则表达式对网页进行内容抽取处理;
S13、对抽取结果进行数据清洗。
正则表达式是抽取网页内容的一种有效方法,步骤S11中,通过配置网页的正则表达式后,可以有效进行网页内容抽取,在抽取处理后,将抽取结果与预设的噪音词汇库进行匹配后,删除抽取结果中的噪音词汇,实现对抽取结果的数据清洗,从而可以删除掉不符合网页内容的抽取结果,使得抽取结果更准确。
进一步作为优选的实施方式,所述步骤S2中所述对网页进行基于CSS样式的内容抽取处理的步骤,具体包括:
S21、配置网页的CSS样式表达式;例如待抽取内容位于div标签中(<div class=’content’id=’conmain’),通过观察该div标签的id或者class属性,可以配置抽取内容的节点的表达式为“\\div[@class='content']”。
S22、利用CSS样式表达式对网页进行内容抽取处理;通过利用CSS样式表达式,查找到网页中待抽取内容的HTML节点,可以对其进行内容抽取。
S23、对抽取结果进行数据清洗,去除无关的内容。
步骤S21中,通过配置网页的CSS样式表达式后,针对无法通过步骤S1中的正则表达式抽取的网页进行进一步抽取。在抽取处理后,将抽取结果与预设的噪音词汇库进行匹配后,删除抽取结果中的噪音词汇,实现对抽取结果的数据清洗,从而可以删除掉不符合网页内容的抽取结果,使得抽取结果更准确。
进一步作为优选的实施方式,所述步骤S3,具体包括:
S31、配置网页的XPath路径表达式;
S32、利用XPath路径表达式对网页进行内容抽取处理;通过利用XPath路径表达式,查找到网页中待抽取内容的HTML节点,可以对其进行内容抽取。
S33、对抽取结果进行数据清洗。
基于XPath匹配的内容抽取的原理为:
HTML网页为树状结构,可以逐层展开,逐层定位。XPath就是根据这一特性进行工作的。表达式主要形式如下:两根斜线//表示定位根节点,一根斜线/表示往下层寻找,其中一个HTML标签表示一层,提取文本内容的表达式为/text(),要提取某个属性的内容则采用表达式/@***,其中,***为具体属性的名字。
步骤S31中,通过配置网页的XPath路径表达式后,针对无法通过步骤S1也无法通过步骤S2中的CSS样式表达式抽取的网页进行进一步抽取,可以保证网页内容抽取的全面性,通过XPath路径抽取获得网页内容,保证抽取结果的准确。本方法通过步骤S1~S3的逐步的抽取判断过程,逐步采用不同的抽取方式进行网页内容抽取,可以在保证最快抽取速度的前提下,获得最高的抽取准确度。
进一步作为优选的实施方式,所述步骤S33,其具体为:
将抽取结果与预设的噪音词汇库进行匹配后,删除抽取结果中的噪音词汇。
步骤S13和S23中的数据清洗步骤,与本步骤相同,目的均在于去除无关的内容。
本发明还提供了一种抽取网页内容的***,包括以下模块:
第一抽取模块,用于对网页进行基于正则表达式匹配的内容抽取处理,当判断抽取成功时,执行输出模块,反之,执行第二抽取模块;
第二抽取模块,用于对网页进行基于CSS样式的内容抽取处理,当判断抽取成功时,执行输出模块,反之,执行第三抽取模块;
第三抽取模块,用于对网页进行基于XPath匹配的内容抽取处理;
输出模块,用于输出抽取结果。
进一步作为优选的实施方式,所述第一抽取模块,具体包括:
第一配置单元,用于配置网页的正则表达式;
第一抽取单元,用于利用正则表达式对网页进行内容抽取处理;
第一清洗单元,用于对抽取结果进行数据;
第一判断单元,用于当判断抽取成功时,执行输出模块,反之,执行第二抽取模块。
进一步作为优选的实施方式,所述第二抽取模块,具体包括:
第二配置单元,用于配置网页的CSS样式表达式;
第二抽取单元,用于利用CSS样式表达式对网页进行内容抽取处理;
第二清洗单元,用于对抽取结果进行数据清洗;
第二判断单元,用于当判断抽取成功时,执行输出模块,反之,执行第三抽取模块。
进一步作为优选的实施方式,所述第三抽取模块,具体包括:
第三配置单元,用于配置网页的XPath路径表达式;
第三抽取单元,用于利用XPath路径表达式对网页进行内容抽取处理;
第三清洗单元,用于对抽取结果进行数据清洗。
进一步作为优选的实施方式,所述第三子模块,具体用于:
将抽取结果与预设的噪音词汇库进行匹配后,删除抽取结果中的噪音词汇。
本发明的一种抽取网页内容的***,可执行本发明前述所提供的一种抽取网页内容的方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种抽取网页内容的方法,其特征在于,包括以下步骤:
S1、对网页进行基于正则表达式匹配的内容抽取处理,当判断抽取成功时,执行步骤S4,反之,继续执行步骤S2;
S2、对网页进行基于CSS样式的内容抽取处理,当判断抽取成功时,执行步骤S4,反之,继续执行步骤S3;
S3、对网页进行基于XPath匹配的内容抽取处理;
S4、输出抽取结果。
2.根据权利要求1所述的一种抽取网页内容的方法,其特征在于,所述步骤S1中所述对网页进行基于正则表达式匹配的内容抽取处理的步骤,具体包括:
S11、配置网页的正则表达式;
S12、利用正则表达式对网页进行内容抽取处理;
S13、对抽取结果进行数据清洗。
3.根据权利要求1所述的一种抽取网页内容的方法,其特征在于,所述步骤S2中所述对网页进行基于CSS样式的内容抽取处理的步骤,具体包括:
S21、配置网页的CSS样式表达式;
S22、利用CSS样式表达式对网页进行内容抽取处理;
S23、对抽取结果进行数据清洗。
4.根据权利要求1所述的一种抽取网页内容的方法,其特征在于,所述步骤S3,具体包括:
S31、配置网页的XPath路径表达式;
S32、利用XPath路径表达式对网页进行内容抽取处理;
S33、对抽取结果进行数据清洗。
5.根据权利要求4所述的一种抽取网页内容的方法,其特征在于,所述步骤
S33,其具体为:
将抽取结果与预设的噪音词汇库进行匹配后,删除抽取结果中的噪音词汇。
6.一种抽取网页内容的***,其特征在于,包括以下模块:
第一抽取模块,用于对网页进行基于正则表达式匹配的内容抽取处理,当判断抽取成功时,执行输出模块,反之,执行第二抽取模块;
第二抽取模块,用于对网页进行基于CSS样式的内容抽取处理,当判断抽取成功时,执行输出模块,反之,执行第三抽取模块;
第三抽取模块,用于对网页进行基于XPath匹配的内容抽取处理;
输出模块,用于输出抽取结果。
7.根据权利要求6所述的一种抽取网页内容的***,其特征在于,所述第一抽取模块,具体包括:
第一配置单元,用于配置网页的正则表达式;
第一抽取单元,用于利用正则表达式对网页进行内容抽取处理;
第一清洗单元,用于对抽取结果进行数据;
第一判断单元,用于当判断抽取成功时,执行输出模块,反之,执行第二抽取模块。
8.根据权利要求6所述的一种抽取网页内容的***,其特征在于,所述第二抽取模块,具体包括:
第二配置单元,用于配置网页的CSS样式表达式;
第二抽取单元,用于利用CSS样式表达式对网页进行内容抽取处理;
第二清洗单元,用于对抽取结果进行数据清洗;
第二判断单元,用于当判断抽取成功时,执行输出模块,反之,执行第三抽取模块。
9.根据权利要求6所述的一种抽取网页内容的***,其特征在于,所述第三抽取模块,具体包括:
第三配置单元,用于配置网页的XPath路径表达式;
第三抽取单元,用于利用XPath路径表达式对网页进行内容抽取处理;
第三清洗单元,用于对抽取结果进行数据清洗。
10.根据权利要求9所述的一种抽取网页内容的***,其特征在于,所述第三子模块,具体用于:
将抽取结果与预设的噪音词汇库进行匹配后,删除抽取结果中的噪音词汇。
CN201711135743.XA 2017-11-16 2017-11-16 一种抽取网页内容的方法及*** Pending CN110069618A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711135743.XA CN110069618A (zh) 2017-11-16 2017-11-16 一种抽取网页内容的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711135743.XA CN110069618A (zh) 2017-11-16 2017-11-16 一种抽取网页内容的方法及***

Publications (1)

Publication Number Publication Date
CN110069618A true CN110069618A (zh) 2019-07-30

Family

ID=67364559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711135743.XA Pending CN110069618A (zh) 2017-11-16 2017-11-16 一种抽取网页内容的方法及***

Country Status (1)

Country Link
CN (1) CN110069618A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254751A (zh) * 2021-06-24 2021-08-13 北森云计算有限公司 一种复杂网页结构化信息精确提取方法、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462268A (zh) * 2014-11-24 2015-03-25 深圳市比一比网络科技有限公司 一种html文档信息抽取表达式的方法及***
US9177060B1 (en) * 2011-03-18 2015-11-03 Michele Bennett Method, system and apparatus for identifying and parsing social media information for providing business intelligence
CN107220250A (zh) * 2016-03-21 2017-09-29 北大方正集团有限公司 一种模板配置方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9177060B1 (en) * 2011-03-18 2015-11-03 Michele Bennett Method, system and apparatus for identifying and parsing social media information for providing business intelligence
CN104462268A (zh) * 2014-11-24 2015-03-25 深圳市比一比网络科技有限公司 一种html文档信息抽取表达式的方法及***
CN107220250A (zh) * 2016-03-21 2017-09-29 北大方正集团有限公司 一种模板配置方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254751A (zh) * 2021-06-24 2021-08-13 北森云计算有限公司 一种复杂网页结构化信息精确提取方法、设备及存储介质
CN113254751B (zh) * 2021-06-24 2021-09-21 北森云计算有限公司 一种复杂网页结构化信息精确提取方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN105022803B (zh) 一种提取网页正文内容的方法及***
CN102541874B (zh) 网页正文内容提取方法及装置
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
Zheng et al. Template-independent news extraction based on visual consistency
CN106055667B (zh) 一种基于文本-标签密度的网页核心内容提取方法
CN102087648B (zh) 一种新闻评论页面的爬取方法及***
CN102591612B (zh) 一种基于标点连续性的通用网页正文提取方法及其***
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN104142985B (zh) 一种半自动化的垂直爬虫生成工具及方法
CN106021392A (zh) 一种新闻关键信息的提取方法及***
CN104598577A (zh) 一种网页正文的提取方法
CN102693279A (zh) 一种快速计算评论相似度的方法、装置及***
CN101571860A (zh) 动态网页生成方法和装置、提取结构化数据的方法和装置
CN103559234A (zh) RESTful Web服务的自动化语义标注***和方法
CN103970898A (zh) 一种基于多级规则库的信息提取方法及装置
CN112257462A (zh) 一种基于神经机器翻译技术的超文本标记语言翻译方法
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN106202007B (zh) 一种matlab程序文件相似度的评估方法
CN110069618A (zh) 一种抽取网页内容的方法及***
CN104217025B (zh) 针对多记录网页的记录项抽取***及方法
CN106528509A (zh) 网页信息提取方法及装置
CN106897287A (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
CN106168947A (zh) 一种相关实体挖掘方法和***
CN105320752B (zh) 一种兴趣点数据的挖掘方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190730