CN110851679A - 一种基于正文节点特征的提取网页正文的方法和*** - Google Patents
一种基于正文节点特征的提取网页正文的方法和*** Download PDFInfo
- Publication number
- CN110851679A CN110851679A CN201910947241.XA CN201910947241A CN110851679A CN 110851679 A CN110851679 A CN 110851679A CN 201910947241 A CN201910947241 A CN 201910947241A CN 110851679 A CN110851679 A CN 110851679A
- Authority
- CN
- China
- Prior art keywords
- text
- node
- webpage
- value
- html
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于正文节点特征的提取网页正文的方法和***,属于互联网技术领域。本发明方法包括:获取待提取网页的HTML源代码;对HTML源代码进行过滤并提取出HTML源代码HTML DOM树中元素关键节点,针对元素关键节点构建列表;获取每个元素关键节点的节点值为正文节点属性值的概率并进行排序;按正文节点属性值的概率的顺序对元素关键节点进行正文元素提取,确定待判断网页正文为网页正文。本发明在网页正文提取过程中,考虑到HTML网页DOM树元素的属性节点对标记正文节点的重要作用,将网页节点关键属性值id和class与正文节点属性值特征对比,准确找出正文节点值,结合HTML解析器技术准确抽取正文。
Description
技术领域
本发明涉及互联网技术领域,并且更具体地,涉及一种基于正文节点特征的提取网页正文的方法和***。
背景技术
在WEB海量信息处理的背景下,WEB智能信息检索、文档自动摘要、舆情分析等等需求应运而生。这些需求都是对互联网中海量的WEB页面的采集及分析的过程。通常情况下,这类技术都是通过网络爬虫来从网络上抓取原始网页的信息,而原始信息中除了用户所感兴趣的正文信息之外,还通常会包含有各种网络噪音数据,比如广告链接、标签信息、导航链接、评论等等。这些噪音数据的存在,极大地影响了网络检索的效率,也降低了人们的阅读效率。正确、高效地在半结构化、异构性强的HTML源文件中提取到文章正文,在基于互联网的数据挖掘、信息检索等领域具有着重要的意义。
随着互联网的迅猛发展,WEB所承载的数据与日俱增,其信息冗余、形式多样、处理困难等问题也越来越突出,因此,WEB信息提取应运而生。又由于WEB页面中包含了大量的与主题无关的信息,影响了用户从中快速定位并获取正文内容。所以,对页面正文信息的提取显得尤为重要,其不但可以节省用户大量的时间和精力,而且提取结果也可以用于数据挖掘等各个方面。WEB信息提取主要针对无结构或者半结构化的WEB页面,且主流大多基于HTML结构。在已有的相关研究中,研究者在关注HTML元素时忽略了属性标签的语义信息对其包含的内容的影响,导致无法正确找到正文节点,抽取正文内容比较困难、抽取效率低。
网页正文提取技术:
目前在网页正文提取领域,由于HTML页面可以解析成DOM树,页面中所有的标签和文本信息等都可以被转换为树中的一个节点,对数据的提取可以转化成对一棵树进行操作。由于具有结构上的优势,因此,基于HTML结构的信息提取逐渐成为研究的主流,方法效果比较好的是基于统计学习和文本特征的网页正文提取方法。该方法对单正文和多正文的网页
提取效果都较好,该方法首先将网页构造成一颗标签树,然后通过统计学习获取一条从根节点一直到叶节点(必须包含正文的叶节点)的路径,自动学习这条路径上的正文特征,用于找出拥有同样正文特征的路径,找出正文区域和子树主干,再然后,根据所学到的正文特征,找出正文区域中的类似子树主干,最后,通过对获取的正文区域中的内容进行剪枝,得到页面的主要信息。该方法虽然能够有效的提取出正文信息,但需要事先进行路径标记,且学习过程较长,并且对博客类的网页不适用。
字符串相似性度量技术:
字符串相似度度量是寻找两个字符串的公共子串,利用公共子串的长度根据相应的公式来衡量两个字符串的相似程度。字符串相似度在很多领域都有广泛的应用。如在抄袭检测***、自动评分***、防代码剽窃***、数据清洗、网页搜索和DNA序列匹配等领域都有应用。目前,字符串相似度度量算法有很多,如编辑距离算法,最长公共子串算法、Heckel算法、贪心字符串匹配算法及RKR-GST算法等。这些算法因为实现的原理不同,得到的字符串相似度也会有些差别,进而应用的领域也会有所不同。
发明内容
针对上述问题,本发明提出了一种基于正文节点特征的提取网页正文的方法,包括:
获取待提取网页的HTML源代码;
对HTML源代码进行过滤并提取出HTML源代码HTML DOM树中元素关键节点,针对元素关键节点构建列表;
对列表中每一个元素关键节点的节点值按顺序与节点库中的节点值进行比对,获取每个元素关键节点的节点值为正文节点属性值的概率并进行排序;
按正文节点属性值的概率的顺序对元素关键节点进行正文元素提取,获取待判断网页正文,判断待判断网页正文是否超出预设阈值,当待判断网页正文未超出预设阈值时,确定待判断网页正文为网页正文。
可选的,本发明方法,还包括:
当确定待判断网页正文为网页正文时,不对剩余元素关键节点进行正文元素提取。
可选的,进行正文元素提取根据网页正文节点属性标识和HTML解析器进行提取。
可选的,对列表中每一个元素关键节点的节点值按顺序与正文节点库中的节点值进行比对使用RKR-GST算法或字符串的编辑距离算法。
本发明还提供了一种基于正文节点特征的提取网页正文的***,包括:
信息获取模块,获取待提取网页的HTML源代码;
过滤模块,对HTML源代码进行过滤并提取出HTML源代码HTML DOM树中元素关键节点,针对元素关键节点构建列表;
排序模块,对列表中每一个元素关键节点的节点值按顺序与节点库中的节点值进行比对,获取每个元素关键节点的节点值为正文节点属性值的概率并进行排序;
提取模块,
按正文节点属性值的概率的顺序对元素关键节点进行正文元素提取,获取待判断网页正文,判断待判断网页正文是否超出预设阈值,当待判断网页正文未超出预设阈值时,确定待判断网页正文为网页正文。
可选的,进行正文元素提取根据网页正文节点属性标识和HTML解析器进行提取。
可选的,对列表中每一个元素关键节点的节点值按顺序与正文节点库中的节点值进行比对使用RKR-GST算法或字符串的编辑距离算法。
本发明在网页正文提取过程中,考虑到HTML网页DOM树元素的属性节点对标记正文节点的重要作用,将网页节点关键属性值(id、class)与正文节点属性值特征对比,准确找出正文节点值,结合HTML解析器技术准确抽取正文。
附图说明
图1为本发明一种基于正文节点特征的提取网页正文的方法流程图;
图2为本发明一种基于正文节点特征的提取网页正文的***结构图。
具体实施方式
本发明结合正文节点特征与HTML解析器技术,实现高效准确的抽取网页正文。
本发明提出了一种基于正文节点特征的提取网页正文的方法,如图1所示,包括:
获取待提取网页的HTML源代码;
对HTML源代码进行过滤并提取出HTML源代码HTML DOM树中元素关键节点,针对元素关键节点构建列表;
对列表中每一个元素关键节点的节点值按顺序与节点库中的节点值进行比对,获取每个元素关键节点的节点值为正文节点属性值的概率并进行排序,对列表中每一个元素关键节点的节点值按顺序与正文节点库中的节点值进行比对使用RKR-GST算法或字符串的编辑距离算法;
本发明使用的正文节点特征比对使用的是RKR-GST算法,GST(Greedy StringTiling),是贪心串覆盖算法的简称,是一种基于token的相似度计算度量方法。算法的基本思想是:如何两个串完全相等,则返回一个最大值,这个值刚好等于串的长度;如果两个串完全不匹配,则反回最小值0。我们通常将较长串称作文本串,将较短的串称作模式串。引入KR算法,KR(Karp-Rabin),是随机串匹配算法的简称,可以快速的在文本串中找出模式串第一次出现的位置。算法的基本思想是:首先,将一固定长度的模式串,通过散列函数计算出一个对应的散列值。其次,将一固定长度的子串也通过散列函数计算出一个对应的散列值。再次,匹配模式串散列值与文本子串散列值,如何相同,则模式串和文本子串则可能匹配,如果不相同,则模式串和文本子串则一定不匹配。
RKR-GST算法,结合了GST算法与KR算法的优点。算法的基本思想是:模式串于文本串中的每个元素不需要一一进行比较,只有在模式串子串的散列值与文本串子串的散列值相同时进行比较,是一种运行效率较高的模式匹配算法。
实现算法需要计算出散列值,定义一个基数b和一个素数q,是长度为k的字符串C1C2...Ck的哈希值为:
Hash(c1c2...ck)=(ask(c1)×bk-1+ask(c2)×bk-2+...+ask(ck-1)×b+ask(ck))modq字符串C2C3...Ck+1的哈希值为:
Hash(c2c3...ck+1)=(Hash(c1c2...ck)-ask(c1)×bk-1×b+ask(ck+1))modq
第一步,RKR-GST要创建两个标记串对象文本结构;
第二步,创建指定长度的对应标记串的散列表;
第三步,通过循环,找到散列值相同的子串。
RKR-GST算法分析。
由于引入了哈希表的方式,判断两个串相似度时,用于匹配的子串数量较少,使得效率得到提升,平均时间复杂度可控制在O(n)~O(n2)之间,在最坏情况下时间的复杂度为O(n3)。
按正文节点属性值的概率的顺序对元素关键节点进行正文元素提取,进行正文元素提取根据网页正文节点属性标识和HTML解析器进行提取,获取待判断网页正文,判断待判断网页正文是否超出预设阈值,当待判断网页正文未超出预设阈值时,确定待判断网页正文为网页正文。当确定待判断网页正文为网页正文时,不对剩余元素关键节点进行正文元素提取。
本发明还提供了一种基于正文节点特征的提取网页正文的***200,包括:
信息获取模块201,获取待提取网页的HTML源代码;
过滤模块202,对HTML源代码进行过滤并提取出HTML源代码HTML DOM树中元素关键节点,针对元素关键节点构建列表;
排序模块203,对列表中每一个元素关键节点的节点值按顺序与节点库中的节点值进行比对,获取每个元素关键节点的节点值为正文节点属性值的概率并进行排序,对列表中每一个元素关键节点的节点值按顺序与正文节点库中的节点值进行比对使用RKR-GST算法或字符串的编辑距离算法;
提取模块204,按正文节点属性值的概率的顺序对元素关键节点进行正文元素提取,进行正文元素提取根据网页正文节点属性标识和HTML解析器进行提取,获取待判断网页正文,判断待判断网页正文是否超出预设阈值,当待判断网页正文未超出预设阈值时,确定待判断网页正文为网页正文。
本发明在网页正文提取过程中,考虑到HTML网页DOM树元素的属性节点对标记正文节点的重要作用,将网页节点关键属性值(id、class)与正文节点属性值特征对比,准确找出正文节点值,结合HTML解析器技术准确抽取正文。
Claims (7)
1.一种基于正文节点特征的提取网页正文的方法,所述方法包括:
获取待提取网页的HTML源代码;
对HTML源代码进行过滤并提取出HTML源代码HTML DOM树中元素关键节点,针对元素关键节点构建列表;
对列表中每一个元素关键节点的节点值按顺序与节点库中的节点值进行比对,获取每个元素关键节点的节点值为正文节点属性值的概率并进行排序;
按正文节点属性值的概率的顺序对元素关键节点进行正文元素提取,获取待判断网页正文,判断待判断网页正文是否超出预设阈值,当待判断网页正文未超出预设阈值时,确定待判断网页正文为网页正文。
2.根据权利要求1所述的方法,所述的方法,还包括:
当确定待判断网页正文为网页正文时,不对剩余元素关键节点进行正文元素提取。
3.根据权利要求1所述的方法,所述的进行正文元素提取根据网页正文节点属性标识和HTML解析器进行提取。
4.根据权利要求1所述的方法,所述的对列表中每一个元素关键节点的节点值按顺序与正文节点库中的节点值进行比对使用RKR-GST算法或字符串的编辑距离算法。
5.一种基于正文节点特征的提取网页正文的***,所述***包括:
信息获取模块,获取待提取网页的HTML源代码;
过滤模块,对HTML源代码进行过滤并提取出HTML源代码HTML DOM树中元素关键节点,针对元素关键节点构建列表;
排序模块对列表中每一个元素关键节点的节点值按顺序与节点库中的节点值进行比对,获取每个元素关键节点的节点值为正文节点属性值的概率并进行排序;
提取模块,按正文节点属性值的概率的顺序对元素关键节点进行正文元素提取,获取待判断网页正文,判断待判断网页正文是否超出预设阈值,当待判断网页正文未超出预设阈值时,确定待判断网页正文为网页正文。
6.根据权利要求5所述的***,所述的进行正文元素提取根据网页正文节点属性标识和HTML解析器进行提取。
7.根据权利要求5所述的***,所述的对列表中每一个元素关键节点的节点值按顺序与正文节点库中的节点值进行比对使用RKR-GST算法或字符串的编辑距离算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910947241.XA CN110851679A (zh) | 2019-09-30 | 2019-09-30 | 一种基于正文节点特征的提取网页正文的方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910947241.XA CN110851679A (zh) | 2019-09-30 | 2019-09-30 | 一种基于正文节点特征的提取网页正文的方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110851679A true CN110851679A (zh) | 2020-02-28 |
Family
ID=69597455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910947241.XA Pending CN110851679A (zh) | 2019-09-30 | 2019-09-30 | 一种基于正文节点特征的提取网页正文的方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851679A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699642A (zh) * | 2020-12-31 | 2021-04-23 | 医渡云(北京)技术有限公司 | 复杂医疗文书的索引提取方法及装置、介质及电子设备 |
-
2019
- 2019-09-30 CN CN201910947241.XA patent/CN110851679A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699642A (zh) * | 2020-12-31 | 2021-04-23 | 医渡云(北京)技术有限公司 | 复杂医疗文书的索引提取方法及装置、介质及电子设备 |
CN112699642B (zh) * | 2020-12-31 | 2023-03-28 | 医渡云(北京)技术有限公司 | 复杂医疗文书的索引提取方法及装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
Chakrabarti et al. | Page-level template detection via isotonic smoothing | |
Vogels et al. | Web2text: Deep structured boilerplate removal | |
CN110888849A (zh) | 一种在线日志解析方法、***及其电子终端设备 | |
Ferrara et al. | Automatic wrapper adaptation by tree edit distance matching | |
CN104268148A (zh) | 一种基于时间串的论坛页面信息自动抽取方法及*** | |
Urvoy et al. | Tracking Web Spam with Hidden Style Similarity. | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
CN103530429A (zh) | 一种网页正文抽取的方法 | |
Stilo et al. | Temporal semantics: Time-varying hashtag sense clustering | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
Shang et al. | A framework to construct knowledge base for cyber security | |
CN110851679A (zh) | 一种基于正文节点特征的提取网页正文的方法和*** | |
Tekli et al. | Structural similarity evaluation between XML documents and DTDs | |
CN113032371A (zh) | 数据库语法分析方法、装置和计算机设备 | |
Klampfl et al. | Reconstructing the logical structure of a scientific publication using machine learning | |
Pamulaparty et al. | A near-duplicate detection algorithm to facilitate document clustering | |
CN103761312B (zh) | 一种多记录网页的信息抽取***及方法 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
TWI534640B (zh) | Chinese network information monitoring and analysis system and its method | |
Tekli et al. | A fine-grained XML structural comparison approach | |
Qiu et al. | Automatic information extraction from e-commerce web sites | |
Gao et al. | Detecting data records in semi-structured web sites based on text token clustering | |
Barua et al. | Removing noise content from online news articles | |
Wei et al. | Improving database quality through eliminating duplicate records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |