CN103970898A - 一种基于多级规则库的信息提取方法及装置 - Google Patents

一种基于多级规则库的信息提取方法及装置 Download PDF

Info

Publication number
CN103970898A
CN103970898A CN201410227611.XA CN201410227611A CN103970898A CN 103970898 A CN103970898 A CN 103970898A CN 201410227611 A CN201410227611 A CN 201410227611A CN 103970898 A CN103970898 A CN 103970898A
Authority
CN
China
Prior art keywords
webpage
information
rule
module
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410227611.XA
Other languages
English (en)
Inventor
张可
柴毅
马号
刘建环
田甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201410227611.XA priority Critical patent/CN103970898A/zh
Publication of CN103970898A publication Critical patent/CN103970898A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种基于多级规则库的信息提取方法,通过6个步骤实现信息提取:1)获取网页URL地址;2)下载URL地址对应的网页;3)获得网页树型结构图;4)进行网页聚类,从待聚类网页中选取网页作为训练集,通过机器学习方法定义网页的聚类规则;5)搜索结果提取;6)信息汇总显示。其中步骤3)生成网页树型结构和步骤4)中的网页聚类后,检索到的信息查全率可以有效提高,而聚类规则由训练集的方式,通过机器学习自动生成,不需要人工手动聚类,有效提高了搜索的自动化程度,在保证了查全率的前提下,具有大面积使用的条件。本发明所述基于多级规则库的信息提取装置,为信息提取流程提供了硬件基础,其价格便宜,适合大规模使用。

Description

一种基于多级规则库的信息提取方法及装置
技术领域
本发明涉及计算机搜索引擎技术领域,特别是一种信息提取方法及装置。
背景技术
随着计算机及网络的大面积推广和应用,全球都进入了大信息时代,对于大信息时代,信息搜索引擎成为了必不可少的关键技术。目前的信息搜索引擎所采用的信息搜索方法有以下四种:
1、基于HTML结构的信息提取技术;该技术根据HTML的结构特点完成信息提取,通过DOM模型的树状结构把对网页中信息的提取等价于对树状结构中节点信息的提取。缺点:当页面变动过大时会导致无法提取信息;
2、基于自然语言的WEB信息提取技术;该技术忽略了网页结构,不考虑网页标签因素,仅根据自然语言本身之间所存在的联系对网页文本信息进行分析。缺点:信息提取速度慢,在处理多主体WEB文档时,若没有对主体进行块划分,则易导致信息提取失败;
3、基于本体(Ontology)的信息提取技术;由该领域内相关概念、属性、关系、约束及术语等构成,主要利用本体对该领域内数据的描述信息,在不考虑WEB的页面结构情况下,仅根据数据语义的特点实现信息提取。缺点:该方法虽然灵活性及适应性强,但是其自动化程度低;
4、基于包装器(Wrapper)学习的信息提取技术;由专业的互联网开发人员分析网站结构后,手工编写包装器的程序,编写出的包装器只能针对一类网页。缺点:对于大量网页,就需要分析大量结构,而且很多网站的结构比较复杂,即使对于专业人员来说,每一个包装器的编写时间花费都很巨大,人们把很大的精力都花在网站结构分析和程序调试上面。
对以上4种方式进行总结,会发现:对HTML文档结构依赖性不高的方法,虽然其自动化程度高,但无法处理结构复杂的网页,且其提取的准确性较低,实用性较差;对HTML文档结构依赖性高的方法,可处理复杂结构的网页,但是其自动化程度低,且依赖人工参与的信息提取方式提取精度高,但是自动化程度低,而自动化程度高的信息提取方式则通常具有准确性低实用性差的弊端。
发明内容
本发明的一个目的就是提供一种基于多级规则库的信息提取方法,它可以在不通过人工聚类的前提下完成信息搜索提取,显著提高了搜索引擎的自动化程度;同时,它可以自动对搜索到的网页信息进行分析聚类,显著提高了信息的查全率。
本发明的该目的是通过这样的技术方案实现的,它包括有以下步骤:
1)输入搜索关键字,获取所有与关键字相关的网页URL地址;
2)根据步骤1)中获取的网页URL地址,下载URL地址对应的网页;
3)对步骤2)中下载的网页进行预处理,获得网页树型结构图;
4)根据步骤3)中得到的网页树型结构图,进行网页聚类,从待聚类网页中选取网页作为训练集,通过机器学习方法获取网页模板并定义网页的聚类规则;
5)搜索结果提取,根据输入的关键字,采用XPath规则定位节点,再采用XSLT规则进行信息提取;
6)根据步骤5)中提取到的结果,对不同类型网页中提取到的信息进行汇总显示。
进一步,步骤1)中所述相关为与关键字相同或相似。
进一步,步骤2)中所述的下载方法为爬虫下载方法。
进一步,步骤3)中所述网页预处理,获得网页树型结构图的具体方法为:
3-1)对步骤2)中下载的网页进行网页清洗,将不符合规范的HTML文本转换成符合XML规范的文本,并清洗掉非法字符及潜逃错误;
3-2)对步骤3-1)得到的结果进行DOM解析,将XML规范文本解析为文档对象Document;
3-3)网页结构图形化显示,将文档对象Document图形化显示为Dom树,通过树结构对网页结构进行分析和对主节点信息的提取。
进一步,步骤3-2)中对XML规范文本进行解析如采用DOM4j或jdom工具包。
进一步,步骤4)中所述聚类规则的具体生成方法为:
4-1)网页相似度计算,采用树路径匹配算法对网页相似度进行计算,形成相似度矩阵;
4-2)通过聚类算法对网页进行聚类,聚类算法采用凝聚层次的凝聚算法,凝聚算法中的簇间距离度量采用平均连锁方法计算,平均连锁方法的输入为步骤4-1)中形成的相似度矩阵。
进一步,步骤4-1)和步骤4-2)的具体计算公式为:
sim ( h i , h j ) = ( Σ k = 1 pn ( h i ) sim ( p ik , bp ( p ik ) ) pn ( h i ) + Σ k = 1 pn ( h j ) sim ( p jk , bp ( p jk ) ) pn ( h j ) ) ÷ 2
其中,hi表示网页的所有路径集合,pik为hi中的一条树路径,bp(pjk)表示pjk相对于hi的最佳匹配路径,sim(hi,hj)表示网页的相似度,on(hi)表示hi的树路径总数,pn(hj)表示hj的树路径总数。网页结构相似度的值域为[0,1],其值越接近1表示两个网页的结构越相似;
d avg ( c i , c j ) = 1 n i n j Σ p ∈ c i Σ p ′ ∈ c j | p - p ′ |
其中,ni是簇ci中对象的数目,nj是簇cj中对象的数目。
进一步,步骤5)中所述XSLT规则采用规则生成算法从模板网页中获得的,规则生成算法的输入为信息块父节点的node,输出为XSLT规则。
本发明的另一个目的就是提供一种基于多级规则库的信息提取装置,它可以实现信息的全自动化搜索,并对搜索到的网页信息进行分析聚类,显著提高了信息的查全率。
本发明的该目的是通过这样的技术方案实现的,它包括有URL地址获取模块、网页代码获取模块、网页预处理模块、网页聚类模块、网页信息提取模块、信息显示模块、聚类规则建立模块、信息提取规则建立模块、网页聚类规则库和信息提取规则库;
URL地址获取模块根据搜索关键字获取相关网页的URL地址,将URL地址信息发送至网页代码模块;
网页代码模块根据URL地址信息下载网页,将下载的网页信息发送至网页预处理模块;
网页预处理模块对网页信息进行预处理,获得网页树型结构图,将网页树型结构图发送至网页聚类装置;
网页聚类装置根据网页聚类规则库的信息,对网页树型结构中的网页进行网页聚类,将聚类后的网页信息发送至网页信息提取模块,网页聚类规则库的信息由聚类规则建立模块生成;
网页信息提取模块对聚类后的网页信息进行信息提取,将提取的信息发送至信息显示模块,信息提取规则库为网页信息提取模块提供信息提取规则,信息提取规则库中的信息提取规则由信息提取规则建立模块生成;
信息提取模块显示网页信息提取模块发送的信息。
由于采用了上述技术方案,本发明具有如下的优点:
本发明所述基于多级规则库的信息提取方法,通过6个步骤实现信息提取:1)获取网页URL地址;2)下载URL地址对应的网页;3)获得网页树型结构图;4)进行网页聚类,从待聚类网页中选取网页作为训练集,通过机器学习方法获取网页模板并定义网页的聚类规则;5)搜索结果提取;6)信息汇总显示。其中步骤3)生成网页树型结构和步骤4)中的网页聚类后,检索到的信息查全率可以有效提高,而步骤4)中的聚类规则由训练集的方式,通过机器学习自动生成,不需要人工手动聚类,有效提高了搜索的自动化程度,在保证了查全率的前提下,具有大面积使用的条件。本发明所述基于多级规则库的信息提取装置,为信息提取流程提供了硬件基础,其价格便宜,适合大规模使用。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
本发明的附图说明如下。
图1为本发明的信息提取流程示意图;
图2为本发明的装置结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
一种基于多级规则库的信息提取方法,具体步骤如下:
1)URL地址获取。首先采用查询序列的方式对搜索关键字的相关网页进行搜索,获得网页的URL地址。此处获得的URL地址涵盖了与查询序列相关的所有URL地址,是大量的地址,非单一地址。
2)网页下载。对已获得的网页URL地址采用网络爬虫技术下载相关网页代码。
3)网页预处理。对已获取的网页进行处理以获得标准的Dom Tree。包括:网页清洗、DOM解析和网页结构图形化显示。
网页清洗指的是:将HTML页面进行修复转换成为符合规范的XML文档。由于HTML不严格遵守XHTML规范,所以一个页面可能出现非法字符和潜逃错误,网页清洗主要是对这些错误进行修正,避免出现解析错误。
DOM解析指的是:将XML格式文本解析为文档对象Document,例如可采用解析工具DOM4j或jdom对XML格式文本进行解析,以获得文档对象。
网页结构图形化显示指的是:将文本对象图形化显示即获得Dom树,通过树结构对网页结构进行分析和对主节点信息的提取。
4)网页聚类。从待聚类网页中选取一部分网页作为训练集,通过机器学习方法获取网页模板并定义网页的聚类规则。具体包括:
相似度计算方法选取:平均连锁方法获得簇间距离需要建立相似度矩阵,因此首先需要计算网页间的相似度,而本发明采用的相似度计算方法是树路径匹配算法,此方法相比于树编辑距离算法,其复杂程度更低,所花时间更少。
聚类算法选取:此处的网页聚类算法采用的是凝聚层次聚类算法,簇间距离的度量采用平均连锁方法,聚类结束的终止条件是当任意两个族间的距离大于给定的阈值Q。
相似度算法公式如下:
sim ( h i , h j ) = ( Σ k = 1 pn ( h i ) sim ( p ik , bp ( p ik ) ) pn ( h i ) + Σ k = 1 pn ( h j ) sim ( p jk , bp ( p jk ) ) pn ( h j ) ) ÷ 2
其中,hi表示网页的所有路径集合,pik为hi中的一条树路径,bp(pjk)表示pjk相对于hi的最佳匹配路径,sim(hi,hj)表示网页的相似度,pn(hi)表示hi的树路径总数,pn(hj)表示hj的树路径总数。
平均连锁方法公式如下:
d avg ( c i , c j ) = 1 n i n j Σ p ∈ c i Σ p ′ ∈ c j | p - p ′ |
其中,ni是簇ci中对象的数目,nj是簇cj中对象的数目。
5)网页信息提取。针对网页聚类得到的不同类型网页,采取特定的信息提取规则对网页信息进行提取。
信息提取规则获得:信息提取规则采用XSLT描述,使用XPath在XHTML文档中来精确定位待提取信息节点的位置。由于自动方式定义规则准确性较低,所以此处的规则提取采用人工干预方式获得。例如:对应列表式这一类网页,首先选取能反映这一类网页结构特点的模板网页,采用XPATH定位模板网页中关键信息块的父节点,再根据一定的规则获取算法,则可获取信息的提取规则。该算法的具体输入为关键信息块的父节点,输出为XSLT文件。
信息提取规则获得:信息提取规则采用的是XSLT,使用XPath在XHTML文档中来精确定位待提取信息节点的位置。由于自动方式定义规则准确性较低,所以此处的规则提取采用人工干预方式获得。
XSLT规则获取方式为:提取规则是采用一定的规则生成算法从模板网页中获得的,因此不同类型网页,存在其对应的XSLT规则。规则生成算法为一段现有的程序,程序的输入为信息块父节点的node,输出为XSLT规则。模板网页为一类网页中具有典型结构,能反映该类网页典型特征的网页。
6)信息显示。在完成网页进行信息提取后,对不同类型网页中提取到的信息进行汇总并显示。
现有的基于网页结构的信息提取方法,虽然其准确性高,但是自动化程度相对较低,本方法旨在满足一定信息提取准确性的前提下,提高信息提取自动化程度,和查全率。提出对所有通过查询序列查询到的网页进行聚类分析,提高了信息的查全率。提出对聚类后的不同类型网页按照不同的信息提取方法对网页内容进行提取,提高了信息提取自动化程度,且由于是对特定类的网页采用特定提取规则,因此在信息提取准确率上也得到了一定的改善
一种基于多级规则库的信息提取装置,包括有URL地址获取模块、网页代码获取模块、网页预处理模块、网页聚类模块、网页信息提取模块、信息显示模块、聚类规则建立模块、信息提取规则建立模块、网页聚类规则库和信息提取规则库;
URL地址获取模块根据搜索关键字获取相关网页的URL地址,将URL地址信息发送至网页代码模块;
网页代码模块根据URL地址信息下载网页,将下载的网页信息发送至网页预处理模块;
网页预处理模块对网页信息进行预处理,获得网页树型结构图,将网页树型结构图发送至网页聚类装置;
网页聚类装置根据网页聚类规则库的信息,对网页树型结构中的网页进行网页聚类,将聚类后的网页信息发送至网页信息提取模块,网页聚类规则库的信息由聚类规则建立模块生成;
网页信息提取模块对聚类后的网页信息进行信息提取,将提取的信息发送至信息显示模块,信息提取规则库为网页信息提取模块提供信息提取规则,信息提取规则库中的信息提取规则由信息提取规则建立模块生成;
信息提取模块显示网页信息提取模块发送的信息。
本发明所述基于多级规则库的信息提取装置,为信息提取流程提供了硬件基础,其价格便宜,适合大规模使用。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于多级规则库的信息提取方法,其特征在于,所述方法包括以下步骤:
1)输入搜索关键字,获取所有与关键字相关的网页URL地址;
2)根据步骤1)中获取的网页URL地址,下载URL地址对应的网页;
3)对步骤2)中下载的网页进行预处理,获得网页树型结构图;
4)根据步骤3)中得到的网页树型结构图,进行网页聚类,从待聚类网页中选取网页作为训练集,通过机器学习方法获取网页模板并定义网页的聚类规则;
5)搜索结果提取,根据输入的关键字,采用XPath规则定位节点,再采用XSLT规则进行信息提取;
6)根据步骤5)中提取到的结果,对不同类型网页中提取到的信息进行汇总显示。
2.如权利要求1所述的一种基于多级规则库的信息提取方法,其特征在于,步骤1)中所述相关为与关键字相同或相似。
3.如权利要求1所述的一种基于多级规则库的信息提取方法,其特征在于,步骤2)中所述的下载方法为爬虫下载方法。
4.如权利要求1所述的一种基于多级规则库的信息提取方法,其特征在于,步骤3)中所述网页预处理,获得网页树型结构图的具体方法为:
3-1)对步骤2)中下载的网页进行网页清洗,将不符合规范的HTML文本转换成符合XML规范的文本,并清洗掉非法字符及潜逃错误;
3-2)对步骤3-1)得到的结果进行DOM解析,将XML规范文本解析为文档对象Document;
3-3)网页结构图形化显示,将文档对象Document图形化显示为Dom树,通过树结构对网页结构进行分析和对主节点信息的提取。
5.如权利要求4所发现的一种基于多级规则库的信息提取方法,其特征在于,步骤3-2)中对XML规范文本进行解析如采用DOM4j或jdom工具包。
6.如权利要求1所述的一种基于多级规则库的信息提取方法,其特征在于,步骤4)中所述聚类规则的具体生成方法为:
4-1)网页相似度计算,采用树路径匹配算法对网页相似度进行计算,形成相似度矩阵;
4-2)通过聚类算法对网页进行聚类,聚类算法采用凝聚层次的凝聚算法,凝聚算法中的簇间距离度量采用平均连锁方法计算,平均连锁方法的输入为步骤4-1)中形成的相似度矩阵。
7.如权利要求6所述的一种基于多级规则库的信息提取方法,其特征在于,步骤4-1)和步骤4-2)的具体计算公式为:
sim ( h i , h j ) = ( Σ k = 1 pn ( h i ) sim ( p ik , bp ( p ik ) ) pn ( h i ) + Σ k = 1 pn ( h j ) sim ( p jk , bp ( p jk ) ) pn ( h j ) ) ÷ 2
其中,hi表示网页的所有路径集合,pik为hi中的一条树路径,bp(pjk)表示pjk相对于hi的最佳匹配路径,sim(hi,hj)表示网页的相似度,pn(hi)表示hi的树路径总数,pn(hj)表示hj的树路径总数。网页结构相似度的值域为[0,1],其值越接近1表示两个网页的结构越相似;
d avg ( c i , c j ) = 1 n i n j Σ p ∈ c i Σ p ′ ∈ c j | p - p ′ |
其中,ni是簇ci中对象的数目,nj是簇cj中对象的数目。
8.如权利要求1所述的一种基于多级规则库的信息提取方法,其特征在于,步骤5)中所述XSLT规则采用规则生成算法从模板网页中获得的,规则生成算法的输入为信息块父节点的node,输出为XSLT规则。
9.一种采用权利要求1-8任意一项所述方法进行信息提取的装置,其特征在于:所述装置包括有URL地址获取模块、网页代码获取模块、网页预处理模块、网页聚类模块、网页信息提取模块、信息显示模块、聚类规则建立模块、信息提取规则建立模块、网页聚类规则库和信息提取规则库;
URL地址获取模块根据搜索关键字获取相关网页的URL地址,将URL地址信息发送至网页代码模块;
网页代码模块根据URL地址信息下载网页,将下载的网页信息发送至网页预处理模块;
网页预处理模块对网页信息进行预处理,获得网页树型结构图,将网页树型结构图发送至网页聚类装置;
网页聚类装置根据网页聚类规则库的信息,对网页树型结构中的网页进行网页聚类,将聚类后的网页信息发送至网页信息提取模块,网页聚类规则库的信息由聚类规则建立模块生成;
网页信息提取模块对聚类后的网页信息进行信息提取,将提取的信息发送至信息显示模块,信息提取规则库为网页信息提取模块提供信息提取规则,信息提取规则库中的信息提取规则由信息提取规则建立模块生成;
信息提取模块显示网页信息提取模块发送的信息。
CN201410227611.XA 2014-05-27 2014-05-27 一种基于多级规则库的信息提取方法及装置 Pending CN103970898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410227611.XA CN103970898A (zh) 2014-05-27 2014-05-27 一种基于多级规则库的信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410227611.XA CN103970898A (zh) 2014-05-27 2014-05-27 一种基于多级规则库的信息提取方法及装置

Publications (1)

Publication Number Publication Date
CN103970898A true CN103970898A (zh) 2014-08-06

Family

ID=51240396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410227611.XA Pending CN103970898A (zh) 2014-05-27 2014-05-27 一种基于多级规则库的信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN103970898A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138546A (zh) * 2015-07-10 2015-12-09 国家电网公司 基于Dom4J的IMS信息设备台账消重方法
CN105589918A (zh) * 2015-09-17 2016-05-18 广州市动景计算机科技有限公司 一种提取页面信息的方法及装置
CN106599160A (zh) * 2016-12-08 2017-04-26 网帅科技(北京)有限公司 一种内容规则库管理***及其编码方法
WO2017173783A1 (zh) * 2016-04-07 2017-10-12 中兴通讯股份有限公司 兴趣点数据显示方法及终端
CN107402912A (zh) * 2016-05-19 2017-11-28 北京京东尚科信息技术有限公司 解析语义的方法和装置
CN107808000A (zh) * 2017-11-13 2018-03-16 哈尔滨工业大学(威海) 一种暗网数据采集与抽取***及方法
CN109190003A (zh) * 2018-08-20 2019-01-11 上海蜜度信息技术有限公司 用于确定列表页节点的方法与设备
CN109344341A (zh) * 2018-10-31 2019-02-15 长春理工大学 一种中文地理信息查询方法及***
CN111726336A (zh) * 2020-05-14 2020-09-29 北京邮电大学 一种联网智能设备识别信息提取方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
US20110173197A1 (en) * 2010-01-12 2011-07-14 Yahoo! Inc. Methods and apparatuses for clustering electronic documents based on structural features and static content features
CN102289445A (zh) * 2011-06-01 2011-12-21 宇龙计算机通信科技(深圳)有限公司 Xml文件解析方法、xml文件解析装置和终端
CN102651002A (zh) * 2011-02-28 2012-08-29 腾讯科技(深圳)有限公司 一种网页信息抽取方法及其***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
US20110173197A1 (en) * 2010-01-12 2011-07-14 Yahoo! Inc. Methods and apparatuses for clustering electronic documents based on structural features and static content features
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
CN102651002A (zh) * 2011-02-28 2012-08-29 腾讯科技(深圳)有限公司 一种网页信息抽取方法及其***
CN102289445A (zh) * 2011-06-01 2011-12-21 宇龙计算机通信科技(深圳)有限公司 Xml文件解析方法、xml文件解析装置和终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱韬奋: ""基于聚类算法的Web信息抽取技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138546A (zh) * 2015-07-10 2015-12-09 国家电网公司 基于Dom4J的IMS信息设备台账消重方法
CN105138546B (zh) * 2015-07-10 2018-11-06 国家电网公司 基于Dom4J的IMS信息设备台账消重方法
CN105589918A (zh) * 2015-09-17 2016-05-18 广州市动景计算机科技有限公司 一种提取页面信息的方法及装置
CN105589918B (zh) * 2015-09-17 2017-04-05 广州市动景计算机科技有限公司 一种提取页面信息的方法及装置
WO2017173783A1 (zh) * 2016-04-07 2017-10-12 中兴通讯股份有限公司 兴趣点数据显示方法及终端
CN107402912B (zh) * 2016-05-19 2019-12-31 北京京东尚科信息技术有限公司 解析语义的方法和装置
CN107402912A (zh) * 2016-05-19 2017-11-28 北京京东尚科信息技术有限公司 解析语义的方法和装置
CN106599160A (zh) * 2016-12-08 2017-04-26 网帅科技(北京)有限公司 一种内容规则库管理***及其编码方法
CN106599160B (zh) * 2016-12-08 2020-06-02 网帅科技(北京)有限公司 一种内容规则库管理***及其编码方法
CN107808000A (zh) * 2017-11-13 2018-03-16 哈尔滨工业大学(威海) 一种暗网数据采集与抽取***及方法
CN109190003A (zh) * 2018-08-20 2019-01-11 上海蜜度信息技术有限公司 用于确定列表页节点的方法与设备
CN109190003B (zh) * 2018-08-20 2021-03-02 上海蜜度信息技术有限公司 用于确定列表页节点的方法与设备
CN109344341A (zh) * 2018-10-31 2019-02-15 长春理工大学 一种中文地理信息查询方法及***
CN111726336A (zh) * 2020-05-14 2020-09-29 北京邮电大学 一种联网智能设备识别信息提取方法及***
CN111726336B (zh) * 2020-05-14 2021-10-29 北京邮电大学 一种联网智能设备识别信息提取方法及***

Similar Documents

Publication Publication Date Title
CN103970898A (zh) 一种基于多级规则库的信息提取方法及装置
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和***及设备
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析***及方法
CN103246732B (zh) 一种在线Web新闻内容的抽取方法及***
CN102063488A (zh) 一种基于语义的代码搜索方法
CN104572072B (zh) 一种对基于mvc模式的程序的语言转换方法与设备
CN104615724A (zh) 知识库的建立以及基于知识库的信息搜索方法和装置
US20110314001A1 (en) Performing query expansion based upon statistical analysis of structured data
CN109657068A (zh) 面向智慧博物馆的文物知识图谱生成与可视化方法
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN103838796A (zh) 一种网页结构化信息抽取方法
CN108416034B (zh) 基于金融异构大数据的信息采集***及其控制方法
CN102567409A (zh) 一种提供检索关联词的方法及装置
CN104133855A (zh) 一种输入法智能联想的方法及装置
CN103530429A (zh) 一种网页正文抽取的方法
CN103399862A (zh) 确定目标查询序列所对应的搜索引导信息的方法与设备
CN104391969A (zh) 确定用户查询语句句法结构的方法及装置
CN103559202B (zh) 一种网页内容抽取装置和方法
CN104317845A (zh) 一种深度网络数据自动抽取方法及***
CN102004805B (zh) 基于最大相似性匹配的网页去噪***及其去噪方法
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN113254671B (zh) 基于query分析的图谱优化方法、装置、设备及介质
US20120284224A1 (en) Build of website knowledge tables
KR20210098813A (ko) 텍스트 데이터 수집과 분석 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140806

RJ01 Rejection of invention patent application after publication