CN103970898A

CN103970898A - 一种基于多级规则库的信息提取方法及装置

Info

Publication number: CN103970898A
Application number: CN201410227611.XA
Authority: CN
Inventors: 张可; 柴毅; 马号; 刘建环; 田甜
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2014-08-06

Abstract

一种基于多级规则库的信息提取方法，通过6个步骤实现信息提取：1)获取网页URL地址；2)下载URL地址对应的网页；3)获得网页树型结构图；4)进行网页聚类，从待聚类网页中选取网页作为训练集，通过机器学习方法定义网页的聚类规则；5)搜索结果提取；6)信息汇总显示。其中步骤3)生成网页树型结构和步骤4)中的网页聚类后，检索到的信息查全率可以有效提高，而聚类规则由训练集的方式，通过机器学习自动生成，不需要人工手动聚类，有效提高了搜索的自动化程度，在保证了查全率的前提下，具有大面积使用的条件。本发明所述基于多级规则库的信息提取装置，为信息提取流程提供了硬件基础，其价格便宜，适合大规模使用。

Description

一种基于多级规则库的信息提取方法及装置

技术领域

本发明涉及计算机搜索引擎技术领域，特别是一种信息提取方法及装置。

背景技术

随着计算机及网络的大面积推广和应用，全球都进入了大信息时代，对于大信息时代，信息搜索引擎成为了必不可少的关键技术。目前的信息搜索引擎所采用的信息搜索方法有以下四种：

1、基于HTML结构的信息提取技术；该技术根据HTML的结构特点完成信息提取，通过DOM模型的树状结构把对网页中信息的提取等价于对树状结构中节点信息的提取。缺点：当页面变动过大时会导致无法提取信息；

2、基于自然语言的WEB信息提取技术；该技术忽略了网页结构，不考虑网页标签因素，仅根据自然语言本身之间所存在的联系对网页文本信息进行分析。缺点：信息提取速度慢，在处理多主体WEB文档时，若没有对主体进行块划分，则易导致信息提取失败；

3、基于本体(Ontology)的信息提取技术；由该领域内相关概念、属性、关系、约束及术语等构成，主要利用本体对该领域内数据的描述信息，在不考虑WEB的页面结构情况下，仅根据数据语义的特点实现信息提取。缺点：该方法虽然灵活性及适应性强，但是其自动化程度低；

4、基于包装器(Wrapper)学习的信息提取技术；由专业的互联网开发人员分析网站结构后,手工编写包装器的程序,编写出的包装器只能针对一类网页。缺点：对于大量网页,就需要分析大量结构,而且很多网站的结构比较复杂,即使对于专业人员来说,每一个包装器的编写时间花费都很巨大，人们把很大的精力都花在网站结构分析和程序调试上面。

对以上4种方式进行总结，会发现：对HTML文档结构依赖性不高的方法，虽然其自动化程度高，但无法处理结构复杂的网页，且其提取的准确性较低，实用性较差；对HTML文档结构依赖性高的方法，可处理复杂结构的网页，但是其自动化程度低，且依赖人工参与的信息提取方式提取精度高，但是自动化程度低，而自动化程度高的信息提取方式则通常具有准确性低实用性差的弊端。

发明内容

本发明的一个目的就是提供一种基于多级规则库的信息提取方法，它可以在不通过人工聚类的前提下完成信息搜索提取，显著提高了搜索引擎的自动化程度；同时，它可以自动对搜索到的网页信息进行分析聚类，显著提高了信息的查全率。

本发明的该目的是通过这样的技术方案实现的，它包括有以下步骤：

1)输入搜索关键字，获取所有与关键字相关的网页URL地址；

2)根据步骤1)中获取的网页URL地址，下载URL地址对应的网页；

3)对步骤2)中下载的网页进行预处理，获得网页树型结构图；

4)根据步骤3)中得到的网页树型结构图，进行网页聚类，从待聚类网页中选取网页作为训练集，通过机器学习方法获取网页模板并定义网页的聚类规则；

5)搜索结果提取，根据输入的关键字，采用XPath规则定位节点，再采用XSLT规则进行信息提取；

6)根据步骤5)中提取到的结果，对不同类型网页中提取到的信息进行汇总显示。

进一步，步骤1)中所述相关为与关键字相同或相似。

进一步，步骤2)中所述的下载方法为爬虫下载方法。

进一步，步骤3)中所述网页预处理，获得网页树型结构图的具体方法为：

3-1)对步骤2)中下载的网页进行网页清洗，将不符合规范的HTML文本转换成符合XML规范的文本，并清洗掉非法字符及潜逃错误；

3-2)对步骤3-1)得到的结果进行DOM解析，将XML规范文本解析为文档对象Document；

3-3)网页结构图形化显示，将文档对象Document图形化显示为Dom树，通过树结构对网页结构进行分析和对主节点信息的提取。

进一步，步骤3-2)中对XML规范文本进行解析如采用DOM4j或jdom工具包。

进一步，步骤4)中所述聚类规则的具体生成方法为：

4-1)网页相似度计算，采用树路径匹配算法对网页相似度进行计算，形成相似度矩阵；

4-2)通过聚类算法对网页进行聚类，聚类算法采用凝聚层次的凝聚算法，凝聚算法中的簇间距离度量采用平均连锁方法计算，平均连锁方法的输入为步骤4-1)中形成的相似度矩阵。

进一步，步骤4-1)和步骤4-2)的具体计算公式为：

sim (h_{i}, h_{j}) = (\frac{Σ_{k = 1}^{pn (h_{i})} sim (p_{ik}, bp (p_{ik}))}{pn (h_{i})} + \frac{Σ_{k = 1}^{pn (h_{j})} sim (p_{jk}, bp (p_{jk}))}{pn (h_{j})}) \div 2

其中，h_i表示网页的所有路径集合，p_ik为h_i中的一条树路径，bp(p_jk)表示p_jk相对于h_i的最佳匹配路径，sim(h_i，h_j)表示网页的相似度，on(h_i)表示h_i的树路径总数，pn(h_j)表示h_j的树路径总数。网页结构相似度的值域为[0,1],其值越接近1表示两个网页的结构越相似；

d_{avg} (c_{i}, c_{j}) = \frac{1}{n_{i} n_{j}} Σ_{p &Element; c_{i}} Σ_{p^{'} &Element; c_{j}} | p - p^{'} |

其中，n_i是簇c_i中对象的数目，n_j是簇c_j中对象的数目。

进一步，步骤5)中所述XSLT规则采用规则生成算法从模板网页中获得的，规则生成算法的输入为信息块父节点的node，输出为XSLT规则。

本发明的另一个目的就是提供一种基于多级规则库的信息提取装置，它可以实现信息的全自动化搜索，并对搜索到的网页信息进行分析聚类，显著提高了信息的查全率。

本发明的该目的是通过这样的技术方案实现的，它包括有URL地址获取模块、网页代码获取模块、网页预处理模块、网页聚类模块、网页信息提取模块、信息显示模块、聚类规则建立模块、信息提取规则建立模块、网页聚类规则库和信息提取规则库；

URL地址获取模块根据搜索关键字获取相关网页的URL地址，将URL地址信息发送至网页代码模块；

网页代码模块根据URL地址信息下载网页，将下载的网页信息发送至网页预处理模块；

网页预处理模块对网页信息进行预处理，获得网页树型结构图，将网页树型结构图发送至网页聚类装置；

网页聚类装置根据网页聚类规则库的信息，对网页树型结构中的网页进行网页聚类，将聚类后的网页信息发送至网页信息提取模块，网页聚类规则库的信息由聚类规则建立模块生成；

网页信息提取模块对聚类后的网页信息进行信息提取，将提取的信息发送至信息显示模块，信息提取规则库为网页信息提取模块提供信息提取规则，信息提取规则库中的信息提取规则由信息提取规则建立模块生成；

信息提取模块显示网页信息提取模块发送的信息。

由于采用了上述技术方案，本发明具有如下的优点：

本发明所述基于多级规则库的信息提取方法，通过6个步骤实现信息提取：1)获取网页URL地址；2)下载URL地址对应的网页；3)获得网页树型结构图；4)进行网页聚类，从待聚类网页中选取网页作为训练集，通过机器学习方法获取网页模板并定义网页的聚类规则；5)搜索结果提取；6)信息汇总显示。其中步骤3)生成网页树型结构和步骤4)中的网页聚类后，检索到的信息查全率可以有效提高，而步骤4)中的聚类规则由训练集的方式，通过机器学习自动生成，不需要人工手动聚类，有效提高了搜索的自动化程度，在保证了查全率的前提下，具有大面积使用的条件。本发明所述基于多级规则库的信息提取装置，为信息提取流程提供了硬件基础，其价格便宜，适合大规模使用。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

本发明的附图说明如下。

图1为本发明的信息提取流程示意图；

图2为本发明的装置结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

一种基于多级规则库的信息提取方法，具体步骤如下：

1)URL地址获取。首先采用查询序列的方式对搜索关键字的相关网页进行搜索，获得网页的URL地址。此处获得的URL地址涵盖了与查询序列相关的所有URL地址，是大量的地址，非单一地址。

2)网页下载。对已获得的网页URL地址采用网络爬虫技术下载相关网页代码。

3)网页预处理。对已获取的网页进行处理以获得标准的Dom Tree。包括：网页清洗、DOM解析和网页结构图形化显示。

网页清洗指的是：将HTML页面进行修复转换成为符合规范的XML文档。由于HTML不严格遵守XHTML规范,所以一个页面可能出现非法字符和潜逃错误,网页清洗主要是对这些错误进行修正，避免出现解析错误。

DOM解析指的是：将XML格式文本解析为文档对象Document，例如可采用解析工具DOM4j或jdom对XML格式文本进行解析，以获得文档对象。

网页结构图形化显示指的是：将文本对象图形化显示即获得Dom树，通过树结构对网页结构进行分析和对主节点信息的提取。

4)网页聚类。从待聚类网页中选取一部分网页作为训练集，通过机器学习方法获取网页模板并定义网页的聚类规则。具体包括:

相似度计算方法选取：平均连锁方法获得簇间距离需要建立相似度矩阵，因此首先需要计算网页间的相似度，而本发明采用的相似度计算方法是树路径匹配算法，此方法相比于树编辑距离算法，其复杂程度更低，所花时间更少。

聚类算法选取：此处的网页聚类算法采用的是凝聚层次聚类算法,簇间距离的度量采用平均连锁方法,聚类结束的终止条件是当任意两个族间的距离大于给定的阈值Q。

相似度算法公式如下：

sim (h_{i}, h_{j}) = (\frac{Σ_{k = 1}^{pn (h_{i})} sim (p_{ik}, bp (p_{ik}))}{pn (h_{i})} + \frac{Σ_{k = 1}^{pn (h_{j})} sim (p_{jk}, bp (p_{jk}))}{pn (h_{j})}) \div 2

其中，h_i表示网页的所有路径集合，p_ik为h_i中的一条树路径，bp(p_jk)表示p_jk相对于h_i的最佳匹配路径，sim(h_i，h_j)表示网页的相似度，pn(h_i)表示h_i的树路径总数，pn(h_j)表示h_j的树路径总数。

平均连锁方法公式如下：

d_{avg} (c_{i}, c_{j}) = \frac{1}{n_{i} n_{j}} Σ_{p &Element; c_{i}} Σ_{p^{'} &Element; c_{j}} | p - p^{'} |

其中，n_i是簇c_i中对象的数目，n_j是簇c_j中对象的数目。

5)网页信息提取。针对网页聚类得到的不同类型网页，采取特定的信息提取规则对网页信息进行提取。

信息提取规则获得：信息提取规则采用XSLT描述，使用XPath在XHTML文档中来精确定位待提取信息节点的位置。由于自动方式定义规则准确性较低，所以此处的规则提取采用人工干预方式获得。例如：对应列表式这一类网页，首先选取能反映这一类网页结构特点的模板网页，采用XPATH定位模板网页中关键信息块的父节点，再根据一定的规则获取算法，则可获取信息的提取规则。该算法的具体输入为关键信息块的父节点，输出为XSLT文件。

信息提取规则获得：信息提取规则采用的是XSLT，使用XPath在XHTML文档中来精确定位待提取信息节点的位置。由于自动方式定义规则准确性较低，所以此处的规则提取采用人工干预方式获得。

XSLT规则获取方式为：提取规则是采用一定的规则生成算法从模板网页中获得的，因此不同类型网页，存在其对应的XSLT规则。规则生成算法为一段现有的程序，程序的输入为信息块父节点的node，输出为XSLT规则。模板网页为一类网页中具有典型结构，能反映该类网页典型特征的网页。

6)信息显示。在完成网页进行信息提取后，对不同类型网页中提取到的信息进行汇总并显示。

现有的基于网页结构的信息提取方法，虽然其准确性高，但是自动化程度相对较低，本方法旨在满足一定信息提取准确性的前提下，提高信息提取自动化程度，和查全率。提出对所有通过查询序列查询到的网页进行聚类分析，提高了信息的查全率。提出对聚类后的不同类型网页按照不同的信息提取方法对网页内容进行提取，提高了信息提取自动化程度，且由于是对特定类的网页采用特定提取规则，因此在信息提取准确率上也得到了一定的改善

一种基于多级规则库的信息提取装置，包括有URL地址获取模块、网页代码获取模块、网页预处理模块、网页聚类模块、网页信息提取模块、信息显示模块、聚类规则建立模块、信息提取规则建立模块、网页聚类规则库和信息提取规则库；

信息提取模块显示网页信息提取模块发送的信息。

本发明所述基于多级规则库的信息提取装置，为信息提取流程提供了硬件基础，其价格便宜，适合大规模使用。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多级规则库的信息提取方法，其特征在于，所述方法包括以下步骤：

1)输入搜索关键字，获取所有与关键字相关的网页URL地址；

2)根据步骤1)中获取的网页URL地址，下载URL地址对应的网页；

3)对步骤2)中下载的网页进行预处理，获得网页树型结构图；

2.如权利要求1所述的一种基于多级规则库的信息提取方法，其特征在于，步骤1)中所述相关为与关键字相同或相似。

3.如权利要求1所述的一种基于多级规则库的信息提取方法，其特征在于，步骤2)中所述的下载方法为爬虫下载方法。

4.如权利要求1所述的一种基于多级规则库的信息提取方法，其特征在于，步骤3)中所述网页预处理，获得网页树型结构图的具体方法为：

5.如权利要求4所发现的一种基于多级规则库的信息提取方法，其特征在于，步骤3-2)中对XML规范文本进行解析如采用DOM4j或jdom工具包。

6.如权利要求1所述的一种基于多级规则库的信息提取方法，其特征在于，步骤4)中所述聚类规则的具体生成方法为：

7.如权利要求6所述的一种基于多级规则库的信息提取方法，其特征在于，步骤4-1)和步骤4-2)的具体计算公式为：

sim (h_{i}, h_{j}) = (\frac{Σ_{k = 1}^{pn (h_{i})} sim (p_{ik}, bp (p_{ik}))}{pn (h_{i})} + \frac{Σ_{k = 1}^{pn (h_{j})} sim (p_{jk}, bp (p_{jk}))}{pn (h_{j})}) \div 2

其中，h_i表示网页的所有路径集合，p_ik为h_i中的一条树路径，bp(p_jk)表示p_jk相对于h_i的最佳匹配路径，sim(h_i，h_j)表示网页的相似度，pn(h_i)表示h_i的树路径总数，pn(h_j)表示h_j的树路径总数。网页结构相似度的值域为[0,1],其值越接近1表示两个网页的结构越相似；

d_{avg} (c_{i}, c_{j}) = \frac{1}{n_{i} n_{j}} Σ_{p &Element; c_{i}} Σ_{p^{'} &Element; c_{j}} | p - p^{'} |

其中，n_i是簇c_i中对象的数目，n_j是簇c_j中对象的数目。

8.如权利要求1所述的一种基于多级规则库的信息提取方法，其特征在于，步骤5)中所述XSLT规则采用规则生成算法从模板网页中获得的，规则生成算法的输入为信息块父节点的node，输出为XSLT规则。

9.一种采用权利要求1-8任意一项所述方法进行信息提取的装置，其特征在于：所述装置包括有URL地址获取模块、网页代码获取模块、网页预处理模块、网页聚类模块、网页信息提取模块、信息显示模块、聚类规则建立模块、信息提取规则建立模块、网页聚类规则库和信息提取规则库；

信息提取模块显示网页信息提取模块发送的信息。