CN103559199B

CN103559199B - 网页信息抽取方法和装置

Info

Publication number: CN103559199B
Application number: CN201310455343.2A
Authority: CN
Inventors: 刘旭东; 孙海龙; 周子龙; 张日崇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-09-29
Filing date: 2013-09-29
Publication date: 2016-09-28
Anticipated expiration: 2033-09-29
Also published as: CN103559199A

Abstract

本发明提供一种网页信息抽取方法和装置。该方法包括：根据多个已标注属性的样本网页构建对应的多个第一DOM树，并根据多个第一DOM树构建决策树；根据多个未标注属性的样本网页构建对应的多个第二DOM树，并根据多个第二DOM树优化决策树；根据优化后的决策树抽取待抽取网页的结构化信息；其中，已标注属性的样本网页、未标注属性的样本网页和待抽取网页属于同一领域。本发明提供的网页信息抽取方法和装置，根据多个已标注属性的样本网页构建决策树，根据多个未标注属性的样本网页优化该决策树，由于决策树的构建和优化不单单依赖于网页的布局风格，因此优化后的决策树可以适用于同一领域各种布局风格的网页的信息抽取，省时省力。

Description

网页信息抽取方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种网页信息抽取方法和装置。

背景技术

网页信息抽取(Web Information Extraction，简称为webIE)，即将网页作为信息源，然后从信息源中抽取出目标信息。网页上的数据大部分都是用一种半结构化的超文本标记语言（Hypertext Markup Language，简称HTML）来描述的，但由于缺乏对数据本身的描述，使得应用程序无法直接解析并利用网页上海量的信息，造成了资源极大的浪费。网页信息抽取的目的是将半结构化的HTML页面中隐含的目标信息抽取出来，并以更为结构化、语义更为清晰的形式表示，为用户在网页中查询数据、应用程序直接利用网页中的数据提供便利。

面对海量的***的数据，目前的网页信息抽取方法主要为基于网页源码的人工配置模板方法，该方法通过对不同布局的网页手动配置不同的模板，并采用对应的模板和待抽取网页进行匹配，从而抽取信息。

但现有技术存在如下缺陷：即使对于同一领域的站点，由于其网页数目较多，且布局风格具有多样性和多变性，因此需人工配置大量的模板且配置的模板需要经常变动才能保证信息抽取的准确性，费时费力。

发明内容

本发明提供一种网页信息抽取方法和装置，用以解决现有技术中存在的对于同一领域的站点，采用人工配置模板方法抽取网页信息时费时费力的问题。

一方面，本发明提供了一种网页信息抽取方法，包括：

根据多个已标注属性的样本网页构建对应的多个第一文档对象类型DOM树，并根据所述多个第一DOM树构建决策树；

根据多个未标注属性的样本网页构建对应的多个第二DOM树，并根据所述多个第二DOM树优化所述决策树；

根据优化后的决策树，抽取待抽取网页的结构化信息；

其中，所述多个已标注属性的样本网页、所述多个未标注属性的样本网页和所述待抽取网页属于同一领域的网页。

另一方面，本发明提供了一种网页信息抽取装置，包括：

构建模块，用于根据多个已标注属性的样本网页构建对应的多个第一文档对象类型DOM树，并根据所述多个第一DOM树构建决策树；

优化模块，用于根据多个未标注属性的样本网页构建对应的多个第二DOM树，并根据所述多个第二DOM树优化所述决策树；

抽取模块，用于根据优化后的决策树，抽取待抽取网页的结构化信息；

本发明提供的网页信息抽取方法，根据多个已标注属性的样本网页构建决策树，根据多个未标注属性的样本网页优化该决策树，由于决策树的构建和优化不单单依赖于网页的布局风格，因此优化后的决策树可以适用于同一领域各种布局风格的网页的信息抽取，省时省力。

附图说明

图1为本发明提供的网页信息抽取方法一个实施例的流程示意图；

图2为本发明提供的网页信息抽取方法又一个实施例的流程示意图；

图3为DOM树节点层次聚类过程的示意图；

图4为决策树的结构示意图；

图5为本发明提供的网页信息抽取装置一个实施例的结构示意图。

具体实施方式

下面通过具体的实施例及附图，对本发明的技术方案做进一步的详细描述。

图1为本发明提供的网页信息抽取方法一个实施例的流程示意图。如图1所示，该方法具体可以包括：

S101，根据多个已标注节点属性的样本网页构建对应的多个第一文档对象类型DOM树，并根据多个第一DOM树构建决策树。

具体的，互联网是一个巨大的知识库，网页里面蕴含了大量有价值的信息。互联网包含多个领域，比如：新闻、购物、社交、论坛、博客等。随着互联网技术的飞速发展，网页中的功能越来越强，各领域网站呈现出信息类别多，信息量大的特点。不同领域对应着各自的属性，例如：新闻网页包含标题、主体、用户评论、相关新闻等属性；购物网页则包含商品名称、价格、参数、用户评论、相关商品等属性。

已标注属性的样本网页，即对少量样本网页进行人工标注属性，例如，对于新闻网页，人工标注出标题、主体、用户评论、相关新闻等属性。根据该已标注属性的样本网页构建第一DOM树，第一DOM树中每个节点的属性根据该已标注属性的样本网页标注的属性可以确定。

网页用半结构化的HTML语言来描述，由于HTML语言的松散性，且网页开发人员的习惯千差万别，造成HTML页面的格式非常混乱，许多网页都会出现HTML编码问题，例如：标签位置不合适，缺少闭合标签，未转义的特殊字符等等。在DOM树的构建过程中，需要对HTML编码进行清理：（1）订正有错误的标签，使得标签成对使用，即有一个开始标签和一个结束标签（分别用<>和</>来表示）。（2）剔除无用的标签及内容。例如：为HTML注释；<style>...</style>为内部样式文本；<script>...</script>为JavaScript脚本。标签<head>...</head>不包含正文内容也可剔除。DOM树也称为标签树。

根据构建好的第一DOM树构建决策树，具体可以采用现有的各种算法，例如C4.5算法、CLS算法、ID3算法、CHAID算法、CART算法或FACT算法，来构建决策树。决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树的优点：推理过程容易理解，决策推理过程可以表示成If Then形式；推理过程完全依赖于属性变量的取值特点；可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考。

S102，根据多个未标注节点属性的样本网页构建对应的多个第二DOM树，并根据多个第二DOM树优化决策树。

具体的，根据大量未标注属性的样本网页构建第二DOM树，第二DOM树中每个节点的属性不确定。构建DOM树的过程参见步骤S101中相关描述。根据第二DOM树中各节点的多个特征与第一DOM树中各节点的多个特征，判断第二DOM树中各节点的分类，并将第二DOM树中的各节点添加到决策树中，以动态优化决策树。

S103，根据优化后的决策树，抽取待抽取网页的结构化信息。

具体的，根据优化后的决策树，按照属性抽取待抽取网页的结构化信息。

此处需要说明的是，本实施例中的已标注属性的样本网页、未标注属性的样本网页和待抽取网页为属于同一领域的网页。

随着Web2.0时代各项技术的不断发展与成熟，混搭Mashup作为一种新兴的互联网应用开发模式吸引了众多应用开发者的关注。越来越多的企业或个人选择使用已有的外部资源通过组合加工的方式完成应用的构建，从而高效的实现核心业务价值，快速的适应灵活多变的市场条件，搭建符合各自需求的情景应用程序。但当前，Mashup应用整合的内容源多为第三方开放数据和应用程序编程接口（Application ProgrammingInterface，简称API），在实际应用中会有一些限制，且对网页信息整合能力不足，不能满足用户个性化的网页信息整合的需求。

通过本实施例描述的网页信息抽取方法，我们可以把海量网页作为数据服务源，从不同领域的网页中，准确抽取与领域属性相对应的网页结构化信息，并将这些丰富的多源网页结构化信息源通过mashup应用聚合起来，形成综合网页信息整合服务，进而更好的满足不同用户的个性化需求。

本实施例提供的网页信息抽取方法，根据多个已标注属性的样本网页构建决策树，根据多个未标注属性的样本网页优化该决策树，由于决策树的构建和优化不单单依赖于网页的布局风格，因此优化后的决策树可以适用于同一领域各种布局风格的网页的信息抽取，省时省力。

图2为本发明提供的网页信息抽取方法又一个实施例的流程示意图。如图2所示，该方法具体可以包括：

S201，根据多个已标注属性的样本网页构建对应的多个第一文档对象类型DOM树。

具体的，参见步骤101中的相关描述，此处不再赘述。

S202，根据每个第一DOM树的各节点的布局特征对每个第一DOM树的各节点进行层次聚类。

具体的，DOM树中的不同节点具有不同特征，利用这些不同特征可以从多个角度来区分节点。节点特征从获取方式上分为页面层级page-level和站点层级site-level两种，page-level特征（例如布局特征、字符特征等）仅通过单一网页即可获取，而site-level特征（例如语义特征等）需要同一站点的多个网页综合比较分析获取。

下面分别对布局特征、字符特征以及语义特征进行一下详细描述：

1、布局特征

布局特征属于page-level特征，可以通过DOM节点直接获取。

（1）DOM路径（path）

DOM path指根到节点的路径，它能准确指出节点在DOM树中的位置。

（2）标签

标签有许多类型，不同的标签有不同的作用。例如：<div>指一个分块；<p>指一个段落；<ul>和<li>联合起来使用，指一个列表。

（3）标签属性

标签属性形如：<div id="yom-ad-LREC"class="yom-adyom-ad-LREC">，id和class是div标签的两项属性，其中class属性值与CSS相关，它决定着如何在网页中显示该节点的字体、颜色以及背景色等。

2、字符特征

字符特征属于page-level特征，可以通过DOM节点的内容直接获取。

（1）节点内容

节点内容指节点本身和节点子节点的所有文本内容的总和。

（2）锚文本比重（the Proportion of the Anchor Text，简称ATP）

ATP_i是节点N_i的节点内容中锚文本字符数与节点N_i的节点内容中的总字符数和节点N_i中标签数量之和的比值，如公式（1）所示：

{ATP}_{i} = \frac{{ATC}_{i}}{C_{i} + T_{i}} - - - (1)

其中，C_i是节点N_i的节点内容中的总字符数，T_i是节点N_i中标签的数量，也即，ATC_i是节点N_i的节点内容中锚文本字符数。

（3）字数

字数是利用{‘’,?.!:“”\t\n\r\f}等定界符对节点内容进行分词得到的单词数量。

（4）结尾标点

结尾标点指节点自身和所有子节点的各自文本内容最末尾的标点符号。

（5）标点符号总数

标点符号总数指的是节点内容中各类标点符号的总数。

3、语义特征

语义特征是site-level特征，需要对同一站点的多个网页进行比较分析才能获取。

（1）内容变化率（CV）

在同一个站点中，不同网页中具有相同DOM path和节点属性的节点，它们的节点内容可能相同，可能相似，可能完全不同。内容变化率CV是在同站点的多个网页中，该类节点中节点内容不同的个数与所比较节点总数的比值，如公式（2）所示：

CV = \frac{UE}{CMP} - - - (2)

其中，UE为节点内容不同的节点的个数，CMP为所比较的节点的总数。

（2）前后缀

前后缀指一个字符串开始位置（前缀）和结束位置（后缀）的子字符串。

（3）小标题

小标题指网页中的一个矩阵块中类似于前缀的文字，它指示着该矩阵块内容的性质。

本步骤中采用节点的布局特征，根据布局相似性对第一DOM树中的各节点进行***层次聚类，具体的：

网页结构通过DOM树各节点的标签和标签属性划分，呈现出各种各样的网页布局和视觉效果。DOM树中每层节点只有一次聚类机会，我们从根节点自顶向下进行广度优先遍历，以各节点布局特征的相似性为主要衡量指标进行***的层次聚类，最终产生类内相似度最大即类内相异度最小，类间相似度最小即类间离散度最大的聚类。具体包括以下步骤：

S2021，根据每个第一DOM树的各节点的布局特征，生成每个第一DOM树的各节点对应的第一节点布局特征向量；

S2022，根据每个第一DOM树的各节点对应的第一节点布局特征向量，计算每个第一DOM树的各节点的第一类内相异度和第一类间离散度；

S2023，根据第一类内相异度和第一类间离散度，以第一类内相异度最小且第一类间离散度最大为优化条件，对每个第一DOM树的各节点进行层次聚类。

具体的，假设第一DOM树某一层有a个节点，分为c（c<=a）类，每个节点是一个p维向量，表示用于节点聚类的p个布局特征：{标签，标签属性，子节点层数，第1层子节点个数，第1层子节点标签，第2层子节点个数，第2层子节点标签......}。

假设最佳聚类为c{C1，C2，...Cc}，每个聚类Ci含有n_i个节点（i=1，2，...c）。任意两个节点xi与xj之间的布局相似度由绝对距离d（xi，xj）度量，如公式（3）所示：

d (x_{i}, x_{j}) = Σ_{k = 1}^{p} | x_{ik} - x_{jk} | - - - (3)

1、类内相异度：

第Ci类中，任一节点与其它ni-1个节点的平均距离为Dj，为各节点Dj的平均值，则第Ci类内节点相异度Ri为：

R_{i} = \frac{1}{n_{i}} Σ_{j = 1}^{n_{i}} | D_{j} - {\overset{&OverBar;}{d}}_{n_{i}} | - - - (4)

其中，

D_{j} = \frac{1}{n_{i} - 1} \underset{x &Element; C_{i}}{Σ} d (x_{j}, x) - - - (5)

{\overset{&OverBar;}{d}}_{n_{i}} = \frac{1}{n_{i}} Σ_{j = 1}^{n_{i}} D_{j} - - - (6)

2、类间离散度

我们利用两类之间距离最近的两个节点的布局距离来衡量类间离散度，则第Ci类与其他c-1类间的类间离散度Ti为：

T_{i} = \frac{1}{c - 1} Σ_{j = 1}^{c} d_{\min} (C_{i}, C_{j}) - - - (7)

3、聚类性能指标

好的聚类，同一个类内样本越相似越好，而不同类别间的样本相似性越小越好。因此，类内相异度越小，类间离散度越大，聚类的结果越好。聚类性能指标P为：

P = \arg \underset{c}{Max} (\frac{1}{c} Σ_{i = 1}^{c} \frac{T_{i}}{R_{i}}) - - - (8)

图3为DOM树节点层次聚类过程的示意图，如图3所示，***的层次聚类从根节点body开始，自顶向下逐层判断，取该层使得聚类性能指标P最大时所对应的c进行聚类。例如，li1......li6聚为一类C2.2.1。

S203，根据聚类结果确定每个第一DOM树的第一候选节点。

其中，若节点对应的全部子节点聚为一类，则确定节点为第一候选节点；若节点无对应的子节点，且存在与节点同属一个父节点但与节点未聚为一类的节点，则确定节点为第一候选节点。

具体的，如上述图3所示，同一层未能聚为同一类的节点，那么它们的子节点之间将无任何关联；若某一个分支下的所有节点聚为一类，则取该分支节点为候选节点，例如C2.2其下所有子节点聚为一类，因此取C2.2作为候选节点；若节点无对应的子节点，且存在与节点同属一个父节点但与节点未聚为一类的节点，则取该节点为候选节点，例如C1.1其下无子节点，且存在与其同属一个父节点C1但未与其聚为一类的节点C1.2，因此取该节点C1.1为候选节点。图3中最终确定的候选节点为：C1.1、C1.2、C2.2、C2.1.2、C2.1.3、C2.3.1、C2.1.1.1和C2.1.1.2。

可选的，候选节点确定好后，可以对第一候选节点进行同源降噪处理，去除第一候选节点中的噪声节点。

S2031，获取三个页面（pageA1/pageA2/pageB），三个页面均来自同一站点同一个模板。pageA1与pageA2是对同一新闻的不同次请求所获取的页面，而pageB是不同于A的另一条新闻页面。

S2032，采用广度优先遍历，选取三个页面中具有相同DOM path和标签属性的候选节点，计算其节点内容。

S2033，分情况判断去噪：对于pageA1，pageA2和pageB，若A节点内容等于B节点内容，则该节点为噪声节点；对于pageA1和pageA2，若A1节点内容不等于A2节点内容，则该节点为噪声节点。

此处需要说明的是，人工标注节点属性的过程也可以在候选节点确定之后进行。

S204，对每个第一候选节点的多个特征进行统计，并根据统计结果构建决策树，以对每个第一候选节点进行分类，且分类结果的类别数与第一候选节点的属性的类别数相同。

其中，多个特征包括布局特征和至少一个以下特征：字符特征和语义特征。

具体的，对每个候选节点的布局、字符和语义等n个特征F₁，F₂，......，F_n进行统计，各候选节点对应一个n维的特征向量X=[x₁，x₂，......，x_n]。根据统计结果，可以采用现有的各种算法，例如C4.5算法、CLS算法、ID3算法、CHAID算法、CART算法或FACT算法，来构建决策树。图4为决策树的结构示意图，如图4所示，若样本所在领域共m个属性分类，则第一步决策树分类结果为m类，决策树中的每个叶子对应一个分类，一个分类对应一节点集合，集合中的各节点也是n维向量。其中，V1、V2、V3和V4为分类特征规则，C₁，C₂，......，C_m为分类结果。

其中，C4.5算法由Quinlan于1993年在ID3算法的基础上进一步优化改进形成。C4.5算法是机器学习算法中的一种分类决策树算法，该算法用信息增益率来选择决策规则，其核心算法是ID3算法。它继承了ID3算法的全部优点，并在ID3的基础上增加了对连续数据的离散化、对未知规则的处理和产生规则等功能，克服了ID3算法的不足。

（1）信息增益

在决策树分类问题中，信息增益是决策树在进行规则选择划分前和划分后的信息差值。某规则信息增益越大，对于分类提供的信息量越大，则选择之后对于分类的不确定性越小，信息增益Gain（S，F）如公式（9）所示：

\begin{matrix} Gain (S, F) = Rntropy (S) - ExpectedEntropy (S_{F}) \\ = - Σ_{i = 1}^{m} p_{i} \log_{2} (p_{i}) + \underset{v &Element; VofF}{Σ} p (v) p_{vj} \log_{2} (p_{vj}) \end{matrix} - - - (9)

其中，Entropy（S）为分类***原本的熵，ExpectedEntropy（SF）为固定特征F后的条件熵。m表示样本集合中类别个数，p_i表示第i类的概率，样本集S按某特征的V个不同取值划分为S1，S2，......，SV共V个子集，p_vj表示SV中第j类的概率。

（2）***信息：

***信息用来衡量特征规则***数据的广度和均匀性，实际是S关于测试特征各值的熵。***信息Split（S，F）如公式（10）所示：

Split (S, F) = - \underset{v &Element; V}{Σ} \frac{| S_{v} |}{| S |} * \log_{2} (\frac{| S_{v} |}{| S |}) - - - (10)

（3）信息增益率

信息增益率表示由决策树分枝产生的有用信息的比例。因此，这个值越大，分枝包含的有用信息越多。F为特征，S为样本集，信息增益率基于信息增益Gain（S，F）和***信息Split（S，F），如公式（11）所示：

GainRatio (F, S) = \frac{Gain (S, F)}{Split (S, F)} - - - (11)

S205，根据多个未标注属性的样本网页构建对应的多个第二DOM树。

具体的，根据大量未进行人工标注属性的样本网页构建第二DOM树，第一DOM树中每个节点的属性不确定。构建DOM树的过程，参见步骤101中的相关描述，此处不再赘述。

S206，根据每个第二DOM树的各节点的布局特征对每个第二DOM树的各节点进行层次聚类。具体包括以下步骤：

S2061，根据每个第二DOM树的各节点的布局特征，生成每个第二DOM树的各节点对应的第二节点布局特征向量；

S2062，根据每个第二DOM树的各节点对应的第二节点布局特征向量，计算每个第二DOM树的各节点的第二类内相异度和第二类间离散度；

S2063，根据第二类内相异度和第二类间离散度，以第一类内相异度最小且第一类间离散度最大为优化条件，对每个第二DOM树的各节点进行层次聚类。

S207，根据聚类结果确定每个第二DOM树的第二候选节点。

其中，若节点对应的全部子节点聚为一类，则确定节点为第二候选节点；若节点无对应的子节点，且存在与节点同属一个父节点但与节点未聚为一类的节点，则确定节点为第二候选节点。

步骤S206，S2061-S2063和S207分别参见步骤S202，S2021-S2023和S203中的相关描述，此处不再赘述。

可选的，第二候选节点确定好后，对第二候选节点进行同源降噪处理，去除第二候选节点中的噪声节点。具体过程参见上述关于DOM树候选节点同源降噪法去除噪声节点的描述，此处不再赘述。

依次对每个第二候选节点进行如下操作：

S208，对待分类第二候选节点的多个特征进行统计，并根据统计结果判断该第二候选节点所属分类结果的类别，并根据判断结果将该第二候选节点添加到决策树中对应的类别中。

具体的，对待分类第二候选节点进行统计的多个特征与对第一候选节点进行统计的多个特征相同。例如均为布局、字符和语义特征。

其中，根据统计结果判断该第二候选节点所属分类结果的类别，具体包括以下步骤：

S2081，根据统计结果生成该第二候选节点对应的第二候选节点特征向量；

S2082，计算分类结果的每个类别的中心节点对应的中心节点特征向量，中心节点特征向量为该类别中全部第一候选节点对应的第一候选节点特征向量和全部第二候选节点对应的第二候选节点特征向量的算数平均值；

S2083，根据该第二候选节点对应的第二候选节点特征向量和每个中心节点对应的中心节点特征向量，采用加权最小距离分类器算法判断该第二候选节点所属分类结果的类别；其中，加权最小距离分类器算法中的每个权值为多个特征中每个特征的信息增益率。

具体的，构建的决策树中，每个分类对应一个节点集合，集合中的各节点对应一个n维向量，计算第k类别C_k（k=1，......，m）中全部第一候选节点对应的第一候选节点特征向量和全部第二候选节点对应的第二候选节点特征向量的算数平均值，计算结果即为代表该类别C_k（k=1，......，m）的中心节点对应的n维向量C_k=[C_k1，C_k2，......，C_kn]。

待分类的第二候选节点X也对应一个n维的特征向量X=[X₁，X₂，......，X_n]，通过计算其与各C_k=[C_k1，C_k2，......，C_kn]之间的距离D（X，C_k），判定X属于与之距离最近的类别。由于数据分类用到的各特征在实际应用中发挥的作用大小不同，所以计算最小距离时采用加权的距离公式，如公式（12）所示：

D ({X, C}_{k}) = \sqrt{w_{1} {(x_{1} - C_{k 1})}^{2} + w_{2} {(x_{2} - C_{k 2})}^{2} + . . . + w_{n} {(x_{n} - C_{kn})}^{2}} - - - (12)

其中，权值w_i（i=1，，......，n）表示特征F_i（i=1，，......，n）对分类影响的大小，合理选择权值对最小距离分类非常重要。对于采用C4.5算法构建的决策树，由于采用信息增益率来选择分类规则，因此此处将特征F_i（i=1，，......，n）的信息增益率作为其对应的权值w_i（i=1，，......，n）。

完成一个第二候选节点的分类后，还需执行以下步骤来动态优化决策树：

S209，重新计算多个特征中每个特征的信息增益率。

其中，若多个特征中每个特征的信息增益率的大小和排名发生变化，则重新构建决策树，并更新加权最小距离分类器算法中的每个权值以及分类结果的每个类别的中心节点对应的中心节点特征向量；

若多个特征中每个特征的信息增益率的大小发生变化但排名未发生变化，则更新加权最小距离分类器算法中的每个权值以及分类结果的每个类别的中心节点对应的中心节点特征向量；

若多个特征中每个特征的信息增益率的大小收敛，则重新计算分类结果的每个类别的中心节点对应的中心节点特征向量，若分类结果的每个类别的中心节点对应的中心节点特征向量未发生变化，则停止对下一个第二候选节点的多个特征进行统计。

具体的，由于构建决策树时采用的为已标注的样本页面较少，因此构建的决策树可能偏差较大，不能很好的区分各个候选节点，因此在每完成一个第二候选节点的分类后，需重新计算每个特征的信息增益率，根据每个特征的信息增益率的大小和排名情况进行动态优化，随着各分类集合中节点的增加，利用信息增益率动态优化调整决策树，直到各特征的信息增益率收敛和各C_k不变。具体过程如下：

输入：未标注属性的样本集

输出：最优决策树

01：while（样本集不为空）

02：任选一样本页面，计算其候选节点及特征

03：利用最小距离分类器，判断各候选节点的类别

04：计算各特征F1，F2，……，Fn的信息增益率

05：if（各信息增益率大小及排名发生变化）

06：生成新的决策树

07：更新最小距离分类器的各个权值

08：else if（各信息增益率仅仅是大小变化）

09：更新最小距离分类器的各个权值

10：else（优化是否结束判断）

11：if（各特征的信息增益率收敛&&各C_k不变）

12：优化结束，输出最优决策树

13：end if

14：end if

15：end while

16：if（未得到最优决策树）

17：增加样本页面，跳至第1步，继续优化

18：end if

S210，根据优化后的决策树，抽取待抽取网页的结构化信息。

图5为本发明提供的网页信息抽取装置一个实施例的结构示意图。如图5所示，本实施例中的网页信息抽取装置为执行上述网页信息抽取方法的特定主体，具体可以包括：构建模块51、优化模块52和抽取模块53，其中：

构建模块51，用于根据多个已标注属性的样本网页构建对应的多个第一文档对象类型DOM树，并根据多个第一DOM树构建决策树；

具体的，已标注属性的样本网页，即对少量样本网页进行人工标注属性，例如，对于新闻网页，人工标注出标题、主体、用户评论、相关新闻等属性。构建模块51根据该已标注属性的样本网页构建第一DOM树，第一DOM树中每个节点的属性根据该已标注属性的样本网页标注的属性可以确定。

构建模块51在DOM树的构建过程中，需要对HTML编码进行清理：（1）订正有错误的标签，使得标签成对使用，即有一个开始标签和一个结束标签（分别用<>和</>来表示）。（2）剔除无用的标签及内容。例如：为HTML注释；<style>...</style>为内部样式文本；<script>...</script>为JavaScript脚本。标签<head>...</head>不包含正文内容也可剔除。DOM树也称为标签树。

根据构建好的第一DOM树构建决策树，具体可以采用现有的各种算法，例如C4.5算法、CLS算法、ID3算法、CHAID算法、CART算法或FACT算法，来构建决策树。

优化模块52，用于根据多个未标注属性的样本网页构建对应的多个第二DOM树，并根据多个第二DOM树优化决策树；

具体的，优化模块52根据大量未标注属性的样本网页构建第二DOM树，第二DOM树中每个节点的属性不确定。优化模块52构建DOM树的过程参见构建模块51构建DOM树的相关描述。优化模块52根据第二DOM树中各节点的特征与第一DOM树中各节点的特征，判断第二DOM树中各节点的属性，并将第二DOM树中的各节点添加到决策树中，以动态优化决策树。

抽取模块53，用于根据优化后的决策树，抽取待抽取网页的结构化信息。

具体的，抽取模块53根据优化后的决策树，按照属性抽取待抽取网页的结构化信息。

进一步的，构建模块51具体可以用于：

根据每个第一DOM树的各节点的布局特征对每个第一DOM树的各节点进行层次聚类。具体的：

根据每个第一DOM树的各节点的布局特征，生成每个第一DOM树的各节点对应的第一节点布局特征向量；根据每个第一DOM树的各节点对应的第一节点布局特征向量，计算每个第一DOM树的各节点的第一类内相异度和第一类间离散度；根据第一类内相异度和第一类间离散度，以第一类内相异度最小且第一类间离散度最大为优化条件，对每个第一DOM树的各节点进行层次聚类。

假设最佳聚类为c{C1，C2，...Cc}，每个聚类Ci含有n_i个节点（i=1，2，...c）。根据公式（3）-（8），从DOM树的根节点开始，自顶向下逐层判断，取该层使得聚类性能指标P最大时所对应的c进行聚类。

进一步的，构建模块51具体可以用于：

根据聚类结果确定每个第一DOM树的第一候选节点。

可选的，候选节点确定好后，构建模块51还可以用于：

对第一候选节点进行同源降噪处理，去除第一候选节点中的噪声节点。具体的：

获取三个页面（pageA1/pageA2/pageB），三个页面均来自同一站点同一个模板。pageA1与pageA2是对同一新闻的不同次请求所获取的页面，而pageB是不同于A的另一条新闻页面。

采用广度优先遍历，选取三个页面中具有相同DOM path和标签属性的候选节点，计算其节点内容。

分情况判断去噪：对于pageA1，pageA2和pageB，若A节点内容等于B节点内容，则该节点为噪声节点；对于pageA1和pageA2，若A1节点内容不等于A2节点内容，则该节点为噪声节点。

进一步的，构建模块51具体可以用于：

对每个第一候选节点的多个特征进行统计，并根据统计结果构建决策树，以对每个第一候选节点进行分类，且分类结果的类别数与第一候选节点的属性的类别数相同。

具体的，对每个候选节点的布局、字符和语义等n个特征F₁，F₂，......，F_n进行统计，各候选节点对应一个n维的特征向量X=[x₁，x₂，......，x_n]。根据统计结果，可以采用现有的各种算法，例如C4.5算法、CLS算法、ID3算法、CHAID算法、CART算法或FACT算法，来构建决策树。若样本所在领域共m个属性分类，则第一步决策树分类结果为m类，决策树中的每个叶子对应一个分类，一个分类对应一节点集合，集合中的各节点也是n维向量。

进一步的，优化模块52具体可以用于：

根据每个第二DOM树的各节点的布局特征对每个第二DOM树的各节点进行层次聚类。具体的：

根据每个第二DOM树的各节点的布局特征，生成每个第二DOM树的各节点对应的第二节点布局特征向量；

根据每个第二DOM树的各节点对应的第二节点布局特征向量，计算每个第二DOM树的各节点的第二类内相异度和第二类间离散度；

根据第二类内相异度和第二类间离散度，以第一类内相异度最小且第一类间离散度最大为优化条件，对每个第二DOM树的各节点进行层次聚类。

具体的，优化模块52对每个第二DOM树的各节点进行层次聚类的过程可以参见构建模块51对每个第一DOM树的各节点进行层次聚类的过程的相关描述，此处不再赘述。

进一步的，优化模块52具体可以用于：

根据聚类结果确定每个第二DOM树的第二候选节点。

具体的，优化模块52确定每个第二DOM树的第二候选节点的过程可以参见构建模块51确定每个第一DOM树的第一候选节点的过程的相关描述，此处不再赘述。

可选的，第二候选节点确定好后，优化模块52还可以用于：

对第二候选节点进行同源降噪处理，去除第二候选节点中的噪声节点。具体过程参见上述构建模块51关于DOM树候选节点同源降噪法去除噪声节点的描述，此处不再赘述。

进一步的，优化模块52具体可以用于：

依次对每个第二候选节点进行如下操作：对该第二候选节点的多个特征进行统计，并根据统计结果判断该第二候选节点所属分类结果的类别，并根据判断结果将该第二候选节点添加到决策树中对应的类别中。

具体的，优化模块52对第二候选节点进行统计的多个特征与构建模块对第一候选节点进行统计的多个特征相同。例如均为布局、字符和语义特征。

进一步的，优化模块52具体可以用于：

根据统计结果生成该第二候选节点对应的第二候选节点特征向量；计算分类结果的每个类别的中心节点对应的中心节点特征向量，中心节点特征向量为该类别中全部第一候选节点对应的第一候选节点特征向量和全部第二候选节点对应的第二候选节点特征向量的算数平均值；根据该第二候选节点对应的第二候选节点特征向量和每个中心节点对应的中心节点特征向量，采用加权最小距离分类器算法判断该第二候选节点所属分类结果的类别；其中，加权最小距离分类器算法中的每个权值为多个特征中每个特征的信息增益率。

具体的，构建的决策树中，每个分类对应一个节点集合，集合中的各节点对应一个n维向量，优化模块52计算第k类别C_k（k=1，......，m）中全部第一候选节点对应的第一候选节点特征向量和全部第二候选节点对应的第二候选节点特征向量的算数平均值，计算结果即为代表该类别C_k（k=1，......，m）的中心节点对应的n维向量C_k=[C_k1，C_k2，......，C_kn]。

待分类的第二候选节点X也对应一个n维的特征向量X=[X₁，X₂，......，X_n]，优化模块52利用公式（12）计算其与各C_k=[C_k1，C_k2，......，C_kn]之间的距离D（X，C_k），判定X属于与之距离最近的类别。

完成一个第二候选节点的分类后，优化模块52还可以用于：

重新计算多个特征中每个特征的信息增益率，若多个特征中每个特征的信息增益率的大小和排名发生变化，则重新构建决策树，并更新加权最小距离分类器算法中的每个权值以及分类结果的每个类别的中心节点对应的中心节点特征向量；或者，

若多个特征中每个特征的信息增益率的大小发生变化但排名未发生变化，则更新加权最小距离分类器算法中的每个权值以及分类结果的每个类别的中心节点对应的中心节点特征向量；或者，

具体的，由于构建决策树时采用的为已标注的样本页面较少，因此构建的决策树可能偏差较大，不能很好的区分各个候选节点，因此在每完成一个第二候选节点的分类后，优化模块52需重新计算每个特征的信息增益率，根据每个特征的信息增益率的大小和排名情况进行动态优化，随着各分类集合中节点的增加，利用信息增益率动态优化调整决策树，直到各特征的信息增益率收敛和各C_k不变。

通过本实施例描述的网页信息抽取装置，我们可以把海量网页作为数据服务源，从不同领域的网页中，准确抽取与领域属性相对应的网页结构化信息，并将这些丰富的多源网页结构化信息源通过mashup应用聚合起来，形成综合网页信息整合服务，进而更好的满足不同用户的个性化需求。

本实施例提供的网页信息抽取装置，根据多个已标注属性的样本网页构建决策树，根据多个未标注属性的样本网页优化该决策树，由于决策树的构建和优化不单单依赖于网页的布局风格，因此优化后的决策树可以适用于同一领域各种布局风格的网页的信息抽取，省时省力。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种网页信息抽取方法，其特征在于，包括：

根据优化后的决策树，抽取待抽取网页的结构化信息；

其中，所述多个已标注属性的样本网页、所述多个未标注属性的样本网页和所述待抽取网页为属于同一领域的网页；

所述根据所述多个第一DOM树构建决策树，包括：

根据每个所述第一DOM树的各节点的布局特征对每个所述第一DOM树的各节点进行层次聚类，并根据聚类结果确定每个所述第一DOM树的第一候选节点；

对每个所述第一候选节点的多个特征进行统计，并根据统计结果构建所述决策树，以对每个所述第一候选节点进行分类，且分类结果的类别数与所述第一候选节点的属性的类别数相同。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个第二DOM树优化所述决策树，包括：

根据每个所述第二DOM树的各节点的布局特征对每个所述第二DOM树的各节点进行层次聚类，并根据聚类结果确定每个所述第二DOM树的第二候选节点；

依次对每个所述第二候选节点进行如下操作：对该第二候选节点的所述多个特征进行统计，并根据统计结果判断该第二候选节点所属所述分类结果的类别，并根据判断结果将该第二候选节点添加到所述决策树中对应的类别中。

3.根据权利要求2所述的方法，其特征在于，所述根据每个所述第一DOM树的各节点的布局特征对每个所述第一DOM树的各节点进行层次聚类，包括：

根据每个所述第一DOM树的各节点的布局特征，生成每个所述第一DOM树的各节点对应的第一节点布局特征向量；

根据每个所述第一DOM树的各节点对应的第一节点布局特征向量，计算每个所述第一DOM树的各节点的第一类内相异度和第一类间离散度；

根据所述第一类内相异度和所述第一类间离散度，以所述第一类内相异度最小且所述第一类间离散度最大为优化条件，对每个所述第一DOM树的各节点进行层次聚类；

所述根据每个所述第二DOM树的各节点的布局特征对每个所述第二DOM树的各节点进行层次聚类，包括：

根据每个所述第二DOM树的各节点的布局特征，生成每个所述第二DOM树的各节点对应的第二节点布局特征向量；

根据每个所述第二DOM树的各节点对应的第二节点布局特征向量，计算每个所述第二DOM树的各节点的第二类内相异度和第二类间离散度；

根据所述第二类内相异度和所述第二类间离散度，以所述第二类内相异度最小且所述第二类间离散度最大为优化条件，对每个所述第二DOM树的各节点进行层次聚类。

4.根据权利要求2所述的方法，其特征在于，所述根据聚类结果确定每个所述第一DOM树的第一候选节点，包括：

若节点对应的全部子节点聚为一类，则确定所述节点为所述第一候选节点；或者，

若节点无对应的子节点，且存在与所述节点同属一个父节点但与所述节点未聚为一类的节点，则确定所述节点为所述第一候选节点；

所述根据聚类结果确定每个所述第二DOM树的第二候选节点，包括：

若节点对应的全部子节点聚为一类，则确定所述节点为所述第二候选节点；或者，

若节点无对应的子节点，且存在与所述节点同属一个父节点但与所述节点未聚为一类的节点，则确定所述节点为所述第二候选节点。

5.根据权利要求2所述的方法，其特征在于，所述多个特征包括所述布局特征和至少一个以下特征：字符特征和语义特征。

6.根据权利要求2所述的方法，其特征在于，所述根据统计结果判断该第二候选节点所属所述分类结果的类别，包括：

根据统计结果生成该第二候选节点对应的第二候选节点特征向量；

计算所述分类结果的每个类别的中心节点对应的中心节点特征向量，所述中心节点特征向量为该类别中全部所述第一候选节点对应的第一候选节点特征向量和全部所述第二候选节点对应的第二候选节点特征向量的算数平均值；

根据该第二候选节点对应的第二候选节点特征向量和每个所述中心节点对应的中心节点特征向量，采用加权最小距离分类器算法判断该第二候选节点所属所述分类结果的类别；其中，所述加权最小距离分类器算法中的每个权值为所述多个特征中每个特征的信息增益率。

7.根据权利要求6所述的方法，其特征在于，所述根据判断结果将该第二候选节点添加到所述决策树中对应的类别中之后，还包括：

重新计算所述多个特征中每个特征的信息增益率，若所述多个特征中每个特征的信息增益率的大小和排名发生变化，则重新构建所述决策树，并更新所述加权最小距离分类器算法中的每个权值以及所述分类结果的每个类别的中心节点对应的中心节点特征向量；或者，

若所述多个特征中每个特征的信息增益率的大小发生变化但排名未发生变化，则更新所述加权最小距离分类器算法中的每个权值以及所述分类结果的每个类别的中心节点对应的中心节点特征向量；或者，

若所述多个特征中每个特征的信息增益率的大小收敛，则重新计算所述分类结果的每个类别的中心节点对应的中心节点特征向量，若所述分类结果的每个类别的中心节点对应的中心节点特征向量未发生变化，则停止对下一个所述第二候选节点的所述多个特征进行统计。

8.根据权利要求2所述的方法，其特征在于，所述对每个所述第一候选节点的多个特征进行统计之前，还包括：

对所述第一候选节点进行同源降噪处理，去除所述第一候选节点中的噪声节点；

所述依次对每个所述第二候选节点进行如下操作之前，还包括：

对所述第二候选节点进行同源降噪处理，去除所述第二候选节点中的噪声节点。

9.一种网页信息抽取装置，其特征在于，包括：

构建模块，用于根据多个已标注属性的样本网页构建对应的多个第一文档对象类型DOM树，并根据每个所述第一DOM树的各节点的布局特征对每个所述第一DOM树的各节点进行层次聚类，并根据聚类结果确定每个所述第一DOM树的第一候选节点；对每个所述第一候选节点的多个特征进行统计，并根据统计结果构建决策树，以对每个所述第一候选节点进行分类，且分类结果的类别数与所述第一候选节点的属性的类别数相同；