CN106960002A

CN106960002A - 一种基于特征模型的跨领域信息抽取方法

Info

Publication number: CN106960002A
Application number: CN201710076390.4A
Authority: CN
Inventors: 朱文浩; 姚滕俊; 胡冠男; 金鑫; 周资力
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2017-02-13
Filing date: 2017-02-13
Publication date: 2017-07-18

Abstract

本发明公开了一种基于特征模型的跨领域信息抽取方法。该方法分为多层次特征模型的建立、特征选择与组合以及反馈迭代机制三部分。引入了遗传算法并采用支持向量机进行交叉验证的特征空间生成算法，根据不同领域的原子特征，生成满足抽取任务要求的特征模型。它避免了传统Web信息抽取方法的领域适应度差的问题。大量的数值实验表明，与同类方法相比，该方法具有更高准确率和稳定性，并且算法本身有很好的可扩展性。

Description

一种基于特征模型的跨领域信息抽取方法

技术领域

本发明涉及Web信息抽取领域，特别是一种基于特征模型的跨领域信息抽取方法。

背景技术

Web信息抽取是从非结构化的网页文本中按某种抽取规则获得符合该规则的内容，然后再将其转化为结构和语义更为清晰的格式(XML、关系数据、面向对象的数据等)存储。Web信息抽取不完全等同于对普通文本的信息抽取，当前的网页多为半结构化的形式，一个重要特性是页面的表现形式多样化，这给Web信息抽取带来了困难。而针对网页的跨领域信息抽取方法的研究就是在为了解决Web信息抽取中的通用性问题。总体来说，目前跨领域信息抽取的挑战主要是以下三个方面：

1、海量的半结构化文本

随着互联网产业的迅速发展，Web已经成为一个巨大的信息库。根据中国互联网信息中心(CNNIC)发布《第33次中国互联网络发展状况统计报告》显示，截至2013年12月，中国网页数量为1500亿个，相比2012年同期增长了22.2％。单个网站的平均网页数和单个网页的平均字节数均维持增长，显示出中国互联网上的内容更为丰富。同时2014中国互联网网民占人口总数的44％，且数量仍在快速增长，互联网已成为人们生活中传播与共享商业、教育、新闻和科研等信息的主要途径。

2、网页动态性

网页的动态性是指网页的样式和内容是由程序动态生成的。早期的网页称为静态页面，其样式和内容都是先在后台组织好，传送给浏览器后文本内容和样式不再改变。目前以Java Script为主流的动态网页技术得到广泛的应用，Java Script代码不仅可以动态改变网页的布局和样式，也可以通过请求后台数据动态改变页面内容。网页的动态性给跨领域信息抽取的研究提出了新的课题，过去的抽取***已经不能适应当前网页的实时变化，一旦网页发现变化，就不能进行有效的信息抽取了。

3、网页的异构性

网页的异构性主要是指不同网页之间文本样式和主题内容的差异性。网页可以以多种多样的形式展示信息，即使是同一网站中相同内容的不同页面所展示的样式也可能不同。如果是来至不同网站的网页，其表现形式的差异性将更大。综上所述，由于不同网站中网页布局的差异化和同一网站中信息的多样化展示方式，网页的异构性也是跨领域信息抽取的一个难点。

目前，已有一些研究小组在进行跨领域信息抽取方面的研究，也开发了少量的工具。这些方法各有其优点，但也各有其局限性，无法完全满足Web信息抽取的需要。基于规则的方法自动化程度低，需要大量的人工工作，并且只是针对特定的网页有效，通用性差。基于机器学习自动生成抽取推理模型的方法在一定程度上解决了人工构造规则的问题，但是由于其需要大量的样本做训练，仍然面临着当网站结构或抽取任务改变时需要重新训练推理模型的问题，甚至需要加入一定的人工干预，很难在实际应用中推广。通过我们的方法中提出的特征模型，能很好很快的适应信息抽取任务的领域变化，并且较为通用。

发明内容

本发明的目的在于，为了解决上述问题而提供一种基于特征模型的跨领域信息抽取方法，该方法能分解领域相关特征，获取领域弱相关的子特征，并构建特征模型。利用该模型，能够对特征和信息抽取任务之间的匹配度和区分度进行评价。基于该特征模型，提出了一种能够快速适应领域变化的信息抽取方法，该方法采用了反馈迭代优化推理模型的机制，能够针对特定信息抽取任务快速获取针对该领域的特征组合，从而适应领域的变化。

为达到上述目的，本发明的构思是：首先对具有领域相关性的特征进行降解，将特征分为复合特征(由一个或多个原子特征以某种形式或逻辑构成的特征，具有领域特点)和原子特征(不包括任何其他特征的独立特征，不具有或仅具有少量的领域特点)，通过降低特征的领域相关性，减少信息抽取方法的领域依赖性；然后结合特征参数化方法实现特征模块的实例化，通过对一个个最底层的特征块的选择和组合，来组成一个个适合各个领域或者是各个抽取目标的抽取模板。在面对领域变化时，只需要根据目标领域文本的领域相关特征(如，上下文关系、行文方式等)重新将特征进行逻辑组合(如，有A特征但不存在B特征)，构成特征向量，同时训练得到推理模型，通过反馈迭代技术不断优化生成的向量空间，以达到更优的信息抽取效果。

根据上述发明构思，本发明采用如下技术方案：

一种基于特征模型的跨领域信息抽取方法，具体操作步骤如下：

a.建立多层次特征模型，对现有信息抽取方法中使用到的特征进行归纳总结，将这些特征分解为领域依赖性较低的原子特征，并依据分解的程度建立多层次特征模型，参考现有的特征参数化方法进行特征的参数化，最后，对参数化后的特征建立特征领域适应性分析的评价体系，即每个特征对于不同的领域都有一个初始的适应度值，这个值作为特征选择的初始化依据；

b.特征选择与组合，通过步骤a中得到的特征的参数化计算结果，使用类似TF-IDF的方法来计算特征的领域适应度值，依据特征的领域适应度值来选择合适的特征，构造特征向量空间；

c.反馈迭代，根据步骤b得到的特征向量空间在训练样本集中进行交叉验证，得到抽取推理模型的抽取效果作为反馈的结果，根据反馈的结果采取基于遗传算法的特征选择方法来修正特征向量空间。

所述步骤b中的领域适应度使用两个指标来评价特征：特征匹配度和特征区分度；具体计算方法为：

b-1.特征匹配度表示某一个特征匹配抽取目标的次数，其具体计算方式采用下述公式：

其中，n_i,j表示样本集j中，特征i正确匹配的样本数，S_i,j表示在样本集j中，特征i匹配到的总样本数，MD_i,j表示特征i在样本j中的匹配程度；

b-2.特征区分度表示包含某个特征的样本在样本集中出现的频率，其具体计算方式采用下述公式：

其中，S表示样本集中总的样本数，|{j:f_i∈s_j}|表示在样本s中包含特征i的样本集个数，DD_i表示包含特征i的样本数在样本集中出现的频率；

b-3.特征i的领域适应度的计算公式为MD_i,j*DD_i。

所述步骤b中的构造特征向量空间，具体方法为：

半随机半干预的构造特征向量空间方法，将初始化特征向量空间的一半个体以随机的方式产生，保证结果全局最优性；另一半个体以人工干预的形式尽量多的选择领域适应度值高的候选特征来优化初始化特征向量空间；人工干预的方法参考Holland提出的模拟赌盘的操作，其基本原理是根据每个特征的领域适应度值的比例来确定该特征的选择概率，特征i被选中的概率的计算公式如下：

其中，P_i表示特征i被选中的概率，F_i表示特征i的领域适应度值。

所述步骤c中的基于遗传算法的反馈迭代，具体为：

c-1.根据每一代种群中特征向量适应度函数的返回值，来调整每个特征的适应度值，为之后一轮特征向量的遗传操作提供依据，其基本原理是根据每个出现该特征的特征向量适应度函数返回值的平均值来确定该特征的领域适应度值，其具体计算方式采用下述公式：

其中，F_j表示反馈后的特征j的领域适应度值，f(G_i)表示特征向量G_i的适应度函数返回值，G_i,j表示在特征向量i中的第j个特征的特征值，即0或1，m表示群体中的最大个体数；

c-2.根据每一轮迭代中特征出现在最优特征向量中的次数，来调整每个特征的适应度值，为之后一轮特征向量的遗传操作提供依据，其基本原理是根据每轮最优特征向量中出现该特征的次数总和占当前迭代轮数的比例来确定该特征的领域适应度值，其具体计算方式采用下述公式：

其中，H_t,j表示第t轮迭代之后反馈的特征j的领域适应度值，t表示当前的迭代轮数，B_k,j表示第k轮的最优特征向量中的第j个特征的特征值，即0或1。

所述步骤c中的基于遗传算法的特征选择方法，采用直接排序选择算法，具体算法如下：

在交叉变异前和交叉变异后混合在一起的候选特征向量集中，根据特征向量的优劣程度降序排序，选择排名靠前的一半特征向量保留到下一代中，这里的特征向量评价方法不是采用适应度函数的返回值作为评价依据，而是根据该特征向量的历史性能指标作为该特征向量的评价标准；历史性能指标是指该特征向量中所有被选特征在之前迭代中出现在最优特征向量中次数的平均值，具体计算公式如下：

其中，HE_i表示特征向量i的历史性能指标值，N_i,j表示在特征向量i中的第j个特征在历次最优特征向量中出现的次数，G_i,j表示在特征向量i中的第j个特征的特征值，即0或1。

本发明方法与现有技术相比较，具有以下突出的实质性特点和显著优点：

本发明方法采用了分解领域相关特征获得领域弱相关的子特征来进行特征模型的构建，避免了传统Web信息抽取方法中领域依赖度过高的问题。该方法在取得了很高准确率的同时，时间效率也十分高。该方法具有灵活的可扩展性，通过给定不同领域的特征，能够迅速适应不同领域的信息抽取任务。

附图说明

图1为基于特征模型的跨领域信息抽取框架示意图。

图2为基于支持向量机的特征向量适应度函数评价过程示意图。

图3为同一个网站中的跨内容信息抽取对比图。

图4为相同抽取内容的跨网站信息抽取实验结果图。

图5为相同抽取内容的跨类型网站信息抽取实验结果图。

具体实施方式

以下结合附图对本发明的优选实施例进一步详细说明。

如图1所示，一种基于特征模型的跨领域信息抽取方法，主要分为三部分，分别是多层次特征模型的建立、特征选择与组合以及反馈迭代机制。多层次特征模型的建立阶段，又可以分为三块：多层次特征模型、特征参数化方法、特征参数化方法评价体系；特征选择与组合阶段，包含三个部分：特征参数化计算结果、计算特征匹配度以及构造特征空间；反馈迭代机制参考了经典的遗传算法为特征空间提供优化。

特征选择算法参考了遗传算法的思想，其主要步骤如下：

C1.根据特征匹配度指标选择初始特征，确定特征向量的维度N，继而通过随机的方式组合形成初始特征空间F0；

C2.开始第i次迭代(i从0开始)，该代的特征空间为Fi；

C3.根据样本随机生成训练样本集合Si和测试样本集合Ti；

C4.利用Si和Fi进行机器学习，得到模型Mi；

C5.用Ti对模型Mi进行评价；

C6.如果Mi比当前最佳结果更好，则记录Fmax＝Fi；

C7.当满足停机条件时，停止迭代，输出Fmax；

C8.利用自然选择、突变以及杂交等手段重构特征组合，形成新的特征空间Fi+1；

C9.跳到步骤C2，开始新的迭代。

由于使用了遗传算法作为迭代引擎，该方法可以有效的获取适应应用领域的特征组合。

种群初始化：遗传算法中通常情况下个体的数量选择在30-160之间，一般为个体维度的4倍。本方法通过实验分析固定个体数量为80个。

通常情况下，初始向量维度在10-100之间，参考了大量国内外特征选择算法的优化结果发现最终优化出的特征向量空间基本不会超过30维，一般集中在15维左右。本方法参考特征的适应性实验结果分析，发现对于大多数的信息抽取任务，适应度值高的特征通常不会超多20个，因此在进行领域初始化的时候，选择该领域中对于当前抽取任务适应度评价高的20个特征为特征向量的20个维度。选择20维即不会造成特征匹配性过高造成过拟合和局部最优问题，也不会因为特征太多造成无法收敛和算法效率低下。

反馈机制从两个方面设置了影响特征的评价指标，具体指标如下：

E1.根据每一代种群中特征向量适应度函数的返回值，来调整每个特征的适应度值，为之后一轮特征向量的遗传操作提供依据。其基本原理是根据每个出现该特征的特征向量适应度函数返回值的平均值来确定该特征的领域适应度值。

E2.根据每一轮迭代中特征出现在最优特征向量中的次数，来调整每个特征的适应度值，为之后一轮特征向量的遗传操作提供依据。其基本原理是根据每轮最优特征向量中出现该特征的次数总和占当前迭代轮数的比例来确定该特征的领域适应度值。

机器学习交叉验证：本发明采用支持向量机的方法作为信息抽取中的推理模型，通过交叉验证的方式的得到某个特征组合的准确性值作为适应度值返回给遗传算法，再根据适应度值进行之后的遗传操作。其主要过程如图2所示。对于种群中的某一个个体特征向量Fi和训练样本集S，针对特征向量中值为1的特征位，调用相对应的特征参数化函数，得到同一特征作用于不同样本所返回的值。例如图中的特征向量中1的个数为5个，分别为特征1、特征5、特征11、特征13和特征16。那么在输入矩阵中的行数就为样本集中的个数，而列数就为5+1＝6列，其中第一列为样本的标记位，用来区分正负样本。对于输入矩阵，采用交叉验证的方式调用支持向量机作为信息抽取的推理模型，输出的准确率即为遗传操作中的适应度值的输入。

本实施例中，因无需考虑运行时间，本发明的基于特征模型的跨领域信息抽取方法的实验在四核CPU(intel Core i5-321M 2.50Ghz主频)和8GB内存的个人电脑上进行。

对于参与测试的数据集，选取了一个包含533个网页的数据集，来自八个不同的网站。

八个来源网站、URL和网页规模的大小如下表所示：

对该测试集进行的实验具体步骤如下：

1.构建N个特征的参数化方法，并且每个方法在某一特定抽取目标下对应有一个初始的适应度值。根据抽取目标，选出适应度值高的20个特征。

2.初始化一个80*20的特征向量0-1矩阵F。80行在遗传算法中表示有80个染色体，而20列在遗传算法中表示每个染色体中有20个基因。对于每一行特征向量，F(i，j)＝1表示选择了第J个特征。为了提高算法效率，作者认为应尽量少的选取特征个数，在初始化时把每一行的特征向量中出现1的概率设定为P≤0.4。

3.对于每一行的特征向量F(i,*)，初始化构建一个S*n的矩阵R。其中S表示样本的个数，n表示该特征向量F(i,*)中被选中特征的个数(即1的个数)。如果F(i，j)＝1对于网页样本集中的第a个样本，则调用第J个特征参数化方法并返回相应的值，存入R(a,j)。循环结束后，得到SVM的输入矩阵R。

4.对于第i行特征向量所对应的矩阵R，在最前面加入一列标记值(1，-1)，其中1表示该样本是正样本，反之-1则表示为负样本。然后调用libsvm包做交叉验证(取3：7)得到特征向量的抽取准确率，重复做5次取平均值即为该改特征向量的适应度值(Fitnessscore)。创建一维数组S[80]。将该特征向量的适应度返回值保存进一维数组S[i]。

5.如果达到停机条件(如最大迭代次数)，则停止迭代，输出最优特征向量和相对应的适应度值。

6.选择：降序排列数组S[80]，保存第一个最大值S[0]所对应的特征向量——保留最优解不被变异和交叉。删除最后一个最小值S[N]所对应的特征向量，复制第一个最优值。

7.交叉：定交叉概率0.4(即80个染色体中有32个被选择两两交叉)，随机选择两个染色体做双点点交叉(即选择单点为7和13，则第一个染色体的7-13位基因值和第二个染色体的7-13位基因值交换)；

8.突变：定突变概率0.1(即80个染色体中有8个被选择突变)，定突变因子为0.05(即每个染色体的20个基因中有1个突变)这里即是0-1突变。

9.返回到步骤3。

通过三个不同抽取任务的实验结果，本方法的抽取准确性和通用性进行评价：图3所示为同一个网站中的跨内容信息抽取对比结果；图4所示为相同抽取内容的跨网站信息抽取实验结果；图5所示为相同抽取内容的跨类型网站信息抽取实验结果；针对不同抽取类型的任务，本方法都得到了较好的实验结果。

Claims

1.一种基于特征模型的跨领域信息抽取方法，其特征在于，具体操作步骤如下：

2.根据权利要求1所述的基于特征模型的跨领域信息抽取方法，其特征在于，所述步骤b中的领域适应度使用两个指标来评价特征：特征匹配度和特征区分度；具体计算方法为：

{MD}_{i, j} = \frac{n_{i, j}}{| S_{i, j} |}

{DD}_{i} = \lg \frac{| S |}{| {j : f_{i} &Element; s_{j}} |}

b-3.特征i的领域适应度的计算公式为MD_i,j*DD_i。

3.根据权利要求1所述的基于特征模型的跨领域信息抽取方法，其特征在于，所述步骤b中的构造特征向量空间，具体方法为：

P_{i} = \frac{F_{i}}{Σ_{i = 1}^{20} F_{i}}

4.根据权利要求1所述的基于特征模型的跨领域信息抽取方法，其特征在于，所述步骤c中的基于遗传算法的反馈迭代，具体为：

F_{j} = \frac{Σ_{i = 1}^{m} f (G_{i}) * G_{i, j}}{Σ_{i = 0}^{m} G_{i, j}}

H_{t, j} = \frac{Σ_{k = 1}^{t} B_{k, j}}{t}

5.根据权利要求1所述的基于特征模型的跨领域信息抽取方法，其特征在于，所述步骤c中的基于遗传算法的特征选择方法，采用直接排序选择算法，具体算法如下：

{HE}_{i} = \frac{Σ_{j = 1}^{20} N_{i, j} * G_{i, j}}{Σ_{j = 0}^{20} G_{i, j}}