CN109344251A

CN109344251A - 一种基于层分类器和模板匹配的特定文本信息抽取方法

Info

Publication number: CN109344251A
Application number: CN201811057104.0A
Authority: CN
Inventors: 吴含前; 袁烽
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2019-02-15

Abstract

本发明公开了一种利用层分类器和模板匹配来抽取特定信息的方法，该方法针对海量文本数据，通过层分类器模型，信息抽取模板和语义树等技术构建了一套信息抽取模型。在构建模型的过程中，首先使用层分类器和基于触发词的方法确定文本的类型，然后可以使用所有文本共用的信息抽取模板，也可以根据文本的类型，选取相应的信息抽取模板，最后通过模板从文本数据中抽取出特定的信息。通过本发明，能够实现从海量文本中快速准确的抽取出特定信息。

Description

一种基于层分类器和模板匹配的特定文本信息抽取方法

技术领域

本发明涉及文本的信息抽取方法，具体涉及一种基于层分类器和模板匹配的特定文本信息抽取方法。

背景技术

为了从海量的文本数据中抽取到特定的信息，可通过文本信息抽取技术对原始的文本数据进行信息抽取，然后将从文本中抽取出的特定信息点以统一的形式整合在一起。成功的信息抽取***可以将海量的非结构化的文本数据转化为结构化的信息数据，还可以将转换后的数据存入数据库。这对于文本分析，舆情监控，互联网知识获得等领域具有重要的意义。

特定信息的抽取***需要针对不同的文本类型采用不同的模板。首先需要对文本进行分类处理。但当文本类型快速增长时，普通的分类器的分类效果会随着类型数量的增多而不断降低，从而造成文本类型大量错分。其次，类型确定后，针对不同信息点往往会使用基于规则的方法抽取，但是单纯基于规则的抽取会导致文本句法之间的联系的大量损失，继而降低信息抽取效果。

发明内容

发明目的：针对现有技术的不足，本发明提出了一种基于层分类器和模板匹配的特定文本信息抽取方法。通过层分类器进行初始文本分类，并通过模板匹配来对文本进行特定信息的抽取，该方法在分类阶段能够减少由于类别过多导致的错分率，加上语义树在抽取阶段的运用，能够更好的从海量文本中抽取特定的信息。

为达到上述目的，本发明采用的方法是：一种基于层分类器和模板匹配的特定文本信息抽取的方法包括文本分类模块和文本信息抽取模块，在文本分类模块中，使用层分类器和基于触发词的方法，以文本数据作为输入，以文本的最后类别作为输出。在文本信息抽取模块中，使用模板匹配的信息抽取方法，以文本和该文本的类型作为输入，以结构化的信息作为输出。

作为本发明的一种优选，文本分类模块中包括了一个两层的层分类器和一个触发词词汇表。层分类器对文本进行初步的分类，触发词词汇表用来辅助层分类器进行分类。

作为本发明的一种优选，在层分类器中，采用SVM分类器作为子分类器，SVM分类器的基本思想是在高维空间里构建出一个能够使其两侧的空白区域最大的最优超平面，即最大化分类间隔等价于最小化||w||²，因此，最优分类面问题可以表示成约束优化问题。假定训练数据(x₁,y₁)，……，(x_m,y_m)，y∈{+1,-1}(x_i是训练实例，y_i是类别标签)可以被一个超平面w^T·x+b＝0分开，其中，w∈R^N为分离超平面的法向量，b∈R为分离超平面的截距，其算法的优化问题形式如下所示：

根据拉格朗日乘子法和对偶理论可得如下对偶问题：

其中α_i是拉格朗日乘子。最终求出最优解α^*后，便可求出原优化问题的最优解w^*和b^*，从而得到支持向量机模型：

其中w^*是超平面的法向量，决定了超平面的方向，b^*是偏移量，决定了超平面到原点的距离。

作为本发明的一种优选，所述的SVM分类器需先在不同的语料集上训练，得到几个参数不同的SVM分类器，然后以这几个SVM分类器作为输入，最后以一个层分类器作为输出；层分类器中的各个SVM分类器的参数采用为：误差项的惩罚参数为1.0，核函数采用的是线性核，文本向量采用的是TFIDF向量。

作为本发明的一种优选，在文本信息抽取模块中，针对所有的文本类型采用一个共用的抽取模板进行文本信息抽取，针对每个文本类别采用不同的抽取模板进行文本信息抽取。

作为本发明的一种优选，具体信息点的抽取则采用基于规则和语义树的方法，分别抽取特定文本信息，再使用模板对整个文本所有的信息进行整合，将分散的信息联系到一起。

作为本发明的一种优选，所述的基于规则的方法是采用基于触发词的规则匹配方法，根据特定的信息抽取要求，观察文本结构特征，制定规则库，然后在文本寻找中心触发词，并规定匹配窗口，将在匹配窗口范围内并符合抽取规则的信息抽取出来。

作为本发明的一种优选，所述的语义树的方法运用如下：首先是获取文本的语义依存分析或者依存句法分析；根据中文语法的特点，先找到触发词，然后分别找到触发词的相应的施事关系或者触发词的影响等，最后抽取出特定的信息。

有益效果：

(1)本发明的层分类器加触发词的分类方法能够提升文本初始分类的准确性。

(2)本发明采用的基于规则和语义树综合运用的抽取方式，不仅能够尽量全面的抽取正确的信息，而且还能删除冗余信息，保证信息的简洁。

附图说明

图1是本发明方法流程图；

图2是基于语义树方法的文本示例图；

图3是模板匹配方法的模板示例图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明针对文本信息抽取问题构建了基于层分类器和模板匹配的特定文本信息抽取模型，模型主要抽取的是文本的事件信息，事件信息中包括了时间，地点，伤亡人数(或者事件主题)，在模型构建过程中包括了文本的分类模块和抽取模块。在分类模块中，以文本和触发词作为输入，通过层分类器以及触发词的辅助判别确定文本的具体类型，并基于文本特点设置了层分类器的超参数，包括误差项的惩罚参数、核函数、分类器层数、文本向量等。在抽取模块中，以文本和文本的类别作为抽取模块的输入，投入到各类别的抽取模板中，通过对于抽取规则和语义树的运用，最后输出文本的抽取信息。

在本发明的分类模块中，采用python中scikit-learn函数库来构建分类模块中的层分类器，层分类器中的各个分类器采用了如下超参数：误差项的惩罚参数为1.0，核函数为线性核，层数为2层，文本向量为TDIDF向量。层分类器的各个子分类器训练方式一样，分类器的训练文本存储方式为：语料库以树形存储方式存放在语料库文件夹内，文件夹下存放着各个大类别的文件夹，文件夹的名字就是该大类别的名字，文件夹内存放着各个小类别，每个类别是一个txt文件，文件的每行是一个该类别的文本，文件的名字便是这个类别的名字，然后将整个文件夹作为输入放到层分类器中，输出一个两层的层分类器，通过语料库训练出的第一层分类器把文本分为大的几个类别包括重大灾情等，然后在每个大的类别下再由第二层分类器把文本分为各个小类别(例如在重大灾情中分为洪水，泥石流，交通事故等)。在确定好类别后，根据提供的触发词词表，将某些类进行细分(例如在交通事故文本中含有“综合”触发词的交通事故文本为事故综合，其他交通事故文本则为单个交通事故)，最后输出确定类别。

在本发明的抽取模块中，将上述分类模块中的分类结果(即文本类别和原文本)作为输入送入抽取模块，然后在抽取模块中采用基于规则和语义树的方法抽取一个个信息点，具体抽取方法如下：

基于规则的抽取方法需要抽取事件信息中的时间信息、地点信息和伤亡信息(或事件主题信息)。抽取需要先将文本进行分词处理，在本发明中，采用了python中的jieba分词库，分词后的文本附带着词性标注信息。

时间信息由时间信息抽取规则抽取而出，具体规则为"([0-9一二三四五六七八九十]+[年月日时分秒])+"。时间信息点的抽取采用的是“部分覆盖原则”，也就是后面的时间信息不直接覆盖掉前面的时间信息，而是将前面的时间信息更大维度的时间给保留下来，并拼接到后面的信息上。

地点信息则由分词时附带的词性标注信息和地点词汇表给出。分词中的标注为“ns”词性标注信息的词汇就是需要抽取的地点信息。为了提高分词时地名的识别效果，需要在分词前导入地名词汇表，地名词汇表可由人工编写或是CRF技术进行抽取所得。

伤亡信息(或文本主题信息)采用基于触发词的规则方法，在文章中匹配触发词，然后根据触发词寻找文本中特定的信息，触发词的确定是由文本类别确定，不同的文本类别又是由专业人员提前确定好。本发明共用的抽取模板中采用的触发词为：“受伤、身亡、死伤、死亡、失踪、死、重伤、轻伤、遇难、击毙、杀害、罹难、殉职、伤”。特定类别以及其采用的触发词为：

(1)地震：地震

(2)泥石流：泥石流

(3)洪水：洪水

(4)交通事故：交通事故

当找到触发词后，从该触发词的位置往前往后分别找到语句的开始和结尾处。遇到长句子时，采用一定长度的窗口去截断文本。

基于语义树的方法则是用来辅助抽取伤亡信息(或文本主题信息)。基于规则的抽取能够全面的抽取所有信息，但是会带来大量的冗余信息，而基于语义树的方法则能去掉冗余信息，返回更为简洁的信息。具体操作是将文本通过语义树分析获得句子的语义关系和句法依存关系，再通过文本类型找到相应的触发词，然后根据触发词、语义关系和句法依存关系，找到施事者和触发词的影响，将这些连接起来便是抽取到的信息。在本发明中，我采用的是语言技术平台(LTP)的语义树技术，文本经过语义树分析后，每个句子都会生成一个依存句法分析，示例如附图2所示。

按照上述所说步骤首先找到触发词“死亡”，然后根据并列关系(COO)找到“受伤”，针对这两个词分别根据主谓关系(SBV)来找到死亡和受伤的主语，在本实例中是“人”，然后根据定中关系(ATT)将主语的修饰语抽取出，在本实例中两个主语“人”的修饰语分别便是“84”和“200”，最后将这些信息连接起来就是需要抽取的信息：“84人死亡”和“200人受伤”。

信息点被抽取出来之后，需采用相应的模板将这些信息点整合起来。在本发明中，采用的模板如附图3所示。

从图中可以看到模板是时间+地点+伤亡人数(文本主题)的形式。在文本数据中往往会有多个时间地点信息，并且有些信息采用了简写的方式，这些情况会影响模型对于真正的时间、地点信息的抽取。根据这个情况，大量观察文本结构后决定采用“中心就近原则”策略。具体整合方式为：从前往后扫描文本中的各个信息点，当找到中心信息点时(比如伤亡信息和文本主题信息)，采用中心就近原则，优先向前寻找最近的时间信息和地点信息(需要设置寻找范围窗口，一般设置为单个句子)。当向前寻找失败时，再向后寻找最近的时间、地点信息。

这些抽取的信息还需要接着进行一次整合。由于采用了两种方法进行抽取(基于规则和基于语义树的方法抽取)，结果会包含大量的冗余信息，所以需要进一步整合，去除冗余信息。整合时先针对基于规则的部分，采用“投票”的方式，将单个时间信息、地点信息以及伤亡信息(文本主题信息)归为一组信息，计算每组中伤亡信息(或文本主体信息)的相似度，相似度的计算公式为

其中word co-occurrence代表两个信息共有多少个共同出现的文字，Len(longsentence)代表两个信息中较长的信息的长度。相似度的阈值设置为0.6，超过阈值的便算投一票。保存伤亡信息(或文本主体信息)更长的那组，最后返回所获得票最多的那组信息。

然后是基于规则抽取结果和采用语义树抽取结果的整合。由于基于规则的抽取结果的准确性更高，所以优先考虑保留基于规则的抽取结果。整合时要判断基于规则的抽取信息和采用语义树方法的抽取信息是否相似，相似则返回更为简洁的采用语义树方法抽取的信息，不相似则保留基于规则树抽取的信息。

本发明提出的利用层分类器和模板匹配来抽取特定信息的方法能够实现从海量文本中快速准确的抽取出特定信息。

Claims

1.一种基于层分类器和模板匹配的特定文本信息抽取的方法，其特征在于，该方法包括文本分类模块和文本信息抽取模块；在所述的文本分类模块中，使用层分类器和基于触发词的方法，以文本数据作为输入，以文本的最后类别作为输出；在所述的文本信息抽取模块中，使用模板匹配的信息抽取方法，以文本和该文本的类型作为输入，以结构化的信息作为输出。

2.根据权利要求1所述的一种基于层分类器和模板匹配的特定文本信息抽取方法，其特征在于，在所述文本分类模块中，包括了一个两层的层分类器和一个触发词词汇表，所述的层分类器对文本进行初步的分类，所述的触发词词汇表用来辅助层分类器进行分类。

3.根据权利要求2所述的一种基于层分类器和模板匹配的特定文本信息抽取方法，其特征在于，在所述的层分类器中，采用SVM分类器作为子分类器，SVM分类器的基本思想是在高维空间里构建出一个能够使其两侧的空白区域最大的最优超平面，即最大化分类间隔等价于最小化||w||²，因此，最优分类面问题可以表示成约束优化问题；假定训练数据(x₁,y₁)，……，(x_m,y_m)，y∈{+1,-1},x_i是训练实例，y_i是类别标签,可以被一个超平面w^T·x+b＝0分开，其中，w∈R^N为分离超平面的法向量，b∈R为分离超平面的截距，其算法的优化问题形式如下所示：

s.t.y_i((wIx_i)+b)≥1

根据拉格朗日乘子法和对偶理论可得如下对偶问题：

4.根据权利要求3所述的一种基于层分类器和模板匹配的特定文本信息抽取方法，其特征在于，所述的SVM分类器需先在不同的语料集上训练，得到几个参数不同的SVM分类器，然后以这几个SVM分类器作为输入，最后以一个层分类器作为输出；层分类器中的各个SVM分类器的参数采用为：误差项的惩罚参数为1.0，核函数采用的是线性核，文本向量采用的是TFIDF向量。

5.根据权利要求1所述的一种基于层分类器和模板匹配的特定文本信息抽取方法，其特征在于，在所述文本信息抽取模块中，针对所有的文本类型，采用一个共用的抽取模板进行文本信息抽取，针对每个文本类别采用不同的抽取模板进行文本信息抽取。

6.根据权利要求5所述的一种基于层分类器和模板匹配的特定文本信息抽取方法，其特征在于，文本信息抽取采用基于规则和语义树的方法，分别抽取特定文本信息，再使用模板对整个文本所有的信息进行整合，将分散的信息联系到一起。

7.根据权利要求6所述的一种基于层分类器和模板匹配的特定文本信息抽取方法，其特征在于，所述的基于规则的方法是采用基于触发词的规则匹配方法，根据特定的信息抽取要求，观察文本结构特征，制定规则库，然后在文本寻找中心触发词，并规定匹配窗口，将在匹配窗口范围内并符合抽取规则的信息抽取出来。

8.根据权利要求6所述的一种基于层分类器和模板匹配的特定文本信息抽取方法，其特征在于，所述的语义树的方法运用如下：首先是获取文本的语义依存分析或者依存句法分析；根据中文语法的特点，先找到触发词，然后分别找到触发词的相应的施事关系或者触发词的影响等，最后抽取出特定的信息。