CN108920465A

CN108920465A - 一种基于句法语义的农业领域关系抽取方法

Info

Publication number: CN108920465A
Application number: CN201810766657.7A
Authority: CN
Inventors: 陈星�; 陈艺燕; 戴远飞; 郭晨皓; 张祖文
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2018-11-30

Abstract

本发明涉及一种基于句法语义的农业领域关系抽取方法，首先从农业专业网站爬取农业知识相关的文本。将收集得到的文本进行整理，去除掉无关文本，得到就是与农业领域相关的文本。结合事先确定的关系种类，对农业领域文本进行人工标注，构建农业领域的语料库。根据确定好的特征种类对文本进行特征抽取，构建特征向量。最后使用SVM对分类器进行建模，得到面向农业领域的关系分类模型。本发明有较好的抽取效果。

Description

一种基于句法语义的农业领域关系抽取方法

技术领域

本发明涉及自然语言处理领域，特别是一种基于句法语义的农业领域关系抽取方法。

背景技术

“大数据”和“互联网+”正在高速发展，农业信息数据呈几何式增长，中国农业网站的数量异常庞大，发展的速度是非常迅猛的。如此大量的数字化农业知识让人们应接不暇，依靠搜索引擎得到的结果大多以非结构化的形式存在，用户还需要进一步理解和筛选。在这种背景下，自然语言处理领域的信息抽取作为一种帮助人们精简信息的技术正在被广泛应用。信息抽取的目的是从非结构化文本抽取结构化或者半结构化信息，并存储在在数据库中方便用户查询，以期进一步分析和利用。关系抽取作为信息抽取领域的重要研究课题，其主要的目的是抽取句子中已标记的实体对之间的语义关系，即在实体识别的基础上确定物结构文本中实体对间的关系类别，并形成结构化的数据以便于存储和取用，例如，“<e1>鳄梨</e1>原产于<e2>中美洲</e2>，为人所知已有好几个世纪了。”，面向农业领域的关系抽取***能自动识别实体“鳄梨”和“中美洲”的关系是原产地关系。关系抽取的技术突破了传统的必须经过人工阅读、理解的方式来获得语义关系的限制，取而代之的是语义关系的自动查找。从用户的需求层面看，关系抽取是以小粒度的文本句子中挖掘出用户所需要的语义关系信息，给用户提供更精细的服务。

关系提取在许多自然语言处理任务中起着重要的作用，如知识图谱，问答***等。到目前为止，之前的许多关系抽取方法直接作用于原始的词序列或者独热码，所以它经常受到缺乏语义信息的限制，这使得在进行分类时容易出现错误的判断。

发明内容

有鉴于此，本发明的目的是提出一种基于句法语义的农业领域关系抽取方法，对农业领域的文本有较好的抽取效果。

本发明采用以下方案实现：一种基于句法语义的农业领域关系抽取方法，具体包括以下步骤：

步骤S1：从农业专业网站爬取农业知识相关文本，并构建农业领域的语料库；

步骤S2：抽取有效表达实体关系的特征，所述特征包括实体内容特征、词性特征、实体上下文内容特征，上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征；

步骤S3：将步骤S2抽取得到的特征数字化，构造特征向量；

步骤S4：采用支持向量机SVM算法进行模型的训练；

步骤S5：利用训练后的模型进行关系抽取测试。

进一步地，步骤S1具体包括以下步骤：

步骤S11：对农业文本的关系定义为7类：别名、原产地、成分、子类、荣誉称号、价值和其他；

步骤S12：爬取农业类专业网站的词条，并对爬取到的词条做交集处理，根据词条爬取互动百科上相应的农业数据；

步骤S13：对原始文本进行统一编码处理并分句，对其中的标点符号统一处理为中文格式，最后对文本进行分词处理；

步骤S14：对分词处理后的文本标注出实体，对句子中出现的所有实体进行两两组合，构造得到实体对；

步骤S15：对步骤S14得到的实体对，判断其在文本中体现出来的关系并进行关系的标注，构造出三元组(Entity1,Entity2,Relation)；

步骤S16：重复步骤S13至步骤S15，得到所有句子及句子中所有的三元组，即构造完农业领域的语料库。

进一步地，步骤S2中，各个特征的抽取方法为：

实体内容特征抽取：选取一个已经训练好的词向量，通过查找词嵌入将每个输入的词映射到稠密向量中；一个由n个词组成的实体表示为Entity＝{W₁，W₂，....，W_n}；对于n大于1的实体，表示该实体不止由一个词组成；

词性特征抽取：一个由n个词组成的实体表示为Entity＝{W₁，W₂，....，W_n}，一个实体为单个或多个词组成，选择最后一个词词性代表这个实体的词性；具体操作如下：调用jieba对句子做词性标注；对实体Entity进行分词，分词结果记为{W₁，W₂，....，W_n}；选取实体分析后的最后一个词W_n，在词性标注的结果中查找Wn的词性作为词性特征；

上文词内容特征抽取：首先，对于句子S表示为S＝{w₁,w₂,...,w_pre,entity,w_post,...,w_m}，抽取实体entity左边的词w_pre，查找词w_pre对应的词嵌入作为上文内容；

上文词性特征抽取：查找所述词性特征抽取中词性标注的结果中上文的词性；

下文词内容特征抽取：首先，对于句子S表示为S＝{w₁,w₂,...,w_pre,entity,w_post,...,w_m}，抽取实体entity右边的词w_post，查找词w_post对应的词嵌入作为下文内容；

下文词性特征：查找所述词性特征抽取中词性标注的结果中下文的词性；

命名实体特征抽取：对句子使用命名实体进行标注，查找实体对应的命名实体类型，由于实体是由多个词组成{W₁，W₂，....，W_n}，取最后一个词W_n的实体类型代表整个实体的类型；

父节点内容特征：对句子进行依存句法分析，在分析结果中查找实体{W₁，W₂，....，W_n}中W_n对应的父节点w_sup，查找词w_sup对应的词嵌入作为父节点内容。

进一步地，步骤S3具体包括以下步骤：

步骤S31：构造一个Python上的list用来存储步骤S2抽取出来的特征；

步骤S32：按顺序存储实体内容特征对应的60维词向量，词性特征用一维来表示，上文词内容特征同样为对应的60维向量，上文词性特征一维，下文词内容特征同样为60维的词嵌入，下文词性特征一维，命名实体特征一维，父节点内容特征60维词嵌入；以上为一个实体的全部特征向量；

步骤S33：对三元组(Entity1,Entity2,Relation)中的Entity1、Entity2都进行步骤S32，并构成(Entity1Vec,Entity2Vec,Relation)形式的Vec_list；

步骤S34：将步骤S33得到的Vec_list使用Python中的标准模块pickle实现数据的序列化，并将序列化后的对象obj以二进制的形式写入文件Vec。

进一步地，步骤S4具体包括以下步骤：

步骤S41：读取步骤S34中存储的文件Vec，利用pickle.load()函数加载文件内容，将序列化的对象obj从文件中读取出来；

步骤S42：利用Python的标准包numpy对向量进行矩阵操作；

步骤S43：对语料库进行随机划分，令训练集和测试集的比例为8:2；

步骤S44：选择linear作为核函数，将惩罚因子设置为0.05；

步骤S45：对模型进行训练和测试；

步骤S46：保存训练后的模型。

与现有技术相比，本发明有以下有益效果：采用本发明方法训练出来的分类器，在测试集上的F1值达到了百分之99，对农业领域上的文本能够准确地进行关系抽取。

附图说明

图1为本发明实施例的方法流程示意图。

图2为本发明实施例的语料库构建流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于句法语义的农业领域关系抽取方法，具体包括以下步骤：

步骤S3：将步骤S2抽取得到的特征数字化，构造特征向量；

步骤S4：采用支持向量机SVM算法进行模型的训练；

步骤S5：利用训练后的模型进行关系抽取测试。

在本实施例中，如图2所示，步骤S1具体包括以下步骤：

步骤S12：爬取农业类专业网站(例如中国农业信息等专业网站)的词条，并对爬取到的词条做交集处理，根据词条爬取互动百科上相应的农业数据；

步骤S13：搜集得到的文本都是无结构的自然语言形式的自由文本，其中不乏长句，并列句等。对原始文本进行统一编码处理并分句，对其中的标点符号统一处理为中文格式，最后对文本进行分词处理；

语料库是本实施例中最为基础和重要部分，语料的质量对识别效果具有很大的影响。本实施例从一些正规的网站中获取与农业信息有关的信息，经过分析和整理之后进行标注。

步骤S2中，本实施例采用基于特征向量的机器学习方法来进行关系抽取。机器学习算法采用特征向量作为处理对象，所以需要将实验语料处理成特征向量的形式，然后才能用于各种机器学习算法。具体到关系抽取上来说，如何获取有效表达实体关系实例的特征是关键。本实施例采用的特征包括语义、词性、句法分析结果等，将语言信息和文本的结构信息充分结合起来。

具体的，步骤S2中，各个特征的抽取方法为：

父节点内容特征：调用stanfordcore nlp工具中dependency_parse对句子进行依存句法分析，在分析结果中查找实体{W₁，W₂，....，W_n}中W_n对应的父节点w_sup，查找词w_sup对应的词嵌入作为父节点内容。

本实施例采用基于特征向量的机器学习方法来进行关系抽取。机器学习算法采用特征向量作为处理对象，所以需要将实验语料处理成特征向量的形式，然后才能用于各种机器学习算法。于是这部分工作就是将上述步骤中抽取得到的特征将其数字化，构造特征向量。

具体的，步骤S3具体包括以下步骤：

在本实施例中，步骤S4具体包括以下步骤：

步骤S42：利用Python的标准包numpy对向量进行矩阵操作；令vec＝np.array(1)；

步骤S43：对语料库进行随机划分，令训练集和测试集的比例为8:2：train_x,test_x,train_y,test_y＝train_test_split(x,y,test_size＝0.2)；

步骤S44：选择linear作为核函数，将惩罚因子设置为0.05；

步骤S45：对模型进行训练和测试；

步骤S46：保存训练后的模型，joblib.dump(clf,"train_model.m")。

本实施例通过在对农业文本的收集、筛选和人工标注的基础上提出了在农业领域的关系数据集，下表给出了本实施例模型的测试全部结果，由下表可以看出，本实施例训练出来的模型，在测试集上的F1值达到了百分之99，对农业领域的文本有较好的关系抽取效果。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于句法语义的农业领域关系抽取方法，其特征在于：包括以下步骤：

步骤S3：将步骤S2抽取得到的特征数字化，构造特征向量；

步骤S4：采用支持向量机SVM算法进行模型的训练；

步骤S5：利用训练后的模型进行关系抽取测试。

2.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法，其特征在于：步骤S1具体包括以下步骤：

3.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法，其特征在于：步骤S2中，各个特征的抽取方法为：

4.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法，其特征在于：步骤S3具体包括以下步骤：

5.根据权利要求4所述的一种基于句法语义的农业领域关系抽取方法，其特征在于：步骤S4具体包括以下步骤：

步骤S42：利用Python的标准包numpy对向量进行矩阵操作；

步骤S44：选择linear作为核函数，将惩罚因子设置为0.05；

步骤S45：对模型进行训练和测试；

步骤S46：保存训练后的模型。