CN113609838A

CN113609838A - 文档信息抽取及图谱化方法和***

Info

Publication number: CN113609838A
Application number: CN202110795366.2A
Authority: CN
Inventors: 牛硕硕; 王金华; 王盼盼; 李德启; 黄哲
Original assignee: CETC 32 Research Institute
Current assignee: CETC 32 Research Institute
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-11-05
Anticipated expiration: 2041-07-14
Also published as: CN113609838B

Abstract

本发明提供了一种文档信息抽取及图谱化方法和***，包括：步骤1：通过自然语言理解技术和自然语言处理技术，从词特征和依存句法树上获取文档的构词特征，并制定规则用模式匹配的方法进行实体抽取；步骤2：通过自然语言理解技术和自然语言处理技术，从词特征和依存句法树上获取文档的构词特征，并制定规则用模式匹配的方法进行关系和对应实体属性抽取；步骤3：对抽取的实体、关系及属性三元组进行图谱化，生成文档图谱。本发明能够基于句法语义规则对文档进行关系及属性抽取，无需采用机器学习的方法进行数据的标注和训练，提升了抽取效率，降低了抽取时的计算机资源消耗。

Description

文档信息抽取及图谱化方法和***

技术领域

本发明涉及自然语言理解与处理技术领域，具体地，涉及一种文档信息抽取及图谱化方法和***。尤其地，涉及一种基于句法语义规则的管理文档信息抽取及图谱化方法。

背景技术

随着信息和互联网时代的到来，信息资源建设成为当前军队信息化建设的核心内容，军事装备快速更新升级、军事组织机构和人员重新部署规划、军事战术推陈出新，军队项目建设和需求任务日益增多，要求军事信息自动化的程度进一步提高。

数据的精确分析在现代军事情报研究工作中的作用越来越突出，而大量的信息以电子文档的形式存在也为信息的抽取、数据的分析与知识图谱的构建提供了基础条件。军事信息自动化建设工作需要从军事电子资料中实时提取出文本中最有效的信息，并运用数据挖掘和自然语言处理技术，从海量信息中挖掘出有价值的军事信息，在整个作战范围内合理配置战场信息资源，为军队的决策者提供全面的数据评估、可靠的分析结果，协助决策者快速地做出决策。

军事需求文档，作为军事技术研究与项目管理实现的重要文档，承担着从需求概念落地到需求实现之间的桥梁作用。面对海量的需求文档，决策参谋人员迫切需要一些自动化工具，应用合适的抽取方法，从文本中快速进行实体、关系和属性的抽取来获取文档的总体需求，这种将由人工阅读提取转化成计算机自动提取的过程，能极大地提高工作效率。

现有的信息抽取技术大多依赖于深度学习的方法，这类方法一般需要耗费大量的人力、物力对数据进行预处理和标注，并消耗巨大的计算资源对模型进行训练。此外，现有的抽取对象往往是具体存在的实体，而军事领域的需求管理文档需要抽取的实体更多的是功能、概念、***描述、角色等虚概念，需要抽取的关系例如组成、包含、输入输出等也是比较抽象的关系概念。因此，对于军事需求管理文档的抽取亟待需要一些结合自然语言处理和词法句法语义特征的方法去制定规则，从语言构成的角度去抽取实体和关系属性，这既能一定程度减少数据标注过程带来的人力物力消耗，也能从语言构成本身出发去进行文本解析，可解释性强。

专利文献CN106874378A(申请号：CN201710006826.2)公开了一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法。然而该专利采用的是百科类的半结构化数据的抽取，它对词法句法语义等自然语言处理技术的依赖相对较弱。

专利文献CN108319586A(申请号：CN201810097357.4)公开了一种信息提取规则的生成和语义解析方法及装置。然而该专利无法对错误识别的实体词进行剪枝处理并获取实体词的分类，达到抽取军事需求文档实体词的目的。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种文档信息抽取及图谱化方法和***。

根据本发明提供的文档信息抽取及图谱化方法，包括：

步骤1：通过自然语言理解技术和自然语言处理技术，从词特征和依存句法树上获取文档的构词特征，并制定规则用模式匹配的方法进行实体抽取；

步骤2：通过自然语言理解技术和自然语言处理技术，从词特征和依存句法树上获取文档的构词特征，并制定规则用模式匹配的方法进行关系和对应实体属性抽取；

步骤3：对抽取的实体、关系及属性三元组进行图谱化，生成文档图谱。

优选的，所述步骤1包括：

步骤1.1：调用自然语言处理平台的词性标注服务，获取包括分词、词性标注、词长度、词偏移量、词位置的词法特征信息；

步骤1.2：调用自然语言处理平台的依存句法分析服务，对词法特征信息分析得到依存句法树信息，通过语言学中文构词分析得到复合名词实体；

步骤1.3：根据文档的实体词特点，以停用词和触发词的形式从依存句法树上对错误识别的实体词进行剪枝处理并获取实体词的分类，利用制定好的规则和加入的通用词及触发词进行实体抽取，得到实体抽取结果。

优选的，所述步骤2包括：

步骤2.1：调用自然语言处理平台的依存句法分析和语义角色标注服务对需求条目进行依存句法和语义角色的分析，得到依存句法分析和语义角色标注的结果；

步骤2.2：扫描条目获取关系词，将关系词映射到依存句法分析的核心词上，同时也映射到语义角色标注的谓词上；

步骤2.3：抽取出符合依存句法分析形成的逻辑表达式的实体和符合语义角色标注A0、A1与谓词之间的关系实体，作为关系抽取的三元组；

步骤2.4：调用自然语言处理平台的词性标注服务，获取词法特征信息；

步骤2.5：提取分词结果中的数词和量词，并匹配到数词和量词的属性值修饰词，将数词量词与该修饰词拼接形成属性值，作为属性抽取的触发条件；

步骤2.6：扫描并记录触发的属性值和对应属性信息，将扫描属性前最近的实体或者距离属性最近的修饰词前的实体作为属性实体对象，进行实体属性链接，形成最终的属性三元组。

优选的，所述步骤3包括：

步骤3.1：定义三元组的关系标签和实体标签；

步骤3.2：定义三元组的实体属性作为图谱中的节点属性，将关系词作为关系边中的属性存入图谱；

步骤3.3：将每个实体作为实例化对象中的子对象，以对象的方式将三元组存入neo4j图数据库中。

优选的，采用层级紧耦合的方式来进行信息的抽取和可视化，结合开源的自然语言处理平台，从词法、句法、语义上分析中文需求文档的构词特征，制定对应的信息抽取规则，利用Drools引擎进行规则维护，抽取出文档中的实体和关系属性，并图谱化形成知识图谱。

根据本发明提供的文档信息抽取及图谱化***，包括：

模块M1：通过自然语言理解技术和自然语言处理技术，从词特征和依存句法树上获取文档的构词特征，并制定规则用模式匹配的方法进行实体抽取；

模块M2：通过自然语言理解技术和自然语言处理技术，从词特征和依存句法树上获取文档的构词特征，并制定规则用模式匹配的方法进行关系和对应实体属性抽取；

模块M3：对抽取的实体、关系及属性三元组进行图谱化，生成文档图谱。

优选的，所述模块M1包括：

模块M1.1：调用自然语言处理平台的词性标注服务，获取包括分词、词性标注、词长度、词偏移量、词位置的词法特征信息；

模块M1.2：调用自然语言处理平台的依存句法分析服务，对词法特征信息分析得到依存句法树信息，通过语言学中文构词分析得到复合名词实体；

模块M1.3：根据文档的实体词特点，以停用词和触发词的形式从依存句法树上对错误识别的实体词进行剪枝处理并获取实体词的分类，利用制定好的规则和加入的通用词及触发词进行实体抽取，得到实体抽取结果。

优选的，所述模块M2包括：

模块M2.1：调用自然语言处理平台的依存句法分析和语义角色标注服务对需求条目进行依存句法和语义角色的分析，得到依存句法分析和语义角色标注的结果；

模块M2.2：扫描条目获取关系词，将关系词映射到依存句法分析的核心词上，同时也映射到语义角色标注的谓词上；

模块M2.3：抽取出符合依存句法分析形成的逻辑表达式的实体和符合语义角色标注A0、A1与谓词之间的关系实体，作为关系抽取的三元组；

模块M2.4：调用自然语言处理平台的词性标注服务，获取词法特征信息；

模块M2.5：提取分词结果中的数词和量词，并匹配到数词和量词的属性值修饰词，将数词量词与该修饰词拼接形成属性值，作为属性抽取的触发条件；

模块M2.6：扫描并记录触发的属性值和对应属性信息，将扫描属性前最近的实体或者距离属性最近的修饰词前的实体作为属性实体对象，进行实体属性链接，形成最终的属性三元组。

优选的，所述模块M3包括：

模块M3.1：定义三元组的关系标签和实体标签；

模块M3.2：定义三元组的实体属性作为图谱中的节点属性，将关系词作为关系边中的属性存入图谱；

模块M3.3：将每个实体作为实例化对象中的子对象，以对象的方式将三元组存入neo4j图数据库中。

与现有技术相比，本发明具有如下的有益效果：

(1)本发明能够基于句法语义规则对文档进行关系及属性抽取，无需采用机器学习的方法进行数据的标注和训练，提升了抽取效率，降低了抽取时的计算机资源消耗；

(2)本发明支持对文档抽取规则的灵活配置，从中文构词上进行实体抽取，可解释性强；

(3)本发明将抽取的实体、关系及属性组成三元组，并利用neo4j进行图谱化可以将需求文档中的文档层级结构、条目结构、功能、数据、角色等元素之间的关系清晰地展示出来，并且在此基础上进行条目的相似度计算、子图匹配、条目聚类、条目追踪等任务，这种将由人工阅读提取转化成计算机自动提取的过程，极大地提高了参谋人员挖掘和分析需求的效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为***结构图；

图2为需求知识图谱元数据模型图；

图3为需求知识图谱元数据定义实例图；

图4为依存句法树句子结构图；

图5为依存句法分析形成的逻辑规则表达式；

图6为三元组图谱化流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

本发明结合需求，对需求文档的条目化数据进行实体及关系属性抽取并导入图数据库进行存储和可视化，对底层的自然语言理解和自然语言处理技术进行了研究，结合开源的自然语言处理平台LTP从词法、句法、语义上分析了中文需求文档的构词特征，制定了对应的信息抽取规则，利用Drools引擎进行规则维护，抽取出了需求文档中的实体和关系属性，并图谱化形成需求知识图谱。

根据本发明提供的基于句法语义规则的需求管理文档信息抽取及图谱化方法，包括如下步骤：

步骤1：基于句法语义规则的需求管理文档实体抽取

基于句法语义规则的需求管理文档实体抽取是一种以自然语言理解和自然语言处理技术为基础，从词特征和依存句法树上获取需求文档的构词特征，并制定规则用模式匹配的方法进行实体抽取。

本方法包括如下步骤：

步骤1.1：调用自然语言处理平台(LTP)的词性标注服务，获取分词、词性标注、词长度、词偏移量、词位置等词法特征信息。其中LTP的词性标注采用国家863标注体系，共包含28类中文词性。

步骤1.2：调用LTP的依存句法分析服务，通过依存句法分析得到的依存句法树信息，通过语言学中文构词的分析，得到NP和VP形式的复合名词实体，也就是中文baseNP。NP和VP的词组合是由LTP分词后得到的词的组合，根据词组合长度的不同，将规则放在5个drl文件中。由此，根据语言学分析，一共得到了158条NP和VP构词结构的规则。在规则匹配的基础上，同时也会加入需求文档的实体词典，用以人工优化和提高实体抽取的准确率和召回率。

步骤1.3：针对需求文档的实体词特点，以停用词和触发词的形式从依存句法树上对错误识别的实体词进行剪枝处理并获取实体词的分类。最后，利用已经制定好的规则和加入的通用词及触发词进行实体抽取，获取需求条目的实体抽取结果。

步骤2：基于句法语义规则的需求管理文档关系及属性抽取

基于句法语义规则的需求管理文档关系及属性抽取也是一种以自然语言理解和自然语言处理技术为基础，从词特征和依存句法树上获取需求文档的构词特征，并制定规则用模式匹配的方法进行关系和对应实体属性抽取的方法。

本方法包括如下步骤：

步骤2.1：调用自然语言处理平台(LTP)的依存句法分析和语义角色标注服务对需求条目进行依存句法和语义角色的分析。

步骤2.2：得到依存句法分析和语义角色标注的结果后，会首先扫描条目，找到句子中的关系。其中，根据语言学分析，关系抽取一共得到了266个关系词。之后将这些关系词映射到依存句法分析的HED核心词上，同时也映射到语义角色标注的谓词上。

步骤2.3：抽取出符合依存句法分析形成的逻辑表达式的实体和符合语义角色标注A0、A1与谓词之间的关系实体作为关系抽取的三元组。

步骤2.4：基于句法语义规则的需求管理文档属性抽取方法首先也会调用自然语言处理平台(LTP)的词性标注服务，获取分词、词性标注、词长度、词偏移量、词位置等词法特征信息。

步骤2.5：找到分词结果中的数词和量词，并匹配到数词和量词之前例如“不少于”、“等于”、“不低于”等属性值修饰词，将数词量词与该修饰语拼接形成属性值，作为属性抽取的触发条件。之后，记录下属性值的位置，向前扫描句子，如果扫描到需求文档定义的属性词(按照元模型的定义，一共产生了56个属性词)，将它作为属性记录下来。

步骤2.6：记录下属性值和对应的属性信息，继续前向扫描句子，扫描属性前最近的实体或者找到距离属性最近的修饰语前的实体作为属性实体对象，进行实体属性链接，形成最终的属性三元组。

步骤3：需求文档的图谱生成

需求文档的图谱生成方法是对生成的实体、关系及属性三元组进行图谱化的过程。生成的图谱可以将需求文档中的文档层级结构、条目结构、功能、数据、角色等元素之间的关系可视化展示出来。同时利用图谱形成的知识库，还可以在此基础上进行条目的相似度计算、子图匹配、条目聚类、条目追踪等任务。

图谱的存储和可视化使用的是主流的neo4j图数据库，neo4j是一个高性能的NOSQL图形数据库，neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。可以在一个面向对象的、灵活的网络结构中对图结构的节点和边进行操作。

本方法包括如下步骤：

步骤3.1：根据需求文档抽取的元模型，定义7种关系类型，这7种关系类型也就是对应的7种三元组。在三元组的导入过程中，会将每个三元组看作一个实例化的关系对象，一种关系作为一个关系标签，一种实体类别作为一个实体标签。

步骤3.2：模型中定义的实体属性，作为图谱中节点的属性存入，关系词作为关系边中的属性存入图谱中。

步骤3.3：将每个实体看作这个实例化对象中的子对象。以对象的方式，将三元组存入neo4j图数据库中。

本发明采用层级紧耦合的方式来进行信息的抽取和可视化，自底向上分别是数据资源层、服务层和应用层。体系结构图如图1所示。

如图2，是需求知识图谱元数据模型示意图。图中，关系主要有7种，分别是编配/分配关系、类型关系、构成关系、集合关系、流程关系、输入关系和输出关系。实体类别有6种，分别是功能、***/软件、信息/数据、运行***、角色、组织。

如图3，是需求知识图谱元模型的一个定义实例。

如图4，是调用依存句法分析服务得到的一个条目实例的依存句法树的句子结构图。从图中右半部分可以清楚地看出，遍历一个条目句子，在自底向上到root的过程中，句子中的NP和VP结构就是实际上需求文档中需要抽取的实体复合词结果。

如图5，是利用依存句法分析形成的逻辑规则表达式，这个表达式就是利用依存句法分析的方法得到的三元组抽取的规则表达式，利用这些规则表达式，可以实现关系抽取。

如图6，是三元组图谱化的具体流程图。

实施例2：

实施例2为实施例1的优选例。

根据本发明提供的基于句法语义规则的需求管理文档实体抽取方法，包括：

baseNP：简单的非嵌套名词短语——Church于1988年在英语中首次提出。中文非嵌套名词性短语和英文有所不同，中文的baseNP(基本实体名词)形式化描述分为4类：

1.baseNP→baseNP+baseNP

2.baseNP→baseNP+名词/动名词

3.baseNP→baseNP+名词/动名词

4.baseNP→baseNP+名词/动名词

其中限定性定语包括：形容词|区别词|副词|动词|名词|处所词|英文词|数词|量词|。

从词特征和依存句法树上获取需求文档的构词特征，并制定规则用模式匹配的方法进行实体抽取。这个过程实际上就是从依存句法树上遍历所有的NP和VP型短语构成中文baseNP的过程。

利用基本模板对输入的条目文本进行baseNP规则分析，得到baseNP的候选集合，规则的匹配过程如下(即：形式化的过程利用了规则抽取实体的规则要素)：

1.输入条目文本中的每个单词记作w_i，其词性经LTP的词性标注以后记作t_i，这样，输入条目可以表示成如下一个符号串：

w₁|t₁,w₂|t₂,w₃|t₃,…,w_i|t_i,…,w_j|t_j,…，w_N|t_N

2.如果在所有的158条规则中，存在一条这样的规则：

w_i|t_i，…，w_j|t_j—>baseNP

上述规则中0≤i≤j，表示过程1中的一个片段符合baseNP中NP或者VP的组成规则。

3.将条目中扫描到的符合上下文无关规则的字符串输出作为实体抽取的结果。

在中文里，有一些特殊动词，如形式动词、助动词、系动词等等。一般情况下，这些动词不能作为基本名词短语中的用词，我们在候选的基本名词短语中如果发现了这些词在其中使用，则不将它加入到候选的基本名词短语中。

常见的形式动词有：给以、给予、进行、有、可以；

常见的助动词有：当、该、得、敢、敢于、会、可、可能、可以、肯、乐意、能、能够、让、容许、希望、想、要、应当、愿、愿意、允许、自愿；

常见的系动词有：称、等于、称呼、成为、充当、当、当做、叫、是、算、算作、通称、统称、为、自称、作为。

依存句法分析：依存语法用来揭示自然句中的句法结构，它是通过分析语言单位内成分之间的依存关系来获取的。通俗来说，依存句法分析就是通过分析语句中各结构成分之间的关系，找出语句中“主谓宾定状补”这些文法的表达方式。

语义角色标注：从自然语句中标注出句子中谓词的语义成分(语义角色)，如时间、地点、施事者、受事者、原因、结果等，它是一种浅层的语义分析技术。核心的语义角色有A0，A1、A2、A3、A4、A5六种，AO表示语义角色中动作的施事方，A1表示谓词动作所带来的影响。A2-A5则比较灵活，会根据谓词的不同被赋予不同的语义含义。在关系抽取中会重点考虑A0、A1与谓词之间的关系，从而形成关系抽取的三元组，除了核心语义角色，还有15种语义角色为附加语义角色，例如LOC、TMP，分别表示地点和时间。

依存树的5个条件：

1.单纯的结点条件：句子中只存在终结结点，不存在非终结结点；

2.单一父结点条件：除根结点外，其他结点都只存在一个父点；

3.跟结点独立条件：一棵依存树中只存在一个跟结点；

4.非交条件：依存树的树枝不存在相交的情况；

5.互斥条件：从左到右的前于关系和从上到下的支配关系之间是相互排斥的，结点间只有前于关系或者支配关系的其中一种。

利用依存句法分析和语义角色标注，对条目进行处理，之后解析规则库，依存句法分析的规则库如图5所示，语义角色标注的规则就是以谓词为核心遍历施事角色A0和受事角色A1，从而形成关系三元组。

首先会调用自然语言处理平台(LTP)的词性标注服务，获取分词、词性标注、词长度、词偏移量、词位置等词法特征信息。然后找到条目分词结果中的数词和量词作为属性抽取的触发条件，之后向前遍历，与元模型定义的属性词库进行匹配，找出属性词，从而得到属性三元组中的属性，最后将属性和属性值链在对应的实体上形成需求条目的属性三元组。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的***、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种文档信息抽取及图谱化方法，其特征在于，包括：

2.根据权利要求1所述的文档信息抽取及图谱化方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述的文档信息抽取及图谱化方法，其特征在于，所述步骤2包括：

4.根据权利要求1所述的文档信息抽取及图谱化方法，其特征在于，所述步骤3包括：

步骤3.1：定义三元组的关系标签和实体标签；

5.根据权利要求1所述的文档信息抽取及图谱化方法，其特征在于，采用层级紧耦合的方式来进行信息的抽取和可视化，结合开源的自然语言处理平台，从词法、句法、语义上分析中文需求文档的构词特征，制定对应的信息抽取规则，利用Drools引擎进行规则维护，抽取出文档中的实体和关系属性，并图谱化形成知识图谱。

6.一种文档信息抽取及图谱化***，其特征在于，包括：

7.根据权利要求6所述的文档信息抽取及图谱化***，其特征在于，所述模块M1包括：

8.根据权利要求6所述的文档信息抽取及图谱化***，其特征在于，所述模块M2包括：

9.根据权利要求6所述的文档信息抽取及图谱化***，其特征在于，所述模块M3包括：

模块M3.1：定义三元组的关系标签和实体标签；

10.根据权利要求6所述的文档信息抽取及图谱化***，其特征在于，采用层级紧耦合的方式来进行信息的抽取和可视化，结合开源的自然语言处理平台，从词法、句法、语义上分析中文需求文档的构词特征，制定对应的信息抽取规则，利用Drools引擎进行规则维护，抽取出文档中的实体和关系属性，并图谱化形成知识图谱。