CN113609838A - 文档信息抽取及图谱化方法和*** - Google Patents

文档信息抽取及图谱化方法和*** Download PDF

Info

Publication number
CN113609838A
CN113609838A CN202110795366.2A CN202110795366A CN113609838A CN 113609838 A CN113609838 A CN 113609838A CN 202110795366 A CN202110795366 A CN 202110795366A CN 113609838 A CN113609838 A CN 113609838A
Authority
CN
China
Prior art keywords
entity
word
attribute
document
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110795366.2A
Other languages
English (en)
Other versions
CN113609838B (zh
Inventor
牛硕硕
王金华
王盼盼
李德启
黄哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 32 Research Institute
Original Assignee
CETC 32 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 32 Research Institute filed Critical CETC 32 Research Institute
Priority to CN202110795366.2A priority Critical patent/CN113609838B/zh
Publication of CN113609838A publication Critical patent/CN113609838A/zh
Application granted granted Critical
Publication of CN113609838B publication Critical patent/CN113609838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文档信息抽取及图谱化方法和***,包括:步骤1:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行实体抽取;步骤2:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行关系和对应实体属性抽取;步骤3:对抽取的实体、关系及属性三元组进行图谱化,生成文档图谱。本发明能够基于句法语义规则对文档进行关系及属性抽取,无需采用机器学习的方法进行数据的标注和训练,提升了抽取效率,降低了抽取时的计算机资源消耗。

Description

文档信息抽取及图谱化方法和***
技术领域
本发明涉及自然语言理解与处理技术领域,具体地,涉及一种文档信息抽取及图谱化方法和***。尤其地,涉及一种基于句法语义规则的管理文档信息抽取及图谱化方法。
背景技术
随着信息和互联网时代的到来,信息资源建设成为当前军队信息化建设的核心内容,军事装备快速更新升级、军事组织机构和人员重新部署规划、军事战术推陈出新,军队项目建设和需求任务日益增多,要求军事信息自动化的程度进一步提高。
数据的精确分析在现代军事情报研究工作中的作用越来越突出,而大量的信息以电子文档的形式存在也为信息的抽取、数据的分析与知识图谱的构建提供了基础条件。军事信息自动化建设工作需要从军事电子资料中实时提取出文本中最有效的信息,并运用数据挖掘和自然语言处理技术,从海量信息中挖掘出有价值的军事信息,在整个作战范围内合理配置战场信息资源,为军队的决策者提供全面的数据评估、可靠的分析结果,协助决策者快速地做出决策。
军事需求文档,作为军事技术研究与项目管理实现的重要文档,承担着从需求概念落地到需求实现之间的桥梁作用。面对海量的需求文档,决策参谋人员迫切需要一些自动化工具,应用合适的抽取方法,从文本中快速进行实体、关系和属性的抽取来获取文档的总体需求,这种将由人工阅读提取转化成计算机自动提取的过程,能极大地提高工作效率。
现有的信息抽取技术大多依赖于深度学习的方法,这类方法一般需要耗费大量的人力、物力对数据进行预处理和标注,并消耗巨大的计算资源对模型进行训练。此外,现有的抽取对象往往是具体存在的实体,而军事领域的需求管理文档需要抽取的实体更多的是功能、概念、***描述、角色等虚概念,需要抽取的关系例如组成、包含、输入输出等也是比较抽象的关系概念。因此,对于军事需求管理文档的抽取亟待需要一些结合自然语言处理和词法句法语义特征的方法去制定规则,从语言构成的角度去抽取实体和关系属性,这既能一定程度减少数据标注过程带来的人力物力消耗,也能从语言构成本身出发去进行文本解析,可解释性强。
专利文献CN106874378A(申请号:CN201710006826.2)公开了一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法。然而该专利采用的是百科类的半结构化数据的抽取,它对词法句法语义等自然语言处理技术的依赖相对较弱。
专利文献CN108319586A(申请号:CN201810097357.4)公开了一种信息提取规则的生成和语义解析方法及装置。然而该专利无法对错误识别的实体词进行剪枝处理并获取实体词的分类,达到抽取军事需求文档实体词的目的。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种文档信息抽取及图谱化方法和***。
根据本发明提供的文档信息抽取及图谱化方法,包括:
步骤1:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行实体抽取;
步骤2:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行关系和对应实体属性抽取;
步骤3:对抽取的实体、关系及属性三元组进行图谱化,生成文档图谱。
优选的,所述步骤1包括:
步骤1.1:调用自然语言处理平台的词性标注服务,获取包括分词、词性标注、词长度、词偏移量、词位置的词法特征信息;
步骤1.2:调用自然语言处理平台的依存句法分析服务,对词法特征信息分析得到依存句法树信息,通过语言学中文构词分析得到复合名词实体;
步骤1.3:根据文档的实体词特点,以停用词和触发词的形式从依存句法树上对错误识别的实体词进行剪枝处理并获取实体词的分类,利用制定好的规则和加入的通用词及触发词进行实体抽取,得到实体抽取结果。
优选的,所述步骤2包括:
步骤2.1:调用自然语言处理平台的依存句法分析和语义角色标注服务对需求条目进行依存句法和语义角色的分析,得到依存句法分析和语义角色标注的结果;
步骤2.2:扫描条目获取关系词,将关系词映射到依存句法分析的核心词上,同时也映射到语义角色标注的谓词上;
步骤2.3:抽取出符合依存句法分析形成的逻辑表达式的实体和符合语义角色标注A0、A1与谓词之间的关系实体,作为关系抽取的三元组;
步骤2.4:调用自然语言处理平台的词性标注服务,获取词法特征信息;
步骤2.5:提取分词结果中的数词和量词,并匹配到数词和量词的属性值修饰词,将数词量词与该修饰词拼接形成属性值,作为属性抽取的触发条件;
步骤2.6:扫描并记录触发的属性值和对应属性信息,将扫描属性前最近的实体或者距离属性最近的修饰词前的实体作为属性实体对象,进行实体属性链接,形成最终的属性三元组。
优选的,所述步骤3包括:
步骤3.1:定义三元组的关系标签和实体标签;
步骤3.2:定义三元组的实体属性作为图谱中的节点属性,将关系词作为关系边中的属性存入图谱;
步骤3.3:将每个实体作为实例化对象中的子对象,以对象的方式将三元组存入neo4j图数据库中。
优选的,采用层级紧耦合的方式来进行信息的抽取和可视化,结合开源的自然语言处理平台,从词法、句法、语义上分析中文需求文档的构词特征,制定对应的信息抽取规则,利用Drools引擎进行规则维护,抽取出文档中的实体和关系属性,并图谱化形成知识图谱。
根据本发明提供的文档信息抽取及图谱化***,包括:
模块M1:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行实体抽取;
模块M2:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行关系和对应实体属性抽取;
模块M3:对抽取的实体、关系及属性三元组进行图谱化,生成文档图谱。
优选的,所述模块M1包括:
模块M1.1:调用自然语言处理平台的词性标注服务,获取包括分词、词性标注、词长度、词偏移量、词位置的词法特征信息;
模块M1.2:调用自然语言处理平台的依存句法分析服务,对词法特征信息分析得到依存句法树信息,通过语言学中文构词分析得到复合名词实体;
模块M1.3:根据文档的实体词特点,以停用词和触发词的形式从依存句法树上对错误识别的实体词进行剪枝处理并获取实体词的分类,利用制定好的规则和加入的通用词及触发词进行实体抽取,得到实体抽取结果。
优选的,所述模块M2包括:
模块M2.1:调用自然语言处理平台的依存句法分析和语义角色标注服务对需求条目进行依存句法和语义角色的分析,得到依存句法分析和语义角色标注的结果;
模块M2.2:扫描条目获取关系词,将关系词映射到依存句法分析的核心词上,同时也映射到语义角色标注的谓词上;
模块M2.3:抽取出符合依存句法分析形成的逻辑表达式的实体和符合语义角色标注A0、A1与谓词之间的关系实体,作为关系抽取的三元组;
模块M2.4:调用自然语言处理平台的词性标注服务,获取词法特征信息;
模块M2.5:提取分词结果中的数词和量词,并匹配到数词和量词的属性值修饰词,将数词量词与该修饰词拼接形成属性值,作为属性抽取的触发条件;
模块M2.6:扫描并记录触发的属性值和对应属性信息,将扫描属性前最近的实体或者距离属性最近的修饰词前的实体作为属性实体对象,进行实体属性链接,形成最终的属性三元组。
优选的,所述模块M3包括:
模块M3.1:定义三元组的关系标签和实体标签;
模块M3.2:定义三元组的实体属性作为图谱中的节点属性,将关系词作为关系边中的属性存入图谱;
模块M3.3:将每个实体作为实例化对象中的子对象,以对象的方式将三元组存入neo4j图数据库中。
优选的,采用层级紧耦合的方式来进行信息的抽取和可视化,结合开源的自然语言处理平台,从词法、句法、语义上分析中文需求文档的构词特征,制定对应的信息抽取规则,利用Drools引擎进行规则维护,抽取出文档中的实体和关系属性,并图谱化形成知识图谱。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明能够基于句法语义规则对文档进行关系及属性抽取,无需采用机器学习的方法进行数据的标注和训练,提升了抽取效率,降低了抽取时的计算机资源消耗;
(2)本发明支持对文档抽取规则的灵活配置,从中文构词上进行实体抽取,可解释性强;
(3)本发明将抽取的实体、关系及属性组成三元组,并利用neo4j进行图谱化可以将需求文档中的文档层级结构、条目结构、功能、数据、角色等元素之间的关系清晰地展示出来,并且在此基础上进行条目的相似度计算、子图匹配、条目聚类、条目追踪等任务,这种将由人工阅读提取转化成计算机自动提取的过程,极大地提高了参谋人员挖掘和分析需求的效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为***结构图;
图2为需求知识图谱元数据模型图;
图3为需求知识图谱元数据定义实例图;
图4为依存句法树句子结构图;
图5为依存句法分析形成的逻辑规则表达式;
图6为三元组图谱化流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
本发明结合需求,对需求文档的条目化数据进行实体及关系属性抽取并导入图数据库进行存储和可视化,对底层的自然语言理解和自然语言处理技术进行了研究,结合开源的自然语言处理平台LTP从词法、句法、语义上分析了中文需求文档的构词特征,制定了对应的信息抽取规则,利用Drools引擎进行规则维护,抽取出了需求文档中的实体和关系属性,并图谱化形成需求知识图谱。
根据本发明提供的基于句法语义规则的需求管理文档信息抽取及图谱化方法,包括如下步骤:
步骤1:基于句法语义规则的需求管理文档实体抽取
基于句法语义规则的需求管理文档实体抽取是一种以自然语言理解和自然语言处理技术为基础,从词特征和依存句法树上获取需求文档的构词特征,并制定规则用模式匹配的方法进行实体抽取。
本方法包括如下步骤:
步骤1.1:调用自然语言处理平台(LTP)的词性标注服务,获取分词、词性标注、词长度、词偏移量、词位置等词法特征信息。其中LTP的词性标注采用国家863标注体系,共包含28类中文词性。
步骤1.2:调用LTP的依存句法分析服务,通过依存句法分析得到的依存句法树信息,通过语言学中文构词的分析,得到NP和VP形式的复合名词实体,也就是中文baseNP。NP和VP的词组合是由LTP分词后得到的词的组合,根据词组合长度的不同,将规则放在5个drl文件中。由此,根据语言学分析,一共得到了158条NP和VP构词结构的规则。在规则匹配的基础上,同时也会加入需求文档的实体词典,用以人工优化和提高实体抽取的准确率和召回率。
步骤1.3:针对需求文档的实体词特点,以停用词和触发词的形式从依存句法树上对错误识别的实体词进行剪枝处理并获取实体词的分类。最后,利用已经制定好的规则和加入的通用词及触发词进行实体抽取,获取需求条目的实体抽取结果。
步骤2:基于句法语义规则的需求管理文档关系及属性抽取
基于句法语义规则的需求管理文档关系及属性抽取也是一种以自然语言理解和自然语言处理技术为基础,从词特征和依存句法树上获取需求文档的构词特征,并制定规则用模式匹配的方法进行关系和对应实体属性抽取的方法。
本方法包括如下步骤:
步骤2.1:调用自然语言处理平台(LTP)的依存句法分析和语义角色标注服务对需求条目进行依存句法和语义角色的分析。
步骤2.2:得到依存句法分析和语义角色标注的结果后,会首先扫描条目,找到句子中的关系。其中,根据语言学分析,关系抽取一共得到了266个关系词。之后将这些关系词映射到依存句法分析的HED核心词上,同时也映射到语义角色标注的谓词上。
步骤2.3:抽取出符合依存句法分析形成的逻辑表达式的实体和符合语义角色标注A0、A1与谓词之间的关系实体作为关系抽取的三元组。
步骤2.4:基于句法语义规则的需求管理文档属性抽取方法首先也会调用自然语言处理平台(LTP)的词性标注服务,获取分词、词性标注、词长度、词偏移量、词位置等词法特征信息。
步骤2.5:找到分词结果中的数词和量词,并匹配到数词和量词之前例如“不少于”、“等于”、“不低于”等属性值修饰词,将数词量词与该修饰语拼接形成属性值,作为属性抽取的触发条件。之后,记录下属性值的位置,向前扫描句子,如果扫描到需求文档定义的属性词(按照元模型的定义,一共产生了56个属性词),将它作为属性记录下来。
步骤2.6:记录下属性值和对应的属性信息,继续前向扫描句子,扫描属性前最近的实体或者找到距离属性最近的修饰语前的实体作为属性实体对象,进行实体属性链接,形成最终的属性三元组。
步骤3:需求文档的图谱生成
需求文档的图谱生成方法是对生成的实体、关系及属性三元组进行图谱化的过程。生成的图谱可以将需求文档中的文档层级结构、条目结构、功能、数据、角色等元素之间的关系可视化展示出来。同时利用图谱形成的知识库,还可以在此基础上进行条目的相似度计算、子图匹配、条目聚类、条目追踪等任务。
图谱的存储和可视化使用的是主流的neo4j图数据库,neo4j是一个高性能的NOSQL图形数据库,neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。可以在一个面向对象的、灵活的网络结构中对图结构的节点和边进行操作。
本方法包括如下步骤:
步骤3.1:根据需求文档抽取的元模型,定义7种关系类型,这7种关系类型也就是对应的7种三元组。在三元组的导入过程中,会将每个三元组看作一个实例化的关系对象,一种关系作为一个关系标签,一种实体类别作为一个实体标签。
步骤3.2:模型中定义的实体属性,作为图谱中节点的属性存入,关系词作为关系边中的属性存入图谱中。
步骤3.3:将每个实体看作这个实例化对象中的子对象。以对象的方式,将三元组存入neo4j图数据库中。
本发明采用层级紧耦合的方式来进行信息的抽取和可视化,自底向上分别是数据资源层、服务层和应用层。体系结构图如图1所示。
如图2,是需求知识图谱元数据模型示意图。图中,关系主要有7种,分别是编配/分配关系、类型关系、构成关系、集合关系、流程关系、输入关系和输出关系。实体类别有6种,分别是功能、***/软件、信息/数据、运行***、角色、组织。
如图3,是需求知识图谱元模型的一个定义实例。
如图4,是调用依存句法分析服务得到的一个条目实例的依存句法树的句子结构图。从图中右半部分可以清楚地看出,遍历一个条目句子,在自底向上到root的过程中,句子中的NP和VP结构就是实际上需求文档中需要抽取的实体复合词结果。
如图5,是利用依存句法分析形成的逻辑规则表达式,这个表达式就是利用依存句法分析的方法得到的三元组抽取的规则表达式,利用这些规则表达式,可以实现关系抽取。
如图6,是三元组图谱化的具体流程图。
实施例2:
实施例2为实施例1的优选例。
根据本发明提供的基于句法语义规则的需求管理文档实体抽取方法,包括:
baseNP:简单的非嵌套名词短语——Church于1988年在英语中首次提出。中文非嵌套名词性短语和英文有所不同,中文的baseNP(基本实体名词)形式化描述分为4类:
1.baseNP→baseNP+baseNP
2.baseNP→baseNP+名词/动名词
3.baseNP→baseNP+名词/动名词
4.baseNP→baseNP+名词/动名词
其中限定性定语包括:形容词|区别词|副词|动词|名词|处所词|英文词|数词|量词|。
从词特征和依存句法树上获取需求文档的构词特征,并制定规则用模式匹配的方法进行实体抽取。这个过程实际上就是从依存句法树上遍历所有的NP和VP型短语构成中文baseNP的过程。
利用基本模板对输入的条目文本进行baseNP规则分析,得到baseNP的候选集合,规则的匹配过程如下(即:形式化的过程利用了规则抽取实体的规则要素):
1.输入条目文本中的每个单词记作wi,其词性经LTP的词性标注以后记作ti,这样,输入条目可以表示成如下一个符号串:
w1|t1,w2|t2,w3|t3,…,wi|ti,…,wj|tj,…,wN|tN
2.如果在所有的158条规则中,存在一条这样的规则:
wi|ti,…,wj|tj—>baseNP
上述规则中0≤i≤j,表示过程1中的一个片段符合baseNP中NP或者VP的组成规则。
3.将条目中扫描到的符合上下文无关规则的字符串输出作为实体抽取的结果。
在中文里,有一些特殊动词,如形式动词、助动词、系动词等等。一般情况下,这些动词不能作为基本名词短语中的用词,我们在候选的基本名词短语中如果发现了这些词在其中使用,则不将它加入到候选的基本名词短语中。
常见的形式动词有:给以、给予、进行、有、可以;
常见的助动词有:当、该、得、敢、敢于、会、可、可能、可以、肯、乐意、能、能够、让、容许、希望、想、要、应当、愿、愿意、允许、自愿;
常见的系动词有:称、等于、称呼、成为、充当、当、当做、叫、是、算、算作、通称、统称、为、自称、作为。
依存句法分析:依存语法用来揭示自然句中的句法结构,它是通过分析语言单位内成分之间的依存关系来获取的。通俗来说,依存句法分析就是通过分析语句中各结构成分之间的关系,找出语句中“主谓宾定状补”这些文法的表达方式。
语义角色标注:从自然语句中标注出句子中谓词的语义成分(语义角色),如时间、地点、施事者、受事者、原因、结果等,它是一种浅层的语义分析技术。核心的语义角色有A0,A1、A2、A3、A4、A5六种,AO表示语义角色中动作的施事方,A1表示谓词动作所带来的影响。A2-A5则比较灵活,会根据谓词的不同被赋予不同的语义含义。在关系抽取中会重点考虑A0、A1与谓词之间的关系,从而形成关系抽取的三元组,除了核心语义角色,还有15种语义角色为附加语义角色,例如LOC、TMP,分别表示地点和时间。
依存树的5个条件:
1.单纯的结点条件:句子中只存在终结结点,不存在非终结结点;
2.单一父结点条件:除根结点外,其他结点都只存在一个父点;
3.跟结点独立条件:一棵依存树中只存在一个跟结点;
4.非交条件:依存树的树枝不存在相交的情况;
5.互斥条件:从左到右的前于关系和从上到下的支配关系之间是相互排斥的,结点间只有前于关系或者支配关系的其中一种。
利用依存句法分析和语义角色标注,对条目进行处理,之后解析规则库,依存句法分析的规则库如图5所示,语义角色标注的规则就是以谓词为核心遍历施事角色A0和受事角色A1,从而形成关系三元组。
首先会调用自然语言处理平台(LTP)的词性标注服务,获取分词、词性标注、词长度、词偏移量、词位置等词法特征信息。然后找到条目分词结果中的数词和量词作为属性抽取的触发条件,之后向前遍历,与元模型定义的属性词库进行匹配,找出属性词,从而得到属性三元组中的属性,最后将属性和属性值链在对应的实体上形成需求条目的属性三元组。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的***、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的***、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种文档信息抽取及图谱化方法,其特征在于,包括:
步骤1:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行实体抽取;
步骤2:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行关系和对应实体属性抽取;
步骤3:对抽取的实体、关系及属性三元组进行图谱化,生成文档图谱。
2.根据权利要求1所述的文档信息抽取及图谱化方法,其特征在于,所述步骤1包括:
步骤1.1:调用自然语言处理平台的词性标注服务,获取包括分词、词性标注、词长度、词偏移量、词位置的词法特征信息;
步骤1.2:调用自然语言处理平台的依存句法分析服务,对词法特征信息分析得到依存句法树信息,通过语言学中文构词分析得到复合名词实体;
步骤1.3:根据文档的实体词特点,以停用词和触发词的形式从依存句法树上对错误识别的实体词进行剪枝处理并获取实体词的分类,利用制定好的规则和加入的通用词及触发词进行实体抽取,得到实体抽取结果。
3.根据权利要求1所述的文档信息抽取及图谱化方法,其特征在于,所述步骤2包括:
步骤2.1:调用自然语言处理平台的依存句法分析和语义角色标注服务对需求条目进行依存句法和语义角色的分析,得到依存句法分析和语义角色标注的结果;
步骤2.2:扫描条目获取关系词,将关系词映射到依存句法分析的核心词上,同时也映射到语义角色标注的谓词上;
步骤2.3:抽取出符合依存句法分析形成的逻辑表达式的实体和符合语义角色标注A0、A1与谓词之间的关系实体,作为关系抽取的三元组;
步骤2.4:调用自然语言处理平台的词性标注服务,获取词法特征信息;
步骤2.5:提取分词结果中的数词和量词,并匹配到数词和量词的属性值修饰词,将数词量词与该修饰词拼接形成属性值,作为属性抽取的触发条件;
步骤2.6:扫描并记录触发的属性值和对应属性信息,将扫描属性前最近的实体或者距离属性最近的修饰词前的实体作为属性实体对象,进行实体属性链接,形成最终的属性三元组。
4.根据权利要求1所述的文档信息抽取及图谱化方法,其特征在于,所述步骤3包括:
步骤3.1:定义三元组的关系标签和实体标签;
步骤3.2:定义三元组的实体属性作为图谱中的节点属性,将关系词作为关系边中的属性存入图谱;
步骤3.3:将每个实体作为实例化对象中的子对象,以对象的方式将三元组存入neo4j图数据库中。
5.根据权利要求1所述的文档信息抽取及图谱化方法,其特征在于,采用层级紧耦合的方式来进行信息的抽取和可视化,结合开源的自然语言处理平台,从词法、句法、语义上分析中文需求文档的构词特征,制定对应的信息抽取规则,利用Drools引擎进行规则维护,抽取出文档中的实体和关系属性,并图谱化形成知识图谱。
6.一种文档信息抽取及图谱化***,其特征在于,包括:
模块M1:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行实体抽取;
模块M2:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行关系和对应实体属性抽取;
模块M3:对抽取的实体、关系及属性三元组进行图谱化,生成文档图谱。
7.根据权利要求6所述的文档信息抽取及图谱化***,其特征在于,所述模块M1包括:
模块M1.1:调用自然语言处理平台的词性标注服务,获取包括分词、词性标注、词长度、词偏移量、词位置的词法特征信息;
模块M1.2:调用自然语言处理平台的依存句法分析服务,对词法特征信息分析得到依存句法树信息,通过语言学中文构词分析得到复合名词实体;
模块M1.3:根据文档的实体词特点,以停用词和触发词的形式从依存句法树上对错误识别的实体词进行剪枝处理并获取实体词的分类,利用制定好的规则和加入的通用词及触发词进行实体抽取,得到实体抽取结果。
8.根据权利要求6所述的文档信息抽取及图谱化***,其特征在于,所述模块M2包括:
模块M2.1:调用自然语言处理平台的依存句法分析和语义角色标注服务对需求条目进行依存句法和语义角色的分析,得到依存句法分析和语义角色标注的结果;
模块M2.2:扫描条目获取关系词,将关系词映射到依存句法分析的核心词上,同时也映射到语义角色标注的谓词上;
模块M2.3:抽取出符合依存句法分析形成的逻辑表达式的实体和符合语义角色标注A0、A1与谓词之间的关系实体,作为关系抽取的三元组;
模块M2.4:调用自然语言处理平台的词性标注服务,获取词法特征信息;
模块M2.5:提取分词结果中的数词和量词,并匹配到数词和量词的属性值修饰词,将数词量词与该修饰词拼接形成属性值,作为属性抽取的触发条件;
模块M2.6:扫描并记录触发的属性值和对应属性信息,将扫描属性前最近的实体或者距离属性最近的修饰词前的实体作为属性实体对象,进行实体属性链接,形成最终的属性三元组。
9.根据权利要求6所述的文档信息抽取及图谱化***,其特征在于,所述模块M3包括:
模块M3.1:定义三元组的关系标签和实体标签;
模块M3.2:定义三元组的实体属性作为图谱中的节点属性,将关系词作为关系边中的属性存入图谱;
模块M3.3:将每个实体作为实例化对象中的子对象,以对象的方式将三元组存入neo4j图数据库中。
10.根据权利要求6所述的文档信息抽取及图谱化***,其特征在于,采用层级紧耦合的方式来进行信息的抽取和可视化,结合开源的自然语言处理平台,从词法、句法、语义上分析中文需求文档的构词特征,制定对应的信息抽取规则,利用Drools引擎进行规则维护,抽取出文档中的实体和关系属性,并图谱化形成知识图谱。
CN202110795366.2A 2021-07-14 2021-07-14 文档信息抽取及图谱化方法和*** Active CN113609838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110795366.2A CN113609838B (zh) 2021-07-14 2021-07-14 文档信息抽取及图谱化方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110795366.2A CN113609838B (zh) 2021-07-14 2021-07-14 文档信息抽取及图谱化方法和***

Publications (2)

Publication Number Publication Date
CN113609838A true CN113609838A (zh) 2021-11-05
CN113609838B CN113609838B (zh) 2024-05-24

Family

ID=78337552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110795366.2A Active CN113609838B (zh) 2021-07-14 2021-07-14 文档信息抽取及图谱化方法和***

Country Status (1)

Country Link
CN (1) CN113609838B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017913A (zh) * 2022-04-21 2022-09-06 广州世纪华轲科技有限公司 基于主从框架模式的语义成分解析方法
CN115098617A (zh) * 2022-06-10 2022-09-23 杭州未名信科科技有限公司 三元组关系抽取任务的标注方法、装置、设备及存储介质
CN115238217A (zh) * 2022-09-23 2022-10-25 山东省齐鲁大数据研究院 一种公告文本中抽取数值信息的方法及终端机

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050302A (zh) * 2014-07-10 2014-09-17 华东师范大学 一种基于图谱模型的话题探测***
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和***
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN110222200A (zh) * 2019-06-20 2019-09-10 京东方科技集团股份有限公司 用于实体融合的方法和设备
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
CN111027309A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于双向长短期记忆网络的实体属性值的抽取方法
CN111309925A (zh) * 2020-02-10 2020-06-19 同方知网(北京)技术有限公司 一种军事装备的知识图谱构建方法
CN111353030A (zh) * 2020-02-26 2020-06-30 陕西师范大学 基于旅游领域知识图谱的知识问答检索方法及装置
CN111597351A (zh) * 2020-05-14 2020-08-28 上海德拓信息技术股份有限公司 可视化文档图谱构建方法
CN111708874A (zh) * 2020-08-24 2020-09-25 湖南大学 基于复杂意图智能识别的人机交互问答方法与***
CN111897908A (zh) * 2020-05-12 2020-11-06 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及***
CN111897914A (zh) * 2020-07-20 2020-11-06 杭州叙简科技股份有限公司 用于综合管廊领域的实体信息抽取及知识图谱构建方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050302A (zh) * 2014-07-10 2014-09-17 华东师范大学 一种基于图谱模型的话题探测***
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和***
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN110222200A (zh) * 2019-06-20 2019-09-10 京东方科技集团股份有限公司 用于实体融合的方法和设备
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
CN111027309A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于双向长短期记忆网络的实体属性值的抽取方法
CN111309925A (zh) * 2020-02-10 2020-06-19 同方知网(北京)技术有限公司 一种军事装备的知识图谱构建方法
CN111353030A (zh) * 2020-02-26 2020-06-30 陕西师范大学 基于旅游领域知识图谱的知识问答检索方法及装置
CN111897908A (zh) * 2020-05-12 2020-11-06 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及***
CN111597351A (zh) * 2020-05-14 2020-08-28 上海德拓信息技术股份有限公司 可视化文档图谱构建方法
CN111897914A (zh) * 2020-07-20 2020-11-06 杭州叙简科技股份有限公司 用于综合管廊领域的实体信息抽取及知识图谱构建方法
CN111708874A (zh) * 2020-08-24 2020-09-25 湖南大学 基于复杂意图智能识别的人机交互问答方法与***

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
QI S 等: "《Dependency Parsing-based Entity Relation Extraction over Chinese Complex Text》", 《TRANSACTIONS ON ASIAN AND LOW-RESOURCE LANGUAGE INFORMATION PROCESSING 》, vol. 20, no. 4, 9 June 2021 (2021-06-09), pages 1 - 34 *
YU L 等: "《Internet-based Knowledge Graph Construction Technology in Air Defense Field》", 《2021 INTERNATIONAL CONFERENCE ON COMPUTER TECHNOLOGY AND MEDIA CONVERGENCE DESIGN (CTMCD)》, 28 June 2021 (2021-06-28), pages 25 - 29 *
林旺群 等: "《知识图谱研究现状及军事应用》", 《中文信息学报》, vol. 34, no. 12, 31 December 2020 (2020-12-31), pages 9 - 16 *
苟继承: "《基于远程监督的军事实体关系抽取应用研究》", 《中国优秀硕士学位论文全文数据库社会科学Ⅰ辑》, no. 7, 15 July 2020 (2020-07-15), pages 112 - 15 *
薛坤: "《面向军事领域的知识图谱构建与应用研究》", 《中国优秀硕士学位论文全文数据库社会科学Ⅰ辑》, no. 2, 15 February 2021 (2021-02-15), pages 112 - 12 *
许梦笛 等: "《基于深度学习和语法规约的需求文档命名实体识别》", 《计算机与现代化》, no. 1, 31 January 2021 (2021-01-31), pages 105 - 110 *
韦韬 等: "《基于非分类关系提取技术的知识图谱构建》", 《工业技术创新》, vol. 7, no. 2, 30 April 2020 (2020-04-30), pages 23 - 28 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017913A (zh) * 2022-04-21 2022-09-06 广州世纪华轲科技有限公司 基于主从框架模式的语义成分解析方法
CN115098617A (zh) * 2022-06-10 2022-09-23 杭州未名信科科技有限公司 三元组关系抽取任务的标注方法、装置、设备及存储介质
CN115238217A (zh) * 2022-09-23 2022-10-25 山东省齐鲁大数据研究院 一种公告文本中抽取数值信息的方法及终端机

Also Published As

Publication number Publication date
CN113609838B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
Korhonen Subcategorization acquisition
US20180260474A1 (en) Methods for extracting and assessing information from literature documents
Srihari et al. Infoxtract: A customizable intermediate level information extraction engine
Tiedemann Recycling translations: Extraction of lexical data from parallel corpora and their application in natural language processing
US12019981B2 (en) Method and system for converting literature into a directed graph
CN113609838B (zh) 文档信息抽取及图谱化方法和***
US11113470B2 (en) Preserving and processing ambiguity in natural language
Anke et al. Syntactically aware neural architectures for definition extraction
Levy et al. Deep dependencies from context-free statistical parsers: correcting the surface dependency approximation
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
CN108665141B (zh) 一种从突发事件预案中自动抽取应急响应流程模型的方法
CN115576984A (zh) 中文自然语言生成sql语句及跨数据库查询方法
Abdelnabi et al. Generating uml class diagram from natural language requirements: A survey of approaches and techniques
Bartolini et al. Automatic classification and analysis of provisions in italian legal texts: a case study
Soria et al. Automatic extraction of semantics in law documents
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
CN112183059A (zh) 一种中文结构化事件抽取方法
CN113779062A (zh) Sql语句生成方法、装置、存储介质及电子设备
Sagot et al. Error mining in parsing results
CN109977391B (zh) 一种文本数据的信息抽取方法及装置
Savary et al. Language resources for named entity annotation in the National Corpus of Polish
CN112099764B (zh) 基于形式化转换规则的航电领域需求的规范化方法
Johansson Statistical bistratal dependency parsing
Özateş et al. A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology with Deep Learning
Robertson Word sense disambiguation for finnish with an application to language learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant