CN117077772A - 基于全局指针的军事需求文本实体与关系抽取方法和*** - Google Patents

基于全局指针的军事需求文本实体与关系抽取方法和*** Download PDF

Info

Publication number
CN117077772A
CN117077772A CN202311038321.6A CN202311038321A CN117077772A CN 117077772 A CN117077772 A CN 117077772A CN 202311038321 A CN202311038321 A CN 202311038321A CN 117077772 A CN117077772 A CN 117077772A
Authority
CN
China
Prior art keywords
entity
relation
extraction
text
global pointer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311038321.6A
Other languages
English (en)
Inventor
周智英
王盼盼
牛硕硕
黄哲
桑耘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 32 Research Institute
Original Assignee
CETC 32 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 32 Research Institute filed Critical CETC 32 Research Institute
Priority to CN202311038321.6A priority Critical patent/CN117077772A/zh
Publication of CN117077772A publication Critical patent/CN117077772A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于全局指针的军事需求文本实体与关系抽取方法和***,包括:基于规则或者基于机器学习进行实体识别;进行基于全局指针的需求文本的实体关系联合抽取。本发明结合军事需求项目,涵盖军事领域的信息抽取与图谱构建技术。通过基于全局指针的联合学习技术,面向军事需求文档,使用单阶段解码方式对实体和关系进行联合抽取,并结合所提模型搭建军事需求领域的实体和关系抽取***。

Description

基于全局指针的军事需求文本实体与关系抽取方法和***
技术领域
本发明属于自然语言处理及知识图谱领域,具体地,涉及基于全局指针的军事需求文本实体与关系抽取方法和***。
背景技术
智能化浪潮席卷全球,军事智能化变革俨然成为趋势。一般来说,军事领域是一个数据价值很高的领域,获取相关的军事需求知识并提供便捷的人机交互方式具有重要的军事战略意义。但在军事信息化过程中,存在着数据孤立、缺乏关联组织、数据难以有效利用的问题。面对这些海量的领域数据,如果相关作战人员无法有效获取关键知识,也就无法根据潜在的军事价值信息进行有效指导。
军事需求知识是从军方需求管理文档中提取的,包括对相关单位、人员、事件的描述和规定,以及与军事产品相关的信息。梳理、把握和分析军事需求文档,从中提取相关的实体、关系和属性信息是构建军事需求知识体系的关键一步。为应对外界的安全威胁和挑战,需要积极探索军事智能化技术的发展趋势,才能稳步提升全军的高端智能化战斗能力。而在这其中,军事知识图谱的构建技术便备受瞩目,命名实体识别和关系抽取作为其重要基础任务,在战场态势分析、作战预案推荐和军事智能问答等诸多军事应用领域都发挥着重要作用。
针对近年来作战形式愈发数字化的趋势,面向军事需求文本的信息抽取服务被要求有着更高的自动化性能。军事需求文档是指在军事软件/***产品开发之初,基于军方需求制定的一种包含产品需求规格说明(包括产品特性、功能点描述)、非功能性描述及软硬件环境描述等需求指标的规范化说明文档,是由不同层次的结构化、半结构化和非结构化数据按照一定的原则和要求组成的有机统一整体。即便此类文档拥有相对固定的产品描述架构,但由于军事需求领域语料的特殊性,产品开发者想要从不同源的需求文本中提取出具有同一性的知识体系还是面临着诸多挑战的。
面对这些海量文档,军事指挥人员迫切需要一种能够从文本中快速抽取实体、关系和属性的自动化工具来获取文档的总体需求,这种将由人工阅读提取转化成计算机自动提取的过程,能极大地提高工作效率。
主流的实体关系抽取技术大多依赖于海量的标注数据,这不仅需要耗费大量的人工成本对原始数据进行预处理和标注,而且模型在训练时需要消耗巨大的计算资源。此外,现有的抽取对象往往是一些具有特定指称的专有名词,而军事领域的需求文本需要抽取的实体更多的是功能、数据、***描述等虚概念,这些实体大多由复合词性及嵌套实体组成;需要抽取的关系例如组成、集合、输入输出等也是比较隐含抽象的关系类型,且存在关系重叠和多重关系问题。因此,对于军事需求文本的实体抽取亟待需要一些能够深层理解文本语义信息及对实体长度和跨度敏感的方法去提高需求实体的识别准确率;对于军事需求文本的关系抽取则需要从同时覆盖暴漏偏差和关系重叠的角度进行实体关系的联合抽取。
针对军事需求文本的以上特性及对抽取技术的要求,本发明提出一种具有全局统一思想的单阶段联合学习模型。该模型基于全局指针网络,将SPO关系三元组抽取分解为五元组抽取,降低了模型对算力的要求,且不依赖于海量标注数据,十分适用于军事需求文本的信息抽取。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于全局指针的军事需求文本实体与关系抽取方法和***。
根据本发明提供的一种基于全局指针的军事需求文本实体与关系抽取方法,包括:
实体抽取模块SA:基于规则或者基于机器学习进行实体识别;
实体关系联合抽取模块SB:进行基于全局指针的需求文本的实体关系联合抽取;
可视化编辑与展现模块SC:将生成的军事需求图谱传到前端界面进行可视化展示,允许用户通过可视化展现的图谱进行某一节点和相关关系的具体信息查看,并可操作图进行节点和边的修改。
优选地,在所述实体抽取模块SA中:
首先将输入文本传给BERT层进行向量化表示;而后将经过BERT层编码得到的序列向量输入至全局指针层,然后以实体为基本单位进行打分判别,并在解码阶段,将连续片段得分大于0的表达作为目标类型实体进行输出;最后再将全局指针层输出的候选实体传给Rule层,进行规则匹配后得到最终的实体输出;其中,所述规则匹配是将BERT-GloP模型第一遍识别出的实体作为候选实体,然后再用这些实体去匹配规则库中的规则,如果匹配成功,则作为最终识别结果进行输出,否则,淘汰该候选实体;
或者,采用基于全局指针的需求文本命名实体识别方式,首先将待抽取文档导入***,然后根据需要选择抽取算法和抽取模式,抽取模式分为按全文抽取和章节抽取两种,然后根据设置调用后台相应的实体抽取算法,待抽取完成后,前端界面在原文档上标记识别出的实体及其类型。
优选地,在所述实体关系联合抽取步骤SB中,首先在文档管理功能模块下选择导入要进行抽取的文档,然后基于全局指针的需求文本的实体关系联合抽取,使用了Encoder-Decoder框架,首先使用BERT对输入序列进行编码,获得文本的语义表示,经文档条目化处理后再使用多头的全局指针提取SPO三元组;最后再将这些抽取出的需求知识去重后存入Neo4j数据库,刷新页面后依赖模型抽取出的实体和关系重新标记在原文档中;解码时采用单阶段联合解码方式,其以一种全局统一的序列标注方案一次性析出主实体、客实体和关系。
优选地,采用Encoder-Decoder机制,基于BERT-GloP-Rule模型,使用BERT作为Encoder端,对输入文本进行语义编码,利用全局归一化思想进行实体标注,然后结合规则匹配共同完成实体级的命名实体识别;其中,使用多头标注框架从实体级层面进行NER;引入相对位置编码提升全局指针对复杂嵌套实体长度和跨度的敏感性;通过规则修正提升需求实体识别的准确性;其中,基于全局指针的命名实体识别模型BERT-GloP-Rule,该模型主体包括BERT层、全局指针层GloP和Rule层,其中BERT层由12层的Transformer网络构成;
在实体关系进行统一标记中,包括标记方案:EH to ET、SH to OH、或者ST to OT;假设序列长度为N、实体类型数为T、关系类别数为R,则经过GloP模块后会生成T+2R个标注矩阵:
EH to ET:代表输入序列中实体的首尾关系,是T个N×N的Span矩阵;
SH to OH:代表主实体头部token和客实体头部token之间的关系,是R个N×N的Span矩阵;
ST to OT:代表主实体尾部token和客实体尾部token之间的关系,是R个N×N的Span矩阵;
标注数字0代表此处是非实体片段或两实体间不存在关系;非0则相反;关系标注没有SH≤OH的约束,若关系标记存在于下三角矩阵中,则将其映射到上三角矩阵中,标注数字也随之由1变为2;
所述单阶段联合解码步骤,包括:
实体解码步骤:对EH to ET的Span矩阵进行解码获得输入文本所包含的全部实体,并将实体的头部字符记为键向量key,以该字符作为头部的所有实体记为值向量value,并写进字典D中;
关系三元组解码步骤:对于每类关系R,对SH to OH的Span矩阵进行解码得到头实体和尾实体的首字符对应的字符对π,并在字典D中查找π对应的key所关联的实体,然后将解析出的相应实体分别存入主实体集S和客实体集O中;相应地解码ST to OT将得到主、客实体的尾部字符对,存入集合T中;
关系三元组查询步骤:对于每类关系R,遍历关系三元组解码步骤中得到的集合S和O中的所有实体对,依次查询实体对的尾部字符对是否在集合T中,若在,则解析出一个SPO三元组,否则,遍历下一组实体对。
根据本发明提供的一种基于全局指针的军事需求文本实体与关系抽取***,包括:
实体抽取模块MA:基于规则或者基于机器学习进行实体识别;
实体关系联合抽取模块MB:进行基于全局指针的需求文本的实体关系联合抽取;
可视化编辑与展现模块MC:将生成的军事需求图谱传到前端界面进行可视化展示,允许用户通过可视化展现的图谱进行某一节点和相关关系的具体信息查看,并可操作图进行节点和边的修改。
优选地,在所述实体抽取模块MA中:
首先将输入文本传给BERT层进行向量化表示;而后将经过BERT层编码得到的序列向量输入至全局指针层,然后以实体为基本单位进行打分判别,并在解码阶段,将连续片段得分大于0的表达作为目标类型实体进行输出;最后再将全局指针层输出的候选实体传给Rule层,进行规则匹配后得到最终的实体输出;其中,所述规则匹配是将BERT-GloP模型第一遍识别出的实体作为候选实体,然后再用这些实体去匹配规则库中的规则,如果匹配成功,则作为最终识别结果进行输出,否则,淘汰该候选实体;
或者,采用基于全局指针的需求文本命名实体识别方式,首先将待抽取文档导入***,然后根据需要选择抽取算法和抽取模式,抽取模式分为按全文抽取和章节抽取两种,然后根据设置调用后台相应的实体抽取算法,待抽取完成后,前端界面在原文档上标记识别出的实体及其类型。
优选地,在所述实体关系联合抽取模块MB中,首先在文档管理功能模块下选择导入要进行抽取的文档,然后基于全局指针的需求文本的实体关系联合抽取,使用了Encoder-Decoder框架,首先使用BERT对输入序列进行编码,获得文本的语义表示,经文档条目化处理后再使用多头的全局指针提取SPO三元组;最后再将这些抽取出的需求知识去重后存入Neo4j数据库,刷新页面后依赖模型抽取出的实体和关系重新标记在原文档中;解码时采用单阶段联合解码方式,其以一种全局统一的序列标注方案一次性析出主实体、客实体和关系。
优选地,采用Encoder-Decoder机制,基于BERT-GloP-Rule模型,使用BERT作为Encoder端,对输入文本进行语义编码,利用全局归一化思想进行实体标注,然后结合规则匹配共同完成实体级的命名实体识别;其中,使用多头标注框架从实体级层面进行NER;引入相对位置编码提升全局指针对复杂嵌套实体长度和跨度的敏感性;通过规则修正提升需求实体识别的准确性;其中,基于全局指针的命名实体识别模型BERT-GloP-Rule,该模型主体包括BERT层、全局指针层GloP和Rule层,其中BERT层由12层的Transformer网络构成;
在实体关系进行统一标记中,包括标记方案:EH to ET、SH to OH、或者ST to OT;假设序列长度为N、实体类型数为T、关系类别数为R,则经过GloP模块后会生成T+2R个标注矩阵:
EH to ET:代表输入序列中实体的首尾关系,是T个N×N的Span矩阵;
SH to OH:代表主实体头部token和客实体头部token之间的关系,是R个N×N的Span矩阵;
ST to OT:代表主实体尾部token和客实体尾部token之间的关系,是R个N×N的Span矩阵;
标注数字0代表此处是非实体片段或两实体间不存在关系;非0则相反;关系标注没有SH≤OH的约束,若关系标记存在于下三角矩阵中,则将其映射到上三角矩阵中,标注数字也随之由1变为2;
所述单阶段联合解码步骤,包括:
实体解码步骤:对EH to ET的Span矩阵进行解码获得输入文本所包含的全部实体,并将实体的头部字符记为键向量key,以该字符作为头部的所有实体记为值向量value,并写进字典D中;
关系三元组解码步骤:对于每类关系R,对SH to OH的Span矩阵进行解码得到头实体和尾实体的首字符对应的字符对π,并在字典D中查找π对应的key所关联的实体,然后将解析出的相应实体分别存入主实体集S和客实体集O中;相应地解码ST to OT将得到主、客实体的尾部字符对,存入集合T中;
关系三元组查询步骤:对于每类关系R,遍历关系三元组解码步骤中得到的集合S和O中的所有实体对,依次查询实体对的尾部字符对是否在集合T中,若在,则解析出一个SPO三元组,否则,遍历下一组实体对。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的基于全局指针的军事需求文本实体与关系抽取方法的步骤。
根据本发明提供的一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现所述的基于全局指针的军事需求文本实体与关系抽取方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、基于全局指针的需求文本命名实体识别:针对现有命名实体识别方法不能有效解决需求文本中复杂功能长实体和组合嵌套实体边界认定不准确的问题,对军事需求文本的小数据样本进行了研究。本发明使用了一种基于全局指针的实体级识别技术,先预训练语言模型BERT获取文本的深层语义表示,然后利用全局指针替代CRF进行解码,将待识别实体的首尾视为统一整体进行判别,最后再结合规则匹配方法共同完成实体级的需求实体识别。
2、基于全局指针的需求文本实体关系抽取:针对需求文本中的隐含重叠关系和多重关系问题,本发明融合BERT和全局指针进行实体关系的联合抽取,将关系三元组的序列标注任务转化为字符对链接任务,并将SPO三元组抽取分解为五元组抽取,降低了模型对算力的要求,又通过引入“SoftMax+多标签交叉熵”解决了类别不平衡问题。并在解码阶段实现了单阶段联合解码,避免了以往将实体、关系两个子任务作为串行任务时带来的误差积累问题。此项技术能够同时解决重叠关系和暴漏偏差问题。
3、面向军事需求文本的实体关系抽取***:为了实现对需求文本中碎片化信息的抽取与利用,及对抽取到的需求知识进行可视化,本发明结合前述抽取技术设计并搭建了面向军事需求领域的实体和关系抽取***,并利用抽取出的知识构建军事需求图谱,为需求图谱在军事作战方向的应用提供重要知识支撑。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为复杂命名长实体示例。
图2为嵌套命名实体示例。
图3为BERT-GloP-Rule模型架构图。
图4为重叠关系类型示例。
图5为BERT-GloPLinker模型架构。
图6为需求元模型示意图。
图7为军事需求领域的实体关系抽取***。
图8为GloP多头标注示意图。
图9为军事需求实体抽取流程图。
图10为“EH to ET”的标记示例。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明结合军事需求项目,涵盖军事领域的信息抽取与图谱构建技术。通过基于全局指针的联合学习技术,面向军事需求文档,使用单阶段解码方式对实体和关系进行联合抽取,并结合所提模型搭建军事需求领域的实体和关系抽取***。其中,本发明主要针对构建军事需求图谱的底层信息抽取技术进行了研究,借助自然语言处理和知识图谱技术,对需求文本中的条目化文本进行实体和关系的抽取并导入图数据库进行存储和可视化。首先使用预训练语言模型BERT获取军事需求文本的深层语言表示,然后结合多头标注框架全局指针,抽取出军事需求文本中的实体和关系,最后再以图谱的形式可视化抽取出的军事需求知识。
根据本发明提供的一种基于全局指针的军事需求文本实体与关系抽取方法,从构建知识图谱的关键技术出发,基于命名实体识别、关系分类、实体关系联合抽取等技术,设计并实现了一个面向军事需求领域的实体关系抽取***,最后并对构建的军事需求图谱进行了可视化展示。面向军事需求领域的特性,为***提供了领域内的通用需求元模型,其中元模型包括的实体类型有{功能、数据、***、软件、组织、角色},关系类型有{流程、组成、编配、输入、输出、集合}。本发明主要包括需求实体抽取、实体关系三元组抽取、军事需求图谱的可视化编辑与展现三个主要环节:
环节1:所述实体抽取,主要包含基于规则和基于机器学习两种实体识别方法,机器学习方法采用基于全局指针的需求文本命名实体识别算法。首先将待抽取文档导入***,然后根据需要选择抽取算法和抽取模式,抽取模式分为按“全文抽取”和“章节抽取”两种,然后***会根据设置调用后台相应的实体抽取算法,待抽取完成后,前端界面会在原文档上标记识别出的实体及其类型。
环节2:所述实体关系三元组抽取,首先在文档管理功能模块下选择导入要进行抽取的文档,然后***后台调用基于全局指针的实体关系联合抽取算法,经文档条目化处理后从需求文本中抽取出SPO关系三元组,最后再将这些抽取出的需求知识去重后存入Neo4j数据库,刷新页面后依赖模型抽取出的实体和关系就会重新标记在原文档中,方便用户查看和修正。
环节3:所述可视化编辑与展现,结合CSS、JS、HTML等前端技术,使用Flask框架提供微服务,将生成的军事需求图谱传到前端界面进行可视化展示。用户可以通过可视化展现的图谱进行某一节点和相关关系的具体信息查看,并可操作图进行节点和边的修改。
其中,通过(1)、(2)两点对本发明进行展开说明。
(1)基于全局指针的需求文本的命名实体识别
本发明中,基于全局指针的需求文本命名实体识别,采用Encoder-Decoder机制,基于BERT模型,利用全局归一化思想进行实体标注,然后结合规则匹配共同完成实体级的命名实体识别。该模型创新点一共有三:第一,是使用多头标注框架替代了以往的序列标注方法从实体级层面进行NER;第二,是引入相对位置编码,提升全局指针对复杂嵌套实体长度和跨度的敏感性;第三,是通过规则修正提升需求实体识别的准确性。
本发明进行实体抽取的主要思路是:首先将输入文本传给BERT层进行向量化表示;而后将经过BERT层编码得到的序列向量输入至全局指针层,然后以实体为基本单位进行打分判别,并在解码阶段,将连续片段得分大于0的表达作为目标类型实体进行输出;最后再将全局指针层输出的候选实体传给Rule层,进行规则匹配后得到最终的实体输出。其中,规则匹配是将BERT-GloP模型第一遍识别出的实体作为候选实体,然后再用这些实体去匹配规则库中的规则,如果匹配成功,则可作为最终识别结果进行输出,否则,淘汰该候选实体。利用规则进行二次筛选的方法在面向军事需求文本时,相较于其他传统序列标注模型,其能提高需求实体的识别正确性。
(2)基于全局指针的需求文本的实体关系联合抽取
基于全局指针的需求文本实体关系抽取也使用了Encoder-Decoder框架,首先使用BERT对输入序列进行编码,获得文本的语义表示,然后再使用多头的全局指针模块提取SPO三元组。解码时采用单阶段联合解码方式,其以一种全局统一的序列标注方案一次性析出主实体、客实体和关系,不同于两阶段解码,两者间不再是串行依赖关系。
下面就细节对本发明进行更为具体的说明。
1、使用BERT作为Encoder端,对输入文本进行语义编码。
2、使用全局的多头标记方案对实体关系进行统一标记,其中包含3种标记方案:“EH to ET”、“SH to OH”、“ST to OT”。
假设序列长度为N、实体类型数为T、关系类别数为R,则经过GloP模块后会生成T+2R个标注矩阵:
EH to ET:代表输入序列中实体的首尾关系,是T个N×N的Span矩阵。若标记色块为紫色说明该字符对是一个实体,否则为非实体片段。如例句中的实体:“知识服务***”:M(知,统)=1、“订阅用户”:M(订,户)=1;
SH to OH:代表主实体头部token和客实体头部token之间的关系,是R个N×N的Span矩阵。若标记色块为红色说明两实体间蕴含此类关系,否则没有关系。如例句中的三元组(知识服务***,编配,订阅用户):M(知,订)=2;
ST to OT:代表主实体尾部token和客实体尾部token之间的关系,是R个N×N的Span矩阵。若标记色块为蓝色说明两实体间蕴含此类关系,否则没有关系。如例句中的三元组(文档,输入,文档图谱化功能):M(档,能)=1;
标注数字0代表此处是非实体片段或两实体间不存在关系;非0(1或2)则相反。特别的,跟NER任务不同,关系标注没有SH≤OH的约束,关系标记可能会存在于下三角矩阵中,为防止稀疏计算,故将其映射到上三角矩阵中,标注数字也随之由1变为2。
模块M3:全局指针GloP层作为Decoder,对实体关系进行单阶段联合解码,具体的解码过程如下:
实体解码步骤:对“EH to ET”的Span矩阵进行解码就可获得输入文本所包含的全部实体,并将实体的头部字符记为键向量key,以该字符作为头部的所有实体记为值向量value,并写进字典D中。
关系三元组解码步骤:对于每类关系R,对“SH to OH”的Span矩阵进行解码得到头实体和尾实体的首字符对应的字符对π,并在字典D中查找π对应的key所关联的实体,然后将解析出的相应实体分别存入主实体集S和客实体集O中。同理,解码“ST to OT”将得到主、客实体的尾部字符对,存入集合T中;
关系三元组查询步骤:对于每类关系R,遍历第2步中得到的集合S和O中的所有实体对,依次查询实体对的尾部字符对是否在集合T中,若在,则可解析出一个SPO三元组,否则,遍历下一组实体对。
下面结合附图对本发明更为详细的说明。
本发明在处理命名实体识别任务时所要解决的军事需求文本中存在的复杂长实体和组合嵌套实体问题的示例如图1和图2所示。
复杂长实体:军事需求文本中的实体与常用实体不同,存在很多由多个实体、动词构成的虚功能等实体类型,如果使用常规NER方法进行识别,这些实体容易被分成多个实体或非实体片段,从而导致识别出错。在军事需求文本中,对“功能”和“数据”等实体的描述较为复杂,如“转换为目标数据格式”,由多种词性复合而成,相较于普通命名实体,面向军事需求领域的命名实体识别更加困难。
过去的命名实体识别主要考虑的是扁平命名实体识别(flat NER)。近年来有一些工作考虑了实体之间可能存在嵌套关系,由此对应地提出嵌套命名实体识别(nested NER)这一新任务,并尝试给出了一些解决方案。其中“数据库管理***”是***名、“日志”是数据名、“数据库管理***日志”是数据名且嵌套了上述两个命名实体。
本发明提出的基于全局指针的命名实体识别模型BERT-GloP-Rule如图3所示,该模型主体由三部分构成,分别为BERT层、全局指针层(GloP)和Rule层,其中BERT层由12层的Transformer网络构成。
针对军事需求文本中的存在的隐含重叠关系示例如图4所示。
本发明提出的基于全局指针的需求文本实体关系联合抽取模型BERT-GloPLinker架构如图5所示。
图6是需求元数据模型示意图。实体类型一共有6种{功能、数据、***、软件、组织、角,关系类型也有6种{流程、组成、编配、输入、输出、集合}。
结合BERT-GloP-Rule和BERT-GloPLinker所提两个模型设计并搭建了基于军事需求文本的实体关系抽取***,完成了对需求文本中碎片化信息的抽取与利用,***架构如图7所示。
军事需求领域的实体关系抽取***调用后台抽取算法后将抽取出的需求知识去重后存入Neo4j数据库,刷新页面后由模型抽取出的实体和关系就会重新标记在原文档中。另外,方便用户查看和修正标记结果,还为该模块接入了可视化展现的API,只要选中原文档的某一章节或几个章节,就能将模型的抽取结果以图的形式展现在界面右侧。
下面通过更多的优选例,对本发明的要点进行更加详细的说明。
实施举例1:基于全局指针的需求文本实体抽取方法
基于全局指针的需求文本实体抽取方法将连续词块的首尾视为一个整体进行实体判别,其本质上是一个Span矩阵,能有效解决嵌套实体问题,具体标注策略如图8所示。
例如,在span{为用户提供数据质量检测报告}中,存在一个非嵌套实体{角色:用户}和两个嵌套实体{功能:数据质量检测}、{数据:数据质量检测报告}。为了解决嵌套实体问题,可以基于字符对构建一个N×N×C的Span矩阵。其中,N为输入文本的序列长度,C为实体类别总数。如图4所示,则有:span{数,告}=1;span{数,测}=2;span{用,户}=3。在特定的NER任务中,有多少种实体类型,就对应多少个Head,故将上述标注策略称为“多头标注”。对于本发明使用的军事需求语料,一共定义了6种实体类型,即此处的C为6。
在面向军事需求文本的实体关系抽取***中,实体抽取模块主要包含基于规则和基于机器学习的两种实体识别方法。该模块从军事需求文本中抽取出需求元模型包含的各类实体信息,具体抽取流程如图9所示。
该模块首先将待抽取文档导入***,然后根据需要选择抽取算法和抽取模式,抽取模式分为按“全文抽取”和“章节抽取”两种,然后***会根据选择调用后台相应的实体抽取算法,抽取完成后,前端界面会在原文档的基础上标记出抽取到的实体和类型。
实施举例2:基于全局指针的需求文本实体关系抽取方法
基于全局指针的需求文本实体关系抽取方法,将联合抽取任务的关系分类问题转化为字符对的链接问题,能同时解决实体嵌套和关系重叠问题,不受暴露偏差影响实现单阶段联合解码。
图5的黄色标记部分展示了一种全局统一的标注方式,它能单阶段抽取出实体关系三元组,其中包含3种标记方案:“EH to ET”、“SH to OH”、“ST to OT”。以“订阅用户”为例,“EH to ET”的标记过程如图10所示。
在BERT-GloPLinker中,单阶段联合解码方式基于全局指针模块,将实体级的字符对标记“EH to ET”延展至关系的字符对标记“SH to OH”、“ST to OT”中,最后基于这三种标记方案“EH to ET”、“SH to OH”、“ST to OT”对实体关系进行单阶段联合解码,这种做法能有效缓解暴漏偏差的产生。不同于两阶段解码方式,关系分类任务不再严格依赖于上一阶段的实体抽取结果,而是采用单阶段联合解码方式,基于全局指针标记方案一次性析出主实体、客实体和关系。
以关系“编配”为例,解码“SH to OH”,得到实体对π:{(订,知)};然后以π中的元素作为key,到字典D中进行查询,查询到首key:“订”对应的value是(订阅用户),故S集为{订阅用户};尾key是“知”,同理查询,O集为{知识服务***};解码“ST to OT”,得到T集{(户,统)};最后遍历S集和O集的尾字符对{(户,统)},在T集中查询所有尾字符对,看见只有(户,统)在T集中,故最终以“编配”为关系类型析出的SPO三元组是:(订阅用户,编配,知识服务***)。
在面向军事需求文本的实体关系抽取***中,实体关系联合抽取模块的实现主要利用了BERT-GloPLinker模型。该模块的具体调度流程如下:首先在文档管理功能模块下选择导入要进行抽取的文档,然后***后台调用实体关系的联合抽取算法,经文档条目化处理后从需求文本中抽取出SPO关系三元组,最后再将这些抽取出的需求知识去重后存入Neo4j数据库,刷新页面后由模型抽取出的实体和关系就会重新标记在原文档中。另外,方便用户查看和修正标记结果,还为该模块接入了可视化展现的API,只要选中原文档的某一章节或几个章节,就能将模型的抽取结果以图的形式展现在界面右侧,例如,图的形式展现出例如“知识组织与服务***”这个节点,与该节点通过箭头线连接的节点有“知识资源”、“知识维护”、“知识图谱生成”这些节点,箭头线上标注有“组成”、“集合”、“流程”、“输出”等。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的***、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的***、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
综上所述,本发明主要改进包括:
1、本发明能够基于全局指针对军事需求文本进行实体抽取,无需依赖海量的标注数据进行训练,不仅提升了抽取效率,还降低了抽取时的计算机资源消耗。支持对军事需求文本中的嵌套实体和非嵌套实体进行无差别抽取,适用性强。
2、本发明能够基于全局指针对军事需求文本进行实体关系的联合抽取,无需依赖海量的标注数据进行训练,提升了抽取效率,降低了抽取时的计算机资源消耗。支持重叠关系和多重关系的抽取,单阶段解码方式缓解了暴露偏差问题的产生。
3、本发明将抽取的实体、关系组成三元组,并利用neo4j进行图谱化可以将需求文本中的文档层级结构、条目结构、功能、数据等元素之间的关系清晰地展现出来。并且可在此基础上进行条目的相似度计算、条目追踪和图谱融合等任务,这极大提高了作战指挥人员对军事需求文本中有效价值信息的挖掘与分析效率。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于全局指针的军事需求文本实体与关系抽取方法,其特征在于,包括:
实体抽取模块SA:基于规则或者基于机器学习进行实体识别;
实体关系联合抽取模块SB:进行基于全局指针的需求文本的实体关系联合抽取;
可视化编辑与展现模块SC:将生成的军事需求图谱传到前端界面进行可视化展示,允许用户通过可视化展现的图谱进行某一节点和相关关系的具体信息查看,并可操作图进行节点和边的修改。
2.根据权利要求1所述的基于全局指针的军事需求文本实体与关系抽取方法,其特征在于,在所述实体抽取模块SA中:
首先将输入文本传给BERT层进行向量化表示;而后将经过BERT层编码得到的序列向量输入至全局指针层,然后以实体为基本单位进行打分判别,并在解码阶段,将连续片段得分大于0的表达作为目标类型实体进行输出;最后再将全局指针层输出的候选实体传给Rule层,进行规则匹配后得到最终的实体输出;其中,所述规则匹配是将BERT-GloP模型第一遍识别出的实体作为候选实体,然后再用这些实体去匹配规则库中的规则,如果匹配成功,则作为最终识别结果进行输出,否则,淘汰该候选实体;
或者,采用基于全局指针的需求文本命名实体识别方式,首先将待抽取文档导入***,然后根据需要选择抽取算法和抽取模式,抽取模式分为按全文抽取和章节抽取两种,然后根据设置调用后台相应的实体抽取算法,待抽取完成后,前端界面在原文档上标记识别出的实体及其类型。
3.根据权利要求2所述的基于全局指针的军事需求文本实体与关系抽取方法,其特征在于,在所述实体关系联合抽取步骤SB中,首先在文档管理功能模块下选择导入要进行抽取的文档,然后基于全局指针的需求文本的实体关系联合抽取,使用了Encoder-Decoder框架,首先使用BERT对输入序列进行编码,获得文本的语义表示,经文档条目化处理后再使用多头的全局指针提取SPO三元组;最后再将这些抽取出的需求知识去重后存入Neo4j数据库,刷新页面后依赖模型抽取出的实体和关系重新标记在原文档中;解码时采用单阶段联合解码方式,其以一种全局统一的序列标注方案一次性析出主实体、客实体和关系。
4.根据权利要求3所述的基于全局指针的军事需求文本实体与关系抽取方法,其特征在于,采用Encoder-Decoder机制,基于BERT-GloP-Rule模型,使用BERT作为Encoder端,对输入文本进行语义编码,利用全局归一化思想进行实体标注,然后结合规则匹配共同完成实体级的命名实体识别;其中,使用多头标注框架从实体级层面进行NER;引入相对位置编码提升全局指针对复杂嵌套实体长度和跨度的敏感性;通过规则修正提升需求实体识别的准确性;其中,基于全局指针的命名实体识别模型BERT-GloP-Rule,该模型主体包括BERT层、全局指针层GloP和Rule层,其中BERT层由12层的Transformer网络构成;
在实体关系进行统一标记中,包括标记方案:EH to ET、SH to OH、或者ST to OT;假设序列长度为N、实体类型数为T、关系类别数为R,则经过GloP模块后会生成T+2R个标注矩阵:
EH to ET:代表输入序列中实体的首尾关系,是T个N×N的Span矩阵;
SH to OH:代表主实体头部token和客实体头部token之间的关系,是R个N×N的Span矩阵;
ST to OT:代表主实体尾部token和客实体尾部token之间的关系,是R个N×N的Span矩阵;
标注数字0代表此处是非实体片段或两实体间不存在关系;非0则相反;关系标注没有SH≤OH的约束,若关系标记存在于下三角矩阵中,则将其映射到上三角矩阵中,标注数字也随之由1变为2;
所述单阶段联合解码步骤,包括:
实体解码步骤:对EH to ET的Span矩阵进行解码获得输入文本所包含的全部实体,并将实体的头部字符记为键向量key,以该字符作为头部的所有实体记为值向量value,并写进字典D中;
关系三元组解码步骤:对于每类关系R,对SH to OH的Span矩阵进行解码得到头实体和尾实体的首字符对应的字符对π,并在字典D中查找π对应的key所关联的实体,然后将解析出的相应实体分别存入主实体集S和客实体集O中;相应地解码ST to OT将得到主、客实体的尾部字符对,存入集合T中;
关系三元组查询步骤:对于每类关系R,遍历关系三元组解码步骤中得到的集合S和O中的所有实体对,依次查询实体对的尾部字符对是否在集合T中,若在,则解析出一个SPO三元组,否则,遍历下一组实体对。
5.一种基于全局指针的军事需求文本实体与关系抽取***,其特征在于,包括:
实体抽取模块MA:基于规则或者基于机器学习进行实体识别;
实体关系联合抽取模块MB:进行基于全局指针的需求文本的实体关系联合抽取;
可视化编辑与展现模块MC:将生成的军事需求图谱传到前端界面进行可视化展示,允许用户通过可视化展现的图谱进行某一节点和相关关系的具体信息查看,并可操作图进行节点和边的修改。
6.根据权利要求5所述的基于全局指针的军事需求文本实体与关系抽取***,其特征在于,在所述实体抽取模块MA中:
首先将输入文本传给BERT层进行向量化表示;而后将经过BERT层编码得到的序列向量输入至全局指针层,然后以实体为基本单位进行打分判别,并在解码阶段,将连续片段得分大于0的表达作为目标类型实体进行输出;最后再将全局指针层输出的候选实体传给Rule层,进行规则匹配后得到最终的实体输出;其中,所述规则匹配是将BERT-GloP模型第一遍识别出的实体作为候选实体,然后再用这些实体去匹配规则库中的规则,如果匹配成功,则作为最终识别结果进行输出,否则,淘汰该候选实体;
或者,采用基于全局指针的需求文本命名实体识别方式,首先将待抽取文档导入***,然后根据需要选择抽取算法和抽取模式,抽取模式分为按全文抽取和章节抽取两种,然后根据设置调用后台相应的实体抽取算法,待抽取完成后,前端界面在原文档上标记识别出的实体及其类型。
7.根据权利要求6所述的基于全局指针的军事需求文本实体与关系抽取***,其特征在于,在所述实体关系联合抽取模块MB中,首先在文档管理功能模块下选择导入要进行抽取的文档,然后基于全局指针的需求文本的实体关系联合抽取,使用了Encoder-Decoder框架,首先使用BERT对输入序列进行编码,获得文本的语义表示,经文档条目化处理后再使用多头的全局指针提取SPO三元组;最后再将这些抽取出的需求知识去重后存入Neo4j数据库,刷新页面后依赖模型抽取出的实体和关系重新标记在原文档中;解码时采用单阶段联合解码方式,其以一种全局统一的序列标注方案一次性析出主实体、客实体和关系。
8.根据权利要求7所述的基于全局指针的军事需求文本实体与关系抽取***,其特征在于,采用Encoder-Decoder机制,基于BERT-GloP-Rule模型,使用BERT作为Encoder端,对输入文本进行语义编码,利用全局归一化思想进行实体标注,然后结合规则匹配共同完成实体级的命名实体识别;其中,使用多头标注框架从实体级层面进行NER;引入相对位置编码提升全局指针对复杂嵌套实体长度和跨度的敏感性;通过规则修正提升需求实体识别的准确性;其中,基于全局指针的命名实体识别模型BERT-GloP-Rule,该模型主体包括BERT层、全局指针层GloP和Rule层,其中BERT层由12层的Transformer网络构成;
在实体关系进行统一标记中,包括标记方案:EH to ET、SH to OH、或者ST to OT;假设序列长度为N、实体类型数为T、关系类别数为R,则经过GloP模块后会生成T+2R个标注矩阵:
EH to ET:代表输入序列中实体的首尾关系,是T个N×N的Span矩阵;
SH to OH:代表主实体头部token和客实体头部token之间的关系,是R个N×N的Span矩阵;
ST to OT:代表主实体尾部token和客实体尾部token之间的关系,是R个N×N的Span矩阵;
标注数字0代表此处是非实体片段或两实体间不存在关系;非0则相反;关系标注没有SH≤OH的约束,若关系标记存在于下三角矩阵中,则将其映射到上三角矩阵中,标注数字也随之由1变为2;
所述单阶段联合解码步骤,包括:
实体解码步骤:对EH to ET的Span矩阵进行解码获得输入文本所包含的全部实体,并将实体的头部字符记为键向量key,以该字符作为头部的所有实体记为值向量value,并写进字典D中;
关系三元组解码步骤:对于每类关系R,对SH to OH的Span矩阵进行解码得到头实体和尾实体的首字符对应的字符对π,并在字典D中查找π对应的key所关联的实体,然后将解析出的相应实体分别存入主实体集S和客实体集O中;相应地解码ST to OT将得到主、客实体的尾部字符对,存入集合T中;
关系三元组查询步骤:对于每类关系R,遍历关系三元组解码步骤中得到的集合S和O中的所有实体对,依次查询实体对的尾部字符对是否在集合T中,若在,则解析出一个SPO三元组,否则,遍历下一组实体对。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于全局指针的军事需求文本实体与关系抽取方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于全局指针的军事需求文本实体与关系抽取方法的步骤。
CN202311038321.6A 2023-08-16 2023-08-16 基于全局指针的军事需求文本实体与关系抽取方法和*** Pending CN117077772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311038321.6A CN117077772A (zh) 2023-08-16 2023-08-16 基于全局指针的军事需求文本实体与关系抽取方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311038321.6A CN117077772A (zh) 2023-08-16 2023-08-16 基于全局指针的军事需求文本实体与关系抽取方法和***

Publications (1)

Publication Number Publication Date
CN117077772A true CN117077772A (zh) 2023-11-17

Family

ID=88717825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311038321.6A Pending CN117077772A (zh) 2023-08-16 2023-08-16 基于全局指针的军事需求文本实体与关系抽取方法和***

Country Status (1)

Country Link
CN (1) CN117077772A (zh)

Similar Documents

Publication Publication Date Title
Zhou et al. Deep learning for aspect-level sentiment classification: survey, vision, and challenges
Yu et al. Typesql: Knowledge-based type-aware neural text-to-sql generation
CN110309511B (zh) 基于共享表示的多任务语言分析***及方法
US20080221870A1 (en) System and method for revising natural language parse trees
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN113609838B (zh) 文档信息抽取及图谱化方法和***
Chen et al. Knowledge graphs meet multi-modal learning: A comprehensive survey
Liu et al. A parallel computing-based deep attention model for named entity recognition
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及***
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
Guo et al. Prompting gpt-3.5 for text-to-sql with de-semanticization and skeleton retrieval
CN117807482A (zh) 海关报关单的分类方法、装置、设备及存储介质
CN115408506B (zh) 联合语义解析和语义成分匹配的nl2sql的方法
Song et al. Hierarchical schema representation for text-to-SQL parsing with decomposing decoding
Rajbhoj et al. DocToModel: automated authoring of models from diverse requirements specification documents
CN117077772A (zh) 基于全局指针的军事需求文本实体与关系抽取方法和***
CN110688453B (zh) 基于资讯分类的场景应用方法、***、介质及设备
CN113449038A (zh) 一种基于自编码器的矿山智能问答***及方法
Zhen et al. Frequent words and syntactic context integrated biomedical discontinuous named entity recognition method
He et al. Document Information Extraction via Global Tagging
CN114490928B (zh) 一种语义搜索的实现方法、***、计算机设备和存储介质
CN116595192B (zh) 科技前沿信息获取方法、装置、电子设备和可读存储介质
Gao et al. A Multi-Module Based Method for Generating Natural Language Descriptions of Code Fragments
Shivashankar et al. Reaching out for the Answer: Answer Type Prediction.
Mills et al. A comparative survey on NLP/U methodologies for processing multi-documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination