CN115905553A - 面向施工图审查规范知识抽取与知识图谱构建方法及*** - Google Patents

面向施工图审查规范知识抽取与知识图谱构建方法及*** Download PDF

Info

Publication number
CN115905553A
CN115905553A CN202211263033.6A CN202211263033A CN115905553A CN 115905553 A CN115905553 A CN 115905553A CN 202211263033 A CN202211263033 A CN 202211263033A CN 115905553 A CN115905553 A CN 115905553A
Authority
CN
China
Prior art keywords
entity
data
knowledge
examination
construction drawing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211263033.6A
Other languages
English (en)
Inventor
冯万利
刘小贝
弭云国
王云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202211263033.6A priority Critical patent/CN115905553A/zh
Publication of CN115905553A publication Critical patent/CN115905553A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种面向施工图审查规范知识抽取与知识图谱构建方法及***,对施工图审查规范的内容进行规范预处理和数据标注,获取标注的数据集Data,基于GlobalPointer的实体关系联合抽取的模型,得到施工图审查规范实体关系联合抽取训练模型Model;将验证集输入Model;经稀疏多标签交叉熵解码并进行实体属性关系识别抽取,预测施工图审查规范中的三元组;并将其转换到Neo4j图数据库中,完成施工规范知识的存储工作,构建施工图审查规范知识图谱;提取审查模型数据并与知识图谱匹配,对待审查的BIM施工图文件数据提取解析,完成匹配内容转化为三维可视的智能化审图结果。本发明可有效实现了非结构化文本实体关系联合抽取、被审施工图的智能化审图,提升施工图智能化审图水平。

Description

面向施工图审查规范知识抽取与知识图谱构建方法及***
技术领域
本发明属于施工图审查规范知识抽取与图谱的智能化审图技术领域,具体涉及一种面向施工图审查规范知识抽取与知识图谱构建方法及***。
背景技术
目前,施工图审查仍然处于传统人工审图模式。施工图审查规范缺乏规则的知识体系,审图人员对规范的理解程度并不统一,因此导致审图质量和效率并不满足当前需求。面向施工图审查规范语句结构复杂、关联性强的问题,即使借助审图辅助工具,这种审图方式需要耗费巨大的人力与物力。
从原始文本中提取实体和关系是知识图谱构建的重要步骤,近年来,随着NLP领域的不断发展,大多数用于实体和关系提取的神经网络模型假设一个句子只包含一个关系,无实体嵌套等事实。然而,面对施工图审查规范中有多个三元组有重叠、关系类别多和实体嵌套与实体非嵌套的情况时,现有模型的效果就有一定的局限性。
发明内容
发明目的:针对现有的技术问题,本发明提供了一种面向施工图审查规范知识抽取与知识图谱构建方法及***,解决了暴露偏差的问题,优化了实体嵌套的抽取效果;审查规范知识图谱和BIM模型结合的审查***,推动施工图审查智能审图的优化和升级,同时也保证了审图的快速性和准确性。
技术方案:本发明提出一种面向施工图审查规范知识抽取与知识图谱构建方法,具体包括以下步骤:
S1、对施工图审查规范的内容进行规范预处理和使用Colabeler标注工具,形成带标签的文本数据,获取标注的数据集Data;并把Data划分为训练集train_data和验证集dev_data;
S2、使用训练集train_data训练使用预训练模型BERT的基于GlobalPointer的实体关系联合抽取的模型,得到施工图审查规范实体关系联合抽取训练模型Model;
S3、将验证集中的单句输入Model模型,经过打分函数得到每个单句实体关系属性;利用稀疏多标签交叉熵解码进行实体属性关系识别抽取,预测出关系三元组;得到施工图审查规范实体属性关系联合抽取模型Model;
S4、采用知识存储映射算法将其三元组转换到Neo4j图数据库中,完成施工规范知识的存储工作,构建施工图审查规范知识图谱;
S5、提取审查模型数据并与知识图谱匹配,对待审查的BIM施工图文件数据提取解析,完成匹配内容转化为三维可视的智能化审图结果。
进一步地,所述步骤S1具体包括:
S1.1、建立需要抽取的知识体系:以规范中的术语部分作为抽取实体的基础;以表达实体对象、设计规范知识、设计规范条文和设计规范文件之间关系的元属性以及表达包含关系和空间关系的属性部分作为抽取属性的基础,以数值属性、措施采取和空间距离作为抽取属性值的基础;以方位、组合、修饰、约束、属性定义、属性设定、操作、包含、同级等作为抽取关系的基础;即有实体、属性和属性值要素需要抽取,并抽取要素之间的关联关系;
S1.2、对标准施工图审查规范进行规范预处理,长句转单句,依据知识体系,采用Colabeler标注工具标注实体、关系、属性,并对输出带标签的文本数据转化实验数据Data;实验数据的结构体:
{“text”:”原文句子”,”spo_list”:[{“subject”:”实体文本”,”predicate”:”关系类型”,”object”:”实体文本”,”subject_type”:”实体类型”,”object_type”:”实体类型”}]}。
进一步地,所述步骤S2具体包括:
S2.1、建立基于GlobalPointer的实体关系联合抽取的模型,所述基于GlobalPointer的实体关系联合抽取的模型的输入为单句,输出为三元组;
所述基于GlobalPointer的实体关系联合抽取的模型首先对输入的每条有效数据中的文本内容text进行分词编码,得到token_ids,segment_ids;token_ids列表:
token_ids=[X1,X2,....,Xn]
将三元组列表spo_list中的每个三元组中的实体文本subject及实体文本object进行分词编码,得到去除第一列和最后一列的token_ids;
将subject和object的token_ids与text的token_ids进行搜索寻找头实体第一个位置sh,头实体的最后一个位置st,尾实体第一个位置oh,尾实体的最后一个位置ot;
根据(sh,st)、(oh,ot)、(sh,oh)、(st,ot)分别形成subject标签、object标签、关系头标签、关系尾标签;
将token_ids与segment_ids,作为BERT模型传入数据,得到向量序列(h1,h2,...hn)=BERT(x1,x2,...xn);
BERT的输出为[batch_size,maxlength,hidden_size]其中作为GlobalPointer的输入;
GlobalPointer第一步经过全连接层把BERT的输出向量转换为[batch_size,maxlength,head_size*2*heads],其中heads代表实体类型的数量;head_size代表指针对于每个heads所需的线性变换的输出维度;
通过两个前馈层,依赖于跨度的开始和结束索引,来计算跨度表示:qi,ɑ=Wq,ɑhi+bq,ɑ;ki,ɑ=Wk,ɑhi+bk,ɑ,得到序列向量序列[q1,ɑ,q2,ɑ,....,qn,ɑ]和[k1,ɑ,k2,ɑ,...,kn,ɑ];其中对于类型ɑ的跨度S[i:j],开始和结束位置表示是qi,ɑ和ki,ɑ,i和j分别为头索引和尾索引;
将相对位置信息显式注入模型,ROPE位置编码应用到实体表示中,满足
Figure BDA0003891444070000031
对于类型ɑ的跨度S[i:j]打分函数为:
Figure BDA0003891444070000032
将BERT的输出进入GlobalPointer,使heads=2,S(sh,st)、S(oh,ot)分别是subject、object的首尾打分,通过S(sh,st)>0和S(oh,ot)>0来识别出所有的subject和object,完成NER任务;
将BERT的输出进入GlobalPointer,使heads等于关系类别数,根据(sh,oh)得出实体的头部关系;
将BERT的输出进入GlobalPointer,使heads等于关系类别数,根据(st,ot)得出实体的尾部关系;
S2.2、将训练集划分为多个批次,采用每个批次训练基于GlobalPointer的实体关系联合抽取的模型参数,得到训练模型Model;通过降低损失函数来优化,损失函数为:
Figure BDA0003891444070000041
其中N为训练样本负类别的集合。
进一步地,所述步骤S3具体包括:
S3.1、读取验证集dev_data有效数据中的文本内容text进行分词,并在分词后结果的首部添加字符“[CLS]”,尾部添加字符“[SEP]”,得到tokens列表:
tokens=[[CLS],X1,X2,...,Xj,...,XmaxLength-2,[SEP]]
其中,Xj为tokens的第j+1个字元素,j=1,2,…,maxlength,maxlength为分词列表的最大长度;
tokens再与原始的text进行映射得到mapping列表:
mapping=[[],[0],[1],...,[j+1],...,[maxLength-1],[]];
S3.2、验证集dev_data有效数据中的文本内容text进行分词编码,得到token_ids,segment_ids,送入模型Model进行预测;
S3.3、满足S(sh,st)>0、S(oh,ot)>0、S(sh,oh)>0和S(st,ot)>0;由稀疏多标签交叉熵解码:每次都只传输正类所对应的下标;结合mapping,得到施工图审查规范约束文本的三元组列表:
spo_list_pred:[[subject,predicate,object]、[subject,predicate,object]、
...、[subject,predicate,object]
S3.4、计算F1值;选择F1值最大的模型作为施工图审查规范实体属性关系联合抽取模型Model。
进一步地,所述步骤S4具体包括:
S4.1、读取三元组列表spo_list_pred,得到所有三元组R,之后解析三元组Ai为Triple={S,P,O};
S4.2、基于公开的REST_API设计封装模式,并以此为接口对访问Neo4j图数据库地址进行连接,针对数据库事务采用begin_Transaction和commit_transaction模块进行事务的开始与确定;同时为‘实体’和‘关系’创建数据库索引RestNode,RestRelationship;
S4.3、从实体索引中获取triple.S及triple.O的对应节点Vs和Vo,查看数据库中是否已存在Vs和Vo,若已存储则进行下一步,反之则重新创建节点并添加到实体索引中;
S4.4、从关系索引中获取triple.P的对应边EP,查看数据库中是否已存储EP,若已存在则进行下步操作,反之则创建全新Vs→Vo的有向边,并将其加入到关系索引中;
S4.5、检查是否所有的三元组Ai已完成遍历任务,若i<n,则任务未完成,转步骤S4.1;反之则说明任务已完成,进行下一步工作;
S4.6、施工图审查规范知识存储于Neo4j图数据库中,并做知识图谱可视化展示。
6、根据权利要求1所述的面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,所述步骤S5具体包括:
S5.1、将BIM数据解析转化IFC格式文件,同时结合已构建的知识图谱,获取施工图规范的实体、属性及关系集合的三元组(E,Rt,S);
S5.2、依据其中的属性集At,得到审图所需类型集T;根据实体与属性间的关系,得到审图所需模件集C;
S5.3、提取模件集C中每个模件的具体数据信息,并将其分为基础信息数据集B、状态信息数据集G及属性信息数据集A,得到最终审图数据集P;
S5.4、基于已构建知识图谱中的限定条件,通过分析比较模型数据向量组中的全部数据元素与审图规范向量组中的标准元素,以此判断其是否符合规范要求;
S5.5、搭建HTML5框架,完成***网页端架构的实现;搭建Three.js渲染场景,以此创建场景、相机和光源,实现建筑模型在网页端三维展示;
S5.6、对待审查的BIM施工图文件数据导入***中,读取解析、构件信息重构、几何空间构建等步骤,点击模型的某一构件,***自动生成审图报告。
基于相同的发明构思,本发明还提供一种面向施工图审查规范知识抽取与知识图谱构建***,包括:
数据集标注获取模块,用于对标准施工图审查规范条文中的文本数据进行规范预处理、建立和依据知识体系,使用Colabeler标注工具标注,并转化实验数据;
施工图审查规范实体关系联合抽取模型建立模块,用于对训练集训练使用预训练模型BERT的基于GlobalPointer的实体关系联合抽取的模型,得到施工图审查规范实体关系联合抽取训练模型Model;
验证集预测三元组抽取模块,用于对待审查施工图的规范约束条文中的文本数据的验证集中的单句输入Model模型,经过打分函数得到每个单句实体关系属性;利用稀疏多标签交叉熵解码进行实体属性关系识别抽取,预测抽取出关系三元组;得到施工图审查规范实体属性关系联合抽取模型Model;
施工图审查规范知识存储与图谱建立模块,用于对抽取的三元组采用知识存储映射算法将其转换到Neo4j图数据库中,完成施工规范知识的存储工作,构建施工图审查规范知识图谱;
审查结果获取展示模块,用于将审查模型数据提取并与知识图谱匹配,对待审查的BIM施工图文件数据提取解析,完成匹配内容转化为三维可视的智能化审图结果。
进一步地,所述***采用基于Web网页的客户端接收用户输入的BIM施工图文件。
进一步地。所述***还包括可视化界面,用于可视化显示审查结果。
进一步地,所述***还包括审查结果文件生成模块,用于将审查结果以文件形式导出。
有益效果:与现有技术相比,本发明的有益效果:本发明采用Colabeler标注工具标注,建立面向施工图审查规范的基于GlobalPointer实体关系联合抽取模型来对规范条文中含有嵌套和非嵌套的实体、属性和关系预测抽取,进而构建三元组,采用知识存储映射算法借助Neo4j库进行施工图审查规范知识图谱的构建,之后将施工图图纸数据与审查规范知识图谱进行匹配,达到施工图智能审查效果,打破传统的施工图人工审查局面,突破了实体关系分开抽取的繁琐步骤,针对智能化审图方面具有高准确度和完备性,满足行业的智能化审图需求;本发明适用于含有嵌套和非嵌套实体的审查规范文本数据关联为结构化知识,然后根据知识图谱匹配从而实现施工图审查自动化问题。
附图说明
图1为面向施工图审查规范知识抽取与知识图谱构建方法的流程图;
图2为面向施工图审查规范的基于GlobalPointer实体关系联合抽取模型的结构示意图;
图3为面向施工图审查规范知识知识存储映射算法流程图;
图4为面向施工图审查规范知识抽取与知识图谱构建***的组成示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明公开了一种面向施工图审查规范知识抽取与知识图谱构建方法,如图1所示,包括如下步骤:
S1、对施工图审查规范的内容进行规范预处理和使用Colabeler标注工具,形成带标签的文本数据,获取标注的数据集Data;具体包括:
S1.1、建立需要抽取的知识体系:以规范中的术语部分作为抽取实体的基础;以表达实体对象、设计规范知识、设计规范条文和设计规范文件之间关系的元属性以及表达包含关系和空间关系的属性部分作为抽取属性的基础,以数值属性、措施采取和空间距离作为抽取属性值的基础;以方位、组合、修饰、约束、属性定义、属性设定、操作、包含、同级等作为抽取关系的基础;即有实体、属性和属性值要素需要抽取,并抽取要素之间的关联关系。
把施工图审查规范知识按照约束内容的类型分为对象属性、包含关系、措施采取、空间关系、规范遵循、术语明确和其他。
三元组通常是描述概念与实体、实体间、实体与属性、属性与属性值的关系,具体有以下几种情况:
概念与实体:民用建筑与一二级民用建筑之间即概念与实体的关系。
实体间:通常为同级关系和包含关系,例如建筑包含民用建筑和工业建筑,这两者属于同级,结构墙属于墙的关系为包含关系。
实体与属性:例如防火墙的高度、耐火等级即实体与属性的关系。
属性与属性值:例如地下设备用房的建筑面积是150m2
S1.2、对标准施工图审查规范进行规范预处理,长句转单句,依据知识体系,采用Colabeler标注工具标注实体、关系、属性,并对输出带标签的文本数据转化实验数据Data;实验数据的结构体:
{“text”:”原文句子”,”spo_list”:[{“subject”:”实体文本”,”predicate”:”关系类型”,”object”:”实体文本”,”subject_type”:”实体类型”,”object_type”:”实体类型”}]}。
本发明中,标准施工图审查规范条文从建标网上下载,并以TXT文件导出,作为原始数据集。
利用split函数对原始数据集中的数据按照标点符号进行分割,将其中的长句转化为单句,定义lines列表存放单句数据,使用write函数将lines换行写入规范预处理文本中。
S2、使用训练集训练使用预训练模型BERT的基于GlobalPointer的实体关系联合抽取的模型,得到施工图审查规范实体关系联合抽取训练模型Model;具体包括:
S2.1、将数据集Data中的数据划分为训练集train_data和验证集dev_data。
本实施例中,为了测试模型的准确度,数据集Data中还有一部分作为验证集,具体按7:3比例将Data划分为训练数据集train_data、验证数据集dev_data;
S2.2、建立基于GlobalPointer的实体关系联合抽取的模型,基于GlobalPointer的实体关系联合抽取的模型的输入为单句,输出为三元组,其结构如图2所示。
基于GlobalPointer的实体关系联合抽取的模型首先对输入的每条有效数据中的文本内容text进行分词编码,得到token_ids,segment_ids;token_ids列表:
token_ids=[X1,X2,....,Xn];本实施例中采用谷歌开源中文词表数据获取字元素的分词编码。
将三元组列表spo_list中的每个三元组中的实体文本subject及实体文本object进行分词编码,得到去除第一列和最后一列的token_ids。
将subject和object的token_ids与text的token_ids进行搜索寻找头实体第一个位置sh,头实体的最后一个位置st,尾实体第一个位置oh,尾实体的最后一个位置ot。
根据(sh,st)、(oh,ot)、(sh,oh)、(st,ot)分别形成subject标签、object标签、关系头标签、关系尾标签;本实施例中至少要有一个标签,没有标签用0填充。
将token_ids与segment_ids,作为BERT模型传入数据,得到向量序列(h1,h2,...hn)=BERT(x1,x2,...xn)。
BERT的输出为[batch_size,maxlength,hidden_size]其中作为GlobalPointer的输入。
GlobalPointer第一步经过全连接层把BERT的输出向量转换为[batch_size,maxlength,head_size*2*heads],其中heads代表实体类型的数量;head_size代表指针对于每个heads所需的线性变换的输出维度;此处全连接层的初始化w权重为正态化的lecun初始化,是展平一次性完成线性变换。
通过两个前馈层,依赖于跨度的开始和结束索引,来计算跨度表示:qi,ɑ=Wq,ɑhi+bq,ɑ;ki,ɑ=Wk,ɑhi+bk,ɑ,得到序列向量序列[q1,ɑ,q2,ɑ,....,qn,ɑ]和[k1,ɑ,k2,ɑ,...,kn,ɑ];其中对于类型ɑ的跨度S[i:j],开始和结束位置表示是qi,ɑ和ki,ɑ,i和j分别为头索引和尾索引;本实例中实体通过行列的索引位置确定的。
将相对位置信息显式注入模型,ROPE位置编码应用到实体表示中,满足
Figure BDA0003891444070000091
对于类型ɑ的跨度S[i:j]打分函数为:
Figure BDA0003891444070000092
将BERT的输出进入GlobalPointer,使heads=2,S(sh,st)、S(oh,ot)分别是subject、object的首尾打分,通过S(sh,st)>0和S(oh,ot)>0来识别出所有的subject和object,完成NER任务。
将BERT的输出进入GlobalPointer,使heads等于关系类别数,根据(sh,oh)得出实体的头部关系。
将BERT的输出进入GlobalPointer,使heads等于关系类别数,根据(st,ot)得出实体的尾部关系。
S2.3、将训练集划分为多个批次,采用每个批次训练基于GlobalPointer的实体关系联合抽取的模型参数,得到训练模型Model;所述训练通过降低损失函数来优化,所述损失函数为:
Figure BDA0003891444070000093
其中,N为训练样本负类别的集合。
本实施例中,在面向施工图审查规范基于GlobalPointer实体关系联合抽取模型训练时利用库train_generator构建数据迭代器,传入参数包括单次训练样本数batch_size,和训练周期epochs。
S3、将验证集中的单句输入Model模型,经过打分函数得到每个单句实体关系属性;利用稀疏多标签交叉熵解码进行实体属性关系识别抽取,预测出关系三元组;得到施工图审查规范实体属性关系联合抽取模型Model;具体包括:
S3.1、读取验证集dev_data有效数据中的文本内容text进行分词,并在分词后结果的首部添加字符“[CLS]”,尾部添加字符“[SEP]”,得到tokens列表:
tokens=[[CLS],X1,X2,...,Xj,...,XmaxLength-2,[SEP]]
其中,Xj为tokens的第j+1个字元素,j=1,2,…,maxlength,maxlength为分词列表的最大长度。
tokens再与原始的text进行映射得到mapping列表:
mapping=[[],[0],[1],...,[j+1],...,[maxLength-1],[]]。
S3.2、验证集dev_data有效数据中的文本内容text进行分词编码,得到token_ids,segment_ids,送入模型Model进行预测。
S3.3、满足S(sh,st)>0、S(oh,ot)>0、S(sh,oh)>0和S(st,ot)>0;由稀疏多标签交叉熵解码:每次都只传输正类所对应的下标;结合mapping,得到施工图审查规范约束文本的三元组列表:
spo_list_pred:[[subject,predicate,object]、[subject,predicate,object]、...、[subject,predicate,object];
S3.4、计算F1值;选择F1值最大的模型作为施工图审查规范实体属性关系联合抽取模型Model。
本实施例中,实验评价标准通过精确率Precision、召回率Recall、F1值、训练损失值四个方面进行分析。训练损失值包含了抽取实体的损失值、预测关系头的损失值和预测关系尾的损失值。
S4、采用知识存储映射算法将其三元组转换Neo4j图数据库中,完成施工规范知识的存储工作,构建施工图审查规范知识图谱;面向施工图审查规范知识知识存储映射算法流程图如图3所示。
具体包括:
S4.1、读取三元组列表spo_list_pred,得到所有三元组R,之后解析三元组Ri为Triple={S,P,O}。
S4.2、基于公开的REST_API设计封装模式,并以此为接口对访问Neo4j图数据库地址进行连接,针对数据库事务采用begin_Transaction和commit_transaction模块进行事务的开始与确定。同时为‘实体’和‘关系’创建数据库索引RestNode,RestRelationship。
S4.3、从实体索引中获取triple.S及triple.O的对应节点Vs和Vo,查看数据库中是否已存在Vs和Vo,若已存储则进行下一步,反之则重新创建节点并添加到实体索引中。
S4.4、从关系索引中获取triple.P的对应边EP,查看数据库中是否已存储EP,若已存在则进行下步操作,反之则创建全新Vs→Vo的有向边,并将其加入到关系索引中。
S4.5、检查是否所有的三元组Ri已完成遍历任务,若i<n,则任务未完成,转步骤S4.1;反之则说明任务已完成,进行下一步工作。
S4.6、施工图审查规范知识存储于Neo4j图数据库中,并做知识图谱可视化展示。
S5、将审查模型数据提取并与知识图谱匹配,对待审查的BIM施工图文件数据提取解析,完成匹配内容转化为三维可视的智能化审图结果。具体包括:
S5.1、将BIM数据解析转化IFC格式文件,同时结合已构建的知识图谱,获取施工图规范的实体、属性及关系集合的三元组(E,Rt,S)。
S5.2、依据其中的属性集Rt,得到审图所需类型集T;根据实体与属性间的关系,得到审图所需模件集C。
S5.3、提取模件集C中每个模件的具体数据信息,并将其分为基础信息数据集B、状态信息数据集G及属性信息数据集A,得到最终审图数据集P。
S5.4、基于已构建知识图谱中的限定条件,通过分析比较模型数据向量组中的全部数据元素与审图规范向量组中的标准元素,以此判断其是否符合规范要求。
本实例中审图规范向量组包括几何信息审图规范向量组和模件/空间信息审图规范向量组。
S5.5、搭建HTML5框架,完成***网页端架构的实现;搭建Three.js渲染场景,以此创建场景、相机和光源,实现建筑模型在网页端三维展示。
S5.6、对待审查的BIM施工图文件数据导入***中,读取解析、构件信息重构、几何空间构建等步骤,点击模型的某一构件,***自动生成审图报告。
本实施例通过对17730条施工图审查规范进行数据预处理标注之后,通过上述方法实现施工图审查规范知识抽取与图谱构建。基于GlobalPointer实体关系联合抽取模型可以有效地对含有嵌套和非嵌套实体的审查规范句子进行三元组抽取,如表1所示。
表1是部分句子的三元组抽取样例
Figure BDA0003891444070000121
面向施工图审查规范基于GlobalPointer实体关系联合抽取模型在验证集上识别精确率为89.36%,召回率为91.80%,F1值为90.58%。
基于相同的发明构思,本发明还提供了一种面向施工图审查规范知识抽取与知识图谱构建***,如图4所示,包括:
数据集标注获取模块,用于按照步骤S1对标准施工图审查规范条文中的文本数据进行规范预处理、建立和依据知识体系,使用Colabeler标注工具标注,并转化实验数据。
施工图审查规范实体关系联合抽取模型建立模块,用于按照步骤S2对训练集训练使用预训练模型BERT的基于GlobalPointer的实体关系联合抽取的模型,得到施工图审查规范实体关系联合抽取训练模型Model。
验证集预测三元组抽取模块,用于按照步骤S3对待审查施工图的规范约束条文中的文本数据的验证集中的单句输入Model模型,经过打分函数得到每个单句实体关系属性;利用稀疏多标签交叉熵解码进行实体属性关系识别抽取,预测抽取出关系三元组;得到施工图审查规范实体属性关系联合抽取模型Model。
施工图审查规范知识存储与图谱建立模块,用于按照步骤S4对抽取的三元组采用知识存储映射算法将其转换到Neo4j图数据库中,完成施工规范知识的存储工作,构建施工图审查规范知识图谱。
审查结果获取展示模块,用于按照步骤S5将审查模型数据提取并与知识图谱匹配,对待审查的BIM施工图文件数据提取解析,完成匹配内容转化为三维可视的智能化审图结果。
本实施例中,采用基于Web网页的客户端接收用户输入的BIM施工图文件。此外,用户可直接于浏览器中查看模型信息及审图内容,方便快捷,无需安装专业的模型生成软件,且***具有可扩展性,方便后续内容的添加与修改。还包括可视化界面,用于可视化显示审查结果;审查结果还可以通过审查结果文件生成模块以文件形式导出。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims (10)

1.一种面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,包括如下步骤:
S1、对施工图审查规范的内容进行规范预处理和使用Colabeler标注工具,形成带标签的文本数据,获取标注的数据集Data;并把Data划分为训练集train_data和验证集dev_data;
S2、使用训练集train_data训练使用预训练模型BERT的基于GlobalPointer的实体关系联合抽取的模型,得到施工图审查规范实体关系联合抽取训练模型Model;
S3、将验证集中的单句输入Model模型,经过打分函数得到每个单句实体关系属性;利用稀疏多标签交叉熵解码进行实体属性关系识别抽取,预测出关系三元组;得到施工图审查规范实体属性关系联合抽取模型Model;
S4、采用知识存储映射算法将其三元组转换到Neo4j图数据库中,完成施工规范知识的存储工作,构建施工图审查规范知识图谱;
S5、提取审查模型数据并与知识图谱匹配,对待审查的BIM施工图文件数据提取解析,完成匹配内容转化为三维可视的智能化审图结果。
2.根据权利要求1所述的面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,所述步骤S1具体包括:
S1.1、建立需要抽取的知识体系:以规范中的术语部分作为抽取实体的基础;以表达实体对象、设计规范知识、设计规范条文和设计规范文件之间关系的元属性以及表达包含关系和空间关系的属性部分作为抽取属性的基础,以数值属性、措施采取和空间距离作为抽取属性值的基础;以方位、组合、修饰、约束、属性定义、属性设定、操作、包含、同级等作为抽取关系的基础;即有实体、属性和属性值要素需要抽取,并抽取要素之间的关联关系;
S1.2、对标准施工图审查规范进行规范预处理,长句转单句,依据知识体系,采用Colabeler标注工具标注实体、关系、属性,并对输出带标签的文本数据转化实验数据Data;实验数据的结构体:
{“text”:”原文句子”,”spo_list”:[{“subject”:”实体文本”,”predicate”:”关系类型”,”object”:”实体文本”,”subject_type”:”实体类型”,”object_type”:”实体类型”}]}。
3.根据权利要求1所述的面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,所述步骤S2具体包括:
S2.1、建立基于GlobalPointer的实体关系联合抽取的模型,所述基于GlobalPointer的实体关系联合抽取的模型的输入为单句,输出为三元组;
所述基于GlobalPointer的实体关系联合抽取的模型首先对输入的每条有效数据中的文本内容text进行分词编码,得到token_ids,segment_ids;token_ids列表:
token_ids=[X1,X2,....,Xn]
将三元组列表spo_list中的每个三元组中的实体文本subject及实体文本object进行分词编码,得到去除第一列和最后一列的token_ids;
将subject和object的token_ids与text的token_ids进行搜索寻找头实体第一个位置sh,头实体的最后一个位置st,尾实体第一个位置oh,尾实体的最后一个位置ot;
根据(sh,st)、(oh,ot)、(sh,oh)、(st,ot)分别形成subject标签、object标签、关系头标签、关系尾标签;
将token_ids与segment_ids,作为BERT模型传入数据,得到向量序列(h1,h2,...hn)=BERT(x1,x2,...xn);
BERT的输出为[batch_size,maxlength,hidden_size]其中作为GlobalPointer的输入;
GlobalPointer第一步经过全连接层把BERT的输出向量转换为[batch_size,maxlength,head_size*2*heads],其中heads代表实体类型的数量;head_size代表指针对于每个heads所需的线性变换的输出维度;
通过两个前馈层,依赖于跨度的开始和结束索引,来计算跨度表示:qi,ɑ=Wq,ɑhi+bq,ɑ;ki,ɑ=Wk,ɑhi+bk,ɑ,得到序列向量序列[q1,ɑ,q2,ɑ,....,qn,ɑ]和[k1,ɑ,k2,ɑ,...,kn,ɑ];其中对于类型ɑ的跨度S[i:j],开始和结束位置表示是qi,ɑ和ki,ɑ,i和j分别为头索引和尾索引;
将相对位置信息显式注入模型,ROPE位置编码应用到实体表示中,满足
Figure FDA0003891444060000031
对于类型ɑ的跨度S[i:j]打分函数为:
Figure FDA0003891444060000032
将BERT的输出进入GlobalPointer,使heads=2,S(sh,st)、S(oh,ot)分别是subject、object的首尾打分,通过S(sh,st)>0和S(oh,ot)>0来识别出所有的subject和object,完成NER任务;
将BERT的输出进入GlobalPointer,使heads等于关系类别数,根据(sh,oh)得出实体的头部关系;
将BERT的输出进入GlobalPointer,使heads等于关系类别数,根据(st,ot)得出实体的尾部关系;
S2.2、将训练集划分为多个批次,采用每个批次训练基于GlobalPointer的实体关系联合抽取的模型参数,得到训练模型Model;通过降低损失函数来优化,损失函数为:
Figure FDA0003891444060000033
其中N为训练样本负类别的集合。
4.根据权利要求1所述的面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,所述步骤S3具体包括:
S3.1、读取验证集dev_data有效数据中的文本内容text进行分词,并在分词后结果的首部添加字符“[CLS]”,尾部添加字符“[SEP]”,得到tokens列表:
tokens=[[CLS],X1,X2,...,Xj,...,XmaxLength-2,[SEP]]
其中,Xj为tokens的第j+1个字元素,j=1,2,…,maxlength,maxlength为分词列表的最大长度;
tokens再与原始的text进行映射得到mapping列表:
mapping=[[],[0],[1],...,[j+1],...,[maxLength-1],[]];
S3.2、验证集dev_data有效数据中的文本内容text进行分词编码,得到token_ids,segment_ids,送入模型Model进行预测;
S3.3、满足S(sh,st)>0、S(oh,ot)>0、S(sh,oh)>0和S(st,ot)>0;由稀疏多标签交叉熵解码:每次都只传输正类所对应的下标;结合mapping,得到施工图审查规范约束文本的三元组列表:
spo_list_pred:[[subject,predicate,object]、[subject,predicate,object]、...、[subject,predicate,object]
S3.4、计算F1值;选择F1值最大的模型作为施工图审查规范实体属性关系联合抽取模型Model。
5.根据权利要求1所述的面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,所述步骤S4具体包括:
S4.1、读取三元组列表spo_list_pred,得到所有三元组R,之后解析三元组Ai为Triple={S,P,O};
S4.2、基于公开的REST_API设计封装模式,并以此为接口对访问Neo4j图数据库地址进行连接,针对数据库事务采用begin_Transaction和commit_transaction模块进行事务的开始与确定;同时为‘实体’和‘关系’创建数据库索引RestNode,RestRelationship;
S4.3、从实体索引中获取triple.S及triple.O的对应节点Vs和Vo,查看数据库中是否已存在Vs和Vo,若已存储则进行下一步,反之则重新创建节点并添加到实体索引中;
S4.4、从关系索引中获取triple.P的对应边EP,查看数据库中是否已存储EP,若已存在则进行下步操作,反之则创建全新Vs→Vo的有向边,并将其加入到关系索引中;
S4.5、检查是否所有的三元组Ri已完成遍历任务,若i<n,则任务未完成,转步骤S4.1;反之则说明任务已完成,进行下一步工作;
S4.6、施工图审查规范知识存储于Neo4j图数据库中,并做知识图谱可视化展示。
6.根据权利要求1所述的面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,所述步骤S5具体包括:
S5.1、将BIM数据解析转化IFC格式文件,同时结合已构建的知识图谱,获取施工图规范的实体、属性及关系集合的三元组(E,Rt,S);
S5.2、依据其中的属性集Rt,得到审图所需类型集T;根据实体与属性间的关系,得到审图所需模件集C;
S5.3、提取模件集C中每个模件的具体数据信息,并将其分为基础信息数据集B、状态信息数据集G及属性信息数据集A,得到最终审图数据集P;
S5.4、基于已构建知识图谱中的限定条件,通过分析比较模型数据向量组中的全部数据元素与审图规范向量组中的标准元素,以此判断其是否符合规范要求;
S5.5、搭建HTML5框架,完成***网页端架构的实现;搭建Three.js渲染场景,以此创建场景、相机和光源,实现建筑模型在网页端三维展示;
S5.6、对待审查的BIM施工图文件数据导入***中,读取解析、构件信息重构、几何空间构建等步骤,点击模型的某一构件,***自动生成审图报告。
7.一种采用如权利要求1-6任一所述方法的面向施工图审查规范知识抽取与知识图谱构建***,其特征在于,所述***包括:
数据集标注获取模块,用于对标准施工图审查规范条文中的文本数据进行规范预处理、建立和依据知识体系,使用Colabeler标注工具标注,并转化实验数据;
施工图审查规范实体关系联合抽取模型建立模块,用于对训练集训练使用预训练模型BERT的基于GlobalPointer的实体关系联合抽取的模型,得到施工图审查规范实体关系联合抽取训练模型Model;
验证集预测三元组抽取模块,用于对待审查施工图的规范约束条文中的文本数据的验证集中的单句输入Model模型,经过打分函数得到每个单句实体关系属性;利用稀疏多标签交叉熵解码进行实体属性关系识别抽取,预测抽取出关系三元组;得到施工图审查规范实体属性关系联合抽取模型Model;
施工图审查规范知识存储与图谱建立模块,用于对抽取的三元组采用知识存储映射算法将其转换到Neo4j图数据库中,完成施工规范知识的存储工作,构建施工图审查规范知识图谱;
审查结果获取展示模块,用于将审查模型数据提取并与知识图谱匹配,对待审查的BIM施工图文件数据提取解析,完成匹配内容转化为三维可视的智能化审图结果。
8.根据权利要求7所述的面向施工图审查规范知识抽取与知识图谱构建***,其特征在于,所述***采用基于Web网页的客户端接收用户输入的BIM施工图文件。
9.根据权利要求7所述的面向施工图审查规范知识抽取与知识图谱构建***,其特征在于,所述***还包括可视化界面,用于可视化显示审查结果。
10.根据权利要求7所述的面向施工图审查规范知识抽取与知识图谱构建***,其特征在于,所述***还包括审查结果文件生成模块,用于将审查结果以文件形式导出。
CN202211263033.6A 2022-10-14 2022-10-14 面向施工图审查规范知识抽取与知识图谱构建方法及*** Pending CN115905553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211263033.6A CN115905553A (zh) 2022-10-14 2022-10-14 面向施工图审查规范知识抽取与知识图谱构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211263033.6A CN115905553A (zh) 2022-10-14 2022-10-14 面向施工图审查规范知识抽取与知识图谱构建方法及***

Publications (1)

Publication Number Publication Date
CN115905553A true CN115905553A (zh) 2023-04-04

Family

ID=86488789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211263033.6A Pending CN115905553A (zh) 2022-10-14 2022-10-14 面向施工图审查规范知识抽取与知识图谱构建方法及***

Country Status (1)

Country Link
CN (1) CN115905553A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703337A (zh) * 2023-08-08 2023-09-05 金现代信息产业股份有限公司 一种基于人工智能技术的项目文档审查***及方法
CN116882009A (zh) * 2023-07-10 2023-10-13 海南恒行建筑科技有限公司 一种基于bim技术的装配式建筑设计方法
CN116882032A (zh) * 2023-09-04 2023-10-13 中国建筑西南设计研究院有限公司 一种建筑设计图集数字化、可视化及其应用方法与装置
CN117935249A (zh) * 2024-03-20 2024-04-26 南昌工程学院 基于三维激光扫描参数自动提取的围岩等级辨识***
CN117953532A (zh) * 2024-02-04 2024-04-30 北京城建信捷轨道交通工程咨询有限公司 轨道交通施工图人工智能审查方法及***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116882009A (zh) * 2023-07-10 2023-10-13 海南恒行建筑科技有限公司 一种基于bim技术的装配式建筑设计方法
CN116703337A (zh) * 2023-08-08 2023-09-05 金现代信息产业股份有限公司 一种基于人工智能技术的项目文档审查***及方法
CN116882032A (zh) * 2023-09-04 2023-10-13 中国建筑西南设计研究院有限公司 一种建筑设计图集数字化、可视化及其应用方法与装置
CN116882032B (zh) * 2023-09-04 2023-11-17 中国建筑西南设计研究院有限公司 一种建筑设计图集数字化、可视化及其应用方法与装置
CN117953532A (zh) * 2024-02-04 2024-04-30 北京城建信捷轨道交通工程咨询有限公司 轨道交通施工图人工智能审查方法及***
CN117935249A (zh) * 2024-03-20 2024-04-26 南昌工程学院 基于三维激光扫描参数自动提取的围岩等级辨识***
CN117935249B (zh) * 2024-03-20 2024-06-07 南昌工程学院 基于三维激光扫描参数自动提取的围岩等级辨识***

Similar Documents

Publication Publication Date Title
CN115905553A (zh) 面向施工图审查规范知识抽取与知识图谱构建方法及***
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
US9323731B1 (en) Data extraction using templates
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN111259153B (zh) 一种完全注意力机制的属性级情感分析方法
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN114880468B (zh) 基于BiLSTM与知识图谱的建筑规范审查方法与***
CN111274267A (zh) 一种数据库查询方法、装置及计算机可读取存储介质
CN110442728A (zh) 基于word2vec汽车产品领域的情感词典构建方法
CN112183056A (zh) 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和***
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN115599899A (zh) 基于飞行器知识图谱的智能问答方法、***、设备及介质
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和***
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助***及其控制方法
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及***
CN116304115B (zh) 一种基于知识图谱的物资匹配替换方法和装置
CN117312577A (zh) 基于多层语义图卷积神经网络交通事件知识图谱构建方法
CN117271557A (zh) 一种基于业务规则的sql生成解释方法、装置、设备及介质
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、***及电子设备
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN115357711A (zh) 一种方面级情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination