CN115238685B

CN115238685B - 一种基于位置感知的建筑工程变更事件联合抽取方法

Info

Publication number: CN115238685B
Application number: CN202211166342.1A
Authority: CN
Inventors: 刘发贵; 吴怡
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-03-21
Anticipated expiration: 2042-09-23
Also published as: CN115238685A

Abstract

本发明提供了一种基于位置感知的建筑工程变更事件联合抽取方法。该方法包括以下步骤：获取多个建筑工程变更文本，定义工程变更事件的论元和触发词；对工程变更文本进行预处理，并根据工程变更事件的论元和触发词对工程变更文本进行字粒度的标注；获得工程变更事件的原型表征；构建字符特征编码模块，强化论元和触发词边界位置的字符，得到领域知识增强的字符特征；构建句子特征编码模块，得到变更语义感知的句子特征；构建特征聚合模块，得到具有全局语境的深层字符特征；构建序列标注模块，进行工程变更事件的结构化表达。本发明通过在字符特征中融合领域知识语义、句子级别特征，并利用先验标签知识，有助于提升建筑工程变更事件的抽取效果。

Description

一种基于位置感知的建筑工程变更事件联合抽取方法

技术领域

本发明属于自然语言处理和建筑领域，尤其涉及一种基于位置感知的建筑工程变更事件联合抽取方法。

背景技术

建筑工程由于其长期性、复杂性和动态性特点，在项目开展期间，施工需求、施工环境、施工进度、施工质量等的变化，容易引发工程量的变动。工程变更是施工过程中的一个关键环节，其变更意向需要被及时评估、变更指令需要被严格执行、变更资料需要被有效记录，否则不仅会造成建筑项目参与单位的经济损失，更严重地，对建筑质量和安全产生影响。因此，对工程变更事件进行有效管理是建筑项目顺利完成的必要条件。

工程变更事件通常存在于非结构化文档中，包含对于变更目标及其相关属性的描述，称之为工程变更事件的关键要素，例如：变更对象、所属地点、变更方式等。对于此类关键要素进行抽取，有助于快速获取变更需求，进一步地，有助于全面地结构化存储变更事件，提升工程管理水平。

目前，事件抽取的方法大多基于句子级进行识别。发明专利一种建筑施工工序约束的自动抽取和分类方法及***，对建筑规范条文中的工序约束进行了抽取。然而忽略了当文本包含多个句子，且事件要素分散在上下文的情况。Zheng S等人对金融领域的文档级事件进行了研究，该方法是在基于已知标准实体提及标签的情况下实现。但是在建筑领域，尚无完全成熟、通用的实体识别模型，无法通过利用实体类别信息以分类方式实现事件抽取（Zheng S, Cao W, Xu W, et al. Doc2EDAG: An end-to end document-levelframework for Chinese financial event extraction[J]. arXiv preprint arXiv:1904. 07535, 2019.）。此外，建筑工程变更事件虽然不可避免，但相比于新闻事件等，仍然属于小样本问题，使得抽取难度较大。

发明内容

本发明的目的在于利用自然语言处理技术智能地抽取建筑领域工程变更事件的关键要素，并进行结构化表达。本发明将工程变更事件论元角色融入到论元类别标签中，并强化论元的边界位置字符特征，同时结合工程变更事件原型表征加强不同位置的句子特征，实现了文档级工程变更事件的联合抽取。

本发明的目的至少通过如下技术方案之一实现。

一种基于位置感知的建筑工程变更事件联合抽取方法，包括以下步骤：

S1：获取多个建筑工程变更文本，分析工程变更文本，确定构成工程变更事件的要素，定义工程变更事件的论元和触发词；

S2：对工程变更文本进行预处理，并根据工程变更事件的论元和触发词对工程变更文本进行字粒度的标注；

S3：根据标注后的工程变更文本的标签信息获得工程变更事件的原型表征；

S4：构建字符特征编码模块，利用工程变更事件的要素语义强化论元和触发词边界位置的字符，得到领域知识增强的字符特征；

S5：构建句子特征编码模块，利用工程变更事件的原型表征感知工程变更文档中包含事件论元和触发词的句子，得到变更语义感知的句子特征；

S6：构建特征聚合模块，将句子特征与字符特征相融合，得到具有全局语境的深层字符特征；

S7：构建序列标注模块，学习深层字符特征对应的标签依赖信息，得到工程变更文本中的最优标签序列，并进行工程变更事件的结构化表达。

进一步地，步骤S1中，构成工程变更事件的要素包括建筑构件、建筑场地、建筑楼层、建筑空间、属性、数值属性值、对象属性目标和对建筑构件的变更方式；

定义工程变更事件的论元的角色，包括建筑构件、建筑场地、建筑楼层、建筑空间、属性、数值属性值和对象属性目标；

工程变更事件的触发词为表达变更方式的词。

进一步地，步骤S2中，工程变更文本包括多个句子，按照工程变更文本中的标点符号，将工程变更文本进行分句预处理，每一行为单一句子；

获取预处理后每份工程变更文本中所包括的句子数和句子长度；采用‘BIO’三位序列标注法，对工程变更文本进行字符粒度的标注。

进一步地，所述采用‘BIO’三位序列标注法，对工程变更文本进行字符粒度的标注，具体如下：

将工程变更文本中类别属于论元的词标注为论元，标签即为其角色；将工程变更文本中表达变更方式的词标注为触发词。

进一步地，步骤S3具体包括以下步骤：

S3.1：分析构成工程变更事件的要素的重要性，对步骤S1中确定的要素分配权重；

S3.2：针对每份工程变更文本，对于步骤S2中标注的论元和触发词，获取其对应的词向量，并根据其权重计算此工程变更文本中包括的工程变更事件的语义表征e，具体如下：

，

其中，

为工程变更文本中的要素即标注的论元或触发词的词向量，

为论元或触发词

的权重，

为不同要素类别数量；

S3.3：计算步骤S1中获取的所有工程变更文本对应的工程变更事件的语义表征，经过平均计算得到工程变更事件的原型表征

：

，

其中，

为步骤S1中获取的工程变更文本数量。

进一步地，步骤S4包括以下步骤：

S4.1：将工程变更文本中由T个字符组成的第i个句子

输入词向量模型获取第i 个句子

中的每个字符向量

，

表示工程变更文本中第i个句子

中的第t个字符向量，t=1~T；

S4.2：通过编码层提取第i个句子

中每个字符的隐藏特征

；

S4.3：使用分词工具对第i个句子

进行分词，将第i个句子

中每个词的语义信息，以不同字符位置权重融合到词内各字符隐藏特征，得到领域知识增强的字符特征

：

，

其中，

表示第i个句子

中第j个词的语义向量，p表示构成第i个句子

中第j 个词的第p个字符,

表示第i个句子

中第j个词的第p个字符对应的位置权重；

S4.4：对工程变更文本中所有的句子重复步骤S4.1~S4.3，得到工程变更文本中所有句子中每个字符的领域知识增强的字符特征。

进一步地，所述字符位置权重

，其计算公式如下：

，

其中，softmax()表示归一化指数函数；Normalization()表示最大最小值归一化；

表示第i个句子

中第j个词所包括的字符数量。

进一步地，步骤S5包括以下步骤：

S5.1：建立能够提取句子局部特征的编码层，学习步骤S4.2中的第i个句子

中每个字符的隐藏特征，得到第i个句子的语义表征

；

S5.2：根据第i个句子在文档中的位置顺序，拼接一个位置向量

，得到第i个句子的句子表征

：

；

S5.3：计算工程变更事件原型表征与句子表征的相关性，加强文档中包括事件论元或触发词的事件句特征，抑制不相关的非事件句特征，得到第i个句子的变更语义感知的句子特征

：

，

其中，

为使用注意力机制得到的第i个句子的句子表征与工程变更事件原型表征的相关度；

S5.4：对工程变更文本中所有的句子重复步骤S5.1~S5.3，得到工程变更文本中所有句子的变更语义感知的句子特征。

进一步地，步骤S6中，对工程变更文本中的所有句子，将变更语义感知的句子特征融合到句子内的领域知识增强的字符特征上，得到具有全局语境的深层字符特征

，具体如下：

，

其中，

表示第i个句子中第t个字符的深层字符特征，

表示特征融合方法。

进一步地，步骤S7包括以下步骤：

S7.1：将工程变更文本中所有字符对应的深层字符特征输入到条件随机场模型，学习工程变更文本所有字符在步骤S2中标注的标签之间的依赖关系，获取待抽取工程变更文本的最优标签序列；

S7.2：根据工程变更文本的最优标签序列，抽取相应标签类别的词填入工程变更事件表达模板中，对工程变更事件进行结构化表达。

与现有技术相比，本发明至少具有以下有益效果：

1、本发明通过字符特征编码模块，将具有领域知识的词的语义融合到字符特征中，有助于提升建筑领域工程变更事件论元和触发词的识别准确率；并通过位置权重强化词内边界字符的特征，减小了论元和触发词边界识别错误的问题；

2、本发明通过句子特征编码模块，使用注意力机制加强了包含论元和触发词的事件句特征，抑制了非事件句特征；同时，将句子级别特征融合到字级别特征中，构建了具有全局上下文语境的深层字符特征；

3、本发明通过构建工程变更事件原型表征，模型能够利用先验标签知识，有助于工程变更小样本事件抽取。

附图说明

图1为本发明提出的建筑工程变更事件联合抽取方法的流程图；

图2为本发明方法的具体实施例中工程变更文本标注和结构化表达示意图；

图3为本发明方法的具体实施例中字符编码模块的示意图；

图4为本发明方法的具体实施例中句子编码模块的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明，但本发明的实施和保护不限于此。

实施例1：

一种基于位置感知的建筑工程变更事件联合抽取方法，如图1所示，包括以下步骤：

构成工程变更事件的要素包括建筑构件、建筑场地、建筑楼层、建筑空间、属性、数值属性值、对象属性目标和对建筑构件的变更方式；

确定构成工程变更事件的关键要素包括8种，要素1~要素8的含义如下：

要素1：确定或计划需要改动的建筑构件；

要素2：该建筑构件所属的主体工程或配套工程；

要素3：该建筑构件所在的楼层位置；

要素4：该建筑构件所在的空间位置；

要素5：该建筑构件需要改动的建筑属性；

要素6：建筑数据属性需变更的数值要求；

要素7：建筑对象属性需变更的目标要求；

要素8：对建筑构件实施变更的具体方式。

可以理解的是，这里的工程变更事件要素包括但不限于要素1 ~要素8。

工程变更事件的触发词为表达变更方式的词。

工程变更文本包括多个句子，按照工程变更文本中的标点符号，将工程变更文本进行分句预处理，每一行为单一句子；

所述采用‘BIO’三位序列标注法，对工程变更文本进行字符粒度的标注，具体如下：

本实施例中，如图2所示，为一份标注了论元和触发词的工程变更文本。

S3：根据标注后的工程变更文本的标签信息获得工程变更事件的原型表征，具体包括以下步骤：

S3.2：针对每份工程变更文本，对于步骤S2中标注的论元和触发词，获取其对应的词向量，并根据其权重计算此工程变更文本中包括的工程变更事件的语义表征，具体如下：

，

其中，

为工程变更文本中的要素即标注的论元或触发词的词向量，

为论元或触发词

的权重，

为不同要素类别数量；本实施例中，词向量通过查询word2vec词向量模型获得；

本实施例中，如图2所示，标注的工程变更事件表达词为：

（修改，第五座，41楼，后勤区，天花，高度）；

通过分析工程变更文本所表达的信息，确定要素1为必须明确的要素，因此设置论元“建筑构件”权重为第一等级；建筑构件的位置信息要素2~要素4次之，因此设置论元“建筑场地”、“建筑楼层”、“建筑空间”权重为第二等级；要素5~要素8在工程变更意向类文本中存在尚未明确的可能性，或存在于图纸中，因此设置论元“属性”、“数值属性值”、“对象属性目标”和触发词权重为第三等级；

S3.3：计算步骤S1中获取的所有工程变更文本对应的工程变更事件的语义表征，经过平均计算得到工程变更事件的原型表征：

，

其中，

为步骤S1中获取的工程变更文本数量。

S4：构建字符特征编码模块，利用工程变更事件的要素语义强化论元和触发词边界位置的字符，得到领域知识增强的字符特征，包括以下步骤：

S4.1：将工程变更文本中由T个字符组成的第i个句子

输入词向量模型获取第i 个句子

中的每个字符向量

，

表示工程变更文本中第i个句子

中的第t个字符向量，t=1~T；在本实施例中使用双向语言模型BERT，获取每个字符向量

；

S4.2：在本实施例中，通过双向长短期记忆神经网络Bi-LSTM提取第i个句子

中每个字符的隐藏特征

；

S4.3：使用分词工具对第i个句子

进行分词，将第i个句子

：

，

其中，

表示第i个句子

中第j个词的语义向量，p表示构成第i个句子

中第j 个词的第p个字符,

表示第i个句子

中第j个词的第p个字符对应的位置权重；

所述字符位置权重

，其计算公式如下：

，

其中，

表示第i个句子

中第j个词所包括的字符数量。

在本发明中，由于序列标注任务需要识别一段连续的字符，容易产生边界识别错误；并且，传统的基于字粒度的序列标注方法，无法有效利用词本身的语义，易引起类别识别错误。

因此，在步骤S4.3中，引入词的语义信息，同时设计字符位置权重，使得能够以较大的词信息与词内边界位置的字符特征相融合，进而强化论元和触发词的边界位置字符特征。

本实施例中，图3为字符特征编码模块的示意图。

S5：构建句子特征编码模块，利用工程变更事件的原型表征感知工程变更文档中包含事件论元和触发词的句子，得到变更语义感知的句子特征，包括以下步骤：

S5.1：建立能够提取句子局部特征的编码层，在本实施例中，采用卷积神经网络 CNN学习步骤S4.2中的第i个句子

中每个字符的隐藏特征，得到第i个句子的语义表征

；

，在本实施例中，采用transformer模型中的位置向量，得到第i个句子的句子表征

：

；

：

，

其中，

为使用注意力机制得到的第i个句子的句子表征与工程变更事件原型表征的相关度，在本实施例中采用注意力机制计算为：

，

其中，

表示工程变更文本中第

个句子的特征向量，

为工程变更文本中包括的句子数，注意力得分的计算公式为：

，

其中，

为句子特征向量的维度，score表示注意力得分，T表示转置。

本实施例中，图4为句子特征编码模块的示意图。

对工程变更文本中的所有句子，本实施例中，将变更语义感知的句子特征通过门控机制融合到句子内的领域知识增强的字符特征上，得到具有全局语境的深层字符特征

，具体如下：

，

其中，

表示第i个句子中第t个字符的深层字符特征，Gate表示权重，其计算公式为：

，

其中，

和

表示训练参数，Sigmoid（）为挤压函数。

S7：构建序列标注模块，学习深层字符特征对应的标签依赖信息，得到工程变更文本中的最优标签序列，并进行工程变更事件的结构化表达，包括以下步骤：

本实施例中，工程变更事件信息表达模板如图2所示。

在本实施例中，结合来自真实建筑项目中的工程变更文本数据，将本发明方法与常用的基于字特征的方法进行对比。

表1 本发明方法和其它经典方法在数据集上的实验结果

	BiLSTM-CRF	BERT-BiLSTM-CRF	本发明方法
				Micro Recall	52.84	71.67	76.11

实验结果表明，本发明方法在小规模的真实工程变更文本数据集上查全率最高，相比两种常用的方法已有较大提升。

实施例2：

本实施例中，与实施例1的不同之处在于：

S4.1：将由T个字符组成的句子

输入词向量模型获取句子

中的每个字符向量

；在本实施例中使用动态词向量模型ElMo，获取每个字符向量

；

S4.2：通过编码层提取句子

中每个字符的隐藏特征

；在本实施例中，通过双向门控循环单元Bi-GRU，提取每个字符的隐藏特征

；

实施例3：

本实施例中，与实施例1的不同之处在于：

在本实施例中，将变更语义感知的句子特征通过拼接方式融合到句子内的领域知识增强的字符特征上，得到具有全局语境的深层字符特征

，具体如下：

；

对工程变更文本中的所有句子重复上述操作。

实施例4：

本实施例中，与实施例1的不同之处在于：

S5.1：建立能够提取句子局部特征的编码层，在本实施例中，采用图卷积神经网络 GCN学习步骤S4.2中的句子字符隐藏特征，得到该句子的语义表征

；

S5.3：计算工程变更事件原型表征与句子表征的相关性，加强文档中包含事件论元或触发词的事件句特征，抑制不相关的非事件句特征，得到变更语义感知的句子特征：

，

其中，

为句子特征与工程变更事件原型表征的相关度，在本实施例中采用注意力机制计算为：

，

其中，

表示工程变更文本中第

个句子的特征向量，

，

其中，

、

、

为训练参数，T表示转置；tanh()为双曲正切函数。

以上所述仅是本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于位置感知的建筑工程变更事件联合抽取方法，其特征在于，包括以下步骤：

S3：根据标注后的工程变更文本的标签信息获得工程变更事件的原型表征；具体包括以下步骤：

其中，x_a为工程变更文本中的要素即标注的论元或触发词的词向量，λ_a为论元或触发词x_a的权重，A为不同要素类别数量；

S3.3：计算步骤S1中获取的所有工程变更文本对应的工程变更事件的语义表征，经过平均计算得到工程变更事件的原型表征e^P：

其中，|e|为步骤S1中获取的工程变更文本数量；

S4：构建字符特征编码模块，利用工程变更事件的要素语义强化论元和触发词边界位置的字符，得到领域知识增强的字符特征；包括以下步骤：

S4.1：将工程变更文本中由T个字符组成的第i个句子S_i输入词向量模型获取第i个句子S_i中的每个字符向量x_it，x_it表示工程变更文本中第i个句子S_i中的第t个字符向量，t＝1～T；

S4.2：通过编码层提取第i个句子S_i中每个字符的隐藏特征h_it；

S4.3：使用分词工具对第i个句子S_i进行分词，将第i个句子S_i中每个词的语义信息，以不同字符位置权重融合到词内各字符隐藏特征，得到领域知识增强的字符特征C_it：

其中，

表示第i个句子S_i中第j个词的语义向量，p表示构成第i个句子S_i中第j个词的第p个字符,α_ijp表示第i个句子S_i中第j个词的第p个字符对应的位置权重；

S4.4：对工程变更文本中所有的句子重复步骤S4.1～S4.3，得到工程变更文本中所有句子中每个字符的领域知识增强的字符特征；

S5：构建句子特征编码模块，利用工程变更事件的原型表征感知工程变更文档中包含事件论元和触发词的句子，得到变更语义感知的句子特征；包括以下步骤：

S5.1：建立能够提取句子局部特征的编码层，学习步骤S4.2中的第i个句子S_i中每个字符的隐藏特征，得到第i个句子的语义表征S_i；

S5.2：根据第i个句子在文档中的位置顺序，拼接一个位置向量p_i，得到第i个句子的句子表征g_i：

g_i＝[s_i；p_i]；

其中，β_i为使用注意力机制得到的第i个句子的句子表征与工程变更事件原型表征的相关度；

S5.4：对工程变更文本中所有的句子重复步骤S5.1～S5.3，得到工程变更文本中所有句子的变更语义感知的句子特征；

2.根据权利要求1所述的一种基于位置感知的建筑工程变更事件联合抽取方法，其特征在于，步骤S1中，构成工程变更事件的要素包括建筑构件、建筑场地、建筑楼层、建筑空间、属性、数值属性值、对象属性目标和对建筑构件的变更方式；

工程变更事件的触发词为表达变更方式的词。

3.根据权利要求2所述的一种基于位置感知的建筑工程变更事件联合抽取方法，其特征在于，步骤S2中，工程变更文本包括多个句子，按照工程变更文本中的标点符号，将工程变更文本进行分句预处理，每一行为单一句子；

4.根据权利要求3所述的一种基于位置感知的建筑工程变更事件联合抽取方法，其特征在于，所述采用‘BIO’三位序列标注法，对工程变更文本进行字符粒度的标注，具体如下：

5.根据权利要求1所述的一种基于位置感知的建筑工程变更事件联合抽取方法，其特征在于，所述字符位置权重α_ijp，其计算公式如下：

α_ijp＝softmax(|cos(πNormalization(p))|)，p∈[1，l]，

其中，softmax()表示归一化指数函数；Normalization()表示最大最小值归一化；l表示第i个句子S_i中第j个词所包括的字符数量。

6.根据权利要求1所述的一种基于位置感知的建筑工程变更事件联合抽取方法，其特征在于，步骤S6中，对工程变更文本中的所有句子，将变更语义感知的句子特征融合到句子内的领域知识增强的字符特征上，得到具有全局语境的深层字符特征

具体如下：

其中，

表示第i个句子中第t个字符的深层字符特征，φ表示特征融合方法。

7.根据权利要求1～6任一项所述的一种基于位置感知的建筑工程变更事件联合抽取方法，其特征在于，步骤S7包括以下步骤：