CN115238685B - 一种基于位置感知的建筑工程变更事件联合抽取方法 - Google Patents

一种基于位置感知的建筑工程变更事件联合抽取方法 Download PDF

Info

Publication number
CN115238685B
CN115238685B CN202211166342.1A CN202211166342A CN115238685B CN 115238685 B CN115238685 B CN 115238685B CN 202211166342 A CN202211166342 A CN 202211166342A CN 115238685 B CN115238685 B CN 115238685B
Authority
CN
China
Prior art keywords
engineering change
sentence
character
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211166342.1A
Other languages
English (en)
Other versions
CN115238685A (zh
Inventor
刘发贵
吴怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202211166342.1A priority Critical patent/CN115238685B/zh
Publication of CN115238685A publication Critical patent/CN115238685A/zh
Application granted granted Critical
Publication of CN115238685B publication Critical patent/CN115238685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于位置感知的建筑工程变更事件联合抽取方法。该方法包括以下步骤:获取多个建筑工程变更文本,定义工程变更事件的论元和触发词;对工程变更文本进行预处理,并根据工程变更事件的论元和触发词对工程变更文本进行字粒度的标注;获得工程变更事件的原型表征;构建字符特征编码模块,强化论元和触发词边界位置的字符,得到领域知识增强的字符特征;构建句子特征编码模块,得到变更语义感知的句子特征;构建特征聚合模块,得到具有全局语境的深层字符特征;构建序列标注模块,进行工程变更事件的结构化表达。本发明通过在字符特征中融合领域知识语义、句子级别特征,并利用先验标签知识,有助于提升建筑工程变更事件的抽取效果。

Description

一种基于位置感知的建筑工程变更事件联合抽取方法
技术领域
本发明属于自然语言处理和建筑领域,尤其涉及一种基于位置感知的建筑工程变更事件联合抽取方法。
背景技术
建筑工程由于其长期性、复杂性和动态性特点,在项目开展期间,施工需求、施工环境、施工进度、施工质量等的变化,容易引发工程量的变动。工程变更是施工过程中的一个关键环节,其变更意向需要被及时评估、变更指令需要被严格执行、变更资料需要被有效记录,否则不仅会造成建筑项目参与单位的经济损失,更严重地,对建筑质量和安全产生影响。因此,对工程变更事件进行有效管理是建筑项目顺利完成的必要条件。
工程变更事件通常存在于非结构化文档中,包含对于变更目标及其相关属性的描述,称之为工程变更事件的关键要素,例如:变更对象、所属地点、变更方式等。对于此类关键要素进行抽取,有助于快速获取变更需求,进一步地,有助于全面地结构化存储变更事件,提升工程管理水平。
目前,事件抽取的方法大多基于句子级进行识别。发明专利一种建筑施工工序约束的自动抽取和分类方法及***,对建筑规范条文中的工序约束进行了抽取。然而忽略了当文本包含多个句子,且事件要素分散在上下文的情况。Zheng S等人对金融领域的文档级事件进行了研究,该方法是在基于已知标准实体提及标签的情况下实现。但是在建筑领域,尚无完全成熟、通用的实体识别模型,无法通过利用实体类别信息以分类方式实现事件抽取(Zheng S, Cao W, Xu W, et al. Doc2EDAG: An end-to end document-levelframework for Chinese financial event extraction[J]. arXiv preprint arXiv:1904. 07535, 2019.)。此外,建筑工程变更事件虽然不可避免,但相比于新闻事件等,仍然属于小样本问题,使得抽取难度较大。
发明内容
本发明的目的在于利用自然语言处理技术智能地抽取建筑领域工程变更事件的关键要素,并进行结构化表达。本发明将工程变更事件论元角色融入到论元类别标签中,并强化论元的边界位置字符特征,同时结合工程变更事件原型表征加强不同位置的句子特征,实现了文档级工程变更事件的联合抽取。
本发明的目的至少通过如下技术方案之一实现。
一种基于位置感知的建筑工程变更事件联合抽取方法,包括以下步骤:
S1:获取多个建筑工程变更文本,分析工程变更文本,确定构成工程变更事件的要素,定义工程变更事件的论元和触发词;
S2:对工程变更文本进行预处理,并根据工程变更事件的论元和触发词对工程变更文本进行字粒度的标注;
S3:根据标注后的工程变更文本的标签信息获得工程变更事件的原型表征;
S4:构建字符特征编码模块,利用工程变更事件的要素语义强化论元和触发词边界位置的字符,得到领域知识增强的字符特征;
S5:构建句子特征编码模块,利用工程变更事件的原型表征感知工程变更文档中包含事件论元和触发词的句子,得到变更语义感知的句子特征;
S6:构建特征聚合模块,将句子特征与字符特征相融合,得到具有全局语境的深层字符特征;
S7:构建序列标注模块,学习深层字符特征对应的标签依赖信息,得到工程变更文本中的最优标签序列,并进行工程变更事件的结构化表达。
进一步地,步骤S1中,构成工程变更事件的要素包括建筑构件、建筑场地、建筑楼层、建筑空间、属性、数值属性值、对象属性目标和对建筑构件的变更方式;
定义工程变更事件的论元的角色,包括建筑构件、建筑场地、建筑楼层、建筑空间、属性、数值属性值和对象属性目标;
工程变更事件的触发词为表达变更方式的词。
进一步地,步骤S2中,工程变更文本包括多个句子,按照工程变更文本中的标点符号,将工程变更文本进行分句预处理,每一行为单一句子;
获取预处理后每份工程变更文本中所包括的句子数和句子长度;采用‘BIO’三位序列标注法,对工程变更文本进行字符粒度的标注。
进一步地,所述采用‘BIO’三位序列标注法,对工程变更文本进行字符粒度的标注,具体如下:
将工程变更文本中类别属于论元的词标注为论元,标签即为其角色;将工程变更文本中表达变更方式的词标注为触发词。
进一步地,步骤S3具体包括以下步骤:
S3.1:分析构成工程变更事件的要素的重要性,对步骤S1中确定的要素分配权重;
S3.2:针对每份工程变更文本,对于步骤S2中标注的论元和触发词,获取其对应的词向量,并根据其权重计算此工程变更文本中包括的工程变更事件的语义表征e,具体如下:
Figure 532757DEST_PATH_IMAGE001
其中,
Figure 981056DEST_PATH_IMAGE002
为工程变更文本中的要素即标注的论元或触发词的词向量,
Figure 432897DEST_PATH_IMAGE003
为论元或 触发词
Figure 562527DEST_PATH_IMAGE004
的权重,
Figure 908058DEST_PATH_IMAGE005
为不同要素类别数量;
S3.3:计算步骤S1中获取的所有工程变更文本对应的工程变更事件的语义表征, 经过平均计算得到工程变更事件的原型表征
Figure DEST_PATH_IMAGE006
Figure 386312DEST_PATH_IMAGE007
其中,
Figure 450083DEST_PATH_IMAGE008
为步骤S1中获取的工程变更文本数量。
进一步地,步骤S4包括以下步骤:
S4.1:将工程变更文本中由T个字符组成的第i个句子
Figure 383404DEST_PATH_IMAGE009
输入词向量模型获取第i 个句子
Figure 724387DEST_PATH_IMAGE009
中的每个字符向量
Figure 452171DEST_PATH_IMAGE010
Figure 3238DEST_PATH_IMAGE010
表示工程变更文本中第i个句子
Figure 474671DEST_PATH_IMAGE009
中的第t个字符向 量,t=1~T;
S4.2:通过编码层提取第i个句子
Figure 420893DEST_PATH_IMAGE009
中每个字符的隐藏特征
Figure 585158DEST_PATH_IMAGE011
S4.3:使用分词工具对第i个句子
Figure 623521DEST_PATH_IMAGE009
进行分词,将第i个句子
Figure 633065DEST_PATH_IMAGE009
中每个词的语义信 息,以不同字符位置权重融合到词内各字符隐藏特征,得到领域知识增强的字符特征
Figure 948640DEST_PATH_IMAGE012
Figure 18227DEST_PATH_IMAGE013
其中,
Figure 543886DEST_PATH_IMAGE014
表示第i个句子
Figure 357122DEST_PATH_IMAGE009
中第j个词的语义向量,p表示构成第i个句子
Figure 776471DEST_PATH_IMAGE009
中第j 个词的第p个字符,
Figure 282538DEST_PATH_IMAGE015
表示第i个句子
Figure 29914DEST_PATH_IMAGE009
中第j个词的第p个字符对应的位置权重;
S4.4:对工程变更文本中所有的句子重复步骤S4.1~S4.3,得到工程变更文本中所有句子中每个字符的领域知识增强的字符特征。
进一步地,所述字符位置权重
Figure 646841DEST_PATH_IMAGE015
,其计算公式如下:
Figure 671428DEST_PATH_IMAGE016
其中,softmax()表示归一化指数函数;Normalization()表示最大最小值归一 化;
Figure 348397DEST_PATH_IMAGE017
表示第i个句子
Figure 583070DEST_PATH_IMAGE009
中第j个词所包括的字符数量。
进一步地,步骤S5包括以下步骤:
S5.1:建立能够提取句子局部特征的编码层,学习步骤S4.2中的第i个句子
Figure 738107DEST_PATH_IMAGE009
中每 个字符的隐藏特征,得到第i个句子的语义表征
Figure 630584DEST_PATH_IMAGE009
S5.2:根据第i个句子在文档中的位置顺序,拼接一个位置向量
Figure 478454DEST_PATH_IMAGE018
,得到第i个句子 的句子表征
Figure 200422DEST_PATH_IMAGE019
Figure 159151DEST_PATH_IMAGE020
S5.3:计算工程变更事件原型表征与句子表征的相关性,加强文档中包括事件论 元或触发词的事件句特征,抑制不相关的非事件句特征,得到第i个句子的变更语义感知的 句子特征
Figure 892752DEST_PATH_IMAGE021
Figure 911523DEST_PATH_IMAGE022
其中,
Figure 120788DEST_PATH_IMAGE023
为使用注意力机制得到的第i个句子的句子表征与工程变更事件原型表 征的相关度;
S5.4:对工程变更文本中所有的句子重复步骤S5.1~S5.3,得到工程变更文本中所有句子的变更语义感知的句子特征。
进一步地,步骤S6中,对工程变更文本中的所有句子,将变更语义感知的句子特征 融合到句子内的领域知识增强的字符特征上,得到具有全局语境的深层字符特征
Figure 883208DEST_PATH_IMAGE024
,具体 如下:
Figure 986162DEST_PATH_IMAGE025
其中,
Figure 910255DEST_PATH_IMAGE026
表示第i个句子中第t个字符的深层字符特征,
Figure 810078DEST_PATH_IMAGE027
表示特征融合方法。
进一步地,步骤S7包括以下步骤:
S7.1:将工程变更文本中所有字符对应的深层字符特征输入到条件随机场模型,学习工程变更文本所有字符在步骤S2中标注的标签之间的依赖关系,获取待抽取工程变更文本的最优标签序列;
S7.2:根据工程变更文本的最优标签序列,抽取相应标签类别的词填入工程变更事件表达模板中,对工程变更事件进行结构化表达。
与现有技术相比,本发明至少具有以下有益效果:
1、本发明通过字符特征编码模块,将具有领域知识的词的语义融合到字符特征中,有助于提升建筑领域工程变更事件论元和触发词的识别准确率;并通过位置权重强化词内边界字符的特征,减小了论元和触发词边界识别错误的问题;
2、本发明通过句子特征编码模块,使用注意力机制加强了包含论元和触发词的事件句特征,抑制了非事件句特征;同时,将句子级别特征融合到字级别特征中,构建了具有全局上下文语境的深层字符特征;
3、本发明通过构建工程变更事件原型表征,模型能够利用先验标签知识,有助于工程变更小样本事件抽取。
附图说明
图1为本发明提出的建筑工程变更事件联合抽取方法的流程图;
图2为本发明方法的具体实施例中工程变更文本标注和结构化表达示意图;
图3为本发明方法的具体实施例中字符编码模块的示意图;
图4为本发明方法的具体实施例中句子编码模块的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明,但本发明的实施和保护不限于此。
实施例1:
一种基于位置感知的建筑工程变更事件联合抽取方法,如图1所示,包括以下步骤:
S1:获取多个建筑工程变更文本,分析工程变更文本,确定构成工程变更事件的要素,定义工程变更事件的论元和触发词;
构成工程变更事件的要素包括建筑构件、建筑场地、建筑楼层、建筑空间、属性、数值属性值、对象属性目标和对建筑构件的变更方式;
确定构成工程变更事件的关键要素包括8种,要素1~要素8的含义如下:
要素1:确定或计划需要改动的建筑构件;
要素2:该建筑构件所属的主体工程或配套工程;
要素3:该建筑构件所在的楼层位置;
要素4:该建筑构件所在的空间位置;
要素5:该建筑构件需要改动的建筑属性;
要素6:建筑数据属性需变更的数值要求;
要素7:建筑对象属性需变更的目标要求;
要素8:对建筑构件实施变更的具体方式。
可以理解的是,这里的工程变更事件要素包括但不限于要素1 ~要素8。
定义工程变更事件的论元的角色,包括建筑构件、建筑场地、建筑楼层、建筑空间、属性、数值属性值和对象属性目标;
工程变更事件的触发词为表达变更方式的词。
S2:对工程变更文本进行预处理,并根据工程变更事件的论元和触发词对工程变更文本进行字粒度的标注;
工程变更文本包括多个句子,按照工程变更文本中的标点符号,将工程变更文本进行分句预处理,每一行为单一句子;
获取预处理后每份工程变更文本中所包括的句子数和句子长度;采用‘BIO’三位序列标注法,对工程变更文本进行字符粒度的标注。
所述采用‘BIO’三位序列标注法,对工程变更文本进行字符粒度的标注,具体如下:
将工程变更文本中类别属于论元的词标注为论元,标签即为其角色;将工程变更文本中表达变更方式的词标注为触发词。
本实施例中,如图2所示,为一份标注了论元和触发词的工程变更文本。
S3:根据标注后的工程变更文本的标签信息获得工程变更事件的原型表征,具体包括以下步骤:
S3.1:分析构成工程变更事件的要素的重要性,对步骤S1中确定的要素分配权重;
S3.2:针对每份工程变更文本,对于步骤S2中标注的论元和触发词,获取其对应的词向量,并根据其权重计算此工程变更文本中包括的工程变更事件的语义表征,具体如下:
Figure 172926DEST_PATH_IMAGE028
其中,
Figure 881119DEST_PATH_IMAGE029
为工程变更文本中的要素即标注的论元或触发词的词向量,
Figure 241694DEST_PATH_IMAGE030
为论元 或触发词
Figure 363233DEST_PATH_IMAGE031
的权重,
Figure 529773DEST_PATH_IMAGE005
为不同要素类别数量;本实施例中,词向量通过查询word2vec词向 量模型获得;
本实施例中,如图2所示,标注的工程变更事件表达词为:
(修改,第五座,41楼,后勤区,天花,高度);
通过分析工程变更文本所表达的信息,确定要素1为必须明确的要素,因此设置论元“建筑构件”权重为第一等级;建筑构件的位置信息要素2~要素4次之,因此设置论元“建筑场地”、“建筑楼层”、“建筑空间”权重为第二等级;要素5~要素8在工程变更意向类文本中存在尚未明确的可能性,或存在于图纸中,因此设置论元“属性”、“数值属性值”、“对象属性目标”和触发词权重为第三等级;
S3.3:计算步骤S1中获取的所有工程变更文本对应的工程变更事件的语义表征,经过平均计算得到工程变更事件的原型表征:
Figure 154789DEST_PATH_IMAGE032
其中,
Figure 374680DEST_PATH_IMAGE033
为步骤S1中获取的工程变更文本数量。
S4:构建字符特征编码模块,利用工程变更事件的要素语义强化论元和触发词边界位置的字符,得到领域知识增强的字符特征,包括以下步骤:
S4.1:将工程变更文本中由T个字符组成的第i个句子
Figure 717937DEST_PATH_IMAGE034
输入词向量模型获取第i 个句子
Figure 688167DEST_PATH_IMAGE034
中的每个字符向量
Figure 433269DEST_PATH_IMAGE035
Figure 73329DEST_PATH_IMAGE035
表示工程变更文本中第i个句子
Figure 903881DEST_PATH_IMAGE034
中的第t个字符向 量,t=1~T;在本实施例中使用双向语言模型BERT,获取每个字符向量
Figure 412223DEST_PATH_IMAGE035
S4.2:在本实施例中,通过双向长短期记忆神经网络Bi-LSTM提取第i个句子
Figure 11832DEST_PATH_IMAGE034
中 每个字符的隐藏特征
Figure 72060DEST_PATH_IMAGE036
S4.3:使用分词工具对第i个句子
Figure 389909DEST_PATH_IMAGE034
进行分词,将第i个句子
Figure 436363DEST_PATH_IMAGE034
中每个词的语义信 息,以不同字符位置权重融合到词内各字符隐藏特征,得到领域知识增强的字符特征
Figure 156057DEST_PATH_IMAGE037
Figure 137920DEST_PATH_IMAGE038
其中,
Figure 943065DEST_PATH_IMAGE039
表示第i个句子
Figure 793209DEST_PATH_IMAGE034
中第j个词的语义向量,p表示构成第i个句子
Figure 367410DEST_PATH_IMAGE034
中第j 个词的第p个字符,
Figure 996538DEST_PATH_IMAGE040
表示第i个句子
Figure 85716DEST_PATH_IMAGE034
中第j个词的第p个字符对应的位置权重;
所述字符位置权重
Figure 677235DEST_PATH_IMAGE040
,其计算公式如下:
Figure 43625DEST_PATH_IMAGE041
其中,
Figure 429607DEST_PATH_IMAGE042
表示第i个句子
Figure 271661DEST_PATH_IMAGE034
中第j个词所包括的字符数量。
在本发明中,由于序列标注任务需要识别一段连续的字符,容易产生边界识别错误;并且,传统的基于字粒度的序列标注方法,无法有效利用词本身的语义,易引起类别识别错误。
因此,在步骤S4.3中,引入词的语义信息,同时设计字符位置权重,使得能够以较大的词信息与词内边界位置的字符特征相融合,进而强化论元和触发词的边界位置字符特征。
本实施例中,图3为字符特征编码模块的示意图。
S4.4:对工程变更文本中所有的句子重复步骤S4.1~S4.3,得到工程变更文本中所有句子中每个字符的领域知识增强的字符特征。
S5:构建句子特征编码模块,利用工程变更事件的原型表征感知工程变更文档中包含事件论元和触发词的句子,得到变更语义感知的句子特征,包括以下步骤:
S5.1:建立能够提取句子局部特征的编码层,在本实施例中,采用卷积神经网络 CNN学习步骤S4.2中的第i个句子
Figure 401291DEST_PATH_IMAGE034
中每个字符的隐藏特征,得到第i个句子的语义表征
Figure 871456DEST_PATH_IMAGE034
S5.2:根据第i个句子在文档中的位置顺序,拼接一个位置向量
Figure 693918DEST_PATH_IMAGE043
,在本实施例中, 采用transformer模型中的位置向量,得到第i个句子的句子表征
Figure 757689DEST_PATH_IMAGE044
Figure 691010DEST_PATH_IMAGE045
S5.3:计算工程变更事件原型表征与句子表征的相关性,加强文档中包括事件论 元或触发词的事件句特征,抑制不相关的非事件句特征,得到第i个句子的变更语义感知的 句子特征
Figure 766413DEST_PATH_IMAGE046
Figure 759777DEST_PATH_IMAGE047
其中,
Figure 310844DEST_PATH_IMAGE048
为使用注意力机制得到的第i个句子的句子表征与工程变更事件原型表 征的相关度,在本实施例中采用注意力机制计算为:
Figure 782277DEST_PATH_IMAGE049
其中,
Figure 728498DEST_PATH_IMAGE050
表示工程变更文本中第
Figure 892763DEST_PATH_IMAGE051
个句子的特征向量,
Figure 665547DEST_PATH_IMAGE052
为工程变更文本中包括 的句子数,注意力得分的计算公式为:
Figure 612775DEST_PATH_IMAGE053
其中,
Figure 990667DEST_PATH_IMAGE054
为句子特征向量的维度,score表示注意力得分,T表示转置。
S5.4:对工程变更文本中所有的句子重复步骤S5.1~S5.3,得到工程变更文本中所有句子的变更语义感知的句子特征。
本实施例中,图4为句子特征编码模块的示意图。
S6:构建特征聚合模块,将句子特征与字符特征相融合,得到具有全局语境的深层字符特征;
对工程变更文本中的所有句子,本实施例中,将变更语义感知的句子特征通过门 控机制融合到句子内的领域知识增强的字符特征上,得到具有全局语境的深层字符特征
Figure 122571DEST_PATH_IMAGE055
, 具体如下:
Figure 585913DEST_PATH_IMAGE056
其中,
Figure 586099DEST_PATH_IMAGE057
表示第i个句子中第t个字符的深层字符特征,Gate表示权重,其计算公式 为:
Figure 818497DEST_PATH_IMAGE058
其中,
Figure 121302DEST_PATH_IMAGE059
Figure 71941DEST_PATH_IMAGE060
表示训练参数,Sigmoid()为挤压函数。
S7:构建序列标注模块,学习深层字符特征对应的标签依赖信息,得到工程变更文本中的最优标签序列,并进行工程变更事件的结构化表达,包括以下步骤:
S7.1:将工程变更文本中所有字符对应的深层字符特征输入到条件随机场模型,学习工程变更文本所有字符在步骤S2中标注的标签之间的依赖关系,获取待抽取工程变更文本的最优标签序列;
S7.2:根据工程变更文本的最优标签序列,抽取相应标签类别的词填入工程变更事件表达模板中,对工程变更事件进行结构化表达。
本实施例中,工程变更事件信息表达模板如图2所示。
在本实施例中,结合来自真实建筑项目中的工程变更文本数据,将本发明方法与常用的基于字特征的方法进行对比。
表1 本发明方法和其它经典方法在数据集上的实验结果
BiLSTM-CRF BERT-BiLSTM-CRF 本发明方法
Micro Recall 52.84 71.67 76.11
实验结果表明,本发明方法在小规模的真实工程变更文本数据集上查全率最高,相比两种常用的方法已有较大提升。
实施例2:
本实施例中,与实施例1的不同之处在于:
S4.1:将由T个字符组成的句子
Figure 626550DEST_PATH_IMAGE061
输入词向量模型获取句子
Figure 713455DEST_PATH_IMAGE061
中的每个字符向量
Figure 452741DEST_PATH_IMAGE062
;在本实施例中使用动态词向量模型ElMo,获取每个字符向量
Figure 625096DEST_PATH_IMAGE062
S4.2:通过编码层提取句子
Figure 465620DEST_PATH_IMAGE061
中每个字符的隐藏特征
Figure 672610DEST_PATH_IMAGE063
;在本实施例中,通过双向 门控循环单元Bi-GRU,提取每个字符的隐藏特征
Figure 317218DEST_PATH_IMAGE063
实施例3:
本实施例中,与实施例1的不同之处在于:
S6:构建特征聚合模块,将句子特征与字符特征相融合,得到具有全局语境的深层字符特征;
在本实施例中,将变更语义感知的句子特征通过拼接方式融合到句子内的领域知 识增强的字符特征上,得到具有全局语境的深层字符特征
Figure 976870DEST_PATH_IMAGE064
,具体如下:
Figure 873281DEST_PATH_IMAGE065
对工程变更文本中的所有句子重复上述操作。
实施例4:
本实施例中,与实施例1的不同之处在于:
S5.1:建立能够提取句子局部特征的编码层,在本实施例中,采用图卷积神经网络 GCN学习步骤S4.2中的句子字符隐藏特征,得到该句子的语义表征
Figure 934778DEST_PATH_IMAGE066
S5.3:计算工程变更事件原型表征与句子表征的相关性,加强文档中包含事件论元或触发词的事件句特征,抑制不相关的非事件句特征,得到变更语义感知的句子特征:
Figure 15867DEST_PATH_IMAGE067
其中,
Figure 162814DEST_PATH_IMAGE068
为句子特征与工程变更事件原型表征的相关度,在本实施例中采用注意 力机制计算为:
Figure 846606DEST_PATH_IMAGE069
其中,
Figure 762609DEST_PATH_IMAGE070
表示工程变更文本中第
Figure 14599DEST_PATH_IMAGE071
个句子的特征向量,
Figure 320946DEST_PATH_IMAGE072
为工程变更文本中包括 的句子数,注意力得分的计算公式为:
Figure 887057DEST_PATH_IMAGE073
其中,
Figure 657567DEST_PATH_IMAGE074
Figure 80458DEST_PATH_IMAGE075
Figure 201998DEST_PATH_IMAGE076
为训练参数,T表示转置;tanh()为双曲正切函数。
以上所述仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种基于位置感知的建筑工程变更事件联合抽取方法,其特征在于,包括以下步骤:
S1:获取多个建筑工程变更文本,分析工程变更文本,确定构成工程变更事件的要素,定义工程变更事件的论元和触发词;
S2:对工程变更文本进行预处理,并根据工程变更事件的论元和触发词对工程变更文本进行字粒度的标注;
S3:根据标注后的工程变更文本的标签信息获得工程变更事件的原型表征;具体包括以下步骤:
S3.1:分析构成工程变更事件的要素的重要性,对步骤S1中确定的要素分配权重;
S3.2:针对每份工程变更文本,对于步骤S2中标注的论元和触发词,获取其对应的词向量,并根据其权重计算此工程变更文本中包括的工程变更事件的语义表征e,具体如下:
Figure FDA0003959232480000011
其中,xa为工程变更文本中的要素即标注的论元或触发词的词向量,λa为论元或触发词xa的权重,A为不同要素类别数量;
S3.3:计算步骤S1中获取的所有工程变更文本对应的工程变更事件的语义表征,经过平均计算得到工程变更事件的原型表征eP
Figure FDA0003959232480000012
其中,|e|为步骤S1中获取的工程变更文本数量;
S4:构建字符特征编码模块,利用工程变更事件的要素语义强化论元和触发词边界位置的字符,得到领域知识增强的字符特征;包括以下步骤:
S4.1:将工程变更文本中由T个字符组成的第i个句子Si输入词向量模型获取第i个句子Si中的每个字符向量xit,xit表示工程变更文本中第i个句子Si中的第t个字符向量,t=1~T;
S4.2:通过编码层提取第i个句子Si中每个字符的隐藏特征hit
S4.3:使用分词工具对第i个句子Si进行分词,将第i个句子Si中每个词的语义信息,以不同字符位置权重融合到词内各字符隐藏特征,得到领域知识增强的字符特征Cit
Figure FDA0003959232480000021
其中,
Figure FDA0003959232480000022
表示第i个句子Si中第j个词的语义向量,p表示构成第i个句子Si中第j个词的第p个字符,αijp表示第i个句子Si中第j个词的第p个字符对应的位置权重;
S4.4:对工程变更文本中所有的句子重复步骤S4.1~S4.3,得到工程变更文本中所有句子中每个字符的领域知识增强的字符特征;
S5:构建句子特征编码模块,利用工程变更事件的原型表征感知工程变更文档中包含事件论元和触发词的句子,得到变更语义感知的句子特征;包括以下步骤:
S5.1:建立能够提取句子局部特征的编码层,学习步骤S4.2中的第i个句子Si中每个字符的隐藏特征,得到第i个句子的语义表征Si
S5.2:根据第i个句子在文档中的位置顺序,拼接一个位置向量pi,得到第i个句子的句子表征gi
gi=[si;pi];
S5.3:计算工程变更事件原型表征与句子表征的相关性,加强文档中包括事件论元或触发词的事件句特征,抑制不相关的非事件句特征,得到第i个句子的变更语义感知的句子特征
Figure FDA0003959232480000023
Figure FDA0003959232480000024
其中,βi为使用注意力机制得到的第i个句子的句子表征与工程变更事件原型表征的相关度;
S5.4:对工程变更文本中所有的句子重复步骤S5.1~S5.3,得到工程变更文本中所有句子的变更语义感知的句子特征;
S6:构建特征聚合模块,将句子特征与字符特征相融合,得到具有全局语境的深层字符特征;
S7:构建序列标注模块,学习深层字符特征对应的标签依赖信息,得到工程变更文本中的最优标签序列,并进行工程变更事件的结构化表达。
2.根据权利要求1所述的一种基于位置感知的建筑工程变更事件联合抽取方法,其特征在于,步骤S1中,构成工程变更事件的要素包括建筑构件、建筑场地、建筑楼层、建筑空间、属性、数值属性值、对象属性目标和对建筑构件的变更方式;
定义工程变更事件的论元的角色,包括建筑构件、建筑场地、建筑楼层、建筑空间、属性、数值属性值和对象属性目标;
工程变更事件的触发词为表达变更方式的词。
3.根据权利要求2所述的一种基于位置感知的建筑工程变更事件联合抽取方法,其特征在于,步骤S2中,工程变更文本包括多个句子,按照工程变更文本中的标点符号,将工程变更文本进行分句预处理,每一行为单一句子;
获取预处理后每份工程变更文本中所包括的句子数和句子长度;采用‘BIO’三位序列标注法,对工程变更文本进行字符粒度的标注。
4.根据权利要求3所述的一种基于位置感知的建筑工程变更事件联合抽取方法,其特征在于,所述采用‘BIO’三位序列标注法,对工程变更文本进行字符粒度的标注,具体如下:
将工程变更文本中类别属于论元的词标注为论元,标签即为其角色;将工程变更文本中表达变更方式的词标注为触发词。
5.根据权利要求1所述的一种基于位置感知的建筑工程变更事件联合抽取方法,其特征在于,所述字符位置权重αijp,其计算公式如下:
αijp=softmax(|cos(πNormalization(p))|),p∈[1,l],
其中,softmax()表示归一化指数函数;Normalization()表示最大最小值归一化;l表示第i个句子Si中第j个词所包括的字符数量。
6.根据权利要求1所述的一种基于位置感知的建筑工程变更事件联合抽取方法,其特征在于,步骤S6中,对工程变更文本中的所有句子,将变更语义感知的句子特征融合到句子内的领域知识增强的字符特征上,得到具有全局语境的深层字符特征
Figure FDA0003959232480000041
具体如下:
Figure FDA0003959232480000042
其中,
Figure FDA0003959232480000043
表示第i个句子中第t个字符的深层字符特征,φ表示特征融合方法。
7.根据权利要求1~6任一项所述的一种基于位置感知的建筑工程变更事件联合抽取方法,其特征在于,步骤S7包括以下步骤:
S7.1:将工程变更文本中所有字符对应的深层字符特征输入到条件随机场模型,学习工程变更文本所有字符在步骤S2中标注的标签之间的依赖关系,获取待抽取工程变更文本的最优标签序列;
S7.2:根据工程变更文本的最优标签序列,抽取相应标签类别的词填入工程变更事件表达模板中,对工程变更事件进行结构化表达。
CN202211166342.1A 2022-09-23 2022-09-23 一种基于位置感知的建筑工程变更事件联合抽取方法 Active CN115238685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211166342.1A CN115238685B (zh) 2022-09-23 2022-09-23 一种基于位置感知的建筑工程变更事件联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211166342.1A CN115238685B (zh) 2022-09-23 2022-09-23 一种基于位置感知的建筑工程变更事件联合抽取方法

Publications (2)

Publication Number Publication Date
CN115238685A CN115238685A (zh) 2022-10-25
CN115238685B true CN115238685B (zh) 2023-03-21

Family

ID=83667029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211166342.1A Active CN115238685B (zh) 2022-09-23 2022-09-23 一种基于位置感知的建筑工程变更事件联合抽取方法

Country Status (1)

Country Link
CN (1) CN115238685B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577112B (zh) * 2022-12-09 2023-04-18 成都索贝数码科技股份有限公司 一种基于类型感知门控注意力机制的事件抽取方法及***
CN117094397B (zh) * 2023-10-19 2024-02-06 北京大数据先进技术研究院 一种基于短论元的细粒度事件信息抽取方法、装置和产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183030A (zh) * 2020-10-10 2021-01-05 深圳壹账通智能科技有限公司 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质
CN112507700A (zh) * 2020-11-26 2021-03-16 北京百度网讯科技有限公司 事件抽取方法、装置、电子设备及存储介质
CN112528676B (zh) * 2020-12-18 2022-07-08 南开大学 文档级别的事件论元抽取方法
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法
CN114298053B (zh) * 2022-03-10 2022-05-24 中国科学院自动化研究所 一种基于特征和注意力机制融合的事件联合抽取***
CN114818721B (zh) * 2022-06-30 2022-11-01 湖南工商大学 一种结合序列标注的事件联合抽取模型与方法

Also Published As

Publication number Publication date
CN115238685A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN112001185B (zh) 一种结合中文句法和图卷积神经网络的情感分类方法
CN112001187B (zh) 一种基于中文句法和图卷积神经网络的情感分类***
CN115238685B (zh) 一种基于位置感知的建筑工程变更事件联合抽取方法
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN110717047A (zh) 一种基于图卷积神经网络的Web服务分类方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和***
CN113704546A (zh) 基于空间时序特征的视频自然语言文本检索方法
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN112597302B (zh) 基于多维评论表示的虚假评论检测方法
CN107688870A (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及***
CN108509421A (zh) 基于随机游走和粗糙决策置信度的文本情感分类方法
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN114997288A (zh) 一种设计资源关联方法
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN112347252A (zh) 一种基于cnn文本分类模型的可解释性分析方法
CN116258204A (zh) 基于知识图谱的工业安全生产违规处罚管理方法及***
CN114021658A (zh) 一种命名实体识别模型的训练方法、应用方法及其***
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
CN114595693A (zh) 一种基于深度学习的文本情感分析方法
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN113051886A (zh) 一种试题查重方法、装置、存储介质及设备
Li et al. Deep recommendation based on dual attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant