CN111597349A

CN111597349A - 一种基于人工智能的轨道交通规范实体关系自动补全方法

Info

Publication number: CN111597349A
Application number: CN202010363261.5A
Authority: CN
Inventors: 朱磊; 冯林林; 黑新宏; 刘尧林; 吕泓瑾; 张晋源; 林泓; 刘瑞; 刘旭华
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-28
Anticipated expiration: 2040-04-30
Also published as: CN111597349B

Abstract

本发明公开了一种基于人工智能的轨道交通规范实体关系自动补全方法，包括构建实体关系补全模型，对轨道交通规范和其中名词词性分词输入到实体关系补全模型中，判断输入的规范是否为简单句，若是简单句，查找轨道交通规范中实体相关属性，生成实体关系三元组，若不是简单句，抽取轨道交通规范后句属性词和实体，使前句实体与后句属性词n：n匹配，或判断是否前句语法为主谓宾，后句为宾补，若是，将前句实体与宾语直接匹配，后句关键词与宾语实体直接匹配，生成实体关系三元组，若不是，对词汇相关度超过阈值的实体与实体关系进行输出，生成实体关系三元组，得到完整的语义结构实体规范，即完成轨道交通规范实体关系的自动补全。

Description

一种基于人工智能的轨道交通规范实体关系自动补全方法

技术领域

本发明属于人工智能自然语言处理技术领域，涉及一种基于人工智能的轨道交通规范实体关系自动补全方法。

背景技术

知识图谱是一种语义知识库，知识图谱采用三元组储存知识。知识图谱能够促进计算机更好的理解自然语言，为人们提供更好的服务，实现人机自然切换，实体识别和关系抽取是构建知识图谱的重要过程。

由于中文语法复杂，句子结构无序，没有严格的限制，部分标准文档中实体成分缺失，但满足基本语义便能生成了描述文本。这些原因导致了各个专业领域的规范在书写上也有较大差异。因此在专业领域的知识图谱构建时，虽然可以从规范条目中提取出实体，但是由于缺失实体成分却不能判断出实体之间的关系。

最近几年我国的轨道交通发展迅猛，不仅深刻影响着人民的生产生活方式，同时极大促进了社会生产力的发展。而《轨道交通设计规范》是轨道交通设计、修建、检测和维护的主要依据，它对轨道交通设计的各个部分提出了明确的要求和解释说明。所以，将该规范中的实体和关系抽取出来构建知识图谱，再结合知识图谱的检索、推理和查询等技术制作成地铁的设计、检测和施工。并且在其知识图谱相关生成的网站或者应用程序上按照关键字查寻便可以将各单个物体多个约束查询出来。修建人员在修建轨道交通中各个单独的物体时便可根据查询结果设计修建，检测人员在检测工程是否符合规范便可直接根据显示的约束进行比对。由此可以使建筑人员更加方便的设计和检测地铁设计的是否符合规范。

对缺失的实体关系成分进行补全，是知识图谱构建工作中非常重要的基础。缺失的实体关系直接会影响信息抽取，进而影响图谱中的节点和边的结构，使得知识图谱的推理性能大大降低。通过补全实体关系，才能进行轨道交通规范的自动化构建图谱及后期的查询、推理和智能问答。

由于现在对各领域图谱构建和规范的自然语言处理都处于萌芽阶段，现存的概率模型和基于词典都缺失大量的精确标注文档。但是这些问题需要专业的从业人员进行大量分析处理，进行人工实体关系补全，过程费时费力；而且设计规范涉及到30多个行业，从而人员只能从自身现有经验进行补全处理，这样导致补全实体关系的准确率低等问题。

发明内容

本发明的目的是提供一种基于人工智能的轨道交通规范实体关系自动补全方法，解决了现有轨道交通规范实体关系补全方法只能通过人工进行，费时费力，准确率低的问题。

本发明所采用的技术方案是，一种基于人工智能的轨道交通规范实体关系自动补全方法，包括以下步骤：

步骤1：根据轨道交通规范构建实体关系补全模型；

步骤2：对轨道交通规范进行词性标注，提取轨道交通规范中的名词词性分词；

步骤3：将所有轨道交通规范和提取的名词词性分词输入到实体关系补全模型中，提取的名词词性分词作为待补全的实体；用符号检测法判断输入的每一个轨道交通规范是否为简单句，若是简单句，进行步骤4，若不是简单句，进行步骤5；

步骤4：查找轨道交通规范中实体相关属性，判断实体与实体关系，生成实体关系三元组，并进行存储；

步骤5：对轨道交通规范进行基于深度学习的依存句法分析，若前句是并列结构的名词词组(Noun Phrase,NP)，进行步骤6，若不是，进行步骤7；

步骤6：抽取后句属性词和实体，使前句实体与后句属性词n:n匹配，生成实体关系三元组，并进行存储；

步骤7：判断是否前句语法为主谓宾，后句为宾补，若是，进行步骤8，若不是，进行步骤9；

步骤8：将前句实体与宾语直接匹配，后句关键词与宾语实体直接匹配，生成实体关系三元组，并进行存储；

步骤9：计算词汇相关度，对相关度超过阈值的实体与实体关系进行输出，生成实体关系三元组，并进行存储；

步骤10：将步骤4、步骤8和步骤9中生成的实体关系三元组输出，得到完整的语义结构实体规范，即完成轨道交通规范实体关系的自动补全。

本发明的技术特征还在于，

实体关系三元组为“实体-动词-实体”或“实体-程度-属性”。

步骤1的具体操作步骤如下：

步骤1.1：获取轨道交通规范原文数据，对获取的轨道交通规范原文数据进行预处理和训练，生成字典；

步骤1.2：对字典进行处理，挖掘缺失特征，提取实体补全规则和方法；

步骤1.3：采用提取的实体补全规则和方法构建实体关系补全模型。

步骤2中，采用Bi-LSTM+CRF词性标注模型对轨道交通规范进行词性标注，形容词性分词划分为属性词，动词词性分词用来判断实体和实体之间的关系。

步骤3中，简单句为只含有顿号和一个句号的句子。

步骤4的具体操作步骤如下：

步骤4.1：查找轨道交通规范中实体相关的属性和动作关系；

步骤4.2：提取动词，判断实体与实体关系，并进行词性分析提取属性；

步骤4.4：根据实体与实体关系以及提取的属性，生成实体关系三元组，存储实体关系。

步骤9的具体操作步骤如下：

步骤9.1：判断轨道交通规范是否前句为非并列结构，且后句存在指代词，若是，对指代词后属性词与前句所有实体进行词汇相关度计算，若不是，命名实体识别词组，计算所有分词之间的词汇相关度；

步骤9.2：将词汇相关度超过阈值的实体与实体关系进行输出，生成实体关系三元组，并进行存储。

步骤9中，采用基于知网词库的词汇相关度计算算法来计算词汇相关度。

基于知网词库的词汇相关度计算算法如下：

rel(w₁，w₂)＝max{a₁*sim(s₁，s₂)+(1-a₁)*asso(s₁，s₂)}

ssso(s₁，s₂)＝∑r_i*asso(p₁，p₂)

上式中，rel(w₁，w₂)表示词汇w₁与词汇w₂的相关度，sim(s₁，s₂)表示词汇w₁与词汇w₂的相似度，asso(s₁，s₂)表示实体s₁和s₂的语义关联度；ɑ₁表示可调节参数，用于将相似度与语义关联度进行线性调和，它的取值范围为[0，1]；s_li表示词汇w₁的义项，i＝1，...，n表示词汇w₁具有n个义项；s_2j表示词汇w₂的义项，j＝1，...，m表示词汇w₂具有m个义项；γ_i表示实体概念中不同部分的义原关联系数，是对两个概念每部分的拟合，同时必须满足∑r_i＝1，p₁为义项s₁的义原，p₂为义项s₂的义原。

本发明的有益效果是，通过深度学习得到轨道交通规范的关系，然后根据知网的义原方法进行实体类型名词间的关系进行补充，完成知识图谱构建过程中的关系补全，大大减少了人工构建图谱和关系数据库的工作量，提高了轨道交通规范实体关系补全的准确性，同时提高了轨道交通规范知识图谱的结构准确性，为基于知识图谱的轨道交通智能查询、推理和问答奠定基础；

通过深度学习，提高了实体及其关系的识别度，并且采用《知网》中实体类词语的语义相似度进行自动化判定，从而实现实体关系的补充，为构建知识图谱构建提供坚持基础。

附图说明

图1是本发明基于人工智能的轨道交通规范实体关系自动补全方法的流程示意图；

图2是本发明轨道交通规范实体关系自动补全方法中采用BI+LSTM+CRF词性标注模型对轨道交通规范进行词性标注的过程示意图；

图3是本发明轨道交通规范实体关系自动补全方法中采用基于知网词库的词汇相关度计算算法来计算词汇相关度的过程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于人工智能的轨道交通规范实体关系自动补全方法，参照图1，包括以下步骤：

步骤1：根据轨道交通规范构建实体关系补全模型

步骤1.1：从城市轨道交通技术规范中获取轨道交通规范原文数据，对获取的原文数据进行格式检查，删除不必要的信息，例如空格等，获得预处理后的数据，然后对预处理后的数据进行训练，生成字典；

步骤1.2：对字典中数据进行处理，挖掘缺失特征，提取实体补全规则和方法；

步骤2：参照图2，采用Bi-LSTM+CRF词性标注模型对轨道交通规范进行词性标注，先将字典中数据转换为hdf5格式，然后输入到Bi-LSTM+CRF词性标注模型中，输出提取的轨道交通规范中名词词性分词，将形容词性分词划分为属性词，动词词性分词用来判断实体和实体之间的关系。

其中，采用Bi-LSTM+CRF词性标注模型对轨道交通规范进行词性标注的具体过程如下表所示：

步骤3：将所有轨道交通规范原文和提取的名词词性分词输入到实体关系补全模型中，提取的名词词性分词作为待补全的实体；然后用符号检测法判断输入的每一个轨道交通规范是否为简单句，简单句为只含有顿号和一个句号的句子，包含一个主语，一个谓语，或者一个宾语；

若是简单句，进行步骤4，若不是简单句，则是复杂句，复杂句中通常含有多个主语，多个谓语，多个宾语，进行步骤5；

步骤4：查找所述轨道交通规范中实体相关属性，判断实体与实体关系，生成实体关系三元组，并进行存储；具体包括以下操作步骤：

步骤4.1：查找所述轨道交通规范中实体相关的属性和动作关系；

步骤5：对所述轨道交通规范进行基于深度学习的依存句法分析，若前句是并列结构的NP词组，进行步骤6，若不是，进行步骤7；

步骤6：抽取后句属性词和实体，使前句实体与后句属性词n：n匹配，生成实体关系三元组，即“实体-动词-实体”或“实体-程度-属性”，并进行存储；

步骤8：将前句实体与宾语直接匹配，后句关键词与宾语实体直接匹配，生成实体关系三元组，即“实体-动词-实体”或“实体-程度-属性”，并进行存储；

步骤9：参照图3，采用基于知网词库的词汇相关度计算算法来计算词汇相关度，对相关度超过阈值的实体与实体关系进行输出，生成实体关系三元组，即“实体-动词-实体”或“实体-程度-属性”，并进行存储；

步骤9的具体操作步骤如下：

步骤9.1：判断所述轨道交通规范是否前句为非并列结构，且后句存在指代词，若是，对指代词后属性词与前句所有实体进行词汇相关度计算，若不是，命名实体识别词组，然后对所有分词进行词汇相关度计算，计算所有分词之间相关度；

其中，基于知网词库的词汇相关度计算算法如下所示：

《知网》采用了义原为最基本的，不宜与分割的最小单位，其共采用1618个义原，并且对62174个概念实体进行了描述。在《知乎》中，设实体类义原词组w₁和w₂，如果w₁有那个不同概念(义项)：s₁₁，s₁₂，……,s_1n，w₂有那个不同概念(义项)：s₂₁，s₂₂，……,s_2m，基于知网词库的词汇相关度计算算法如下：

rel(w_l，w₂)＝max{a₁*sim(s₁，s₂)-(1-a₁)*asso(s₁，s₂)}

asso(s₁，s₂)＝Σr_i*asso(p₁，p₂)

上式中，rel(w₁，w₂)表示词汇w₁与词汇w₂的相关度，sim(s₁,s₂)表示词汇w₁与词汇w₂的相似度，asso(s₁,s₂)表示实体s₁和s₂的语义关联度；ɑ₁表示可调节参数，用于将相似度与语义关联度进行线性调和，它的取值范围为[0,1]；s_1i表示词汇w₁的义项，i＝1,…，n表示词汇w₁具有n个义项；s_2j表示词汇w₂的义项，j＝1,…，m表示词汇w₂具有m个义项；γ_i表示实体概念中不同部分的义原关联系数，是对两个概念每部分的拟合，同时必须满足∑r_i＝1，p₁为义项s₁的义原，p₂为义项s₂的义原。

根据上面三个公式，本发明将两个词语的实体之间语义相似度进行计算。如果实体的相似度越高，则他们间的相关度也就越高；两个词语的实体义原之间的关联度越大，则他们的相似度也就越高。然后将相似度与关联度进行线性组合调节后进行了计算，得到最终的语义相似度。

步骤9.2：将词汇相关度超过阈值的实体与实体关系进行输出，生成实体关系三元组，即“实体-动词-实体”或“实体-程度-属性”，并进行存储。其中，阈值在轨道交通规范条目中通过初步实验来确定。

例如：列车在平面曲线上的运行速度应按照曲线半径大小进行计算，其未被平衡横向加速度不宜超过0.4m/s²。首先，分析出该语句结构，按照规则，可以得出“半径”是“平面曲线”的属性,“运行速度”和“平衡横向加速度”均为“列车”的属性。又如“转向架性能、主要尺寸应与车体、线路相互匹配，并应保证相关部件在允许磨耗限度内，能确保列车以最高允许速度安全平稳运行。”首先，将其划分为复杂句，其首句“性能”“尺寸”为并列属性，“转向架”是他们的实体，“性能”“尺寸”又通过“匹配”“车体”、“线路”，“相关部件”根据词汇相关度可判别为“转向架”的属性词，“列车”与“速度”为属性关系，与“运行”为动作关系。

本发明轨道交通规范实体关系自动补全方法合理有效地解决了在实体缺失关系时，由于没有明确语义而导致实体、属性、关系、之间导致的实体关系错误补全。在按照本发明所述模型处理后，能够提高补全实体缺失的语义关系，提高实体之间的关联性和实体关系的准确性。

Claims

1.一种基于人工智能的轨道交通规范实体关系自动补全方法，其特征在于，包括以下步骤：

步骤1：根据轨道交通规范构建实体关系补全模型；

步骤4：查找所述轨道交通规范中实体相关属性，判断实体与实体关系，生成实体关系三元组，并进行存储；

步骤6：抽取后句属性词和实体，使前句实体与后句属性词n：n匹配，生成实体关系三元组，并进行存储；

2.根据权利要求1所述的一种基于人工智能的轨道交通规范实体关系自动补全方法，其特征在于，所述实体关系三元组为“实体-动词-实体”或“实体-程度-属性”。

3.根据权利要求1所述的一种基于人工智能的轨道交通规范实体关系自动补全方法，其特征在于，所述步骤1的具体操作步骤如下：

4.根据权利要求1所述的一种基于人工智能的轨道交通规范实体关系自动补全方法，其特征在于，所述步骤2中，采用Bi-LSTM+CRF词性标注模型对轨道交通规范进行词性标注，形容词性分词划分为属性词，动词词性分词用来判断实体和实体之间的关系。

5.根据权利要求4所述的一种基于人工智能的轨道交通规范实体关系自动补全方法，其特征在于，所述步骤3中，简单句为只含有顿号和一个句号的句子。

6.根据权利要求5所述的一种基于人工智能的轨道交通规范实体关系自动补全方法，其特征在于，所述步骤4的具体操作步骤如下：

7.根据权利要求1所述的一种基于人工智能的轨道交通规范实体关系自动补全方法，其特征在于，所述步骤9的具体操作步骤如下：

步骤9.1：判断所述轨道交通规范是否前句为非并列结构，且后句存在指代词，若是，对指代词后属性词与前句所有实体进行词汇相关度计算，若不是，命名实体识别词组，计算所有分词之间的词汇相关度；

8.根据权利要求7所述的一种基于人工智能的轨道交通规范实体关系自动补全方法，其特征在于，所述步骤9中，采用基于知网词库的词汇相关度计算算法来计算词汇相关度。

9.根据权利要求8所述的一种基于人工智能的轨道交通规范实体关系自动补全方法，其特征在于，所述基于知网词库的词汇相关度计算算法如下：

rel(w₁，w₂)＝max{a₁*sim(s₁，s₂)+(1-a₁)*asso(s₁，s₂)}

asso(s₁，s₂)＝∑r_i*asso(p₁，p₂)