CN111597350A - 基于深度学习的轨道交通事件知识图谱构建方法 - Google Patents

基于深度学习的轨道交通事件知识图谱构建方法 Download PDF

Info

Publication number
CN111597350A
CN111597350A CN202010365826.3A CN202010365826A CN111597350A CN 111597350 A CN111597350 A CN 111597350A CN 202010365826 A CN202010365826 A CN 202010365826A CN 111597350 A CN111597350 A CN 111597350A
Authority
CN
China
Prior art keywords
event
events
template
rail transit
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010365826.3A
Other languages
English (en)
Other versions
CN111597350B (zh
Inventor
黑新宏
彭伟
朱磊
赵钦
王一川
姬文江
姚燕妮
焦瑞
董林靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202010365826.3A priority Critical patent/CN111597350B/zh
Publication of CN111597350A publication Critical patent/CN111597350A/zh
Application granted granted Critical
Publication of CN111597350B publication Critical patent/CN111597350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的轨道交通事件知识图谱构建方法;采用词典匹配模式加人工标注方式构建事件识别模型训练数据;采用BERT‑BiLSTM‑CRF算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用BERT‑BiLSTM‑ATTENTION‑SOFTMAX算法训练关系识别模型,自动抽取事件之间的关系。提升了轨道交通建设设计工程信息化,减少了构建图谱的工作量。

Description

基于深度学习的轨道交通事件知识图谱构建方法
技术领域
本发明属于人工智能领域的一个重要方向,具体涉及一种基于深度学习的轨道交通事件知识图谱构建方法。
背景技术
随着互联网技术的快速发展,众多行业与新兴的人工智能技术深度融合,取得了显著的成果。城市轨道交通作为城市现代化的标配,在推动城市经济发展中发挥着重要功效。轨道交通建设工程属于复杂的工程,具有规模庞大,建设工期长,投入资金巨大等特点。在轨道交通建设工程中前期的设计规划阶段是后期工程的基础,只有完备初期设计规划才能保障后期建设。然而在轨道交通工程的设计规划阶段,所参照的设计规范标准种类繁杂且各规范条目信息量巨大,且整个轨道交通建设工程的信息化程度较低,从而造成了在设计规划阶段查询某规范内容的困难。并且在设计阶段对设计人员专业能力有着极高的要求,使得设计工作极具挑战。因此需要借助知识图谱,来表示轨道交通设计规范知识,促进轨道交通建设工程的信息化。
目前大多数知识图谱是以实体为核心的实体知识图谱,但实体信息脱离具体的语境,存在语义信息的片面性。相比实体,事件更能清晰的表达语义信息。在轨道交通设计标准的规范条目中多包含有事件表达。因此采用事件知识图谱的形式来表达设计规范。相较于传统的知识图谱的构建方法,大多数自动化程度低,耗时耗力,因此提出基于深度学习的构建轨道交通事件知识图谱的方法,提升自动化程度,减轻工作量。
发明内容
本发明旨在是提供一种基于深度学习的轨道交通事件知识图谱构建方法。通过事件知识图谱来表示规范,使得所表示的内容的语义更丰富,精确。利用深度学习解决了传统构建图谱技术中自动化程度低,耗时耗力的问题。
本发明所采用的技术方案为,采用事件触发词词典匹配模式加人工标注方式构建轨道交通事件识别模型训练数据;采用BERT-BiLSTM-CRF算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型,自动抽取事件之间的关系,形成轨道交通事件知识图谱。事件知识图谱构建过程包括以下步骤:
步骤1,对原始文本采用事件触发词词典匹配和人工标注方式,来构建事件识别模型的训练数据。
步骤2,对轨道交通设计规范事件抽取训练集进行预处理,将训练集中的文本以规范条目划分,并对文本进行词性标注。
步骤3,将步骤2处理的文本使用BERT-BiLSTM-CRF算法训练轨道交通设计规范事件识别模型。
步骤4,对原始文本采用snowball算法,来构建事件关系训练数据。
步骤5,将步骤4生成的轨道交通设计规范事件关系抽取训练集进行预处理,将训练集中的文本以事件对形式划分。
步骤6,将步骤5处理的文本使用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型。
步骤7,对轨道交通设计规范进行预处理,以规范条目划分。
步骤8,将步骤7预处理过的轨道交通规范文本输入步骤3生成的事件识别模型中,抽取规范中的事件,事件包含事件触发词和事件元素。
步骤9,将步骤8中识别出来的事件,进行事件统一。
步骤10,将步骤9中识别出来的事件,存入事件数据库中。
步骤11,将步骤9中识别出来的事件以“事件元素-关系-事件触发词”的三元组的形式存入图数据库。
步骤12,从步骤10中生成的事件数据库中取出事件,组成事件对,输入步骤6生成的事件关系识别模型中,抽取规范中事件间的关系。
步骤13,将步骤10中的事件对和步骤12中抽取出的事件关系以“事件触发词-关系-事件触发词”的三元组形式存入图数据库。
步骤1中,事件由事件触发词和事件元素所组成;因事件触发词大多是具有固定的词汇,因此采用词典匹配的方式来加速人工标注,构建模型训练数据;词典的扩展可以借助同义词林。
步骤3中,使用BERT-BiLSTM-CRF算法训练事件识别模型,整个模型由三个部分组成,分别是BERT层,BiLSTM层,CRF层。BERT预训练模型用来获取包含规范的上下文特征信息的字向量,BiLSTM层用于特征提取,利用整个文本的序列信息,CRF层用来学习句子的约束条件,过滤错误的预测序列。
步骤4中,利用半监督snowball算法来构建事件关系识别模型训练集。snowball算法具体步骤如下:
步骤4.1,人工标注少量的事件关系,形成事件关系表;每一种事件关系对于一个事件关系表。
步骤4.2,使用现有的事件关系表,匹配原文中包含事件关系表中的事件的原句,并生成模板;模板的格式为五元组形式,分别为<left>,事件1类型,<middle>,事件2类型,<right>;len为可任意设定长度,<left>为事件1左边len个词汇的向量表示,<middle>为事件1和事件2间的词汇向量表示,<right>为事件右边len个词汇的向量表示;事件1类型为数值限定事件,事件2类型为数值限定事件。
步骤4.3,对生成的模板采用聚类,将相似度大于阈值0.7的模板聚为一类,利用平均的方法生成新的模板,加入用来存储模板规则库;。由步骤4.2可知模板的格式可记为
Figure BDA0002476714200000041
E1,E2分别表示模板P的事件1类型和事件2类型,
Figure BDA0002476714200000042
表示E1左边3个词汇长度的向量表示,
Figure BDA0002476714200000043
表示E1,E2之间词汇的向量表示,
Figure BDA0002476714200000044
表示E2右边三个词汇长度的向量表示。模板间的相似度计算,示例如下,模板1:
Figure BDA0002476714200000051
模板2:
Figure BDA0002476714200000052
若满足条件E1=E1'&&E2=E'2,即满足模板P1的事件1类型E1与模板P2的事件1类型E'1相同且模板P1的事件2类型E2与模板P2的事件2类型E'2相同,则模板P1与模板P2的相似度可由
Figure BDA0002476714200000053
计算得,μ1μ2μ3为权重,因
Figure BDA0002476714200000054
对模板间相似度计算结果影响较大,可设置μ213;若不满足条件E1=E1'&&E2=E'2,则模板P1与模板P2的相似度可记为0。
步骤4.4,首先利用步骤3中训练的事件识别模型扫描原文本,识别出文本中的包含的事件类型,然后利用步骤4.3中生成的规则库中模板对原文本进行匹配,匹配得到的文本转换为模板的五元组形式;
步骤4.5,将步骤4.4生成的新模板与规则库中的模板进行相似度计算,相似度小于阈值0.7的舍弃,相似度大于阈值0.7的模板中的事件加入事件关系表中;
步骤4.6,重复执行步骤4.2~4.5,直至原文本处理结束。
步骤6中,使用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型。整个模型由四个部分组成,分别是BERT层,BiLSTM层,ATTENTION层,SOFTMAX层。BERT预训练模型用来获取包含规范的上下文特征信息的字向量,BiLSTM层用于特征提取,利用整个文本的序列信息,ATTENTION层用来计算注意力概率以突出关键词汇在文本中的重要程度,SOFTMAX层用来生成各种关系类别的概率,取最大的类别概率为模型预测类别。
步骤9中,在规范文本中存在代指同一事件的文本;为避免在事件数据库中会造成大量冗余信息;采用事件统一处理算法,事件统一处理算法具体步骤如下:
步骤9.1,利用轨道交通原文本,训练word2vec模型;
步骤9.2,利用步骤9.1生成的word2vec模型,输入轨道交通事件,生成事件向量;
步骤9.3,利用余弦函数值计算事件之间的相似度,根据相似度值大于0.8的事件聚为一类;余弦函数如下所示:
Figure BDA0002476714200000061
步骤9.4,将步骤9.3产生新的事件,全部事件两者任意组合,计算事件对间的相似度;
步骤9.5,将事件对与事件相似度输入到以训练好的逻辑回归二分类模型中,判别事件的相似。逻辑回归数学模型如下:
Figure BDA0002476714200000062
步骤9.6,依据步骤9.5的分类结果,若事件间相似,则舍弃一个事件,若事件间不相似,则将两个事件都保存。
本发明的有益效果是:
本发明针对轨道交通建设设计阶段工程信息繁杂,传统知识图谱的缺陷和构建图谱工作量大的问题,提出了一种基于深度学习的构建轨道交通事件知识图谱的方法。采用事件触发词词典匹配模式加人工标注方式构建轨道交通事件识别模型训练数据;采用BERT-BiLSTM-CRF算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型,自动抽取事件之间的关系,形成轨道交通事件知识图谱。提升了轨道交通建设设计工程信息化,减少了构建图谱的工作量。
附图说明
图1为本发明一种基于深度学习的构建轨道交通事件知识图谱的方法总流程图;
图2为本发明一种基于深度学习的轨道交通事件知识图谱构建方法在采用词典匹配和人工标注构建事件训练数据集的过程;
图3为本发明一种基于深度学习的轨道交通事件知识图谱构建方法基于BERT-BiLSTM-CRF算法构建规范事件识别模型的过程;
图4为本发明一种基于深度学习的轨道交通事件知识图谱构建方法采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一的过程;
图5为本发明一种基于深度学习的轨道交通事件知识图谱构建方法采用snowball算法来构建事件关系模型的训练数据的过程;
图6为本发明一种基于深度学习的轨道交通事件知识图谱构建方法基于BERT-BiLSTM-ATTENTION-SOFTMAX算法构建关系识别模型的过程。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1,本发明基于深度学习的轨道交通事件知识图谱构建方法,具体包括以下步骤:
步骤1,如图2所示,对原始文本采用事件触发词词典匹配和人工标注方式,来构建事件识别模型的训练数据。标注训练集算法的伪代码如下:
Figure BDA0002476714200000081
步骤2,对轨道交通设计规范事件抽取训练集进行预处理,将训练集中的文本以规范条目划分,并对文本进行词性标注。
步骤3,如图3所示,将步骤2处理的文本使用BERT-BiLSTM-CRF算法训练轨道交通设计规范事件识别模型。构建事件识别模型的伪代码如下:
Figure BDA0002476714200000091
步骤4,如图5所示,对原始文本采用半监督snowball算法来构建事件关系识别模型训练集。snowball算法具体步骤如下:
步骤4.1,人工标注少量的事件关系,形成事件关系表;每一种事件关系对于一个事件关系表。
步骤4.2,使用现有的事件关系表,匹配原文中包含事件关系表中的事件的原句,并生成模板;模板的格式为五元组形式,分别为<left>,事件1类型,<middle>,事件2类型,<right>;len为可任意设定长度,<left>为事件1左边len个词汇的向量表示,<middle>为事件1和事件2间的词汇向量表示,<right>为事件右边len个词汇的向量表示;事件1类型为数值限定事件,事件2类型为数值限定事件。
步骤4.3,对生成的模板采用聚类,将相似度大于阈值0.7的模板聚为一类,利用平均的方法生成新的模板,加入用来存储模板规则库;。由步骤4.2可知模板的格式可记为
Figure BDA0002476714200000101
E1,E2分别表示模板P的事件1类型和事件2类型,
Figure BDA0002476714200000102
表示E1左边3个词汇长度的向量表示,
Figure BDA0002476714200000103
表示E1,E2之间词汇的向量表示,
Figure BDA0002476714200000104
表示E2右边三个词汇长度的向量表示。模板间的相似度计算,示例如下,模板1:
Figure BDA0002476714200000105
模板2:
Figure BDA0002476714200000106
若满足条件E1=E1'&&E2=E'2,即满足模板P1的事件1类型E1与模板P2的事件1类型E'1相同且模板P1的事件2类型E2与模板P2的事件2类型E'2相同,则模板P1与模板P2的相似度可由
Figure BDA0002476714200000107
计算得,μ1μ2μ3为权重,因
Figure BDA0002476714200000108
对模板间相似度计算结果影响较大,可设置μ213;若不满足条件E1=E1'&&E2=E'2,则模板P1与模板P2的相似度可记为0。
步骤4.4,首先利用步骤3中训练的事件识别模型扫描原文本,识别出文本中的包含的事件类型,然后利用步骤4.3中生成的规则库中模板对原文本进行匹配,匹配得到的文本转换为模板的五元组形式;
步骤4.5,将步骤4.4生成的新模板与规则库中的模板进行相似度计算,相似度小于阈值0.7的舍弃,相似度大于阈值0.7的模板中的事件加入事件关系表中;
步骤4.6,重复执行步骤4.2~4.5,直至原文本处理结束。
步骤5,将步骤4生成的轨道交通设计规范事件关系抽取训练集进行预处理,将文本以事件对形式划分。
步骤6,将步骤5处理的文本使用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型。构建事件关系识别模型的伪代码如下,如图6所示:
Figure BDA0002476714200000111
步骤7,对轨道交通设计规范进行预处理,以规范条目划分。
步骤8,将步骤7预处理过的轨道交通规范文本输入步骤3生成的事件识别模型中,抽取规范中的事件,事件包含事件触发词和事件元素。
步骤9,将步骤8中识别出来的事件,如图4所示,进行事件统一。在规范文本中存在代指同一事件的文本,;为避免在事件数据库中会造成大量冗余信息;采用事件统一处理算法,事件统一处理算法具体步骤如下:
步骤9.1,利用轨道交通原文本,训练word2vec模型;
步骤9.2,利用步骤9.1生成的word2vec模型,输入轨道交通事件,生成事件向量;
步骤9.3,利用余弦函数值计算事件之间的相似度,根据相似度值大于0.8的事件聚为一类;余弦函数如下所示:
Figure BDA0002476714200000121
步骤9.4,将步骤9.3产生新的事件,全部事件两者任意组合,计算事件对间的相似度;
步骤9.5,将事件对与事件相似度输入到以训练好的逻辑回归二分类模型中,判别事件的相似。逻辑回归数学模型如下:
Figure BDA0002476714200000122
步骤9.6,依据步骤9.5的分类结果,若事件间相似,则舍弃一个事件,若事件间不相似,则将两个事件都保存。
步骤10,将步骤9中识别出来的事件,存入事件数据库中。
步骤11,将步骤9中识别出来的事件以“事件元素-关系-事件触发词”的三元组的形式存入图数据库。例如,“轨道中心道床面作为应急疏散通道”以<轨道中心道床面,主体,作为>和<应急疏散通道,客体,作为>存入图数据库。
步骤12,从步骤10中生成的事件数据库中取出事件,组成事件对,输入步骤6生成的事件关系识别模型中,抽取规范中事件间的关系。
步骤13,将步骤10中的事件对和步骤12中抽取出的事件关系以“事件触发词-关系-事件触发词”的三元组形式存入图数据库。例如“轨道中心道床面作为应急疏散通道”和“列车端部车辆应设置专用端门和配置下车设施”间的事件关系以<作为,条件关系,设置>存入图数据库。
本发明采用事件触发词词典匹配模式加人工标注方式构建轨道交通事件识别模型训练数据;采用BERT-BiLSTM-CRF算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型,自动抽取事件之间的关系,形成轨道交通事件知识图谱。提升了轨道交通建设设计工程信息化,减少了构建图谱的工作量。

Claims (7)

1.一种基于深度学习的轨道交通事件知识图谱构建方法,其特征在于,采用事件触发词词典匹配模式加人工标注方式构建轨道交通事件识别模型训练数据;采用BERT-BiLSTM-CRF算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型,自动抽取事件之间的关系,形成轨道交通事件知识图谱。
2.根据权利要求1所述的一种基于深度学习的轨道交通事件知识图谱构建方法,其特征在于,具体包括以下步骤:
步骤1,对原始文本采用事件触发词词典匹配和人工标注方式,来构建事件识别模型的训练数据。
步骤2,对轨道交通设计规范事件抽取训练集进行预处理,将训练集中的文本以规范条目划分,并对文本进行词性标注。
步骤3,将步骤2处理的文本使用BERT-BiLSTM-CRF算法训练轨道交通设计规范事件识别模型。
步骤4,对原始文本采用snowball算法,来构建事件关系训练数据。
步骤5,将步骤4生成的轨道交通设计规范事件关系抽取训练集进行预处理,将训练集中的文本以事件对形式划分。
步骤6,将步骤5处理的文本使用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型。
步骤7,对轨道交通设计规范进行预处理,以规范条目划分。
步骤8,将步骤7预处理过的轨道交通规范文本输入步骤3生成的事件识别模型中,抽取规范中的事件,事件包含事件触发词和事件元素。
步骤9,将步骤8中识别出来的事件,进行事件统一。
步骤10,将步骤9中识别出来的事件,存入事件数据库中。
步骤11,将步骤9中识别出来的事件以“事件元素-关系-事件触发词”的三元组的形式存入图数据库。
步骤12,从步骤10中生成的事件数据库中取出事件,组成事件对,输入步骤6生成的事件关系识别模型中,抽取规范中事件间的关系。
步骤13,将步骤10中的事件对和步骤12中抽取出的事件关系以“事件触发词-关系-事件触发词”的三元组形式存入图数据库。
3.根据权利要求2所述的一种基于深度学习的轨道交通事件知识图谱构建方法,其特征在于,所述步骤1中,事件由事件触发词和事件元素所组成;因事件触发词大多是具有固定的词汇,因此采用词典匹配的方式来加速人工标注,构建模型训练数据;词典的扩展可以借助同义词林。
4.根据权利要求2所述的一种基于深度学习的轨道交通事件知识图谱构建方法,其特征在于,所述步骤3中,使用BERT-BiLSTM-CRF算法训练事件识别模型,整个模型由三个部分组成,分别是BERT层,BiLSTM层,CRF层;BERT预训练模型用来获取包含规范的上下文特征信息的字向量,BiLSTM层用于特征提取,利用整个文本的序列信息,CRF层用来学习句子的约束条件,过滤错误的预测序列。
5.根据权利要求2所述的一种基于深度学习的轨道交通事件知识图谱构建方法,其特征在于,所述步骤4中,利用半监督snowball算法来构建事件关系识别模型训练集。snowball算法具体步骤如下:
步骤4.1,人工标注少量的事件关系,形成事件关系表;每一种事件关系对于一个事件关系表。
步骤4.2,使用现有的事件关系表,匹配原文中包含事件关系表中的事件的原句,并生成模板;模板的格式为五元组形式,分别为<left>,事件1类型,<middle>,事件2类型,<right>;len为可任意设定长度,<left>为事件1左边len个词汇的向量表示,<middle>为事件1和事件2间的词汇向量表示,<right>为事件右边len个词汇的向量表示;事件1类型为数值限定事件,事件2类型为数值限定事件。
步骤4.3,对生成的模板采用聚类,将相似度大于阈值0.7的模板聚为一类,利用平均的方法生成新的模板,加入用来存储模板规则库;。由步骤4.2可知模板的格式可记为
Figure FDA0002476714190000031
E1,E2分别表示模板P的事件1类型和事件2类型,
Figure FDA0002476714190000032
表示E1左边3个词汇长度的向量表示,
Figure FDA0002476714190000033
表示E1,E2之间词汇的向量表示,
Figure FDA0002476714190000034
表示E2右边三个词汇长度的向量表示。模板间的相似度计算,示例如下,模板1:
Figure FDA0002476714190000041
模板2:
Figure FDA0002476714190000042
若满足条件E1=E′1&&E2=E′2,即满足模板P1的事件1类型E1与模板P2的事件1类型E′1相同且模板P1的事件2类型E2与模板P2的事件2类型E′2相同,则模板P1与模板P2的相似度可由
Figure FDA0002476714190000043
计算得,μ1μ2μ3为权重,因
Figure FDA0002476714190000044
对模板间相似度计算结果影响较大,可设置μ213;若不满足条件E1=E′1&&E2=E′2,则模板P1与模板P2的相似度可记为0。
步骤4.4,首先利用步骤3中训练的事件识别模型扫描原文本,识别出文本中的包含的事件类型,然后利用步骤4.3中生成的规则库中模板对原文本进行匹配,匹配得到的文本转换为模板的五元组形式;
步骤4.5,将步骤4.4生成的新模板与规则库中的模板进行相似度计算,相似度小于阈值0.7的舍弃,相似度大于阈值0.7的模板中的事件加入事件关系表中;
步骤4.6,重复执行步骤4.2~4.5,直至原文本处理结束。
6.根据权利要求2所述的一种基于深度学习的轨道交通事件知识图谱构建方法,其特征在于,所述步骤6中,使用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型;整个模型由四个部分组成,分别是BERT层,BiLSTM层,ATTENTION层,SOFTMAX层;BERT预训练模型用来获取包含规范的上下文特征信息的字向量,BiLSTM层用于特征提取,利用整个文本的序列信息,ATTENTION层用来计算注意力概率以突出关键词汇在文本中的重要程度,SOFTMAX层用来生成各种关系类别的概率,取最大的类别概率为模型预测类别。
7.根据权利要求2所述的一种基于深度学习的轨道交通事件知识图谱构建方法,其特征在于,所述步骤9中,在规范文本中存在代指同一事件的文本,;为避免在事件数据库中会造成大量冗余信息;采用事件统一处理算法,事件统一处理算法具体步骤如下:
步骤9.1,利用轨道交通原文本,训练word2vec模型;
步骤9.2,利用步骤9.1生成的word2vec模型,输入轨道交通事件,生成事件向量;
步骤9.3,利用余弦函数值计算事件之间的相似度,根据相似度值大于0.8的事件聚为一类;余弦函数如下所示:
Figure FDA0002476714190000051
步骤9.4,将步骤9.3产生新的事件,全部事件两者任意组合,计算事件对间的相似度;
步骤9.5,将事件对与事件相似度输入到以训练好的逻辑回归二分类模型中,判别事件的相似。逻辑回归数学模型如下:
Figure FDA0002476714190000052
步骤9.6,依据步骤9.5的分类结果,若事件间相似,则舍弃一个事件,若事件间不相似,则将两个事件都保存。
CN202010365826.3A 2020-04-30 2020-04-30 基于深度学习的轨道交通事件知识图谱构建方法 Active CN111597350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010365826.3A CN111597350B (zh) 2020-04-30 2020-04-30 基于深度学习的轨道交通事件知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010365826.3A CN111597350B (zh) 2020-04-30 2020-04-30 基于深度学习的轨道交通事件知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN111597350A true CN111597350A (zh) 2020-08-28
CN111597350B CN111597350B (zh) 2023-06-02

Family

ID=72186939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010365826.3A Active CN111597350B (zh) 2020-04-30 2020-04-30 基于深度学习的轨道交通事件知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN111597350B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131401A (zh) * 2020-09-14 2020-12-25 腾讯科技(深圳)有限公司 一种概念知识图谱构建方法和装置
CN112418696A (zh) * 2020-11-27 2021-02-26 北京工业大学 城市交通动态知识图谱的构建方法及装置
CN112463989A (zh) * 2020-12-11 2021-03-09 交控科技股份有限公司 一种基于知识图谱的信息获取方法及***
CN112733874A (zh) * 2020-10-23 2021-04-30 招商局重庆交通科研设计院有限公司 基于知识图谱推理的可疑车辆判别方法
CN112800762A (zh) * 2021-01-25 2021-05-14 上海犀语科技有限公司 一种处理带格式风格文本的要素内容抽取方法
CN113268591A (zh) * 2021-04-17 2021-08-17 中国人民解放军战略支援部队信息工程大学 基于事理图谱的空中目标意图判证方法及***
CN113535979A (zh) * 2021-07-14 2021-10-22 中国地质大学(北京) 一种矿物领域知识图谱构建方法及***
CN113546426A (zh) * 2021-07-21 2021-10-26 西安理工大学 一种针对游戏业务中数据访问事件的安全策略生成方法
CN115269931A (zh) * 2022-09-28 2022-11-01 深圳技术大学 基于业务驱动的轨道交通车站数据图谱***及其构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028077A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及***
CN110633409A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028077A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及***
CN110633409A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
洪文兴等: "面向司法案件的案情知识图谱自动构建", 《中文信息学报》 *
项威: "事件知识图谱构建技术与应用综述", 《计算机与现代化》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131401B (zh) * 2020-09-14 2024-02-13 腾讯科技(深圳)有限公司 一种概念知识图谱构建方法和装置
CN112131401A (zh) * 2020-09-14 2020-12-25 腾讯科技(深圳)有限公司 一种概念知识图谱构建方法和装置
CN112733874A (zh) * 2020-10-23 2021-04-30 招商局重庆交通科研设计院有限公司 基于知识图谱推理的可疑车辆判别方法
CN112418696A (zh) * 2020-11-27 2021-02-26 北京工业大学 城市交通动态知识图谱的构建方法及装置
CN112418696B (zh) * 2020-11-27 2024-06-18 北京工业大学 城市交通动态知识图谱的构建方法及装置
CN112463989A (zh) * 2020-12-11 2021-03-09 交控科技股份有限公司 一种基于知识图谱的信息获取方法及***
CN112800762A (zh) * 2021-01-25 2021-05-14 上海犀语科技有限公司 一种处理带格式风格文本的要素内容抽取方法
CN113268591A (zh) * 2021-04-17 2021-08-17 中国人民解放军战略支援部队信息工程大学 基于事理图谱的空中目标意图判证方法及***
CN113535979A (zh) * 2021-07-14 2021-10-22 中国地质大学(北京) 一种矿物领域知识图谱构建方法及***
CN113546426B (zh) * 2021-07-21 2023-08-22 西安理工大学 一种针对游戏业务中数据访问事件的安全策略生成方法
CN113546426A (zh) * 2021-07-21 2021-10-26 西安理工大学 一种针对游戏业务中数据访问事件的安全策略生成方法
CN115269931B (zh) * 2022-09-28 2022-11-29 深圳技术大学 基于业务驱动的轨道交通车站数据图谱***及其构建方法
CN115269931A (zh) * 2022-09-28 2022-11-01 深圳技术大学 基于业务驱动的轨道交通车站数据图谱***及其构建方法

Also Published As

Publication number Publication date
CN111597350B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN111597350A (zh) 基于深度学习的轨道交通事件知识图谱构建方法
CN109271631B (zh) 分词方法、装置、设备及存储介质
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理***及方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及***
CN114036933B (zh) 基于法律文书的信息抽取方法
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN111783399A (zh) 一种法律裁判文书信息抽取方法
CN112906397B (zh) 一种短文本实体消歧方法
CN111832293B (zh) 基于头实体预测的实体和关系联合抽取方法
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN113204967B (zh) 简历命名实体识别方法及***
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN111597349B (zh) 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN116432645A (zh) 一种基于预训练模型的交通事故命名实体识别方法
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN116010553A (zh) 一种基于双路编码和精确匹配信号的观点检索***
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN116910272B (zh) 基于预训练模型t5的学术知识图谱补全方法
Wu et al. One improved model of named entity recognition by combining BERT and BiLSTM-CNN for domain of Chinese railway construction
CN111522913A (zh) 一种适用于长文本和短文本的情感分类方法
CN116595970A (zh) 语句同义改写方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant