CN114417015B - 一种高速列车可维修性知识图谱构建方法 - Google Patents

一种高速列车可维修性知识图谱构建方法 Download PDF

Info

Publication number
CN114417015B
CN114417015B CN202210093725.4A CN202210093725A CN114417015B CN 114417015 B CN114417015 B CN 114417015B CN 202210093725 A CN202210093725 A CN 202210093725A CN 114417015 B CN114417015 B CN 114417015B
Authority
CN
China
Prior art keywords
speed train
entity
maintainability
model
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210093725.4A
Other languages
English (en)
Other versions
CN114417015A (zh
Inventor
张海柱
黎荣
郭恒
丁国富
魏永杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202210093725.4A priority Critical patent/CN114417015B/zh
Publication of CN114417015A publication Critical patent/CN114417015A/zh
Application granted granted Critical
Publication of CN114417015B publication Critical patent/CN114417015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Train Traffic Observation, Control, And Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种高速列车可维修性知识图谱构建方法,包括以下步骤:步骤1:构建高速列车可维修性知识图谱模式层;步骤2:构建高速列车可维修性知识图谱数据层;步骤3:采用Neo4j图数据库进行知识存储。通过构建多域融合的高速列车可维修性本体,使得设计域、故障域、维修域数据可以相互关联。

Description

一种高速列车可维修性知识图谱构建方法
技术领域
本申请涉及知识图谱技术领域,具体而言,涉及一种高速列车可维修性知识图谱构建方法。
背景技术
我国高速列车体量大、品种多,经受复杂的作用关系、地理气候、运用工况的考验,极易诱发各类故障和威胁运行安全。高速列车运营过程中的维修性数据和知识对产品性能改进至关重要。然而,目前产品生命周期研发要素考虑不全面,较少从设计和运维端到端双向协同角度考虑产品设计,使得设计和运维数据难以互通和共享,导致产品全生命周期设计不闭环,缺少必要的信息反馈完成产品从源头上改进不足和提升性能,难以为高速列车可维修性提供“数据+模型+知识”。
在高速列车设计中,要实现可维修性知识提取并不容易,难点在于:①各阶段数据结构不一致,高速列车设计阶段数据大多为设计标准、设计手册等非结构化文本数据,而运维阶段则有非结构化的维修手册、半结构化及结构化的故障维修记录等数据;②各阶段数据量大,高速列车是复杂的巨***,数据量十分庞大,尤其是运维阶段更为明显;③领域概念关系复杂,高速列车各阶段所涉及知识繁杂,设计人员难以理解不同领域概念之间错综复杂的关系。为解决上述问题,本发明提出了一种高速列车可维修性知识图谱构建方法。
发明内容
为了解决高速列车设计中的难点,本发明提供了以下技术方案:
本发明提供一种高速列车可维修性知识图谱构建方法,包括以下步骤:
步骤1:构建高速列车可维修性知识图谱模式层。
步骤2:构建高速列车可维修性知识图谱数据层。
步骤3:采用Neo4j图数据库进行知识存储。
优选的,参见图1,在步骤1中包括以下步骤:
步骤11:构建用于高速列车可维修性知识本体模型架构;
步骤12:构建高速列车可维修性本体;
步骤13:在protégé中实现高速列车可维修性本体结构化。
优选的,参见图2所示,在步骤11中,针对高速列车设计时、运行时及维护时这三个阶段的可维修性知识内容进行表达。
在高速列车设计阶段,对高速列车设计流程进行分析,明确各阶段输入输出,统计设计信息,其中设计信息至少包括产品结构、标准、材料,对设计信息及设计实体内容进行表达。
在高速列车运行阶段,对高速列车零件故障信息、与零件故障相关的产品信息及结构关系、在运行阶段使用的传感器设备、运行保障人员信息内容进行表达。当高速列车零件故障信息、与零件故障相关的产品信息及结构关系、在运行阶段使用的传感器设备、运行保障人员信息内容发生变化(如转向架结构发生变化、传感器设备进行调整更换)时,在本体模型架构中新建相应的概念,增加或删除相关的本体实例,并更新实例之间的链接关系,完成本体模型的更新。
在高速列车检修阶段,对高速列车零件维修工艺流程、维修设备布局、操作人员、维修设备内容进行表达,当维修工艺流程、维修设备布局、操作人员、维修设备内容需要进行修改(如选择更好地维修工艺、维修设备)时,新建相应的概念、更新关系,完成本体模型的更新。
优选的,在步骤12中,具体包括以下步骤:
步骤121:定义高速列车可维修性本体;
步骤122:基于多域特征分析的本体模型架构,建立高速列车可维修性本体的概念和属性关系。
优选的,步骤121中包括以下操作:
记高速列车可维修性本体为Design-Fault-Repair Feature Ontology。Design-Fault-Repair Feature Ontology={Entity,Attribute,Relation,Part},其中:
a)Entity为实体相关概念集,用于表示设计-故障-维修领域客观实体的集合,Entity=(Equipment,Product,Staff),Equipment为维修设备类,指在高速列车维修过程中客观存在的物理维修设备,包括镟轮机、天车等子类;Product为产品类,表示客观存在的物理产品,有零件、模块、***、车辆、列车五个层级,其中备用零件包含于零件;Staff为高速列车产品在三个阶段所涉及的人员。
b)Attribute为属性相关概念集,表示Entity具有的一些属性特征,包括设计约束、设计属性、维修工艺、故障模式、转向架型号、生产商、工种等概念。其中,设计约束包括内部约束及外部约束;维修工艺表示零件进行检修所需要的工艺类型,包括拆卸、探伤、换件、检测、镟轮等子类;故障模式表示在高速列车产品使用过程中,产品零部件发生的故障类型,包括裂纹、漏油、温度升高等子类,为了进一步精确高速列车故障事件发生的事件地点,故障模式中还包括了故障时间、故障区间这两种属性概念。
c)Relation中包含了实体、属性相关概念之间的除了层级关系外的所有的关联关系,记为<概念C1,关系R,概念C2>,其中,概念C1与概念C2是包含于实体相关概念集Entity和属性相关概念集Attribute中的。
d)Part包含了本体中除Relation关系集之外的概念之间的具有层级结构的关系,表示某一概念层级隶属于另一概念层级,即子类概念集与父类概念集的关系,在故障-维修特征本体中用“是”及“子集”关系表示。
优选的,步骤122中包括以下操作:
在高速列车可维修性本体中,围绕“零件”实体将三个领域关联起来,用于描述零件在三个领域的相关信息。
优选的,以设计领域为例,首先将“零件”作为产品结构树的叶子节点,与上级节点“模块”为“属于”的关系,则“零件”实体与“模块”实体可以表示为三元组<零件,属于,模块>,用于描述高速列车产品结构,“模块”节点与“***”节点同样为“属于”关系,最高级节点也就是结构树的根节点为“列车”,为高速列车设计最终输出结果;其次“零件”节点在设计时涉及多个“设计约束”,即关系为“有约束”,则“零件”实体与“设计约束”属性可以表示为三元组<零件,有约束,设计约束>;“零件”实体还包括“设计属性”、“设计人员”,分别描述零件的设计属性信息及设计人员相关信息。
优选的,在步骤13中,按照步骤12中构建的高速列车可维修性本体,使用protégé5.0工具进行本体构建。
优选的,参见图4,步骤2中包括以下步骤:
步骤21:对命名实体进行识别;
步骤22:基于模板的关系抽取;
步骤23:知识融合。
优选的,步骤21具体包括以下步骤:
步骤211:使用高速列车领域文本数据对BERT-BiLSTM-CRF模型进行训练。
步骤212:将高速列车文本数据输入到BERT中,由BERT模型提取文本中的词特征、语法语义特征。
步骤213:采用BiLSTM-CRF模型对BERT模型提取文本中的词特征、语法语义特征进行处理,得到高速列车可维修性相关实体词。
优选的,步骤211具体包括以下步骤:
步骤2111:首先将高速列车文本数据按8:1:1随机分为训练集、测试集以及验证集;
步骤2112:划分好训练集后,根据步骤1中高速列车可维修性本体描述的概念及属性关系,使用数据标注工具对训练数据进行标注;
步骤2113:标注完训练集后,输入BERT-BiLSTM-CRF模型进行训练;
步骤2114:在模型训练完成后,输入未标注数据的测试集对模型训练结果进行测试;
步骤2115:最后通过输入验证集数据,验证训练后的模型能够用于高速列车领域命名实体识别任务。
优选的,步骤212具体包括以下步骤:
步骤2121:BERT模型在接收到输入的高速列车文本数据后,将文本按字转换为符合条件的字符表征向量;
步骤2122:将转化后的字符向量输入Transformer编码器,最终输出字符动态向量。
优选的,步骤213具体包括以下步骤:
步骤2131:将BERT模型输出的动态特征向量输入BiLSTM模型,BiLSTM模型将BERT模型的字向量按照前向及后向的顺序分别进行处理,对信息进行选择性记忆和传递,最终输出每个字的得分向量;
步骤2132:将BiLSTM输出的得分向量输入CRF模型,该模型考虑了各字标签的约束关系,计算不同字标签序列出现的概率,从中选取概率最大的序列作为输出文本的标签序列,即根据概率输出最优标签序列;
步骤2133:对CRF模型输出的最优标签序列中包含的高速列车领域实体词进行提取分类;
步骤2134:将高速列车领域实体词按类别存储在csv格式文件中。
优选的,步骤22中:通过对输入的高速列车领域事件文本数据进行分析,将文本中包含的实体词对照所设计的关系模板进行关系抽取,关系抽取步骤最终输出为知识三元组。
优选的,步骤22具体包括以下步骤:
步骤221:基于知识图谱模式层构建的高速列车多域融合本体中的概念关系,设计故障事件关系匹配模板。
步骤222:设计人员针对输入的故障事件文本中所抽取的实体词类型对照所设计的高速列车领域故障事件关系模板进行实体关系匹配。
步骤223:当设计人员发现某些实体词间的关系无法通过关系模板匹配时,则评定实体词之间是否包含新的概念关系,若存在,则更新关系匹配模板并同步反馈到模式层,更新高速列车多域融合本体。
在步骤221中:基于知识图谱模式层构建的高速列车多域融合本体中的概念关系,设计故障事件关系匹配模板。根据长期的工程实践发现,受限于高速列车运维故障记录训练语料少、故障模式相对单一以及模型识别精确度需求高的特点,一般的机器学习关系抽取方法并不适用。为此,本文采用基于模板匹配的方法进行高速列车维修性设计知识图谱关系抽取,并从故障事件角度设计了关系匹配模板。
优选的,步骤222中包括以下步骤:
步骤2221:检索输入文本中是否包含故障事件关系触发词。检索文本中是否包含了“报、报告、发现、发生、反映”以及步骤21中可识别的高速列车领域实体词。
步骤2222:在输入文本中确定“零件”实体词的位置
步骤2223:选取与“零件”实体词位置最近的“故障模式”实体词组成三元组,输出<零件,发生,故障模式>三元组。
由于输入的故障文本可能存在多个“零件”及对应“故障模式”实体词,考虑到事件描述方式,在确定“零件”实体词位置后,选取与“零件”实体词位置最近的“故障模式”实体词组成三元组,输出<零件,发生,故障模式>三元组。
步骤2224:确定与“零件”实体词相对应的“模块”、“子***”、“***”、“列车”,确定故障零件所处的转向架结构关系,输出<零件,属于,模块>等转向架结构知识三元组。
步骤2225:确定输入文本中“列车型号”实体词,输出<列车,车型,列车型号>知识三元组。
步骤2226:确定输入文本中“故障日期”实体词的位置,输出<故障日期,发生,故障模式>知识三元组。
优选的,由于高速列车可维修性知识图谱的数据源为多源多域的数据,对于同一个概念的描述,可能会存在多种方式,例如对于某型号高速列车转向架中的“牵引电机模块”,在设计阶段数据记录可能为配置选型后的“TQ-600”等具体型号,而在故障记录表或者维修履历表上,由于现场人为记录的原因,可能记录为“电机”或“牵引电机”,但针对同批次高速列车,其实这些实体名称都指代“TQ-600牵引电机模块”,如果不进行知识融合,则会产生信息冗余,因此需要采用步骤23进行知识融合。
优选的,在步骤S23中采用实体链接或模式对齐两种方式实现知识融合:
优选的,采用实体链接进行知识融合的操作步骤为:
(1)输入待知识融合的实体数据;
(2)通过实体间的相似度计算,计算得出知识库中相似度最高的候选实体项。
(3)将待知识融合的实体数据链接到候选实体项。
例如:“牵引电机模块”多实体名称指代问题即可通过实体链接进行知识合并解决。
优选的,采用模式对齐进行知识融合的操作步骤为:
将多个属性名字不同但表征相同的属性进行融合。
例如:在描述高速列车车轴的“轴温异常”属性和“轴温过限”属性,都是“车轴”实体的同一故障模式属性值。
优选的,在步骤3中,采用Neo4j图数据库进行知识存储,将获取的结构化数据存储在网络中。
与现有技术相比,本发明的有益效果:
(1)发明人在长期工程实践发现了高速列车设计、运营以及维修阶段数据量大,领域概念关系复杂,高速列车各阶段所涉及知识繁杂,设计人员难以理解不同领域概念之间错综复杂的关系这一技术问题,对此,本发明考虑了高速列车多源异构数据的关联交互问题,构建了多域融合的高速列车可维修性本体,使得设计域、故障域、维修域数据可以相互关联。
(2)本发明考虑到设计域、故障域及维修域高速列车数据能够反映高速列车可维修性的好坏,通过挖掘三个领域的数据,得到可维修性知识,提高高速列车产品的可维修性、可靠性,促进产品设计质量进一步提升。
(3)本发明提出的针对高速列车设计、运行以及维修三个阶段的本体模型架构,该架构对高速列车设计时、运行时以及维修时的可维修性知识内容进行表达,具有很好的适应性,提高了高速列车领域可维修性知识表达的灵活性,降低了本体模型构建的成本。
(4)发明人根据长期工程实践发现了高速列车数据具有高保密性要求以及领域知识图谱数据较难获取的特点,对此,发明人通过多次对比试验发现:对于高速列车数据而言,采用BERT-BiLSTM-CRF模型对高速列车数据进行处理能够在数据量较少情况下也达到高精确度。
(5)发明人在长期工程实践发现高速列车可维修性知识图谱的数据源为多源多域的数据,对于同一个概念的描述,可能会存在多种方式,会产生信息冗余,对此,本发明提出了实体链接和模式对齐两种知识融合方式相结合的方式,实现了去除信息冗余的效果。
(6)根据长期的工程实践发现,受限于高速列车运维故障记录训练语料少、故障模式相对单一以及模型识别精确度需求高的特点,一般的机器学习关系抽取方法并不适用。因此,本文采用基于模板匹配的方法进行高速列车维修性知识图谱关系抽取,并从故障事件角度设计了关系匹配模板,提高了高速列车维修性知识图谱关系抽取的实用性。
(7)一般而言,触发词应只包括“报、报告、发现、发生、反映”等表明运维人员正式上报故障事件的词。但根据长期工程实践发现,由于人为原因,故障事件记录格式不统一,导致有些故障事件仅出现了“零件”及“故障模式”等词,为了最大限度的获取故障相关知识三元组,在本发明中,只要文本中包含了高速列车领域相关实体词,都看作触发词进行关系匹配,来得到更多的三元组,提高了模型的准确性。
附图说明:
图1为知识图谱模式层构建技术路线图;
图2为高速列车可维修性知识本体模型架构;
图3为高速列车可维修性本体示意图;
图4为知识图谱数据层构建技术路线。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。
因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的部分实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征和技术方案可以相互组合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本发明提供一种高速列车可维修性知识图谱构建方法,包括以下步骤:
步骤1:构建高速列车可维修性知识图谱模式层。
步骤2:构建高速列车可维修性知识图谱数据层。
步骤3:采用Neo4j图数据库进行知识存储。
优选的,参见图1,在步骤1中包括以下步骤:
步骤11:构建用于高速列车可维修性知识本体模型架构;
步骤12:构建高速列车可维修性本体;
步骤13:在protégé中实现高速列车可维修性本体结构化。
优选的,参见图2所示,在步骤11中,针对高速列车设计时、运行时及维护时这三个阶段的可维修性知识内容进行表达。
在高速列车设计阶段,对高速列车设计流程进行分析,明确各阶段输入输出,统计设计信息,其中设计信息至少包括产品结构、标准、材料,对设计信息及设计实体内容进行表达。
在高速列车运行阶段,对高速列车零件故障信息、与零件故障相关的产品信息及结构关系、在运行阶段使用的传感器设备、运行保障人员信息内容进行表达。当高速列车零件故障信息、与零件故障相关的产品信息及结构关系、在运行阶段使用的传感器设备、运行保障人员信息内容发生变化(如转向架结构发生变化、传感器设备进行调整更换)时,在本体模型架构中新建相应的概念,增加或删除相关的本体实例,并更新实例之间的链接关系,完成本体模型的更新。
在高速列车检修阶段,对高速列车零件维修工艺流程、维修设备布局、操作人员、维修设备内容进行表达,当维修工艺流程、维修设备布局、操作人员、维修设备内容需要进行修改(如选择更好地维修工艺、维修设备)时,新建相应的概念、更新关系,完成本体模型的更新。
优选的,在步骤12中,具体包括以下步骤:
步骤121:定义高速列车可维修性本体;
步骤122:基于多域特征分析的本体模型架构,建立高速列车可维修性本体的概念和属性关系。在图3中,高速列车可维修性本体中包含的概念关系如表1所示。
表1高速列车可维修性本体概念关系
Figure BDA0003490075120000131
Figure BDA0003490075120000141
优选的,步骤121中包括以下操作:
记高速列车可维修性本体为Design-Fault-Repair Feature Ontology。Design-Fault-Repair Feature Ontology={Entity,Attribute,Relation,Part},其中:
a)Entity为实体相关概念集,用于表示设计-故障-维修领域客观实体的集合,Entity=(Equipment,Product,Staff),Equipment为维修设备类,指在高速列车维修过程中客观存在的物理维修设备,包括镟轮机、天车等子类;Product为产品类,表示客观存在的物理产品,有零件、模块、***、车辆、列车五个层级,其中备用零件包含于零件;Staff为高速列车产品在三个阶段所涉及的人员。
b)Attribute为属性相关概念集,表示Entity具有的一些属性特征,包括设计约束、设计属性、维修工艺、故障模式、转向架型号、生产商、工种等概念。其中,设计约束包括内部约束及外部约束;维修工艺表示零件进行检修所需要的工艺类型,包括拆卸、探伤、换件、检测、镟轮等子类;故障模式表示在高速列车产品使用过程中,产品零部件发生的故障类型,包括裂纹、漏油、温度升高等子类,为了进一步精确高速列车故障事件发生的事件地点,故障模式中还包括了故障时间、故障区间这两种属性概念。
c)Relation中包含了实体、属性相关概念之间的除了层级关系外的所有的关联关系,记为<概念C1,关系R,概念C2>,其中,概念C1与概念C2是包含于实体相关概念集Entity和属性相关概念集Attribute中的。
d)Part包含了本体中除Relation关系集之外的概念之间的具有层级结构的关系,表示某一概念层级隶属于另一概念层级,即子类概念集与父类概念集的关系,在故障-维修特征本体中用“是”及“子集”关系表示。
优选的,步骤122中包括以下操作:
在高速列车可维修性本体中,围绕“零件”实体将三个领域关联起来,用于描述零件在三个领域的相关信息。
优选的,以设计领域为例,首先将“零件”作为产品结构树的叶子节点,与上级节点“模块”为“属于”的关系,则“零件”实体与“模块”实体可以表示为三元组<零件,属于,模块>,用于描述高速列车产品结构,“模块”节点与“***”节点同样为“属于”关系,最高级节点也就是结构树的根节点为“列车”,为高速列车设计最终输出结果;其次“零件”节点在设计时涉及多个“设计约束”,即关系为“有约束”,则“零件”实体与“设计约束”属性可以表示为三元组<零件,有约束,设计约束>;“零件”实体还包括“设计属性”、“设计人员”,分别描述零件的设计属性信息及设计人员相关信息。
优选的,在步骤13中,按照步骤12中构建的高速列车可维修性本体,使用protégé5.0工具进行本体构建。
优选的,参见图4,步骤2中包括以下步骤:
步骤21:对命名实体进行识别;
步骤22:基于模板的关系抽取。
步骤23:知识融合。
优选的,步骤21具体包括以下步骤:
步骤211:使用高速列车领域文本数据对BERT-BiLSTM-CRF模型进行训练。
步骤212:将高速列车文本数据输入到BERT中,由BERT模型提取文本中的词特征、语法语义特征。
步骤213:采用BiLSTM-CRF模型对BERT模型提取文本中的词特征、语法语义特征进行处理,得到高速列车可维修性相关实体词。
优选的,步骤211具体包括以下步骤:
步骤2111:首先将高速列车文本数据按8:1:1随机分为训练集、测试集以及验证集;
步骤2112:划分好训练集后,根据步骤1中高速列车可维修性本体描述的概念及属性关系,使用数据标注工具对训练数据进行标注;
步骤2113:标注完训练集后,输入BERT-BiLSTM-CRF模型进行训练;
步骤2114:在模型训练完成后,输入未标注数据的测试集对模型训练结果进行测试;
步骤2115:最后通过输入验证集数据,验证训练后的模型能够用于高速列车领域命名实体识别任务。
优选的,步骤212具体包括以下步骤:
步骤2121:BERT模型在接收到输入的高速列车文本数据后,将文本按字转换为符合条件的字符表征向量;
步骤2122:将转化后的字符向量输入Transformer编码器,最终输出字符动态向量。
优选的,步骤213具体包括以下步骤:
步骤2131:将BERT模型输出的动态特征向量输入BiLSTM模型,BiLSTM模型将BERT模型的字向量按照前向及后向的顺序分别进行处理,对信息进行选择性记忆和传递,最终输出每个字的得分向量;
步骤2132:将BiLSTM输出的得分向量输入CRF模型,该模型考虑了各字标签的约束关系,计算不同字标签序列出现的概率,从中选取概率最大的序列作为输出文本的标签序列,即根据概率输出最优标签序列;
步骤2133:对CRF模型输出的最优标签序列中包含的高速列车领域实体词进行提取分类;
步骤2134:将高速列车领域实体词按类别存储在csv格式文件中。
优选的,步骤22中:通过对输入的高速列车领域事件文本数据进行分析,将文本中包含的实体词对照所设计的关系模板进行关系抽取,关系抽取步骤最终输出为知识三元组。
优选的,步骤22具体包括以下步骤:
步骤221:基于知识图谱模式层构建的高速列车多域融合本体中的概念关系,设计故障事件关系匹配模板。
步骤222:设计人员针对输入的故障事件文本中所抽取的实体词类型对照所设计的高速列车领域故障事件关系模板进行实体关系匹配。
步骤223:当设计人员发现某些实体词间的关系无法通过关系模板匹配时,则评定实体词之间是否包含新的概念关系,若存在,则更新关系匹配模板并同步反馈到模式层,更新高速列车多域融合本体。
在步骤221中:基于知识图谱模式层构建的高速列车多域融合本体中的概念关系,设计故障事件关系匹配模板。根据长期的工程实践发现,受限于高速列车运维故障记录训练语料少、故障模式相对单一以及模型识别精确度需求高的特点,一般的机器学习关系抽取方法并不适用。为此,本文采用基于模板匹配的方法进行高速列车维修性设计知识图谱关系抽取,并从故障事件角度设计了关系匹配模板,故障事件关系匹配模板如表2所示。
表2故障事件关系匹配模板
Figure BDA0003490075120000181
Figure BDA0003490075120000191
匹配模板输入输出:
1)输入:T、E1、E2、E3、E4、E5、E6;2)输出:R。其中,T为text,指输入的故障数据文本;E1、E2、E3、E4、E5、E6为命名实体识别结果生成的词典(E1为零件实体词典;E2为故障模式实体词典;E3为触发词典;E4为转向架结构词典;E5为列车型号词典;E6为故障日期词典);R为输出的故障关系三元组的集合。
优选的,步骤222中包括以下步骤:
步骤2221:检索输入文本中是否包含故障事件关系触发词。检索文本中是否包含了“报、报告、发现、发生、反映”以及步骤21中可识别的高速列车领域实体词。
一般而言,触发词应只包括“报、报告、发现、发生、反映”等表明运维人员正式上报故障事件的词。但根据长期工程实践发现,由于人为原因,故障事件记录格式不统一,导致有些故障事件仅出现了“零件”及“故障模式”等词,如“2015年7月13日,XX集团CRH3C车组X号车X轴齿轮箱管码处目视漏油”。因此,为了最大限度的获取故障相关知识三元组,只要文本中包含了高速列车领域相关实体词,都看作触发词进行关系匹配,来得到更多的三元组。
步骤2222:在输入文本中确定“零件”实体词的位置
步骤2223:选取与“零件”实体词位置最近的“故障模式”实体词组成三元组,输出<零件,发生,故障模式>三元组。
由于输入的故障文本可能存在多个“零件”及对应“故障模式”实体词,考虑到事件描述方式,在确定“零件”实体词位置后,选取与“零件”实体词位置最近的“故障模式”实体词组成三元组,输出<零件,发生,故障模式>三元组。
步骤2224:确定与“零件”实体词相对应的“模块”、“子***”、“***”、“列车”,确定故障零件所处的转向架结构关系,输出<零件,属于,模块>等转向架结构知识三元组。
步骤2225:确定输入文本中“列车型号”实体词,输出<列车,车型,列车型号>知识三元组。
步骤2226:确定输入文本中“故障日期”实体词的位置,输出<故障日期,发生,故障模式>知识三元组。
例如:如当故障事件输入文本为:“20XX年X月XX日,X铁集团CRH380BL-XXXX担当GXXX/X次广州南-太原南,11:49运行至赤壁北-武汉间机械师报告16号车1轴左侧轴承轴温超限,当晚库内检修时,张三在9号车转向架4轴齿轮箱上部管码处探伤发现裂纹”。在该文本中包含故障事件关系触发词“报告”等,因此首先确定文本中零件实体词的位置,即“管码”及“轴承”的位置,选取位置最近的故障模式实体词即可匹配关系,“轴承”实体词最近的故障模式实体词为“轴温过限”,匹配得到<轴承,发生,轴温过限>,“管码”实体词最近的故障模式实体词为“裂纹”,匹配得到<管码,发生,裂纹>。
优选的,由于高速列车可维修性知识图谱的数据源为多源多域的数据,对于同一个概念的描述,可能会存在多种方式,例如对于某型号高速列车转向架中的“牵引电机模块”,在设计阶段数据记录可能为配置选型后的“TQ-600”等具体型号,而在故障记录表或者维修履历表上,由于现场人为记录的原因,可能记录为“电机”或“牵引电机”,但针对同批次高速列车,其实这些实体名称都指代“TQ-600牵引电机模块”,如果不进行知识融合,则会产生信息冗余,因此需要采用步骤23进行知识融合。
优选的,在步骤S23中采用实体链接或模式对齐两种方式实现知识融合:
优选的,采用实体链接进行知识融合的操作步骤为:
(1)输入待知识融合的实体数据;
(2)通过实体间的相似度计算,计算得出知识库中相似度最高的候选实体项。
(3)将待知识融合的实体数据链接到候选实体项。
例如:“牵引电机模块”多实体名称指代问题即可通过实体链接进行知识合并解决。
优选的,采用模式对齐进行知识融合的操作步骤为:
将多个属性名字不同但表征相同的属性进行融合。
例如:在描述高速列车车轴的“轴温异常”属性和“轴温过限”属性,都是“车轴”实体的同一故障模式属性值。
优选的,在步骤3中,采用Neo4j图数据库进行知识存储,将获取的结构化数据存储在网络中。
以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但本发明不局限于上述具体实施方式,因此任何对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种高速列车可维修性知识图谱构建方法,包括以下步骤:步骤1:构建高速列车可维修性知识图谱模式层;步骤2:构建高速列车可维修性知识图谱数据层;步骤3:采用Neo4j图数据库进行知识存储;其特征在于:
在步骤1中包括以下步骤:步骤11:构建用于高速列车可维修性知识本体模型架构;步骤12:构建高速列车可维修性本体;步骤13:在protégé中实现高速列车可维修性本体结构化;
在步骤11中,针对高速列车设计时、运行时及维护时这三个阶段的可维修性知识内容进行表达;
在高速列车设计阶段,对高速列车设计流程进行分析,明确各阶段输入输出,统计设计信息,其中设计信息至少包括产品结构、标准、材料,对设计信息及设计实体内容进行表达;
在高速列车运行阶段,对高速列车零件故障信息、与零件故障相关的产品信息及结构关系、在运行阶段使用的传感器设备、运行保障人员信息内容进行表达;当高速列车零件故障信息、与零件故障相关的产品信息及结构关系、在运行阶段使用的传感器设备、运行保障人员信息内容发生变化时,在本体模型架构中新建相应的概念,增加或删除相关的本体实例,并更新实例之间的链接关系,完成本体模型的更新;
在高速列车检修阶段,对高速列车零件维修工艺流程、维修设备布局、操作人员、维修设备内容进行表达,当维修工艺流程、维修设备布局、操作人员、维修设备内容需要进行修改时,新建相应的概念、更新关系,完成本体模型的更新;
在步骤12中,具体包括以下步骤:
步骤121:定义高速列车可维修性本体;
步骤122:基于多域特征分析的本体模型架构,建立高速列车可维修性本体的概念和属性关系;
步骤121中包括以下操作:
记高速列车可维修性本体为Design-Fault-Repair Feature Ontology;Design-Fault-Repair Feature Ontology={Entity,Attribute,Relation,Part},其中:
a)Entity为实体相关概念集,用于表示设计-故障-维修领域客观实体的集合,Entity=(Equipment,Product,Staff),Equipment为维修设备类,指在高速列车维修过程中客观存在的物理维修设备,包括镟轮机、天车子类;Product为产品类,表示客观存在的物理产品,有零件、模块、***、车辆、列车五个层级,其中备用零件包含于零件;Staff为高速列车产品在三个阶段所涉及的人员;
b)Attribute为属性相关概念集,表示Entity具有的一些属性特征,包括设计约束、设计属性、维修工艺、故障模式、转向架型号、生产商、工种概念;其中,设计约束包括内部约束及外部约束;维修工艺表示零件进行检修所需要的工艺类型,包括拆卸、探伤、换件、检测、镟轮子类;故障模式表示在高速列车产品使用过程中,产品零部件发生的故障类型,包括裂纹、漏油、温度升高子类;
c)Relation中包含了实体、属性相关概念之间的除了层级关系外的所有的关联关系,记为<概念C1,关系R,概念C2>,其中,概念C1与概念C2是包含于实体相关概念集Entity和属性相关概念集Attribute中的;
d)Part包含了本体中除Relation关系集之外的概念之间的具有层级结构的关系,表示一个概念层级隶属于另一概念层级,即子类概念集与父类概念集的关系,在故障-维修特征本体中用是及子集关系表示;
步骤122中包括以下操作:
在高速列车可维修性本体中,围绕零件实体将三个领域关联起来,用于描述零件在三个领域的相关信息;
步骤2中包括以下步骤:步骤21:对命名实体进行识别;步骤22:基于模板的关系抽取;步骤23:知识融合;
步骤21具体包括以下步骤:
步骤211:使用高速列车领域文本数据对BERT-BiLSTM-CRF模型进行训练;
步骤212:将高速列车文本数据输入到BERT中,由BERT模型提取文本中的词特征、语法语义特征;
步骤213:采用BiLSTM-CRF模型对BERT模型提取文本中的词特征、语法语义特征进行处理,得到高速列车可维修性相关实体词;
步骤211具体包括以下步骤:
步骤2111:将高速列车文本数据按8:1:1随机分为训练集、测试集以及验证集;
步骤2112:划分好训练集后,根据步骤1中高速列车可维修性本体描述的概念及属性关系,使用数据标注工具对训练数据进行标注;
步骤2113:标注完训练集后,输入BERT-BiLSTM-CRF模型进行训练;
步骤2114:在模型训练完成后,输入未标注数据的测试集对模型训练结果进行测试;
步骤2115:通过输入验证集数据,验证训练后的模型能够用于高速列车领域命名实体识别任务;
步骤212具体包括以下步骤:
步骤2121:BERT模型在接收到输入的高速列车文本数据后,将文本按字转换为符合条件的字符表征向量;
步骤2122:将转化后的字符向量输入编码器,最终输出字符动态向量;
步骤213具体包括以下步骤:
步骤2131:将BERT模型输出的动态特征向量输入BiLSTM模型,BiLSTM模型将BERT模型的字向量按照前向及后向的顺序分别进行处理,对信息进行选择性记忆和传递,最终输出每个字的得分向量;
步骤2132:将BiLSTM输出的得分向量输入CRF模型,该模型考虑了各字标签的约束关系,计算不同字标签序列出现的概率,从中选取概率最大的序列作为输出文本的标签序列,即根据概率输出最优标签序列;
步骤2133:对CRF模型输出的最优标签序列中包含的高速列车领域实体词进行提取分类;
步骤2134:将高速列车领域实体词按类别存储;
步骤22具体包括以下步骤:
步骤221:基于知识图谱模式层构建的高速列车多域融合本体中的概念关系,设计故障事件关系匹配模板;
步骤222:设计人员针对输入的故障事件文本中所抽取的实体词类型对照所设计的高速列车领域故障事件关系模板进行实体关系匹配;
步骤223:当设计人员发现某些实体词间的关系无法通过关系模板匹配时,则评定实体词之间是否包含新的概念关系,若存在,则更新关系匹配模板并同步反馈到模式层,更新高速列车多域融合本体。
2.如权利要求1所述的一种高速列车可维修性知识图谱构建方法,其特征在于:步骤222中包括以下步骤:
步骤2221:检索输入文本中是否包含故障事件关系触发词;
步骤2222:在输入文本中确定“零件”实体词的位置
步骤2223:选取与“零件”实体词位置最近的“故障模式”实体词组成三元组,输出<零件,发生,故障模式>三元组;
步骤2224:确定与“零件”实体词相对应的“模块”、“子***”、“***”、“列车”,确定故障零件所处的转向架结构关系,输出<零件,属于,模块>转向架结构知识三元组;
步骤2225:确定输入文本中“列车型号”实体词,输出<列车,车型,列车型号>知识三元组;
步骤2226:确定输入文本中“故障日期”实体词的位置,输出<故障日期,发生,故障模式>知识三元组。
3.如权利要求2所述的一种高速列车可维修性知识图谱构建方法,其特征在于:在步骤S23中采用实体链接或模式对齐两种方式实现知识融合。
4.如权利要求3所述的一种高速列车可维修性知识图谱构建方法,其特征在于:采用实体链接进行知识融合的操作步骤为:(1)输入待知识融合的实体数据;(2)通过实体间的相似度计算,计算得出知识库中相似度最高的候选实体项。
5.如权利要求4所述的一种高速列车可维修性知识图谱构建方法,其特征在于:在步骤3中,采用Neo4j图数据库进行知识存储,将获取的结构化数据存储在网络中。
CN202210093725.4A 2022-01-26 2022-01-26 一种高速列车可维修性知识图谱构建方法 Active CN114417015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210093725.4A CN114417015B (zh) 2022-01-26 2022-01-26 一种高速列车可维修性知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210093725.4A CN114417015B (zh) 2022-01-26 2022-01-26 一种高速列车可维修性知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN114417015A CN114417015A (zh) 2022-04-29
CN114417015B true CN114417015B (zh) 2023-05-12

Family

ID=81277928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210093725.4A Active CN114417015B (zh) 2022-01-26 2022-01-26 一种高速列车可维修性知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN114417015B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309912B (zh) * 2022-08-08 2023-07-21 重庆大学 集成电驱结构的知识图谱智能推理方法和快速设计方法
CN116028571B (zh) * 2023-03-31 2023-06-02 南京航空航天大学 一种基于薄壁零件知识图谱构建方法和***
CN116560887B (zh) * 2023-04-28 2024-05-17 西南交通大学 一种基于知识协同的低轨卫星故障分析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992672A (zh) * 2019-04-11 2019-07-09 华北科技学院 基于灾害场景的知识图谱构建方法
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN111428054A (zh) * 2020-04-14 2020-07-17 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN112612902A (zh) * 2020-12-23 2021-04-06 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN113360679A (zh) * 2021-07-08 2021-09-07 北京国信会视科技有限公司 一种基于知识图谱技术的故障诊断方法
CN113569054A (zh) * 2021-05-12 2021-10-29 浙江工业大学 多源中文金融公告文书的知识图谱构建方法及***
CN113886603A (zh) * 2021-10-19 2022-01-04 北京计算机技术及应用研究所 一种融合推理机的知识图谱构建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362660B (zh) * 2019-07-23 2023-06-09 重庆邮电大学 一种基于知识图谱的电子产品质量自动检测方法
CN110674311A (zh) * 2019-09-05 2020-01-10 国家电网有限公司 一种基于知识图谱的电力资产异构数据融合方法
CN111444351B (zh) * 2020-03-24 2023-09-12 清华苏州环境创新研究院 一种行业工艺领域知识图谱构建方法及装置
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN112507136B (zh) * 2020-12-18 2023-07-14 中国电子科技集团公司第十五研究所 一种知识驱动的业务操作图谱构建方法
CN113449072A (zh) * 2021-06-15 2021-09-28 南京航空航天大学 基于深度学习的挖掘机故障知识图谱的构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992672A (zh) * 2019-04-11 2019-07-09 华北科技学院 基于灾害场景的知识图谱构建方法
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN111428054A (zh) * 2020-04-14 2020-07-17 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN112612902A (zh) * 2020-12-23 2021-04-06 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN113569054A (zh) * 2021-05-12 2021-10-29 浙江工业大学 多源中文金融公告文书的知识图谱构建方法及***
CN113360679A (zh) * 2021-07-08 2021-09-07 北京国信会视科技有限公司 一种基于知识图谱技术的故障诊断方法
CN113886603A (zh) * 2021-10-19 2022-01-04 北京计算机技术及应用研究所 一种融合推理机的知识图谱构建方法

Also Published As

Publication number Publication date
CN114417015A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN114417015B (zh) 一种高速列车可维修性知识图谱构建方法
CN113723632A (zh) 一种基于知识图谱的工业设备故障诊断方法
CN112542223A (zh) 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN109684440A (zh) 基于层级标注的地址相似度度量方法
CN110990585B (zh) 构建行业知识图谱的多源数据和时间序列处理方法及装置
CN114118224B (zh) 一种基于神经网络的全***遥测参数异常检测***
CN106682350B (zh) 一种基于三维模型的多属性决策质量检测方法
CN106649988B (zh) 基于本体的维修几何模型关键零部件快速定位与显示方法
CN1689000A (zh) 用于复杂***的维护信息的关系数据库
KR102172029B1 (ko) 데이터 분석 지원 장치 및 데이터 분석 지원 시스템
CN111427775A (zh) 一种基于Bert模型的方法层次缺陷定位方法
CN113487211A (zh) 核电装备质量追溯方法、***、计算机设备及介质
CN114746815A (zh) 用于创建设施或装置的数字孪生的方法
CN111460401B (zh) 结合软件制品过程信息和文本相似度的制品自动追踪方法
CN115438199A (zh) 一种基于智慧城市场景数据中台技术的知识平台***
CN115858807A (zh) 一种基于航空装备故障知识图谱的问答***
CN113393084A (zh) 作业票流程管理***
CN117573881A (zh) 航天器控制推进***在轨故障知识图谱的构建与应用方法
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN115587333A (zh) 一种基于多分类模型的失效分析故障点预测方法及***
Wang et al. Cases Integration System for Fault Diagnosis of CNC Machine Tools Based on Knowledge Graph
CN113837554A (zh) 基于多模态关键信息匹配的食品安全风险识别方法及***
CN117540894B (zh) 生成检验计划的方法、设备及存储介质
CN114997001B (zh) 一种基于替代模型和知识图谱的复杂机电装备性能评价方法
CN113590834B (zh) 一种rv减速器全寿命周期知识图谱构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant