CN116822625A - 一种发散式关联的风机设备运检知识图谱构建及检索方法 - Google Patents

一种发散式关联的风机设备运检知识图谱构建及检索方法 Download PDF

Info

Publication number
CN116822625A
CN116822625A CN202310557369.1A CN202310557369A CN116822625A CN 116822625 A CN116822625 A CN 116822625A CN 202310557369 A CN202310557369 A CN 202310557369A CN 116822625 A CN116822625 A CN 116822625A
Authority
CN
China
Prior art keywords
entity
data
attribute
knowledge
fan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310557369.1A
Other languages
English (en)
Inventor
满于维
卜俊文
王正海
李泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Zhuojie Power Engineering Maintenance Co ltd
Original Assignee
Guangxi Zhuojie Power Engineering Maintenance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Zhuojie Power Engineering Maintenance Co ltd filed Critical Guangxi Zhuojie Power Engineering Maintenance Co ltd
Priority to CN202310557369.1A priority Critical patent/CN116822625A/zh
Publication of CN116822625A publication Critical patent/CN116822625A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种发散式关联的风机设备运检知识图谱构建及检索方法,属于风机设备运检与知识图谱领域,针对结构化数据如关系型数据库中的数据,完成从结构化数据到知识图谱到映射,实现从数据库向知识图谱的转化;针对非结构化数据,主要采用深度学习的方法,对风机运检过程产生的文本和网页信息进行知识抽取,完成实体识别与关系抽取,并将知识融合后的数据存入到Neo4j中,通过Neo4j图数据库实现知识图谱的可视化展示并可以使用Cypher查询语言进行语义查询。方便运维人员快速查询运维知识,挖掘运维数据。

Description

一种发散式关联的风机设备运检知识图谱构建及检索方法
技术领域
本发明属于风机设备运检与知识图谱领域,具体涉及一种发散式关联的风机设备运检知识图谱构建及检索方法。
背景技术
随着越来越多的物联网、人工智能等技术被引入风机运检中,运检过程中的新设备、新方法也让风机运检过程变得更加复杂。在这种情况下,风机运检的业务将面临越来越大的挑战。风机运检过程中存在大量的多源异构数据,管理类别众多且繁杂,管理效率低下。
知识图谱是一种语义网,它以结构化的形式表示事物以及事物之间的关系,可以有效利用大量的结构化、半结构化和非结构化数据。知识图谱的构建包括知识抽取、知识融合与知识表示等。知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱主要应用于搜索引擎;领域知识图谱主要应用于特定的领域,专业化程度更高,已在医疗、法律、金融、电商等领域有应用。
领域知识图谱构建的一个关键挑战是缺乏领域内的数据集且专业术语和概念较多。传统的基于规则或基于模板的知识抽取需要人工构建大量的规则模板,适用范围有限,难以适应复杂的需求。
因此,现阶段需设计一种发散式关联的风机设备运检知识图谱构建及检索方法,来解决以上问题。
发明内容
本发明目的在于提供一种发散式关联的风机设备运检知识图谱构建及检索方法,用于解决上述现有技术中存在的技术问题,构建知识图谱,减少人工的精力消耗,实现自动化地从原始数据中获取知识,并以Neo4j图数据库进行可视化存储。
为实现上述目的,本发明的技术方案是:
一种发散式关联的风机设备运检知识图谱构建及检索方法,包括以下步骤:
S1:通过数据获取模块获取文档、表格及新闻等原始数据,将原始数据进行预处理,得到包括结构化数据与半/非结构化数据的预处理后的数据;并采用BERT-BiLSTM-CRF模型/关系抽取和属性抽取进行结构化进行实体抽取。
S2:对非结构化数据进行实体识别和实体消歧,通过对语句进行标签定义,确定语句中实体所处的范围。基于实体命名属性关系类似度比较法,将各组多源数据的共同命名实体以及所选属性存储在表中,对各个具备条件的属性设置不同权重,计算所有属性的加权值判断实体的相似度。
S3:采用Path-RNN模型进行知识推理,采用路径推理法,将目标实体之间的路径,转化为RNN网络的输入,从而进行知识推理。
S4:风机故障知识图谱实体部分构建,结合TextRank和TF IDF技术对术语进行识别处理。创建概念实体。操作术语、事故处理术语、操作术语和故障术语是由两种算法提取的关键词创建的术语:校正、融合、筛选和分类。筛选方法结合数据材料完成术语,详细解释专业术语,并通过搜索和匹配添加相关的调度和安全规定。
S5:知识图谱的存储、展示和查询,根据实体框架,将各类实体结构化;在Neo4j中灵活运用neo4j-web和neo4j-import,将通过数据清洗后得到的各个风机缺陷、缺陷原因、设备及零部件部件等标准结构化数据进行控制导入。用Cypher查询语言进行语义查询,实现运用与图数据库的联接和交互;实现基于图数据库的各类语义类型、关系及节点对象、关系对象的查询、展示、修改。
所述步骤S1具体包括:应用网络爬虫技术,依法获取并下载各发电公司或设备厂家公开发布的文档以及风机运检过程的表格,然后需要针对不同的文件格式,分别利用开源软件模块python-docx、xlrd和pdfminer读取word、excel和pdf中包含的数据。
然后,从文本中获得的原始数据经过变换和编码,转换成适合计算机处理的向量形式,本发明使用了skip-gram模型优化词向量矩阵L,为每个词语学习准确的词向量表示。给定任意n元组(w,C)=wn-c…wn-1wnwn+1…wn+C,模型利用中心词的词向量e(wn)预测上下文中第t个词汇wt的概率为:
上式中,wn表示中心词;e(wn)∈Rd表示wn所对的d维度词向量,这种向量可通过向量矩阵L检索获得;C是规模大小,代表背景的窗口大小。模型的目标函数如下:
在模型训练完毕后,可以得到优化后的词向量矩阵,包含此表中的全部分布式向量的表示。
针对文本数据的知识抽取。本专利利用双向长短期记忆神经网络(BidirectionalLong Short Term Memory,BiLSTM)结合条件随机场(ConditionalRandom Field,CRF)的模型,进行命名实体的识别。
当给定词汇序列X=x0x1...xn,在已训练完成的的词向量表中查找到每个词汇对应的词向量en∈Rd1,d1代表的是其向量的维度。LSTM是由一个记忆存储单元和三个门来控制的它的输入是前一时刻的隐藏层表示hi-1和前一电力信息与通信技术时刻的输出wi-1,输出是当前时刻的隐藏层表示hi。计算方法如下:
in=σ(Wie(Wn-1)+Uihn-1+ViCn-1+bi)
fn=σ(Wfe(Wn-1)+Ufhn-1+VfCn-1+bf)
on=σ(Woe(Wn-1)+Uohn-1+VoCn-1+bo)
hn=on⊙tanh(cn)
式中,in、fn、on分别代表输入、遗忘和输出门;cn代表记忆单元;Wn、Un、Vn等和bi、bf、bo表示线性关系的偏移和系数,σ(x)表示激活函数,⊙表示点积。
前序的LSTM得到的每个字符对应的隐藏层的表达是
同理,后续的LSTM得到隐藏层的表达则是
前序隐藏层捕捉e(i)及其左部分的综合信息e(0)到e(i-1),后续隐藏层捕捉e(i)及其右侧信息e(i+1)到eT。LSTM将前序和后续隐藏层进行拼接,最终通过以下公式对条件概率P(Y|X)进行建模:
在上式中ρk是其参数;fk(yi+1,yi,M,i)是定义在序列M的前后相邻位置的转移函数。通过模型将其解码后得到如下结果:
所述步骤S2具体包括:通过依存语法(Dependency Parsing,DP)来分析句中多个词语之间的支配与被支配的关系,展示整个句子的结构,即通过分析句子中包含的主语、谓语、宾语、定语、状语、补语等语法成分,总结各成分之间的关系。本专利使用MST进行依存句的句法分析。构建输入句的无环向图,其中包含了对应词汇的节点集合和有向边的集合。在依存结构图中支配者head,被支配者为dependency,不依存于其他词语的即为句子中的核心谓词节点。两两节点之间可能会有同方向但依存关系不同的有向边。MST将获取最佳依存结构转换为在有向图中寻找打分最高的依存树。
假定句子a的分析结果为b,模型参数是ε,使用条件概率模型SC(ai|bi;ε),训练过程中将找寻使i=1到N之间的模型最大的ε值。
MSTParser定义整棵句法树的打分是树中各条弧分值的加权和:
上式中:S为分数,b是句子a的依存树之一;w是特征f(·)的权值向量。
所述步骤S3具体包括:通过PATH-RNN模型将每条路径分解为关系序列,并将其加入到RNN中,从而构造路径的向量表示,然后通过路径向量表示的点积计算路径和候选关系的相关性。第一步先通过嵌入式矩阵,将全部的输入实体和关系转化为向量,方法同步骤S1。饥饿者使用PRA来获得同关系r最相关的训练实例(es,r,et)的关系路径。将给定的三元组,进行PRA的路径随机游走。从实体的头部到尾部,记录全部连接关系,获取多条关系路径,{r1,r2,...rn}加入中间实体,得到随机路径
K=[es,r1,e1....et],将路径扩展完整,其模型如图1所示。
当路径表示的搜索空间很大时,组合所有的路径并不能提供足够的证据来推断实体之间的关系,因此,为了缩小搜索范围,在模型上进行了扩展,对路径分布执行多步推理。多步推理是指对从BiLSTM中得到的路径向量多次使用注意力机制,将每次使用注意力机制得出的结果继续使用注意力机制去提高推理结果的精确值。每一步推理都会生成一个新的关系嵌入向量u来表示推理证据。
uz+1=Wo(o2+u2)
获取路径后,进行实体消歧,流程如图2所示,基于实体命名属性关系类似度比较法,将各组多源数据的共同命名实体以及所选属性存储在表中,对各个具备条件的属性设置不同权重,计算所有属性的加权值判断实体的相似度。以风机的知识库实体名字、关系与数值属性作为特征分析量,计算2个实体的语义相似度。计算如下式所示:
式中:A0,B0指的是A实体和B实体的实体名称;Ai,Bi指的是A实体与B实体的数值属性值;Aj,Bj指A实体和B实体的对象属性值;Sim(A,B)指的是2个属性值的语义相似度;α+β+γ=1,其中α、β、γ分别代表了实体名称相似度、实体数值属性值相似度、实体对象属性值相似度的权重。对于数值属性实体,用下式进行计算:
对集合型属性实体,用下式进行计算:
对文本属性实体,用下式进行计算:
所述步骤S4具体包括:创建一个风机运检领域的中心概念模型,以此为基础建立一个本体框架,如图3所示。构建风机设备故障知识图谱的本体是整个流程中的关键任务。风机设备本体的构建包涵了定义、概念、层次和类别,概念属性关系定义等步骤。本体概念类别划分主要是对设备故障类型进行类别划分与定义,按照其内部元素构成可分为以下几类:设备类、部件类、故障原因类、建议及措施类。概念属性关系定义能够使得本体更加细化,进而形成具有良好结构的分类层次体系,每个故障类由设备、部件、故障原因、建议及措施构成,都能被抽象成实体与实体状态形式描述。从而形成定义准确、以风场拓扑中节点为知识图谱中实体,开关以及线路用知识图谱中关系表示,节点的信息以属性形式存储在知识图谱中。将风机设备信息转化为结构化的三元组数据。
生产管理类知识构建,包括风机故障调度相关部门、风机故障发生时处理部门业务流程关系、部门对应负责人信息。
部门包括:部门【名称、任务、位置、负责人、电话】。
人员包括:人员【姓名、所在部门、年龄、职位、专业技能、电话】
风机故障处理事件部分构建
风机故障包括:故障【名称、别名、原因、属性、有何表现、处理方法、专家经验、对应人员】
所述步骤S5具体包括:根据实体框架,将各类实体结构化;在Neo4j中灵活运用neo4j-web和neo4j-import,将通过数据清洗后得到的各个风机缺陷、缺陷原因、设备及零部件部件等标准结构化数据进行控制导入。
利用Cypher查询语言进行语义查询,实现运用与图数据库的联接和交互;实现基于图数据库的各类语义类型、关系及节点对象、关系对象的查询、展示、修改。操作人员可以通过输入查询内容,经过语义理解和问题模板匹配转换为计算机可识别的Cypher语言进行知识查询,利用Cypher对知识库的实体关系直接进行检索,并通过数据可视化库(data-driven document,D3.js)技术以实体-关系-属性三元组的形式展示。
与现有技术相比,本发明所具有的有益效果为:
本方案其中一个有益效果在于,本发明提出了一种发散式关联的风机设备运检知识图谱构建方法,针对结构化数据如关系型数据库中的数据,完成从结构化数据到知识图谱到映射,实现从数据库向知识图谱的转化;针对非结构化数据,主要采用深度学习的方法,对风机运检过程产生的文本和网页信息进行知识抽取,完成实体识别与关系抽取,并将知识融合后的数据存入到Neo4j中,通过Neo4j图数据库实现知识图谱的可视化展示并可以使用Cypher查询语言进行语义查询。方便运维人员快速查询运维知识,挖掘运维数据。
附图说明
图1是利用PATH-RNN模型进行知识推理的示意图。
图2是缺陷实体匹配流程的示意图。
图3是知识图谱本体框架关系图。
图4是用BiLSTM-CRF结合BERT模型的知识图谱构建方法总体框架图。
图5是Neo4j图数据库展示的示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种发散式关联的风机设备运检知识图谱构建及检索方法,包括以下步骤:
S1:通过数据获取模块获取文档、表格及新闻等原始数据,将原始数据进行预处理,得到包括结构化数据与半/非结构化数据的预处理后的数据;并采用BERT-BiLSTM-CRF模型/关系抽取和属性抽取进行结构化进行实体抽取。
S2:对非结构化数据进行实体识别和实体消歧,通过对语句进行标签定义,确定语句中实体所处的范围。基于实体命名属性关系类似度比较法,将各组多源数据的共同命名实体以及所选属性存储在表中,对各个具备条件的属性设置不同权重,计算所有属性的加权值判断实体的相似度。
S3:采用Path-RNN模型进行知识推理,采用路径推理法,将目标实体之间的路径,转化为RNN网络的输入,从而进行知识推理。
S4:风机故障知识图谱实体部分构建,结合TextRank和TF IDF技术对术语进行识别处理。创建概念实体。操作术语、事故处理术语、操作术语和故障术语是由两种算法提取的关键词创建的术语:校正、融合、筛选和分类。筛选方法结合数据材料完成术语,详细解释专业术语,并通过搜索和匹配添加相关的调度和安全规定。
S5:知识图谱的存储、展示和查询,根据实体框架,将各类实体结构化;在Neo4j中灵活运用neo4j-web和neo4j-import,将通过数据清洗后得到的各个风机缺陷、缺陷原因、设备及零部件部件等标准结构化数据进行控制导入。用Cypher查询语言进行语义查询,实现运用与图数据库的联接和交互;实现基于图数据库的各类语义类型、关系及节点对象、关系对象的查询、展示、修改。
所述步骤S1具体包括:应用网络爬虫技术,依法获取并下载各发电公司或设备厂家公开发布的文档以及风机运检过程的表格,然后需要针对不同的文件格式,分别利用开源软件模块python-docx、xlrd和pdfminer读取word、excel和pdf中包含的数据。
然后,从文本中获得的原始数据经过变换和编码,转换成适合计算机处理的向量形式,本发明使用了skip-gram模型优化词向量矩阵L,为每个词语学习准确的词向量表示。给定任意n元组(w,C)=wn-c···wn-1wnwn+1...wn+C,模型利用中心词的词向量w(wn)预测上下文中第t个词汇wt的概率为:
上式中,wn表示中心词;e(wn)∈Rd表示wn所对的d维度词向量,这种向量可通过向量矩阵L检索获得;C是规模大小,代表背景的窗口大小。模型的目标函数如下:
在模型训练完毕后,可以得到优化后的词向量矩阵,包含此表中的全部分布式向量的表示。
针对文本数据的知识抽取。本专利利用双向长短期记忆神经网络(BidirectionalLong Short Term Memory,BiLSTM)结合条件随机场(ConditionalRandom Field,CRF)的模型,进行命名实体的识别。
当给定词汇序列X=x0x1...xn,在已训练完成的的词向量表中查找到每个词汇对应的词向量en∈Rd1,dl代表的是其向量的维度。LSTM是由一个记忆存储单元和三个门来控制的它的输入是前一时刻的隐藏层表示hi-1和前一电力信息与通信技术时刻的输出wi-1,输出是当前时刻的隐藏层表示hi。计算方法如下:
in=σ(Wie(Wn-1)+Uihn-1+ViCn-1+bi)
fn=σ(Wfe(Wn-1)+Ufhn-1+VfCn-1+bf)
on=σ(Woe(Wn-1)+Uohn-1+VoCn-1+bo)
hn=on⊙tanh(cn)
式中,in、fn、on分别代表输入、遗忘和输出门;cn代表记忆单元;Wn、Un、Vn等和bi、bf、bo表示线性关系的偏移和系数,σ(x)表示激活函数,⊙表示点积。
前序的LSTM得到的每个字符对应的隐藏层的表达是
同理,后续的LSTM得到隐藏层的表达则是
前序隐藏层捕捉e(i)及其左部分的综合信息e(0)到e(i-1),后续隐藏层捕捉e(i)及其右侧信息e(i+1)到eT。LSTM将前序和后续隐藏层进行拼接,最终通过以下公式对条件概率P(Y|X)进行建模:
在上式中ρk是其参数;fk(yi+1,yi,M,i)是定义在序列M的前后相邻位置的转移函数。通过模型将其解码后得到如下结果:
所述步骤S2具体包括:通过依存语法(Dependency Parsing,DP)来分析句中多个词语之间的支配与被支配的关系,展示整个句子的结构,即通过分析句子中包含的主语、谓语、宾语、定语、状语、补语等语法成分,总结各成分之间的关系。本专利使用MST进行依存句的句法分析。构建输入句的无环向图,其中包含了对应词汇的节点集合和有向边的集合。在依存结构图中支配者head,被支配者为dependency,不依存于其他词语的即为句子中的核心谓词节点。两两节点之间可能会有同方向但依存关系不同的有向边。MST将获取最佳依存结构转换为在有向图中寻找打分最高的依存树。
假定句子a的分析结果为b,模型参数是ε,使用条件概率模型SC(ai|bi;ε),训练过程中将找寻使i=1到N之间的模型最大的ε值。
MSTParser定义整棵句法树的打分是树中各条弧分值的加权和:
上式中:S为分数,b是句子a的依存树之一;w是特征f(·)的权值向量。
所述步骤S3具体包括:通过PATH-RNN模型将每条路径分解为关系序列,并将其加入到RNN中,从而构造路径的向量表示,然后通过路径向量表示的点积计算路径和候选关系的相关性。第一步先通过嵌入式矩阵,将全部的输入实体和关系转化为向量,方法同步骤S1。饥饿者使用PRA来获得同关系r最相关的训练实例(es,r,et)的关系路径。将给定的三元组,进行PRA的路径随机游走。从实体的头部到尾部,记录全部连接关系,获取多条关系路径,{r1,r2,...rn}加入中间实体,得到随机路径
K=[es,r1,e1....et],将路径扩展完整,其模型如图1所示。
当路径表示的搜索空间很大时,组合所有的路径并不能提供足够的证据来推断实体之间的关系,因此,为了缩小搜索范围,在模型上进行了扩展,对路径分布执行多步推理。多步推理是指对从BiLSTM中得到的路径向量多次使用注意力机制,将每次使用注意力机制得出的结果继续使用注意力机制去提高推理结果的精确值。每一步推理都会生成一个新的关系嵌入向量u来表示推理证据。
uz+1=Wo(o2+u2)
获取路径后,进行实体消歧,流程如图2所示,基于实体命名属性关系类似度比较法,将各组多源数据的共同命名实体以及所选属性存储在表中,对各个具备条件的属性设置不同权重,计算所有属性的加权值判断实体的相似度。以风机的知识库实体名字、关系与数值属性作为特征分析量,计算2个实体的语义相似度。计算如下式所示:
式中:A0,B0指的是A实体和B实体的实体名称;Ai,Bi指的是A实体与B实体的数值属性值;Aj,Bj指A实体和B实体的对象属性值;Sim(A,B)指的是2个属性值的语义相似度;α+β+γ=1,其中α、β、γ分别代表了实体名称相似度、实体数值属性值相似度、实体对象属性值相似度的权重。对于数值属性实体,用下式进行计算:
对集合型属性实体,用下式进行计算:
对文本属性实体,用下式进行计算:
所述步骤S4具体包括:创建一个风机运检领域的中心概念模型,以此为基础建立一个本体框架,如图3所示。构建风机设备故障知识图谱的本体是整个流程中的关键任务。风机设备本体的构建包涵了定义、概念、层次和类别,概念属性关系定义等步骤。本体概念类别划分主要是对设备故障类型进行类别划分与定义,按照其内部元素构成可分为以下几类:设备类、部件类、故障原因类、建议及措施类。概念属性关系定义能够使得本体更加细化,进而形成具有良好结构的分类层次体系,每个故障类由设备、部件、故障原因、建议及措施构成,都能被抽象成实体与实体状态形式描述。从而形成定义准确、以风场拓扑中节点为知识图谱中实体,开关以及线路用知识图谱中关系表示,节点的信息以属性形式存储在知识图谱中。将风机设备信息转化为结构化的三元组数据。
生产管理类知识构建,包括风机故障调度相关部门、风机故障发生时处理部门业务流程关系、部门对应负责人信息。
部门包括:部门【名称、任务、位置、负责人、电话】。
人员包括:人员【姓名、所在部门、年龄、职位、专业技能、电话】
风机故障处理事件部分构建
风机故障包括:故障【名称、别名、原因、属性、有何表现、处理方法、专家经验、对应人员】
所述步骤S5具体包括:根据实体框架,将各类实体结构化;在Neo4j中灵活运用neo4j-web和neo4j-import,将通过数据清洗后得到的各个风机缺陷、缺陷原因、设备及零部件部件等标准结构化数据进行控制导入。
利用Cypher查询语言进行语义查询,实现运用与图数据库的联接和交互;实现基于图数据库的各类语义类型、关系及节点对象、关系对象的查询、展示、修改。操作人员可以通过输入查询内容,经过语义理解和问题模板匹配转换为计算机可识别的Cypher语言进行知识查询,利用Cypher对知识库的实体关系直接进行检索,并通过数据可视化库(data-driven document,D3.js)技术以实体-关系-属性三元组的形式展示。
案例分析:
如图4所示,本发明实施例所提供运检知识图谱构建流程框架示意图。
本专利构建的风机设备知识图谱模型运用在四川某发电公司试点测试,数据来源于某风电场。其中,非结构化数据为风机的设计说明书、工作审计报告和设备试验报告(word文件);半结构化数据为风场的设备清册(excel文件)。经过数据清洗等预处理后得到的实验数据2426个中文文本字符串和31个长度为142的列表,按照S1步骤所述方法进行信息抽取。
经过skip-gram模型进行编码转换为词向量的自然语段,将其用作Bi-LSTM-CRF模型的输入,同时进行分词、词性标注及命名实体识别任务。损失函数为交叉熵,通过正确率、返回率和F值度量模型的运算效果。以分词为例,3个指标的计算公式如下:
以设备试验报告为测试集,将Bi-LSTM-CRF模型与其他模型比较,本文模型切分共计9862个词汇、其他模型切分共计8960个词汇,结果如下表所示:
将属性为文本类型的字符串按S2步骤进行依存关系分析,抽取实体之间的属性关系。基于算法的依存句法准确率评价指标选取计及关联关系指标(LabeledAttachmentScore,LAS)和不计及关联关系类型的指标(UnlabeledAttachmentScore,UAS),计算公式如下:
通过S3/S4/S5节所述方法提取半结构化列表中的知识节点与属性关系,得到风机及其关联设备名称、设备种类、物料资源名称及资产明细类描述4类实体共519个、属性关系边368条,形成392个三元组。最后过滤掉重复的实体节点,并基于Neo4j图数据库完成展示。从word文件和excel文件中抽取8类实体节点共812个,实体之间的7类属性关系边共抽取765条。在Neo4j图数据库中,用户可以用鼠标操作单击节点或关系的标签查看以可视化形式展示的风机设备数据,使用户可以用更加直观的图谱方式对数据进行关联挖掘与分析。例如用户查询风场所包含的设备,返回的结果如图5所示。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (6)

1.一种发散式关联的风机设备运检知识图谱构建及检索方法,其特征在于,包括下述步骤:
S1:通过数据获取模块获取原始数据,将原始数据进行预处理,得到包括结构化数据与半/非结构化数据的预处理后的数据;并采用BERT-BiLSTM-CRF模型/关系抽取和属性抽取进行结构化进行实体抽取;
S2:对非结构化数据进行实体识别和实体消歧,通过对语句进行标签定义,确定语句中实体所处的范围;基于实体命名属性关系类似度比较法,将各组多源数据的共同命名实体以及所选属性存储在表中,对各个具备条件的属性设置不同权重,计算所有属性的加权值判断实体的相似度;
S3:采用Path-RNN模型进行知识推理,采用路径推理法,将目标实体之间的路径,转化为RNN网络的输入,从而进行知识推理;
S4:风机故障知识图谱实体部分构建,结合TextRank和TF IDF对术语进行识别处理,创建概念实体;操作术语、事故处理术语、操作术语和故障术语是提取的关键词创建的术语:校正、融合、筛选和分类;筛选方法结合数据材料完成术语,详细解释专业术语,并通过搜索和匹配添加相关的调度和安全规定;
S5:知识图谱的存储、展示和查询,根据实体框架,将各类实体结构化;在Neo4j中灵活运用neo4j-web和neo4j-import,将通过数据清洗后得到的各个风机缺陷、缺陷原因、设备及零部件部件标准结构化数据进行控制导入;用Cypher查询语言进行语义查询,实现运用与图数据库的联接和交互;实现基于图数据库的各类语义类型、关系及节点对象、关系对象的查询、展示、修改。
2.根据权利要求1的一种发散式关联的风机设备运检知识图谱构建及检索方法,其特征在于,步骤S1具体如下:应用网络爬虫技术,依法获取并下载各发电公司或设备厂家公开发布的文档以及风机运检过程的表格,然后针对不同的文件格式,分别利用开源软件模块python-docx、xlrd和pdfminer读取word、excel和pdf中包含的数据;
从文本中获得的原始数据经过变换和编码,转换成适合计算机处理的向量形式,使用skip-gram模型优化词向量矩阵L,为每个词语学习准确的词向量表示;给定任意n元组(w,C)=wn-c...wn-1wnwn+1...wn+C,模型利用中心词的词向量e(wn)预测文中第t个词汇wt的概率为:
上式中,wn表示中心词;e(wn)∈Rd表示wn所对的d维度词向量,这种向量可通过向量矩阵L检索获得;C是规模大小,代表背景的窗口大小;模型的目标函数如下:
在模型训练完毕后,可得到优化后的词向量矩阵,包含此表中的全部分布式向量的表示;
针对文本数据的知识抽取;利用双向长短期记忆神经网络BiLSTM结合条件随机场CRF的模型,进行命名实体的识别;
当给定词汇序列X=x0x1...xn,在已训练完成的的词向量表中查找到每个词汇对应的词向量en∈Rd1,d1代表的是其向量的维度;LSTM是由一个记忆存储单元和三个门来控制的它的输入是前一时刻的隐藏层表示hi-1和前一电力信息与通信技术时刻的输出wi-1,输出是当前时刻的隐藏层表示hi;计算方法如下:
in=σ(Wie(Wn-1)+Uihn-1+ViCn-1+bi)
fn=σ(Wfe(Wn-1)+Ufhn-1+VfCn-1+bf)
on=σ(Woe(Wn-1)+Uohn-1+VoCn-1+bo)
hn=on⊙tan h(cn)
式中,in、fn、on分别代表输入、遗忘和输出门;cn代表记忆单元;Wn、Un、Vn等和bi、bf、bo表示线性关系的偏移和系数,σ(x)表示激活函数,⊙表示点积;
前序的LSTM得到的每个字符对应的隐藏层的表达是
同理,后续的LSTM得到隐藏层的表达则是
前序隐藏层捕捉e(i)及其左部分的综合信息e(0)到e(i-1),后续隐藏层捕捉e(i)及其右侧信息e(i+1)到eT;LSTM将前序和后续隐藏层进行拼接,最终通过以下公式对条件概率P(Y|X)进行建模:
在上式中ρk是其参数;fk(yi+1,yi,M,i)是定义在序列M的前后相邻位置的转移函数。
3.根据权利要求2的一种发散式关联的风机设备运检知识图谱构建及检索方法,其特征在于,步骤S2具体如下:通过依存语法来分析句中多个词语之间的支配与被支配的关系,展示整个句子的结构,即通过分析句子中包含的主语、谓语、宾语、定语、状语、补语语法成分,总结各成分之间的关系;使用MST进行依存句的句法分析;构建输入句的无环向图,其中包含对应词汇的节点集合和有向边的集合;在依存结构图中支配者head,被支配者为dependency,不依存于其他词语的即为句子中的核心谓词节点;两两节点之间可能会有同方向但依存关系不同的有向边;MST将获取最佳依存结构转换为在有向图中寻找打分最高的依存树;
假定句子a的分析结果为b,模型参数是ε,使用条件概率模型SC(ai|bi;ε),训练过程中将找寻使i=1到N之间的模型最大的ε值;
MSTParser定义整棵句法树的打分是树中各条弧分值的加权和:
上式中:S为分数,b是句子a的依存树之一;w是特征f(·)的权值向量。
4.根据权利要求3的一种发散式关联的风机设备运检知识图谱构建及检索方法,其特征在于,步骤S3具体如下:通过PATH-RNN模型将每条路径分解为关系序列,并将其加入到RNN中,从而构造路径的向量表示,然后通过路径向量表示的点积计算路径和候选关系的相关性;第一步先通过嵌入式矩阵,将全部的输入实体和关系转化为向量,方法同步骤S1;饥饿者使用PRA来获得同关系r最相关的训练实例的关系路径;将给定的三元组,进行PRA的路径随机游走;从实体的头部到尾部,记录全部连接关系,获取多条关系路径,{r1,r2,...rn}加入中间实体,得到随机路径K=[es,r1,e1....et],将路径扩展完整;
当路径表示的搜索空间偏大时,组合所有的路径并不能提供足够的证据来推断实体之间的关系,在模型上进行扩展,对路径分布执行多步推理;多步推理是指对从BiLSTM中得到的路径向量多次使用注意力机制,将每次使用注意力机制得出的结果继续使用注意力机制去提高推理结果的精确值;每一步推理都会生成一个新的关系嵌入向量u来表示推理证据;
uz+1=Wo(o2+u2)
获取路径后,进行实体消歧,基于实体命名属性关系类似度比较法,将各组多源数据的共同命名实体以及所选属性存储在表中,对各个具备条件的属性设置不同权重,计算所有属性的加权值判断实体的相似度;以风机的知识库实体名字、关系与数值属性作为特征分析量,计算2个实体的语义相似度;计算如下式所示:
式中:A0,B0指的是A实体和B实体的实体名称;Ai,Bi指的是A实体与B实体的数值属性值;Aj,Bj指A实体和B实体的对象属性值;Sim(A,B)指的是2个属性值的语义相似度;α+β+γ=1,其中α、β、γ分别代表实体名称相似度、实体数值属性值相似度、实体对象属性值相似度的权重;对于数值属性实体,用下式进行计算:
对集合型属性实体,用下式进行计算:
对文本属性实体,用下式进行计算:
5.根据权利要求4的一种发散式关联的风机设备运检知识图谱构建及检索方法,其特征在于,步骤S4具体如下:创建一个风机运检领域的中心概念模型,以此为基础建立一个本体框架;构建风机设备故障知识图谱的本体是整个流程中的关键任务;风机设备本体的构建包涵定义、概念、层次和类别,概念属性关系定义步骤;本体概念类别划分是对设备故障类型进行类别划分与定义,按照其内部元素构成可分为以下几类:设备类、部件类、故障原因类、建议及措施类;概念属性关系定义使得本体更细化,进而形成分类层次体系,每个故障类由设备、部件、故障原因、建议及措施构成,都能被抽象成实体与实体状态形式描述;从而形成定义准确、以风场拓扑中节点为知识图谱中实体,开关以及线路用知识图谱中关系表示,节点的信息以属性形式存储在知识图谱中;将风机设备信息转化为结构化的三元组数据;
生产管理类知识构建,包括风机故障调度相关部门、风机故障发生时处理部门业务流程关系、部门对应负责人信息;
部门包括:名称、任务、位置、负责人、电话;
人员包括:姓名、所在部门、年龄、职位、专业技能、电话;
风机故障处理事件部分构建;
风机故障包括:名称、别名、原因、属性、有何表现、处理方法、专家经验、对应人员。
6.根据权利要求5的一种发散式关联的风机设备运检知识图谱构建及检索方法,其特征在于,步骤S5具体如下:根据实体框架,将各类实体结构化;在Neo4j中灵活运用neo4j-web和neo4j-import,将通过数据清洗后得到的各个风机缺陷、缺陷原因、设备及零部件部件标准结构化数据进行控制导入;
利用Cypher查询语言进行语义查询,实现运用与图数据库的联接和交互;实现基于图数据库的各类语义类型、关系及节点对象、关系对象的查询、展示、修改;
操作人员可通过输入查询内容,经过语义理解和问题模板匹配转换为计算机可识别的Cypher语言进行知识查询,利用Cypher对知识库的实体关系直接进行检索,并通过数据可视化库技术以实体-关系-属性三元组的形式展示。
CN202310557369.1A 2023-05-17 2023-05-17 一种发散式关联的风机设备运检知识图谱构建及检索方法 Pending CN116822625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310557369.1A CN116822625A (zh) 2023-05-17 2023-05-17 一种发散式关联的风机设备运检知识图谱构建及检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310557369.1A CN116822625A (zh) 2023-05-17 2023-05-17 一种发散式关联的风机设备运检知识图谱构建及检索方法

Publications (1)

Publication Number Publication Date
CN116822625A true CN116822625A (zh) 2023-09-29

Family

ID=88123102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310557369.1A Pending CN116822625A (zh) 2023-05-17 2023-05-17 一种发散式关联的风机设备运检知识图谱构建及检索方法

Country Status (1)

Country Link
CN (1) CN116822625A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033816A (zh) * 2023-10-08 2023-11-10 湖北省长投智慧停车有限公司 停车推荐方法、装置、电子设备及存储介质
CN117131929A (zh) * 2023-10-27 2023-11-28 北京华控智加科技有限公司 运维数据的管理方法及装置
CN117390139A (zh) * 2023-11-27 2024-01-12 国网江苏省电力有限公司扬州供电分公司 基于知识图谱的变电工作票工作内容准确性评估的方法
CN117851614A (zh) * 2024-03-04 2024-04-09 创意信息技术股份有限公司 一种用于海量数据的搜索方法、装置、***及存储介质
CN118093834A (zh) * 2024-04-22 2024-05-28 邦宁数字技术股份有限公司 一种基于aigc大模型的语言处理问答***及方法
CN118152786A (zh) * 2024-05-10 2024-06-07 中国矿业大学 基于知识图谱的设备故障辅助决策方法、***及存储介质
CN118194214A (zh) * 2024-05-20 2024-06-14 江西博微新技术有限公司 一种输电立体巡检方法、***、计算机及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033816A (zh) * 2023-10-08 2023-11-10 湖北省长投智慧停车有限公司 停车推荐方法、装置、电子设备及存储介质
CN117131929A (zh) * 2023-10-27 2023-11-28 北京华控智加科技有限公司 运维数据的管理方法及装置
CN117390139A (zh) * 2023-11-27 2024-01-12 国网江苏省电力有限公司扬州供电分公司 基于知识图谱的变电工作票工作内容准确性评估的方法
CN117390139B (zh) * 2023-11-27 2024-05-24 国网江苏省电力有限公司扬州供电分公司 基于知识图谱的变电工作票工作内容准确性评估的方法
CN117851614A (zh) * 2024-03-04 2024-04-09 创意信息技术股份有限公司 一种用于海量数据的搜索方法、装置、***及存储介质
CN117851614B (zh) * 2024-03-04 2024-05-14 创意信息技术股份有限公司 一种用于海量数据的搜索方法、装置、***及存储介质
CN118093834A (zh) * 2024-04-22 2024-05-28 邦宁数字技术股份有限公司 一种基于aigc大模型的语言处理问答***及方法
CN118152786A (zh) * 2024-05-10 2024-06-07 中国矿业大学 基于知识图谱的设备故障辅助决策方法、***及存储介质
CN118194214A (zh) * 2024-05-20 2024-06-14 江西博微新技术有限公司 一种输电立体巡检方法、***、计算机及存储介质

Similar Documents

Publication Publication Date Title
Zhou et al. Deep learning for aspect-level sentiment classification: survey, vision, and challenges
CN116822625A (zh) 一种发散式关联的风机设备运检知识图谱构建及检索方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN112001187B (zh) 一种基于中文句法和图卷积神经网络的情感分类***
CN104408173B (zh) 一种基于b2b平台的核心关键词自动提取方法
CN108733748B (zh) 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN110825721A (zh) 大数据环境下高血压知识库构建与***集成方法
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN113535917A (zh) 基于旅游知识图谱的智能问答方法及***
CN114048305B (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索***及方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
Khademi et al. Persian automatic text summarization based on named entity recognition
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
Liu et al. Hierarchical graph convolutional networks for structured long document classification
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN111400449A (zh) 一种正则表达式抽取方法及装置
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
Jing et al. An integrated implicit user preference mining approach for uncertain conceptual design decision-making: A pipeline inspection trolley design case study
Zandbiglari et al. Capability language processing (CLP): Classification and ranking of manufacturing suppliers based on unstructured capability data
CN114817454A (zh) 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法
CN114896387A (zh) 军事情报分析可视化方法、装置以及计算机可读存储介质
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination