CN115269870A - 一种基于知识图谱实现数据中台数据链路故障分类预警的方法 - Google Patents

一种基于知识图谱实现数据中台数据链路故障分类预警的方法 Download PDF

Info

Publication number
CN115269870A
CN115269870A CN202210884956.7A CN202210884956A CN115269870A CN 115269870 A CN115269870 A CN 115269870A CN 202210884956 A CN202210884956 A CN 202210884956A CN 115269870 A CN115269870 A CN 115269870A
Authority
CN
China
Prior art keywords
data
fault
knowledge graph
knowledge
svm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210884956.7A
Other languages
English (en)
Inventor
郝美薇
包永迪
颜阳
张旭
杨建伟
张倩宜
杨丹丹
付嘉鑫
胡博
张驰
申琳琳
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202210884956.7A priority Critical patent/CN115269870A/zh
Publication of CN115269870A publication Critical patent/CN115269870A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于知识图谱实现数据中台数据链路故障分类预警的方法,首先以数据链路中的故障分类为目标,通过Kmeans‑SVM模型训练得到故障分类模型,随后通过马尔可夫模型等方法构建故障类型的知识图谱,基于故障领域知识图谱以及Kmeans‑SVM方法得到故障分类的基础,再通过故障原因相似度分析故障之间的关联关系,进而预测数据链路中可能发生的关联故障。通过机器学习故障分类模块和知识图谱故障预警模块的相互协作,实现对数据链路的智能分析,解决专家***以及机器学习中存在的一系列问题,有效地提升数据链路的维护效率,使得故障分类准确率大大提升。

Description

一种基于知识图谱实现数据中台数据链路故障分类预警的 方法
技术领域
本发明属于电力物联网领域,涉及数据中台技术,尤其是一种基于知识图谱实现数据中台数据链路故障分类预警的方法。
背景技术
随着电力物联网的飞速发展以及数据中台的推进,电力资源数据量不断扩大,出现了越来越多的数据制造者以及数据使用者。但与此同时也就出现了数据分布分散、数据规模巨大,数据交互复杂、数据传输效率低,数据链路故障难以诊断等问题。
目前关于数据链路故障分析的方法大多集中于实体硬件方面的故障分析,在软件层面的分析相对比较少。针对实体硬件的故障分类方法主要有:专家***和机器学习等,其中使用最为广泛的是专家***,分为基于浅知识领域的专家知识和基于深知识分析对象的模型知识。机器学习不需要人工进行知识的整理与总结,只需要使用相关的数据集进行训练即可得到故障的分类模型,并在故障诊断领域取得了较好的效果。
专家***虽然能够有效地模拟故障诊断专家完成故障诊断的过程,但是在实际应用中仍存在难以获取完备的知识库、诊断速度非常慢、运维难度大、不具备学习能力以及容错能力差等问题。所以机器学习模型逐渐在故障分类问题中广泛应用,但使用单一地机器学习方法来进行故障预测不仅需要大量地标注数据集,并且分类效果极大地取决于训练时间、训练参数等的设置,故障诊断效果可能不佳。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种基于知识图谱实现数据中台数据链路故障分类预警的方法,主要设计并实现了基于深度学习的数据链路故障分类的法,对数据链路中目前已经存在的故障进行分类,并对将来有可能发生的故障进行预警,有效地提升数据链路的维护效率。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于知识图谱实现数据中台数据链路故障分类预警的方法,具体方法步骤如下:
(1)建立Kmeans-SVM故障分类模型
首先对数据使用PCA方法进行降维,降维处理后的数据使用K-means方法,利用其无监督学***方和作为簇内样本相似性大小的代表,划分好的某个簇Gu的误差平方和越小,表明该簇内的样本相似性越大,而相反,Gu的误差平方和越大,说明该簇内的样本相似性越小,误差平方和的计算公式如下:
Figure BDA0003764853980000021
这些输入进来的无标签数据经过K-means方法后变成有标签数据,最终将输入数据分为两类,分别用数字1和2表示,接下来使用这些有标签的数据来训练SVM模型,得到最大间隔超平面,将1和2两类数据分别分割在超平面的两侧,SVM训练结束后使用最大间隔超平面来测试K-means得到的分类结果的准确性,把预测正确的数据用来重新训练SVM的超平面,照此方法迭代更新SVM的超平面直到使用SVM预测数据的错误率不再发生变化为止,得到最终的最大间隔超平面,具体算法步骤如下:
步骤一:无标签数据进行预处理,预处理后的数据使用K-means算法分为两个簇,分别标记为1和2,将无标签数据转换成带标签数据;
步骤二:使用步骤一中得到的有标签数据训练SVM分类器模型,得到最大间隔超平面;
步骤三:使用训练完成的SVM分类模型模型测试K-means聚类得到两种样本数据,将预测准确的数据重新作为步骤二的输入数据,得到新的最大间隔超平面,直到用SVM预测数据的错误率不再变化为止;
(2)构建故障领域知识图谱
构建链路故障领域的知识图谱时主要分为实体和属性抽取、共指消解、知识加工和数据整合四个部分;
(3)数据链路故障预警
根据链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理。
而且,实体和属性的抽取包括:首先对故障领域的语料库进行分词操作,使用马尔可夫模型进行实体和属性的抽取,将抽取出来的实体与属性作为最终应用在知识图谱上的实体与属性,然后对所有的词进行词性标注,将其分为以下几类:故障名词实体、故障现象动词、故障程度副词、故障程度量词和未被抽取的词的原词典。
而且,共指消解的步骤主要目的是把表示实体和属性的同义词找出来,将相似性较高的词归为同一类,使用同义词表的形式实现对同义词的表示。
而且,知识加工的步骤的主要目的是识别实体与属性之间的相应关系,将各个词性之间是否有包含或者不包含的关系作为标准,对冗余的包含关系进行删除。
而且,数据整合步骤是将故障实体、属性以及关系的三元组进行合并通过概念层和实体属性层的节点更新实现最终的图谱构建最终形成链路故障领域的知识图谱。
而且,链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理的过程如下:首先对存储的已知知识进行规则提取,规则提取后进行规则匹配,如果匹配成功则加到规则执行区,规则冲突成立则冲突消解,若规则冲突不成立则得到不成立的推理结果,同样,如果规则匹配不成功则得出未推理出新知识的推理结果。
本发明的优点和积极效果是:
1、本发明训练了Kmeans-SVM故障分类模型,通过优化算法对模型进行自动验证评估和参数调整,使用测试集对模型进行测试,最终实现对数据链路当前故障情况的分类,并将诊断结果传输至知识图谱故障预警模块,为故障预警提供当前信息基础。使用K-means方法将无标签的数据转化为带标签数据,再通过使用SVM算法迭代训练出最终的最大间隔超平面。其优点在于使K-means方法能够节省人工进行标注的成本,并且迭代地求解最大间隔超平面使得故障分类准确率大大提升。
2、本发明通过构建故障领域知识图谱,将机器学习故障分类模块的分类结果数据输入到知识图谱故障预警模块当中,能够找出相关联的故障从而进行有效的预警。知识图谱能够把海量不同种类的信息链接在一起并形成关系网络,以便用户通过关系的角度分析问题。本发明不仅能够对当前故障类型进行分类,还可以通过构建的故障领域知识图谱来预警将来的故障,极大地提升了数据链路地维护效率。
3、本发明针对现有技术中专家***和单一的机器学习方法中存在的问题,首先使用Kmeans-SVM相结合的机器学习方法进行分类模型的构建,再通过构建故障领域知识图谱进行关联故障的预警,通过机器学习故障分类模块和知识图谱故障预警模块的相互协作,实现对数据链路的智能分析,解决专家***以及机器学习中存在的一系列问题,有效地提升数据链路的维护效率。
附图说明
图1为本发明方法建立Kmeans-SVM故障分类模型流程图;
图2为本发明中链路故障知识图谱中故障节点信息与故障原因间逻辑关系推理图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
本发明首先以数据链路中的故障分类为目标,通过Kmeans-SVM模型训练得到故障分类模型。随后通过马尔可夫模型等方法构建故障类型的知识图谱。基于故障领域知识图谱以及Kmeans-SVM方法得到故障分类的基础,再通过故障原因相似度分析故障之间的关联关系,进而预测数据链路中可能发生的关联故障。
本发明提供一种基于知识图谱实现数据中台数据链路故障分类预警的方法,具体方法步骤如下:
(1)建立Kmeans-SVM故障分类模型
具体建模方法流程如图1所示,首先对数据使用PCA方法进行降维。降维处理后的数据使用K-means方法,利用其无监督学***方和作为簇内样本相似性大小的代表,划分好的某个簇Gu的误差平方和越小,表明该簇内的样本相似性越大;而相反,Gu的误差平方和越大,说明该簇内的样本相似性越小。误差平方和的计算公式如下:
Figure BDA0003764853980000041
这些输入进来的无标签数据经过K-means方法后变成有标签数据。最终将输入数据分为两类,分别用数字1和2表示。接下来使用这些有标签的数据来训练SVM模型,得到最大间隔超平面,将1和2两类数据分别分割在超平面的两侧。SVM训练结束后使用最大间隔超平面来测试K-means得到的分类结果的准确性,把预测正确的数据用来重新训练SVM的超平面,照此方法迭代更新SVM的超平面直到使用SVM预测数据的错误率不再发生变化为止,得到最终的最大间隔超平面。算法步骤如下:
步骤一:无标签数据进行预处理,预处理后的数据使用K-means算法分为两个簇,分别标记为1和2,将无标签数据转换成带标签数据。
步骤二:使用步骤一中得到的有标签数据训练SVM分类器模型,得到最大间隔超平面。
步骤三:使用训练完成的SVM分类模型模型测试K-means聚类得到两种样本数据,将预测准确的数据重新作为步骤二的输入数据,得到新的最大间隔超平面,直到用SVM预测数据的错误率不再变化为止。
(2)构建故障领域知识图谱
构建链路故障领域的知识图谱时主要分为实体和属性抽取、共指消解、知识加工和数据整合四个部分。
实体和属性的抽取:首先对故障领域的语料库进行分词操作,使用马尔可夫模型进行实体和属性的抽取,将抽取出来的实体与属性作为最终应用在知识图谱上的实体与属性。然后对所有的词进行词性标注,将其分为以下几类:故障名词实体、故障现象动词、故障程度副词、故障程度量词和未被抽取的词的原词典。
共指消解:该步骤主要目的是把表示实体和属性的同义词找出来,将相似性较高的词归为同一类,使用同义词表的形式实现对同义词的表示。
知识加工:该步骤的主要目的是识别实体与属性之间的相应关系,将各个词性之间是否有包含或者不包含的关系作为标准,对冗余的包含关系进行删除。
数据整合:该步骤将故障实体、属性以及关系的三元组进行合并通过概念层和实体属性层的节点更新实现最终的图谱构建最终形成链路故障领域的知识图谱。
(3)数据链路故障预警
根据链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理,推理规则如图2所示,链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理的过程如下:首先对存储的已知知识进行规则提取,规则提取后进行规则匹配,如果匹配成功则加到规则执行区,规则冲突成立则冲突消解,若规则冲突不成立则得到不成立的推理结果,同样,如果规则匹配不成功则得出未推理出新知识的推理结果。
尽管为说明目的公开了本发明的实施例,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例所公开的内容。

Claims (6)

1.一种基于知识图谱实现数据中台数据链路故障分类预警的方法,其特征在于:具体方法步骤如下:
(1)建立Kmeans-SVM故障分类模型
首先对数据使用PCA方法进行降维,降维处理后的数据使用K-means方法,利用其无监督学***方和作为簇内样本相似性大小的代表,划分好的某个簇Gu的误差平方和越小,表明该簇内的样本相似性越大,而相反,Gu的误差平方和越大,说明该簇内的样本相似性越小,误差平方和的计算公式如下:
Figure FDA0003764853970000011
这些输入进来的无标签数据经过K-means方法后变成有标签数据,最终将输入数据分为两类,分别用数字1和2表示,接下来使用这些有标签的数据来训练SVM模型,得到最大间隔超平面,将1和2两类数据分别分割在超平面的两侧,SVM训练结束后使用最大间隔超平面来测试K-means得到的分类结果的准确性,把预测正确的数据用来重新训练SVM的超平面,照此方法迭代更新SVM的超平面直到使用SVM预测数据的错误率不再发生变化为止,得到最终的最大间隔超平面,具体算法步骤如下:
步骤一:无标签数据进行预处理,预处理后的数据使用K-means算法分为两个簇,分别标记为1和2,将无标签数据转换成带标签数据;
步骤二:使用步骤一中得到的有标签数据训练SVM分类器模型,得到最大间隔超平面;
步骤三:使用训练完成的SVM分类模型模型测试K-means聚类得到两种样本数据,将预测准确的数据重新作为步骤二的输入数据,得到新的最大间隔超平面,直到用SVM预测数据的错误率不再变化为止;
(2)构建故障领域知识图谱
构建链路故障领域的知识图谱时主要分为实体和属性抽取、共指消解、知识加工和数据整合四个部分;
(3)数据链路故障预警
根据链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理。
2.实体和属性的抽取包括:首先对故障领域的语料库进行分词操作,使用马尔可夫模型进行实体和属性的抽取,将抽取出来的实体与属性作为最终应用在知识图谱上的实体与属性,然后对所有的词进行词性标注,将其分为以下几类:故障名词实体、故障现象动词、故障程度副词、故障程度量词和未被抽取的词的原词典。
3.根据权利要求1所述的一种基于知识图谱实现数据中台数据链路故障分类预警的方法,其特征在于:共指消解的步骤主要目的是把表示实体和属性的同义词找出来,将相似性较高的词归为同一类,使用同义词表的形式实现对同义词的表示。
4.根据权利要求1所述的一种基于知识图谱实现数据中台数据链路故障分类预警的方法,其特征在于:知识加工的步骤的主要目的是识别实体与属性之间的相应关系,将各个词性之间是否有包含或者不包含的关系作为标准,对冗余的包含关系进行删除。
5.根据权利要求1所述的一种基于知识图谱实现数据中台数据链路故障分类预警的方法,其特征在于:数据整合步骤是将故障实体、属性以及关系的三元组进行合并通过概念层和实体属性层的节点更新实现最终的图谱构建最终形成链路故障领域的知识图谱。
6.根据权利要求1所述的一种基于知识图谱实现数据中台数据链路故障分类预警的方法,其特征在于:链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理的过程如下:首先对存储的已知知识进行规则提取,规则提取后进行规则匹配,如果匹配成功则加到规则执行区,规则冲突成立则冲突消解,若规则冲突不成立则得到不成立的推理结果,同样,如果规则匹配不成功则得出未推理出新知识的推理结果。
CN202210884956.7A 2022-07-26 2022-07-26 一种基于知识图谱实现数据中台数据链路故障分类预警的方法 Pending CN115269870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210884956.7A CN115269870A (zh) 2022-07-26 2022-07-26 一种基于知识图谱实现数据中台数据链路故障分类预警的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210884956.7A CN115269870A (zh) 2022-07-26 2022-07-26 一种基于知识图谱实现数据中台数据链路故障分类预警的方法

Publications (1)

Publication Number Publication Date
CN115269870A true CN115269870A (zh) 2022-11-01

Family

ID=83769530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210884956.7A Pending CN115269870A (zh) 2022-07-26 2022-07-26 一种基于知识图谱实现数据中台数据链路故障分类预警的方法

Country Status (1)

Country Link
CN (1) CN115269870A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116827817A (zh) * 2023-04-12 2023-09-29 国网河北省电力有限公司信息通信分公司 数据链路状态监测方法、装置、监测***及存储介质
CN117647697A (zh) * 2023-11-21 2024-03-05 广东电网有限责任公司江门供电局 一种基于知识图谱的电力计量流水线故障定位方法及***
CN118094271A (zh) * 2024-04-19 2024-05-28 北京飞安航空科技有限公司 基于知识图谱的机务管理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116827817A (zh) * 2023-04-12 2023-09-29 国网河北省电力有限公司信息通信分公司 数据链路状态监测方法、装置、监测***及存储介质
CN117647697A (zh) * 2023-11-21 2024-03-05 广东电网有限责任公司江门供电局 一种基于知识图谱的电力计量流水线故障定位方法及***
CN117647697B (zh) * 2023-11-21 2024-05-14 广东电网有限责任公司江门供电局 一种基于知识图谱的电力计量流水线故障定位方法及***
CN118094271A (zh) * 2024-04-19 2024-05-28 北京飞安航空科技有限公司 基于知识图谱的机务管理方法
CN118094271B (zh) * 2024-04-19 2024-07-02 北京飞安航空科技有限公司 基于知识图谱的机务管理方法

Similar Documents

Publication Publication Date Title
Yu et al. Beyond Word Attention: Using Segment Attention in Neural Relation Extraction.
CN115269870A (zh) 一种基于知识图谱实现数据中台数据链路故障分类预警的方法
WO2018218708A1 (zh) 一种基于深度学习的舆情热点类别划分方法
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及***
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN112487822A (zh) 一种基于深度学习的跨模态检索方法
CN110377690B (zh) 一种基于远程关系抽取的信息获取方法和***
CN112685374B (zh) 日志分类方法、装置及电子设备
CN116842194A (zh) 一种电力语义知识图谱***及方法
US20230014904A1 (en) Searchable data structure for electronic documents
CN116611071A (zh) 一种基于多模态的函数级漏洞检测的方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和***
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN118037261A (zh) 基于知识图谱的输变电设备运维方法、装置、设备及介质
CN111160756A (zh) 基于二次人工智能算法的景区评估方法及模型
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN114757097B (zh) 一种线路故障诊断方法及装置
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN116975275A (zh) 多语种文本分类模型训练方法、装置和计算机设备
CN115269855A (zh) 基于预训练编码器的论文细粒度化多标签标注方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination