CN115983250A - 基于知识图谱的电力异常数据根源定位方法及*** - Google Patents

基于知识图谱的电力异常数据根源定位方法及*** Download PDF

Info

Publication number
CN115983250A
CN115983250A CN202310029233.3A CN202310029233A CN115983250A CN 115983250 A CN115983250 A CN 115983250A CN 202310029233 A CN202310029233 A CN 202310029233A CN 115983250 A CN115983250 A CN 115983250A
Authority
CN
China
Prior art keywords
data
map
knowledge
module
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310029233.3A
Other languages
English (en)
Inventor
唐汉
杨芳
汤鲸
胡胜玉
罗有志
谢尚晟
李琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Metering Center of State Grid Hunan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Metering Center of State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd, Metering Center of State Grid Hunan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202310029233.3A priority Critical patent/CN115983250A/zh
Publication of CN115983250A publication Critical patent/CN115983250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的电力异常数据根源定位方法,包括获取目标电力***的数据信息;进行数据资产的梳理;进行数据的知识抽取;构建对应的知识图谱;对知识图谱进行图谱迭代;对知识图谱进行搜索完成电力异常数据的根源定位。本发明还公开了一种实现所述基于知识图谱的电力异常数据根源定位方法的***。本发明提供的这种基于知识图谱的电力异常数据根源定位方法及***,通过计算构建知识图谱,结合自然语言处理中的解析算法和正则表达,基于并行计算算法,智能分析异常数据产生的源头;本发明能够显著提升了异常数据根源定位效率,而且可靠性高、准确性好。

Description

基于知识图谱的电力异常数据根源定位方法及***
技术领域
本发明属于电气自动化领域,具体涉及一种基于知识图谱的电力异常数据根源定位方法及***。
背景技术
随着经济技术的发展和人们生活水平的提高,电能已经成为了人们生产和生活中必不可少的二次能源,给人们的生产和生活带来了无尽的便利。因此,保障电能的稳定可靠供应,就成为了电力***最重要的任务之一。
电力异常数据是电力***中必须及时定位的数据。电力数据的大规模性、跨部门性和跨专业性决定电力异常数据根源定位工作的难度。由于电力企业的数据资产呈现典型的大数据特征,电力数据覆盖电力生产和电力营销和电力调度各个环节,包括电网运行、设备管理、营销服务和企业管理等各类数据,在每个环节都可能产生异常数据。电力数据的丰富性导致数据的专业化和智能化要求越来越高,在这个过程中就会产生大量数据质量问题,这为异常数据根源定位增加了难度。
目前,电力异常数据的发现主要靠被动的规则核查和脚本手动核查。由于异常数据涉及的业务复杂、***很多、数据量很大,传统的数据异常发现方式耗时费力,效率低下,发现一类异常数据平均耗时48小时。
发明内容
本发明的目的之一在于提供一种可靠性高、准确性好且效率较高的基于知识图谱的电力异常数据根源定位方法。
本发明的目的之二在于提供一种实现所述基于知识图谱的电力异常数据根源定位方法的***。
本发明提供的这种基于知识图谱的电力异常数据根源定位方法,包括如下步骤:
S1.获取目标电力***的数据信息;
S2.根据步骤S1获取的数据信息,进行数据资产的梳理;
S3.根据步骤S2的梳理结果,进行数据的知识抽取;
S4.根据步骤S3得到的知识抽取结果,构建对应的知识图谱;
S5.基于自然语言处理技术,对步骤S4构建的知识图谱进行图谱迭代;
S6.基于广度优先算法、深度优先算法和最短路径算法,对步骤S5得到的知识图谱进行搜索,完成电力异常数据的根源定位。
步骤S2所述的根据步骤S1获取的数据信息,进行数据资产的梳理,具体包括如下步骤:
数据资产包括源端数据***;数据按照物理模型方式导入到设定的数据路径中,同时按照设计的数据模型,输入数据资产中表与字段的对应关系以及表的详细路径。
步骤S3所述的根据步骤S2的梳理结果,进行数据的知识抽取,具体包括如下步骤:
对梳理完毕的数据资产,获取数据内容;
将获取的数据,按照实体-关系-实体的数据结构构成三元组;
所述的实体包括角色、业务、流程、数据、规则和整改;所述的关系包括角色-业务关系、业务-流程关系、流程-数据关系、数据-规则关系和规则-整改关系。
步骤S4所述的根据步骤S3得到的知识抽取结果,构建对应的知识图谱,具体包括如下步骤:
将知识抽取结果,采用独热向量的形式转换为向量;
将数据进行实体对齐;
通过元数据驱动,从纵向和横向的维度,定义并动态管理组织与角色之间的管理关系,构建图谱关系;所述的图谱关系包括组织与角色的图谱关系、角色与业务的图谱管理、业务与数据的图谱关系、数据与规则的图谱关系、规则与异常数据的图谱关系、异常数据与业务的图谱关系和异常数据与角色的图谱关系。
步骤S5所述的基于自然语言处理技术,对步骤S4构建的知识图谱进行图谱迭代,具体包括如下步骤:
提取得到待处理文本集中各个文本的关键词;
对待处理文本进行聚类,生成若干个主题文本集;
统计种子词在各个主题文本集中出现的频率:将频率超过设定阈值的主题文本集进行保留,并作为领域词典扩展的源文本集;
计算种子词与源文本集的文本中各个候选词的关联度,并将关联度达到设定阈值的候选词作为领域词存入到代扩充的词典中;
实体间关系的重新生成:结合历史实体和新生成的实体,重新构建图谱中实体的关联关系;
更新知识图谱节点和节点间的关系。
采用词的歧义切分和未登录词的识别,来获取种子词;
词的歧义切分包括如下步骤:
切分歧义的检测:通过训练得到的序列标注模型得到各种切分方法的概率,并选择概率性能优异的若干个切分方法;
切分歧义的消解:通过条件随机场模型获取文本全局最优的切分方式,并将且该切分方式作为最后的分词结果;条件随机场模型的计算公式为:
Figure BDA0004046028530000041
式中P(y|x)为状态序列y在观测序列x条件下的条件概率;λk为转移特征系数;tk为转移特征函数;yi为i时刻的状态;x为观测序列;i为时刻的下标变量,;μl为l时刻的状态特征系数;sl为状态特征函数;Z(x)为归一化项,且
Figure BDA0004046028530000042
y为状态序列;
未登录词的识别包括如下步骤:
将切分好的词语与现有词库进行比较;筛选出不在词库中的词语,并将频率超过设定值的词作为未登录词;
与行业专有名词进行对比;将切分好的文本中的词通过专有名词词典识别,并将识别结果作为文本的未登录词。
步骤S6所述的基于广度优先算法、深度优先算法和最短路径算法,对步骤S5得到的知识图谱进行搜索,完成电力异常数据的根源定位,具体为基于已构建的知识图谱,采用广度优先算法、深度优先算法和最短路径算法,将异常数据中涉及的表和字段与图谱数据中的节点进行对应,定位异常数据产生的业务流程,以及流程涉及的所有实体和关系,从而发现异常数据产生的流程、环节及数据项,实现异常数据根源的定位。
所述的广度优先算法,具体包括如下步骤:
设定在节点集合p中找到节点α和β的最短路径:
首先访问节点α的所有邻接节点
Figure BDA0004046028530000051
用集合T记录已经访问的节点,用集合S记录现有路径,此时
Figure BDA0004046028530000052
然后,遍历所有邻接节点
Figure BDA0004046028530000053
访问邻接节点的所有未被访问的邻接节点
Figure BDA0004046028530000054
此时
Figure BDA0004046028530000055
同时记录访问路径并保存在集合S中;
重复以上步骤,直至访问到节点β,此时从集合S中获取最短路径。
所述的深度优先算法,具体包括如下步骤:
设定在节点集合p中找到节点α和β的最短路径:
首先访问节点α的一个邻接节点α1,用集合T记录已经访问的节点,用集合S记录现有路径,则此时T={α,α1},S={α→α1};
然后,访问节点α1的一个邻接节点α2
Figure BDA0004046028530000056
此时T={α,α12},S={α→α1→α2};
重复以上步骤,当不存在未被访问的邻接节点时从节点α重新开始;直至访问到节点β,此时从集合S中获取最短路径。
所述的最短路径算法,具体包括如下步骤:
设定找到节点α和β的最短路径:
初始化dis(α0)=0,α0=α;
找出与顶点α0未确定的点的距离最短的路径,标记对应的点为已经确定的点;
遍历所有以α0为起点的边,得到(α01,d);若dis(α1)>dis(α0)+d,则更新dis(α1)的值为dis(α0)+d;d为距离,α1为节点;
重复以上两个步骤,直至所有点都被标记为确定最短路径的点;最终确定的路径为最短路径。
本发明还公开了一种实现所述基于知识图谱的电力异常数据根源定位方法的***,包括数据获取模块、资产梳理模块、知识抽取模块、图谱构建模块、图谱迭代模块和根源定位模块;数据获取模块、资产梳理模块、知识抽取模块、图谱构建模块、图谱迭代模块和根源定位模块依次串联;数据获取模块用于获取目标电力***的数据信息,并将数据上传资产梳理模块;资产梳理模块用于根据接收到的数据,进行数据资产的梳理,并将数据上传知识抽取模块;知识抽取模块用于根据接收到的数据,进行数据的知识抽取,并将数据上传图谱构建模块;图谱构建模块用于根据接收到的数据,构建对应的知识图谱,并将数据上传图谱迭代模块;图谱迭代模块用于根据接收到的数据,基于自然语言处理技术,对构建的知识图谱进行图谱迭代,并将数据上传根源定位模块;根源定位模块用于根据接收到的数据,基于广度优先算法、深度优先算法和最短路径算法,对得到的知识图谱进行搜索,完成电力异常数据的根源定位。
本发明提供的这种基于知识图谱的电力异常数据根源定位方法及***,通过计算构建知识图谱,结合自然语言处理中的解析算法和正则表达,基于并行计算算法,智能分析异常数据产生的源头;本发明能够显著提升了异常数据根源定位效率,而且可靠性高、准确性好。
附图说明
图1为本发明方法的方法流程示意图。
图2为本发明***的功能模块示意图。
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种基于知识图谱的电力异常数据根源定位方法,包括如下步骤:
S1.获取目标电力***的数据信息;
S2.根据步骤S1获取的数据信息,进行数据资产的梳理;具体包括如下步骤:
数据资产包括源端数据***(例如PMS,CMS等);数据按照物理模型方式导入到设定的数据路径中,同时按照设计的数据模型,输入数据资产中表与字段的对应关系以及表的详细路径;
S3.根据步骤S2的梳理结果,进行数据的知识抽取;具体包括如下步骤:
对梳理完毕的数据资产,获取数据内容;
将获取的数据,按照实体-关系-实体的数据结构构成三元组;
所述的实体包括角色、业务、流程、数据、规则和整改;所述的关系包括角色-业务关系、业务-流程关系、流程-数据关系、数据-规则关系和规则-整改关系;
S4.根据步骤S3得到的知识抽取结果,构建对应的知识图谱;具体包括如下步骤:
将知识抽取结果,采用独热向量的形式转换为向量;
将数据进行实体对齐;例如,同样的营销数据术语,在不同的应用场景中,含义有所不同,此时就需要进行实体消歧处理。将不同的营销业务数据进行统一,同时,根据应用场景,赋予术语不同的属性;
通过元数据驱动,从纵向和横向的维度,定义并动态管理组织与角色之间的管理关系,构建图谱关系;所述的图谱关系包括组织与角色的图谱关系、角色与业务的图谱管理、业务与数据的图谱关系、数据与规则的图谱关系、规则与异常数据的图谱关系、异常数据与业务的图谱关系和异常数据与角色的图谱关系;
S5.基于自然语言处理技术,对步骤S4构建的知识图谱进行图谱迭代;具体包括如下步骤:
提取得到待处理文本集中各个文本的关键词;
对待处理文本进行聚类,生成若干个主题文本集;
统计种子词在各个主题文本集中出现的频率:将频率超过设定阈值的主题文本集进行保留,并作为领域词典扩展的源文本集;
计算种子词与源文本集的文本中各个候选词的关联度,并将关联度达到设定阈值的候选词作为领域词存入到代扩充的词典中;
实体间关系的重新生成:结合历史实体和新生成的实体,重新构建图谱中实体的关联关系;
更新知识图谱节点和节点间的关系。
采用词的歧义切分和未登录词的识别,来获取种子词;
词的歧义切分包括如下步骤:
切分歧义的检测:通过训练得到的序列标注模型得到各种切分方法的概率,并选择概率性能优异的若干个切分方法;
切分歧义的消解:通过条件随机场模型获取文本全局最优的切分方式,并将且该切分方式作为最后的分词结果;条件随机场模型的计算公式为:
Figure BDA0004046028530000091
式中P(y|x)为状态序列y在观测序列x条件下的条件概率;λk为转移特征系数;tk为转移特征函数;yi为i时刻的状态;x为观测序列;i为时刻的下标变量,;μl为l时刻的状态特征系数;sl为状态特征函数;Z(x)为归一化项,且
Figure BDA0004046028530000092
y为状态序列;
未登录词的识别包括如下步骤:
将切分好的词语与现有词库进行比较;筛选出不在词库中的词语,并将频率超过设定值的词作为未登录词;
与行业专有名词进行对比;将切分好的文本中的词通过专有名词词典识别,并将识别结果作为文本的未登录词;
在基于词典的方法中,对于给定的词,只有词典中存在的词语能够被识别,使用的方法是正向最大匹配法(MM),这种方法的效果取决于词典的覆盖度,因此需要定期更新新词;
S6.基于广度优先算法、深度优先算法和最短路径算法,对步骤S5得到的知识图谱进行搜索,完成电力异常数据的根源定位;具体为基于已构建的知识图谱,采用广度优先算法、深度优先算法和最短路径算法,将异常数据中涉及的表和字段与图谱数据中的节点进行对应,定位异常数据产生的业务流程,以及流程涉及的所有实体和关系,从而发现异常数据产生的流程、环节及数据项,实现异常数据根源的定位。
具体实施时,广度优先算法具体包括如下步骤:
广度优先搜索算法从某个点出发,第一步是访问该点的所有邻接节点,并且记录这些邻接节点,然后再访问邻接节点的邻接节点,如果邻接节点之前已经访问,则跳过此次访问,直到获取到目标节点;
设定在节点集合p中找到节点α和β的最短路径:
首先访问节点α的所有邻接节点
Figure BDA0004046028530000101
用集合T记录已经访问的节点,用集合S记录现有路径,此时
Figure BDA0004046028530000102
然后,遍历所有邻接节点
Figure BDA0004046028530000103
访问邻接节点的所有未被访问的邻接节点
Figure BDA0004046028530000104
此时
Figure BDA0004046028530000105
同时记录访问路径并保存在集合S中;
重复以上步骤,直至访问到节点β,此时从集合S中获取最短路径;
并行广度优先搜索算法是指在搜索过程中可以从多个节点同时出发进行下一步的搜索与访问,且互不干扰,极大地提高效率;
具体实施时,深度优先算法具体包括如下步骤:
深度优先搜索算法的原理是从一个节点出发寻找到下一个邻接节点后,继续寻找下一个邻接节点,直到访问到目标节点或者当前节点已被访问或者不存在邻接节点;
设定在节点集合p中找到节点α和β的最短路径:
首先访问节点α的一个邻接节点α1,用集合T记录已经访问的节点,用集合S记录现有路径,则此时T={α,α1},S={α→α1};
然后,访问节点α1的一个邻接节点α2
Figure BDA0004046028530000106
此时T={α,α12},S={α→α1→α2};
重复以上步骤,当不存在未被访问的邻接节点时从节点α重新开始;直至访问到节点β,此时从集合S中获取最短路径;
深度优先搜索算法是指在搜索过程中可以从多个节点同时出发进行下一步的搜索与访问,且互不干扰,极大地提高效率;
具体实施时,最短路径算法具体包括如下步骤:
单源最短路径搜索算法支持对有权重的连接边来寻找最短路径。主要原理是假设所有顶点集合为G,设置顶点集合点集合S并不断地做贪心选择来扩充这个集合,设集合V=G-S。一个顶点属于集合S当且仅当从源到该顶点的最短路径长度已知。初始时,S中仅含有源,即起点。设u是G的其一顶点。把从源到u且中间只经过S中顶点的路称为从源到u的特殊路径,并用矩阵A记录当前每个顶点所对应的最短特殊路径长度,每次从V中取出具有最短特殊路长度的顶点,矩阵A就记录了从源到所有其它顶点之间最短路径长度;
设定找到节点α和β的最短路径:
初始化dis(α0)=0,α0=α;
找出与顶点α0未确定的点的距离最短的路径,标记对应的点为已经确定的点;
遍历所有以α0为起点的边,得到(α01,d);若dis(α1)>dis(α0)+d,则更新dis(α1)的值为dis(α0)+d;d为距离,α1为节点;
重复以上两个步骤,直至所有点都被标记为确定最短路径的点;最终确定的路径为最短路径。
如图2所示为本发明***的功能模块示意图:本发明公开的这种实现所述基于知识图谱的电力异常数据根源定位方法的***,包括数据获取模块、资产梳理模块、知识抽取模块、图谱构建模块、图谱迭代模块和根源定位模块;数据获取模块、资产梳理模块、知识抽取模块、图谱构建模块、图谱迭代模块和根源定位模块依次串联;数据获取模块用于获取目标电力***的数据信息,并将数据上传资产梳理模块;资产梳理模块用于根据接收到的数据,进行数据资产的梳理,并将数据上传知识抽取模块;知识抽取模块用于根据接收到的数据,进行数据的知识抽取,并将数据上传图谱构建模块;图谱构建模块用于根据接收到的数据,构建对应的知识图谱,并将数据上传图谱迭代模块;图谱迭代模块用于根据接收到的数据,基于自然语言处理技术,对构建的知识图谱进行图谱迭代,并将数据上传根源定位模块;根源定位模块用于根据接收到的数据,基于广度优先算法、深度优先算法和最短路径算法,对得到的知识图谱进行搜索,完成电力异常数据的根源定位。

Claims (9)

1.一种基于知识图谱的电力异常数据根源定位方法,包括如下步骤:
S1.获取目标电力***的数据信息;
S2.根据步骤S1获取的数据信息,进行数据资产的梳理;
S3.根据步骤S2的梳理结果,进行数据的知识抽取;
S4.根据步骤S3得到的知识抽取结果,构建对应的知识图谱;
S5.基于自然语言处理技术,对步骤S4构建的知识图谱进行图谱迭代;
S6.基于广度优先算法、深度优先算法和最短路径算法,对步骤S5得到的知识图谱进行搜索,完成电力异常数据的根源定位。
2.根据权利要求1所述的基于知识图谱的电力异常数据根源定位方法,其特征在于步骤S2所述的根据步骤S1获取的数据信息,进行数据资产的梳理,具体包括如下步骤:
数据资产包括源端数据***;数据按照物理模型方式导入到设定的数据路径中,同时按照设计的数据模型,输入数据资产中表与字段的对应关系以及表的详细路径。
3.根据权利要求2所述的基于知识图谱的电力异常数据根源定位方法,其特征在于步骤S3所述的根据步骤S2的梳理结果,进行数据的知识抽取,具体包括如下步骤:
对梳理完毕的数据资产,获取数据内容;
将获取的数据,按照实体-关系-实体的数据结构构成三元组;
所述的实体包括角色、业务、流程、数据、规则和整改;所述的关系包括角色-业务关系、业务-流程关系、流程-数据关系、数据-规则关系和规则-整改关系。
4.根据权利要求3所述的基于知识图谱的电力异常数据根源定位方法,其特征在于步骤S4所述的根据步骤S3得到的知识抽取结果,构建对应的知识图谱,具体包括如下步骤:
将知识抽取结果,采用独热向量的形式转换为向量;
将数据进行实体对齐;
通过元数据驱动,从纵向和横向的维度,定义并动态管理组织与角色之间的管理关系,构建图谱关系;所述的图谱关系包括组织与角色的图谱关系、角色与业务的图谱管理、业务与数据的图谱关系、数据与规则的图谱关系、规则与异常数据的图谱关系、异常数据与业务的图谱关系和异常数据与角色的图谱关系。
5.根据权利要求4所述的基于知识图谱的电力异常数据根源定位方法,其特征在于步骤S5所述的基于自然语言处理技术,对步骤S4构建的知识图谱进行图谱迭代,具体包括如下步骤:
提取得到待处理文本集中各个文本的关键词;
对待处理文本进行聚类,生成若干个主题文本集;
统计种子词在各个主题文本集中出现的频率:将频率超过设定阈值的主题文本集进行保留,并作为领域词典扩展的源文本集;
计算种子词与源文本集的文本中各个候选词的关联度,并将关联度达到设定阈值的候选词作为领域词存入到代扩充的词典中;
实体间关系的重新生成:结合历史实体和新生成的实体,重新构建图谱中实体的关联关系;
更新知识图谱节点和节点间的关系。
6.根据权利要求1所述的基于知识图谱的电力异常数据根源定位方法,其特征在于采用词的歧义切分和未登录词的识别,来获取种子词;
词的歧义切分包括如下步骤:
切分歧义的检测:通过训练得到的序列标注模型得到各种切分方法的概率,并选择概率性能优异的若干个切分方法;
切分歧义的消解:通过条件随机场模型获取文本全局最优的切分方式,并将且该切分方式作为最后的分词结果;条件随机场模型的计算公式为:
Figure FDA0004046028520000031
式中P(y|x)为状态序列y在观测序列x条件下的条件概率;λk为转移特征系数;tk为转移特征函数;yi为i时刻的状态;x为观测序列;i为时刻的下标变量,;μl为l时刻的状态特征系数;sl为状态特征函数;Z(x)为归一化项,且
Figure FDA0004046028520000032
y为状态序列;
未登录词的识别包括如下步骤:
将切分好的词语与现有词库进行比较;筛选出不在词库中的词语,并将频率超过设定值的词作为未登录词;
与行业专有名词进行对比;将切分好的文本中的词通过专有名词词典识别,并将识别结果作为文本的未登录词。
7.根据权利要求1所述的基于知识图谱的电力异常数据根源定位方法,其特征在于步骤S6所述的基于广度优先算法、深度优先算法和最短路径算法,对步骤S5得到的知识图谱进行搜索,完成电力异常数据的根源定位,具体为基于已构建的知识图谱,采用广度优先算法、深度优先算法和最短路径算法,将异常数据中涉及的表和字段与图谱数据中的节点进行对应,定位异常数据产生的业务流程,以及流程涉及的所有实体和关系,从而发现异常数据产生的流程、环节及数据项,实现异常数据根源的定位。
8.根据权利要求1所述的基于知识图谱的电力异常数据根源定位方法,其特征在于所述的广度优先算法,具体包括如下步骤:
设定在节点集合p中找到节点α和β的最短路径:
首先访问节点α的所有邻接节点
Figure FDA0004046028520000041
用集合T记录已经访问的节点,用集合S记录现有路径,此时
Figure FDA0004046028520000042
然后,遍历所有邻接节点
Figure FDA0004046028520000043
访问邻接节点的所有未被访问的邻接节点
Figure FDA0004046028520000044
此时
Figure FDA0004046028520000045
同时记录访问路径并保存在集合S中;
重复以上步骤,直至访问到节点β,此时从集合S中获取最短路径;
所述的深度优先算法,具体包括如下步骤:
设定在节点集合p中找到节点α和β的最短路径:
首先访问节点α的一个邻接节点α1,用集合T记录已经访问的节点,用集合S记录现有路径,则此时T={α,α1},S={α→α1};
然后,访问节点α1的一个邻接节点α2
Figure FDA0004046028520000046
此时T={α,α12},S={α→α1→α2};
重复以上步骤,当不存在未被访问的邻接节点时从节点α重新开始;直至访问到节点β,此时从集合S中获取最短路径;
所述的最短路径算法,具体包括如下步骤:
设定找到节点α和β的最短路径:
初始化dis(α0)=0,α0=α;
找出与顶点α0未确定的点的距离最短的路径,标记对应的点为已经确定的点;
遍历所有以α0为起点的边,得到(α01,d);若dis(α1)>dis(α0)+d,则更新dis(α1)的值为dis(α0)+d;d为距离,α1为节点;
重复以上两个步骤,直至所有点都被标记为确定最短路径的点;最终确定的路径为最短路径。
9.一种实现权利要求1~8之一所述的基于知识图谱的电力异常数据根源定位方法的***,其特征在于包括数据获取模块、资产梳理模块、知识抽取模块、图谱构建模块、图谱迭代模块和根源定位模块;数据获取模块、资产梳理模块、知识抽取模块、图谱构建模块、图谱迭代模块和根源定位模块依次串联;数据获取模块用于获取目标电力***的数据信息,并将数据上传资产梳理模块;资产梳理模块用于根据接收到的数据,进行数据资产的梳理,并将数据上传知识抽取模块;知识抽取模块用于根据接收到的数据,进行数据的知识抽取,并将数据上传图谱构建模块;图谱构建模块用于根据接收到的数据,构建对应的知识图谱,并将数据上传图谱迭代模块;图谱迭代模块用于根据接收到的数据,基于自然语言处理技术,对构建的知识图谱进行图谱迭代,并将数据上传根源定位模块;根源定位模块用于根据接收到的数据,基于广度优先算法、深度优先算法和最短路径算法,对得到的知识图谱进行搜索,完成电力异常数据的根源定位。
CN202310029233.3A 2023-01-09 2023-01-09 基于知识图谱的电力异常数据根源定位方法及*** Pending CN115983250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310029233.3A CN115983250A (zh) 2023-01-09 2023-01-09 基于知识图谱的电力异常数据根源定位方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310029233.3A CN115983250A (zh) 2023-01-09 2023-01-09 基于知识图谱的电力异常数据根源定位方法及***

Publications (1)

Publication Number Publication Date
CN115983250A true CN115983250A (zh) 2023-04-18

Family

ID=85962905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310029233.3A Pending CN115983250A (zh) 2023-01-09 2023-01-09 基于知识图谱的电力异常数据根源定位方法及***

Country Status (1)

Country Link
CN (1) CN115983250A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186350A (zh) * 2023-04-23 2023-05-30 浙江大学 基于知识图谱和主题文本的输电线路工程搜索方法和装置
CN116562852A (zh) * 2023-05-17 2023-08-08 国网安徽省电力有限公司黄山供电公司 基于知识图谱的配网停电信息管理***
CN117094688A (zh) * 2023-10-20 2023-11-21 国网信通亿力科技有限责任公司 一种供电所数字化管控方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186350A (zh) * 2023-04-23 2023-05-30 浙江大学 基于知识图谱和主题文本的输电线路工程搜索方法和装置
CN116186350B (zh) * 2023-04-23 2023-07-25 浙江大学 基于知识图谱和主题文本的输电线路工程搜索方法和装置
CN116562852A (zh) * 2023-05-17 2023-08-08 国网安徽省电力有限公司黄山供电公司 基于知识图谱的配网停电信息管理***
CN116562852B (zh) * 2023-05-17 2024-06-04 国网安徽省电力有限公司黄山供电公司 基于知识图谱的配网停电信息管理***
CN117094688A (zh) * 2023-10-20 2023-11-21 国网信通亿力科技有限责任公司 一种供电所数字化管控方法及***
CN117094688B (zh) * 2023-10-20 2023-12-19 国网信通亿力科技有限责任公司 一种供电所数字化管控方法及***

Similar Documents

Publication Publication Date Title
CN115983250A (zh) 基于知识图谱的电力异常数据根源定位方法及***
Ahmed et al. Learning role-based graph embeddings
CN110633366B (zh) 一种短文本分类方法、装置和存储介质
CN113535974B (zh) 诊断推荐方法及相关装置、电子设备、存储介质
Qiao et al. Unsupervised author disambiguation using heterogeneous graph convolutional network embedding
Zanghi et al. Strategies for online inference of model-based clustering in large and growing networks
CN103488790A (zh) 基于加权borda计数法的多元时间序列相似分析方法
CN109857457A (zh) 一种在双曲空间中学习源代码中的函数层次嵌入表示方法
Gao et al. Evolutionary community discovery in dynamic networks based on leader nodes
CN116383422B (zh) 一种基于锚点的无监督跨模态哈希检索方法
WO2022188646A1 (zh) 图数据处理方法、装置、设备、存储介质及程序产品
Han et al. DeepRouting: A deep neural network approach for ticket routing in expert network
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及***
CN113821650A (zh) 一种基于大数据的信息检索***
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
CN112685452A (zh) 企业案例检索方法、装置、设备和存储介质
CN110502669B (zh) 基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN116821087A (zh) 输电线路故障数据库构建方法、装置、终端及存储介质
Hadiji et al. Computer science on the move: Inferring migration regularities from the web via compressed label propagation
CN114124417B (zh) 一种大规模网络下可扩展性增强的漏洞评估方法
Yu et al. Workflow recommendation based on graph embedding
CN111814457A (zh) 一种电网工程合同文本生成方法
CN114911787B (zh) 一种融合位置和语义约束的多源poi数据清洗方法
CN112445939A (zh) 一种社交网络群体发现***、方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination