CN115496233A - 一种基于马尔可夫模型的数据中台运行故障预测方法 - Google Patents

一种基于马尔可夫模型的数据中台运行故障预测方法 Download PDF

Info

Publication number
CN115496233A
CN115496233A CN202210882372.6A CN202210882372A CN115496233A CN 115496233 A CN115496233 A CN 115496233A CN 202210882372 A CN202210882372 A CN 202210882372A CN 115496233 A CN115496233 A CN 115496233A
Authority
CN
China
Prior art keywords
fault
layer
data
maintenance
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210882372.6A
Other languages
English (en)
Inventor
张倩宜
包永迪
郝美薇
江黛茹
张旭
颜阳
杨丹丹
付嘉鑫
胡博
张驰
申琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202210882372.6A priority Critical patent/CN115496233A/zh
Publication of CN115496233A publication Critical patent/CN115496233A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明涉及一种基于马尔可夫模型的数据中台运行故障预测方法,包括步骤A:量化运行状态;步骤B:故障诊断模型制定;步骤C:预警模式优化,提出“业务故障现象”、“组件故障现象”等六层***运行工状态量化评价体系;然后基于上述状态指标建立故障诊断模型,并借助隐马尔可夫进行模型优化,辅助数据中台运维人员快速定位故障,提升运维效率;最后设计并实现在线故障诊断定位***。以天津电力数据中台六层运行状态量化评价体系和主动运维模式为基础,一方面,可以快速定位天津电力数据中台故障排查主体;另一方面,基于故障诊断模型和主动运维模型,可以做到天津电力数据中台运行风险主动预警和故障快速处理。

Description

一种基于马尔可夫模型的数据中台运行故障预测方法
技术领域
本发明属于数据分析领域,涉及数据中台运行故障预测技术,尤其是一种基于马尔可夫模型的数据中台运行故障预测方法。
背景技术
数据中台是一种战略选择和组织形式,依据企业特有的业务模式和组织架构,将有形的产品和实施方法作为支撑,进而构建一套不断把数据变成资产并服务于业务的机制。数据中台一般具备数据采集整合、数据提纯加工、数据服务可视化和数据价值变现四个能力。
当前数据中台运维工作存在一系列困难。主要体现在:⑴***架构复杂导致日常的巡检繁琐,同时工作量大并且***风险具有隐蔽性,不易被发现;⑵与传统成熟的软件服务相比,数据中台故障诊断困难,对运维人员的经验依赖严重。
由于数据中台无论在***架构还是物理部署上均和传统的B/S架构信息***有较大区别,这就要求运维人员不仅需要对数据中台主机层面、中间件和应用***等传统运维体系内容熟悉,还需要学习和了解数据中台各类新型组件的巡检和使用,同时,由于对数据中台的运维经验储备尚不充足,对于数据中台各类故障的处理效率较低。当前在数据中台运行故障提升方面的工作主要还是依赖具有一定经验的运维人员,缺少行之有效的自动化方法。
针对上述数据中台运维的痛点问题,本发明提出了一种基于马尔可夫模型的数据中台运行故障预测方法。马尔可夫模型是一个双重随机过程,该过程分为马尔可夫链和观测过程,在第一个随机过程中,马尔可夫链用于描述不同状态之间的转化过程,该随机过程一般由转移概率矩阵来描述;观测过程作为马尔可夫模型的第二个随机过程,主要用来描述状态序列和观测序列之间的关系,该随机过程由观察值概率矩阵描述。本发明方法基于马尔可夫模型对数据中台运行进行故障预测,该方法不仅可以对数据中台进行快速故障诊断,同时还可以对***状态主动预警。
发明内容
本发明为了解决数据中台运维工作中巡检繁琐、工作量大、风险不易被发现、数据中台故障诊断困难、对运维人员经验依赖严重等一系列问题,提出了一种基于马尔可夫模型的数据中台运行故障预测方法,该方法不仅可以对数据中台进行快速故障诊断,同时还可以对***状态主动预警。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于马尔可夫模型的数据中台运行故障预测方法,包括如下方法步骤:
步骤A:量化运行状态
结合电网营销、设备、人资和运检相关业务需求和数据中台应用组件架构体系两方面,完成数据中台各类故障、组件状态和故障影响范围的梳理和基础数据采集,利用数学模型完成数据分层、分类和关系梳理,构建数据中台运行的量化评价体系,利用量化数据客观地对***潜在风险进行提示,衡量数据中台健康状态,所述的数据中台运行的量化评价体系包括“业务故障现象”、“组件故障现象”、“关键运行指标”、“关键运行状态”、“运维对象”和“影响范围”六层数据中台运行状态量化评价体系;
步骤B:故障诊断模型制定
为快速定位数据中台各类故障,利用评价体系数据和组件关联关系,构建故障诊断概率数学模型,并基于马尔可夫链进行概率验证和优化,提升故障诊断准确度,在数据中台发生故障后,输入故障数据可快速筛查排查组件顺序,为恢复数据服务提升效率,根据六层状态评价体系模型中的关联关系,以及电力数据中台运维积累数据,定义各层关联间的概率,由此,在发生了第一层业务故障后,可以根据各层关联走向和概率分布,快速筛查第五层运维对象引发故障的排查顺序,同时可以同步预警第六层对应影响范围,模型算法如下:
Figure RE-GDA0003940247170000021
式中,
Figure RE-GDA0003940247170000022
代表运维对象yj发生运行问题导致业务故障xi发生的概率;
Figure RE-GDA0003940247170000023
代表组件故障cn发生导致业务故障xi发生的概率;
Figure RE-GDA0003940247170000024
代表指标tk异常导致组件故障cn发生的概率;
Figure RE-GDA0003940247170000025
代表状态Sm异常导致指标tk异常的概率;
Figure RE-GDA0003940247170000026
代表运维对象yj发生运行问题导致状态Sm发生异常的概率,
X为业务故障,C为组件故障Component Fault,T为指标Target,S为状态Status,Y为运维对象,业务故障、组件故障、关键运行指标、关键运行状态和运维对象的个数分别为m、n、k、l、r,i=1…m,N=1…n,K=1…k,L=1…l,j=1…r,模型中,各节点的关联关系概率均为运维数据积累,为提升模型准确度,引入马尔可夫模型对随机状态转化概率进行优化;
步骤C:预警模式优化
基于数据中台评价体系和故障诊断模型,摒弃单一阈值预警运维模式,通过算法动态判断***异常状态,采用关联动态阈值替代简单阈值设定报警门限,降低数据中台运行风险,基于隐马尔可夫的数据中台故障诊断模型,提出了数据中台主动运维模式,分别从主动预警、主动学习和主动反馈三方面构建。
而且,所述的第一层业务故障现象,定义电网各类业务需求和各类业务事故,本层状态为数据中台用户最为直观感受状态,为数据中台运营运维起点;第二层组件故障现象,定义电力数据中台各组件常见故障,本层各类故障的发生同步会引起第一层的业务故障,本状态层是数据中台运维人员的平台运维的起点;第三层关键组件指标,定义电力数据中台各组件关键运行指标参数,本层的指标异常会引起第二层组件故障的发生,本状态层是日常巡检和故障诊断的关键层;第四层关键组件状态值,定义电力数据中台各底层组件的运行参数,本层状态信息影响着第三层组件指标的运行情况,本层的状态异常是上层各类运行故障的根本原因;第五层运维对象,定义电力数据中台各组件的底层运维主体,本层是数据中台底座的基础;第六层影响范围,和第一层业务含义相同,但是还未发生的业务故障,是第五层运维对象发生异常后可能引发的业务故障,该层是主动运维提前干预的业务范围。
而且,所述的电力诊断模型优化过程从两方面出发,一是根据模型预测验证回馈对原模型中的关联关系间基础概率进行迭代;二是基于隐马尔可夫链对诊断模型进行验证和概率优化,当利用马尔可夫模型进行电力数据中台故障预测时,首先需要选择六层状态评价体系中一条故障路径,该路径中第五层运维对象也就是故障的真实原因主体可定义为故障i,随后选取任意一条路径n作为研究对象,计算线路n发生初始故障的概率P,在经过一系列的条件判断之后,计算线路n的综合状态转移概率,随后,将该计算结果代入马尔可夫链的预测模型中,计算线路故障概率,通过计算进行比较,选出故障概率值最大的路径作为当前路径的下一级故障路径,通过不断重复上述预测过程,选出最大概率值所对应的路径,利用这种方式,对每条路径发生故障的概率进行综合分析和评价。
而且,在主动预警方面,由于故障诊断模型是基于六层状态评价体系自上而下的被动定位,在主动运维模式下,数据中台基于六层评价体系自下而上的巡检,在发现“运维对象”相关“关键运行状态”和“关键运行指标”异常后,提前进行预警干预,避免出现数据中台组件故障,进而导致业务故障,保证数据中台服务质量。
而且,在主动学习方面,基于故障模型定位,在完成故障排查后,将故障相关的数据样本、影响范围及处理方法等存入故障知识库,然后进行标注,当数据中台运行指标与标注后的历史指标特征相近时,***可直接匹配历史故障进行告警,并匹配相应的处理办法,指导故障的解决和恢复。通过这种主动学习的方式,运维经验可实现在整个运维团队之间传递,从而保证运维标准的统一。
而且,在主动反馈方面,设计并实现“电力数据中台运维图谱”在线故障诊断工具,辅助人工故障排查,建立故障数据特征知识库,优化数据中台运维效率的同时,提升运维人员运维素质。
本发明的优点和积极效果是:
本发明涉及一种数据中台基于马尔可夫模型预测平台运行故障方法,首先提出六层***运行工状态量化评价体系,构建“业务故障现象”、“组件故障现象”、“关键运行指标”、“关键运行状态”、“运维对象”和“影响范围”六层数据中台运行状态量化评价体系;然后基于上述状态指标建立故障诊断模型,并借助隐马尔可夫进行模型优化,辅助数据中台运维人员快速定位故障,提升运维效率;最后设计并实现在线故障诊断定位***。
本发明基于隐马尔可夫模型的数据中台故障诊断***,以天津电力数据中台六层运行状态量化评价体系和主动运维模式为基础,在天津电力公数据中台运维过程中发挥了较好的效果。一方面,可以快速定位天津电力数据中台故障排查主体;另一方面,基于故障诊断模型和主动运维模型,可以做到天津电力数据中台运行风险主动预警和故障快速处理。
附图说明
图1为本发明基于马尔可夫模型预测平台运行故障检测流程图;
图2为本发明六层运行状态量化评价体系图;
图3为本发明马尔可夫模型关系图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
本发明提供一种基于马尔可夫模型的数据中台运行故障预测方法,包括如下方法步骤:
步骤A:量化运行状态
结合电网营销、设备、人资和运检等业务需求和数据中台应用组件架构体系两方面,完成数据中台各类故障、组件状态和故障影响范围的梳理和基础数据采集,利用数学模型完成数据分层、分类和关系梳理,构建数据中台运行的量化评价体系,利用量化数据客观地对***潜在风险进行提示,衡量数据中台健康状态。
结合电网数字应用业务实际和天津电力数据中台技术架构,构建了“业务故障现象”、“组件故障现象”、“关键运行指标”、“关键运行状态”、“运维对象”和“影响范围”六层数据中台运行状态量化评价体系,该体系如图2所示。
第一层:业务故障现象,定义电网各类业务需求和各类业务事故,本层状态为数据中台用户最为直观感受状态,为数据中台运营运维起点。
第二层:组件故障现象,定义电力数据中台各组件常见故障,本层各类故障的发生同步会引起第一层的业务故障,本状态层是数据中台运维人员的平台运维的起点。
第三层:关键组件指标,定义天津电力数据中台各组件关键运行指标参数,本层的指标异常会引起第二层组件故障的发生,本状态层是日常巡检和故障诊断的关键层。
第四层:关键组件状态值,定义电力数据中台各底层组件的运行参数,本层状态信息影响着第三层组件指标的运行情况,本层的状态异常是上层各类运行故障的根本原因。
第五层:运维对象,定义电力数据中台各组件的底层运维主体,本层是数据中台底座的基础。
第六层:影响范围,和第一层业务含义相同,但是还未发生的业务故障,是第五层运维对象发生异常后可能引发的业务故障,该层是主动运维提前干预的业务范围。
步骤B:故障诊断模型制定
为快速定位数据中台各类故障,利用评价体系数据和组件关联关系,构建故障诊断概率数学模型,并基于马尔可夫链进行概率验证和优化,提升故障诊断准确度。在数据中台发生故障后,输入故障数据可快速筛查排查组件顺序,为恢复数据服务提升效率。
根据六层状态评价体系模型中的关联关系,以及电力数据中台运维积累数据,定义各层关联间的概率。由此,在发生了第一层业务故障后,可以根据各层关联走向和概率分布,快速筛查第五层运维对象引发故障的排查顺序,同时可以同步预警第六层对应影响范围,模型算法总结如下:
Figure RE-GDA0003940247170000051
式中,
Figure RE-GDA0003940247170000052
代表运维对象yj发生运行问题导致业务故障xi发生的概率;
Figure RE-GDA0003940247170000053
代表组件故障cn发生导致业务故障xi发生的概率;
Figure RE-GDA0003940247170000054
代表指标tk异常导致组件故障cn发生的概率;
Figure RE-GDA0003940247170000055
代表状态Sm异常导致指标tk异常的概率;
Figure RE-GDA0003940247170000056
代表运维对象yj发生运行问题导致状态Sm发生异常的概率。
X为业务故障,C为组件故障(Component Fault),T为指标(Target),S为状态(Status), Y为运维对象。业务故障、组件故障、关键运行指标、关键运行状态和运维对象的个数分别为m、n、k、l、r,i=1…m,N=1…n,K=1…k,L=1…l,j=1…r
模型中,各节点的关联关系概率均为运维数据积累,为提升模型准确度,引入马尔可夫模型对随机状态转化概率进行优化。马尔可夫模型的原理示意如图3所示。
电力诊断模型优化过程从两方面出发,一是根据模型预测验证回馈对原模型中的关联关系间基础概率进行迭代;二是基于隐马尔可夫链对诊断模型进行验证和概率优化。
当利用马尔可夫模型进行电力数据中台故障预测时,首先需要选择六层状态评价体系中一条故障路径,该路径中第五层运维对象也就是故障的真实原因主体可定义为故障i。随后选取任意一条路径n作为研究对象,计算线路n发生初始故障的概率P。在经过一系列的条件判断之后,计算线路n的综合状态转移概率。随后,将该计算结果代入马尔可夫链的预测模型中,计算线路故障概率。通过计算进行比较,选出故障概率值最大的路径作为当前路径的下一级故障路径。通过不断重复上述预测过程,选出最大概率值所对应的路径,利用这种方式,对每条路径发生故障的概率进行综合分析和评价。
步骤C:预警模式优化
基于数据中台评价体系和故障诊断模型,摒弃单一阈值预警运维模式,通过算法动态判断***异常状态,采用关联动态阈值替代简单阈值设定报警门限,降低数据中台运行风险。
基于隐马尔可夫的数据中台故障诊断模型,提出了数据中台主动运维模式,分别从主动预警、主动学习和主动反馈三方面构建。
在主动预警方面,由于故障诊断模型是基于六层状态评价体系自上而下的被动定位,在主动运维模式下,数据中台基于六层评价体系自下而上的巡检,在发现“运维对象”相关“关键运行状态”和“关键运行指标”异常后,提前进行预警干预,避免出现数据中台组件故障,进而导致业务故障,保证数据中台服务质量。
在主动学习方面,基于故障模型定位,在完成故障排查后,将故障相关的数据样本、影响范围及处理方法等存入故障知识库,然后进行标注。当数据中台运行指标与标注后的历史指标特征相近时,***可直接匹配历史故障进行告警,并匹配相应的处理办法,指导故障的解决和恢复。通过这种主动学习的方式,运维经验可实现在整个运维团队之间传递,从而保证运维标准的统一。
在主动反馈方面,设计并实现“电力数据中台运维图谱”(在线故障诊断工具),辅助人工故障排查,建立故障数据特征知识库,优化数据中台运维效率的同时,提升运维人员运维素质。
本发明涉及一种数据中台基于马尔可夫模型预测平台运行故障方法,首先提出六层***运行工状态量化评价体系,构建“业务故障现象”、“组件故障现象”、“关键运行指标”、“关键运行状态”、“运维对象”和“影响范围”六层数据中台运行状态量化评价体系;然后基于上述状态指标建立故障诊断模型,并借助隐马尔可夫进行模型优化,辅助数据中台运维人员快速定位故障,提升运维效率;最后设计并实现在线故障诊断定位***。
基于马尔可夫模型的数据中台故障诊断***,***以天津电力数据中台六层运行状态量化评价体系和主动运维模式为基础,在天津电力公数据中台运维过程中发挥了较好的效果。一方面,可以快速定位天津电力数据中台故障排查主体;另一方面,基于故障诊断模型和主动运维模型,可以做到天津电力数据中台运行风险主动预警和故障快速处理。
尽管为说明目的公开了本发明的实施例,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例所公开的内容。

Claims (6)

1.一种基于马尔可夫模型的数据中台运行故障预测方法,其特征在于:包括如下方法步骤:
步骤A:量化运行状态
结合电网营销、设备、人资和运检相关业务需求和数据中台应用组件架构体系两方面,完成数据中台各类故障、组件状态和故障影响范围的梳理和基础数据采集,利用数学模型完成数据分层、分类和关系梳理,构建数据中台运行的量化评价体系,利用量化数据客观地对***潜在风险进行提示,衡量数据中台健康状态,所述的数据中台运行的量化评价体系包括“业务故障现象”、“组件故障现象”、“关键运行指标”、“关键运行状态”、“运维对象”和“影响范围”六层数据中台运行状态量化评价体系;
步骤B:故障诊断模型制定
为快速定位数据中台各类故障,利用评价体系数据和组件关联关系,构建故障诊断概率数学模型,并基于马尔可夫链进行概率验证和优化,提升故障诊断准确度,在数据中台发生故障后,输入故障数据可快速筛查排查组件顺序,为恢复数据服务提升效率,根据六层状态评价体系模型中的关联关系,以及电力数据中台运维积累数据,定义各层关联间的概率,由此,在发生了第一层业务故障后,可以根据各层关联走向和概率分布,快速筛查第五层运维对象引发故障的排查顺序,同时可以同步预警第六层对应影响范围,模型算法如下:
Figure RE-FDA0003940247160000011
式中,
Figure RE-FDA0003940247160000012
代表运维对象yj发生运行问题导致业务故障xi发生的概率;
Figure RE-FDA0003940247160000013
代表组件故障cn发生导致业务故障xi发生的概率;
Figure RE-FDA0003940247160000014
代表指标tk异常导致组件故障cn发生的概率;
Figure RE-FDA0003940247160000015
代表状态Sm异常导致指标tk异常的概率;
Figure RE-FDA0003940247160000016
代表运维对象yj发生运行问题导致状态Sm发生异常的概率,
X为业务故障,C为组件故障Component Fault,T为指标Target,S为状态Status,Y为运维对象,业务故障、组件故障、关键运行指标、关键运行状态和运维对象的个数分别为m、n、k、l、r,i=1…m,N=1…n,K=1…k,L=1…l,j=1…r,模型中,各节点的关联关系概率均为运维数据积累,为提升模型准确度,引入马尔可夫模型对随机状态转化概率进行优化;
步骤C:预警模式优化
基于数据中台评价体系和故障诊断模型,摒弃单一阈值预警运维模式,通过算法动态判断***异常状态,采用关联动态阈值替代简单阈值设定报警门限,降低数据中台运行风险,基于隐马尔可夫的数据中台故障诊断模型,提出了数据中台主动运维模式,分别从主动预警、主动学习和主动反馈三方面构建。
2.根据权利要求1所述的一种基于马尔可夫模型的数据中台运行故障预测方法,其特征在于:所述的第一层业务故障现象,定义电网各类业务需求和各类业务事故,本层状态为数据中台用户最为直观感受状态,为数据中台运营运维起点;第二层组件故障现象,定义电力数据中台各组件常见故障,本层各类故障的发生同步会引起第一层的业务故障,本状态层是数据中台运维人员的平台运维的起点;第三层关键组件指标,定义电力数据中台各组件关键运行指标参数,本层的指标异常会引起第二层组件故障的发生,本状态层是日常巡检和故障诊断的关键层;第四层关键组件状态值,定义电力数据中台各底层组件的运行参数,本层状态信息影响着第三层组件指标的运行情况,本层的状态异常是上层各类运行故障的根本原因;第五层运维对象,定义电力数据中台各组件的底层运维主体,本层是数据中台底座的基础;第六层影响范围,和第一层业务含义相同,但是还未发生的业务故障,是第五层运维对象发生异常后可能引发的业务故障,该层是主动运维提前干预的业务范围。
3.根据权利要求1所述的一种基于马尔可夫模型的数据中台运行故障预测方法,其特征在于:所述的电力诊断模型优化过程从两方面出发,一是根据模型预测验证回馈对原模型中的关联关系间基础概率进行迭代;二是基于隐马尔可夫链对诊断模型进行验证和概率优化,当利用马尔可夫模型进行电力数据中台故障预测时,首先需要选择六层状态评价体系中一条故障路径,该路径中第五层运维对象也就是故障的真实原因主体可定义为故障i,随后选取任意一条路径n作为研究对象,计算线路n发生初始故障的概率P,在经过一系列的条件判断之后,计算线路n的综合状态转移概率,随后,将该计算结果代入马尔可夫链的预测模型中,计算线路故障概率,通过计算进行比较,选出故障概率值最大的路径作为当前路径的下一级故障路径,通过不断重复上述预测过程,选出最大概率值所对应的路径,利用这种方式,对每条路径发生故障的概率进行综合分析和评价。
4.根据权利要求1所述的一种基于马尔可夫模型的数据中台运行故障预测方法,其特征在于:在主动预警方面,由于故障诊断模型是基于六层状态评价体系自上而下的被动定位,在主动运维模式下,数据中台基于六层评价体系自下而上的巡检,在发现“运维对象”相关“关键运行状态”和“关键运行指标”异常后,提前进行预警干预,避免出现数据中台组件故障,进而导致业务故障,保证数据中台服务质量。
5.根据权利要求1所述的一种基于马尔可夫模型的数据中台运行故障预测方法,其特征在于:在主动学习方面,基于故障模型定位,在完成故障排查后,将故障相关的数据样本、影响范围及处理方法等存入故障知识库,然后进行标注,当数据中台运行指标与标注后的历史指标特征相近时,***可直接匹配历史故障进行告警,并匹配相应的处理办法,指导故障的解决和恢复。通过这种主动学习的方式,运维经验可实现在整个运维团队之间传递,从而保证运维标准的统一。
6.根据权利要求1所述的一种基于马尔可夫模型的数据中台运行故障预测方法,其特征在于:在主动反馈方面,设计并实现“电力数据中台运维图谱”在线故障诊断工具,辅助人工故障排查,建立故障数据特征知识库,优化数据中台运维效率的同时,提升运维人员运维素质。
CN202210882372.6A 2022-07-26 2022-07-26 一种基于马尔可夫模型的数据中台运行故障预测方法 Pending CN115496233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210882372.6A CN115496233A (zh) 2022-07-26 2022-07-26 一种基于马尔可夫模型的数据中台运行故障预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210882372.6A CN115496233A (zh) 2022-07-26 2022-07-26 一种基于马尔可夫模型的数据中台运行故障预测方法

Publications (1)

Publication Number Publication Date
CN115496233A true CN115496233A (zh) 2022-12-20

Family

ID=84467193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210882372.6A Pending CN115496233A (zh) 2022-07-26 2022-07-26 一种基于马尔可夫模型的数据中台运行故障预测方法

Country Status (1)

Country Link
CN (1) CN115496233A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245357A (zh) * 2023-01-31 2023-06-09 南京工大金泓能源科技有限公司 一种数智节能柜故障诊断方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245357A (zh) * 2023-01-31 2023-06-09 南京工大金泓能源科技有限公司 一种数智节能柜故障诊断方法及***
CN116245357B (zh) * 2023-01-31 2023-09-22 南京工大金泓能源科技有限公司 一种数智节能柜故障诊断方法及***

Similar Documents

Publication Publication Date Title
Lv et al. Safety poka yoke in zero-defect manufacturing based on digital twins
WO2022228049A1 (zh) 基于5g边缘计算和深度学习的航空发动机故障诊断方法
CN110703057B (zh) 基于数据增强和神经网络的电力设备局部放电诊断方法
CN108873859B (zh) 基于改进关联规则的桥式抓斗卸船机故障预测模型方法
CN110705710A (zh) 一种基于知识图谱的工业故障分析专家***
WO2023142424A1 (zh) 基于gru-lstm神经网络的电力金融业务风控方法及***
CN108398934B (zh) 一种用于轨道交通的设备故障监控的***
CN111124852A (zh) 一种基于bmc健康管理模块的故障预测方法及***
CN108920609A (zh) 基于多维度分析的电力实验数据挖掘方法
CN111915026A (zh) 故障处理方法、装置、电子设备及存储介质
Wenner et al. The concept of digital twin to revolutionise infrastructure maintenance: The pilot project smartBRIDGE Hamburg
CN115496233A (zh) 一种基于马尔可夫模型的数据中台运行故障预测方法
CN114004262A (zh) 一种齿轮箱轴承故障检测方法及***
JP2024073353A (ja) 水力発電ユニットの故障総合診断方法
Thalmann et al. Cognitive decision support for industrial product life cycles: A position paper
CN117689373A (zh) 一种柔性直流牵引供电***能量路由器维护决策支持方法
CN117557127A (zh) 电网调度***支撑平台可靠性评估方法、***及存储介质
CN113094826A (zh) 一种基于任务可靠度的多态制造***剩余寿命预测方法
CN116992346A (zh) 一种基于人工智能大数据分析的企业生产数据处理***
CN117333038A (zh) 一种基于大数据的经济趋势分析***
CN114897262A (zh) 一种基于深度学习的轨道交通设备故障预测方法
CN115600695A (zh) 一种计量设备的故障诊断方法
CN115297016A (zh) 一种基于深度学习的电力网络活跃度评价和预测方法
Wenner et al. smartBRIDGE Hamburg: A digital twin to optimise infrastructure maintenance
CN114818460A (zh) 基于自动机器学习的实验室设备剩余使用寿命预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination