CN116594801A - 一种大数据云计算的故障分析*** - Google Patents

一种大数据云计算的故障分析*** Download PDF

Info

Publication number
CN116594801A
CN116594801A CN202310575607.1A CN202310575607A CN116594801A CN 116594801 A CN116594801 A CN 116594801A CN 202310575607 A CN202310575607 A CN 202310575607A CN 116594801 A CN116594801 A CN 116594801A
Authority
CN
China
Prior art keywords
fault
cloud computing
index
data
evaluation index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202310575607.1A
Other languages
English (en)
Inventor
李超宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202310575607.1A priority Critical patent/CN116594801A/zh
Publication of CN116594801A publication Critical patent/CN116594801A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明公开了一种大数据云计算的故障分析***,具体涉及云计算故障分析技术领域,包括数据动态采集单元,用于对当前云计算***处于运行状态进行动态监测,获取本监测周期内的监测记录,并形成运行动态数据图表;故障标记单元,用于获取运行动态数据三维模型并确认云计算出现的故障特征并进行标记;硬件故障分析单元,用于对云计算所关联目标物理机的运行环境进行扫描,获取目标物理机运行源数据,并分析源数据存在的故障数据特征,形成故障特征环境指数,本发明通过获取相关性权重α后,将故障特征环境指数和操作评估指数进行相关联,获得优化系数Y,实现云计算环境中故障的自动检测与预警,提高了云计算***对故障的感知能力。

Description

一种大数据云计算的故障分析***
技术领域
本发明涉及云计算故障分析技术领域,更具体地说,本发明涉及一种大数据云计算的故障分析***。
背景技术
云计算是指通过网络云计算将庞大的数据计算处理程序分解成为无数个小程序,然后通过多个服务组件组成***进行处理和分析并将得到的结果进行反馈至用户,简单来说就是将计算任务分发至云计算,完成分布式计算后进行结果汇总合并,提高了庞大的数据处理问题,提高数据处理效率。
教育云是“云计算技术”的转移在教育领域中的运用,包含了教育信息化所必需的任何硬件计算资源,这类网络资源经虚拟化技术以后,向教育培训机构、从业者和学***台。在现有的技术中,在大数据云计算的条件下,由于云计算的协作模式、计算结构的变化,***故障的类型也在增多,故障处理时长增加,云计算的处理效率无法得到提高,此外很容易发生计算错误。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种大数据云计算的故障分析***,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种大数据云计算的故障分析***,其特征在于,包括:
数据动态采集单元,用于对当前云计算***处于运行状态进行动态监测,获取本监测周期内的监测记录,并形成运行动态数据图表;
故障标记单元,用于获取运行动态数据三维模型并确认云计算出现的故障特征并进行标记;
硬件故障分析单元,用于对云计算所关联目标物理机的运行环境进行扫描,获取目标物理机运行源数据,并分析源数据存在的故障数据特征,形成故障特征环境指数,与预设阈值进行对比,获得不同的故障特征环境数据集并分别进行标记;
操作故障分析单元,用于对云计算的所有用户进行操作安全评估,形成操作评估指数,并与预设操作评估指数阈值进行对比,判断是否超出预设操作评估指数阈值,若超出操作评估指数阈值,则对异常因素进行标记;
故障关联单元,用于将故障特征环境指数与操作评估指数进行关联,形成云计算故障分析指数;
故障优化单元,用于获取云计算故障分析指数,确认***发生故障的原因进行针对性优化,自适应方法或发出人工预警进行优化,
所述故障优化系数公式符合通过如下公式进行优化:
式中α为相关性权重系数,为故障特征环境指数和操作评估指数之间的相关性系数,通过获取若干组故障特征环境指数和操作评估指数相关性分析获得。
优选的,所述数据动态采集单元获取云计算所关联的物理机运行环境数据及云计算程序资源信息,并对目标物理的运行情况进行实时记录,形成运行动态数据表,获取运行动态数据表并形成运行动态数据三维模型并上传至存储设备中。
优选的,所述故障标记单元以8小时为一个监测周期,对目标物理产生的故障特征进行标记,并依据产生的故障的时间点,将故障特征、对应的物理机故障硬件信息及故障记录进行对应,判断在本检测周期内产生的故障是否为新的故障,如果为新的故障,则标记为计算异常,并形成异常数据库。
优选的,所述硬件故障分析单元包括硬件运行速率分析模块、故障数据处理模块及故障数据对比模块,
所述硬件运行速率分析模块在云计算运行时,确定目标物理机的云计算处理速率Ys;处理速率越低,低于相应的阈值后则说明云计算出现的异常,在单位监测时间内,云计算处理速度变低本身就为异常,所述云计算处理速率Ys、符合如下表达式:
式中Wv表示目标物理机进行云计算速度,Wt表示目标物理机的运行温度,Sj表示单位监测周期,其中Sj=8h。
优选的,所述硬件故障分析单元还包括故障数据对比模块,所述故障数据对比模块将故障特征环境指数与预设故障特征环境指数阈值进行对比,若低于预设故障特征环境指数阈值,则说明目标物理机暂无异常,若高于预设故障特征环境指数阈值则判断运行温度、硬件资源使用率及云计算处理速度中是否出现影响,并对出现的异常进行优化处理。
优选的,所述操作故障分析单元包括操作运行分析模块、程序性能对比模块,
所述操作运行分析模块在本单位监测周期内,从用户登录云计算***出现异常开始至异常结束,统计云计算数据丢失比例Dl;
定期对云计算***进行监测,示例性的,对云计算***的数据监测,确定出现数据异常次数Yc并确定用户操作不当次数占比Cb;
将数据丢失比例Dl、数据异常次数Yc及操作不当次数占比Cb进行无纲量化处理,形成云计算***的操作评估指数Cp,所述操作评估指数Cp的判断公式如下:
其中0≤μ1≤1,0≤μ2≤1,且μ1 22 2=1,μ1及μ2为可变更常数参数,lnE为可变更修正系数,由管理人员依据实际情况进行调整。
所述程序性能对比模块将操作评估指数与预设操作评估指数阈值进行对比,若低于预设操作评估指数阈值,则说明云计算程序运行暂无异常,若高于预设操作评估指数阈值则判断其他子因素是否出现异常,并对出现的异常进行针对性优化处理。
优选的,所述故障关联单元将监测周期按时间延伸的方向做等距离划分并标记为i=1、2、...、t-1、t,分别获得故障特征环境指数和操作评估指数;
将故障特征环境指数和操作评估指数进行归一化处理并关联后形成云计算故障分析指数,所述云计算故障分析指数Fx的表达式如下公式:
其中0<λ1≤1,0<λ2≤1,λ1 22 2=1,
其中λ1及λ2为权重系数,具体值可由管理人员调整,通过Fx(G,C)对云计算***进行故障原因进行综合分析。
优选的,所述故障优化单元获取云计算故障分析指数与预设云计算故障分析指数进行对比,判断是否高预设云计算故障分析指数阈值,如果不低于预设云计算故障分析指数阈值,则说明云计算存在需要处理的故障,判断故障特征环境指数和操作评估指数是否存在异常,若故障特征环境指数和操作评估指数通过异常标记追溯异常子因素并进行故障优化,所述故障优化系数公式符合通过如下公式进行优化:
式中α为相关性权重系数,为故障特征环境指数和操作评估指数之间的相关性系数,通过获取若干组故障特征环境指数和操作评估指数相关性分析获得,
将发生故障的子因素进行优化后,再进行迭达监测,若发现出现同样的计算异常则向外部发出预警,提示管理人员进行维护。
优选的,一种大数据云计算的故障分析方法,包括如下步骤:
步骤100、对当前云计算***处于运行状态进行动态监测,获取本监测周期内的监测记录,并形成运行动态数据图表;
步骤200、获取运行动态数据三维模型并确认云计算出现的故障特征并进行标记;
步骤300、硬件故障分析单元,用于对云计算所关联目标物理机的运行环境进行扫描,获取目标物理机运行源数据,并分析源数据存在的故障数据特征,形成故障特征环境指数,与预设阈值进行对比,获得不同的故障特征环境数据集并分别进行标记;
步骤400、对云计算的所有用户进行操作安全评估,形成操作评估指数,并与预设操作评估指数阈值进行对比,判断是否超出预设操作评估指数阈值,若超出操作评估指数阈值,则对异常因素进行标记;
步骤500、将故障特征环境指数与操作评估指数进行关联,形成云计算故障分析指数;
步骤600、获取云计算故障分析指数,确认***发生故障的原因进行针对性优化,自适应方法或发出人工预警进行优化。
本发明的技术效果和优点:
本发明通过获取相关性权重α后,将故障特征环境指数和操作评估指数进行相关联,获得优化系数Y,通过获取优化系数Y能够进一步对云计算***出现的异常进行优化,将发生故障的子因素进行优化后,再进行迭达监测,若发现出现同样的计算异常则向外部发出预警,提示管理人员进行维护提高云计算数据处理的正确性,实现云计算环境中故障的自动检测与预警,提高了云计算***对故障的感知能力。
附图说明
图1为本发明的***结构框图。
图2为本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1-2所示,本实施例提供了一种大数据云计算的故障分析***,包括
数据动态采集单元,用于对当前云计算***处于运行状态进行动态监测,获取本监测周期内的监测记录,并形成运行动态数据图表;
本实施例中,需要具体说明的是所述数据动态采集单元获取云计算所关联的物理机运行环境数据及云计算程序资源信息,所述运行环境数据包括运行温度、硬件资源使用率及云计算处理速度等,并对目标物理的运行情况进行实时记录,形成运行动态数据表,获取运行动态数据表并形成运行动态数据三维模型并上传至存储设备中。
本实施例中,通过将运行动态数据表进行存储,在云计算发生故障时,能够对目标物理的运行环境数据进行检查追溯,确定是否由于目标物理机的运行环境不正常产生的云计算故障问题。
故障标记单元,用于获取运行动态数据三维模型并确认云计算出现的故障特征并进行标记;
本实施例中,需要具体说明的是所述故障标记单元以8小时为一个监测周期,对目标物理产生的故障特征进行标记,并依据产生的故障的时间点,将故障特征、对应的物理机故障硬件信息及故障记录进行对应,判断在本检测周期内产生的故障是否为新的故障,如果为新的故障,则标记为计算异常,并形成异常数据库。
本实施例中通过对云计算所对应的目标物理机进行监测,将故障特征及对应的故障硬件信息及故障记录进行对应,便于对物理机进行硬件异常的追溯,有利于在产生故障时,能够快速的对目标物理机进行检查,确定云计算故障是否与目标物理机的硬件故障有关。
硬件故障分析单元,用于对云计算所关联目标物理机的运行环境进行扫描,获取目标物理机运行源数据,并分析源数据存在的故障数据特征,形成故障特征环境指数,与预设阈值进行对比,获得不同的故障特征环境数据集并分别进行标记,
本实施例中,需要具体说明的是所述硬件故障分析单元包括硬件运行速率分析模块、故障数据处理模块及故障数据对比模块,
所述硬件运行速率分析模块在云计算运行时,确定目标物理机的云计算处理速率Ys;处理速率越低,低于相应的阈值后则说明云计算出现的异常,在单位监测时间内,云计算处理速度变低本身就为异常,所述云计算处理速率Ys、符合如下表达式:
式中Wv表示目标物理机进行云计算速度,Wt表示目标物理机的运行温度,Sj表示单位监测周期,其中Sj=8h。
所述故障数据处理模块将运行温度Wt、硬件资源使用率Wz及云计算处理速度Ys进行无纲量化处理后,综合形成故障特征环境指数,所述故障特征环境指数Gt符合如下表达式:
其中0≤σ1≤0.86,0≤σ2≤0.95,0≤σ3≤0.92,且σ123=1.21,
σ1、σ2及σ2为可变更常数参数,lnF为硬件资源使用率及云计算处理速度之间的相关性系数,通过相关性模型计算得出。
所述故障数据对比模块将故障特征环境指数与预设故障特征环境指数阈值进行对比,若低于预设故障特征环境指数阈值,则说明目标物理机暂无异常,若高于预设故障特征环境指数阈值则判断运行温度、硬件资源使用率及云计算处理速度中是否出现影响,并对出现的异常进行优化处理。
本实施例中,通过将运行温度、硬件资源使用率及云计算处理速度进行关联,并根据相关性模型进行调整综合确定云计算的目标物理机是否存在硬件运行异常问题,便于***的自我优化或通过管理人员依据故障特征环境指数进行针对性优化修复。
操作故障分析单元,用于对云计算的所有用户进行操作安全评估,形成操作评估指数,并与预设操作评估指数阈值进行对比,判断是否超出预设操作评估指数阈值,若超出操作评估指数阈值,则对异常因素进行标记;
本实施例中,需要具体说明的是所述操作故障分析单元包括操作运行分析模块、程序性能对比模块,
所述操作运行分析模块在本单位监测周期内,从用户登录云计算***出现异常开始至异常结束,统计云计算数据丢失比例Dl;
定期对云计算***进行监测,示例性的,对云计算***的数据监测,确定出现数据异常次数Yc并确定用户操作不当次数占比Cb;
将数据丢失比例Dl、数据异常次数Yc及操作不当次数占比Cb进行无纲量化处理,形成云计算***的操作评估指数Cp,所述操作评估指数Cp的判断公式如下:
其中0≤μ1≤1,0≤μ2≤1,且μ1 22 2=1,μ1及μ2为可变更常数参数,lnE为可变更修正系数,由管理人员依据实际情况进行调整。
所述程序性能对比模块将操作评估指数与预设操作评估指数阈值进行对比,若低于预设操作评估指数阈值,则说明云计算程序运行暂无异常,若高于预设操作评估指数阈值则判断其他子因素是否出现异常,并对出现的异常进行针对性优化处理。
故障关联单元,用于将故障特征环境指数与操作评估指数进行关联,形成云计算故障分析指数;
本实施例中,需要具体说明的是所述故障关联单元将监测周期按时间延伸的方向做等距离划分并标记为i=1、2、...、t-1、t,分别获得故障特征环境指数和操作评估指数;
将故障特征环境指数和操作评估指数进行归一化处理并关联后形成云计算故障分析指数,所述云计算故障分析指数Fx的表达式如下公式:
其中0<λ1≤1,0<λ2≤1,λ1 22 2=1,
其中λ1及λ2为权重系数,具体值可由管理人员调整,通过Fx(G,C)对云计算***进行故障原因进行综合分析。
所述故障优化单元,用于获取云计算故障分析指数,确认***发生故障的原因进行针对性优化,自适应方法或发出人工预警进行优化。
本实施例中,需要具体说明的是所述故障优化单元获取云计算故障分析指数与预设云计算故障分析指数进行对比,判断是否高预设云计算故障分析指数阈值,如果不低于预设云计算故障分析指数阈值,则说明云计算存在需要处理的故障,判断故障特征环境指数和操作评估指数是否存在异常,若故障特征环境指数和操作评估指数通过异常标记追溯异常子因素并进行故障优化,所述故障优化系数公式符合通过如下公式进行优化:
式中α为相关性权重系数,为故障特征环境指数和操作评估指数之间的相关性系数,通过获取若干组故障特征环境指数和操作评估指数相关性分析获得。
将发生故障的子因素进行优化后,再进行迭达监测,若发现出现同样的计算异常则向外部发出预警,提示管理人员进行维护。
请参阅图1-2所示,本实施例提供了一种大数据云计算的故障分析方法,包括如下步骤:
步骤100、对当前云计算***处于运行状态进行动态监测,获取本监测周期内的监测记录,并形成运行动态数据图表;
步骤200、获取运行动态数据三维模型并确认云计算出现的故障特征并进行标记;
步骤300、用于对云计算所关联目标物理机的运行环境进行扫描,获取目标物理机运行源数据,并分析源数据存在的故障数据特征,形成故障特征环境指数,与预设阈值进行对比,获得不同的故障特征环境数据集并分别进行标记;
步骤400、对云计算的所有用户进行操作安全评估,形成操作评估指数,并与预设操作评估指数阈值进行对比,判断是否超出预设操作评估指数阈值,若超出操作评估指数阈值,则对异常因素进行标记;
步骤500、将故障特征环境指数与操作评估指数进行关联,形成云计算故障分析指数;
步骤600、获取云计算故障分析指数,确认***发生故障的原因进行针对性优化,自适应方法或发出人工预警进行优化。
综上所述,通过获取相关性权重α后,将故障特征环境指数和操作评估指数进行相关联,获得优化系数Y,通过获取优化系数Y能够进一步对云计算***出现的异常进行优化,将发生故障的子因素进行优化后,再进行迭达监测,若发现出现同样的计算异常则向外部发出预警,提示管理人员进行维护提高云计算数据处理的正确性,实现云计算环境中故障的自动检测与预警,提高了云计算***对故障的感知能力。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
本申请一种大数据云计算的故障分析***的其他实施例或具体实施方式可参照上述方法实施例,此处不在赘述。
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种大数据云计算的故障分析***,其特征在于,包括:
数据动态采集单元,用于对当前云计算***处于运行状态进行动态监测,获取本监测周期内的监测记录,并形成运行动态数据图表;
故障标记单元,用于获取运行动态数据三维模型并确认云计算出现的故障特征并进行标记;
硬件故障分析单元,用于对云计算所关联目标物理机的运行环境进行扫描,获取目标物理机运行源数据,并分析源数据存在的故障数据特征,形成故障特征环境指数,与预设阈值进行对比,获得不同的故障特征环境数据集并分别进行标记;
操作故障分析单元,用于对云计算的所有用户进行操作安全评估,形成操作评估指数,并与预设操作评估指数阈值进行对比,判断是否超出预设操作评估指数阈值,若超出操作评估指数阈值,则对异常因素进行标记;
故障关联单元,用于将故障特征环境指数与操作评估指数进行关联,形成云计算故障分析指数;
故障优化单元,用于获取云计算故障分析指数,确认***发生故障的原因进行针对性优化,自适应方法或发出人工预警进行优化,
所述故障优化系数公式符合通过如下公式进行优化:
式中α为相关性权重系数,为故障特征环境指数和操作评估指数之间的相关性系数,通过获取若干组故障特征环境指数和操作评估指数相关性分析获得。
2.根据权利要求1所述的一种大数据云计算的故障分析***,其特征在于:所述数据动态采集单元获取云计算所关联的物理机运行环境数据及云计算程序资源信息,并对目标物理的运行情况进行实时记录,形成运行动态数据表,获取运行动态数据表并形成运行动态数据三维模型并上传至存储设备中。
3.根据权利要求1所述的一种大数据云计算的故障分析***,其特征在于:所述故障标记单元以8小时为一个监测周期,对目标物理产生的故障特征进行标记,并依据产生的故障的时间点,将故障特征、对应的物理机故障硬件信息及故障记录进行对应,判断在本检测周期内产生的故障是否为新的故障,如果为新的故障,则标记为计算异常,并形成异常数据库。
4.根据权利要求1所述的一种大数据云计算的故障分析***,其特征在于:所述硬件故障分析单元包括硬件运行速率分析模块、故障数据处理模块及故障数据对比模块,
所述硬件运行速率分析模块在云计算运行时,确定目标物理机的云计算处理速率Ys;处理速率越低,低于相应的阈值后则说明云计算出现的异常,在单位监测时间内,云计算处理速度变低本身就为异常,所述云计算处理速率Ys、符合如下表达式:
式中Wv表示目标物理机进行云计算速度,Wt表示目标物理机的运行温度,Sj表示单位监测周期,其中Sj=8h。
5.根据权利要求4所述的一种大数据云计算的故障分析***,其特征在于:所述硬件故障分析单元还包括故障数据对比模块,所述故障数据对比模块将故障特征环境指数与预设故障特征环境指数阈值进行对比,若低于预设故障特征环境指数阈值,则说明目标物理机暂无异常,若高于预设故障特征环境指数阈值则判断运行温度、硬件资源使用率及云计算处理速度中是否出现影响,并对出现的异常进行优化处理。
6.根据权利要求1所述的一种大数据云计算的故障分析***,其特征在于:所述操作故障分析单元包括操作运行分析模块、程序性能对比模块,
所述操作运行分析模块在本单位监测周期内,从用户登录云计算***出现异常开始至异常结束,统计云计算数据丢失比例Dl;
定期对云计算***进行监测,示例性的,对云计算***的数据监测,确定出现数据异常次数Yc并确定用户操作不当次数占比Cb;
将数据丢失比例Dl、数据异常次数Yc及操作不当次数占比Cb进行无纲量化处理,形成云计算***的操作评估指数Cp,所述操作评估指数Cp的判断公式如下:
其中0≤μ1≤1,0≤μ2≤1,且μ1 22 2=1,μ1及μ2为可变更常数参数,lnE为可变更修正系数,由管理人员依据实际情况进行调整。
所述程序性能对比模块将操作评估指数与预设操作评估指数阈值进行对比,若低于预设操作评估指数阈值,则说明云计算程序运行暂无异常,若高于预设操作评估指数阈值则判断其他子因素是否出现异常,并对出现的异常进行针对性优化处理。
7.根据权利要求1所述的一种大数据云计算的故障分析***,其特征在于:所述故障关联单元将监测周期按时间延伸的方向做等距离划分并标记为i=1、2、...、t-1、t,分别获得故障特征环境指数和操作评估指数;
将故障特征环境指数和操作评估指数进行归一化处理并关联后形成云计算故障分析指数,所述云计算故障分析指数Fx的表达式如下公式:
其中0<λ1≤1,0<λ2≤1,λ1 22 2=1,
其中λ1及λ2为权重系数,具体值可由管理人员调整,通过Fx(G,C)对云计算***进行故障原因进行综合分析。
8.根据权利要求1所述的一种大数据云计算的故障分析***,其特征在于:所述故障优化单元获取云计算故障分析指数与预设云计算故障分析指数进行对比,判断是否高预设云计算故障分析指数阈值,如果不低于预设云计算故障分析指数阈值,则说明云计算存在需要处理的故障,判断故障特征环境指数和操作评估指数是否存在异常,若故障特征环境指数和操作评估指数通过异常标记追溯异常子因素并进行故障优化,所述故障优化系数公式符合通过如下公式进行优化:
式中α为相关性权重系数,为故障特征环境指数和操作评估指数之间的相关性系数,通过获取若干组故障特征环境指数和操作评估指数相关性分析获得,
将发生故障的子因素进行优化后,再进行迭达监测,若发现出现同样的计算异常则向外部发出预警,提示管理人员进行维护。
9.一种大数据云计算的故障分析方法,其特征在于:包括如下步骤:
步骤100、对当前云计算***处于运行状态进行动态监测,获取本监测周期内的监测记录,并形成运行动态数据图表;
步骤200、获取运行动态数据三维模型并确认云计算出现的故障特征并进行标记;
步骤300、硬件故障分析单元,用于对云计算所关联目标物理机的运行环境进行扫描,获取目标物理机运行源数据,并分析源数据存在的故障数据特征,形成故障特征环境指数,与预设阈值进行对比,获得不同的故障特征环境数据集并分别进行标记;
步骤400、对云计算的所有用户进行操作安全评估,形成操作评估指数,并与预设操作评估指数阈值进行对比,判断是否超出预设操作评估指数阈值,若超出操作评估指数阈值,则对异常因素进行标记;
步骤500、将故障特征环境指数与操作评估指数进行关联,形成云计算故障分析指数;
步骤600、获取云计算故障分析指数,确认***发生故障的原因进行针对性优化,自适应方法或发出人工预警进行优化。
CN202310575607.1A 2023-05-22 2023-05-22 一种大数据云计算的故障分析*** Withdrawn CN116594801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310575607.1A CN116594801A (zh) 2023-05-22 2023-05-22 一种大数据云计算的故障分析***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310575607.1A CN116594801A (zh) 2023-05-22 2023-05-22 一种大数据云计算的故障分析***

Publications (1)

Publication Number Publication Date
CN116594801A true CN116594801A (zh) 2023-08-15

Family

ID=87611232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310575607.1A Withdrawn CN116594801A (zh) 2023-05-22 2023-05-22 一种大数据云计算的故障分析***

Country Status (1)

Country Link
CN (1) CN116594801A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117742963A (zh) * 2023-12-25 2024-03-22 国网山东省电力公司 一种数据模型调控管理方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117742963A (zh) * 2023-12-25 2024-03-22 国网山东省电力公司 一种数据模型调控管理方法及***
CN117742963B (zh) * 2023-12-25 2024-06-04 国网山东省电力公司 一种数据模型调控管理方法及***

Similar Documents

Publication Publication Date Title
CN107341098B (zh) 软件性能测试方法、平台、设备及存储介质
CN111444072A (zh) 客户端的异常识别方法、装置、计算机设备和存储介质
CN110489317B (zh) 基于工作流的云***任务运行故障诊断方法与***
CN116955092B (zh) 基于数据分析的多媒体***监控方法及***
CN110011990B (zh) 内网安全威胁智能分析方法
CN116594801A (zh) 一种大数据云计算的故障分析***
CN110874744A (zh) 一种数据异常检测方法及装置
CN114968727B (zh) 基于人工智能运维的数据库贯穿基础设施的故障定位方法
CN111176953A (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN115455429A (zh) 基于大数据的漏洞分析方法及***
CN115719283A (zh) 一种智能化会计管理***
CN115441456A (zh) 一种电网调度支持***故障诊断方法及装置
CN111651760A (zh) 一种设备安全状态综合分析的方法及计算机可读存储介质
CN114969163B (zh) 一种基于大数据的设备运维方法及***
CN113656452B (zh) 调用链指标异常的检测方法、装置、电子设备及存储介质
CN116248393A (zh) 一种内网数据传输漏洞扫描装置及***
CN112379656A (zh) 工业***异常数据的检测的处理方法、装置、设备和介质
CN117675280B (zh) 一种基于串口通信的网络安全预警方法及***
CN110727538A (zh) 一种基于模型命中概率分布的故障定位***及方法
WO2024027127A1 (zh) 故障检测方法、装置、电子设备及可读存储介质
CN116450632B (zh) 地理样本数据质量评估方法、设备及存储介质
CN112905479B (zh) 一种基于云平台报警事故根因最佳路径确定方法及***
CN117274110B (zh) 一种基于生成式人工智能与图神经网络的影像优化方法
CN113190844B (zh) 一种检测方法、相关方法及相关装置
CN115391084B (zh) 一种云游戏异常的智能解决方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230815