CN111475377A - 一种数据中心健康度的检测方法、***及存储介质 - Google Patents

一种数据中心健康度的检测方法、***及存储介质 Download PDF

Info

Publication number
CN111475377A
CN111475377A CN202010228287.9A CN202010228287A CN111475377A CN 111475377 A CN111475377 A CN 111475377A CN 202010228287 A CN202010228287 A CN 202010228287A CN 111475377 A CN111475377 A CN 111475377A
Authority
CN
China
Prior art keywords
data
maintenance
health degree
stability
data center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010228287.9A
Other languages
English (en)
Inventor
李晓文
李季龙
李世英
童荪
林兵
郭家溢
买吾浪江·艾依提
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unicom Guangdong Industrial Internet Co Ltd
Original Assignee
China Unicom Guangdong Industrial Internet Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unicom Guangdong Industrial Internet Co Ltd filed Critical China Unicom Guangdong Industrial Internet Co Ltd
Priority to CN202010228287.9A priority Critical patent/CN111475377A/zh
Publication of CN111475377A publication Critical patent/CN111475377A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种数据中心健康度的检测方法,包括以下步骤:获取数据中心的运维数据;确定运维数据的权重值;通过权重值以及运维数据生成数据中心健康度分值;根据数据中心健康度分值生成数据健康中心运维方案;该运维数据包括:告警数据、运维人员数据、数据中心参数、工单数据和应急数据,方法通过权重分配算法确定各类因素在数据中心健康度分值比重,最终生成数据中心的健康度,并以此为数据中心运维方案改进优化的依据;本发明的技术方案提供的全方位,多角度的数据健康度的检测方法,相较于现有技术的数据中心运维状况评估方法更加科学可靠,同时还具有较优的适配性,可广泛应用于数据中心运维技术领域。

Description

一种数据中心健康度的检测方法、***及存储介质
技术领域
本发明涉及数据中心运维技术领域,尤其是一种数据中心健康度的检测方法、***及存储介质。
背景技术
名词解释:
数据中心(简称IDC,Internet Data Center),其作用可以简单概况为是一个提供资源服务的基地。
数据中心健康度(简称:DCH,Date Center Health),为数据中心的一种重要的参考指标。
当前全球IT发展进入云时代,云计算已然成为新一代IT基础设施。因此近年来数据中心建设进入了一个规模爆发期,而数据中心承载的业务量一般都很大,其安全稳定运行是数据中心运营方和用户都最为看重的。如何评价一个数据中心可靠性,从当前数据中心的从建设上来说,建设标准一般都达到国际T3、国标A级的水平,所以从数据中心运营角度的角度出发,提出数据中心的健康度的概念,以此来反馈各数据中心的可靠性。
但现有技术所提供的数据健康中心健康度检测方法,少有考虑故障的等级,以及考虑故障是否是在规定时间内完成的,单纯的考虑只要故障发生,计算时间和,用时间和作为分子;譬如,一个一级(最高级)的故障没有按时完成,而一个四级故障(最低级)故障按时完成了,时间和刚好为0,那么它的处理及时率按照上述公式就会变成100%,显然是不合理的。同时,现有技术所提供的方案,忽略了设备稳定性、运维团队能力水平以及运维团队稳定性等因素对于数据中心健康度的影响。
发明内容
为至少解决上述技术问题之一,本发明的目的在于:提供一种全方位的、科学的数据中心健康度的检测方法,以及可实现数据中心健康度的检测方法的***以及存储介质,为了达到上述技术目的,本发明所提供的技术方案包括:
一方面,本发明提供了一种数据中心健康度的检测方法,包括以下步骤:
获取数据中心的运维数据;
确定运维数据的权重值;
通过权重值以及运维数据生成数据中心健康度分值;
根据数据中心健康度分值生成数据健康中心运维方案;
其中,运维数据包括:告警数据、运维人员数据、数据中心参数、工单数据和应急数据。
在本发明的一些实施例中,确定运维数据的权重值这一步骤,其具体包括:
生成运维数据的判断矩阵;
对判断矩阵进行规范化,并得到和向量;
将和向量进行归一化,得到权重向量;
根据权重向量确定权重值。
在本发明的一些实施例中,通过权重值以及运维数据生成数据中心健康度分值这一步骤,其具体包括:
根据运维数据生成设备稳定性的健康度;
根据运维数据生成运维团队能力水平的健康度;
根据运维数据生成运维团队稳定性的健康度;
根据设备稳定性的健康度、运维团队能力水平的健康度和运维团队稳定性的健康度结合权重值生成数据中心健康度分值。
在本发明的一些实施例中,根据运维数据生成设备稳定性的健康度这一步骤,其具体包括:
获取运维数据中的告警数据;
根据告警数据确定动环设备的稳定性;
根据告警数据确定暖通设备的稳定性;
根据告警数据确定视频设备的稳定性;
根据告警数据确定门禁设备的稳定性;
通过动环设备的稳定性、暖通设备的稳定性、视频设备的稳定性以及门禁设备的稳定性,生成设备稳定性的健康度。
在本发明的一些实施例中,根据运维数据生成运维团队能力水平的健康度这一步骤,其具体包括:
获取运维数据中的运维人员数据、工单数据以及应急数据;
根据运维人员数据确定运维人员密度;
根据运维人员数据确定运维人员持证占比;
根据工单数据确定维保巡检工单处理及时率;
根据工单数据确定告警工单处理及时率;
根据应急数据确定应急能力分值;
根据运维人员密度、运维人员持证占比、维保巡检工单处理及时率、告警工单处理及时率以及应急能力分值,生成运维团队能力水平的健康度。
在本发明的一些实施例中,根据运维数据生成运维团队稳定性的健康度这一步骤,其具体包括:
获取运维数据中的运维人员数据;
根据运维人员数据确定关键人员稳定率;
根据运维人员数据确定人员稳定率;
根据关键人员稳定率和人员稳定率生成运维团队稳定性的健康度。
在本发明的一些实施例中,告警数据包括活动告警数据和历史告警数据。
第二方面,本发明技术方案还提供一种数据中心健康度的检测***,可以对应实现上述实施例中一种数据中心健康度的检测方法,其包括:
数据获取模块,用于获取数据健康中心的运维数据;
数据预处理模块,用于确定运维数据的权重值;
DCH计算模块,用于通过权重值以及运维数据生成数据中心健康度分值,并根据数据中心健康度分值生成数据健康中心运维方案;
其中,数据预处理模块包括:
设备稳定性模块,用于生成设备稳定性的健康度;
运维团队能力水平模块,用于生成运维团队能力水平的健康度;
运维团队稳定性模块,用于生成运维团队稳定性的健康度。
第三方面,本发明技术方案还提供另一种数据中心健康度的检测***,包括至少一个处理器;至少一个存储器,用于存储至少一个程序;当至少一个程序被至少一个处理器执行,使得至少一个处理器实现一种数据中心健康度的检测方法。
第四方面,本发明技术方案还提供一种存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现一种数据中心健康度的检测方法。
本发明的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本发明的具体实施方式了解得到:
本发明技术方案提供的一种数据中心健康度的检测方法,从告警数据、运维人员数据、数据中心参数、工单数据和应急数据等数据生成数据中心健康度的指标,并通过权重分配算法确定各类因素在数据中心健康度分值比重,最终生成数据中心的健康度,并以此为数据中心运维方案改进优化的依据;本发明的技术方案提供的全方位,多角度的数据健康度的检测方法,相较于现有技术的数据中心运维状况评估方法更加科学可靠,同时还具有较优的适配性。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本发明实施例一种数据中心健康度的检测方法的步骤流程图;
图2为本发明实施例中根据运维数据生成设备稳定性的健康度的步骤流程图;
图3为本发明实施例中根据运维数据生成运维团队能力水平的健康度的步骤流程图;
图4为本发明实施例中根据运维数据生成运维团队稳定性的健康度的步骤流程图;
图5为本发明实施例中一种数据中心健康度的检测***的结构框架图;
图6为本发明实施例中另一种数据中心健康度的检测***的结构框架图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明技术方案中的安全资源运维平台***,一种数据中心健康度的检测方法,包括步骤S01-S04:
S01、获取数据健康中心的运维数据;在本实施例中,该运维数据包括告警数据、运维人员数据、数据中心参数、工单数据和应急数据,同时步骤S01可以进一步细分为步骤S011-S015:
S011、获取告警数据;由于数据中心需要提供资源对外服务,那么数据中心就必须在电力、暖通、门禁、视频等这些方面提供一个稳定的环境才能对外提供服务。动环(电力、暖通)、暖通、门禁以及视频所使用的设备是否稳定所以对数据中心来说是至关重要的。为了获取和检测这些设备的各项指标,在实施过程中,可在每台设备上安装采集器,采集器将采集到的设备指标传送到数据中心进行存储;然后进行配置告警策略,在配置告警策略的同时分配告警等级,采集回来的设备指标与相应的告警阈值进行匹配,不同的阈值匹配不同的告警等级,不同的告警等级产生的影响也不一样。
譬如,在一些实施例中,选取UPS作为告警数据的采集来源(UPS属于动环中的一个设备类型),UPS中设有3组蓄电池组,一组蓄电池因为电压分布不均暂时未影响对外属于电压但是要进行预警,将该预警信息设置为一般告警这个告警等级;而另一组蓄电池的输出电压严重超标,如果持续运行下去会导致整组电池无法工作,需要进行紧急处理,则将该情况设置为紧急告警的告警等级。
实时采集的设备指标匹配到了相应的告警策略,则会产生告警信息。在一些实施例中,告警数据包括活动告警数据和历史告警数据,即所产生的告警信息,首先记录至活动告警表,当告警已经恢复则由活动告警表将告警信息转录到历史告警表中;所以获得告警数据和告警等级,需要从活动告警表和历史告警表中同时获得。
S012、获取运维人员数据;具体的,获取人员信息表,表中记录有数据中心的人员(比如:姓名、是否具有相关专业证书、是否是管理人员、入职时间、离职时间等等)的详细信息,发生变化时,信息会准实时更新到数据库等存储单元之中,以便对人员进行相应的权限控制。
S013、获取数据中心参数;具体的,获取数据中心参数表,表中详细记录数据中心的概况(比如:建筑面积、设计机架数、设计总功率、何时投产),同时可以设置固定的周期,定时计算获取特殊字段,比如机架的实际使用数目等等。
S014、获取工单数据;具体的,获取数据中心的工单表,工单表包含该数据中心的工单数据,譬如:工单表中详细记录了工单的创建时间、工单类型(比如维保、巡检、告警),如何流转、工单内容、状态等等信息。
S015、获取应急数据;具体的,获取应急事件的记录,记录中同样包含应急演练的记录,从记录中获取应急事件的详情,包括应急事件(演练)的时间、等级、应急事件(演练)内容,完成时间以及整改措施等数据。
S02、确定运维数据的权重值;具体的,在本实施例中,采用层次分析法(AHP,Analytic Hierarchy Process)求解,在一些实施例中,该步骤S02可进一步细化为步骤S021-S024:
S021、生成运维数据的判断矩阵;例如:如果认为X1与X2同等重要,X3相比另外两个其重要程度稍低,则X1,X2和X3的判断矩阵A可以为:
Figure BDA0002428396650000051
S022、对判断矩阵进行规范化,并得到和向量;具体的,将公式(1)按列对矩阵规范化,即
Figure BDA0002428396650000061
i为行,j为列,m为矩阵内元素数目;即规范化后的矩阵
Figure BDA0002428396650000062
再将公式(2)按行相加得到和向量wi,通过公式:
Figure BDA0002428396650000063
得到w1=1.35,w2=1.35,w3=0.3。
S023、将和向量进行归一化,得到权重向量;具体的,将和向量归一化等到权重向量:
w=(0.45 0.45 0.1)T……(4)
S024、根据权重向量确定权重值;即最后判断是否满足一次性检验,若果满足,则X1,X2和X3的值分别为0.45、0.45和0.1。
S03、通过权重值以及运维数据生成数据中心健康度分值;在一些实施例中,步骤S03可进一步细分为步骤S031-S034,则有:
S031、根据运维数据生成设备稳定性的健康度;参照图2,从活动告警表和历史告警表中统计时间周期中各设备类型中告警数据的等级和数量;然后根据其告警类型权重、告警数量生成各设备类型所占的分值;根据各设备类型的权重和各设备类型的分值,得到设备稳定性的健康度分值;具体的,设备稳定性模块的健康度由动环设备的稳定性、BA暖通设备的稳定性、以及视频门禁的稳定性三部分组成;同时,在实施例中设定各部分满分均为10分的情况下,步骤S031可进一步细分为步骤S0311-S0314:
S0311、确定动环设备的稳定性;首先从活动告警表(活动告警数据)和历史告警表(历史告警数据)中统计时间周期中的动环设备中各告警等级的告警数量,则动环设备稳定性DBI1为:
Figure BDA0002428396650000064
在公式(5)中,si为时间周期内告警所属等级的动环设备的告警数量;totale为动环设备的总数量;T代表时间周期;λi为对应告警等级的权重,本实施例中,告警等级划分4级或7级,数字越低代表告警情况越严重;所以等级级数低的λi的值也越大,随着等级的增加λi从大到小依次递减。进一步将公式(5)整理可得:
Figure BDA0002428396650000071
公式(6)中,n为告警等级的级数。
S0312、确定BA(暖通)设备的稳定性;首先从活动告警表(活动告警数据)和历史告警表(历史告警数据)中统计时间周期中的BA设备中各告警等级的告警数量,则BA暖通设备稳定性DBI2为:
Figure BDA0002428396650000072
在公式(7)中,sBAi为时间周期内告警所属等级的BA设备告警数量;totalBA为BA设备的总数量;T代表时间周期;λBAi为对应告警等级的权重。进一步将公式(7)整理可得:
Figure BDA0002428396650000073
公式(8)中,n为告警等级的级数。
S0313、确定视频和门禁设备的稳定性,首先要从活动告警表(活动告警数据)和历史告警表(历史告警数据)中统计时间周期中的视频和门禁设备中各告警等级的告警数量,进一步视频和门禁设备稳定性DBI3为:
Figure BDA0002428396650000074
公式(9)中,sDVi为时间周期内告警所属等级的门禁视频设备告警数量;totalDV为门禁视频设备的总数量;T代表时间周期;λDVi为对应告警等级的权重。将公式(9)整理可得:
Figure BDA0002428396650000075
公式(10)中,n为告警等级的级数。
S0314、设备稳定性的健康度DQI1则为:
DQI1=γ1×DBI12×DBI23×DBI3……(11)
在公式(11)中,γ1、γ2、γ3对应动环设备、BA暖通设备和视频和门禁设备部分的权重值,γ123=1。γ1、γ2、γ3的值仍然可以采用AHC层次分析法求得。例如,在某个实施例中,动环设备稳定性模块比暖通设备稳定性要重要,暖通设备稳定性比门禁视频设备稳定性重要那么矩阵可设为:
Figure BDA0002428396650000081
最后求得γ1、γ2、γ3的值分别为0.63、0.26、0.11。
S032、参照图3,根据运维数据生成运维团队能力水平的健康度;具体的,运维团队能力水平的健康度由运维人员密度分值、运维人员持证占比分值、维保巡检工单处理及时率分值、告警(故障)处理及时率分值以及应急能力分值五部分组成;在实施例中设定各部分满分均为10分的情况下,步骤S032可进一步细分为步骤S0321-S0326:
S0321、确定运维人员密度;运维人员密度代表了数据中心中人员人数的合理性,对于一个庞大的数据中心来说,合理的人数维护合理的设备,才能把数据中心管理的更好。从运维人员数据中获取时间周期T内数据中心运维人员数量sW、时间周期T内数据中心的机架数量totalF,并计算出运维人员密度DBI4
Figure BDA0002428396650000082
在公式(13)中,Q为运维人数数量与机架数量的最优比值,可进行调整。
S0322、确定运维人员持证占比;运维人员持证占比代表了数据中心人员中专业性人员重要度。从运维人员数据中进一步提取时间周期T内数据中心运维人员中持证人的数量sL、以及时间周期T内数据中心运维人员的数量sW,并计算出运维人员密度DBI5
Figure BDA0002428396650000083
在公式(14)中,M为持证人数占运维人数的最优比,可进行调整。
S0323、确定维保巡检工单处理及时率;数据中心的设备需要定时巡检保养,这样可以尽早发现设备的故障避免产生影响,同时可以延长设备的使用期限。具体的,从工单数据中获取间周期内未按规定时间内完成的工单数sU;以及时间周期内T所有的工单数totalT,并计算得到维保巡检工单处理及时率分值DBI6
Figure BDA0002428396650000084
S0324、确定告警工单处理及时率;设备产生的告警需要及时处理,如果处理的不及时将有可能对数据中心的用户产生很大的隐患,影响生产活动,并蒙受损失。从工单数据中获取时间周期内未按照规定时间恢复的告警工单数sAi、以及时间周期T内告警工单的总数totalA;不同的告警对应的告警等级不同,所以针对不同的告警乃至不同的设置需要处理的时间不同。结合告警等级和所规定的处理时间两个因素,告警处理及时率的分值DBI7的公式为:
Figure BDA0002428396650000091
在公式(16)中,λAi为对应告警等级的权重。进一步将公式(16)整理得:
Figure BDA0002428396650000092
在公式(17)中,n为告警等级的级数。
S0325、确定应急能力分值;数据中心在发生应急事件时,是否在规定时间内处理完成,决定了对用户的影响是否能降低到最低,因此应急能力对数据中来说是一项至关重要的分值。从应急数据中提取时间周期内应急事件的总数totalEM、以及时间周期T内未按照规定时间完成的应急事件数SEMi,再计算应急能力的分值DBI8
Figure BDA0002428396650000093
在公式(18)中,λEMi为应急等级的权重,进一步可将公式(18)整理得:
Figure BDA0002428396650000094
公式(19)中,n为应急等级的级数。
S0326、最后生成运维团队能力水平的健康度DQI2
DQI2=γ4×DBI45×DBI56×DBI67×DBI78×DBI8……(20)
公式(20)中γ1、y5、γ6、γ7、γ8为各部分分值的权重,γ45678=1。γ4、γ5、γ6、γ7、γ8的值仍然可以采用AHP层次分析法求得。
S033、参照图4,根据运维数据生成运维团队稳定性的健康度;具体的,运维团队稳定性的健康度由关键人员稳定率分值、人员稳定率分值两部分组成;在实施例中,同样设定各部分满分均为10分的情况下,步骤S033可进一步细分为步骤S0331-S0333:
S0331、确定关键人员稳定率;获取运维数据中的运维人员数据,并从中提取时间周期T内关键人员流失的数量scentralloss;以及时间周期T内关键人员的总数totalcenter,则关键人员稳定率分值DBI9
Figure BDA0002428396650000095
S0332、确定人员稳定率;获取运维数据中的运维人员数据,并从中提取时间周期T内运维人员流失的数量sloss;以及时间周期T内运维人员的总数sW,则人员稳定率分值DBI10
Figure BDA0002428396650000101
S0333、生成运维团队稳定性的健康度DQI3,通过以下公式:
DQI3=γ9×DBI910×DBI10……(23)
在公式(23)中,γ9、γ10为权重值,γ910=1,γ9、γ10的值仍然可以采用AHP层次分析法求得。
S034、根据设备稳定性的健康度、运维团队能力水平的健康度和运维团队稳定性的健康度结合权重值生成数据中心健康度分值。具体的,根据生成的三个数据DQI1、DQI2、DQI3,通过数据中心健康度(DCH)计算公式:
DCH=η1DQI12DQI23DQI3……(24)
其中η123=1;DQI1为设备以及其***的稳定性的健康度,DQI2为运维团队能力水平的健康度,DQI3为运维团队稳定性的健康度,η1、η2、η3的值采用层次分析法(AHP)求解。
S04、根据数据中心健康度分值生成数据健康中心运维方案;具体的,根据提前设置的数据中心健康度的阈值与当前生成的健康度进行对比;当高于阈值时,则保持当前的数据中心运维方案;当健康度低于阈值时,首先需要定位比较分值较低的部分,例如:如果设备稳定性分值比较低,则通过权重分析过程进一步逆推,对情况进行定位分析并生成实施相应措施:增加设备的维修保养、巡检的频次,提前排除障碍以及必要时更换设备等。
其次,参照附图描述根据本发明实施例提出的用于实现方法实施例的***实施例。
参照图5,为本发明的***一个实施例,包括:
数据获取模块,用于获取数据健康中心的运维数据;
数据预处理模块,用于确定运维数据的权重值;
DCH计算模块,用于通过权重值以及运维数据生成数据中心健康度分值,并根据数据中心健康度分值生成数据健康中心运维方案;
其中,数据预处理模块包括:
设备稳定性模块,用于生成设备稳定性的健康度;
运维团队能力水平模块,用于生成运维团队能力水平的健康度;
运维团队稳定性模块,用于生成运维团队稳定性的健康度。
参照图6,本发明实施例提供了一种数据中心健康度的检测***,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个程序被至少一个处理器执行时,使得至少一个处理器实现该数据中心健康度的检测方法。
本发明实施例还提供了一种存储介质,其中存储有处理器可执行的程序,该处理器可执行的程序在由处理器执行时用于实现该数据中心健康度的检测方法。
上述实施例的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务端,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
并从上述具体的实施过程,可以总结出,本发明所提供的技术方案相较于现有技术存在以下优点或优势:
1.本发明的技术方案创新性地提出了数据中心的健康度的概念,用以反馈各数据中心的可靠性,提供了规范、标准且科学的行业指标。
2.本发明的技术方案从设备稳定性、运维团队能力水平以及运维团队稳定性三个方面,作为影响一个数据中心健康度的指标,使得数据中心的健康度的检测更为全面科学;
3.本发明技术方案的实施过程中,还考虑了主要考虑告警(故障)数这一指标,在该指标中考虑告警(故障)的等级,因为告警(故障)的等级的不同,对数据中心的稳定性影响也不同,通过更加具体的数据指标使健康度更为细致和准确。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种数据中心健康度的检测方法,其特征在于,包括以下步骤:
获取数据中心的运维数据;
确定所述运维数据的权重值;
通过所述权重值以及运维数据生成数据中心健康度分值;
根据所述数据中心健康度分值生成数据健康中心运维方案;
所述运维数据包括:告警数据、运维人员数据、数据中心参数、工单数据和应急数据。
2.根据权利要求1所述的一种数据中心健康度的检测方法,其特征在于,所述确定所述运维数据的权重值这一步骤,其具体包括:
生成所述运维数据的判断矩阵;
对所述判断矩阵进行规范化,并得到和向量;
将所述和向量进行归一化,得到权重向量;
根据所述权重向量确定权重值。
3.根据权利要求1所述的一种数据中心健康度的检测方法,其特征在于:所述通过所述权重值以及运维数据生成数据中心健康度分值这一步骤,其具体包括:
根据所述运维数据生成设备稳定性的健康度;
根据所述运维数据生成运维团队能力水平的健康度;
根据所述运维数据生成运维团队稳定性的健康度;
根据所述设备稳定性的健康度、运维团队能力水平的健康度和运维团队稳定性的健康度结合所述权重值生成数据中心健康度分值。
4.根据权利要求3所述的一种数据中心健康度的检测方法,其特征在于,所述根据所述运维数据生成设备稳定性的健康度这一步骤,其具体包括:
获取所述运维数据中的告警数据;
根据所述告警数据确定动环设备的稳定性;
根据所述告警数据确定暖通设备的稳定性;
根据所述告警数据确定视频设备的稳定性;
根据所述告警数据确定门禁设备的稳定性;
通过所述动环设备的稳定性、暖通设备的稳定性、视频设备的稳定性以及门禁设备的稳定性,生成设备稳定性的健康度。
5.根据权利要求3所述的一种数据中心健康度的检测方法,其特征在于,所述根据所述运维数据生成运维团队能力水平的健康度这一步骤,其具体包括:
获取所述运维数据中的运维人员数据、工单数据以及应急数据;
根据所述运维人员数据确定运维人员密度;
根据所述运维人员数据确定运维人员持证占比;
根据所述工单数据确定维保巡检工单处理及时率;
根据所述工单数据确定告警工单处理及时率;
根据所述应急数据确定应急能力分值;
根据所述运维人员密度、运维人员持证占比、维保巡检工单处理及时率、告警工单处理及时率以及应急能力分值,生成运维团队能力水平的健康度。
6.根据权利要求3所述的一种数据中心健康度的检测方法,其特征在于,所述根据所述运维数据生成运维团队稳定性的健康度这一步骤,其具体包括:
获取所述运维数据中的运维人员数据;
根据所述运维人员数据确定关键人员稳定率;
根据所述运维人员数据确定人员稳定率;
根据所述关键人员稳定率和人员稳定率生成运维团队稳定性的健康度。
7.根据权利要求1所述的一种数据中心健康度的检测方法,其特征在于,所述告警数据包括活动告警数据和历史告警数据。
8.一种数据中心健康度的检测***,其特征在于,包括:
数据获取模块,用于获取数据健康中心的运维数据;
数据预处理模块,用于确定所述运维数据的权重值;
DCH计算模块,用于通过所述权重值以及运维数据生成数据中心健康度分值,并根据所述数据中心健康度分值生成数据健康中心运维方案;
所述数据预处理模块包括:
设备稳定性模块,用于生成设备稳定性的健康度;
运维团队能力水平模块,用于生成运维团队能力水平的健康度;
运维团队稳定性模块,用于生成运维团队稳定性的健康度。
9.一种数据中心健康度的检测***,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7中任一项所述的一种数据中心健康度的检测方法。
10.一种存储介质,其中存储有处理器可执行的程序,其特征在于:所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-7中任一项所述的一种数据中心健康度的检测方法。
CN202010228287.9A 2020-03-27 2020-03-27 一种数据中心健康度的检测方法、***及存储介质 Pending CN111475377A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010228287.9A CN111475377A (zh) 2020-03-27 2020-03-27 一种数据中心健康度的检测方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010228287.9A CN111475377A (zh) 2020-03-27 2020-03-27 一种数据中心健康度的检测方法、***及存储介质

Publications (1)

Publication Number Publication Date
CN111475377A true CN111475377A (zh) 2020-07-31

Family

ID=71749291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010228287.9A Pending CN111475377A (zh) 2020-03-27 2020-03-27 一种数据中心健康度的检测方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN111475377A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069047A (zh) * 2020-09-02 2020-12-11 鹏城实验室 计算生态检测方法、装置、设备以及存储介质
CN112257984A (zh) * 2020-09-24 2021-01-22 南方电网调峰调频发电有限公司 一种基于电力设备健康度评价的状态监测方法
CN114363934A (zh) * 2021-12-30 2022-04-15 中国电信股份有限公司 一种基站健康度评估方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081622A (zh) * 2009-11-30 2011-06-01 ***通信集团贵州有限公司 评估***健康度的方法及***健康度评估装置
US20160359872A1 (en) * 2015-06-05 2016-12-08 Cisco Technology, Inc. System for monitoring and managing datacenters
CN108228412A (zh) * 2016-12-15 2018-06-29 中国电子科技集团公司电子科学研究院 一种基于***健康度监测***故障及隐患的方法及装置
CN108733532A (zh) * 2017-04-18 2018-11-02 北京京东尚科信息技术有限公司 大数据平台的健康度管控方法、装置、介质及电子设备
CN109685344A (zh) * 2018-12-14 2019-04-26 广东电网有限责任公司 一种电力设备运维策略确定方法、装置及存储介质
CN110659832A (zh) * 2019-09-26 2020-01-07 北京市天元网络技术股份有限公司 检测5g网元健康度的方法和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081622A (zh) * 2009-11-30 2011-06-01 ***通信集团贵州有限公司 评估***健康度的方法及***健康度评估装置
US20160359872A1 (en) * 2015-06-05 2016-12-08 Cisco Technology, Inc. System for monitoring and managing datacenters
CN108228412A (zh) * 2016-12-15 2018-06-29 中国电子科技集团公司电子科学研究院 一种基于***健康度监测***故障及隐患的方法及装置
CN108733532A (zh) * 2017-04-18 2018-11-02 北京京东尚科信息技术有限公司 大数据平台的健康度管控方法、装置、介质及电子设备
CN109685344A (zh) * 2018-12-14 2019-04-26 广东电网有限责任公司 一种电力设备运维策略确定方法、装置及存储介质
CN110659832A (zh) * 2019-09-26 2020-01-07 北京市天元网络技术股份有限公司 检测5g网元健康度的方法和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069047A (zh) * 2020-09-02 2020-12-11 鹏城实验室 计算生态检测方法、装置、设备以及存储介质
CN112069047B (zh) * 2020-09-02 2023-02-07 鹏城实验室 计算生态检测方法、装置、设备以及存储介质
CN112257984A (zh) * 2020-09-24 2021-01-22 南方电网调峰调频发电有限公司 一种基于电力设备健康度评价的状态监测方法
CN112257984B (zh) * 2020-09-24 2022-11-18 南方电网调峰调频发电有限公司 一种基于电力设备健康度评价的状态监测方法
CN114363934A (zh) * 2021-12-30 2022-04-15 中国电信股份有限公司 一种基站健康度评估方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111475377A (zh) 一种数据中心健康度的检测方法、***及存储介质
CN111614491B (zh) 一种面向电力监控***安全态势评估指标选取方法及***
CN108763957A (zh) 一种数据库的安全审计***、方法及服务器
CN104809933B (zh) 一种电网无脚本应急演练***、演练方法及设备
CN108846585A (zh) 一种煤矿隐患处理管理***
CN106101252A (zh) 基于大数据和可信计算的信息安全风险防护***
CN111815132A (zh) 一种电力监控***网络安全管理信息发布方法及***
CN110417721A (zh) 安全风险评估方法、装置、设备及计算机可读存储介质
CN108648124A (zh) 一种智慧城市消防物联网大数据管理***
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
CN115550609B (zh) 一种可实现自动适配的楼宇物联网监控***
CN110853744A (zh) 一种大数据下医院质控管理***
CN114398966A (zh) 一种基于堡垒机对用户画像进行预警的方法
CN113071966A (zh) 电梯故障预测方法、装置、设备及存储介质
CN113868509A (zh) 基于云计算的科技政策数据信息咨询服务***
CN114139735A (zh) 一种动环监控平台
CN106713267A (zh) 一种网络安全评估方法及***
CN113612625A (zh) 一种网络故障定位方法及装置
CN114511227A (zh) 电力监控***网络安全策略编排及处置方法和***
CN111930726A (zh) 基于离线表单的等级保护测评数据采集、分析方法及***
CN110415136B (zh) 一种电力调度自动化***服务能力评估***与方法
CN106649034A (zh) 一种可视化智能运维方法及平台
Sun Construction and research of digital archives cloud platform based on big data management
CN112488873A (zh) 一种供用电设备健康码及状态轨迹智能挖掘构建方法
CN106888237A (zh) 一种数据调度方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200731

RJ01 Rejection of invention patent application after publication