CN116595756A - 基于数字孪生的数据中心智能化运维方法及装置 - Google Patents
基于数字孪生的数据中心智能化运维方法及装置 Download PDFInfo
- Publication number
- CN116595756A CN116595756A CN202310553209.XA CN202310553209A CN116595756A CN 116595756 A CN116595756 A CN 116595756A CN 202310553209 A CN202310553209 A CN 202310553209A CN 116595756 A CN116595756 A CN 116595756A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- monitoring
- data center
- index
- root cause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000002159 abnormal effect Effects 0.000 claims abstract description 159
- 238000012544 monitoring process Methods 0.000 claims abstract description 155
- 238000004458 analytical method Methods 0.000 claims abstract description 63
- 238000001514 detection method Methods 0.000 claims abstract description 37
- 238000012216 screening Methods 0.000 claims abstract description 29
- 230000005856 abnormality Effects 0.000 claims abstract description 19
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 238000004088 simulation Methods 0.000 claims description 77
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 239000000470 constituent Substances 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000012384 transportation and delivery Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000005094 computer simulation Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011418 maintenance treatment Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Geometry (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明提供了一种基于数字孪生的数据中心智能化运维方法及装置,涉及数据运维的技术领域,该方法包括:响应异常发生事件,获取异常发生事件对应的检测时间范围;选取检测时间范围内所有的监控指标值,计算波动率;确定波动率大于预设波动率阈值的监控指标值为初筛异常指标;计算初筛异常指标与告警指标的波动相似度,选取具有相似波动规律的目标监控指标值;按照时间维度对目标监控指标值进行排序,以绘制第一异常关系图谱;将第一异常关系图谱中的第一个时刻对应的目标监控指标值对应的监控对象确定为异常发生事件的根因,并生成根因分析,以便于根据根因分析对异常发生事件进行维护,不仅减少了人工成本,也有效提高了数据中心的运维效率。
Description
技术领域
本发明涉及数据运维的技术领域,尤其是涉及一种基于数字孪生的数据中心智能化运维方法及装置。
背景技术
数据中心通常指用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息的网络设备,随着数据中心应用的广泛化,人工智能、网络安全等也相继出现,随着服务器和数据量的增多,对数据中心的维护也越来越受到重视。
相关技术中,对数据中心的日常运维工作主要体现在以下内容:
1、服务器的交付环节:服务器入库、服务器上架、***部署、网络IP分配、服务器交付使用等;
2、服务器及机房的监控:电压、电流,机房温度,湿度等周边环境监控;
3、服务器的维护:日常的硬件故障更换(如,磁盘、CPU、内存等)。
4、服务器的生命周期管理:使用信息、再分配信息、维保信息、维修记录等服务器相关的生命周期数据管理。
而对于上述的主要内容,目前各个数据中心多数以人工的方式来完成,不仅消耗了大量的人力资源,效率低下,并且由于各个环节之间无法形成有效的信息传输通道。
此外,由于目前的服务器的生命周期多数以人工表格录入相关***等方式向下传递,使得通道数据传递的质量完全依赖于对应工人的业务熟练程度及细心程度,不仅使数据不准确、损坏、丢失的情况时有发生,且,每当该情况发生时,也需要花费较大的人力资源去查找邮件***记录等去修复该数据,严重限制了数据中心运维的效率。
发明内容
有鉴于此,本发明的目的在于提供一种基于数字孪生的数据中心智能化运维方法及装置,以缓解上述技术问题。
第一方面,本发明实施例提供了一种基于数字孪生的数据中心智能化运维,应用于仿真平台,所述仿真平台为通过三维仿真软件对数据中心的构成元素进行预设比例建模得到的平台,且,所述仿真平台包含所述数据中心的实物模型,所述方法包括:响应异常发生事件,获取所述异常发生事件对应的检测时间范围,所述异常发生事件携带有告警指标;选取所述检测时间范围内所有的监控指标值,计算所有的所述监控指标值在所述检测时间范围内的波动率;确定所述波动率大于预设波动率阈值的所述监控指标值为初筛异常指标;计算所述初筛异常指标与所述告警指标的波动相似度,基于所述波动相似度选取与所述告警指标具有相似波动规律的所述初筛异常指标为目标监控指标值;按照时间维度对所述目标监控指标值进行排序,以绘制第一异常关系图谱;将所述第一异常关系图谱中的第一个时刻对应的所述目标监控指标值对应的监控对象确定为所述异常发生事件的根因,并基于所述根因生成根因分析,以便于根据所述根因分析对所述异常发生事件进行维护。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述绘制第一异常关系图谱的步骤,包括:获取预先构建的异常关系图谱,其中,所述异常关系图谱为以所述数据中心的所有的监控数据为监控指标构建的;在所述异常关系图谱中筛选所述目标监控指标值,并根据筛选出的所述目标监控指标值在所述异常关系图谱中的内在关系绘制所述第一异常关系图谱。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,基于所述根因生成根因分析的步骤,包括:判断预先建立的根因分析库中是否记录有导致所述异常发生事件的根因对应的对象分析;如果是,基于所述根因分析库记载的对象分析生成所述异常发生事件的根因分析;如果否,在所述根因分析库中添加所述根因对应的所述监控对象的对象分析,以及,根据添加的所述对象分析生成所述异常发生事件的根因分析。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述计算所有的所述监控指标值在所述检测时间范围内的波动率的步骤,包括:按照下述公式计算所述检测时间范围内,所有的所述监控指标值的波动率:
其中,E表示监控指标值的波动率,t为异常发生事件的目标时刻,检测时间范围表示为T(t-Δt,t+Δt),si为第i个监控指标值,为所述监控指标值的平均值。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,上述计算所述初筛异常指标与所述告警指标的波动相似度的步骤,包括:采用预先建立的DTW算法计算所述初筛异常指标与所述告警指标的相似度;其中,所述DTW算法的计算公式为:
其中,H、K中,其中一个为所述初筛异常指标的数据序列,另一个为所述告警指标的数据序列,wu表示H、K的数据序列构建的数据矩阵中目标路径的第u个元素值;U表示目标路径中元素值的个数。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,上述方法还包括:获取所述数据中心的监控数据;根据预设的故障传播内在关系描绘包含所述监控数据的异常关系图谱;其中,所述监控数据包括设置于所述数据中心的物理传感器采集的数据、所述数据中心中服务器层面的监控数据,以及所述数据中心中应用程序层面的监控数据。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,上述数据中心还配置有维护机器人,所述方法还包括:如果所述根因分析中携带有作用于所述维护机器人的维护指令,则将所述维护指令发送至所述维护机器人,以使所述维护机器人基于所述维护指令对所述数据中心执行维护任务。
第二方面,本发明实施例还提供一种基于数字孪生的数据中心智能化运维装置,应用于仿真平台,所述仿真平台为通过三维仿真软件对数据中心的构成元素进行预设比例建模得到的平台,且,所述仿真平台包含所述数据中心的实物模型,所述装置包括:响应模块,用于响应异常发生事件,获取所述异常发生事件对应的检测时间范围,所述异常发生事件携带有告警指标;第一计算模块,用于选取所述检测时间范围内所有的监控指标值,计算所有的所述监控指标值在所述检测时间范围内的波动率;确定模块,用于确定所述波动率大于预设波动率阈值的所述监控指标值为初筛异常指标;第二计算模块,用于计算所述初筛异常指标与所述告警指标的波动相似度,基于所述波动相似度选取与所述告警指标具有相似波动规律的所述初筛异常指标为目标监控指标值;排序模块,用于按照时间维度对所述目标监控指标值进行排序,以绘制第一异常关系图谱;分析模块,用于将所述第一异常关系图谱中的第一个时刻对应的所述目标监控指标值对应的监控对象确定为所述异常发生事件的根因,并基于所述根因生成根因分析,以便于根据所述根因分析对所述异常发生事件进行维护。
第三方面,本发明实施例还提供一种仿真平台,所述仿真平台为通过三维仿真软件对数据中心的构成元素进行预设比例建模得到的平台,且,所述仿真平台包含所述数据中心的实物模型;所述仿真平台的仿真内核配置有第二方面所述的智能化运维装置,以执行第一方面所述的基于数字孪生的数据中心智能化运维方法。
第四方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。
第五方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供的基于数字孪生的数据中心智能化运维方法及装置,能够响应异常发生事件,并获取异常发生事件对应的检测时间范围,进而选取检测时间范围内所有的监控指标值,计算所有的监控指标值在检测时间范围内的波动率,进一步确定波动率大于预设波动率阈值的监控指标值为初筛异常指标,然后计算初筛异常指标与异常发生事件的告警指标的波动相似度,基于波动相似度选取与告警指标具有相似波动规律的初筛异常指标为目标监控指标值;按照时间维度对目标监控指标值进行排序,以绘制第一异常关系图谱,以便于将第一异常关系图谱中的第一个时刻对应的目标监控指标值对应的监控对象确定为异常发生事件的根因,并基于根因生成根因分析,以便于根据根因分析对异常发生事件进行维护,并且,由于仿真平台为通过三维仿真软件对数据中心的构成元素进行预设比例建模得到的平台,因此,利用虚实联动的仿真平台可以获取数据中心的实物运行数据,通过由实物运行数据和仿真平台的运行数据组成的孪生数据驱动下,基于数据中心物理机房的服务器与仿真平台的虚拟机房及服务器的同步映射与实时交互,可以充分利用构建的仿真平台的信息处理模型来对数据中心的物理环境进行智能化运维,不仅减少了人工成本,也有效提高了数据中心的运维效率,同时,减少了人员进入数据中心机房的次数,无论是机房安全或是数据安全都有了极大的提升。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于数字孪生的数据中心智能化运维方法的基本框架图;
图2为本发明实施例提供的一种基于数字孪生的数据中心智能化运维方法的流程图;
图3为本发明实施例提供的一种异常关系图谱的示意图;
图4为本发明实施例提供的第一异常关系图谱的示意图;
图5为本发明实施例提供的一种矩阵示意图;
图6为本发明实施例提供的一种基于数字孪生的数据中心智能化运维装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,对数据中心的日常运维工作多基于人工实现,并且,数据的传递也多依赖人工表格录入的形式,难以形成有效的信息传输通道。
并且,在服务器上线后,对于服务器的电压、电流、功率,以及,机架、机房的温度、机房湿度等物理数据的监控,多分散于各个独立监控模块,并且,多见于瞬时值展示,不利于运维工作人员从整体层面去感知服务器的各项监控指标和机房环境监控指标,同时,也不利于及时发现机房的一些潜在风险和监控指标的异常变化趋势及关联。
而,数据中心作为现代整个软件***最重要的载体,其稳定性是企业正常提供服务的基石,数据中心异常崩溃对企业造成巨大损失的案例比比皆是。所以数据中心服务器交付后的日常巡检运维工作就变得极其重要,特别是硬件故障的及时发现与更换处理。传统的硬件感知方法多由业务***异常后,反向追踪到服务器层面的硬件故障,再有数据中心工程师手动更换,此种方法时效性较差,定位成本较高,当多台服务器同时出现故障时将会出现排队等待维修的情况,严重拖延服务的恢复时间。
进一步,服务器的使用信息、再分配信息、维保信息、维修记录等服务器相关的生命周期数据当录入不及时,也经常会产生脏数据导致基于这些数据的自动化工作流程经常出现失败的情形。
并且,由于现场仍需要人工去对硬件进行维护,上、下架机器等操作,导致整个数据中心的整个智能化运维***不能完全闭环。各个环节信息通道的不畅,往往会造成严重的信息孤岛,数据质量下降,监控数据分散,历史数据的联动展示能力较差,不利于运维工程师从全局管控整个数据中心的各个环节,当异常发生时,故障定位成本较高,时效性较差,多个***的切换不利于从数据中发现异常关联指标,严重限制了数据中心运维的效率。
基于此,本发明实施例提供的一种基于数字孪生的数据中心智能化运维方法及装置,可以有效缓解上述技术问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于数字孪生的数据中心智能化运维方法进行详细介绍。
在一种可能的实施方式中,本发明实施例提供了一种基于数字孪生的数据中心智能化运维方法,以下简称智能化运维方法,该方法应用于仿真平台,通常,该仿真平台可以是部署在金融科技行业的仿真平台,以便于对金融科技行业的数据中心进行维护,仿真平台还可以设置在其他科技行业,以实现智能化运维。
在实际使用时,本发明实施例中的仿真平台为通过三维仿真软件对数据中心的构成元素进行预设比例建模得到的平台,例如,1:1建模等,且,该仿真平台包含数据中心的实物模型,因此,基于该仿真平台实现的智能化运维方法,实际是一种基于数字孪生的数据中心智能化运维方法,且,该方法具有如下特点:通过仿真平台可以对数据中心进行仿真建模,其中包括数据中心的机房、服务器、硬件(磁盘,cpu,内存等),以及用于代替工人搬运及更换硬件的维护机器人等。
具体地,本发明实施例提供的仿真平台,主要体现在如下环节:
(1)服务器的交付环节:服务器入库、服务器上架、***部署、网络IP分配、服务器交付使用等;
具体地,该环节可以借助机房地面预铺轨道,用具有机械手臂的AGV(AutomatedGuided Vehicle,简称AGV,自动导向车)小车和自动化标签如,二维码、RFID(RadioFrequency Identification,射频识别)标签等,可以实现自动化运识别机器及机架位置、运输上架服务器和获取及更换相关硬件等。
(2)服务器及机房的监控:服务器的电压、电流,机房温度、湿度等周边环境监控;
该环节中,可以通过智能电表、环境传感器(温度、湿度)等来实时获取数据中心的机房中服务器的电压、电流、功率,以及温度、湿度等。
(3)服务器的维护:日常的硬件故障更换(磁盘、CPU、内存等)。
由于硬件的连接方式多见于插拔式,所以本环节中,可以借助机房地面预铺轨道,并用带有机械手臂的AGV小车,根据仿真平台下发的指令实现机械手臂自动化更换硬件的工作(包括更换磁盘、CPU、内存等)成为可能。
(4)服务器的生命周期管理:使用信息、再分配信息、维保信息、维修记录等服务器相关的生命周期数据管理。
例如,从服务器采购运抵数据中心仓库后,可以通过RFID技术,同步采集服务器数据到仿真平台,包括后期的机器人自动上架信息、硬件更换信息都会同步到仿真平台,完全实现服务器生命周期数据的全流程自动化管理。
(5)通过数字孪生技术,可以全生命周期打通整个运维的场景,从***软件到数据中心机房硬件,从虚拟世界到物理世界,使信息整合度更高,联动性更强。使整个数据中心运维体系形成有效的闭环,运维工作人员只需要在统一的监控中心,操作或监控相关界面即可完成服务器的上下架,硬件的维护更换,机房温度湿度调整等操作,并且借助统一的调度算法,能实现对现场任务的高效编排,进一步节约人力,提升效率。
因此,上述基于数字孪生的数据中心智能化运维方法,可以利用数据中心的机房及服务器的各种传感器采集实物运行数据,利用虚实联动的仿真平台获取仿真运行数据,通过由实物运行数据和仿真运行数据组成的孪生数据驱动下,基于物理机房的服务器与虚拟机房及服务器的同步映射与实时交互,充分利用构建的信息处理模型,来对数据中心的物理环境进行智能化运维。
为了便于理解,图1示出了一种基于数字孪生的数据中心智能化运维方法的基本框架图,如图1所示,该图示中包括物理环境中的数据中心,以及模拟环境中的仿真平台,且图1示出的实际是基于数字孪生的数据中心智能化运维方法的框架图。
其中,数据中心包括多个服务器,且多个服务器部署在物理机房中,为了实现数字孪生技术,在数据中心中部署有监控***,可以进行数据采集,仿真平台则建模有与数据中心的物理机房对应的仿真机房,并部署有仿真内核,其中,为了实现智能化运维方法,仿真平台的仿真内核一般包括以下内容:机理分析、仿真平台构建、数据处理、算法设计,以及异常事件的发现、定位及自动处置。
其中,机理分析一般配置有硬件之间的耦合关系和异常传递机制,因此,其主要通过分析故障传播的内在关系来描绘监控指标的异常关系图谱。
仿真平台构建,则用于通过三维仿真软件对数据中心的构成元素,进行建模,如1:1建模,并且,建模包括对数据中心中所有的实物进行建模,如,机架、服务器、网线、电表、硬盘、CPU、内存等等,并通过专用通信通道实现数据的传输及指令的下发。
数据处理则是指对图1中数据中心中所采集的数据进行处理,这些数据通常作为数据中心的监控指标值。算法设计则用于对整个智能化运维方法的设计和编写,异常事件的发现、定位及自动处置主要用于实现对异常事件的自动处置,包括故障集合分析、故障定位处置等等。
因此,基于图1可以看出,数据中心可以为仿真平台提供数据驱动,将采集的监控数据输入至仿真模型,仿真平台则可以根据运维策略向数据中心提供运维支持。
通常,在日常运维过程中发现,异常事件的发生往往具有传递性,传递性主要体现在某个根因异常后,其监控指标值的异常波动规律,会以相似的波动规律向其他相关联的监控指标传递。各个监控指标在时间维度上具有发生的先后,虽然部分监控指标可能存在同时发生的情况,但是在整个异常链路上还是具有时间先后的,本发明实施例提供的智能化运维方法主要是为了实现运维过程中的根因快速定位。
基于图1所示的基于数字孪生的数据中心智能化运维方法的基本框架图,图2还示出了一种基于数字孪生的数据中心智能化运维方法的流程图,如图2所示,包括以下步骤:
步骤S202,响应异常发生事件,获取异常发生事件对应的检测时间范围;
其中,异常发生事件携带有告警指标,告警指标指的是引起异常发生事件的指标,例如,假设某个服务器的电流异常,超出了正常的电流值范围,此时,服务器的电流值即为告警指标,报告此次电流异常的事件即为异常发生事件。
并且,该异常发生事件指的是实际物理环境中的数据中心的异常发生事件,例如,数据中心中部署的监控***中监控到某个监控指标的值出现异常时,可以向仿真平台发送异常提醒,此时仿真平台可以接收到异常提醒,并确定出现了异常发生事件,然后对异常发生事件进行响应,进而执行本发明实施例提供的方法。
进一步,由于仿真平台通过数字孪生技术构建的仿真平台,因此,仿真平台中的数据与实际物理环境中的物理中心的数据是实时共享的,因此,在仿真平台中,也会实时同步出现异常数据,并产生告警,此时,仿真平台也可以响应此时的告警产生的异常发生事件,进而也可以执行本发明实施例提供的方法。
此外,仿真平台还可以接收运维人员触发的异常事件处理操作,即运维人员发现了数据中心异常,触发仿真平台对异常发生事件进行处理,此时,仿真平台也可以响应该异常发生事件,进而执行本发明实施例提供的方法。
进一步,上述检测时间范围指的是包括异常发生事件的发生时刻的一个时间范围,通常,该检测时间范围包括异常发生事件的发生时刻的前一段时间和后一段时间,例如,以t表示异常发生事件的发生时刻,或者成为目标时刻,则该检测时间范围可以表示为T(t-Δt,A+Δt),Δt则表示目标时刻往前的一段时间或者往后的一段时间。
步骤S204,选取检测时间范围内所有的监控指标值,计算所有的监控指标值在检测时间范围内的波动率;
在实际使用时,监控指标值指的是当前仿真平台对数据中心进行监控的监控指标的具体的数值,而本申请中的监控指标通常是部分监控数据,或者全部的监控数据,监控数据则是指数据中心的物理传感器采集的数据、数据中心中的服务器层面的监控数据,以及数据中心中应用程序层面的监控数据。
上述监控数据,最终都反应在图1所示的仿真平台的仿真内核中,具体地,在仿真内核的数据处理部分实现监控数据的收集,以便于在响应异常发生事件时能够执行上述步骤去选取监控指标值并计算波动率。
步骤S206,确定波动率大于预设波动率阈值的监控指标值为初筛异常指标;
步骤S208,计算初筛异常指标与告警指标的波动相似度,基于波动相似度选取与告警指标具有相似波动规律的初筛异常指标为目标监控指标值;
步骤S210,按照时间维度对目标监控指标值进行排序,以绘制第一异常关系图谱;
步骤S212,将第一异常关系图谱中的第一个时刻对应的目标监控指标值对应的监控对象确定为异常发生事件的根因,并基于根因生成根因分析,以便于根据根因分析对异常发生事件进行维护。
其中,监控对象指的是数据中心中具体部署的软件对象或者硬件对象,例如,如果目标监控指标值上述物理传感器采集的数据,具体地,可以是智能电表采集的某个服务器的电流,此时的监控对象可以直接定位到该服务器,也即,此时该服务器是该次异常发生事件的根因。
在实际使用时,由于异常事件的传递性,使得在某个根因异常后其对应的监控指标也会出现异常波动的规律,并且,该异常波动会以相似的波动规律向其他相关联的监控指标传递,因此,在时间维度上具有发生的先后顺序,上述步骤S210中,通过在时间维度上的排序分析得到的第一异常关系图谱可以有效实现运维过程中的根因快速定位,进而生成根因分析,以便于对异常发生事件进行维护和处置。
因此,本发明实施例提供的基于数字孪生的数据中心智能化运维方法,可以利用虚实联动的仿真平台可以获取数据中心的实物运行数据,通过由实物运行数据和仿真平台的运行数据组成的孪生数据驱动下,基于数据中心物理机房的服务器与仿真平台的虚拟机房及服务器的同步映射与实时交互,可以充分利用构建的仿真平台的信息处理模型来对数据中心的物理环境进行智能化运维,不仅减少了人工成本,也有效提高了数据中心的运维效率,同时,减少了人员进入数据中心机房的次数,无论是机房安全或是数据安全都有了极大的提升。
在实际使用时,为了便于对异常发生事件进行机理分析,通常对于数据中心的所有的监控数据,可以根据故障传播内在关系预先建立描绘监控指标的异常关系图谱,因此,本发明实施例中,还包括构建异常关系图谱的过程,该过程通常在仿真内核中的机理分析中实现,具体包括以下过程:
获取数据中心的监控数据;根据预设的故障传播内在关系描绘包含监控数据的异常关系图谱。
其中,监控数据包括设置于数据中心的物理传感器采集的数据、数据中心中服务器层面的监控数据,以及数据中心中应用程序层面的监控数据。
具体地,如图1所示,物理传感器采集的数据通常包括智能电表采集的数据,如服务器的电流、电压、功率等;温度传感器采集的机房温度、湿度传感器采集的机房湿度等;机架震动传感器采集的机架震动数据,以及,通过自动化标签采集的服务器等硬件设备的标识信息。
服务器层面的监控数据多指cpu使用率、磁盘繁忙率、***负载、内存使用率等;应用程序层面的监控数据则指:服务器的请求量、成功率、请求耗时等数据。
并且,基于上述预先建立的异常关系图谱,在上述步骤S210中,绘制第一异常关系图谱时,可以获取该预先构建的异常关系图谱,其中,异常关系图谱为以数据中心的所有的监控数据为监控指标构建的;然后在异常关系图谱中筛选出目标监控指标值,并根据筛选出的目标监控指标值在异常关系图谱中的内在关系绘制第一异常关系图谱。
为了便于理解,图3示出了一种异常关系图谱的示意图,以t1~t2时间范围为例,包括多个监控指标A~G,各个监控指标间的故障传播的内在关系以箭头表示,其中,故障传播的内在关系通常是基于经验构建或者生成的,例如,磁盘出现读写故障时,必然会导致CPU使用异常,同时也会导致应用程序的卡顿等等,这些故障间的传播都有一定的传递性和相似性,也即,存在一定的故障传播内在关系,通过分析这种故障传播的内在关系可以构建出图3所示的异常关系图谱,以便于根据整个异常链路上的时间先后顺序实现运维过程中根因的快速定位。
进一步,图4还示出了一种第一异常关系图谱的示意图,以t1~t4时间段为例,示出了部分监控指标在时间维度上发生先后的示意图。虽然部分监控指标可能存在同时发生的情况即t2时刻虚线所示的几个监控指标,以及t4时刻虚线所示的几个监控指标,但是在整个异常链路上还是具有时间先后的,因此,可以将第一异常关系图谱中的第一个时刻对应的目标监控指标值对应的监控对象确定为异常发生事件的根因。
进一步,本发明实施例中,在生成根因分析时,可以借助于预先建立的根因分析库,该根因分析库通常是基于以往的运维经验构建的,例如,对于某种根因可以直接给出该根因对应的监控对象的对象分析,如该监控对象可以产生什么故障类型,有哪些故障表现,以及具体的处置方式等等,因此,在生成根因分析时,可以先判断预先建立的根因分析库中是否记录有导致该异常发生事件的根因对应的对象分析;如果是,可以直接基于根因分析库记载的对象分析生成本次异常发生事件的根因分析;如果否,则可以根据实际的运维处置经验在根因分析库中添加该根因对应的监控对象的对象分析,对根因分析库进行更新,以及,根据添加的对象分析生成异常发生事件的根因分析。
进一步,上述步骤S204中,计算波动率时,通常按照下述公式计算检测时间范围内,所有的监控指标值的波动率:
其中,E表示监控指标值的波动率,t为异常发生事件的目标时刻,检测时间范围表示为T(t-Δt,A+ΔA),Δt表示目标时刻前后的时间差,si为第i个监控指标值,为检测时间范围内监控指标值的平均值。
在实际使用时,监控指标值作为数据中心的监控数据,一般都是时序数据,即,包括采集的时间点,以及对应的监控指标值,这样,可以基于上述公式在检测时间范围内进行计算,通过上述公式得到的波动率E可以缩小对监控指标值的异常定位的范围,以e表示波动率阈值,即检测时间范围内波动小于e的监控指标值可以不参与后续步骤的计算。
进一步,上述步骤S208中计算波动相似度时,通常采用预先建立的DTW(DynamicTime Warping,DTW)算法初筛异常指标与告警指标的相似度;由于数据中心的所有监控指标均是时序数据,因此,根据监控数据的特点可以采用动态时间规整/规划DTW算法。DTW算法能衡量给定的两个时间序列之间的相似度,同时DTW算法对两个时序序列的延展和压缩具有一定的适应性。
该算法可以包括如下步骤:
(1)给定两个监控指标的数据线序列数据:
H=h1,h2,……,hi,……,hm;
K=k1,k2,……,kj,……,kn;
(2)为了更好的计算两个序列的相似度,首先构建一个n*m的矩阵,矩阵元素(i,j)的值表示hi和kj两个点的距离d(hi,kj),即:序列H的每一个点到K序列每一个点的相似度,距离越小相似度越高,通常采用欧式距离d(hi,kj)=(hi,kj)2来计算。
(3)寻找一条从矩阵的左上角到右下角的路径,为了便于理解,图5示出了一种矩阵示意图,如图5所示,该路径用W来表示,W的第u个元素定义为wu=(wh(u),wk(u))其中wh(u)的值可能是1,2,……,m,wk(u)的值可能是1,2,……,n。
定义序列H和K的映射,这样可得:
W=w1,w2,w3,……,wu,……,wU max(m,n)≤U≤m+n-1
(4)建立相关的约束条件:
单调性:wh(u+1)≥wh(u)且wk(u+1)≥wk(u);
连续性:wh(u+1)-wh(u)≤1且wk(u+1)-wk(u)≤1;
边界条件:w1=(1,1)和wU=(m,n);
当满足上述约束条件时,DTW算法可以表示为规整代价最小的路径:
此时,DTW算法的计算公式表示为:
其中,本发明实施例中,H、K中,其中一个为初筛异常指标的数据序列,另一个为告警指标的数据序列,wu表示H、K的数据序列构建的数据矩阵中目标路径的第u个元素值;U表示目标路径中元素值的个数,同时,U也可以用于对不同长度规整路径做补偿。
当通过上述计算过程求出与告警指标具有相似波动规律的目标监控指标值之后,可以把他们在时间维度横坐标依次排开,即可以得到第一异常关系图谱,此时,排在最前面的第一个时刻的监控指标对应的监控对象即为产生这次异常发生事件的根因。
进一步,由图1可知,本发明实施例的仿真平台中还包括异常事件的发现、定位及自动处置的内容,这部分内容可以实现异常事件的发现,如上述异常发生事件的响应动作可以在该部分内容中完成,这部分数据可以实时传输至配置有数字孪生技术的仿真平台,异常的定位过程则可以通过内置在仿真内核中的算法设计的模块获得。
同时,对应的数据中心还可以配置维护机器人,因此,对于本发明实施例提供的智能化运维方法,如果上述根因分析中携带有作用于维护机器人的维护指令,则将维护指令发送至维护机器人,以使维护机器人基于维护指令对数据中心执行维护任务。
具体地,上述维护机器人的执行过程实际是在数据中心进行自动处置的过程,当在仿真中心进行异常定位后,可以通过数据孪生的仿真平台下发维护任务,物理环境下的数据中心的维护机器人,和仿真平台的数据中心内的孪生机器人将实时同步动作。
例如:由硬盘故障导致的异常事件A,定位到是SZ203机房的A1机架的EQ1主机的sde块磁盘故障。在仿真中心的交互界面前,工作人员只需要点击下发维护任务,物理环境下的数据中心就会自动调度带有机械手臂的AGV小车,自动从仓库货架取出新的同规格磁盘,并自动搬运至SZ203机房的A1机架的EQ1主机进行更换。整个过程不需要联系运维工程师申请进入机房,只需要仿真平台的交互及面前监控的工作人员下发维护任务,即可实现仿真平台动态实时监控维护任务的进度,以及了解整个过程中数据中心的实时状态,这将大大降低硬件维护的时间,保障了业务更快的恢复到故障前的状态,同时减少了人员进入机房的次数,无论是机房安全或是数据安全都是极大的提升。
进一步,本发明实施例还提供了一种基于数字孪生的数据中心智能化运维装置,应用于仿真平台,所述仿真平台为通过三维仿真软件对数据中心的构成元素进行预设比例建模得到的平台,且,所述仿真平台包含所述数据中心的实物模型,如图6所示的一种基于数字孪生的数据中心智能化运维装置的结构示意图,该装置包括:
响应模块60,用于响应异常发生事件,获取所述异常发生事件对应的检测时间范围,所述异常发生事件携带有告警指标;
第一计算模块62,用于选取所述检测时间范围内所有的监控指标值,计算所有的所述监控指标值在所述检测时间范围内的波动率;
确定模块64,用于确定所述波动率大于预设波动率阈值的所述监控指标值为初筛异常指标;
第二计算模块66,用于计算所述初筛异常指标与所述告警指标的波动相似度,基于所述波动相似度选取与所述告警指标具有相似波动规律的所述初筛异常指标为目标监控指标值;
排序模块68,用于按照时间维度对所述目标监控指标值进行排序,以绘制第一异常关系图谱;
分析模块69,用于将所述第一异常关系图谱中的第一个时刻对应的所述目标监控指标值对应的监控对象确定为所述异常发生事件的根因,并基于所述根因生成根因分析,以便于根据所述根因分析对所述异常发生事件进行维护。
进一步,本发明实施例还提供了一种仿真平台,该仿真平台为通过三维仿真软件对数据中心的构成元素进行预设比例建模得到的平台,且,所述仿真平台包含所述数据中心的实物模型;所述仿真平台的仿真内核配置有上述智能化运维装置,以执行前述智能化运维方法。
本发明实施例提供的智能化运维装置和仿真平台,与上述实施例提供的智能化运维方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。
进一步,本发明实施例还提供了一种电子设备的结构示意图,如图7所示,为该电子设备的结构示意图,其中,该电子设备包括处理器71和存储器70,该存储器70存储有能够被该处理器71执行的计算机可执行指令,该处理器71执行该计算机可执行指令以实现上述图1所示的方法。
在图7示出的实施方式中,该电子设备还包括总线72和通信接口73,其中,处理器71、通信接口73和存储器70通过总线72连接。
其中,存储器70可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口73(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线72可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线72可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器71可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器71中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器71可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器71读取存储器中的信息,结合其硬件完成前述方法的步骤。
本发明实施例所提供的基于数字孪生的数据中心智能化运维方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于数字孪生的数据中心智能化运维方法,其特征在于,应用于仿真平台,所述仿真平台为通过三维仿真软件对数据中心的构成元素进行预设比例建模得到的平台,且,所述仿真平台包含所述数据中心的实物模型,所述方法包括:
响应异常发生事件,获取所述异常发生事件对应的检测时间范围,所述异常发生事件携带有告警指标;
选取所述检测时间范围内所有的监控指标值,计算所有的所述监控指标值在所述检测时间范围内的波动率;
确定所述波动率大于预设波动率阈值的所述监控指标值为初筛异常指标;
计算所述初筛异常指标与所述告警指标的波动相似度,基于所述波动相似度选取与所述告警指标具有相似波动规律的所述初筛异常指标为目标监控指标值;
按照时间维度对所述目标监控指标值进行排序,以绘制第一异常关系图谱;
将所述第一异常关系图谱中的第一个时刻对应的所述目标监控指标值对应的监控对象确定为所述异常发生事件的根因,并基于所述根因生成根因分析,以便于根据所述根因分析对所述异常发生事件进行维护。
2.根据权利要求1所述的方法,其特征在于,绘制第一异常关系图谱的步骤,包括:
获取预先构建的异常关系图谱,其中,所述异常关系图谱为以所述数据中心的所有的监控数据为监控指标构建的;
在所述异常关系图谱中筛选所述目标监控指标值,并根据筛选出的所述目标监控指标值在所述异常关系图谱中的内在关系绘制所述第一异常关系图谱。
3.根据权利要求1所述的方法,其特征在于,基于所述根因生成根因分析的步骤,包括:
判断预先建立的根因分析库中是否记录有导致所述异常发生事件的根因对应的对象分析;
如果是,基于所述根因分析库记载的对象分析生成所述异常发生事件的根因分析;
如果否,在所述根因分析库中添加所述根因对应的所述监控对象的对象分析,以及,根据添加的所述对象分析生成所述异常发生事件的根因分析。
4.根据权利要求1所述的方法,其特征在于,计算所有的所述监控指标值在所述检测时间范围内的波动率的步骤,包括:
按照下述公式计算所述检测时间范围内,所有的所述监控指标值的波动率:
其中,E表示监控指标值的波动率,t为异常发生事件的目标时刻,检测时间范围表示为T(t-Δt,t+Δt),si为第i个监控指标值,为所述监控指标值的平均值。
5.根据权利要求1所述的方法,其特征在于,计算所述初筛异常指标与所述告警指标的波动相似度的步骤,包括:
采用预先建立的DTW算法计算所述初筛异常指标与所述告警指标的相似度;
其中,所述DTW算法的计算公式为:
其中,H、K中,其中一个为所述初筛异常指标的数据序列,另一个为所述告警指标的数据序列,wu表示H、K的数据序列构建的数据矩阵中目标路径的第u个元素值;U表示目标路径中元素值的个数。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述数据中心的监控数据;
根据预设的故障传播内在关系描绘包含所述监控数据的异常关系图谱;其中,所述监控数据包括设置于所述数据中心的物理传感器采集的数据、所述数据中心中服务器层面的监控数据,以及所述数据中心中应用程序层面的监控数据。
7.根据权利要求1所述的方法,其特征在于,所述数据中心还配置有维护机器人,所述方法还包括:
如果所述根因分析中携带有作用于所述维护机器人的维护指令,则将所述维护指令发送至所述维护机器人,以使所述维护机器人基于所述维护指令对所述数据中心执行维护任务。
8.一种基于数字孪生的数据中心智能化运维装置,其特征在于,应用于仿真平台,所述仿真平台为通过三维仿真软件对数据中心的构成元素进行预设比例建模得到的平台,且,所述仿真平台包含所述数据中心的实物模型,所述装置包括:
响应模块,用于响应异常发生事件,获取所述异常发生事件对应的检测时间范围,所述异常发生事件携带有告警指标;
第一计算模块,用于选取所述检测时间范围内所有的监控指标值,计算所有的所述监控指标值在所述检测时间范围内的波动率;
确定模块,用于确定所述波动率大于预设波动率阈值的所述监控指标值为初筛异常指标;
第二计算模块,用于计算所述初筛异常指标与所述告警指标的波动相似度,基于所述波动相似度选取与所述告警指标具有相似波动规律的所述初筛异常指标为目标监控指标值;
排序模块,用于按照时间维度对所述目标监控指标值进行排序,以绘制第一异常关系图谱;
分析模块,用于将所述第一异常关系图谱中的第一个时刻对应的所述目标监控指标值对应的监控对象确定为所述异常发生事件的根因,并基于所述根因生成根因分析,以便于根据所述根因分析对所述异常发生事件进行维护。
9.一种仿真平台,其特征在于,所述仿真平台为通过三维仿真软件对数据中心的构成元素进行预设比例建模得到的平台,且,所述仿真平台包含所述数据中心的实物模型;
所述仿真平台的仿真内核配置有权利要求8所述的智能化运维装置,以执行权利要求1~7任一项所述的基于数字孪生的数据中心智能化运维方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述权利要求1-7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310553209.XA CN116595756A (zh) | 2023-05-16 | 2023-05-16 | 基于数字孪生的数据中心智能化运维方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310553209.XA CN116595756A (zh) | 2023-05-16 | 2023-05-16 | 基于数字孪生的数据中心智能化运维方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116595756A true CN116595756A (zh) | 2023-08-15 |
Family
ID=87598631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310553209.XA Pending CN116595756A (zh) | 2023-05-16 | 2023-05-16 | 基于数字孪生的数据中心智能化运维方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595756A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116962673A (zh) * | 2023-09-21 | 2023-10-27 | 四川君恒泰电子电器有限公司 | 一种应用于智能电视主板***的异常检测方法及*** |
CN117880055A (zh) * | 2024-03-12 | 2024-04-12 | 灵长智能科技(杭州)有限公司 | 基于传输层指标的网络故障诊断方法、装置、设备及介质 |
CN117997782A (zh) * | 2024-01-08 | 2024-05-07 | 联通数字科技有限公司 | 一种数据中心机房运营平台 |
-
2023
- 2023-05-16 CN CN202310553209.XA patent/CN116595756A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116962673A (zh) * | 2023-09-21 | 2023-10-27 | 四川君恒泰电子电器有限公司 | 一种应用于智能电视主板***的异常检测方法及*** |
CN116962673B (zh) * | 2023-09-21 | 2023-12-15 | 四川君恒泰电子电器有限公司 | 一种应用于智能电视主板***的异常检测方法及*** |
CN117997782A (zh) * | 2024-01-08 | 2024-05-07 | 联通数字科技有限公司 | 一种数据中心机房运营平台 |
CN117880055A (zh) * | 2024-03-12 | 2024-04-12 | 灵长智能科技(杭州)有限公司 | 基于传输层指标的网络故障诊断方法、装置、设备及介质 |
CN117880055B (zh) * | 2024-03-12 | 2024-05-31 | 灵长智能科技(杭州)有限公司 | 基于传输层指标的网络故障诊断方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116595756A (zh) | 基于数字孪生的数据中心智能化运维方法及装置 | |
US20190228296A1 (en) | Significant events identifier for outlier root cause investigation | |
CN101978389B (zh) | Vao生产率套件 | |
CN114676862B (zh) | 一种数据中心的可视化运维管理方法及*** | |
CN111339175B (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN111210108B (zh) | 一种电力物资供应链的绩效管控模型 | |
JPWO2021222384A5 (zh) | ||
CN113179173B (zh) | 一种用于高速公路***的运维监控*** | |
US20220035356A1 (en) | Equipment failure diagnosis support system and equipment failure diagnosis support method | |
JP2023518771A (ja) | 機械学習に基づくデータ・モニタリング | |
CN113837596B (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
CN108255620A (zh) | 一种业务逻辑处理方法、装置、业务服务器及*** | |
US20210383532A1 (en) | Systems and methods for resource analysis, optimization, or visualization | |
CN111949429A (zh) | 基于密度聚类算法的服务器故障监测方法及*** | |
CN116955434A (zh) | 一种工业装备全生命周期管理及多维度能效分析*** | |
CN111045363B (zh) | 信息通信网络智能化运维管控云平台 | |
CN111123873B (zh) | 一种基于流处理技术的生产数据采集方法及*** | |
CN116703303A (zh) | 基于多层感知机与rbf的仓储可视化监管***及方法 | |
CN111709597B (zh) | 一种电网生产域运营监测*** | |
CN114312930B (zh) | 基于日志数据的列车运行异常诊断方法和装置 | |
CN115471215A (zh) | 一种业务流程处理方法及装置 | |
CN111914002B (zh) | 机房资源信息处理方法、装置和电子设备 | |
CN113220551A (zh) | 指标趋势预测及预警方法、装置、电子设备及存储介质 | |
CN113537519A (zh) | 一种识别异常设备的方法和装置 | |
CN113129027B (zh) | 基于区块链的对象管理方法、装置、计算设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |