CN110971464A - 一种适合灾备中心的运维自动化*** - Google Patents

一种适合灾备中心的运维自动化*** Download PDF

Info

Publication number
CN110971464A
CN110971464A CN201911258019.5A CN201911258019A CN110971464A CN 110971464 A CN110971464 A CN 110971464A CN 201911258019 A CN201911258019 A CN 201911258019A CN 110971464 A CN110971464 A CN 110971464A
Authority
CN
China
Prior art keywords
management
data
alarm
maintenance
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911258019.5A
Other languages
English (en)
Inventor
林佳能
苏志勇
林庆瑞
黄燕珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN201911258019.5A priority Critical patent/CN110971464A/zh
Publication of CN110971464A publication Critical patent/CN110971464A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种适合灾备中心的运维自动化***,包括数据存储、***功能、前端界面和对外接口;所述数据存储:把第三方运维自动化***中采集的运行数据、性能数据、告警数据信息,通过接口的方式采集录入到六大资源库中,以及通过采集技术收集现在***不提供的信息,包括日志数据、信息***性能数据,为告警中心、配置管理、部署管理和诊断分析模块提供底层数据支撑。本发明中,本***将通过研发一套切合灾备中心信息运维实际的自动化告警、部署、配置和运行诊断工具,并通过工具开展业务应用的性能监测及可靠性监测、自动化部署和自动化配置,能够有效促进灾备中心未来的“调运检”体系优化。

Description

一种适合灾备中心的运维自动化***
技术领域
本发明涉及IT运维技术领域,尤其涉及一种适合灾备中心的运维自动化***。
背景技术
以下从四个方面阐述目前灾备中心的问题与现状:
一、告警集中化管理
目前灾备中心维护的设备及***多,由于历史项目建设原因,目前面对的监控***多而杂,如市面上的机房基础环境监控***包含了动力与环监控、安防监控、智能楼宇、机房环境监控,综合网管***包含了各类服务器、网络安全设备、存储设备监控、数据库及中间件等监控,重复、多头告警现象突出,告警管理的集约化不能得到很好的体现,就会给运维人员本来繁杂的工作带来很多不便。
因此,急需建设告警数据集成、格式化处理、计算和统一显示的集中式运维数据告警模块,并能够通过移动交互等手段将告警信息第一时间送达运维责任人,从而避免重复告警、告警数据不准确、不及时的问题,提高运检人员工作效率,缩短设备故障处理时间。
二、应用自动化部署
根据对灾难的容忍能力、***恢复所用的时间及数据丢失的程度,国家标准GB/T20988-2007《信息***灾难恢复规范》将灾备***分为7个等级。其中第5级是在异地建立一个与源应用***完全相同的备用***,并采用异步的方式进行数据同步。当灾难发生时,备用***接替源问题***继续工作,但会存在数据丢失问题;第6级是在异地建立一个与源应用***完全相同的备用***,并采用同步方式进行数据复制。当灾难发生时,备用***完全接替源问题***进行工作,并且可以实现数据零丢失。
为解决当灾难发生时备用信息***完全接替源生产***进行工作的需要,有必要开展应用级灾备策略和工具建设,从而满足国标GB/T 20988-2007对应第6级提出的要求,并为支撑未来云数据中心建设奠定基础。
三、自动化配置管理
目前的灾备中心大多没有统一的配置管理库,也没有相应的***支撑,运检人员对配置文件的操作都是基于线下手工的处理,效率极低,而且对运检人员水平的依赖程序非常高,出现***后,信息设备出现故障时新接手人员很难第一时间进行修复。为了解决上述问题,实现对灾备中心各应用***、路由器等信息设备配置信息的自动同步、快速推送和切换。包括路由器、主机***、应用软件配置信息版本化管理,升级或设备故障时的配置比对及替代,负载或故障时的***重启,或升级失误时的配置回滚等。自动化配置的实现,将能大大解放当前检修人员的工作量。
四、故障自动化诊断
当前灾备中心一般会利用网管等监控***基本实现了软硬件资源巡检,并积累了大量监控、故障、缺陷、隐患、检修、日志、配置数据,但各类数据离散化存储,未能很好建立关联分析,故障分析基本处于事后分析阶段,应用性能分析能力不足,运行隐患主动发现能力及运行主动预警能力有待提升,传统的数据分析手段难以解决当前运维面临的问题。对于信息通信***的故障可能性预测还依赖于人工收集到的监控数据去进行繁杂的运算,还不能够及时有效的对发生的故障信息进行预测并排除,因不可预见的故障引起大范围的运行异常导致的损失是不可估量的。因此,有必要利用大数据技术对日志、运行等数据进行深度挖掘,提取隐患信息,变被动式故障处理为主动出击,从而达到早发现早规避、早治理的效果。
发明内容
本发明的目的在于:为了解决上述背景技术中存在的问题,而提出的一种适合灾备中心的运维自动化***。
为了实现上述目的,本发明采用了如下技术方案:
一种适合灾备中心的运维自动化***,包括数据存储、***功能、前端界面和对外接口;
所述数据存储:把第三方运维自动化***中采集的运行数据、性能数据、告警数据信息,通过接口的方式采集录入到六大资源库中,以及通过采集技术收集现在***不提供的信息,包括日志数据、信息***性能数据,为告警中心、配置管理、部署管理和诊断分析模块提供底层数据支撑;
所述***功能:当前***提供的所有主体功能,包括告警中心、配置管理、部署管理、诊断分析、日志数据采集、性能采集和接口管理模块;
所述前端界面包括部署介质管理、配置文件管理、资源调度监盘视图、诊断结果报告、分析报表和数据同步结果展示;
所述对外接口包括预留对外接口,对外接供数据接口与界面调用接口。
作为上述技术方案的进一步描述:
所述日志数据采集、性能数据采集:作为补充数据来源的采集技术手段为上述功能提供基础数。
作为上述技术方案的进一步描述:
所述告警中心包括告警指标管理、告警资源管理、告警模板管理、告警策略管理和告警展示管理。
作为上述技术方案的进一步描述:
所述配置管理包括配置同步管理、感知策略管理、配置比对管理、配置推送管理、补丁采集管理、客户端管理和补丁发布管理。
作为上述技术方案的进一步描述:
所述部署管理包括同步管理、高可用设置、自动化部署和容灾调度策略功能。
作为上述技术方案的进一步描述:
所述诊断分析包括硬件巡检、可靠性警报、健康度评估和故障定位。
作为上述技术方案的进一步描述:
所述六大资源库包括知识库、CMDB库、软件发布库、运行分析库、配置管理库和日志存储库。
作为上述技术方案的进一步描述:
所述前端界面展示包括桌面工作台和移动工作台,所述桌面工作台包括告警台、诊断分析报表、部署管理视图和配置管理视图,所述移动工作台包括告警台和预警分析报表。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,支撑信息通信的智能运维和主动检修,提高信息运维技术水平,提高信息通信运检效率,保障信息通信***的运行质量和服务质量。
2、本发明中,促进信息通信自动化运维能力提升,简化业务***的维护工作。通过本项目研究,面向信息设备及应用***构建性能可靠性检测、故障分析以及问题定位,提升灾备中心业务状态实时发现能力;极大降低当前***问题发现、故障诊断等工作中对IT专家的依赖,简化业务***维护工作,进而降低运维成本。
3、本发明中,部署与更新是运维管理中一个非常重要的组成部分。它可以增强***的功能,提高***运行容灾能力,让***更好地发挥起最大性能,同时也能修补***的漏洞,增强***的可靠性和安全性,防止***遭到病毒或黑客的攻击与破坏。一般来说,不同的软件***都采用了不一样的升级与更新方法,使用不同的自动化部署更新策略就能够减少运维人员的线下工作,并使得部署更新过程中的信息有迹可循。
4、本发明中,通过实现统一自动化配置管理平台,从而在保障配置正确性、安全性、合规性的基础上,充分解放运维人员日常繁琐的配置工作。
附图说明
图1为本发明提出的一种适合灾备中心的运维自动化***的总体构架图的结构示意图;
图2为本发明提出的一种适合灾备中心的运维自动化***的业务构架图的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
请参阅图1-2,一种适合灾备中心的运维自动化***,分为数据存储、***功能、前端展示和对外接口,***建设严格遵循信息化标准规范体系、信息化运维保障体系及信息安全防护体系;
数据存储:把第三方运维自动化***中采集的运行数据、性能数据、告警数据等信息,通过接口的方式采集录入到六大资源库中,以及通过采集技术收集现在***不提供的信息,包括:日志数据、信息***性能数据,为告警中心、配置管理、部署管理、诊断分析等模块提供底层数据支撑;
***功能:当前***提供的所有主体功能,包括:告警中心、配置管理、部署管理、诊断分析、日志数据采集、性能采集、接口管理等功能模块;
前端展示:部署介质管理、配置文件管理、资源调度监盘视图、诊断结果报告、分析报表、数据同步结果展示等;
日志数据采集、性能数据采集:作为补充数据来源的采集技术手段为上述功能提供基础数;
对外接口:预留对外接口,对外接供数据接口与界面调用接口。
进一步描述如下:
·告警中心
告警中心是指对各软硬件资产的性能、配置和状态进行告警处理,当发现异常或故障时确定问题的原因,达到快速解析问题的能力,做到提前发现问题提前告警,并实现了告警模板和参数指标的定制,自动记录告警全流程,自动生成本次告警及分析处理报告。
运维人员可以根据当前***的运行情况,对有问题的告警信息进行处理,并关闭告警,***会在运维人员关闭告警时,管理人员可以新增、修改、删除、启用各指标模板,普通运维人员可以新增指标模板,但要经过管理人员的审核,模板才能被启用,只有被启用的模板才能被抽取任务选择。分析时就是以模板中各指标的阈值作为分析衡量标准,当达到或超过该阈值时就进行告警。对告警抽取任务配置调度计划,抽取任务既可以人工触发执行,也可在设定的时间窗口自动周期性执行,并且可以在特殊时期(如春检、秋检等)实现密集检查。操作人员还可以根据自己的日常工作需要配置抽取规则,如规则每天晚上10点时进行告警分析,不一样的任务可以配置自己的规则。
***通过分析统计可自动生成如下告警报表:
告警管理报表:在告警分析的基础上,对当前告警和历史告警的查询、统计和分析功能,并给出故障分析报告等信息,为透彻掌握***运行情况提供分析数据。维护人员通过报表查看和处理告警和故障,对***运行状况进行快速总结和汇报;管理人员也能够通过报表看到故障发生、处理、趋势等数据和图表,作为决策和考核的数据基础。
日志分析报表:通过对网络设备、应用服务器、Web服务器、数据库服务器、操作***、应用***等软硬件设备产生的事件日志、用户访问日志、错误日志等进行分类归档,对能反映***服务失效的日志类型、日志内容进行筛选,建立日志数据与用户行为安全性、***可靠性之间的关联模型,为用户行为安全审计、行为异常检测、***缺陷检测、故障预警提供依据,包括:
(1)对纳入行为安全审计体系的非法行为操作(如数据泄露、数据窜改等)具备事后追溯能力,加强事前识别,事中监控阻断能力。
(2)对某些合法但是异常的行为进行分析和抽取(如在非工作时间以管理员身份登录业务***的操作),避免由内部人员或社会工程学等非技术方法的入侵。
(3)对软硬件的潜在缺陷进行汇总,及时提示运维人员处理可能的故障,避免业务***宕机导致的损失。
·配置管理
配置管理模块包括以下七个功能:
1.配置同步管理
配置同步管理实现各种资源配置信息的主动采集与版本化管理,并对不同型号资源的配置信息,根据不同的业务应用形成不同的专家模板,以便于在不同业务场景下对同型号的设备进行批量配置,提升配置效率。
功能主要为网络、主机、存储、平台软件等资源的配置信息进行统一管理,包括:1)同步脚本管理;2)专家模型管理;3)配置同步管理;4)配置历史管理。
2.感知策略管理
感知策略管理能根据软、硬件资源、基础环境的外部因素,配置环境的危险警戒库,对外部环境由于硬件故障或软、硬件资源由于负载过高等因素造成环境不安全时或***不稳定时,工具能自动根据既定策略做出一些应对措施,以防止灾难的出现,确保整个环境的安全、稳定的运行。
功能包括以下子功能:1)危险警戒配置;2)感知策略管理;3)策略脚本管理。
3.配置比对管理
配置比对管理实现灾备中心基础信息的合规性比对,包括:账号、空口令、弱口令、IP、端口等信息的合规性校验,以及各资源的配置信息与配置管理库中对应配置信息的比对,对出现信息不匹配的情况进行告警。
功能包括以下子功能:1)合规库管理;2)合规性校验;3)配置信息比对。
4.配置推送管理
业务总体情况:配置推送管理实现各软、硬件的配置信息在线编辑形成版本后,通过***的推送功能,把配置好的信息推送到指定的***中,复盖原先的配置信息,并根据推送策略对应用***或硬件设备进行重启等后继操作。配置推送管理全过程包括:策略配置、配置推送。
功能包括以下子功能:1)策略配置;2)配置推送。
5.补丁采集管理
补丁采集管理模块由补丁服务器完成,具体地分为父服务器和子服务器。父服务器(部署在信息外网)负责从官方网络上自动下载补丁,并将补丁提供给所有的下级子服务器或客户端。在整个补丁管理***中只有父服务器从外网获取补丁,其余组件的补丁均来源于父服务器。因此,父服务器的补丁获取能力决定了整个***的补丁更新能力。子服务器(部署在信息内网)与上级父服务器中的补丁信息保持同步,可以下连客户端或下一级的子服务器。子服务器的设立可以减轻父服务器的补丁分发负担,并方便***网络结构的任意扩展。
功能包括以下子功能:1)补丁信息收集;2)补丁自动下载;3)补丁存储管理。
6.客户端管理
客户端即具体的数据中心中的主机、数据库、中间件,从上级服务器下载所需的补丁及补丁信息,并实现对本地补丁信息的自动管理。在实际使用中,将客户端连接到通信速率较快的服务端,会提高整个***的补丁分发效率。
客户端管理包括以下子功能:补丁信息更新、补丁检测。
7.补丁发布管理
补丁发布管理是一个可控制流程,主动的补丁管理过程和风险评估、应急响应是分不开的。具体的,它是在对服务端的补丁信息进行同步并对客户端的环境以及现有补丁等前置条件进行校验后,进行升级补丁的发布。该过程实际上是由客户端发起,进行新增补丁的下载和安装,随后进行兼容性检测;当发现存在问题时发出告警,由管理员决定是否回滚至升级补丁前的状态,从而保障***的稳定。
功能主要包括以下子功能:补丁的自动下载、自动安装/回滚、兼容性检测、补丁发布日志管理。
·部署管理
自动化配置功能首先需要建立配置库。配置库能够将不同资源、不同厂商、不同型号的资产的脚本、应用安装介质、配置参数、参数文件、许可文件等统一进行管理和维护。其包括脚本库、应用库、参数库和文件库,功能上应支持文件的上传、下载、展现及在线编辑等。***将应用代码集中存放在SVN服务器上,将其它介质存放在FTP上。
配置管理主要执行对设备、操作***、中间件、数据库、应用***等的参数优化、状态更新、应用发布等操作。包括参数配置、应用发布、回滚管理。
通过研究开发涵盖整个数据中心业务***应用、存储、网络和服务器运维管理生命周期的自动化配置管理***,需要实现在自动化配置管理***方面的以下功能:
a)应用发布:建立类似于SVN版本管理的***源码及全量或增量发布版本的管理库和配置参数的管理库,形成针对不同应用环境及软件版本的标准化模板(确定发布环境、流程、方案、任务,启动发布任务,监测发布的过程,验证并测试,发布后续处理并确定是否需要回滚),实现应用***的发布、回滚的全过程管理。
b)集中的配置管理:实现自动配置发现、实时的变更检测,采用增量备份机制,保证整个***的配置信息的准确性和完整性。基于脚本实现对设备、操作***、中间件、数据库和应用***等的动态配置。包括针对操作***的内核优化,针对中间价、数据库的运行状态优化,针对应用***的***参数、数据库连接等参数推送,以及在两会、保电、迎峰度夏等特殊运行时期、不同场景的运行方式自动配置。
c)统一的用户权限管理:实现开放平台***登录的唯一入口,对开放平台所有服务器用户进行集中认证、统一管理和单点登录(SSO)。保证整个开放平台的用户权限管理可以更加灵活,规范。
d)强化补丁程序管理:实现对所管理***的补丁安装情况的集中记录,基于规则的漏洞检查,基于策略的补丁程序自动安装。
d)严格的合规审计:周期性根据预设的配置模扳对被管理设备的配置信息进行比对,并将任何不合规配置进行警示。
e)高效的变更手段:提供高效的变更手段,可虚拟化地集中从远程对被管理设备进行变更操作;可根据设定的规则执行自动变更。
f)科学的可视化管理:基于配置信息,以应用为视角提供服务器间的应用关系视图。服务器管理***的建设同时会对规划、设计、实施提供帮助,比如提供规划设计所需要的现状的评估,发现服务器或应用的瓶颈,并通过服务器管理的变更流程规范变更实施部署工作。
·诊断分析
诊断分析主要通过采集技术、接口技术,把生产环境中被监测的软硬件资源的运行数据、性能数据、用户行为数据抽取出来,通过挖掘技术把这些数据进行指标提取,并借助大数据分析与各种算法,建立一套完善的诊断模型,通过模型对监测资源实时产生的数据进行分析,从而判断当前软硬件资源的可靠性、健康度以及故障问题的精准定位,同时借助于流程化技术手段,把运检人员日常的工作行为固化到***中,由***替代人工作业方式,来提高运检人员的工作效率,从而增强***的健康稳定运营,提升用户体验的满意度。
硬件设备巡检
建立硬件配置信息合规库、指标阈值库、配置库、知识库,对提取的指标信息进行合规匹配与阈值比较,对不合规的或超阈值的部分指标进行分类与告警,从而达到快速运检的目标,同时把这一检测步骤,以流程的方式固化到***中,由***根据任务周而复始地执行工作,从而达到硬件设备巡检的目的。
·可靠性预警
通过基于JAVA字节码的监测技术,实现信息***性能数据的采集,对采集回来的性能指标信息与相关资源的运行指标信息进行整合,通过BP神经网络算法,依托大数据技术对所有指标的历史数据进行可靠性模型建模。设置可靠性指标实时抽取任务,对生产环境中的资源的可靠性指标进行实时抽取,并依托可靠性模型与大数据技术对实时数据进行可靠性分析,从而计算出被监测***将来一段时间区间内的可靠性情况。
·健康度评估
日志与业务***可靠性分析之间的关系,顾名思义,就是利用某种挖掘手段去发现日志与业务可靠性分析之间的联系,而这种手段便是关联规则算法。在这个关系梳理总,我们首先要做的是建立业务***可靠性模型;其次是挖掘日志与业务***可靠性的关联关系。
业务***可靠性模型是业务***可靠性定量分析的技术基础,它是根据与业务***可靠性有关的数据,以统计的方法或模糊方法对软件的可靠性进行度量。这些数据主要包括规定时间内软件失效次数、软件可靠度、软件失效率和平均失效间隔时间。目前将模型分为两类:随机过程类和非随机过程类。其中,随机过程类模型主要包括马尔可夫过程模型和非齐次泊松过程模型,马尔可夫过程模型的典型代表是J-M模型,其失效函数的变量是以第i-1次失效为起点的第i次失效发生的时间,该变量时服从一定分布的随机变量;非齐次泊松过程模型的典型代表是G-O模型,其基本假设是在时刻t能够检测出的故障数和此时软件中潜伏的故障数成正比,而在时刻t检测出的累积故障数是在一定条件下服从齐次泊松分布的时间函数N(t),期失效率函数包含时间变量。非随机过程类模型主要包括以L-V模型为代表的运用贝叶斯估计的模型,以Mills模型为代表的Seeding模型,以Nelson模型为代表的基于输入域的模型,以及一些诸如非参数分析法、结构化的其他可靠性模型,其中,Nelson模型在软件确认阶段获得方法应用,是重要的软件可靠性模型之一。
通过对网络设备、应用服务器、Web服务器、数据库服务器、操作***、应用***等软硬件设备产生的事件日志、用户访问日志、错误日志等进行分类归档,应用主成份分析法、正交缺陷分类法等方法,对能反映***服务失效的日志类型、日志内容进行筛选,建立日志数据与***可靠性之间的关联模型,为进一步研发日志与业务***的可靠性分析技术提供依据。
·故障定位
当前信息***已经由原来单***模式向网络化发展,设备与设备之间、***与***之间形成错综复杂的关系网,这给故障的定位带来很大的挑战,常常追踪一个简单的问题去牵扯出整个***性的故障风险,或者问题的跟源与暴露的问题却完全南辕北辙。在查找问题的根源与解决问题本身相比,该过程更加复杂与漫长,这给运检人员日常的检测工作带来巨大的挑战。建立一套机制实现故障的精准定位是非常有必要的,也是精准化运维的核心。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种适合灾备中心的运维自动化***,其特征在于,包括数据存储、***功能、前端界面和对外接口;
所述数据存储:把第三方运维自动化***中采集的运行数据、性能数据、告警数据信息,通过接口的方式采集录入到六大资源库中,以及通过采集技术收集现在***不提供的信息,包括日志数据、信息***性能数据,为告警中心、配置管理、部署管理和诊断分析模块提供底层数据支撑;
所述***功能:当前***提供的所有主体功能,包括告警中心、配置管理、部署管理、诊断分析、日志数据采集、性能采集和接口管理模块;
所述前端界面包括部署介质管理、配置文件管理、资源调度监盘视图、诊断结果报告、分析报表和数据同步结果展示;
所述对外接口包括预留对外接口,对外接供数据接口与界面调用接口。
2.根据权利要求1所述的一种适合灾备中心的运维自动化***,其特征在于,所述日志数据采集、性能数据采集:作为补充数据来源的采集技术手段为上述功能提供基础数。
3.根据权利要求1所述的一种适合灾备中心的运维自动化***,其特征在于,所述告警中心包括告警指标管理、告警资源管理、告警模板管理、告警策略管理和告警展示管理。
4.根据权利要求1所述的一种适合灾备中心的运维自动化***,其特征在于,所述配置管理包括配置同步管理、感知策略管理、配置比对管理、配置推送管理、补丁采集管理、客户端管理和补丁发布管理。
5.根据权利要求1所述的一种适合灾备中心的运维自动化***,其特征在于,所述部署管理包括同步管理、高可用设置、自动化部署和容灾调度策略功能。
6.根据权利要求1所述的一种适合灾备中心的运维自动化***,其特征在于,所述诊断分析包括硬件巡检、可靠性警报、健康度评估和故障定位。
7.根据权利要求1所述的一种适合灾备中心的运维自动化***,其特征在于,所述六大资源库包括知识库、CMDB库、软件发布库、运行分析库、配置管理库和日志存储库。
8.根据权利要求1所述的一种适合灾备中心的运维自动化***,其特征在于,所述前端界面展示包括桌面工作台和移动工作台,所述桌面工作台包括告警台、诊断分析报表、部署管理视图和配置管理视图,所述移动工作台包括告警台和预警分析报表。
CN201911258019.5A 2019-12-10 2019-12-10 一种适合灾备中心的运维自动化*** Pending CN110971464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911258019.5A CN110971464A (zh) 2019-12-10 2019-12-10 一种适合灾备中心的运维自动化***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911258019.5A CN110971464A (zh) 2019-12-10 2019-12-10 一种适合灾备中心的运维自动化***

Publications (1)

Publication Number Publication Date
CN110971464A true CN110971464A (zh) 2020-04-07

Family

ID=70033540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911258019.5A Pending CN110971464A (zh) 2019-12-10 2019-12-10 一种适合灾备中心的运维自动化***

Country Status (1)

Country Link
CN (1) CN110971464A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084244A (zh) * 2020-09-02 2020-12-15 杭州数云信息技术有限公司 基于sso和cmdb的企业统一报警管理方法
CN112398823A (zh) * 2020-11-03 2021-02-23 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 基于大数据分析的网络信息安全预警平台
CN112612831A (zh) * 2020-12-14 2021-04-06 南方电网数字电网研究院有限公司 一种预警***的运维流程管理性能优化方法
CN113434404A (zh) * 2021-06-24 2021-09-24 北京同创永益科技发展有限公司 校验灾备***可靠性的自动化业务验证方法及装置
CN114465884A (zh) * 2022-01-28 2022-05-10 浙江大华技术股份有限公司 一种自动巡检的方法、设备、***及程序产品
CN116431454A (zh) * 2023-04-17 2023-07-14 石家庄卡尚科技有限公司 一种大数据的计算机性能控制***及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102983999A (zh) * 2012-11-22 2013-03-20 安科智慧城市技术(中国)有限公司 一种监控平台***及设备群的参数配置方法、***
CN103019159A (zh) * 2011-09-20 2013-04-03 朗德华信(北京)自控技术有限公司 基于云计算的电梯设备管理控制***及方法
CN106330540A (zh) * 2016-08-23 2017-01-11 成都聚美优品科技有限公司 一种互联网自动化运维管理方法
CN107046481A (zh) * 2017-04-18 2017-08-15 国网福建省电力有限公司 一种信息***综合网管***综合分析平台
CN107977287A (zh) * 2016-10-21 2018-05-01 中兴通讯股份有限公司 一种应用容灾实现方法、装置及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019159A (zh) * 2011-09-20 2013-04-03 朗德华信(北京)自控技术有限公司 基于云计算的电梯设备管理控制***及方法
CN102983999A (zh) * 2012-11-22 2013-03-20 安科智慧城市技术(中国)有限公司 一种监控平台***及设备群的参数配置方法、***
CN106330540A (zh) * 2016-08-23 2017-01-11 成都聚美优品科技有限公司 一种互联网自动化运维管理方法
CN107977287A (zh) * 2016-10-21 2018-05-01 中兴通讯股份有限公司 一种应用容灾实现方法、装置及***
CN107046481A (zh) * 2017-04-18 2017-08-15 国网福建省电力有限公司 一种信息***综合网管***综合分析平台

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084244A (zh) * 2020-09-02 2020-12-15 杭州数云信息技术有限公司 基于sso和cmdb的企业统一报警管理方法
CN112398823A (zh) * 2020-11-03 2021-02-23 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 基于大数据分析的网络信息安全预警平台
CN112612831A (zh) * 2020-12-14 2021-04-06 南方电网数字电网研究院有限公司 一种预警***的运维流程管理性能优化方法
CN112612831B (zh) * 2020-12-14 2023-10-17 南方电网数字电网研究院有限公司 一种预警***的运维流程管理性能优化方法
CN113434404A (zh) * 2021-06-24 2021-09-24 北京同创永益科技发展有限公司 校验灾备***可靠性的自动化业务验证方法及装置
CN113434404B (zh) * 2021-06-24 2024-03-19 北京同创永益科技发展有限公司 校验灾备***可靠性的自动化业务验证方法及装置
CN114465884A (zh) * 2022-01-28 2022-05-10 浙江大华技术股份有限公司 一种自动巡检的方法、设备、***及程序产品
CN116431454A (zh) * 2023-04-17 2023-07-14 石家庄卡尚科技有限公司 一种大数据的计算机性能控制***及方法
CN116431454B (zh) * 2023-04-17 2023-11-14 云上遵义大数据有限公司 一种大数据的计算机性能控制***及方法

Similar Documents

Publication Publication Date Title
US10901727B2 (en) Monitoring code sensitivity to cause software build breaks during software project development
CN110971464A (zh) 一种适合灾备中心的运维自动化***
US10310968B2 (en) Developing software project plans based on developer sensitivity ratings detected from monitoring developer error patterns
US10540502B1 (en) Software assurance for heterogeneous distributed computing systems
CN101321084A (zh) 在计算机环境中利用关联规则挖掘为计算实体产生配置规则的方法和装置
US8990372B2 (en) Operation managing device and operation management method
US9720999B2 (en) Meta-directory control and evaluation of events
CN110088744B (zh) 一种数据库维护方法及其***
EP2648104A1 (en) Dependability maintenance device, dependability maintenance system, malfunction supporting system, method for controlling dependability maintenance device, control program, computer readable recording medium recording control program
CN111078490A (zh) 一种基于操作***监控分析的服务器安全保障方法及***
US11934855B2 (en) System and method to autonomously manage hybrid information technology (IT) infrastructure
CN110063042A (zh) 一种数据库故障的响应方法及其终端
CN111181775B (zh) 基于自动发现主机资产的一体化运维管理告警方法
CN112733147A (zh) 设备安全管理方法及***
KR20230062761A (ko) 시스템 장애 통합관리방법
CN117422434A (zh) 一种智慧运维调度平台
KR100496958B1 (ko) 시스템 장애 통합관리방법
CN116149824A (zh) 任务重跑的处理方法、装置、设备及存储介质
CN114500106A (zh) 一种服务器的安全管理方法、装置、设备和存储介质
CN115543377A (zh) 一种基于人工智能的erp***升级方法及erp***
CN112817827A (zh) 运维方法、装置、服务器、设备、***及介质
US10735246B2 (en) Monitoring an object to prevent an occurrence of an issue
CN113836525B (zh) 云服务商行为风险的分析方法及装置
CN117914692A (zh) 内置数据处理单元的安全数据的处理方法、***及设备
CN118093547A (zh) 基于cmdb的数据管理***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200407

RJ01 Rejection of invention patent application after publication