CN103812699A - 基于云计算的监控管理*** - Google Patents

基于云计算的监控管理*** Download PDF

Info

Publication number
CN103812699A
CN103812699A CN201410052286.8A CN201410052286A CN103812699A CN 103812699 A CN103812699 A CN 103812699A CN 201410052286 A CN201410052286 A CN 201410052286A CN 103812699 A CN103812699 A CN 103812699A
Authority
CN
China
Prior art keywords
fault
management system
monitoring management
monitoring
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410052286.8A
Other languages
English (en)
Inventor
许广彬
郭晓
张银滨
李德才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Huayun Data Technology Service Co Ltd
Original Assignee
Wuxi Huayun Data Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Huayun Data Technology Service Co Ltd filed Critical Wuxi Huayun Data Technology Service Co Ltd
Priority to CN201410052286.8A priority Critical patent/CN103812699A/zh
Publication of CN103812699A publication Critical patent/CN103812699A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了基于云计算的监控管理***,包括数据采集单元,其包括:用以实时采集大规模集群服务器中的节点数据的监控客户端,以及三个用于存储所述节点数据的监控数据库;以及故障特征库、故障处理单元;所述故障特征库,用于定义并存储故障特征项,监控客户端将实时采集到的节点数据与故障特征库中的故障特征项作验证,以判断是否为故障,若是,则发送故障指令至故障处理单元;所述故障处理单元,用于响应由监控客户端发送的故障指令,并生成故障处理策略,并发送至大规模集群服务器。通过本发明,可对基于云计算中的大规模集群服务器进行中各节点故障自动地进行数据采集、预警和故障解决,提高了大规模集群服务器的稳定性和可用性。

Description

基于云计算的监控管理***
技术领域
本发明涉及云计算技术领域,尤其涉及一种云计算大规模集群服务器进行中各数据节点故障进行故障数据采集、故障监控、故障预警和故障恢复的一种基于云计算的监控管理***。
背景技术
在云计算***中,需要对数据节点的运行状态进行监控并在发生故障时进行故障恢复操作。
现有技术中,通过在云服务器中安装监控客户端,通过该监控客户端的关闭或者开启,并通过多并发信息采集上报、消息挖掘和自动处理技术以实现动态采集并上报数据节点的运行状态。当发现云服务器故障时,在健康的物理服务器上动态地创建新节点。但是这种技术由于对各个云节点的监控的广度和深度比较单一,因此不适用于大规模集群的云计算***中。
为适应大规模集群的云计算***的需求,目前国内外主要云服务商所提供的云计算服务平台基本上采用开源架构。例如,公开号为CN103024060A,名称为“一种开放式云计算大规模集群监控***及方法”的中国公开专利。其主要采用插件化设计方式,通过开放的API接口,用以对由若干VM(虚拟机)所组成的虚拟机集群,以及由若干PM(物理机)所组成的物理机集群进行监控及节点数据采样,用以采集VM或者PM的相关运行参数、Hadoop等集群平台参数。但这种技术方案往往只能起到监测和报警,而无法实现对云计算中的各个节点(包括VM、PM)提供故障自动处理的功能。
有鉴于此,有必要对现有技术中基于云计算的大规模集群服务器中的节点监控与自动恢复技术予以改进,以解决上述技术瑕疵。
发明内容
本发明的目的在于公开一种基于云计算的监控管理***,用以实现对云计算中节点数据所发生的故障进行监控和自动恢复的监控管理***,从而实现对潜在的或者已经发生的故障进行监控和自动恢复,保障基于云计算的大规模集群服务器的稳定性和可用性。
为实现上述发明目的,本发明提供了一种基于云计算的监控管理***,用于对云计算中大规模集群服务器的运行状态进行监控与管理,包括:
数据采集单元,其包括:用以实时采集大规模集群服务器中的节点数据的监控客户端,以及三个用于存储所述节点数据的监控数据库;
所述监控管理***还包括:
故障特征库、故障处理单元;其中,
所述故障特征库,用于定义并存储故障特征项,监控客户端将实时采集到的节点数据与故障特征库中的故障特征项作验证,以判断是否为故障,若是,则发送故障指令至故障处理单元;
所述故障处理单元,用于响应由监控客户端发送的故障指令,并生成故障处理策略,并发送至大规模集群服务器。
作为本发明的进一步改进,所述故障处理单元包括故障监控引擎、故障预警引擎和故障恢复引擎,所述故障监控引擎接收到由监控客户端发送经过验证后的故障指令后发送至故障预警引擎和故障恢复引擎,并通过故障恢复引擎生成故障处理策略后,反馈至故障监控引擎。
作为本发明的进一步改进,所述大规模集群服务器包含若干物理机,并通过所述物理机虚拟化成具有分布式数据结构的若干虚拟机。
作为本发明的进一步改进,所述数据采集单元还包括管理员接口模块,用以接收初始化定义的故障特征项,并输出至故障特征库后进行保存。
作为本发明的进一步改进,还包括远程连接于所述故障处理单元并嵌入可视化设备中的Web客户端,用以创建和实时显示所述大规模集群服务器中各个数据节点的运行状态,用户能够通过所述Web客户端手动配置用户配置信息。
作为本发明的进一步改进,所述用户配置信息包括:故障监控策略、故障预警策略、故障恢复策略、自定义故障特征项。
作为本发明的进一步改进,所述可视化设备包括移动电话、个人电脑。
作为本发明的进一步改进,所述故障特征库包括MySQL数据库。
与现有技术相比,本发明的有益效果是:通过本发明,可对基于云计算中的大规模集群服务器进行中各节点故障自动地进行数据采集、预警和故障解决,从而提高了大规模集群服务器的稳定性和可用性。
附图说明
图1为本发明基于云计算的监控管理***在第一种具体实施方式中的结构示意图;
图2为本发明基于云计算的监控管理***在另一种具体实施方式中的结构示意图。
其中,说明书中具体实施方式中的附图标记说明如下:
监控管理***-100;数据采集单元-10;监控客户端-102;大规模集群服务器-11;虚拟机-11a;物理机-11b;监控数据库-111、112、113;故障特征库-103;故障处理单元-40;故障监控引擎-401;故障预警引擎-402;故障恢复引擎-403;管理员接口模块-104;Web客户端-50;可视化设备-501。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
本发明旨在通过本发明所示出的各个具体实施方式,以通过该监控管理***100,实现对云计算中大规模或者超大规模集群服务器的物理资源(包括物理计算设备、物理存储设备、物理网络设备、物理安全设备)、以及虚拟资源(虚拟计算设备、虚拟存储设备、虚拟网络设备、虚拟安全设备)进行统一的状态监控以及故障的检测、预警、报警和自动恢复,从而确保云计算中各个数据节点的物理资源和虚拟资源都处于健康的、高可用的状态。
实施例一:
请请参图1所示的本发明基于云计算的监控管理***的第一种具体实施方式,其揭示了一种基于云计算的监控管理***100,用于对云计算中大规模集群服务器11的运行状态进行监控与管理。
在本实施方式中,该监控管理***100包括:
数据采集单元10,其包括:用以实时采集大规模集群服务器11中的节点数据的监控客户端102,以及三个用于存储所述节点数据的监控数据库111、112、113。具体的,该数据采集单元10中的监控客户端102通过虚拟专用网络(VMN,Virtual MonitorNetwork),实时地采集处于不同网络节点或者不同网络类型下的各个节点中的CPU、磁盘IO、端口、进程、DNS等数据,并在将该等数据水平切分为三份后,由其发送存储访问请求;然后通过调用监控数据库111、112、113的MySQL数据接口,将经过水平切分后的三份数据分别存储至监控数据库111、112、113中,以备该监控客户端102作实时访问。
在本实施方式中,该监控数据库111、112、113均为MySQL数据库。
水平切分节点数据的操作能够在MySQL数据库端完成,不会存在大量或者超大量数据和高负载的表所遇到的瓶颈问题,对事务的处理相对简单。这些水平存储至不同监控数据库111、112、113中的数据可以帮助监控客户端102及时发现该大规模集群服务器11中的各个节点数据的异常变化,并通过大量的历史记录数据对各个数据节点中出现微小的异常变化作预警。
在本实施方式中,该监控管理***100还包括:故障特征库103、故障处理单元40。
具体的,该故障特征库103,用于定义并存储故障特征项,监控客户端102将实时采集到的节点数据与故障特征库103中的故障特征项作验证,以判断是否为故障,若是,则发送故障指令至故障处理单元40。该故障特征库103为MySQL数据库,也可以为Oracle数据库,并优选为MySQL数据库。
在本实施方式中,该故障处理单元40,用于响应由监控客户端102发送的故障指令,并生成故障处理策略,并发送至大规模集群服务器11。
具体的,该故障处理单元40包括故障监控引擎401、故障预警引擎402和故障恢复引擎403,所述故障监控引擎401接收到由监控客户端10发送经过验证后的故障指令后发送至故障预警引擎402和故障恢复引擎403,并通过故障恢复引擎403生成故障处理策略后,反馈至故障监控引擎401。
该大规模集群服务器11中包含若干物理机11b(Physical Machine,PM),并通过所述物理机虚拟化成具有分布式数据结构的若干虚拟机11a(VirtualMachine,VM)。
管理员对常见故障进行定义并初始化故障特征库103后,数据采集单元10中的监控客户端102一旦发现异常监控数据后,监控客户端102可以通过虚拟监控网络(VMN),将故障信息上传至数据采集单元10中的故障特征库103进行验证。
首先,从监控数据库111、112、113中读取海量数据挖掘分析得出该异常监控项的I/O、响应时间、连通率、在线率等数据,并与正常数据进行对比,并计算按监控数据偏差量。如果偏差量超出从故障恢复引擎403中录入的阈值,则计为故障点;
其次,查询到该故障点在监控数据库111、112、113中对应的全局唯一标识符(GUID,Globally Unique Identifier),通过该GUID在故障特征库103中找到所有可能的故障类型。
接下来,故障恢复引擎403对上一步找到的故障类型进行逐一排查,排查的方式为探索式排查,如云服务器网络中断。其中,可能的故障类型包括:云服务器所在机架网络故障、云服务器所在计算节点网络故障、云服务器发生故障等。
接下来,对大规模集群服务器11中某一节点出现“网络故障”以及“磁盘故障”举例详细阐述。
当出现“网络故障”时,故障恢复引擎403首先Ping机架网关,如果网络无法连通,则判断为该机架发生网络故障,立即启用恢复措施:切换至备用网络并启用备用网络;如果网络通畅,接下来Ping云服务器所在计算节点。
同样的,如果云服务器所在节点网络无法连通,则判断为该云计算节点网络故障,立即启用恢复措施,将该云计算节点上所有云服务器在运行正常的计算节点上拷贝该云服务器的副本并开启。
如果计算节点网络通畅,那么故障判断为云服务器网络故障,立即在其它运行正常的计算节点上拷贝改云服务器的副本并开启。通过排查可确定故障类型,并对故障环节进行自动恢复。故障恢复任务执行完毕后该监控客户端102验证故障处理,如故障处理完成,则结束故障自动恢复工作进程。
当出现“磁盘故障”时,探索式排查的结果为磁盘故障,立即在监控数据库111、112、113中读取该故障磁盘的GUID,并找到位于其它存储服务器中的故障磁盘存放数据的两份副本,在大规模集群服务器11中按照负载率,寻找负载率低的正常存储服务器节点,并从两份副本拷贝数据至该正常存储服务器节点。
拷贝完成后,在故障特征库103中查找VM表,找到和故障磁盘GUID关联的VM,并修改VM与磁盘对应表,删除故障磁盘与VM的对应关系,并写入新的存储服务器的GUID。如遇到其它类型故障,重复执行以上过程。
在本实施方式中,该监控管理***100还包括远程连接于所述故障处理单元40并嵌入可视化设备501中的Web客户端50,用以创建和实时显示所述大规模集群服务器11中各个数据节点的运行状态,并通过所述Web客户端50手动配置用户配置信息。
具体的,该用户配置信息包括:故障监控策略、故障预警策略、故障恢复策略、自定义故障特征项。作为优选的实施方式,该可视化设备501为移动电话,并进一步优选为智能手机,并通过2G\3G\4G无线网络将故障处理单元40中所展现的大规模集群服务器11中各个数据节点的运行状态等信息实时地展现给用户。
不同的故障处理恢复方式均在故障处理引擎403提供的Web页面配置,故障处理引擎403按照预先配置规则对各种故障进行恢复。
通过该故障处理引擎403所提供的Web页面配置,用户可对其正在使用的云服务器、负载均衡、关系数据存储等云服务进行部署并应用,并根据应用对用户业务连续性、数据一致性的要求,登陆到故障处理单元40后,对故障监控频率、监控粒度、监控项目、故障处理方式进行个性化配置,并且配置信息可通过API存储至故障处理引擎403中。
实施例二:
请参图2所示的本发明一种基于云计算的监控管理***的另一种具体实施方式。本实施方式与实施例一的主要区别在于,在本实施方式中,该监控管理***100中的该数据采集单元10中还包括管理员接口模块104,用以接收初始化定义的故障特征项,并输出至故障特征库103后进行保存。
同时,在本实施方式中,该可视化设备501为个人电脑,并可通过WLAN、Internet或者WAP等其他无线网络连接方式,将故障处理单元40中所展现的大规模集群服务器11中各个节点的运行状态等信息实时地展现给用户。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (8)

1.基于云计算的监控管理***,用于对云计算中大规模集群服务器的运行状态进行监控与管理,包括:
数据采集单元,其包括:用以实时采集大规模集群服务器中的节点数据的监控客户端,以及三个用于存储所述节点数据的监控数据库;
其特征在于,所述监控管理***还包括:
故障特征库、故障处理单元;其中,
所述故障特征库,用于定义并存储故障特征项,监控客户端将实时采集到的节点数据与故障特征库中的故障特征项作验证,以判断是否为故障,若是,则发送故障指令至故障处理单元;
所述故障处理单元,用于响应由监控客户端发送的故障指令,并生成故障处理策略,并发送至大规模集群服务器。
2.根据权利要求1所述的监控管理***,其特征在于,所述故障处理单元包括故障监控引擎、故障预警引擎和故障恢复引擎,所述故障监控引擎接收到由监控客户端发送经过验证后的故障指令后发送至故障预警引擎和故障恢复引擎,并通过故障恢复引擎生成故障处理策略后,反馈至故障监控引擎。
3.根据权利要求1所述的监控管理***,其特征在于,所述大规模集群服务器包含若干物理机,并通过所述物理机虚拟化成具有分布式数据结构的若干虚拟机。
4.根据权利要求1所述的监控管理***,其特征在于,所述数据采集单元还包括管理员接口模块,用以接收初始化定义的故障特征项,并输出至故障特征库后进行保存。
5.根据权利要求1所述的监控管理***,其特征在于,还包括远程连接于所述故障处理单元并嵌入可视化设备中的Web客户端,用以创建和实时显示所述大规模集群服务器中各个数据节点的运行状态,用户能够通过所述Web客户端手动配置用户配置信息。
6.根据权利要求5所述的监控管理***,其特征在于,所述用户配置信息包括:故障监控策略、故障预警策略、故障恢复策略、自定义故障特征项。
7.根据权利要求5所述的监控管理***,其特征在于,所述可视化设备包括移动电话、个人电脑。
8.根据权利要求1所述的监控管理***,其特征在于,所述故障特征库包括MySQL数据库。
CN201410052286.8A 2014-02-17 2014-02-17 基于云计算的监控管理*** Pending CN103812699A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410052286.8A CN103812699A (zh) 2014-02-17 2014-02-17 基于云计算的监控管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410052286.8A CN103812699A (zh) 2014-02-17 2014-02-17 基于云计算的监控管理***

Publications (1)

Publication Number Publication Date
CN103812699A true CN103812699A (zh) 2014-05-21

Family

ID=50708940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410052286.8A Pending CN103812699A (zh) 2014-02-17 2014-02-17 基于云计算的监控管理***

Country Status (1)

Country Link
CN (1) CN103812699A (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104092730A (zh) * 2014-06-20 2014-10-08 裴兆欣 一种云计算***
CN104281483A (zh) * 2014-09-11 2015-01-14 江苏集群软件股份有限公司 一种基于云计算平台的虚拟机控制***及其控制方法
CN104657622A (zh) * 2015-03-12 2015-05-27 浪潮集团有限公司 一种基于事件驱动分析的集群故障分析方法
CN104796299A (zh) * 2015-03-23 2015-07-22 浪潮集团有限公司 一种基于可穿戴设备的集群状态监测方法
CN104935464A (zh) * 2015-06-12 2015-09-23 北京奇虎科技有限公司 一种网站***的故障预警方法和装置
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理***
CN105337999A (zh) * 2015-12-01 2016-02-17 成都中讯创新信息技术有限公司 一种提高云计算环境稳定性的方法
CN105450751A (zh) * 2015-12-01 2016-03-30 成都中讯创新信息技术有限公司 一种提高云计算环境稳定性的***
CN105491108A (zh) * 2015-11-19 2016-04-13 浪潮集团有限公司 一种处理遥感影像的***及方法
CN105516283A (zh) * 2015-12-01 2016-04-20 成都中讯创新信息技术有限公司 一种提高云计算环境稳定性的装置
CN105512788A (zh) * 2015-05-04 2016-04-20 上海北塔软件股份有限公司 一种智能运维管理方法及***
CN106095644A (zh) * 2016-06-22 2016-11-09 天维尔信息科技股份有限公司 一种业务软件监控方法及***
CN106407030A (zh) * 2016-09-13 2017-02-15 郑州云海信息技术有限公司 一种存储集群***故障处理方法及***
CN106612199A (zh) * 2015-10-26 2017-05-03 华耀(中国)科技有限公司 一种网络监控数据收集与分析***及方法
CN106657382A (zh) * 2017-01-11 2017-05-10 北京学利美科技有限公司 一种Windows与Linux服务器信息采集与管理控制模型
CN106789345A (zh) * 2017-01-20 2017-05-31 厦门集微科技有限公司 通道切换方法及装置
WO2017162173A1 (zh) * 2016-03-22 2017-09-28 中兴通讯股份有限公司 云服务器集群建立连接的方法和装置
CN107222346A (zh) * 2017-06-09 2017-09-29 郑州云海信息技术有限公司 一种集群节点健康状态预警方法及***
CN107294786A (zh) * 2017-07-13 2017-10-24 郑州云海信息技术有限公司 一种故障信息处理方法及装置
CN107491375A (zh) * 2017-08-18 2017-12-19 国网山东省电力公司信息通信公司 一种云计算环境下的设备检测及故障预警***及方法
CN107888437A (zh) * 2016-09-29 2018-04-06 阿里巴巴集团控股有限公司 云监控方法及设备
CN108241544A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种基于集群的故障处理方法
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN108418724A (zh) * 2018-06-04 2018-08-17 广西电网有限责任公司 基于云计算的下一代关键信息基础设施网络智能管理***
CN108809708A (zh) * 2018-06-04 2018-11-13 深圳众厉电力科技有限公司 一种电力通信网络节点故障检测***
CN109144813A (zh) * 2018-07-26 2019-01-04 郑州云海信息技术有限公司 一种云计算***服务器节点故障监控***及方法
CN110287081A (zh) * 2019-06-21 2019-09-27 腾讯科技(成都)有限公司 一种服务监控***和方法
CN110781065A (zh) * 2019-10-28 2020-02-11 北京北信源软件股份有限公司 一种业务应用的监控方法及装置
CN110825396A (zh) * 2019-10-31 2020-02-21 Oppo(重庆)智能科技有限公司 异常处理方法及相关设备
CN110825632A (zh) * 2019-11-01 2020-02-21 北京金山云网络技术有限公司 云计算资源计量数据测试方法、***、装置及电子设备
CN111224819A (zh) * 2019-12-30 2020-06-02 上海汇付数据服务有限公司 分布式消息***
CN112328444A (zh) * 2020-10-09 2021-02-05 国家电网有限公司 一种云计算机管理***及其管理方法
CN112749053A (zh) * 2020-12-14 2021-05-04 北京同有飞骥科技股份有限公司 一种基于云平台的智能故障监听及智能修复管理***

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159539A (zh) * 2007-11-20 2008-04-09 中国人民解放军信息工程大学 基于j2ee中间件规范的容忍入侵应用服务器及容忍入侵方法
CN101917460A (zh) * 2010-07-22 2010-12-15 河南远为网络信息技术有限公司 基于虚拟机技术的远程维护***
CN102523137A (zh) * 2011-12-22 2012-06-27 华为技术服务有限公司 一种故障监测方法、装置及***
CN102571499A (zh) * 2012-02-14 2012-07-11 广州亦云信息技术有限公司 一种云端数据库服务器集群的监控方法
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控***及方法
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和***
CN103236949A (zh) * 2013-04-27 2013-08-07 北京搜狐新媒体信息技术有限公司 一种服务器集群的监控方法、装置与***
CN103338261A (zh) * 2013-07-04 2013-10-02 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及***
CN103391185A (zh) * 2013-08-12 2013-11-13 北京泰乐德信息技术有限公司 一种轨道交通监测数据的云安全存储和处理方法及***
CN103403689A (zh) * 2012-07-30 2013-11-20 华为技术有限公司 一种资源故障管理方法、装置及***
CN103440160A (zh) * 2013-08-15 2013-12-11 华为技术有限公司 虚拟机恢复方法和虚拟机迁移方法以及装置与***
CN103580924A (zh) * 2013-11-12 2014-02-12 武汉钢铁(集团)公司 一种故障定位方法、装置及***
CN103580920A (zh) * 2013-11-07 2014-02-12 江南大学 一种基于云计算技术的信息***运行异常检测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159539A (zh) * 2007-11-20 2008-04-09 中国人民解放军信息工程大学 基于j2ee中间件规范的容忍入侵应用服务器及容忍入侵方法
CN101917460A (zh) * 2010-07-22 2010-12-15 河南远为网络信息技术有限公司 基于虚拟机技术的远程维护***
CN102523137A (zh) * 2011-12-22 2012-06-27 华为技术服务有限公司 一种故障监测方法、装置及***
CN102571499A (zh) * 2012-02-14 2012-07-11 广州亦云信息技术有限公司 一种云端数据库服务器集群的监控方法
CN103403689A (zh) * 2012-07-30 2013-11-20 华为技术有限公司 一种资源故障管理方法、装置及***
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控***及方法
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和***
CN103236949A (zh) * 2013-04-27 2013-08-07 北京搜狐新媒体信息技术有限公司 一种服务器集群的监控方法、装置与***
CN103338261A (zh) * 2013-07-04 2013-10-02 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及***
CN103391185A (zh) * 2013-08-12 2013-11-13 北京泰乐德信息技术有限公司 一种轨道交通监测数据的云安全存储和处理方法及***
CN103440160A (zh) * 2013-08-15 2013-12-11 华为技术有限公司 虚拟机恢复方法和虚拟机迁移方法以及装置与***
CN103580920A (zh) * 2013-11-07 2014-02-12 江南大学 一种基于云计算技术的信息***运行异常检测方法
CN103580924A (zh) * 2013-11-12 2014-02-12 武汉钢铁(集团)公司 一种故障定位方法、装置及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董波: "云计算集群服务器***监控方法的研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104092730A (zh) * 2014-06-20 2014-10-08 裴兆欣 一种云计算***
CN104281483A (zh) * 2014-09-11 2015-01-14 江苏集群软件股份有限公司 一种基于云计算平台的虚拟机控制***及其控制方法
CN104657622A (zh) * 2015-03-12 2015-05-27 浪潮集团有限公司 一种基于事件驱动分析的集群故障分析方法
CN104796299A (zh) * 2015-03-23 2015-07-22 浪潮集团有限公司 一种基于可穿戴设备的集群状态监测方法
CN105512788A (zh) * 2015-05-04 2016-04-20 上海北塔软件股份有限公司 一种智能运维管理方法及***
CN104935464A (zh) * 2015-06-12 2015-09-23 北京奇虎科技有限公司 一种网站***的故障预警方法和装置
CN104935464B (zh) * 2015-06-12 2018-07-06 北京奇虎科技有限公司 一种网站***的故障预警方法和装置
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理***
CN105024851B (zh) * 2015-06-25 2018-07-24 四川理工学院 一种基于云计算的监控管理***
CN106612199B (zh) * 2015-10-26 2019-10-25 华耀(中国)科技有限公司 一种网络监控数据收集与分析***及方法
CN106612199A (zh) * 2015-10-26 2017-05-03 华耀(中国)科技有限公司 一种网络监控数据收集与分析***及方法
CN105491108A (zh) * 2015-11-19 2016-04-13 浪潮集团有限公司 一种处理遥感影像的***及方法
CN105516283A (zh) * 2015-12-01 2016-04-20 成都中讯创新信息技术有限公司 一种提高云计算环境稳定性的装置
CN105450751A (zh) * 2015-12-01 2016-03-30 成都中讯创新信息技术有限公司 一种提高云计算环境稳定性的***
CN105337999B (zh) * 2015-12-01 2018-11-20 南京冠楷信息技术有限公司 一种提高云计算环境稳定性的方法
CN105450751B (zh) * 2015-12-01 2018-09-25 成都中讯创新信息技术有限公司 一种提高云计算环境稳定性的***
CN105516283B (zh) * 2015-12-01 2018-09-25 成都中讯创新信息技术有限公司 一种提高云计算环境稳定性的装置
CN105337999A (zh) * 2015-12-01 2016-02-17 成都中讯创新信息技术有限公司 一种提高云计算环境稳定性的方法
WO2017162173A1 (zh) * 2016-03-22 2017-09-28 中兴通讯股份有限公司 云服务器集群建立连接的方法和装置
CN106095644A (zh) * 2016-06-22 2016-11-09 天维尔信息科技股份有限公司 一种业务软件监控方法及***
CN106407030A (zh) * 2016-09-13 2017-02-15 郑州云海信息技术有限公司 一种存储集群***故障处理方法及***
CN107888437A (zh) * 2016-09-29 2018-04-06 阿里巴巴集团控股有限公司 云监控方法及设备
CN107888437B (zh) * 2016-09-29 2021-11-02 阿里巴巴集团控股有限公司 云监控方法及设备
CN108241544A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种基于集群的故障处理方法
CN108241544B (zh) * 2016-12-23 2023-06-06 中科星图股份有限公司 一种基于集群的故障处理方法
CN106657382A (zh) * 2017-01-11 2017-05-10 北京学利美科技有限公司 一种Windows与Linux服务器信息采集与管理控制模型
CN106789345A (zh) * 2017-01-20 2017-05-31 厦门集微科技有限公司 通道切换方法及装置
CN106789345B (zh) * 2017-01-20 2019-07-23 厦门集微科技有限公司 通道切换方法及装置
CN107222346A (zh) * 2017-06-09 2017-09-29 郑州云海信息技术有限公司 一种集群节点健康状态预警方法及***
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
WO2018233630A1 (zh) * 2017-06-21 2018-12-27 新华三大数据技术有限公司 故障发现
CN107294786A (zh) * 2017-07-13 2017-10-24 郑州云海信息技术有限公司 一种故障信息处理方法及装置
CN107491375A (zh) * 2017-08-18 2017-12-19 国网山东省电力公司信息通信公司 一种云计算环境下的设备检测及故障预警***及方法
CN108418724B (zh) * 2018-06-04 2019-01-04 广西电网有限责任公司 基于云计算的下一代关键信息基础设施网络智能管理***
CN108809708A (zh) * 2018-06-04 2018-11-13 深圳众厉电力科技有限公司 一种电力通信网络节点故障检测***
CN108418724A (zh) * 2018-06-04 2018-08-17 广西电网有限责任公司 基于云计算的下一代关键信息基础设施网络智能管理***
CN109144813A (zh) * 2018-07-26 2019-01-04 郑州云海信息技术有限公司 一种云计算***服务器节点故障监控***及方法
CN109144813B (zh) * 2018-07-26 2022-08-05 郑州云海信息技术有限公司 一种云计算***服务器节点故障监控***及方法
CN110287081A (zh) * 2019-06-21 2019-09-27 腾讯科技(成都)有限公司 一种服务监控***和方法
CN110781065A (zh) * 2019-10-28 2020-02-11 北京北信源软件股份有限公司 一种业务应用的监控方法及装置
CN110825396A (zh) * 2019-10-31 2020-02-21 Oppo(重庆)智能科技有限公司 异常处理方法及相关设备
CN110825396B (zh) * 2019-10-31 2023-07-25 Oppo(重庆)智能科技有限公司 异常处理方法及相关设备
CN110825632A (zh) * 2019-11-01 2020-02-21 北京金山云网络技术有限公司 云计算资源计量数据测试方法、***、装置及电子设备
CN110825632B (zh) * 2019-11-01 2023-10-03 北京金山云网络技术有限公司 云计算资源计量数据测试方法、***、装置及电子设备
CN111224819A (zh) * 2019-12-30 2020-06-02 上海汇付数据服务有限公司 分布式消息***
CN112328444A (zh) * 2020-10-09 2021-02-05 国家电网有限公司 一种云计算机管理***及其管理方法
CN112749053A (zh) * 2020-12-14 2021-05-04 北京同有飞骥科技股份有限公司 一种基于云平台的智能故障监听及智能修复管理***

Similar Documents

Publication Publication Date Title
CN103812699A (zh) 基于云计算的监控管理***
CN109034521B (zh) 一种电网调度控制***的智能运维架构设计方法
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN104252500B (zh) 一种数据库管理平台的故障修复方法和装置
CN107547273B (zh) 一种电力***虚拟实例高可用的保障方法及***
US10129373B2 (en) Recovery of a network infrastructure to facilitate business continuity
CN102355368B (zh) 一种网络设备的故障处理方法及***
US10198284B2 (en) Ensuring operational integrity and performance of deployed converged infrastructure information handling systems
CN110851320A (zh) 一种服务器宕机监管方法、***、终端及存储介质
WO2018212928A1 (en) System and method for mapping a connectivity state of a network
CN105243004A (zh) 一种故障资源检测方法及装置
CN103716173A (zh) 一种存储监控***及监控告警发布的方法
US20110099273A1 (en) Monitoring apparatus, monitoring method, and a computer-readable recording medium storing a monitoring program
CN102902615A (zh) 一种Lustre并行文件***错误报警方法及其***
CN104092730A (zh) 一种云计算***
CN104618161A (zh) 一种应用集群监控装置及方法
BR112017001171B1 (pt) Método executado em um dispositivo de computação, dispositivo de computação e dispositivo de memória legível por computador para recuperar a operacionalidade de um serviço baseado em nuvem
CN108199901A (zh) 硬件报修方法、***、设备、硬件管理服务器与存储介质
CN105553743A (zh) 获得日志的方法、***、第一网络设备及第三网络设备
CN111371570B (zh) 一种nfv网络的故障检测方法及装置
CN110532312A (zh) 一种基于大数据的工业互联云平台***
CN110912755A (zh) 一种云环境下网卡故障监控与自动恢复的***及方法
CN111082998A (zh) 一种运维监控校园汇聚层的架构***
CN107770030B (zh) 基于vpn技术的舞台设备控制***、控制方法及控制装置
CN117579651A (zh) 物联网***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140521

RJ01 Rejection of invention patent application after publication