CN103368785A - 服务器运行监测***及方法 - Google Patents

服务器运行监测***及方法 Download PDF

Info

Publication number
CN103368785A
CN103368785A CN2012101009038A CN201210100903A CN103368785A CN 103368785 A CN103368785 A CN 103368785A CN 2012101009038 A CN2012101009038 A CN 2012101009038A CN 201210100903 A CN201210100903 A CN 201210100903A CN 103368785 A CN103368785 A CN 103368785A
Authority
CN
China
Prior art keywords
server
monitoring
configuration file
cluster
monitoring program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101009038A
Other languages
English (en)
Inventor
李忠一
卢秋桦
叶建发
颜宗信
林建志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yun Chuan Intellectual Property Services Co Ltd Of Zhongshan City
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2012101009038A priority Critical patent/CN103368785A/zh
Priority to TW101113894A priority patent/TW201342046A/zh
Priority to US13/726,534 priority patent/US20130268805A1/en
Priority to JP2013079328A priority patent/JP2013218687A/ja
Publication of CN103368785A publication Critical patent/CN103368785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

一种服务器运行监测方法,该方法包括:在监控计算机中设置配置文件及监控程序;根据配置文件中所设置的服务器的名称将配置文件及监控程序发送到服务器中进行运行,以建立一个服务器集群;当该服务器集群中有服务器发生运行故障时,在监控计算机中查找该发生运行故障的服务器上运行的虚拟机所对应的镜像文件;将所搜索到的镜像文件发送到该服务器集群的其它服务器,以在该服务器集群的其它服务器上重新安装虚拟机。本发明还提供一种服务器运行监测***。当数据中心的某一个服务器发送运行故障时,通过本发明可以及时将该服务器上的虚拟机安装到其它服务器上,方便了用户,提高了用户对虚拟机的使用效率,避免了用户长时间的等待。

Description

服务器运行监测***及方法
技术领域
本发明涉及一种虚拟机控制***及方法,尤其是关于一种服务器运行监测***及方法。
背景技术
数据中心(data center),通常包括几台乃至上万台服务器,也称为服务器农场(server farm),指用于安置计算机***及相关部件的设施,例如,电信和储存***。通常,数据中心包含冗余和备用电源,冗余数据通信连接,环境控制(例如空调、灭火器)和安全设备,其中,数据中心中最重要的设备为用于存储数据的服务器。
虚拟机(Virtual Machine)是指通过软件模拟的具有完整硬件***功能的、运行在一个完全隔离环境中的完整计算机***。通过在数据中心的服务器上安装虚拟机,可以在该服务器上模拟出一台或多台虚拟的服务器(即在虚拟机上安装多个操作***)。如此一来,可以减少数据中心的服务器设备的采购成本,同时还可以根据效能的尖峰离峰需求,在各个服务器或刀片服务器的刀板间弹性动态迁移***平台,让IT人员做更有效的资源调度,并获得更好且安全周密的防护。
一般而言,若数据中心的服务器发送运行故障,该服务器上的虚拟机也会停止工作,用户需要等待IT人员重新安装该服务器上的虚拟机才能继续使用虚拟机上的服务,如此一来,用户可能需要长时间的等待。此外,对IT人员而言,当服务器发送运行故障,IT人员需要人工去查找发送故障的服务器上的虚拟机,如此一来,不仅繁琐,而且效率非常低下,进一步影响用户对虚拟机的使用。
发明内容
鉴于以上内容,有必要提供一种服务器运行监测***,当数据中心的某一个服务器发送运行故障时,及时将该服务器上的虚拟机安装到其它服务器上,方便了用户,提高了用户对虚拟机的使用效率,避免了用户长时间的等待。
鉴于以上内容,还有必要提供一种服务器运行监测方法,当数据中心的某一个服务器发送运行故障时,及时将该服务器上的虚拟机安装到其它服务器上,方便了用户,提高了用户对虚拟机的使用效率,避免了用户长时间的等待。
一种服务器运行监测***,该***包括:设置模块,用于在监控计算机中设置配置文件及监控程序;分配模块,用于通过监控计算机中的DHCP服务分配IP地址给数据中心中的各个服务器,以和各个服务器建立通信连接;发送模块,用于根据配置文件中所设置的服务器的名称将配置文件及监控程序发送到服务器中,在接收到配置文件及监控程序的服务器中运行该监控程序,以建立一个服务器集群;获取模块,用于通过所述监控程序获取该服务器集群的服务器的运行参数;判断模块,用于根据所获取的该服务器集群的服务器的运行参数判断该服务器集群中是否有服务器发生运行故障;查找模块,用于在监控计算机中查找该发生运行故障的服务器上运行的虚拟机所对应的镜像文件;所述发送模块,还用于将所搜索到的镜像文件发送到该服务器集群的其它服务器,以在该服务器集群的其它服务器上重新安装虚拟机。
一种服务器运行监测方法,该方法包括:在监控计算机中设置配置文件及监控程序;通过监控计算机中的DHCP服务分配IP地址给数据中心中的各个服务器,以和各个服务器建立通信连接;根据配置文件中所设置的服务器的名称将配置文件及监控程序发送到服务器中,在接收到配置文件及监控程序的服务器中运行该监控程序,以建立一个服务器集群;通过所述监控程序获取该服务器集群的服务器的运行参数;根据所获取的该服务器集群的服务器的运行参数判断该服务器集群中是否有服务器发生运行故障;在监控计算机中查找该发生运行故障的服务器上运行的虚拟机所对应的镜像文件;将所搜索到的镜像文件发送到该服务器集群的其它服务器,以在该服务器集群的其它服务器上重新安装虚拟机。
相较于现有技术,本发明提供的服务器运行监测***及方法,当数据中心的某一个服务器发送运行故障时,及时将该服务器上的虚拟机安装到其它服务器上,方便了用户,提高了用户对虚拟机的使用效率,避免了用户长时间等待。
附图说明
图1是本发明服务器运行监测***较佳实施例的应用环境图。
图2是本发明监控计算机较佳实施例的结构示意图。
图3是本发明服务器运行监测方法较佳实施例的流程图。
主要元件符号说明
  客户端   10
  监控计算机   20
  数据库   30
  网络   40
  数据中心   50
  服务器   500
  服务器运行监测***   200
  设置模块   210
  分配模块   220
  发送模块   230
  获取模块   240
  判断模块   250
  查找模块   260
  存储器   270
  处理器   280
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
参阅图1所示,是本发明服务器运行监测***200较佳实施例的应用环境图。该服务器运行监测***200应用于监控计算机20中。该监控计算机20与数据中心(Data Center)50通过网络40进行通信连接。
所述网络40可以是互联网、局域网或者其它通讯网络。
所述数据中心50包括多个服务器500(图中以四个为例),所述服务器500为刀片服务器。在本实施例中,所述服务器500称为Host主机,每个Host主机上安装有一个或多个虚拟机,为了更有效的管理这些虚拟机,每个Host主机上还安装有Hypervisor软件。所述Hypervisor软件是一种运行在服务器500和服务器500的操作***之间的中间软件层,可允许多个操作***和应用共享服务器500上的硬件,也可叫做虚拟机监视器(virtual machine monitor,VMM)。Hypervisor软件可以访问服务器500上包括CPU、磁盘和内存在内的所有物理设备,Hypervisor不但协调着这些硬件资源的访问,也同时在各个虚拟机之间施加防护。当服务器500启动并执行Hypervisor软件时,Hypervisor软件会分配给每一台虚拟机适量的内存、CPU、网络和磁盘等资源,以保证虚拟机的运行。
所述监控计算机20用于监控数据中心50的服务器500的运行情况,若其中一个服务器500运行过程中发生运行故障(例如,电源故障,硬件损坏等)时,及时将该服务器500上的一个或多个虚拟机安装到其它服务器500,以保证该服务器500上的虚拟机在其他服务器500上还能继续运行。具体而言,所述监控计算机20上存储有每个服务器500上虚拟机所对应的镜像文件。例如,某一个服务器A运行有三个虚拟机,在监控计算机20上存储有该三个虚拟机所对应的镜像文件。用户通过将镜像文件发送到服务器500就可以安装虚拟机。
该监控计算机20还安装有动态主机设置协议(Dynamic HostConfiguration Protocol,DHCP)服务,通过DHCP服务可以分配网络之间互连的协议(Internet Protocol,IP)地址给数据中心50中的各个服务器500,使监控计算机20能够与数据中心50的各个服务器500进行通信。该监控计算机20可以是个人计算机、网络服务器,还可以是任意其它适用的计算机。此外,该监控计算机20还可以放置在数据中心50内部,用户只需通过客户端10进行操作就可以实现对服务器500的监控。
所述监控计算机20通过一个数据库连接与数据库30连接。其中,所述数据库连接可为一开放式数据库连接(Open Database Connectivity,ODBC),或Java数据库连接(Java Database Connectivity,JDBC)。所述数据库30用于存储从数据中心50的各个服务器500传送过来的数据,该数据包括数据中心50中各个服务器500的运行参数。
在此需说明的是,数据库30可独立于监控计算机20,也可位于监控计算机20内。所述数据库30可存于监控计算机20的硬盘或者闪存盘中。从***安全性的角度考虑,本实施例中的数据库30独立于监控计算机20。
此外,客户端10用于提供一个互动式界面给用户,便于用户进行操作并将操作过程中的各种数据存于监控计算机20中。该客户端10可以是个人计算机、笔记本电脑以及其它任意能与监控计算机20连接的设备或***。
参阅图2所示,是本发明监控计算机20较佳实施例的结构示意图。该监控计算机20除了包括服务器运行监测***200,还包括存储器270和处理器280。该服务器运行监测***200包括设置模块210、分配模块220、发送模块230、获取模块240、判断模块250及查找模块260。模块210至260的程序化代码存储于存储器270中,处理器280执行这些程序化代码,实现服务器运行监测***200提供的上述功能。
设置模块210用于在监控计算机20中设置配置文件及监控程序。所述配置文件包括服务器500的数量,及服务器500的名称。需要说明的是,用户在配置文件中需要设置至少两个以上的服务器500的名称,为了方便说明,在本实施例中,用户在配置文件中设置四个服务器500的名称。所述监控程序用于读取服务器500上Hypervisor软件的信息,以判断该服务器500是否发生运行故障而停止运行。具体而言,监控程序定期从Hypervisor软件获取服务器500的电源数据,若电源数据为零,则表明该服务器500发生运行故障。
分配模块220用于通过监控计算机20中的DHCP服务分配IP地址给数据中心50中的各个服务器500,以和各个服务器500建立通信连接。具体而言,如图1所示,数据中心50有四个服务器500,通过DHCP服务给每个服务器500单独分配一个IP地址。
发送模块230用于根据配置文件中所设置的服务器500的名称将配置文件及监控程序发送到服务器500中,在接收到配置文件及监控程序的服务器500中运行该监控程序,以建立一个服务器集群(ServerCluster)。具体而言,配置文件中设置四个服务器500的名称,则将配置文件及监控程序发送到这四个服务器500中。在该四个服务器500中运行监控程序,使得该四个服务器500之间能够相互通信,从而建立一个服务器集群。
获取模块240用于通过所述监控程序获取该服务器集群中服务器500的运行参数。所述运行参数为服务器500的电源数据。具体而言,安装在服务器集群中各个服务器500的监控程序定期从Hypervisor软件上获取服务器500的电源数据,并将所获取的电源数据传送给监控计算机20上的监控程序。为了节约监控计算机20的计算量,该服务器集群可以选定其中的一个服务器500与监控计算机20进行通信,由于服务器集群中每个服务器500之间可以进行通信,该选定的服务器500可以获取其他服务器500上的运行参数,之后将该服务器集群中所有服务器500的运行参数发送给监控计算机20。
判断模块250用于根据所获取的该服务器集群中服务器500的运行参数判断该服务器集群中是否有服务器500发生运行故障。具体而言,判断是否有服务器500的电源数据为零,若有服务器500的电源数据为零,则该服务器500发生运行故障。
查找模块260用于在监控计算机20中查找该发生运行故障的服务器500上运行的虚拟机所对应的镜像文件。具体而言,假设该服务器集群中服务器A发生运行故障,该服务器A上运行有三个虚拟机,通过该三个虚拟机的编号可以从监控计算机20中找到该三个虚拟机所对应的镜像文件。
所述发送模块230还用于将所搜索到的镜像文件发送到该服务器集群中的其它服务器500,以在该服务器集群中的其它服务器500上重新安装虚拟机。具体而言,将三个虚拟机所对应的镜像文件发送到该服务器集群的其它服务器500,以在其它服务器500上安装该三个虚拟机,保证该三个虚拟机恢复运行。需要说明的是,在向其它服务器500上安装该三个虚拟机之前,先获得其它服务器500的资源使用量(例如,CPU使用率,内存使用率等),以在资源使用量最低的服务器500上进行安装,以平衡服务器500的资源,最大化提高数据中心50中服务器500的使用效率。
如图3所示,是本发明服务器运行监测方法较佳实施例的流程图。
步骤S10,设置模块210在监控计算机20中设置配置文件及监控程序。所述配置文件包括所监控的服务器500的数量,及所监控的服务器500的名称。需要说明的是,用户在配置文件中需要设置至少两个以上的服务器500的名称,为了方便说明,在本实施例中,用户在配置文件中设置四个服务器500的名称。所述监控程序用于读取服务器500上Hypervisor软件的信息,以判断该服务器500是否发生运行故障而停止运行。具体而言,监控程序定期从Hypervisor软件获取服务器500的电源数据,若电源数据为零,则表明该服务器500发生运行故障。
步骤S20,分配模块220通过监控计算机20中的DHCP服务分配IP地址给数据中心50中的各个服务器500,以和各个服务器500建立通信连接。具体而言,如图1所示,数据中心50有四个服务器500,通过DHCP服务给每个服务器500单独分配一个IP地址。
步骤S30,发送模块230根据配置文件中所设置的服务器500的名称将配置文件及监控程序发送到服务器500中,在接收到配置文件及监控程序的服务器500中运行该监控程序,以建立一个服务器集群(ServerCluster)。具体而言,配置文件中设置四个服务器500的名称,则将配置文件及监控程序发送到这四个服务器500中。在该四个服务器500中运行监控程序,使得该四个服务器500之间能够相互通信,从而建立一个服务器集群。
步骤S40,获取模块240通过所述监控程序获取该服务器集群中各服务器500的运行参数。具体而言,安装在服务器集群中各个服务器500的监控程序定期从Hypervisor软件上获取服务器500的电源数据,并将所获取的电源数据传送给监控计算机20上的监控程序。为了节约监控计算机20的计算量,该服务器集群可以选定其中的一个服务器500与监控计算机20进行通信,由于服务器集群中每个服务器500之间可以进行通信,该选定的服务器500获取其他服务器500上的运行参数,之后将该服务器集群中所有服务器500的运行参数发送给监控计算机20。
步骤S50,判断模块250根据所获取的该服务器集群中服务器500的运行参数判断该服务器集群中是否有服务器500发生运行故障。
具体而言,判断模块250判断该服务器集群中是否有服务器500的电源数据为零,若有服务器500的电源数据为零,则该服务器500发生运行故障,流程进入步骤S60。否则,若没有服务器500的电源数据为零,流程返回步骤S40。
步骤S60,查找模块260从监控计算机20中查找该发生运行故障的服务器500上运行的虚拟机所对应的镜像文件。具体而言,假设该服务器集群中服务器A发生运行故障,该服务器A上运行有三个虚拟机,在监控计算机20中通过该三个虚拟机的编号,找到该三个虚拟机所对应的镜像文件。
步骤S70,发送模块230将所搜索到的镜像文件发送到该服务器集群的其它服务器500,以在该服务器集群中的其它服务器500上重新安装虚拟机。具体而言,将三个虚拟机所对应的镜像文件发送到该服务器集群中的其它服务器500,以在其它服务器500上安装该三个虚拟机,保证该三个虚拟机恢复运行。需要说明的是,在向其它服务器500上安装该三个虚拟机之前,先获得其它服务器500的资源使用量(例如,CPU使用率,内存使用率等),以在资源使用量最低的服务器500进行安装,以平衡服务器500的资源,最大化提高数据中心50中服务器500的使用效率。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照以上较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种服务器运行监测***,其特征在于,该***包括:
设置模块,用于在监控计算机中设置配置文件及监控程序;
分配模块,用于通过监控计算机中的DHCP服务分配IP地址给数据中心中的各个服务器,以和各个服务器建立通信连接;
发送模块,用于根据配置文件中所设置的服务器的名称将配置文件及监控程序发送到服务器中,在接收到配置文件及监控程序的服务器中运行该监控程序,以建立一个服务器集群;
获取模块,用于通过所述监控程序获取该服务器集群中各服务器的运行参数;
判断模块,用于根据所获取的运行参数判断该服务器集群中是否有服务器发生运行故障;
查找模块,用于在监控计算机中查找该发生运行故障的服务器上运行的虚拟机所对应的镜像文件;及
所述发送模块,还用于将所搜索到的镜像文件发送到该服务器集群中的其它服务器,以在该服务器集群中的其它服务器上重新安装虚拟机。
2.如权利要求1所述的服务器运行监测***,其特征在于,所述服务器集群中各服务器之间能够相互通信。
3.如权利要求1所述的服务器运行监测***,其特征在于,所述服务器都安装有Hypervisor软件。
4.如权利要求1所述的服务器运行监测***,其特征在于,所述运行参数为服务器的电源数据。
5.如权利要求1或4所述的服务器运行监测***,其特征在于,所述服务器发生运行故障是指服务器的电源数据为零。
6.一种服务器运行监测方法,其特征在于,该方法包括:
在监控计算机中设置配置文件及监控程序;
通过监控计算机中的DHCP服务分配IP地址给数据中心中的各个服务器,以和各个服务器建立通信连接;
根据配置文件中所设置的服务器的名称将配置文件及监控程序发送到服务器中,在接收到配置文件及监控程序的服务器中运行该监控程序,以建立一个服务器集群;
通过所述监控程序获取该服务器集群中各服务器的运行参数;
根据所获取的运行参数判断该服务器集群中是否有服务器发生运行故障;
在监控计算机中查找该发生运行故障的服务器上运行的虚拟机所对应的镜像文件;及
将所搜索到的镜像文件发送到该服务器集群中的其它服务器,以在该服务器集群中的其它服务器上重新安装虚拟机。
7.如权利要求6所述的服务器运行监测方法,其特征在于,所述服务器集群中各服务器之间能够相互通信。
8.如权利要求6所述的服务器运行监测方法,其特征在于,所述服务器都安装有Hypervisor软件。
9.如权利要求6所述的服务器运行监测方法,其特征在于,所述运行参数为服务器的电源数据。
10.如权利要求6或9所述的服务器运行监测方法,其特征在于,所述服务器发生运行故障是指服务器的电源数据为零。
CN2012101009038A 2012-04-09 2012-04-09 服务器运行监测***及方法 Pending CN103368785A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN2012101009038A CN103368785A (zh) 2012-04-09 2012-04-09 服务器运行监测***及方法
TW101113894A TW201342046A (zh) 2012-04-09 2012-04-19 伺服器運行監測系統及方法
US13/726,534 US20130268805A1 (en) 2012-04-09 2012-12-24 Monitoring system and method
JP2013079328A JP2013218687A (ja) 2012-04-09 2013-04-05 サーバー監視システム及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101009038A CN103368785A (zh) 2012-04-09 2012-04-09 服务器运行监测***及方法

Publications (1)

Publication Number Publication Date
CN103368785A true CN103368785A (zh) 2013-10-23

Family

ID=49293278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101009038A Pending CN103368785A (zh) 2012-04-09 2012-04-09 服务器运行监测***及方法

Country Status (4)

Country Link
US (1) US20130268805A1 (zh)
JP (1) JP2013218687A (zh)
CN (1) CN103368785A (zh)
TW (1) TW201342046A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995731A (zh) * 2014-05-09 2014-08-20 华为技术有限公司 一种管理中心部署方法和虚拟装置
CN104794039A (zh) * 2015-04-23 2015-07-22 努比亚技术有限公司 服务软件的远程监测方法和装置
WO2016066084A1 (zh) * 2014-10-28 2016-05-06 北京奇虎科技有限公司 一种信息提供方法及装置
CN108228430A (zh) * 2017-12-13 2018-06-29 山东浪潮云服务信息科技有限公司 一种服务器监控方法及装置
CN108304396A (zh) * 2017-01-11 2018-07-20 北京京东尚科信息技术有限公司 数据存储方法和装置
CN115766715A (zh) * 2022-10-28 2023-03-07 北京志凌海纳科技有限公司 一种高可用的超融合集群监控方法和***

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336118B2 (en) * 2013-01-28 2016-05-10 Hewlett Packard Enterprise Development Lp Allocating test capacity from cloud systems
CN104484231A (zh) * 2014-12-31 2015-04-01 武汉邮电科学研究院 虚拟机切换***及切换方法
FR3040805B1 (fr) * 2015-09-09 2018-03-02 Rizze Procede automatique de mise en place et maintenance de services de haute disponibilite dans un systeme d'exploitation en nuage
US11334410B1 (en) * 2019-07-22 2022-05-17 Intuit Inc. Determining aberrant members of a homogenous cluster of systems using external monitors
CN112887355B (zh) * 2019-11-29 2022-09-27 北京百度网讯科技有限公司 异常服务器的业务处理方法及装置
CN111404807B (zh) * 2020-03-25 2023-07-28 论客科技(广州)有限公司 一种邮件服务器自动切换方法、装置及存储介质
CN112306802A (zh) * 2020-10-29 2021-02-02 平安科技(深圳)有限公司 ***的数据获取方法、装置、介质和电子设备
US11966280B2 (en) 2022-03-17 2024-04-23 Walmart Apollo, Llc Methods and apparatus for datacenter monitoring

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155024A (zh) * 2006-09-29 2008-04-02 湖南大学 分簇结构传感器网络的有效密钥管理方法及其运行方法
CN101695077A (zh) * 2009-09-30 2010-04-14 曙光信息产业(北京)有限公司 一种虚拟机的操作***部署方法、***及设备
CN101877043A (zh) * 2009-11-30 2010-11-03 英业达股份有限公司 虚拟机的应用程序的管理***与其方法
CN101938368A (zh) * 2009-06-30 2011-01-05 国际商业机器公司 刀片服务器***中的虚拟机管理器和虚拟机处理方法
WO2011124077A1 (zh) * 2010-04-07 2011-10-13 中兴通讯股份有限公司 虚拟机管理方法、***及虚拟机管理服务器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7908605B1 (en) * 2005-01-28 2011-03-15 Hewlett-Packard Development Company, L.P. Hierarchal control system for controlling the allocation of computer resources
JP4980792B2 (ja) * 2007-05-22 2012-07-18 株式会社日立製作所 仮想計算機の性能監視方法及びその方法を用いた装置
JP5288334B2 (ja) * 2008-02-04 2013-09-11 日本電気株式会社 仮想アプライアンス配備システム
WO2010102084A2 (en) * 2009-03-05 2010-09-10 Coach Wei System and method for performance acceleration, data protection, disaster recovery and on-demand scaling of computer applications
JP5338906B2 (ja) * 2009-06-01 2013-11-13 富士通株式会社 サーバ管理プログラム、管理サーバ、仮想サーバ配置方法
US8719804B2 (en) * 2010-05-05 2014-05-06 Microsoft Corporation Managing runtime execution of applications on cloud computing systems
US8769102B1 (en) * 2010-05-21 2014-07-01 Google Inc. Virtual testing environments
US8751656B2 (en) * 2010-10-20 2014-06-10 Microsoft Corporation Machine manager for deploying and managing machines

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155024A (zh) * 2006-09-29 2008-04-02 湖南大学 分簇结构传感器网络的有效密钥管理方法及其运行方法
CN101938368A (zh) * 2009-06-30 2011-01-05 国际商业机器公司 刀片服务器***中的虚拟机管理器和虚拟机处理方法
CN101695077A (zh) * 2009-09-30 2010-04-14 曙光信息产业(北京)有限公司 一种虚拟机的操作***部署方法、***及设备
CN101877043A (zh) * 2009-11-30 2010-11-03 英业达股份有限公司 虚拟机的应用程序的管理***与其方法
WO2011124077A1 (zh) * 2010-04-07 2011-10-13 中兴通讯股份有限公司 虚拟机管理方法、***及虚拟机管理服务器

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995731A (zh) * 2014-05-09 2014-08-20 华为技术有限公司 一种管理中心部署方法和虚拟装置
CN103995731B (zh) * 2014-05-09 2018-01-02 华为技术有限公司 一种管理中心部署方法和虚拟装置
WO2016066084A1 (zh) * 2014-10-28 2016-05-06 北京奇虎科技有限公司 一种信息提供方法及装置
CN104794039A (zh) * 2015-04-23 2015-07-22 努比亚技术有限公司 服务软件的远程监测方法和装置
CN104794039B (zh) * 2015-04-23 2018-11-16 努比亚技术有限公司 服务软件的远程监测方法和装置
CN108304396A (zh) * 2017-01-11 2018-07-20 北京京东尚科信息技术有限公司 数据存储方法和装置
CN108228430A (zh) * 2017-12-13 2018-06-29 山东浪潮云服务信息科技有限公司 一种服务器监控方法及装置
CN115766715A (zh) * 2022-10-28 2023-03-07 北京志凌海纳科技有限公司 一种高可用的超融合集群监控方法和***
CN115766715B (zh) * 2022-10-28 2024-01-30 北京志凌海纳科技有限公司 一种超融合集群监控方法和***

Also Published As

Publication number Publication date
JP2013218687A (ja) 2013-10-24
TW201342046A (zh) 2013-10-16
US20130268805A1 (en) 2013-10-10

Similar Documents

Publication Publication Date Title
CN103368785A (zh) 服务器运行监测***及方法
US11184434B2 (en) Top-of-rack switch replacement for hyper-converged infrastructure computing environments
US10372478B2 (en) Using diversity to provide redundancy of virtual machines
US9569294B2 (en) Information handling system physical component inventory to aid operational management through near field communication device interaction
CN107800565B (zh) 巡检方法、装置、***、计算机设备和存储介质
CN102833083A (zh) 数据中心电源设备控制***及方法
CN104486445A (zh) 一种基于云平台的分布式可扩展资源监控***及方法
CN104378218A (zh) 机柜内服务器管理***及方法
CN102811141A (zh) 虚拟机运行监测***及方法
US11398989B2 (en) Cloud service for cross-cloud operations
CN102654836A (zh) 虚拟机安装***及方法
CN103164277A (zh) 动态资源规划分配***及方法
CN110278101B (zh) 一种资源管理方法及设备
CN103902310B (zh) 虚拟机启动排程***及方法
WO2022093713A1 (en) Techniques for generating a configuration for electrically isolating fault domains in a data center
CN103064740A (zh) 客户操作***预测迁移***及方法
JP2014127210A (ja) 仮想マシンの作動スケジューリングシステム及びその方法
CN112685486B (zh) 数据库集群的数据管理方法、装置、电子设备及存储介质
CN105338058A (zh) 一种应用更新的方法及装置
CN102868594B (zh) 一种消息处理方法和装置
CN106302626A (zh) 一种弹性扩容方法、装置及***
US20230289203A1 (en) Server maintenance control device, server maintenance system, server maintenance control method, and program
CN102810067A (zh) 虚拟机模板更新***及方法
CN103629132B (zh) 风扇共享控制***及方法
CN103905238A (zh) 数据中心异常信息收集***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160707

Address after: 528437 Guangdong province Zhongshan Torch Development Zone, Cheung Hing Road 6 No. 222 north wing trade building room

Applicant after: Yun Chuan intellectual property Services Co., Ltd of Zhongshan city

Address before: 518109 Guangdong city of Shenzhen province Baoan District Longhua Town Industrial Zone tabulaeformis tenth East Ring Road No. 2 two

Applicant before: Hongfujin Precise Industry (Shenzhen) Co., Ltd.

Applicant before: Hon Hai Precision Industry Co., Ltd.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131023