CN103560903A - 服务器远程监控及应急处置***及方法 - Google Patents

服务器远程监控及应急处置***及方法 Download PDF

Info

Publication number
CN103560903A
CN103560903A CN201310472641.2A CN201310472641A CN103560903A CN 103560903 A CN103560903 A CN 103560903A CN 201310472641 A CN201310472641 A CN 201310472641A CN 103560903 A CN103560903 A CN 103560903A
Authority
CN
China
Prior art keywords
module
data
client
master station
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310472641.2A
Other languages
English (en)
Inventor
孔明
刘平
李井泉
辛锐
齐冬斌
陈连栋
温锁柱
孔艺
曹明
高旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201310472641.2A priority Critical patent/CN103560903A/zh
Publication of CN103560903A publication Critical patent/CN103560903A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种服务器远程监控及应急处置***及方法,它应用于对通讯机房服务器的远程监控;***包括若干客户端以及监控主站,客户端与监控主站之间通过TCP/IP控制/网间协议进行数据传输;客户端设置有数据链接模块、数据监视模块、进程监视模块、报警监视模块以及应急处置模块,监控主站设置有通讯链接模块、数据接收模块、数据分析模块、数据输出模块以及应急控制模块;所述处置方法包括链接请求、数据采集、数据处理以及控制客户端服务器工作状态四个步骤。本发明不仅能实现对通讯机房内服务器运行数据的实时监控和报警信号的主动上报,还可以在机房出现不可预期的紧急情况时,实现一键式远程分批次关机,保证服务器中数据的完整性。

Description

服务器远程监控及应急处置***及方法
技术领域
本发明涉及一种通信运维***,具体的说是一种服务器远程监控***。
背景技术
随着国家电网公司信息化SG186工程的实施,信息化建设突飞猛进,信息***已经融入到了电网企业生产经营的各个部门,成为生产经营环节不可缺少的组成部分。服务器数量不断增加,设备运行维护的工作量越来越大,运维人员的工作量也大大增长,常规的运维方式已经不能保障这几百台服务器的安全运行。当信息机房遇到服务器异常、空调故障、进水等不可预测的紧急情况时,操作人员需要快速关闭正在运行服务器,避免造成数据丢失、设备损坏等重大事件。由于机房内服务器设备量大,且操作***不统一,通过常规方法关闭服务器操作复杂、时间长、人为因素多,导致关机时长不确定,将带来更大的安全隐患,造成不可预估的经济损失和社会影响。
对服务器设备的监控是保障业务***安全稳定运行的一个重要放面,目前,现有运行***实现了对服务器的运行状态和数据的监控,但还存在一定的问题,如:***无法实现对机房各服务器运行数据的实时监控;无法实现报警信号的主动上报;在机房出现不可预期的紧急情况时,不能及时关机,无法保证服务器中数据的完整性。
发明内容
本发明需要解决的技术问题是提供一种服务器远程监控及应急处置***及方法,不仅能实现对通讯机房内服务器运行数据的实时监控和报警信号的主动上报,还可以在机房出现不可预期的紧急情况时,实现一键式远程分批次关机,以保护服务器中数据的完整性。
为解决上述技术问题,本发明所采用的技术方案是:
服务器远程监控及应急处置***,包括被监控的若干客户端以及用于监控客户端的监控主站,客户端与监控主站之间通过TCP/IP控制/网间协议进行数据传输。所述客户端设置有数据链接模块、数据监视模块、进程监视模块、报警监视模块以及应急处置模块,数据监视模块、进程监视模块、报警监视模块分别与数据链接模块互连;所述监控主站设置有通讯链接模块、数据接收模块、数据分析模块、数据输出模块以及应急控制模块,通讯链接模块与客户端的数据链接模块互连,通讯链接模块的输出端经数据接收模块与数据分析模块连接,数据分析模块的输出端分别与数据输出模块以及应急控制模块连接,应急控制模块的输出端连接客户端的应急处置模块。
服务器远程监控及应急处置方法,所述服务器远程监控及应急处置方法基于服务器远程监控及应急处置***实现,其中服务器远程监控及应急处置***包括被监控的若干客户端以及用于监控客户端的监控主站,所述客户端设置有数据链接模块、数据监视模块、进程监视模块、报警监视模块以及应急处置模块,所述监控主站设置有通讯链接模块、数据接收模块、数据分析模块、数据输出模块以及应急控制模块;所述服务器远程监控及应急处置方法具体包括以下步骤:
第一步,链接请求
当客户端启动时,客户端的数据链接模块主动向监控主站发起数据链接请求,监控主站的通讯链接模块响应该请求,并向所有客户端发起心跳链接信号;
第二步,数据采集
客户端的数据链接模块接收到链接信号后,客户端的数据监视模块、进程监视模块和报警监视模块开始同步运行并实时采集数据经数据链接模块发送至监控主站;
第三步,数据处理
监控主站的数据接收模块将实时接收的客户端各监视模块采集的数据信息传送至数据分析模块进行数据分析;数据分析模块得到的分析结果通过监控主站的数据输出模块以曲线、图表或报表等方式进行直观展示;同时数据分析模块还将分析结果传输给应急控制模块;
第四步,控制客户端服务器工作状态
应急控制模块根据接收的信号对客户端的应急处置模块发送控制指令;客户端的应急处置模块根据指令实时对客户端服务器的工作状态进行控制。
本发明的改进在于:服务器远程监控及应急处置方法,所述第一步中所述链接请求的具体步骤为:客户端启动后,识别网络环境是否可用,如可用则接入服务器,建立通讯链接信号,发送数据链接请求;同时监控主站识别网络环境是否可用,如可用则启动侦听,识别客户端是否接入,发现客户端成功接入后,监控主站向客户端建立通讯链接信号,客户端与监控主站保持数据链接。
由于采用了上述技术方案,本发明取得的技术进步是:
本发明不仅能实现对通讯机房内服务器运行数据的实时监控和报警信号的主动上报,还可以在机房出现不可预期的紧急情况时,实现一键式远程分批次关机,以保护服务器中数据的完整性。客户端的数据链接模块采用的心跳和握手机制,在监控主站或客户端有任何一方检测到数据链接异常时,将强行断开链接并清理现场、释放资源,既保证了客户端与监控主站数据链接的稳定性,又能及时检测数据链接状态,使***具有自愈能力。监控主站数据分析模块,对服务器的连续性数据进行分析,整理结果可直观显示,便于对服务器、进程的运行数据和状态进行分析。监控主站应急控制模块在出现紧急情况时,及时向客户端应急处置模块发出指令,对客户端服务器或运行软件进行保护性处理,包括关闭服务器和重新启动服务器。
附图说明
图1是本发明所述服务器远程监控及应急处置***的结构框图;
图2是本发明所述链接请求的通讯逻辑图。
具体实施方式
下面结合附图对本发明做进一步详细说明:
一种服务器远程监控及应急处置***,如图1所示,包括被监控的若干客户端以及用于监控客户端的监控主站。客户端是配置在机房内的服务器设备,客户端服务器上嵌装有客户端程序Client;监控主站是配置在监控室内的服务器设备,监控主站服务器嵌装有监控程序Server;客户端与监控主站之间通过TCP/IP控制/网间协议进行数据传输,形成基于CS模式的远程监控及应急处理***。
客户端包括五个功能模块,分别是:数据链接模块、数据监视模块、进程监视模块、报警监视模块以及应急处置模块。监控主站包括五个功能模块,分别是:通讯链接模块、数据接收模块、数据分析模块、数据输出模块以及应急控制模块。
客户端的数据监视模块、进程监视模块、报警监视模块分别与客户端的数据链接模块互连;监控主站的通讯链接模块和客户端的数据链接模块互连,通讯链接模块的输出端经过数据接收模块与数据分析模块链接,数据分析模块的输出端分别与数据输出模块以及应急控制模块连接,应急控制模块的输出端连接客户端的应急处置模块。
服务器远程监控及应急处置方法基于上述服务器远程监控及应急处置***实现,具体包括以下步骤:
第一步,链接请求
当客户端启动时,客户端上的数据链接模块启动,该模块负责与监控主站进行通讯链接。机房的各服务器启动运行后,客户端的数据链接模块主动向监控主站服务器发起数据链接请求,监控主站的通讯链接模块响应该请求,为了保证数据通讯的可靠性,监控主站的通讯链接模块向所有客户端发起心跳链接信号,并实时检测所有通讯链接的可用性。当监控主站或客户端有一方检测到数据链接异常时,将强行断开链接并清理现场、释放资源,避免由于某一通讯链接的问题导致整个通信***的瘫痪,使***具有很强的自愈能力。
客户端和监控主站的数据链接请求流程如图2所示,客户端识别网络环境是否可用,如可用则接入服务器,建立通讯链接信号,发送数据链接请求。监控主站识别网络环境是否可用,如可用则启动侦听,识别客户端是否接入,发现客户端成功接入后,监控主站向客户端建立通讯链接,客户端与监控主站保持数据链接。监控主站与客户端的各功能模块保持正常运行,如出现通讯异常,客户端和监控主站分别进入保护性异常处理,处理结束后客户端继续向监控主站发起链接请求,建立新一轮通讯链接,通讯控制逻辑继续运行,保持监控主站和客户端各个模块的数据链接。
第二步,数据采集
客户端通过数据链接模块与监控主站保持稳定的通讯链接后,客户端的数据监视模块、进程监视模块和报警监视模块开始同步运行。数据监视模块负责对所在服务器的基本数据进行采集,包括对***的基本配置信息、网络配置信息、硬件配置信息进行采集;进程监视模块负责实现对服务器某一进程的运行状况和运行参数进行监控,如CPU的占用、内存需求、用户的链接信息等;报警监视模块负责对服务器硬件报警信号及软件报警信号的转发。数据监视模块,进程监视模块和报警监视模块所采集到的数据均通过数据链接模块传送到监控主站。
第三步,数据处理
监控主站与客户端保持通讯链接后,监控主站的数据接收模块开始接收客户端服务器上各监视模块传送到监控主站的数据信息,包括服务器机房所有设备的基本信息,客户端自动更新并上传的服务器各个进程的运行信息,客户端各服务器上的界面信息。
这些接收到的数据通过监控主站的数据分析模块进行分析,并形成决策性数据结果,如分析所监控服务器的CPU使用率,根据接收到的数据分析出一天中哪一时间段是使用高峰期,CPU使用率与进程及服务之间的关系等。数据分析模块得到的分析结果通过监控主站的数据输出模块以曲线、图表或报表等方式进行直观展示;同时数据分析模块还将分析结果传输给应急控制模块。
第四步,控制客户端服务器工作状态
监控主站的应急控制模块根据接收到的信号对客户端的应急处置模块发送控制指令,对机房服务器进行保护性应急处理;客户端的应急处理模块根据指令实时对客户端服务器的工作状态进行控制。例如:当前有紧急事件发生时,包括在监控主站数据分析模块中得到的数据出现异常或客户端机房出现突发性事件时,客户端应急处置模块在监控主站的控制下对客户端服务器或运行中的软件进行保护性处理,包括关闭服务器和重新启动服务器。

Claims (3)

1.服务器远程监控及应急处置***,包括被监控的若干客户端以及用于监控客户端的监控主站,客户端与监控主站之间通过TCP/IP控制/网间协议进行数据传输,其特征在于:所述客户端设置有数据链接模块、数据监视模块、进程监视模块、报警监视模块以及应急处置模块,数据监视模块、进程监视模块、报警监视模块分别与数据链接模块互连;所述监控主站设置有通讯链接模块、数据接收模块、数据分析模块、数据输出模块以及应急控制模块,通讯链接模块与客户端的数据链接模块互连,通讯链接模块的输出端经数据接收模块与数据分析模块连接,数据分析模块的输出端分别与数据输出模块以及应急控制模块连接,应急控制模块的输出端连接客户端的应急处置模块。
2.服务器远程监控及应急处置方法,其特征在于:所述服务器远程监控及应急处置方法基于服务器远程监控及应急处置***实现,其中服务器远程监控及应急处置***包括被监控的若干客户端以及用于监控客户端的监控主站,所述客户端设置有数据链接模块、数据监视模块、进程监视模块、报警监视模块以及应急处置模块,所述监控主站设置有通讯链接模块、数据接收模块、数据分析模块、数据输出模块以及应急控制模块;所述服务器远程监控及应急处置方法具体包括以下步骤:
第一步,链接请求
当客户端启动时,客户端的数据链接模块主动向监控主站发起数据链接请求,监控主站的通讯链接模块响应该请求,并向所有客户端发起心跳链接信号;
第二步,数据采集
客户端的数据链接模块接收到链接信号后,客户端的数据监视模块、进程监视模块和报警监视模块开始同步运行并实时采集数据经数据链接模块发送至监控主站;
第三步,数据处理
监控主站的数据接收模块将实时接收的客户端各监视模块采集的数据信息传送至数据分析模块进行数据分析;数据分析模块得到的分析结果通过监控主站的数据输出模块以曲线、图表或报表等方式进行直观展示;同时数据分析模块还将分析结果传输给应急控制模块;
第四步,控制客户端服务器工作状态
应急控制模块根据接收的信号对客户端的应急处置模块发送控制指令;客户端的应急处置模块根据指令实时对客户端服务器的工作状态进行控制。
3.根据权利要求2所述的服务器远程监控及应急处置方法,其特征在于:所述第一步中所述链接请求的具体步骤为:客户端启动后,识别网络环境是否可用,如可用则接入服务器,建立通讯链接信号,发送数据链接请求;同时监控主站识别网络环境是否可用,如可用则启动侦听,识别客户端是否接入,发现客户端成功接入后,监控主站向客户端建立通讯链接信号,客户端与监控主站保持数据链接。
CN201310472641.2A 2013-10-12 2013-10-12 服务器远程监控及应急处置***及方法 Pending CN103560903A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310472641.2A CN103560903A (zh) 2013-10-12 2013-10-12 服务器远程监控及应急处置***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310472641.2A CN103560903A (zh) 2013-10-12 2013-10-12 服务器远程监控及应急处置***及方法

Publications (1)

Publication Number Publication Date
CN103560903A true CN103560903A (zh) 2014-02-05

Family

ID=50015059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310472641.2A Pending CN103560903A (zh) 2013-10-12 2013-10-12 服务器远程监控及应急处置***及方法

Country Status (1)

Country Link
CN (1) CN103560903A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107238367A (zh) * 2017-07-19 2017-10-10 国网辽宁省电力有限公司丹东供电公司 导线对周围建筑物距离监测预警平台
CN109167804A (zh) * 2018-05-21 2019-01-08 广东力源液压机械有限公司 一种液压打桩锤通信交互方法及其***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495610A (zh) * 2011-12-22 2012-06-13 飞虎科技有限公司 基于物联网的电脑横机远程监控***及方法
JP2012121720A (ja) * 2010-12-10 2012-06-28 Hitachi Building Systems Co Ltd 昇降機遠隔監視システムの監視マスターファイル管理方法
CN103036904A (zh) * 2012-12-27 2013-04-10 东方通信股份有限公司 一种在通信网络中使用udp协议进行数据可靠传输的方法
CN203102592U (zh) * 2013-02-06 2013-07-31 郭忠印 一种基于高速公路运营安全移动监控和预警***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012121720A (ja) * 2010-12-10 2012-06-28 Hitachi Building Systems Co Ltd 昇降機遠隔監視システムの監視マスターファイル管理方法
CN102495610A (zh) * 2011-12-22 2012-06-13 飞虎科技有限公司 基于物联网的电脑横机远程监控***及方法
CN103036904A (zh) * 2012-12-27 2013-04-10 东方通信股份有限公司 一种在通信网络中使用udp协议进行数据可靠传输的方法
CN203102592U (zh) * 2013-02-06 2013-07-31 郭忠印 一种基于高速公路运营安全移动监控和预警***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于治楼等: "基于 IPMI 的服务器远程管理的研究与实现", 《信息技术与信息化》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107238367A (zh) * 2017-07-19 2017-10-10 国网辽宁省电力有限公司丹东供电公司 导线对周围建筑物距离监测预警平台
CN109167804A (zh) * 2018-05-21 2019-01-08 广东力源液压机械有限公司 一种液压打桩锤通信交互方法及其***
CN109167804B (zh) * 2018-05-21 2024-03-01 广东力源液压机械有限公司 一种液压打桩锤通信交互方法及其***

Similar Documents

Publication Publication Date Title
CN103490919A (zh) 故障管理***和故障管理方法
CN104022904A (zh) 分布式机房it设备统一管理平台
CN103166773A (zh) 监测服务器运行状态的方法与***
CN109240246A (zh) 一种充电站智能化运维***及方法
CN101877618A (zh) 基于无代理方式进行监控的方法、服务器及***
CN102752131A (zh) 一种基于任务驱动的电力通信网数据采集方法
CN103763127A (zh) 一种设备状态告警监控方法及***
CN105607583A (zh) 一种监控方法、装置及电源***中的第一监控单元
CN103067209A (zh) 一种心跳模块自检测方法
CN111031018B (zh) 一种变电站网络安全监测客户端***及其实现方法
EP2882216B1 (en) Device and method for controlling, supervising and giving an alarming from a power supply of base station
CN103560903A (zh) 服务器远程监控及应急处置***及方法
CN111244806A (zh) 一种电力设备安全调试监控***和处理方法
CN202735418U (zh) 一种电能质量监测***
CN102098174A (zh) 电网监控***的安全通信方法及***
CN103558819A (zh) 一种切片机故障诊断***
CN103812697A (zh) 一种分布式通信网络的异地容灾方法和***
CN203896047U (zh) 一种电力保护***
CN103023140A (zh) 一种远程快捷维护现场设备的方法及***
CN209897073U (zh) 一种网管设备的监控***
US11093014B2 (en) Method for monitoring, control and graceful shutdown of control and/or computer units
CN204155134U (zh) 一种光伏组件发电集中监测***
CN104869012A (zh) 基于电网调度电话综合告警监测***及其方法
CN103248505B (zh) 基于视图的网络监控方法及装置
CN103634821A (zh) 一种多路无线网络通信设备链路动态监控处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zhang Lei

Inventor after: Cao Ming

Inventor after: Gao Xu

Inventor after: Kong Ming

Inventor after: Liu Ping

Inventor after: Li Jingquan

Inventor after: Xin Rui

Inventor after: Qi Dongbin

Inventor after: Chen Liandong

Inventor after: Wen Suozhu

Inventor after: Kong Yi

Inventor before: Kong Ming

Inventor before: Gao Xu

Inventor before: Liu Ping

Inventor before: Li Jingquan

Inventor before: Xin Rui

Inventor before: Qi Dongbin

Inventor before: Chen Liandong

Inventor before: Wen Suozhu

Inventor before: Kong Yi

Inventor before: Cao Ming

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140205