CN117880061B - 一种数据中心运维监控*** - Google Patents

一种数据中心运维监控*** Download PDF

Info

Publication number
CN117880061B
CN117880061B CN202410270620.0A CN202410270620A CN117880061B CN 117880061 B CN117880061 B CN 117880061B CN 202410270620 A CN202410270620 A CN 202410270620A CN 117880061 B CN117880061 B CN 117880061B
Authority
CN
China
Prior art keywords
serial port
equipment
server
recognition rate
error recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410270620.0A
Other languages
English (en)
Other versions
CN117880061A (zh
Inventor
汪敏
何洋菲
郑饦
高桁一
高雅南
李景新
曾肖肖
王克宇
张颖
刘卓霖
周小波
郑冉
郑仪
何勇男
谢俊新
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ya'an Digital Economy Operation Co ltd
Original Assignee
Ya'an Digital Economy Operation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ya'an Digital Economy Operation Co ltd filed Critical Ya'an Digital Economy Operation Co ltd
Priority to CN202410270620.0A priority Critical patent/CN117880061B/zh
Publication of CN117880061A publication Critical patent/CN117880061A/zh
Application granted granted Critical
Publication of CN117880061B publication Critical patent/CN117880061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请属于机房运维管理技术领域,更具体地说,涉及一种数据中心运维监控***;本发明通过设置检修模块,当检修模块启动后,服务器将根据物理串口映射表向相应的通信对象发送预定的检测数据包,数据包用于检测服务器内部通信串口、服务器与外部设备以及服务器之间的串口通信链路的完整性和稳定性;一旦检测到通信异常,相应的异常信息将基于互联网通信协议发送至PC客户端和移动客户端;客户端收到异常信息后,将生成报警信息,通过语音的形式提醒检修人员;使得检修人员能够第一时间得知相应串口链路的情况,以便于即时进行维修。

Description

一种数据中心运维监控***
技术领域
本申请属于机房运维管理技术领域,更具体地说,涉及一种数据中心运维监控***。
背景技术
随着信息技术的飞速发展,数据中心和机房的作用变得尤为重要,当前机房运行的情况是多服务器环境的标准配置,其中每台服务器的运行状况直接影响整个数据中心的效率和可靠性;在现代数据中心的运维管理中,服务器的稳定性和可靠性是保证数据中心高效运作的关键因素之一;服务器的维护和检修工作对于确保***连续性和数据完整性至关重要;然而,在日常的维护过程中,存在一些常见的技术问题影响到服务器的正常运行。
传统的服务器检修主要依赖检修人员进行物理检查和软件监控;在物理检查中,检修人员可能需要直接接触服务器的硬件组件,包括各种线路和接口;在这一过程,检修人员可能会无意识的触碰到关键部件,尤其是串口线路;由于串口线路通常用于服务器内部设备之间、服务器之间以及服务器与其他设备之间的通信;一旦无意识的触碰或拉扯,容易导致串口线路与串口之间脱落或者是造成接触不良的情况;进而导致数据传输中断或错误,引发***不稳定或其他严重的运行故障。
发明内容
本发明提供了一种数据中心运维监控***,拟目前检修人员在无意识的状态下触碰或拉扯串口线路,导致串口线路脱落或解除不良而不自知的技术问题。
一种数据中心运维监控***,包括PC客户端和移动客户端,所述PC客户端和移动客户端均能获取数据中心服务器的数据信息;
在每台所述服务器上设置有检修模块;所述检修模块包括外部设备检修模块和内部设备检修模块;
所述外部检修模块包括两个服务器或服务器与其他设备之间的物理串口映射表;
所述内部检修模块包括服务器内部设备之间的物理串口映射表;
当任意一个服务器上的检修模块开启后,服务器基于物理串口映射表向其他服务器、其他设备以及当前服务器的内部设备之间发送预定的检测数据包,检测服务器的内部通信串口、服务器与其他服务器和其他外部设备之间的串口通信链路是否正常;
所述PC客户端和移动客户端通过网络通信协议获取服务器检修模块的检测信息,获取异常信息,并基于异常信息在PC客户端和移动客户端生成报警信息,并进行语音报警。
本发明通过设置检修模块,当检修模块启动后,服务器将根据物理串口映射表向相应的通信对象发送预定的检测数据包,数据包用于检测服务器内部通信串口、服务器与外部设备以及服务器之间的串口通信链路的完整性和稳定性;一旦检测到通信异常,相应的异常信息将基于互联网通信协议发送至PC客户端和移动客户端;客户端收到异常信息后,将生成报警信息,通过语音的形式提醒检修人员;使得检修人员能够第一时间得知相应串口链路的情况,以便于即时进行维修。
优选的,所述映射表包括串口的物理位置、识别码、通信参数、链接的外部或内部设备以及对应设备的插拔属性;
所述插拔属性为对应设备是否具备热插拔的功能;
当任意两个串口之间的通信链路出现故障后,所述PC客户端和移动客户端基于互联网协议调用映射表中的串口信息,获取对应设备是否具备热插拔的功能。
优选的,所述检修模块包括设备诊断机制;
所述设备诊断机制的具体步骤如下:
当获取到服务器内部通信串口之间、服务器与其他服务器和其他外部设备之间的串口通信链路异常;
获取链路异常的串口链路,并基于所有链路异常的串口链路进行归类,将连接相同设备和相同服务器之间的串口相互关联;
在服务器中预设相应设备损坏后的异常链路;基于相互关联的串口对比预设的相应设备损坏后的异常链路,判定服务器内部设备、或其他服务器的接收设备或其他设备的接收模块是否损坏。
优选的,所述PC客户端和移动客户端均设置有控制模块;
所述控制模块用于控制所述服务器的启停;当检测出设备损坏后,PC客户端和移动客户端调用映射表中对应设备的插拔属性,确定对应设备是否具备热插拔功能;
若对应设备不具备热插拔功能,则提醒用户或直接控制服务器关机后进行检修;
若设备具备热插拔功能,则提醒用户可直接进行相关设备的更换。
优选的,在所述串口映射表中建立设备故障映射,将设备故障后应当出现的故障链路与串口映射表中的相应串口相映射;
当服务器检测到链路故障时,通过遍历映射表中的信息,确认是设备故障还是串口链路故障。
优选的,还包括基于服务器内部设备之间的位置关系建立设备影响映射表;
所述设备影响映射表反应插拔一个设备时存在影响的相关设备;
用户基于PC客户端或移动客户端访问设备影响映射表,并基于待插拔的设备获取影响设备,并基于设备影响映射表获取解决方案。
优选的,所述检测数据包包括起始符、地址、数据、校验和、终止符;
所述起始符用于表示检测数据包开始的特殊字符或字节;
所述地址表示制定设备的地址或其他标识信息;
所述数据包含检测信息;
所述校验和用于校验检测数据包在传输过程是否保持完整;
所述终止符用于标识检测数据包结束的特殊字符或字节序列。
优选的,所述校验检测数据包在传输过程是否保持完整的步骤如下:
原发设备将数据包通过串口线缆发送到目标设备,数据包被转换为可在物理介质上传输的电信号;并经过串口线缆传输到达目标设备的串口;
若目标设备并未收到电信号,则判定目标设备与原发设备之间的串口链路形成断路;
当目标设备的串口接收到电信号后,将电信号转换为数字信号,并将其放入接收缓冲区;检测程序读取缓冲区中的数据,检查起始符、终止符以及校验和,确认数据是否完整;将检测后的信息存储到检修模块所提供的数据库中,以供PC客户端和移动客户端查阅调用。
优选的,还包括错误识别模块,所述错误识别模块包括在所述检测数据包中注入错误数据;
并通过所述错误识别模块获取采用原串口以及原导线进行通信时的第一错误识别率;
当更换原串口或/和原导线后,错误识别模块获取新串口或/和新导线进行通信时的第二错误识别率;将第二错误识别率与第一错误识别率进行对比,若第二错误识别率低于第一错误识别率,则提醒用户更换串口或/和导线。
优选的,在所述错误识别模块中建立有阈值,所述阈值包括:
错误识别率识别阈值:将原串口以及原导线进行通信时的错误识别率作为错误识别率阈值;
错误识别率下限阈值:基于原串口以及原导线初始通信时期的错误率下限设置错误识别率下限阈值;
获取更换后串口或/和导线后的错误识别率,并基于错误率下限阈值与更换后的错误识别率进行对比,若错误识别率大于错误率下限阈值且小于错误率识别阈值的,则进行报警提醒;
若错误识别率小于错误识别率下限阈值的则进行报警;提醒用户更换,若用户选择不更换的,则获取原串口以及原导线进行通信时,错误识别率的初始波动周期;并基于该初始波动周期,设置当前的检测提醒周期;当在提醒周期内,所检测的错误识别率仍旧小于错误识别率下限阈值的,则继续提醒客户进行相关串口或/和导线的更换。
本发明的有益效果包括:
本发明通过设置检修模块,当检修模块启动后,服务器将根据物理串口映射表向相应的通信对象发送预定的检测数据包,数据包用于检测服务器内部通信串口、服务器与外部设备以及服务器之间的串口通信链路的完整性和稳定性;一旦检测到通信异常,相应的异常信息将基于互联网通信协议发送至PC客户端和移动客户端;客户端收到异常信息后,将生成报警信息,通过语音的形式提醒检修人员;使得检修人员能够第一时间得知相应串口链路的情况,以便于即时进行维修。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的运维监控***框图。
图2为本发明实施例提供的检测数据包校验过程示意图。
图3为本发明实施例1提供的设备诊断机制流程示意图。
具体实施方式
为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例1
参见图1所示,一种数据中心运维监控***,包括PC客户端和移动客户端,所述PC客户端和移动客户端均能获取数据中心服务器的数据信息;
在每台所述服务器上设置有检修模块;所述检修模块包括外部设备检修模块和内部设备检修模块;
所述外部检修模块包括两个服务器或服务器与其他设备之间的物理串口映射表;
所述内部检修模块包括服务器内部设备之间的物理串口映射表;
当任意一个服务器上的检修模块开启后,服务器基于物理串口映射表向其他服务器、其他设备以及当前服务器的内部设备之间发送预定的检测数据包,检测服务器的内部通信串口、服务器与其他服务器和其他外部设备之间的串口通信链路是否正常;
所述PC客户端和移动客户端通过网络通信协议获取服务器检修模块的检测信息,获取异常信息,并基于异常信息在PC客户端和移动客户端生成报警信息,并进行语音报警。
本发明通过设置检修模块,当检修模块启动后,服务器将根据物理串口映射表向相应的通信对象发送预定的检测数据包,数据包用于检测服务器内部通信串口、服务器与外部设备以及服务器之间的串口通信链路的完整性和稳定性;一旦检测到通信异常,相应的异常信息将基于互联网通信协议发送至PC客户端和移动客户端;客户端收到异常信息后,将生成报警信息,通过语音的形式提醒检修人员;使得检修人员能够第一时间得知相应串口链路的情况,以便于即时进行维修。
作为本实施例的一种可能的实现方式,所述映射表包括串口的物理位置、识别码、通信参数、链接的外部或内部设备以及对应设备的插拔属性;
所述插拔属性为对应设备是否具备热插拔的功能;
当任意两个串口之间的通信链路出现故障后,所述PC客户端和移动客户端基于互联网协议调用映射表中的串口信息,获取对应设备是否具备热插拔的功能。
在本实施例中,通过建立串口所连接的设备的插拔属性,使得检修人员在进行相关设备的检修时,能够通过插拔属性获取服务器中相关的设备是否具备热插拔功能;若具备热插拔功能则可以直接进行相关设备的更换,若不具备热插拔功能则关闭服务器后再更换相应的设备;如此设置有效的提高了检修的工作效率;其原因在于,在众多的服务器中,可能服务器的型号不一,并且服务器中的设备经过更新换代后,型号也是存在着差异化;通过建立插拔属性使得检修人员能够在检修时了解到相关设备的信息,并且基于插拔属性选择最快捷的检修方案;如此不必在一遇到检修问题时,就关闭相关的服务器进行相应的设备更换。
作为本实施例的一种可能的实现方式,所述检修模块包括设备诊断机制;
参见图3所述,所述设备诊断机制的具体步骤如下:
当获取到服务器内部通信串口之间、服务器与其他服务器和其他外部设备之间的串口通信链路异常;
获取链路异常的串口链路,并基于所有链路异常的串口链路进行归类,将连接相同设备和相同服务器之间的串口相互关联;
在服务器中预设相应设备损坏后的异常链路;基于相互关联的串口对比预设的相应设备损坏后的异常链路,判定服务器内部设备、或其他服务器的接收设备或其他设备的接收模块是否损坏。
在检修的过程中,检修人员不仅可能存在无意识的拉扯串口导线,并且在这个拉扯的过程中,由于用力的关系可能会造成设备的损坏,因此在本实施例中,建立设备损坏后对应的串口异常链路;使得通过对串口链路进行异常检测的同时,还能够基于获取的串口链路异常情况判断出相关设备是否正常;从而时刻提醒检修人员,进而避免了在检修人员在解决某一技术问题的过程中,由于操作问题导致另一问题的产生而不知晓的情况。
作为本实施例的一种可能的实现方式,所述PC客户端和移动客户端均设置有控制模块;
所述控制模块用于控制所述服务器的启停;当检测出设备损坏后,PC客户端和移动客户端调用映射表中对应设备的插拔属性,确定对应设备是否具备热插拔功能;
若对应设备不具备热插拔功能,则提醒用户或直接控制服务器关机后进行检修;
若设备具备热插拔功能,则提醒用户可直接进行相关设备的更换。
在本实施例中,不仅可以通过PC客户端和移动客户端获取到服务器内部设备间、服务器之间以及服务器和其他设备之间的链路异常问题以及设备的异常问题还能够通过PC客户端和移动客户端控制需要检修的服务器的启闭;如此能够帮助检修人员提高检修效率;一般情况下,在数据机房中,由于服务器的数量众多,并且服务器的启闭按钮通常设置在固定的位置,而通过PC客户端和移动客户端设置启闭功能,能够避免检修人员来回走动,浪费时间的情况;从而进一步的提高了检修的效率。
作为本实施例的一种可能的实现方式,还包括基于服务器内部设备之间的位置关系建立设备影响映射表;
所述设备影响映射表反应插拔一个设备时存在影响的相关设备;
用户基于PC客户端或移动客户端访问设备影响映射表,并基于待插拔的设备获取影响设备,并基于设备影响映射表获取解决方案。
在本实施例中,通过建立设备影响映射表,使得检修人员在进行检修时,能够基于待维护的设备,获取在检修过程中,因为操作不当以及因为其设备的插拔所影响到的相关设备;从而通过该信息能够对检修人员的操作起到关键性的提醒作用;并且基于上述技术方案,能够对新手提供指导性的作用,进而迅速提升新手的服务器检修能力。
作为本实施例的一种可能的实现方式,所述检测数据包包括起始符、地址、数据、校验和、终止符;
所述起始符用于表示检测数据包开始的特殊字符或字节;
所述地址表示制定设备的地址或其他标识信息;
所述数据包含检测信息;
所述校验和用于校验检测数据包在传输过程是否保持完整;
所述终止符用于标识检测数据包结束的特殊字符或字节序列。
参见图2,作为本实施例的一种可能的实现方式,所述校验检测数据包在传输过程是否保持完整的步骤如下:
原发设备将数据包通过串口线缆发送到目标设备,数据包被转换为可在物理介质上传输的电信号;并经过串口线缆传输到达目标设备的串口;
若目标设备并未收到电信号,则判定目标设备与原发设备之间的串口链路形成断路;
当目标设备的串口接收到电信号后,将电信号转换为数字信号,并将其放入接收缓冲区;检测程序读取缓冲区中的数据,检查起始符、终止符以及校验和,确认数据是否完整;
若起始符、终止符以及校验和中任意一项不正确,则生成异常信息,所有正确时生成正常信息,并将检测后的信息存储到检修模块所提供的数据库中,以供PC客户端和移动客户端查阅调用。
作为本实施例的一种可能的实现方式,还包括错误识别模块,所述错误识别模块包括在所述检测数据包中注入错误数据;
并通过所述错误识别模块获取采用原串口以及原导线进行通信时的第一错误识别率;
当更换原串口或/和原导线后,错误识别模块获取新串口或/和新导线进行通信时的第二错误识别率;将第二错误识别率与第一错误识别率进行对比,若第二错误识别率低于第一错误识别率,则提醒用户更换串口或/和导线。
作为本实施例的一种可能的实现方式,在所述错误识别模块中建立有阈值,所述阈值包括:
错误识别率识别阈值:将原串口以及原导线进行通信时的错误识别率作为错误识别率阈值;
错误识别率下限阈值:基于原串口以及原导线初始通信时期的错误率下限设置错误识别率下限阈值;
获取更换后串口或/和导线后的错误识别率,并基于错误率下限阈值与更换后的错误识别率进行对比,若错误识别率大于错误率下限阈值且小于错误率识别阈值的,则进行报警提醒;
若错误识别率小于错误识别率下限阈值的则进行报警;提醒用户更换,若用户选择不更换的,则获取原串口以及原导线进行通信时,错误识别率的初始波动周期;并基于该初始波动周期,设置当前的检测提醒周期;当在提醒周期内,所检测的错误识别率仍旧小于错误识别率下限阈值的,则继续提醒客户进行相关串口或/和导线的更换。
在本实施例中,在所述检测包中加入错误数据,实现错误识别率的检测;通过对错误识别率的检测能够有效的判断串口或/和线路的品质;进而有效避免了一些不合格或者质量品质较低的产品被应用。
其次在本实施例中,通过设置错误识别率下限是考虑到新部件的磨合期可能会出现一些性能波动,而这一部分性能的波动需要一定的周期进行稳定;因此更具原来的串口或/和导线的磨合期中的波动,找到其波动下限,将波动下限作为错误识别率的下限阈值;在此需要注意的是,所述波动下限指,磨合期中,错误识别率最低的一端时间;通过错误识别模块周期性的检测错误识别率,并且在每个周期内发送n次检测数据包;统计每个周期内的错误识别率;以错误识别率最低的一段周期中的错误识别率作为更换后的错误识别率下限阈值。
并且本实施例中也充分的考虑了不同工作环境之间环境因素的影响所造成的纠正能力的问题,因此在实施例只是通过报警提示,若用户选择不更换的,则继续监测,则根据预设监测提醒周期进行持续性的检测,若检修人员发现所检测的错误识别率仍旧小于错误识别率下限阈值,则可以进行更换或者是进一步的更改监测提醒周期,进行继续性监测;如此能够将检修人员的工作经验加入其中;通过持续性的检测,使得检修人员在发现情况异常后及时的作出更换。
实施例2
参见图1,一种数据中心运维监控***,包括PC客户端和移动客户端,所述PC客户端和移动客户端均能获取数据中心服务器的数据信息;
在每台所述服务器上设置有检修模块;所述检修模块包括外部设备检修模块和内部设备检修模块;
所述外部检修模块包括两个服务器或服务器与其他设备之间的物理串口映射表;
所述内部检修模块包括服务器内部设备之间的物理串口映射表;
当任意一个服务器上的检修模块开启后,服务器基于物理串口映射表向其他服务器、其他设备以及当前服务器的内部设备之间发送预定的检测数据包,检测服务器的内部通信串口、服务器与其他服务器和其他外部设备之间的串口通信链路是否正常;
所述PC客户端和移动客户端通过网络通信协议获取服务器检修模块的检测信息,获取异常信息,并基于异常信息在PC客户端和移动客户端生成报警信息,并进行语音报警。
本发明通过设置检修模块,当检修模块启动后,服务器将根据物理串口映射表向相应的通信对象发送预定的检测数据包,数据包用于检测服务器内部通信串口、服务器与外部设备以及服务器之间的串口通信链路的完整性和稳定性;一旦检测到通信异常,相应的异常信息将基于互联网通信协议发送至PC客户端和移动客户端;客户端收到异常信息后,将生成报警信息,通过语音的形式提醒检修人员;使得检修人员能够第一时间得知相应串口链路的情况,以便于即时进行维修。
作为本实施例的一种可能的实现方式,所述映射表包括串口的物理位置、识别码、通信参数、链接的外部或内部设备以及对应设备的插拔属性;
所述插拔属性为对应设备是否具备热插拔的功能;
当任意两个串口之间的通信链路出现故障后,所述PC客户端和移动客户端基于互联网协议调用映射表中的串口信息,获取对应设备是否具备热插拔的功能。
在本实施例中,通过建立串口所连接的设备的插拔属性,使得检修人员在进行相关设备的检修时,能够通过插拔属性获取服务器中相关的设备是否具备热插拔功能;若具备热插拔功能则可以直接进行相关设备的更换,若不具备热插拔功能则关闭服务器后再更换相应的设备;如此设置有效的提高了检修的工作效率;其原因在于,在众多的服务器中,可能服务器的型号不一,并且服务器中的设备经过更新换代后,型号也是存在着差异化;通过建立插拔属性使得检修人员能够在检修时了解到相关设备的信息,并且基于插拔属性选择最快捷的检修方案;如此不必在一遇到检修问题时,就关闭相关的服务器进行相应的设备更换。
作为本实施例的一种可能的实现方式,在所述串口映射表中建立设备故障映射,将设备故障后应当出现的故障链路与串口映射表中的相应串口相映射;
当服务器检测到链路故障时,通过遍历映射表中的信息,确认是设备故障还是串口链路故障。
在检修的过程中,检修人员不仅可能存在无意识的拉扯串口导线,并且在这个拉扯的过程中,由于用力的关系可能会造成设备的损坏,因此在本实施例中,建立设备损坏后对应的串口异常链路;使得通过对串口链路进行异常检测的同时,还能够基于获取的串口链路异常情况判断出相关设备是否正常;从而时刻提醒检修人员,进而避免了在检修人员在解决某一技术问题的过程中,由于操作问题导致另一问题的产生而不知晓的情况。
并且在本实施例中沿用前序方案中的映射表;建立设备故障映射,使得便于开发;通过整个映射表的规划即能完成设备故障的检测,以及串口链路的检测。
作为本实施例的一种可能的实现方式,所述PC客户端和移动客户端均设置有控制模块;
所述控制模块用于控制所述服务器的启停;当检测出设备损坏后,PC客户端和移动客户端调用映射表中对应设备的插拔属性,确定对应设备是否具备热插拔功能;
若对应设备不具备热插拔功能,则提醒用户或直接控制服务器关机后进行检修;
若设备具备热插拔功能,则提醒用户可直接进行相关设备的更换。
在本实施例中,不仅可以通过PC客户端和移动客户端获取到服务器内部设备间、服务器之间以及服务器和其他设备之间的链路异常问题以及设备的异常问题还能够通过PC客户端和移动客户端控制需要检修的服务器的启闭;如此能够帮助检修人员提高检修效率;一般情况下,在数据机房中,由于服务器的数量众多,并且服务器的启闭按钮通常设置在固定的位置,而通过PC客户端和移动客户端设置启闭功能,能够避免检修人员来回走动,浪费时间的情况;从而进一步的提高了检修的效率。
作为本实施例的一种可能的实现方式,还包括基于服务器内部设备之间的位置关系建立设备影响映射表;
所述设备影响映射表反应插拔一个设备时存在影响的相关设备;
用户基于PC客户端或移动客户端访问设备影响映射表,并基于待插拔的设备获取影响设备,并基于设备影响映射表获取解决方案。
在本实施例中,通过建立设备影响映射表,使得检修人员在进行检修时,能够基于待维护的设备,获取在检修过程中,因为操作不当以及因为其设备的插拔所影响到的相关设备;从而通过该信息能够对检修人员的操作起到关键性的提醒作用;并且基于上述技术方案,能够对新手提供指导性的作用,进而迅速提升新手的服务器检修能力。
作为本实施例的一种可能的实现方式,所述检测数据包包括起始符、地址、数据、校验、终止符;
所述起始符用于表示检测数据包开始的特殊字符或字节;
所述地址表示制定设备的地址或其他标识信息;
所述数据包含检测信息;
所述校验和用于验证检测数据包在传输过程是否保持完整;
所述终止符用于标识检测数据包结束的特殊字符或字节序列。
参见图2,作为本实施例的一种可能的实现方式,所述数据包的校验过程如下:
原发设备将数据包通过串口线缆发送到目标设备,数据包被转换为可在物理介质上传输的电信号;并经过串口线缆传输到达目标设备的串口;
若目标设备并未收到电信号,则判定目标设备与原发设备之间的串口链路形成断路;
当目标设备的串口接收到电信号后,将电信号转换为数字信号,并将其放入接收缓冲区;检测程序读取缓冲区中的数据,检查起始符、终止符以及校验和,确认数据是否完整;将检测后的信息存储到检修模块所提供的数据库中,以供PC客户端和移动客户端查阅调用。
作为本实施例的一种可能的实现方式,还包括错误识别模块,所述错误识别模块包括在所述检测数据包中注入错误数据;
并通过所述错误识别模块获取采用原串口以及原导线进行通信时的第一错误识别率;
当更换原串口或/和原导线后,错误识别模块获取新串口或/和新导线进行通信时的第二错误识别率;将第二错误识别率与第一错误识别率进行对比,若第二错误识别率低于第一错误识别率,则提醒用户更换串口或/和导线。
作为本实施例的一种可能的实现方式,在所述错误识别模块中建立有阈值,所述阈值包括:
错误识别率识别阈值:将原串口以及原导线进行通信时的错误识别率作为错误识别率阈值;
错误识别率下限阈值:基于原串口以及原导线初始通信时期的错误率下限设置错误识别率下限阈值;
获取更换后串口或/和导线后的错误识别率,并基于错误率下限阈值与更换后的错误识别率进行对比,若错误识别率大于错误率下限阈值且小于错误率识别阈值的,则进行报警提醒;
若错误识别率小于错误识别率下限阈值的则进行报警;提醒用户更换,若用户选择不更换的,则获取原串口以及原导线进行通信时,错误识别率的初始波动周期;并基于该初始波动周期,设置当前的检测提醒周期;当在提醒周期内,所检测的错误识别率仍旧小于错误识别率下限阈值的,则继续提醒客户进行相关串口或/和导线的更换。
在本实施例中,在所述检测包中加入错误数据,实现错误识别率的检测;通过对错误识别率的检测能够有效的判断串口或/和线路的品质;进而有效避免了一些不合格或者质量品质较低的产品被应用。
其次在本实施例中,通过设置错误识别率下限是考虑到新部件的磨合期可能会出现一些性能波动,而这一部分性能的波动需要一定的周期进行稳定;因此更具原来的串口或/和导线的磨合期中的波动,找到其波动下限,将波动下限作为错误识别率的下限阈值;在此需要注意的是,所述波动下限指,磨合期中,错误识别率最低的一端时间;通过错误识别模块周期性的检测错误识别率,并且在每个周期内发送n次检测数据包;统计每个周期内的错误识别率;以错误识别率最低的一段周期中的错误识别率作为更换后的错误识别率下限阈值。
并且本实施例中也充分的考虑了不同工作环境之间环境因素的影响所造成的纠正能力的问题,因此在实施例只是通过报警提示,若用户选择不更换的,则继续监测,则根据预设监测提醒周期进行持续性的检测,若检修人员发现所检测的错误识别率仍旧小于错误识别率下限阈值,则可以进行更换或者是进一步的更改监测提醒周期,进行继续性监测;如此能够将检修人员的工作经验加入其中;通过持续性的检测,使得检修人员在发现情况异常后及时的作出更换。
以上仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据中心运维监控***,其特征在于,包括PC客户端和移动客户端,所述PC客户端和移动客户端均能获取数据中心服务器的数据信息;
在每台所述服务器上设置有检修模块;所述检修模块包括外部设备检修模块和内部设备检修模块;
所述外部设备检修模块包括两个服务器或服务器与其他设备之间的物理串口映射表;
所述内部设备检修模块包括服务器内部设备之间的物理串口映射表;
当任意一个服务器上的检修模块开启后,服务器基于物理串口映射表向其他服务器、其他设备以及当前服务器的内部设备之间发送预定的检测数据包,检测服务器的内部通信串口、服务器与其他服务器和其他外部设备之间的串口通信链路是否正常;
所述PC客户端和移动客户端通过网络通信协议获取服务器检修模块的检测信息,获取异常信息,并基于异常信息在PC客户端和移动客户端生成报警信息,并进行语音报警。
2.根据权利要求1所述的一种数据中心运维监控***,其特征在于,所述映射表包括串口的物理位置、识别码、通信参数、链接的外部或内部设备以及对应设备的插拔属性;
所述插拔属性为对应设备是否具备热插拔的功能;
当任意两个串口之间的通信链路出现故障后,所述PC客户端和移动客户端基于互联网协议调用映射表中的串口信息,获取对应设备是否具备热插拔的功能。
3.根据权利要求2所述的一种数据中心运维监控***,其特征在于,所述检修模块包括设备诊断机制;
所述设备诊断机制的具体步骤如下:
当获取到服务器内部通信串口之间、服务器与其他服务器和其他外部设备之间的串口通信链路异常;
获取链路异常的串口链路,并基于所有链路异常的串口链路进行归类,将连接相同设备和相同服务器之间的串口相互关联;
在服务器中预设相应设备损坏后的异常链路;基于相互关联的串口对比预设的相应设备损坏后的异常链路,判定服务器内部设备、或其他服务器的接收设备或其他设备的接收模块是否损坏。
4.根据权利要求3所述的一种数据中心运维监控***,其特征在于,所述PC客户端和移动客户端均设置有控制模块;
所述控制模块用于控制所述服务器的启停;当检测出设备损坏后,PC客户端和移动客户端调用映射表中对应设备的插拔属性,确定对应设备是否具备热插拔功能;
若对应设备不具备热插拔功能,则提醒用户或直接控制服务器关机后进行检修;
若设备具备热插拔功能,则提醒用户可直接进行相关设备的更换。
5.根据权利要求1所述的一种数据中心运维监控***,其特征在于,在所述串口映射表中建立设备故障映射,将设备故障后应当出现的故障链路与串口映射表中的相应串口相映射;
当服务器检测到链路故障时,通过遍历映射表中的信息,确认是设备故障还是串口链路故障。
6.根据权利要求3或5所述的一种数据中心运维监控***,其特征在于,还包括基于服务器内部设备之间的位置关系建立设备影响映射表;
所述设备影响映射表反应插拔一个设备时存在影响的相关设备;
用户基于PC客户端或移动客户端访问设备影响映射表,并基于待插拔的设备获取影响设备,并基于设备影响映射表获取解决方案。
7.根据权利要求1所述的一种数据中心运维监控***,其特征在于,所述检测数据包包括起始符、地址、数据、校验和、终止符;
所述起始符用于表示检测数据包开始的特殊字符或字节;
所述地址表示制定设备的地址或其他标识信息;
所述数据包含检测信息;
所述校验和用于校验检测数据包在传输过程是否保持完整;
所述终止符用于标识检测数据包结束的特殊字符或字节序列。
8.根据权利要求7所述的一种数据中心运维监控***,其特征在于,所述校验检测数据包在传输过程是否保持完整的步骤如下:
原发设备将数据包通过串口线缆发送到目标设备,数据包被转换为可在物理介质上传输的电信号;并经过串口线缆传输到达目标设备的串口;
若目标设备并未收到电信号,则判定目标设备与原发设备之间的串口链路形成断路;
当目标设备的串口接收到电信号后,将电信号转换为数字信号,并将其放入接收缓冲区;检测程序读取缓冲区中的数据,检查起始符、终止符以及校验和,确认数据是否完整;将检测后的信息存储到检修模块所提供的数据库中,以供PC客户端和移动客户端查阅调用。
9.根据权利要求8所述的一种数据中心运维监控***,其特征在于,还包括错误识别模块,所述错误识别模块包括在所述检测数据包中注入错误数据;
并通过所述错误识别模块获取采用原串口以及原导线进行通信时的第一错误识别率;
当更换原串口或/和原导线后,错误识别模块获取新串口或/和新导线进行通信时的第二错误识别率;将第二错误识别率与第一错误识别率进行对比,若第二错误识别率低于第一错误识别率,则提醒用户更换串口或/和导线。
10.根据权利要求9所述的一种数据中心运维监控***,其特征在于,在所述错误识别模块中建立有阈值,所述阈值包括:
错误识别率识别阈值:将原串口以及原导线进行通信时的错误识别率作为错误识别率阈值;
错误识别率下限阈值:基于原串口以及原导线初始通信时期的错误率下限设置错误识别率下限阈值;
获取更换后串口或/和导线后的错误识别率,并基于错误率下限阈值与更换后的错误识别率进行对比,若错误识别率大于错误率下限阈值且小于错误率识别阈值的,则进行报警提醒;
若错误识别率小于错误识别率下限阈值的则进行报警;提醒用户更换,若用户选择不更换的,则获取原串口以及原导线进行通信时,错误识别率的初始波动周期;并基于该初始波动周期,设置当前的检测提醒周期;当在提醒周期内,所检测的错误识别率仍旧小于错误识别率下限阈值的,则继续提醒客户进行相关串口或/和导线的更换。
CN202410270620.0A 2024-03-11 2024-03-11 一种数据中心运维监控*** Active CN117880061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410270620.0A CN117880061B (zh) 2024-03-11 2024-03-11 一种数据中心运维监控***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410270620.0A CN117880061B (zh) 2024-03-11 2024-03-11 一种数据中心运维监控***

Publications (2)

Publication Number Publication Date
CN117880061A CN117880061A (zh) 2024-04-12
CN117880061B true CN117880061B (zh) 2024-05-17

Family

ID=90581583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410270620.0A Active CN117880061B (zh) 2024-03-11 2024-03-11 一种数据中心运维监控***

Country Status (1)

Country Link
CN (1) CN117880061B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104283936A (zh) * 2013-07-18 2015-01-14 合肥国轩高科动力能源股份公司 电动汽车远程监控的终端***
CN105652962A (zh) * 2014-11-13 2016-06-08 知晓(天津)信息技术有限公司 一种检修方便的硬件转码服务器
CN106451151A (zh) * 2016-11-07 2017-02-22 宁波精丰测控技术有限公司 电力设备集成检修方法及***
CN106532937A (zh) * 2016-11-07 2017-03-22 宁波精丰测控技术有限公司 电力设备自动化检修方法及***
CN107292991A (zh) * 2017-06-28 2017-10-24 国网山东省电力公司济南市历城区供电公司 一种基于二维码的变电站设备检修***
CN107783516A (zh) * 2016-08-31 2018-03-09 湖南中冶长天节能环保技术有限公司 一种现场设备检测及管理***
CN108881497A (zh) * 2018-08-15 2018-11-23 长安大学 一种汽车检测线远程智能诊断***
CN109167684A (zh) * 2018-08-24 2019-01-08 国网天津市电力公司 一种通信网络状态故障监控***及检修方法
KR20190087129A (ko) * 2018-01-16 2019-07-24 주식회사 엘지유플러스 대화형 서비스 제공 방법 및 장치
CN111915033A (zh) * 2020-08-13 2020-11-10 日照古工船舶服务有限公司 一种船舶检修监控***及方法
KR20210051023A (ko) * 2019-10-29 2021-05-10 주식회사 워커맨 네트워크를 통한 시설물 출장 보수 서비스 관리 방법 및 이에 사용되는 관리 서버
CN113033844A (zh) * 2021-04-23 2021-06-25 贵州兴泰科技有限公司 一种设备检修服务***及方法
CN113407783A (zh) * 2021-05-13 2021-09-17 中车太原机车车辆有限公司 电力机车检修记录管理***
CN114152835A (zh) * 2020-09-08 2022-03-08 韦渊 一种用电安全监测***
KR102471036B1 (ko) * 2022-06-30 2022-11-25 (주) 위드와이티 집수리 서비스 시스템, 서버 및 방법
WO2024027240A1 (zh) * 2022-08-03 2024-02-08 深圳市星卡软件技术开发有限公司 诊断模块的调用方法、装置和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064757B (zh) * 2021-03-26 2023-02-28 山东英信计算机技术有限公司 一种服务器固件自恢复***及服务器

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104283936A (zh) * 2013-07-18 2015-01-14 合肥国轩高科动力能源股份公司 电动汽车远程监控的终端***
CN105652962A (zh) * 2014-11-13 2016-06-08 知晓(天津)信息技术有限公司 一种检修方便的硬件转码服务器
CN107783516A (zh) * 2016-08-31 2018-03-09 湖南中冶长天节能环保技术有限公司 一种现场设备检测及管理***
CN106451151A (zh) * 2016-11-07 2017-02-22 宁波精丰测控技术有限公司 电力设备集成检修方法及***
CN106532937A (zh) * 2016-11-07 2017-03-22 宁波精丰测控技术有限公司 电力设备自动化检修方法及***
CN107292991A (zh) * 2017-06-28 2017-10-24 国网山东省电力公司济南市历城区供电公司 一种基于二维码的变电站设备检修***
KR20190087129A (ko) * 2018-01-16 2019-07-24 주식회사 엘지유플러스 대화형 서비스 제공 방법 및 장치
CN108881497A (zh) * 2018-08-15 2018-11-23 长安大学 一种汽车检测线远程智能诊断***
CN109167684A (zh) * 2018-08-24 2019-01-08 国网天津市电力公司 一种通信网络状态故障监控***及检修方法
KR20210051023A (ko) * 2019-10-29 2021-05-10 주식회사 워커맨 네트워크를 통한 시설물 출장 보수 서비스 관리 방법 및 이에 사용되는 관리 서버
CN111915033A (zh) * 2020-08-13 2020-11-10 日照古工船舶服务有限公司 一种船舶检修监控***及方法
CN114152835A (zh) * 2020-09-08 2022-03-08 韦渊 一种用电安全监测***
CN113033844A (zh) * 2021-04-23 2021-06-25 贵州兴泰科技有限公司 一种设备检修服务***及方法
CN113407783A (zh) * 2021-05-13 2021-09-17 中车太原机车车辆有限公司 电力机车检修记录管理***
KR102471036B1 (ko) * 2022-06-30 2022-11-25 (주) 위드와이티 집수리 서비스 시스템, 서버 및 방법
WO2024027240A1 (zh) * 2022-08-03 2024-02-08 深圳市星卡软件技术开发有限公司 诊断模块的调用方法、装置和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Optimal repair resource assignment strategy for partial failed systems";Zhengjun Wang,;《Proceedings of 2011 International Conference on Electronic & Mechanical Engineering and Information Technology》;20110919;全文 *
软交换分布式应用服务器的实现;沈开贵;王祯;;软件导刊;20070730(第13期);全文 *

Also Published As

Publication number Publication date
CN117880061A (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN111147342B (zh) 一种基于通信芯片的mvb总线故障诊断方法及***
CN109733238B (zh) 故障检测方法、装置、存储介质及处理器
CN109104335A (zh) 一种工控设备网络攻击测试方法与***
CN110611596B (zh) 一种局域网故障定位***
CN103278739A (zh) 一种高压直流输电控制***Profibus现场总线故障诊断方法
CN113821242B (zh) 一种固件智能匹配方法及***
CN117880061B (zh) 一种数据中心运维监控***
CN105676052B (zh) 一种串口线序识别的方法及***
CN110995533A (zh) 一种以太网打流测试***
CN111190617A (zh) 基于智能感知技术的远程固件升级***、方法、终端设备
CN101136756B (zh) 网络远程控制主机上电自检的方法、***和bmc芯片
CN106154071A (zh) 一种检测智能电能表rs485总线故障的装置及方法
CN111931012A (zh) 一种基于故障管理子***的数据模型自适应方法和装置
CN115378841B (zh) 设备接入云平台状态的检测方法及装置、存储介质、终端
CN116299129A (zh) 一种全光纤电流互感器状态检测分析方法、装置及介质
CN112415936B (zh) 一种串口通讯故障检测装置及方法
CN114239866A (zh) 一种电网调度信息流异常及故障判别方法
CN109067567B (zh) 一种网络通信中断诊断方法
CN218549944U (zh) 一种智能变电站遥控信息故障诊断***和装置
CN117880141A (zh) 一种网络故障智能检测***
CN112804114B (zh) 针对能源计量物联网设备自动化通信与配置的***及方法
CN112578222B (zh) 一种配电终端离线检测方法、***及平台
CN118226188A (zh) 一种配电终端接线的测试方法和***
CN113381896B (zh) 一种变电站保信子站全生命周期动态配置管控方法和***
CN217605981U (zh) 台区智能终端便携式检测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant