CN114189429A

CN114189429A - 一种服务器集群故障的监测***、方法、装置及介质

Info

Publication number: CN114189429A
Application number: CN202111415524.3A
Authority: CN
Inventors: 苏康; 郭芬; 满宏涛; 李拓
Original assignee: Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Current assignee: Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-03-15
Anticipated expiration: 2041-11-25

Abstract

本申请公开了一种服务器集群故障的监测***、方法、装置及介质，监测***包括活动服务器和备用服务器；活动服务器BMC芯片与备用服务器BMC芯片通信连接；活动服务器BMC芯片包括第一私有内存，备用服务器BMC芯片包括第一共享内存；活动服务器BMC芯片用于将活动服务器的数据信息写入第一私有内存，同时将数据信息发送至备用服务器BMC芯片；备用服务器BMC芯片用于将数据信息写入第一共享内存，以根据数据信息判断活动服务器是否发生故障。通过活动服务器BMC芯片和备用服务器BMC芯片间的互连，实现备用服务器对活动服务器的实时故障监测，降低故障转移时间，增强服务器集群的容错能力，减小由活动服务器故障引起的损失。

Description

一种服务器集群故障的监测***、方法、装置及介质

技术领域

本申请涉及大数据处理技术领域，特别是涉及一种服务器集群故障的监测方法、***、装置及介质。

背景技术

随着业务发展和数据的不断积累，高性能的单台服务器无法处理大量的数据和高并发用户的集中访问。并且单台服务器的容错能力十分有限，当服务器发生故障时，会发生业务被迫中断及数据丢失等损失。为提升服务器整体计算能力和容错能力，服务器集群应运而生。服务器集群可以利用多个计算机进行并行计算从而获得很高的计算速度，也可以用多个计算机做备份，从而使得任何一个服务器发生故障整个***仍可正常运行。目前，故障转移群集是针对具有长期运行的内存状态或具有大型的、频繁更新的数据状态的应用程序而设计，其典型的应用范围包括文件服务器，打印服务器，数据库服务器。主要是用于搭建高可用性架构。多台群集服务器(称为节点)之间由物理电缆和软件连接，如果其中一个节点出现故障，另外一个节点就会通过故障转移进程替代开始提供服务。

故障转移进程的首要步骤是确定活动服务器不再正常工作。通常，***使用心跳机制来做到这一点，即通过活动服务器以定义好的时间间隔将指定信号发送到备用服务器或备用服务器向活动服务器发送请求并等待活动服务器返回响应。以心跳机制确定活动服务器故障需要一定的时间间隔，并且为了确定活动服务器确实发生故障，备用服务器可能需要设置更长的时间间隔来等待活动服务器的发送信号或响应。再者，当活动服务器的某些硬件参数(如风扇转速、机箱温度等)超过阈值时，***仍可以正常运行一段时间，CPU不能在第一时间掌握这些故障信息，这时备用服务器仍然接收到活动服务器一切正常的信号，并不能及时地准确地掌握活动服务器的运行情况。

因此，如何提高服务器集群故障监测的及时性以有效降低活动服务器故障而带来的损失是本领域技术人员亟需要解决的问题。

发明内容

本申请的目的是提供一种服务器集群故障的监测***、方法、装置及介质，用于提高服务器集群故障监测的及时性以有效降低活动服务器故障而带来的损失。

为解决上述技术问题，本申请提供一种服务器集群故障的监测***，包括活动服务器和备用服务器；

活动服务器BMC芯片与备用服务器BMC芯片通信连接；

所述活动服务器BMC芯片包括第一私有内存，所述备用服务器BMC芯片包括第一共享内存；

所述活动服务器BMC芯片用于将所述活动服务器的数据信息写入所述第一私有内存，并同时将所述数据信息发送至所述备用服务器BMC芯片；

所述备用服务器BMC芯片用于将所述数据信息写入所述第一共享内存，以便实时读取所述第一共享内存中的所述数据信息，并根据所述数据信息判断所述活动服务器是否发生故障。

优选地，所述活动服务器BMC芯片还包括第二共享内存，所述备用服务器BMC芯片还包括第二私有内存。

本申请还提供一种服务器集群故障的监测方法，应用于所述的活动服务器BMC芯片，包括：

获取活动服务器的数据信息；

将所述数据信息写入第一私有内存，同时将所述数据信息发送至备用服务器BMC芯片，以便所述备用服务器BMC芯片将所述数据信息写入第一共享内存，并实时读取所述第一共享内存中的所述数据信息，以根据所述数据信息判断所述活动服务器是否发生故障。

本申请还提供一种服务器集群故障的监测方法，应用于所述的备用服务器BMC芯片，包括：

在活动服务器BMC芯片获取到活动服务器的数据信息，将所述数据信息写入到第一私有内存时，接收所述活动服务器BMC芯片发送的所述数据信息；

将所述数据信息写入第一共享内存；

实时读取所述第一共享内存中的所述数据信息，以根据所述数据信息判断所述活动服务器是否发生故障。

优选地，所述根据所述数据信息判断所述活动服务器是否发生故障，包括：

判断所述数据信息是否满足预设要求；

若否，确定所述活动服务器发生故障。

优选地，在确定所述活动服务器发生故障之后，还包括：

向备用服务器的CPU发送告警提示，以便所述CPU启动状态同步机制以接管所述活动服务器所执行的任务。

本申请还提供一种服务器集群故障的监测装置，包括：

接收模块，用于在活动服务器BMC芯片获取到活动服务器的数据信息，将所述数据信息写入到第一私有内存时，接收所述活动服务器BMC芯片发送的所述数据信息；

写入模块，用于将所述数据信息写入第一共享内存；

判断模块，用于实时读取所述第一共享内存中的所述数据信息，以根据所述数据信息判断所述活动服务器是否发生故障。

优选地，还包括：

告警模块，用于向备用服务器的CPU发送告警提示，以便所述CPU启动状态同步机制以接管所述活动服务器所执行的任务。

本申请还提供一种服务器集群故障的监测装置，包括存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现所述的服务器集群故障的监测方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的服务器集群故障的监测方法的步骤。

本申请所提供的一种服务器集群故障的监测***，包括活动服务器和备用服务器；活动服务器BMC芯片与备用服务器BMC芯片通信连接；活动服务器BMC芯片包括第一私有内存，备用服务器BMC芯片包括第一共享内存；活动服务器BMC芯片用于将活动服务器的数据信息写入第一私有内存，并同时将数据信息发送至备用服务器BMC芯片；备用服务器BMC芯片用于将数据信息写入第一共享内存，以便实时读取第一共享内存中的数据信息，并根据数据信息判断活动服务器是否发生故障。本申请通过活动服务器BMC芯片和备用服务器BMC芯片间的互连，实现备用服务器对活动服务器的实时故障监测，从而降低故障转移时间，有效增强服务器集群的容错能力，减小由活动服务器故障引起的损失。

本申请所提供的一种服务器集群故障的监测方法、装置及介质与***对应，效果如上。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种服务器集群故障的监测***的结构图；

图2为本申请实施例提供的一种服务器集群故障的监测方法的流程图；

图3为本申请实施例提供的一种服务器集群故障的监测装置的结构图；

图4为本申请实施例提供的另一种服务器集群故障的监测装置的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种服务器集群故障的监测***、方法、装置及介质。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。另，本申请主要涉及基板管理控制器(BaseboardManagement Controller，BMC)，BMC能够监视***的温度，电压、风扇、电源等等；还负责记录各种硬件的信息和日志记录，用于提示用户和后续问题的定位，当然BMC还具有其他的功能，在此不一一列举。

图1为本申请实施例提供的一种服务器集群故障的监测***的结构图。如图1所示，服务器集群故障的监测***包括活动服务器1和备用服务器2，活动服务器1设有活动服务器BMC芯片3，备用服务器2设有备用服务器BMC芯片4，其中活动服务器BMC芯片3包括第一私有内存5和第二共享内存6，备用服务器BMC芯片4包括第二私有内存7和第一共享内存8。活动服务器BMC芯片3和备用服务器BMC芯片4为通信连接；活动服务器BMC芯片3用于将活动服务器1的数据信息写入第一私有内存5，并同时将数据信息发送至备用服务器BMC芯片4；备用服务器BMC芯片4用于将数据信息写入第一共享内存8，以便实时读取第一共享内存8中的数据信息，并根据数据信息判断活动服务器1是否发生故障。

本申请实施例中活动服务器BMC芯片3与备用服务器BMC芯片4为通信连接，既可以为有线连接，也可以为无线连接，本申请实施例对通信连接的方式不作具体限定，活动服务器BMC芯片3是指活动服务器1设有的BMC芯片，备用服务器BMC芯片4是指备用服务器2设有的BMC芯片。关于本申请实施例中的活动服务器1的数据信息可以为活动服务器BMC芯片3监测到的活动服务器1中各硬件信息，包括风扇转速、中央处理器(Central ProcessingUnit，CPU)温度、供电情况等，本申请实施例对数据信息不作具体限定。活动服务器BMC芯片3将数据信息写入到自身第一私有内存5进行记录，同时将数据信息写入备用服务器BMC芯片4的第一共享内存。备用服务器BMC芯片4实时读取第一共享内存8中的数据信息，一旦发现数据信息中的某个硬件参数超过阈值，确定活动服务器1发生故障，便向备用服务器2的CPU告警，CPU立即启动状态同步机制，接管活动服务器1所执行的任务，从而第一时间完成故障转移过程。

同样的，备用服务器2在运行时，备用服务器BMC芯片4将监测到的备用服务器2的数据信息写入自身的第二私有内存7的同时，将备用服务器2的数据信息发送至活动服务器1，这时活动服务器1便起到上述备用服务器2的作用，将备用服务器2的数据信息写入到自身的第二共享内存6，实时读取第二共享内存6中的备用服务器2的数据信息，以判断备用服务器2是否发生故障，若备用服务器2发生故障，活动服务器1的CPU立即启动状态同步机制，接管备用服务器2所执行的任务，从而第一时间完成故障转移过程。

基于上述实施例中一种服务器集群故障的监测***，本申请实施例提供一种服务器集群故障的监测方法，该方法应用于活动服务器BMC芯片，包括：获取活动服务器的数据信息；将数据信息写入第一私有内存，同时将数据信息发送至备用服务器BMC芯片，以便备用服务器BMC芯片将数据信息写入第一共享内存，并实时读取第一共享内存中的数据信息，以根据数据信息判断活动服务器是否发生故障。

由于方法部分的实施例与***部分的实施例相互对应，因此方法部分的实施例请参见***部分的实施例的描述，这里暂不赘述。

本申请实施例中活动服务器BMC芯片获取相关活动服务器的数据信息后写入自身第一私有内存的同时发送至备用服务器BMC芯片，备用服务器BMC芯片实时读取第一共享内存中的数据信息以实现备用服务器对活动服务器的实时故障监测，从而降低故障转移时间，有效增强服务器集群的容错能力，减小由活动服务器故障引起的损失。

基于上述实施例中一种服务器集群故障的监测***，本申请实施例还提供一种服务器集群故障的监测方法，应用于备用服务器BMC芯片。图2为本申请实施例提供的一种服务器集群故障的监测方法的流程图，如图2所示，服务器集群故障的监测方法，包括：

S10：在活动服务器BMC芯片获取到活动服务器的数据信息，将数据信息写入到第一私有内存时，接收活动服务器BMC芯片发送的数据信息。

S11：将数据信息写入第一共享内存。

S12：实时读取第一共享内存中的数据信息。

S13：判断数据信息是否满足预设要求；若否，执行步骤S14。

S14：确定活动服务器发生故障。

S15：向备用服务器的CPU发送告警提示，以便CPU启动状态同步机制以接管活动服务器所执行的任务。

本申请实施例中判断数据信息是否满足预设要求，可以是判断一些硬件参数，如风扇转速、CPU温度等是否超过阈值，若超过阈值，确定活动服务器发送故障，向备用服务器的CPU发送告警提示，以便CPU启动状态同步机制以接管活动服务器所执行的任务。

本申请实施例中备用服务器BMC芯片在第一时间接收到活动服务器BMC芯片发送的活动服务器的数据信息，备用服务器BMC芯片能够实时读取第一共享内存中的数据信息以实现备用服务器对活动服务器的实时故障监测，从而降低故障转移时间，有效增强服务器集群的容错能力，减小由活动服务器故障引起的损失。

在上述实施例中，对于服务器集群故障的监测***进行了详细描述，本申请还提供服务器集群故障的监测装置对应的实施例。需要说明的是，本申请从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件的角度。

图3为本申请实施例提供的一种服务器集群故障的监测装置的结构图。如图3所示，服务器集群故障的监测装置包括：

接收模块10，用于在活动服务器BMC芯片获取到活动服务器的数据信息，将数据信息写入到第一私有内存时，接收活动服务器BMC芯片发送的数据信息。

写入模块11，用于将数据信息写入第一共享内存。

判断模块12，用于实时读取第一共享内存中的数据信息，以根据数据信息判断活动服务器是否发生故障。

基于上述实施例，作为优选的实施例，判断模块包括：

判断单元，用于判断数据信息是否满足预设要求；

确定单元，用于数据信息不满足预设要求，确定活动服务器发生故障。

基于上述实施例，作为优选的实施例，还包括：

告警模块，用于向备用服务器的CPU发送告警提示，以便CPU启动状态同步机制以接管活动服务器所执行的任务。

由于装置部分的实施例与***部分的实施例相互对应，因此装置部分的实施例请参见***部分的实施例的描述，这里暂不赘述。

本申请实施例所提供的一种服务器集群故障的监测装置，在活动服务器BMC芯片获取到活动服务器的数据信息，将数据信息写入到第一私有内存时，接收活动服务器BMC芯片发送的所述数据信息；将数据信息写入第一共享内存；实时读取第一共享内存中的所述数据信息，以根据数据信息判断活动服务器是否发生故障。本申请实施例中备用服务器BMC芯片在第一时间接收到活动服务器BMC芯片发送的活动服务器的数据信息，备用服务器BMC芯片能够实时读取第一共享内存中的数据信息以实现备用服务器对活动服务器的实时故障监测，从而降低故障转移时间，有效增强服务器集群的容错能力，减小由活动服务器故障引起的损失。

图4为本申请实施例提供的另一种服务器集群故障的监测装置的结构图，如图4所示，服务器集群故障的监测装置包括：存储器20，用于存储计算机程序；

处理器21，用于执行计算机程序时实现如上述实施例服务器集群故障的监测方法的步骤。

本实施例提供的服务器集群故障的监测装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的服务器集群故障的监测方法的相关步骤。另外，存储器20所存储的资源还可以包括操作***202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作***202可以包括Windows、Unix、Linux等。数据203可以包括但不限于数据信息等。

在一些实施例中，服务器集群故障的监测装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图4中示出的结构并不构成对服务器集群故障的监测装置的限定，可以包括比图示更多或更少的组件。

本申请实施例提供的服务器集群故障的监测装置，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现服务器集群故障的监测方法。

本申请实施例本申请实施例所提供的一种服务器集群故障的监测装置，在活动服务器BMC芯片获取到活动服务器的数据信息，将数据信息写入到第一私有内存时，接收活动服务器BMC芯片发送的所述数据信息；将数据信息写入第一共享内存；实时读取第一共享内存中的所述数据信息，以根据数据信息判断活动服务器是否发生故障。本申请实施例中备用服务器BMC芯片在第一时间接收到活动服务器BMC芯片发送的活动服务器的数据信息，备用服务器BMC芯片能够实时读取第一共享内存中的数据信息以实现备用服务器对活动服务器的实时故障监测，从而降低故障转移时间，有效增强服务器集群的容错能力，减小由活动服务器故障引起的损失。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例(可以是活动服务器BMC芯片侧对应的方法、也可以是备用服务器BMC芯片侧对应的方法，还可以是活动服务器BMC芯片侧与备用服务器BMC芯片侧对应的方法)中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的一种服务器集群故障的监测介质，能够实现如下方法：备用服务器BMC芯片在第一时间接收到活动服务器BMC芯片发送的活动服务器的数据信息，备用服务器BMC芯片能够实时读取第一共享内存中的数据信息以实现备用服务器对活动服务器的实时故障监测，从而降低故障转移时间，有效增强服务器集群的容错能力，减小由活动服务器故障引起的损失。

以上对本申请所提供的服务器集群故障的监测***、方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法、装置及介质而言，由于其与实施例公开的***相对应，所以描述的比较简单，相关之处参见***部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种服务器集群故障的监测***，其特征在于，包括活动服务器和备用服务器；

活动服务器BMC芯片与备用服务器BMC芯片通信连接；

2.根据权利要求1所述的服务器集群故障的监测***，其特征在于，所述活动服务器BMC芯片还包括第二共享内存，所述备用服务器BMC芯片还包括第二私有内存。

3.一种服务器集群故障的监测方法，其特征在于，应用于权利要求1或2所述的活动服务器BMC芯片，包括：

获取活动服务器的数据信息；

4.一种服务器集群故障的监测方法，其特征在于，应用于权利要求1或2所述的备用服务器BMC芯片，包括：

将所述数据信息写入第一共享内存；

5.根据权利要求4所述的服务器集群故障的监测方法，其特征在于，所述根据所述数据信息判断所述活动服务器是否发生故障，包括：

判断所述数据信息是否满足预设要求；

若否，确定所述活动服务器发生故障。

6.根据权利要求5所述的服务器集群故障的监测方法，其特征在于，在确定所述活动服务器发生故障之后，还包括：

7.一种服务器集群故障的监测装置，其特征在于，包括：

写入模块，用于将所述数据信息写入第一共享内存；

8.根据权利要求7所述的服务器集群故障的监测装置，其特征在于，还包括：

9.一种服务器集群故障的监测装置，其特征在于，包括存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求3至6任一项所述的服务器集群故障的监测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求3至6任一项所述的服务器集群故障的监测方法的步骤。