CN116155686B

CN116155686B - 一种云环境下判定节点故障的方法

Info

Publication number: CN116155686B
Application number: CN202310073476.7A
Authority: CN
Inventors: 孙兴艳; 于沈课; 唐晓东; 宋伟
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2024-05-31
Anticipated expiration: 2043-01-30
Also published as: CN116155686A

Abstract

本发明公开了一种云环境下判定节点故障的方法，属于云计算技术领域，基于事件驱动判定节点故障，将所有信息流抽象成特定事件，通过对事件之间的内在联系的逻辑判断，确定节点是否存在故障以及故障级别；使用协程模型，整个通信过程依据发布/订阅模式，每个协程等待特定类型的事件，同一事件可被多个协程消费，整个***的开发和维护都围绕事件生成和事件消费展开；针对节点故障判定应用场景，将处理过程划分为调度模块、请求接收模块、任务分发模块、故障判定模块、告警模块和故障处理模块，各个模块之间相对独立，通过事件实现解耦。本发明能够显著提高在大规模集群环境下快速判定节点故障的能力。

Description

一种云环境下判定节点故障的方法

技术领域

本发明涉及云计算技术领域，具体地说是一种云环境下判定节点故障的方法。

背景技术

云环境中，使用虚拟机的方式能够提供极大的便利。其优势在于，资源分配十分便利，用户能够根据实际的需要申请合适规格的虚拟机，而且可以实现资源的动态分配；在云上开发业务，能够避免传统的自建环境的诸多不便，且用户不需要考虑运维的问题，有效提高了开发效率和降低成本。

在“云”提供极大便利的同时，也给云开发和运维者带来了一些挑战，实际的“云”还是建立在物理的环境之上的，物理环境仍然可能存在各种问题或者故障。

在现有的技术中有众多高可用的方案，无论是基础的物理设施，如交换机、路由器、网卡、电源，还是软件层面的设施，例如数据库、消息队列、代理服务，都有高可用的技术存在，但是即使有这些技术存在，也无法百分百保证环境出现故障了对于用户没有影响，需要有一种保证用户层环境不受影响或者尽可能减少用户受影响时间的机制。在理想的环境下，任何的节点及其硬件都能正常稳定工作；而实际环境下，节点受机房环境、硬件质量、硬件寿命等复杂因素的影响，如果有一种机制能够在发生故障或者发生故障之前就能判断出当前节点的状态，将有助于减少资源、服务的迁移时间，提升服务质量。

发明内容

本发明的技术任务是针对以上不足之处，提供一种云环境下判定节点故障的方法，在大规模集群环境中能迅速判定出存在故障的节点以及对节点故障进行分类和定级，能够保证处理过程中不会因为存在阻塞操作导致整个处理***处于闲置状态,且能够显著提高在大规模集群环境下快速判定节点故障的能力。

本发明解决其技术问题所采用的技术方案是：

一种云环境下判定节点故障的方法，基于事件驱动判定节点故障，将所有信息流抽象成特定事件，通过对事件之间的内在联系的逻辑判断，确定节点是否存在故障以及故障级别；

使用协程模型，整个通信过程依据发布/订阅模式，每个协程等待特定类型的事件，同一事件可被多个协程消费，整个***的开发和维护都围绕事件生成和事件消费展开，在事件循环核心功能开发完成后，后续的功能开发和扩展简单；

针对节点故障判定应用场景，将处理过程划分为调度模块、请求接收模块、任务分发模块、故障判定模块、告警模块和故障处理模块，各个模块之间相对独立，通过事件实现解耦，每一个子模块负责的功能具体且单一，从编码实现的角度也相对容易。

该方法使用事件驱动作为整体的设计模式，减少***在上下文切换的开销,也避免了轮询方式对***处理资源的消耗，整体上有助于提高***处理性能。基于事件驱动判定节点故障，将所有信息流抽象成特定事件，核心的事件循环作用专一，只需要对事件进行处理，在出现特定的事件时切换处理其他事件，整个处理过程中子任务不存在阻塞等待的状态，不会存在一个子任务阻塞整个***的情况，也不存在大量线程导致的上下文切换开销，因此处理性能及响应速度相当可观，对于迅速判定节点故障起到了决定性作用。使用协程模型,整个通信过程依据发布/订阅事件机制，每一个处于非运行状态的协程必然处于等待状态，而另一方面，同一个事件可以被多个协程接收和处理，协程接收到事件后则开始执行，直到遇到阻塞事件或者主动让出执行流时，当前协程不再运行，主动权转移到事件循环，由事件循环决定下一个需要执行的协程。

优选的，所述协程模型为1：N模型，即一个核，N个协程；

使用协程作为***内部运行的最小单位，协作式处理流中只有当前协程处理到需要等待的任务时，主动让出执行流，此时主事件循环根据事件循环的事件列表中的事件，判断接下来将执行的协程。这个调度模式能很有效避免无用的切换和等待，且相比于操作***提供的进程和线程，协程非常轻量级，能够以很小的开销运行，且调度是在用户态控制的，不存在协程之间的资源竞争，因此能创建成千上万的协程而并不影响整体性能。

协程模型可以做到使用同步的语法写异步代码，在I/O密集型应用中，如果采用异步方式处理I/O请求可以实现效率的极大提升，协程本质上也是一种回调，不过编写代码不存在回调嵌套，通过对异步I/O的封装，使程序更具有可读性。协程具有轻量级的上下文切换机制，相较于操作***提供的进程线程，很容易同时运行10k以上规模的协程列表，但是进程线程是无法做到的，在这种情况下，即使不考虑***自身限制，程序的响应时间也是无法忍受的。在一般协程1:N模型中，由于始终只有一个协程占用cpu，协程在遇到阻塞型事件时主动让出cpu，执行流由调度器切换到下一个协程，整个过程中不存在协程之间资源竞争的问题，全程不用添加锁来保护临界区，大大提高执行效率。

针对故障节点判定这一具体场景，由于不需要执行大量的cpu计算，更多的应用处理时间是在执行网络I/O，而且由于1:N模型的限制可以控制程序对整个物理节点的资源消耗，不会因为程序问题导致整个节点资源被占用，所以十分适合使用协程模型来处理故障判定故障处理的应用场景。

优选的，该方法的具体实现步骤如下：

1)、创建事件循环，包含一个事件处理队列，以及协程列表；

2)、创建监听协程，该协程作为事件接收的接口，监听在固定端口上，并创建RequestDispatchEvent事件，放入事件队列中；

3)、创建请求分发协程，该协程消费RequestDispatchEvent事件，并创建一个新的协程，用于请求处理，并创建一个RequestEvent，放入事件处理队列中；

4)、创建故障判定协程，该协程消费NodeEvent事件，并且保存历史事件记录，根据事件存在的事务关系，判断节点当前的运行状态，并做出评估；根据NodeEvent事件中携带的节点信息分发到对应的处理协程中处理；

5)、创建告警协程，该协程消费AlertEvent事件，当集群存在节点异常时，将故障节点信息通知发送；

6)、主事件循环从事件队列中获取一个事件，如果是RequestDispatchEvent，则从协程列表中获取正在等待RequestEvent的协程(请求分发协程)，执行协程；

主事件循环从事件队列中获取一个事件，如果是RequestEvent，则从协程列表中获取正在等待RequestEvent的协程(请求处理协程)，执行协程；

主事件循环从事件队列中获取一个事件，如果是NodeEvent，则从协程列表中获取正在等待NodeEvent事件的协程(故障判定协程)，执行该协程。

优选的，所述监控协程，当对应的文件句柄发生变化，表示有请求出现，该协程不会立即处理请求，而是创建一个RequestDispatchEvent，并放入事件队列中。

优选的，所述故障判定协程，根据实际需求，在环境规模小的情况下，使用单个故障判定协程来对多个节点进行判定；在大规模环境下，为每一个节点创建单独的故障判定协程。

优选的，所述告警协程，故障节点信息以多种可选方式通知发送。

进一步的，故障判定完成后，通过多种分发机制将信息发送给故障运维平台，从而对节点进行服务迁移和维护工作。

本发明还要求保护一种云环境下判定节点故障的***，该***采用事件驱动编程模式，将可衡量节点当前运行状况的指标抽象为事件，通过对一段时间内接收到事件的判定逻辑，衡量节点信息，给出节点判定结果；

该***通过上述的云环境下判定节点故障的方法实现云环境下的节点故障判定。

本发明还要求保护一种云环境下判定节点故障的装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述的方法。

本发明还要求保护计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述的方法。

本发明的一种云环境下判定节点故障的方法与现有技术相比，具有以下有益效果：

本方法使用事件驱动模式，将事件作为事件循环处理的核心资源，将整个***的处理能力派遣到多个功能单一的协程中去具体实现，做到了功能解耦，有助于***开发和扩展。由于同一个时刻只有同一个协程运行，且上下文的切换时机是可预期的，不需要对可能发生竞争的资源加锁，且协程相较于内核线程更为轻量，不存在线程切换的开销，在大规模环境下能显著提升并发能力和处理性能，针对节点故障判定场景，能有效缩短节点故障判定时间。

附图说明

图1是本发明实施例提供的基于事件驱动判定节点故障的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

针对背景技术中提出的问题，基于在不稳定的物理环境上使用虚拟化技术可以建立稳定的虚拟环境，本发明实施例提供了一种云环境下判定节点故障的方法，基于事件驱动判定节点故障，将所有信息流抽象成特定事件，通过对事件之间的内在联系的逻辑判断，确定节点是否存在故障以及故障级别；

使用协程作为***内部运行的最小单位,由于协作式处理流中只有当前协程处理到需要等待的任务时，主动让出执行流，这个时候主事件循环根据事件循环的事件列表中事件，判断接下来将执行的协程，这个调度模式能很有效避免无用的切换和等待，且相比于操作***提供的进程和线程，协程非常轻量级，能够以很小的开销运行，且调度是在用户态控制的，不存在协程之间的资源竞争，因此能创建成千上万的协程而并不影响整体性能。

本方法使用事件驱动作为整体的设计模式，减少***在上下文切换的开销，也避免了轮询方式对***处理资源的消耗，整体上有助于提高***处理性能。

基于事件驱动判定节点故障，将所有信息流抽象成特定事件，核心的事件循环作用专一，只需要对事件进行处理，在出现特定的事件时切换处理其他事件，整个处理过程中子任务不存在阻塞等待的状态，不会存在一个子任务阻塞整个***的情况，也不存在大量线程导致的上下文切换开销，因此处理性能及响应速度相当可观，对于迅速判定节点故障起到了决定性作用。

使用协程模型,整个通信过程依据发布/订阅事件机制，每一个处于非运行状态的协程必然处于等待状态，而另一方面，同一个事件可以被多个协程接收和处理，协程接收到事件后则开始执行，直到遇到阻塞事件或者主动让出执行流时，当前协程不再运行，主动权转移到事件循环，由事件循环决定下一个需要执行的协程。

协程模型可以做到使用同步的语法写异步代码，在I/O密集型应用中，如果采用异步方式处理I/O请求可以实现效率的极大提升，协程本质上也是一种回调，不过编写代码不存在回调嵌套，通过对异步I/O的封装，使程序更具有可读性。协程具有轻量级的上下文切换机制，相较于操作***提供的进程线程，很容易同时运行10k以上规模的协程列表，但是进程线程是无法做到的，在这种情况下，即使不考虑***自身限制，程序的响应时间也是无法忍受的。在一般协程1:N模型中(一个核，N个协程)，由于始终只有一个协程占用cpu，协程在遇到阻塞型事件时主动让出cpu，执行流由调度器切换到下一个协程，整个过程中不存在协程之间资源竞争的问题，全程不用添加锁来保护临界区，大大提高执行效率。

该方法的具体实现过程如下：

2)、创建监听协程，该协程作为事件接收的接口，监听在固定端口上，当对应的文件句柄发生变化，表示有请求出现，该协程不会立即处理请求，而是创建一个RequestDispatchEvent，并放入事件队列中；

4)、创建故障判定协程，该协程消费NodeEvent事件，并且保存历史事件记录，根据事件存在的事务关系，判断节点当前的运行状态，并做出评估；根据实际需求，在环境规模小的情况下，使用单个故障判定协程来对多个节点进行判定；在大规模环境下，为每一个节点创建单独的故障判定协程；根据NodeEvent事件中携带的节点信息分发到对应的处理协程中处理，简化判定的逻辑；

5)、创建告警协程，该协程消费AlertEvent事件，目的是当集群存在节点异常时，将故障节点信息以多种可选方式通知发送；

7)、主事件循环从事件队列中获取一个事件，如果是RequestEvent，则从协程列表中获取正在等待RequestEvent的协程(请求处理协程)，执行协程；

8)、主事件循环从事件队列中获取一个事件，如果是NodeEvent，则从协程列表中获取正在等待NodeEvent事件的协程(故障判定协程)，执行该协程。

故障判定完成后，通过多种分发机制将信息发送给故障运维平台，从而对节点进行服务迁移和维护工作。

图1展示了云环境下基于事件驱动判定节点故障机制示意图。如图1所示，***采用事件循环的机制，将不同类型子任务分发到单独的协程中执行，作为一个异步非阻塞的***，处理子任务高效有序，通过对抽象事件的加工得到最终节点是否正常运行的信息，组成了运维***的重要一部分。

本方法以事件为中心，通过对事件之间的内在联系的逻辑判断最终确定节点是否存在故障以及故障级别，以方便后续对节点进行运维管理，简化了定位故障的流程，有效提高故障定位效率以及最大化提升用户服务质量。使用本方法在大规模集群环境中能迅速判定出存在故障的节点以及对节点故障进行分类和定级，采用事件驱动异步编程模型，保证处理过程中不会因为存在阻塞操作导致整个处理***处于闲置状态，且使用无锁化设计，显著提高在大规模集群环境下快速判定节点故障的能力。

本发明实施例还提供一种云环境下判定节点故障的***，该***采用事件驱动编程模式，将可衡量节点当前运行状况的指标抽象为事件，通过对一段时间内接收到事件的判定逻辑，衡量节点信息，给出节点判定结果；

该***通过上述的云环境下判定节点故障的方法实现云环境下的节点故障判定。具体实现过程如下：

本发明实施例还提供一种云环境下判定节点故障的装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

本发明实施例还提供一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述实施例中所述的云环境下判定节点故障的方法。具体地，可以提供配有存储介质的***或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种云环境下判定节点故障的方法，其特征在于，基于事件驱动判定节点故障，将所有信息流抽象成特定事件，通过对事件之间的内在联系的逻辑判断，确定节点是否存在故障以及故障级别；

使用协程模型，整个通信过程依据发布/订阅模式，每个协程等待特定类型的事件，同一事件可被多个协程消费，整个***的开发和维护都围绕事件生成和事件消费展开；

针对节点故障判定应用场景，将处理过程划分为调度模块、请求接收模块、任务分发模块、故障判定模块、告警模块和故障处理模块，各个模块之间相对独立，通过事件实现解耦；

该方法的具体实现步骤如下：

1）、创建事件循环，包含一个事件处理队列，以及协程列表；

2）、创建监听协程，该协程作为事件接收的接口，监听在固定端口上，并创建RequestDispatchEvent事件，放入事件队列中；

3）、创建请求分发协程，该协程消费RequestDispatchEvent事件，并创建一个新的协程，用于请求处理，并创建一个RequestEvent，放入事件处理队列中；

4）、创建故障判定协程，该协程消费NodeEvent事件，并且保存历史事件记录，根据事件存在的事务关系，判断节点当前的运行状态，并做出评估；根据NodeEvent事件中携带的节点信息分发到对应的处理协程中处理；

5）、创建告警协程，该协程消费AlertEvent事件，当集群存在节点异常时，将故障节点信息通知发送；

6）、主事件循环从事件队列中获取一个事件，如果是RequestDispatchEvent，则从协程列表中获取正在等待RequestEvent的协程，执行协程；

主事件循环从事件队列中获取一个事件，如果是RequestEvent，则从协程列表中获取正在等待RequestEvent的协程，执行协程；

主事件循环从事件队列中获取一个事件，如果是NodeEvent，则从协程列表中获取正在等待NodeEvent事件的协程，执行该协程。

2.根据权利要求1所述的一种云环境下判定节点故障的方法，其特征在于，所述协程模型为1：N模型；

使用协程作为***内部运行的最小单位，协作式处理流中只有当前协程处理到需要等待的任务时，主动让出执行流，此时主事件循环根据事件循环的事件列表中的事件，判断接下来将执行的协程。

3.根据权利要求1所述的一种云环境下判定节点故障的方法，其特征在于，所述监听协程，当对应的文件句柄发生变化，表示有请求出现，该协程不会立即处理请求，而是创建一个RequestDispatchEvent，并放入事件队列中。

4.根据权利要求1所述的一种云环境下判定节点故障的方法，其特征在于，所述故障判定协程，根据实际需求，在环境规模小的情况下，使用单个故障判定协程来对多个节点进行判定；在大规模环境下，为每一个节点创建单独的故障判定协程。

5.根据权利要求1所述的一种云环境下判定节点故障的方法，其特征在于，所述告警协程，故障节点信息以多种可选方式通知发送。

6.根据权利要求1所述的一种云环境下判定节点故障的方法，其特征在于，故障判定完成后，通过多种分发机制将信息发送给故障运维平台，从而对节点进行服务迁移和维护工作。

7.一种云环境下判定节点故障的***，其特征在于，该***采用事件驱动编程模式，将可衡量节点当前运行状况的指标抽象为事件，通过对一段时间内接收到事件的判定逻辑，衡量节点信息，给出节点判定结果；

该***通过权利要求1至6任一项所述的云环境下判定节点故障的方法实现云环境下的节点故障判定。

8.一种云环境下判定节点故障的装置，其特征在于包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至6任一所述的方法。

9.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至6任一所述的方法。