CN117539591A

CN117539591A - 一种云计算场景下的基于MCE panic虚机高可用方法和装置

Info

Publication number: CN117539591A
Application number: CN202311538521.8A
Authority: CN
Inventors: 郭瑾
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-02-09

Abstract

本申请提供了一种云计算场景下的基于MCE panic虚机高可用方法和装置，在宿主机上发生不可检测和不可恢复的错误时不立刻panic处理，先发送带有可识别属性的SIGBUG信号给ctyun_agent进程，ctyun_agent通知云中台迁移该宿主机的所有虚机到健康状态的机器上，达到虚机高可用性，满足企业客户对云服务五九标准的需求。

Description

一种云计算场景下的基于MCE panic虚机高可用方法和装置

技术领域

本申请实施例涉及但不限于云计算和操作***技术领域，特别是涉及一种云计算场景下的基于MCE panic虚机高可用方法和装置。

背景技术

云计算场景中虚机的高可用性高度依赖数据中心宿主机或云底座基础设施的可靠性和uptime等关键指标。企业将业务上云是大势所趋，所以在云计算场景中减少云服务的downtime提高虚机高可用性是一个非常重要而且关键的课题。现有技术中，数据中心Intel XEON系列服务器中都支持了RAS(Reliability Availability andServiceability)特性，通过RAS特性可以检测到发生的硬件故障，例如内存故障。如图3所示，Intel将故障错误进行分类处理，错误可以分为可检测和不可检测错误，可检测的错误再分为可纠正(CE)和不可纠正错误(UCE)，不可纠正错误又可分配可恢复和不可恢复错误，对不可检测、不可纠正、不可恢复的错误默认调用panic处理。

Linux内核对mce的处理过程，如图4，cpu通过mce异常通知linux内核，Linux内核通过解析全局状态msr寄存器分析判断错误的类型。对读取出的MCE错误码Linux内核会采取预定义的不同类型的修复方法，UCNA和CE错误只是进行日志的记录，SRAR和SRAO错误内核则通过memory_failure函数对错误的页进行隔离以及kill掉由于该页的错错受影响的应用程序，其他的UC错误通常采用直接调用panic的处理。

但根据我们的测试和实战经验显示，当发生不可检测和不可恢复的错误***无法进行处理时，如果不调用panic进行宕机操作，仍然能够运行几分钟，甚至几个小时，这已成为亟需解决的技术问题。

发明内容

针对现有技术中存在的上述问题，本发明提出了一种云计算场景下的基于MCEpanic虚机高可用方法和装置，在云计算场景中在发生不可检测和不可恢复的错误时，能够尽可能的迁移发生在故障宿主机上的虚机，做到云中台对宿主机发生该故障的迅速感知和在另一主机上启动备份的虚机，以提高虚机的高可用和挽救发生故障带来的损失。本申请所采用的技术方案如下：

一种云计算场景下的基于MCE panic虚机高可用方法，该方法包括：

步骤1、对内核函数和容器管理进程进行改造；

步骤2、对宿主机上发生的错误进行检测，当发生不可检测和不可恢复错误时，所述改造后的内核函数发送带有可识别属性的第一指示信号至容器管理进程；

步骤3、所述容器管理进程对所述第一指示信号进行识别，并根据识别结果向云中台发送第二指示信号；

步骤4、云中台根据所述第二指示信号启动虚机迁移指令，对发生不可检测和不可恢复错误的宿主机上的虚机进行迁移。

进一步的，在步骤1之前，该方法还包括：确认平台内核支持RAS功能，并在bios中配置使能memory RAS功能。

进一步的，在步骤1中，对内核函数进行改造，包括：对内核函数mce_panic进行改造，以使内核函数mce_panic在当发生不可检测和不可恢复错误时不进行内核panic，而是发送带有可识别属性的第一指示信号至容器管理进程；其中，所述第一指示信号为SIGBUS信号，所述容器管理进程为ctyun_agent进程；

在容器管理进程ctyun_agent中增加对SIGBUS信号进行捕获。

进一步的，所述对内核函数mce_panic进行改造，包括：

步骤101、梳理对mce异常的处理过程，判断是否存在mce错误是***态无法处理严重的问题错误，如果是则标记该mce为no_way_out，扫描全部bank后调用mce_panic造成***内核panic；

步骤102、对mce_panic函数进行重新编码以实现向第一指示信号至容器管理进程；

步骤103、将改造后的内核函数mce_panic的补丁制作成kpatch；

步骤104、安装kpatch热升级mce_panic函数的新功能。

进一步的，在步骤101中，mce_panic在do_machine_check函数中通过mce_rdmsrl读取该cpu上每个bank上MSR_IA32_MCG_STATUS状态寄存器的内容；

在步骤102中，通过容器管理进程ctyun_agent的pid找到对应的task，给所述对应的task发送带有SEND_SIG_FOR_AGENT标识的信号给ctyun_agent进程。

进一步的，在步骤3中，所述容器管理进程对所述第一指示信号进行识别，包括：当容器管理进程ctyun_agent收到SIGBUS信号后，通过识别属性si_code来判断SIGBUS信号是否为从改造后的内核函数mce_panic发来的信号；

在步骤3中，如果si_code等于SEND_SIG_FOR_AGENT，则表示SIGBUS信号是由改造后的内核函数mce_panic中发出来，向云中台发送第二指示信号，所述第二指示信号用于通知本机发生了内核panic错误，通知云中台进行将本机上的虚机进行迁移；如果si_code不等于SEND_SIG_FOR_AGENT，则表示接收到的是正常SIGBUS信号，按默认策略退出当前的应用程序。

进一步的，在步骤4中，云中台服务器采用多路复用技术对集群中所有的宿主机进行检测，当收到宿主机内核panic错误的消息后，会启动虚机迁移指令，对发生内核panic错误宿主机上的虚机进行迁移。

进一步的，在步骤4之后，该方法还包括：

步骤5、在宿主机上的虚机完成迁移后，对当前宿主机进行重启。

进一步的，在步骤5中，包括：调用check_vm_migaration_finished和migaration_time_expired循环检测，若检测到迁移完成或者迁移时间已超时，则调用ctyun_agent_reboot_machine对当前宿主机进行重启；

对当前宿主机进行重启，包括：通过system函数调用shell命令触发保存发生内核panic错误时宿主机的内存状态，已进行故障定位和原因分析。

一种云计算场景下的基于MCE panic虚机高可用装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

通过本申请实施例，可以获得如下技术效果：相比现有技术中的处理方式，本申请在发生不可恢复或者未知类型的mce错误时，不直接panic内核让云中台可以快速感知集群中不可用的宿主机；云中台可以快速迁移或恢复发生不可恢复错误宿主机上的虚机，保证虚机的高可用性；通过ctyun_agent对该机器进行重启操作，从而减少了宿主机发生硬件错误mce时处于卡死状态的时间。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为整体虚机高可用运作流程示意图；

图2为在在bios中配置使能的操作示意图；

图3为配置可纠正错误的参数的示意图；

图4为mce异常的处理过程示意图；

图5为发送带有标识的信号给ctyun_agent进程的示意图；

图6为初始化SIGBUS的捕获函数的操作示意图；

图7为识别属性判断的操作示意图；

图8为对虚机进行迁移的操作示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

应该理解，在本申请实施例的描述中，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

针对目前存在的问题，本申请实施例提供了一种云计算场景下的基于MCE panic虚机高可用方法，如图1所示，该方法包括如下步骤：

步骤1、对内核函数和容器管理进程进行改造；

在步骤1之前，该方法还包括：确认平台内核支持RAS功能，并在bios中配置使能memory RAS功能。

在实际配置中，如图2所示检查cpu开启了Poison功能，设置巡检周期ActiveScrub Interval为0自动巡检，使能Passive Scrub被动巡检。配置可纠正错误的参数，使能可纠正错误的检测周期和设置可纠正错误的阈值为6000，如图3所示。

由于线上机器都是已经承载着客户重要任务的机器，常规的升级内核需要重启机器，这会影响现有服务的有效性，所以只能选择制作内核补丁的方式实现内核新特性的支持。

在步骤1中，对内核函数进行改造，包括：对内核函数mce_panic进行改造，以使内核函数mce_panic在当发生不可检测和不可恢复错误时不进行内核panic，而是发送带有可识别属性的第一指示信号至容器管理进程；其中，所述第一指示信号为SIGBUS信号，所述容器管理进程为ctyun_agent进程。

所述对内核函数mce_panic进行改造，包括：

步骤103、将改造后的内核函数mce_panic的补丁制作成kpatch；

步骤104、安装kpatch热升级mce_panic函数的新功能。

在步骤101中，如图4所示，mce_panic主要在do_machine_check函数中通过mce_rdmsrl读取该cpu上每个bank上MSR_IA32_MCG_STATUS状态寄存器的内容。

在步骤102中，通过容器管理进程ctyun_agent的pid找到对应的task，给所述对应的task发送带有SEND_SIG_FOR_AGENT标识的信号给ctyun_agent进程；如图5所示，从而实现通过mce_panic函数发送信号通知ctyun_agent的新功能。

步骤103，具体包括：

步骤1031、对改造后的内核函数mce_panic所在文件和原始文件进行差异补丁制作；

#diff-u linux.orgin/arch/x86/kernel/cpu/mce/core.c linux/arch/x86/kernel/cpu/mce/core.c>mce_panic.patch

步骤1032、安装线上内核对应版本的debuginfo包；

#yuminstall-y kernel-debuginfo-common-x86_64-3.10.0-957.5.1kernel-debuginfo-x86_64-3.10.0-957.5.1

步骤1033、将/lib/debug/lib/module/下面的vmlinux拷贝到与patch同一目录下；

#kpatch-build-t vmlinux mce_panic.patch

--skip-compiler-check-r/home/mywokr/linuxsource/linux-3.10.957.5.1.src.rpm

WARNING:Skipping gcc version matching check(not recommended)

Building patch module:livepatch-mce_panic.ko

SUCCESS

步骤1034、在当前目录下生成livepatch-mce_panic.ko文件。

步骤104，具体包括：

步骤1041、安装kpatch工具包；

#yuminstall kpatch

步骤1042、启动kpatch服务；

#systemctl start kpatch

步骤1043、安装kpatch模块；

#kpatch install livepatch-mce_panic.ko

步骤1044、检查kpatch是否安装成功；

#kpatch list

Loaded patch modules:

Installed patch modules:

livepatch-mce_panic(3.10.0-957.5.1.el7.x86_64)

在步骤1中，对容器管理进程进行改造，包括：在容器管理进程ctyun_agent中增加对SIGBUS信号进行捕获；如图6所示，函数init_signal初始化SIGBUS的捕获函数为sigbus_hander。

在步骤3中，所述容器管理进程对所述第一指示信号进行识别，包括：

当容器管理进程ctyun_agent收到SIGBUS信号后，通过识别属性si_code来判断SIGBUS信号是否为从改造后的内核函数mce_panic发来的信号；如图7所示。

如果si_code等于SEND_SIG_FOR_AGENT，则表示SIGBUS信号是由改造后的内核函数mce_panic中发出来，向云中台发送第二指示信号，所述第二指示信号用于通知本机发生了内核panic错误，通知云中台进行将本机上的虚机进行迁移；如果si_code不等于SEND_SIG_FOR_AGENT，则表示接收到的是正常SIGBUS信号，按默认策略退出当前的应用程序。

在步骤4中，云中台服务器采用多路复用技术对集群中所有的宿主机进行检测，当收到宿主机内核panic错误的消息后，会启动虚机迁移指令，对发生内核panic错误宿主机上的虚机进行迁移，如图8所示。

在步骤4之后，该方法还包括：

在步骤5中，包括：调用check_vm_migaration_finished和migaration_time_expired循环检测，若检测到迁移完成或者迁移时间已超时，则调用ctyun_agent_reboot_machine对当前宿主机进行重启。

在步骤5中，对当前宿主机进行重启，包括：

通过system函数调用shell命令触发保存发生内核panic错误时宿主机的内存状态，已进行故障定位和原因分析。

触发方法可以通过system函数调用如下shell命令：echo c>/proc/sysrq-trigger。

综上所述，本申请实现了云计算场景下虚机高可用的解决方案，在宿主机上发生不可检测和不可恢复的错误时不立刻panic处理，先发送带有可识别属性的SIGBUG信号给ctyun_agent进程，ctyun_agent通知云中台迁移该宿主机的所有虚机到健康状态的机器上，达到虚机高可用性，满足企业客户对云服务五九标准的需求。

本申请实施例还提供了一种云计算场景下的基于MCE panic虚机高可用装置。在一示例性的实施方式中，该装置包括：一个或多个处理器和存储器，以一个处理器及存储器为例，处理器和存储器可以通过总线或者其他方式连接。存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如上述本申请实施例中的数据处理方法。处理器通过运行存储在存储器中的非暂态软件程序以及程序，从而实现上述本申请实施例中的数据处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储执行上述本申请实施例中的网络数据处理方法所需的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

此外，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行程序，该计算机可执行程序被一个或多个控制处理器执行，例如，被一个处理器执行，可使得上述一个或多个处理器执行上述本申请实施例中的数据处理方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读程序、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的若干实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请本质的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本申请权利要求所限定的范围内。

Claims

1.一种云计算场景下的基于MCE panic虚机高可用方法，其特征在于，该方法包括：

步骤1、对内核函数和容器管理进程进行改造；

2.根据权利要求1所述的方法，其特征在于，在步骤1之前，该方法还包括：确认平台内核支持RAS功能，并在bios中配置使能memory RAS功能。

3.根据权利要求1所述的方法，其特征在于，在步骤1中，对内核函数进行改造，包括：对内核函数mce_panic进行改造，以使内核函数mce_panic在当发生不可检测和不可恢复错误时不进行内核panic，而是发送带有可识别属性的第一指示信号至容器管理进程；其中，所述第一指示信号为SIGBUS信号，所述容器管理进程为ctyun_agent进程；

在容器管理进程ctyun_agent中增加对SIGBUS信号进行捕获。

4.根据权利要求3所述的方法，其特征在于，所述对内核函数mce_panic进行改造，包括：

步骤103、将改造后的内核函数mce_panic的补丁制作成kpatch；

步骤104、安装kpatch热升级mce_panic函数的新功能。

5.根据权利要求4所述的方法，其特征在于，在步骤101中，mce_panic在do_machine_check函数中通过mce_rdmsrl读取该cpu上每个bank上MSR_IA32_MCG_STATUS状态寄存器的内容；

6.根据权利要求1所述的方法，其特征在于，在步骤3中，所述容器管理进程对所述第一指示信号进行识别，包括：当容器管理进程ctyun_agent收到SIGBUS信号后，通过识别属性si_code来判断SIGBUS信号是否为从改造后的内核函数mce_panic发来的信号；

7.根据权利要求1所述的方法，其特征在于，在步骤4中，云中台服务器采用多路复用技术对集群中所有的宿主机进行检测，当收到宿主机内核panic错误的消息后，会启动虚机迁移指令，对发生内核panic错误宿主机上的虚机进行迁移。

8.根据权利要求1所述的方法，其特征在于，在步骤4之后，该方法还包括：

9.根据权利要求8所述的方法，其特征在于，在步骤5中，包括：调用check_vm_migaration_finished和migaration_time_expired循环检测，若检测到迁移完成或者迁移时间已超时，则调用ctyun_agent_reboot_machine对当前宿主机进行重启；

10.一种云计算场景下的基于MCE panic虚机高可用装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至9中任意一项所述的方法。