CN107426012B - 一种基于超融合架构的故障恢复方法及其装置 - Google Patents

一种基于超融合架构的故障恢复方法及其装置 Download PDF

Info

Publication number
CN107426012B
CN107426012B CN201710392491.2A CN201710392491A CN107426012B CN 107426012 B CN107426012 B CN 107426012B CN 201710392491 A CN201710392491 A CN 201710392491A CN 107426012 B CN107426012 B CN 107426012B
Authority
CN
China
Prior art keywords
migration
host
tenant
event
migrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710392491.2A
Other languages
English (en)
Other versions
CN107426012A (zh
Inventor
何盛杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201710392491.2A priority Critical patent/CN107426012B/zh
Publication of CN107426012A publication Critical patent/CN107426012A/zh
Application granted granted Critical
Publication of CN107426012B publication Critical patent/CN107426012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种基于超融合架构的故障恢复方法及其装置,包括采集超融合架构平台下各个主机的参数信息及各个租户包含的组件信息;将主机的参数信息与预设故障参量进行比较,依据比较结果判断是否有需要进行租户迁移的主机,若是,生成迁移事件,迁移事件内携带有需要进行租户迁移的源主机及目的主机的标识信息;依据迁移事件的类型从源主机上选择相应的待迁移租户,将每个待迁移租户包含的全部组件作为一个迁移对象,依据目的主机的标识信息将迁移对象统一迁移至目的主机内。本发明能够将租户包含的多个组件迁移至同一个目的主机内,从而避免流量跳数过多,进而避免网络传输的时延增加,传输效率高。

Description

一种基于超融合架构的故障恢复方法及其装置
技术领域
本发明涉及硬件故障恢复技术领域,特别是涉及一种基于超融合架构的故障恢复方法及其装置。
背景技术
HCI(Hyper-Converged Infrastructure):超融合基础架构也被称为超融合架构,是指在同一套单元设备(x86服务器)中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括缓存加速、重复数据删除、在线数据压缩、备份软件、快照技术等元素,该架构下,由多个主机节点通过网络聚合起来,实现模块化的无缝横向扩展,形成统一的资源池。
租户(tenant):是指使用***或电脑运算资源的客户,在多租户技术中,租户包含在***中可识别为指定用户的一切数据,举凡帐户与统计信息(accounting data)。
虚拟化是一个广义的术语,在计算机方面通常是指计算元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术的提出可扩大硬件的容量,简化软件的重新配置过程,模拟多CPU并行,允许一个平台同时运行多个操作***,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。虚拟化技术具有可以减少服务器的过度提供、提高设备利用率、减少IT的总体投资、增强提供IT环境的灵活性、可以共享资源等优点。
在虚拟化的HCI平台上,网络设备或者虚拟机在异常场景下,HCI的高可用功能能够自动把异常的组件迁移至新的正常节点上,从而提供正常的业务服务,保证客户业务的正常运行。
虽然目前HCI的高可用功能在异常的情况下能够保证网络设备或者虚拟机的正常运行,但是安全资源池场景下,在一个租户包括组件(虚拟化的物理组件)的情况下,这种机制不能很好的满足场景的需求。在异常情况下,HCI自带的高可用功能会把该租户包含的多个组件迁移至正常的HCI主机来提供服务,但是不一定保证这些组件都迁往同一台正常的HCI主机上工作,假若这些组件被迁往不同的主机,会导致如下缺陷:
(1)增加了网络传输路径
当租户的组件分布在不同的HCI主机上时(例如,虚拟化路由器vroute在主机A上,虚拟化防火墙vAF在主机B上),租户的流量在经过vroute后要达到vAF时就会出现跨主机情况,数据在底层会通过vxlan进行传输,在vAF处理完成后,过滤后的流量传回vroute然后再发送给其他组件进行处理。这样无形中就增加了流量的跳数。
(2)增大网络传输时延
而增加了流量跳数的同时,也会增加网络传输的时延,极端情况下还会出现数据丢包的情况,影响用户的体验,传输效率低。
因此,如何提供一种网络传输效率高的基于超融合架构的故障恢复方法及其装置是本领域技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种基于超融合架构的故障恢复方法及其装置,能够将租户包含的多个组件迁移至同一个目的主机内,从而避免流量跳数过多,进而避免网络传输的时延增加,传输效率高。
为解决上述技术问题,本发明提供了一种基于超融合架构的故障恢复方法,包括:
采集超融合架构平台下各个主机的参数信息及各个租户包含的组件信息;
将所述主机的参数信息与预设故障参量进行比较,依据比较结果判断是否有需要进行租户迁移的主机,若是,生成迁移事件,所述迁移事件内携带有需要进行租户迁移的源主机及目的主机的标识信息;
依据所述迁移事件的类型从所述源主机上选择相应的待迁移租户,将每个所述待迁移租户包含的全部组件作为一个迁移对象,依据所述目的主机的标识信息将所述迁移对象统一迁移至所述目的主机内。
优选地,所述依据所述迁移事件从所述源主机上选择待迁移租户的过程具体为:
判断所述迁移事件的事件类型,若为主机故障类迁移事件,则所述待迁移租户包括所述迁移事件对应的源主机内运行的全部租户;
若为其他类迁移事件,则按照预设规则,选择所述源主机内运行的若干个指定的租户作为所述待迁移租户或选择所述源主机内运行的若干个包含组件最少的租户作为所述待迁移租户。
优选地,迁移完成后,还包括:
存储迁移记录,所述迁移记录包括迁移对应的源主机和目的主机的标识信息、迁移时间以及迁移的租户信息。
优选地,所述生成迁移事件的过程具体包括:
依据预先存储的各个主机的迁移记录、各个主机的参数信息以及预设规则选择负载条件允许且硬件条件稳定的主机作为所述目的主机;
依据所述目的主机和所述源主机的标识信息、所述源主机的迁移原因生成所述迁移事件。
优选地,迁移完成后,还包括:
确定是否迁移成功,若否,重复之前的迁移操作,并记录重复次数;
若重复次数达到预设重试次数后仍未迁移成功,发送报警信息进行显示。
优选地,还包括:
依据外部输入的更新消息,更新相应的配置信息,所述配置信息包括所述预设故障参量。
为解决上述技术问题,本发明还提供了一种基于超融合架构的故障恢复装置,包括:
元数据采集模块,用于采集超融合架构平台下各个主机的参数信息及各个租户包含的组件信息;
主控模块,用于将所述主机的参数信息与预设故障参量进行比较,依据比较结果判断是否有需要进行租户迁移的主机,若是,生成迁移事件,所述迁移事件内携带有需要进行租户迁移的源主机及目的主机的标识信息;
事件处理模块,用于依据所述迁移事件的类型从所述源主机上选择相应的待迁移租户,将每个所述待迁移租户包含的全部组件作为一个迁移对象,依据所述目的主机的标识信息将所述迁移对象统一迁移至所述目的主机内。
优选地,所述主控模块还包括:
缓存单元,用于在迁移完成后,存储迁移记录,所述迁移记录包括迁移对应的源主机和目的主机的标识信息、迁移时间以及迁移的租户信息。
优选地,所述主控模块具体包括:
数据分析单元,用于分析所述主机的参数信息分析是否有需要进行租户迁移的主机,若是,触发事件生成单元;
所述事件生成单元,用于依据预先存储的各个主机的迁移记录、各个主机的参数信息以及预设规则选择负载条件允许且硬件条件稳定的主机作为所述目的主机;依据所述目的主机和所述源主机的标识信息、所述源主机的迁移原因生成所述迁移事件。
优选地,还包括:
消息处理模块,用于接收外部输入的更新消息,并发送至所述主控模块,供所述主控模块更新相应的配置信息,所述配置信息包括所述预设故障参量。
本发明提供了一种基于超融合架构的故障恢复方法及其装置,依据采集的主机的参数信息和组件信息确定需要进行租户迁移的主机后,生成迁移事件,然后依据迁移事件的类型选择待迁移租户,并把待迁移租户包含的全部组件作为一个迁移对象,整体迁移至目的主机内。可见,本发明能够将一个租户包含的多个组件作为一个整体统一迁移至目的主机内,避免了组件分布于不同目的主机而导致的流量跳数多的情况出现,从而避免了网络的传输时延增加,网络传输效率高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于超融合架构的故障恢复方法的过程的流程图;
图2为本发明提供的一种基于超融合架构的故障恢复装置的结构示意图。
具体实施方式
本发明的核心是提供一种基于超融合架构的故障恢复方法及其装置,能够将租户包含的多个组件迁移至同一个目的主机内,从而避免流量跳数过多,进而避免网络传输的时延增加,传输效率高。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于超融合架构的故障恢复方法,参见图1所示,图1为本发明提供的一种基于超融合架构的故障恢复方法的过程的流程图;该方法包括:
步骤s101:采集超融合架构平台下各个主机的参数信息及各个租户包含的组件信息;
其中,主机的参数信息包括主机的网口信息及负载信息,负载信息包括主机的cpu及内存的运行参数信息。组件信息包括组件类型及组件所处的主机。当然,也可还包括其他信息,具体本发明不作特别限定。
步骤s102:将主机的参数信息与预设故障参量进行比较,依据比较结果判断是否有需要进行租户迁移的主机,若是,生成迁移事件,迁移事件内携带有需要进行租户迁移的源主机及目的主机的标识信息;
其中,这里的预设故障参量指的是用于判断主机的相应参数信息是否满足要求的阈值数据,当主机的参数信息不满足对应的预设的故障参量时,表明主机发生了该故障参量对应的故障,需要进行特定类型的租户迁移。例如,主机的内存占用状态为80%,相应的高负载参量为70%,此时由于内存占用状态高于预设的高负载参量,则表明该主机处于高负载状态,需要进行租户迁移。当然,预设故障参量的内容与主机的参数信息相关,其各个故障参量的具体数值可自行设定或根据外部输入的更新消息进行更新,本发明不作具体限定。
另外,这里的标识信息可以为主机的IP或ID等,当然,本发明对此不作具体限定。
需要注意的是,迁移事件内携带的目的主机的个数可以不限为一个,即可以包括多个符合要求的目的主机。
步骤s103:依据迁移事件的类型从源主机上选择相应的待迁移租户,将每个待迁移租户包含的全部组件作为一个迁移对象,依据目的主机的标识信息将迁移对象统一迁移至目的主机内。
其中,确定待迁移租户后,需要生成相应的迁移任务,并将迁移任务加入迁移队列中,由于选择待迁移租户的个数与迁移事件类型有关,可以为1个,但多数情况下为多个。
当需要迁移多个租户时,作为优选地,可以为每个迁移对象分别设置一个迁移任务,即每次迁移一个迁移对象。
在另一种实施例中,也可以将此次待迁移的全部迁移对象共同组成一个迁移任务,即一次迁移即可完成全部待迁移租户的迁移。
另外,若针对每个迁移对象分别生成一个迁移任务的话,此时各个迁移对象对应的目的主机可以相同,也可以不同,即可以将各个待迁移租户分别迁移至不同的目的主机。当然,以上几种实施例均为优选方案,具体实现时也可采用其他实现方式,本发明对此不作特别限定。
另外,这里的迁移事件包括:
存储口故障事件,主机离线事件,数据口故障事件,高负载事件,低负载事件中的任一种。当然,还可包含其他需要进行租户迁移的事件,具体可根据实际情况而定。
作为优选地,步骤s103中,依据迁移事件从源主机上选择待迁移租户的过程具体为:
判断迁移事件的事件类型,若为主机故障类迁移事件,则待迁移租户包括迁移事件对应的源主机内运行的全部租户;
若为其他类迁移事件,则按照预设规则,选择源主机内运行的若干个指定的租户作为待迁移租户或选择源主机内运行的若干个包含组件最少的租户作为待迁移租户。
可以理解的是,当事件为主机故障类迁移事件时,表明此时主机已经故障,故此时需要将该主机上运行的全部租户进行迁移,此时依据租户对应的迁移对象生成相应的迁移任务,并将迁移任务加入故障就绪队列内;当事件为其他类迁移事件,例如高负载类型事件,表明此时主机需要进行一个或部分租户的迁移,根据事件类型,可以选择性地挑选部分指定租户作为待迁移租户,或者选择若干个包含组件最少的租户作为待迁移租户,具体采用哪种方式本发明不作具体限定,之后依据租户对应的迁移对象生成相应的迁移任务,并将迁移任务加入普通就绪队列内。
作为优选地,迁移完成后,还包括:
存储迁移记录,迁移记录包括迁移对应的源主机和目的主机的标识信息、迁移时间以及迁移的租户信息。
可以理解的是,通过存储迁移记录,能够方便后续查看各个主机内租户的迁入迁出情况,进而了解各个主机的硬件条件是否稳定,也可以方便各个租户了解自身的迁移过程,为后续的迁移和主机管理提供指导依据。
其中,步骤s102中,生成迁移事件的过程具体包括:
依据预先存储的各个主机的迁移记录、各个主机的参数信息以及预设规则选择负载条件允许且硬件条件稳定的主机作为目的主机;
依据目的主机和源主机的标识信息、源主机的迁移原因生成迁移事件。
可以理解的是,现有技术中的方案的迁移仅考虑了cpu、内存等负载因素,但是未考虑硬件设备不是很稳定的情况,在硬件设备不是很稳定的情况下,可能会出现组件故障迁移到其他正常HCI主机后,过一段时间(例如,十分钟)原主机故障恢复了,由于负载低,以前迁移出去的组件又会被迁回来,然后原主机硬件设备不稳定,又发生故障,就又把上面的组件迁移出去,导致来回迁移,出现乒乓效应。
这里的预设规则优选为选择在过去预设时间段(例如一个小时)内,没有租户迁出的主机,然后从这部分主机中选择负载合适的(负载较低的)主机作为目的主机;当然,以上仅为优选方案,这里的预设规则时根据迁移记录来尽量选择近期迁出少的主机,来避免硬件设备不稳定带来的租户组件来回迁移的现象。
作为优选地,迁移完成后,还包括:
确定是否迁移成功,若否,重复之前的迁移操作,并记录重复次数;
若重复次数达到预设重试次数后仍未迁移成功,发送报警信息进行显示。
其中,这里确定是否迁移成功,可以是通过目的主机返回的响应确定的,也可以是通过迁移完成后采集各个租户信息,判断租户所处的主机位置来判断的,当然还可采用其他方式,本发明不作具体限定。
另外,由于许多情况下,需要迁移多个租户,这种情况下可能有部分租户迁移成功,而部分租户迁移失败,因此若依据目的主机返回的响应进行判断,则返回的响应必须携带有租户的标识信息。若有租户迁移失败,则仅需要重复迁移这部分失败的租户即可。
进一步可知,这里的发送报警信息可以为发送报警提示(或报告文档)至管理员(或相应租户)的显示界面上,提醒管理员(或相应租户)进行相应的处理。当然,还可采用其他报警方式,任何报警方式均在本发明的保护范围之内。
作为优选地,该方法还包括:
依据外部输入的更新消息,更新相应的配置信息,配置信息包括预设故障参量。
可以理解的是,用户可能会根据自身需要发送一些更新消息,这些消息会影响判断主机是否需要进行租户迁移的判断依据,例如,这些更新消息更新了HCI判断主机是否为高负载状态的依据,因此,生成高负载类型的事件的情况也发生了变化。
本发明提供了一种基于超融合架构的故障恢复方法,依据采集的主机的参数信息和组件信息确定需要进行租户迁移的主机后,生成迁移事件,然后依据迁移事件的类型选择待迁移租户,并把待迁移租户包含的全部组件作为一个迁移对象,整体迁移至目的主机内。可见,本发明能够将一个租户包含的多个组件作为一个整体统一迁移至目的主机内,避免了组件分布于不同目的主机而导致的流量跳数多的情况出现,从而避免了网络的传输时延增加,网络传输效率高。
本发明还提供了一种基于超融合架构的故障恢复装置,参见图2所示,图2为本发明提供的一种基于超融合架构的故障恢复装置的结构示意图。该装置包括:
元数据采集模块1,用于采集超融合架构平台下各个主机的参数信息及各个租户包含的组件信息;
主控模块2,用于将主机的参数信息与预设故障参量进行比较,依据比较结果判断是否有需要进行租户迁移的主机,若是,生成迁移事件,迁移事件内携带有需要进行租户迁移的源主机及目的主机的标识信息;
事件处理模块3,用于依据迁移事件的类型从源主机上选择相应的待迁移租户,将每个待迁移租户包含的全部组件作为一个迁移对象,依据目的主机的标识信息将迁移对象统一迁移至目的主机内。
其中,事件处理模块3除了用于以上的租户迁移管理外,还用于进行事件去重和优先队列管理等操作。可以理解的是,一台主机仅允许一个cpu、内存过高的迁移事件,对于超过部分,需要进行忽略,这就是事件去重;选择待迁移租户后,依据迁移对象生成迁移任务加入相应的队列内进行处理,处理过程中,对于部分特殊任务,可以进行优先处理,这里的特殊任务的筛选条件本发明不作限定。
进一步的,事件处理模块3还用于进行迁移抑制操作,即依据预先存储的迁移记录、各个主机的参数信息以及预设规则选择负载条件允许且硬件条件稳定的主机作为目的主机。即考虑目的主机的历史故障记录,避免出现来回迁移的情况。
另外,一般每个迁移事件会携带一个目的主机的标识信息(例如主机地址),之后得到的全部待迁移租户及其组件组成一个迁移任务,迁移至目的主机内,但是,也可以选择一个迁移事件携带多个目的主机的标识信息,每个待迁移租户的组件对应一个迁移任务,各个迁移租户分别分散迁移至各个目的主机内,具体采用哪种方式本发明不作具体限定。
事件处理模块3工作过程具体为:
步骤s11:启动事件处理模块3的进程;
步骤s12:从主控模块2内获取一个迁移事件;
步骤s13:判断迁移事件是否获取成功,若获取成功,进入步骤s16,若获取失败,进入步骤s14;
步骤s14:进行事件去重;
步骤s15:判断此时处理的迁移时间是否重复,若是,休眠预设时间后,返回步骤s12,否则,进入步骤s16;
步骤s16:待迁移租户的确定,以及将获取的迁移事件转换为迁移任务(主机故障类迁移事件生成的迁移任务加入故障就绪队列,其他类迁移事件生成的迁移任务加入普通就绪队列);
步骤s17:执行迁移任务;
步骤s18:判断是否退出自身进程,若不退出,休眠预设时间后,返回步骤s12,否则,退出进程。
作为优选地,主控模块2还包括:
缓存单元,用于在迁移完成后,存储迁移记录,迁移记录包括迁移对应的源主机和目的主机的标识信息、迁移时间以及迁移的租户信息。
其中,主控模块2具体包括:
数据分析单元,用于分析主机的参数信息分析是否有需要进行租户迁移的主机,若是,触发事件生成单元;
事件生成单元,用于依据预先存储的各个主机的迁移记录、各个主机的参数信息以及预设规则选择负载条件允许且硬件条件稳定的主机作为目的主机;依据目的主机和源主机的标识信息、源主机的迁移原因生成迁移事件。
作为优选地,该方法还包括:
消息处理模块4,用于接收外部输入的更新消息,并发送至主控模块2,供主控模块2更新相应的配置信息,配置信息包括预设故障参量。
进一步的,消息处理模块4还用于接收外部输入的状态查询消息后,调用主控模块2内的数据查询相应的主机或组件状态,并将查询结果反馈至显示界面;例如,外部输入的查询高可用中的集群是否处于高负载状态的查询信息,以及外部输入的查询租户位置调整的查询消息等。
图2中的共享存储指的是消息处理模块4的操作需要获取主控模块2内存储的数据,以及元数据采集模块1会将采集数据发送至主控模块2。
其中,主控模块2除了以上所述的接收元数据采集模块1采集的数据(数据状态监控)、对元数据采集模块1采集的数据分析、迁移记录的存储和分析以及迁移事件的生成,还包括消息处理模块4发送的外部消息的处理及反馈(配置更新、租户位置检测等事件监听操作)、高可用进程状态的监控等。主控模块2的工作过程具体为:
步骤s21:开机启动高可用进程;
步骤s22:初始化***资源;
其中,初始化的过程具体包括读取HCI平台的默认高可用配置,这里主要是从数据库中读取高可用的配置信息,包括故障迁移和负载均衡的配置信息;以及注册一些信号函数,例如SIG_CHILD,SIG_TERM等,用于处理外部发送给高可用主进程的信号;以及初始化元数据采集模块1、事件处理模块3以及消息处理模块4;
步骤s23:启动元数据采集模块1子进程;
步骤s24:启动事件处理模块3子进程;
步骤s25:启动消息处理模块4子进程;
其中,步骤s23、步骤s24、步骤s25并不严格先后顺序关系。
步骤s26:主控进程循环工作;
即依据消息处理模块4发送的外部消息更新主机cpu、内存、网卡状态信息、离线状态、集群状态信息以及配置文件,分析采集数据并触发迁移事件生成等。
步骤s27:检测启动高可用进程是否退出,若退出,进入步骤s28,否则,返回步骤s26;
步骤s28:退出高可用进程。
其中,检测启动高可用进程是否退出的过程具体为:
判断是否接收到退出信号,若接收到,更新退出标记,并进入步骤s28。
步骤s28的过程具体为:
向全部子进程发送term信号(退出信号),记录各个子进程的正常退出时间,并检测子进程是否退出;
若退出失败,且当前正常退出时间尚未超出2.5s,则休眠一定时间(例如0.5s)后,重新向该子进程发送term信号;若累计该子进程的正常退出时间已经超出了2.5s,则向该子进程发送kill信号(强制退出信号),并开始记录强制退出时间;
之后检测该子进程是否退出成功,若仍退出失败,且当前强制退出时间尚未超出2.5s,则休眠一定时间(例如0.5s)后,重新向该子进程发送kill信号;若累计该子进程的强制退出时间已经超出了2.5s,则结束该子进程的退出操作。
其中,这里的2.5s为退出时间阈值,也可设置为其他阈值,本发明不作具体限定。
另外,以上仅为一个优选的退出方案,实际应用中也可采用其他过程,本发明不作具体限定。
另外,图2中的HCI为人机交互组件,UI为用户界面,Unix socket指的是进程间通信。
本发明提供了一种基于超融合架构的故障恢复装置,依据采集的主机的参数信息和组件信息确定需要进行租户迁移的主机后,生成迁移事件,然后依据迁移事件的类型选择待迁移租户,并把待迁移租户包含的全部组件作为一个迁移对象,整体迁移至目的主机内。可见,本发明能够将一个租户包含的多个组件作为一个整体统一迁移至目的主机内,避免了组件分布于不同目的主机而导致的流量跳数多的情况出现,从而避免了网络的传输时延增加,网络传输效率高。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于超融合架构的故障恢复方法,其特征在于,包括:
采集超融合架构平台下各个主机的参数信息及各个租户包含的组件信息;
将所述主机的参数信息与预设故障参量进行比较,依据比较结果判断是否有需要进行租户迁移的主机,若是,生成迁移事件,所述迁移事件内携带有需要进行租户迁移的源主机及目的主机的标识信息;
依据所述迁移事件的类型从所述源主机上选择相应的待迁移租户,将每个所述待迁移租户包含的全部组件作为一个迁移对象,依据所述目的主机的标识信息将所述迁移对象统一迁移至所述目的主机内。
2.根据权利要求1所述的方法,其特征在于,所述依据所述迁移事件的类型从所述源主机上选择相应的待迁移租户的过程具体为:
判断所述迁移事件的事件类型,若为主机故障类迁移事件,则所述待迁移租户包括所述迁移事件对应的源主机内运行的全部租户;
若为其他类迁移事件,则按照预设规则,选择所述源主机内运行的若干个指定的租户作为所述待迁移租户或选择所述源主机内运行的若干个包含组件最少的租户作为所述待迁移租户。
3.根据权利要求1所述的方法,其特征在于,迁移完成后,还包括:
存储迁移记录,所述迁移记录包括迁移对应的源主机和目的主机的标识信息、迁移时间以及迁移的租户信息。
4.根据权利要求3所述的方法,其特征在于,所述生成迁移事件的过程具体包括:
依据预先存储的各个主机的迁移记录、各个主机的参数信息以及预设规则选择负载条件允许且硬件条件稳定的主机作为所述目的主机;
依据所述目的主机和所述源主机的标识信息、所述源主机的迁移原因生成所述迁移事件。
5.根据权利要求3所述的方法,其特征在于,迁移完成后,还包括:
确定是否迁移成功,若否,重复之前的迁移操作,并记录重复次数;
若重复次数达到预设重试次数后仍未迁移成功,发送报警信息进行显示。
6.根据权利要求3所述的方法,其特征在于,还包括:
依据外部输入的更新消息,更新相应的配置信息,所述配置信息包括所述预设故障参量。
7.一种基于超融合架构的故障恢复装置,其特征在于,包括:
元数据采集模块,用于采集超融合架构平台下各个主机的参数信息及各个租户包含的组件信息;
主控模块,用于将所述主机的参数信息与预设故障参量进行比较,依据比较结果判断是否有需要进行租户迁移的主机,若是,生成迁移事件,所述迁移事件内携带有需要进行租户迁移的源主机及目的主机的标识信息;
事件处理模块,用于依据所述迁移事件的类型从所述源主机上选择相应的待迁移租户,将每个所述待迁移租户包含的全部组件作为一个迁移对象,依据所述目的主机的标识信息将所述迁移对象统一迁移至所述目的主机内。
8.根据权利要求7所述的装置,其特征在于,所述主控模块包括:
缓存单元,用于在迁移完成后,存储迁移记录,所述迁移记录包括迁移对应的源主机和目的主机的标识信息、迁移时间以及迁移的租户信息。
9.根据权利要求8所述的装置,其特征在于,所述主控模块还包括数据分析单元和事件生成单元,其中:
所述数据分析单元,用于分析所述主机的参数信息分析是否有需要进行租户迁移的主机,若是,触发所述事件生成单元;
所述事件生成单元,用于依据预先存储的各个主机的迁移记录、各个主机的参数信息以及预设规则选择负载条件允许且硬件条件稳定的主机作为所述目的主机;依据所述目的主机和所述源主机的标识信息、所述源主机的迁移原因生成所述迁移事件。
10.根据权利要求9所述的装置,其特征在于,还包括:
消息处理模块,用于接收外部输入的更新消息,并发送至所述主控模块,供所述主控模块更新相应的配置信息,所述配置信息包括所述预设故障参量。
CN201710392491.2A 2017-05-27 2017-05-27 一种基于超融合架构的故障恢复方法及其装置 Active CN107426012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710392491.2A CN107426012B (zh) 2017-05-27 2017-05-27 一种基于超融合架构的故障恢复方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710392491.2A CN107426012B (zh) 2017-05-27 2017-05-27 一种基于超融合架构的故障恢复方法及其装置

Publications (2)

Publication Number Publication Date
CN107426012A CN107426012A (zh) 2017-12-01
CN107426012B true CN107426012B (zh) 2020-06-09

Family

ID=60429236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710392491.2A Active CN107426012B (zh) 2017-05-27 2017-05-27 一种基于超融合架构的故障恢复方法及其装置

Country Status (1)

Country Link
CN (1) CN107426012B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951531B (zh) * 2019-02-27 2021-05-07 广东唯一网络科技有限公司 超融合云计算***
CN111835576B (zh) * 2019-04-19 2022-03-04 厦门网宿有限公司 基于dpvs的后端服务器健康检测方法和服务器
CN111488248A (zh) * 2020-04-14 2020-08-04 深信服科技股份有限公司 一种托管私有云***的控制方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117280A (zh) * 2015-08-24 2015-12-02 用友网络科技股份有限公司 虚拟机迁移装置和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102917025B (zh) * 2012-09-21 2015-06-10 苏州盈联智能科技股份有限公司 一种云计算平台的业务迁移方法
US9201706B2 (en) * 2013-03-11 2015-12-01 International Business Machines Corporation Minimizing workload migrations during cloud maintenance operations
WO2015165060A1 (en) * 2014-04-30 2015-11-05 Dalian University Of Technology Virtual machine migration
CN104135535B (zh) * 2014-08-14 2017-10-31 苏州大学 一种面向云计算的租户调整方法及***
CN105357038B (zh) * 2015-10-26 2019-05-07 北京百度网讯科技有限公司 监控虚拟机集群的方法和***
CN105335214A (zh) * 2015-11-12 2016-02-17 国云科技股份有限公司 一种虚拟机故障检测和恢复的方法
CN106254114A (zh) * 2016-05-13 2016-12-21 江苏云途腾科技有限责任公司 云主机故障迁移方法及***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117280A (zh) * 2015-08-24 2015-12-02 用友网络科技股份有限公司 虚拟机迁移装置和方法

Also Published As

Publication number Publication date
CN107426012A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
CN108776934B (zh) 分布式数据计算方法、装置、计算机设备及可读存储介质
CN107872402B (zh) 全局流量调度的方法、装置及电子设备
US10048996B1 (en) Predicting infrastructure failures in a data center for hosted service mitigation actions
EP2979183B1 (en) Method and arrangement for fault management in infrastructure as a service clouds
US10481935B2 (en) Management system, overall management node, and management method for managing virtualization resources in a mobile communication network
US10270668B1 (en) Identifying correlated events in a distributed system according to operational metrics
EP2871553B1 (en) Systems and methods for protecting virtualized assets
CN110209492B (zh) 一种数据处理方法及装置
US9104572B1 (en) Automated root cause analysis
US10505881B2 (en) Generating message envelopes for heterogeneous events
EP3361703B1 (en) Load balancing method, related device and system
US9264337B2 (en) Service monitoring system, service monitoring method, and non-transitory computer-readable recording medium
US20180176289A1 (en) Information processing device, information processing system, computer-readable recording medium, and information processing method
CN107426012B (zh) 一种基于超融合架构的故障恢复方法及其装置
US9973306B2 (en) Freshness-sensitive message delivery
CN110365762A (zh) 服务处理方法、装置、设备及存储介质
CN110784515A (zh) 基于分布式集群的数据存储方法、及其相关设备
CN113656168A (zh) 一种流量的自动容灾和调度的方法、***、介质和设备
US20170031764A1 (en) Restoration of consistent regions within a streaming environment
US10892940B2 (en) Scalable statistics and analytics mechanisms in cloud networking
CN109726151B (zh) 用于管理输入输出栈的方法、设备和介质
US9317355B2 (en) Dynamically determining an external systems management application to report system errors
CN109510730A (zh) 分布式***及其监控方法、装置、电子设备及存储介质
CN110333930A (zh) 数字化平台***
US9934113B2 (en) Enhanced console assisted recovery for a coordinated timing network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant