WO2020244067A1

WO2020244067A1 - 故障检测方法及相关设备

Info

Publication number: WO2020244067A1
Application number: PCT/CN2019/102769
Authority: WO
Inventors: 李爽久
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-06-04
Filing date: 2019-08-27
Publication date: 2020-12-10
Also published as: CN110247821A; CN110247821B

Abstract

本申请公开了一种故障检测方法及相关设备，其中该方法包括：控制设备接收交换机发送的第一指示信息，第一指示信息用于指示交换机接收到第一虚拟机发往第二虚拟机的第一心跳报文，该第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；若控制设备在接收到第一指示信息后的预设时间段内没有接收到交换机发送的第二指示信息，则判定第二虚拟机发生故障，第二指示信息用于指示交换机接收到第二虚拟机发往第一虚拟机的第二心跳报文，第二心跳报文是第二虚拟机根据第一心跳报文生成的。采用本申请实施例，可以精准检测出发生故障的原因。

Description

故障检测方法及相关设备

本申请要求于2019年6月4日提交中国专利局、申请号为201910484497.1、申请名称为“一种故障检测方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及云计算技术领域，尤其涉及一种故障检测方法及相关设备。

背景技术

在云计算场景下，会大量使用网络功能虚拟化(network function virtualization，NFV)产品，通过软件实现网络功能，比较常见的做法是在多台物理服务机上部署虚拟机，通过软件功能实现网络通信。

然而，当虚拟机之间建立通信链路后，虚拟机通过链路发送报文时会存在通信失败的情况，目前无法检测出通信链路发生故障的原因。

发明内容

本申请实施例提供一种故障检测方法及相关设备，可以精准检测出发生故障的原因。

第一方面，本申请实施例提供了一种故障检测方法，应用于控制设备，该方法包括：

控制设备接收交换机发送的第一指示信息，所述第一指示信息用于指示所述交换机接收到第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

若所述控制设备在接收到所述第一指示信息后的预设时间段内没有接收到所述交换机发送的第二指示信息，则判定所述第二虚拟机发生故障，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。

第二方面，本申请实施例提供了一种故障检测方法，应用于交换机，该方法包括：

交换机接收第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

所述交换机向控制设备发送第一指示信息，所述第一指示信息用于指示所述交换机接收到所述第一虚拟机发往所述第二虚拟机的所述第一心跳报文；

若所述交换机在发送所述第一指示信息之后的预设时间段内接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，则所述交换机向所述控制设备发送第二指示信息，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的所述第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。

第三方面，本申请实施例提供了一种控制设备，该控制设备包括由于执行上述第一方面所述的故障检测方法的模块或单元。例如，该控制设备包括：接收单元和处理单元。

其中，接收单元，用于接收交换机发送的第一指示信息，所述第一指示信息用于指示所述交换机接收到第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

处理单元，用于若所述接收单元在接收到所述第一指示信息后的预设时间段内没有接收到所述交换机发送的第二指示信息，则判定所述第二虚拟机发生故障，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。

第四方面，本申请实施例提供了一种交换机，该交换机包括由于执行上述第二方面所述的故障检测方法的模块或单元。例如，该交换机包括：接收单元和发送单元。

其中，接收单元，用于接收第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

发送单元，用于向控制设备发送第一指示信息，所述第一指示信息用于指示所述交换机接收到所述第一虚拟机发往所述第二虚拟机的所述第一心跳报文；

所述发送单元，还用于若所述接收单元在所述发送单元发送所述第一指示信息之后的预设时间段内接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，则向所述控制设备发送第二指示信息，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的所述第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。

第五方面，本申请实施例提供了一种控制设备，包括：处理器、通信接口和存储器，所述处理器分别与所述存储器和所述通信接口连接。其中，通信接口用于与其它网络设备(例如物理机、交换机)进行通信，存储器用于存储第一方面所提供的故障检测方法的实现代码，处理器用于执行存储器中存储的程序代码，即执行第一方面所提供的故障检测方法。

第六方面，本申请实施例提供了一种交换机，包括：处理器、通信接口和存储器，所述处理器分别与所述存储器和所述通信接口连接。其中，通信接口用于与其它网络设备(例如物理机、控制设备)进行通信，存储器用于存储第二方面所提供的故障检测方法的实现代码，处理器用于执行存储器中存储的程序代码，即执行第二方面所提供的故障检测方法。

第七方面，本申请实施例提供了一种通信***，包括控制设备、多台物理机、一个或多个交换机。其中，所述控制设备为上述第三方面或第五方面所述的控制设备，所述交换机为上述第四方面或第六方面所述的交换机。

所述多台物理机包括上述第一方面或第二方面所述的第一物理机和第二物理机，该一个或多个交换机包括上述第一方面或第二方面所述的交换机。其中每台物理机上可以部署一个或多个虚拟机，第一物理机上部署的一个或多个虚拟机中包括上述第一虚拟机，第二物理机上部署的一个或多个虚拟机中包括上述第二虚拟机。不同物理机之间进行通信需要经过交换机，交换机可以识别发端物理机发送的报文携带的IP地址找到对应的收端物理机，进而将报文发送给收端物理机。控制设备可以进行全局物理机、虚拟机的故障检测，可以精准识别出全局中有哪些物理机和虚拟机发生了故障。

第八方面，本申请实施例提供了一种计算机可读存储介质，该可读存储介质上存储有指令，当其在处理器上运行时，使得处理器执行上述第一方面或第二方面描述的故障检测方法。

第九方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在处理器上运行时，使得处理器执行上述第一方面或第二方面描述的故障检测方法。

实施本申请实施例，控制设备可以根据虚拟机之间的心跳报文从发送到响应之间的时间间隔来判断虚拟机是否存在故障，例如，若第一虚拟机向第二虚拟机发送了第一心跳报文后的预设时间段内第二虚拟机未响应心跳报文，则可以识别出第二虚拟机发生了故障，因此，可以精准检测出通信链路的故障源是否是虚拟机，节省定位故障的时间。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的通信***的架构示意图；

图2为本申请实施例提供的一种网络设备的硬件结构示意图；

图3为本申请实施例提供的一种故障检测方法的流程示意图；

图4为本申请实施例提供的一种控制设备的逻辑结构示意图；

图5为本申请实施例提供的一种交换机的逻辑结构示意图。

具体实施方式

请参见图1，图1是本申请实施例涉及的一种通信***的架构示意图，该通信***可以是云网络***。该通信***包括控制设备，交换机(或称物理交换机)集群和多台物理机。

其中，每台物理机上均可以配置或部署一台或多台虚拟机，具体配置数量由控制设备决定。每一物理机均有一物理网口，每一虚拟机可以对应一个虚拟网卡，同一物理机上的多个虚拟机对应到同一个物理网口上，每个虚拟网卡均可以具备独立的IP地址，具体可以由控制设备配置并发送给各个物理机。同一物理机上的多个虚拟机的IP地址可以位于同一IP网段下，进行通信的两台物理机的IP地址可以位于同一IP网段下。

其中，交换机用于对任意两台物理机之间传输的报文或数据进行转发。例如，每一物理机均有一物理网口，当交换机接收到某一物理网口发送的报文后，识别该报文的目的IP地址或者目的MAC地址，进而将该报文发送给该目的IP地址或者目的MAC地址对应的另一物理网口，从而实现两台物理机的报文通信。交换机集群中可以包括一台或多台交换机，若交换机集群中包括多台交换机，则其中可以有主交换机和备交换机，当主交换机发生故障，备交换机可以接替主交换机继续进行数据包转发操作。

控制设备分别与每台物理机以及交换机集群中的主交换机进行连接。控制设备可以分配网络中的各个物理机的IP网段以及各个物理机上的全部虚拟机的IP地址，需要进行通信的两台物理机的IP网段需要处于同一IP网段下，只要IP在同一个网段，就可以实现二层通信。控制设备分配了IP地址后，可以将IP地址映射表发送给交换机以及各台物理机。各台物理机可以通过IP地址映射表获知通信对端的物理机上各个虚拟机的IP地址。交换机可以通过IP地址映射表实现物理机之间的报文转发。

本申请实施例中提及的控制设备可以是软件定义网络(Software Defined Network，SDN)控制设备或者其他控制设备。第一物理机和第二物理机可以是电脑、服务器或其他实体设备。

本申请实施例为了便于描述，以多台物理机中的第一物理机和第二物理机，多台交换机中的主交换机为例来进行说明。其中控制设备与主交换机、第一物理机和第二物理机通过云网络相互通信。在该通信***中，第一物理机的第一虚拟机产生心跳报文后，心跳报文发送给主交换机，主交换机接收到第一物理机上的第一虚拟机发往第二物理机上的第二虚拟机的心跳报文后向控制设备发送第一指示信息，然后通过IP地址映射表识别出对端物理机，即第二物理机，进而将第一物理机发送的心跳报文发送给第二物理机。第二物理机上的第二虚拟机收到第一物理机上的第一虚拟机发送的心跳报文后，基于第一心跳报文生成第二心跳报文，将第二心跳报文发送给主交换机，主交换机接收到第二心跳报文后，向控制设备发送第二指示信息。控制设备若在接收到第一指示信息的预设时间段内没有接收到第二指示信息，则判定第二虚拟机发生故障。若第二物理机上的全部虚拟机均发生故障，则判定第二物理机发送故障。因此，本申请可以精准识别出故障源是虚拟机还是物理机。

请参见图2，图2示出了本申请实施例提供的一种网络设备的硬件结构示意图，该网络设备200可包括：存储器201、通信接口202、和一个或多个处理器203。这些部件可通过总线204或者其他方式连接，图2以通过总线连接为例。其中：

存储器201可以和处理器203通过总线204或者输入输出端口耦合，存储器201也可以与处理器203集成在一起。存储器201用于存储各种软件程序和/或多组指令。具体的，存储器201可包括高速随机存取的存储器，并且也可包括非易失性存储器，例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。存储器201还可以存储网络通信程序，该网络通信程序可用于与一个或多个附加设备，一个或多个终端，一个或多个网络设备进行通信。

处理器203可以是通用处理器，例如中央处理器(central processing unit，CPU)，还可以是数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。处理器203可处理通过通信接口202接收到的数据。

通信接口202用于网络设备200与其他网络设备进行通信，例如物理机进行通信。通信接口202可以是收发器、收发电路等，其中，通信接口是统称，可以包括一个或多个接口，例如控制设备与交换机之间的接口。通信接口202可以包括有线接口和无线接口，例如标准接口、以太网、多机同步接口。

处理器203可用于读取和执行计算机可读指令。具体的，处理器203可用于调用存储于存储器201中的数据。可选地，当处理器203发送任何消息或数据时，其具体通过驱动或控制通信接口202做所述发送。可选地，当处理器203接收任何消息或数据时，其具体通过驱动或控制通信接口202做所述接收。因此，处理器203可以被视为是执行发送或接收的控制中心，通信接口202是发送和接收操作的具体执行者。

在本申请实施例中，通信接口202具体用于执行下述方法实施例中涉及的数据收发的步骤，处理器203具体用于实施除数据收发之外的数据处理的步骤。

在具体实现中，作为一种实施例，网络设备200还可以包括输出设备和输入设备。输出设备和处理器203通信，可以以多种方式来显示信息。例如，输出设备可以是液晶显示器(Liquid Crystal Display，LCD)，发光二级管(Light Emitting Diode，LED)显示设备，阴极射线管(Cathode Ray Tube，CRT)显示设备，或投影仪(projector)等。输入设备和处理器203通信，可以以多种方式接受用户的输入。例如，输入设备可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的网络设备200可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，网络设备200可以是台式机、便携式电脑、网络服务器、掌上电脑(Personal Digital Assistant，PDA)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备或有图2中类似结构的设备。本申请实施例不限定网络设备200的类型。

如图1中的控制设备可以为图2所示的设备，控制设备的存储器中存储了一个或多个软件模块(如交互模块和处理模块)。如图1中的交换机也可以为图2所示的设备，交换机的存储器中存储了一个或多个软件模块(如交互模块和处理模块)。控制设备或者交换机可以通过处理器以及存储器中的程序代码来实现软件模块，实现下述方法实施例涉及的故障检测方法。

结合图1所示的通信***架构示意图，参见图3，图3提供了一种故障检测方法的流程示意图。其中，该故障检测方法可以包括：

S301，交换机接收第一虚拟机发往第二虚拟机的第一心跳报文。

本申请中，第一虚拟机为第一物理机上的虚拟机，第一物理机上配置有一个或多个虚拟机。第二虚拟机为第二物理机上的虚拟机，第二物理机上配置有一个或多个虚拟机。第一物理机上的每个虚拟机均与第二物理机上的某一虚拟机建立心跳链路，用于传输心跳报文。下述实施例以第一虚拟机与第二虚拟机之间传输心跳报文为例，以辅助控制设备进行全局的故障检测。

S302，交换机向控制设备发送第一指示信息，控制设备接收交换机发送的第一指示信息，该第一指示信息用于指示交换机接收到第一虚拟机发往第二虚拟机的第一心跳报文。

交换机接收到心跳报文后，需要向控制设备上报心跳传输事件，以辅助控制设备检测网络中的物理机或虚拟机是否发生故障。交换机可以识别出第一心跳报文的源IP地址和目的IP地址，源IP地址即第一虚拟机的IP地址，目的IP地址及第二虚拟机的IP地址。第一指示信息中可以包括该第一心跳报文的源IP地址以及目的IP地址。

S303，若交换机在发送第一指示信息之后的预设时间段内接收到第二虚拟机发往第一虚拟机的第二心跳报文，则交换机向控制设备发送第二指示信息，第二指示信息用于指示交换机接收到第二虚拟机发往第一虚拟机的第二心跳报文，第二心跳报文是第二虚拟机根据第一心跳报文生成的。

若交换机在发送第一指示信息之后的预设时间段内未接收到第二虚拟机发往第一虚拟机的第二心跳报文，则交换机不会向控制设备发送第二指示信息。

示例性的，交换机在将第一心跳报文发送给第二虚拟机所属的第二物理机后，可以启动计时器，若在计时器结束之前接收到第二虚拟机发往第一虚拟机的第二心跳报文，则交换机需要向控制设备上报第二指示信息，指示第二虚拟机响应了心跳报文。若在计时器结束后仍未接收到第二虚拟机发往第一虚拟机的第二心跳报文，则交换机不会向控制设备上报第二指示信息，隐式指示第二虚拟机未响应心跳报文。或者，若在计时器结束后仍未接收到第二虚拟机发往第一虚拟机的第二心跳报文，则交换机向控制设备上报第三指示信息，指示第二虚拟机未响应心跳报文。

S304，若控制设备在接收到第一指示信息后的预设时间段内没有接收到交换机发送的第二指示信息，则判定第二虚拟机发生故障。

控制设备在接收到交换机发送的第一指示信息后，可以启动计时器，若在计时器结束之前接收到交换机发送的第二指示信息，则判定第二虚拟机没有发生故障。若在计时器结束后仍未接收到交换机发送的第二指示信息，则判定第二虚拟机发生故障。或者，若在计时器结束后接收到交换机发送的第三指示信息，指示第二虚拟机未响应心跳报文，则判定第二虚拟机发生故障。

上述计时器均可以是倒计时模式。倒计时的时长可以由控制设备配置。

实施本申请实施例，控制设备可以根据虚拟机之间的心跳报文从发送到响应之间的时间间隔来判断虚拟机是否存在故障，例如，若第一虚拟机向第二虚拟机发送了第一心跳报文后的预设时间段内第二虚拟机未响应心跳报文，则可以识别出第二虚拟机发生了故障，因此，可以精准检测出通信链路的故障源是否是虚拟机。

可选的，除了可以识别出故障源是否是虚拟机以外，控制设备还可以进一步识别出故障源是否是物理机。控制设备可以采用上述方式检测各个虚拟机是否发生故障，若检测到某一物理机上的全部虚拟机均发生故障，则判定是物理机出现故障。物理机出现故障即会导致该物理机上的全部虚拟机均无法正常响应心跳报文。

实施本申请实施例，控制设备根据虚拟机之间的心跳报文从发送到响应之间的时间间隔判断出某一物理机上的全部虚拟机均发生故障后，可以进一步判断出通信链路的故障源是该物理机，因此可以快速有效找到导致虚拟机之间通信链路发生故障的故障源，节省定位故障的时间。

可选的，控制设备检测出故障虚拟机或故障物理机之后，可以将发生故障的虚拟机的标识和/或物理机的标识进行汇总并输出给管理人员(或运维人员)，由管理人员对发生故障的虚拟机或物理机进行进一步检测故障原因并维修，比如如果是物理机操作***问题造成的物理机故障，则管理人员解决***问题，如果是物理机的硬件电路问题造成的物理机故障，则管理人员解决电路问题，以恢复该故障物理机的正常运行。又例如，如果是虚拟机配置问题造成的虚拟机故障，则管理人员解决该配置问题，以恢复该故障虚拟机的正常运行。

可选的，各个物理机的网段以及各个物理机上的虚拟机的IP地址可以由控制设备配置，控制设备为第一物理机上的全部虚拟机和第二物理机上的全部虚拟机分别分配IP地址，将第一物理机上的全部虚拟机的IP地址和第二物理机上的全部虚拟机的IP地址发送给交换机，第二虚拟机的IP地址用于交换机将第一心跳报文发送给第二物理机。控制设备还将第一物理机上的全部虚拟机的IP地址发送给第一物理机，将第二物理机上的全部虚拟机的IP地址发送给第二物理机。除此之外，每一虚拟机均关联了对端虚拟机，控制设备还会将第一物理机上各个虚拟机关联的虚拟机的IP地址发送给第一物理机，将第二物理机上各个虚拟机关联的虚拟机的IP地址发送给第二物理机。

为实现第一物理机与第二物理机在局域网内能够通信，控制设备需要为第一物理机和第二物理机分别配置IP子网段，并且需要保证第一物理机的IP子网段与第二物理机的IP子网段在同一网段内。例如，控制设备为第一物理机分配的IP子网段为192.168.1.X，控制设备为第二物理机分配的IP子网段为192.168.2.X，这两个子网段均位于网段192.168.X.X范围内。

进一步的，控制设备为第一物理机和第二物理机分别配置IP子网段后，还需要为第一物理机和第二物理机分配若干个虚拟机的IP地址，虚拟机的数量由控制设备决定。并配置第一物理机的每个虚拟机IP地址与第二物理机的每个虚拟机IP地址的映射表。例如，第一物理机的IP子网段为192.168.1.X，第二物理机的IP子网段为192.168.2.X，控制设备分别为第一物理机和第二物理机分配3个虚拟机的IP地址，并配置位于第一物理机中的每一个虚拟机的IP地址与第二物理机中每个虚拟机的IP地址的关联关系。这里，“关联”是指如果两个物理机上的虚拟机被分配的IP地址是关联的，则这两台虚拟机建立了心跳链路，需要互相发送并响应心跳报文。例如，IP地址映射表的格式及内容可以例如但不限于如下表1所示。

表1

可选的，控制设备为各个物理机分配了IP子网段以及为各个物理机上的虚拟机分配了IP地址映射表后，可以将IP地址映射表发送给交换机，交换机根据IP地址映射表进行报文转发。例如，控制设备发送给交换机的IP地址映射表可以例如但不限于表1所示。

此外，控制设备还需要将为各个物理机分配的IP子网段以及虚拟机的IP地址映射表发送给各个物理机。以第一物理机为例，控制设备需要将为第一物理机分配的IP子网段192.168.1.X发送给第一物理机，还需要将第一物理机上各个虚拟机的IP地址以及与其对应的虚拟机的IP地址映射表发送给第一物理机。例如，控制设备向第一物理机发送的IP地址映射表可以例如但不限于下表2所示。

表2

当然，控制设备发送给第一物理机的IP地址映射表也可以如表1所示。

相应的，控制设备需要将为第二物理机分配的IP子网段192.168.2.X发送给第二物理机以外，还需要将第二物理机上各个虚拟机的IP地址以及与其对应的虚拟机的IP地址映射表发送给第二物理机。例如，控制设备向第二物理机发送的IP地址映射表可以例如但不限于下表3所示。

表3

当然，控制设备发送给第二物理机的IP地址映射表也可以如表1所示。

可选的，物理机接收控制设备发送的IP地址映射表后，根据IP地址映射表创建虚拟机，例如，第一物理机接收到控制设备发送的如表2的IP地址映射表后，第一物理机根据表2创建3台虚拟机，分别为虚拟机1、虚拟机2和虚拟机3，并且根据控制设备为其分配的虚拟机IP地址分别为各个虚拟机分配IP地址。例如，为虚拟机1配置的IP地址为：192.168.1.102，为虚拟机2配置的IP地址为：192.168.1.68，为虚拟机3配置的IP地址为：192.168.1.94。同样的，第二物理机接收到控制设备发送的如表3所示的IP地址映射表后，根据表3创建3台虚拟机，分别为虚拟机4、虚拟机5和虚拟机6，并根据控制设备为其分配的虚拟机IP地址分别为各个虚拟机分配IP地址。例如，为虚拟机4配置的IP地址为：192.168.2.104，为虚拟机5配置的IP地址为：192.168.2.70，为虚拟机6配置的IP地址为：192.168.2.96。

可选的，第一物理机发送的第一心跳报文是第一物理机上某一虚拟机(为便于描述，以虚拟机1为例)发送给第二物理机上的某一虚拟机(为便于描述，以虚拟机4为例)的。第一物理机根据虚拟机1的IP地址和IP地址映射表将虚拟机1发送的第一心跳报文的目的IP地址设置为与虚拟机1匹配的目的IP地址。例如，第一物理机根据虚拟机1的IP地址192.168.1.102，从IP地址映射表1中确定目的IP地址192.168.2.104，第一物理机将虚拟机1发送的心跳报文的目的IP地址设置为192.168.2.104。

交换机接收到第一物理机发送的第一心跳报文后，对第一心跳报文的目的IP地址进行解析，根据IP地址映射表找到192.168.2.104地址对应的为第二物理机，然后将第一心跳报文发送给第二物理机。

实施本申请实施例，控制设备可以为网络中的各个物理机上的虚拟机分配IP地址，并发送给交换机，使得交换机可以基于各个虚拟机的IP地址对虚拟机之间传输的心跳报文进行转发处理。

可选的，第一虚拟机和第二虚拟机的关系可以是主备虚拟机，其中第一虚拟机为主虚拟机，第二虚拟机为备虚拟机。主机可以周期性向备机发送心跳报文，备机可以检测主机是否周期性发送心跳报文来识别主机是否处于正常工作状态，若备机在一段时间内未收到主机发送的心跳报文，则备机判定主机发生故障，则备机升级为主机继续执行主机的操作。

可选的，上述交换机为交换机集群中的主交换机，所述交换机集群中包括至少两台交换机，在主交换机出现故障后交换机集群中可以选举新的主交换机替换故障交换机继续与第一物理机、第二物理机和控制设备进行上述交互。

具体的，交换机集群中的交换机中存储有与主交换机相同的数据内容。

实施本申请实施例，通过主备集群的设置能够提升整个通信***的可靠性，避免数据在主交换机发生故障后丢失。

参见图4，图4示给出了一种控制设备的逻辑结构示意图，如图4所示，该控制设备400包括：接收单元401和处理单元402。

其中，接收单元401，用于接收交换机发送的第一指示信息，所述第一指示信息用于指示所述交换机接收到第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

处理单元402，用于若所述接收单元401在接收到所述第一指示信息后的预设时间段内没有接收到所述交换机发送的第二指示信息，则判定所述第二虚拟机发生故障，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。

可选的，所述处理单元402还用于：若所述处理单元402检测到所述第二物理机上的全部虚拟机均发生故障，则判定所述第二物理机发生故障。

可选的，所述处理单元402还用于：将发生故障的虚拟机的标识和/或物理机标识进行汇总并输出。

可选的，所述处理单元402还用于：在所述接收单元401接收交换机发送的第一指示信息之前，为所述第一物理机上的全部虚拟机和所述第二物理机上的全部虚拟机分别分配IP地址；

所述接收单元401，还用于将第一物理机上的全部虚拟机的IP地址和所述第二物理机上的全部虚拟机的IP地址发送给所述交换机，所述第二虚拟机的IP地址用于所述交换机将所述第一心跳报文发送给所述第二物理机。

需要说明的是，控制设备400中各个单元的功能和实现可以参考前述图3所示方法实施例中的相关描述，此次不再赘述。

参见图5，图5示给出了一种交换机的逻辑结构示意图，如图5所示，该交换机500包括：接收单元501和发送单元502。

其中，接收单元501，用于接收第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

发送单元502，用于向控制设备发送第一指示信息，所述第一指示信息用于指示所述交换机接收到所述第一虚拟机发往所述第二虚拟机的所述第一心跳报文；

所述发送单元502，还用于若所述接收单元501在所述发送单元502发送所述第一指示信息之后的预设时间段内接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，则向所述控制设备发送第二指示信息，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的所述第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。

可选的，所述接收单元501，还用于在接收第一虚拟机发往第二虚拟机的第一心跳报文之前，接收所述控制设备发送的所述第一物理机上的全部虚拟机的IP地址和所述第二物理机上的全部虚拟机的IP地址；

所述发送单元502，还用于在所述接收单元501接收第一虚拟机发往第二虚拟机的第一心跳报文之后，根据所述第二虚拟机的IP地址将所述第一心跳报文发送给所述第二物理机。

需要说明的是，交换机500中各个单元的功能和实现可以参考前述图3所示方法实施例中的相关描述，此次不再赘述。

在本申请的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如数字多功能光盘(digital versatile disc，DVD)、半导体介质(例如固态硬盘solid state disk，SSD)等。

以上所述的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

一种故障检测方法，其特征在于，包括：

控制设备接收交换机发送的第一指示信息，所述第一指示信息用于指示所述交换机接收到第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

若所述控制设备在接收到所述第一指示信息后的预设时间段内没有接收到所述交换机发送的第二指示信息，则判定所述第二虚拟机发生故障，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。
根据权利要求1所述的方法，其特征在于，还包括：

若所述控制设备检测到所述第二物理机上的全部虚拟机均发生故障，则判定所述第二物理机发生故障。
根据权利要求2所述的方法，其特征在于，还包括：

所述控制设备将发生故障的虚拟机的标识和/或物理机标识进行汇总并输出。
根据权利要求1至3任一项所述的方法，其特征在于，所述控制设备接收交换机发送的第一指示信息之前，还包括：

所述控制设备为所述第一物理机上的全部虚拟机和所述第二物理机上的全部虚拟机分别分配IP地址；

所述控制设备将第一物理机上的全部虚拟机的IP地址和所述第二物理机上的全部虚拟机的IP地址发送给所述交换机，所述第二虚拟机的IP地址用于所述交换机将所述第一心跳报文发送给所述第二物理机。
一种故障检测方法，其特征在于，包括：

交换机接收第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

所述交换机向控制设备发送第一指示信息，所述第一指示信息用于指示所述交换机接收到所述第一虚拟机发往所述第二虚拟机的所述第一心跳报文；

若所述交换机在发送所述第一指示信息之后的预设时间段内接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，则所述交换机向所述控制设备发送第二指示信息，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的所述第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。
根据权利要求5所述的方法，其特征在于，所述交换机接收第一虚拟机发往第二虚拟机的第一心跳报文之前，还包括：

所述交换机接收所述控制设备发送的所述第一物理机上的全部虚拟机的IP地址和所述第二物理机上的全部虚拟机的IP地址；

所述交换机接收第一虚拟机发往第二虚拟机的第一心跳报文之后，还包括：

所述交换机根据所述第二虚拟机的IP地址将所述第一心跳报文发送给所述第二物理机。
一种控制设备，其特征在于，包括：

接收单元，用于接收交换机发送的第一指示信息，所述第一指示信息用于指示所述交换机接收到第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

处理单元，用于若所述控制设备在接收到所述第一指示信息后的预设时间段内没有接收到所述交换机发送的第二指示信息，则判定所述第二虚拟机发生故障，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。
根据权利要求7所述的控制设备，其特征在于，所述处理单元还用于：若所述处理单元检测到所述第二物理机上的全部虚拟机均发生故障，则判定所述第二物理机发生故障。
根据权利要求8所述的控制设备，其特征在于，所述处理单元还用于：将发生故障的虚拟机的标识和/或物理机标识进行汇总并输出。
根据权利要求7或8所述的控制设备，其特征在于，所述处理单元还用于：在所述接收单元接收交换机发送的第一指示信息之前，为所述第一物理机上的全部虚拟机和所述第二物理机上的全部虚拟机分别分配IP地址；

所述接收单元，还用于将第一物理机上的全部虚拟机的IP地址和所述第二物理机上的全部虚拟机的IP地址发送给所述交换机，所述第二虚拟机的IP地址用于所述交换机将所述第一心跳报文发送给所述第二物理机。
一种交换机，其特征在于，包括：

接收单元，用于接收第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

发送单元，用于向控制设备发送第一指示信息，所述第一指示信息用于指示所述交换机接收到所述第一虚拟机发往所述第二虚拟机的所述第一心跳报文；

所述发送单元，还用于若所述接收单元在所述发送单元发送所述第一指示信息之后的预设时间段内接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，则向所述控制设备发送第二指示信息，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的所述第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。
根据权利要求11所述的交换机，其特征在于，所述接收单元，还用于在接收第一虚拟机发往第二虚拟机的第一心跳报文之前，接收所述控制设备发送的所述第一物理机上的全部虚拟机的IP地址和所述第二物理机上的全部虚拟机的IP地址；

所述发送单元，还用于在所述接收单元接收第一虚拟机发往第二虚拟机的第一心跳报文之后，根据所述第二虚拟机的IP地址将所述第一心跳报文发送给所述第二物理机。
一种控制设备，其特征在于，包括处理器、存储器和通信接口，所述处理器分别与所述存储器和所述通信接口连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如下操作：

通过所述通信接口接收交换机发送的第一指示信息，所述第一指示信息用于指示所述交换机接收到第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

若所述控制设备在接收到所述第一指示信息后的预设时间段内没有接收到所述交换机发送的第二指示信息，则所述处理器判定所述第二虚拟机发生故障，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。
根据权利要求13所述的控制设备，其特征在于，所述处理器还用于：

若所述控制设备检测到所述第二物理机上的全部虚拟机均发生故障，则判定所述第二物理机发生故障。
根据权利要求14所述的控制设备，其特征在于，所述处理器还用于：

通过所述通信接口将发生故障的虚拟机的标识和/或物理机标识进行汇总并输出。
根据权利要求13至15任一项所述的控制设备，其特征在于，所述处理器还用于：

在通过所述通信接口接收交换机发送的第一指示信息之前，为所述第一物理机上的全部虚拟机和所述第二物理机上的全部虚拟机分别分配IP地址；

通过所述通信接口将第一物理机上的全部虚拟机的IP地址和所述第二物理机上的全部虚拟机的IP地址发送给所述交换机，所述第二虚拟机的IP地址用于所述交换机将所述第一心跳报文发送给所述第二物理机。
一种交换机，其特征在于，包括处理器、存储器和通信接口，所述处理器分别与所述存储器和所述通信接口连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如下操作：

通过所述通信接口接收第一虚拟机发往第二虚拟机的第一心跳报文，所述第一虚拟机为第一物理机上配置的一个或多个虚拟机中的一个，所述第二虚拟机为第二物理机上配置的一个或多个虚拟机中的一个；

通过所述通信接口向控制设备发送第一指示信息，所述第一指示信息用于指示所述交换机接收到所述第一虚拟机发往所述第二虚拟机的所述第一心跳报文；

若所述交换机在发送所述第一指示信息之后的预设时间段内接收到所述第二虚拟机发往所述第一虚拟机的第二心跳报文，则通过所述通信接口向所述控制设备发送第二指示信息，所述第二指示信息用于指示所述交换机接收到所述第二虚拟机发往所述第一虚拟机的所述第二心跳报文，所述第二心跳报文是所述第二虚拟机根据所述第一心跳报文生成的。
根据权利要求17所述的交换机，其特征在于，所述交换机还用于：在通过所述通信接口接收第一虚拟机发往第二虚拟机的第一心跳报文之前，通过所述通信接口接收所述控制设备发送的所述第一物理机上的全部虚拟机的IP地址和所述第二物理机上的全部虚拟机的IP地址；

通过所述通信接口接收第一虚拟机发往第二虚拟机的第一心跳报文之后，还包括：

通过所述通信接口根据所述第二虚拟机的IP地址将所述第一心跳报文发送给所述第二物理机。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求5-6任一项所述的方法。