CN113055203A

CN113055203A - Sdn控制平面的异常恢复方法及装置

Info

Publication number: CN113055203A
Application number: CN201911370291.2A
Authority: CN
Inventors: 秦可; 刁拥浩; 高莉
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Chongqing Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Chongqing Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2021-06-29
Anticipated expiration: 2039-12-26
Also published as: CN113055203B

Abstract

本发明公开了一种SDN控制平面的异常恢复方法及装置，该方法包括：获取SDN网络的数据平面中各个SDN交换机的第一地址以及与各个SDN交换机直连的服务器的第二地址；根据该第二地址向各个服务器发送心跳探测请求并判断是否存在未返回心跳信息的至少一台直连于SDN交换机的服务器，若是，则在该异常不是物理网元故障时，根据各个服务器返回的心跳探测请求的请求结果更新历史的异常节点信息表；根据更新后的异常节点信息表中所有异常服务器的异常特征匹配异常恢复策略，以及该异常服务器的异常报送时间；利用该异常恢复策略对SDN控制平面执行异常恢复处理。由此可见，本发明方案，可以在SDN控制平面的策略编排或调度出现异常时，有效的进行异常恢复。

Description

SDN控制平面的异常恢复方法及装置

技术领域

本发明涉及云计算虚拟网络技术领域，具体涉及一种SDN控制平面的异常恢复方法及装置。

背景技术

软件定义网络(Software Defined Network，简称SDN网络)是近年来兴起的一种网络虚拟化架构，主要用于云资源池组网，其核心是通过将网络设备的控制面与数据面分离，从而实现网络流量的灵活控制。

SDN控制平面的核心由一个或多个SDN控制器组成，是SDN网络的大脑。一方面，SDN控制器通过南向接口协议对底层网络交换设备进行集中管理、状态监测、转发决策以处理和调度数据平面的流量。其中，策略制定是南向网络中的核心技术之一。交换机流表生成算法是影响SDN控制器智能化水平的关键因素，控制器要针对不同层次的传输需求，制定相应的转发策略并生成对应的流表项。另一方面，SDN控制器通过北向接口向上层应用开放多个层次的可编程能力，允许网络用户根据特定的应用场景灵活地制定各种网络策略。

以及，SDN数据平面的核心由多台SDN交换机组成，可以是物理交换机，也可以是虚拟交换机，是SDN策略的执行者，主要负责数据处理、转发和状态收集。

SDN网络作为云资源池的最核心部分，其可靠性直接关系着资源池的稳定性，当前SDN网络的高可用解决方案主要基于以下思路制定：

思路一，由多台SDN控制器组成控制平面，不同SDN控制器间以双活或主备方式组网，避免单台SDN控制器故障(或相关物理链路故障)导致SDN网络全局瘫痪；思路二，部署多台SDN交换机，不同SDN交换机下挂相同或不同的宿主机，加上主机虚拟化的迁移技术，避免单台SDN交换机故障(或相关物理链路故障)导致SDN网络局部瘫痪。

上述现有技术都是基于传统网络的高可用设计思路，通过网元冗余的方式加强SDN网络整体可靠性，可以提升SDN单一组件不可用，以及相关物理链路中断等场景下的云资源池稳定性，该方案的确在一定程度上能提升云资源池稳定性，但这种基于传统网络的高可用设计思路仍存在一定的局限性，具体如下：

SDN网络的核心是控制策略的编排与调度，这也是影响控制器智能化水平的关键因素，当控制平面的策略编排与调度出现异常时，SDN网络将全局瘫痪，业界也已出现多起类似重大故障，此时SDN组件往往运行正常且物理链路处于可用状态，现有技术方案难以实现该场景下的SDN高可用。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的SDN控制平面的异常恢复方法及装置。

根据本发明的一个方面，提供了一种SDN控制平面的异常恢复方法，包括：

获取SDN网络的数据平面中各个SDN交换机的第一地址以及与各个SDN交换机直连的服务器的第二地址；

根据所述第二地址向各个服务器发送心跳探测请求并判断是否存在未返回心跳信息的至少一台直连于SDN交换机的服务器，若是，则进一步判断所述SDN网络中是否存在物理网元故障；

若不存在物理网元故障，根据各个服务器返回的心跳探测请求的请求结果更新历史的异常节点信息表；

根据更新后的异常节点信息表中所有异常服务器的异常特征匹配异常恢复策略，其中，所述异常特征包括异常服务器直连于的SDN交换机的第一地址，以及所述异常服务器的异常报送时间；利用所述异常恢复策略对SDN控制平面执行异常恢复处理。

根据本发明的另一方面，提供了一种SDN控制平面的异常恢复装置，包括：

数据节点探测引擎，适于根据所述第二地址向各个服务器发送心跳探测请求并判断是否存在未返回心跳信息的至少一台直连于SDN交换机的服务器；

数据面管理模块，适于获取SDN网络的数据平面中各个SDN交换机的第一地址以及与各个SDN交换机直连的服务器的第二地址；若存在未返回心跳信息的至少一台直连于SDN交换机的服务器，进一步判断所述SDN网络中是否存在物理网元故障；以及，若不存在物理网元故障，根据各个服务器返回的心跳探测请求的请求结果更新历史的异常节点信息表；

控制状态分析模块，适于根据更新后的异常节点信息表中所有异常服务器的异常特征匹配异常恢复策略，其中，所述异常特征包括异常服务器直连于的SDN交换机的第一地址，以及所述异常服务器的异常报送时间；

自愈执行模块，适于利用所述异常恢复策略对SDN控制平面执行异常恢复处理。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述SDN控制平面的异常恢复方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述SDN控制平面的异常恢复方法对应的操作。

根据本发明的SDN控制平面的异常恢复方法及装置，通过获取SDN网络中各个SDN交换机的第一地址以及该各个SDN交换机直连的服务器的第二地址，并向第二地址发送心跳探测请求以确定各个SDN交换机的转发功能的异常与否，进而可确定出SDN网络是否存在异常；以及，在判定存在异常，且该异常不为物理网元故障引起的异常时，通过更新历史的异常节点信息表，并根据异常节点信息表中所有异常服务器的异常特征匹配到相应程度的恢复策略，进而可完成控制平面的策略编排与调度异常时的有效恢复。由此可见，本实施例方案，在SDN控制平面的策略编排与调度出现异常时，为SDN网络提供一种自愈能力，实现SDN网络的高可用。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明SDN控制平面的异常恢复方法实施例的流程图；

图2示出了SDN控制平面的异常恢复装置的架构示意图；

图3示出了本发明SDN控制平面的异常恢复方法另一个实施例的流程图；

图4示出了一个具体示例中数据同步驱动和SDN业务管理模块之间数据传送的示意图；

图5示出了一个具体实施例中数据节点探测引擎与数据面控制模块之间的数据同步示意图；

图6示出了业务面一级自愈措施的执行过程示意图；

图7示出了一个具体示例中异常恢复的异常节点信息表和资源策略下发记录的示意图；

图8是示出了利用SDN控制平面的异常恢复装置实施异常恢复方案的一般流程；

图9示出了本发明SDN控制平面的异常恢复装置实施例的结构示意图；

图10示出了本发明计算设备实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明SDN控制平面的异常恢复方法实施例的流程图，该方法应用于SDN控制平面的异常恢复装置中，该装置专用于对SDN控制平面的策略编排与调度异常进行检测和恢复，该装置的具体结构可参见下文中装置实施例的说明。如图1所示，该方法包括以下步骤：

步骤S110：获取SDN网络的数据平面中各个SDN交换机的第一地址以及与各个SDN交换机直连的服务器的第二地址。

其中，在SDN网络中，数据平面的每台SDN交换机具有至少一台与之直连的服务。

步骤S120：根据该第二地址向各个服务器发送心跳探测请求并根据各个服务器返回的心跳探测请求的请求结果判断SDN网络是否存在异常，若是，则进一步判断该SDN网络中是否存在物理网元故障。

在获取到服务器的第二地址后，则可通过向第二地址发送心跳探测请求来探测服务器的心跳情况，若SDN交换机的组案发功能正常，则与之直连的服务器会返回心跳信息，反之，则无法返回心跳信息。

以及，本实施例方案主要针对的是当出现非物理原因导致的业务网数据转发失败时的异常，即SDN控制平面的策略编排与调度出现异常，该异常通常是由应用平面数据错误、应用调度模板不匹配、控制器策略制定失误、南北向接口的功能失效、流表运行异常等原因引起的，此时往往不会出现物理网元故障。基于此，当存在至少一台服务器未返回心跳信息时，则判定SDN网络中存在异常，则进一步判定该异常是否由物理网元故障引起。

步骤S130：若不存在物理网元故障，根据各个服务器返回的心跳探测请求的请求结果更新历史的异常节点信息表。

若不存在物理网元故障，则表明是SDN控制平面的策略编排与调度出现异常，此时则对历史的异常节点信息表进行更新，其中，历史的异常节点信息表中记录的是历史确定的异常服务器(即未返回心跳信息的服务器)的相关信息，此次更新则是将新增的异常服务器的相关信息添加到历史的异常节点信息表中，以及将恢复正常的异常服务器从历史的异常节点信息表中删除。

步骤S140：根据更新后的异常节点信息表中所有异常服务器的异常特征匹配异常恢复策略，其中，所述异常特征包括异常服务器直连于的SDN交换机的第一地址，以及所述异常服务器的异常报送时间；利用该异常恢复策略对SDN控制平面执行异常恢复处理。

其中，异常特征中的第二地址可指向唯一的异常服务器，以及第一地址可反映出所有异常服务器是否直连于同一SDN交换机，以及异常报送时间则可反映出发现相应服务器异常的最早时间。基于上述异常特征，可确定出异常所涉及的SDN交换机的范围以及异常开始的时间，即可以确定异常的严重程度，进而可匹配出相适应的异常恢复策略，以对SDN网络进行异常恢复处理，以恢复SDN网络的正常运行。

根据本实施例提供的SDN控制平面的异常恢复方法，通过获取SDN网络中各个SDN交换机的第一地址以及该各个SDN交换机直连的服务器的第二地址，并向第二地址发送心跳探测请求以确定各个SDN交换机的转发功能的异常与否，进而可确定出SDN网络是否存在异常；以及，在判定存在异常，且该异常不为物理网元故障引起的异常时，通过更新历史的异常节点信息表，并根据异常节点信息表中所有异常服务器的异常特征匹配到相应程度的恢复策略，进而可完成控制平面的策略编排与调度异常时的有效恢复。由此可见，本实施例方案，在SDN控制平面的策略编排与调度出现异常时，为SDN网络提供一种自愈能力，实现SDN网络的高可用。

在对下文中的SDN控制平面的异常恢复方法的实施例进行说明之前，先对SDN网络以及SDN控制平面的异常恢复装置的架构进行介绍，以便于下文中结合SDN控制平面的异常恢复装置对相应本实施例方案进行详细说明。图2示出了SDN控制平面的异常恢复装置的架构示意图。如图2所示，深色部分表示SDN网络自有功能(不同的SDN解决方案在模块描述及模块功能切分上略有不同)，浅色部分表示SDN控制平面自愈装置(以下简称自愈装置，该装置即为SDN控制平面的异常恢复装置，下文中各图中均相同)的组成模块。SDN网络中应用平面、控制平面、数据平面的内部通讯，以及各平面之间通信均通过业务网络实现；SDN网络中各平面与自愈装置之间的通信通过管理网络。下面简略说明自愈装置各模块的功能：

数据同步驱动(应用平面)：监听应用平面SDN业务模型数据(主机信息、QoS策略、ACL策略、状态策略、二层网络数据、三层网络数据等)，形成业务日志，准实时传送给SDN业务管理模块；

应用自愈引擎(控制平面)：针对SDN应用实施自愈方案；

控制器自愈引擎(控制平面)：针对SDN控制器实施不同自愈方案；

交换机自愈引擎(数据平面)：针对SDN交换机实施不同自愈方案；

数据节点探测引擎(数据平面)：向数据面管理模块上报本节点基本信息，获取其它节点信息，与其它节点通过心跳报文探测SDN交换机转发功能，并将探测情况上报数据面管理模块；

SDN业务管理模块：接收来自数据同步驱动的数据并保存，可与SDN控制器基于北向接口通信，异常情况下接管SDN控制器；

数据面管理模块：接收来自数据节点探测引擎的信息，并将控制平面的异常情况反馈控制状态分析模块；

控制状态分析模块：根据数据面管理模块反馈的信息，分析并制定自愈策略，下发自愈执行模块；

自愈执行模块：根据自愈策略，通知相关模块执行对应方案；

告警模块：通过邮件、短信、语音等方式向管理员发出告警信息。

下面结合上述SDN控制平面的异常恢复装置来详细说明本发明的优选实施例方案：

图3示出了本发明SDN控制平面的异常恢复方法另一个实施例的流程图。该方法应用于SDN控制平面的异常恢复装置中，该装置专用于对SDN控制平面的策略编排与调度异常进行检测和恢复，如图3所示，该方法包括以下步骤：

步骤S310：对SDN网络中应用平面的SDN业务模型数据进行同步处理。

按照SDN网络的实现原理，当出现SDN业务请求时(如新增虚拟机、网卡配置变更、ACL策略设置、QoS策略设定等等)，应用平面通过预定的业务模板将需要请求的网络行为提交给SDN控制器，由SDN控制器将其抽象为转发模型，形成包含MAC信息、MPLS标签、路由信息、ACL访问控制信息等要素的流表，并下发至各SDN交换机，由SDN交换机按照流表进行转发。

在本实施例中，对应用平面中的SDN业务模板的调用进行同步，以在异常情况下通过该同步的数据使SDN网络保持正常运行。

具体地，监听SDN网络的应用平面中SDN业务模块的调用请求；其中，该调用请求包括主机信息、QoS策略、ACL策略、状态策略、二层网络数据和/或三层网络数据；在该调用请求上添加序列号与时间戳后同步至临时表中；根据临时表中同步数据的序列号和时间戳定期将临时表中N+M时间之前的同步数据，按照序列号的先后顺序逐一进行解析处理，其中，N表示SDN网络流表老化时间，M表示流表老化至发现SDN异常的预估时间；将解析结果更新至数据表中并删除临时表中的对应数据。该数据表中的数据可用于使SDN网络中的进程、数据均恢复至N+M时间前SDN网络正常运行时的状态，可确保此时SDN网络的正常运行。

其中，在利用SDN控制平面的异常恢复装置执行本实施例方案时，设置于应用平面的数据同步驱动通过监听SDN业务模板的调用，将网络行为请求加上序列号与时间戳，异步传送至SDN业务管理模块。图4示出了一个具体示例中数据同步驱动和SDN业务管理模块之间数据传送的示意图。如图4所示，第一条同步数据表示2019年10月1日12点22分34秒时，应用APP1发起一条SDN业务请求，为主机VM1新建一个编号为20010的子网，网段为192.168.1.0/24。然后，SDN业务管理模块接收该同步数据，并保存在临时表中；SDN业务管理模块定期将临时表中N+M时间之前的同步数据，按照序列号的先后顺序逐一解析，并更新至对应的数据表，同时删除临时表中的对应数据。其中，N和M可按需自行设置，在某些控制平面失效场景下，SDN控制器不能向SDN交换机下发流表，原SDN交换机的正确流表在老化前依然可提供转发服务；最极端的情况，在流表老化以后才能发现SDN异常，该处的N+M设定是为了保证自愈策略的有效性。

步骤S320：获取SDN网络的数据平面中各个SDN交换机的第一地址以及与各个SDN交换机直连的服务器的第二地址。

其中，在利用SDN控制平面的异常恢复装置执行本实施例方案时，在每台SDN交换机直连的服务器上部署数据节点探测引擎，当数据节点探测引擎启动时，通过管理网向数据面管理模块报送该数据节点探测引擎所在的服务器的第二地址，以及报送该数据节点探测引擎所在的服务器直连于的SDN交换机的第一地址。其中，数据节点探测引擎会定期进行路由检测，在发现其直连于的SDN交换机地址发生切换时，主动上报给数据面管理模块。

步骤S330：根据该第二地址向各个服务器发送心跳探测请求并判断是否存在未返回心跳信息的至少一台直连于SDN交换机的服务器，若是，则进一步判断该SDN网络中是否存在物理网元故障。

具体地，若判定出不存在物理网元故障，则表明是SDN控制平面的策略编排与调度出现了异常，则执行步骤S340至步骤S260进行异常恢复；反之，若判定出该SDN网络中存在物理网元故障，则发送异常告警信息并标记未返回心跳信息的服务器退服，并向所有数据节点推送全量节点IP地址信息。

其中，在利用SDN控制平面的异常恢复装置执行本实施例方案时，数据面管理模块根据多个数据节点探测引擎上报的节点信息(即第一地址和第二地址)确定是否出现数据节点(可理解为服务器，下同)新增或退服的情况，若出现，则主动向所有数据节点推送全量节点的第二地址的节点列表；以及，数据节点探测引擎根据数据面管理模块提供的节点列表，向所有其它数据节点的探测引擎发出心跳探测请求，并接收其反馈信息；如果在设定时间内无法收到某数据节点的反馈心跳，则表示该数据节点直连的SDN交换机的转发功能异常，若在设定时间内收到某数据节点的反馈心跳，则表示该数据节点直连的SDN交换机的转发功能正常，基于此，向数据面管理模块上报各个数据节点正常与否的信息，其中，主要包括服务器的第二地址，服务器的标记状态，和/或发现异常的异常时间。相应的，数据面管理模块可根据数据节点探测引擎上报的信息得到需要更新的异常信息。

图5示出了一个具体实施例中数据节点探测引擎与数据面控制模块之间的数据同步示意图。如图5所示，数据节点探测引擎将IP(服务器的第二地址)和主SDN的IP(该服务器直连于的SDN交换机的第一地址)上报给数据面管理模块，而数据面管理模块则将多个数据节点探测引擎上报的服务器的第二地址组成的节点列表返回给各个数据节点探测引擎，以供数据节点探测引擎据此节点列表向其它数据节点探测引擎发送心跳探测请求，以确认其它服务器直连的SDN交换机的转发功能是否异常。

步骤S340：若不存在物理网元故障，根据各个服务器返回的心跳探测请求的请求结果更新历史的异常节点信息表。

具体地，针对任一未返回心跳信息的服务器，判断历史的异常节点信息表中是否包含有该服务器；若不包含，则将该服务器的异常特征添加至异常节点信息表，若服务器未返回心跳信息，且又未记录在历史的异常节点信息表中，则表明为新增的异常，将其添加至异常节点信息表中，以便后续匹配相应的恢复策略。反之，若服务器未返回心跳信息，但是该服务器的异常特征已在异常节点信息表中有记录，则表明该异常为历史已发生但仍未恢复的情况，则无需重复记载。和/或，针对任一返回心跳信息的服务器，判断历史的异常节点信息表中是否包含有该服务器；若包含，则将该服务器的异常特征从异常节点信息表中删除，若服务器返回了心跳信息，则表明该服务器直连的SDN交换机的转发功能正常，与此同时，若异常节点信息表中记录有该服务器的异常特征，则表明该服务器在历史探测过程中被标记为异常，进而可以确定该种情况为该服务器直连的交换机的转发功能由异常恢复正常的情况，将该服务器的异常特征从异常节点信息表中删除。通过上述具体的判断及更新的方式，可以确保异常节点信息表中的异常特征记录的准确性。

其中，在利用SDN控制平面的异常恢复装置执行本实施例方案时，数据面管理模块在接收到数据节点探测引擎返回的服务器是否异常的相关信息后，将历史的异常节点信息表中恢复正常的服务器的信息删除，以及将新增的异常服务器(在本实施例中，将直连的SDN交换机的转发功能存在异常的服务器记为异常服务器)的相关信息添加至异常节点信息表中，其中，异常服务器的相关信息包括异常服务器的第二地址，所述异常服务器直连于的SDN交换机的第一地址，以及所述异常服务器的异常报送时间。可选的，由数据节点探测引擎对探测结果进行一定的判断，如果发现未收到心跳信息的节点已标记异常，则不再向数据面管理模块上报，进而避免在异常节点信息表中的重复记录；如果收到已标记异常的数据节点的心跳信息，则向数据面管理模块上报，以供数据面管理模块取消异常节点信息表中的该数据节点的记录。

另外，在本发明的一些可选的实施例中，若判定出不存在物理网元故障，则检测此次异常是否为SDN网络由正常状态首次进入的异常，若是，则停止该解析处理。其中，若判定出不存在物理网元故障，则认为是SDN控制平面的控制策略的编排与调度异常，为了确保可以恢复到异常之前的正常运行状态，则需停止对临时表中的同步数据的解析，使得解析出的数据为SDN正常运行时监听到的数据。通常来讲，在每次SDN网络由正常运行状态变为SDN控制平面的控制策略的编排与调度异常状态时(即首次发现异常)，则停止解析，在此后过程中，直至所有的数据节点均恢复正常，即SDN网络又恢复到正常状态，则恢复解析。举例来说，第0秒时SDN网络正常，第1秒时进行探测发现有服务器1未返回心跳信息，则该次探测的异常可认为是首次进入的异常，第2秒时进行探测发现服务器2未返回心跳信息，则该次探测的异常不能认为是首次进入的异常，后续只要SDN网络未恢复正常，则探测到的异常均不能认为是首次进入的异常，直至SDN网络恢复正常后，则再次循环。

其中，在利用SDN控制平面的异常恢复装置执行上述可选实施例方案时，控制状态分析模块在收到数据面管理模块发送的首次进入的异常的异常节点信息表时，立即通知SDN业务管理模块停止解析临时表中的同步数据。

步骤S350：根据更新后的异常节点信息表中所有异常服务器的异常特征匹配异常恢复策略，其中，该异常特征包括异常服务器直连于的SDN交换机的第一地址，以及该异常服务器的异常报送时间。

具体地，判断该更新后的异常节点信息表中所有异常服务器直连于的SDN交换机的第一地址是否相同，其中，异常服务器直连于的SDN交换机的第一地址相同，则转发功能异常的为同一SDN交换机，此时SDN控制平面的控制策略的编排与调度异常程度还较轻，反之，若不同，则异常程度更严重；以及，将所有异常服务器的异常报送时间中距离当前最远的异常报送时间与预设时间区间进行匹配，确定最早的异常报送时间所属时间区间，其中，最早的异常报送时间所属的时间区间越晚，则出现异常的时间较短，异常程度越轻，例如，5分钟之前出现异常的情况相较于1分钟之前出现异常的情况更严重。根据该第一地址是否相同的判定结果以及该最早的异常报送时间所属时间区间匹配异常恢复策略，其中，可依据第一地址是否相同的判定结果以及该最早的异常报送时间对应的异常严重程度匹配相对应的异常恢复策略，并且，该异常恢复策略通常包括控制北向应用接口、北向控制接口、南向控制接口、南向数据平面接口、SDN控制器和/或SDN交换机重启，和/或包括清空转发表的策略，以实现有针对性的准确恢复。

其中，在利用SDN控制平面的异常恢复装置执行本实施例方案时，数据面管理模块将更新得到的异常节点信息表反馈给控制状态分析模块；控制状态分析模块收到异常节点信息后，记录并分析当前所有异常特征，包括进行第一地址相同与否的判定，以及进行时间区间的匹配，并匹配对应的异常恢复策略，然后通知自愈执行模块实施自愈(在本文中，自愈即为恢复)，同时，通过告警模块向管理员发出相关异常告警。

另外，除新增异常节点和/或异常节点恢复时数据面管理模块会主动向控制状态分析模块反馈更新的异常节点信息表外，控制状态分析模块会定期扫描异常节点信息表，以根据当前的时间变化以及异常节点信息表中的异常报送时间更新自愈策略，例如，随着时间的后移，最早的异常报送时间所属的时间区间发生改变，则与之匹配的自愈策略也可能发生更新，通过这种方式，可提高控制状态分析模块匹配自愈策略的准确性。并且，控制状态分析模块收到数据面管理模块发出的异常节点恢复正常的反馈(可以是数据节点探测引擎反馈给数据面管理模块后进一步反馈给控制状态分析模块的)以后，将更新自愈策略下发记录中相应自愈策略的执行结果为已恢复。

步骤S360：若该第一地址相同或者第一地址不同，且该最早的异常报送时间所属时间区间为第一设定时间区间，则控制该SDN网络中SDN控制器的北向控制接口指向该数据表，并将该数据表中的解析结果经由该北向控制接口提供给SDN控制器。

其中，第一设定时间区间为一个距离当前较远的时间，若最早的异常报送时间在该第一设定时间区间，则需从SDN网络的业务面开始进行恢复，并且需要利用步骤S310中持续同步的同步数据来替代业务面的功能进行恢复，以确保恢复后的正常运行。

具体地，若该第一地址相同或者第一地址不同，且该最早的异常报送时间所属时间区间为第一设定时间间隔之前，则断开SDN控制器的北向控制接口与SDN应用平面的各个SDN应用之间的接通，而使SDN控制器的北向控制接口指向存储解析后的数据的数据表，进而可以由该数据表向SDN控制器提供N+M时间之前的正常数据，确保此时SDN网络的正常运行。

其中，在利用SDN控制平面的异常恢复装置执行本实施例方案时，控制状态分析模块在匹配得到异常恢复策略后，通知自愈执行模块执行该匹配得到的异常恢复策略，自愈执行模块通知SDN业务管理模块启动SDN北向应用接口，并通过控制器自愈引擎将SDN控制器的北向控制接口指向SDN业务管理模块。该异常恢复策略即为下文中的业务面一级自愈措施。图6示出了业务面一级自愈措施的执行过程示意图。如图6所示，启动SDN业务管理模块的SDN北向应用接口，并将SDN控制器的北向控制接口指向SDN业务管理模块。

需要在此说明的是，虽然步骤S360中仅说明了一种异常恢复策略的执行，但是实际实施时，根据该第一地址是否相同的判定结果以及该最早的异常报送时间所属时间区间匹配得到的异常恢复策略有多种情况，相应的，则恢复方式也不同，下面列举实际实施过程中几种可能的判定结果和时间区间结果，以及对应匹配的异常恢复策略：

情况一，第一地址相同的情况，该情况又包括以下子情况：

子情况1，最早的异常报送时间所属的时间区间为设定时间T2以内，此时匹配的异常恢复策略为数据面二级自愈措施；

子情况2，最早的异常报送时间所属的时间区间为超出设定时间T2但在设定时间T1以内，此时匹配的异常恢复策略为数据面一级自愈措施；

子情况3，最早的异常报送时间所属的时间区间为超出设定时间T1但在设定时间T0以内，此时匹配的异常恢复策略为业务面二级自愈措施；

子情况4，最早的异常报送时间所属的时间区间为超出设定时间T0，此时匹配的异常恢复策略为业务面一级自愈措施；

情况二，第一地址不相同的情况，该情况又包括以下子情况：

子情况1，最早的异常报送时间所属的时间区间为设定时间T3以内，此时匹配的异常恢复策略为控制面三级自愈措施；

子情况2，最早的异常报送时间所属的时间区间为超出设定时间T3但在设定时间T2以内，此时匹配的异常恢复策略为控制面二级自愈措施；

子情况3，最早的异常报送时间所属的时间区间为超出设定时间T2但在设定时间T1以内，此时匹配的异常恢复策略为控制面一级自愈措施；

子情况4，最早的异常报送时间所属的时间区间为超出设定时间T1但在设定时间T0以内，此时匹配的异常恢复策略为业务面二级自愈措施；

子情况5，最早的异常报送时间所属的时间区间为超出设定时间T0，此时匹配的异常恢复策略为业务面一级自愈措施。

在上述多种情况中，T3<T2<T1<T0，具体各设定时间的取值可根据实际情况设置，例如，T3为0.5分钟，T2为1分钟，T1为5分钟，T0为10分钟；以及，在上述多种情况中，情况一的子情况4和情况二的子情况5为步骤S360中的情况，即最严重的异常情况，异常恢复策略的具体内容可参见上述步骤S360的说明，而其余几种异常恢复措施的内容具体如下：

策略一，数据面二级自愈：控制异常节点信息表中包含的第一地址对应的SDN交换机重启南向数据平面接口，并清空转发表；其中，在利用SDN控制平面的异常恢复装置进行恢复时，自愈执行模块通知异常节点信息表中包含的第一地址对应的SDN交换机的交换机自愈引擎重启南向数据平面接口，并清空转发表；

策略二，数据面一级自愈：控制异常节点信息表中包含的第一地址对应的SDN交换机重启；其中，在利用SDN控制平面的异常恢复装置进行恢复时，自愈执行模块通过管理网重启异常节点信息表中包含的第一地址对应的SDN交换机；

策略三，控制面三级自愈：控制所有SDN控制器的南向控制接口和北向控制接口重启，并清空转发表；其中，在利用SDN控制平面的异常恢复装置进行恢复时，自愈执行模块通知所有控制器的控制器自愈引擎重启南向控制接口和北向控制接口，并清空转发表；

策略四，控制面二级自愈：控制所有SDN交换机的南向数据接口重启，并清空转发表；其中，在利用SDN控制平面的异常恢复装置进行恢复时，自愈执行模块通知所有交换机自愈引擎重启南向数据平面接口，并清空转发表；

策略五，控制面一级自愈：控制所有SDN控制器和所有SDN交换机重启；其中，在利用SDN控制平面的异常恢复装置进行恢复时，自愈执行模块通过管理网重启所有SDN控制器和所有SDN交换机；

策略六，业务面二级自愈：控制北向应用接口重启；其中，在利用SDN控制平面的异常恢复装置进行恢复时，自愈执行模块通知应用自愈引擎重启北向应用接口；

策略七，业务面一级自愈(略，可参见图6及对应的说明)。

通过上述异常恢复策略，并利用应用自愈引擎、控制器自愈引擎、交换机自愈引擎以及自愈执行模块来实现针对性的恢复。

另外，在利用SDN控制平面的异常恢复装置执行本实施例方案时，控制状态分析模块在匹配出上述任一自愈策略后，会判断该策略的历史下发及执行情况，如有已下发但尚未恢复的记录则不再通知自愈执行模块实施。

同时，需要在此强调的是，如果在未通知实施业务面一级自愈措施前，所有数据节点均已恢复正常，则通知SDN业务管理模块恢复解析临时表中的同步数据。如控制状态分析模块在通知实施业务面一级自愈措施后，无论是否恢复正常，均不能自动恢复解析临时表中的同步数据，在判断原因并排除后手动恢复。通过这种方式，可以确保SDN业务管理模块解析得到的数据的正确性。

为了便于对本实施例的实施过程的理解，下面以一个具体的举例进行说明：图7示出了一个具体示例中异常恢复的异常节点信息表和资源策略下发记录的示意图。如图7所示，假设除数据面管理模块上报更新的异常节点信息表而触发控制状态分析模块进行匹配及下发之外，控制状态分析模块还会定期(例如每分钟的0秒)扫描异常节点信息表并进行匹配及下发，并假设T2为1分钟，T1为5分钟，T0为10分钟，在异常节点10.10.1.3报送异常时，控制状态分析模块发现当前仅一条异常节点记录，此时首次发现异常，所属时间区间必然在1分钟以内，则下发数据面二级自愈策略；随后，在异常节点10.10.1.8报送异常时，特征为两台异常节点属于同一个SDN交换机，且该SDN交换机的异常节点最早的异常报送时间12:20:18距离当前时间12:20:45的时间间隔为27秒，未超过1分钟，应下发数据面二级自愈策略，但发现之前已下发相同策略且并未收到恢复信息，故本次不下发；此后12:21：00、12:22:00、12:23:00、12:24:00、12:25:00、12:26:00、12:27:00、12:28:00该8个分钟的第0秒控制状态分析模块均会进行一次扫描与匹配，其中，在12:22:00时刻时发现最早的异常报送时间12:20:18距离当前时间的时间间隔炒股1分钟，但位于5分钟内，此时下发数据面一级自愈策略，以及在12:26:00时刻时发现最早的异常报送时间12:20:18距离当前的时间间隔超过5分钟，但位于10分钟之内，此时下发业务面二级自愈策略；此后，以此类推，可得到如图中的自愈策略下发记录。

图8是示出了利用SDN控制平面的异常恢复装置实施异常恢复方案的一般流程，如图8所示，通过数据节点探测引擎发起SDN交换机的转发功能的探测，若存在功能异常，则上数据面管理模块上报；若数据面管理模块判定出该异常为非物理网元异常，则将控制状态分析模块上报该异常节点信息表，并通过控制状态分析模块分析异常节点信息表中的异常特征，匹配相应的异常恢复策略，然后通知自愈执行模块执行该异常恢复策略。

需要在此说明的是，在上述实施例中，虽然是以SDN控制平面的异常恢复装置划分为多个模块分别执行该SDN控制平面的异常恢复方法的各个步骤来进行说明的，但是实际实施时，并不以上述划分为限，可选的，也可以将一个或多个模块进行合并或拆分。

根据本实施例提供的SDN控制平面的异常恢复方法，至少可以实现以下技术效果：其一，现有技术方案基于传统网络的高可用设计思路，只能解决SDN单一组件不可用，以及相关物理链路中断等场景下的SDN高可用问题，本实施例则针对SDN核心特征进行高可用设计，可以解决控制平面的策略编排与调度异常情况下的高可用问题，弥补了该领域的空白；其二，现有技术方案不能实现控制平面的策略编排与调度异常的检测，本实施例基于流表有效性实现了对策略编排与调度异常的检测，可以及时发现SDN控制平面的异常；其三，现有技术方案不能解决数据错误导致SDN网络不可用场景下的自动恢复，本实施例结合流表老化原理，实现了基于时间轴的SDN网络容灾自动切换能力，可以确保SDN网络自动恢复至特定时间的可用状态。

图9示出了本发明SDN控制平面的异常恢复装置实施例的结构示意图。

如图9所示，该装置包括：

数据节点探测引擎910，适于根据所述第二地址向各个服务器发送心跳探测请求并判断是否存在未返回心跳信息的至少一台直连于SDN交换机的服务器；

数据面管理模块920，适于获取SDN网络的数据平面中各个SDN交换机的第一地址以及与各个SDN交换机直连的服务器的第二地址；若存在未返回心跳信息的至少一台直连于SDN交换机的服务器，进一步判断所述SDN网络中是否存在物理网元故障；以及，若不存在物理网元故障，根据各个服务器返回的心跳探测请求的请求结果更新历史的异常节点信息表；

控制状态分析模块930，适于根据更新后的异常节点信息表中所有异常服务器的异常特征匹配异常恢复策略，其中，所述异常特征包括异常服务器直连于的SDN交换机的第一地址，以及所述异常服务器的异常报送时间；

自愈执行模块940，适于利用所述异常恢复策略对SDN控制平面执行异常恢复处理。

在一种可选的方式中，所述数据节点探测引擎进一步适于：

针对任一未返回心跳信息的服务器，判断历史的异常节点信息表中是否包含有该服务器；和/或，针对任一返回心跳信息的服务器，判断历史的异常节点信息表中是否包含有该服务器；

所述数据面管理模块进一步适于：若历史的异常节点信息表中不包含未返回心跳信息的服务器，则将该服务器的异常特征添加至异常节点信息表；和/或，若历史的异常节点信息表中包含有返回心跳信息的服务器，则将该服务器的异常特征从异常节点信息表中删除。

在一种可选的方式中，所述装置还包括：告警模块，适于若判定出所述SDN网络中存在物理网元故障，则发送异常告警信息；

所述数据面管理模块进一步适于：若判定出所述SDN网络中存在物理网元故障，标记未返回心跳信息的服务器退服。

在一种可选的方式中，所述控制状态分析模块进一步适于：

判断所述更新后的异常节点信息表中所有异常服务器直连于的SDN交换机的第一地址是否相同；以及，将所有异常服务器的异常报送时间中距离当前最远的异常报送时间与预设时间区间进行匹配，确定最早的异常报送时间所属时间区间；

根据所述第一地址是否相同的判定结果以及所述最早的异常报送时间所属时间区间匹配异常恢复策略。

在一种可选的方式中，所述装置还包括：数据同步驱动，适于监听SDN网络的应用平面中SDN业务模块的调用请求；在所述调用请求上添加序列号与时间戳后同步至临时表中；

SDN业务管理模块，适于根据临时表中同步数据的序列号和时间戳定期将临时表中N+M时间之前的同步数据，按照序列号的先后顺序逐一进行解析处理，其中，N表示SDN网络流表老化时间，M表示流表老化至发现SDN异常的预估时间；将解析结果更新至数据表中并删除临时表中的对应数据。

在一种可选的方式中，所述控制状态分析模块进一步适于：

若判定出不存在物理网元故障，则检测此次异常是否为SDN网络由正常状态首次进入的异常，若是，则通知SDN业务管理模块停止该解析处理。

在一种可选的方式中，所述自愈执行模块进一步适于：

若所述第一地址相同或者第一地址不同，且所述最早的异常报送时间所属时间区间为第一设定时间区间，则控制所述SDN网络中SDN控制器的北向控制接口指向所述数据表，并将所述数据表中的解析结果经由所述北向控制接口提供给SDN控制器。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的SDN控制平面的异常恢复方法。

图10示出了本发明计算设备实施例的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图10所示，该计算设备可以包括：处理器(processor)102、通信接口(Communications Interface)104、存储器(memory)106、以及通信总线108。

其中：处理器102、通信接口104、以及存储器106通过通信总线108完成相互间的通信。通信接口104，用于与其它设备比如客户端或其它服务器等的网元通信。处理器102，用于执行程序100，具体可以执行上述用于计算设备的SDN控制平面的异常恢复方法实施例中的相关步骤。

具体地，程序100可以包括程序代码，该程序代码包括计算机操作指令。

处理器102可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器106，用于存放程序100。存储器106可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序100具体可以用于使得处理器102执行以下操作：

在一种可选的方式中，所述程序100使所述处理器执行以下操作：

针对任一未返回心跳信息的服务器，判断历史的异常节点信息表中是否包含有该服务器；若不包含，则将该服务器的异常特征添加至异常节点信息表；和/或，

针对任一返回心跳信息的服务器，判断历史的异常节点信息表中是否包含有该服务器；若包含，则将该服务器的异常特征从异常节点信息表中删除。

在一种可选的方式中，所述程序100使所述处理器执行以下操作：发送异常告警信息并标记未返回心跳信息的服务器退服。

监听SDN网络的应用平面中SDN业务模块的调用请求；在所述调用请求上添加序列号与时间戳后同步至临时表中；

根据临时表中同步数据的序列号和时间戳定期将临时表中N+M时间之前的同步数据，按照序列号的先后顺序逐一进行解析处理，其中，N表示SDN网络流表老化时间，M表示流表老化至发现SDN异常的预估时间；

将解析结果更新至数据表中并删除临时表中的对应数据。

若判定出不存在物理网元故障，则检测此次异常是否为SDN网络由正常状态首次进入的异常，若是，则停止该解析处理。

在此提供的算法或显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种SDN控制平面的异常恢复方法，包括：

2.根据权利要求1所述的方法，其中，所述根据各个服务器返回的心跳探测请求的请求结果更新历史的异常节点信息表进一步包括：

3.根据权利要求1所述的方法，其中，若判定出所述SDN网络中存在物理网元故障，则所述方法还包括：发送异常告警信息并标记未返回心跳信息的服务器退服。

4.根据权利要求1-3任一项所述的方法，其中，所述根据更新后的异常节点信息表中所有异常服务器的异常特征匹配异常恢复策略进一步包括：

5.根据权利要求4所述的方法，其中，所述方法还包括：

将解析结果更新至数据表中并删除临时表中的对应数据。

6.根据权利要求5所述的方法，其中，在所述判断所述SDN网络中是否存在物理网元故障之后，所述方法还包括：

7.根据权利要求6所述的方法，其中，所述利用所述异常恢复策略对SDN控制平面执行异常恢复处理具体为：

8.一种SDN控制平面的异常恢复装置，包括：

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的SDN控制平面的异常恢复方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的SDN控制平面的异常恢复方法对应的操作。