CN112769605A

CN112769605A - 一种异构多云的运维管理方法及混合云平台

Info

Publication number: CN112769605A
Application number: CN202011626292.1A
Authority: CN
Inventors: 殷炜; 卢彦魁; 陶鸿飞; 刘甦晓; 顾建国
Original assignee: Hangzhou Eastcom Software Technology Co ltd
Current assignee: Hangzhou Eastcom Software Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-07
Anticipated expiration: 2040-12-30
Also published as: CN112769605B

Abstract

本发明涉及一种基于异构多云的智慧运维管理方法，方法包括：采集混合云平台上的异常信息；根据异常信息确定初始异常云资源，初始异常云资源为异常信息所对应的云资源；针对初始异常云资源，对初始异常云资源对应的异常信息进行多维态势感知，确定在混合云平台上发生的至少一个异常事件；确定至少一个异常事件所对应的处理规则；根据处理规则进行故障预处理，恢复初始异常云资源。通过将多个不同的云平台接入混合云平台，可以使用户通过混合云平台更加直观的了解不同云平台的资源。用户通过混合云平台对多个不用云平台上的业务信息进行管理，使得云平台上的故障可以更加快速的进行跨云定界、定位和预处理，大大提升了运维和故障处理的效率。

Description

一种异构多云的运维管理方法及混合云平台

技术领域

本发明涉及网管支撑领域，尤其是涉及一种基于混合云的之魂运维管理方法及混合云平台。

背景技术

随着互联网时代的发展，目前市场上的云平台厂家、云平台类型和云平台的管理对象具有丰富的多样性。而对于云平台的运维管理方式，目前基本上均采用独立自治的原则，即一套运维管理***管理一个云平台，对于不同的云平台，其运维管理方式无法有效复用。随着云类型和云资源的增多，各个云平台将会形成烟囱式的管理方式。若将多个云平台进行统一管理，形成异构多云的运维平台时，运维人员将无法对各个云平台上的云资源进行有效的集中监控和运维。

目前，各个云平台上的资源几乎均为手动或半自动进行导入，由于云平台上的资源瞬息万变，因此通过人工手动或半自动进行资源维护会存在更新不及时、更新不完整、更新不准确等问题。对于云平台上的性能指标劣化阈值，目前普遍的做法是凭运维人员的经验进行静态或事先制定，因此往往出现报警信息的误报、漏报等不准确问题。同时，对于运维管理的流程上普遍也是人工或半自动处理，因此在一定程度上增加了问题的处理时长。在运维管理过程中，故障需要监控人员、运维人员进行人工诊断和分析，因此也很大程度上取决于监控人员、运维人员的经验，导致故障定位的时间较长、定位不准确等问题。上述问题将导致跨云平台的分析能力、运维智能化能力以及自动化能力十分低下。

发明内容

本发明涉及一种基于异构多云的智慧运维管理方法，通过将多个不同的云平台接入混合云平台，使得用户可以通过混合云平台更加直观的了解不同云平台的资源。同时用户可以通过混合云平台对多个不用云平台上的业务信息进行管理，以便对云平台上的故障可以更加快速的进行跨云定界、定位和预处理，大大提升了运维和故障处理的效率。

为实现上述目的，本发明第一方面提供了一种基于异构多云的智慧运维管理方法，方法应用于混合云平台，方法包括：采集混合云平台上的异常信息；根据异常信息确定初始异常云资源，初始异常云资源为异常信息所对应的云资源；针对初始异常云资源，对初始异常云资源对应的异常信息进行多维态势感知，确定在混合云平台上发生的至少一个异常事件；确定至少一个异常事件所对应的处理规则；根据处理规则对进行故障预处理，恢复初始异常云资源。

优选地，异常信息包括事件告警信息；对初始异常云资源对应的异常信息进行多维态势感知，确定在混合云平台上发生的至少一个异常事件包括：根据预先配置的异常事件关联关系，确定与事件告警信息相关联的至少一个关联异常事件，其中，异常事件包括事件告警信息所对应的异常事件和关联异常事件。

优选地，在对初始异常云资源对应的异常信息进行多维态势感知之前，方法还包括：获取多条历史数据，其中，每条历史数据包括历史异常事件信息，历史异常事件信息表示历史数据所对应的异常事件；采用有监督训练算法对多条历史数据进行机器学习，当多个异常事件之间的支持度大于或等于支持度阈值时，构建多个异常事件的频繁项集，确定至少一个频繁项集；将至少一个频繁项集配置为异常事件关联关系。

优选地，异常信息包括指标异常信息；对初始异常云资源对应的异常信息进行多维态势感知，确定在混合云平台上发生的至少一个异常事件包括：根据预先配置的异常事件与指标关联关系，确定与指标异常信息相关联的至少一个关联异常事件，其中，异常事件包括关联异常事件。

优选地，在对初始异常云资源对应的异常信息进行多维态势感知之前，方法还包括：获取多条历史数据，其中，每条历史数据包括历史异常事件信息和至少一条异常指标，历史异常事件信息表示历史数据所对应的异常事件；采用无监督训练算法对历史数据进行机器学习，确定至少一个异常事件与异常指标关联关系；将至少一个异常事件与异常指标关联关系配置为异常事件关联关系。

优选地，异常信息包括日志异常信息；对初始异常云资源对应的异常信息进行多维态势感知，确定在混合云平台上发生的至少一个异常事件包括：根据预先配置的日志事件模板库，确定与日志异常信息相匹配的日志事件模板；根据预先存储的异常日志与异常事件关联关系，确定与日志事件模板相关联的至少一个关联异常事件，其中，至少一个异常事件包括关联异常事件。

优选地，在对初始异常云资源对应的异常信息进行多维态势感知之前，方法还包括：获取多条历史数据，其中，每条历史数据包括历史日志；对历史日志进行特征提取，得到历史日志的日志模板；将多个日志模板构建为日志事件模板库。

优选地，当异常信息为多个时，针对每个异常信息确定异常信息对应的异常云资源；在对初始异常云资源对应的异常信息进行多维态势感知之前，方法还包括：确定在多个初始异常云资源上运行的多个异常业务；针对每个异常业务，根据业务承载关系确定与异常业务相关联的第一数量个关联异常云资源；根据服务调用明细、业务拓扑结构和/或网络拓扑结构，从第一数量个关联异常云资源中确定第二数量个关键异常云资源，其中，关键异常云资源为初始异常云资源的子集；通过第二数量个关键异常云资源所对应的异常信息，确定根源云资源；对初始异常云资源对应的异常信息进行多维态势感知，包括：对根源云资源对应的异常信息进行多维态势感知。

优选地，根据处理规则对异常节点进行故障预处理，包括：当异常节点出现设备故障时，将异常节点进行故障隔离；或当异常节点的承载量大于或等于承载量阈值时，将异常节点上的业务流量调度至其它节点；当异常节点的故障恢复后，将异常节点的故障隔离进行释放。

本发明第二方面提供了一种基于异构多云的智慧运维管理混合云平台，混合云平台包括：处理器用于与存储器耦合，以及读取并执行存储在存储器中的指令；当处理器运行时执行指令，使得处理器用于采集混合云平台上的异常信息；根据异常信息确定初始异常云资源，初始异常云资源为异常信息所对应的云资源；针对初始异常云资源，对初始异常云资源对应的异常信息进行多维态势感知，确定在混合云平台上发生的至少一个异常事件；确定至少一个异常事件所对应的处理规则；根据处理规则对进行故障预处理，恢复初始异常云资源。

优选地，异常信息包括事件告警信息；处理器还用于：根据预先配置的异常事件关联关系，确定与事件告警信息相关联的至少一个关联异常事件，其中，异常事件包括事件告警信息所对应的异常事件和关联异常事件。

优选地，处理器还用于：获取多条历史数据，其中，每条历史数据包括历史异常事件信息，历史异常事件信息表示历史数据所对应的异常事件；采用有监督训练算法对多条历史数据进行机器学习，当多个异常事件之间的支持度大于或等于支持度阈值时，构建多个异常事件的频繁项集，确定至少一个频繁项集；将至少一个频繁项集配置为异常事件关联关系。

优选地，异常信息包括指标异常信息；处理器还用于：根据预先配置的异常事件与指标关联关系，确定与指标异常信息相关联的至少一个关联异常事件，其中，异常事件包括关联异常事件。

优选地，处理器还用于：获取多条历史数据，其中，每条历史数据包括历史异常事件信息和至少一条异常指标，历史异常事件信息表示历史数据所对应的异常事件；采用无监督训练算法对历史数据进行机器学习，确定至少一个异常事件与异常指标关联关系；将至少一个异常事件与异常指标关联关系配置为异常事件关联关系。

优选地，异常信息包括日志异常信息；处理器还用于：根据预先配置的日志事件模板库，确定与日志异常信息相匹配的日志事件模板；根据预先存储的异常日志与异常事件关联关系，确定与日志事件模板相关联的至少一个关联异常事件，其中，至少一个异常事件包括关联异常事件。

优选地，处理器还用于：获取多条历史数据，其中，每条历史数据包括历史日志；对历史日志进行特征提取，得到历史日志的日志模板；将多个日志模板构建为日志事件模板库。

优选地，当异常信息为多个时，针对每个异常信息确定异常信息对应的异常云资源，处理器还用于：确定在多个初始异常云资源上运行的多个异常业务；针对每个异常业务，根据业务承载关系确定与异常业务相关联的第一数量个关联异常云资源；根据服务调用明细、业务拓扑结构和/或网络拓扑结构，从第一数量个关联异常云资源中确定第二数量个关键异常云资源，其中，关键异常云资源为初始异常云资源的子集；通过第二数量个关键异常云资源所对应的异常信息，确定根源云资源；处理器还用于，对根源云资源对应的异常信息进行多维态势感知。

优选地，处理器还用于：当异常节点出现设备故障时，将异常节点进行故障隔离；或当异常节点的承载量大于或等于承载量阈值时，将异常节点上的业务流量调度至其它节点；当异常节点的故障恢复后，将异常节点的故障隔离进行释放。

本发明实现了一种基于异构多云的智慧运维管理方法和混合云平台，通过将多个不同的云平台接入混合云平台，可以使用户通过混合云平台更加直观的了解不同云平台的资源。用户通过混合云平台对多个不用云平台上的业务信息进行管理，使得云平台上的故障可以更加快速的进行跨云定界、定位和预处理，大大提升了运维和故障处理的效率。

附图说明

图1为本发明实施例提供的一种混合云平台的架构示意图；

图2为本发明实施例提供的一种基于异构多云的智慧运维管理方法流程图；

图3为本发明实施例提供的一种异常事件关联关系挖掘示意图；

图4为本发明实施例提供的一种异常事件与异常指标关联关系挖掘示意图；

图5为本发明实施例提供的一种异常事件与异常日志关联关系挖掘示意图；

图6为本发明实施例提供的基于集群场景的隔离示意图；

图7为本发明实施例提供的基于业务链的隔离示意图；

图8为本发明实施例提供的基于容量水位的隔离示意图；

图9为本发明实施例提供的一种基于异构多云的智慧运维管理混合云平台示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明主要应用在混合云平台上，通过以一体化、智能化、自动化为目标，构建一个基于异构多云的智慧运维管理混合云平台。该混合云平台通过跨云、跨***数据以及处理流程上的融合融通融智，实现了异构多云之间端到端的一体化业务和服务质量管控能力。并且带动了云平台上服务支撑能力的进一步提升。使得用户可以在该混合云平台上进行统一的云资源管理、对产生的异常信息进行多维态势感知、以及进行故障的智能诊断与处理。

本发明可以将多个不同的云平台接入混合云平台，使用户通过混合云平台更加直观的了解不同云平台的资源，并对多个不用云平台上的业务信息进行管理。该云平台上出现的故障可以更加快速的进行跨云定界、定位和预处理，大大提升了运维和故障处理的效率。

为更加清晰的阐述本发明的方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行详细描述。

图1为本发明实施例提供的一种混合云平台的架构示意图。

如图1所示，本发明提供了一种混合云平台的架构100，该架构100包括客户101，业务102、云平台103和资源104。

其中，客户101可以表示使用本发明所涉及的混合云平台的使用者。在一些例子中，客户101的表现形式可以是不同的客户账户，不同的客户账户可以表示不同的客户101。使用者可以通过注册的方式注册客户账户。可以理解的是，一个使用者可以注册一个或多个客户账户，而每个客户账户仅对应一个使用者。

业务102中可以包括订购产品和产品类型。显然，订购产品和产品类型可以用来表征业务102。例如可以通过不同的产品类型区分不同业务，以及还可以通过不同的订购产品，例如产品1、产品2区分同类业务的不同实例。可以理解的是，在其它例子中，业务102还可以包括更多其它可以表征不同业务的信息。

架构100构建了以“客户-业务-云-资源”的四级模型，可以理解的是，该云平台103所接入的资源104为各个其它云平台的资源。显然通过架构100，当客户101在使用某个业务102需要调用某个资源104时，云平台103可以提供一个统一的资源管理界面，以便在云平台103中选择任意的资源进行调用。

在一个例子中，例如存在云平台A、云平台B和云平台C。上述的云平台A、云平台B和云平台C均有属于自身云平台对应的资源，即资源A、资源B和资源C。云平台103可以通过与云平台A、云平台B和云平台C之间进行代码转换和/或格式转换，从而实现接入云平台A的资源A、云平台B的资源B和云平台C的资源C。当用户想要调用资源A、资源B和资源C时，通过云平台103即可预览到上述提到的所有资源，避免了用户调用不同资源时在各个不同的云平台上进行切换而造成的繁琐操作。由于云平台103将不同云平台的资源进行了整合，方便对不同资源进行统一资源管理。

可以理解的是，上述的调用资源可以是读取资源、写入资源、修改资源等任何对资源可能进行的操作，本发明在此不作限定。

在一个例子中，资源104中可以包括主机设备、存储设备、安全设备和网络设备。其中，主机设备可以包括虚拟机、物理机、裸金属等；存储设备可以包括备份设备、存储设备等；安全设备可以包括安全设备(硬件)和安全设备(软件)等；网络设备可以包括负载均衡、交换机等。当然，在其它例子中，资源104还可以包括更多其它可能的资源类型。可以理解的是，不同的资源之间可能存在业务调用关系，也就是说不同的资源之间可以相互连接，以进行必要的通信。

在一些例子中，云平台可以与任意一个资源相连接，云平台103与资源104的对应关系为一对多的对应关系。在另一些例子中，业务102也可以与任意一个资源相连接，业务102与资源104的对应关系为多对多的对应关系。

本发明中的资源104可以理解为云上资源，由于云上资源瞬息万变，现有的手动资源维护会导致资源内数据更新的不及时、不完整以及不准确等等问题。在一些例子中，可以通过云平台103对不同的资源进行统一资源管理，例如可以根据资源的类型和特点，实行差异化的自动、半自动与手动相结合，实现实时或周期性的更新机制，可以最大程度保障云上资源的完整性和准确性。

例如，表1示出了一种可能的更新机制。

表1

通过表1可以看出，云平台103可以根据不同的资源104的资源类型采用对应的更新方式进行更新，其中，对于自动、半自动更新方式，其自动发现的发现频率可以根据实际情况进行任意设置，在一个例子中例如频率可以是5分钟。

图2为本发明实施例提供的一种基于异构多云的智慧运维管理方法流程图。

本发明还提供了一种基于异构多云的智慧运维管理方法，该方法可以应用在图1架构下的混合云平台。该方法基于多维故障筛查、故障传播关系构建、服务调用链分析、运维知识图谱等方式，可以快速进行云上的故障定界、定位，提升了故障定位效率和准确性。同时，可以根据故障定界定位的结果、运维知识图谱和异常事件、日志、性能、投诉数据等进行智能决策，以便通过运维自动化***快速执行故障的预处理、自愈和派单等操作。

下面将结合该方法的各个步骤对方案进行更为详细的说明，该方法可以包括以下步骤：

S201，采集混合云平台上的异常信息。

混合云平台可以采集所有接入的资源上的异常信息。可以理解的是，该混合云平台接入的资源可以包括任意接入的云平台上的资源。

在一个例子中，采集异常信息可以是某个异常事件、某个异常指标和/或某条异常日志。其中，当采集的是某个异常事件时，该异常事件可以用于表示某个业务不可用。在一个例子中，可以通过网元告警的形式表示可能存在的异常事件。例如，A网元产生了一个告警信息A，该告警信息A可以表示A网元上的A业务不可用；又例如，A网元产生了一个告警信息B，该告警信息B可以表示A网元上的B业务不可用；再例如，C网元产生了一个告警信息A’，该告警信息A’可以表示C网元上的A’业务不可用等。可以理解的是，通常情况下，对于异常指标，可以是预先设定部分指标作为关键指标，以便混合云平台重点确定关键指标是否存在异常。其中，关键指标也可称为可用性指标。

其中，对于异常日志、异常指标和网元告警的关系，通常情况下可以认为当异常日志达到一定数量时，将会产生异常指标。而当多个指标出现异常时，例如具有多个异常指标时，将会产生网元告警。当然具体的异常日志达到一定数量产生异常指标的具体数量可以根据实际情况进行任意设定；同理，当多个指标出现异常时产生网元告警的异常指标具体数量也可以根据实际情况进行任意设定。

S202，根据异常信息确定初始异常云资源，初始异常云资源为异常信息所对应的云资源。

混合云平台通过S201中确定的异常信息，确定该异常信息所对应的云资源，即初始异常云资源。参照图1中的混合云平台的架构，可以理解的是，异常信息是由于资源104中的资源出现了异常，从而产生了异常信息。当混合云平台检测到异常信息后，可以根据异常信息判断出是哪些资源出现了异常。可以理解的是，一个异常信息对应一个初始异常云资源。

在一些例子中，若异常信息为异常事件，当异常事件采用网元告警的形式表示时，则可以针对网元告警的明细进行分析判断。其中，网元告警的明细可以包括预设的网元告警信息与异常资源对应关系。在一些例子中，混合云平台可以根据网元告警信息与异常资源对应关系，确定该网元告警所对应的初始异常云资源。

在另一个例子中，若异常信息为异常指标，则可以针对该异常指标的性能劣化明细进行分析判断。其中，异常指标的性能劣化明细可以包括各个指标预设的性能指标与异常资源对应关系。在一些例子中，混合云平台可以根据预设的性能指标与异常资源对应关系，确定异常指标所对应的初始异常云资源。

在又一个例子中，若异常信息为异常日志，由于每个资源产生的日志记录了日期、时间、使用者及动作等相关操作，因此混合云平台可以根据日志记录的内容确定所对应的初始异常云资源。其中，使用者例如可以是产生该日志的资源，或是产生该日志的业务，又或是产生该日志的某个网元设备等。

在一些例子中，当异常信息为多个时，可以针对每个异常信息确定异常信息对应的异常云资源。因此，混合云平台将会确定出多个初始异常云资源。之后，混合云平台确定每个初始异常云资源上运行的异常业务。可以理解的是，由于存在多个初始异常云资源，因此将会确定多个异常业务。

混合云平台将针对每个异常业务，根据预先配置的业务承载关系确定与异常业务相关联的第一数量个关联异常云资源。其中，业务的承载关系可以是预先设置并存储在混合云平台中。在一个例子中，第一数量可以用x表示，其中，x为正整数。在一些例子中，x的数量可能比初始异常云资源的数量要多，当然，在另一些例子中也有可能会更少或是相同。可以理解的是，业务承载关系记录了每个业务可能会涉及到的云资源，例如，业务a可能涉及到云资源12、云资源32和云资源56。混合云平台检测到业务a为异常业务后，则将云资源12、云资源32和云资源56作为关联异常云资源。其中，关联异常云资源中的部分云资源可能也是初始异常云资源。例如混合云平台检测到的异常信息可能来自于云资源32和云资源56，因此，云资源32和云资源56即作为初始异常云资源也作为关联异常云资源。当然由于混合云平台检测到的是多个异常信息，当混合云平台根据多个异常信息最终确定有多个异常业务时，关联异常云资源的数量则与初始异常云资源的数量没有必然的关系；而当混合云平台根据多个异常信息最终确定为1个异常业务时，关联异常云资源的数量通常会大于或等于初始异常云资源的数量。

之后，混合云平台还可以根据服务调用明细、业务拓扑结构和/或网络拓扑结构，从第一数量个关联异常云资源中确定第二数量个关键异常云资源。其中，业务拓扑关系和/或网络拓扑关系可以预先存储在混合云平台中。在一些例子中，第二数量可以用y表示，其中，y为正整数且y小于或等于x。服务调用明细用于记录每个业务调用各个云资源的顺序，例如，a业务调用云资源的顺序可以为云资源32、云资源56、云资源12。同时，还可以结合业务的拓扑结构和/或网络拓扑结构，从x个关联异常云资源中，确定出哪部分云资源是更有可能出现故障的云资源。可以理解的是，可以根据预先设定的规则以及根据业务的拓扑关系，确定哪些云资源出现异常的概率较高。在一些例子中，预设的规则可包括过滤掉未发出异常信息的云资源。混合云平台通过上述过程实现了故障的定界。通常情况下，关键异常云资源的数量为1到2个，且关键异常云资源为初始异常云资源的子集。

然后，混合云平台可以结合y个关键异常云资源所对应的异常信息，确定根源云资源。其中，根源云资源通常为1个。在一些例子中，例如可以通过y个关键异常云资源所对应的异常信息生成时间，将生成时间较早的关键异常云资源作为根源云资源。以便混合云平台可以对根源云资源进行多维态势感知。

S203，针对初始异常云资源，对初始异常云资源对应的异常信息进行多维态势感知，确定在混合云平台上发生的至少一个异常事件。

混合云平台针对S203中确定的初始异常云资源或根源云资源对应的异常信息，进行多维态势感知，确定在混合云平台上发生的至少一个异常事件。可以理解的是，当混合云平台接收多个异常信息时，则可以对根源云资源进行多维态势感知；当混合云平台接收1个异常信息时，则可以对初始异常云资源进行多维态势感知。为方便描述，下面将统一用“初始异常云资源”进行描述。

混合云平台可以预先根据各个资源的历史记录，即以往产生的异常信息进行机器学***台可以根据学***台进行自动采集、关联、汇聚得到的。

在一个例子中，当异常信息为事件告警信息时，混合云平台可以根据预先配置的异常事件关联关系，确定与事件告警信息相关联的至少一个关联异常事件。当然，混合云平台还可以根据事件告警信息确定该事件告警信息所对应的异常事件。其中，异常事件可以包括事件告警信息所对应的异常事件和关联异常事件。该过程也可称为云上异常事件关联挖掘。

异常事件关联关系可以是混合云平台预先根据多条历史记录进行机器学***台通过对云上的异常事件关联进行挖掘，实现异常事件的压缩处理和根因定位分析。

在一些例子中，混合云平台获取多条历史记录，其中，每条历史数据可以包括历史异常事件信息。历史异常事件信息用来表示历史数据所对应的异常事件。然后，混合云平台采用有监督训练算法，对多条历史数据进行机器学***台根据历史中发生的N个事件进行异常事件关联关系挖掘，例如可以采用FP-Growth、Apriori、随机森林、基于划分算法等有监督训练算法和/或无监督训练算法。其中，N为正整数。对于异常事件关联关系的挖掘，在一些例子中可以是基于时间窗口，例如分析预设时间内多个异常事件之间的关联关系。当然在其它例子中还可以基于资源窗口，例如分析同一资源内多个异常事件之间的关联关系。类似的，还可以基于业务窗口、场景窗口、调用链窗口等。可以理解的是，混合云平台可以基于时间窗口、资源窗口、业务窗口、场景窗口、调用链窗口中的一个或多个，进行异常事件关联关系的挖掘，本发明在此不作限定。混合云平台通过迭代，构建多个异常事件之间的频繁项集，得到多个频繁项集。可以理解的是，多个异常事件之间的频繁项集即多个异常事件之间支持度不低于预设的支持度阈值的项集。其中，支持度用于表示多个异常事件之间关联的程度。通常情况下，计算两个异常事件之间的支持度，当然也可以是3个事件或是任意数量的事件，具体数值可以根据实际情况进行任意设定。混合云平台利用得到的频繁项集构造出满足用户最小信任度的规则，即将得到的每个频繁项集配置为一个异常事件关联关系。通过图3可以看出，混合云平台最终确定出N’个异常事件关联关系。其中，N’为正整数。

在另一个例子中，当异常信息为指标异常信息时，混合云平台可以根据预先配置的异常事件与指标关联关系，确定与指标异常信息相关联的至少一个关联异常事件。其中，异常事件可以包括关联异常事件。该过程也可称为关键绩效指标(key performanceindicator，KPI)异常检测。

异常事件与指标关联关系可以是混合云平台预先根据多条历史记录进行机器学***台可以检测事件和指标变化的关联关系，通常情况下是基于时间序列维度。例如某个异常事件发生，在某个时间点异常事件发生了，可能是网元告警或者某个***启动，下个时间点异常事件B发生。在异常事件A发生的时候CPU利用率明显升高，而异常事件B发生的时候CPU利用率没有明显变化。因此，可以看出不同异常事件与指标可能存在一些关联关系。在一些例子中，混合云平台在可以通过不同时间下同一个指标的数值，得到指标时间曲线，并通过该指标时间曲线发掘异常事件和曲线的关联关系，即异常事件与指标关联关系。例如可以根据异常事件先后顺序以及指标的变化方向等。其中，指标的变化方向可以是正相关或者是负相关。

在一些例子中，混合云平台获取多条历史记录，其中，每条历史数据可以包括历史异常事件信息和至少一条异常指标。历史异常事件信息用来表示历史数据所对应的异常事件。然后，混合云平台采用无监督训练算法，对多条历史数据进行机器学***均算法、指数滑动算法等。当然可以理解的是，还可以采用其它任意可能的无监督训练算法进行替换，本发明在此不做限定。可以参考图4所示出的一种异常事件与异常指标关联关系挖掘示意图。混合云平台根据历史中发生的N个事件以及相应的M个指标进行异常事件与异常指标关联关系挖掘。例如可以采用Pearson关联分析、Two-sample test、移动平均算法、指数滑动算法等无监督训练算法。其中，N、M为正整数。对于异常事件与异常指标关联关系的挖掘，在一些例子中可以是基于时间窗口，例如分析预设时间内异常事件与异常指标之间的关联关系。当然在其它例子中还可以基于资源窗口，例如分析同一资源下，异常事件与异常指标之间的关联关系。类似的，还可以基于业务窗口、场景窗口、调用链窗口等。可以理解的是，混合云平台可以基于时间窗口、资源窗口、业务窗口、场景窗口、调用链窗口中的一个或多个，进行异常事件与异常指标之间的关联关系的挖掘，本发明在此不作限定。混合云平台可以基于各个异常指标的指标时间曲线以及各个异常事件构成的事件数据源，判断异常事件与异常指标的线性关系程度。例如计算异常事件与异常指标之间的相关系数r。其中，r用于表示异常事件与异常指标之间的相关性程度，取值可以为[-1，1]。可以理解的是，当r为-1时表示异常事件与异常指标之间存在着非常明显的负相关，当r为1时表示异常事件与异常指标之间存在着非常明显的正相关，而当r为0时表示异常事件与异常指标之间不存在相关关系。在一些例子中，混合云平台还可以计算显著性水平α，其中，α用于过滤相关性程度较低的异常事件与异常指标关联关系。通常，α可以是百分比数值，例如85％等。当然也可以是某个具体数值，例如85，并且根据预先设定的规则，如α低于85认为异常事件与异常指标之间的相关性程度较低。具体可以根据实际情况进行任意调整。混合云平台经过无监督机器学***台将每个异常事件与异常指标关联关系标配置为一个异常事件关联关系。

在又一个例子中，当异常信息为日志异常信息时，混合云平台可以根据预先配置的日志事件模板库，确定与日志异常信息相匹配的日志事件模板。然后，再根据预先存储的异常日志与异常事件关联关系，确定与日志事件模板相关联的至少一个关联异常事件。其中，至少一个异常事件可以包括关联异常事件。该过程也可称为异常日志挖掘与分析。

日志事件模板库可以是混合云平台预先根据多条历史记录进行机器学***台需要构建日志时间模板库时，可以基于概率模型对历史日志进行检测，将历史日志进行序列化，例如可以利用日志模板将历史日志序列化。在一些例子中，日志的来源可以来自各个网络设备、网络、服务器资源、***软件、中间件、数据库、应用软件等。日志可以分为操作日志、***日志(syslog)、***运行日志等。日志的格式可以包括结构化、半结构化和非结构化等。混合云平台通过上述来源获取多条历史记录，历史记录中包括历史日志。其中，日志模板的提取可以是混合云平台通过频繁模式树(frequent pattern tree)从***日志中识别出频繁出现的单词，并且将频繁出现的单词进行组合，构建日志模板。可以理解的是，该过程提取的是非变量特征。

混合云平台可以通过对历史日志进行聚类提取日志模板和日志执行序列，之后再从日志模板和日志执行序列找那个提取历史日志的变量，构建特征向量。再利用时间序列算法，结合构建的特征向量构建得到故障日志序列。例如，利用贝叶斯模型计算时间窗口内构建的特征向量与错误日志关联概率，并将关联概率达到预设阈值的历史日志作为故障日志。其中，错误日志可以是预先配置在混合云平台中的。之后，混合云平台再结合预先设定的异常标记，对故障日志序列进行标记，得到多个日志事件模板，从而构成日志事件模板库。可以理解的是，混合云平台可以根据预先设定的规则对故障日志序列标记异常标记，当然在一些情况下也可以有运维人员进行人工标记。在一些例子中，混合云平台还可以基于新产生的日志采用上述方式以及根据运维人员的标注与反馈对日志事件模板库进行更新，从而持续优化日志事件模板库。

当混合云平台构建得到日志事件模板库后，可以对实时日志与日志事件模板库在线匹配检测，将与日志事件模板库中的日志事件模板一样的日志判定为异常日志。混合云平台将对确定的异常日志进行进一步检测，例如将多个模板相同的异常日志进行合并分析。然后针对每一类模板的异常日志，根据预先设定的事件与异常日志的关联关系，确定可能存在的关联异常事件。当然，在一些例子中，确定可能存在的异常事件可以有一个或多个。在又一些例子中，还可以根据预先设定的性能与异常日志的关联关系，确定可能存在的异常指标。以便再结合异常指标与异常事件关联关系，确定一个或多个关联异常事件。

在一个例子中，混合云平台可以基于无监督训练算法进行异常日志的挖掘与分析，例如可以采用基于深度学习的日志异常检测(deeplog)等算法。

S204，确定至少一个所述异常事件所对应的处理规则。

混合云平台根据S203中确定的异常事件后，从预设的规则库中匹配该异常事件相应的处理规则。

在一些例子中，混合云平台还可以根据S203中确定的异常事件，结合预设的异常事件与故障关系，确定可能该异常事件所对应的故障。

S205，根据所述处理规则进行故障预处理，恢复所述初始异常云资源。

混合云平台根据S204中确定的处理规则，执行相应操作，例如进行规则描述的故障预处理，从而恢复出现异常的初始异常云资源。

在一些例子中，可将执行处理规则的过程维护进混合云平台的知识库中。其中知识库中包含规则库。用于在S204中为混合云平台提供相应异常事件的处理规则。可以理解的是，异常事件的处理规则即异常事件的故障处理流程。在又一些例子中，混合云平台可以采用S204中确定的故障对执行处理规则的过程进行标记，以便运维人员可以更加方便的查阅不同故障以及所对应的处理规则。

可以理解的是，上述知识库也可以成为运维知识图谱，本发明基于多维故障筛查、故障传播关系构建、服务调用链分析、运维知识图谱等手段，可以快速进行云上故障定界、定位，提升故障定位效率和准确性。根据故障定界定位结论，运维知识图谱和异常事件、日志、性能、投诉数据等进行智能决策，以便运维自动化***可以快速执行故障预处理、自愈和派单操作。

在一些例子中，根据处理规则对异常节点进行故障预处理可以是当异常节点出现设备故障时，将异常节点进行故障隔离。然后当异常节点的故障恢复后，将异常节点的故障隔离进行释放。例如图6示出了一种基于集群场景的隔离示意图。其中，服务器设备A1、服务器设备A2、服务器设备A3和服务器设备A4可以为一个服务器设备集群。该服务器集群用于进行配置服务，其中，配置服务可以包括混合云平台上进行的配置管理，例如安全管控、服务理由每秒查询率(queries-per-second，QPS)、白名单等等。当服务器设备A1发生故障后，混合云平台将服务器设备A1进行故障隔离，并且改变路由选择，例如，将原经过在服务器设备A1上的任务改为途径在服务器设备A2、服务器设备A3或服务器设备A4。换句话说，即将原先服务器设备A1上的业务流量分摊至服务器集群中的其它服务器设备上。然后当服务器设备A1的故障恢复后，再进行隔离释放，并恢复故障隔离前的路由选择。

在又一些例子中，例如图7示出了一种基于业务链的隔离示意图。可以看出，混合云平台实时对应用调用链进行心跳检测。其中应用调用链也可称为业务链或业务调用链。当发现服务器设备A1到网络设备B1之间出现故障后，混合云平台将服务器设备A1进行故障隔离，并且改变业务链的调用方向。例如，混合云平台预先配置的邻区关系数据库，发现网络设备B1与网络设备B2具有邻区关系，可以进行替换；网络设备B2与网络设备B3具有邻区关系，可以进行替换。因此混合云平台采用网络设备B2替换网络设备B1，并新增服务器设备A1到网络设备B2的调用关系至配置服务中。以便业务可以正常调用并执行。换句话说，即将原先经过网络设备B1上的业务流量分摊至其它服务器设备上。然后当网络设备B1的故障恢复后，再进行隔离释放，并恢复故障隔离前的业务调用链选择。

在另一些例子中，根据处理规则对异常节点进行故障预处理可以是当异常节点的承载量大于或等于承载量阈值时，将异常节点上的业务流量调度至其它节点。然后当异常节点的故障恢复后，将异常节点的故障隔离进行释放。例如图8示出了一种基于容量水位的隔离示意图。其中，容量可以理解为承载量，在该示例中为服务器承载量，即承载用户流量。水位即为承载量阈值，可以根据实际情况进行设定，例如80％。当混合云平台检测服务器设备A1的承载量超过预先设定的承载量阈值(即图中的带宽利用率80％)时，为了方式后续用户收到影响，混合云平台可以对业务流量进行智能调度，将原先服务器设备A1上的业务流量分摊至服务器集群中的其它服务器设备上，例如服务器设备A2、服务器设备A3或服务器设备A4。从而避免后续服务器设备A1出现故障，达到故障提前止损。当然当服务器设备A1的承载量低于承载量阈值时，混合云平台可以恢复至智能调度前的状态。

在一些例子中，对于混合云平台的自愈可以包括虚机重启、虚机迁移、自动扩缩容等操作。

可以理解的是，在其它例子中，故障预处理还可以包括除故障隔离、流量调度操作以外的其它任何可能的操作，本发明在此不作限定。

如图9所示，本发明还提供了一种基于异构多云的智慧运维管理混合云平台900。该混合云平台900可以包括：处理器910、存储器920和总线930。混合云平台900中的处理器910和存储器920可以通过总线930建立通信连接。

存储器920用于存储指令，当处理器910调用存储在存储器920中的指令时，使得处理器910，用于执行上述图1至图8中混合云平台所涉及的任意一种方法。

其中，处理器910可以为CPU。

存储器920可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器920也可以包括非易失性存储器(英文：non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，硬盘(harddisk drive，HDD)或固态硬盘(solid state drive，SSD)；存储器920还可以包括上述种类的存储器的组合。

当然，可以理解的是，混合云平台900中还可以包括更多其它可能用到硬件设备，例如用于传输数据的I/O接口、发送器、接收器等，本发明在此不作限定。

与现有技术相比，本发明在屏蔽底层异构多云的资源差异，向上提供云资源的统一管理能力方面独树一帜。通过跨云、跨***数据和流程的融合融通融智，实现异构云端到端的一体化业务和服务质量管控，带动云服务支撑能力的进一步提升。同时区别于传统的人工和半自动化资源更新机制，本发明实行差异化的自动与半自动相结合的实时或周期性更新机制，最大程度保证云资源的完整性、准确性。

同时通过云上资源的告警、指标、日志等多维运维数据的自动采集、关联、汇聚，并基于机器学习算法，例如通过FP-Growth、Apriori、随机森林、Pearson关联分析，Two-sample test、DeepLog等AI算法进行故障识别和压缩、故障关联关系挖掘，日志异常分析，实现了异构多云实时运行情况的多维态势感知。基于多维故障筛查、故障传播关系构建、服务调用链分析、运维知识图谱等手段，可以快速进行云上故障定界、定位、智能预处理、故障自愈。提升故障发现的及时性和定位准确率，减少故障定界定位的时长和人力资源的投入，大力提升运维和故障处理效率。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于异构多云的智慧运维管理方法，其特征在于，所述方法应用于混合云平台，所述方法包括：

采集所述混合云平台上的异常信息；

根据所述异常信息确定初始异常云资源，所述初始异常云资源为所述异常信息所对应的云资源；

针对所述初始异常云资源，对所述初始异常云资源对应的所述异常信息进行多维态势感知，确定在所述混合云平台上发生的至少一个异常事件；

确定至少一个所述异常事件所对应的处理规则；

根据所述处理规则进行故障预处理，恢复所述初始异常云资源。

2.根据权利要求1所述的方法，其特征在于，所述异常信息包括事件告警信息；

所述对所述初始异常云资源对应的所述异常信息进行多维态势感知，确定在所述混合云平台上发生的至少一个异常事件包括：

根据预先配置的异常事件关联关系，确定与所述事件告警信息相关联的至少一个关联异常事件，其中，所述异常事件包括所述事件告警信息所对应的异常事件和所述关联异常事件。

3.根据权利要求2所述的方法，其特征在于，在所述对所述初始异常云资源对应的所述异常信息进行多维态势感知之前，所述方法还包括：

获取多条历史数据，其中，每条所述历史数据包括历史异常事件信息，所述历史异常事件信息表示所述历史数据所对应的所述异常事件；

采用有监督训练算法对多条所述历史数据进行机器学习，当多个所述异常事件之间的支持度大于或等于支持度阈值时，构建多个所述异常事件的频繁项集，确定至少一个所述频繁项集；

将至少一个所述频繁项集配置为所述异常事件关联关系。

4.根据权利要求1所述的方法，其特征在于，所述异常信息包括指标异常信息；

根据预先配置的异常事件与指标关联关系，确定与所述指标异常信息相关联的至少一个关联异常事件，其中，所述异常事件包括所述关联异常事件。

5.根据权利要求4所述的方法，其特征在于，在所述对所述初始异常云资源对应的所述异常信息进行多维态势感知之前，所述方法还包括：

获取多条历史数据，其中，每条所述历史数据包括历史异常事件信息和至少一条异常指标，所述历史异常事件信息表示所述历史数据所对应的所述异常事件；

采用无监督训练算法对所述历史数据进行机器学习，确定至少一个异常事件与异常指标关联关系；

将至少一个所述异常事件与异常指标关联关系配置为所述异常事件关联关系。

6.根据权利要求1所述的方法，其特征在于，所述异常信息包括日志异常信息；

根据预先配置的日志事件模板库，确定与所述日志异常信息相匹配的日志事件模板；

根据预先存储的异常日志与异常事件关联关系，确定与所述日志事件模板相关联的至少一个关联异常事件，其中，所述至少一个异常事件包括所述关联异常事件。

7.根据权利要求6所述的方法，其特征在于，在所述对所述初始异常云资源对应的所述异常信息进行多维态势感知之前，所述方法还包括：

获取多条历史数据，其中，每条所述历史数据包括历史日志；

对所述历史日志进行特征提取，得到所述历史日志的日志模板；

将多个所述日志模板构建为所述日志事件模板库。

8.根据权利要求1-7任意一项所述的方法，其特征在于，当所述异常信息为多个时，针对每个所述异常信息确定所述异常信息对应的所述异常云资源，在所述对所述初始异常云资源对应的所述异常信息进行多维态势感知之前，所述方法还包括：

确定在多个所述初始异常云资源上运行的多个异常业务；

针对每个所述异常业务，根据业务承载关系确定与所述异常业务相关联的第一数量个关联异常云资源；

根据服务调用明细、业务拓扑结构和/或网络拓扑结构，从第一数量个所述关联异常云资源中确定第二数量个关键异常云资源，其中，所述关键异常云资源为所述初始异常云资源的子集；

通过第二数量个所述关键异常云资源所对应的所述异常信息，确定根源云资源；

所述对所述初始异常云资源对应的所述异常信息进行多维态势感知，包括：

对所述根源云资源对应的所述异常信息进行多维态势感知。

9.根据权利要求1所述的方法，其特征在于，所述根据所述处理规则对所述异常节点进行故障预处理，包括：

当所述异常节点出现设备故障时，将所述异常节点进行故障隔离；或

当所述异常节点的承载量大于或等于承载量阈值时，将所述异常节点上的业务流量调度至其它节点；

当所述异常节点的故障恢复后，将所述异常节点的故障隔离进行释放。

10.一种基于异构多云的智慧运维管理混合云平台，其特征在于，所述混合云平台包括：

处理器用于与存储器耦合，以及读取并执行存储在所述存储器中的指令；

当所述处理器运行时执行所述指令，使得所述处理器用于执行上述权利要求1-9中任意一项所述的方法。