CN105871634A - 检测集群异常的方法及应用、管理集群的*** - Google Patents

检测集群异常的方法及应用、管理集群的*** Download PDF

Info

Publication number
CN105871634A
CN105871634A CN201610380755.8A CN201610380755A CN105871634A CN 105871634 A CN105871634 A CN 105871634A CN 201610380755 A CN201610380755 A CN 201610380755A CN 105871634 A CN105871634 A CN 105871634A
Authority
CN
China
Prior art keywords
performance
class
performance data
detected
strong point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610380755.8A
Other languages
English (en)
Other versions
CN105871634B (zh
Inventor
吴海珊
阮松松
刘麒贇
傅乐琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruixiang Technology Co ltd
Original Assignee
Beijing Oneapm Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Oneapm Communication Technology Co Ltd filed Critical Beijing Oneapm Communication Technology Co Ltd
Priority to CN201610380755.8A priority Critical patent/CN105871634B/zh
Publication of CN105871634A publication Critical patent/CN105871634A/zh
Application granted granted Critical
Publication of CN105871634B publication Critical patent/CN105871634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • H04L43/55Testing of service level quality, e.g. simulating service usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了检测集群异常的方法及应用、管理集群的***。其中,检测集群异常的方法包括下述步骤。获取指示集群性能的一个待检测的性能数据点。确定与该性能数据点相似度最高的性能数据类。判断性能数据点与所确定的性能数据类的相似度是否超过相似度阈值。在超过阈值时,将性能数据点聚合到所确定的性能数据类中,并计算数据点总数占当前所有性能数据类的数据点总数的比例是否超过异常类阈值。在未超过异常类阈值时,对性能数据点与中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离之和与所有维度的距离和之比、是否大于距离分布阈值。在大于距离分布阈值时,确定该待检测的性能数据点为一个异常点。

Description

检测集群异常的方法及应用、管理集群的***
技术领域
本发明涉及互联网领域,尤其涉及检测集群异常的方法及应用、管理集群的***。
背景技术
随着互联网技术的进步,基于云计算架构的集群被越来越多的应用在各领域中。集群通常可以包括多台计算设备(例如,应用服务器或者数据库服务器等)。集群可以被配置为执行分布式应用或者被配置为均衡提供多个类似的计算服务。集群具有高可扩展性,通常具有大量的设备节点。为了对集群性能进行维护,对集群性能进行检测是非常必要的。
面对集群大数量级的性能数据,高自动化和高准确度的性能检测手段是亟需的。目前,已公开的一些性能检测手段(或者称为异常检测手段)采用机器学习的方式对性能数据分类并确定异常数据。针对性能检测的机器学习包括对性能数据的有监督和无监督学习。例如,基于kmeans的聚类算法对性能数据进行聚类和异常检测。然而,现有的异常检测手段在准确度、稳定度等方面还很不足。
因此,本发明提出了一种新的异常检测方案。
发明内容
为此,本发明提供一种新的异常检测方案,有效的解决了上面至少一个问题。
根据本发明的一个方面,提供一种检测集群异常的方法,包括下述步骤。获取指示集群性能的一个待检测的性能数据点。该性能数据点包括归一化的多维性能指标。从已有的由之前所获取的性能数据点所聚合生成的性能数据类中,确定与该待检测的性能数据点相似度最高的性能数据类。判断该待检测的性能数据点与所确定的性能数据类的相似度是否超过该性能数据类当前的相似度阈值。在超过当前的相似度阈值时,将该待检测的性能数据点聚合到所确定的性能数据类中,并计算聚合后该性能数据类中数据点总数占当前所有性能数据类的数据点总数的比例是否超过异常类阈值。在未超过异常类阈值时,对该待检测的性能数据点与该性能数据类的中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离之和与所有维度的距离和之比、是否大于距离分布阈值。在大于距离分布阈值时,确定该待检测的性能数据点为一个异常点。
根据本发明又一个方面,提供一种检测集群异常的应用,包括数据获取单元、相似度计算单元、第一判断单元、聚合单元、第二判断单元和第三判断单元。数据获取单元适于获取指示集群性能的一个待检测的性能数据点。该性能数据点包括归一化的多维性能指标。相似度计算单元,适于从已有的由之前所获取的性能数据点所聚合生成的性能数据类中,确定与该待检测的性能数据点相似度最高的性能数据类。第一判断单元适于判断该待检测的性能数据点与所确定的性能数据类的相似度是否超过该性能数据类当前的相似度阈值。聚合单元适于在第一判断单元确定超过当前的相似度阈值时,将该待检测的性能数据点聚合到所确定的性能数据类中。第二判断单元适于计算聚合后该性能数据类中数据点总数占当前所有性能数据类的数据点总数的比例是否超过异常类阈值。第三判断单元适于在未超过异常类阈值时,对该待检测的性能数据点与该性能数据类的中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离之和与所有维度的距离和之比、是否大于距离分布阈值。在大于距离分布阈值时,第三判断单元确定该待检测的性能数据点为一个异常点。
可选地,在根据本发明的检测集群异常的应用中,数据获取单元进一步包括接收模块和归一化模块。接收模块适于接收来自性能收集器所采集的指示集群性能的一个性能数据组。该性能数据组包括多维性能指标。归一化模块适于归一化该性能数据组为性能数据点。多维性能指标包括所述集群中内存利用率、CPU利用率、任务吞吐量、任务响应时间、垃圾回收频率中至少一种。
可选地,在根据本发明的检测集群异常的应用中,相似度计算单元适于根据下述方式确定所述待检测的性能数据点相似度最高的性能数据类。计算待检测的性能数据点与已有的每个性能数据类的中心质点的距离。根据与每个性能数据类的中心质点的距离,计算待检测的性能数据点与这个性能数据类的相似度。确定与待检测的性能数据点相似度最高的性能数据类。其中,相似度计算单元适于根据下述方式计算待检测的性能数据点与已有的每个性能数据类的中心质点的距离:计算待检测的性能数据点与每个性能数据类的中心质点的欧式距离。
可选地,在根据本发明的检测集群异常的应用中,相似度计算单元适于根据下述公式计算待检测的性能数据点与这个性能数据类的相似度:
s i m = 1 1 + d
其中,d为计算得到的待检测的性能数据点与这个性能数据类中心质点的距离,sim为与这个性能数据类的相似度。
可选地,在根据本发明的检测集群异常的应用中,聚合单元还适于根据下述公式更新加入待检测的性能数据点之后的性能数据类的中心质点和相似度阈值:
cr=(pt+cr*np)/(np+1)
t h = t h + l r n p * ( s i m - t h )
其中,cr为中心质点,np为类中数据点总数,pt为所加入的性能数据点,sim为pt与性能数据类的相似度,th为异常类阈值,lr为用于调节th的学习率阈值。
可选地,在根据本发明的检测集群异常的应用中,第三判断单元适于根据下述方式执行所述对该待检测的性能数据点与该性能数据类的中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离和与所有维度的距离和之比、是否大于距离分布阈值:
pt={n1,...,ni}cr={c1,...,ci}di=|ni-ci|ni为待检测的性能数据点pt中第i维性能指标,ci为中心质点cr的第i维数值,di为point第i维与cr中第i维的距离,
对所有维度的di进行排序,并计算其中,N为所有维度总数,M为N中预定比例的维度数量为N维距离中最大的M个值的和,为N个距离的和,
判断pr是否大于距离分布阈值。
可选地,根据本发明的检测集群异常的应用还包括窗口判断单元,适于将待检测的性能数据点加入到一个滑动窗口中。该滑动窗口保持有最新获取到的预定数量的性能数据点。在第三判断单元确定该待检测的性能数据点为一个异常点时,窗口判断单元判断该滑动窗口中异常点的比例是否超过窗口阈值。
可选地,根据本发明的检测集群异常的应用还包括告警单元。告警单元适于在窗口判断单元确定超过所述窗口阈值时,根据每个维度性能指标的距离,确定待检测的性能数据点中的异常性能指标。
可选地,在根据本发明的检测集群异常的应用中,在第一判断单元确定所述待检测的性能数据点与所确定的性能数据类的相似度未超过该性能数据类当前的相似度阈值时,聚合单元还适于将该待检测的性能数据点新生成为一个性能数据类并将这个类加入到已有的性能数据类中。聚合单元还适于判断当前所有的性能数据类的类别总数是否超过类别阈值,并在超过时将距离最近的两个性能数据类合并为一个。其中,聚合单元适于根据下述方式将距离最近的两个性能数据类合并为一个:计算所有的性能数据类中,两两之间中心质点的距离,确定距离最近的两个类cl1和cl2。将cl1和cl2两个类合并为类cl3。根据下述公式确定cl3的中心质点、相似度阈值和数据点总数:
cr3=cr1*np1+cr2*np2
th3=(np1*th1+np2*th2)/(np1+np2)
np3=np1+np2
其中,cr3为cl3的中心质点,cr2为cl2的中心质点,cr1为cl1的中心质点,np1为cl1的数据点总数,np2为cl2的数据点总数,th1为cl1相似度阈值,th2为cl2相似度阈值,th3为cl3的相似度阈值,np3为cl3的数据点总数。
可选地,在根据本发明的检测集群异常的应用中,第二判断单元还适于在超过异常类阈值时,确定待检测的性能数据点非异常点。第三判断单元还适于在未超过距离分布阈值时,确定待检测的性能数据点非异常点。
可选地,根据本发明的检测集群异常的应用还包括类检测单元。类检测单元适于在计算相似度单元确定与该待检测的性能数据点相似度最高的性能数据类之前,判断当前已有的性能数据类总数是否非零,和\或判断待检测的性能数据点的维度是否与已有的性能数据类一致。
可选地,在根据本发明的检测集群异常的应用中,类检测单元还适于在确定当前已有的性能数据类总数为零,或者确定所述维度与已有的性能数据类不一致时,指示聚合单元将该待检测的性能数据点生成一个性能数据类。
根据本发明的又一个方面,提供一种管理集群的***,包括性能收集器、检测集群的应用和资源管理应用。性能收集器适于收集集群的性能指标。资源管理应用适于根据检测集群异常的应用生成的告警消息,调节集群的资源配置。
根据本发明的异常检测方案,可以对实时获取的包括多维性能指标的性能数据点进行增量式聚类,并且在聚类过程中通过自适应阈值判断性能数据点所加入的类是否属于异常类。这样,本发明的异常检测方案所聚合的类和所进行的异常点检测操作的准确度具有鲁棒性。进一步,通过对性能数据点与类中心质点每个维度的距离进行统计评价,本发明的异常检测方案能够对类中相似度高和相似度低的点进行更好的区分。这样,异常检测方案可以降低误报率。此外,本发明的异常检测方案,通过基于滑动窗口而判断异常点在窗口中的比例,进一步可以提高异常告警的准确度。本发明的异常检测方案还可以控制聚类模型的类别总数,并在数据维度发生变化,及时重新创建聚类模型,从而保证了异常检测的稳定性。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一些实施列的集群100的示意图;
图2示出了根据本发明一些实施例的检测集群异常的应用200的示意图;
图3示出了根据本发明一些实施例的检测集群异常的应用300的示意图;
图4示出了根据本发明一些实施例的检测集群异常的方法400的流程图;以及
图5示出了根据本发明一些实施例的检测集群异常的方法500的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明的一些实施列的集群100的示意图。
如图1所示,集群100包括多个计算设备。每个计算设备为集群中一个设备节点。集群***100包括应用服务器110和120,数据库服务器130和140,管理服务器150和监测服务器160,但不限于此。其中,管理服务器150中驻留有资源管理应用151。监测服务器160中驻留有性能收集器161和检测集群异常的应用162。
资源管理应用151适于对集群100中设备节点进行资源调度管理,例如,指示一个设备节点创建一个服务器实例、隔离一个设备节点或者添加一个新的设备节点到集群等。取决于集群100的架构(例如Hadoop或Spark等),资源管理应用151可以是多种公知的集群管理应用,这里不再赘述。
性能收集器161适于收集集群100至少一部分的性能指标数据。性能指标数据的类型可以是设备节点硬件、操作***和应用等多方面的指标数据。性能指标数据的类型例如包括内存利用率、CPU利用率、磁盘占用率、任务吞吐量、任务响应时间、垃圾回收频率等,但不限于此。其中,任务吞吐量可以是设备节点单位时间能够处理的任务(例如是访问请求、计算任务等)的数量。在根据本发明一个实施例中,性能收集器161可以周期性收集性能数据组。每个性能数据组包括多个维度的性能指标。这里,每个维度的性能指标可以是同一类型,例如多个设备节点的内存利用率。每个性能数据组也可以包括多个种类的性能指标。例如,一个性能数据组包括一个设备节点的多种性能指标值。又例如,一个性能数据组可以包括多个设备节点中每一个的多个性能指标。另外,性能收集器161收集数据的具体方式可以采用多种公知的技术方式,例如,每个设备节点中部署有采集性能指标数据的探针agent。多个探针可以将所采集的性能指标数据汇集到性能收集器161。根据来自多个设备节点的性能指标数据,性能收集器161被配置为生成包括多个维度的性能数据组。一般而言,性能数据组中每个维度的性能指标的采集时间是一致的,尽管可能存在一定的时间误差。为了简化描述,这里对性能收集器更多的公知实现方式不再赘述,而这些方式都可以应用在本发明中。
检测集群异常的应用162适于根据性能收集器所收集的性能数据组,进行基于聚类学习的异常检测。应用162在确定集群100异常时,还可以生成相应的告警消息,并传输到资源管理应用151。这样,资源管理应用151可以根据该告警消息进行集群资源调度管理等操作。
需要说明的是,尽管图1示出的检测集群异常的应用162和性能收集器161都驻留在监测服务器160中,但本发明对此不做过多限制。在一个实施例中,性能收集器161和应用162分布在不同的设备节点中。例如,性能收集器161可以被配置为驻留在管理服务器150中。另外,根据本发明的应用151、161和162都不局限于驻留在单个节点设备。在根据本发明又一个实施例中,每个应用都可以是分布式应用。例如,监测集群异常的应用162分布在多个设备节点上。这样,检测集群异常的应用162可以高实时性地完成对性能数据组的检测。下面结合图2对根据本发明的检测集群异常的应用进行更具体的说明。
图2示出了根据本发明一些实施例的检测集群异常的应用200的示意图。需要说明的是,应用200既可以驻留在一个计算设备中,也可以是分布式应用,为了简化描述下文对此不再过多说明。
如图2所示,应用200包括数据获取单元210、相似度计算单元220、第一判断单元230、聚合单元240、第二判断单元250和第三判断单元260。
数据获取单元210适于获取指示集群(100)性能的待检测的性能数据点。由于后续相似度计算的需要,这里的性能数据点包括归一化的多维性能指标。
在根据本发明一个实施例中,数据获取单元210可以从性能收集器(161)获取性能数据组。性能数据组包括多维性能指标。性能数据组中性能指标的量化标准本身是归一化的量纲(性能指标的取值范围为0至1)。这样,数据获取单元210可以将来自性能收集器的每个性能数据组直接作为一个包括多维属性值的性能数据点。
在又一个实施例中,来自性能收集器的性能数据组中至少一部分性能指标非归一化的量纲。换言之,至少一部分性能指标的取值范围不限于0至1的区间。为此,数据获取单元210可以被配置为包括接收模块(未示出)和归一化模块(未示出)。接收模块适于接收来自性能收集器所采集的指示集群性能的性能数据组。归一化模块适于归一化每个性能数据组为一个性能数据点。例如,
pt={n1,...,ni}pt为一个性能数据点,包括i维度的性能指标。每个性能指标为取值范围处于[0,1]区间。
相似度计算单元220适于计算并确定与当前待检测的性能数据点相似度最高的已有性能数据类。在对这个待检测的性能数据点之前,聚合单元230通常已经生成了至少一个性能数据类。每个性能数据类包括一个或多个性能数据点。为了与当前待检测的性能数据点进行区分,本发明中将每个性能数据类中数据点称之为已检测的性能数据点。这里,已有的性能数据类是应用200针对性能数据点建立的基于增量式的聚类模型。具体地,相似度计算单元220可以分别计算待检测的性能数据点与每个已有的性能数据类的相似度,然后确定相似度最高的性能数据类。在一个实施例中,相似度计算单元220首先计算待检测的性能数据点与性能数据类的中心质点。这里的中心质点与性能数据类中每个性能数据点维度相同。中心质点的每个维度的值是该类中所有性能数据点在该维度的均值。换言之,中心质点为该类的质量中心。这里的距离可以是欧氏距离,也可以根据其他公知的距离计算方式来确定。另外,本发明还可以采用例如余弦相似度等公知的相似度计算方式来确定待检测的性能数据点与性能数据类的相似度,这里不再赘述。
在确定待检测的性能数据点与一个性能数据类的中心质点的距离后,相似度计算单元220可以根据该距离来计算待检测的性能数据点与这个性能数据类的相似度。在本发明一个实施例中,相似度计算单元根据下述公式计算性能数据点与性能数据类的相似度。
s i m = 1 1 + d
其中,d为计算得到的待检测的性能数据点与这个性能数据类中线质点的距离,sim为与这个性能数据类的相似度。
在相似度计算单元220确定与这个待检测的性能数据点相似度最高的性能数据类之后,第一判断单元230适于判断这个最高相似度是否超过该性能数据类当前的相似度阈值。这里,相似度阈值可以是一个固定阈值,也可以被配置为自适应调节的阈值。在创建一个性能数据类时,该性能数据类配置有一个初始的相似度阈值,例如为0.5。在性能数据类每增加一个性能数据点时,相似度阈值进行一次调节。关于相似度阈值更详细的说明请见下文。
在第一判断单元230确定这个最高相似度超过当前的相似度阈值时,聚合单元240适于将待检测的性能数据点聚合到这个性能数据类中。
第二判断单元250适于计算聚合后该性能数据类中数据点总数占当前所有性能数据类的数据点总数的比例是否超过异常类阈值。通常,所用性能数据点中,正常数据点数量占较大比重。在计算得到的比例越高时,这个性能数据类是异常类的概率越低。
在第二判断单元250确定未超过异常类阈值时,第三判断单元260对待检测的性能数据点与其加入的性能数据类的中心质点的所有维度的距离进行排序。第三判断单元260提取出预定比例(例如30%)的最大距离,并计算所提取出的最大距离之和与所有维度的距离和之比是否大于距离分布阈值。根据本发明一个实施例,第三判断单元260具体根据下述方式来进行判断。
pt={n1,...,ni}cr={c1,...,ci}di=|ni-ci|其中,pt为一个性能数据点,cr为一个中心质点,ni为待检测的性能数据点pt中第i维性能指标,ci为中心质点cr的第i维数值,di为pt第i维与cr中第i维的距离。
第三判断单元260对所有维度的di进行排序,并计算其中,N为所有维度总数,M为N中预定比例的维度数量,N维距离中最大的M个值的和,为N个距离的和。最后,第三判断单元260判断pr是否大于距离分布阈值。这里,低于距离分布阈值可以表明性能数据点中各维度数据大小较为平均,那这个性能数据点是正常数据点的概率较高。正常数据点可以指示集群不存在异常。在大于距离分布阈值时,第三判断单元260确定待检测的性能数据点为一个异常点。应用200还可以根据异常点生成告警消息并通知资源管理应用(151)。这样,本发明的检测集群异常的应用200通过判断是否大于距离分布阈值,可以提高异常点检测的准确性。
图3示出了根据本发明一些实施例的检测集群异常的应用300的示意图。如图3所示,应用300包括数据获取单元310、相似度计算单元320、第一判断单元330、聚合单元340、第二判断单元350、第三判断单元360、类检测单元370、窗口判断单元380和告警单元390。
数据获取单元310的工作方式与图2中数据获取单元210一致,这里不再赘述。
在一个实施例中,在数据获取单元310获取到一个待检测的性能数据点时,类检测单元370可以判断当前已有的性能数据类总数是否非零。如果为零(表示还没有建立基于增量是的聚类模型),类检测单元370适于指示聚合单元340将这个待检测的性能数据点生成一个性能数据类(即建立新的聚类模型)。这样,这个生成的类可以作为已有的性能数据类,并在此基础上聚合和检测后续获取的待检测性能数据点。
在又一个实施例中,类检测单元370适于判断待检测的性能数据点的维度是否与已有的性能数据类一致。维度若不一致,则表明该待检测的性能数据点不适合与已有的性能数据类进行聚类。因此,相似度计算单元320不需要对该待检测的性能数据点执行操作。这样,应用300适于重新生成性能数据类。换言之,应用300适于清空已有的性能数据点(即,放弃已建立的聚类模型)。例如,类检测单元370可以删除已有的性能数据类,并指示聚合单元340将这个待检测的性能数据点生成一个性能数据类。
在又一个实施例中,类检测单元370可以同时对性能数据类总数是否非零和维度是否一致进行判断。在类检测单元370确定已有的性能数据类总数非零且维度一致时,相似度计算单元320可以对待检测的性能数据点执行与相似度检测单元220一致的操作,这里不再赘述。
第一判断单元330、聚合单元340、第二判断单元350和第三判断单元360可以实现与第一判断单元230、聚合单元240、第二判断单元250和第三判断单元260相同的功能,这里不再赘述。
另外,在待检测的性能数据点加入到一个性能数据类之后,第二判断单元350在确定该性能数据类中数据点总数占当前所有性能数据类的数据点总数的比例超过异常类阈值时,确定待检测的性能数据点是正常数据点(非异常点)。第三判断单元360在确定pr(具体请参见上文中第三判断单元260)未超过距离分布阈值时,确定待检测的性能数据点非异常点。
另外,在第一判断单元330确定待检测的性能数据点与所有性能数据类的相似度未超过当前的相似度阈值时,聚合单元340还适于将这个待检测的性能数据点生成为一个新的性能数据类。聚合单元340判断在加入新生成类之后性能数据类的总数是否超过类别阈值。在超过类别阈值时,聚合单元340适于将所有性能数据类中、距离最近的两个性能数据类合并为一个。这样,本发明的应用300可以对类别总数进行控制,以避免类别数过多。在根据本发明一个实施例中,聚合单元340首先计算计算所有的性能数据类中,两两之间中心质点的距离,然后确定距离最近的两个类cl1和cl2,并将cl1和cl2两个类合并为类cl3。聚合单元340可以根据下述公式确定cl3的中心质点、相似度阈值和数据点总数。
cr3=cr1*np1+cr2*np2
th3=(np1*th1+np2*th2)/(np1+np2)
np3=np1+np2
其中,cr3为cl3的中心质点,cr2为cl2的中心质点,cr1为cl1的中心质点,np1为cl1的数据点总数,np2为cl2的数据点总数,th1为cl1相似度阈值,th2为cl2相似度阈值,th3为cl3的相似度阈值,np3为cl3的数据点总数。
另外,聚合单元340还适于在待检测的性能数据点加入到一个性能数据类之后,更新这个性能数据类的中心质点和相似度阈值。在一个实施例中,聚合单元340根据下述公式更新中心质点和相似度阈值。
cr=(pt+cr*np)/(np+1)
t h = t h + l r n p * ( s i m - t h )
其中,cr为中心质点,np为类中数据点总数,pt为所加入的性能数据点,sim为pt与性能数据类的相似度,th为异常类阈值,lr为用于调节th的学习率阈值。在sim大于更新之前的th时,更新后相似度阈值th增大,即提高了加入数据点的标准。反之,在sim小于更新之前的th时,更新后的的th减小。这样,通过对相似度阈值进行自适应调节,根据本发明的应用300在对性性能数据点进行检测时具有鲁棒性。
综上,在数据获取单元310每获取一个待检测的性能数据点,类检测单元适于判断当前已有的性能数据类是不是为零。
如果为零,聚合单元340将这个性能数据点生成一个性能数据类。换言之,应用300基于这个性能数据点,开始训练一个新的聚类模型。
如果不为零,类检测单元370还可以检测这个性能数据点的维度是否与性能数据类一致。如果不一致,类检测单元370清空已有的性能数据类。换言之,应用300放弃已有的聚类模型,并基于这个性能数据点,开始训练一个新的聚类模型。
如果已有的性能数据类不为零,且待检测的性能数据点维度与已有的性能数据类一致,应用300通过相似度计算单元320、第一判断单元330、聚合单元340、第二判断单元350和第三判断单元360,来判断这个性能数据点是不是异常点。
另外,窗口判断单元380还维护有一个滑动窗口。数据获取单元310每获取一个待检测的性能数据点,窗口判断单元380都会将这个性能数据点加入到滑动窗口中。这样,滑动窗口中始终保持应用300最新获取到的预定数量的性能数据点。在窗口判断单元380将一个性能数据点加入到滑动窗口后,如果第三判断单元360确定该性能数据点为异常点,窗口判断单元380适于判断当前滑动窗口中异常点总数的比例是否超过窗口阈值(例如为0.5,但不限于此)。如果超过窗口阈值,告警单元390还可以根据这个新加入到滑动窗口中的异常点的di(具体参见上文),确定这个异常点的异常性能指标。换言之,告警单元390可以确定多维性能指标中不正常的一个或多个性能指标。在此基础上,告警单元390可以针对异常性能指标生成告警消息。这样,根据本发明的资源管理应用可以根据该告警消息,精确定位发生异常的设备节点,并做出相应的资源管理操作。例如,一条性能数据点包括10个CPU占用率指标。告警单元390确定第5个指标值存在异常。资源管理应用在获取到第5个指标值存在异常的消息后,可以确定第5个指标对应的设备节点存在异常。
图4示出了根据本发明一些实施例的检测集群异常的方法400的流程图。方法400适于在根据本发明的监测服务器中执行。
如图4所示,方法400始于步骤S410。在步骤S410中,获取指示所述集群性能的一个待检测的性能数据点,该性能数据点包括归一化的多维性能指标。根据本发明一个实施例,在步骤S410中,可以从性能收集器(161)获取性能数据组。性能数据组包括多维性能指标。多维性能指标包括根据本发明的集群中内存利用率、CPU利用率、任务吞吐量、任务响应时间、垃圾回收频率中至少一种。性能数据组中性能指标的量化标准本身是归一化的量纲(性能指标的取值范围为0至1)。这样,方法400可以将来自性能收集器的每个性能数据组作为一个包括多维属性值的性能数据点。在又一个实施例中,来自性能收集器的性能数据组中至少一部分性能指标非归一化的量纲。换言之,至少一部分性能指标的取值范围不限于0至1的区间。这样,步骤S410还需要执行归一化性能数据组为一个待检测的性能数据点的操作。
在步骤S410获取一个待检测的性能数据点后,方法400可以执行步骤S420。在步骤S420中,从之前已获取的性能数据点所聚合生成的已有的性能数据类中,确定与该待检测的性能数据点相似度最高的性能数据类。这里,已有的性能数据类实际上是一个已建立的聚类模型。
根据本发明一个实施例,步骤S420包括下述实施过程。首先,计算待检测的性能数据点与已有的每个性能数据类的中心质点的距离。然后,根据与每个性能数据类的中心质点的距离,计算待检测的性能数据点与这个性能数据类的相似度。最后,确定与待检测的性能数据点相似度最高的性能数据类。其中,所计算的距离例如是欧氏距离,但不限于此。另外,相似度计算可以通过下述方式来实现。
s i m = 1 1 + d
其中,d为计算得到的待检测的性能数据点与这个性能数据类的中心质点的距离,sim为与这个性能数据类的相似度。另外,步骤S420还可以采用例如余弦相似度等公知的相似度计算方式来确定待检测的性能数据点与性能数据类的相似度,这里不再赘述。
在步骤S420确定与待检测的性能数据点相似度最高的性能数据类后,方法400进入步骤S430。在步骤S430中,判断该待检测的性能数据点与所确定的性能数据类的相似度是否超过该性能数据类当前的相似度阈值。
在步骤S430中确定超过当前的相似度阈值时,方法400执行步骤S440,将该待检测的性能数据点聚合到所确定的性能数据类中,并计算聚合后该性能数据类中数据点总数占当前所有性能数据类的数据点总数的比例是否超过异常类阈值。
在步骤S440中确定未超过异常类阈值时,方法400进入步骤S450。在步骤S450中,对该待检测的性能数据点与该性能数据类的中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离之和与所有维度的距离和之比、是否大于距离分布阈值。下面结合公式对步骤S450中操作进行更具体的示例性说明。
pt={n1,...,ni}cr={c1,...,ci}
首先,计算di=|ni-ci|其中,ni为待检测的性能数据点pt中第i维性能指标,ci为中心质点cr的第i维数值,di为pt第i维与cr中第i维的距离。
然后,对所有维度的di进行排序,并计算其中,N为所有维度总数,M为N中预定比例的维度数量,为N维距离中最大的M个值的和,为N个距离的和。最后,判断pr是否大于距离分布阈值。
在步骤S450中确定大于距离分布阈值时,方法400进入步骤S460。确定该待检测的性能数据点为一个异常点。方法400更具体的实现细节与应用200一致,这里不再赘述。
图5示出了根据本发明一些实施例的检测集群异常的方法500的流程图。方法500适于在根据本发明的监测服务器中执行。
如图5所示,方法500始于步骤S501。步骤S501执行方式与步骤S410一致,这里不再赘述。
随后,方法进入步骤S502。在步骤S502中,判断当前已有的性能数据类总数是否非零。
在步骤S502中确定已有的性能数据类总数非零时,方法500可以选择执行步骤S503。在步骤S503中,判断待检测的性能数据点的维度是否与已有的性能数据类一致。
在步骤S503中确定维度不一致时,方法500执行步骤S504,放弃已有的性能数据类,并且将待检测的性能数据点生成为一个性能数据类。换言之,步骤S504放弃了已有的聚类模型,并开始一个新的聚类学习过程。
在步骤S502中,确定已有的性能数据类总数为零时(即没有聚类模型),方法执行步骤S505。在步骤S505中,将待检测的性能数据点生成一个性能数据类,并开始一个新的聚类学习过程。
在步骤S503中确定维度一致时,方法500执行步骤S506。步骤S506的实施方式与步骤S420一致,这里不再赘述。需要说明的是,在根据本发明的实施例中性能数据点的维度保持稳定时,方法500可以不执行步骤S503。即,在步骤S502中确定已有的性能数据类总数非零时,直接执行步骤S506。
在步骤S506中确定与待检测的性能数据点相似度最高的性能数据类后,方法500进入步骤S507。步骤S507实施方式与步骤S430一致,这里不再赘述。
在步骤S507中确定相似度未超过性能数据类当前的相似度阈值时,方法500执行步骤S508。在步骤S508中,将待检测的性能数据点新生成一个性能数据类,并将这个类加入到已有的性能数据类中。为了控制聚类模型中类别总数,方法500还执行步骤S509,判断当前(加入一个新类之后)所有的类别总数是否大于类别阈值,并在超过时将距离最近的两个性能数据类合并为一个。根据本发明一个实施例,步骤S509被实施为下述操作过程,但不限于此。
首先,计算所有的性能数据类中,两两之间中心质点的距离,确定距离最近的两个类cl1和cl2
然后,将cl1和cl2两个类合并为类cl3
最后,根据下述公式确定cl3的中心质点、相似度阈值和数据点总数:
cr3=cr1*np1+cr2*np2
th3=(np1*th1+np2*th2)/(np1+np2)
np3=np1+np2
其中,cr3为cl3的中心质点,cr2为cl2的中心质点,cr1为cl1的中心质点,np1为cl1的数据点总数,np2为cl2的数据点总数,th1为cl1相似度阈值,th2为cl2相似度阈值,th3为cl3的相似度阈值,np3为cl3的数据点总数。
在步骤S507中确定超过当前的相似度阈值时,方法500执行步骤S510。步骤S510的实施方式与步骤S440一致,这里不再赘述。
在执行步骤S510之后,方法500还执行步骤S518。在步骤S518中,更新性能数据类的中心质点和相似度阈值。根据本发明一个实施例,在步骤S518中,根据下述公式更新加入待检测的性能数据点之后的性能数据类的中心质点和相似度阈值:
cr=(pt+cr*np)/(np+1)
t h = t h + l r n p * ( s i m - t h )
其中,cr为中心质点,np为类中数据点总数,pt为所加入的性能数据点,sim为pt与性能数据类的相似度,th为异常类阈值,lr为用于调节th的学习率阈值。
在步骤S510中确定比例超过异常类阈值时,方法执行步骤S511,确定待检测的性能数据点为非异常点。
在步骤S510中,确定比例未超过异常类阈值时,方法500进入步骤S512。步骤S512的实施方式与步骤S450一致,这里不再赘述。
在步骤S512中确定未大于距离分布阈值时,方法500选择执行步骤S511。
在步骤S512中确定大于距离分布阈值时,方法500进入步骤S513。步骤S513的实施方式与步骤S460一致,这里不再赘述。
综上,方法500在步骤S511和S513中,确定了待检测的性能数据点是否为异常点。通过步骤S504和S505,方法500新建一个性能数据类。这个类聚类模型的第一个类。通过步骤S508和S509,方法500可以将一个待检测的性能数据点生成一个新的性能数据类,并将聚类模型的类别总数控制在类别阈值的范围内。
可选地,方法500还包括步骤S514。在步骤S514中,将待检测的性能数据点加入到一个滑动窗口中。该滑动窗口通常保留有方法500执行过程中最新获取的预定数量(即窗口的预定宽度)的性能数据点(即通过步骤S501获取的性能数据点)。需要说明的是,方法500在执行步骤S504和S505时,步骤S514将清除滑动窗口中在新建的性能数据类中性能数据点之前的数据点。
另外,在步骤S514中加入一个性能数据点为异常点时,方法500还执行步骤S515。在步骤S515中,判断滑动窗口中异常点的比例是否超过窗口阈值。
在步骤S515中超过窗口阈值时,方法500执行步骤S516,根据异常点与中心质点在每个维度的距离,确定待检测的性能数据点中的异常性能指标。
方法500还包括步骤S517,生成针对异常性能指标的告警消息。方法500更具体的实施方式与应用300一致,这里不再赘述。
A9、如A1-A8中任一项所述的方法,还包括:将待检测的性能数据点加入到一个滑动窗口中,该滑动窗口保持有最新获取到的预定数量的性能数据点;在确定该待检测的性能数据点为一个异常点时,判断该滑动窗口中异常点的比例是否超过窗口阈值。A10、如A9所述的方法,还包括:在超过所述窗口阈值时,根据所述每个维度性能指标的距离,确定所述待检测的性能数据点中的异常性能指标。A11、如A1-A10中任一项所述的方法,在所述待检测的性能数据点与所确定的性能数据类的相似度未超过该性能数据类当前的相似度阈值时,该方法还包括:将该待检测的性能数据点新生成为一个性能数据类并将这个类加入到已有的性能数据类中;判断当前所有的性能数据类的类别总数是否超过类别阈值,并在超过时将距离最近的两个性能数据类合并为一个。A12、如A11所述的方法,其中,所述将距离最近的两个性能数据类合并为一个的操作包括:计算所有的性能数据类中,两两之间中心质点的距离,确定距离最近的两个类cl1和cl2
将cl1和cl2两个类合并为类cl3
根据下述公式确定cl3的中心质点、相似度阈值和数据点总数:
cr3=cr1*np1+cr2*np2
th3=(np1*th1+np2*th2)/(np1+np2)
np3=np1+np2
其中,cr3为cl3的中心质点,cr2为cl2的中心质点,cr1为cl1的中心质点,np1为cl1的数据点总数,np2为cl2的数据点总数,th1为cl1相似度阈值,th2为cl2相似度阈值,th3为cl3的相似度阈值,np3为cl3的数据点总数。
A13、如A1-A12中任一项所述的方法,还包括:在超过异常类阈值时,确定所述待检测的性能数据点为非异常点;在未超过距离分布阈值时,确定所述待检测的性能数据点为非异常点。A14、如A1-A13中任一项所述的方法,在执行所述确定与该待检测的性能数据点相似度最高的性能数据类之前,该方法还包括:判断当前已有的性能数据类总数是否非零;和\或判断待检测的性能数据点的维度是否与已有的性能数据类一致。A15、如A14所述的方法,还包括:在确定当前已有的性能数据类总数为零,或者确定所述维度与已有的性能数据类不一致时,将该待检测的性能数据点生成为一个性能数据类。A17、如A16所述的应用,所述数据获取单元进一步包括:接收模块,适于接收来自性能收集器所采集的指示集群性能的一个性能数据组,该性能数据组包括多维性能指标;和归一化模块,适于归一化该性能数据组为所述性能数据点。A18、如A16或A17所述的应用,其中,所述多维性能指标包括所述集群中内存利用率、CPU利用率、任务吞吐量、任务响应时间、垃圾回收频率中至少一种。A19、如A16-A18中任一项所述的应用,其中,所述相似度计算单元适于根据下述方式确定所述待检测的性能数据点相似度最高的性能数据类:计算待检测的性能数据点与已有的每个性能数据类的中心质点的距离;根据与每个性能数据类的中心质点的距离,计算待检测的性能数据点与这个性能数据类的相似度;确定与待检测的性能数据点相似度最高的性能数据类。A20、如A19所述的应用,其中,所述相似度计算单元适于根据下述方式计算待检测的性能数据点与已有的每个性能数据类的中心质点的距离:计算待检测的性能数据点与每个性能数据类的中心质点的欧式距离。A21、如A19或A20所述的应用,其中,所述相似度计算单元适于根据下述公式计算待检测的性能数据点与这个性能数据类的相似度:
s i m = 1 1 + d
其中,d为计算得到的待检测的性能数据点与这个性能数据类中心质点的距离,sim为与这个性能数据类的相似度。A22、如权利要求A16-A21中任一项所述的应用,其中,所述聚合单元还适于:
根据下述公式更新加入待检测的性能数据点之后的性能数据类的中心质点和相似度阈值:
cr=(pt+cr*np)/(np+1)
t h = t h + l r n p * ( s i m - t h )
其中,cr为中心质点,np为类中数据点总数,pt为所加入的性能数据点,sim为pt与性能数据类的相似度,th为异常类阈值,lr为用于调节th的学习率阈值。
A23、如权利要求A16-A22中任一项所述的应用,其中,所述第三判断单元适于根据下述方式执行所述对该待检测的性能数据点与该性能数据类的中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离和与所有维度的距离和之比、是否大于距离分布阈值:
pt={n1,...,ni}cr={c1,...,ci}di=|ni-ci|ni为待检测的性能数据点pt中第i维性能指标,ci为中心质点cr的第i维数值,di为pt第i维与cr中第i维的距离,
对所有维度的di进行排序,并计算其中,N为所有维度总数,M为N中预定比例的维度数量,为N维距离中最大的M个值的和,为N个距离的和,
判断pr是否大于距离分布阈值。
A24、如A16-A23中任一项所述的应用,还包括窗口判断单元,适于:
将待检测的性能数据点加入到一个滑动窗口中,该滑动窗口保持有最新获取到的预定数量的性能数据点;以及
在第三判断单元确定该待检测的性能数据点为一个异常点时,判断该滑动窗口中异常点的比例是否超过窗口阈值。
A25、如A24所述的应用,还包括告警单元,适于在所述窗口判断单元确定超过所述窗口阈值时,根据所述每个维度性能指标的距离,确定所述待检测的性能数据点中的异常性能指标。
A26、如A16-A25中任一项所述的应用,其中所述聚合单元还适于,在第一判断单元确定所述待检测的性能数据点与所确定的性能数据类的相似度未超过该性能数据类当前的相似度阈值时,
将该待检测的性能数据点新生成为一个性能数据类并将这个类加入到已有的性能数据类中,
判断当前所有的性能数据类的类别总数是否超过类别阈值,并在超过时将距离最近的两个性能数据类合并为一个。
A27、如A26所述的应用,其中,所述聚合单元适于根据下述方式将距离最近的两个性能数据类合并为一个:
计算所有的性能数据类中,两两之间中心质点的距离,确定距离最近的两个类cl1和cl2
将cl1和cl2两个类合并为类cl3
根据下述公式确定cl3的中心质点、相似度阈值和数据点总数:
cr3=cr1*np1+cr2*np2
th3=(np1*th1+np2*th2)/(np1+np2)
np3=np1+np2
其中,cr3为cl3的中心质点,cr2为cl2的中心质点,cr1为cl1的中心质点,np1为cl1的数据点总数,np2为cl2的数据点总数,th1为cl1相似度阈值,th2为cl2相似度阈值,th3为cl3的相似度阈值,np3为cl3的数据点总数。
A28、如A16-A27中任一项所述的应用,其中,
所述第二判断单元还适于在超过异常类阈值时,确定所述待检测的性能数据点非异常点;
所述第三判断单元还适于在未超过距离分布阈值时,确定所述待检测的性能数据点非异常点。
A29、如A16-A28中任一项所述的应用,还包括类检测单元,适于在计算相似度单元确定与该待检测的性能数据点相似度最高的性能数据类之前,
判断当前已有的性能数据类总数是否非零;和\或
判断待检测的性能数据点的维度是否与已有的性能数据类一致。
A30、如A29所述的应用,其中,所述类检测单元还适于,在确定当前已有的性能数据类总数为零,或者确定所述维度与已有的性能数据类不一致时,指示所述聚合单元将该待检测的性能数据点生成一个性能数据类。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种检测集群异常的方法,包括:
获取指示所述集群性能的一个待检测的性能数据点,该性能数据点包括归一化的多维性能指标;
从已有的由之前所获取的性能数据点所聚合生成的性能数据类中,确定与该待检测的性能数据点相似度最高的性能数据类;
判断该待检测的性能数据点与所确定的性能数据类的相似度是否超过该性能数据类当前的相似度阈值;
在超过当前的相似度阈值时,将该待检测的性能数据点聚合到所确定的性能数据类中,并计算聚合后该性能数据类中数据点总数占当前所有性能数据类的数据点总数的比例是否超过异常类阈值;
在未超过异常类阈值时,对该待检测的性能数据点与该性能数据类的中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离之和与所有维度的距离和之比、是否大于距离分布阈值;以及
在大于距离分布阈值时,确定该待检测的性能数据点为一个异常点。
2.如权利要求1所述的方法,所述获取指示所述集群性能的一个待检测的性能数据点的步骤包括:
接收来自性能收集器所采集的指示集群性能的一个性能数据组,该性能数据组包括多维性能指标;
归一化该性能数据组为所述性能数据点。
3.如权利要求1或2所述的方法,其中,所述多维性能指标包括所述集群中内存利用率、CPU利用率、任务吞吐量、任务响应时间、垃圾回收频率中至少一种。
4.如权利要求1-3中任一项所述的方法,其中,确定所述待检测的性能数据点相似度最高的性能数据类的步骤包括:
计算待检测的性能数据点与已有的每个性能数据类的中心质点的距离;
根据与每个性能数据类的中心质点的距离,计算待检测的性能数据点与这个性能数据类的相似度;
确定与待检测的性能数据点相似度最高的性能数据类。
5.如权利要求4所述的方法,其中,所述计算待检测的性能数据点与已有的每个性能数据类的中心质点的距离的步骤包括:
计算待检测的性能数据点与每个性能数据类的中心质点的欧式距离。
6.如权利要求4或5所述的方法,其中,计算待检测的性能数据点与这个性能数据类的相似度的操作包括:
s i m = 1 1 + d
其中,d为计算得到的待检测的性能数据点与这个性能数据类的中心质点的距离,sim为与这个性能数据类的相似度。
7.如权利要求1-6中任一项所述的方法,在执行所述将待检测的性能数据点聚合到所确定的性能数据类中,并计算聚合后该性能数据类中数据点总数占当前所有性能数据类的数据点总数的比例是否超过异常类阈值的步骤之后,该方法还包括:
根据下述公式更新加入待检测的性能数据点之后的性能数据类的中心质点和相似度阈值:
cr=(pt+cr*np)/(np+1)
t h = t h + l r n p * ( s i m - t h )
其中,cr为中心质点,np为类中数据点总数,pt为所加入的性能数据点,sim为pt与性能数据类的相似度,th为异常类阈值,lr为用于调节th的学习率阈值。
8.如权利要求1-7中任一项所述的方法,其中,所述对该待检测的性能数据点与该性能数据类的中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离和与所有维度的距离和之比、是否大于距离分布阈值的步骤包括:
pt={n1,...,ni}cr={c1,...,ci}di=|ni-ci|ni为待检测的性能数据点pt中第i维性能指标,ci为中心质点cr的第i维数值,di为pt第i维与cr中第i维的距离,
对所有维度的di进行排序,并计算其中,N为所有维度总数,M为N中预定比例的维度数量,为N维距离中最大的M个值的和,为N个距离的和,
判断pr是否大于距离分布阈值。
9.一种检测集群异常的应用,包括:
数据获取单元,适于获取指示所述集群性能的一个待检测的性能数据点,该性能数据点包括归一化的多维性能指标;
相似度计算单元,适于从已有的由之前所获取的性能数据点所聚合生成的性能数据类中,确定与该待检测的性能数据点相似度最高的性能数据类;
第一判断单元,适于判断该待检测的性能数据点与所确定的性能数据类的相似度是否超过该性能数据类当前的相似度阈值;
聚合单元,适于在第一判断单元确定超过当前的相似度阈值时,将该待检测的性能数据点聚合到所确定的性能数据类中;
第二判断单元,适于计算聚合后该性能数据类中数据点总数占当前所有性能数据类的数据点总数的比例是否超过异常类阈值;以及
第三判断单元,适于在未超过异常类阈值时,对该待检测的性能数据点与该性能数据类的中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离之和与所有维度的距离和之比、是否大于距离分布阈值,
并在大于距离分布阈值时,确定该待检测的性能数据点为一个异常点。
10.一种管理集群的***,包括:
性能收集器,适于收集所述集群的性能指标;
如权利要求9的检测集群异常的应用;以及
资源管理应用,适于根据所述检测集群异常的应用所生成的告警消息,调节所述集群的资源配置。
CN201610380755.8A 2016-06-01 2016-06-01 检测集群异常的方法及应用、管理集群的*** Active CN105871634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610380755.8A CN105871634B (zh) 2016-06-01 2016-06-01 检测集群异常的方法及应用、管理集群的***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610380755.8A CN105871634B (zh) 2016-06-01 2016-06-01 检测集群异常的方法及应用、管理集群的***

Publications (2)

Publication Number Publication Date
CN105871634A true CN105871634A (zh) 2016-08-17
CN105871634B CN105871634B (zh) 2019-02-15

Family

ID=56675631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610380755.8A Active CN105871634B (zh) 2016-06-01 2016-06-01 检测集群异常的方法及应用、管理集群的***

Country Status (1)

Country Link
CN (1) CN105871634B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107238407A (zh) * 2017-05-03 2017-10-10 华北水利水电大学 南水北调工程安全数据异常模式发现方法及***
CN107528904A (zh) * 2017-09-01 2017-12-29 星环信息科技(上海)有限公司 用于数据分布式异常检测的方法与设备
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及***
CN107995030A (zh) * 2017-11-28 2018-05-04 车智互联(北京)科技有限公司 一种网络探测方法、网络故障检测方法及***
CN108206813A (zh) * 2016-12-19 2018-06-26 ***通信集团山西有限公司 基于k均值聚类算法的安全审计方法、装置及服务器
CN108228442A (zh) * 2016-12-14 2018-06-29 华为技术有限公司 一种异常节点的检测方法及装置
CN109271289A (zh) * 2017-07-18 2019-01-25 车伯乐(北京)信息科技有限公司 一种应用接口监控方法、装置、设备及计算机可读介质
CN109374063A (zh) * 2018-12-04 2019-02-22 广东电网有限责任公司 一种基于集群管理的变压器异常检测方法、装置和设备
CN110502346A (zh) * 2019-08-28 2019-11-26 高瑶 一种集群环境下资源信息管理***及方法
CN111612038A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法及装置、存储介质、电子设备
US10977112B2 (en) 2019-01-22 2021-04-13 International Business Machines Corporation Performance anomaly detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102104611A (zh) * 2011-03-31 2011-06-22 中国人民解放军信息工程大学 一种基于混杂模式的DDoS攻击检测方法及装置
CN102547715A (zh) * 2012-02-07 2012-07-04 上海交通大学 无线网状网络攻击检测方法
CN103001825A (zh) * 2012-11-15 2013-03-27 中国科学院计算机网络信息中心 Dns流量异常的检测方法和***
CN104536996A (zh) * 2014-12-12 2015-04-22 南京理工大学 一种同构环境下计算节点异常检测方法
US20150219530A1 (en) * 2013-12-23 2015-08-06 Exxonmobil Research And Engineering Company Systems and methods for event detection and diagnosis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102104611A (zh) * 2011-03-31 2011-06-22 中国人民解放军信息工程大学 一种基于混杂模式的DDoS攻击检测方法及装置
CN102547715A (zh) * 2012-02-07 2012-07-04 上海交通大学 无线网状网络攻击检测方法
CN103001825A (zh) * 2012-11-15 2013-03-27 中国科学院计算机网络信息中心 Dns流量异常的检测方法和***
US20150219530A1 (en) * 2013-12-23 2015-08-06 Exxonmobil Research And Engineering Company Systems and methods for event detection and diagnosis
CN104536996A (zh) * 2014-12-12 2015-04-22 南京理工大学 一种同构环境下计算节点异常检测方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228442B (zh) * 2016-12-14 2020-10-27 华为技术有限公司 一种异常节点的检测方法及装置
CN108228442A (zh) * 2016-12-14 2018-06-29 华为技术有限公司 一种异常节点的检测方法及装置
CN108206813A (zh) * 2016-12-19 2018-06-26 ***通信集团山西有限公司 基于k均值聚类算法的安全审计方法、装置及服务器
CN108206813B (zh) * 2016-12-19 2021-08-06 ***通信集团山西有限公司 基于k均值聚类算法的安全审计方法、装置及服务器
CN107238407B (zh) * 2017-05-03 2019-10-08 华北水利水电大学 南水北调工程安全数据异常模式发现方法及***
CN107238407A (zh) * 2017-05-03 2017-10-10 华北水利水电大学 南水北调工程安全数据异常模式发现方法及***
CN109271289A (zh) * 2017-07-18 2019-01-25 车伯乐(北京)信息科技有限公司 一种应用接口监控方法、装置、设备及计算机可读介质
CN109271289B (zh) * 2017-07-18 2022-05-03 车伯乐(北京)信息科技有限公司 一种应用接口监控方法、装置、设备及计算机可读介质
CN107528904A (zh) * 2017-09-01 2017-12-29 星环信息科技(上海)有限公司 用于数据分布式异常检测的方法与设备
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及***
CN107835098B (zh) * 2017-11-28 2021-01-29 车智互联(北京)科技有限公司 一种网络故障检测方法及***
CN107995030A (zh) * 2017-11-28 2018-05-04 车智互联(北京)科技有限公司 一种网络探测方法、网络故障检测方法及***
CN107995030B (zh) * 2017-11-28 2021-09-14 车智互联(北京)科技有限公司 一种网络探测方法、网络故障检测方法及***
CN109374063A (zh) * 2018-12-04 2019-02-22 广东电网有限责任公司 一种基于集群管理的变压器异常检测方法、装置和设备
US10977112B2 (en) 2019-01-22 2021-04-13 International Business Machines Corporation Performance anomaly detection
US11269714B2 (en) 2019-01-22 2022-03-08 International Business Machines Corporation Performance anomaly detection
CN110502346A (zh) * 2019-08-28 2019-11-26 高瑶 一种集群环境下资源信息管理***及方法
CN111612038A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法及装置、存储介质、电子设备
CN111612038B (zh) * 2020-04-24 2024-04-26 平安直通咨询有限公司上海分公司 异常用户检测方法及装置、存储介质、电子设备

Also Published As

Publication number Publication date
CN105871634B (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN105871634A (zh) 检测集群异常的方法及应用、管理集群的***
WO2020259421A1 (zh) 一种业务***的监控方法及装置
Charrad et al. NbClust: an R package for determining the relevant number of clusters in a data set
CN105825298B (zh) 一种基于负荷特性预估的电网计量预警***及方法
CN110362612B (zh) 由电子设备执行的异常数据检测方法、装置和电子设备
CN106600115A (zh) 一种企业信息***运维智能分析方法
CN108429649B (zh) 基于多次单类型采集结果的综合异常判断的***
US20210014102A1 (en) Reinforced machine learning tool for anomaly detection
CN111176953B (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
US11494690B2 (en) Apparatus and method of high dimensional data analysis in real-time
CN111367747B (zh) 基于时间标注的指标异动检测预警的装置
US20150205856A1 (en) Dynamic brownian motion with density superposition for abnormality detection
CN112906738B (zh) 一种水质检测及处理方法
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN111294841A (zh) 一种无线网络问题的处理方法、装置及存储介质
CN115996249A (zh) 一种基于分级的数据传输方法及装置
CN113810792B (zh) 一种基于云计算的边缘数据采集分析***
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
CN115114124A (zh) 主机风险的评估方法及评估装置
Maksimović et al. Comparative analysis of data mining techniques applied to wireless sensor network data for fire detection
CN109976986A (zh) 异常设备的检测方法及装置
CN116228312A (zh) 大额积分兑换行为的处理方法和装置
JP6625839B2 (ja) 負荷実績データ判別装置、負荷予測装置、負荷実績データ判別方法及び負荷予測方法
CN104714205B (zh) 电表错置侦测***及其方法
CN116126807A (zh) 一种日志分析方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220720

Address after: 100193 room 101-216, 2nd floor, building 4, East District, yard 10, northwest Wangdong Road, Haidian District, Beijing

Patentee after: Beijing Ruixiang Technology Co.,Ltd.

Address before: 100191 floors 3 and 4, building a-5, Dongsheng Science Park, Zhongguancun, No. 66, xixiaokou Road, Haidian District, Beijing

Patentee before: BEIJING ONEAPM Co.,Ltd.

TR01 Transfer of patent right