CN113810207A - 根因服务器定位方法以及根因服务器定位装置 - Google Patents
根因服务器定位方法以及根因服务器定位装置 Download PDFInfo
- Publication number
- CN113810207A CN113810207A CN202010535812.1A CN202010535812A CN113810207A CN 113810207 A CN113810207 A CN 113810207A CN 202010535812 A CN202010535812 A CN 202010535812A CN 113810207 A CN113810207 A CN 113810207A
- Authority
- CN
- China
- Prior art keywords
- server
- resource pool
- sudden change
- flow
- root cause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000001514 detection method Methods 0.000 claims abstract description 207
- 230000008859 change Effects 0.000 claims abstract description 183
- 238000005070 sampling Methods 0.000 claims abstract description 111
- 230000035772 mutation Effects 0.000 claims description 93
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 239000012855 volatile organic compound Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 description 20
- 238000012544 monitoring process Methods 0.000 description 12
- 230000002159 abnormal effect Effects 0.000 description 8
- 238000013500 data storage Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0681—Configuration of triggering conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/022—Capturing of monitoring data by sampling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供根因服务器定位方法以及根因服务器定位装置。一种根因服务器定位方法,用于定位造成包括多个服务器的资源池的出口流量突变的根因服务器,所述方法包括:采集资源池的出口流量的采样数据和资源池内的各服务器的流出流量的采样数据;利用资源池的出口流量的采样数据计算资源池的突变检测阈值,利用资源池的突变检测阈值对资源池的出口流量进行突变检测;当检测到资源池的出口流量发生突变时,根据资源池内的各服务器的流出流量的采样数据计算各服务器的突变检测阈值,利用各服务器的突变检测阈值分别对各服务器的流出流量进行突变检测,得到各服务器的流量变化量;根据各服务器的流量变化量确定造成资源池的出口流量突变的根因服务器。
Description
技术领域
本发明涉及资源池网络运维监控技术,尤其涉及一种定位造成资源池出口流量突变的根因服务器的方法及装置。
背景技术
资源池监控***是云平台平稳运行的重要保障,而网络流量监控是资源池监控***的一个重要组成部分,也是运维人员及时发现网络异常和排查网络故障的重要手段。
分布式网络监控***对流量数据的采集方式可分为主动模式和被动模式两种。主动和被动是相对于采集流量数据的客户端而言的。主动模式是指客户端周期性地主动采集流量数据并返回给服务端,不需要服务端进行干预;被动模式是指服务端周期性地向客户端发出指令,客户端被动地接收请求并采集流量数据,然后返回给服务端。如果采用主动模式,可以减轻服务端的压力,但是由于各客户端自主采集数据,采集时间不同步,导致流量监测数据的时间戳不一定相同。如果采用被动模式,根据服务端的指令采集数据,可以缓解时间不同步的问题,但是当监控数百台服务器和网络设备时,服务端压力过大,可能无法及时收到最新数据。
在大规模的资源池监控中,由于监控对象众多,为减少服务器压力,一般采用主动模式监测网络流量变化,并且采样间隔设定在分钟级,而非秒级。由此导致实际采集的流量数据具有以下几个特点:
1)在相同的时间区间内,各端口的流量采样点的时间戳可能不一致,采样点的数量也可能不相同;
2)由于网络和设备性能的影响,各端口的采样时间间隔可能和设定值不一致,存在波动性的误差;
3)由于采样时间间隔在分钟级,监测的流量为此间隔内的平均值,无法体现流量的实际峰值变化;
4)由于采样时间不同步,采样间隔存在误差,导致各端口的流量数据无法在时间上建立一一对应的关系。
目前对网络流量的监测主要用来做流量值的异常检测,通过在线分析网络流量大小,及时发现流量值异常,生成告警信息。和流量值异常相比,流量突变是指流量在短时间内出现了大幅度的上升或下降,体现的是流量变化幅度的异常。即便某时刻的流量值没有超过报警阈值,也可能发生突变异常。
对于造成资源池出口流量突变的根因设备,目前缺少有效的手段进行自动化的排查和定位。专利CN106209404B提供了一种网络异常流量分析方法及***。当侦测到指定端口出现流量异常时,计算与下级设备各上行端口流量变化的相似度;当相似度大于预设阈值时,选定为当前设备,然后继续逐级向下,直到确定根设备,并将此根设备确定为产生流量异常的根因设备。然而在专利CN106209404B的实施中,发现此方法存在两个突出问题:
1)对各端口采样数据的时间一致性要求高。根据此方法的相似度计算公式,在预设的时间段内,各端口流量采样点的数量需要相同。实际中,各客户端流量的采样时间和采样间隔存在偏差,所以在相同的时间段内,各端口并不一定具备相同数量的流量采样点。
2)对根因设备的误判风险高。来自于下级设备的流量,会在上级的网络设备中汇聚和叠加;上级设备出口流量的异常,可能是多个不同的下级设备上行流量异常汇聚的结果。采用自上而下、逐级排查根设备的方法时,由于流量采样误差和流量叠加因素的存在,一旦中间计算出现偏差,选择了错误的设备分支,很可能导致误判根因设备。
因此,针对资源池出口流量突变问题,需要一种能够应对流量采样时间不同步、并降低根因设备误判风险的根因服务器快速定位方法及***。
发明内容
有鉴于此,本发明的目的在于提供一种针对造成资源池出口流量突变的根因服务器进行定位的方法及装置。
根据本发明的一个方面,提供一种根因服务器定位方法,用于定位造成包括多个服务器的资源池的出口流量突变的根因服务器,其特征在于,所述方法包括:
采集所述资源池的出口流量的采样数据和所述资源池内的各服务器的流出流量的采样数据;
利用所述资源池的出口流量的采样数据计算所述资源池的突变检测阈值,利用所述资源池的突变检测阈值对所述资源池的出口流量进行突变检测;
当检测到所述资源池的出口流量发生突变时,根据所述资源池内的各服务器的流出流量的采样数据计算各服务器的突变检测阈值,利用各服务器的突变检测阈值分别对各服务器的流出流量进行突变检测,得到各服务器的流量变化量;
根据各服务器的流量变化量确定造成所述资源池的出口流量突变的根因服务器。
优选地,在采集所述资源池的出口流量的采样数据时,按照第一采样频率对所述资源池的出口流量进行采样,得到所述资源池的出口流量的采样数据,在采集所述资源池内的各服务器的流出流量的采样数据时,按照与所述第一采样频率相同或者不同的第二采样频率对各服务器的流出流量进行采样,得到各服务器的的流出流量的采样数据,
所述采样数据为采样时间间隔内的流量变化平均值。
优选地,在计算突变检测阈值时,利用采样数据的四分位距计算突变检测阈值。
优选地,在对流量进行突变检测时,利用突变检测阈值和采样数据的1步差分和2步差分,检测流量是否突变。
优选地,计算所述资源池的突变检测阈值的步骤包括:
获取所述资源池的出口流量的与采样时刻[t1,t2,…,tn]对应的采样数据[x1,x2,…,xn],其中n是大于1的自然数;
计算[x1,x2,…,xn]的第一四分位数Q1和第三四分位数Q3;
计算第三四分位数与第一四分位数的差值,得到四分位距IQR,即
IQR=Q3-Q1
获取[x1,x2,…,xn]中的最大值xmax和最小值xmin,计算最大值xmax和最小值xmin的差值,得到极差RG,即
RG=xmax-xmin
突变检测阈值h的计算公式为
其中,w是大于0的常数。
优选地,对所述资源池的出口流量进行突变检测的步骤包括:
获取所述资源池的出口流量的与采样时刻tn+1对应的采样数据xn+1,计算1步差分d1=|xn+1-xn|,并通过比较所述1步差分d1和所述资源池的突变检测阈值h来对所述资源池的出口流量进行突变检测。
优选地,当通过比较所述1步差分d1和所述资源池的突变检测阈值h未检测到所述资源池的出口流量突变时,计算2步差分d2=|xn+1-xn-1|,并通过比较2步差分d2和所述资源池的突变检测阈值h来对所述资源池的出口流量进行突变检测。
优选地,当通过比较2步差分d2和所述资源池的突变检测阈值h未检测到所述资源池的出口流量突变时,获取所述资源池的出口流量的与采样时刻[t2,…,tn,tn+1]对应的采样数据[x2,…,xn,xn+1],并将采样时刻[t2,…,tn,tn+1]作为[t1,t2,…,tn],将采样数据[x2,…,xn,xn+1]作为[x1,x2,…,xn],重新计算所述资源池的突变检测阈值并利用重新计算出的所述资源池的突变检测阈值对所述资源池的出口流量进行突变检测。
优选地,假设资源池内存在m个服务器,hj表示资源池内的第j个服务器的服务器突变检测阈值,j=1,2,…,m,计算第j个服务器的服务器突变检测阈值hj的步骤包括:
计算第三四分位数与第一四分位数的差值,得到四分位距IQRj,即
IQRj=Q3j-Q1j
突变检测阈值hj的计算公式为
其中,wj是大于0的常数。
优选地,对第j个服务器的流出流量进行突变检测的步骤包括:
优选地,当通过比较第j个服务器的1步差分和第j个服务器的突变检测阈值hj未检测到第j个服务器的出口流量突变时,计算第j个服务器的2步差分并通过比较所述2步差分和第j个服务器的突变检测阈值hj来对第j个服务器的出口流量进行突变检测。
优选地,利用下述公式(1),得到各服务器的突变检测结果[r1,…,rj,…,rm],
当rj为1时,表示第j个服务器的流出流量出现突变,利用下述公式(2)计算第j个服务器的流量变化量pj为,
当rj为0时,表示第j个服务器的流出流量未出现突变,第j个服务器的流量变化量pj为0,
由此得到各服务器的流量变化量[p1,…,pj,…,pm]。
优选地,确定根因服务器的步骤包括:
统计各服务器的流出流量的突变检测结果[r1,…,rj,…,rm]中的rj等于1的次数c,
当c=1时,将突变检测结果为1的服务器判定为第一根因服务器;
当c=2时,比较突变检测结果为1的两个服务器的流量变化量的大小,将具有相对较大的流量变化量的服务器确定为第一根因服务器,将具有相对较小的流量变化量的服务器确定为第二根因服务器,
当c≥3时,获取突变检测结果为1的与c的值相应数量的服务器的流量变化量,并将流量变化量按大小从高到低进行排序,选取具有前三名的流量变化量的服务器作为第一根因服务器、第二根因服务器和第三根因服务器。
优选地,统计各服务器的流出流量的突变检测结果[r1,…,rj,…,rm]中的rj等于1的次数c,当c=0时,获取各服务器的与采样时刻对应的采样数据并将采样时刻作为将采样数据作为重新计算各服务器的突变检测阈值并利用重新计算出的各服务器的突变检测阈值分别对各服务器的流出流量进行突变检测,重新得到各服务器的流量变化量,并根据重新得到的各服务器的流量变化量确定根因服务器。
根据本发明的另一个方面,提供一种根因服务器定位装置,用于定位造成包括多个服务器的资源池的出口流量突变的根因服务器,所述根因服务器定位装置包括:
数据采集模块,用于采集所述资源池的出口流量的采样数据和所述资源池内的各服务器的流出流量的采样数据;
阈值计算模块,用于利用所述数据采集模块采集的所述资源池的出口流量的采样数据计算所述资源池的突变检测阈值,用于利用各服务器的流出流量的采样数据计算各服务器的突变检测阈值;
突变检测模块,用于根据所述阈值计算模块计算出的所述资源池的突变检测阈值,对所述资源池的出口流量进行突变检测,用于根据阈值计算模块计算出的各服务器的突变检测阈值,对各服务器的流出流量进行突变检测;
根因服务器定位模块,根据所述突变检测模块针对各服务器的流出流量的突变检测结果,确定造成所述资源池的出口流量突变的根因服务器。
根据本发明的又一个方面,提供一种存储介质,其上存储有计算机程序指令,该程序被处理器执行时实现上述根因服务器定位方法。
根据本发明,利用时间不同步的流量采样数据,检测资源池的出口流量的变化,当发现了资源池的出口流量突变时,能够快速排查并定位造成此突变的根因服务器,提高了定位根因服务器的准确率,降低了误判率。
本发明通过独立突变检测、动态阈值更新、1步差分、2步差分以及延时一个采样点等方法,解决了流量采样时间不同步、采样间隔不准确、相同时间区间内采样点数量不一致的问题。当资源池出口流量发生突变时,通过排查相邻时间域内发生流量突变的服务器,确定引起资源池出口流量突变的根因服务器。相比于对流量采样时间一致性要求较高的方法,本发明更适用于采用主动模式的资源池大规模网络监控。
当资源池出口流量发生突变时,直接检测各服务器的流出流量变化。相比于逐级向下检测流量变化相似度的方法,本发明提供的方法不仅缩短了设备检查路径,降低了计算复杂度,还降低了根因服务器的误判率。特别是当多个服务器流量异常引起资源池出口流量突变时,本发明的方法可以降低服务器的漏判率,提高根因服务器定位的准确率。
附图说明
图1是本发明实施方式所涉及的资源池的一种网络结构图。
图2是本发明实施方式所涉及的资源池出口流量突变根因服务器定位装置的结构图。
图3是资源池出口流量突变根因服务器定位方法的流程图。
图4是示出资源池的出口流量数据的突变检测的流程图。
图5是示出得到各服务器的检测结果和流量变化量的流程图。
具体实施方式
为了使本技术领域人员更好地理解本发明中的技术方案,下面结合附图和具体实施例,对本发明的技术方案作进一步描述。显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。
图1是本发明实施方式所涉及的资源池的一种网络结构图。如图1所示,资源池包括多个服务器102、4个接入交换机103、2个汇聚交换机104、2个核心交换机105、2个出口路由器101。服务器102与接入交换机103相连,接入交换机103通过汇聚交换机104和核心交换机105连接,核心交换机105与出口路由器101连接,出口路由器101与上层网络相连。资源池的网络结构可根据服务器数量和业务需求选择不同层次的交换机连接方式,并不限于图1所示的网络结构。即,服务器102、接入交换机103、汇聚交换机104、核心交换机105、出口路由器101的数量不限于图1所示的数量,另外,服务器102与出口路由器101之间的交换机的层次、连接方式以及数量也不限于图1所示的结构。
本发明实施方式提供能够快速定位造成资源池的出口流量突变的服务器,在本发明实施方式中将造成资源池的出口流量突变的服务器称为根因服务器。图2为本发明实施方式所涉及的资源池出口流量突变根因服务器定位装置的结构图。如图2所示,资源池出口流量突变根因服务器定位装置包括数据采集模块201、数据存储模块202、数据读取模块203、阈值计算模块204、突变检测模块205、根因服务器定位模块206和结果显示模块207。
其中,数据采集模块201负责采集资源池的出口流量数据和各服务器102的流出流量数据。其中,资源池的出口流量数据是通过采集出口路由器101的上行的出口流量数据来采集的。另外,资源池的出口流量数据可以是资源池中包含的所有出口路由器101的上行的出口流量的总和。数据采集模块201可以按预设采样频率采集出口路由器101的出口流量数据和各服务器102的流出流量数据,然后将采样的流量数据发送给数据存储模块202,同时将采样的流量数据发送给数据读取模块203。数据存储模块202将接收到的流量数据保存到历史数据库中,数据读取模块203将接收到的当前的流量数据进行缓存。另外,在本发明中,数据存储模块202并不是必需的,也可以不设置数据存储模块202,也可以由数据采集模块201采集流量数据之后进行保存。
作为数据采集模块201的实现方式,可以利用Zabbix开源软件实现数据采集模块201。在此,出口路由器101可以启用简单网络管理协议(SNMP,Simple Network ManagementProtocol),然后在Zabbix服务器(Zabbix Server)利用模板SNMP接口(Template SNMPInterface)对两个出口路由器101的上行端口进行流量监控,通过Zabbix汇总检查(Aggregate checks)功能中的求和(grpsum)功能对资源池的两个出口路由器101的上行流量进行聚合,从而得到资源池的出口流量数据。在每台服务器102上部署和配置Zabbix代理(Zabbix Agent),启用主动模式,利用net.if.out和grpsum实现对各服务器102的流出流量的数据采集。
数据读取模块203根据阈值计算模块204和突变检测模块205的需求,从数据存储模块202获取所需的历史采样数据和缓存中的当前采样数据。在本发明中,数据读取模块203也不是必需的,也可以不设置数据读取模块203,也可以由突变检测模块205和阈值计算模块204根据需要获取数据采集模块201所采集到的采样数据。换句话说,采样数据的存储和读取可以采用任何方式,并不局限于图2所示的方式。
阈值计算模块204利用数据读取模块203获取所需的流量数据,然后计算相应的突变检测阈值,并将突变检测阈值发送给突变检测模块205。在阈值计算模块204中计算突变检测阈值的方法将在后述的图4的步骤402和图5的步骤502中详细说明。
突变检测模块205利用数据读取模块203获取所需的流量数据,并从阈值计算模块204获取突变检测阈值,检测流量数据是否发生突变,并计算检测结果和流量变化量。在突变检测模块205中检测流量数据是否发生突变的方法将在后述的图4的步骤403~407以及图5的步骤503~507中详细说明。
突变检测模块205可以根据需要,将检测结果和流量变化量发送给根因服务器定位模块206和结果显示模块207。
根因服务器定位模块206通过对资源池出口流量突变检测结果、资源池出口流量变化量、各服务器突变检测结果、发生突变的服务器流出流量变化量进行分析计算,确定引起资源池出口流量突变的根因服务器,并将结果发送给结果显示模块207。在根因服务器定位模块206中确定根因服务器的方法将在后述的图3的步骤309中详细说明。
结果显示模块207用于输出突变检测结果、流量变化量、根因服务器信息。
图3是资源池出口流量突变根因服务器定位方法的流程图,如图3所示,包括以下步骤:
步骤301,采集所述资源池的出口流量的采样数据和所述资源池内的各服务器的流出流量的采样数据。
作为一个例子,在采集所述资源池的出口流量的采样数据时,可以按照第一采样频率对所述资源池的出口流量进行采样,得到所述资源池的出口流量的采样数据。在采集所述资源池内的各服务器的流出流量的采样数据时,可以按照与所述第一采样频率相同或者不同的第二采样频率对各服务器的流出流量进行采样,得到各服务器的的流出流量的采样数据。在利用主动模式采集采样数据时,针对资源池的出口流量数据和针对各服务器的流出流量数据的采集时间可以不同步。
所述资源池的出口流量的采样数据和所述资源池内的各服务器的流出流量的采样数据可以为采样时间间隔内的流量变化平均值。
另外,该步骤301例如可以通过图2中的数据采集模块201来实现,如上所述,例如,可利用Zabbix API,通过Zabbix Server和ZabbixAgent的流量监控来获取资源池的出口流量数据和各服务器的流出流量数据的采样数据。另外,资源池的出口流量数据和各服务器的流出流量数据的采集方式不限于本发明实施方式给出的方式。
步骤302,利用所述资源池的出口流量的采样数据,计算所述资源池的突变检测阈值,利用所述资源池的突变检测阈值对所述资源池的出口流量进行突变检测。
图4是示出步骤302的资源池的出口流量数据的突变检测的流程图,如图4所示,包括如下步骤。
步骤401,按照预设时间窗口大小,获取当前时刻之前的资源池出口流量数据的历史采样数据[x1,x2,…,xn]和对应的采样时刻数据[t1,t2,…,tn]。
该步骤例如可通过图2所示的数据读取模块203实现。
步骤402,利用出口流量的采样数据[x1,x2,…,xn],计算突变检测阈值h,计算突变检测阈值h的方法为:
计算[x1,x2,…,xn]的第一四分位数Q1和第三四分位数Q3;
计算第三四分位数与第一四分位数的差值,得到四分位距IQR;
所述四分位距IQR为
IQR=Q3-Q1
计算[x1,x2,…,xn]中最大值xmax和最小值xmin之间的差值,得到极差RG;
所述极差RG为
RG=xmax-xmin
突变检测阈值h的计算公式为
其中,w为权重系数,w可以为大于0的数,根据需要设定,例如可以设定为4。
本步骤402例如可以通过图2所示的阈值计算模块204实现,对阈值计算模块204输入采样数据[x1,x2,…,xn],则阈值计算模块204输出计算得到的突变检测阈值h。
步骤403,获取资源池的出口流量数据的与下一个采样时刻tn+1对应的采样数据xn+1,并计算1步差分d1。
其中,所述1步差分d1的计算公式为
d1=|xn+1-xn|
步骤404,通过比较1步差分d1和突变检测阈值h来对资源池的出口流量进行突变检测,当1步差分d1小于突变检测阈值h时,判断为未检测到资源池的出口流量的突变,进入到步骤405,当1步差分d1大于或者等于突变检测阈值h时,判定为检测到资源池的出口流量的突变,进入到步骤408。
步骤405,计算2步差分d2。
所述2步差分d2的计算公式为
d2=|xn+1-xn-1|
步骤406,通过比较2步差分d2和突变检测阈值h来对资源池的出口流量进行突变检测,当2步差分d2小于突变检测阈值h时,判断为未检测到资源池的出口流量的突变,进入到步骤407,当2步差分d2大于或者等于突变检测阈值h时,判断为检测到资源池的出口流量的突变,进入到步骤407。
步骤407,计算检测结果r和流量变化量p,并输出检测结果r和流量变化量p。
当步骤404或者步骤406中检测到资源池的出口流量的突变时,将检测结果r例如标记为1,当步骤404和步骤406中都未检测到资源池的出口流量的突变时,将检测结果r例如标记为0。
检测结果r的计算公式可以表示为如下:
其中,当r为1时,表示资源池的出口流量出现突变,当r为0时,表示资源池的出口流量未出现突变。
当在步骤404中检测到资源池的出口流量的突变时,流量变化量p可以用1步差分d1表示,当在步骤406中检测到资源池的出口流量的突变时,流量变化量p可以用2步差分d2表示。即,流量变化量p可以表示为如下:
另外,需要说明的是,根据需要,本步骤407中的流量变化量p也可以不计算。另外,检测结果的表达方式也未必采用0和1的方式,只要能够识别是否检测到突变,则可以采用任意表达方式。
另外,步骤403~407可以通过如图2所示的突变检测模块205实现,对突变检测模块205输入采样数据[x1,…,xn,xn+1],则突变检测模块205输出检测结果r和流量变化量p。
接着返回到图3,继续说明资源池出口流量突变根因服务器定位方法。
步骤303,判定是否检测到所述资源池的出口流量发生突变,如果是,则进入到步骤305,否则,进入到步骤304。例如,如果检测结果r为1,则进入到步骤305,如果检测结果为0,则进入到步骤304。
步骤304,更新资源池的出口流量的采样数据和采样时刻数据,并返回到步骤302,基于更新后的采样数据重新计算资源池的突变检测阈值,并利用重新计算的突变检测阈值对资源池的出口流量进行突变检测,直至检测到所述资源池的出口流量突变为止。
在本步骤304中,将时间窗口往后延一个采样时刻,即,将资源池的出口流量数据的采样数据序列[x1,x2,…,xn]更新为[x2,…,xn,xn+1],将采样时刻数据[t1,t2,…,tn]更新为[t2,…,tn,tn+1],并接收与下一个采样时刻tn+2对应的采样数据xn+2,然后返回到步骤302,重新计算相应的突变检测阈值,进行下一轮的突变检测。
在经过步骤304之后进入到步骤302时,在步骤302中,更新后的采样数据[x2,…,xn,xn+1]被作为[x1,x2,…,xn],更新后的采样时刻数据[t2,…,tn,tn+1]被作为[t1,t2,…,tn],计算突变检测阈值h。另外,新获取的采样数据xn+2被作为xn+1,计算1步差分d1和2步差分d2。
步骤305,根据所述资源池内的各服务器的流出流量的采样数据,计算各服务器的突变检测阈值,并利用各服务器的突变检测阈值分别对各服务器的流出流量进行突变检测,得到各服务器的检测结果和流量变化量。
假设资源池内有m个服务器,图5示出关于第j个服务器得到服务器的检测结果和流量变化量的步骤,其中,j=1,2,…,m。
步骤501,按照预设时间窗口大小,获取第j个服务器的流出流量的与采样时刻对应的采样数据其中,为资源池的出口流量的采样数据xn+1的采样时刻。因此,采样数据是指自时刻tn+1开始回溯的n+1个历史数据。
本步骤501例如可通过图2所示的数据读取模块203实现。
计算第三四分位数与第一四分位数的差值,得到四分位距IQRj;
所述四分位距IQRj为
IQRj=Q3j-Q1j
所述极差RGj为
突变检测阈值hj的计算公式为
其中,wj是可以是大于0的常数,根据需要设定,例如可以设定为4。
另外,需要说明的是,在本实施方式中,在计算各服务器的突变检测阈值时,利用了与计算资源池的突变检测阈值时相同的数量的采样数据,但本发明不限于此,在计算各服务器的突变检测阈值时,也可以利用与计算资源池的突变检测阈值时不同的数量的采样数据。即使采用不同数量的采样数据,计算突变检测阈值的方法可以是相同的。
其中,所述1步差分d1的计算公式为
步骤504,通过比较1步差分和突变检测阈值hj来对第j个服务器的流出流量进行突变检测,当1步差分小于突变检测阈值hj时,判断为未检测到第j个服务器的流出流量的突变,进入到步骤505,当1步差分大于或者等于突变检测阈值hj时,判定为检测到第j个服务器的流出流量的突变,进入到步骤507。
步骤506,通过比较2步差分和突变检测阈值hj来对第j个服务器的流出流量进行突变检测,当2步差分小于突变检测阈值hj时,判断为未检测到第j个服务器的流出流量的突变,当2步差分大于或者等于突变检测阈值hj时,判断为检测到第j个服务器的流出流量的突变。
步骤507,计算检测结果rj和流量变化量pj。
当步骤504或者步骤506中检测到第j个服务器的流出流量的突变时,将检测结果rj例如标记为1,当步骤504和步骤506中都未检测到第j个服务器的流出流量的突变时,将检测结果rj例如标记为0。
检测结果rj的计算公式可以表示为如下:
其中,当rj为1时,表示第j个服务器的流出流量出现突变,当rj为0时,表示第j个服务器的流出流量未出现突变。
当在步骤504中检测到第j个服务器的流出流量的突变时,流量变化量pj可以用1步差分表示,当在步骤506中检测到资源池的出口流量的突变时,流量变化量pj可以用2步差分表示。即,流量变化量pj可以表示为如下:
通过关于各服务器执行图5所示的步骤,得到各服务器的检测结果[r1,r2,…rj,…,rm]和流量变化量[p1,p2,…pj,…,pm]。其中,rj为第j个服务器的检测结果,pj为第j个服务器的流量变化量。
另外,步骤503~507例如可以通过如图2所示的突变检测模块205实现,对突变检测模块205输入第j个服务器的流出流量的采样数据则突变检测模块205输出关于第j个服务器的突变检测结果rj和流量变化量pj。
再次返回到图3进行说明。
步骤306,根据各服务器的流量变化量判断是否存在造成所述资源池的出口流量突变的根因服务器。
具体为,统计各服务器的流出流量的突变检测结果[r1,…,rj,…,rm]中的突变检测结果rj等于1的次数c,当c的值为0时,判断为不存在根因服务器,进入到步骤307,
当c的值大于或者等于1时,判断为存在流出流量突变的服务器,进入到步骤309。
步骤307,更新各服务器的采样数据,再次根据所述资源池内的各服务器的流出流量的采样数据,计算各服务器的突变检测阈值,并利用各服务器的突变检测阈值分别对各服务器的流出流量进行突变检测,得到各服务器的检测结果和流量变化量。
更新完各服务器的采样数据之后,更新后的采样时刻被作为更新后的采样数据被作为新获取的被作为重新计算各服务器的突变检测阈值并利用重新计算的各服务器的突变检测阈值分别对各服务器的流出流量进行突变检测并重新得到各服务器的检测结果和流量变化量,这些重新计算的步骤同步骤305,可以采用图5所示的步骤。
步骤308,根据各服务器的流量变化量判断是否存在造成所述资源池的出口流量突变的根因服务器,步骤308的判断方法同步骤306。
当在步骤308中判断为存在根因服务器时,进入到步骤309,当在步骤308中判断为不存在根因服务器时,进入到步骤304更新资源池出口流量的采样数据和采样时刻之后,反复执行步骤302~309。
步骤309,根据各服务器的流量变化量[p1,p2,…,pm],确定根因服务器,并输出根因服务器。
根因服务器的确定方法为:
统计各服务器的流出流量的突变检测结果[r1,…,rj,…,rm]中的突变检测结果rj等于1的次数c,
当c=1时,表示有1个服务器的检测结果为1,即rj=1,并将rj=1的第j个服务器确定为第一根因服务器;
当c=2时,表示有2个服务器的检测结果为1,即,ri=1、rj=1,并获取ri=1的第i个服务器的流量变化量pi和rj=1的第j个服务器的流量变化量pj,并比较第i个服务器的流量变化量pi和第j个服务器的流量变化量pj,将具有相对较大的流量变化量的服务器确定为第一根因服务器,将具有相对较小的流量变化量的服务器确定为第二根因服务器;
当c≥3时,表示有与c的值对应的数量的服务器的检测结果为1,并获取检测结果为1的服务器的流量变化量,并将流量变化量按大小从高到低进行排序,选取前3名,分别将对应的服务器确定为第一根因服务器、第二根因服务器和第三根因服务器。
另外,在步骤306和步骤308以及步骤309中,都统计了各服务器的流出流量的突变检测结果[r1,…,rj,…,rm]中的突变检测结果rj等于1的次数c,但也可以不统计突变检测结果rj等于1的次数c。例如,在步骤306和步骤308以及步骤309中,可以统计流量变化量[p1,p2,…pj,…,pm]中的pj为非零的次数c’,并根据c’的值来判断是否存在根因服务器以及确定根因服务器。这时,在检测各服务器的流出流量的突变时,可以不需要得出突变检测结果rj,而仅得出流量变化量pj。
本步骤309例如可通过图2所示的根因服务器定位模块206实现,对根因服务器定位模块206输入各服务器的检测结果和流量变化量,根因服务器定位模块206即可根据各服务器的检测结果和流量变化量定位根因服务器。
在本发明实施方式中,当在步骤308判断为不存在根因服务器时,说明根据步骤305和步骤307的检测结果都没有找到根因服务器,这表示资源池的出口流量的突变可能并非是因服务器的流出流量的突变而引起的,因此不再单独反复执行步骤305或者307,而是再次反复执行步骤302~309。
根据本发明实施方式,利用时间不同步的流量采样数据,检测资源池的出口流量的变化,当发现了资源池的出口流量突变时,能够快速排查并定位造成此突变的根因服务器,提高了定位根因服务器的准确率,降低了误判率。
另外,在具体实现图3~图5所示的步骤时,可以在主进程启动后,进行进程池初始化,设定最大进程数。例如,当采用Python语言实现时,可通过多进程(multiprocessing)模块的进程池(Pool)进行进程池初始化,设定的最大进程数不小于2。
另外,可以采用非阻塞方式apply_async将步骤305~309所述的根因服务器定位任务Task请求提交给进程池Pool。当任务请求提交到Pool时,如果进程池中的进程数没有达到指定的最大值,Pool就会启用一个空闲子进程来执行该任务请求;否则,任务请求等待池中一个进程结束,然后Pool启用此空闲子进程来执行此根因服务器定位任务Task。
另外,本发明实施方式的资源池出口流量突变根因服务器定位装置可以通过处理电路来实现,数据采集模块201、数据存储模块202、数据读取模块203、阈值计算模块204、突变检测模块205、根因服务器定位模块206和结果显示模块207等各个单元仅是根据所实现的具体功能所划分的逻辑模块,而不是用于限制具体的实现方式。在实际实现时,上述各个单元可被实现为独立的物理实体,或者也可以由单个实体(例如,处理器(CPU或DSP等)、集成电路等)来实现。
在另一些实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图3~5所对应实施方式中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (16)
1.一种根因服务器定位方法,用于定位造成包括多个服务器的资源池的出口流量突变的根因服务器,其特征在于,所述方法包括:
采集所述资源池的出口流量的采样数据和所述资源池内的各服务器的流出流量的采样数据;
利用所述资源池的出口流量的采样数据计算所述资源池的突变检测阈值,利用所述资源池的突变检测阈值对所述资源池的出口流量进行突变检测;
当检测到所述资源池的出口流量发生突变时,根据所述资源池内的各服务器的流出流量的采样数据计算各服务器的突变检测阈值,利用各服务器的突变检测阈值分别对各服务器的流出流量进行突变检测,得到各服务器的流量变化量;
根据各服务器的流量变化量确定造成所述资源池的出口流量突变的根因服务器。
2.根据权利要求1所述的根因服务器定位方法,其中,
在采集所述资源池的出口流量的采样数据时,按照第一采样频率对所述资源池的出口流量进行采样,得到所述资源池的出口流量的采样数据,
在采集所述资源池内的各服务器的流出流量的采样数据时,按照与所述第一采样频率相同或者不同的第二采样频率对各服务器的流出流量进行采样,得到各服务器的的流出流量的采样数据,
所述采样数据为采样时间间隔内的流量变化平均值。
3.根据权利要求1所述的根因服务器定位方法,其中,
在计算突变检测阈值时,利用采样数据的四分位距计算突变检测阈值。
4.根据权利要求3所述的根因服务器定位方法,其中,
在对流量进行突变检测时,利用突变检测阈值和采样数据的1步差分和2步差分,检测流量是否突变。
6.根据权利要求5所述的根因服务器定位方法,其中,
对所述资源池的出口流量进行突变检测的步骤包括:
获取所述资源池的出口流量的与采样时刻tn+1对应的采样数据xn+1,计算1步差分d1=|xn+1-xn|,并通过比较所述1步差分d1和所述资源池的突变检测阈值h来对所述资源池的出口流量进行突变检测。
7.根据权利要求6所述的根因服务器定位方法,其中,
当通过比较所述1步差分d1和所述资源池的突变检测阈值h未检测到所述资源池的出口流量突变时,计算2步差分d2=|xn+1-xn-1|,并通过比较2步差分d2和所述资源池的突变检测阈值h来对所述资源池的出口流量进行突变检测。
8.根据权利要求7所述的根因服务器定位方法,其中,
当通过比较2步差分d2和所述资源池的突变检测阈值h未检测到所述资源池的出口流量突变时,获取所述资源池的出口流量的与采样时刻[t2,…,tn,tn+1]对应的采样数据[x2,…,xn,xn+1],并将采样时刻[t2,…,tn,tn+1]作为[t1,t2,…,tn],将采样数据[x2,…,xn,xn+1]作为[x1,x2,…,xn],重新计算所述资源池的突变检测阈值并利用重新计算出的所述资源池的突变检测阈值对所述资源池的出口流量进行突变检测。
13.根据权利要求12所述的根因服务器定位方法,其中,
确定根因服务器的步骤包括:
统计各服务器的流出流量的突变检测结果[r1,…,rj,…,rm]中的rj等于1的次数c,
当c=1时,将突变检测结果为1的服务器判定为第一根因服务器;
当c=2时,比较突变检测结果为1的两个服务器的流量变化量的大小,将具有相对较大的流量变化量的服务器确定为第一根因服务器,将具有相对较小的流量变化量的服务器确定为第二根因服务器,
当c≥3时,获取突变检测结果为1的与c的值相应数量的服务器的流量变化量,并将流量变化量按大小从高到低进行排序,选取具有前三名的流量变化量的服务器作为第一根因服务器、第二根因服务器和第三根因服务器。
15.一种根因服务器定位装置,用于定位造成包括多个服务器的资源池的出口流量突变的根因服务器,所述根因服务器定位装置包括:
数据采集模块,用于采集所述资源池的出口流量的采样数据和所述资源池内的各服务器的流出流量的采样数据;
阈值计算模块,用于利用所述数据采集模块采集的所述资源池的出口流量的采样数据计算所述资源池的突变检测阈值,用于利用各服务器的流出流量的采样数据计算各服务器的突变检测阈值;
突变检测模块,用于根据所述阈值计算模块计算出的所述资源池的突变检测阈值,对所述资源池的出口流量进行突变检测,用于根据阈值计算模块计算出的各服务器的突变检测阈值,对各服务器的流出流量进行突变检测;
根因服务器定位模块,根据所述突变检测模块针对各服务器的流出流量的突变检测结果,确定造成所述资源池的出口流量突变的根因服务器。
16.一种计算机可读存储介质,其上存储有计算机程序指令,该程序被处理器执行时实现权利要求1~14中的任一项所述的根因服务器定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010535812.1A CN113810207A (zh) | 2020-06-12 | 2020-06-12 | 根因服务器定位方法以及根因服务器定位装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010535812.1A CN113810207A (zh) | 2020-06-12 | 2020-06-12 | 根因服务器定位方法以及根因服务器定位装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113810207A true CN113810207A (zh) | 2021-12-17 |
Family
ID=78892127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010535812.1A Pending CN113810207A (zh) | 2020-06-12 | 2020-06-12 | 根因服务器定位方法以及根因服务器定位装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113810207A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101577642A (zh) * | 2008-05-08 | 2009-11-11 | 吴志军 | 一步预测卡尔曼滤波检测LDoS攻击的方法 |
CN102821002A (zh) * | 2011-06-09 | 2012-12-12 | ***通信集团河南有限公司信阳分公司 | 网络流量异常检测方法和*** |
US20130211706A1 (en) * | 2010-08-13 | 2013-08-15 | Wavemarket, Inc. | Systems, methods, and processor readable media for traffic flow measurement |
CN106850687A (zh) * | 2017-03-29 | 2017-06-13 | 北京百度网讯科技有限公司 | 用于检测网络攻击的方法和装置 |
CN109992479A (zh) * | 2019-03-31 | 2019-07-09 | 西安电子科技大学 | 一种多维度kpi数据异常定位方法、装置及计算机设备 |
CN111080002A (zh) * | 2019-12-10 | 2020-04-28 | 华南理工大学 | 基于深度学习的建筑用电负荷多步预测方法及*** |
-
2020
- 2020-06-12 CN CN202010535812.1A patent/CN113810207A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101577642A (zh) * | 2008-05-08 | 2009-11-11 | 吴志军 | 一步预测卡尔曼滤波检测LDoS攻击的方法 |
US20130211706A1 (en) * | 2010-08-13 | 2013-08-15 | Wavemarket, Inc. | Systems, methods, and processor readable media for traffic flow measurement |
CN102821002A (zh) * | 2011-06-09 | 2012-12-12 | ***通信集团河南有限公司信阳分公司 | 网络流量异常检测方法和*** |
CN106850687A (zh) * | 2017-03-29 | 2017-06-13 | 北京百度网讯科技有限公司 | 用于检测网络攻击的方法和装置 |
CN109992479A (zh) * | 2019-03-31 | 2019-07-09 | 西安电子科技大学 | 一种多维度kpi数据异常定位方法、装置及计算机设备 |
CN111080002A (zh) * | 2019-12-10 | 2020-04-28 | 华南理工大学 | 基于深度学习的建筑用电负荷多步预测方法及*** |
Non-Patent Citations (1)
Title |
---|
李静;白继根;赵净洁;罗晓玲;: "基于OD数据的高速公路交通运行状况智能分析***", 中国交通信息化, no. 05, 15 May 2015 (2015-05-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8015139B2 (en) | Inferring candidates that are potentially responsible for user-perceptible network problems | |
US10261851B2 (en) | Anomaly detection using circumstance-specific detectors | |
Yan et al. | A survey of traffic classification in software defined networks | |
US8069370B1 (en) | Fault identification of multi-host complex systems with timesliding window analysis in a time series | |
CN113454600A (zh) | 使用跟踪数据在分布式***中进行自动根因分析 | |
CN108377201B (zh) | 网络异常感知方法、装置、设备及计算机可读存储介质 | |
JP6564799B2 (ja) | 閾値決定装置、閾値決定方法及びプログラム | |
CN109587008A (zh) | 检测异常流量数据的方法、装置及存储介质 | |
US20150207763A1 (en) | Validating Workload Distribution in a Storage Area Network | |
CN108921424B (zh) | 一种电力数据异常检测方法、装置、设备及可读存储介质 | |
CN113746798B (zh) | 基于多维度分析的云网络共享资源异常根因定位方法 | |
CN105141446A (zh) | 一种基于客观权重确定的网络设备健康度评估方法 | |
JP6196196B2 (ja) | ログ間因果推定装置、システム異常検知装置、ログ分析システム、及びログ分析方法 | |
US20220345356A1 (en) | Determining a root-cause of a network access failure and conducting remediation | |
US20140067773A1 (en) | Transient detection for predictive health management of data processing systems | |
CN117290719B (zh) | 基于数据分析的巡检管理方法、装置及存储介质 | |
US20220294686A1 (en) | Root-cause analysis and automated remediation for Wi-Fi authentication failures | |
CN113810207A (zh) | 根因服务器定位方法以及根因服务器定位装置 | |
US20150256434A1 (en) | Methods and systems to identify bottleneck causes in applications using temporal bottleneck point detection | |
KR102512857B1 (ko) | 빅데이터 기반의 스마트 팩토리 분석시스템 및 방법 | |
CN109644147A (zh) | 用于在实时数据收集中使用的分级数据收集器和相关技术 | |
US20230053568A1 (en) | Method and apparatus for predicting application service response time in communication system | |
CN111277427A (zh) | 一种数据中心网络设备的巡检方法及*** | |
CN116264575A (zh) | 边缘节点调度方法、装置、计算设备及存储介质 | |
CN108874339A (zh) | 信号源故障检测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220129 Address after: 100007 room 205-32, floor 2, building 2, No. 1 and No. 3, qinglonghutong a, Dongcheng District, Beijing Applicant after: Tianyiyun Technology Co.,Ltd. Address before: No.31, Financial Street, Xicheng District, Beijing, 100033 Applicant before: CHINA TELECOM Corp.,Ltd. |
|
TA01 | Transfer of patent application right |