CN113055246B - 异常服务节点识别方法、装置、设备及存储介质 - Google Patents

异常服务节点识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113055246B
CN113055246B CN202110264381.4A CN202110264381A CN113055246B CN 113055246 B CN113055246 B CN 113055246B CN 202110264381 A CN202110264381 A CN 202110264381A CN 113055246 B CN113055246 B CN 113055246B
Authority
CN
China
Prior art keywords
service node
abnormal
node
intermediate data
suspected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110264381.4A
Other languages
English (en)
Other versions
CN113055246A (zh
Inventor
吴旭东
徐翥
徐砚劼
张易知
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110264381.4A priority Critical patent/CN113055246B/zh
Publication of CN113055246A publication Critical patent/CN113055246A/zh
Application granted granted Critical
Publication of CN113055246B publication Critical patent/CN113055246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • H04L43/106Active monitoring, e.g. heartbeat, ping or trace-route using time related information in packets, e.g. by adding timestamps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例提供了一种异常服务节点识别方法、装置、设备及存储介质,该方法包括:实时接收节点运行数据;所述节点运行数据中包含服务节点的多种运行参数;根据所述多种运行参数判断所述服务节点是否存在疑似异常;确定所述服务节点在设定判定周期内的疑似异常率;当所述服务节点在所述设定判定周期内的疑似异常率超过设定阈值时,将所述服务节点识别为异常服务节点。本说明书实施例可以提高对异常节点的识别准确性。

Description

异常服务节点识别方法、装置、设备及存储介质
技术领域
本说明书涉及计算机技术领域,尤其是涉及一种异常服务节点识别方法、装置、设备及存储介质。
背景技术
随着业务领域的不断发展,为支撑大规模的业务量,服务集群内的服务节点也在呈几何级的增长,对于一项业务,大部分用户都交易正常,但却有部分用户反应交易响应缓慢或者直接交易失败了,这可能是服务集群内的某个服务节点或部分服务节点出现了异常,因此需要及时快速自动隔离异常服务节点,以消除影响。
因此,如何精准地发现服务集群内单一服务节点的异常情况,是目前亟需解决的技术问题。
发明内容
本说明书实施例的目的在于提供一种异常服务节点识别方法、装置、设备及存储介质,以提高对异常节点的识别准确性。
为达到上述目的,一方面,本说明书实施例提供了一种异常服务节点识别方法,包括:
实时接收节点运行数据;所述节点运行数据中包含服务节点的多种运行参数;
根据所述多种运行参数判断所述服务节点是否存在疑似异常;
确定所述服务节点在设定判定周期内的疑似异常率;
当所述服务节点在所述设定判定周期内的疑似异常率超过设定阈值时,将所述服务节点识别为异常服务节点。
本说明书的实施例中,所述根据所述运行参数确定所述服务节点是否存在疑似异常,包括:
将所述服务节点的多种运行参数分别与对应运行参数阈值进行比较,对应获得各个运行参数的识别结果子值;
根据预设的加权求和公式,将所述各个运行参数的识别结果子值进行加权求和,获得加权和;
将所述加权和与第一阈值进行比较;
当所述加权和大于所述第一阈值时,将所述服务节点识别为疑似异常。
本说明书的实施例中,所述加权求和公式中,各个运行参数的权重参数通过以下方式定期更新:
对于服务集群中所有服务节点,确定其各个运行参数在指定历史时段内,超过对应运行参数阈值的次数;
根据所述次数的大小,确定所述各个运行参数的新权重参数;
用所述新权重参数更新所述加权求和公式中的权重参数。
本说明书的实施例中,所述节点运行数据中还包括采样时戳、应用标识和服务节点IP;所述判断的判断结果通过对应的状态标志位表示;
在所述根据所述多种运行参数判断所述服务节点是否存在疑似异常之后,还包括:
截取所述采样时戳中的指定部分,以作为周期时戳;
将所述周期时戳、所述应用标识、所述服务节点IP和所述状态标志位,拼接为中间数据;
将所述中间数据写入中间数据表。
本说明书的实施例中,所述将所述中间数据写入中间数据表,包括:
判断中间数据表中是否存在具有相同周期时戳的旧中间数据;
当所述中间数据表中存在具有相同周期时戳的旧中间数据时,用所述中间数据替换所述旧中间数据。
本说明书的实施例中,所述确定所述服务节点在设定判定周期内的疑似异常率,包括:
从所述中间数据表中抽取所有中间数据;
确定所述所有中间数据中,具有疑似异常标志的中间数据的数量;
将所述具有疑似异常标志的中间数据的数量,除以所述所有中间数据的数量,获得所述服务节点在所述判定周期内的疑似异常率。
本说明书的实施例中,所述方法启用多个线程并行处理;其中,每个线程被根据以下方式分配节点运行数据:
从节点运行数据的数据库中捞取一个节点运行数据;
将该节点运行数据中的服务节点IP字段的各数值相加,获得汇总值;
将所述汇总值与启用的线程个数进行取余计算,获得取余值;
将该节点运行数据分配给线程序号与所述取余值相同的线程。
另一方面,本说明书实施例还提供了一种异常服务节点识别装置,包括:
接收模块,用于实时接收节点运行数据;所述节点运行数据中包含服务节点的多种运行参数;
判断模块,用于根据所述多种运行参数判断所述服务节点是否存在疑似异常;
确定模块,用于确定所述服务节点在设定判定周期内的疑似异常率;
识别模块,用于当所述服务节点在所述设定判定周期内的疑似异常率超过设定阈值时,将所述服务节点识别为异常服务节点。
另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
由以上本说明书实施例提供的技术方案可见,在本说明书的实施例中,实时接收的节点运行数据中包含服务节点的多种运行参数,使得根据多种运行参数判断服务节点是否存在疑似异常,从而避免仅考虑单一运行参数而可能造成的误判。不仅如此,本说明书的实施例还通过统计服务节点在设定判定周期内的疑似异常率,来确定服务节点是否为异常节点,从而避免了将服务节点在某时刻的偶发性抖动识别为异常,从而进一步提高了服务节点的异常识别准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本说明书一些实施例中异常服务节点识别的流程图;
图2示出了本说明书一实施例中多线程识别异常服务节点的示意图;
图3示出了本说明书一实施例中运行数据的数据结构示意图;
图4示出了本说明书一实施例中中间数据的数据结构示意图;
图5示出了本说明书一些实施例中异常服务节点识别装置的结构框图;
图6示出了本说明书一些实施例计算机设备的结构框图。
【附图标记说明】
51、接收模块;
52、判断模块;
53、确定模块;
54、识别模块;
602、计算机设备;
604、处理器;
606、存储器;
608、驱动机构;
610、输入/输出模块;
612、输入设备;
614、输出设备;
616、呈现设备;
618、图形用户接口;
620、网络接口;
622、通信链路;
624、通信总线。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书中的服务集群即为服务器集群,其是将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器。服务集群可以利用多个服务器进行并行计算从而获得很高的计算速度,以支撑大规模的业务量。为了便于描述,本说明书下文中将服务集群中的服务器称之为服务节点。服务集群也可以用多个服务节点做备份,从而使得任何一个服务节点异常时,整个***仍能正常运行。但是,如果不将异常节点隔离,将会导致很多业务处理失败。因此,需要对服务集群中的异常节点进行自动识别和自动隔离,以降低异常节点对服务集群的带来的不利影响。其中,本说明书中的异常一般是指节点发生故障、宕机等问题,且这种故障、宕机一般是持续的,而非偶发性的瞬时抖动。
要即时自动隔离异常服务节点,就需要先精准定位异常服务节点。一般的,对于服务节点级的异常诊断,传统上往往是通过采集某一个时刻服务节点的运行数据来异常判断,一旦超过阈值就认定为异常。然而,这种监控阈值体系的灵敏度太高,如果某个服务节点产生了偶发性的抖动,这个时候若触发自动隔离操作,反而会增加业服务集群的压力,进而可能引发更大的***性风险。因此,如何及时并精准地发现服务集群的服务节点的异常情况,是目前亟需解决的技术问题。
有鉴于此,为了解决上述问题,本说明书的实施例提供了新的异常服务节点识别方法,该方法可以应用于任何合适的计算机设备上。参考图1所示,在本说明书一些实施例中,所述异常服务节点识别方法可以包括以下步骤:
S101、实时接收节点运行数据;所述节点运行数据中包含服务节点的多种运行参数。
S102、根据所述多种运行参数判断所述服务节点是否存在疑似异常。
S103、确定所述服务节点在设定判定周期内的疑似异常率。
S104、当所述服务节点在所述设定判定周期内的疑似异常率超过设定阈值时,将所述服务节点识别为异常服务节点。
在本说明书的实施例中,实时接收的节点运行数据中包含服务节点的多种运行参数,使得根据多种运行参数判断服务节点是否存在疑似异常,从而避免仅考虑单一运行参数而可能造成的误判。不仅如此,本说明书的实施例还通过统计服务节点在设定判定周期内的疑似异常率,来确定服务节点是否为异常节点,从而避免了将服务节点在某时刻的偶发性抖动识别为异常,从而进一步提高了服务节点的异常识别准确性。
为了提高识别异常节点的及时性,可以实时接收节点运行数据并及时处理。在本说明书的实施例中,节点运行数据可以是由上游节点,按照指定时间间隔汇总的以节点为粒度的节点运行数据。节点运行数据中可以包含节点运行数据的采样时戳、业务类型、节点标识、运行参数等。此外,为了避免仅考虑单一运行参数而可能造成的误判,本说明书实施例的节点运行数据可以包含多种运行参数(具体采用哪些运行参数可根据需要指定)。
例如,在如图3所示的实施例中,节点运行数据可以包括:时间戳(即运行参数的采样时戳)、应用标识(即业务类型标识)、服务器IP(即服务节点IP,用以标识服务节点)以及五种运行参数(交易量、***成功率、交易响应时间、CPU使用率和内存使用率)。比如,在一示例性实施例中,一条节点运行数据可以表示为:
data=[20210101001000∣F-ABCD∣192.168.1.1∣731∣0.9644∣123∣90∣80]
其中,20210101001000为时间戳;F-ABCD为应用标识;192.168.1.1为F-ABCD这个应用下某个服务节点的IP地址;731为该服务节点的交易量;0.9644为该服务节点的***成功率;123(毫秒)为该服务节点的交易响应时间;90(百分比)为该服务节点的CPU使用率;80(百分比)为该服务节点的内存使用率。
显然,这些运行参数都是对应用单一服务节点而言的,而非是针对服务集群整体。并且,本领域技术人员可以理解,以上几种运行参数仅是示例性举例,本说明书对此不作唯一限定。在实际实施时,可以根据需要进行增加、删除或修改等。
鉴于服务集群中的服务节点数量通常较多,启用单个线程一般难以及时高效完成异常服务节点识别的工作。因此,在本说明书的实施例中,可以启用多个线程进行并行处理(例如图2所示)。其中,启用的线程数可以根据实际需要进行选择。结合图图2所示,在多线程场景下,上游节点发送的节点运行数据可以先缓存至运行数据库中,然后再分配给各个线程处理(图2中的job0~job9中每个作业均可以为一条节点运行数据)。其中,每个线程可以被通过以下方式分配节点运行数据:
1)从节点运行数据的数据库中捞取一个节点运行数据。
2)将该节点运行数据中的服务节点IP字段的各数值相加,获得汇总值。
3)将所述汇总值与启用的线程个数进行取余计算,获得取余值。
4)将该节点运行数据分配给线程序号与所述取余值相同的线程。
例如,图2所示的实施例中启动了10个线程来进行节点的异常判定,针对服务节点IP为192.168.1.1的节点运行数据,4段式数值相加后为:192+168+1+1=362。根据规则(362mod 10=2),则该条节点运行数据可以交由2号线程来处理。以此类推,如果算出的值为5,则可以交由5号线程来处理。
针对大量的节点运行数据,通过上述的数据分片处理规则,可以使得多个线程之间尽量维持负载均衡,从而有利于提升数据处理的效率。
对于每个线程,所述根据所述运行参数确定所述服务节点是否存在疑似异常,可以包括以下步骤:
1)将所述服务节点的多种运行参数分别与对应运行参数阈值进行比较,对应获得各个运行参数的识别结果子值。
例如,以上述的五种运行参数(交易量、***成功率、交易响应时间、CPU使用率和内存使用率)为例,可以分别为每个运行参数对应设定一个阈值:500、099、100(毫秒)、80、80。若一条节点运行数据为:
[20210101001000∣F-ABCD∣192.168.1.1∣731∣0.9644∣123∣90∣80]
则可以看出:交易量高于下限阈值(731>500)未触发,***成功率低于下限阈值(0.9644<0.99)触发,交易响应时间高于上限阈值(123>100)触发,CPU使用率高于上限阈值(90>80)触发,内存使用率高于上限阈值(80>=80)触发。各个运行参数的识别结果子值可以用0或1表示;触发时,识别结果子值为1,未触发时,识别结果子值为0。
2)根据预设的加权求和公式,将所述各个运行参数的识别结果子值进行加权求和,获得加权和。其中,每个运行参数对应的权重可以配置。
例如,若以上述的五种运行参数的权重均为0.2。则根据上述步骤的计算结果,可以计算出加权和为:Sum=0.2*0+0.2*1+0.2*1+0.2*0+0.2*1=0.8。
3)将所述加权和与第一阈值进行比较。
第一阈值可以根据实际需要设置,例如,在一示例性实施例中,第一阈值可以设置为0.6。则将上述步骤的计算结果(0.8)与0.6进行比较。
4)当所述加权和大于所述第一阈值时,将所述服务节点识别为疑似异常。
还以上述步骤中的示例为例,由于0.8>0.6,可以将应用F-ABCD下,其IP地址为192.168.1.1的服务节点,识别为疑似异常。
需要说明的是,根据本说明书的异常服务节点识别方法,并不能直接依据加权和大于第一阈值,就认为服务节点异常;因此,为了与后续的异常相区别,这里称之为疑似异常。
随着集群***的运行发展和变化,服务节点在异常情况下对于各个运行参数的影响程度可能会发生变化。因此,为了有利于提高异常识别的准确性,可以定时调整加权求和公式中各个运行参数的权重。例如,在本说明书一些实施例中,所述加权求和公式中,各个运行参数的权重参数通过以下方式定期更新:
1)对于服务集群中所有服务节点,确定其各个运行参数在指定历史时段内,超过对应运行参数阈值的次数。其中,指定历史时段可以为指定的最近时段。例如最近30天、最近两周、最近三个月等等。在具体实施时,指定历史时段可以根据实际需要设置,本说明书对此不作限定。
2)根据所述次数的大小,确定所述各个运行参数的新权重参数。
例如,以指定历史时段为30日为例,可以统计最近30天数据中,交易超各阈值的次数,并据此重新确定各个运行参数的阈值权重。比如针对应用F-ABCD,若上述的五种运行参数的权重均为0.2(即20%),30天内各节点基于交易响应时间超阈值的次数为600次,而交易成功率低于阈值的次数为160次,交易量低于阈值次数为40次,CPU超阈值次数为500次,内存超阈值次数为200次。据此可以计算出各个运行参数的新权重参数如下:
响应时间的权重
Figure BDA0002971527390000081
即响应时间的权重提升至40%;
交易成功率的权重
Figure BDA0002971527390000082
即交易成功率的权重降低至11%;
交易量权的权重
Figure BDA0002971527390000083
即交易量的权重降低至3%;
CPU使用率的权重
Figure BDA0002971527390000084
即CPU使用率的权重提升到33%;
内存使用率的权重
Figure BDA0002971527390000085
即内存使用率的权重降低至13%。
3)用所述新权重参数更新所述加权求和公式中的权重参数。即用计算出的新权重对应替换加权求和公式中的原权重。
在本说明书一些实施例中,在所述根据所述多种运行参数判断所述服务节点是否存在疑似异常之后,还可以包括以下:
1)截取所述采样时戳中的指定部分,以作为周期时戳。
在本说明书一实施例中,截取所述采样时戳中的指定部分可以是指:截取针对年月日时分秒(YYYYMMDDHHMISS)格式的时间戳,只取后三位作为最终存储的格式,比如[20210209095600、20210209095620]时间点的数据,只取[600、620]三位,以确保判定点数据周期性出现。即在判定周期和节点运行数据的采样周期确定的情况下,周期时戳会周期性出现,因此,600和620均可以称为周期时戳。如此,方便了后续根据周期时戳替换对应的旧数据,从而实现了数据的自动老化处理,进而有利于提升异常节点判定的效率。
若以判断周期为10分钟,节点运行数据的采样周期为20秒为例,因此,每个服务节点的一个判定周期内会有30个中间数据。例如,针对IP地址为192.168.1.1的这个服务节点,从零分零秒(000)开始采样,则一个判定周期内的数据可以如下所示:
000F-ABCD192.168.1.10,
020F-ABCD192.168.1.10,
040F-ABCD192.168.1.10,
100∣F-ABCD∣192.168.1.1∣1,
120∣F-ABCD∣192.168.1.1∣1,
140F-ABCD192.168.1.10,
200∣F-ABCD∣192.168.1.1∣1,
220∣F-ABCD∣192.168.1.1∣1,
240∣F-ABCD∣192.168.1.1∣1,
300F-ABCD192.168.1.10,
320∣F-ABCD∣192.168.1.1∣1,
340∣F-ABCD∣192.168.1.1∣1,
400∣F-ABCD∣192.168.1.1∣1,
420∣F-ABCD∣192.168.1.1∣1,
440∣F-ABCD∣192.168.1.1∣1,
500∣F-ABCD∣192.168.1.1∣1,
520∣F-ABCD∣192.168.1.1∣1,
540∣F-ABCD∣192.168.1.1∣1,
600∣F-ABCD∣192.168.1.1∣1,
620∣F-ABCD∣192.168.1.1∣1,
640∣F-ABCD∣192.168.1.1∣1,
700∣F-ABCD∣192.168.1.1∣1,
720∣F-ABCD∣192.168.1.1∣1,
740∣F-ABCD∣192.168.1.1∣1,
800∣F-ABCD∣192.168.1.1∣1,
820∣F-ABCD∣192.168.1.1∣1,
840F-ABCD192.168.1.10,
900∣F-ABCD∣192.168.1.1∣1,
920∣F-ABCD∣192.168.1.1∣1,
940∣F-ABCD∣192.168.1.1∣1。
2)将所述周期时戳、所述应用标识、所述服务节点IP和所述状态标志位,拼接为中间数据。中间数据对应的数据结构,可以如图4所示。
例如对于上述的节点运行数据:
[20210101001000∣F-ABCD∣192.168.1.1∣731∣0.9644∣123∣90∣80]
在截取所述采样时戳中的指定部分(这里以后三位为例)后,该节点运行数据变为:
[000∣F-ABCD∣192.168.1.1∣731∣0.9644∣123∣90∣80]
本说明书一些实施例中,上述步骤S102对应的判断结果可以通过对应的状态标志位表示。当通过步骤S102确认对应的服务节点存在疑似异常时,该节点运行数据所对应服务节点的状态标志位为置1(即1表示疑似异常);对应的,当通过步骤S102确认对应的服务节点不存在疑似异常(即正常)时,该节点运行数据所对应服务节点的状态标志位为置0(即0表示正常)。
据此,可以将周期时戳[000]、应用标识[F-ABCD]、服务节点IP[192.168.1.1]、状态标志位[1]拼接为中间数据:[000∣F-ABCD∣192.168.1.1∣1]。
3)将所述中间数据写入中间数据表。
相比于节点运行数据,中间数据不仅包含有老化数据所需的周期时戳、应用标识、服务节点IP和状态标志位信息,还更加简洁。因此,将节点运行数据和状态标志位整合为中间数据,有利于提高服务节点异常判定的效率。然而,如果不进行数据老化处理,则在下一个判定周期内又会出现同样数量个新的中间数据。因此,为了提升异常节点判定的效率,可以通过数据老化策略维持中间数据表中的数据量保持不变。
由此,在本说明书的一些实施例中,所述将所述中间数据写入中间数据表,可以包括以下步骤:
1)判断中间数据表中是否存在具有相同周期时戳的旧中间数据。
2)当所述中间数据表中存在具有相同周期时戳的旧中间数据时,用所述中间数据替换所述旧中间数据。
例如,以上述的30个中间数据为例,若新得到的中间数据为[040∣F-ABCD∣192.168.1.1∣1],而中间数据表有[040∣F-ABCD∣192.168.1.1∣0],由于这两个中间数据的周期时戳都为040,因此,可以认为中间数据表中存在具有相同周期时戳的旧中间数据。
当然,如果中间数据表中不存在具有相同周期时戳的旧中间数据,则可以直接将该中间数据写入中间数据表。显然,在首个判定周期开始前,中间数据表是空的,因此,在首个判定周期内,中间数据表中不存在具有相同周期时戳的旧中间数据,每个周期时戳对应的中间数据都可以直接写入。但是,从下一个判定周期开始,每个周期时戳对应的中间数据,在中间数据表中都会存在具有相同周期时戳的旧中间数据,从而就会涉及到数据老化,以始终维持固定数量的中间数据。
相应的,在此情况下,所述确定所述服务节点在设定判定周期内的疑似异常率可以包括:
1)从所述中间数据表中抽取所有中间数据。
2)确定所述所有中间数据中,具有疑似异常标志的中间数据的数量。
3)将所述具有疑似异常标志的中间数据的数量,除以所述所有中间数据的数量,获得所述服务节点在所述判定周期内的疑似异常率。
例如,将上述的30个中间数据全部抽取出。上述的30个中间数据中,仅有5个正常,其余26个均为疑似异常。因此,可以确定所述服务节点在设定判定周期内的疑似异常率为
Figure BDA0002971527390000121
大于设定阈值80%,因此,该服务节点被判定为异常。
在本说明书一些实施例中,当一个服务节点被判定为异常后,可以立即将该异常节点的相关信息(例如IP地址和应用标识等)***待隔离表,以便后续及时进行隔离操作。如此,通过如上的基于实时运行指标叠加周期性运行指标的异常判定方式,搭配多阈值组合及阈值权重的自学习动态调整,提升了集群内异常节点判定的准确率,在服务节点出现异常时能第一时间被发现并隔离,以提升业务***服务的连续性。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
与上述的异常服务节点识别方法对应,本说明书还提供了异常服务节点识别装置的实施例。参考图5所示,在本说明书一些实施例中,所述异常服务节点识别装置可以包括:
接收模块51,可以用于实时接收节点运行数据;所述节点运行数据中包含服务节点的多种运行参数;
判断模块52,可以用于根据所述多种运行参数判断所述服务节点是否存在疑似异常;
确定模块53,可以用于确定所述服务节点在设定判定周期内的疑似异常率;
识别模块54,可以用于当所述服务节点在所述设定判定周期内的疑似异常率超过设定阈值时,将所述服务节点识别为异常服务节点。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本说明书的实施例还提供一种计算机设备。如图6所示,在本说明书一些实施例中,所述计算机设备602可以包括一个或多个处理器604,诸如一个或多个中央处理单元(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备602还可以包括任何存储器606,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施方式中,存储器606上并可在处理器604上运行的计算机程序,所述计算机程序被所述处理器604运行时,可以执行根据上述方法的指令。非限制性的,比如,存储器606可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备602的固定或可移除部件。在一种情况下,当处理器604执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备602可以执行相关联指令的任一操作。计算机设备602还包括用于与任何存储器交互的一个或多个驱动机构608,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备602还可以包括输入/输出模块610(I/O),其用于接收各种输入(经由输入设备612)和用于提供各种输出(经由输出设备614)。一个具体输出机构可以包括呈现设备616和相关联的图形用户接口618(GUI)。在其他实施例中,还可以不包括输入/输出模块610(I/O)、输入设备612以及输出设备614,仅作为网络中的一台计算机设备。计算机设备602还可以包括一个或多个网络接口620,其用于经由一个或多个通信链路622与其他设备交换数据。一个或多个通信总线624将上文所描述的部件耦合在一起。
通信链路622可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路622可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本申请是参照本说明书一些实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理器上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种异常服务节点识别方法,其特征在于,包括:
实时接收节点运行数据;所述节点运行数据中包含服务节点的多种运行参数;
根据所述多种运行参数判断所述服务节点是否存在疑似异常;其中,所述根据所述运行参数确定所述服务节点是否存在疑似异常,包括:将所述服务节点的多种运行参数分别与对应运行参数阈值进行比较,对应获得各个运行参数的识别结果子值;根据预设的加权求和公式,将所述各个运行参数的识别结果子值进行加权求和,获得加权和;将所述加权和与第一阈值进行比较;当所述加权和大于所述第一阈值时,将所述服务节点识别为疑似异常;
确定所述服务节点在设定判定周期内的疑似异常率;
当所述服务节点在所述设定判定周期内的疑似异常率超过设定阈值时,将所述服务节点识别为异常服务节点;
其中,所述节点运行数据中还包括采样时戳、应用标识和服务节点IP;所述判断的判断结果通过对应的状态标志位表示;在所述根据所述多种运行参数判断所述服务节点是否存在疑似异常之后,还包括:截取所述采样时戳中的指定部分,以作为周期时戳;将所述周期时戳、所述应用标识、所述服务节点IP和所述状态标志位,拼接为中间数据;将所述中间数据写入中间数据表;
所述确定所述服务节点在设定判定周期内的疑似异常率,包括:
从所述中间数据表中抽取所有中间数据;
确定所述所有中间数据中,具有疑似异常标志的中间数据的数量;
将所述具有疑似异常标志的中间数据的数量,除以所述所有中间数据的数量,获得所述服务节点在所述判定周期内的疑似异常率。
2.如权利要求1所述的异常服务节点识别方法,其特征在于,所述加权求和公式中,各个运行参数的权重参数通过以下方式定期更新:
对于服务集群中所有服务节点,确定其各个运行参数在指定历史时段内,超过对应运行参数阈值的次数;
根据所述次数的大小,确定所述各个运行参数的新权重参数;
用所述新权重参数更新所述加权求和公式中的权重参数。
3.如权利要求1所述的异常服务节点识别方法,其特征在于,所述将所述中间数据写入中间数据表,包括:
判断中间数据表中是否存在具有相同周期时戳的旧中间数据;
当所述中间数据表中存在具有相同周期时戳的旧中间数据时,用所述中间数据替换所述旧中间数据。
4.如权利要求1所述的异常服务节点识别方法,其特征在于,所述方法启用多个线程并行处理;其中,每个线程被根据以下方式分配节点运行数据:
从节点运行数据的数据库中捞取一个节点运行数据;
将该节点运行数据中的服务节点IP字段的各数值相加,获得汇总值;
将所述汇总值与启用的线程个数进行取余计算,获得取余值;
将该节点运行数据分配给线程序号与所述取余值相同的线程。
5.一种异常服务节点识别装置,其特征在于,包括:
接收模块,用于实时接收节点运行数据;所述节点运行数据中包含服务节点的多种运行参数;
判断模块,用于根据所述多种运行参数判断所述服务节点是否存在疑似异常;其中,所述根据所述运行参数确定所述服务节点是否存在疑似异常,包括:将所述服务节点的多种运行参数分别与对应运行参数阈值进行比较,对应获得各个运行参数的识别结果子值;根据预设的加权求和公式,将所述各个运行参数的识别结果子值进行加权求和,获得加权和;将所述加权和与第一阈值进行比较;当所述加权和大于所述第一阈值时,将所述服务节点识别为疑似异常;
确定模块,用于确定所述服务节点在设定判定周期内的疑似异常率;
识别模块,用于当所述服务节点在所述设定判定周期内的疑似异常率超过设定阈值时,将所述服务节点识别为异常服务节点;
其中,所述节点运行数据中还包括采样时戳、应用标识和服务节点IP;所述判断的判断结果通过对应的状态标志位表示;所述判断模块还用于在所述根据所述多种运行参数判断所述服务节点是否存在疑似异常之后,截取所述采样时戳中的指定部分,以作为周期时戳;将所述周期时戳、所述应用标识、所述服务节点IP和所述状态标志位,拼接为中间数据;将所述中间数据写入中间数据表;
所述确定所述服务节点在设定判定周期内的疑似异常率,包括:从所述中间数据表中抽取所有中间数据;
确定所述所有中间数据中,具有疑似异常标志的中间数据的数量;
将所述具有疑似异常标志的中间数据的数量,除以所述所有中间数据的数量,获得所述服务节点在所述判定周期内的疑似异常率。
6.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-4任意一项所述方法的指令。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-4任意一项所述方法的指令。
CN202110264381.4A 2021-03-11 2021-03-11 异常服务节点识别方法、装置、设备及存储介质 Active CN113055246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110264381.4A CN113055246B (zh) 2021-03-11 2021-03-11 异常服务节点识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110264381.4A CN113055246B (zh) 2021-03-11 2021-03-11 异常服务节点识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113055246A CN113055246A (zh) 2021-06-29
CN113055246B true CN113055246B (zh) 2022-11-22

Family

ID=76511391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110264381.4A Active CN113055246B (zh) 2021-03-11 2021-03-11 异常服务节点识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113055246B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886757A (zh) * 2021-08-30 2022-01-04 国网山东省电力公司信息通信公司 一种电力通信网ptn网络业务运行可靠性评估方法
CN113965497B (zh) * 2021-10-20 2022-12-06 深圳平安医疗健康科技服务有限公司 服务器异常识别方法、装置、计算机设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106856489A (zh) * 2015-12-08 2017-06-16 阿里巴巴集团控股有限公司 一种分布式存储***的服务节点切换方法和装置
CN110908824A (zh) * 2019-12-04 2020-03-24 支付宝(杭州)信息技术有限公司 一种故障识别方法、装置及设备
CN111338903A (zh) * 2020-02-28 2020-06-26 中国工商银行股份有限公司 一种交易异常的报警方法及装置
CN111897705A (zh) * 2020-07-06 2020-11-06 上海泛微网络科技股份有限公司 服务状态处理、模型训练方法、装置、设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9071535B2 (en) * 2013-01-03 2015-06-30 Microsoft Technology Licensing, Llc Comparing node states to detect anomalies
US20170243268A1 (en) * 2016-02-23 2017-08-24 International Business Machines Corporation Method and system for determining an optimized service package model for market participation
CN108616429B (zh) * 2018-05-14 2019-12-13 平安科技(深圳)有限公司 一种推送服务的重连方法及设备
CN110475224B (zh) * 2019-07-01 2022-03-11 南京邮电大学 一种基于边缘计算的传感器数据处理与协同预测方法
CN110837432A (zh) * 2019-11-14 2020-02-25 北京金山云网络技术有限公司 服务集群中异常节点的确定方法、装置和监控服务器
CN111031017B (zh) * 2019-11-29 2021-12-14 腾讯科技(深圳)有限公司 一种异常业务账号识别方法、装置、服务器及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106856489A (zh) * 2015-12-08 2017-06-16 阿里巴巴集团控股有限公司 一种分布式存储***的服务节点切换方法和装置
CN110908824A (zh) * 2019-12-04 2020-03-24 支付宝(杭州)信息技术有限公司 一种故障识别方法、装置及设备
CN111338903A (zh) * 2020-02-28 2020-06-26 中国工商银行股份有限公司 一种交易异常的报警方法及装置
CN111897705A (zh) * 2020-07-06 2020-11-06 上海泛微网络科技股份有限公司 服务状态处理、模型训练方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113055246A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN113055246B (zh) 异常服务节点识别方法、装置、设备及存储介质
WO2019237118A1 (en) Business-aware intelligent incident and change management
US10560544B2 (en) Data caching in a collaborative file sharing system
US9280437B2 (en) Dynamically scalable real-time system monitoring
JP5471859B2 (ja) 解析プログラム、解析方法、および解析装置
US9235491B2 (en) Systems and methods for installing, managing, and provisioning applications
CN113220534A (zh) 集群多维度异常监控方法、装置、设备及存储介质
US11321155B2 (en) Automatic resource dependency tracking and structure for maintenance of resource fault propagation
CN106911519A (zh) 一种数据采集监控方法及装置
US10924364B2 (en) Elastic system monitoring
CN112699007A (zh) 监控机器性能的方法、***、网络设备及存储介质
US20230144084A1 (en) Analysis of code coverage differences across environments
US11416379B1 (en) Creation of software tests matching production personas
CN110363381B (zh) 一种信息处理方法和装置
JP2009181496A (ja) ジョブ処理システムおよびジョブ管理方法
CN113342608B (zh) 流式计算引擎任务的监控方法及装置
WO2020167570A1 (en) Cause-based event correlation to virtual page transitions in single page applications
CN114706827A (zh) 一种交易链路拓扑自动生成方法及装置
Bandari Proactive Fault Tolerance Through Cloud Failure Prediction Using Machine Learning
US20180287914A1 (en) System and method for management of services in a cloud environment
CN113254309A (zh) 一种业务***错误主动预警***及方法
US11030024B2 (en) Assigning a severity level to a computing service using tenant telemetry data
CN112751722A (zh) 数据传输质量监控方法和***
EP3382555A1 (en) System and method for management of services in a cloud environment
CN115934428B (zh) 一种mysql数据库的主灾备切换方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant