CN113032227B - 一种异常网元检测方法、装置、电子设备及存储介质 - Google Patents

一种异常网元检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113032227B
CN113032227B CN202110604805.7A CN202110604805A CN113032227B CN 113032227 B CN113032227 B CN 113032227B CN 202110604805 A CN202110604805 A CN 202110604805A CN 113032227 B CN113032227 B CN 113032227B
Authority
CN
China
Prior art keywords
network element
abnormal
index
value
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110604805.7A
Other languages
English (en)
Other versions
CN113032227A (zh
Inventor
易存道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baolande Software Co ltd
Original Assignee
Beijing Baolande Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baolande Software Co ltd filed Critical Beijing Baolande Software Co ltd
Priority to CN202110604805.7A priority Critical patent/CN113032227B/zh
Publication of CN113032227A publication Critical patent/CN113032227A/zh
Application granted granted Critical
Publication of CN113032227B publication Critical patent/CN113032227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种异常网元检测方法、装置、电子设备及存储介质,该方法包括:根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据;根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标;根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值;根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元。本方法根据各异常指标的指标异常值获取第一网元的网元异常值,从多方面准确衡量了第一网元的运行情况。根据第一网元的异常指标数量,第一网元的网元异常值,从整体上直观地判断了第一网元是否为异常网元。

Description

一种异常网元检测方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种异常网元检测方法、装置、电子设备及存储介质。
背景技术
现有技术中对于异常网元的检测,多为基于单一指标的异常检测,从单一的角度判断网元是否异常,其观测结果比较片面,难以准确衡量异常情况。而从多类指标进行异常检测,则会增加运维人员异常判断的难度,由于运维人员的专业技能不同,对于不同种类异常的认知也不一样,为此需要付出相应的学习成本,并且观测指标较多导致观测较为繁琐,不够直观。
发明内容
本发明提供一种异常网元检测方法、装置、电子设备及存储介质,用以解决现有技术中异常检测准确率不高、不够直观的缺陷。
第一方面,本发明提供一种异常网元检测方法,包括:
根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据;
根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标;
根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值;
根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元。
根据本发明提供的一种异常网元检测方法,所述根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元,之后还包括:
根据所述网络***架构中的各网元的连续时间点的网元异常值,构建异常扩散矩阵,并根据所述各网元的运行数据对所述异常扩散矩阵实时更新;
根据所述网络***架构的网络拓扑和所述异常扩散矩阵,确定异常起源网元。
根据本发明提供的一种异常网元检测方法,所述根据所述网络***架构的网络拓扑和所述异常扩散矩阵,确定异常起源网元,进一步包括:
确定观察时间段内最早异常时间、最大网元异常值对应的网元为异常起源网元,邻近网元中异常时间滞后、异常值小于所述最大异常值的异常网元为受波及网元。
根据本发明提供的一种异常网元检测方法,所述根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据,进一步包括:
对所述第一网元的不同类型运行数据进行平滑处理,达到统一的第一采集周期,并按时序汇聚,得到时序型的性能指标数据;
所述平滑处理包括插补、平均中的至少一项。
根据本发明提供的一种异常网元检测方法,所述根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标,进一步包括:
根据所述第一网元的性能指标数据,利用相应种类指标历史数据的统计参数,对所述第一网元的每类指标数据进行归一化处理,得到所述第一网元每类指标的指标异常值;
根据第一动态阈值,判断所述第一网元的每类指标的指标异常值,筛选出所述第一网元的异常指标。
根据本发明提供的一种异常网元检测方法,所述根据所述第一网元的异常指标数量,以及第一网元的网元异常值,判断所述第一网元是否为异常网元,进一步包括:
确定所述第一网元的异常指标数量大于所述第二动态阈值,且所示第一网元的网元异常值大于所述第三动态阈值,则判断所述第一网元为异常网元。
根据本发明提供的一种异常网元检测方法,所述根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据,之前还包括:
根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,及历史性能指标数据,以及专家历史判断数据,利用网格参数搜索算法确定所述第一动态阈值、第二动态阈值、第三动态阈值的最优阈值组合;
根据所述最优阈值组合,定期更新所述第一动态阈值、第二动态阈值、第三动态阈值。
根据本发明提供的一种异常网元检测方法,所述根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,及历史性能指标数据,以及专家历史判断数据,利用网格参数搜索算法确定所述第一动态阈值、第二动态阈值、第三动态阈值为的最优阈值组合,具体包括:
根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,确定阈值组合的取值空间;
根据所述取值空间的每一阈值组合,对历史性能指标数据计算相应网元异常值,判断网元异常情况,并结合专家历史判断数据,确定所述每一阈值组合对应的网元异常判断准确率;
确定所述网元异常判断准确率最高的阈值组合为所述最优阈值组合。
根据本发明提供的一种异常网元检测方法,所述确定所述第一网元的异常指标数量大于所述第二动态阈值,且所示第一网元的网元异常值大于所述第三动态阈值,则确定所述第一网元为异常网元,之后还包括:
确定所述第一网元的异常持续时间大于第四动态阈值,则判断所述第一网元为异常网元,否则为正常网元。
第二方面,本发明还提供一种异常网元检测装置,包括:
获取单元,用于根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据;
筛选单元,用于根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标;
生成单元,用于根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值;
判断单元,用于根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元。
根据本发明提供的一种异常网元检测装置,还包括:构建单元,用于根据所述网络***架构中的各网元的连续时间点的网元异常值,构建异常扩散矩阵,并根据所述各网元的运行数据对所述异常扩散矩阵实时更新;
确定单元,用于根据所述网络***架构的网络拓扑和所述异常扩散矩阵,确定异常起源网元。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面任一种所述异常网元检测方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面任一种所述异常网元检测方法的步骤。
本发明提供的一种异常网元检测方法、装置、电子设备及存储介质,通过第一网元的运行数据,获取性能指标数据。根据性能指标数据,获取每类指标异常值,筛选出异常指标。并根据各异常指标的指标异常值获取第一网元的网元异常值,从多方面准确衡量了第一网元的运行情况。根据第一网元的异常指标数量,第一网元的网元异常值,从整体上直观地判断了第一网元是否为异常网元。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的异常网元检测方法的流程示意图之一;
图2是本发明提供的异常网元检测方法的流程示意图之二;
图3是本发明提供的异常网元检测装置的结构示意图之一;
图4是本发明提供的异常网元检测装置的结构示意图之二;
图5是本发明提供的电子设备的结构示意图;
图6是本发明实施例中一种网络***架构的网络拓扑图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,异常检测算法通用性不强,只能针对单一指标或者数据集进行异常网元检测。这就需要对检测的数据进行人工分类,确定哪些指标适合哪种算法,然后针对检测的结果再人工结合其它指标检测结果进行标注是否为真正的异常点,效率较低。且人工标注及人工分析中存在人为因素,也会影响异常检测的准确率。
针对上述不足,提出本发明。下面结合图1-图6描述本发明的异常网元检测方法、装置、电子设备及存储介质。
第一方面,本发明提供一种异常网元检测方法,如图1所示,在一个实施例中,该方法包括:
S11、根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据。
具体地,对于网络***架构中的第一网元,采集其运行数据,用作第一网元异常检测的源数据。对于不同的业务场景有不同的具体网络架构,不同的运行数据。例如,对于订单***,其运行数据可以是产品的访问流量、订单数量、订单响应时间等等,对于数据库***,其运行数据可以是SQL平均读行数、SQL语句的平均执行时间、锁等待时间时间、锁超时时间等等。通过采集关注的运行数据便于精确分析异常指标。源数据的获取方式可以通过Agent技术实时获取,也可以通过请求获取第一网元存储的运行相关数据或本地日志文件等方式获取。获取到第一网元的运行数据后,从中剔除无用信息,并整理为性能指标数据。
S12、根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标。
具体地,正常情况下第一网元的性能指标数据处于一定的分布水平,当网元运行异常时,其性能指标数据偏离正常水平。根据每一种类性能指标的正常水平,计算每类指标的指标异常值。
S13、根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值。
具体地,第一网元的每一类性能指标从一个方面描述了第一网元的运行状况,通过多种性能指标中的各异常指标的指标异常值进行统计,可以得到反应网元整体运行状况的网元异常值。其统计方式可以直接累计求和,简单直接地获取网元异常值,还可以通过加权求和,凸显重点指标的对网元异常值的影响权重,此处不作限制。
S14、根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元。
运营者关注的网元运行异常情况,其异常的指标往往不是单个出现,而是多个指标异常。通过对第一网元的异常指标数据量,以及第一网元的网元异常值,从多方面整体衡量网元的运行状况,判断第一网元是否为异常网元。
本实施例中,通过第一网元的运行数据,获取性能指标数据。根据性能指标数据,获取每类指标异常值,筛选出异常指标。并根据各异常指标的指标异常值获取第一网元的网元异常值,从多方面准确衡量了第一网元的运行情况。根据第一网元的异常指标数量,第一网元的网元异常值,从整体上直观地判断了第一网元是否为异常网元。
进一步地,对于现有技术还存在的几个问题:第一:当异常发生时,其异常会发生扩散,影响到上下游或者同级中的网元组件,所以几乎受影响的网元都会检测出异常,很难判断真正的异常起源。第二:传统异常检测虽然有时能检测出异常,但是很难检测出异常准确的开始时间和结束时间。这对于后续问题分析,根因定位造成很大的问题。第三:软件部署建构对异常检测的准确性有明显影响。不同部署架构在异常发生时,有可能异常会在同级网元之间横向传播,也有可能在上下级网元之间纵向传播。
对于上述缺陷,发明人经思考研究得出基于地震理论构建的异常扩散矩阵。将异常类比为地震,异常网元就是震中。那么震中会有以下几个特征:第一:地震等级最为严重,对应到异常网元上来说应该是异常网元得分最高。第二;影响范围广,对应到异常检测中就是影响网元的指标个数多。第三:持续一定时间,对应到异常网元上来说也是异常的持续时间。从异常扩散矩阵上能明显发现异常网元,异常开始时间,异常结束时间,结合网络***架构的网络拓扑,可以进一步确定异常起源网元,及受波及的网元等重要信息。
如图2所示,在一个实施例中,所述根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元,之后还包括:
S15、根据所述网络***架构中的各网元的连续时间点的网元异常值,构建异常扩散矩阵,并根据所述各网元的运行数据对所述异常扩散矩阵实时更新。
具体地,异常扩散矩阵中每一列对应网络***架构中的一个网元,异常扩散矩阵中每一行对应一个采集时间点, 时间点之间的时间间隔可以根据需求调整。在异常扩散矩阵中,每一个元素代表其所在列对应网元在所在行对应时间点的网元异常值。
可以理解的是,也可以以异常扩散矩阵中每一行对应网络***架构中的一个网元,以异常扩散矩阵中每一列对应一个采集时间点,来构建异常扩散矩阵。
根据采集的各网元运行数据,对异常扩散矩阵实时更新,通过异常扩散矩阵,可以直观的了解各网络***架构中各网元的异常值及异常持续时间段。
S16、根据所述网络***架构的网络拓扑和所述异常扩散矩阵,确定异常起源网元。
具体地,异常扩散矩阵描述了各网元在对应时间点的网元异常值,通过异常扩散矩阵可以方便直观地确定异常网元,进一步确定异常扩散矩阵中异常网元附近时间点发生异常网元,结合网络拓扑,确定异常起源网元,及受波及的网元。
本实施例中,通过构建异常扩散矩阵,能够方便直观地确定异常网元,及其异常持续时间段,并通过结合网络拓扑,确定异常起源网元,及受波及的网元。有助于对对异常进行分析,确定异常具体类型、异常发生原因,为后续异常的处理提供支持。
在一个实施例中,所述根据所述网络***架构的网络拓扑和所述异常扩散矩阵,确定异常起源网元,进一步包括:确定观察时间段内最早异常时间、最大网元异常值对应的网元为异常起源网元,邻近网元中异常时间滞后、异常值小于所述最大异常值的网元为受波及网元。
具体地,观察时间段可以按需求调整例如,可以取30分钟为一个观察时间段。两处异常之间的间隔时间超过观察时间段,则可以认为二者之间没有因果关系。确定观察时间段还能够方便观测,对于观察时间段之前的数据作存档处理,不直接显示。异常起源网元为最早发生异常的网元,且网元的整体异常水平最为严重,例如网元A内存占用过高,则其需要调用内存的相关性能指标均会受到影响,其异常值较高,网元B为网元A的下层网元,网元B仅在有请求数据需求的时才与A进行数据交互,网元B仅部分需要与网元A交互的功能及相关性能指标会受到影响,且异常时间较为滞后。为此,确定观察时间段内最早异常时间、最大网元异常值对应的网元为异常起源网元,邻近网元中异常时间滞后、异常值小于所述最大异常值的异常网元为受波及网元。
另外,对于观察时间段内多起异常发生的情况,在网络拓扑中,根据异常网元的拓扑关系,可以在局部范围内分别确定异常起源网元,及受波及的网元。
本实施例中,根据异常时间,异常值,结合网络拓扑确定了异常起源网元,以及受波及网元。
示例性地,图6为一个网络***架构的网络拓扑图。如图6中所示,网络***架构共分为4个层级,第一层级包含网元: Apache01,第二层级包含网元:Tomcat01,第三层级包含网元:MySQL01、MySQL02(下表1中仅部分网元示出)... ..第四层级包含网元:MGl01。
Figure 598767DEST_PATH_IMAGE001
表1
表1中存储了相应的异常扩散矩阵(部分示出)。在表1中,根据指标数量和网元异常值,筛选确定Tomcat01、MySQL02、MG01为异常网元。其中,MySQL02出现异常时间最早,且在22:12:00达到最大异常值,其邻近网元中异常网元数量也最多,因此,确定MySQL02为异常网元。Tomcat01、MG01的异常时间滞后,且网元异常值较小,因此,判断Tomcat01、MG01为受波及网元。
在一个实施例中,根据权利要求1所述的异常检测方法,其特征在于,所述根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据,进一步包括:对所述第一网元的不同类型运行数据进行平滑处理,达到统一的第一采集周期,并按时序汇聚,得到时序型的性能指标数据;所述平滑处理包括插补、平均中的至少一项。
具体地,各网元的数据采集频率可能不同,还可能存在网元偶然异常、导致个别采集数据缺失,为便于后续获取网元的多种类指标的指标异常值,以及网元间的精确对比,对第一网元的不同类型运行数据进行平滑处理,以补齐缺失数据,并统一数据的第一采集周期。可以理解的是,统一后的第一采集周期与数据的实际采集周期不一定一致,其表达的是一种统一的时间间隔。
平滑处理包括插补、平均中的至少一项。其中,插补是指根据缺失数据的前后数据补齐缺失数据。平均是指根据第一采集周期某时间点前后的实际数据进行平均或加权平均,得到处理后的对应于第一采集周期该时间点的数据,以达到统一为第一采集周期的效果。对于平滑处理后的数据,将其按时序进行汇聚,得到按时限先后排列的时序型的性能指标数据。
本实施例中,对第一网元的不同类型数据进行平滑处理,达到了统一的第一采集周期,并按时序汇聚得到时序型的性能指标数据,便于后续的异常值计算,及网元间的精确对比。
在一个实施例中,所述根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标,进一步包括:根据所述第一网元的性能指标数据,利用相应种类指标历史数据的统计参数,对所述第一网元的每类指标数据进行归一化处理,得到所述第一网元每类指标的指标异常值;根据第一动态阈值,判断所述第一网元的每类指标的指标异常值,筛选出所述第一网元的异常指标。
具体地,正常情况下第一网元的性能指标数据处于一定的分布水平,当网元运行异常时,其性能指标数据偏离正常水平。基于统计学对第一网元的正常运行数据进行统计分析,可以得到每一种类性能指标的正常水平,通过归一化对每类性能指标数据基于该类数据的正常水平进行缩放得到第一网元的每类指标的指标异常值。归一化消除了量纲不同带来的影响,使得不同种类指标之间具有可比性。
在获取第一网元每类指标的指标异常值后,根据第一动态阈值判断第一网元每类指标的指标异常值是否超标,从而可以筛选出异常指标。
本实施例通过利用相应种类指标历史数据的统计参数,对所述第一网元的每类指标数据进行归一化处理,得到所述第一网元每类指标的指标异常值,使得不同网元、不同种类指标之间的异常具有可比性,通过第一动态阈值筛选出了第一网元的异常指标。
在一个实施例中,根据所述第一网元的性能指标数据,利用相应种类指标历史数据的统计参数,对所述第一网元的每类指标数据进行归一化处理,得到所述第一网元每类指标的指标异常值,进一步包括:通过零均值规范化对所述第一网元的指标数据进行处理得到所述第一网元每类指标的指标异常值。
第一网元的每类指标的指标异常值可以分别通过如下公式获取:
Figure 251334DEST_PATH_IMAGE002
其中,
Figure 979118DEST_PATH_IMAGE003
为第一网元的第i类指标的指标异常值,
Figure 733448DEST_PATH_IMAGE004
为第一网元的第i类指标数据 的性能指标数据,
Figure 204880DEST_PATH_IMAGE005
为第一网元的历史性能指标数据的均值,
Figure 462686DEST_PATH_IMAGE006
为第一网元的历史性能指 标数据的标准差。
Figure 626952DEST_PATH_IMAGE003
描述了“对于给定的性能指标数据,其偏离正常均值水平多少个标准差”,可以 用于衡量性能指标数据的异常情况。在均值之上的数据会得到一个正的指标异常值,反之 会得到一个负的指标异常值,因此,需要对其取绝对值,作为描述偏离正常水平的指标异常 值。
当然,也可以通过最小-最大规范化,通过对性能指标数据进行缩放,使历史性能指标最小值对应最小值0,使历史性能指标最大值对应最大值1,按比例对性能指标数据进行缩放。
在一个实施例中,所述根据所述第一网元的异常指标数量,以及第一网元的网元异常值,判断所述第一网元是否为异常网元,进一步包括:确定所述第一网元的异常指标数量大于所述第二动态阈值,且所示第一网元的网元异常值大于所述第三动态阈值,则判断所述第一网元为异常网元。
具体地,通过第一网元的异常指标数据量、网元异常值结合第二动态阈值、第三动态阈值来判断是否为异常网元,在两方面均超标则确定第一网元为异常网元。
本实施例通过异常指标数据量,结合多方面指标更加全面地评价了第一网元的异常情况;通过网元异常值,从整体上评价了第一网元的异常程度,从而准确地确定了异常网元。
在一个实施例中,所述根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据,之前还包括:根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,及历史性能指标数据,以及专家历史判断数据,利用网格参数搜索算法确定所述第一动态阈值、第二动态阈值、第三动态阈值的最优阈值组合;根据所述最优阈值组合,定期更新所述第一动态阈值、第二动态阈值、第三动态阈值。
具体地,第一动态阈值、第二动态阈值、第三动态阈值均影响到最终的网元异常判断结果,且各动态阈值有各自的取值范围。根据第一动态阈值、第二动态阈值、第三动态阈值的各阈值取值范围,可以得到阈值组合的取值空间。进而利用网格参数搜索算法,根据历史性能指标数据,以及专家历史判断数据确定最优阈值组合,并根据确定的最优阈值组合更新所述第一动态阈值、第二动态阈值、第三动态阈值。
本实施例根据第一动态阈值、第二动态阈值、第三动态阈值的取值范围,及历史性能指标数据,以及专家历史判断数据,利用网格参数搜索算法确定最优阈值组合,提高了网元异常判断的准确率。
在一个实施例中所述根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,及历史性能指标数据,以及专家历史判断数据,利用网格参数搜索算法确定所述第一动态阈值、第二动态阈值、第三动态阈值的最优阈值组合,具体包括:根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,确定阈值组合的取值空间;根据所述取值空间的每一阈值组合,对历史性能指标数据计算相应网元异常值,判断网元异常情况,并结合专家历史判断数据,确定所述每一阈值组合对应的网元异常判断准确率;确定所述网元异常判断准确率最高的阈值组合为所述最优阈值组合。
具体地,通过在第一动态阈值、第二动态阈值、第三动态阈值的各自取值范围内,以需求的粒度确定其一定数量的可能取值。三个特定的阈值组成一个特定的阈值组合,阈值组合的所有取值构成取值空间。例如,确定第一动态阈值的取值范围为{3,3.5,4},第二动态阈值的取值范围为{6,7,8},第三动态阈值的取值范围为{15,17,19},利用网格搜索算法,计算获取取值空间中每一阈值组合对应的网元异常判断情况,比照专家历史判断数据,计算每一阈值组合的网元异常判断准确率,取最高准确率对应的阈值组合为最优阈值组合。
本实施例中,通过网格搜索算法确定了最优阈值组合,提高了网元异常判断的准确率。
在一个实施例中,所述确定所述第一网元的异常指标数量大于所述第二动态阈值,且所示第一网元的网元异常值大于所述第三动态阈值,则确定所述第一网元为异常网元,之后还包括:确定所述第一网元的异常持续时间大于第四动态阈值,则判断所述第一网元为异常网元,否则为正常网元。具体地,进一步根据网元的异常持续时间对异常网元进行筛选,以剔除偶然异常,或者在某业务场景下用户不关注的异常。第四动态阈值可以通过与上述第一动态阈值、第二动态阈值、第三动态阈值一起以阈值组合的形式通过网格搜索算法确定,并定期更新,具体确定方法可以比照前述实施例,此处不再赘述。
本实施例中,进一步根据网元的异常持续时间对异常网元进行筛选,以剔除偶然异常,或者在某业务场景下用户不关注的异常。
第二方面,本发明提供一种异常网元检测装置,下文描述的异常检测装置与上文描述的异常网元检测方法可相互对应参照。
如图3所示,在一个实施例中,一种异常网元检测装置,包括:获取单元31、筛选单元32、生成单元33、判断单元34。
其中,获取单元31,用于根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据。筛选单元32,用于根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标。生成单元33,用于根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值。判断单元34,用于根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元。
本实施例提供的一种异常网元检测装置,通过第一网元的运行数据,获取性能指标数据。根据性能指标数据,获取每类指标异常值,筛选出异常指标。并根据各异常指标的指标异常值获取第一网元的网元异常值,从多方面准确衡量了第一网元的运行情况。根据第一网元的异常指标数量,第一网元的网元异常值,从整体上直观地判断了第一网元是否为异常网元
如图4所示,在一个实施例中,一种异常网元检测装置,还包括:
构建单元35,用于根据所述网络***架构中的各网元的连续时间点的网元异常值,构建异常扩散矩阵,并根据所述各网元的运行数据对所述异常扩散矩阵实时更新;
确定单元36,用于根据所述网络***架构的网络拓扑和所述异常扩散矩阵,确定异常起源网元。
本实施例中,通过构建异常扩散矩阵,能够方便直观地确定异常网元,及其异常持续时间段,并通过结合网络拓扑,确定异常起源网元,及受波及的网元。有助于对对异常进行分析,确定异常具体类型、异常发生原因,为后续异常的处理提供支持。
第三方面,本发明提供一种电子设备。
如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行第一方面的异常网元检测方法,该方法包括:根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据;根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标;根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值;根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的第一方面的异常网元检测方法,该方法包括:根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据;根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标;根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值;根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种异常网元检测方法,其特征在于,包括:
根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据;
根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标;
根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值;
根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元;
根据所述网络***架构中的各网元的连续时间点的网元异常值,构建异常扩散矩阵,并根据所述各网元的运行数据对所述异常扩散矩阵实时更新;
根据所述网络***架构的网络拓扑和所述异常扩散矩阵,确定异常起源网元;
确定观察时间段内最早异常时间、最大网元异常值对应的网元为异常起源网元,邻近网元中异常时间滞后、异常值小于所述最大网元异常值的异常网元为受波及网元;
所述根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标,进一步包括:
根据所述第一网元的性能指标数据,利用相应种类指标历史数据的统计参数,对所述第一网元的每类指标数据进行归一化处理,得到所述第一网元每类指标的指标异常值;
根据第一动态阈值,判断所述第一网元的每类指标的指标异常值,筛选出所述第一网元的异常指标。
2.根据权利要求1所述的异常网元检测方法,其特征在于,所述根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据,进一步包括:
对所述第一网元的不同类型运行数据进行平滑处理,达到统一的第一采集周期,并按时序汇聚,得到时序型的性能指标数据;
所述平滑处理包括插补、平均中的至少一项。
3.根据权利要求1所述的异常网元检测方法,其特征在于,所述根据所述第一网元的异常指标数量,以及第一网元的网元异常值,判断所述第一网元是否为异常网元,进一步包括:
确定所述第一网元的异常指标数量大于第二动态阈值,且所示第一网元的网元异常值大于第三动态阈值,则判断所述第一网元为异常网元。
4.根据权利要求3所述的异常网元检测方法,其特征在于,所述根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据,之前还包括:
根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,及历史性能指标数据,以及专家历史判断数据,利用网格参数搜索算法确定所述第一动态阈值、第二动态阈值、第三动态阈值的最优阈值组合;
根据所述最优阈值组合,定期更新所述第一动态阈值、第二动态阈值、第三动态阈值。
5.根据权利要求4所述的异常网元检测方法,其特征在于,所述根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,及历史性能指标数据,以及专家历史判断数据,利用网格参数搜索算法确定所述第一动态阈值、第二动态阈值、第三动态阈值为最优阈值组合,具体包括:
根据所述第一动态阈值、第二动态阈值、第三动态阈值的取值范围,确定阈值组合的取值空间;
根据所述取值空间的每一阈值组合,对历史性能指标数据计算相应网元异常值,判断网元异常情况,并结合专家历史判断数据,确定所述每一阈值组合对应的网元异常判断准确率;
确定所述网元异常判断准确率最高的阈值组合为所述最优阈值组合。
6.根据权利要求3所述的异常网元检测方法,其特征在于,所述确定所述第一网元的异常指标数量大于所述第二动态阈值,且所示第一网元的网元异常值大于所述第三动态阈值,则确定所述第一网元为异常网元,之后还包括:
确定所述第一网元的异常持续时间大于第四动态阈值,则判断所述第一网元为异常网元,否则为正常网元。
7.一种异常网元检测装置,其特征在于,包括:
获取单元,用于根据网络***架构中第一网元的运行数据,获取所述第一网元的性能指标数据;
筛选单元,用于根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标;所述根据所述第一网元的性能指标数据,获取所述第一网元每类指标的指标异常值,并筛选出所述第一网元的异常指标,进一步包括:根据所述第一网元的性能指标数据,利用相应种类指标历史数据的统计参数,对所述第一网元的每类指标数据进行归一化处理,得到所述第一网元每类指标的指标异常值;根据第一动态阈值,判断所述第一网元的每类指标的指标异常值,筛选出所述第一网元的异常指标;
生成单元,用于根据所述第一网元的所有异常指标的指标异常值,获取所述第一网元的网元异常值;
判断单元,用于根据所述第一网元的异常指标数量,以及所述第一网元的网元异常值,判断所述第一网元是否为异常网元;构建单元,用于根据所述网络***架构中的各网元的连续时间点的网元异常值,构建异常扩散矩阵,并根据所述各网元的运行数据对所述异常扩散矩阵实时更新;
确定单元,用于根据所述网络***架构的网络拓扑和所述异常扩散矩阵,确定异常起源网元;所述确定单元,还用于确定观察时间段内最早异常时间、最大网元异常值对应的网元为异常起源网元,邻近网元中异常时间滞后、异常值小于所述最大网元异常值的异常网元为受波及网元。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述异常网元检测方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述异常网元检测方法的步骤。
CN202110604805.7A 2021-05-31 2021-05-31 一种异常网元检测方法、装置、电子设备及存储介质 Active CN113032227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110604805.7A CN113032227B (zh) 2021-05-31 2021-05-31 一种异常网元检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110604805.7A CN113032227B (zh) 2021-05-31 2021-05-31 一种异常网元检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113032227A CN113032227A (zh) 2021-06-25
CN113032227B true CN113032227B (zh) 2021-12-07

Family

ID=76455891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110604805.7A Active CN113032227B (zh) 2021-05-31 2021-05-31 一种异常网元检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113032227B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110166264B (zh) * 2018-02-11 2022-03-08 北京三快在线科技有限公司 一种故障定位方法、装置及电子设备
US10897389B2 (en) * 2018-09-14 2021-01-19 Cisco Technology, Inc. Threshold selection for KPI candidacy in root cause analysis of network issues
CN110601900B (zh) * 2019-09-23 2022-09-13 中盈优创资讯科技有限公司 一种网络故障预警方法及装置
CN112087316B (zh) * 2020-07-30 2022-08-05 北京思特奇信息技术股份有限公司 基于异常数据分析的网络异常根源定位方法
CN112532455B (zh) * 2020-12-01 2022-07-29 新华三人工智能科技有限公司 一种异常根因定位方法及装置

Also Published As

Publication number Publication date
CN113032227A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
WO2021072890A1 (zh) 基于模型的流量异常监测方法、装置、设备及存储介质
CN110601900B (zh) 一种网络故障预警方法及装置
US9292408B2 (en) Automated detection of a system anomaly
CN106548357B (zh) 客户满意度的测评方法及***
US8903757B2 (en) Proactive information technology infrastructure management
CN111314173B (zh) 监控信息异常的定位方法、装置、计算机设备及存储介质
CN110995153B (zh) 一种光伏电站的异常数据检测方法、装置及电子设备
CN111722952A (zh) 业务***的故障分析方法、***、设备和存储介质
CN111611146A (zh) 一种微服务故障预测方法和装置
CN111353911A (zh) 电力设备运维方法、***、设备和存储介质
CN110275878B (zh) 业务数据检测方法、装置、计算机设备及存储介质
CN113542017A (zh) 基于网络拓扑和多指标的一种网络故障定位方法
KR101953558B1 (ko) 스마트 기기 결함 관리 장치 및 방법
KR102266182B1 (ko) 복수의 시계열 데이터의 모니터링 방법 및 장치
CN116914917A (zh) 一种基于大数据的配电柜运行状态监测管理***
CN106951360B (zh) 数据统计完整度计算方法和***
CN111080484A (zh) 一种配电网异常数据监测方法及装置
CN110889597A (zh) 业务时序指标异常检测方法及装置
CN114338348A (zh) 一种智能告警方法、装置、设备及可读存储介质
CN113032227B (zh) 一种异常网元检测方法、装置、电子设备及存储介质
CN115794479B (zh) 日志数据处理方法、装置、电子设备及存储介质
CN113835947A (zh) 一种基于异常识别结果确定异常原因的方法和***
CN115690681A (zh) 异常判断依据的处理方法、异常判断方法及装置
CN116380228A (zh) 衡器运行监测方法、***、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant