CN108696368B - 一种网元健康状态的检测方法及设备 - Google Patents

一种网元健康状态的检测方法及设备 Download PDF

Info

Publication number
CN108696368B
CN108696368B CN201710218331.6A CN201710218331A CN108696368B CN 108696368 B CN108696368 B CN 108696368B CN 201710218331 A CN201710218331 A CN 201710218331A CN 108696368 B CN108696368 B CN 108696368B
Authority
CN
China
Prior art keywords
kpi
network element
score
time window
sampling data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710218331.6A
Other languages
English (en)
Other versions
CN108696368A (zh
Inventor
谢于明
肖倩
熊枝满
薛莉
陈明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN202110358377.4A priority Critical patent/CN113114530B/zh
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710218331.6A priority patent/CN108696368B/zh
Priority to EP21171420.9A priority patent/EP3927000B1/en
Priority to EP17904827.7A priority patent/EP3595347B1/en
Priority to ES17904827T priority patent/ES2886843T3/es
Priority to PCT/CN2017/090290 priority patent/WO2018184304A1/zh
Publication of CN108696368A publication Critical patent/CN108696368A/zh
Priority to US16/595,066 priority patent/US11128548B2/en
Application granted granted Critical
Publication of CN108696368B publication Critical patent/CN108696368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/091Measuring contribution of individual network components to actual service level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0836Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability to enhance reliability, e.g. reduce downtime
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/022Capturing of monitoring data by sampling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/18Service support devices; Network management devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例涉及一种网元健康状态的检测方法及设备,涉及通信技术领域,具体方法包括:检测设备确定目标网元的至少一个关键性能指标KPI在第一时间窗内的采样数据;检测设备根据至少一个KPI中的任一KPI在第一时间窗内的采样数据与任一KPI的稳态值得到任一KPI的波动性的得分;检测设备根据至少一个KPI中的各KPI的波动性的得分确定目标网元的健康状态。由此,通过网元单点性能数据以及网元时间窗内的性能数据确定网元的健康状态。解决了仅考虑网元的单点时刻性能数据进行判断不准确的问题。所以本方案对网元健康状态的识别更加准确。

Description

一种网元健康状态的检测方法及设备
技术领域
本发明涉及通信技术,尤其涉及一种网元健康状态的检测方法及设备。
背景技术
网络运维管理,是指保障网络与业务正常、安全、有效运行而采取的生产组织管理活动,主要用于维护网络及业务的稳定,及时进行故障处理以及网络优化。随着网络***日趋复杂,受到宕机、负载过高、硬件故障等各类繁杂问题的挑战,同时成本高、耗时长、服务质量差等是目前网络运维管理的一大难题。如何识别出网元的健康状态并进行故障预防成为了网络运维管理的关键。
目前,通过主动式运维服务来实现网络运维管理中网元的健康状态的识别,该方案需要针对网元建立阈值检测体系,当某时刻点网元的指标值低于或超过基准阈值时,说明该网元的工作效率较低,甚至无法达到工作最低要求,则对该网元进行告警提示。
现在的阈值报警体系仅考虑网络设备单时刻点性能数据,对网元健康状态的识别还不够准确。
发明内容
本发明实施例提供了一种网元健康状态的检测方法及设备,用以解决仅考虑网元的单点时刻性能数据与基线阈值确定网元健康状态不准确的问题。
第一方面,本申请实施例提供了一种网元健康状态的检测方法。该方法具体包括:检测设备确定目标网元的至少一个关键性能指标(Key Performance Indicator,KPI)在第一时间窗内的采样数据;检测设备根据至少一个KPI中的任一KPI在第一时间窗内的采样数据与任一KPI的稳态值得到任一KPI的波动性的得分;检测设备根据至少一个KPI中的各KPI的波动性的得分确定目标网元的健康状态。
本方案中,通过网元时间窗内的性能数据确定波动性,根据波动性确定网元的健康状态。解决了仅考虑网元的单点时刻性能数据进行判断不准确的问题。所以本方案对网元健康状态的识别更加准确。
在一个可选的实现方式中,上述波动性,用于表征任一KPI偏离稳态值所表征的稳定状态的程度。
在另一个可选的实现方式中,上述“检测设备根据至少一个KPI中的任一KPI在第一时间窗内的采样数据与任一KPI的稳态值得到任一KPI的波动性的得分”的方法可以包括:计算任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离,根据任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离得到波动性的得分。其中,该稳态值用于表征KPI的稳定状态。
在又一个可选的实现方式中,上述“计算任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离”的方法可以包括:采用标准差方法、平均差方法和变异系数方法中的一种计算任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离。
由于任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离得到波动性的得分,该波动性的得分确定目标网元的健康状态。因此,采用标准差方法、平均差方法和变异系数方法中的一种计算任一KPI在第一时间窗内的采样数据与稳态值的距离,然后根据该采样数据和稳态值的距离确定准确的波动性的得分,如此,可以保证得到更为准确的至任一KPI的波动性的得分,从而更加准确地确定目标网元的健康状态。
在再一个可选的实现方式中,检测设备确定任一KPI在第二时间窗内的采样数据,第二时间窗的截止时刻小于或等于第一时间窗的截止时刻;检测设备根据任一KPI在第二时间窗内的采样数据计算任一KPI的稳态值。通常,第二时间窗大于第一时间窗。由于第二时间窗大于第一时间窗,所以,在第二时间窗内采集数据的数量多,更能代表任一KPI的状态,因此,考虑到第二时间窗内的采样数据计算出的稳态值并结合在第一时间窗内的采样数据得到的波动性的得分要更加准确。
在再一个可选的实现方式中,上述“根据任一KPI在第二时间窗内的采样数据计算任一KPI的稳态值”的方法可以包括:根据去除异常点和/或噪声点后的任一KPI 在第二时间窗内的采样数据计算任一KPI的稳态值。由于第二时间窗内的采样数据并不完全应用在计算任一KPI的稳态值中,因此,该方法需去除第二时间窗内的采样数据中的异常点和/或噪声点,根据去除异常点和/或噪声点之后的采样数据中任一KPI 更加准确的计算任一KPI的稳态值。
在再一个可选的实现方式中,上述“根据至少一个KPI中的各KPI的波动性的得分确定目标网元的健康状态”的方法可以包括:根据波动性的得分和任一KPI对应的离网元硬件特性门限距离的得分与任一KPI的趋势性的得分中的至少一个通过加权计算得到任一KPI的可靠性得分;根据至少一个KPI中的各KPI的可靠性得分确定目标网元的健康状态。若仅根据至少一个KPI中的各KPI的波动性的得分确定目标网元的健康状态,那么此过程中的波动性的得分就相当于可靠性得分。另一种方法,根据波动性的得分以及任一KPI对应的离网元硬件特性门限距离的得分通过加权计算得到目标网元的可靠性得分,根据目标网元的可靠性得分可以确定目标网元的健康状态。由于此方法中不仅考虑到了波动性的得分也考虑到了任一KPI对应的离网元硬件特性门限距离的得分。因此,该方法准确确定目标网元的健康状态。又一种方法,根据任一 KPI波动性的得分以及任一KPI的趋势性的得分通过加权计算得到目标网元的可靠性得分,根据目标网元的可靠性得分可以确定目标网元的健康状态。由于此方法中不仅考虑到了波动性的得分也考虑到了趋势性的得分,因此,该方法准确确定目标网元的健康状态。
在再一个可选的实现方式中,检测设备确定目标网元的任一KPI在待检测时刻的采样数据,待检测时刻为第一时间窗的截止时刻;检测设备根据任一KPI在待检测时刻的采样数据以及预设的任一KPI的网元硬件特性门限,确定任一KPI的离网元硬件特性门限距离得分。
在再一个可选的实现方式中,上述“根据波动性的得分、和任一KPI对应的离网元硬件特性门限距离的得分与任一KPI的趋势性的得分中的至少一个通过加权计算得到任一KPI的可靠性得分”的方法可以包括:根据任一KPI的波动性得分、任一KPI 的离网元硬件特性门限距离的得分以及任一KPI的趋势性的得分通过加权计算得到任一KPI的可靠性得分。由于同时考虑了任一KPI的波动性得分、任一KPI的离网元硬件特性门限距离的得分以及任一KPI的趋势性的得分,如此,不仅通过网元单点性能数据以及网元时间窗内的性能数据确定网元的性能,根据网元的性能获得可靠性得分,可靠性确定网元健康状态,此过程中对网元健康识别更加准确。
在再一个可选的实现方式中,检测设备确定任一KPI在第三时间窗内的采样数据,第三时间窗大于第一时间窗,第三时间窗的截止时刻小于等于第一时间窗的截止时刻;检测设备根据任一KPI在第三时间窗内的采样数据的采集时间对采样数据进行先后排序,得到排序数据,对排序数据进行分解,确定任一KPI的趋势性分量;根据任一KPI 的趋势性分量得到任一KPI的趋势性的得分。由于充分利用任一KPI在第三时间窗内的采样数据的采集时间对采样数据进行先后排序,得到排序数据,对排序数据进行分解,分解出任一KPI的趋势性分量,并根据任一KPI的趋势性分量得到任一KPI的趋势性的得分,此过程更能准确得到趋势性的得分。
在再一个可选的实现方式中,上述“至少一个KPI包括多个KPI;根据至少一个 KPI中的各KPI的可靠性得分确定目标网元的健康状态”的方法可以包括:对多个KPI 的每个的可靠性得分进行加权计算确定目标网元的可靠性得分;根据目标网元的可靠性得分确定目标网元的健康状态。由于,通过加权计算确定目标网元的可靠性得分,如此,提高了检测目标网元的健康状态的准确度。
在再一个可选的实现方式中,上述“目标网元的健康状态”的方法可以包括:故障状态、亚健康状态或正常状态。由于,根据得到的可靠性得分判断目标网元的健康状态,将目标网元的健康状态详细分成三个状态,如此,更能直观的得到目标网元所处的健康状态,例如,若目标网元处于亚健康状态,则可以提示主动预警;若目标网元处于故障状态,则可以提示故障并进行故障报警。
在再一个可选的实现方式中,上述“至少一个KPI”可以包括:纠前误码率和/或纠后误码率。
第二方面,本申请实施例提供了一种网元健康状态的检测装置。该装置具体包括:
获取模块,用于获取目标网元的至少一个关键性能指标KPI的采样数据。健康状态确定模块,用于根据至少一个KPI中的任一KPI在第一时间窗内的采样数据与任一 KPI的稳态值得到任一KPI的波动性的得分;根据至少一个KPI中的各KPI的波动性的得分确定目标网元的健康状态。
本方案中,通过网元时间窗内的性能数据确定波动性,根据波动性确定网元的健康状态。解决了仅考虑网元的单点时刻性能数据进行判断不准确的问题。所以本方案对网元健康状态的识别更加准确。
在一个可选的实现方式中,上述检测装置,还包括:应用模块,用于呈现所述目标网元的健康状态。
在另一个可选的实现方式中,上述波动性,用于表征任一KPI偏离稳态值所表征的稳定状态的程度。
在另一个可选的实现方式中,上述健康状态确定模块,具体用于:计算任一KPI 在第一时间窗内的采样数据与任一KPI的稳态值的距离,根据任一KPI在第一时间窗内的采据与任一KPI的稳态值的距离得到波动性的得分。
在又一个可选的实现方式中,上述健康状态确定模块,具体用于:采用标准差方法、平均差方法和变异系数方法中的一种计算任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离。
在再一个可选的实现方式中,健康状态确定模块还用于,根据任一KPI在第二时间窗内的采样数据计算任一KPI的稳态值,第二时间窗的截止时刻小于或等于第一时间窗的截止时刻。通常,第二时间窗大于第一时间窗。由于第二时间窗大于第一时间窗,所以,在第二时间窗内采集数据的数量多,更能代表任一KPI的稳定状态,因此,考虑到第二时间窗内的采样数据计算出的稳态值并结合在第一时间窗内的采样数据得到的波动性的得分要更加准确。
在再一个可选的实现方式中,上述健康状态确定模块,具体用于:根据去除异常点和/或噪声点后的任一KPI在第二时间窗内的采样数据计算任一KPI的稳态值。
在再一个可选的实现方式中,上述健康状态确定模块,具体用于:根据波动性的得分、和任一KPI对应的离网元硬件特性门限距离的得分与任一KPI的趋势性的得分中的至少一个通过加权计算得到任一KPI的可靠性得分;根据至少一个KPI中的各 KPI的可靠性得分确定目标网元的健康状态。
在再一个可选的实现方式中,上述健康状态确定模块具体用于,根据任一KPI在待检测时刻的采样数据以及预设的任一KPI对应的网元硬件特性门限,确定任一KPI 的离网元硬件特性门限距离的得分,其中,待检测时刻为第一时间窗的截止时刻。
在再一个可选的实现方式中,包括:上述健康状态确定模块还用于,根据任一KPI在第三时间窗内的采样数据的采集时间对采样数据进行先后排序,得到排序数据,对排序数据进行分解,确定任一KPI的趋势性分量;根据任一KPI的趋势性分量得到任一KPI的趋势性的得分,其中,所述第三时间窗大于第一时间窗,第三时间窗的截止时刻小于等于第一时间窗的截止时刻。
在再一个可选的实现方式中,包括:至少一个KPI包括多个KPI;健康状态确定模块,具体用于:对多个KPI的每个的可靠性得分进行加权计算确定目标网元的可靠性得分;根据目标网元的可靠性得分确定目标网元的健康状态。
在再一个可选的实现方式中,包括:至少一个KPI包括多个KPI;健康状态确定模块,具体用于:对多个KPI的每个的波动性的得分进行加权计算确定目标网元的可靠性得分;根据目标网元的可靠性得分确定目标网元的健康状态。
在再一个可选的实现方式中,上述目标网元的健康状态,包括:故障状态、亚健康状态或正常状态。
在再一个可选的实现方式中,至少一个KPI包括:纠前误码率和/或纠后误码率。
第三方面,本申请实施例提供了一种网元健康状态的检测设备。该设备包括:收发器和处理器。收发器,用于接收目标网元的至少一个关键性能指标KPI的采样数据;处理器,用于根据至少一个KPI中的任一KPI在第一时间窗内的采样数据与任一KPI 的稳态值得到任一KPI的波动性的得分;处理器还用于,根据至少一个KPI中的各 KPI的波动性的得分确定目标网元的健康状态。
本方案中,通过网元时间窗内的性能数据确定波动性,根据波动性确定网元的健康状态。解决了仅考虑网元的单点时刻性能数据进行判断不准确的问题。所以本方案对网元健康状态的识别更加准确。
在一个可选的实现方式中,上述波动性,用于表征任一KPI偏离稳态值所表征的稳定状态的程度。
在另一个可选的实现方式中,上述处理器还用于,计算任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离,根据任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离得到波动性的得分。
在又一个可选的实现方式中,上述处理器还用于,采用标准差方法、平均差方法和变异系数方法中的一种计算任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离。
由于任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离得到波动性的得分,该波动性的得分确定目标网元的健康状态。因此,采用标准差方法、平均差方法和变异系数方法中的一种计算任一KPI在第一时间窗内的采样数据与稳态值的距离,然后根据该采样数据和稳态值的距离确定准确的波动性的得分,如此,可以保证得到更为准确的至任一KPI的波动性的得分,从而更加准确地确定目标网元的健康状态。
在再一个可选的实现方式中,上述处理器还用于,确定目标网元的任一KPI在第二时间窗内的采样数据,第二时间窗大于第一时间窗,第二时间窗的截止时刻小于或等于第一时间窗的截止时刻。
上述处理器还用于,根据任一KPI在第二时间窗内的采样数据计算任一KPI的稳态值。通常,第二时间窗大于第一时间窗。第二时间窗的截止时刻小于或等于第一时间窗的截止时刻。由于第二时间窗大于第一时间窗,所以,在第二时间窗内采集数据的数量多,更能代表任一KPI的状态,因此,考虑到第二时间窗内的采样数据计算出的稳态值并结合在第一时间窗内的采样数据得到的波动性的得分要更加准确。
在再一个可选的实现方式中,上述处理器还用于,根据去除异常点和/或噪声点后的任一KPI在第二时间窗内的采样数据计算任一KPI的稳态值。因此,该方法需去除第二时间窗内的采样数据中的异常点和/或噪声点,根据去除异常点和/或噪声点之后的采样数据中任一KPI更加准确的计算任一KPI的稳态值。
在再一个可选的实现方式中,上述处理器还用于,根据波动性的得分和任一KPI对应的离网元硬件特性门限距离的得分与任一KPI的趋势性的得分中的至少一个通过加权计算得到任一KPI的可靠性得分;根据至少一个KPI中的各KPI的可靠性得分确定目标网元的健康状态。其中,至少一个KPI中的各KPI的波动性的得分确定目标网元的健康状态,此过程中的波动性的得分就相当于可靠性得分。另一种方法,根据波动性的得分以及任一KPI对应的离网元硬件特性门限距离的得分通过加权计算得到目标网元的可靠性得分,根据目标网元的可靠性得分可以确定目标网元的健康状态。由于此方法中不仅考虑到了波动性的得分也考虑到了任一KPI对应的离网元硬件特性门限距离的得分。因此,该方法准确确定目标网元的健康状态。又一种方法,根据任一 KPI波动性的得分以及任一KPI的趋势性的得分通过加权计算得到目标网元的可靠性得分,根据目标网元的可靠性得分可以确定目标网元的健康状态。由于此方法中不仅考虑到了波动性的得分也考虑到了趋势性的得分,因此,该方法准确确定目标网元的健康状态。
在再一个可选的实现方式中,上述处理器还用于,确定目标网元在待检测时刻的任一KPI的采样数据,待检测时刻为第一时间窗的截止时刻;根据任一KPI在待检测时刻的采样数据以及预设的任一KPI的网元硬件特性门限,确定任一KPI的离网元硬件特性门限距离得分。
在再一个可选的实现方式中,上述处理器还用于,确定目标网元的任一KPI在第三时间窗内的采样数据,第三时间窗大于第一时间窗,第三时间窗的截止时刻小于等于第一时间窗的截止时刻。
上述处理器还用于,检测设备根据任一KPI在第三时间窗内的采样数据的采集时间对采样数据进行先后排序,得到排序数据,对排序数据进行分解,确定任一KPI的趋势性分量;根据任一KPI的趋势性分量得到任一KPI的趋势性的得分。由于充分利用任一KPI在第三时间窗内的采样数据的采集时间对采样数据进行先后排序,得到排序数据,对排序数据进行分解,分解出任一KPI的趋势性分量,并根据任一KPI的趋势性分量得到任一KPI的趋势性的得分,此过程更能准确得到趋势性的得分。
在再一个可选的实现方式中,上述处理器还用于,对多个KPI的每个的可靠性得分进行加权计算确定目标网元的可靠性得分;根据目标网元的可靠性得分确定目标网元的健康状态。由于,通过加权计算确定目标网元的可靠性得分,如此,提高了检测目标网元的健康状态的准确度。
在再一个可选的实现方式中,上述处理器还用于,对多个KPI的每个的波动性的得分进行加权计算确定目标网元的可靠性得分;根据目标网元的可靠性得分确定目标网元的健康状态。在再一个可选的实现方式中,上述“目标网元的健康状态”的方法可以包括:故障状态、亚健康状态或正常状态。由于,根据得到的可靠性得分判断目标网元的健康状态,将目标网元的健康状态详细分成三个状态,如此,更能直观的得到目标网元所处的健康状态,例如,若目标网元处于亚健康状态,则可以提示主动预警;若目标网元处于故障状态,则可以提示故障并进行故障报警。
在再一个可选的实现方式中,上述“至少一个KPI”可以包括:纠前误码率和/或纠后误码率。
第四方面,本申请实施例提供了一种故障处理设备。包括:收发器以及处理器,用于确定目标网元在第一时间窗内的任一KPI的采样数据;处理器,用于根据任一KPI 在第一时间窗内的采样数据与任一KPI的稳态值得到任一KPI的波动性的得分;根据任一KPI的波动性的得分确定目标网元的健康状态。当故障处理设备运行时,处理器执行存储器存储的计算机执行指令,以使故障处理设备执行如第一方面以及第一方面的各种可选方式中的故障处理方法。
第五方面,本申请实施例提供了一种计算机存储介质,用于储存为上述故障处理设备所用的计算机软件指令,其包含用于执行上述第一方面以及可选地实现中所设计的程序。
第六方面,本申请实施例提供了一种计算机程序产品,用于储存为上述故障处理设备所用的计算机软件指令,其包含用于执行上述第一方面以及可选地实现中所设计的程序。
附图说明
图1为本发明实施例提供的一种网元健康状态检测的应用场景图;
图2为本发明实施例提供的一种网元健康状态的检测方法的交互示意图;
图3为本发明实施例提供的一种时间窗状态的示意图;
图4为本发明实施例提供的另一种时间窗状态的示意图;
图5为本发明实施例提供的另一种网元健康状态检装置示意图;
图6为本发明实施例提供的一种网元健康状态检测的设备示意图;
图7为本发明实施例提供的一种去除异常点方法的示意图。
具体实施方式
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
本发明实施例提供一种网元健康状态的检测方法及设备,通过时间窗内的性能数据确定网元的健康状态。解决了仅考虑网元的单点时刻性能数据进行判断不准确的问题。所以本方案对网元健康状态的识别更加准确。
图1为本发明实施例提供的一种网元健康状态检测的应用场景图。如图1所示,该应用场景包括:网络设备层10和检测设备20。其中,网络设备层10包括:网管设备和至少一个网元。其中,可以是至少一个网元中的各网元周期性的向检测设备20 发送采样数据;也可以是各网元周期性的向所述网管设备发送采样数据,并由网管设备向检测设备20发送各网元的采样数据。具体地,各网元的采样数据包括各网元的至少一个KPI的采样数据。
检测设备20包括:收发器和处理器。其中,收发器,用于接收网元的至少一个 KPI的采样数据;处理器,用于根据至少一个KPI中的任一KPI的采样数据与任一KPI 的稳态值得到任一KPI的波动性的得分;根据至少一个KPI中的各KPI的波动性的得分确定网元的健康状态。
图2为本发明实施例提供的一种网元健康状态的检测方法的交互示意图。如图2所示,该方法具体包括:
S210,网络设备层10向检测设备20发送至少一个网元的采样数据。
具体地,可以是至少一个网元中的各网元周期性的向检测设备20发送采样数据;也可以是各网元周期性的向网管设备发送采样数据,并由网管设备向检测设备20发送各网元的采样数据。具体地,各网元的采样数据包括各网元的至少一个KPI的采样数据。例如,所述至少一个KPI包括:纠前误码率和/或纠后误码率。
具体地,网络设备层将目标网元的采样数据周期性发送至检测设备的接口。例如,网络设备层利用公共对象请求代理体系结构协议(Common Object Request BrokerArchitecture,CORBA)将目标网元的采样数据周期性发送至检测设备的接口。
检测设备可以预先根据待检测网元所提供的业务类型进行参数配置,配置的参数通常包括执行检测操作所需的KPI,还可以包括执行检测操作所需的门限(如网元硬件特性门限)。在一个可实现的例子中,若基于网元所提供的波分业务评估网元的健康状态,则可以通过检测设备的配置接口配置***配置1以及***配置2。其中,***配置1对应的字段分别为:Key1,KPI1,KPI2……,值分别为:波分业务质量预警、纠前误码率和纠后误码率,用于表明对该波分业务的质量预警,主要用纠前误码率和纠后误码率这两个KPI来评估网元的健康状态。***配置2对应的字段分别为: KPI,Board_type、FEC_THD,值分别为:纠前误码率、波分线路单板NS2,门限10-6,用于表明对于波分线路单板NS2的纠前误码率这个KPI的网元硬件特性门限为10-6。该***配置1和***配置2可以为预先设置的。
可选地,检测设备将包括执行检测操作所需的KPI的反馈信息发送至网络设备层。相应地,网络设备层会根据上述反馈信息将执行检测操作所需的KPI的采样数据周期性发送至检测设备。具体地,反馈信息可以是检测设备20直接发送至至少一个网元;也可以先发送至网管设备,然后,网管设备再将反馈信息发送至至少一个目标网元。
S220,检测设备确定待检测网元(后续将待检测网元称为目标网元)的至少一个KPI(如纠前误码率和/或纠后误码率)在第一时间窗内的采样数据。
具体地,如图3所示,该第一时间窗的截止时刻为待检测时刻,待检测时刻通常为执行步骤S220前采集的最新的采集数据所对应的时刻。所述第一时间窗为一个时间范围,如所述待检测时刻前的8小时。
S230,所述检测设备根据所述至少一个KPI中的任一KPI在第一时间窗内的采样数据与所述任一KPI的稳态值得到所述任一KPI的波动性的得分。
需要说明的是,步骤S230中计算的是所述至少一个KPI中的任一KPI的波动性的得分。具体地,如果所述至少一个KPI只包括一个KPI(如纠前误码率),则在步骤S230中计算的是该KPI(如纠前误码率)的波动性的得分。如果所述至少一个KPI 包括多个KPI(如纠前误码率和纠后误码率),则在步骤S230中计算的是所述多个 KPI中的各KPI的波动性的得分(如,所述纠前误码率的波动性的得分和所述纠后误码率的波动性的得分)。
为便于描述,后续将所述任一KPI称为目标KPI。如,当计算所述纠前误码率的波动性的得分时,所述目标KPI指代所述纠前误码率,当计算所述纠后误码率的波动性的得分时,所述目标KPI指代所述纠后误码率。
波动性是衡量网元健康状态的重要指标之一。所述目标KPI的波动性用于表征所述目标KPI偏离稳定状态的程度。例如,波动性的计算方法为根据所述目标KPI在第一时间窗内的采样数据与所述目标KPI的稳态值的距离(后续称为波动距离)得到波动性的得分。具体可以采用标准差方法、平均差方法和变异系数方法中的一种计算所述波动距离。
具体地,采用下述公式计算所述波动距离:
Figure BDA0001262965120000091
其中,sDeviationDist为所述目标KPI的波动性的得分,σ是所述波动距离。
在一个示例中,可以采用标准差方法计算所述波动距离,具体为:
Figure BDA0001262965120000092
其中,σ为所述波动距离,Xi为所述第一时间窗内的单个采样点的采样数据(即KPI值),μ为所述目标KPI的稳态值,N为所述第一时间窗内的采样数据的个数(例如,所述第一时间窗为所述待检测时刻前的8个小时,每15分钟采集一次数据,则N 为32)。
在另一个示例中,采用平均差方法计算所述波动距离。具体地,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值或中位数作为参考值。
在又一个示例中,采用变异系数方法计算所述波动距离。具体地,标准差与平均数的比值称为变异系数。适用于比较两组数据离散程度的大小,若两组数据的测量尺度相差太大或者数据量纲不同时,通常不直接使用标准差来进行比较两组数据离散程度的大小,此时采用变异系数烦方法消除测量尺度和量纲的影响。
一般波动距离越大表明波动性越大,通常波动性越大波动性的得分越低、波动性越小波动性的得分越高。
所述目标KPI的稳态值,用于表征所述目标KPI的稳定状态。所述目标KPI的稳态值在理论上是指,所述目标KPI在一个较长的时间段内的平均值。
检测设备具体可以根据所述目标KPI在第二时间窗内的采样数据计算所述目标KPI的稳态值。所述第二时间窗通常大于或等于所述第一时间窗,例如,所述第二时间窗的长度为24小时。所述第二时间窗的截止时刻可以小于或等于所述第一时间窗的截止时刻,如图3所示,所述第二时间窗的截止时刻等于所述第一时间窗的截止时刻,如图4所示,所述第二时间窗的截止时刻小于所述第一时间窗的截止时刻。
具体地,检测设备根据去除异常点和/或噪声点后的所述目标KPI在第二时间窗内的采样数据计算所述目标KPI的稳态值,具体可以将去除异常点和/或噪声点后的所述目标KPI的采样数据的平均值作为所述目标KPI的稳态值。具体可以采用正态分布去除所述目标KPI在第二时间窗内的采样数据中的异常点,例如,可以采用3sigma原则去除所述目标KPI在第二时间窗内的采样数据中的异常点,如图7所示,在 [u-3σ,u+3σ]之外的KPI数据点为异常点。可以采用主成分分析方法对所述目标KPI 在第二时间窗内的采样数据进行降维,去除噪声点。
S240,检测设备根据所述目标KPI中的各KPI的波动性的得分确定所述目标网元的健康状态。
其中,目标网元的健康状态可以为:故障状态、亚健康状态或正常状态。进一步地,若目标网元处于亚健康状态,可以提示主动预警;若目标网元处于故障状态,则可以提示故障并进行故障报警。
具体地,检测设备可以根据所述目标KPI的波动性的得分确定所述目标KPI的可靠性得分,并根据各KPI的可靠性得分确定所述目标网元的健康状态。
通常,可靠性得分越高,网元的健康状态越好。
当仅根据所述目标KPI的波动性的得分确定所述目标KPI的可靠性得分时,可以直接将所述目标KPI的波动性的得分作为所述目标KPI的可靠性得分。
当根据所述目标KPI的波动性的得分、所述目标KPI离网元硬件特性门限的距离(后续称为门限距离)的得分、以及所述目标KPI的趋势性的得分中的至少两个得分确定所述目标KPI的可靠性得分时,可以对所述至少两个得分进行加权计算得到所述目标KPI的可靠性得分。具体可以利用下述公式计算所述目标KPI的可靠性得分:
sReliability=α*sDeviationDist+(β*sThresDist+λ*sTrend)
其中,sReliability为所述目标KPI的可靠性得分,sDeviationDist为所述目标KPI 的波动性的得分,sTrend为所述目标KPI的趋势性的得分,sThresDist为所述目标 KPI对应的门限距离的得分。α,β,λ为各自的权重系数,且α+β+λ=1,各权重系数可以是预先设置的,也可以通过训练确定的。通常,sDeviationDist为必选项, sTrend和sThresDist为可选项。
所述门限距离指的是所述目标KPI(如纠前误码率)的采样数据与所述目标KPI 对应的网元硬件特性门限(如10-6)的距离。相应地,所述门限距离的得分用于表征所述门限距离所能反映出来的所述目标KPI的可靠性。通常,当所述目标KPI的采样数据高于所述网元硬件特性门限时,所述目标KPI的采样数据与所述网元硬件特性门限越近,即所述门限距离越小,所述目标KPI的门限距离的得分越低,表明所述目标 KPI所反映出来的所述目标网元的可靠性越差。
需要说明的是,网元硬件特性门限一般取决于网元的硬件特性。如,纠前误码率所对应的网元硬件特性门限,表明纠前误码率达到该网元硬件特性门限后会出现纠后误码。例如,10G光模块纠前误码率对应的网元硬件特性门限通常为10的-6次方,40G 光模块纠前误码率对应的网元硬件特性门限通常为10的-5次方,100G光模块纠前误码率对应的网元硬件特性门限通常为10的-5次方。激光器光功率KPI所对应的网元硬件特性门限通常为-60dB。
所述检测设备确定所述门限距离的得分的一种方法包括:所述检测设备根据所述目标KPI在所述待检测时刻(即所述第一时间窗的截止时刻)的采样数据以及预先配置的所述目标KPI对应的网元硬件特性门限,确定所述门限距离的得分。
具体可以采用如下公式计算所述门限距离的得分。
Figure BDA0001262965120000101
其中,x为待检测时刻的采样数据,xTHD是所述目标KPI对应的网元硬件特性门限,xmin为所述目标KPI理论上的最小值,xmax为所述目标KPI理论上的最大值,上述xmin和xmax可以是预先设置的值。
根据上述公式,当所述待检测时刻的采样数据大于所述网元硬件特性门限时,所述待检测时刻的采样数据与所述网元硬件特性门限越近,即所述门限距离越小,所述目标KPI的门限距离的得分越低,表明所述目标KPI所反映出来的所述目标网元的可靠性越差;当所述待检测时刻的采样数据小于所述网元硬件特性门限时,所述目标KPI 的门限距离的得分为0,表明所述目标KPI所反映出来的所述目标网元的可靠性很差。
所述检测设备确定所述门限距离的得分的另一种方法包括:所述检测设备根据所述目标KPI在第四时间窗内的采样数据以及预先配置的所述目标KPI对应的网元硬件特性门限,确定所述门限距离的得分。所述第四时间窗和所述第一时间窗的截止时间相同,且通常小于所述第一时间窗,例如,所述第四时间窗为1小时。具体地,对所述第四时间窗内的采样数据算平均值,将该平均值和所述网元硬件特性门限的差值作为所述门限距离。具体可以采用如下公式计算所述门限距离的得分。
Figure BDA0001262965120000111
其中,x为所述平均值,xTHD是所述目标KPI对应的网元硬件特性门限,xmin为所述目标KPI理论上的最小值,xmax为所述目标KPI理论上的最大值,上述xmin和xmax可以是预先设置的值。
趋势性是衡量网元健康状态精度的重要指标之一。所述目标KPI的趋势性用于表征所述目标KPI的变化趋势,相应地,所述目标KPI的趋势性的得分,用于表征所述目标KPI的变化是上升还是下降以及变化的快慢程度。
所述检测设备具体可以根据所述目标KPI在第三时间窗内的采样数据计算所述目标KPI的趋势性的得分。所述第三时间窗的截止时刻小于或等于所述第一时间窗的截止时刻,如图3所示,所述第三时间窗的截止时刻等于所述第一时间窗的截止时刻,如图4所示,所述第三时间窗的截止时刻小于所述第一时间窗的截止时刻。通常所述第三时间窗大于所述第一时间窗,例如,所述第三时间窗的长度为三天。
具体地,所述检测设备可以根据所述目标KPI在所述第三时间窗内的采样数据的采集时间对所述采样数据进行先后排序,得到排序数据,对排序数据进行分解,得到其中的趋势性分量,根据所述趋势性分量确定所述目标KPI的趋势性的得分。
例如,所述检测设备采用指数平滑模型(Exponential smoothing model,HWSM)将所述排序数据分解成:趋势性、季节性和随机性的分量。所述指数平滑模型具体可以是如下所示的加性模型:
xi=wi+sii
其中,xi为i时刻的采样数据,wi为i时刻的趋势成分,si为i时刻的季节成分,εi为i时刻的随机成分。
然后,根据趋势性分量的斜率k确定趋势性的得分。
若趋势性分量下降表明可靠性变差,则用如下公式计算趋势性得分:
Figure BDA0001262965120000112
若趋势性分量上升表明可靠性变差,则用如下公式计算趋势性得分:
Figure BDA0001262965120000121
所述检测设备具体可以根据如下公式若所述检测设备根据至少一个KPI的波动性的得分、至少一个KPI的离网元硬件特性门限的距离的得分以及至少一个KPI的趋势性的得分通过加权计算得到目标网元的可靠性得分。
如果所述至少一个KPI包括多个KPI,在步骤240中,所述检测设备可以对所述多个KPI中的各KPI的可靠性得分进行加权计算确定所述目标网元的可靠性得分,并进一步根据所述目标网元的可靠性确定所述目标网元的健康状态。
图5为本发明实施例提供的另一种网元健康状态检装置示意图,可以用于实现本发明上述方法实施例所提供的检测方法。如图5所示,检测设备20包括:获取模块 501、健康状态确定模块502,还可以包括应用模块503以及配置接口。
其中,获取模块501,用于获取目标网元的至少一个KPI的采样数据;
健康状态确定模块502,用于根据所述至少一个KPI中的任一KPI(后续称为目标KPI)在第一时间窗内的采样数据与所述目标KPI的稳态值得到所述目标KPI的波动性的得分;根据所述至少一个KPI中的各KPI的波动性的得分确定目标网元的健康状态。其中,该健康状态确定模块502具体可以通过所述可靠性智能评估模型实现检测网元健康状态的确定,该可靠性智能评估模型输入的是目标网元的至少一个关键性能指标KPI的采样数据,输出是目标网元的健康状态。
应用模块503,用于根据目标网元的健康状态得到目标网元的可靠性分布图,其中,可靠性分布图可以包括:故障区域、亚健康区域和正常区域,其中,故障区域用于显示处于故障状态的网元的信息,亚健康区域用于显示处于亚健康状态的网元的信息,正常区域用于显示处于正常状态的网元的信息。
由于,根据得到的可靠性得分判断目标网元的健康状态,将目标网元的健康状态详细分成三个状态,如此,更能直观的得到目标网元所处的健康状态,例如,若目标网元处于亚健康状态,则可以提示主动预警;若目标网元处于故障状态,则可以提示故障并进行故障报警。
例如,检测设备为计算机时,则应用模块503为应用层,检测设备20中的应用模块503提供网元健康状态分布图并由计算机的显示屏提供可视画面,通过可视画面可以直观的观测到至少一个目标网元处于故障区域、亚健康区域和正常区域之中的一个状态。
配置接口,用于根据需要分析的网络设备层中至少一个目标网元的业务类型进行参数配置。
例如,若基于目标网元所提供的波分业务评估网元的健康状态,则如S210所述的配置方法进行配置,在此不再赘述。
具体地,波动性,用于表征所述目标KPI偏离稳态值所表征的稳定状态的程度。
健康状态确定模块502,用于计算所述目标KPI在第一时间窗内的采样数据与所述目标KPI的稳态值的距离,根据所述目标KPI在第一时间窗内的采样数据与所述目标KPI的稳态值的距离得到波动性的得分。
健康状态确定模块502,具体可以用于采用标准差方法、平均差方法和变异系数方法中的一种计算所述目标KPI在第一时间窗内的采样数据与所述目标KPI的稳态值的距离。
健康状态确定模块502,还用于根据所述目标KPI在第二时间窗内的采样数据计算所述目标KPI的稳态值;所述第二时间窗大于第一时间窗,所述第二时间窗的截止时刻小于或等于所述第一时间窗的截止时刻。由于第二时间窗大于第一时间窗,所以,在第二时间窗内采集数据的数量多,更能代表所述目标KPI的稳定状态,因此,考虑到第二时间窗内的采样数据计算出的稳态值并结合在第一时间窗内的采样数据得到的波动性的得分要更加准确。
健康状态确定模块502,具体可以用于根据去除异常点和/或噪声点后的所述目标KPI在第二时间窗内的采样数据计算所述目标KPI的稳态值。
健康状态确定模块502,具体可以用于根据波动性的得分、和所述目标KPI对应的离网元硬件特性门限距离的得分与所述目标KPI的趋势性的得分中的至少一个通过加权计算得到所述目标KPI的可靠性得分;根据所述至少一个KPI中的各KPI的可靠性得分确定目标网元的健康状态。其中,如果仅根据所述至少一个KPI中的各KPI的波动性的得分确定所述目标网元的健康状态,此过程中的波动性的得分就相当于可靠性得分。在另一种方法中,根据波动性的得分以及所述目标KPI对应的离网元硬件特性门限距离的得分通过加权计算得到目标网元的可靠性得分,根据目标网元的可靠性得分可以确定目标网元的健康状态。由于此方法中不仅考虑到了波动性的得分也考虑到了所述目标KPI对应的离网元硬件特性门限距离的得分。因此,该方法可以准确确定所述目标网元的健康状态。在又一种方法中,根据所述目标KPI的波动性的得分以及所述目标KPI的趋势性的得分通过加权计算得到目标网元的可靠性得分,根据目标网元的可靠性得分可以确定目标网元的健康状态。由于此方法中不仅考虑到了波动性的得分也考虑到了趋势性的得分,因此,该方法可以准确确定目标网元的健康状态。
健康状态确定模块502,用于确定目标网元所述目标KPI在待检测时刻的采样数据,待检测时刻为第一时间窗的截止时刻;检测设备根据所述目标KPI在待检测时刻的采样数据以及预设的所述目标KPI的网元硬件特性门限,确定所述目标KPI的离网元硬件特性门限距离得分。
健康状态确定模块502,用于根据所述目标KPI的波动性得分、所述目标KPI的离网元硬件特性门限距离的得分以及所述目标KPI的趋势性的得分通过加权计算得到所述目标KPI的可靠性得分。由于同时考虑了所述目标KPI的波动性得分、所述目标 KPI的离网元硬件特性门限距离的得分以及所述目标KPI的趋势性的得分,如此,不仅通过网元单点性能数据以及网元时间窗内的性能数据确定网元的性能,根据网元的性能获得可靠性得分,可靠性确定网元健康状态,此过程中对网元健康识别更加准确。
健康状态确定模块502,用于根据所述目标KPI在第三时间窗内的采样数据的采集时间对采样数据进行先后排序,得到排序数据,对排序数据进行分解,确定趋势性分量;根据趋势性分量得到所述目标KPI的趋势性的得分。第三时间窗大于第一时间窗,第三时间窗的截止时刻小于等于第一时间窗的截止时刻。由于充分利用所述目标 KPI在第三时间窗内的采样数据的采集时间对采样数据进行先后排序,得到排序数据,对排序数据进行分解,分解出所述目标KPI的趋势性分量,并根据所述目标KPI的趋势性分量得到所述目标KPI的趋势性的得分,此过程更能准确得到趋势性的得分。
健康状态确定模块502,用于对多个KPI的每个的可靠性得分进行加权计算确定目标网元的可靠性得分;根据目标网元的可靠性得分确定目标网元的健康状态。由于,通过加权计算确定目标网元的可靠性得分,如此,提高了检测目标网元的健康状态的准确度。
图6为本发明实施例提供的一种网元健康状态检测的设备示意图。如图6所示,本申请实施例提供了一种网元健康状态的检测设备。该设备包括:收发器和处理器。收发器,用于接收目标网元的至少一个关键性能指标KPI的采样数据;处理器,用于根据至少一个KPI中的任一KPI在第一时间窗内的采样数据与任一KPI的稳态值得到任一KPI的波动性的得分;处理器还用于,根据至少一个KPI中的各KPI的波动性的得分确定目标网元的健康状态。
本方案中,通过该设备的收发器和处理器,通过网元单点性能数据以及网元时间窗内的性能数据确定网元的健康状态。解决了仅考虑网元的单点时刻性能数据进行判断不准确的问题。所以本方案对网元健康状态的识别更加准确。
上述波动性,用于表征任一KPI偏离稳态值所表征的稳定状态的程度。
上述处理器还用于,计算任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离,根据任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离得到波动性的得分。
上述处理器还用于,采用标准差方法、平均差方法和变异系数方法中的一种计算任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离。
由于任一KPI在第一时间窗内的采样数据与任一KPI的稳态值的距离得到波动性的得分,该波动性的得分确定目标网元的健康状态。因此,采用标准差方法、平均差方法和变异系数方法中的一种计算任一KPI在第一时间窗内的采样数据与稳态值的距离,然后根据该采样数据和稳态值的距离确定准确的波动性的得分,如此,可以保证得到更为准确的至任一KPI的波动性的得分,从而更加准确地确定目标网元的健康状态。
上述处理器还用于,确定任一KPI在第二时间窗内的采样数据,第二时间窗大于第一时间窗,第二时间窗的截止时刻小于或等于第一时间窗的截止时刻。
上述处理器还用于,检测设备根据任一KPI在第二时间窗内的采样数据计算任一KPI的稳态值。由于第二时间窗大于第一时间窗,所以,在第二时间窗内采集数据的数量多,更能代表任一KPI的状态,因此,考虑到第二时间窗内的采样数据计算出的稳态值并结合在第一时间窗内的采样数据得到的波动性的得分要更加准确。
上述处理器还用于,根据去除异常点和/或噪声点后的任一KPI在第二时间窗内的采样数据计算任一KPI的稳态值。由于第二时间窗内的采样数据并不完全应用在计算任一KPI的稳态值中,因此,该方法需去除第二时间窗内的采样数据中的异常点和/ 或噪声点,根据去除异常点和/或噪声点之后的采样数据中任一KPI准确计算任一KPI 的稳态值。
上述处理器还用于,根据波动性的得分和任一KPI对应的离网元硬件特性门限距离的得分与任一KPI的趋势性的得分中的至少一个通过加权计算得到任一KPI的可靠性得分;根据至少一个KPI中的各KPI的可靠性得分确定目标网元的健康状态。其中,至少一个KPI中的各KPI的波动性的得分确定目标网元的健康状态,此过程中的波动性的得分就相当于可靠性得分。另一种方法,根据波动性的得分以及任一KPI对应的离网元硬件特性门限距离的得分通过加权计算得到目标网元的可靠性得分,根据目标网元的可靠性得分可以确定目标网元的健康状态。由于此方法中不仅考虑到了波动性的得分也考虑到了任一KPI对应的离网元硬件特性门限距离的得分。因此,该方法准确确定目标网元的健康状态。又一种方法,根据任一KPI波动性的得分以及任一KPI 的趋势性的得分通过加权计算得到目标网元的可靠性得分,根据目标网元的可靠性得分可以确定目标网元的健康状态。由于此方法中不仅考虑到了波动性的得分也考虑到了趋势性的得分,因此,该方法准确确定目标网元的健康状态。
上述处理器还用于,确定目标网元在待检测时刻的任一KPI的采样数据,待检测时刻为第一时间窗的截止时刻;检测设备根据任一KPI在待检测时刻的采样数据以及预设的任一KPI的网元硬件特性门限,确定任一KPI的离网元硬件特性门限距离得分。
上述处理器还用于,根据任一KPI的波动性得分、任一KPI的离网元硬件特性门限距离的得分以及任一KPI的趋势性的得分通过加权计算得到任一KPI的可靠性得分。由于同时考虑了任一KPI的波动性得分、任一KPI的离网元硬件特性门限距离的得分以及任一KPI的趋势性的得分,如此,不仅通过网元单点性能数据以及网元时间窗内的性能数据确定网元的性能,根据网元的性能获得可靠性得分,可靠性确定网元健康状态,此过程中对网元健康识别更加准确。
上述处理器还用于,确定目标网元的任一KPI在第三时间窗内的采样数据,第三时间窗大于第一时间窗,第三时间窗的截止时刻小于等于第一时间窗的截止时刻。
上述处理器还用于,检测设备根据任一KPI在第三时间窗内的采样数据的采集时间对采样数据进行先后排序,得到排序数据,对排序数据进行分解,确定任一KPI的趋势性分量;根据任一KPI的趋势性分量得到任一KPI的趋势性的得分。由于充分利用任一KPI在第三时间窗内的采样数据的采集时间对采样数据进行先后排序,得到排序数据,对排序数据进行分解,分解出任一KPI的趋势性分量,并根据任一KPI的趋势性分量得到任一KPI的趋势性的得分,此过程更能准确得到趋势性的得分。
上述处理器还用于,对多个KPI的每个的可靠性得分进行加权计算确定目标网元的可靠性得分;根据目标网元的可靠性得分确定目标网元的健康状态。由于,通过加权计算确定目标网元的可靠性得分,如此,提高了检测目标网元的健康状态的准确度。
上述“目标网元的健康状态”的方法可以包括:故障状态、亚健康状态或正常状态。由于,根据得到的可靠性得分判断目标网元的健康状态,将目标网元的健康状态详细分成三个状态,如此,更能直观的得到目标网元所处的健康状态,例如,若目标网元处于亚健康状态,则可以提示主动预警;若目标网元处于故障状态,则可以提示故障并进行故障报警。
上述“至少一个KPI”可以包括:纠前误码率和/或纠后误码率。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,检测设备,或者网络设备等)或处理器 (processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器 (RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (25)

1.一种网元健康状态的检测方法,其特征在于,包括:
检测设备确定目标网元的至少一个关键性能指标KPI在第一时间窗内的采样数据和在第三时间窗内的采样数据,所述第三时间窗大于第一时间窗,所述第三时间窗的截止时刻小于等于所述第一时间窗的截止时刻;
对于所述至少一个KPI中的每个KPI,所述检测设备根据所述KPI在所述第一时间窗内的采样数据与所述KPI的稳态值得到所述KPI的波动性的得分,并根据所述KPI在所述第三时间窗内的采样数据得到所述KPI的趋势性的得分;
所述检测设备根据所述至少一个KPI中的各KPI的波动性的得分和趋势性的得分确定所述目标网元的健康状态。
2.根据权利要求1所述的方法,其特征在于,所述KPI的波动性的得分,用于表征所述KPI偏离所述KPI的稳态值所表征的稳定状态的程度。
3.根据权利要求1所述的方法,其特征在于,所述检测设备根据所述KPI在所述第一时间窗内的采样数据与所述KPI的稳态值得到所述KPI的波动性的得分,包括:
计算所述KPI在所述第一时间窗内的采样数据与所述KPI的稳态值的距离,根据所述KPI在所述第一时间窗内的采样数据与所述KPI的稳态值的距离得到波动性的得分。
4.根据权利要求3所述的方法,其特征在于,所述计算所述KPI在所述第一时间窗内的采样数据与所述KPI的稳态值的距离,包括:
采用标准差方法、平均差方法和变异系数方法中的一种计算所述KPI在所述第一时间窗内的采样数据与所述KPI的稳态值的距离。
5.根据权利要求1所述的方法,其特征在于,还包括:
所述检测设备确定所述KPI在第二时间窗内的采样数据,所述第二时间窗大于第一时间窗,所述第二时间窗的截止时刻小于或等于所述第一时间窗的截止时刻;
所述检测设备根据所述KPI在所述第二时间窗内的采样数据计算所述KPI的稳态值。
6.根据权利要求5所述的方法,其特征在于,所述根据所述KPI在所述第二时间窗内的采样数据计算所述KPI的稳态值,包括:
根据去除异常点和/或噪声点后的所述KPI在所述第二时间窗内的采样数据计算所述KPI的稳态值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个KPI中的各KPI的波动性的得分和趋势性的得分确定所述目标网元的健康状态,包括:
对于所述至少一个KPI中的每个KPI,根据所述KPI的波动性的得分、和所述KPI的趋势性的得分通过加权计算得到所述KPI的可靠性得分;
根据所述至少一个KPI中的各KPI的可靠性得分确定所述目标网元的健康状态。
8.根据权利要求1所述的方法,其特征在于,还包括:
所述检测设备确定所述KPI在待检测时刻的采样数据,所述待检测时刻为所述第一时间窗的截止时刻;
所述检测设备根据所述KPI在所述待检测时刻的采样数据以及预设的所述KPI的网元硬件特性门限,确定所述KPI的离网元硬件特性门限距离得分;
所述检测设备根据所述至少一个KPI中的各KPI的波动性的得分和趋势性的得分确定所述目标网元的健康状态,包括:所述检测设备根据所述各KPI的波动性的得分、趋势性的得分、以及离网元硬件特性门限距离得分确定所述目标网元的健康状态。
9.根据权利要求1所述的方法,其特征在于,所述根据所述KPI在所述第三时间窗内的采样数据得到所述KPI的趋势性的得分包括:
所述检测设备根据所述KPI在所述第三时间窗内的采样数据的采集时间对所述采样数据进行先后排序,得到排序数据,对所述排序数据进行分解,确定所述KPI的趋势性分量;
根据所述KPI的趋势性分量得到所述KPI的趋势性的得分。
10.根据权利要求7所述的方法,其特征在于,所述至少一个KPI包括多个KPI;所述根据所述至少一个KPI中的各KPI的可靠性得分确定所述目标网元的健康状态,包括:
对所述多个KPI的每个KPI的可靠性得分进行加权计算确定所述目标网元的可靠性得分;
根据所述目标网元的可靠性得分确定所述目标网元的健康状态。
11.根据权利要求1-10任意一项所述的方法,其特征在于,所述目标网元的健康状态,包括:
故障状态、亚健康状态或正常状态。
12.根据权利要求1-10任意一项所述的方法,其特征在于,所述至少一个KPI包括:纠前误码率和/或纠后误码率。
13.一种网元健康状态的检测装置,其特征在于,包括:
获取模块,用于获取目标网元的至少一个关键性能指标KPI的采样数据;
健康状态确定模块,用于:对于所述至少一个KPI中的每个KPI,根据所述KPI在第一时间窗内的采样数据与所述KPI的稳态值得到所述KPI的波动性的得分,根据所述KPI在第三时间窗内的采样数据得到所述KPI的趋势性的得分,所述第三时间窗大于第一时间窗,所述第三时间窗的截止时刻小于等于所述第一时间窗的截止时刻;并根据所述至少一个KPI中的各KPI的波动性的得分和趋势性的得分确定所述目标网元的健康状态。
14.根据权利要求13所述的装置,其特征在于,所述检测装置,还包括:
应用模块,用于呈现所述目标网元的健康状态。
15.根据权利要求13所述的装置,其特征在于,所述KPI的波动性,用于表征所述KPI偏离所述KPI的稳态值所表征的稳定状态的程度。
16.根据权利要求13所述的装置,其特征在于,所述健康状态确定模块,具体用于:
计算所述KPI在所述第一时间窗内的采样数据与所述KPI的稳态值的距离,根据所述KPI在所述第一时间窗内的采样数据与所述KPI的稳态值的距离得到波动性的得分。
17.根据权利要求16所述的装置,其特征在于,所述健康状态确定模块,具体用于:
采用标准差方法、平均差方法和变异系数方法中的一种计算所述KPI在所述第一时间窗内的采样数据与所述KPI的稳态值的距离。
18.根据权利要求13所述的装置,其特征在于,包括:
所述健康状态确定模块还用于,对于所述至少一个KPI中的每个KPI,根据所述KPI在第二时间窗内的采样数据计算所述KPI的稳态值;所述第二时间窗大于第一时间窗,所述第二时间窗的截止时刻小于或等于所述第一时间窗的截止时刻。
19.根据权利要求18所述的装置,其特征在于,所述健康状态确定模块,具体用于:
根据去除异常点和/或噪声点后的所述KPI在所述第二时间窗内的采样数据计算所述KPI的稳态值。
20.根据权利要求13所述的装置,其特征在于,所述健康状态确定模块,具体用于:
对于所述至少一个KPI中的每个KPI,根据所述KPI的波动性的得分、和所述KPI的趋势性的得分通过加权计算得到所述KPI的可靠性得分;
根据所述至少一个KPI中的各KPI的可靠性得分确定所述目标网元的健康状态。
21.根据权利要求13所述的装置,其特征在于,
所述健康状态确定模块还用于,根据所述KPI在待检测时刻的采样数据以及预设的所述KPI的网元硬件特性门限,确定所述KPI的离网元硬件特性门限距离得分,所述待检测时刻为所述第一时间窗的截止时刻;
所述健康状态确定模块具体用于根据所述各KPI的波动性的得分、趋势性的得分、以及离网元硬件特性门限距离得分确定所述目标网元的健康状态。
22.根据权利要求13所述的装置,其特征在于,
所述健康状态确定模块还用于,根据所述KPI在第三时间窗内的采样数据的采集时间对所述采样数据进行先后排序,得到排序数据,对所述排序数据进行分解,确定所述KPI的趋势性分量;
所述健康状态确定模块具体用于根据所述KPI的趋势性分量得到所述KPI的趋势性的得分。
23.根据权利要求20所述的装置,其特征在于,所述至少一个KPI包括多个KPI;所述健康状态确定模块,具体用于:
对所述多个KPI的每个的可靠性得分进行加权计算确定所述目标网元的可靠性得分;
根据所述目标网元的可靠性得分确定所述目标网元的健康状态。
24.根据权利要求13-23任意一项所述的装置,其特征在于,所述目标网元的健康状态,包括:
故障状态、亚健康状态或正常状态。
25.根据权利要求13-23任意一项所述的装置,其特征在于,所述至少一个KPI包括:纠前误码率和/或纠后误码率。
CN201710218331.6A 2017-04-05 2017-04-05 一种网元健康状态的检测方法及设备 Active CN108696368B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201710218331.6A CN108696368B (zh) 2017-04-05 2017-04-05 一种网元健康状态的检测方法及设备
CN202110358377.4A CN113114530B (zh) 2017-04-05 2017-04-05 一种网元健康状态的检测方法及设备
EP17904827.7A EP3595347B1 (en) 2017-04-05 2017-06-27 Method and device for detecting health state of network element
ES17904827T ES2886843T3 (es) 2017-04-05 2017-06-27 Método y dispositivo de detección del estado de salud del elemento de red
EP21171420.9A EP3927000B1 (en) 2017-04-05 2017-06-27 Network element health status detection method and device
PCT/CN2017/090290 WO2018184304A1 (zh) 2017-04-05 2017-06-27 一种网元健康状态的检测方法及设备
US16/595,066 US11128548B2 (en) 2017-04-05 2019-10-07 Network element health status detection method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710218331.6A CN108696368B (zh) 2017-04-05 2017-04-05 一种网元健康状态的检测方法及设备

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110358377.4A Division CN113114530B (zh) 2017-04-05 2017-04-05 一种网元健康状态的检测方法及设备

Publications (2)

Publication Number Publication Date
CN108696368A CN108696368A (zh) 2018-10-23
CN108696368B true CN108696368B (zh) 2021-04-20

Family

ID=63711995

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710218331.6A Active CN108696368B (zh) 2017-04-05 2017-04-05 一种网元健康状态的检测方法及设备
CN202110358377.4A Active CN113114530B (zh) 2017-04-05 2017-04-05 一种网元健康状态的检测方法及设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110358377.4A Active CN113114530B (zh) 2017-04-05 2017-04-05 一种网元健康状态的检测方法及设备

Country Status (5)

Country Link
US (1) US11128548B2 (zh)
EP (2) EP3927000B1 (zh)
CN (2) CN108696368B (zh)
ES (1) ES2886843T3 (zh)
WO (1) WO2018184304A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113114530A (zh) * 2017-04-05 2021-07-13 华为技术有限公司 一种网元健康状态的检测方法及设备

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110426634B (zh) * 2019-09-10 2020-08-18 大制(苏州)科技有限公司 一种用于驱动***的异常预测的方法及设备
US11165648B1 (en) * 2019-09-26 2021-11-02 Juniper Networks, Inc. Facilitating network configuration testing
CN110659832A (zh) * 2019-09-26 2020-01-07 北京市天元网络技术股份有限公司 检测5g网元健康度的方法和设备
EP4111729A1 (en) * 2020-02-24 2023-01-04 Telefonaktiebolaget Lm Ericsson (Publ) Method for cell issue forecasting
WO2021171063A1 (en) * 2020-02-28 2021-09-02 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive method for measuring service level consistency
US11470490B1 (en) 2021-05-17 2022-10-11 T-Mobile Usa, Inc. Determining performance of a wireless telecommunication network
CN113254287A (zh) * 2021-05-31 2021-08-13 北京明略昭辉科技有限公司 健康状态自检方法、装置、设备及计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770419A (zh) * 2008-12-31 2010-07-07 ***股份有限公司 ***健壮性分析器和分析方法
CN105554793A (zh) * 2015-12-11 2016-05-04 中国联合网络通信集团有限公司 评估无线网络运行稳定性的方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8001601B2 (en) * 2006-06-02 2011-08-16 At&T Intellectual Property Ii, L.P. Method and apparatus for large-scale automated distributed denial of service attack detection
CN101984702A (zh) * 2010-11-19 2011-03-09 中兴通讯股份有限公司 移动数据业务质量的监控预警方法及装置
CN102571406B (zh) * 2010-12-30 2015-03-11 ***通信集团河北有限公司 数据业务节点质量分析方法、装置及数据业务短板分析***
CN103220695B (zh) * 2012-01-20 2017-04-12 华为技术有限公司 网元状态的处理方法及装置
CN103780415B (zh) * 2012-10-22 2017-10-24 华为技术服务有限公司 关键性能指标的监控方法和装置
CN103368776A (zh) * 2013-07-09 2013-10-23 杭州东方通信软件技术有限公司 一种通过标准化体检对设备状态进行评估的方法及***
US9608875B2 (en) * 2013-11-15 2017-03-28 At&T Intellectual Property I, L.P. Individually unique key performance indicator management
WO2015122818A1 (en) * 2014-02-17 2015-08-20 Telefonaktiebolaget L M Ericsson (Publ) ASSESSING QoE OF A SERVICE IN A COMMUNICATION NETWORK
US20160104090A1 (en) * 2014-10-09 2016-04-14 Splunk Inc. State determination using per-entity thresholds
US10181982B2 (en) * 2015-02-09 2019-01-15 TUPL, Inc. Distributed multi-data source performance management
US10229028B2 (en) * 2015-03-16 2019-03-12 Ca, Inc. Application performance monitoring using evolving functions
WO2017004578A1 (en) * 2015-07-02 2017-01-05 Think Anew LLC Method, system and application for monitoring key performance indicators and providing push notifications and survey status alerts
US20170012847A1 (en) * 2015-07-08 2017-01-12 Microsoft Technology Licensing, Llc Visualizing resource relationships using key peformance indicators
EP3229524B1 (de) * 2016-04-06 2019-07-24 Deutsche Telekom AG Verfahren zur steuerung von funkzugangsressourcen in einem kommunikationsnetzwerk
CN106203637A (zh) * 2016-06-27 2016-12-07 西北工业大学 一种基于马氏距离和健康指数的机载***健康评估方法
CN106209432B (zh) * 2016-06-30 2019-04-19 中国人民解放军国防科学技术大学 基于动态阈值的网络设备亚健康预警方法及装置
CN106411609A (zh) * 2016-11-08 2017-02-15 上海新炬网络信息技术有限公司 一种it软硬件运行状态监控***
CN108696368B (zh) * 2017-04-05 2021-04-20 华为技术有限公司 一种网元健康状态的检测方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770419A (zh) * 2008-12-31 2010-07-07 ***股份有限公司 ***健壮性分析器和分析方法
CN105554793A (zh) * 2015-12-11 2016-05-04 中国联合网络通信集团有限公司 评估无线网络运行稳定性的方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113114530A (zh) * 2017-04-05 2021-07-13 华为技术有限公司 一种网元健康状态的检测方法及设备

Also Published As

Publication number Publication date
WO2018184304A1 (zh) 2018-10-11
EP3595347B1 (en) 2021-06-16
CN113114530A (zh) 2021-07-13
CN108696368A (zh) 2018-10-23
US20200036605A1 (en) 2020-01-30
CN113114530B (zh) 2022-12-13
EP3927000A1 (en) 2021-12-22
ES2886843T3 (es) 2021-12-21
EP3595347A4 (en) 2020-01-15
US11128548B2 (en) 2021-09-21
EP3927000B1 (en) 2023-10-25
EP3595347A1 (en) 2020-01-15

Similar Documents

Publication Publication Date Title
CN108696368B (zh) 一种网元健康状态的检测方法及设备
CN109213654A (zh) 一种异常检测方法及装置
CN107360188B (zh) 基于云防护和云监测***的网站风险值评估方法及装置
EP3896420A1 (en) Method, device and electronic apparatus for detecting performance status of optical module in engineering application
RU2601669C2 (ru) Система мониторинга измерительной схемы турбореактивного двигателя
EP2963553B1 (en) System analysis device and system analysis method
EP3667952B1 (en) Method, device, and storage medium for locating failure cause
JP2018169161A (ja) 電池の劣化診断装置、劣化診断方法、及び劣化診断システム
JP2007310665A (ja) プロセス監視装置
EP2918976A1 (en) Smart meter Privacy Analyzer
EP3495905A2 (en) Operational improvement effect calculation device, operational improvement effect calculation method and recording medium
CN109088775A (zh) 异常监控方法、装置以及服务器
KR101953558B1 (ko) 스마트 기기 결함 관리 장치 및 방법
US11032627B2 (en) Maintenance device, presentation system, and program
CN115729783A (zh) 故障风险监控方法、设备、存储介质及程序产品
CN111831517A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN110971488A (zh) 一种数据处理方法、装置、服务器和存储介质
CN102480381B (zh) 一种校验网络业务运营数据的方法及装置
CN110673973B (zh) 应用程序编程接口api的异常确定方法和装置
CN112905463B (zh) 软件测试监控方法、装置、电子设备及可读存储介质
CN106709251B (zh) 一种评估方法及装置
CN115062026A (zh) 一种用电数据的检测方法、装置、电子设备及存储介质
CN105656453B (zh) 一种基于时间序列的光纤电流互感器随机噪声实时滤波方法
CN108693164B (zh) 基于光纤拉曼散射信号的温度解调方法、装置及***
CN112398706A (zh) 数据评估标准确定方法、装置及存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant