CN111970157A - 网络故障根因检测方法、装置、计算机设备及存储介质 - Google Patents

网络故障根因检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111970157A
CN111970157A CN202010881226.2A CN202010881226A CN111970157A CN 111970157 A CN111970157 A CN 111970157A CN 202010881226 A CN202010881226 A CN 202010881226A CN 111970157 A CN111970157 A CN 111970157A
Authority
CN
China
Prior art keywords
dimension
sample number
number set
target link
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010881226.2A
Other languages
English (en)
Other versions
CN111970157B (zh
Inventor
温子将
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202010881226.2A priority Critical patent/CN111970157B/zh
Publication of CN111970157A publication Critical patent/CN111970157A/zh
Application granted granted Critical
Publication of CN111970157B publication Critical patent/CN111970157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开一种网络故障根因检测方法、装置、计算机设备及存储介质,该方法包括:采集音视频传输的目标链路的状态信息,其中,所述状态信息用于表征所述目标链路至少一项运行状态的运行数据;根据预设的标记规则,将所述运行数据划分为正样本数集和负样本数集;基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;根据所述维度指标确定影响所述目标链路运行状态的聚集性维度。通过上述方法能够快速定位出影响网络传输链路传输效率的错误原因,提高定位效率,节约了人力成本。

Description

网络故障根因检测方法、装置、计算机设备及存储介质
技术领域
本申请涉及网络传输领域,尤其涉及一种网络故障根因检测方法、装置、计算机设备及存储介质。
背景技术
网络直播吸取和延续了互联网的优势,利用视讯方式进行网上现场直播,可以将产品展示、相关会议、背景介绍、方案测评、网上调查、对话访谈、在线培训等内容现场发布到互联网上,利用互联网的直观、快速,表现形式好、内容丰富、交互性强、地域不受限制、受众可划分等特点,加强活动现场的推广效果。
网络直播的数据流量较大而传输实时性要求较高,对其服务架构的网络稳定性的要求也就较高,然而,限于全球通信网络基础建设现状,在一些网络直播实际应用过程中,例如直播平台中的直播活动、教学活动和会议活动等,常因一些异常导致活动无法正常举行。一旦异常出现,网络支持的各方一般通过与异常相关的数据来排查问题所在,相关解决方案也层出不穷。
具体到网络直播应用场景中,目前基于音视频观众端的统计的核心指标,在发生大范围异常时,如卡顿率突然增高,则会产生告警,但本申请的发明人在研究中发现,当前的告警机制中,只起到提示作用,无法立刻定位原因,通常只能够通过人力进行排查,这个过程的耗时较为严重。
发明内容
本申请提供一种网络故障根因检测方法,相应也提供一种网络故障根因检测装置、计算机设备及存储介质。
为解决上述技术问题,本申请采取如下技术方案:
适应本申请的目的之一提供的一种网络故障根因检测方法,其包括:
采集音视频传输的目标链路的状态信息,其中,所述状态信息用于表征所述目标链路至少一项运行状态的运行数据;
根据预设的标记规则,将所述运行数据划分为正样本数集和负样本数集;
基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;
根据所述维度指标确定影响所述目标链路运行状态的聚集性维度。
进一步的实施例中,所述采集音视频传输的目标链路的状态信息包括:
获取目标链路的异常告警信息;
根据所述异常告警信息采集所述目标链路的状态信息。
较佳的实施例中,所述标记规则包括:枚举值标记和阈值标记;
当所述运行数据为非连续变量时,所述将所述运行数据划分为正样本数集和负样本数集包括:
根据预设的枚举值将所述运行数据划分为正样本数集和负样本数集;
当所述运行数据为连续变量时,所述将所述运行数据划分为正样本数集和负样本数集包括:
根据预设的第一阈值将所述运行数据划分为正样本数集和负样本数集。
可选的实施例中,所述计算所述目标链路各运行维度的维度指标包括:
统计所述各运行维度中正样本数集和负样本数集对应的正样本数和负样本数;
根据所述正样本数和负样本数计算所述各运行维度的证据权重值;
根据所述证据权重值计算所述各运行维度的信息价值;
以运行维度为限定条件,将预设时间段内同一运行维度的至少一个所述信息价值进行累加,生成所述各运行维度对应的维度指标。
较佳的实施例中,所述运行数据包括连续变量,所述统计所述各运行维度对应的正样本数集和负样本数集中正样本数和负样本数包括:
根据预设的分箱规则,将所述运行数据中的连续变量进行离散化处理转化为多个分箱;
分别统计所述多个分箱的正样本数集和负样本数集中正样本数和负样本数。
进一步的实施例中,所述根据所述维度指标确定影响所述目标链路运行状态的聚集性维度包括:
确定所述各运行维度中所述维度指标大于预设的第二阈值的运行维度为目标运行维度;
以所述信息价值的数值大小为排序条件,将所述目标运行维度对应的至少一个所述信息价值进行降序排列;
根据所述排列结果确定所述信息价值最大且对应证据权重值大于零的目标运行维度为聚集性维度。
较佳的实施例中,所述根据所述维度指标确定影响所述目标链路运行状态的聚集性维度之后包括:
确定所述聚集性维度对应的根因节点,其中,所述根因节点为生成所述聚集性维度对应运行数据的物理节点;
输出所述根因节点的标签信息。
本申请为解决上述技术问题而提供的一种网络故障根因检测装置,其包括:
采集模块,用于采集音视频传输的目标链路的状态信息,其中,所述状态信息用于表征所述目标链路至少一项运行状态的运行数据;
标记模块,用于根据预设的标记规则,将所述运行数据划分为正样本数集和负样本数集;
处理模块,用于基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;
分析模块,用于根据所述维度指标确定影响所述目标链路运行状态的聚集性维度。
可选地,所述网络故障根因检测装置还包括:
第一获取子模块,用于获取目标链路的异常告警信息;
第一处理子模块,用于根据所述异常告警信息采集所述目标链路的状态信息。
可选地,所述标记规则包括:枚举值标记和阈值标记,所述网络故障根因检测装置还包括:
第一标记子模块,用于当所述运行数据为非连续变量时,根据预设的枚举值将所述运行数据划分为正样本数集和负样本数集;
第二标记子模块,用于当所述运行数据为连续变量时,根据预设的第一阈值将所述运行数据划分为正样本数集和负样本数集。
可选地,所述网络故障根因检测装置还包括:
第一统计子模块,用于统计所述各运行维度中正样本数集和负样本数集对应的正样本数和负样本数;
第一计算子模块,用于根据所述正样本数和负样本数计算所述各运行维度的证据权重值;
第二计算子模块,用于根据所述证据权重值计算所述各运行维度的信息价值;
第二处理子模块,用于以运行维度为限定条件,将预设时间段内同一运行维度的至少一个所述信息价值进行累加,生成所述各运行维度对应的维度指标。
可选地,所述运行数据包括连续变量,所述网络故障根因检测装置还包括:
第三处理子模块,用于根据预设的分箱规则,将所述运行数据中的连续变量进行离散化处理转化为多个分箱;
第二统计子模块,用于分别统计所述多个分箱的正样本数集和负样本数集中正样本数和负样本数。
可选地,所述网络故障根因检测装置还包括:
第一确定子模块,用于确定所述各运行维度中所述维度指标大于预设的第二阈值的运行维度为目标运行维度;
第一排序子模块,用于以所述信息价值的数值大小为排序条件,将所述目标运行维度对应的至少一个所述信息价值进行降序排列;
第一判断子模块,用于根据所述排列结果确定所述信息价值最大且对应证据权重值大于零的目标运行维度为聚集性维度。
可选地,所述网络故障根因检测装置还包括:
第四处理子模块,用于确定所述聚集性维度对应的根因节点,其中,所述根因节点为生成所述聚集性维度对应运行数据的物理节点;
第一执行子模块,用于输出所述根因节点的标签信息。
本申请为解决上述技术问题而提供的一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述网络故障根因检测方法的步骤。
本申请为解决上述技术问题而提供的一种非易失性存储介质,其存储有所述的网络故障根因检测方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
本申请实施例的有益效果是:
本申请通过采集网络传输链路中表征运行状态的运行数据,并将采集的运行数据根据标记规则划分为正样本数集和负样本数集,其中,正样本数集记载异常运行数据,负样本数集记载正常运行数据;再根据正样本数集和负样本数集计算出各个运行状态的维度指标,并将对网络传输链路影响力较大的维度指标定义为聚集性维度,聚集性维度对应的运行状态的频道号就是影响网络传输链路的错误因素。通过上述方法能够快速定位出影响网络传输链路传输效率的错误原因,提高定位效率,节约了人力成本。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个具体实施例的网络故障根因检测方法的基本流程示意图;
图2为本申请一个具体实施例的根据预警信息采集运行数据的流程示意图;
图3为本申请一具体实施例的通过正样本数集和负样本数集计算各运行维度的维度指标的流程示意图;
图4为本申请一个具体实施例的通过分箱规则进行数据分箱的流程示意图;
图5为本申请一个具体实施例的确定聚集性维度的流程示意图;
图6为本申请一个具体实施例的输出根因节点的流程示意图;
图7为本申请一个实施例的网络故障根因检测装置基本结构示意图;
图8为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信***),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位***)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
请参阅图1,图1为本实施例网络故障根因检测方法的基本流程示意图。
如图1所示,一种网络故障根因检测方法,包括:
步骤S1100、采集音视频传输的目标链路的状态信息,其中,所述状态信息用于表征所述目标链路至少一项运行状态的运行数据;
在具体的网络音视频直播场景中,一个完整的音视频传播链路包含了从主播设备端到观众设备端的过程,音视频流从主播端被采集上传到avp(Attribute-Value Pair,数据标识名称)服务器中,再经过混画转码,最后通过CDN(Content Delivery Network,内容分发网络)等渠道下发到观众端,这一过程构成了完整的音视频传输。
在上述场景中,数据的传输终端涉及:主播设备、服务器端和观众端。音视频数据在上述三个设备之间进行传输时,无论在任何一个设备位置处或者在网络传输链路中串线卡顿或者延时,均会导致音视频传输出现卡顿或者延时。
所述的目标链路包括:主播设备、服务器端、观众端以及各设备之间的网络链路。
在音视频数据传输过程中,通过实时或者定时的方式对目标链路的状态信息进行采集。
在正常的使用过程中,由于造成目标链路传输数据出现卡顿或者延误的原因有所不同,因此,在进行数据采集时,需要采集不同的维度的状态信息。例如,采集时延、数据堆积时延、丢包率、端到端时延或者渲染时延等影响目标链路传输效率的运行数据。其中,每种类型的运行数据均象征目标链路的一种运行状态。
一般而言,为了便于后续的分析,运行数据还包括生成上述状态信息的物理节点的设备信息。
步骤S1200、根据预设的标记规则,将所述运行数据划分为正样本数集和负样本数集;
本步骤将实现对目标链路中的采集的各个维度的运行状态的运行数据的进行正样本数集和负样本数集的划分。
例如,视频卡顿的情况下,首先对实时存储的每条音视频流进行是否异常的判断,若采集到的运行数据是非连续型变量,则通常将其枚举值通过业务含义归类成二值变量,如卡顿则最终转换是否卡顿的正负状态标记,若为连续型变量,则通常通过告警阈值划分为正负状态标记,如视频连麦时延,大于阈值,则为时延过高,否则为正常,特别地,通常将异常数据成为正样本数据。
由上述举例可知,在进行正样本数集和负样本数集的划分时,我们通过标记规则:枚举值标记或者阈值标记,将采集的同一类型但不同时域内的运行数据进行标记。标记时为数学上的便利特别将异常的运行数据标记为正样本数据,将正常数据标记为负样本数据。例如,将卡顿标记为正样本数据,将正常运行标记为负样本数据。将多个不同时域的正样本数据或者负样本数据组成数集,生成运行数据的正样本数集和负样本数集。
步骤S1300、基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;
不同类型的运行数据代表目标链路的不同运行维度,即每种运行状态对应一种运行维度。因此,基于各个运行维度的运行数据对应的正样本数集和负样本数集,能够计算出各运行维度的维度指标。
首先,对各个正样本数集和负样本数集中连续变化的数据进行分箱处理,分箱处理的目的在于,将连续变化的数据通过采取等频法或基于业务定义进行离散化,将其转化为非连续变量。记X_i为X变量离散化后某一分箱,其中i属于[1,...,n],基于X_i进行正负样本汇总,X每一个分箱的正样本数记为bad_i,负样本数记为good_i,计算各个分箱的证据权重值,记为WOE_i=ln((bad_i/bad_all)/(good_i/good_all),计算各个分箱的信息价值,记为IV_i=WOE_i*((bad_i/bad_all)-(good_i/good_all)),对WOE_i<0且正负样本合计数小于阈值的IV_i,对满足条件的IV_i进行求和,记为IV=sum(IV_i)。IV即为对应运行维度的维度指标,每一个运行维度的维度指标都表征该运行维度对目标链路正常运行的影响因子。其中,IV值越大,对目标链路正常运行的影响就越大。需要指出的是,对于WOE_i和IV_i的筛选条件在不同的实施方式中有所不同,例如,WOE_i的筛选条件能够为小于1、2、3或者其他任意实数,正负样本合计数小于1、2、3或者其他任意实数的IV_i。
步骤S1400、根据所述维度指标确定影响所述目标链路运行状态的聚集性维度。
计算得到各个运行维度的维度指标后,通过排序的方式确定维度指标最大的值为聚集性维度。在一些实施方式中,根据IV值降序筛选出对目标链路影响最大的维度指标,并选取IV排序最大且信息价值大于0的维度指标作为聚集性维度。
当目标链路出现警示信息时,表明目标链路的某个环节出现了问题,导致目标链路传输数据不能够达到常规标准,此时,需要对目标链路中各个运行维度的数据进行采集,并计算各个运行维度的维度指标,然后,在维度指标中计算出聚集性维度。此时,聚集性维度即为确定的出现问题的根因节点对应的维度指标。由于在进行运行数据采集时,会采集其对应设备的设备信息,因此,能够通过聚集性维度确定对应设备的设备信息,将该设备信息的标签发送给运维人员,方便他们快速确定根因节点,精准排查故障。
通过采集网络传输链路中表征运行状态的运行数据,并将采集的运行数据根据标记规则划分为正样本数集和负样本数集,其中,正样本数集记载异常运行数据,负样本数集记载正常运行数据。再根据正样本数集和负样本数集计算出各个运行状态的维度指标,并将对网络传输链路影响力较大的维度指标定义为聚集性维度,聚集性维度对应的运行状态的频道号就是影响网络传输链路的错误因素。同理,也可采用本方法确定出故障所属的CDN、机房等聚集性维度。通过上述方法能够快速定位出影响网络传输链路传输效率的错误原因,提高定位效率,节约了人力成本。
在一些实施方式中,为节约网络资源,当且仅当目标链路中某一项指标超过了预警值,***发出警示信息后,才对目标链路中各个运行维度的运行数据进行采集。具体请参阅图2,图2为本实施例根据预警信息采集运行数据的流程示意图。
如图2所示,步骤S1100包括:
步骤S1110、获取目标链路的异常告警信息;
在正常的音视频传输的目标链路中,会采集目标链路中运行状态的各项指标参数,并将采集的指标参数与该指标的预警阈值进行比较,当该指标参数超出了预警阈值或者预警区间时,监控***会发出异常告警信息。
例如,当目标链路的卡顿率突然增高,则会产异常告警信息。能够引发异常告警信息的指标类型不限于此,根据具体应用场景的不同,在一些事实方式中,引发异常告警信息的指标类型包括但不限于:平均延时时长、丢包率和传输速率等指标类型。
步骤S1120、根据所述异常告警信息采集所述目标链路的状态信息。
当接收到监控***发送的异常告警信息后,根据步骤S1100采集音视频传输的目标链路的状态信息。
在接收到监控***发送的异常告警信息后,再对目标链路各运行状态的状态信息进行采集,能够降低实时采集状态信息导致的网络资源占用率。
在一些实施方式中,为更近一步地降低对网络资源的展示率以及提高计算效率。通过历史数据统计分析,造成不同异常告警信息发生的根因节点或者原因,然后,建立异常告警信息类型与根因节点之间的映射列表。当异常告警信息发生后,提取异常告警信息的类型,然后,根据类型获取造成该异常的可能的根因节点。最后,具有针对性的提取造成该异常的可能的根因节点的运行数据进行网络故障根因检测。由于,该实施方式中,在进行数据采集之前,先进行一次根因节点的筛选,然后,在进行数据采集,能够降低采集运行数据的数据量,提高运算效率,有利于更快地确定造成异常告警信息的原因,提高了排查效率。
在一些实施方式中,针对于不同类型的运行数据,需要采用不同的标记规则进行标记。
当所述运行数据为非连续变量时,根据预设的枚举值将所述运行数据划分为正样本数集和负样本数集。枚举值通过预定义列出所有值的标识符来定义一个有序集合,这些值的次序和枚举类型说明中的标识符的次序是一致的。例如,表示目标链路是否卡顿的运行数据为非连续变量,在进行标记时,我们定义枚举值为【-1,1】,其中,-1表示无卡顿,1则表示卡顿。通过上述枚举值将一个连续时间内,例如10分钟内卡顿状态的运行数据均转换为二值变量。
当所述运行数据为连续变量时,则根据阈值标记将所述运行数据划分为正样本数集和负样本数集。如视频连麦时延,大于预设的阈值,则为时延过高,否则为正常,特别地,我们通常将异常数据集合构建为成为正样本数集,将正常数据集合构建为负样本数集。
在一些实施方式中,需要通过正样本数集和负样本数集计算各运行维度的维度指标。请参阅图3,图3为本实施例通过正样本数集和负样本数集计算各运行维度的维度指标的流程示意图。
如图3所示,步骤S1300包括:
步骤S1310、统计所述各运行维度中正样本数集和负样本数集对应的正样本数和负样本数;
统计各个运行维度对应的正样本数集和负样本数集中的正样本数和负样本数。其中,正样本数是指正样本数集中正样本数量之和,负样本数是指负样本数集中负样本数量之和。
在一些实施方式中,针对于运行数据为连续变量的运行维度,在进行本步骤时,需要对正样本数集和负样本数集中连续变量的数据进行分箱处理。分箱处理的目的在于,将连续变化的数据通过采取等频法或基于业务定义进行离散化,将其转化为非连续变量。
步骤S1320、根据所述正样本数和负样本数计算所述各运行维度的证据权重值;
记X_i为X变量离散化后某一分箱或者非连续变量运行数据对应的正样本数集和负样本数集中的正样本或者负样本,其中i属于[1,...,n],基于X_i进行正负样本汇总,X每一个分箱的正样本数记为bad_i,负样本数记为good_i,计算各个分箱的证据权重值,记为WOE_i=ln((bad_i/bad_all)/(good_i/good_all)。
步骤S1330、根据所述证据权重值计算所述各运行维度的信息价值;
在计算得到各个运行维度的维度指标后,计算各个分箱的信息价值,记为IV_i=WOE_i*((bad_i/bad_all)-(good_i/good_all))。
在一些实施方式中,在对各个运行维度的信息价值只算之前,需要对参与运算的参数进行过滤,例如,仅仅筛选证据权重值<0且正负样本合计数小于阈值的运行维度的计算其信息价值。在计算之前对数据进行筛选,减少了运算数据量,提高了运算的效率。
步骤S1340、以运行维度为限定条件,将预设时间段内同一运行维度的至少一个所述信息价值进行累加,生成所述各运行维度对应的维度指标。
计算得到各个运行维度对应的信息价值,以运行维度为限定条件,将预设时间段内同一运行维度的至少一个所述信息价值进行累加。例如,每两分钟对目标链路中的卡顿运行数据进行一次采集生成一组正样本数集和负样本数集,连续采集10组正样本数集和负样本数集后开始计算卡顿运行维度每一组数据的信息价值。然后,将20分钟内,所有正样本数集和负样本数集计算得到的信息价值进行累加生成卡顿运行维度的维度指标。
在一些实施方式中,在进行维度指标计算时,需要对计算入参进行筛选,将证据权重值<0且正、负样本数合计数小于预设的阈值的信息价值的运行维度进行信息价值求和,记为IV=sum(IV_i)。
在一些实施方式中,当表征运行状态的运行数据为连续变量时,过于复杂且冗余的数据会导致运算复杂,降低计算效率。因此,需要在进行样本数统计之前,需要对正、负样本集中的数据进行分箱处理。请参阅图4,图4为本实施例通过分箱规则进行数据分箱的流程示意图。
如图4所示,步骤S1310包括:
步骤S1311、根据预设的分箱规则,将所述运行数据中的连续变量进行离散化处理转化为多个分箱;
针对于运行数据为连续变量的运行维度,在进行本步骤时,需要对正样本数集和负样本数集中连续变量的数据进行分箱处理。分箱处理的目的在于,将连续变化的数据通过采取等频法或基于业务定义进行离散化,将其转化为非连续变量。
步骤S1312、分别统计所述多个分箱的正样本数集和负样本数集中正样本数和负样本数。
对各个正样本数集和负样本数集中连续变化的数据进行分箱处理,分箱处理的目的在于,将连续变化的数据通过采取等频法或基于业务定义进行离散化,将其转化为非连续变量。记X_i为X变量离散化后某一分箱,其中i属于[1,...,n],基于X_i进行正负样本汇总。
通过对连续变量的运行数据进行分箱处理,降低了连续数据的复杂性和冗余度,提高了数据处理的效率。
在一些实施方式中,当计算得到各个运行维度的维度指标后,需要从多个维度指标中,确定影响目标链路正常工作状态的聚集性维度,该聚集性维度所表征的设备就是根因节点。请参阅图5,图5为本实施例确定聚集性维度的流程示意图。
如图5所示,步骤S1400包括:
步骤S1410、确定所述各运行维度中所述维度指标大于预设的第二阈值的运行维度为目标运行维度;
计算得到各个运行维度的维度指标后,需要对维度指标进行一次数据筛选,以便减少后续运算的数据量,通过筛选后的运行维度定义为目标运行维度。
具体地,在一些实施方式中,第二阈值为0.5,即数值大于0.5的运行维度为目标运行维度,数值小于等于0.5的运行维度则被过滤掉。需要指出的是,第二阈值的取值不局限于例举数值,根据具体应用场景的不同,在一些实施方式中,第二阈值的取值能够为任意数。
步骤S1420、以所述信息价值的数值大小为排序条件,将所述目标运行维度对应的至少一个所述信息价值进行降序排列;
通过上述数据筛选后,筛选出数值大于第二阈值的目标运行维度,由于,每个目标运行维度均对应有至少一个以上的信息价值,因此,需要将筛选出的目标运行维度的信息价值按数值的大小进行排序,具体地,排序方式选用降序排列。但是排序方法不局限于此,在一些实施方式中排序方式能够为升序排列。
步骤S1430、根据所述排列结果确定所述信息价值最大且对应证据权重值大于零的目标运行维度为聚集性维度。
通过排序后,筛选排序结果中信息价值最大且对应证据权重值大于零的目标运行维度为聚集性维度。在一些实施方式中,聚集性维度不局限于一个,在一些实施方式中,将符合上述筛选条件的TOP2、TOP3、TOP4或者TOP5的目标运行维度定义为聚集性维度,其中,位于TOP1的目标运行维度为主聚集性维度,其他的目标运行维度为备选聚集性维度。备选聚集性维度作为根因的备选方案,方便维护人员在主聚集性维度不是根因时,快速从其他维度确定根因。
在一些实施方式中,当确定聚集性维度后,需要根据聚集性维度输出对应的根因节点,以方便维护人员快速排除故障。请参阅图6,图6为本实施例输出根因节点的流程示意图。
如图6所示,步骤S1400之后包括:
步骤S1510、确定所述聚集性维度对应的根因节点,其中,所述根因节点为生成所述聚集性维度对应运行数据的物理节点;
本实施方式中,在采集运行状态的运行数据时,会同步采集产生该运行数据的运行设备的设备信息,并将该设备信息作为运行数据的标签信息。运行数据通过转换成正、负样本集—维度指标—聚集性维度指标,在上述计算过程中,每个数据均携带有上述标签信息。当确定了聚集性维度后,通过查看聚集性维度对应的标签信息,就能够确对应的设备信息,在该技术方案中,根因节点即产生聚集性维度对应运行数据的设备。
本实施方式中,根因节点是一种物理节点,用于代指产生聚集性维度对应运行数据的设备。根因节点包括(不限于):直播频道号、服务器机房、CDN部署站点或物理链路站点等物理节点。在这里我们将组成频道号的个设备统称为频道号。
步骤S1520、输出所述根因节点的标签信息。
当确定了聚集性维度对应的根因节点后,需要将根因节点输出给对应的维护人员,以方便他们对根因节点存在的故障进行排查。输出时为方便维护人员获取信息,输出根因节点的标签信息。标签信息包括根因节点所代指设备的设备信息、故障频道的频道号或者故障物理节点所在的具***置及设备信息。
本申请可以通过实现了前述的方法的各个实施例的应用程序在计算机中的运行来构造一个相应的装置,具体请参阅图7,图7为本实施例网络故障根因检测装置基本结构示意图。
如图7所示,一种网络故障根因检测装置,包括:采集模块2100、标记模块2200、处理模块2300和分析模块2400。其中,采集模块2100用于采集音视频传输的目标链路的状态信息,其中,所述状态信息用于表征所述目标链路至少一项运行状态的运行数据;标记模块2200用于根据预设的标记规则,将所述运行数据划分为正样本数集和负样本数集;处理模块2300用于基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;分析模块2400用于根据所述维度指标确定影响所述目标链路运行状态的聚集性维度。
网络故障根因检测装置通过采集网络传输链路中表征运行状态的运行数据,并将采集的运行数据根据标记规则划分为正样本数集和负样本数集,其中,正样本数集记载异常运行数据,负样本数集记载正常运行数据。再根据正样本数集和负样本数集计算出各个运行状态的维度指标,并将对网络传输链路影响力较大的维度指标定义为聚集性维度,聚集性维度对应的运行状态的频道号就是影响网络传输链路的错误因素。通过上述方法能够快速定位出影响网络传输链路传输效率的错误原因,提高定位效率,节约了人力成本。
在一些实施方式中,网络故障根因检测装置还包括:第一获取子模块和第一处理子模块。第一获取子模块用于获取目标链路的异常告警信息;第一处理子模块用于根据所述异常告警信息采集所述目标链路的状态信息。
在一些实施方式中,所述标记规则包括:枚举值标记和阈值标记,网络故障根因检测装置还包括:第一标记子模块和第二标记子模块。其中,第一标记子模块用于当所述运行数据为非连续变量时,根据预设的枚举值将所述运行数据划分为正样本数集和负样本数集;第二标记子模块用于当所述运行数据为连续变量时,根据预设的第一阈值将所述运行数据划分为正样本数集和负样本数集。
在一些实施方式中,网络故障根因检测装置还包括:第一统计子模块、第一计算子模块、第二计算子模块和第二处理子模块。其中,第一统计子模块用于统计所述各运行维度中正样本数集和负样本数集对应的正样本数和负样本数;第一计算子模块用于根据所述正样本数和负样本数计算所述各运行维度的证据权重值;第二计算子模块用于根据所述证据权重值计算所述各运行维度的信息价值;第二处理子模块用于以运行维度为限定条件,将预设时间段内同一运行维度的至少一个所述信息价值进行累加,生成所述各运行维度对应的维度指标。
在一些实施方式中,所述运行数据包括连续变量,网络故障根因检测装置还包括:第三处理子模块和第二统计子模块。其中,第三处理子模块用于根据预设的分箱规则,将所述运行数据中的连续变量进行离散化处理转化为多个分箱;第二统计子模块用于分别统计所述多个分箱的正样本数集和负样本数集中正样本数和负样本数。
在一些实施方式中,网络故障根因检测装置还包括:第一确定子模块、第一排序子模块和第一判断子模块。其中,第一确定子模块用于确定所述各运行维度中所述维度指标大于预设的第二阈值的运行维度为目标运行维度;第一排序子模块用于以所述信息价值的数值大小为排序条件,将所述目标运行维度对应的至少一个所述信息价值进行降序排列;第一判断子模块用于根据所述排列结果确定所述信息价值最大且对应证据权重值大于零的目标运行维度为聚集性维度。
在一些实施方式中,网络故障根因检测装置还包括:第四处理子模块和第一执行子模块。其中,第四处理子模块用于确定所述聚集性维度对应的根因节点,其中,所述根因节点为生成所述聚集性维度对应运行数据的物理节点;第一执行子模块用于输出所述根因节点的标签信息。
为解决上述技术问题,本申请实施例还提供一种计算机设备,用于运行根据所述网络故障根因检测方法所实现的计算机程序。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
如图8所示,计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作***、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种网络故障根因检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种网络故障根因检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图7中采集模块2100、标记模块2200、处理模块2300和分析模块2400的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有网络故障根因检测装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备通过采集网络传输链路中表征运行状态的运行数据,并将采集的运行数据根据标记规则划分为正样本数集和负样本数集,其中,正样本数集记载异常运行数据,负样本数集记载正常运行数据。再根据正样本数集和负样本数集计算出各个运行状态的维度指标,并将对网络传输链路影响力较大的维度指标定义为聚集性维度,聚集性维度对应的运行状态的频道号就是影响网络传输链路的错误因素。通过上述方法能够快速定位出影响网络传输链路传输效率的错误原因,提高定位效率,节约了人力成本。
本申请还提供一种非易失性存储介质,所述的网络故障根因检测方法被编写成计算机程序,以计算机可读指令的形式存储于该存储介质中,计算机可读指令被一个或多个处理器执行时,意味着着该程序在计算机中的运行,由此使得一个或多个处理器执行上述任一实施例网络故障根因检测方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种网络故障根因检测方法,其特征在于,包括:
采集音视频传输的目标链路的状态信息,其中,所述状态信息用于表征所述目标链路至少一项运行状态的运行数据;
根据预设的标记规则,将所述运行数据划分为正样本数集和负样本数集;
基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;
根据所述维度指标确定影响所述目标链路运行状态的聚集性维度。
2.根据权利要求1所述的网络故障根因检测方法,其特征在于,所述根据所述维度指标确定影响所述目标链路运行状态的聚集性维度之后包括:
确定所述聚集性维度对应的根因节点,其中,所述根因节点为生成所述聚集性维度对应运行数据的物理节点;
输出所述根因节点的标签信息。
3.根据权利要求1所述的网络故障根因检测方法,其特征在于,所述采集音视频传输的目标链路的状态信息包括:
获取目标链路的异常告警信息;
根据所述异常告警信息采集所述目标链路的状态信息。
4.根据权利要求1所述的网络故障根因检测方法,其特征在于,所述标记规则包括:枚举值标记和阈值标记;
当所述运行数据为非连续变量时,所述将所述运行数据划分为正样本数集和负样本数集包括:
根据预设的枚举值将所述运行数据划分为正样本数集和负样本数集;
当所述运行数据为连续变量时,所述将所述运行数据划分为正样本数集和负样本数集包括:
根据预设的第一阈值将所述运行数据划分为正样本数集和负样本数集。
5.根据权利要求1所述的网络故障根因检测方法,其特征在于,所述计算所述目标链路各运行维度的维度指标包括:
统计所述各运行维度中正样本数集和负样本数集对应的正样本数和负样本数;
根据所述正样本数和负样本数计算所述各运行维度的证据权重值;
根据所述证据权重值计算所述各运行维度的信息价值;
以运行维度为限定条件,将预设时间段内同一运行维度的至少一个所述信息价值进行累加,生成所述各运行维度对应的维度指标。
6.根据权利要求5所述的网络故障根因检测方法,其特征在于,所述运行数据包括连续变量,所述统计所述各运行维度对应的正样本数集和负样本数集中正样本数和负样本数包括:
根据预设的分箱规则,将所述运行数据中的连续变量进行离散化处理转化为多个分箱;
分别统计所述多个分箱的正样本数集和负样本数集中正样本数和负样本数。
7.根据权利要求5或6所述的网络故障根因检测方法,其特征在于,所述根据所述维度指标确定影响所述目标链路运行状态的聚集性维度包括:
确定所述各运行维度中所述维度指标大于预设的第二阈值的运行维度为目标运行维度;
以所述信息价值的数值大小为排序条件,将所述目标运行维度对应的至少一个所述信息价值进行降序排列;
根据所述排列结果确定所述信息价值最大且对应证据权重值大于零的目标运行维度为聚集性维度。
8.一种网络故障根因检测装置,其特征在于,包括:
采集模块,用于采集音视频传输的目标链路的状态信息,其中,所述状态信息用于表征所述目标链路至少一项运行状态的运行数据;
标记模块,用于根据预设的标记规则,将所述运行数据划分为正样本数集和负样本数集;
处理模块,用于基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;
分析模块,用于根据所述维度指标确定影响所述目标链路运行状态的聚集性维度。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述网络故障根因检测方法的步骤。
10.一种非易失性存储介质,其特征在于,其存储有依据权利要求1至7中任意一项所述的网络故障根因检测方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
CN202010881226.2A 2020-08-27 2020-08-27 网络故障根因检测方法、装置、计算机设备及存储介质 Active CN111970157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010881226.2A CN111970157B (zh) 2020-08-27 2020-08-27 网络故障根因检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010881226.2A CN111970157B (zh) 2020-08-27 2020-08-27 网络故障根因检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111970157A true CN111970157A (zh) 2020-11-20
CN111970157B CN111970157B (zh) 2023-04-18

Family

ID=73399573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010881226.2A Active CN111970157B (zh) 2020-08-27 2020-08-27 网络故障根因检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111970157B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024055281A1 (zh) * 2022-09-16 2024-03-21 京东方科技集团股份有限公司 异常根因分析方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110351118A (zh) * 2019-05-28 2019-10-18 华为技术有限公司 根因告警决策网络构建方法、装置和存储介质
CN110380888A (zh) * 2019-05-29 2019-10-25 华为技术有限公司 一种网络异常检测方法和装置
US20200242424A1 (en) * 2016-12-07 2020-07-30 Samsung Electronics Co., Ltd. Target detection method and apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200242424A1 (en) * 2016-12-07 2020-07-30 Samsung Electronics Co., Ltd. Target detection method and apparatus
CN110351118A (zh) * 2019-05-28 2019-10-18 华为技术有限公司 根因告警决策网络构建方法、装置和存储介质
CN110380888A (zh) * 2019-05-29 2019-10-25 华为技术有限公司 一种网络异常检测方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024055281A1 (zh) * 2022-09-16 2024-03-21 京东方科技集团股份有限公司 异常根因分析方法及装置

Also Published As

Publication number Publication date
CN111970157B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN112019932B (zh) 网络故障根因定位方法、装置、计算机设备及存储介质
EP3436951B1 (en) Systems and methods for measuring effective customer impact of network problems in real-time using streaming analytics
CN111970156B (zh) 网络故障根因分析方法、装置、计算机设备及存储介质
CN102387038B (zh) 基于视频检测及综合网管的网络视频故障定位***及方法
CN111385122B (zh) 分布式***链路跟踪方法、装置、计算机设备及存储介质
WO2007143943A1 (fr) Procédé, système et dispositif réseau de maintenance centralisée de dispositifs multiples
CN111277846A (zh) 一种直播的异常定位方法、装置、计算机设备和存储介质
CN107872457B (zh) 一种基于网络流量预测进行网络操作的方法及***
CN112373306A (zh) 车辆动力电池故障远程监控报警***及方法
CN105917625A (zh) 使用附加数据的检测到的网络异常的分类
CN111970157B (zh) 网络故障根因检测方法、装置、计算机设备及存储介质
CN108773394A (zh) Ctcs-3级列控***无线超时自动检测分析***及检测分析方法
CN112395180A (zh) 一种业务日志全链路跟踪的实现方法
CN116149930A (zh) 一种电力信息***业务监控平台及监控方法
US8792482B2 (en) Method and apparatus for correlation of data sources in a Voice over Internet Protocol network
CN114244737A (zh) 网络质量的评估方法、装置和***
US20220103442A1 (en) Internet of things operations monitoring system
Weiss Predicting telecommunication equipment failures from sequences of network alarms
CN110969082B (zh) 一种时钟同步测试巡检方法和***
CN102547789B (zh) 端到端业务质量预警方法、装置及***
CN111405143A (zh) 一种视频备份装置、方法、***及其电子设备
CN116521517A (zh) 一种基于业务拓扑多模型融合的iptv***健康度评估方法
JP7173273B2 (ja) 障害分析装置、障害分析方法および障害分析プログラム
Priovolos et al. Using anomaly detection techniques for securing 5G infrastructure and applications
CN103067901B (zh) 一种计费预警方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant