CN108683530A - 多维度数据的数据分析方法、装置及存储介质 - Google Patents

多维度数据的数据分析方法、装置及存储介质 Download PDF

Info

Publication number
CN108683530A
CN108683530A CN201810400910.7A CN201810400910A CN108683530A CN 108683530 A CN108683530 A CN 108683530A CN 201810400910 A CN201810400910 A CN 201810400910A CN 108683530 A CN108683530 A CN 108683530A
Authority
CN
China
Prior art keywords
dimension
dimensional data
stream magnitude
data
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810400910.7A
Other languages
English (en)
Other versions
CN108683530B (zh
Inventor
陈云
陈宇
李聪
王博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810400910.7A priority Critical patent/CN108683530B/zh
Publication of CN108683530A publication Critical patent/CN108683530A/zh
Application granted granted Critical
Publication of CN108683530B publication Critical patent/CN108683530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提出一种多维度数据的数据分析方法、装置及计算机可读存储介质。其中多维度数据的数据分析方法包括:获取多维度数据的维度组合中各维度的正常流量值和异常流量值;将多维度数据的维度组合以及维度组合的正常流量值和异常流量值输入决策树,使用决策树从多维度数据的维度组合中筛选出疑似根因维度;计算疑似根因维度的贡献度和子维度损失程度一致度;根据计算出的疑似根因维度的贡献度和子维度损失程度一致度,识别疑似根因维度是否为根因维度,根因维度是造成流量损失的根因所对应的数据维度。本发明实施例在发生故障时根据故障指标的多维度数据,快速分析出根因维度,节省运维人员定位故障的时间,减少故障带来的损失。

Description

多维度数据的数据分析方法、装置及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种多维度数据的数据分析方法、装置及计算机可读存储介质。
背景技术
为了更好地实时了解和分析服务的运行状况,互联网公司通常会在采集监控数据时,附上尽可能多的属性标签,如UA(User Agent,用户代理)、网络制式、地理位置等。标签是从不同的角度或维度对数据的描述,不同维度的描述信息使该采集数据具有强大的表达能力,构成了该采集数据的多维度数据。
当前利用多维度数据进行定位主要是通过人工对不同维度的数据查看、比较,从所有维度中找到异常程度明显的维度。故障发生时通过人工根据多维度数据进行判断,需要工作人员有一定的经验,且由于判断过程需要查看较多数据的趋势图之后综合判断,过程会耗费较长的时间。当数据维度较多时,定位时间会急剧上涨,导致因无法快速定位止损而引发较大的损失。
发明内容
本发明实施例提供一种多维度数据的数据分析方法、装置及计算机可读存储介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种多维度数据的数据分析方法,包括:获取多维度数据的维度组合中各维度的正常流量值和异常流量值;将多维度数据的维度组合以及所述维度组合的正常流量值和异常流量值输入决策树,使用所述决策树从所述多维度数据的维度组合中筛选出疑似根因维度;计算所述疑似根因维度的贡献度和子维度损失程度一致度;以及根据计算出的所述疑似根因维度的贡献度和子维度损失程度一致度,识别所述疑似根因维度是否为根因维度,其中,所述根因维度是造成流量损失的根因所对应的数据维度。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,获取多维度数据的各维度的正常流量值和异常流量值,包括:监控所述多维度数据的总流量;以及若监控到预设时间段内的所述多维度数据的总流量有流量损失,则获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值包括:将获取的所述预设时间段内的各维度的流量数据值与指定时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第三种实现方式中,获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值包括:统计所述预设时间段内的各维度的失败访问的次数,其中,将所述预设时间段内的没有收到回复信息的访问作为失败访问;以及将各维度的访问失败的次数确定为所述各维度的异常流量值。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第四种实现方式中,获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值包括:预测所述预设时间段内的各维度的流量数据值;将获取的所述预设时间段内的各维度的流量数据值与预测的所述预设时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式,本发明实施例在第一方面的第五种实现方式中,使用所述决策树筛选出疑似根因维度,包括:将多维度数据的维度组合的异常流量值作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重;平衡正负例样本权重,以使初始状态下正负例样本权重相当;根据平衡后的正负例样本权重计算每个维度的信息增益率,选择信息增益率最大的维度进行划分,构造所述决策树;以及将构造的所述决策树的路径确定为疑似根因维度。
结合第一方面的第五种实现方式,本发明实施例在第一方面的第六种实现方式中,所述平衡正负例样本权重包括:将多维度数据的维度组合的异常流量值与平衡系数的乘积作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重,其中,所述平衡系数是多维度数据的各维度的正常流量值的总和与各维度的异常流量值的总和之比。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式,本发明实施例在第一方面的第七种实现方式中,根据计算出的所述疑似根因维度的贡献度和子维度损失程度一致度,识别所述疑似根因维度是否为根因维度,包括:将计算出的所述疑似根因维度的贡献度和子维度损失程度一致度输入到分类器,对所述疑似根因维度是否为根因维度进行分类。
第二方面,本发明实施例提供了一种多维度数据的数据分析装置,包括:流量获取单元,用于获取多维度数据的维度组合中各维度的正常流量值和异常流量值;维度筛选单元,用于将多维度数据的维度组合以及所述维度组合的正常流量值和异常流量值输入决策树,使用所述决策树从所述多维度数据的维度组合中筛选出疑似根因维度;特征计算单元,用于计算所述疑似根因维度的贡献度和子维度损失程度一致度;以及识别单元,用于根据计算出的所述疑似根因维度的贡献度和子维度损失程度一致度,识别所述疑似根因维度是否为根因维度,其中,所述根因维度是造成流量损失的根因所对应的数据维度。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述流量获取单元包括:监控子单元,用于监控所述多维度数据的总流量;以及获取子单元,用于:若监控到预设时间段内的所述多维度数据的总流量有流量损失,则获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述获取子单元还用于:将获取的所述预设时间段内的各维度的流量数据值与指定时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第三种实现方式中,所述获取子单元还用于:统计所述预设时间段内的各维度的失败访问的次数,其中,将所述预设时间段内的没有收到回复信息的访问作为失败访问;以及将各维度的访问失败的次数确定为所述各维度的异常流量值。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第四种实现方式中,所述获取子单元还用于:预测所述预设时间段内的各维度的流量数据值;将获取的所述预设时间段内的各维度的流量数据值与预测的所述预设时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式,本发明实施例在第二方面的第五种实现方式中,所述维度筛选单元还用于:将多维度数据的维度组合的异常流量值作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重;平衡正负例样本权重,以使初始状态下正负例样本权重相当;根据平衡后的正负例样本权重计算每个维度的信息增益率,选择信息增益率最大的维度进行划分,构造所述决策树;以及将构造的所述决策树的路径确定为疑似根因维度。
结合第二方面的第五种实现方式,本发明实施例在第二方面的第六种实现方式中,所述平衡正负例样本权重包括:将多维度数据的维度组合的异常流量值与平衡系数的乘积作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重,其中,所述平衡系数是多维度数据的各维度的正常流量值的总和与各维度的异常流量值的总和之比。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式,本发明实施例在第二方面的第七种实现方式中,所述识别单元还用于:将计算出的所述疑似根因维度的贡献度和子维度损失程度一致度输入到分类器,对所述疑似根因维度是否为根因维度进行分类。
第三方面,本发明实施例提供了一种多维度数据的数据分析装置,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。
在一个可能的设计中,多维度数据的数据分析装置的结构中包括处理器和存储器,所述存储器用于存储支持多维度数据的数据分析装置执行上述第一方面中多维度数据的数据分析方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述多维度数据的数据分析装置还可以包括通信接口,用于多维度数据的数据分析装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一所述的方法。
上述技术方案具有如下优点或有益效果:可以在发生故障时,根据故障指标的多维度数据,快速分析出根因维度,节省运维人员定位故障的时间,减少故障带来的损失。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例的多维度数据的数据分析方法的整体框架图;
图2为本发明提供的多维度数据的数据分析方法的一种优选实施例的步骤流程图;
图3示出根据本发明一种实施例的多维度数据的数据分析方法的决策树的示意图;
图4a和图4b示出根据本发明一种实施例的多维度数据的数据分析方法的决策树构造划分过程示意图;
图5示出根据本发明一种实施例的多维度数据的数据分析方法的疑似根因维度组合全集示意图;
图6为本发明实施例的多维度数据的数据分析装置的整体框架图;
图7示出根据本发明另一实施例的多维度数据的数据分析装置的结构框图;
图8示出根据本发明另一实施例的多维度数据的数据分析装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述的内容被认为本质上是示例性的而非限制性的。
本发明实施例提供了一种多维度数据的数据分析方法。图1为本发明实施例的多维度数据的数据分析方法的整体框架图。如图1所示,本发明实施例的多维度数据的数据分析方法包括:步骤S110,获取多维度数据的维度组合中各维度的正常流量值和异常流量值;步骤S120,将多维度数据的维度组合以及所述维度组合的正常流量值和异常流量值输入决策树,使用所述决策树从所述多维度数据的维度组合中筛选出疑似根因维度;步骤S130,计算所述疑似根因维度的贡献度和子维度损失程度一致度;以及步骤S140,根据计算出的所述疑似根因维度的贡献度和子维度损失程度一致度,识别所述疑似根因维度是否为根因维度,其中,所述根因维度是造成流量损失的根因所对应的数据维度。
本发明实施例的多维度数据的数据分析方法可用于在故障发生时从所有维度中找到根因维度,其中,根因维度是异常程度明显的维度。以下是两个在多维度数据中定位根因维度的示例。
例一:维度组合包括省份和运营商,其中,运营商如联通、移动、电信等。在服务流量有损时,读入故障时各维度的流量数据,根据故障时各维度的流量数据对根因维度进行快速定位,比如电信的数据流量损失较多,则定位结果为:异常程度明显的根因维度为运营商维度。
例二:维度组合包括操作***、浏览器和移动通信技术,其中,操作***如苹果、安卓等;浏览器如谷歌浏览器、360浏览器、UC浏览器等;移动通信技术如3G、4G等。在发布应用之后监控数据总流量,在总流量有损时判断出现了故障,读入故障时各维度的流量数据,根据故障时各维度的流量数据对根因维度进行快速定位,比如定位结果为:若该应用在使用谷歌浏览器时流量损失异常程度明显,则根因维度是浏览器。
在具体应用中,可使用流量监控软件,监控网络数据流量。当服务流量有损时,可利用本发明实施例的多维度数据的数据分析方法对根因维度进行快速定位,从而缩短止损时间,减少故障损失。
根据本发明多维度数据的数据分析方法的一种实施方式,获取多维度数据的各维度的正常流量值和异常流量值,包括:监控所述多维度数据的总流量;以及若监控到预设时间段内的所述多维度数据的总流量有流量损失,则获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值。
在这种实施方式中,监控数据总流量,在总流量有损时判断出现了故障,读入故障时各维度的流量数据值。其中,流量数据值中包括正常流量值,也包括异常流量值,流量数据值是正常流量值和异常流量值的总和。需要通过某种方式,比如通过采集或预测的方式,获得的各维度的异常流量值,异常流量值也就是损失流量数据值。
根据本发明多维度数据的数据分析方法的一种实施方式,获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值包括:将获取的所述预设时间段内的各维度的流量数据值与指定时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
在这种实施方式中,通过采集的方式获得的各维度的异常流量值,采集包括采集实际发生的流量。可根据实际发生的流量计算流量下跌了多少,计算流量下跌多少可与指定时间段内的各维度的流量数据值做差值得出。例如,可计算当前时间段内的各维度的流量数据值与前一时间段内的各维度的流量数据值的差值。可选地,可计算当前时间段内的各维度的流量数据值与前一天的同一时间段内的各维度的流量数据值的差值。在另一可选实施例中,还可计算当前时间段内的各维度的流量数据值与几天前的同一时间段内的各维度的流量数据值的差值,可指定“几天前”中的天数,如一个星期或者一个月等。
根据本发明多维度数据的数据分析方法的一种实施方式,获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值包括:统计所述预设时间段内的各维度的失败访问的次数,其中,将所述预设时间段内的没有收到回复信息的访问作为失败访问;以及将各维度的访问失败的次数确定为所述各维度的异常流量值。
具体地,通过采集的方式获得的各维度的异常流量值的具体方法,还可以统计有多少请求没有被处理,没有被处理的请求次数就是失败访问的次数。如果访问没有收到回复信息,也就是该访问请求没有被处理,则认为是访问失败的情况。可将各维度的失败访问的次数确定为所述各维度的异常流量值。同理,收到回复信息的访问则被认为是访问成功的情况,将各维度的成功访问的次数确定为所述各维度的正常流量值。
根据本发明多维度数据的数据分析方法的一种实施方式,获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值包括:预测所述预设时间段内的各维度的流量数据值;将获取的所述预设时间段内的各维度的流量数据值与预测的所述预设时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
通过预测的方式获得的各维度的异常流量值,包括:预测假如没有发生故障的流量,与采集到的实际发生的流量的差值为异常流量值,也就是损失的流量。具体地,可统计网络流量的周期性变化规律,根据时段和/或用户浏览行为模式等信息预测当前时间段内的各维度的流量数据值。将预测的流量数据值与实际采集到的流量数据值的差值作为异常流量值。
图2为本发明提供的多维度数据的数据分析方法的一种优选实施例的步骤流程图。如图2所示,根据本发明多维度数据的数据分析方法的一种实施方式,图1中的步骤S120,使用所述决策树筛选出疑似根因维度,包括:步骤S210,将多维度数据的维度组合的异常流量值作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重;步骤S220,平衡正负例样本权重,以使初始状态下正负例样本权重相当;步骤 S230,根据平衡后的正负例样本权重计算每个维度的信息增益率,选择信息增益率最大的维度进行划分,构造所述决策树;以及步骤S240,将构造的所述决策树的路径确定为疑似根因维度。
决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点存放一个类标号。一旦建立好了决策树,对于一个未给定类标号的元组,跟踪一条有根节点到叶节点的路径,该叶节点就存放着该元组的预测。
本发明实施例用构造决策树的过程来筛选出疑似根因维度,决策树的输入特征为访问的维度组合,例如省份和运营商,及其正常流量值、异常流量值,输出为此维度组合是否为正例,也就是疑似根因维度;通过模型训练获得有较好区分度的决策树,从而得到疑似根因维度组合全集,即决策树路径。其中,可用基于C4.5算法构造决策树的过程来筛选疑似根因维度,筛选出疑似根因维度可减少后续的维度特征计算和根因识别的计算量。
在步骤S210中,将多维度数据中某个维度组合d视作一个样本点,则维度组合d的访问失败次数pvlostd,也就是异常流量值,作为d在正例集合的权重 weightpositive_d,维度组合d的访问成功次数pvd,也就是正常流量值,作为d在负例集合的权重weightnegative_d
根据本发明多维度数据的数据分析方法的一种实施方式,步骤S220平衡正负例样本权重包括:将多维度数据的维度组合的异常流量值与平衡系数的乘积作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重,其中,所述平衡系数是多维度数据的各维度的正常流量值的总和与各维度的异常流量值的总和之比。
为了满足利用信息增益率筛选疑似根因维度的假设,使初始状态信息熵最大,需要使用平衡正负例样本权重使得初始状态下正负例样本权重相当。在这种实施方式中,最终的正例权重weightpositive_d'=pvlostd*(pvtotal/pvlosttotal);最终的负例权重weightnegative_d'=pvd
例如,当只有两个维度组合时,按照pvlosttotal为1,pvtotal为100,pvlostd1为1,pvd1为10,pvlostd2为0,pvd2为90的情况计算:
样本点d1的正例权重weightpositive_d1为pvlostd1*(pvtotal/pvlosttotal)=100,负例权重weightnegative_d1为pvd1=10;
同理d2的正例权重为0,负例权重为90,总体上初始状态的正例权重为 100,负例权重为100。初始状态信息熵最大。
在步骤S230中,决策树的训练阶段从给定的训练数据集,构造出一棵决策树。可以基于C4.5算法训练来建立决策树。每次划分只使用一个维度进行筛选,在每次划分时,计算每个维度带来的信息增益率,贪心选择信息增益率最大、且大于0的特征(即维度)进行划分。在熵增益为负时停止子树生成,这样节省了子树部分的计算,最终生成的决策树中结果为非负例的节点路径为疑似根因维度,其中,非负例的节点路径包含非叶子结点。
例如,按照只有两个维度的情况,省份有取值北京、上海,运营商有取值电信、联通。取电信异常的情况分析,电信异常会导致电信正例权重(与pvlost 正相关)很高,偏离平衡位置,信息熵低于其他相对平衡的维度;联通的负例权重很高,同样偏离平衡位置,信息熵较低,会使得运营商维度的信息增益率高于省份维度的信息增益率,此时选择运营商进行划分,不再考虑<省份>、<省份,运营商>这两类维度组合,其中,信息增益率是信息熵均值的降低程度。依此类推,可以基于贪心方法得到一组能够较好区分正常和异常的维度组合,且剪枝效果明显。
再如,仍按照只有两个维度的情况,省份有取值北京、河北,运营商有取值联通、电信。表1是本例中的多维度数据的流量数据值及权重值。表1共示出了4个样本点,分别是:样本点d11,北京联通;样本点d12,北京电信;样本点d21,河北联通;样本点d22,河北电信。按照表1中数据,异常流量值的合计pvlosttotal为100,正常流量值的合计pvtotal为1000,pvlostd11为90,pvd1为100,计算得出:样本点d11的正例权重weightpositive_d11为pvlostd11*(pvtotal/pvlosttotal)=900,负例权重weightnegative_d11为pvd1=100;同理d12的正例权重为100,负例权重为80;d21的正例权重为0,负例权重为200;d22的正例权重为0,负例权重为620。
表1多维度数据的流量数据值及权重值
省份 运营商 正常流量值 异常流量值 正例权重 负例权重
北京 联通 100 90 900 100
北京 电信 80 10 100 80
河北 联通 200 0 0 200
河北 电信 620 0 0 620
合计 1000 100 1000 1000
图3示出根据本发明一种实施例的多维度数据的数据分析方法的决策树的示意图;图4a和图4b示出根据本发明一种实施例的多维度数据的数据分析方法的决策树构造划分过程示意图。图3是根据表1所示的样本集数据构造出的决策树示意图。图3所示的决策树的具体的划分过程由图4a和图4b示出。
其中,图4a是决策树第一次划分示意图。如图4a所示,第一次划分由节点(1),也就是根节点,使用省份划分为节点(2)北京和节点(3)河北。具体地,根据样本集数据,即表1所示的样本点d11、d12、d21、d22的正常流量值和异常流量值的数据计算,若划分维度使用省份划分,则北京的正例/负例比例为1000/180,河北的正例/负例比例为0/820;若划分维度使用运营商划分,则电信的正例/负例比例为100/700,联通的正例/负例比例为900/300。
在本实施例中,基于C4.5算法训练来建立决策树。C4.5算法用信息增益率来选择属性。属性选择度量又称***规则,因为它们决定给定节点上的元组如何***。属性选择度量提供了每个属性描述给定训练元组的秩评定,具有最好度量得分的属性被选作给定元组的***属性。例如C4.5算法用信息增益率来选择属性。在决策树创建时,许多分枝反映的是训练数据中的异常,剪枝方法是用来处理这种过分拟合数据的问题。在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会使构造的决策树过适应,如果不考虑这些结点可能会更好。
在机器学习与特征工程中,信息的不确定性可以用熵来表示。对于一个取有限个值的随机变量X,如果其概率分布为:
P(X=xi)=pi,i=1,2,…,n
那么随机变量X的熵可以用以下公式描述:
举个例子,如果一个分类***中,类别的标识是c,取值情况是c1,c2,…,c n, n为类别的总数,那么此分类***的熵为:
信息增益指的就是熵的减少量,是划分前样本集合的熵与使用某个特征划分后的数据子集的熵的差值,也就是某个特征X被固定以后,给***带来的信息增益。当特征X的整体分布情况被固定时,条件熵为H(c|X)。那么因为特征 X被固定以后,给***带来的信息增益为:IG(X)=H(c)-H(c|X)。
信息增益率是用前面提到的信息增益和***信息度量来共同定义的,***信息度量也就是特征X的熵H(X),那么信息增益率为:
在图4a所示的第一次划分中,分别计算按照省份划分和按照运营商划分后的信息增益率,由于按照省份划分后的信息增益率大于按照运营商划分后的信息增益率,因此选择按照省份划分,使节点(1)***出子节点(2)北京和子节点(3)河北。
在图4b所示的第二次划分中,与第一次划分的计算方式相同,通过信息增益率的计算确定节点(2)和节点(3)的划分方式。对于节点(2),选择按照运营商划分,使节点(2)***出子节点(4)北京电信和子节点(5)北京联通;对于节点(3),由于运营商划分的信息增益率为0,所以不再划分。最后得到的疑似根因维度组合全集,也就是决策树路径如图5所示。
在图1中的步骤S120,使用决策树筛选出疑似根因维度之后,执行步骤 S130,维度特征值计算。计算所有疑似根因维度的两个特征:贡献度、子维度损失程度一致度。贡献度可根据公式1计算,子维度损失程度一致度可用变异系数衡量,如公式2所示:
上式中,pvlostd为维度d的损失值,pvlosttotal为总维度的损失值。其中,损失值也就是异常流量值。
式中,pvd、pvlostd分别为维度d的成功数(正常流量值)、失败数(异常流量值);rd为维度d的异常程度;维度{t1,t2,t3…tn}为维度d的的子维度,例如:北京维度的子维度是北京联通、北京移动和北京电信。
根据本发明多维度数据的数据分析方法的一种实施方式,步骤S140,根据计算出的所述疑似根因维度的贡献度和子维度损失程度一致度,识别所述疑似根因维度是否为根因维度,包括:将计算出的所述疑似根因维度的贡献度和子维度损失程度一致度输入到分类器,对所述疑似根因维度是否为根因维度进行分类。
在步骤S140中,将各疑似根因维度的贡献度和子维度损失程度一致度输入到基于历史数据训练到的线性二分类器进行根因维度的识别,对维度是否为根因维度进行分类。基于历史数据对分类器的训练过程为:获取历史故障时数据,并将各维度按照是否为根因维度标注为两类,如0为非根因,1为根因。按照上述步骤计算各维度的两个特征,利用机器学习分类算法,如决策树、逻辑回归等,训练得到二分类器。
本发明实施例的多维度数据分析方法不仅可以使用到故障定位场景,同时适用于任何可以加和的多维度数据分析上。其中,可以加和的多维度数据是指总的维度数据等于各分维度数据的和,比如运营商维度的数据等于联通、移动、电信等数据的和。
另一方面,本发明实施例提供了一种多维度数据的数据分析装置。图6为本发明实施例的多维度数据的数据分析装置的整体框架图。如图6所示,本发明实施例的多维度数据的数据分析装置包括:流量获取单元100,用于获取多维度数据的维度组合中各维度的正常流量值和异常流量值;维度筛选单元200,用于将多维度数据的维度组合以及所述维度组合的正常流量值和异常流量值输入决策树,使用所述决策树从所述多维度数据的维度组合中筛选出疑似根因维度;特征计算单元300,用于计算所述疑似根因维度的贡献度和子维度损失程度一致度;以及识别单元400,用于根据计算出的所述疑似根因维度的贡献度和子维度损失程度一致度,识别所述疑似根因维度是否为根因维度,其中,所述根因维度是造成流量损失的根因所对应的数据维度。
图7示出根据本发明另一实施例的多维度数据的数据分析装置的结构框图。如图7所示,根据本发明多维度数据的数据分析装置的一种实施方式,所述流量获取单元100包括:监控子单元110,用于监控所述多维度数据的总流量;以及获取子单元120,用于:若监控到预设时间段内的所述多维度数据的总流量有流量损失,则获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值。
根据本发明多维度数据的数据分析装置的一种实施方式,所述获取子单元 120还用于:将获取的所述预设时间段内的各维度的流量数据值与指定时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
根据本发明多维度数据的数据分析装置的一种实施方式,所述获取子单元 120还用于:统计所述预设时间段内的各维度的失败访问的次数,其中,将所述预设时间段内的没有收到回复信息的访问作为失败访问;以及将各维度的访问失败的次数确定为所述各维度的异常流量值。
根据本发明多维度数据的数据分析装置的一种实施方式,所述获取子单元 120还用于:预测所述预设时间段内的各维度的流量数据值;将获取的所述预设时间段内的各维度的流量数据值与预测的所述预设时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
根据本发明多维度数据的数据分析装置的一种实施方式,所述维度筛选单元200还用于:将多维度数据的维度组合的异常流量值作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重;平衡正负例样本权重,以使初始状态下正负例样本权重相当;根据平衡后的正负例样本权重计算每个维度的信息增益率,选择信息增益率最大的维度进行划分,构造所述决策树;以及将构造的所述决策树的路径确定为疑似根因维度。
根据本发明多维度数据的数据分析装置的一种实施方式,所述平衡正负例样本权重包括:将多维度数据的维度组合的异常流量值与平衡系数的乘积作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重,其中,所述平衡系数是多维度数据的各维度的正常流量值的总和与各维度的异常流量值的总和之比。
参见图6,根据本发明多维度数据的数据分析装置的一种实施方式,所述识别单元400还用于:将计算出的所述疑似根因维度的贡献度和子维度损失程度一致度输入到分类器,对所述疑似根因维度是否为根因维度进行分类。
本发明实施例的装置中各模块的功能可以参见上述方法的相关描述,在此不再赘述。
另一方面,本发明实施例提供了一种多维度数据的数据分析装置,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述多维度数据的数据分析方法中任一所述的方法。
在一个可能的设计中,多维度数据的数据分析装置的结构中包括处理器和存储器,所述存储器用于存储支持多维度数据的数据分析装置执行上述多维度数据的数据分析方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述多维度数据的数据分析装置还可以包括通信接口,用于多维度数据的数据分析装置与其他设备或通信网络通信。
图8示出根据本发明另一实施例的多维度数据的数据分析装置的结构框图。如图8所示,该图像处理的装置包括:存储器910和处理器920,存储器 910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的多维度数据的数据分析方法。所述存储器 910和处理器920的数量可以为一个或多个。
该多维度数据的数据分析装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器 (non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA, Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
又一方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
上述技术方案具有如下优点或有益效果:可以在发生故障时,根据故障指标的多维度数据,快速分析出根因维度,节省运维人员定位故障的时间,减少故障带来的损失。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***) 使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (18)

1.一种多维度数据的数据分析方法,其特征在于,包括:
获取多维度数据的维度组合中各维度的正常流量值和异常流量值;
将多维度数据的维度组合以及所述维度组合的正常流量值和异常流量值输入决策树,使用所述决策树从所述多维度数据的维度组合中筛选出疑似根因维度;
计算所述疑似根因维度的贡献度和子维度损失程度一致度;以及
根据计算出的所述疑似根因维度的贡献度和子维度损失程度一致度,识别所述疑似根因维度是否为根因维度,其中,所述根因维度是造成流量损失的根因所对应的数据维度。
2.根据权利要求1所述的方法,其特征在于,获取多维度数据的各维度的正常流量值和异常流量值,包括:
监控所述多维度数据的总流量;以及
若监控到预设时间段内的所述多维度数据的总流量有流量损失,则获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值。
3.根据权利要求2所述的方法,其特征在于,获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值包括:
将获取的所述预设时间段内的各维度的流量数据值与指定时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
4.根据权利要求2所述的方法,其特征在于,获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值包括:
统计所述预设时间段内的各维度的失败访问的次数,其中,将所述预设时间段内的没有收到回复信息的访问作为失败访问;以及
将各维度的访问失败的次数确定为所述各维度的异常流量值。
5.根据权利要求2所述的方法,其特征在于,获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值包括:
预测所述预设时间段内的各维度的流量数据值;
将获取的所述预设时间段内的各维度的流量数据值与预测的所述预设时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
6.根据权利要求1-5中任一项所述的方法,其特征在于,使用所述决策树筛选出疑似根因维度,包括:
将多维度数据的维度组合的异常流量值作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重;
平衡正负例样本权重,以使初始状态下正负例样本权重相当;
根据平衡后的正负例样本权重计算每个维度的信息增益率,选择信息增益率最大的维度进行划分,构造所述决策树;以及
将构造的所述决策树的路径确定为疑似根因维度。
7.根据权利要求6所述的方法,其特征在于,所述平衡正负例样本权重包括:将多维度数据的维度组合的异常流量值与平衡系数的乘积作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重,其中,所述平衡系数是多维度数据的各维度的正常流量值的总和与各维度的异常流量值的总和之比。
8.根据权利要求1-5中任一项所述的方法,其特征在于,根据计算出的所述疑似根因维度的贡献度和子维度损失程度一致度,识别所述疑似根因维度是否为根因维度,包括:
将计算出的所述疑似根因维度的贡献度和子维度损失程度一致度输入到分类器,对所述疑似根因维度是否为根因维度进行分类。
9.一种多维度数据的数据分析装置,其特征在于,包括:
流量获取单元,用于获取多维度数据的维度组合中各维度的正常流量值和异常流量值;
维度筛选单元,用于将多维度数据的维度组合以及所述维度组合的正常流量值和异常流量值输入决策树,使用所述决策树从所述多维度数据的维度组合中筛选出疑似根因维度;
特征计算单元,用于计算所述疑似根因维度的贡献度和子维度损失程度一致度;以及
识别单元,用于根据计算出的所述疑似根因维度的贡献度和子维度损失程度一致度,识别所述疑似根因维度是否为根因维度,其中,所述根因维度是造成流量损失的根因所对应的数据维度。
10.根据权利要求9所述的装置,其特征在于,所述流量获取单元包括:
监控子单元,用于监控所述多维度数据的总流量;以及
获取子单元,用于:若监控到预设时间段内的所述多维度数据的总流量有流量损失,则获取所述预设时间段内的多维度数据的各维度的正常流量值和异常流量值。
11.根据权利要求10所述的装置,其特征在于,所述获取子单元还用于:将获取的所述预设时间段内的各维度的流量数据值与指定时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
12.根据权利要求10所述的装置,其特征在于,所述获取子单元还用于:
统计所述预设时间段内的各维度的失败访问的次数,其中,将所述预设时间段内的没有收到回复信息的访问作为失败访问;以及
将各维度的访问失败的次数确定为所述各维度的异常流量值。
13.根据权利要求10所述的装置,其特征在于,所述获取子单元还用于:
预测所述预设时间段内的各维度的流量数据值;
将获取的所述预设时间段内的各维度的流量数据值与预测的所述预设时间段内的各维度的流量数据值的差值确定为所述各维度的异常流量值。
14.根据权利要求9-13中任一项所述的装置,其特征在于,所述维度筛选单元还用于:
将多维度数据的维度组合的异常流量值作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重;
平衡正负例样本权重,以使初始状态下正负例样本权重相当;
根据平衡后的正负例样本权重计算每个维度的信息增益率,选择信息增益率最大的维度进行划分,构造所述决策树;以及
将构造的所述决策树的路径确定为疑似根因维度。
15.根据权利要求14所述的装置,其特征在于,所述平衡正负例样本权重包括:将多维度数据的维度组合的异常流量值与平衡系数的乘积作为所述维度组合在正例集合的权重,将多维度数据的维度组合的正常流量值作为所述维度组合在负例集合的权重,其中,所述平衡系数是多维度数据的各维度的正常流量值的总和与各维度的异常流量值的总和之比。
16.根据权利要求9-13中任一项所述的装置,其特征在于,所述识别单元还用于:将计算出的所述疑似根因维度的贡献度和子维度损失程度一致度输入到分类器,对所述疑似根因维度是否为根因维度进行分类。
17.一种多维度数据的数据分析装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201810400910.7A 2018-04-28 2018-04-28 多维度数据的数据分析方法、装置及存储介质 Active CN108683530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810400910.7A CN108683530B (zh) 2018-04-28 2018-04-28 多维度数据的数据分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810400910.7A CN108683530B (zh) 2018-04-28 2018-04-28 多维度数据的数据分析方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN108683530A true CN108683530A (zh) 2018-10-19
CN108683530B CN108683530B (zh) 2021-06-01

Family

ID=63802628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810400910.7A Active CN108683530B (zh) 2018-04-28 2018-04-28 多维度数据的数据分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN108683530B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858821A (zh) * 2019-02-14 2019-06-07 金瓜子科技发展(北京)有限公司 一种影响特征确定方法、装置、设备和介质
CN110009012A (zh) * 2019-03-20 2019-07-12 阿里巴巴集团控股有限公司 一种风险样本识别方法、装置及电子设备
CN110995524A (zh) * 2019-10-28 2020-04-10 北京三快在线科技有限公司 流量数据监控方法、装置、电子设备和计算机可读介质
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
CN111209179A (zh) * 2020-04-23 2020-05-29 成都四方伟业软件股份有限公司 一种***运维数据的采集分析方法、装置及***
CN111241128A (zh) * 2020-01-21 2020-06-05 北京字节跳动网络技术有限公司 数据处理方法、装置及电子设备
CN111314173A (zh) * 2020-01-20 2020-06-19 腾讯科技(深圳)有限公司 监控信息异常的定位方法、装置、计算机设备及存储介质
CN112015995A (zh) * 2020-09-29 2020-12-01 北京百度网讯科技有限公司 数据分析的方法、装置、设备以及存储介质
CN113220796A (zh) * 2020-01-21 2021-08-06 北京达佳互联信息技术有限公司 一种异常业务指标分析方法及装置
CN113535444A (zh) * 2020-04-14 2021-10-22 ***通信集团浙江有限公司 异动检测方法、装置、计算设备及计算机存储介质
CN113746798A (zh) * 2021-07-14 2021-12-03 清华大学 基于多维度分析的云网络共享资源异常根因定位方法
CN114900835A (zh) * 2022-04-20 2022-08-12 广州爱浦路网络技术有限公司 恶意流量智能检测方法、装置及存储介质
CN115578078A (zh) * 2022-11-15 2023-01-06 云智慧(北京)科技有限公司 一种运维***的数据处理方法、装置及设备
CN116227995A (zh) * 2023-02-06 2023-06-06 北京三维天地科技股份有限公司 一种基于机器学习的指标分析方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3110198A2 (en) * 2015-06-22 2016-12-28 Accenture Global Services Limited Wi-fi access points performance management
CN106874574A (zh) * 2017-01-22 2017-06-20 清华大学 基于决策树的移动应用性能瓶颈分析方法及装置
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107154880A (zh) * 2016-03-03 2017-09-12 阿里巴巴集团控股有限公司 ***监控方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3110198A2 (en) * 2015-06-22 2016-12-28 Accenture Global Services Limited Wi-fi access points performance management
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107154880A (zh) * 2016-03-03 2017-09-12 阿里巴巴集团控股有限公司 ***监控方法及装置
CN106874574A (zh) * 2017-01-22 2017-06-20 清华大学 基于决策树的移动应用性能瓶颈分析方法及装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858821A (zh) * 2019-02-14 2019-06-07 金瓜子科技发展(北京)有限公司 一种影响特征确定方法、装置、设备和介质
CN110009012A (zh) * 2019-03-20 2019-07-12 阿里巴巴集团控股有限公司 一种风险样本识别方法、装置及电子设备
CN110995524A (zh) * 2019-10-28 2020-04-10 北京三快在线科技有限公司 流量数据监控方法、装置、电子设备和计算机可读介质
CN110995524B (zh) * 2019-10-28 2022-06-14 北京三快在线科技有限公司 流量数据监控方法、装置、电子设备和计算机可读介质
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
CN111314173B (zh) * 2020-01-20 2022-04-08 腾讯科技(深圳)有限公司 监控信息异常的定位方法、装置、计算机设备及存储介质
CN111314173A (zh) * 2020-01-20 2020-06-19 腾讯科技(深圳)有限公司 监控信息异常的定位方法、装置、计算机设备及存储介质
CN113220796A (zh) * 2020-01-21 2021-08-06 北京达佳互联信息技术有限公司 一种异常业务指标分析方法及装置
CN111241128A (zh) * 2020-01-21 2020-06-05 北京字节跳动网络技术有限公司 数据处理方法、装置及电子设备
CN113535444A (zh) * 2020-04-14 2021-10-22 ***通信集团浙江有限公司 异动检测方法、装置、计算设备及计算机存储介质
CN113535444B (zh) * 2020-04-14 2023-11-03 ***通信集团浙江有限公司 异动检测方法、装置、计算设备及计算机存储介质
CN111209179A (zh) * 2020-04-23 2020-05-29 成都四方伟业软件股份有限公司 一种***运维数据的采集分析方法、装置及***
CN112015995A (zh) * 2020-09-29 2020-12-01 北京百度网讯科技有限公司 数据分析的方法、装置、设备以及存储介质
CN113746798A (zh) * 2021-07-14 2021-12-03 清华大学 基于多维度分析的云网络共享资源异常根因定位方法
CN114900835A (zh) * 2022-04-20 2022-08-12 广州爱浦路网络技术有限公司 恶意流量智能检测方法、装置及存储介质
CN115578078A (zh) * 2022-11-15 2023-01-06 云智慧(北京)科技有限公司 一种运维***的数据处理方法、装置及设备
CN116227995A (zh) * 2023-02-06 2023-06-06 北京三维天地科技股份有限公司 一种基于机器学习的指标分析方法及***
CN116227995B (zh) * 2023-02-06 2023-09-12 北京三维天地科技股份有限公司 一种基于机器学习的指标分析方法及***

Also Published As

Publication number Publication date
CN108683530B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN108683530A (zh) 多维度数据的数据分析方法、装置及存储介质
EP3743859A1 (en) Systems and methods for preparing data for use by machine learning algorithms
EP3418910A1 (en) Big data-based method and device for calculating relationship between development objects
CN112258093A (zh) 风险等级的数据处理方法及装置、存储介质、电子设备
US10616040B2 (en) Managing network alarms
CN109960839B (zh) 基于机器学习的业务支撑***业务链路发现方法和***
CN109241994A (zh) 一种用户异常行为检测方法、装置、设备及存储介质
CN114170002A (zh) 一种访问频次的预测方法及装置
CN110674104B (zh) 特征组合筛选方法、装置、计算机设备及存储介质
CN110633304B (zh) 组合特征筛选方法、装置、计算机设备及存储介质
CN111783883A (zh) 一种异常数据的检测方法及装置
CN113835947A (zh) 一种基于异常识别结果确定异常原因的方法和***
CN111008871A (zh) 一种房地产复购客户跟进数量计算方法、装置及存储介质
CN110264306B (zh) 基于大数据的产品推荐方法、装置、服务器及介质
CN110619406A (zh) 一种确定业务异常的方法及装置
CN112529428A (zh) 银行网点设备运营效能评估的方法及设备
US20210373987A1 (en) Reinforcement learning approach to root cause analysis
CN113987186A (zh) 一种基于知识图谱生成营销方案的方法和装置
CN113762421A (zh) 分类模型的训练方法、流量分析方法、装置及设备
CN113535522A (zh) 一种异常情况的检测方法、装置和设备
CN108804640B (zh) 基于最大化iv的数据分组方法、装置、储存介质及设备
CN112631892B (zh) 预测服务器健康状态的方法、计算设备和计算机介质
CN112395179A (zh) 一种模型训练方法、磁盘预测方法、装置及电子设备
CN110008100A (zh) 用于网页访问量异常检测的方法及装置
CN116610484B (zh) 一种模型训练方法、故障预测方法、***、设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant