CN108959493A - 指标异常波动的检测方法、装置及设备 - Google Patents

指标异常波动的检测方法、装置及设备 Download PDF

Info

Publication number
CN108959493A
CN108959493A CN201810662139.0A CN201810662139A CN108959493A CN 108959493 A CN108959493 A CN 108959493A CN 201810662139 A CN201810662139 A CN 201810662139A CN 108959493 A CN108959493 A CN 108959493A
Authority
CN
China
Prior art keywords
dimension
detected
ratio
index
change rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810662139.0A
Other languages
English (en)
Inventor
王蓬金
赵坤
张冠男
邹润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810662139.0A priority Critical patent/CN108959493A/zh
Publication of CN108959493A publication Critical patent/CN108959493A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供一种指标异常波动的检测方法、装置及设备,本实施例提供有数据检测配置接口,通过该接口,可以供用户输入待检测维度和指标的变化率;针对待检测维度,可以调用分析模型计算待检测维度的信息熵、信息增益率或二八原则参数中的一个或多个参数,通过所计算的参数可以检测出各个维度对指标异常变动的影响程度。

Description

指标异常波动的检测方法、装置及设备
技术领域
本说明书涉及数据分析技术领域,尤其涉及指标异常波动的检测方法、装置及设备。
背景技术
随着信息技术的发展,各行各业在运营的过程中每天都会产生大量的数据。针对这些数据,数据分析师常常会有很多关注的指标,例如新增用户数量、活跃用户数量等等。这些指标的波动情况,常常采用同比或环比等变化率来表征。通过这些指标的变化率,数据分析师可以查看指标是否发生异常波动,例如,若变化率较大,可能说明该指标出现了异常波动。
实际业务场景中,指标的异常波动可能由多种原因产生,以用户数量同比为例,影响用户数量的维度,可能包括职业、用户所在城市、年龄或性别等等,不同维度对于用户数量波动的影响程度可能不同。基于此,需要提供一种能够检测指标异常波动、确定异常波动原因的方案。
发明内容
为克服相关技术中存在的问题,本说明书提供了指标异常波动的检测方法、装置及设备。
根据本说明书实施例的第一方面,提供一种指标异常波动的检测方法,所述方法包括:
提供配置接口,通过所述配置接口获取数据检测配置信息,所述数据检测配置信息包括:待检测维度和指标的变化率;
加载待检测数据,将所述待检测维度和所述指标的变化率作为分析模型的输入,调用所述分析模型,其中,所述分析模型用于:利用所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数,并基于计算得到的参数确定所述待检测维度对所述指标的变化率的影响程度;
输出所述检测结果。
可选的,所述变化率包括:同比或环比。
可选的,所述信息熵基于如下方式确定:所述信息熵中的随机事件分为两类:所述待检测维度的枚举值对应变化率是否大于所述指标的变化率;所述随机事件出现的概率基于如下方式确定:所述对应变化率大于所述指标的变化率的枚举值个数占待检测维度的枚举值总个数的比例。
可选的,所述信息熵通过如下方式计算得到:
其中,gm(D)表示维度m的信息熵,n等于2,pi表示所述比例,D表示所述整体变化率。
可选的,所述信息增益率基于所述信息熵与所述待检测维度的枚举值总个数的比值而确定。
可选的,所述二八原则参数基于目标个数Q占所述待检测维度的枚举值总个数的比例而确定;其中,所述目标个数Q表示:将所述待检测维度的枚举值按照对应的变化绝对值从高至低排序,前Q个枚举值对应的变化绝对值的和值超过所述指标的变化绝对值的设定比例,所述设定比例基于80%而确定。
可选的,所述影响程度与所述信息熵或信息增益率呈正相关,与所述二八原则参数呈负相关。
可选的,所述分析模型运行于Hive平台中。
根据本说明书实施例的第二方面,提供一种指标异常波动的检测装置,包括:
配置模块,用于:提供配置接口,通过所述配置接口获取数据检测配置信息,所述数据检测配置信息包括:待检测维度和指标的变化率;
计算模块,用于:加载待检测数据,将所述待检测维度和所述指标的变化率作为分析模型的输入,调用所述分析模型,其中,所述分析模型用于:利用所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数,并基于计算得到的参数确定所述待检测维度对所述指标的变化率的影响程度;
输出模块,用于:输出所述检测结果。
可选的,所述变化率包括:同比或环比。
可选的,所述信息熵基于如下方式确定:所述信息熵中的随机事件分为两类:所述待检测维度的枚举值对应变化率是否大于所述指标的变化率;所述随机事件出现的概率基于如下方式确定:所述对应变化率大于所述指标的变化率的枚举值个数占待检测维度的枚举值总个数的比例。
可选的,所述信息熵通过如下方式计算得到:
其中,gm(D)表示维度m的信息熵,n等于2,pi表示所述比例,D表示所述整体变化率。
可选的,所述信息增益率基于所述信息熵与所述待检测维度的枚举值总个数的比值而确定。
可选的,所述二八原则参数基于目标个数Q占所述待检测维度的枚举值总个数的比例而确定;其中,所述目标个数Q表示:将所述待检测维度的枚举值按照对应的变化绝对值从高至低排序,前Q个枚举值对应的变化绝对值的和值超过所述指标的变化绝对值的设定比例,所述设定比例基于80%而确定。
可选的,所述影响程度与所述信息熵或信息增益率呈正相关,与所述二八原则参数呈负相关。
可选的,所述分析模型运行于Hive平台中。
根据本说明书实施例的第三方面,提供一种指标异常波动的检测设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
提供配置接口,通过所述配置接口获取数据检测配置信息,所述数据检测配置信息包括:待检测维度和指标的变化率;
加载待检测数据,将所述待检测维度和所述指标的变化率作为分析模型的输入,调用所述分析模型,其中,所述分析模型用于:利用所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数,并基于计算得到的参数确定所述待检测维度对所述指标的变化率的影响程度;
输出所述检测结果。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书实施例中提供有数据检测配置接口,通过该接口,可以供用户输入待检测维度和指标的变化率;针对待检测维度,可以调用分析模型计算待检测维度的信息熵、信息增益率或二八原则参数中的一个或多个参数,通过所计算的参数可以检测出各个维度对指标异常变动的影响程度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1A是本说明书根据一示例性实施例示出的一种指标异常波动的检测方法的流程图。
图1B是本说明书根据一示例性实施例示出的一种指标异常波动的检测方法的应用场景图。
图2是本说明书实施例指标异常波动的检测装置所在设备的一种硬件结构图。
图3是本说明书根据一示例性实施例示出的一种指标异常波动的检测装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在大数据的趋势下,分析指标是否发生异常波动、分析异常波动的产生原因已经成为从事数据工作者每天需要从事的工作。在很多业务场景下,数据分析师会关注业务数据的多种指标。作为例子,数据的指标可以包括:曝光量、广告点击率、渠道转化率、日增用户数、活跃用户数、用户会话次数或用户价值指数等等。数据分析师会关注这些指标的波动,指标的波动采用指标的变化率来表征,例如同比或环比等;同比表示将当前统计周期和历史同周期比较,环比表示将当前统计周期和上一个统计周期比较。
指标的异常波动可能由多种原因产生,作为例子,若指标为用户数量、变化率为同比,影响用户数量的维度,可能包括职业、用户所在城市、年龄或性别等等,不同维度对于用户数量波动的影响程度可能不同。如果能够及时地识别出造成指标异常波动的相关原因,就能够针对异常数据及时地做出相应的分析及解决措施,从而能够使服务平台更稳定地为用户提供服务。
同比或环比等变化率属于比率型参数,该数值由分子除以分母计算得到,变化率的高低,有可能是分子变大造成、有可能是分母变小造成,也有可能是分子变大及分母变小、也有可能是分子不变而分母变小等等多种原因,因此采用同比或环比等属于比率型参数来发现指标异常变动,分析指标异常变动的产生原因较为复杂。如何根据指标的变化率来寻找哪些维度影响波动、如何通过技术和算法进行自动化分析,并且精准地提供分析结果是亟需解决的技术问题。
基于此,本实施例提供一种能够检测指标异常波动的方案,本实施例提供有数据检测配置接口,通过该接口,可以供用户输入待检测维度和指标的变化率,针对待检测维度,计算待检测维度的信息熵、信息增益率或二八原则参数中的一个或多个参数,通过所计算的参数可以检测出各个维度对指标异常变动的影响程度。
如图1A所示,是本说明书根据一示例性实施例示出的一种指标异常波动的检测方法的流程图,包括如下步骤:
在步骤102中,提供配置接口,通过所述配置接口获取数据检测配置信息,所述数据检测配置信息包括:待检测维度和指标的变化率。
在步骤104中,加载待检测数据,将所述待检测维度和所述指标的变化率作为分析模型的输入,调用所述分析模型,其中,所述分析模型用于:利用所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数,并基于计算得到的参数确定所述待检测维度对所述指标的变化率的影响程度。
在步骤106中,输出所述检测结果。
结合图1B所示的一种指标异常波动的检测方法的应用场景图进行说明,本实施例中的待检测数据可以是各种报表数据,例如,关键绩效指标(K e y PerformanceIndicators,KPI)数据、各种业务数据等。实际应用中,可以从数据库中获取待检测数据,该待检测数据可以是业务***实时传输的业务数据,也可以是离线数据。
指标,用于衡量事物发展程度的单位或方法,例如:人口数、GDP、收入、用户数、利润率、留存率、覆盖率等。指标可以经过加和、平均等汇总计算方式得到,并且可以在一定的前提条件进行汇总计算,如时间、地点、范围,也就是统计口径与范围。指标可以分为绝对数指标和相对数指标,绝对数指标反映的是规模大小的指标,如人口数、GDP、收入、用户数,而相对数指标主要用来反映质量好坏的指标,如利润率、留存率、覆盖率等。
维度,用于表征事物或现象的某种特征,如性别、地区、时间等都是维度。其中时间是一种常用、特殊的维度,通过时间前后的对比,就可以知道事物的发展是变好还是变坏,如用户数环比上月增长10%、同比去年同期增长20%,这就是时间上的对比,也称为纵比;另一种比较是横比,如不同国家人口数、GDP的比较,不同省份收入、用户数的比较、不同公司、不同部门之间的比较等,简称横比。维度可以分为定性维度与定量维度,也就是根据数据类型来划分,数据类型为字符型(文本型)数据,就是定性维度,如地区、性别都是定性维度;数据类型为数值型数据的,就为定量维度,如收入、年龄、消费等。
维度的所有取值称为枚举值,例如,维度性别的取值包括男和女,则该维度的枚举值为男和女,枚举值的个数有两个。
本实施例中,对于待检测数据,可以采用多种维度进行划分,为了便于用户分析,本实施例提供有配置接口,在一些例子中,该配置接口可以是一可视化界面,可以包含有与用户交互的功能,通过所述配置接口可以获取用户输入的数据检测配置信息,数据检测配置信息可以包括:待检测维度和指标的变化率。实际应用中,可以针对待检测数据预先划分有多种维度,针对已划分的维度,可以供用户选取其期望检测的待检测维度;另一方面,也可以预先针对待检测数据统计汇总有多种指标及对应的多种变化率,针对已统计的指标的变化率,供用户选取其期望检测的指标的变化率。
本实施例中预先配置有分析模型,该分析模型用于基于所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数。
作为例子,有一份业务数据,该份数据的指标是用户数量,指标变化率采用同比和环比作为例子,该份数据的待检测维度包括:职业、城市、性别和年龄段。为了示例方便,本实施例以4个维度为例,实际应用中可以根据需要设置其他多种维度,本实施例对此不作限定。其中,职业的枚举值包括如下大学生、教职工或蓝领等11个,各个枚举值对应的变化率如下:
职业 用户同比 用户环比
无法识别 1.21% 0.13%
大学生 3.29% 0.35%
名企员工 21.87% 6.1%
教职工 1.44% 0.62%
个体户 2.03% 0.27%
蓝领 0.69% 0.07%
公务员 0.81% 0.05%
医务人员 1.88% 0.19%
白领 0.13% -0.02%
上市公司员工 -1.04% -0.35%
上市公司高管 0.43% 0.03%
本实施例的该份数据中,采用环比作为变化率,用户数量的环比为0.18%(表示用户数量的变化率,即以整份数据计算得到的用户数量的平均变化率),数据分析的目标是,从职业、城市、性别和年龄段4个维度中分析各个维度对用户环比的影响,也就是说,检测造成用户环比异常变动的主要原因、检测各个维度的影响有多大或者检测哪个维度影响最大等等。
本实施例中,信息熵是信息论中用于度量信息量的一个概念,信息熵被定义为离散随机事件的出现概率,较高的熵值表示较大的信息量。一个***越是有序,信息熵就越低;反之,一个***越是混乱,信息熵就越高。在正常情况下,各个维度的数据分布具有一致性,指标不会有异常波动;而当指标出现了异常波动,可能是由于其中一个或多个维度的数据出现异常而破坏了数据分布的一致性,因此,维度的信息熵可以作为判断该维度是否影响指标异常波动的一个有效标识。若该维度的信息熵较高,也就是意味着该维度的波动越大,即指标异常波动的影响最大;反之亦然。
基于此,本实施例的分析模型的作用之一,可以是计算待检测维度的信息熵,可选的,可以将已有信息熵计算方法引入于本实施例的数据分析场景中,作为例子,该信息熵基于如下方式确定:所述信息熵中的随机事件分为两类:所述待检测维度的枚举值对应变化率是否大于所述整体变化率;所述随机事件出现的概率基于如下方式确定:所述对应变化率大于所述整体变化率的枚举值个数占待检测维度的枚举值总个数的比例。通过上述方式,将信息熵中的随机事件分为两类,一类是对指标的整体变化率有贡献的事件,一类是对指标的整体变化率无贡献的事件,是否有贡献通过待检测维度的枚举值对应变化率是否大于整体变化率而确定,因此可以快速地确定待检测维度的信息熵。
在一个可选的实现方式中,本实施例还提供了信息熵的一种计算方式,作为例子,本实施例中,所述信息熵通过如下方式计算得到:
其中,gm(D)表示维度m的信息熵;n等于2,也就是表征两类事件,即待检测维度对变化率是否有影响的事件;
pi在信息熵公式中表示该随机事件出现的概率,本实施例中采用上述比例表征;
D在信息熵公式中表示数据集,在本实施例中采用该变化率表征。
进一步的,以前述表1作为例子,对分析模型计算信息熵的过程进行示例说明。由表1所示可知,职业有11个枚举值。其中,每个枚举值的用户环比如表1所示,这11个枚举值中,大于平均环比0.18%的个数有6个,不大于平均环比0.18%的个数有5个,因此:
职业的信息熵的计算过程可以是:6/11*log(6/11)+5/11*log(5/11)。
根据上述计算方式,还可以相应计算其他待检测维度的信息熵。
实际应用中,不同待检测维度的枚举值的差异可能较大,例如性别的枚举值较少、而城市的枚举值可能较多,信息熵适用于对枚举值较多的待检测维度的计算,为了避免枚举值差异造成的影响,在其他例子中,分析模型还可计算待检测维度的信息增益率,可选的,所述信息增益率可以基于所述信息熵与所述待检测维度的枚举值总个数的比值而确定,从而可以削弱枚举值差异带来的影响。作为例子,可以计算信息熵与所述待检测维度的枚举值总个数的比值作为该信息增益率,计算过程如下:
Intlm(D)=gm(D)/N
其中,Intlm(D)为表示维度m的信息增益率,N为维度m的枚举值总个数。
在其他例子中,也可以在基于信息熵与所述待检测维度的枚举值总个数的比值的基础上,通过增加其他修饰参数等方式计算信息增益率,本实施例对此不作限定。
本实施例的分析模型,在另一方面,还可以计算二八原则参数;其中,基于二八原则,指标的异常变动中,大部分的贡献(约80%)的来自于各个待检测维度中的其中一小部分(约20%)。因此,若某个维度的数据变动越集中,对指标的异常变动的影响就越大。本实施例中,二八原则参数可以基于目标个数Q占所述待检测维度的枚举值总个数的比例而确定;其中,所述目标个数Q表示:将所述待检测维度的枚举值按照对应的变化绝对值从高至低排序,前Q个枚举值对应的变化绝对值的和值超过所述指标的变化绝对值的设定比例,所述设定比例基于80%而确定。从原理上理解,二八原则参数表征该维度中数据变动的集中程度,该维度对指标变动的影响程度,该维度中数据变动的集中程度,集中程度越高,对指标变动的影响越大。
作为例子,可以通过如下方式计算二八原则参数,假设针对用户数量环比,整份数据该指标变动绝对值是10万;而设定比例可以基于80%确定,实际应用中,也可以根据需要灵活配置该比例,例如与80%相近的比例。本实施例中采用80%为例,10万的80%是8万。
针对第一个待检测维度,按照该待检测维度的所有枚举值的变化绝对值,将待检测维度的所有枚举值排序,读取各个枚举值的变化绝对值,并从高至低求取和值,当和值超过该8万,则可以获得目标个数Q,基于目标个数Q与该维度的枚举值总个数的比值,可以获得二八原则参数。
上述计算过程在实际应用中可以采用如下算法表示:
其中,count表示计数,count(all)表示该待检测维度的枚举值总个数;
βj表示待检测维度的枚举值j的变化绝对值,sum(βj)表示待检测维度的指标变动绝对值,其中,1≤j≤N,N为待检测维度的枚举值总个数,其中,按照该待检测维度的所有枚举值的变化绝对值,将待检测维度的所有枚举值排序;
表示βj占sum(βj)的比例是否大于0.8,该0.8可以根据需要灵活调整。
作为例子,以计算城市维度的二八原则参数为例,其中,城市维度的枚举值有365个,根据各个枚举值对应的用户数量的变动绝对值,其中变动绝对值最高的前5个超过了8万,因此城市维度的影响值为5/365。
以计算职业维度为例,其中,职业维度的枚举值有11个,根据各个枚举值对应的用户数量的变动绝对值,其中数量最高的1个枚举值的变动绝对值已经超过8万,因此职业维度的影响值为1/11。
可以理解,基于二八原则算法计算的维度对指标变动的影响值,表征了该维度中数据变动的集中程度,集中程度越高,对指标变动的影响越大。
通过上述方式,分析模型可以计算得到信息熵、信息增益率或二八原则参数中的一个或多个,进而确定所述待检测维度对所述指标的变化率的影响程度,其中,该影响程度与所述信息熵或信息增益率呈正相关,与二八原则参数呈负相关,具体实现时可以根据需要灵活配置影响程度的确定方式,例如,若只计算其中的一个参数,可以根据该参数对待检测维度排序,基于上述影响程度与信息熵、信息增益率或二八原则参数的相关关系,可以确定各个待检测维度的影响程度。在其他例子中,若计算有多个参数,可以结合影响程度与各个参数的相关关系而综合确定,可选的,在综合确定的情况下,上述三个参数还可以分别对应有权重值,
作为例子,为了便于计算,可以将信息熵、信息增益率或二八原则参数归一化,其中,二八原则参数可以基于逆序进行归一化处理(逆序是指,将维度按照二八原则参数按逆序排列),之后再相乘求和:
Score=normalize(f1)×normalize(f2)×normalize(f3)
最后,可以根据各个维度的Score进行排序,Score最大的维度可以确定为对指标变动的影响最大。基于分析模型的计算结果,可以获得各个待检测维度的Score,可选的,可以将各个待检测维度的Score输出,从而可以供用户查阅到各个待检测维度对指标异常变动的影响程度。
实际应用中,基于所计算出的各个待检测维度的影响程度,由于待检测维度还可以进一步分割出更多维度,上述检测方法还可以再一次执行,从而可以进一步再次分割维度,从而查找到更为细致的影响原因。也就是说,本实施例的检测方法可以如树状的计算结构从第一层开始层层递进地检测,待检测维度可以从粗至细层层分割,例如,当检测出职业对指标的变化率影响最大,可以利用本实施例方法,以职业的各个枚举值作为新的待检测维度,进一步分析出,职业的各个枚举值中对指标的变化率的影响程度。
本实施例方法可运行于基于分布式计算的Hive平台,可实现实时的计算处理,还可以通过缓存等技术进行加速处理,使得该方法可以快速对数据进行检测。
与前述指标异常波动的检测方法的实施例相对应,本说明书还提供了指标异常波动的检测装置及其所应用的设备的实施例。
本说明书指标异常波动的检测装置的实施例可以应用在服务器等计算设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在指标异常波动的检测的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本说明书指标异常波动的检测装置所在设备的一种硬件结构图,除了图2所示的处理器210、内存230、网络接口220、以及非易失性存储器240之外,实施例中装置231所在设备,通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
如图3所示,图3是本说明书根据一示例性实施例示出的一种指标异常波动的检测装置的框图,所述装置包括:
配置模块31,用于:提供配置接口,通过所述配置接口获取数据检测配置信息,所述数据检测配置信息包括:待检测维度和指标的变化率;
计算模块32,用于:加载待检测数据,将所述待检测维度和所述指标的变化率作为分析模型的输入,调用所述分析模型,其中,所述分析模型用于:利用所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数,并基于计算得到的参数确定所述待检测维度对所述指标的变化率的影响程度;
输出模块33,用于:输出所述检测结果。
可选的,所述变化率包括:同比或环比。
可选的,所述信息熵基于如下方式确定:所述信息熵中的随机事件分为两类:所述待检测维度的枚举值对应变化率是否大于所述指标的变化率;所述随机事件出现的概率基于如下方式确定:所述对应变化率大于所述指标的变化率的枚举值个数占待检测维度的枚举值总个数的比例。
可选的,所述信息熵通过如下方式计算得到:
其中,gm(D)表示维度m的信息熵,n等于2,pi表示所述比例,D表示所述整体变化率。
可选的,所述信息增益率基于所述信息熵与所述待检测维度的枚举值总个数的比值而确定。
可选的,所述二八原则参数基于目标个数Q占所述待检测维度的枚举值总个数的比例而确定;其中,所述目标个数Q表示:将所述待检测维度的枚举值按照对应的变化绝对值从高至低排序,前Q个枚举值对应的变化绝对值的和值超过所述指标的变化绝对值的设定比例,所述设定比例基于80%而确定。
可选的,所述影响程度与所述信息熵或信息增益率呈正相关,与所述二八原则参数呈负相关。
可选的,所述分析模型运行于Hive平台中。
相应的,本说明书还提供一种指标异常波动的检测设备,包括有处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
提供配置接口,通过所述配置接口获取数据检测配置信息,所述数据检测配置信息包括:待检测维度和指标的变化率;
加载待检测数据,将所述待检测维度和所述指标的变化率作为分析模型的输入,调用所述分析模型,其中,所述分析模型用于:利用所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数,并基于计算得到的参数确定所述待检测维度对所述指标的变化率的影响程度;
输出所述检测结果。
上述指标异常波动的检测装置中各个模块的功能和作用的实现过程具体详见上述指标异常波动的检测方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (14)

1.一种指标异常波动的检测方法,包括:
提供配置接口,通过所述配置接口获取数据检测配置信息,所述数据检测配置信息包括:待检测维度和指标的变化率;
加载待检测数据,将所述待检测维度和所述指标的变化率作为分析模型的输入,调用所述分析模型,其中,所述分析模型用于:利用所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数,并基于计算得到的参数确定所述待检测维度对所述指标的变化率的影响程度;
输出所述检测结果。
2.根据权利要求1所述的方法,所述变化率包括:同比或环比。
3.根据权利要求1所述的方法,所述信息熵基于如下方式确定:所述信息熵中的随机事件分为两类:所述待检测维度的枚举值对应变化率是否大于所述指标的变化率;其中,所述随机事件出现的概率基于如下方式确定:所述对应变化率大于所述指标的变化率的枚举值个数占待检测维度的枚举值总个数的比例。
4.根据权利要求3所述的方法,所述信息熵通过如下方式计算得到:
其中,gm(D)表示维度m的信息熵,n等于2,pi表示所述比例,D表示所述整体变化率。
5.根据权利要求1所述的方法,所述信息增益率基于所述信息熵与所述待检测维度的枚举值总个数的比值而确定。
6.根据权利要求1所述的方法,所述二八原则参数基于目标个数Q占所述待检测维度的枚举值总个数的比例而确定;其中,所述目标个数Q表示:将所述待检测维度的枚举值按照对应的变化绝对值从高至低排序,前Q个枚举值对应的变化绝对值的和值超过所述指标的变化绝对值的设定比例,所述设定比例基于80%而确定。
7.根据权利要求1所述的方法,所述影响程度与所述信息熵或信息增益率呈正相关,与所述二八原则参数呈负相关。
8.根据权利要求1所述的方法,所述分析模型运行于Hive平台中。
9.一种指标异常波动的检测装置,所述装置包括:
配置模块,用于:提供数据检测配置接口,通过所述接口获取数据检测请求,所述数据检测请求包含:待检测维度和指标的变化率;
计算模块,用于:加载待检测数据,将所述待检测维度和所述指标的变化率作为分析模型的输入,调用所述分析模型,其中,所述分析模型用于:利用所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数,并基于计算得到的参数确定所述待检测维度对所述指标的变化率的影响程度;
输出模块,用于:输出所述检测结果。
10.根据权利要求9所述的装置,所述信息熵基于如下方式确定:所述信息熵中的随机事件分为两类:所述待检测维度的枚举值对应变化率是否大于所述指标的变化率;所述随机事件出现的概率基于如下方式确定:所述对应变化率大于所述指标的变化率的枚举值个数占待检测维度的枚举值总个数的比例。
11.根据权利要求9所述的装置,所述信息增益率基于所述信息熵与所述待检测维度的枚举值总个数的比值而确定。
12.根据权利要求9所述的装置,所述二八原则参数基于目标个数Q占所述待检测维度的枚举值总个数的比例而确定;其中,所述目标个数Q表示:将所述待检测维度的枚举值按照对应的变化绝对值从高至低排序,前Q个枚举值对应的变化绝对值的和值超过所述指标的变化绝对值的设定比例,所述设定比例基于80%而确定。
13.根据权利要求9所述的装置,所述影响程度与所述信息熵或信息增益率呈正相关,与所述二八原则参数呈负相关。
14.一种指标异常波动的检测设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
提供配置接口,通过所述配置接口获取数据检测配置信息,所述数据检测配置信息包括:待检测维度和指标的变化率;
加载待检测数据,将所述待检测维度和所述指标的变化率作为分析模型的输入,调用所述分析模型,其中,所述分析模型用于:利用所述待检测数据计算所述待检测维度的如下一种或多种参数:信息熵、信息增益率或二八原则参数,并基于计算得到的参数确定所述待检测维度对所述指标的变化率的影响程度;
输出所述检测结果。
CN201810662139.0A 2018-06-25 2018-06-25 指标异常波动的检测方法、装置及设备 Pending CN108959493A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810662139.0A CN108959493A (zh) 2018-06-25 2018-06-25 指标异常波动的检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810662139.0A CN108959493A (zh) 2018-06-25 2018-06-25 指标异常波动的检测方法、装置及设备

Publications (1)

Publication Number Publication Date
CN108959493A true CN108959493A (zh) 2018-12-07

Family

ID=64486561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810662139.0A Pending CN108959493A (zh) 2018-06-25 2018-06-25 指标异常波动的检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN108959493A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459276A (zh) * 2019-08-15 2019-11-15 北京嘉和海森健康科技有限公司 一种数据处理方法及相关设备
CN110458473A (zh) * 2019-08-20 2019-11-15 国网福建省电力有限公司 一种用于电力看板的动态决策分析方法及终端
CN110991241A (zh) * 2019-10-31 2020-04-10 支付宝(杭州)信息技术有限公司 异常识别方法、设备及计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009145251A1 (ja) * 2008-05-30 2009-12-03 株式会社日立ハイテクノロジーズ 反応過程データの異常判定支援方法及び自動分析装置
CN105447323A (zh) * 2015-12-11 2016-03-30 百度在线网络技术(北京)有限公司 一种数据异常波动检测方法和装置
CN106612216A (zh) * 2015-10-27 2017-05-03 北京国双科技有限公司 网站访问异常的检测方法及装置
CN107682354A (zh) * 2017-10-25 2018-02-09 东软集团股份有限公司 一种网络病毒检测方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009145251A1 (ja) * 2008-05-30 2009-12-03 株式会社日立ハイテクノロジーズ 反応過程データの異常判定支援方法及び自動分析装置
CN106612216A (zh) * 2015-10-27 2017-05-03 北京国双科技有限公司 网站访问异常的检测方法及装置
CN105447323A (zh) * 2015-12-11 2016-03-30 百度在线网络技术(北京)有限公司 一种数据异常波动检测方法和装置
CN107682354A (zh) * 2017-10-25 2018-02-09 东软集团股份有限公司 一种网络病毒检测方法、装置及设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459276A (zh) * 2019-08-15 2019-11-15 北京嘉和海森健康科技有限公司 一种数据处理方法及相关设备
CN110458473A (zh) * 2019-08-20 2019-11-15 国网福建省电力有限公司 一种用于电力看板的动态决策分析方法及终端
CN110458473B (zh) * 2019-08-20 2022-07-05 国网福建省电力有限公司 一种用于电力看板的动态决策分析方法及终端
CN110991241A (zh) * 2019-10-31 2020-04-10 支付宝(杭州)信息技术有限公司 异常识别方法、设备及计算机可读介质
CN110991241B (zh) * 2019-10-31 2022-06-03 支付宝(杭州)信息技术有限公司 异常识别方法、设备及计算机可读介质

Similar Documents

Publication Publication Date Title
US11645581B2 (en) Meaningfully explaining black-box machine learning models
CN107679946B (zh) 基金产品推荐方法、装置、终端设备及存储介质
US10367888B2 (en) Cloud process for rapid data investigation and data integrity analysis
US20200192894A1 (en) System and method for using data incident based modeling and prediction
US7805345B2 (en) Computer-implemented lending analysis systems and methods
US8577775B1 (en) Systems and methods for managing investments
US10140661B2 (en) Systems and methods for managing investments
US11188865B2 (en) Assisted analytics
Toshniwal Clustering techniques for streaming data-a survey
US20150142520A1 (en) Crowd-based sentiment indices
US10613525B1 (en) Automated health assessment and outage prediction system
CN108959493A (zh) 指标异常波动的检测方法、装置及设备
US8296225B2 (en) Time-efficient and deterministic adaptive score calibration techniques for maintaining a predefined score distribution
Hanif Implementing extreme gradient boosting (xgboost) classifier to improve customer churn prediction
CN115641019A (zh) 指标异常分析方法、装置、计算机设备和存储介质
CN109766370A (zh) 数据处理方法、数据服务***及设备
Maredza Internal determinants of bank profitability in South Africa: does bank efficiency matter?
CN108428138B (zh) 一种基于客户分群的客户生存率分析装置及分析方法
US20240152818A1 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
CN109697203B (zh) 指标异动分析方法及设备、计算机存储介质、计算机设备
CN115545088B (zh) 模型构建方法、分类方法、装置和电子设备
US20220067460A1 (en) Variance Characterization Based on Feature Contribution
US20170052959A1 (en) Filtering Resources Using a Multilevel Classifier
KR101484761B1 (ko) 위기 경보 신호를 이용하여 산업 위기를 예측하는 방법 및 그 장치
CN112948469A (zh) 数据挖掘方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207

RJ01 Rejection of invention patent application after publication