CN109615226A - 一种运营指标异常监测方法 - Google Patents
一种运营指标异常监测方法 Download PDFInfo
- Publication number
- CN109615226A CN109615226A CN201811514579.8A CN201811514579A CN109615226A CN 109615226 A CN109615226 A CN 109615226A CN 201811514579 A CN201811514579 A CN 201811514579A CN 109615226 A CN109615226 A CN 109615226A
- Authority
- CN
- China
- Prior art keywords
- operation indicator
- value
- data
- dimension
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种运营指标异常监测方法,其特征在于,包括步骤1),对运营指标的历史时间序列数据进行预处理;步骤2),对运营指标的历史时间序列数据进行维度扩展,增加特征信息;步骤3),将扩展维度后的运营指标历史时间序列数据放入长短时记忆网络(LSTM)中进行训练;步骤4),使用模型计算每个历史时间节点上运营指标的预测值,使用箱型图对预测偏差进行统计,获得指标正常浮动的上限值和下限值;步骤5),判断当前时刻的运营指标值是否异常。本发明可以达到高效且准确地对运营指标的变化规律进行捕获,并根据计算出的波动阈值判断是否出现异常的有益效果。
Description
技术领域
本发明涉及机器学习与数据挖掘领域,特别是涉及一种运营指标异常监测方法。
背景技术
随着大数据技术的普及和社会信息化程度的提升,企业在发展的过程中积累了越来越多的数据,这些数据包含着企业历史上的各种信息,每一类数据都可以作为一个指标,如:企业网站日点击量、订单量、企业营收等。企业的这些运营指标反映了企业的业务状况,反过来,一旦企业的业务出现了异常,也会在运营指标上体现出来。因此对企业的运营指标进行异常监测,可以有效地量化业务的历史情况和未来情况,及时发现问题,也可以为企业高层的准确决策提供数据支持。
异常监测的过程可以分为时序预测与异常检测两个步骤。
时序预测是根据历史统计数据的时间序列,对未来的变化趋势进行预测分析。现有的较为简单的时序预测方法有简单平均法、移动平均法、指数平滑法等,这些方法中参数较少,使用方便,但预测的准确性偏低,且仅适合于对较为平稳的序列进行预测。此外,统计学上还有一种经典的、且被广泛使用的时间序列模型ARIMA(Autoregressive IntegratedMoving Average,自回归求和移动平均),也记作ARIMA(p,d,q)。该模型由自回归模型(AR模型)与滑动平均模型(MA模型)为基础混合构成,并增加了差分操作,只需要内生变量而不需要借助其他外生变量。尽管ARIMA模型比简单平均法、指数平滑法等方法的预测准确度提升许多,但它要求时序数据是稳定的,或者通过差分化以后是稳定的,且只能捕捉线性关系,而无法捕捉非线性关系。对于运营指标数据而言,它受季节、节假日等外部因素的影响较大,而国内的节假日同时包含阳历和阴历,每年的时间不固定,使用ARIMA模型对其进行预测时只借助了序列本身所包含的信息,精度较低。
异常检测是为了发现运营指标的异常波动,在已获得指标预测值的基础上,可以将运营指标的实际值与预测值进行对比,检测实际值是否超出了一定的波动范围,如果超过,则可认为检测到异常。在时序预测精度较高的前提下,实际值会在预测值的一个较小的波动范围内,因此可以根据历史实际值相对于历史预测值的波动范围设置一个阈值,未来若运营指标的实际值相对于预测值的波动超过了设定好的阈值,则异常报警。现有的阈值计算方法大多采用3σ准则,它需要待检测的数据服从正态分布,这组数据按一定的概率确定一个区间,数据落在(μ-3σ,μ+3σ)中的概率为99.73%。当用于异常检测时,将运营指标的历史实际值与模型预测值的偏差作为待检测数据,计算出这组数据的标准差作为σ,正常波动阈值即为3σ。然而时序预测模型在实际应用时,运营指标的历史实际值与预测值的偏差并不服从正态分布,若继续将波动阈值按照正态分布的情况设置,则会导致业务正常情况下的误报警,或无法检测出业务异常。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种运营指标异常监测方法。
为解决上述技术问题,本发明提供一种运营指标异常监测方法,其特征在于,包括以下步骤:
步骤1),获取待监测运营指标的历史时间序列数据,并对历史时间序列数据进行预处理;
步骤2),对步骤1)预处理好的单一维度的运营指标的历史时间序列数据进行维度扩展,增加每一个时间节点本身所包含的特征信息;
步骤3),将步骤2)得到的多维度运营指标的历史时间序列数据进行标准化后,放入长短时记忆网络(LSTM)中进行训练;
步骤4),使用步骤3)训练出的长短时记忆网络模型计算每个历史时间节点上运营指标的预测值,使用箱型图对历史各时刻的预测值和实际值的偏差进行统计,获得指标正常浮动的上限值和下限值;
步骤5),使用步骤3)训练出的LSTM运营指标预测模型对下一时间节点的指标值进行预测,将下一时刻的实际值与步骤4)得到的正常浮动区间进行对比,从而判断该时刻的运营指标值是否异常。
所述步骤1)中,获取到的待监测运营指标历史数据需要按照相同的时间间隔,以时间由远及近的顺序存储为样本,每一条样本表示该时刻对应的运营指标数值;若获得的运营指标历史时间序列数据中存在缺失值或异常值,需要填补缺失值和替换异常值。
所述步骤2)中,对步骤1)得到的单一维度数据进行维度扩展,将每个时刻对应的样本由一个单一的指标数值扩展为一个向量;扩展出的维度对应每个时刻本身所包含的信息,即为原始的时序数据增加额外的外部信息,所述外部信息的内容包括该时刻所属月份、是周几、是否属于法定假日、天气如何、温度多少、当日是否有运营促销活动等。
所述步骤3)中,在标准化时,需要对步骤2)中得到的多维运营指标历史时间序列数据中的每一个维度分别进行标准化,采用的方法是z-score标准化,使得经过处理后的每一维数据均值为0,方差为1,具体计算方法为:
其中,x是标准化前的时间序列数据,μ是对应维度上所有数据的均值,σ是对应维度上所有数据的标准差,x*是经过标准化的时间序列数据;经过标准化后的多维运营指标历史时间序列数据表示为:
其中n是样本个数,即采样的历史时刻数量,是扩展的维度标准化后的结果,m是扩展出的维度数量,是标准化后的运营指标历史时间序列数据;用于运营指标时序预测的长短时记忆网络通过开源深度学习框架TensorFlow中的LSTM API构建,训练该预测模型时,每一个LSTM cell对应一个时间节点,t时刻的输入数据为即该时刻本身的信息与前一时刻的指标数值,目标输出为即该时刻所对应的标准化后的运营指标实际值;LSTM cell的个数为在训练数据上开的时间窗口的长度,即提取连续时间段内的多维时序数据作为整个LSTM模型的输入。
所述步骤4)中,当使用训练好的运营指标预测模型时,将当前时刻及当前时刻之前一段时间的标准化后的多维数据输入运营指标预测模型,时间段的长度与步骤3)训练模型时设置的时间窗口长度相同,即可通过预测模型的前向传播得到当前时刻运营指标在标准化空间中的预测值y*;将预测值y*通过y=y*·σ+μ将标准化后的值倒回到原始空间,即可得到当前时刻运营指标的预测结果y,以此获得历史各时刻运营指标的预测值序列(y1,...,yk),与其对应的是历史各时刻运营指标的实际值序列(y1',...,yk'),将历史各时刻的运营指标实际值与预测值相减,得到时序预测模型的实际值相对于预测值的波动序列(d1,...,dk),使用箱型图对该波动序列的分布进行统计,计算出该序列的下四分位数QL和上四分位数QU,四分位间距IQR=QU-QL,实际值相对于预测值的正常浮动上限为QU+1.5IQR,下限为QL-1.5IQR。
所述步骤5)中,使用LSTM运营指标预测模型对下一时间节点的指标值进行预测的方法与步骤4)中的方法相同,将下一时间节点对应的时间窗口数据输入预测模型,得到的模型输出为下一时间节点在标准化空间中的运营指标预测值,倒回到原始空间后的预测结果为P,将下一时间节点的运营指标实际值R与预测值P对比,若P+QL-1.5IQR≤R≤P+QU+1.5IQR,则该时刻的指标正常,否则监测到指标异常。
所述步骤1)中,对运营指标历史时间序列数据中缺失值的填补或异常值的替换使用包括人工填写、均值填充、极大似然估计、就近补齐的数据预处理方法中的一种或多种。
所述步骤2)中,对于月份、周几、温度这类外部信息,信息本身与数值一一对应,一月至十二月对应数值1至12,星期一至星期日对应数值1至7,直接将该数值作为所属扩展维度下对应时刻的数值即可;对于天气、是否属于法定假日、是否有促销活动这类外部信息,则对每个扩展维度中不同类型的信息赋予不同的数值:天气这一维度,晴对应数值1,多云对应数值2,雨对应数值3,雪对应数值4;是否属于法定假日这一维度,属于法定假日对应数值1,不属于法定假日对应数值2;是否有促销活动这一维度,无促销对应数值1,周年促销对应数值2,会员日促销对应数值3。
所述步骤3)中,TensorFlow中所涉及的参数设定还包括:输出层神经元数为1,输入层神经元数为3,LSTM隐藏层神经元数为100,学习率为0.0005,dropout参数为0.5,LSTM层数为2,一个batch的数据规模为128,L2正则化项权重为0.001,epoch数为3000,优化方法使用tf.train.AdamOptimizer。
本发明针对机器学习与数据挖掘领域的时序预测与异常检测问题,通过加入时间节点信息的长短时记忆网络,实现单个运营指标预测模型的构建,通过箱型图计算出的指标浮动阈值,实现对运营指标异常的捕获。本发明的有益效果主要体现在三个方面:(1)通过对单一维度的运营指标的维度扩展,使得每个运营指标时序样本不仅包含了自身的指标信息,还具备了所处时刻的相关信息;(2)采用深度学习中的长短时记忆网络训练运营指标预测模型,能够捕获到时序数据中的非线性关系,使预测的准确度得以提升;(3)使用箱型图计算指标正常的浮动区间,无需考虑历史预测偏差数据的分布情况,计算出的浮动区间更符合模型的实际情况,对于异常的捕获更加精准。
附图说明
图1为本发明的示例性实施例的方法流程图;
图2为本发明的示例性实施例中的运营指标时序预测模型结构图;
图3为本发明的示例性实施例中TensorFlow长短时记忆网络涉及的参数设定。
具体实施方式
本发明的技术方案如下:
一种运营指标异常监测方法,包括以下步骤:
步骤1),获取待监测运营指标的历史时间序列数据,并对历史时间序列数据进行预处理;
步骤2),对步骤1)预处理好的单一维度的运营指标的历史时间序列数据进行维度扩展,增加每一个时间节点本身所包含的特征信息;
步骤3),将步骤2)得到的多维度运营指标的历史时间序列数据进行标准化后,放入长短时记忆网络(LSTM)中进行训练;
步骤4),使用步骤3)训练出的长短时记忆网络模型计算每个历史时间节点上运营指标的预测值,使用箱型图对历史各时刻的预测值和实际值的偏差进行统计,获得指标正常浮动的上限值和下限值;
步骤5),使用步骤3)训练出的LSTM运营指标预测模型对下一时间节点的指标值进行预测,将下一时刻的实际值与步骤4)得到的正常浮动区间进行对比,从而判断该时刻的运营指标值是否异常。
进一步的,步骤1)中,获取待监测运营指标的历史时间序列数据,并对其进行预处理。所述步骤1)中,获取到的待监测运营指标历史数据需要按照相同的时间间隔,以时间由远及近的顺序存储为样本,每一条样本表示该时刻对应的运营指标数值;若获得的运营指标历史时间序列数据中存在缺失值或异常值,需要填补缺失值和替换异常值。对运营指标历史时间序列数据中缺失值的填补或异常值的替换使用包括人工填写、均值填充、极大似然估计、就近补齐的数据预处理方法中的一种或多种。
进一步的,步骤2)中,对步骤1)预处理好的单一维度的运营指标历史时间序列数据进行维度扩展,增加每一个时间节点本身所包含的特征信息。由于运营指标数据随时间变化,受季节、节假日等与时间节点本身相关的因素影响较大,因此需要对步骤1)得到的单一维度数据进行维度扩展,将每个时刻对应的样本由一个单一的指标数值扩展为一个向量。扩展出的维度对应每个时刻本身所包含的信息,即为原始的时序数据增加额外的外部信息,所述外部信息的内容包括该时刻所属月份、是周几、是否属于法定假日、天气如何、温度多少、当日是否有运营促销活动等。对于月份、周几、温度这类外部信息,信息本身就与数值一一对应,如十二个月对应数值1至12,一周七天对应数值1至7,直接将该数值作为所属扩展维度下对应时刻的数值即可;对于是否属于法定假日、天气、是否有促销活动这类外部信息,不具有信息到数值的直接对应关系,需要人为对每个扩展维度中不同类型的信息赋予不同的数值,如天气这一维度,晴对应数值1,多云对应数值2,雨对应数值3,雪对应数值4等,运营促销活动这一维度,无促销对应数值1,周年促销对应数值2,会员日促销对应数值3等,以此类推。扩展的维度与信息和数值之间的对应关系可依据实际需要监测的运营指标来进一步优选。
进一步的,步骤3)中,将步骤2)得到的多维度运营指标历史时间序列数据进行标准化后,放入长短时记忆网络(LSTM)中进行训练。在标准化时,需要对步骤2)中得到的多维运营指标历史时间序列数据中的每一个维度分别进行标准化,采用的方法是z-score标准化,使得经过处理后的每一维数据均值为0,方差为1,具体计算方法为:
其中,x是标准化前的时间序列数据,μ是对应维度上所有数据的均值,σ是对应维度上所有数据的标准差,x*是经过标准化的时间序列数据。经过标准化后的多维运营指标历史时间序列数据表示为:
其中n是样本个数,即采样的历史时刻数量,是扩展的维度标准化后的结果,m是扩展出的维度数量,是标准化后的运营指标历史时间序列数据。用于运营指标时序预测的长短时记忆网络通过谷歌开源深度学习框架TensorFlow中的LSTM API构建,训练该预测模型时,每一个LSTM cell对应一个时间节点,t时刻的输入数据为即该时刻本身的信息与前一时刻的指标数值,目标输出为即该时刻所对应的标准化后的运营指标实际值。LSTM cell的个数为在训练数据上开的时间窗口的长度,即提取连续时间段内的多维时序数据作为整个LSTM模型的输入。
进一步的,步骤4)中,使用步骤3)训练出的长短时记忆网络模型计算每个历史时间节点上运营指标的预测值,使用箱型图对历史各时刻的预测值和实际值的偏差进行统计,获得指标正常浮动的上限值和下限值。当使用训练好的运营指标预测模型时,将当前时刻及当前时刻之前一段时间的标准化后的多维数据输入运营指标预测模型,时间段的长度与步骤3)训练模型时设置的时间窗口长度相同,即可通过预测模型的前向传播得到当前时刻运营指标在标准化空间中的预测值y*。将预测值y*通过y=y*·σ+μ将标准化后的值倒回到原始空间,即可得到当前时刻运营指标的预测结果y。使用此方法可以获得历史各时刻运营指标的预测值序列(y1,...,yk),与其对应的是历史各时刻运营指标的实际值序列(y1',...,yk'),将历史各时刻的运营指标实际值与预测值相减,可得到时序预测模型的实际值相对于预测值的波动序列(d1,...,dk)。使用箱型图对该波动序列的分布进行统计,计算出该序列的下四分位数QL和上四分位数QU,四分位间距IQR=QU-QL,实际值相对于预测值的正常浮动上限为QU+1.5IQR,下限为QL-1.5IQR。箱型图不限制数据的分布情况,可以直观表现出数据分布的本来面貌,用它来识别异常值结果客观,且鲁棒性更强。
进一步的,步骤5)中,使用步骤3)训练出的LSTM运营指标预测模型对下一时间节点的指标值进行预测,将下一时刻的实际值与步骤4)得到的正常浮动区间进行对比,从而判断该时刻的运营指标值是否异常。使用LSTM运营指标预测模型对下一时间节点的指标值进行预测的方法与步骤4)中的方法相同,将下一时间节点对应的时间窗口数据输入预测模型,得到的模型输出为下一时间节点在标准化空间中的运营指标预测值,倒回到原始空间后的预测结果为P,将下一时间节点的运营指标实际值R与预测值P对比,若P+QL-1.5IQR≤R≤P+QU+1.5IQR,则该时刻的指标正常,否则监测到指标异常。
下面结合流程图及实施案例对本发明所述的一种基于长短时记忆网络的运营指标异常检测方法作进一步的详细描述。
本实施案例对原始的单一维度运营指标历史时间序列数据进行维度扩展,然后使用深度学习中的长短时记忆网络构造预测模型,并通过箱型图计算指标值的正常波动范围,从而实现对该运营指标的异常监测。如图1所示,本方法包含如下步骤:
步骤10,获取待监测运营指标的历史时间序列数据,并对其进行预处理;
步骤101,待监测的运营指标历史时间序列数据本身具有相等的时间间隔,如一天、一小时、一分钟等,将获取到的运营指标历史时间序列数据按照相同的时间间隔、时间由远及近的顺序存储至文本、数据库或电子表格中,每一条数据记录的格式为时间及该时间下运营指标的数值;
步骤102,对获取的运营指标历史时间序列数据进行预处理,通过数据挖掘中的人工填写、均值填充、极大似然估计、就近补齐等数据预处理方法,填补数据中的缺失值,替换其中不符合业务逻辑的异常值;
步骤20,对上一步预处理好的单一维度的运营指标历史时间序列数据进行维度扩展,增加每一个时间节点本身所包含的特征信息;
步骤201,以网站日在线人数这一运营指标为例,该指标的数值大小与当日是周几、是否是节假日等时间因素关系密切,因此这里将每个时间节点对应的一维网站日在线人数指标数值扩展为一个由指标数值、星期几、日期属性所构成的向量,其中,指标数值为原始的时序数据,星期几和日期属性为扩展出的维度,星期几这一维度下的特征值可以由数值1至7构成,分别表示星期一至星期日,日期属性这一维度下的特征值可以由数值1至5构成,1表示正常工作日,2表示正常周末,3表示法定节假日,4表示法定节假日附带的休息日,5表示法定节假日导致的周末变为工作日情况;
步骤202,扩展出的维度对应每个时刻本身所包含的信息,即为原始的时序数据增加额外的外部信息,其他可扩展的维度还包括月份、天气、温度、对应时间是否有运营促销活动等,对于月份、温度这类外部信息,信息本身与数值一一对应,一月至十二月对应数值1至12,温度亦然,直接将温度数值作为所属扩展维度下对应时刻的数值即可;对于天气、是否有促销活动这类外部信息,不具有信息到数值的直接对应关系,则需要对每个扩展维度中不同类型的信息赋予不同的数值:天气这一维度,晴对应数值1,多云对应数值2,雨对应数值3,雪对应数值4等;是否有促销活动这一维度,无促销对应数值1,周年促销对应数值2,会员日促销对应数值3等,扩展的维度和各维度下特征值的构成不局限于上述的几种,需要根据所要监测的运营指标的实际情况来合理选择;
步骤30,对上一步得到的多维度运营指标历史时间序列数据进行标准化后,放入长短时记忆网络(LSTM)中进行训练;
步骤301,根据公式分别计算多维度网站日在线人数指标历史时间序列数据中每个维度标准化之后的数值每个三元组中的值分别对应每一天标准化后的星期几、日期属性和网站日在线人数指标数值;
步骤302,使用谷歌开源深度学习框架TensorFlow中的LSTM API构建用于网站日在线人数指标的时序预测模型,模型的结构如图2所示,LSTM cell的个数即时间窗口的大小可自行设置,这里所开的时间窗口为21天,即用前21天的多维指标时序数据来预测当天的网站日在线人数;
步骤303,训练该网站日在线人数预测模型时,每一个LSTM cell的输入数据为即当天标准化后的星期几、日期属性和前一天的网站在线人数,目标输出为即当天标准化后的网站在线人数,TensorFlow长短时记忆网络中所涉及的部分参数设定如图3所示,这些参数势根据实际的指标情况和经验进行的优选;
步骤40,使用上一步训练出的长短时记忆网络模型计算每个历史时间节点上运营指标的预测值,使用箱型图对历史各时刻的预测值和实际值的偏差进行统计,获得指标正常浮动的上限值和下限值;
步骤401,对步骤30中用于训练预测模型的标准化多维时序数据同样开长度为21天的时间窗口,然后将每个时间窗口中的样本输入步骤30训练好的网站日在线人数预测模型中,即可通过预测模型的前向传播得到每个时间窗口对应的模型预测结果输出,也就是历史各时刻网站在线人数在标准化空间中的预测值序列
步骤402,根据公式y=y*·σ+μ,将步骤401得到的模型输出值倒回到原始空间,得到历史各时刻网站在线人数的预测结果序列(y21,y22,...,yn-1,yn);
步骤403,将历史各时刻网站在线人数实际值序列(y'21,y'22,...,y'n-1,y'n)与对应的模型预测结果序列(y21,y22,...,yn-1,yn)相减,得到实际值相对于时序预测模型计算出的预测值的波动序列(d21,d22,...,dn-1,dn)=(y'21-y21,y'22-y22,...,y'n-1-yn-1,y'n-yn);
步骤404,使用箱型图对波动序列(d21,d22,...,dn-1,dn)的分布进行统计,计算出该序列的下四分位数QL和上四分位数QU,根据公式IQR=QU-QL计算出四分位间距,实际值相对于预测值的正常浮动上限表示为QU+1.5IQR,下限表示为QL-1.5IQR;
步骤50,使用步骤30中训练出的LSTM运营指标预测模型对下一时间节点的指标值进行预测,将下一时刻的实际值与步骤40中得到的正常浮动区间进行对比,从而判断该时刻的运营指标值是否异常;
步骤501,将下一时间节点对应的标准化时间窗口数据输入到步骤30训练出的网站日在线人数预测模型中,模型输出下一时刻的标准化预测值通过公式y=y*·σ+μ将标准化结果倒回到原始空间,得到下一日的网站在线人数预测值yn+1;
步骤502,将下一日的网站在线人数实际值bn+1与预测值yn+1对比,若yn+1+QL-1.5IQR≤bn+1≤yn+1+QU+1.5IQR,则该日的网站在线人数指标正常,否则监测到指标异常。
本发明针对机器学习与数据挖掘领域的时序预测与异常检测问题,通过加入时间节点信息的长短时记忆网络,实现单个运营指标预测模型的构建,通过箱型图计算出的指标浮动阈值,实现对运营指标异常的捕获。本发明的有益效果主要体现在三个方面:(1)通过对单一维度的运营指标的维度扩展,使得每个运营指标时序样本不仅包含了自身的指标信息,还具备了所处时刻的相关信息;(2)采用深度学习中的长短时记忆网络训练运营指标预测模型,能够捕获到时序数据中的非线性关系,使预测的准确度得以提升;(3)使用箱型图计算指标正常的浮动区间,无需考虑历史预测偏差数据的分布情况,计算出的浮动区间更符合模型的实际情况,对于异常的捕获更加精准。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (9)
1.一种运营指标异常监测方法,其特征在于,包括以下步骤:
步骤1),获取待监测运营指标的历史时间序列数据,并对历史时间序列数据进行预处理;
步骤2),对步骤1)预处理好的单一维度的运营指标的历史时间序列数据进行维度扩展,增加每一个时间节点本身所包含的特征信息;
步骤3),将步骤2)得到的多维度运营指标的历史时间序列数据进行标准化后,放入长短时记忆网络(LSTM)中进行训练;
步骤4),使用步骤3)训练出的长短时记忆网络模型计算每个历史时间节点上运营指标的预测值,使用箱型图对历史各时刻的预测值和实际值的偏差进行统计,获得指标正常浮动的上限值和下限值;
步骤5),使用步骤3)训练出的LSTM运营指标预测模型对下一时间节点的指标值进行预测,将下一时刻的实际值与步骤4)得到的正常浮动区间进行对比,从而判断该时刻的运营指标值是否异常。
2.如权利要求1所述的一种运营指标异常监测方法,其特征在于:所述步骤1)中,获取到的待监测运营指标历史数据需要按照相同的时间间隔,以时间由远及近的顺序存储为样本,每一条样本表示该时刻对应的运营指标数值;若获得的运营指标历史时间序列数据中存在缺失值或异常值,需要填补缺失值和替换异常值。
3.如权利要求2所述的一种运营指标异常监测方法,其特征在于:所述步骤2)中,对步骤1)得到的单一维度数据进行维度扩展,将每个时刻对应的样本由一个单一的指标数值扩展为一个向量;扩展出的维度对应每个时刻本身所包含的信息,即为原始的时序数据增加额外的外部信息,所述外部信息的内容包括该时刻所属月份、是周几、是否属于法定假日、天气如何、温度多少、当日是否有运营促销活动等。
4.如权利要求3所述的一种运营指标异常监测方法,其特征在于:所述步骤3)中,在标准化时,需要对步骤2)中得到的多维运营指标历史时间序列数据中的每一个维度分别进行标准化,采用的方法是z-score标准化,使得经过处理后的每一维数据均值为0,方差为1,具体计算方法为:
其中,x是标准化前的时间序列数据,μ是对应维度上所有数据的均值,σ是对应维度上所
有数据的标准差,x*是经过标准化的时间序列数据;经过标准化后的多维运营指标历史时间序列数据表示为:
其中n是样本个数,即采样的历史时刻数量,是扩展的维度标准化后的结果,m是扩展出的维度数量,是标准化后的运营指标历史时间序列数据;用于运营指标时序预测的长短时记忆网络通过开源深度学习框架TensorFlow中的LSTM API构建,训练该预测模型时,每一个LSTM cell对应一个时间节点,t时刻的输入数据为即该时刻本身的信息与前一时刻的指标数值,目标输出为即该时刻所对应的标准化后的运营指标实际值;LSTM cell的个数为在训练数据上开的时间窗口的长度,即提取连续时间段内的多维时序数据作为整个LSTM模型的输入。
5.如权利要求4所述的一种运营指标异常监测方法,其特征在于:所述步骤4)中,当使用训练好的运营指标预测模型时,将当前时刻及当前时刻之前一段时间的标准化后的多维数据输入运营指标预测模型,时间段的长度与步骤3)训练模型时设置的时间窗口长度相同,即可通过预测模型的前向传播得到当前时刻运营指标在标准化空间中的预测值y*;将预测值y*通过y=y*·σ+μ将标准化后的值倒回到原始空间,即可得到当前时刻运营指标的预测结果y,以此获得历史各时刻运营指标的预测值序列(y1,...,yk),与其对应的是历史各时刻运营指标的实际值序列(y1',...,yk'),将历史各时刻的运营指标实际值与预测值相减,得到时序预测模型的实际值相对于预测值的波动序列(d1,...,dk),使用箱型图对该波动序列的分布进行统计,计算出该序列的下四分位数QL和上四分位数QU,四分位间距IQR=QU-QL,实际值相对于预测值的正常浮动上限为QU+1.5IQR,下限为QL-1.5IQR。
6.如权利要求5所述的一种运营指标异常监测方法,其特征在于,所述步骤5)中,使用LSTM运营指标预测模型对下一时间节点的指标值进行预测的方法与步骤4)中的方法相同,将下一时间节点对应的时间窗口数据输入预测模型,得到的模型输出为下一时间节点在标准化空间中的运营指标预测值,倒回到原始空间后的预测结果为P,将下一时间节点的运营指标实际值R与预测值P对比,若P+QL-1.5IQR≤R≤P+QU+1.5IQR,则该时刻的指标正常,否则监测到指标异常。
7.如权利要求6所述的一种运营指标异常监测方法,其特征在于,所述步骤1)中,对运营指标时间序列数据中缺失值的填补或异常值的替换使用包括人工填写、均值填充、极大似然估计、就近补齐的数据预处理方法中的一种或多种。
8.如权利要求7所述的一种运营指标异常监测方法,其特征在于,所述步骤2)中,对于月份、周几、温度这类外部信息,信息本身与数值一一对应,一月至十二月对应数值1至12,星期一至星期日对应数值1至7,直接将该数值作为所属扩展维度下对应时刻的数值即可;对于天气、是否属于法定假日、是否有促销活动这类外部信息,则对每个扩展维度中不同类型的信息赋予不同的数值:天气这一维度,晴对应数值1,多云对应数值2,雨对应数值3,雪对应数值4;是否属于法定假日这一维度,属于法定假日对应数值1,不属于法定假日对应数值2;是否有促销活动这一维度,无促销对应数值1,周年促销对应数值2,会员日促销对应数值3。
9.如权利要求8所述的一种运营指标异常监测方法,其特征在于,所述步骤3)中,TensorFlow中所涉及的参数设定还包括:输出层神经元数为1,输入层神经元数为3,LSTM隐藏层神经元数为100,学习率为0.0005,dropout参数为0.5,LSTM层数为2,一个batch的数据规模为128,L2正则化项权重为0.001,epoch数为3000,优化方法使用tf.train.AdamOptimizer。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811514579.8A CN109615226B (zh) | 2018-12-12 | 2018-12-12 | 一种运营指标异常监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811514579.8A CN109615226B (zh) | 2018-12-12 | 2018-12-12 | 一种运营指标异常监测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109615226A true CN109615226A (zh) | 2019-04-12 |
CN109615226B CN109615226B (zh) | 2020-12-29 |
Family
ID=66008335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811514579.8A Active CN109615226B (zh) | 2018-12-12 | 2018-12-12 | 一种运营指标异常监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109615226B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377447A (zh) * | 2019-07-17 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置及服务器 |
CN110399903A (zh) * | 2019-06-28 | 2019-11-01 | 上海上湖信息技术有限公司 | 异常数据的检测方法及装置、计算机可读存储介质 |
CN110530650A (zh) * | 2019-09-05 | 2019-12-03 | 哈尔滨电气股份有限公司 | 基于广义回归神经网络与箱型图分析的重型燃气轮机性能状态监测方法 |
CN110942137A (zh) * | 2019-10-18 | 2020-03-31 | 云南电网有限责任公司信息中心 | 一种基于深度学习的电网信息运维监控方法 |
CN111045894A (zh) * | 2019-12-13 | 2020-04-21 | 贵州广思信息网络有限公司广州分公司 | 数据库异常检测方法、装置、计算机设备和存储介质 |
CN111143102A (zh) * | 2019-12-13 | 2020-05-12 | 东软集团股份有限公司 | 异常数据检测方法、装置、存储介质及电子设备 |
CN111241208A (zh) * | 2019-12-31 | 2020-06-05 | 安徽中科大国祯信息科技有限责任公司 | 一种周期性时序数据的异常监测方法及装置 |
CN111651444A (zh) * | 2020-05-25 | 2020-09-11 | 成都千嘉科技有限公司 | 一种自适应时间序列数据预测方法 |
CN111833135A (zh) * | 2019-08-01 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 订单数据的分析方法、装置及电子设备 |
CN111882338A (zh) * | 2020-08-11 | 2020-11-03 | 网易(杭州)网络有限公司 | 在线人数的异常检测方法、装置及电子设备 |
CN112183885A (zh) * | 2020-10-21 | 2021-01-05 | ***股份有限公司 | 一种位置确定方法及装置 |
CN112182056A (zh) * | 2019-07-02 | 2021-01-05 | 中移(苏州)软件技术有限公司 | 一种数据检测方法、装置、设备及存储介质 |
CN112906738A (zh) * | 2021-01-15 | 2021-06-04 | 宁波可为数据技术有限公司 | 一种水质检测及处理方法 |
CN113705867A (zh) * | 2021-08-16 | 2021-11-26 | 浙江浙大中控信息技术有限公司 | 一种基于能耗区间预测的设备异常诊断方法 |
CN113743532A (zh) * | 2021-09-16 | 2021-12-03 | 睿云奇智(重庆)科技有限公司 | 异常检测方法、装置、设备及计算机存储介质 |
CN114004654A (zh) * | 2021-11-04 | 2022-02-01 | 中南大学 | 基于大数据分析的互联网卡用户画像构建方法及*** |
CN114564370A (zh) * | 2022-04-29 | 2022-05-31 | 天云软件技术有限公司 | 告警阈值的确定方法、装置、设备及计算机存储介质 |
CN115412455A (zh) * | 2022-07-28 | 2022-11-29 | 南京航空航天大学 | 一种基于时间序列的服务器多性能指标异常检测方法及装置 |
CN115565379A (zh) * | 2022-12-06 | 2023-01-03 | 成都智元汇信息技术股份有限公司 | 一种替换历史客流数据中异常客流数据的方法及*** |
CN115829160A (zh) * | 2022-12-29 | 2023-03-21 | 上海鼎茂信息技术有限公司 | 一种时序异常预测方法、装置、设备及存储介质 |
CN117353462A (zh) * | 2023-12-01 | 2024-01-05 | 北京格蒂智能科技有限公司 | 一种基于人工智能的电网运营监控分析方法及平台 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346464A (zh) * | 2016-05-06 | 2017-11-14 | 腾讯科技(深圳)有限公司 | 业务指标预测方法及装置 |
CN107704966A (zh) * | 2017-10-17 | 2018-02-16 | 华南理工大学 | 一种基于天气大数据的能源负荷预测***及方法 |
CN108197845A (zh) * | 2018-02-28 | 2018-06-22 | 四川新网银行股份有限公司 | 一种基于深度学习模型lstm的交易指标异常的监测方法 |
CN108416690A (zh) * | 2018-01-19 | 2018-08-17 | 中国矿业大学 | 基于深度lstm神经网络的电网负荷预测方法 |
CN108510132A (zh) * | 2018-07-03 | 2018-09-07 | 华际科工(北京)卫星通信科技有限公司 | 一种基于lstm的海表面温度预测方法 |
CN108648829A (zh) * | 2018-04-11 | 2018-10-12 | 平安科技(深圳)有限公司 | 疾病预测方法及装置、计算机装置及可读存储介质 |
-
2018
- 2018-12-12 CN CN201811514579.8A patent/CN109615226B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346464A (zh) * | 2016-05-06 | 2017-11-14 | 腾讯科技(深圳)有限公司 | 业务指标预测方法及装置 |
CN107704966A (zh) * | 2017-10-17 | 2018-02-16 | 华南理工大学 | 一种基于天气大数据的能源负荷预测***及方法 |
CN108416690A (zh) * | 2018-01-19 | 2018-08-17 | 中国矿业大学 | 基于深度lstm神经网络的电网负荷预测方法 |
CN108197845A (zh) * | 2018-02-28 | 2018-06-22 | 四川新网银行股份有限公司 | 一种基于深度学习模型lstm的交易指标异常的监测方法 |
CN108648829A (zh) * | 2018-04-11 | 2018-10-12 | 平安科技(深圳)有限公司 | 疾病预测方法及装置、计算机装置及可读存储介质 |
CN108510132A (zh) * | 2018-07-03 | 2018-09-07 | 华际科工(北京)卫星通信科技有限公司 | 一种基于lstm的海表面温度预测方法 |
Non-Patent Citations (1)
Title |
---|
罗荣锦: "基于统计学方法的互联网企业运营指标异常值监控及预警模型", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399903A (zh) * | 2019-06-28 | 2019-11-01 | 上海上湖信息技术有限公司 | 异常数据的检测方法及装置、计算机可读存储介质 |
CN112182056A (zh) * | 2019-07-02 | 2021-01-05 | 中移(苏州)软件技术有限公司 | 一种数据检测方法、装置、设备及存储介质 |
CN110377447B (zh) * | 2019-07-17 | 2022-07-22 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置及服务器 |
CN110377447A (zh) * | 2019-07-17 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置及服务器 |
CN111833135A (zh) * | 2019-08-01 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 订单数据的分析方法、装置及电子设备 |
CN110530650A (zh) * | 2019-09-05 | 2019-12-03 | 哈尔滨电气股份有限公司 | 基于广义回归神经网络与箱型图分析的重型燃气轮机性能状态监测方法 |
CN110942137A (zh) * | 2019-10-18 | 2020-03-31 | 云南电网有限责任公司信息中心 | 一种基于深度学习的电网信息运维监控方法 |
CN111045894A (zh) * | 2019-12-13 | 2020-04-21 | 贵州广思信息网络有限公司广州分公司 | 数据库异常检测方法、装置、计算机设备和存储介质 |
CN111143102A (zh) * | 2019-12-13 | 2020-05-12 | 东软集团股份有限公司 | 异常数据检测方法、装置、存储介质及电子设备 |
CN111045894B (zh) * | 2019-12-13 | 2024-02-13 | 贵州广思信息网络有限公司广州分公司 | 数据库异常检测方法、装置、计算机设备和存储介质 |
CN111143102B (zh) * | 2019-12-13 | 2024-01-19 | 东软集团股份有限公司 | 异常数据检测方法、装置、存储介质及电子设备 |
CN111241208B (zh) * | 2019-12-31 | 2024-03-29 | 合肥城市云数据中心股份有限公司 | 一种周期性时序数据的异常监测方法及装置 |
CN111241208A (zh) * | 2019-12-31 | 2020-06-05 | 安徽中科大国祯信息科技有限责任公司 | 一种周期性时序数据的异常监测方法及装置 |
CN111651444A (zh) * | 2020-05-25 | 2020-09-11 | 成都千嘉科技有限公司 | 一种自适应时间序列数据预测方法 |
CN111651444B (zh) * | 2020-05-25 | 2023-04-18 | 成都千嘉科技股份有限公司 | 一种自适应时间序列数据预测方法 |
CN111882338A (zh) * | 2020-08-11 | 2020-11-03 | 网易(杭州)网络有限公司 | 在线人数的异常检测方法、装置及电子设备 |
CN111882338B (zh) * | 2020-08-11 | 2023-06-30 | 网易(杭州)网络有限公司 | 在线人数的异常检测方法、装置及电子设备 |
CN112183885A (zh) * | 2020-10-21 | 2021-01-05 | ***股份有限公司 | 一种位置确定方法及装置 |
CN112906738A (zh) * | 2021-01-15 | 2021-06-04 | 宁波可为数据技术有限公司 | 一种水质检测及处理方法 |
CN112906738B (zh) * | 2021-01-15 | 2023-01-31 | 宁波可为数据技术有限公司 | 一种水质检测及处理方法 |
CN113705867A (zh) * | 2021-08-16 | 2021-11-26 | 浙江浙大中控信息技术有限公司 | 一种基于能耗区间预测的设备异常诊断方法 |
CN113743532A (zh) * | 2021-09-16 | 2021-12-03 | 睿云奇智(重庆)科技有限公司 | 异常检测方法、装置、设备及计算机存储介质 |
CN113743532B (zh) * | 2021-09-16 | 2024-03-19 | 睿云奇智(重庆)科技有限公司 | 异常检测方法、装置、设备及计算机存储介质 |
CN114004654A (zh) * | 2021-11-04 | 2022-02-01 | 中南大学 | 基于大数据分析的互联网卡用户画像构建方法及*** |
CN114564370A (zh) * | 2022-04-29 | 2022-05-31 | 天云软件技术有限公司 | 告警阈值的确定方法、装置、设备及计算机存储介质 |
CN115412455B (zh) * | 2022-07-28 | 2023-12-19 | 南京航空航天大学 | 一种基于时间序列的服务器多性能指标异常检测方法及装置 |
CN115412455A (zh) * | 2022-07-28 | 2022-11-29 | 南京航空航天大学 | 一种基于时间序列的服务器多性能指标异常检测方法及装置 |
CN115565379A (zh) * | 2022-12-06 | 2023-01-03 | 成都智元汇信息技术股份有限公司 | 一种替换历史客流数据中异常客流数据的方法及*** |
CN115829160B (zh) * | 2022-12-29 | 2023-09-01 | 上海鼎茂信息技术有限公司 | 一种时序异常预测方法、装置、设备及存储介质 |
CN115829160A (zh) * | 2022-12-29 | 2023-03-21 | 上海鼎茂信息技术有限公司 | 一种时序异常预测方法、装置、设备及存储介质 |
CN117353462A (zh) * | 2023-12-01 | 2024-01-05 | 北京格蒂智能科技有限公司 | 一种基于人工智能的电网运营监控分析方法及平台 |
CN117353462B (zh) * | 2023-12-01 | 2024-02-20 | 北京格蒂智能科技有限公司 | 一种基于人工智能的电网运营监控分析方法及平台 |
Also Published As
Publication number | Publication date |
---|---|
CN109615226B (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109615226A (zh) | 一种运营指标异常监测方法 | |
CN110147902A (zh) | 一种多项运营指标联合异常监测方法 | |
US20220358528A1 (en) | Methods and apparatus for self-adaptive time series forecasting engine | |
Hong et al. | Probabilistic electric load forecasting: A tutorial review | |
CN111144286A (zh) | 一种融合emd和lstm的城市pm2.5浓度预测方法 | |
CN105260803A (zh) | 一种***用电量预测方法 | |
US20110085649A1 (en) | Fluctuation Monitoring Method that Based on the Mid-Layer Data | |
US20220374827A1 (en) | Method and system for automatic replenishment of retail enterprise store, and computer-readable storage medium | |
CN113888235B (zh) | 一种销量预测模型的训练方法、销量预测方法及相关装置 | |
CN107292418A (zh) | 一种运单滞留预测方法 | |
CN111191193A (zh) | 一种基于自回归滑动平均模型的长期土壤温湿度高精度预测方法 | |
CN110348601A (zh) | 一种基于双向长短期记忆网络的地铁短期客流量预测方法 | |
CN111476441A (zh) | 一种电动汽车充电设备负荷预测方法及相关装置 | |
CN111831704A (zh) | 异常数据的确定方法、装置、存储介质和电子设备 | |
CN108491959A (zh) | 一种智能相似天气预报方法及***、信息数据处理终端 | |
CN110096491A (zh) | 数据库性能指标预测方法及*** | |
CN110889092A (zh) | 一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法 | |
CN115953186A (zh) | 一种网约车需求模式识别与短时需求预测方法 | |
Viverit et al. | Application of machine learning to cluster hotel booking curves for hotel demand forecasting | |
CN105488598A (zh) | 一种基于模糊聚类的中长期电力负荷预测方法 | |
CN111353625B (zh) | 一种网点件量预测方法、装置、计算机设备及存储介质 | |
Hyndman | Forecasting: An Overview. | |
BR112019004994B1 (pt) | Método de suporte à decisão para emissão de alertas e para seleção de ações de mitigação parametrizado por índice de decisão meteorológico-climático baseado nas preferências dos usuários | |
CN110399382A (zh) | 基于云模型及粗糙集的民航主数据识别方法及*** | |
CN115169731A (zh) | 一种智慧校园能耗预测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |