CN109032829B - 数据异常检测方法、装置、计算机设备及存储介质 - Google Patents

数据异常检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109032829B
CN109032829B CN201810813779.7A CN201810813779A CN109032829B CN 109032829 B CN109032829 B CN 109032829B CN 201810813779 A CN201810813779 A CN 201810813779A CN 109032829 B CN109032829 B CN 109032829B
Authority
CN
China
Prior art keywords
time sequence
time
data point
anomaly detection
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810813779.7A
Other languages
English (en)
Other versions
CN109032829A (zh
Inventor
刘彪
张戎
李剑锋
胡婧茹
汪华
任思宇
刘玉杰
肖世广
林向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810813779.7A priority Critical patent/CN109032829B/zh
Publication of CN109032829A publication Critical patent/CN109032829A/zh
Application granted granted Critical
Publication of CN109032829B publication Critical patent/CN109032829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请涉及一种数据异常检测方法、装置、计算机设备及存储介质,该方法包括:获取时间序列;其中,所述时间序列中包括目标数据点和在所述目标数据点之前上报的历史数据点,所述目标数据点和所述历史数据点按照上报的时间先后顺序进行排列;通过初级判决方式对所述时间序列进行初级异常识别;当识别到所述时间序列疑似异常时,则对所述时间序列进行特征提取;将提取得到的特征数据输入异常检测模型,输出针对所述目标数据点的异常检测结果;所述异常检测模型通过有监督的机器学习算法进行训练得到。本申请的方案提高了异常检测的准确性。

Description

数据异常检测方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据异常检测方法、装置、计算机设备及存储介质。
背景技术
随着科学技术的飞速发展,线上***的使用越来越广泛。为了保证线上***的正常运行,保证线上数据的准确性,异常检测显得尤其重要。
传统方法中,是采用设置阈值的方式进行异常检测的,即人为设定一个数值作为阈值,超过这个阈值就认为是异常。然而,实际情况中数据形态各异,这种单纯通过设置阈值的方式来判断数据是否异常,太过于绝对,导致异常检测的准确率比较低。
发明内容
基于此,有必要针对传统方法导致异常检测的准确率比较低的问题,提供一种数据异常检测方法、装置、计算机设备及存储介质。
一种数据异常检测方法,所述方法包括:
获取时间序列;其中,所述时间序列中包括目标数据点和在所述目标数据点之前上报的历史数据点,所述目标数据点和所述历史数据点按照上报的时间先后顺序进行排列;
通过初级判决方式对所述时间序列进行初级异常识别;
当识别到所述时间序列疑似异常时,则对所述时间序列进行特征提取;
将提取得到的特征数据输入异常检测模型,输出针对所述目标数据点的异常检测结果;所述异常检测模型通过有监督的机器学习算法进行训练得到。
一种数据异常检测装置,所述装置包括:
获取模块,用于获取时间序列;其中,所述时间序列中包括目标数据点和在所述目标数据点之前上报的历史数据点,所述目标数据点和所述历史数据点按照上报的时间先后顺序进行排列;
初级判决模块,用于通过初级判决方式对所述时间序列进行初级异常识别;
特征提取模块,用于当识别到所述时间序列疑似异常时,则对所述时间序列进行特征提取;
异常检测模块,用于将提取得到的特征数据输入异常检测模型,输出针对所述目标数据点的异常检测结果;所述异常检测模型通过有监督的机器学习算法进行训练得到。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取时间序列;其中,所述时间序列中包括目标数据点和在所述目标数据点之前上报的历史数据点,所述目标数据点和所述历史数据点按照上报的时间先后顺序进行排列;
通过初级判决方式对所述时间序列进行初级异常识别;
当识别到所述时间序列疑似异常时,则对所述时间序列进行特征提取;
将提取得到的特征数据输入异常检测模型,输出针对所述目标数据点的异常检测结果;所述异常检测模型通过有监督的机器学习算法进行训练得到。
一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:
获取时间序列;其中,所述时间序列中包括目标数据点和在所述目标数据点之前上报的历史数据点,所述目标数据点和所述历史数据点按照上报的时间先后顺序进行排列;
通过初级判决方式对所述时间序列进行初级异常识别;
当识别到所述时间序列疑似异常时,则对所述时间序列进行特征提取;
将提取得到的特征数据输入异常检测模型,输出针对所述目标数据点的异常检测结果;所述异常检测模型通过有监督的机器学习算法进行训练得到。
上述数据异常检测方法、装置、计算机设备和存储介质,获取包括目标数据点和在目标数据点之前上报的历史数据点的时间序列;目标数据点和历史数据点按照上报的时间先后顺序进行排列。通过初级判决方式对时间序列进行初级异常识别,相当于进行第一层级的异常检测。当识别到时间序列疑似异常时,对时间序列进行特征提取;将提取得到的特征数据输入经过有监督的机器学习算法训练得到的异常检测模型,相当于进行第二层级的异常检测,输出针对目标数据点的异常检测结果。即使用多层级的异常检测,并且将不同于有监督的机器学习算法的初级判决方式和有监督算法结合起来,通过有监督学习训练得到的异常检测模型来进行深度检测,提高了异常检测的准确性。
附图说明
图1为一个实施例中数据异常检测方法的应用场景图;
图2为一个实施例中数据异常检测方法的流程示意图;
图3为一个实施例中时间序列的图形化表示示意图;
图4为一个实施例中历史数据点选取示意图;
图5为一个实施例中异常检测结果的图形化表示示意图;
图6为一个实施例中三西格马定律的原理示意图;
图7为一个实施例中数据异常检测方法的原理示意图;
图8为一个实施例中数据异常检测方法的技术框架图;
图9为一个实施例中告警信息的界面示意图;
图10为一个实施例中数据异常检测装置的框图;
图11为另一个实施例中数据异常检测装置的框图;
图12为一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中数据异常检测方法的应用场景图。参照图1,该应用场景中包括通过网络连接的数据上报设备110和异常检测设备120。数据上报设备110是用于上报数据点的设备,异常检测设备120是用于对上报的数据点进行异常检测处理的设备。数据上报设备110和异常检测设备120都可以是终端或服务器。终端可以是智能电视机、台式计算机或移动终端,移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。数据上报设备110可以为一个或多个,比如,多个终端分别向异常检测设备120上报各自的数据。
数据上报设备110可以按照一定的时间间隔定期地向异常检测设备120上报数据点。异常检测设备120可以获取包括目标数据点和在目标数据点之前上报的历史数据点的时间序列,其中,目标数据点和所述历史数据点按照上报的时间先后顺序进行排列。异常检测设备120可以通过初级判决方式对时间序列进行初级异常识别;初级判决方式不同于有监督的机器学习算法。当识别到时间序列疑似异常时,异常检测设备120则可以对时间序列进行特征提取。异常检测设备120可以将提取得到的特征数据输入异常检测模型,输出针对目标数据点的异常检测结果;其中,异常检测模型通过有监督的机器学习算法进行训练得到。
图2为一个实施例中数据异常检测方法的流程示意图。本实施例主要以该数据异常检测方法应用于计算机设备中进行举例说明,该计算机设备可以为图1中的异常检测设备120。参照图2,该方法具体包括如下步骤:
S202,获取时间序列;其中,时间序列中包括目标数据点和在目标数据点之前上报的历史数据点,目标数据点和历史数据点按照上报的时间先后顺序进行排列。
可以理解,时间序列,是一组按照上报的时间先后顺序进行排列的数据点所形成的数列。
图3为一个实施例中时间序列的图形化示意图。为了更直观地理解时间序列,现结合图3进行举例说明。参照图3,横轴是时间轴,纵轴是上报的请求数列,比如,在16:25上报所接收到的请求数量为20730个。由各个上报的数据点按照上报的时间顺序排列可以形成时间序列,图3中的曲线302即为时间序列的直观的图形化表示。
本申请实施例中,时间序列包括目标数据点和历史数据点。而且,在获取的时间序列中,目标数据点和历史数据点按照上报的时间先后顺序进行排列。那么,时间序列是包括按照上报的时间先后顺序进行排列的目标数据点和历史数据点的数列。
其中,目标数据点,是需要进行异常检测的数据点,即需要检测目标数据点是否异常。历史数据点,是在目标数据点之前上报的数据点。
在一个实施例中,目标数据点是在当前时间上报的数据点。在另一个实施例中,目标数据点也可以是指定的一个数据点。可以理解,可以指定需要做异常检测的数据点作为目标数据点。
在一个实施例中,步骤S202包括:确定目标数据点;获取在目标数据点之前上报的历史数据点;将历史数据点和目标数据点按照上报的时间先后顺序进行排列,得到时间序列。
在一个实施例中,获取在目标数据点之前上报的历史数据点包括:获取在目标数据点所对应的上报时间之前的预设时长内上报的历史数据点。比如,预设时长为3个小时,那么就可以获取在目标数据点所对应的上报时间之前的3个小时内上报的历史数据点。
在另一个实施例中,获取在目标数据点之前上报的历史数据点包括:确定目标数据点所对应的上报时间的同比上报时间,获取在同比上报时间之前的预设时长和/或之后的预设时长内的历史数据点。
可以理解,假设目标数据点所对应的上报时间,是本周期中的14:00,那么,其同比上报时间就是上一周期中的14:00。其中,一周期可以以天、周或月等为单位。
比如,目标数据点所对应的上报时间为2000年1月2日14:00,预设时长为3个小时,那么,假设以一天为一周期,其同比上报时间就可以是2000年1月1日14:00,获取的历史数据点就可以是2000年1月1日14:00及其之前的3个小时内和之后3个小时内上报的历史数据点。同样地,假设以一周为一周期,其同比上报时间就可以是1999年12月26日14:00,获取的历史数据点就可以是1999年12月26日14:00及其之前的3个小时内和之后3个小时内上报的历史数据点。
图4为一个实施例中历史数据点选取示意图。为了更清楚地明白历史数据点的选取,现结合图4进行说明。图4中的横轴表示上报时间,纵轴表示周期,参照图4,可以以一天或一周为周期,历史数据点可以按照第(1)种环比选取的方式进行选取,即选取目标数据点所对应的上报时间点402之前180分钟内上报的历史数据点。也可以按照第(2)种和第(3)种中的任意一种同比方式进行选取,第(2)种是以一天为一周期,那么目标数据点所对应的上报时间点402的同比上报时间点即为404,则可以获取同比上报时间点404及其之前和之后180分钟内的历史数据点。第(3)种是以一周为一个周期,那么目标数据点所对应的上报时间点402的同比上报时间点即为406,则可以获取同比上报时间点406及其之前和之后180分钟内的历史数据点。
S204,通过初级判决方式对时间序列进行初级异常识别。
需要说明的是,初级判决方式可以不同于有监督的机器学习算法。
其中,初级判决方式,是对时间序列进行初级异常识别,以判决时间序列是否异常的方式。可以理解,初级判决方式是一种泛称,只要是不同于有监督的机器学习算法、且能够对时间序列进行初级异常识别的方式都可以称为初级判决方式。
初级判决方式,可以包括统计判决算法和/或无监督算法。统计判决算法,用于通过统计分析来判别时间序列是否异常的方法。无监督算法,是对没有标记的训练样本进行机器学习训练,以发现训练样本集中的结构性知识的算法。
S206,当识别到时间序列疑似异常时,则对时间序列进行特征提取。
具体地,计算机设备可以通过初级判决方式对时间序列进行初级异常识别,初级异常识别结果包括正常和疑似异常。当识别到时间序列正常,则可以不继续后续的异常检测处理。当识别到时间序列疑似异常时,计算机设备则可以对时间序列进行特征提取,以对时间序列进行特征分析,提取特征数据。
可以理解,计算机设备可以从多个维度对时间序列进行特征提取。在一个实施例中,计算机设备可以从时域维度和频域维度,对时间序列进行特征提取。
时域(Time domain)是描述数学函数或物理信号对时间的关系。频域(frequencydomain)是指在对函数或信号进行分析时,分析其和频率有关部分,而不是和时间有关的部分,和时域一词相对。
在一个实施例中,步骤S206包括:当识别到时间序列疑似异常时,则在时域下对时间序列提取相应的时域特征数据;和/或,对时间序列进行频域变换,并在频域下对变换后的时间序列提取相应的频域特征数据。
时域特征数据,是在时域下提取的特征数据。频域特征数据,是在频域下提取的特征数据。
在一个实施例中,在时域下对时间序列提取相应的时域特征数据包括:对时间序列进行统计分析,得到统计特征数据;拟合时间序列的趋势分布,得到拟合特征数据;提取时间序列中用于分类的特征数据,得到分类特征数据。
可以理解,时域特征数据包括统计特征数据、拟合特征数据和分类特征数据等中的至少一种。
其中,统计特征数据,是对时间序列进行统计分析得到的特征数据。拟合特征数据,是对时间序列的趋势分布进行拟合处理,得到的特征数据。
分类特征数据,是指表示时间序列所属分类的特征数据。在一个实施例中,时间序列所属分类包括毛刺型、平稳型或震荡型等形状。可以理解,时间序列中用于分类的特征数据,即用于表示时间序列所属分类。
在一个实施例中,计算机设备可以通过特征工程,提取时间序列中的统计特征数据、拟合特征数据和分类特征数据。特征工程,其本质是一项工程活动,目的是从原始数据中提取特征数据以供算法和/或模型使用。
在一个实施例中,计算机设备可以按照表1中所示的数值统计、算法或特征来分别提取统计特征数据、拟合特征数据和分类特征数据。
表1
Figure BDA0001739844680000071
Figure BDA0001739844680000081
现结合表1进行说明。计算机设备可以通过对时间序列进行最值(最大值、最小值等)、均值、同比、环比等数值统计,得到统计特征数据。计算机设备可以通过各种移动平均算法、深度学习算法等算法对时间序列的趋势分布进行拟合处理,得到拟合特征数据。计算机设备可以对时间序列进行熵特征、值分布特征和小波分析特征等分析,并通过熵特征、值分布特征和小波分析特征确定时间序列所属分类,得到分类特征数据。
可以理解,正常状态下,时间序列是在时域下,计算机设备可以对时间序列进行频域转换,将时间序列转换至频域下,并在频域下对变换后的时间序列提取相应的频域特征数据。
在一个实施例中,计算机设备可以将在时域下的时间序列通过傅里叶变换(Fourier Transform)转换至频域下。可以理解,傅立叶变换是一种分析信号的方法,它可分析信号的成分,也可用这些成分合成信号。傅里叶变换,用于将分析原来难以处理的时域下的信号的成分,并将这些成分合成转换为易于分析的频域下的信号。即分析时域下的时间序列的信号成分,并将这些成分合成转换为频域下的信号,得到转换后的频域下的时间序列。
可以理解,计算机设备可以提取提取时域特征数据和频域特征数据中的至少一种。即计算机设备可以仅提取时域特征数据或频域特征数据,也可以既提取时域特征数据又提取频域特征数据。
需要说明的是,提取时域特征数据,能够反映时间维度上的特征,使得提取的特征数据能够更加准确地体现时间序列的特征。而频域特征数据能够直观地反映频域上的特征,且相较于时域特征数据更容易提取,因而提高了特征提取效率。此外,很明显地,既提取时域特征数据又提取频域特征数据,则能够从多维度提取时间序列的特征,使得提取的特征数据更加的全面,从而提高了异常检测的准确性。
S208,将提取得到的特征数据输入异常检测模型,输出针对目标数据点的异常检测结果;异常检测模型通过有监督的机器学习算法进行训练得到。
具体地,计算机设备可以预先使用有监督的机器学习算法进行机器学习训练,得到异常检测模型。可以理解,异常检测模型,是具备异常数据点检测功能的机器学习模型。即异常检测模型可以用于检测出目标数据点是否异常。
计算机设备可以将对时间序列进行特征提取得到的特征数据输入异常检测模型中。计算机设备可以通过异常检测模型对特征数据进行分析处理,输出针对目标数据点的异常检测结果。
可以理解,针对目标数据点的异常检测结果包括目标数据点正常或目标数据点异常。
图5为一个实施例中异常检测结果的图形化表示示意图。为了直观地理解异常检测结果,现结合图5进行举例说明。图5为对一系列的目标数据点进行异常检测处理得到的异常检测结果的图形化表示。参见图5,圆圈502所圈数据点明显偏离正常曲线,即说明2017-10-19,8:50上报的该数据点异常。那么,以8:50上报的该数据点为目标数据点进行异常检测时,假设预设时长为3小时,则可以获取前3小时以内的历史数据点,将历史数据点和目标数据点按照上报时间的先后顺序进行排列,得到时间序列。
可以理解,当异常检测结果包括目标数据点异常时,计算机设备可以根据针对目标数据点的异常检测结果,调用相应的异常处理策略。异常处理策略,是针对异常的目标数据点所采取的处理方法。
在一个实施例中,异常处理策略包括在检测到连续预设数量的异常目标数据点时,触发告警信息。
上述数据异常检测方法,获取包括目标数据点和在目标数据点之前上报的历史数据点的时间序列;目标数据点和历史数据点按照上报的时间先后顺序进行排列。通过初级判决方式对时间序列进行初级异常识别,相当于进行第一层级的异常检测。当识别到时间序列疑似异常时,对时间序列进行特征提取;将提取得到的特征数据输入经过有监督的机器学习算法训练得到的异常检测模型,相当于进行第二层级的异常检测,输出针对目标数据点的异常检测结果。即使用多层级的异常检测,并且将不同于有监督的机器学习算法的初级判决方式和有监督算法结合起来,通过有监督学习训练得到的异常检测模型来进行深度检测,提高了异常检测结果的准确性。
在一个实施例中,初级判决方式包括统计判决算法。步骤S204通过初级判决方式对时间序列进行初级异常识别包括:从时间序列中提取历史数据点;通过统计判决算法确定历史数据点的均值和标准差;根据均值和标准差,确定满足随机误差的数值区间;当目标数据点位于数值区间外时,则识别时间序列疑似异常。
具体地,计算机设备可以从时间序列中提取除目标数据点以外的历史数据点,通过统计判决算法确定历史数据点的均值和标准差,即对提取的历史数据点求均值和标准差。
在一个实施例中,统计判决算法包括三西格马定律(three-sigma ruleofthumb)。三西格马定律又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
三西格马定律具体为:数值分布在(μ-σ,μ+σ)中的概率为0.6827;数值分布在(μ-2σ,μ+2σ)中的概率为0.9545;数值分布在(μ-3σ,μ+3σ)中的概率为0.9973。其中,σ代表标准差,μ代表均值。x=μ即为图像的对称轴。可以理解,均值,是时间序列中的历史数据点的均值。标准差是时间序列中的历史数据点的标准差。
具体地,计算机设备可以根据均值与预设倍数的标准差的差值,得到满足随机误差的数值区间的一个端点,根据均值与预设倍数的标准差之和,得到满足随机误差的数值区间的另一个端点。即计算机设备可以将在均值的正负预设倍数的标准差范围内作为满足随机误差的数值区间。在一个实施例中,预设倍数可以是一倍、二倍和三倍中的任意一种。可以理解,位于满足随机误差的数值区间之内的数据的误差为随机误差,那么,位于满足随机误差的数值区间之内的数据为正常数据,位于满足随机误差的数值区间之内的数据为异常数据。因此,当目标数据点位于数值区间外时,计算机设备则识别时间序列疑似异常。
图6为一个实施例中三西格马定律的原理示意图。为了更清楚直观地理解,现结合图6进行解释说明。参照图6,数值分布在(μ-σ,μ+σ)中的概率为68.3%;数值分布在(μ-2σ,μ+2σ)中的概率为95.5%;数值分布在(μ-3σ,μ+3σ)中的概率为0.99.7%。假设预设倍数为三倍,那么,目标数据点位于(μ-3σ,μ+3σ)这个区间之外时,计算机设备则可以识别时间序列疑似异常。
可以理解,在其他实施例中,计算机设还可以使用其他统计判决算法对时间序列进行初级异常识别。
上述实施例中,从时间序列中提取历史数据点;使用统计判决算法,根据历史数据点确定满足随机误差的数值区间;当目标数据点位于数值区间外时,则识别时间序列疑似异常。相当于通过统计手段应用先验知识,来识别包括目标数据点的时间序列是否疑似异常,一定程度上保证了异常识别的准确性。此外,将统计判决算法与有监督学习得到的异常检测模型结合起来,实现了多层级的异常检测处理,进一步提高了异常检测的准确性。
在一个实施例中,初级判决方式包括无监督算法。步骤S204通过初级判决方式对时间序列进行初级异常识别包括:提取时间序列中的各数据点;通过无监督算法对提取的各数据点进行分类处理;根据分类处理得到的分类结果,对时间序列进行异常判决处理;异常判决处理得到的异常判决结果,用于表示时间序列是否疑似异常。
如前文所述,无监督算法,是对没有标记的训练样本进行机器学习训练,以发现训练样本集中的结构性知识的算法。
具体地,计算机设备可以通过预先无监督算法,将没有标记的训练样本代入无监督算法的公式中,进行无监督的机器学习训练,在训练过程中对公式的参数做调整,以对算法做优化。计算机设备可以提取时间序列中的各数据点,可以理解,提取的数据点包括目标数据点和历史数据点。计算机设备可以将提取的数据点代入调整参数后的无监督算法的公式中进行计算,以对各数据点进行分类处理,得到分类结果。计算机设备可以根据分类结果,对时间序列进行异常判决处理。
无监督算法,包括递归神经网络算法(RNN,Recurrent Neural Network)、孤立森林算法(Isolation Forest)、一类支持向量机(OneClassSVM,OneClass Support VectorMachine)、指数加权移动平均算法(EWMA,Exponentially Weighted Moving-Average)等中的至少一种。
其中,递归神经网络算法(RNN,Recurrent Neural Network),是一类用于处理序列数据的神经网络算法。其本质特征是在处理单元之间既有内部的反馈连接又有前馈连接。
孤立森林(Isolation Forest),是一个基于集成学习(Ensemble)的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的算法。
一类支持向量机(OneClassSVM,,OneClass Support Vector Machine),是使用只有一类的训练样本进行无监督训练得到的分类器,训练出的该分类器将不属于该类的所有其他样本判别为“不是”即可,而不是由于属于另一类才返回的“不是”结果。
指数加权移动平均算法(EWMA,Exponentially Weighted Moving-Average),是一种特殊的加权移动平均法。
可以理解,不同的无监督算法所得到的分类结果不同。
在一个实施例中,当无监督算法为递归神经网络算法时,则可以直接输出目标数据点是否为异常的分类结果,可以理解,根据表示目标数据点的分类结果可以对时间序列进行异常判决处理,得到表示时间序列是否疑似异常的异常判决结果。
在一个实施例中,当无监督算法为孤立森林时,分类结果则包括目标数据点在孤立森林的树中所位于的叶子节点的平均路径长度。那么,当该平均路径长度小于或等于预设阈值时,则可以判定时间序列疑似异常。反之,当该平均路径长度大于预设阈值时,则可以判定时间序列正常。
在一个实施例中,当无监督算法为一类支持向量机算法时,分类结果则为目标数据点是不是属于正常类别,当目标数据点不属于正常类别时,则可以判定时间序列疑似异常,当目标数据点属于正常类别时,则可以判定时间序列正常。
在一个实施例中,当无监督算法为指数加权移动平均算法时,计算机设备可以通过指数加权移动平均算法对时间序列进行平滑处理,针对平滑处理后的时间序列采用统计分析算法,确定目标数据点是否位于随机误差范围内,若是,则判定时间序列正常,若否,则判定时间序列疑似异常。
上述实施例中,通过无监督算法对时间序列进行异常判决处理,相当将无监督算法与有监督学习得到的异常检测模型结合起来,实现了多层级的异常检测处理,提高了异常检测的准确性。
在一个实施例中,无监督算法为多个;该方法还包括:获取各无监督算法所对应的异常判决结果;根据各无监督算法所对应的异常判决结果进行联合检测处理;当联合检测处理的结果表示所述时间序列异常时,则判定所述时间序列疑似异常。
在一个实施例中,根据各无监督算法所对应的异常判决结果进行联合检测处理包括:当任意一无监督算法所对应的异常判决结果表示时间序列异常时,则判定所述时间序列疑似异常。可以理解,由于各种无监督算法都有各自的缺点,每个无监督算法所得到的异常判决结果都可能存在不完善、未检测出异常的情况,所以,将各无监督算法所对应的异常判决结果进行联合判决,当任意一无监督算法所对应的异常判决结果表示时间序列异常时,则判定时间序列疑似异常。即综合考虑各个无监督算法的异常判决结果,能够使对时间序列的初级异常识别更加的准确。
在一个实施例中,根据各无监督算法所对应的异常判决结果进行联合检测处理包括:确定各无监督算法所对应的预设权重,根据各无监督算法所对应的异常判决结果和相应的预设权重,确定联合检测处理的结果。
各无监督算法所对应的异常判决结果包括时间序列异常或时间序列正常这两种情况中的任意一种。计算机设可以根据各无监督算法的权重和所对应的异常判决结果,确定时间序列异常的异常判决结果的第一占比和时间序列正常的异常判决结果的第二占比,将第一占比和第二占比进行比对,较大值所对应的异常判决结果作为联合检测处理的结果。
可以理解,当时间序列异常的异常判决结果的第一占比,大于时间序列正常的异常判决结果的第二占比时,则将时间序列异常作为联合检测处理结果。反之,当时间序列异常的异常判决结果的第一占比,小于时间序列正常的异常判决结果的第二占比时,则将时间序列正常作为联合检测处理的结果。
为了便于理解,现举例说明。比如,有3种无监督算法A、B和C,相应的预设权重分别为0.4、0.4、0.2,无监督算法A得到的异常判决结果为时间序列异常,无监督算法B得到的异常判决结果为时间序列异常,无监督算法C得到的异常判决结果为时间序列正常,则时间序列异常的异常判决结果的第一占比则为0.8,时间序列正常的异常判决结果的第二占比为0.2。那么,计算机设备可以将时间序列异常作为联合检测处理的结果。
可以理解,根据各无监督算法所对应的异常判决结果和相应的预设权重,确定联合检测处理的结果,综合、且合理的考虑到每个无监督算法的异常判决结果,能够使对时间序列的初级异常识别更加的准确。
计算机设备可以根据联合检测处理的结果判定时间序列是否疑似异常。当联合检测处理的结果表示时间序列异常时,计算机设备则判定所述时间序列疑似异常。进一步地,当联合检测处理的结果表示时间序列正常时,计算机设备则可以判定时间序列正常。
需要说明的是,计算机设备可以将统计判决算法和至少一个无监督算法结合起来对时间序列进行初级异常识别。
在一个实施例中,计算机设备可以在第一层级通过统计判决算法对时间序列进行异常识别,在识别到时间序列疑似异常后,在第二层级通过多个无监督算法对时间序列进行联合检测处理,当联合检测确定时间序列疑似异常后,在第三层对时间序列进行特征提取,并将提取的特征数据输入有监督的机器学习训练得到的异常检测模型中进行进一步地检测,当异常检测模型输出目标数据点异常的异常检测结果时,调用异常处理策略。
图7为一个实施例中数据异常检测方法的原理示意图。参照图7,时间序列依次经过第一层统计判决算法的初级异常识别,若识别异常,则通过第二层多种无监督算法的联合检测,若判定时间序列疑似异常,则进行特征提取,并进入到第三层有监督检测(即通过异常检测模型进行检测),若检测到目标数据点异常,则可以调用异常处理策略。
上述实施例中,将各无监督算法所对应的异常判决结果进行联合判决,即综合考虑各个无监督算法的异常判决结果,能够使对时间序列的初级异常识别更加的准确。
在一个实施例中,该方法还包括通过有监督的机器学习算法训练异常检测模型的步骤,具体包括以下步骤:获取样本时间序列和相应的标记;其中,正样本时间序列的标记为正常标记,负样本时间序列的标记为异常标记;提取样本时间序列中的样本特征数据;根据样本特征数据和相应标记,迭代地确定针对初始机器学习模型的更新的模型参数;按更新的模型参数调整初始机器学习模型的模型参数,直至满足迭代停止条件时,得到异常检测模型。
可以理解,有监督的机器学习算法进行机器学习训练时,所使用的带有标记的样本时间序列。样本时间序列是用于作为训练样本的时间序列。其中,正样本时间序列的标记为正常标记,负样本时间序列的标记为异常标记。样本特征数据,是样本时间序列的特征数据。
在一个实施例中,计算机设备中可以预先设置了样本库。样本库用于存储样本数据。计算机设备可以从样本库中获取样本时间序列和相应的标记。
计算机设备可以提取样本时间序列中的样本特征数据,根据样本特征数据和相应标记,迭代地确定针对初始机器学习模型的更新的模型参数。其中,针对初始机器学习模型的更新的模型参数,是初始机器学习模型的模型参数所要更新至的模型参数。可以理解,每次迭代过程中,都会确定一个新的模型参数,需要将初始机器学习模型的模型参数更新为这个新的模型参数。这个新的模型参数,即为针对初始机器学习模型的更新的模型参数。
计算机设备可以直接按照更新的模型参数调整初始机器学习模型的模型参数,即把初始机器学习模型的模型参数调整为所确定出的更新的模型参数,如此重复迭代,直至满足迭代停止条件时,得到异常检测模型。即计算机设备可以将满足迭代停止条件时的模型参数作为最终的模型参数,得到异常检测模型。
需要说明的是,这里所说的初始机器学习模型的模型参数(即需要做调整的模型参数),是指在上次迭代处理更新模型参数完毕后且在当次迭代处理更新模型参数前,初始机器学习模型的模型参数,而并不是限定于模型参数更新前的最初始的模型参数。
迭代停止条件,是停止迭代更新模型参数的条件。在一个实施例中,迭代停止条件,可以是迭代次数满足预设迭代次数。比如,预设迭代次数为20次,那么,在迭代达到20次后,就可以停止迭代。迭代停止条件,也可以是,模型参数达到稳定。模型参数达到稳定,可以指模型参数不发生变化,或者模型参数的变化在预设变化范围内。
在一个实施例中,在每次迭代过程中确定出针对初始机器学习模型的更新的模型参数后,计算机设备还可以先对模型参数更新效果进行验证,当验证通过后,再执行按更新的模型参数调整初始机器学习模型的模型参数的步骤。
上述实施例中,通过有监督的机器学习训练得到异常检测模型,使用有监督的异常检测模型对初级异常识别后的时间序列进行深度检测,提高了异常检测的准确性。
在一个实施例中,该方法还包括对模型参数更新效果进行验证的步骤,具体包括以下步骤:在每次迭代确定出更新的模型参数后,确定第一实验模型和第二实验模型;所述第一实验模型的模型参数为当次迭代更新前初始机器学习模型的模型参数,第二实验模型的模型参数为经过当次迭代所确定更新的模型参数;将相同实验数据分别输入所述第一实验模型和第二实验模型中,输出所述第一实验模型的第一实验结果和所述第二实验模型的第二实验结果;当第二实验结果相较于第一实验结果达到预设优化条件时,则执行按更新的模型参数调整初始机器学习模型的模型参数的步骤。
实验模型,是用于验证模型参数更新效果的模型。可以理解,在每次新的迭代处理开始前,第一实验模型和第二实验模型都是完全一致的,且都与当次迭代更新前的初始机器学习模型一致。在每次迭代确定出更新的模型参数后,保持第一实验模型不变(即第一实验模型的模型参数为当次迭代更新前初始机器学习模型的模型参数),将确定出的更新的模型参数更新至第二实验模型。此时,第二实验模型的模型参数为经过当次迭代所确定更新的模型参数。
计算机设备可以将相同实验数据分别输入第一实验模型和第二实验模型中,输出第一实验模型的第一实验结果和第二实验模型的第二实验结果。计算机设备可以将第一实验结果和第二实验结果进行比对,当第二实验结果相较于第一实验结果达到预设优化条件时,则将初始机器学习模型的模型参数,调整为经过当次迭代所确定更新的模型参数。
其中,预设优化条件,是预先设置的模型参数更新后能够起到优化作用的条件。可以理解,满足预设优化条件的情况下,将当次迭代所确定更新的模型参数更新至初始机器学习模型中才能够起到优化作用。
在一个实施例中,预设优化条件可以包括第二实验结果和第一实验结果的准确度,当第二实验结果的准确度高于第一实验结果的准确度,则可以认为达到预设优化条件。可以理解,实验数据有预先设置的实际结果。计算机设备可以将第二实验结果和第一实验结果分别与预先设置的实际结果进行比对,以确定第二实验结果和第一实验结果的准确度。
上述实施例中,在有监督的异常检测模型的训练过程中,通过第一实验模型和第二实验模型对模型参数更新效果进行验证,当第二实验结果相较于第一实验结果达到预设优化条件时,再执行按更新的模型参数调整初始机器学习模型的模型参数的步骤。避免了没有必要的更新所造成的资源浪费,同时,也验证了模型训练的有效性,便于对模型训练的优化。
图8为一个实施例中数据异常检测方法的技术框架图。参照图8,主要包括离线模型训练、模型更新效果验证、以及在线异常检测三个部分。
针对离线模型训练这一部分,用于训练得到异常检测模型。在离线训练过程中,可以从存储数据的数据库中获取用于作训练样本的数据,并将获取的数据经过统计判决算法和无监督算法进行初级异常识别,然后导入样本库中作为训练样本,人工可以根据初级异常识别结果,对训练样本进行人工标注,以添加相应标记。通过特征工程提取训练样本的样本特征数据,并根据提取的样本特征数据和相应标记,采用有监督算法,进行有监督的机器学习训练,得到异常检测模型。
针对模型更新效果验证这一部分,在异常检测模型的训练过程中,可以通过A、B实验模型来验证模型更新效果,在每次迭代训练异常检测模型时,若验证更新效果达到优化条件,则进行迭代更新。
针对在线异常检测这一部分,可以进行数据提取,以提取包括目标数据点的时间序列,然后依次通过统计判决算法进行初级异常识别和多个无监督算法联合检测,当输出时间序列疑似异常时,则通过特征工程提取时间序列的特征数据,并加载有监督模型(即异常检测模型),进行异常检测。需要说明的是,通过特征工程提取时间序列的特征数据和加载有监督模型的步骤并不限定先后顺序,也可以先加载有监督模型,再通过特征工程提取时间序列的特征数据。可以理解,当输出目标数据点异常的异常检测结果时,可以为目标数据点自动添加异常标记,并更新至样本库。在为目标数据点自动添加异常标记后,可以通过人工审核,审核通过后,再更新至样本库。
在一个实施例中,目标数据点为在当前时间上报的数据点;该方法还包括:当异常检测结果为在当前时间上报的目标数据点异常时,则进行异常记录;在获取到在下一时间上报的数据点后,将在下一时间上报的数据点重新当作当前时间上报的目标数据点,并返回获取时间序列的步骤以继续执行,直至记录到连续预设数量的异常目标数据点时,触发告警信息。
需要说明的是,下一时间,是指下一个用于上报数据点的时间。比如,每分钟上报一次数据点,当前时间为8:52,那么,下一时间则为8:53。
具体地,计算机设备在获取到在下一时间上报的数据点后,那么,下一时间即为新的当前时间,计算机设备可以将在下一时间上报的数据点重新当作当前时间上报的目标数据点,即新的目标数据点,返回步骤S202以继续执行。即计算机设备可以获取包括新的目标数据点和在该新的目标数据点之前上报的历史数据点的时间序列。同样地,该时间序列中新的目标数据点和在该新的目标数据点之前上报的历史数据点,按照上报的时间先后顺序进行排列。计算机设备可以针对重新获取的时间序列,继续执行步骤S204~S208,以得到针对新的目标数据点的异常检测结果。当异常检测结果为新的目标数据点异常时,则继续进行异常记录。同样地,在获取到在下一时间上报的数据点后,继续重复以上步骤,直至连续记录到预设数量的异常目标数据点时,触发告警信息。
其中,记录到连续预设数量的异常目标数据点,是指记录到在上报时间上连续的预设数量的异常目标数据点。比如,每分钟上报一次数据点,预设数量为3,那么,若记录到在时间8:52、8:53和8:54上报的目标数据点都异常时,则说明记录到连续3个异常目标数据点,则可以触发告警信息。需要说明的是,假设记录到在时间8:52、8:53和8:55上报的目标数据点异常,而8:54上报的目标数据点正常,那么,由于8:52、8:53和8:55上报的目标数据点在上报时间上并不连续,中间少了一个8:54,所以,就没有记录到连续3个异常的目标数据点,则不触发告警信息。
其中,告警信息,是用于将异常数据点报告、反映出来的提示信息。可以理解,告警信息可以通过文字、语音、视频和图形等形式中的至少一种进行展示。
在一个实施例中,告警信息包括一阶告警信息和二阶告警信息。一阶告警信息是基础的告警信息,二阶告警信息用于在对一阶告警信息触发后进阶展示详细的告警信息。
图9为一个实施例中告警信息的界面示意图。可以理解,图9为一阶告警信息的界面示意图。如图9所示,虚线框902中的目标数据点皆大幅度偏离正常的曲线,所以皆为异常,相当于记录到连续预设数量的异常目标数据点,则触发图9所示的一阶告警信息,该一阶告警信息中包括异常展示图表和文字介绍,比如“在时间点:2018-06-19 14:35发生异常”即为文字介绍,用于介绍发生异常的开始时间点。图9中还有一个视图链接地址,用户对该视图链接地址进行触发后,可以进入二阶告警信息的展示界面,二阶告警信息可以通过视图的形式展示详细的告警信息。其中,视图是指计算机数据库中的视图,是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。
上述实施例中,按照数据异常检测方法循环地检测新上报的数据点是否异常,当记录到连续预设数量的异常目标数据点时,触发告警信息,提高了安全性。此外,偶尔一个异常目标数据点可能是意外情况,并不存在较大风险可以无需告警,记录到连续预设数量的异常目标数据点相较于一个异常目标数据点而言,风险性更大,此时触发告警信息更加地准确。
如图10所示,在一个实施例中,提供了一种数据异常检测装置1000,该装置1000包括:获取模块1002、初级判决模块1004、特征提取模块1006以及异常检测模块1008,其中:
获取模块1002,用于获取时间序列;时间序列中包括目标数据点和在目标数据点之前上报的历史数据点;目标数据点和历史数据点按照上报的时间先后顺序进行排列。
初级判决模块1004,用于通过初级判决方式对时间序列进行初级异常识别。
特征提取模块1006,用于当识别到时间序列疑似异常时,则对时间序列进行特征提取。
异常检测模块1008,用于将提取得到的特征数据输入异常检测模型,输出针对目标数据点的异常检测结果;异常检测模型通过有监督的机器学习算法进行训练得到。
在一个实施例中,初级判决方式包括统计判决算法;初级判决模块1004还用于从时间序列中提取历史数据点;通过统计判决算法确定历史数据点的均值和标准差;根据均值和标准差,确定满足随机误差的数值区间;当目标数据点位于数值区间外时,则识别时间序列疑似异常。
在一个实施例中,初级判决方式包括无监督算法;初级判决模块1004还用于提取时间序列中的各数据点;通过无监督算法对提取的各数据点进行分类处理;根据分类处理得到的分类结果,对时间序列进行异常判决处理;异常判决处理得到的异常判决结果,用于表示时间序列是否疑似异常。
在一个实施例中,无监督算法为多个;初级判决模块1004还用于获取各无监督算法所对应的异常判决结果;根据各无监督算法所对应的异常判决结果进行联合检测处理;当联合检测处理的结果表示时间序列异常时,则判定时间序列疑似异常。
在一个实施例中,特征提取模块1006还用于当识别到时间序列疑似异常时,则在时域下对时间序列提取相应的时域特征数据;和/或,对时间序列进行频域变换,并在频域下对变换后的时间序列提取相应的频域特征数据。
在一个实施例中,特征提取模块1006还用于对时间序列进行统计分析,得到统计特征数据;拟合时间序列的趋势分布,得到拟合特征数据;提取时间序列中用于分类的特征数据,得到分类特征数据。
如图11所示,在一个实施例中,该装置1000还包括:
模型训练模块1007,用于获取样本时间序列和相应的标记;其中,正样本时间序列的标记为正常标记,负样本时间序列的标记为异常标记;提取样本时间序列中的样本特征数据;根据样本特征数据和相应标记,迭代地确定针对初始机器学习模型的更新的模型参数;按更新的模型参数调整初始机器学习模型的模型参数,直至满足迭代停止条件时,得到异常检测模型。
在一个实施例中,模型训练模块1010还用于在每次迭代确定出更新的模型参数后,确定第一实验模型和第二实验模型;第一实验模型的模型参数为当次迭代更新前初始机器学习模型的模型参数,第二实验模型的模型参数为经过当次迭代所确定更新的模型参数;将相同实验数据分别输入第一实验模型和第二实验模型中,输出第一实验模型的第一实验结果和第二实验模型的第二实验结果;当第二实验结果相较于第一实验结果达到预设优化条件时,则按更新的模型参数调整初始机器学习模型的模型参数。
在一个实施例中,目标数据点为在当前时间上报的数据点;装置1000还包括:
告警模块(图中未示出),用于当异常检测结果为在当前时间上报的目标数据点异常时,则进行异常记录;在获取到在下一时间上报的数据点后,将在下一时间上报的数据点重新当作当前时间上报的目标数据点,并返回获取时间序列的步骤以继续执行,直至记录到连续预设数量的异常目标数据点时,触发告警信息。
图12为一个实施例中计算机设备的内部结构示意图。参照图12,该计算机设备可以是图1中所示的异常检测设备120。可以理解,计算机设备也可以是终端。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作***和计算机程序。该计算机程序被执行时,可使得处理器执行一种数据异常检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种数据异常检测方法。计算机设备的网络接口用于进行网络通信。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的数据异常检测装置可以实现为一种计算机程序的形式,计算机程序可在如图12所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该数据异常检测装置的各个程序模块,比如,图10所示的获取模块1002、初级判决模块1004、特征提取模块1006以及异常检测模块1008。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的数据异常检测方法中的步骤,例如,计算机设备可以通过如图10所示的数据异常检测装置1000中的获取模块1002获取时间序列;时间序列中包括目标数据点和在目标数据点之前上报的历史数据点;目标数据点和历史数据点按照上报的时间先后顺序进行排列。计算机设备可以通过初级判决模块1004通过初级判决方式对时间序列进行初级异常识别。计算机设备可以通过特征提取模块1006当识别到时间序列疑似异常时,则对时间序列进行特征提取。计算机设备可以通过异常检测模块1008将提取得到的特征数据输入异常检测模型,输出针对目标数据点的异常检测结果;异常检测模型通过有监督的机器学习算法进行训练得到。
一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如本申请任一实施例所述的数据异常检测方法中的各步骤。
一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如本申请任一实施例所述的数据异常检测方法中的各步骤。
应该理解的是,虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种数据异常检测方法,所述方法包括:
获取时间序列;其中,所述时间序列中包括目标数据点和在所述目标数据点之前上报的历史数据点,所述目标数据点和所述历史数据点按照上报的时间先后顺序进行排列;所述目标数据点,是需要进行异常检测的数据点;
通过初级判决方式对所述时间序列进行初级异常识别;
当识别到所述时间序列疑似异常时,则对所述时间序列进行特征提取;提取得到的特征数据包括时域特征数据和频域特征数据中的至少一种;所述时域特征数据,用于反映所述时间序列在时间维度上的特征;
将提取得到的特征数据输入异常检测模型,输出针对所述目标数据点的异常检测结果;所述异常检测模型,是通过将样本时间序列和相应的标记作为样本数据,根据有监督的机器学习算法进行迭代训练得到。
2.根据权利要求1所述的方法,其特征在于,所述初级判决方式包括统计判决算法;所述通过初级判决方式对所述时间序列进行初级异常识别包括:
从所述时间序列中提取所述历史数据点;
通过统计判决算法确定所述历史数据点的均值和标准差;
根据所述均值和标准差,确定满足随机误差的数值区间;
当所述目标数据点位于所述数值区间外时,则识别所述时间序列疑似异常。
3.根据权利要求1所述的方法,其特征在于,所述初级判决方式包括无监督算法;所述通过初级判决方式对所述时间序列进行初级异常识别包括:
提取所述时间序列中的各数据点;
通过无监督算法对提取的各数据点进行分类处理;
根据分类处理得到的分类结果,对所述时间序列进行异常判决处理;所述异常判决处理得到的异常判决结果,用于表示所述时间序列是否疑似异常。
4.根据权利要求3所述的方法,其特征在于,所述无监督算法为多个;所述方法还包括:
获取各无监督算法所对应的异常判决结果;
根据各无监督算法所对应的异常判决结果进行联合检测处理;
当联合检测处理的结果表示所述时间序列异常时,则判定所述时间序列疑似异常。
5.根据权利要求1所述的方法,其特征在于,所述当识别到所述时间序列疑似异常时,则对所述时间序列进行特征提取包括:
当识别到所述时间序列疑似异常时,则
在时域下对所述时间序列提取相应的时域特征数据;和/或,
对所述时间序列进行频域变换,并在频域下对变换后的时间序列提取相应的频域特征数据。
6.根据权利要求1所述的方法,其特征在于,所述在时域下对所述时间序列提取相应的时域特征数据包括:
对所述时间序列进行统计分析,得到统计特征数据;
拟合所述时间序列的趋势分布,得到拟合特征数据;
提取所述时间序列中用于分类的特征数据,得到分类特征数据。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本时间序列和相应的标记;其中,正样本时间序列的标记为正常标记,负样本时间序列的标记为异常标记;
提取所述样本时间序列中的样本特征数据;
根据所述样本特征数据和相应标记,迭代地确定针对初始机器学习模型的更新的模型参数;
按更新的模型参数调整初始机器学习模型的模型参数,直至满足迭代停止条件时,得到异常检测模型。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在每次迭代确定出更新的模型参数后,确定第一实验模型和第二实验模型;所述第一实验模型的模型参数为当次迭代更新前初始机器学习模型的模型参数,第二实验模型的模型参数为经过当次迭代所确定更新的模型参数;
将相同实验数据分别输入所述第一实验模型和第二实验模型中,输出所述第一实验模型的第一实验结果和所述第二实验模型的第二实验结果;
当第二实验结果相较于第一实验结果达到预设优化条件时,则执行所述按更新的模型参数调整初始机器学习模型的模型参数的步骤。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述目标数据点为在当前时间上报的数据点;所述方法还包括:
当异常检测结果为在当前时间上报的目标数据点异常时,则进行异常记录;
在获取到在下一时间上报的数据点后,将在下一时间上报的数据点重新当作当前时间上报的目标数据点,并返回所述获取时间序列的步骤以继续执行,直至记录到连续预设数量的异常目标数据点时,触发告警信息。
10.一种数据异常检测装置,其特征在于,所述装置包括:
获取模块,用于获取时间序列;其中,所述时间序列中包括目标数据点和在所述目标数据点之前上报的历史数据点,所述目标数据点和所述历史数据点按照上报的时间先后顺序进行排列;所述目标数据点,是需要进行异常检测的数据点;
初级判决模块,用于通过初级判决方式对所述时间序列进行初级异常识别;
特征提取模块,用于当识别到所述时间序列疑似异常时,则对所述时间序列进行特征提取;提取得到的特征数据包括时域特征数据和频域特征数据中的至少一种;所述时域特征数据,用于反映所述时间序列在时间维度上的特征;
异常检测模块,用于将提取得到的特征数据输入异常检测模型,输出针对所述目标数据点的异常检测结果;所述异常检测模型,是通过将样本时间序列和相应的标记作为样本数据,根据有监督的机器学习算法进行迭代训练得到。
11.根据权利要求10所述的装置,其特征在于,所述初级判决方式包括统计判决算法;初级判决模块还用于从所述时间序列中提取所述历史数据点;通过统计判决算法确定所述历史数据点的均值和标准差;根据所述均值和标准差,确定满足随机误差的数值区间;当所述目标数据点位于所述数值区间外时,则识别所述时间序列疑似异常。
12.根据权利要求10所述的装置,其特征在于,所述初级判决方式包括无监督算法;所述初级判决模块还用于提取所述时间序列中的各数据点;通过无监督算法对提取的各数据点进行分类处理;根据分类处理得到的分类结果,对所述时间序列进行异常判决处理;所述异常判决处理得到的异常判决结果,用于表示所述时间序列是否疑似异常。
13.根据权利要求10至12中任一项所述的装置,其特征在于,所述特征提取模块还用于当识别到所述时间序列疑似异常时,则在时域下对所述时间序列提取相应的时域特征数据;和/或,对所述时间序列进行频域变换,并在频域下对变换后的时间序列提取相应的频域特征数据。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至9中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至9中任一项所述方法的步骤。
CN201810813779.7A 2018-07-23 2018-07-23 数据异常检测方法、装置、计算机设备及存储介质 Active CN109032829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810813779.7A CN109032829B (zh) 2018-07-23 2018-07-23 数据异常检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810813779.7A CN109032829B (zh) 2018-07-23 2018-07-23 数据异常检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109032829A CN109032829A (zh) 2018-12-18
CN109032829B true CN109032829B (zh) 2020-12-08

Family

ID=64645225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810813779.7A Active CN109032829B (zh) 2018-07-23 2018-07-23 数据异常检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109032829B (zh)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783877B (zh) * 2018-12-19 2024-03-01 平安科技(深圳)有限公司 时间序列模型建立方法、装置、计算机设备和存储介质
CN109753372A (zh) * 2018-12-20 2019-05-14 东软集团股份有限公司 多维数据异常检测方法、装置、可读存储介质及电子设备
CN109800858B (zh) * 2018-12-21 2021-03-05 东软集团股份有限公司 应用***异常检测方法、装置、可读存储介质及电子设备
CN109871401B (zh) * 2018-12-26 2021-05-25 北京奇安信科技有限公司 一种时间序列异常检测方法及装置
CN111489218B (zh) * 2019-01-28 2023-04-18 阿里巴巴集团控股有限公司 数据的审核方法、装置及设备
CN109993065B (zh) * 2019-03-06 2022-08-23 开易(北京)科技有限公司 基于深度学习的驾驶员行为检测方法和***
JP7072531B2 (ja) * 2019-03-12 2022-05-20 株式会社日立製作所 異常検出装置および異常検出方法
DE102019107363B4 (de) * 2019-03-22 2023-02-09 Schaeffler Technologies AG & Co. KG Verfahren und System zum Bestimmen einer Eigenschaft einer Maschine, insbesondere einer Werkzeugmaschine, ohne messtechnisches Erfassen der Eigenschaft sowie Verfahren zum Bestimmen eines voraussichtlichen Qualitätszustands eines mit einer Maschine gefertigten Bauteils
US11593716B2 (en) * 2019-04-11 2023-02-28 International Business Machines Corporation Enhanced ensemble model diversity and learning
CN110262939B (zh) * 2019-05-14 2023-07-21 苏宁金融服务(上海)有限公司 算法模型运行监控方法、装置、计算机设备和存储介质
CN111949496B (zh) * 2019-05-15 2022-06-07 华为技术有限公司 一种数据检测方法及装置
CN110262950A (zh) * 2019-05-21 2019-09-20 阿里巴巴集团控股有限公司 基于多项指标的异动检测方法和装置
CN110232082B (zh) * 2019-06-13 2022-08-30 中国科学院新疆理化技术研究所 面向连续时空加油数据的异常检测方法
CN110378386A (zh) * 2019-06-20 2019-10-25 平安科技(深圳)有限公司 基于有监督的无标记异常识别方法、装置及存储介质
CN112114878B (zh) * 2019-06-21 2024-03-12 宏碁股份有限公司 加速开机***及加速开机方法
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质
CN110443274B (zh) * 2019-06-28 2024-05-07 平安科技(深圳)有限公司 异常检测方法、装置、计算机设备及存储介质
CN112188532A (zh) * 2019-07-02 2021-01-05 ***通信集团贵州有限公司 网络异常检测模型的训练方法、网络检测方法及装置
CN110377447B (zh) * 2019-07-17 2022-07-22 腾讯科技(深圳)有限公司 一种异常数据检测方法、装置及服务器
CN110362612B (zh) * 2019-07-19 2022-02-22 中国工商银行股份有限公司 由电子设备执行的异常数据检测方法、装置和电子设备
US11347718B2 (en) 2019-09-04 2022-05-31 Optum Services (Ireland) Limited Manifold-anomaly detection with axis parallel explanations
US11941502B2 (en) 2019-09-04 2024-03-26 Optum Services (Ireland) Limited Manifold-anomaly detection with axis parallel
CN110716868B (zh) * 2019-09-16 2022-02-25 腾讯科技(深圳)有限公司 异常程序行为检测方法、装置
CN112532467B (zh) * 2019-09-17 2022-12-27 华为技术有限公司 用于实现故障检测的方法、装置及***
CN110674124B (zh) * 2019-09-23 2022-04-12 珠海格力电器股份有限公司 一种异常数据检测方法、***及智能路由器
CN112861895B (zh) * 2019-11-27 2023-11-03 北京京东振世信息技术有限公司 一种异常物品的检测方法和装置
CN110912909A (zh) * 2019-11-29 2020-03-24 北京工业大学 一种针对dns服务器的ddos攻击检测方法
CN111177224B (zh) * 2019-12-30 2022-04-05 浙江大学 一种基于条件式规整化流模型的时间序列无监督异常检测方法
CN111122945B (zh) * 2019-12-31 2022-03-01 南京天溯自动化控制***有限公司 医院后勤监测***高精确度告警过滤方法、装置
CN111176953B (zh) * 2020-01-02 2023-06-20 广州虎牙科技有限公司 一种异常检测及其模型训练方法、计算机设备和存储介质
CN113157758A (zh) * 2020-01-07 2021-07-23 微软技术许可有限责任公司 定制化异常检测
CN111178456B (zh) * 2020-01-15 2022-12-13 腾讯科技(深圳)有限公司 异常指标检测方法、装置、计算机设备和存储介质
CN113157760A (zh) * 2020-01-22 2021-07-23 阿里巴巴集团控股有限公司 目标数据确定方法及装置
CN111400126A (zh) * 2020-02-19 2020-07-10 中国平安人寿保险股份有限公司 网络服务异常数据检测方法、装置、设备和介质
CN111352971A (zh) * 2020-02-28 2020-06-30 中国工商银行股份有限公司 银行***监控数据异常检测方法及***
CN111291096B (zh) * 2020-03-03 2023-07-28 腾讯科技(深圳)有限公司 数据集构建方法、装置和存储介质及异常指标检测方法
CN113435464B (zh) * 2020-03-08 2022-05-17 阿里巴巴集团控股有限公司 异常数据检测方法、装置、电子设备及计算机存储介质
CN111581046A (zh) * 2020-03-19 2020-08-25 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质
CN111614634B (zh) * 2020-04-30 2024-01-23 腾讯科技(深圳)有限公司 流量检测方法、装置、设备及存储介质
CN111614578B (zh) * 2020-05-09 2021-11-02 北京邮电大学 一种基于指数加权和拐点检测的网络资源分配方法及装置
CN111858231A (zh) * 2020-05-11 2020-10-30 北京必示科技有限公司 一种基于运维监控的单指标异常检测方法
CN113746688B (zh) * 2020-05-29 2023-02-28 华为技术有限公司 实现异常检测模型更新的方法、装置和计算设备
CN111726341B (zh) * 2020-06-02 2022-10-14 五八有限公司 一种数据检测方法、装置、电子设备及存储介质
CN111831870B (zh) * 2020-06-12 2024-02-13 北京百度网讯科技有限公司 时空数据的异常检测方法、装置、电子设备和存储介质
CN111814908B (zh) * 2020-07-30 2023-06-27 浪潮通用软件有限公司 一种基于数据流的异常数据检测模型更新方法和装置
CN111897695B (zh) * 2020-07-31 2022-06-17 平安科技(深圳)有限公司 获取kpi异常数据样本的方法、装置和计算机设备
CN112929386B (zh) * 2020-08-08 2022-06-28 重庆华唐云树科技有限公司 基于人工智能和异常识别的模型训练方法、***及平台
CN112069359B (zh) * 2020-09-01 2024-03-19 上海熙菱信息技术有限公司 一种动态过滤抓拍对象比对结果异常数据的方法
CN112101468B (zh) * 2020-09-18 2024-04-16 刘吉耘 一种在序列组合中判定异常序列的方法
CN112463531A (zh) * 2020-11-24 2021-03-09 中国建设银行股份有限公司 一种文件传输预警方法、装置、设备及存储介质
CN112541016A (zh) * 2020-11-26 2021-03-23 南方电网数字电网研究院有限公司 用电异常检测方法、装置、计算机设备和存储介质
CN112328425A (zh) * 2020-12-04 2021-02-05 杭州谐云科技有限公司 一种基于机器学习的异常检测方法和***
CN112712113B (zh) * 2020-12-29 2024-04-09 广州品唯软件有限公司 一种基于指标的告警方法、装置及计算机***
CN114764967A (zh) * 2021-01-14 2022-07-19 新智数字科技有限公司 联合学习框架下设备故障报警的方法
CN112905671A (zh) * 2021-03-24 2021-06-04 北京必示科技有限公司 时间序列异常处理方法、装置、电子设备及存储介质
CN113076215B (zh) * 2021-04-08 2023-06-20 华南理工大学 一种独立于数据类型的无监督异常检测方法
CN113110961B (zh) * 2021-04-30 2022-10-21 平安国际融资租赁有限公司 设备异常检测方法、装置、计算机设备及可读存储介质
CN113283501A (zh) * 2021-05-24 2021-08-20 平安国际融资租赁有限公司 基于深度学习的设备状态检测方法、装置、设备和介质
CN113536288B (zh) * 2021-06-23 2023-10-27 上海派拉软件股份有限公司 数据认证方法、装置、认证设备及存储介质
CN113268372B (zh) * 2021-07-21 2021-09-24 中国人民解放军国防科技大学 一种一维时间序列异常检测方法、装置及计算机设备
CN113645231B (zh) * 2021-08-10 2023-07-21 北京易通信联科技有限公司 工业控制***的入侵检测方法、存储器和处理器
CN113673606A (zh) * 2021-08-24 2021-11-19 中国水利水电科学研究院 一种安全监测数据异常智能识别方法及***
CN114338284A (zh) * 2021-12-24 2022-04-12 深圳尊悦智能科技有限公司 物联网5g智能网关
CN114637620B (zh) * 2022-03-10 2024-04-16 南京开特信息科技有限公司 一种基于svm算法的数据库***异常分类预测方法
CN114419528B (zh) * 2022-04-01 2022-07-08 浙江口碑网络技术有限公司 异常识别方法、装置、计算机设备及计算机可读存储介质
CN114781529A (zh) * 2022-04-28 2022-07-22 郑州云海信息技术有限公司 一种kpi异常检测方法、装置、设备及介质
CN114710369B (zh) * 2022-06-06 2022-08-16 山东云天安全技术有限公司 一种异常数据检测方法、装置、计算机设备及存储介质
CN117454299B (zh) * 2023-12-21 2024-03-26 深圳市研盛芯控电子技术有限公司 异常节点的监测方法及***
CN117807545B (zh) * 2024-02-28 2024-05-31 广东优信无限网络股份有限公司 一种基于数据挖掘的异常检测方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182623A (zh) * 2014-08-12 2014-12-03 南京工程学院 一种基于当量变化率计算的热工过程数据检测方法
CN105760978A (zh) * 2015-07-22 2016-07-13 北京师范大学 一种基于温度植被干旱指数(tvdi)的农业旱灾等级监测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102540165B (zh) * 2011-12-19 2013-07-17 北京师范大学 Modis地表反射率数据的预处理方法及***
CN103093078B (zh) * 2012-12-18 2016-02-17 湖南大唐先一科技有限公司 一种改进53h算法的数据检验方法
CN103234767B (zh) * 2013-04-21 2016-01-06 苏州科技学院 基于半监督流形学习的非线性故障检测方法
JP2015026252A (ja) * 2013-07-26 2015-02-05 株式会社豊田中央研究所 異常検知装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182623A (zh) * 2014-08-12 2014-12-03 南京工程学院 一种基于当量变化率计算的热工过程数据检测方法
CN105760978A (zh) * 2015-07-22 2016-07-13 北京师范大学 一种基于温度植被干旱指数(tvdi)的农业旱灾等级监测方法

Also Published As

Publication number Publication date
CN109032829A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109032829B (zh) 数据异常检测方法、装置、计算机设备及存储介质
CN111177714B (zh) 异常行为检测方法、装置、计算机设备和存储介质
CN109598095B (zh) 评分卡模型的建立方法、装置、计算机设备和存储介质
WO2020177377A1 (zh) 基于机器学习的数据预测处理方法、装置和计算机设备
CN110912867B (zh) 工业控制***的入侵检测方法、装置、设备和存储介质
CN111625516B (zh) 检测数据状态的方法、装置、计算机设备和存储介质
CN111309539A (zh) 一种异常监测方法、装置和电子设备
CN109325118B (zh) 不平衡样本数据预处理方法、装置和计算机设备
US20220342868A1 (en) Anomaly detection data workflow for time series data
CN113965389B (zh) 一种基于防火墙日志的网络安全管理方法、设备及介质
CN111711608A (zh) 一种电力数据网流量异常检测方法、***及电子设备
CN115936262B (zh) 基于大数据的环境干扰的产量预测方法、***和介质
CN115204536A (zh) 楼宇设备故障预测方法、装置、设备及存储介质
CN113110961B (zh) 设备异常检测方法、装置、计算机设备及可读存储介质
US20220342861A1 (en) Automatic model selection for a time series
CN114547145A (zh) 一种时序数据异常检测方法、***、存储介质及设备
WO2021114613A1 (zh) 基于人工智能的故障节点识别方法、装置、设备和介质
CN115587898B (zh) 一种基于云服务的财务数据安全共享方法及***
CN110865939B (zh) 应用程序质量监测方法、装置、计算机设备和存储介质
CN113407422B (zh) 数据异常告警处理方法、装置、计算机设备和存储介质
CN117312350B (zh) 钢铁行业碳排放数据管理方法及装置
US20240220480A1 (en) Anomaly detection data workflow for time series data
CN118282728A (zh) 一种安全数据识别方法及***
CN118193928A (zh) 数据波动检测方法、装置、计算机设备和存储介质
CN118246738A (zh) 资产风险确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant