CN110945484B - 数据存储中异常检测的***和方法 - Google Patents
数据存储中异常检测的***和方法 Download PDFInfo
- Publication number
- CN110945484B CN110945484B CN201880001318.8A CN201880001318A CN110945484B CN 110945484 B CN110945484 B CN 110945484B CN 201880001318 A CN201880001318 A CN 201880001318A CN 110945484 B CN110945484 B CN 110945484B
- Authority
- CN
- China
- Prior art keywords
- values
- service
- determining
- comparison result
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 61
- 238000013500 data storage Methods 0.000 title claims description 9
- 238000001514 detection method Methods 0.000 title claims description 7
- 238000003860 storage Methods 0.000 claims abstract description 32
- 238000004891 communication Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 55
- 230000015654 memory Effects 0.000 claims description 19
- 230000001932 seasonal effect Effects 0.000 claims description 13
- 239000006185 dispersion Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 115
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000012986 modification Methods 0.000 description 18
- 230000004048 modification Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 230000002547 anomalous effect Effects 0.000 description 10
- 230000006872 improvement Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000009499 grossing Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 230000003190 augmentative effect Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000012010 growth Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007427 paired t-test Methods 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 230000029305 taxis Effects 0.000 description 2
- 241000579895 Chlorostilbon Species 0.000 description 1
- 230000005526 G1 to G0 transition Effects 0.000 description 1
- 235000015842 Hesperis Nutrition 0.000 description 1
- 235000012633 Iberis amara Nutrition 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003698 anagen phase Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- -1 merchandise Substances 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/805—Real-time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/81—Threshold
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Traffic Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种***包括一个存储一组指令集的存储设备,以及至少一个与所述存储设备通信的处理器。当执行所述指令时,所述至少一个处理器被配置为使***获取至少两个历史数据值,并确定与至少两个历史数据值相关的类别。所述至少一个处理器还被配置为使***基于所述类别确定至少两个预测值以及获取与所述服务相关的、对应于所述至少两个预测值的至少两个真实值。所述至少一个处理器进一步使得***使用至少一个过滤器,将所述至少两个真实值与所述至少两个预测值进行比较,以产生比较结果,以及基于所述比较结果,确定所述至少两个真实值的至少一部分是异常的。
Description
技术领域
本发明涉及用于数据存储管理的***及方法,特别涉及一种数据存储中异常检测的方法及***。
背景技术
随着线上到线下服务***的各条服务线的蓬勃发展,服务数据量可能会出现爆发性增长。数据仓库可用于存储服务数据。异常检测致力于从服务数据中找出与预期数据不同的数据。
由于服务数据可以反映一定时间内的业务情况,因此必须保证数据仓库中服务数据的真实性,并且服务数据的异常波动需要被及时提醒。当前的技术通常依赖于数据库管理或连续迭代修改数据库管理***的经验,导致对异常波动的响应延迟。亟需一种方法以及***来改善异常检测。
发明内容
根据本申请的一个方面,***可以包括存储一组指令集的存储设备;以及一个或以上与所述存储设备进行通信的处理器。当执行所述指令集时,所述一个或以上处理器被配置为使所述***通过网络获取与服务相关的至少两个历史数据值和与所述至少两个历史数据值相关的类别。所述一个或以上处理器可以使所述***基于与所述类别相关的预测模型,确定与所述服务相关的至少两个预测值和通过网络获取与所述服务相关的、对应于所述至少两个预测值的至少两个真实值。在一些实施例中,每个预测值对应于一个时间点。进一步地,所述一个或以上处理器可以使所述***使用至少一个过滤器,将所述至少两个真实值与所述至少两个预测值进行比较,以产生比较结果;以及基于所述比较结果,确定所述至少两个真实值的至少一部分是异常的。
在一些实施例中,所述至少两个历史数据值形成时间序列。
在一些实施例中,所述一个或以上处理器进一步被配置为使所述***确定与所述至少两个历史数据值相关的至少两个特征值和基于所述至少两个特征值,确定与所述至少两个历史数据值相关的所述类别。
在一些实施例中,所述类别表示与所述服务相关的特性,所述类别包括具有周期性的生长期、具有周期性的稳定期、具有周期性的衰减期、具有非周期性的生长期、具有非周期性的稳定期、或具有非周期性的衰退期。
在一些实施例中,所述一个或以上处理器进一步被配置为使所述***确定表明与所述服务相关的所述特性的所述类别与周期性相关,和基于所述与周期性相关的类别,确定与所述至少两个历史数据值相关的残差函数、趋势函数和季节性函数。所述一个或以上处理器进一步被配置为使所述***基于所述残差函数、所述趋势函数和所述季节性函数,生成所述预测模型;以及基于所述预测模型,确定所述至少两个预测值。
在一些实施例中,所述一个或以上处理器进一步被配置为使所述***获取与所述至少两个预测值的至少一部分相关的时间点,和基于所述与所述至少两个预测值的至少一部分相关的时间点,获取所述至少两个真实值。
在一些实施例中,所述至少一个过滤器包括离散过滤器。所述一个或以上处理器进一步被配置为使所述***使用所述离散过滤器,基于所述至少两个预测值和所述至少两个真实值,确定统计值,并将所述统计值和第一阈值进行比较。在一些实施例中,所述统计值与所述至少两个预测值和所述至少两个真实值的离散程度相关。所述一个或以上处理器进一步被配置为使所述***响应于所述统计值大于所述第一阈值的比较结果,确定所述至少两个真实值的所述至少一部分是异常的。
在一些实施例中,所述至少一个过滤器包括阈值过滤器。所述一个或以上处理器进一步被配置为使所述***使用所述阈值过滤器,确定所述至少两个预测值和所述至少两个真实值之间的至少两个差值和基于时间函数确定至少两个第二阈值。所述一个或以上处理器进一步被配置为使所述***将所述至少两个差值中的每一个与其对应的第二阈值进行比较。所述一个或以上处理器进一步被配置为响应于所述至少两个差值中的每一个大于与其对应的第二阈值的比较结果,确定所述至少两个真实值的所述至少一部分是异常的。在一些实施例中,所述至少两个差值中的每一个和所述与其对应的第二阈值与相同的时间点相关。
在一些实施例中,所述至少一个过滤器包括虚警过滤器。所述一个或以上处理器进一步被配置为使所述***基于与服务数据相关的预标记数据集,确定虚警模型,以及基于所述虚警模型,确定所述至少两个真实值的所述至少一部分是异常的。在一些实施例中,所述预标记数据集包括所述***产生的至少两个虚警结果。
在一些实施例中,所述一个或以上处理器进一步被配置为使所述***使用离散过滤器、阈值过滤器和虚警过滤器,将所述至少两个真实值与所述至少两个预测值进行比较,以分别产生第一比较结果,第二比较结果和第三比较结果。所述一个或以上处理器进一步被配置为使所述***基于所述第一比较结果、所述第二比较结果和所述第三比较结果,确定所述至少两个真实值的至少一部分是异常的。
根据本申请的另一个方面,一个在计算设备上实施的方法可以包括一个或以上由一个或以上处理器执行的以下操作。所述方法包括通过网络获取与服务相关的至少两个历史数据值和确定与所述至少两个历史数据值相关的类别。所述方法包括基于与所述类别相关的预测模型,确定与所述服务相关的至少两个预测值和通过网络获取与所述服务相关的、对应于所述至少两个预测值的至少两个真实值。在一些实施例中,每个预测值对应于一个时间点。所述方法包括使用至少一个过滤器,将所述至少两个真实值与所述至少两个预测值进行比较,以产生比较结果和基于所述比较结果,确定所述至少两个真实值的至少一部分是异常的。
在一些实施例中,该方法可以进一步包括确定与所述至少两个历史数据值相关的至少两个特征值,并基于所述至少两个特征值确定与所述至少两个历史数据值相关的类别。
在一些实施例中,该方法可以进一步包括确定表明与所述服务相关的所述特性的所述类别与周期性相关,和基于所述与周期性相关的类别,确定与所述至少两个历史数据值相关的残差函数、趋势函数和季节性函数。所述方法进一步包括基于所述残差函数、所述趋势函数和所述季节性函数,生成所述预测模型;以及基于所述预测模型,确定所述至少两个预测值。
在一些实施例中,该方法可以进一步包括获取与所述至少两个预测值的至少一部分相关的时间点,和基于所述与所述至少两个预测值的至少一部分相关的时间点,获取所述至少两个真实值。
在一些实施例中,所述至少一个过滤器包括离散过滤器。所述方法还可以包括使用所述离散过滤器,基于所述至少两个预测值和所述至少两个真实值,确定统计值,并将所述统计值和第一阈值进行比较。在一些实施例中,所述统计值与所述至少两个预测值和所述至少两个真实值的离散程度相关。所述方法可以进一步包括响应于所述统计值大于所述第一阈值的比较结果,确定所述至少两个真实值的所述至少一部分是异常的。
在一些实施例中,所述至少一个过滤器包括阈值过滤器。所述方法还可以包括使用所述阈值过滤器,确定所述至少两个预测值和所述至少两个真实值之间的至少两个差值和基于时间函数确定至少两个第二阈值。所述方法进一步包括将所述至少两个差值中的每一个与其对应的第二阈值进行比较,并且响应于所述至少两个差值中的每一个大于与其对应的第二阈值的比较结果,确定所述至少两个真实值的所述至少一部分是异常的。在一些实施例中,所述至少两个差值中的每一个和所述与其对应的第二阈值与相同的时间点相关。
在一些实施例中,所述至少一个过滤器包括虚警过滤器。所述方法还可以包括基于与服务数据相关的预标记数据集,确定虚警模型,以及基于所述虚警模型,确定所述至少两个真实值的所述至少一部分是异常的。在一些实施例中,所述预标记数据集包括所述***产生的至少两个虚警结果。
在一些实施例中,所述方法包括还使用离散过滤器、阈值过滤器和虚警过滤器,将所述至少两个真实值与所述至少两个预测值进行比较,以分别产生第一比较结果,第二比较结果和第三比较结果。所述方法进一步包括基于所述第一比较结果、所述第二比较结果和所述第三比较结果,确定所述至少两个真实值的至少一部分是异常的。
根据本申请的又一方面,一种非暂态计算机可读介质可以存储指令集。当被***的一个或以上处理器执行时,所述指令集可以使所述***通过网络获取与服务相关的至少两个历史数据值并确定与所述至少两个历史数据值相关的类别。所述指令集可以使所述***基于与所述类别相关的预测模型,确定与所述服务相关的至少两个预测值,和通过网络获取与所述服务相关的、对应于所述至少两个预测值的至少两个真实值。在一些实施例中,每个预测值对应于一个时间点。所述指令集可以进一步地使所述***使用至少一个过滤器,将所述至少两个真实值与所述至少两个预测值进行比较,以产生比较结果,以及基于所述比较结果,确定所述至少两个真实值的至少一部分是异常的
本申请的一部分附加特性可以在下面的描述中进行说明。通过对以下描述和相应附图的检查或者对实施例的生产或操作的了解,本申请的一部分附加特性对于本领域技术人员是明显的。本披露的特性可以通过对以下描述的具体实施例的各种方面的方法、手段和组合的实践或使用得以实现和达到。
附图说明
本申请将结合示例性实施例进一步进行描述。这些示例性的实施例将结合参考图示进行详细描述。这些实施例是非限制性的示例性实施例,在图示多种视图下的实施例中,相似的编号表示相似的结构,并且其中:
图1是根据本申请的一些实施例所示的示例性线上到线下服务***的示意图;
图2是根据申请的一些实施例所示的一个计算设备的示例性硬件和软件组件的示意图;
图3是根据申请的一些实施例所示的一个移动设备的示例性硬件和软件组件的示意图;
图4是根据本申请的一些实施例所示的示例性处理引擎的模块图;
图5是根据本申请的一些实施例所示的用于基于比较结果确定至少两个真实值的至少一部分是异常的示例性流程的流程图;
图6是根据本申请的一些实施例所示的用于确定至少两个预测值的示例性流程的流程图;
图7是根据本申请的一些实施例所示的用于确定所述至少两个真实值的所述至少一部分是异常的示例性流程的流程图;
图8是根据本申请的一些实施例所示的用于确定所述至少两个真实值的所述至少一部分是异常的示例性流程的流程图;和
图9是根据本申请的一些实施例所示的与至少两个业务线相关的表格。
具体实施方式
以下描述是为了使本领域的普通技术人员能够实施和利用本申请,并在特定应用及其要求的上下文中提供。对于本领域的普通技术人员来讲,对本申请披露的实施例进行的各种修改是显而易见的,并且本文中定义的通则在不背离本申请的精神及范围的情况下,可以适用于其他实施例及应用。因此,本申请不限于所示的实施例,而是符合与申请专利范围一致的最广泛范围。
本文中所使用的术语仅用于描述特定示例性实施例,并不限制本申请的范围。如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可以包括复数。应该被理解的是,本申请中所使用的术语“包括”与“包含”仅提示已明确标识的特征、整数、步骤、操作、元素和/或部件,而不排除可以存在和添加其他一个或以上特征、整数、步骤、操作、元素、部件和/或其组合。
根据以下对附图的描述,本申请所述的和其他的特征、操作方法、相关组件的功能和经济的结构更加显而易见,这些都构成说明书的一部分。然而,应当理解,附图仅仅是为了说明和描述的目的,并不旨在限制本申请的范围。应当理解的是附图并不是按比例的。
本申请中使用了流程图用于说明根据本申请的实施例的***所执行的操作。应当明确理解,流程图中的操作可以不按顺序实施。相反,可以按照倒序或同时处理各种步骤。而且,可以将一个或以上其他操作添加到流程图中。一个或以上操作也可能会从流程图中删除。
此外,虽然本申请的***和方法的描述主要关于分配交通运输服务请求,应该理解的是,这只是一个示例性的实施例。本申请的***或方法还可应用于其他类型的线上到线下服务。例如,本申请的***和方法还可应用于包括陆地、海洋、航空航天等或其任意组合。该运输***中的使用的交通工具可包括出租车、私家车、顺风车、巴士、列车、子弹头列车、高速铁路、地铁、船只、飞机、宇宙飞船、热气球、无人驾驶车辆等或其任意组合。运输***还可以包括用于经营及/或分配的任何运输***,例如用于传输及/或接收快递的***。本申请的不同实施例应用场景可以包括网页、浏览器插件、客户端、定制***、企业内部分析***与人工智能机器人等中的一种或几种的组合。
在本申请中,术语“乘客”、“请求者”、“服务请求者”和“客户”可以交换使用,其表示可以请求或订购服务的个体、实体或工具。在本申请中,术语"司机"、"提供者"、以及"服务提供者"也可以交换使用,其表示可以提供服务或促进该服务提供的个体、实体,或工具。
在本申请中,术语“服务请求”和“订单”可以交换使用,其表示由乘客、请求者、服务请求者、客户、司机、提供者、服务提供者等或上述举例的任意组合所发起的请求。所述服务请求可以被乘客、服务请求者、客户、司机、提供者、服务提供者中的任何一个接受。服务请求可以是收费的或免费的。
本申请中的术语“服务提供者终端”和“司机终端”可以交换使用,其表示服务提供者所使用的用于提供服务或促进服务提供的移动终端。本申请中的术语“服务请求者终端”和“乘客终端”可以交换使用,其表示服务请求者所使用的用于请求或订购服务的移动终端。
本申请中使用的定位技术可以基于全球定位***(GPS),全球导航卫星***(GLONASS)、罗盘导航***(COMPASS)、伽利略定位***、准天顶卫星***(QZSS)、无线保真(WiFi)定位技术等或其任意组合。上述定位技术中的一种或以上可以在本申请中互换使用。
本申请的一个方面涉及数据存储管理的在线***和方法。与服务相关的至少两个历史数据值可以被获取。与所述至少两个历史数据值相关的类别可以被确定。与所述类别相关的预测模型可以被确定。与所述服务相关的至少两个预测值可以基于预测模型被确定。对应于所述至少两个预测值的至少两个真实值可以被获取。可以基于至少一个过滤器,将所述至少两个真实值以及所述至少两个预测值进行比较,并生成比较结果。根据所述比较结果,所述至少两个真实值的至少一部分被判断为异常。本申请基于分类器、预测器和比较器的功能以及机器学习算法生成异常报警***。根据所述服务数据的所述类别,***可以基于所述离线的历史服务数据值,获取一个或以上参数。进一步,所述一个或以上参数可以应用于在线预测器以及比较器,用来检测实时服务数据中的异常。本申请提高了数据存储管理中的异常报警能力。
图1是根据一些实施例所示的一种示例性线上到线下服务***100的模块图。例如,所述线上到线下服务***100可以是一提供运输服务的在线运输服务平台。所述线上到线下服务***100可以包括服务器110、网络120、服务请求者终端130、服务提供者终端140、车辆150、存储设备160和导航***170。
线上到线下服务***100可以提供多种服务。示例性的服务可以包括出租车呼叫服务、代驾服务、快递服务、拼车服务、公交车服务、司机招聘服务和接送服务。在一些实施例中,线上到线下服务可以是任意在线服务,如订餐、购物等或其任意组合。
在一些实施例中,服务器110可以是一单一服务器或一服务器组。所述服务器群可以是集中式的或分布式的(例如,服务器110可以是分布式的***)。在一些实施例中,服务器110可以是区域的或远程的。例如,服务器110可以通过网络120访问存储在服务请求者终端130、服务提供者终端140和/或存储设备160中的信息和/或数据。再例如,服务器110可以直接连接到服务请求者终端130、服务提供者终端140和/或存储设备160以访问存储的信息和/或数据。在一些实施例中,服务器110可以在一个云平台上实现。仅仅举个例子,所述云平台可以包括私有云、公共云、混合云、小区云、分布云、跨云、多云等或上述举例的任意组合。在一些实施例中,所述服务器110可以在具有本发明中的图10中示出的一个或以上组件的计算设备1000上实现。
在一些实施例中,服务器110可以包括处理引擎112。处理引擎112可以处理与服务请求相关的信息和/或数据以执行本申请描述的一个或以上功能。例如,处理引擎112可以确定至少两个真实值的至少一部分是异常的。在一些实施例中,处理引擎112可包括一个或者至少两个处理引擎(例如,单芯片处理引擎或多芯片处理引擎)。仅作为范例,处理引擎112可包括中央处理器(CPU)、特定应用集成电路(ASIC)、特定应用指令集处理器(ASIP)、图像处理器(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器或类似物或其任意组合。
网络120可以促进信息和/或数据的交换。在一些实施例中,线上到线下服务***100中的一个或以上部件(例如,服务器110、服务请求者终端130、服务提供者终端140、车辆150、存储设备160和导航***170)可以通过网络120向线上到线下服务***100中的其他部件发送信息和/或数据。例如,服务器110可以通过网络120从服务请求者终端130接收服务请求。在一些实施例中,网络120可以为任意形式的有线或无线网络,或其任意组合。仅作为范例,网络120可以是电缆网络、缆线网络、光纤网络、电信网络、内部网络、因特网、局域网络(LAN)、广域网(WAN)、无线局域网络(WLAN)、都会局域网络(MAN)、公用电话交换网(PSTN)、蓝牙网络,ZigBee网络、近场通讯(NFC)等或其任意组合。在一些实施例中,网络120可以包括一个或以上网络交换点。例如,网络120可以包括有线或无线网络交换点,如基站和/或因特网交换点120-1、120-2、…,通过交换点,线上到线下服务***100的一个或以上部件可以连接到网络120以交换数据和/或信息。
在一些实施例中,乘客可以是服务请求方终端130的所有者。在一些实施例中,服务请求者终端130的所有者可以是乘客以外的其他人。例如,服务请求者终端130的所有者A可以使用服务请求者终端130为乘客B发送一个服务请求或从服务器110接收服务和/或信息或指示。在一些实施例中,服务提供方者可以是服务提供者终端140的用户。在一些实施例中,服务提供者终端140的使用者可以是服务提供者外的其他人。例如,服务提供者终端140的用户C可以使用服务提供者终端140为用户D接收服务请求和/或从服务器110接收信息或指示。在一些实施例中,“乘客”和“乘客终端”可以交换使用,“服务提供者”和“服务提供者终端”可以交换使用。在一些实施例中,所述服务提供者终端可以与一个或以上服务提供者(例如,夜班服务提供商或白班服务提供商)相关。
在一些实施例中,请求方终端130可以包括移动装置130-1、平板计算机130-2、笔记本电脑130-3、车辆内置装置130-4等或上述举例的任意组合。在一些实施例中,移动装置130-1可以包括智能家居装置,可穿戴装置、智能移动装置、虚拟现实装置、增强实境装置等或其任意组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器的控制设备、智能监控设备、智能电视、智能摄像机、对讲机等,或其任意组合。在一些实施例中,可穿戴装置可以包括智能手环、智能鞋袜、智能眼镜、智能头盔、智能手表、智能衣物、智能背包、智能配饰等或上述举例的任意组合。在一些实施例中,智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)设备等,或其任意组合。在一些实施例中,虚拟现实设备和/或增强型虚拟现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、增强型虚拟现实头盔、增强型虚拟现实眼镜、增强型虚拟现实补丁等,或其任意组合。例如,虚拟现实设备和/或增强现实设备可以包括GoogleTM Glass,Oculus Rift,HoloLens,Gear VR等。在一些实施例中,车辆内置装置130-4可以包括车载电脑,车载电视等。在一些实施例中,服务请求者终端130可以是具有用于定位乘客和/或服务请求者终端130的位置的定位技术的设备。
服务提供者终端140可以包括至少两个服务提供者终端140-1、140-2、……、140-n。在一些实施例中,服务提供者终端140可以是与服务请求者终端130类似或者相同的装置。在一些实施例中,服务提供者终端140可以被定制为能够实现所述线上到线下运输服务。在一些实施例中,服务提供着终端140可以是一个带有定位技术的装置,该定位技术可以用于定位服务提供者、服务提供者终端140和/或与服务提供者终端相关的车辆150的位置。在一些实施例中,服务请求者终端130和/或服务提供者终端140可以与其他定位装置通信以确定乘客、服务请求者终端130、服务提供者和/或服务提供者终端140的位置。在一些实施例中,服务请求者终端130和/或服务提供者终端140可以周期性地将该定位信息发送至服务器110。在一些实施例中,服务提供者终端140也可以周期性地将可用状态发送至服务器110。所述可用状态可以表明与服务提供者终端140相关的车辆150是否可以接载乘客。例如,服务请求者终端130和/或服务提供者终端140可以每30分钟将所述定位信息和所述可用状态发送至服务器110。又例如,服务请求者终端130和/或服务提供者终端140可以在每次用户登录与线上到线下交通运输服务***相关的移动应用程序时将定位信息和可用状态发送至服务器110。
在一些实施例中,服务提供着终端140可以对应一个或以上车辆150。车辆150可以接载乘客并送至目的地。车辆150可以包括至少两个车辆150-1、150-2、……、150-n。一个车辆可以对应一种类型的服务(例如,出租车呼叫服务、代驾服务、快递服务、拼车服务、公交车服务、司机招聘服务和接送服务)。
存储设备160可以储存数据及/或指令。在一些实施例中,存储设备160可以存储从服务请求者终端130和/或服务提供者终端140获得的数据。在一些实施例中,存储设备160可以存储服务器110用来执行或使用来完成本申请中描述的示例性方法的数据及/或指令。在一些实施例中,存储设备160可包括大容量存储器、可移动存储器、挥发性读写内存、只读存储器(ROM)等或其任意组合。示例性大容量存储器可包括磁盘、光盘、软盘、固态硬盘等。示例性的可移动存储器可包括快闪驱动器、软盘、光盘、记忆卡、压缩盘、磁带等。示例性的随机存储器可以包括动态随机存储器(DRAM)、双数据率同步动态随机存储器(DDRSDRAM)、静态随机存储器(SRAM)、可控硅随机存储器(T-RAM)和零电容存储器(Z-RAM)等。示例性的只读存储器可以包括掩蔽型只读存储器(MROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(PEROM)、电可擦除可编程只读存储器(EEPROM)、压缩硬盘只读存储器(CD-ROM)和数字多功能硬盘只读存储器等在一些实施例中,存储设备160可以在云平台上实现。仅仅举个例子,所述云平台可以包括私有云、公共云、混合云、小区云、分散云、内部云、多重云等中的一种或类似或其任意组合。
在一些实施例中,存储设备160可以与网络120连接以与线上到线下服务***100的一个或以上部件(例如,服务器110、服务请求方终端130、服务提供方终端140等)通信。线上到线下服务***100的一个或以上组件可以通过网络120访问存储在存储设备160中的数据或指令。在一些实施例中,存储设备160可以直接与线上到线下服务***100的一个或以上部件(例如,服务器110、服务请求方终端130、服务提供方终端140等)连接或通信。在一些实施例中,存储设备160可以是服务器110的一部分。
所述导航***170可以确定与对象相关的信息,例如,一个或以上服务请求者终端130,服务提供者终端140中,车辆150等。在一些实施例中,导航***170可以是全球定位***(GPS)、全球导航卫星***(GLONASS)、指南针导航***(COMPASS)、北斗导航卫星***、伽利略定位***、准天顶卫星***(QZSS)等。所述信息可包括对象的位置、海拔、速度、加速度或当前时间。导航***170可以包括一个或以上卫星,例如,卫星170-1、卫星170-2和卫星170-3。卫星170-1至170-3可以独立地或共同地确定上述信息。卫星导航***170可以通过无线连接将上述信息发送至网络120、服务请求者终端130、服务提供者终端140或车辆150。
在一些实施例中,线上到线下服务***100的一个或以上部件(例如,服务器110、服务请求方终端130、服务提供方终端140等)可以拥有访问存储设备160的权限。在一些实施例中,当满足一个或以上条件时,线上到线下服务***100的一个或以上部件可以读取和/或修改与乘客、服务提供者和/或公众相关的信息。例如,一个服务完成后,服务器110可以读取和/或修改一个或以上乘客的信息。又例如,一个服务完成后,服务器110可以读取和/或修改一个或以上服务提供者的信息。
在一些实施例中,线上到线下服务***100的一个或以上部件的信息交换可以通过请求一个服务的方式实现。服务请求的对象可以为任何产品。在一些实施例中,所述产品可以包括食品、医药、商品、化学产品、电器、衣物、小汽车、房屋、奢侈品等或上述举例的任意组合。在一些实施例中,所述产品可以包括服务产品、金融产品、知识产品、互联网产品等或上述举例的任意组合。互联网产品可以包括个人主机产品、网站产品、移动互联网产品、商业主机产品、嵌入式产品等或上述举例的任意组合。所述移动互联网产品可以用于移动终端的软件、程序、***等或类似或其任意组合。所述移动终端可以包括平板计算机、笔记本电脑、移动电话、个人数字助理(PDA)、智能手表、销售点装置(POS)、车载电脑、车载电视、可穿戴装置等或其任意组合。例如,所述产品可以是在计算机或移动电话上使用的任一软件和/或应用程序。所述软件和/或应用程序可涉及社交、购物、交通、娱乐、学习、投资等或其任意组合。在一些实施例中,所述与交通相关的软件和/或应用程序可以包括出行软件和/或应用程序、交通工具调度软件和/或应用程序、地图软件和/或应用程序等。在所述交通工具调度软件和/或应用程序中,交通工具可以包括马、马车、人力车(例如独轮手推车、自行车、三轮车等)、汽车(例如,出租车、公共汽车、私家车等)、火车、地铁、船舶、飞行器(例如,飞机、直升机、航天飞机、火箭、热气球等)等其任意组合。
图2是根据本申请的一些实施例所示的一个计算装置200的示例性硬件和软件的示意图。服务器110、服务请求者终端130和/或服务提供者终端140可以在计算装置200上实现。例如,处理引擎112可以在计算装置200上实施并执行本申请所披露的处理引擎112的功能。
计算装置200可以是通用计算机或专用计算机,两者都可以被用于实现本申请公开的线上到线下服务***。计算装置200可以用来实现本申请所描述的线上到线下服务的任意部件。例如,处理引擎112可以在计算装置200上通过其硬件、软件程序、固件或其组合实现。虽然只示出了一个这样的计算机,但为了方便起见,与在此描述的线上到线下服务相关的计算机功能可以以分布式的方式在至少两个类似平台上实现,以分散处理负载。
例如,计算装置200可以包括与网络连接的通讯端口250,以实现数据通讯。计算装置200可以包括处理器(例如,所述处理器220),可以以一个或以上处理器的形式执行程序指令。示例性的计算设备可以包括一个内部通讯总线210、不同形式的程序存储器和数据存储器包括,例如,硬盘270和只读存储器(ROM)230或随机存储器(RAM)240,用于存储由计算设备处理和/或传输的各种各样的数据文件。示例性的计算设备也可以包括存储在只读存储器230、随机存储器240和/或其他类型的非暂态存储介质中的由处理器220执行的程序指令。本申请公开的方法及/或过程可以作为程序指令来实施。计算装置200也包括输入/输出部件260,用于支持计算机与此处其他部件之间的输入/输出。计算装置200也可以通过网络通讯接收程序和数据。
仅仅为了说明,图2中仅示出了一个CPU和/或处理器。也可以包括至少两个中央处理器及/或处理器;因此本申请中描述的由一个CPU和/或处理器实现的操作和/或方法也可以共同地或独立地由至少两个CPU和/或处理器实现。例如,在本申请中,如果计算装置200的中央处理单元和/或处理器执行步骤A和步骤B,应当理解的是步骤A和步骤B可以由计算装置200的两个不同的中央处理单元和/或处理器共同或分别执行(例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B)。
图3是根据本申请的一些实施例所示的示例性移动装置300的示例性软件和/或硬件的示意图。如图3所示,所述移动装置300可以包括通信模块310、显示器320、图形处理单元(GPU)330、处理器340、输入/输出接口350、内存360和存储器390在一些实施例中,任何其他合适的组件,包括但不限于***总线或控制器(未示),也可被包括于移动装置300内。在一些实施例中,移动操作***370(例如,iOSTM、AndroidTM、Windows PhoneTM),和一个或以上应用程序380可从存储器390加载到内存360中以便由处理器340执行。应用程序380可以包括浏览器或任何其他合适的应用程序,用于传输、接收及呈现与车辆140的状态(例如,所述车辆140的位置)相关的信息或服务器110中的其他信息。用户交互信息流可以经由输入/输出350获取,并经由网络120提供给服务器110和/或线上到线下服务***100的其他组件。
图4是根据本申请的一些实施例所示的示例性处理引擎112的模块图。所述处理引擎112可以包括获取模块402、分类模块404、预测模块406、比较模块408和确定模块410。所述处理引擎112的至少一部分可以在如图2所示的计算设备、或如图3所示的移动设备上实现。
所述获取模块402可以用于,通过所述网络120,获取至少两个历史数据值以及与服务相关的至少两个真实值。该服务可以与所述线上到线下服务***100的业务线相关。所述业务线可以是通过所述线上到线下服务***100提供的任何服务,包括但不限于在线打车服务、在线汽车租赁、广告、互联网金融等一种或几种的组合。所述获取模块402还可以用于,通过所述网络120,获取与服务相关的、对应于所述至少两个预测值的至少两个真实值。所述至少两个预测值可以由所述预测模块406确定。
所述分类模块404可以用于判断与所述至少两个历史数据值相关的类别。所述分类模块404可以从所述至少两个历史数据值中提取至少两个特征。所述分类模块404可以基于所述至少两个特征的值将所述至少两个历史数据值分入所述类别。
所述预测模块406可以用于判断与所述服务相关的至少两个预测值。所述预测模块406可以基于与所述类别相关的预测模型确定至少两个预测值,所述类别由所述分类模块404确定。所述至少两个预测值可以与至少两个时间点实时相关。
所述比较模块408可以用于,使用至少一个过滤器,将所述至少两个真实值与所述至少两个预测值进行比较,以生成比较结果。所述至少一个过滤器可以包括离散过滤器、阈值过滤器和虚警过滤器。在一些实施例中,所述比较模块408可以使用所述离散过滤器、所述阈值过滤器和所述虚警过滤器中的每一个,将所述至少两个真实值与所述至少两个预测值进行比较,以产生所述比较结果。所述比较结果可以包括第一比较结果、第二比较结果和第三比较结果中的至少一个。所述比较模块408可以分别使用所述离散过滤器、所述阈值过滤器和所述虚警过滤器确定所述第一比较结果、所述第二比较结果和所述第三比较结果。
所述确定模块410可以用于,基于所述比较结果,确定所述至少两个真实值的至少一部分是异常的。所述第一比较结果、所述第二比较结果和所述第三比较结果中的每一个可以包括确定所述至少两个真实值的所述至少一部分是异常的。所述确定模块410可以判断所述至少两个真实值的所述至少一部分是异常的,或者是所述第一比较结果、所述第二比较结果和所述第三比较结果的组合之一。
需要注意的是,以上对于所述处理引擎112的描述,仅为描述方便,并不能把本申请限制在所举实施例范围之内。对于本领域的普通技术人员来说,根据本公开的教导可以做出多种变化和修改。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。例如所述预测模块406以及所述确定模块410可以被集成到单个模块中以执行它们的功能。
图5是根据本申请的一些实施例所示的用于基于比较结果确定所述至少两个真实值的至少一部分是异常的示例性流程500的流程图。在一些实施例中,所述处理引擎112可以执行所述流程500来确定所述至少两个真实值的所述至少一部分是异常的。在图5所示的用于确定所述至少两个真实值的所述至少一部分是异常的所述流程500的一个或以上操作,可以在图1中所示的所述线上到线下服务***100中实现。例如,图5中所示的所述流程500可以以指令的形式存储在所述存储设备160中,并且由所述处理引擎112(例如,如图2所示的所述计算设备200的所述处理器210,如图3中所示的所述移动设备300的所述中央处理器340)调用和/或执行。
在502中,所述处理引擎112(例如,所述获取模块402)可以通过所述网络120获取与服务相关的至少两个历史数据值。该服务可以与所述线上到线下服务***100的业务线相关。所述业务线可以是通过所述线上到线下服务***100提供的任何服务,包括但不限于在线打车服务、在线汽车租赁、广告、互联网金融等一种或几种的组合。
在目前的应用程序中,所述服务可以以在线打车服务的形式进行描述,但不应该被解释为仅将所述服务限制为在线打车服务的形式。在一些实施例中,所述在线打车服务可以与服务请求方、服务提供方和服务请求相关。所述服务请求可以包括实时请求和/或预约请求。如本文所用,实时请求可以是,所述请求方希望在对本领域普通技术人员而言的当前时刻或合理地接近当前时刻的规定时间内使用运输服务的请求。例如,如果定义的时间短于阈值,如1分钟、5分钟、10分钟或20分钟,请求可以是实时请求。预约请求可以表明请求方希望在一个对于本领域普通技术人员而言与当前时刻相当远的定义时刻,使用运输服务。例如,如果定义时刻长于一个阈值时,如20分钟、2小时或1天,请求可以是一个预约请求。在一些实施例中,所述处理引擎112可以基于一个时间阈值来定义所述实时请求或所述预约请求。所述时间阈值可以是***100的默认设置,或者可以根据不同的情况进行调整。例如,在交通尖峰期,所述时间阈值可以相对较小(例如,10分钟)。在闲置期间(例如,上午10点至上午12点),所述时间阈值可以相对较大(例如,1小时)。
所述服务请求可以包括起点、终点、开始时间、持续时间等。该起点可以指服务提供方接载乘客的地点。该终点可以指服务提供方放下乘客的位置。该起始时间可以指乘客被接载的时间,或服务提供方(例如,司机)接收或确认服务请求的时间。该持续时间可以是服务提供方运载乘客从所述起点到与服务请求相关的所述终点的时间。
所述至少两个历史数据值可以与所述服务相关。在一些实施例中,所述至少两个历史数据值可以包括至少两个服务请求、服务请求的至少两个持续时间、服务请求的至少两个起点等一种或几种的组合。所述至少两个历史数据值可以与至少两个时间点(例如,服务请求的开始时间)相关。在目前的应用程序中,所述历史数据值可以以至少两个服务请求的形式来描述,但不应该被解释为将所述历史数据值限制为只有所述至少两个服务请求的形式。
所述至少两个历史数据值可以形成时间序列(此后也被称为“序列”)。例如,所述序列可以是(p1,p2,p3,…,pi-1,pi,…pn)。在该序列中,每个值都可以与一个时间点(例如,服务请求的开始时间)相关。与值pi-1和pi相关的时间点可以分别是ti-1和ti。所述时间点ti-1可以早于所述时间点ti。在一些实施例中,该值pi可以是该时间点ti处的服务请求数。
在504中,所述处理引擎112(例如,所述分类模块404)可以确定与所述至少两个历史数据值相关的类别。所述处理引擎112可以分析与所述至少两个历史数据值相关的所述序列。所述处理引擎112然后可以从所述序列中提取至少两个特征。关于所述至少两个特征的更多描述可以在本申请中的其他地方找到,例如,图9以及其描述。
在一些实施例中,所述至少两个特征可以与所述服务(例如,在线打车服务)相关,所述服务对应于所述至少两个历史数据值。所述至少两个特征可以包括发展年限、业务量、业务流水、利润等一种或几种的组合。所述处理引擎112可以基于所述至少两个历史数据值确定所述至少两个特征的值。
所述处理引擎112可以基于所述至少两个特征值,将所述至少两个历史数据值分类入类别。该类别可以表示与所述服务相关的特性。该类别可以是基于两套笛卡尔积构造的。第一套可以包括周期性、非周期性等元素。第二套可以包括生长期、稳定期、衰退期等元素。在一些实施例中,所述类别可以包括具有周期性的生长期、具有周期性的稳定期、具有周期性的衰退期、具有非周期性的生长期、具有非周期性的稳定期、以及具有非周期性的衰退期等。在另一个实施例中,所述类别可以包括第一套或第二套中的一个元素。关于该类别的更多描述可以在本申请中的其他地方找到,例如,图9以及其描述。
所述处理引擎112可以确定用于将所述至少两个历史数据值进行分类的分类器。所述处理引擎112可以通过第三方确定与至少两个历史数据值相关的类别。所述处理引擎112可以基于与所述至少两个历史数据值相关的特征值以及该类别确定训练集。所述处理引擎112可以基于所述训练集,使用模型(例如,梯度提升决策树模型(GBDT)模型)确定分类器。所述分类器可以将其他历史数据值(例如,至少两个序列)进行分类。该分类结果可以被添加到所述训练集中。所述分类器可以通过使用新的训练集随时间进行更新。所述处理引擎112可以基于最新的分类器将所述至少两个历史数据值分类入类别。在一些实施例中,所述处理引擎112可以基于该最新的分类器将所述至少两个历史数据值分类入多于一个类别。
在506中,所述处理引擎112(例如,所述预测模块406)可以基于与所述类别相关的预测模型确定至少两个与所述服务相关的预测值。所述至少两个预测值可以与真实时间中的至少两个第一时间点。例如,所述至少两个第一时间点可以包括(t1,t2,t3,…,tj-1,tj,…tm)。与所述至少两个历史数据值类似,所述至少两个预测值也可以组成一个序列。
如果该类别与周期性相关,则所述处理引擎112可以使用算法(例如,指数平滑算法)来确定所述至少两个预测值。所述处理引擎112可以使用该算法来确定与所述至少两个历史数据值相关的统计参数。所述统计参数可以由残差函数、趋势函数和/或季节性函数表示。
在一些实施例中,所述处理引擎112可以基于所述统计参数确定预测模型。所述处理引擎112可以基于所述预测模型确定所述至少两个预测值。关于所述至少两个预测值的确定的更多描述可以在本申请中找到,例如,图6以及其描述。
如果所述类别与非周期性相关,则所述处理引擎112可以周期性地在一个时间点收集所述历史数据值。在一些实施例中,如果所述处理引擎112在下周一的一个时间点确定预测值(例如服务请求的数量),则可以收集至少两个在过去的几个星期的每星期一的该时间点的服务请求。所述处理引擎112可以根据所述收集到的服务请求数量确定下周一时间点的预测值。
在508中,所述处理引擎112(例如,所述获取模块402)可以通过所述网络120获取与所述服务相关的、对应于所述至少两个预测值的至少两个真实值。所述至少两个真实值可以与至少两个第二时间点相关。所述至少两个第二时间点以及所述至少两个第一时间点可以是一对一的对应关系。可选地或附加地,所述至少两个第二时间点以及所述至少两个第一时间点的一部分可以是一对一的对应关系。
对于所述至少两个第二时间点中的每一个,都可以有一个对应于该第二时间点的真实值。所述至少两个真实值可以指完成服务(例如,服务请求)后与该服务相关的值(例如,服务请求的数量)。所述至少两个真实值可以被存储在所述存储设备160中。与所述至少两个历史数据值类似,所述至少两个真实值也可以组成一个序列。在一些实施例中,所述至少两个真实值以及所述至少两个预测值可以是配对的。对于所述至少两个预测值中的每一个,所述处理引擎112可以获取对应于所述至少两个预测值中的每一个的真实值。所述至少两个预测值中的每一个以及该对应的真实值可以与相同的时间点相关。
在510中,所述处理引擎112可以使用至少一个过滤器,将所述至少两个真实值与所述至少两个预测值进行比较,以生成比较结果。所述至少一个过滤器可以包括离散过滤器、阈值过滤器和虚警过滤器。在一些实施例中,所述比较模块408可以使用所述离散过滤器、所述阈值过滤器和所述虚警过滤器中的每一个,将所述至少两个真实值与所述至少两个预测值进行比较,以产生所述比较结果。
所述比较结果可以包括第一比较结果、第二比较结果和第三比较结果中的至少一个。所述处理引擎112可以将所述至少两个真实值与所述至少两个预测值进行比较,以基于所述离散过滤器生成所述第一比较结果。关于所述第一比较结果的更多描述可以在本申请中的其他地方找到的,例如,在图中7以及其描述。
所述处理引擎112可以基于所述阈值过滤器,将所述至少两个真实值与所述至少两个预测值进行比较,以生成所述第二比较结果。关于所述第二比较结果的更多描述可以是在本申请中其他地方找到的,例如,图8以及其描述。
所述处理引擎112可以基于所述虚警过滤器,将所述至少两个真实值与所述至少两个预测值进行比较,以生成所述第三比较结果。所述处理引擎112可以获取与服务数据相关的预先标记的数据集。所述预先标记的数据集可以包含至少两个虚警的结果。所述至少两个虚警结果可以是指由所述线上到线下服务***100确定为异常的、后期由所述第三方纠正为正常的真实值。所述至少两个虚警结果也可以是指由所述线上到线下服务***100确定为正常的、后期由所述第三方纠正为异常的真实值。
在一些实施例中,所述处理引擎112(例如,所述比较模块408)可以基于所述预先标记的数据集确定模型。所述处理引擎112可以通过基于所述预先标记的数据集训练分类模型来确定所述模型。所述分类模型可以包括GBDT模型、随机森林模型等。所述处理引擎112可以使用所述至少两个真实值和/或所述至少两个预测值作为所述模型的输入。然后所述处理引擎112可以基于所述模型获取所述第三比较结果。
在512中,所述处理引擎112可以根据所述比较结果确定所述至少两个真实值的至少一部分是异常的。所述比较结果可以包括所述第一比较结果、所述第二比较结果和所述第三比较结果中的至少一个。所述第一比较结果、所述第二比较结果和所述第三比较结果中的每一个可以包括确定所述至少两个真实值的所述至少一部分是异常的。
所述处理引擎112可以根据所述比较结果确定所述至少两个真实值的所述至少一部分是异常的。例如,如果所述第一比较结果、所述第二比较结果和所述第三比较结果中的一个包括确定所述至少两个真实值的所述至少一部分是异常的,所述处理引擎112可以确定,所述至少两个真实值的所述至少一部分是异常的。又例如,如果所述第一比较结果、所述第二比较结果和所述第三比较结果中的两个包括确定所述至少两个真实值的所述至少一部分是异常的,所述处理引擎112可以确定,所述至少两个真实值的所述至少一部分是异常的。再例如,如果所述第一比较结果、所述第二比较结果和所述第三比较结果中的每一个都包括确定所述至少两个真实值的所述至少一部分是异常的,所述处理引擎112可以确定,所述至少两个真实值的所述至少一部分是异常的。所述处理引擎112可以从至少两个真实值中忽略所述至少两个真实值的所述至少一部分。
应当注意的是,以上关于确定所述至少两个真实值的所述至少一部分是异常的流程,这是为了说明目的而提供的,并且不应该作为唯一的实施例。对于本领域技术人员而言,在理解确定所述至少两个真实值的所述至少一部分是异常的流程的一般原理后,在不脱离原理的前提下,可以修改或改变特定实用方式的形式或细节以及步骤,以及进一步做简单的演绎或替换,或者可以进行某些步骤的修改或组合,而无需进行创造性的努力。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。附加地或可选地,一个或以上步骤可以被省略。在一些实施例中,两个或更多步骤可以被集成到一个步骤中,或者一个步骤可以被分成两个步骤。在一些实施例中,506以及508可以被合并为一个操作。
图6是根据本申请的一些实施例所示的用于确定至少两个预测值的示例性流程600的流程图。在一些实施例中,所述处理引擎112可以执行所述流程600来确定所述至少两个预测值。在图6中所示的用于确定所述至少两个预测值的所述流程600的一个或以上操作,可以在图1中所示的所述线上到线下服务***100中实现。例如,图6中所示的所述流程600可以以指令的形式存储在所述存储设备160中,并且由所述处理引擎112(例如,如图2所示的所述计算设备200的所述处理器210,如图3中所示的所述移动设备300的所述中央处理器340)调用和/或执行。
在602中,所述处理引擎112(例如,所述预测模块406)可以确定所述类别与周期性相关。例如,所述类别可以是周期性的生长周期、周期性的稳定周期以及周期性的衰落周期之一。与周期相关的所述类别可以指示所述至少两个历史数据值是周期性的。
在604中,所述处理引擎112(例如,所述预测模块406)可以根据所述类别确定与所述至少两个历史数据值相关的统计参数。所述处理引擎112可以使用时间序列方法来分析所述至少两个历史数据值。所述时间序列方法可以包括移动平均模型、自回归模型、自回归移动平均模型、指数平滑模型等一种或几种的组合。所述指数平滑模型可以包括基本指数平滑模型、双指数平滑模型、三指数平滑模型等一种或几种的组合。
在一些实施例中,所述处理引擎112可以基于所述指数平滑模型(例如,三重指数平滑模型)确定所述统计参数。所述统计参数可以包括残差函数、趋势函数和季节性函数。所述残差函数、所述趋势函数和所述季节性函数都可以是时间函数。
在606中,所述处理引擎112(例如,所述预测模块406)可以基于所述统计参数生成预测模型。在一些实施例中,所述处理引擎112可以基于所述残差函数、所述趋势函数和所述季节性函数确定所述预测模型。例如,所述预测模型可以由等式(1)表示:
pt+h=a(t)+h·b(t)+s[t-k+1+(h-1)modk] (1)
其中a(t)可以表示所述残差函数,b(t)可以表示所述趋势函数,s(t)可以表示所述季节性函数,pt+h可以表示所述预测值,t可以表示当前时间点,h可以表示从所述当前时间点t到与所述预测值pt+h相关的时间点的时间间隔,k可以表示与所述至少两个历史数据值相关的所述周期,“mod”可以表示模数运算。
在608中,所述处理引擎112(例如,所述预测模块406)可以基于所述预测模型确定所述至少两个预测值。所述处理引擎112可以获取与所述至少两个预测值相关的时间点。所述处理引擎112可以基于与所述至少两个预测值相关的时间点,使用等式(1)来确定至少两个预测值。
应当注意的是,以上关于确定所述至少两个预测值的流程,是为了说明目的而提供的,并且不应该作为唯一的实施例。对于本领域技术人员而言,在理解确定所述至少两个预测值的流程的一般原理后,在不脱离原理的前提下,可以修改或改变特定实用方式的形式或细节以及步骤,以及进一步做简单的演绎或替换,或者可以进行某些步骤的修改或组合,而无需进行创造性的努力。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。附加地或可选地,一个或以上步骤可以被省略。在一些实施例中,两个或更多步骤可以被集成到一个步骤中,或者一个步骤可以被分成两个步骤。
图7是根据本申请的一些实施例所示的用于确定所述至少两个真实值的所述至少一部分是异常的示例性流程700的流程图。在一些实施例中,所述处理引擎112可以执行所述流程700来确定所述至少两个真实值的所述至少一部分是异常的。所述处理引擎112可以通过执行所述流程700,基于所述离散过滤器确定所述第一比较结果。在图7中所示的用于确定所述至少两个真实值的所述至少一部分是异常的流程700的一个或以上操作,可以在图1中所示的所述线上到线下服务***100中实现。例如,图7中所示的所述流程700可以以指令的形式存储在所述存储设备160中,并且由所述处理引擎112(例如,如图2所示的所述计算设备200的所述处理器210,如图3中所示的所述移动设备300的所述中央处理器340)调用和/或执行。
在702中,所述处理引擎112(例如,所述比较模块408)可以根据所述至少两个预测值和所述至少两个真实值确定统计值。所述处理引擎112可以分别将所述至少两个预测值以及所述至少两个真实值确定为样本序列。所述处理引擎112可以对所述两个样本序列进行配对t测试。然后,所述处理引擎112可以根据所述配对好的t测试来确定所述统计值。所述统计值可以与所述至少两个预测值以及所述至少两个真实值的分散程度相关。
在704中,所述处理引擎112(例如,所述比较模块408)可以将所述统计值与第一阈值进行比较,以生成所述第一比较结果。所述第一阈值可以是所述***中设置的预定值。所述第一阈值可以是根据实时条件进行调整的。在一些实施例中,所述第一阈值可以是任意值,包括0.5、0.7、1等。所述处理引擎112可以将所述统计值与所述第一阈值进行比较。然后,所述处理引擎112可以确定所述统计值是否大于第一阈值。
在706中,响应于所述第一比较结果,即所述统计值大于第一阈值,所述处理引擎112(例如所述比较模块408)可以确定所述至少两个真实值的所述至少一部分是异常的。如果所述处理引擎112确定所述统计值小于所述第一阈值,则所述处理引擎112可以确定所述至少两个真实值是正常的。如果所述处理引擎112确定所述统计值大于所述第一阈值,则所述处理引擎112可以确定所述至少两个真实值的所述至少一部分是异常的。所述第一比较结果可以表明所述至少两个真实值的所述至少一部分是异常的。所述处理引擎112可以从至少两个真实值中省略所述至少两个真实值的所述至少一部分。
图8是根据本申请的一些实施例所示的用于确定所述至少两个真实值的所述至少一部分是异常的示例性流程800的流程图。在一些实施例中,所述处理引擎112可以执行所述流程800来确定所述至少两个真实值的所述至少一部分是异常的。所述处理引擎112可以通过执行所述流程800确定所述第二比较结果。在图8中所示的用于确定所述至少两个真实值的所述至少一部分是异常的所述流程800的一个或以上操作,可以在图1中所示的所述线上到线下服务***100中实现。例如,图8中所示的所述流程800可以以指令的形式存储在所述存储设备160中,并且由所述处理引擎112(例如,如图2所示的所述计算设备200的所述处理器210,如图3中所示的所述移动设备300的所述中央处理器340)调用和/或执行。
在802中,所述处理引擎112(例如,所述比较模块408)可以使用所述阈值过滤器来确定所述至少两个预测值以及所述至少两个真实值之间的至少两个差值。对于每个差值,所述预测值以及所述对应的真实值可以与相同的时间点相关。对于所述至少两个预测值的至少一部分中的每一个,所述处理引擎112可以根据所述预测值和所述对应的真实值来确定差值。
在804中,所述处理引擎112(例如,所述比较模块408)可以基于时间函数确定至少两个第二阈值。所述处理引擎112可以根据所述至少两个历史数据值作为序列被分类到的所述类别来确定所述时间函数。所述处理引擎112可以基于所述时间函数确定所述至少两个第二阈值。对于所述至少两个第一时间点和/或所述至少两个第二时间点中的所述至少一部分的每一个,所述处理引擎112可以基于所述时间点以及所述时间函数确定第二阈值。相应地,所述处理引擎112可以确定所述至少两个第二阈值。
在806中,所述处理引擎112(例如,所述比较模块408)可以将所述至少两个差值中的每一个与对应的第二阈值进行比较。对于一个时间点,所述处理引擎112可以确定一个差值以及对应的第二阈值。对于所述第一时间点和/或所述第二时间点的至少一部分中的每一个,所述处理引擎112可以确定与该时间点相关的差值是否大于对应的第二阈值。
在808中,响应于所述比较结果是所述至少两个差值中的每一个大于对应的第二阈值,所述处理引擎112(例如,所述比较模块408)可以确定所述至少两个真实值的所述至少一部分是异常的。如果所述处理引擎112分别确定所述至少两个差值中的一部分小于对应的第二阈值,则所述处理引擎112可以确定所述至少两个真实值是正常的。如果所述处理引擎112确定所述至少两个差值中的每一个大于对应的第二阈值,则所述处理引擎112可以确定所述至少两个真实值的所述至少一部分是异常的。所述第二比较结果可以表明所述至少两个真实值的所述至少一部分是异常的。所述处理引擎112可以从所述至少两个真实值中省略所述至少两个真实值的所述至少一部分。
应当注意的是,以上关于确定所述至少两个真实值的所述至少一部分是异常的流程,这是为了说明目的而提供的,并且不应该作为唯一的实施例。对于本领域技术人员而言,在理解确定所述至少两个真实值的所述至少一部分是异常的流程的一般原理后,在不脱离原理的前提下,可以修改或改变特定实用方式的形式或细节以及步骤,以及进一步做简单的演绎或替换,或者可以进行某些步骤的修改或组合,而无需进行创造性的努力。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。附加地或可选地,一个或以上步骤可以被省略。在一些实施例中,两个或更多步骤可以被集成到一个步骤中,或者一个步骤可以被分成两个步骤。
图9是根据本申请的一些实施例所示的与至少两个业务线相关的表格900。表900中可以示出四个业务线ID 902。对于业务线ID 902,所述处理引擎112可以获取至少两个历史数据值。所述处理引擎112可以分析所述至少两个历史数据值,并从所述至少两个历史数据值中提取四个特征。所述四个特征可以包括第一特征904(例如,发展年限)、第二特征906(例如,业务量)、第三特征908(例如业务流水)和第四特征910(例如,利润)。所述处理引擎112还可以确定所述第一特征904、所述第二特征906、所述第三特征908以及所述第四特征910的值。
对于每个业务线ID 902,所述处理引擎112可以使用所述业务线ID 902和所述四个特征的值作为分类器的输入。所述处理引擎112可以基于所述分类器确定所述业务线ID被分到的类别。因此,所述至少两个与所述业务ID相关的历史数据值被分类到该类别中。在表910中示出了四个类别(第一类别912、第二类别914、第三类别916和第四类别918)。所述四个类别中的每一个都可以与步骤504中描述的两套笛卡尔积相关。
在一些实施例中,业务线ID被分到的所述类别的值可以被设置为1,业务线ID未被分到的其他类别的值可以被设置为0。如表900所示,所述业务线ID 1被分类为第一类。所述业务线ID 2被分为第二类。所述业务线ID 3被分类为第三类。所述业务线ID 4被分类为第四类。
对于每个业务线ID,所述处理引擎112可以使用所述四个特征的值以及所述业务线ID被分到的所述类别来更新与所述分类器相关的所述训练集。所述分类器可以基于所述与分类器相关的更新训练集进行更新。
应当注意的是,以上关于表格的描述是为了说明的目的而提供的,以及不应该作为唯一的实施例。对于本领域技术人员而言,在理解确定所述至少两个真实值的所述至少一部分是异常的流程的一般原理后,在不脱离原理的前提下,可以修改或改变特定实用方式的形式或细节以及步骤,以及进一步做简单的演绎或替换,或者可以进行某些步骤的修改或组合,而无需进行创造性的努力。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。例如每个业务线ID的特征数可以是任何其他值而不是4。业务线ID分类的类别的值可以是任何其他值而不是0。所述表格900中显示的类别的数量可以是任何其他值而不是4。
上文已对基本概念做了描述,显然,对于阅读此申请后的本领域的普通技术人员来说,上述发明披露仅作为示例,并不构成对本申请的限制。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。这些修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定术语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提到的“实施例”、“一个实施例”或“替代性实施例”并不一定是指同一实施例。此外,本申请的一个或以上实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域具有通常知识者可以理解,本申请的各态样可以通过若干具有可以专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。因此,本申请的实施例可以在纯硬件或纯软件中实施,其中软件包括但不限于操作***、常驻软件或微代码等;也可以在同时包含硬件和软件的“***”、“模块”、“子模块”、“单元”等中实施。此外,本申请的各态样可以表现为位于一个或以上计算机可读媒体中的计算机产品,所述产品包括计算机可读程序编码。
计算机可读信号介质可以包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。所述传播讯号可以有多种表现形式,包括电磁形式、光形式等或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质、或任何上述介质的组合。
本申请各方面操作所需的计算机程序码可以用一个或以上程序语言的任意组合编写,包括面向对象程序设计,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET,Python或类似的常规程序编程语言,如“C”编程语言,Visual Basic,Fortran1703,Perl,COBOL 1702,PHP,ABAP,动态编程语言如Python,Ruby和Groovy或其它编程语言。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的***组件可以通过硬件装置实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动装置上安装所描述的***。
同理,应当注意的是,为了简化本申请公开的表述,从而帮助对一个或以上发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种公开方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,要求保护的主题可能少于单个前述公开的实施例的全部特征。
Claims (9)
1. 一种数据存储异常检测***,包括:
存储一组指令集的存储设备;以及
一个或以上与所述存储设备进行通信的处理器,其中,当执行所述指令集时,所述一个或以上处理器被配置为使所述***:
通过网络获取与服务相关的至少两个历史数据值;
确定与所述至少两个历史数据值相关的至少两个特征值;
基于所述至少两个特征值,确定与所述至少两个历史数据值相关的类别;所述类别表示与所述服务相关的特性,所述类别包括具有周期性的生长期、具有周期性的稳定期、具有周期性的衰减期、具有非周期性的生长期、具有非周期性的稳定期、或具有非周期性的衰退期;
基于与所述类别相关的预测模型,确定与所述服务相关的至少两个预测值,每个预测值对应于一个时间点;
通过网络获取与所述服务相关的、对应于所述至少两个预测值的至少两个真实值;
使用离散过滤器,基于所述至少两个预测值和所述至少两个真实值,确定统计值,所述统计值与所述至少两个预测值和所述至少两个真实值的离散程度相关;
将所述统计值和第一阈值进行比较,确定第一比较结果;
使用阈值过滤器,确定所述至少两个预测值和所述至少两个真实值之间的至少两个差值;
基于时间函数确定至少两个第二阈值;
将所述至少两个差值中的每一个与其对应的第二阈值进行比较,确定第二比较结果,所述至少两个差值中的每一个和所述与其对应的第二阈值与相同的时间点相关;
基于与服务数据相关的预标记数据集,确定虚警模型,所述预标记数据集包括所述***产生的至少两个虚警结果;
基于所述虚警模型,将所述至少两个虚警结果与所述至少两个真实值进行比较,确定第三比较结果;
基于所述第一比较结果、所述第二比较结果和所述第三比较结果中的至少一个,确定所述至少两个真实值的至少一部分是异常的。
2.根据权利要求1所述的***,其中,所述至少两个历史数据值形成时间序列。
3.根据权利要求1所述的***,其中,基于与所述类别相关的所述预测模型,为了确定与所述服务相关的所述至少两个预测值;所述一个或以上处理器进一步被配置为使所述***:
确定表明与所述服务相关的所述特性的所述类别与周期性相关;
基于所述与周期性相关的类别,确定与所述至少两个历史数据值相关的残差函数、趋势函数和季节性函数;
基于所述残差函数、所述趋势函数和所述季节性函数,生成所述预测模型;以及
基于所述预测模型,确定所述至少两个预测值。
4. 根据权利要求1所述的***,其中,为了获取与所述服务相关的、对应于所述至少两个预测值的所述至少两个真实值,所述一个或以上处理器进一步被配置为使所述***:
获取与所述至少两个预测值的至少一部分相关的时间点;以及
基于所述与所述至少两个预测值的至少一部分相关的时间点,获取所述至少两个真实值。
5.在计算设备上实施的、用于数据存储中的异常检测的方法,所述计算设备包括至少一个处理器、存储器以及连接到网络的通信平台,所述方法包括:
通过网络获取与服务相关的至少两个历史数据值;
确定与所述至少两个历史数据值相关的至少两个特征值;
基于所述至少两个特征值,确定与所述至少两个历史数据值相关的类别;所述类别表示与所述服务相关的特性,所述类别包括具有周期性的生长期、具有周期性的稳定期、具有周期性的衰减期、具有非周期性的生长期、具有非周期性的稳定期、或具有非周期性的衰退期;
基于与所述类别相关的预测模型,确定与所述服务相关的至少两个预测值,每个预测值对应于一个时间点;
通过网络获取与所述服务相关的、对应于所述至少两个预测值的至少两个真实值;
使用离散过滤器,基于所述至少两个预测值和所述至少两个真实值,确定统计值,所述统计值与所述至少两个预测值和所述至少两个真实值的离散程度相关;
将所述统计值和第一阈值进行比较,确定第一比较结果;
使用阈值过滤器,确定所述至少两个预测值和所述至少两个真实值之间的至少两个差值;
基于时间函数确定至少两个第二阈值;
将所述至少两个差值中的每一个与其对应的第二阈值进行比较,确定第二比较结果,所述至少两个差值中的每一个和所述与其对应的第二阈值与相同的时间点相关;
基于与服务数据相关的预标记数据集,确定虚警模型,所述预标记数据集包括至少两个虚警结果;
基于所述虚警模型,将所述至少两个虚警结果与所述至少两个真实值进行比较,确定第三比较结果;
基于所述第一比较结果、所述第二比较结果和所述第三比较结果中的至少一个,确定所述至少两个真实值的至少一部分是异常的。
6.根据权利要求5所述的方法,其中,所述至少两个历史数据值形成时间序列。
7.根据权利要求5所述的方法,其中,基于与所述类别相关的所述预测模型,确定与所述服务相关的所述至少两个预测值包括:
确定表明与所述服务相关的所述特性的所述类别与周期性相关;
基于所述与周期性相关的类别,确定与所述至少两个历史数据值相关的残差函数、趋势函数和季节性函数;
基于所述残差函数、所述趋势函数和所述季节性函数,生成所述预测模型;以及
基于所述预测模型,确定所述至少两个预测值。
8. 根据权利要求5所述的方法,其中,获取与所述服务相关的、对应于所述至少两个预测值的所述至少两个真实值,包括:
获取与所述至少两个预测值的至少一部分相关的时间点;以及
基于所述与所述至少两个预测值的至少一部分相关的时间点,获取所述至少两个真实值。
9.一种非暂态计算机可读介质,包括至少一组用于数据存储异常检测的指令集,其中,当被至少一个处理器执行时,所述至少一组指令集指示所述至少一个处理器:
通过网络获取与服务相关的至少两个历史数据值;
确定与所述至少两个历史数据值相关的至少两个特征值;
基于所述至少两个特征值,确定与所述至少两个历史数据值相关的类别;所述类别表示与所述服务相关的特性,所述类别包括具有周期性的生长期、具有周期性的稳定期、具有周期性的衰减期、具有非周期性的生长期、具有非周期性的稳定期、或具有非周期性的衰退期;
基于与所述类别相关的预测模型,确定与所述服务相关的至少两个预测值,每个预测值对应于一个时间点;
通过网络获取与所述服务相关的、对应于所述至少两个预测值的至少两个真实值;
使用离散过滤器,基于所述至少两个预测值和所述至少两个真实值,确定统计值,所述统计值与所述至少两个预测值和所述至少两个真实值的离散程度相关;
将所述统计值和第一阈值进行比较,确定第一比较结果;
使用阈值过滤器,确定所述至少两个预测值和所述至少两个真实值之间的至少两个差值;
基于时间函数确定至少两个第二阈值;
将所述至少两个差值中的每一个与其对应的第二阈值进行比较,确定第二比较结果,所述至少两个差值中的每一个和所述与其对应的第二阈值与相同的时间点相关;
基于与服务数据相关的预标记数据集,确定虚警模型,所述预标记数据集包括至少两个虚警结果;
基于所述虚警模型,将所述至少两个虚警结果与所述至少两个真实值进行比较,确定第三比较结果;
基于所述第一比较结果、所述第二比较结果和所述第三比较结果中的至少一个,确定所述至少两个真实值的至少一部分是异常的。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/090357 WO2019232773A1 (en) | 2018-06-08 | 2018-06-08 | Systems and methods for abnormality detection in data storage |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110945484A CN110945484A (zh) | 2020-03-31 |
CN110945484B true CN110945484B (zh) | 2024-01-19 |
Family
ID=68769638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880001318.8A Active CN110945484B (zh) | 2018-06-08 | 2018-06-08 | 数据存储中异常检测的***和方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110945484B (zh) |
WO (1) | WO2019232773A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762569A (zh) * | 2020-10-15 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
CN113688385B (zh) * | 2021-07-20 | 2023-04-07 | 电子科技大学 | 轻量级分布式入侵检测方法 |
CN114915542A (zh) * | 2022-04-28 | 2022-08-16 | 远景智能国际私人投资有限公司 | 数据异常的告警方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101729301A (zh) * | 2008-11-03 | 2010-06-09 | ***通信集团湖北有限公司 | 网络异常流量监测方法和监测*** |
CN106126391A (zh) * | 2016-06-28 | 2016-11-16 | 北京百度网讯科技有限公司 | ***监控方法和装置 |
WO2017157069A1 (en) * | 2016-03-14 | 2017-09-21 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for predicting service time point |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890803B (zh) * | 2011-07-21 | 2016-01-06 | 阿里巴巴集团控股有限公司 | 电子商品异常交易过程的确定方法及其装置 |
CN105323111B (zh) * | 2015-11-17 | 2018-08-10 | 南京南瑞集团公司 | 一种运维自动化***及方法 |
CN107153882B (zh) * | 2016-03-03 | 2021-10-15 | 北京嘀嘀无限科技发展有限公司 | 乘客打车时刻分布区间的预测方法和*** |
CN105871879B (zh) * | 2016-05-06 | 2019-03-05 | 中国联合网络通信集团有限公司 | 网元异常行为自动检测方法及装置 |
-
2018
- 2018-06-08 WO PCT/CN2018/090357 patent/WO2019232773A1/en active Application Filing
- 2018-06-08 CN CN201880001318.8A patent/CN110945484B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101729301A (zh) * | 2008-11-03 | 2010-06-09 | ***通信集团湖北有限公司 | 网络异常流量监测方法和监测*** |
WO2017157069A1 (en) * | 2016-03-14 | 2017-09-21 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for predicting service time point |
CN106126391A (zh) * | 2016-06-28 | 2016-11-16 | 北京百度网讯科技有限公司 | ***监控方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110945484A (zh) | 2020-03-31 |
WO2019232773A1 (en) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108701279B (zh) | 用于确定未来运输服务时间点的预测分布的***和方法 | |
CN109478275B (zh) | 分配服务请求的***和方法 | |
JP6687772B2 (ja) | サービス時点を予測するシステム及び方法 | |
US11546729B2 (en) | System and method for destination predicting | |
US11398002B2 (en) | Systems and methods for determining an estimated time of arrival | |
US20200166654A1 (en) | Systems and methods for determining a path of a moving device | |
CN114944059B (zh) | 确定预估到达时间的方法与*** | |
WO2018214361A1 (en) | Systems and methods for improvement of index prediction and model building | |
TWI675184B (zh) | 用於路線規劃的系統、方法及非暫時性電腦可讀取媒體 | |
TW201901474A (zh) | 用於確定預估到達時間的系統和方法 | |
CN111507732B (zh) | 用于识别相似轨迹的***和方法 | |
TW201903659A (zh) | 用於確定預估到達時間的系統和方法 | |
JP2019505032A (ja) | サービスの順序列を更新するためのシステム及び方法 | |
CN110945484B (zh) | 数据存储中异常检测的***和方法 | |
JP2021506007A (ja) | オンラインツーオフラインサービスに関する推定された到着時間を決定するためのシステムおよび方法 | |
CN110869951A (zh) | 预测线上到线下服务中目的地的***和方法 | |
CN111133484A (zh) | 用于评估与指定的驾驶服务相关的调度策略的***和方法 | |
WO2019001403A1 (en) | SYSTEMS AND METHODS FOR DATA STORAGE AND DATA INTERROGATION | |
US20200302362A1 (en) | Systems and methods for cheat examination | |
CN110832513B (zh) | 用于按需服务的***和方法 | |
CN111860926B (zh) | 用于预测服务需求信息的***和方法 | |
CN112106067B (zh) | 一种用于用户分析的***和方法 | |
CN110832811B (zh) | 用于发送空间数据的***和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |