CN112085053A - 一种基于最近邻方法的数据漂移判别方法及装置 - Google Patents

一种基于最近邻方法的数据漂移判别方法及装置 Download PDF

Info

Publication number
CN112085053A
CN112085053A CN202010749770.1A CN202010749770A CN112085053A CN 112085053 A CN112085053 A CN 112085053A CN 202010749770 A CN202010749770 A CN 202010749770A CN 112085053 A CN112085053 A CN 112085053A
Authority
CN
China
Prior art keywords
data
tested
test
test data
standard reference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010749770.1A
Other languages
English (en)
Other versions
CN112085053B (zh
Inventor
李锐
金长新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN202010749770.1A priority Critical patent/CN112085053B/zh
Publication of CN112085053A publication Critical patent/CN112085053A/zh
Application granted granted Critical
Publication of CN112085053B publication Critical patent/CN112085053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种基于最近邻方法的数据漂移判别方法及装置,用以解决现有的判断数据漂移的算法往往都存在需要消耗大量的计算力,方案复杂,不易操作的问题。方法包括:服务器获取标准参考数据组;服务器获取测试数据组;服务器针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性;服务器根据所述测试数据组中每个待测试数据的相似性判断结果,判断所述测试数据组是否发生数据漂移。

Description

一种基于最近邻方法的数据漂移判别方法及装置
技术领域
本申请涉及概念漂移领域,尤其涉及一种基于最近邻方法的数据漂移判别方法及装置。
背景技术
随着网络应用的普遍和发展,各行业的数据正在以数据流的形式不断产生,具有海量、快速变化的特点。例如,在工业领域,传感器需要不断采集新的数据;在电商领域,商家需要不断获取用户的行为数据。
针对同一对象,在不同时间采集到的数据称为时间序列数据,其可用于描述对象随时间变化的情况。但是,在很多领域中,数据分布可能会随着时间产生不可预测的变化,导致数据漂移,而数据漂移会导致现有的数据模型不能应用于新的数据。因此,为了选择合适的数据模型,数据分析者就需要判断数据中是否存在数据漂移。
目前,存在一种判断是否发生数据漂移的算法,为三支决策树概念算法。这种算法需要在检测过程中,用决策树对训练数据进行分类,然后根据各子树的分类错误率,将它们划入三支决策的L域、R域、M域中。其中L域、R域、M域分别代表数据没有发生漂移,数据发生漂移,数据可能发生漂移。
但是,现有的判断数据漂移的算法,包括上述三支决策树概念算法,往往都存在需要消耗大量的计算力,方案复杂,不易操作的问题。
发明内容
本申请实施例提供了一种基于最近邻方法的数据漂移判别方法及装置,用以解决现有的数据漂移判断方法计算量大、复杂不实用的问题。
一方面,本申请实施例提供了一种基于最近邻方法的数据漂移判别方法,所述方法包括:
服务器获取标准参考数据组;
服务器获取测试数据组;
服务器针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性;
服务器根据所述测试数据组中每个待测试数据的相似性判断结果,判断所述测试数据组是否发生数据漂移。
在一个示例中,所述标准参考数据组的产生时间早于所述测试数据组的产生时间。
在一个示例中,服务器获取测试数据组之前,所述方法还包括:服务器确定测试数据窗口,所述测试数据窗口用于存储所述测试数据组。
在一个示例中,服务器针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性,包括:服务器计算所述待测试数据与所述标准参考数据组中每个数据的距离,以及所述待测试数据与所述测试数据组中每个剩余数据的距离;基于所述待测试数据与所述标准参考数据组中每个数据的距离,以及所述待测试数据与所述测试数据组中每个剩余数据的距离,选取距离所述待测试数据最近的前K条数据,所述K为预设参数;基于所述K条数据,判断所述待测试数据与所述标准参考数据组和所述待测试数据组的相似性。
在一个示例中,所述预设参数K为奇数。
在一个示例中,服务器基于所述K条数据,判断所述待测试数据与所述标准参考数据组和所述待测试数据组的相似性,包括:确定所述K条数据中属于所述标准数据组的数据的数量,作为第一数量;确定所述K条数据中属于所述测试数据组的数据的数量,作为第二数量;若所述第一数量大于所述第二数量,则所述待测试数据与所述标准参考数据组相似;若所述第一数量小于所述第二数量,则所述待测试数据与所述待测试数据组相似。
在一个示例中,服务器根据所述测试数据组中每个所述待测试数据的相似性判断结果,判断所述测试数据组是否发生数据漂移,包括:确定所述测试数据组中与所述标准参考数据组相似的待测试数据的数量,作为第三数量;确定所述测试数据组中与所述测试数据组相似的待测试数据的数量,作为第四数量;若所述第三数量大于所述第四数量,则所述测试数据组未发生数据漂移;若所述第三数量小于所述第四数量,则所述测试数据发生数据漂移。
在一个示例中,服务器计算所述待测试数据与所述标准参考数据组中每个数据的距离,以及所述待测试数据与所述测试数据组中每个剩余数据的距离,包括:基于欧式距离公式,计算所述待测试数据与所述标准参考数据组中每个数据的距离,以及所述待测试数据与所述测试数据组中每个剩余数据的距离;所述欧式距离公式为:
Figure BDA0002609631380000031
其中,D(x,y)表示所述待测试数据与相应数据之间的距离,(x1,y1)表示所述待测试数据的坐标,(x2,y2)表示所述相应数据的坐标。
在一个示例中,所述方法还包括:若所述测试数据组发生漂移,则将数据漂移结果发送给相应的边缘设备,以使所述边缘设备对所述测试数据组进行相应的数据处理。
另一方面,本申请实施例还提供了一种基于最近邻方法的数据漂移判别装置,所述装置包括:
第一获取模块,用于获取标准参考数据组;
第二获取模块,用于获取测试数据组;
第一判断模块,用于针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性;
第二判断模块,用于根据所述测试数据组中每个待测试数据的相似性判断结果,判断所述测试数据组是否发生数据漂移。
本申请实施例提供的一种基于最近邻方法的数据漂移判别方法及装置,至少包括以下有益效果:通过KNN算法判断测试数据组是否发生漂移,实现方法简单高效,易于理解,无需估计参数,消耗计算力小。标准参考数据组的设计能够增加判断测试数据组是否发生数据漂移的稳定性、鲁棒性。同时,该方法能够使用在边缘设备,与传感器进行结合使用,能在第一时间发现数据发生的变化,并且及时对该数据进行相应的数据处理。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的基于最近邻方法的数据漂移判别方法流程图;
图2为本申请实施例提供的KNN算法原理示意图;
图3为本申请实施例提供的基于最近邻方法的数据漂移判别装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的基于最近邻方法的数据漂移判别方法流程图,本方法包括以下步骤:
S101:服务器获取标准参考数据组。
在本申请实施例中,服务器从采集设备采集的时间序列数据中或数据库预存的时间序列数据中,任意获取一段数据作为标准参考数据组。其中,采集设备可以是传感器等其他设备。
标准参考数据组是若干标准参考数据的集合。标准参考数据组符合任意一种统计分布,可用于以其统计分布为依据,判断测试数据组的统计分布与标准参考数据组的统计分布是否相同,从而判断测试数据组是否发生数据漂移。
其中,标准参考数据组的长度可以根据需要设置,本申请对此不做限定。
S102:服务器获取测试数据组。
在本申请实施例中,服务器从采集设备采集的时间序列数据中或数据库存储的时间序列数据中,获取测试数据组。
测试数据组是本申请中需要判断其是否发生数据漂移的数据集合。测试数据组中包含若干条待测试数据。测试数据组内的待测试数据的维度可以根据需要设置,本申请对此不做限定。
在一个实施例中,基于时间序列数据随时间可能发生变化的特性,服务器可从采集设备所采集的时间序列数据中,获取存在时间差异的测试数据组和标准参考数据组。并且标准参考数据组的产生时间应当早于测试数据组的产生时间,以便根据预知统计分布的标准参考数据组来判断测试数据组是否属于同一种统计分布。
在一个实施例中,服务器在获取测试数据组之前,可确定一个测试数据窗口。测试数据窗口是便于存放测试数据组的存储单元,用于存放测试数据组。因此,测试数据组的长度(即测试数据组中包括的待测试数据的数量)与测试数据窗口的长度相同。测试数据窗口的长度可以根据测试数据组的长度需要设置,本申请对此不做限定。
S103:服务器针对测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与标准参考数据组的相似性,以及该待测试数据与测试数据组的相似性。
在本申请实施例中,服务器针对测试数据窗口中的测试数据组里的每个待测试数据,基于最近邻(K-NearestNeighbor,KNN)方法,判断测试数据组内所选待测试数据与标准参考数据组和测试数据组的相似性。
其中,待测试数据是从测试数据组内任选的一条数据,将该条数据与测试数据组中剩余数据和标准参考数据组中的数据进行比较,以判断该条数据与标准参考数据组和测试数据组的相似性。
在一个实施例中,判断该待测试数据与测试数据组和标准参考数据组的相似性的步骤包括:
第一,计算该待测试数据与测试数据组中剩余数据的距离,以及该待测试数据与标准参考数据组内所有数据的距离。
其中,待测试数据与其他数据的距离可以表示为待测试数据与相应数据的相似性。距离越近,则表示待测试数据与相应数据的相似程度越高,距离越远,则表示待测试数据与相应数据的相似程度越低。
第二,将第一步得到的该待测试数据与测试数据组中剩余数据的距离,以及该待测试数据与标准参考数据组内所有数据的距离进行排序。
第三,确定预设参数K,并根据K值选取距离该待测试数据最近的K条数据。
第四,基于K条数据判断该待测试数据与标准参考数据组和测试数据组的相似性。
在一个实施例中,服务器基于欧式距离公式,计算待测试数据与标准参考数据组中每个数据的距离,以及待测试数据与测试数据组中每个剩余数据的距离。
以二维数据为例,欧式距离公式为:
Figure BDA0002609631380000061
其中,D(x,y)表示待测试数据与相应数据之间的距离,(x1,y1)表示待测试数据的坐标,(x2,y2)表示相应数据的坐标。
在一个实施例中,服务器在基于K条数据判断该待测试数据与标准参考数据组和测试数据组的相似性时,可确定K条数据中属于标准参考数据组的数据的数量,作为第一数量,并确定K条数据中属于测试数据组的数据的数量,作为第二数量。
若第一数量大于第二数量,表示在这K条数据中,标准参考数据组中与待测试数据相似的数据的数量更多,可认为待测试数据与标准参考数据组的相似程度更高,则待测试数据与标准参考数据组相似。
若第一数量小于第二数量,表示在这K条数据中,测试数据组中与待测试数据相似的数据的数量更多,可认为待测试数据与测试数据组的相似程度更高,则待测试数据与测试数据组相似。
若第一数量等于第二数量,表示在这K条数据中,测试数据组中与待测试数据相似的数据的数量和标准参考数据组中与待测试数据相似的数据的数量相同,可认为待测试数据与标准参考数据组的相似程度和待测试数据与测试数据组的相似程度相同,则无法判断待测试数据与标准参考数据组和测试数据组的相似性。
在一个实施例中,K的取值优选为奇数。这样可以避免因为K值取偶数而出现的距离待测试数据的前K条数据中标准参考数据组的数据数量和测试数据组的数据数量相同的情况,在这种情况下就无法判断待测试数据和标准参考数据组以及测试数据组的相似性,避免了不确定性因素的出现。
为了方便说明,本申请以二维数据为例进行说明。
图2为本申请实施例提供的KNN算法原理示意图。如图2所示,x轴和y轴分别表示数据的不同维度,
Figure BDA0002609631380000071
分别代表标准参考数据组和测试数据组,
Figure BDA0002609631380000072
内的圆圈表示标准参考数据组中的数据,
Figure BDA0002609631380000073
内的正方形表示测试数据组中的数据,Xu代表待测试数据。
服务器判断待测试数据与标准参考数据组和测试数据组的相似性的步骤包括:
第一步:服务器分别计算Xu
Figure BDA0002609631380000081
内所有点的距离。
第二步:服务器将第一步得到的Xu
Figure BDA0002609631380000082
内所有点的距离基于欧式距离公式进行排序。
第三步:服务器选取预设参数K=5,选取距离Xu最近的5个点,如图中箭头所指。
第四步:判断Xu
Figure BDA0002609631380000083
的相似性。由图2可知,与Xu距离最近的5个点中,有4个数据点属于标准参考数据组
Figure BDA0002609631380000084
1个数据点属于测试数据组
Figure BDA0002609631380000085
所以该待测试数据与标准参考数据组中的数据相似的多,可确定待测试数据与标准参考数据组相似。
S104:服务器根据测试数据组中每个待测试数据的相似性判断结果,判断测试数据组是否发生数据漂移。
在本申请实施例中,服务器根据测试数据组中每个待测试数据与标准参考数据组和测试数据组的相似性,判断测试数据组是否发生数据漂移。
在一个实施例中,服务器确定测试数据组中与标准参考数据组相似的待测试数据的数量,作为第三数量。服务器确定测试数据组中与测试数据组相似的待测试数据的数量,作为第四数量。
若第三数量大于第四数量,表示测试数据组中,与标准参考数据组相似的待测试数据的数量大于与测试数据组相似的待测试数据的数量,测试数据组中大部分数据的统计分布与标准参考数据组一致,则测试数据组未发生数据漂移。
若第三数量小于第四数量,表示测试数据组中,与标准参考数据组相似的待测试数据的数量小于与测试数据组相似的待测试数据的数量,测试数据组中大部分数据的统计分布与标准参考数据组不一致,则测试数据组发生数据漂移。
若第三数量等于第四数量,表示测试数据组中与标准参考数据组相似的待测试数据的数量等于与测试数据组相似的待测试数据的数量,则无法判断测试数据组是否发生数据漂移。
在一个实施例中,服务器采集的测试数据组的数量优选为奇数。这样可以避免因为测试数据组的数量为偶数时,出现上述第三数量等于第四数量的情况而导致无法判断测试数据组是否发生数据漂移,避免了不确定性因素的出现。
在一个实施例中,若测试数据组发生漂移,服务器将数据漂移结果发送给相应的边缘设备,以使边缘设备能够及时监测到发生数据漂移的时间序列数据,并且及时对该时间序列数据进行相应的数据处理。例如,根据时间序列数据的统计分布变化,重新确定与之相适应的数据模型。
在本申请实施例中,服务器通过KNN算法判断测试数据组是否发生漂移,实现方法简单高效,易于实现,易于理解,无需估计参数,无需训练,消耗计算力小。
通过设计标准参考数据组也实现了对测试数据组的有效监督,提高对测试数据组是否发生数据漂移判断的准确性,能够增加判断测试数据组是否发生数据漂移的稳定性、鲁棒性。
并且该方法能够使用在边缘设备,与传感器进行结合使用,能在第一时间发现数据发生的变化。
以上为本申请实施例提供的基于最近邻方法的数据漂移判别方法,基于同样的发明思路,本申请实施例还提供了相应的基于最近邻方法的数据漂移判别装置,如图3所示。
图3为本申请实施例提供的基于最近邻方法的数据漂移判别装置结构示意图,具体包括:
第一获取模块301,用于获取标准参考数据组;
第二获取模块302,用于获取测试数据组;
第一判断模块303,用于针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性;
第二判断模块304,用于根据所述测试数据组中每个待测试数据的相似性判断结果,判断所述测试数据组是否发生数据漂移。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于最近邻方法的数据漂移判别方法,其特征在于,所述方法包括:
服务器获取标准参考数据组;
获取测试数据组;
针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性;
根据所述测试数据组中每个待测试数据的相似性判断结果,判断所述测试数据组是否发生数据漂移。
2.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,
所述标准参考数据组的产生时间早于所述测试数据组的产生时间。
3.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,获取测试数据组之前,所述方法还包括:
服务器确定测试数据窗口,所述测试数据窗口用于存储所述测试数据组。
4.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性,包括:
计算所述待测试数据与所述标准参考数据组中每个数据的距离,以及所述待测试数据与所述测试数据组中每个剩余数据的距离;
基于所述待测试数据与所述标准参考数据组中每个数据的距离,以及所述待测试数据与所述测试数据组中每个剩余数据的距离,选取距离所述待测试数据最近的前K条数据,所述K为预设参数;
基于所述K条数据,判断所述待测试数据与所述标准参考数据组和所述待测试数据组的相似性。
5.根据权利要求4所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,所述预设参数K为奇数。
6.根据权利要求4所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,基于所述K条数据,判断所述待测试数据与所述标准参考数据组和所述待测试数据组的相似性,包括:
确定所述K条数据中属于所述标准数据组的数据的数量,作为第一数量;
确定所述K条数据中属于所述测试数据组的数据的数量,作为第二数量;
若所述第一数量大于所述第二数量,则所述待测试数据与所述标准参考数据组相似;
若所述第一数量小于所述第二数量,则所述待测试数据与所述待测试数据组相似。
7.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,根据所述测试数据组中每个待测试数据的相似性判断结果,判断所述测试数据组是否发生数据漂移,包括:
确定所述测试数据组中与所述标准参考数据组相似的待测试数据的数量,作为第三数量;
确定所述测试数据组中与所述测试数据组相似的待测试数据的数量,作为第四数量;
若所述第三数量大于所述第四数量,则所述测试数据组未发生数据漂移;
若所述第三数量小于所述第四数量,则所述测试数据组发生数据漂移。
8.根据权利要求4所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,计算所述待测试数据与所述标准参考数据组中每个数据的距离,以及所述待测试数据与所述测试数据组中每个剩余数据的距离,包括:
基于欧式距离公式,计算所述待测试数据与所述标准参考数据组中每个数据的距离,以及所述待测试数据与所述测试数据组中每个剩余数据的距离;
所述欧式距离公式为:
Figure FDA0002609631370000021
其中,D(x,y)表示所述待测试数据与相应数据之间的距离,(x1,y1)表示所述待测试数据的坐标,(x2,y2)表示所述相应数据的坐标。
9.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,所述方法还包括:
若所述测试数据组发生漂移,则将数据漂移结果发送给相应的边缘设备,以使所述边缘设备对所述测试数据组进行相应的数据处理。
10.一种基于最近邻方法的数据漂移判别装置,其特征在于,所述装置包括:
第一获取模块,用于获取标准参考数据组;
第二获取模块,用于获取测试数据组;
第一判断模块,用于针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性;
第二判断模块,用于根据所述测试数据组中每个待测试数据的相似性判断结果,判断所述测试数据组是否发生数据漂移。
CN202010749770.1A 2020-07-30 2020-07-30 一种基于最近邻方法的数据漂移判别方法及装置 Active CN112085053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010749770.1A CN112085053B (zh) 2020-07-30 2020-07-30 一种基于最近邻方法的数据漂移判别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010749770.1A CN112085053B (zh) 2020-07-30 2020-07-30 一种基于最近邻方法的数据漂移判别方法及装置

Publications (2)

Publication Number Publication Date
CN112085053A true CN112085053A (zh) 2020-12-15
CN112085053B CN112085053B (zh) 2022-08-26

Family

ID=73735200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010749770.1A Active CN112085053B (zh) 2020-07-30 2020-07-30 一种基于最近邻方法的数据漂移判别方法及装置

Country Status (1)

Country Link
CN (1) CN112085053B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170330109A1 (en) * 2016-05-16 2017-11-16 Purepredictive, Inc. Predictive drift detection and correction
CN109508733A (zh) * 2018-10-23 2019-03-22 北京邮电大学 一种基于分布概率相似度度量的异常检测方法
CN109686400A (zh) * 2018-12-14 2019-04-26 济南浪潮高新科技投资发展有限公司 一种富集程度检验方法、装置及可读介质、存储控制器
CN110149143A (zh) * 2019-05-16 2019-08-20 广东信通通信有限公司 光纤测试数据处理方法、装置、计算机设备和存储介质
CN110909813A (zh) * 2019-11-29 2020-03-24 四川万益能源科技有限公司 一种基于边缘算法的商业体异常用电检测方法
US20200116522A1 (en) * 2018-10-15 2020-04-16 Kabushiki Kaisha Toshiba Anomaly detection apparatus and anomaly detection method
CN111143413A (zh) * 2019-12-26 2020-05-12 太原科技大学 基于数据流概念漂移的异常检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170330109A1 (en) * 2016-05-16 2017-11-16 Purepredictive, Inc. Predictive drift detection and correction
US20200116522A1 (en) * 2018-10-15 2020-04-16 Kabushiki Kaisha Toshiba Anomaly detection apparatus and anomaly detection method
CN109508733A (zh) * 2018-10-23 2019-03-22 北京邮电大学 一种基于分布概率相似度度量的异常检测方法
CN109686400A (zh) * 2018-12-14 2019-04-26 济南浪潮高新科技投资发展有限公司 一种富集程度检验方法、装置及可读介质、存储控制器
CN110149143A (zh) * 2019-05-16 2019-08-20 广东信通通信有限公司 光纤测试数据处理方法、装置、计算机设备和存储介质
CN110909813A (zh) * 2019-11-29 2020-03-24 四川万益能源科技有限公司 一种基于边缘算法的商业体异常用电检测方法
CN111143413A (zh) * 2019-12-26 2020-05-12 太原科技大学 基于数据流概念漂移的异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘茂 等: "基于交叠数据窗距离测度概念漂移检测新方法", 《计算机应用》 *

Also Published As

Publication number Publication date
CN112085053B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
EP3462267A1 (en) Anomaly diagnosis method and anomaly diagnosis apparatus
Labatut et al. Evaluation of performance measures for classifiers comparison
CN103582884A (zh) 用于视觉搜索的稳健特征匹配
CN102176698A (zh) 一种基于迁移学习的用户异常行为检测方法
JP2010204966A (ja) サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。
Cao et al. Practical aspects of phylogenetic network analysis using PhyloNet
CN109949176A (zh) 一种基于图嵌入的社交网络中异常用户检测方法
CN114153888A (zh) 一种时间序列数据的异常值检测方法和装置
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
JP5027859B2 (ja) 信号識別方法および信号識別装置
KR101733708B1 (ko) 시스템으로부터 획득되는 측정 값들을 평가하기 위한 방법 및 시스템
CN110995153A (zh) 一种光伏电站的异常数据检测方法、装置及电子设备
CN108470194B (zh) 一种特征筛选方法及装置
CN111161097B (zh) 基于假设检验的事件检测算法检测开关事件的方法和装置
CN110348215B (zh) 异常对象识别方法、装置、电子设备及介质
Colby et al. Counterfactual Exploration for Improving Multiagent Learning.
CN111898637A (zh) 一种基于ReliefF-DDC特征选择算法
CN109766958B (zh) 一种用于数据融合的数据预处理方法及装置
CN106919650A (zh) 一种增量并行式动态图的结构异常检测方法
CN112085053B (zh) 一种基于最近邻方法的数据漂移判别方法及装置
CN105224954A (zh) 一种基于Single-pass去除小话题影响的话题发现方法
Trujillo et al. An empirical study of functional complexity as an indicator of overfitting in genetic programming
CN115713270B (zh) 一种同行互评异常评分检测及修正方法和装置
CN117014193A (zh) 一种基于行为基线的未知Web攻击检测方法
CN116579842A (zh) 基于用户行为数据的信用数据分析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220729

Address after: 250101 building S02, 1036 Chaochao Road, high tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: Floor 6, Chaochao Road, Shandong Province

Applicant before: JINAN INSPUR HIGH-TECH TECHNOLOGY DEVELOPMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant