CN112085053A

CN112085053A - 一种基于最近邻方法的数据漂移判别方法及装置

Info

Publication number: CN112085053A
Application number: CN202010749770.1A
Authority: CN
Inventors: 李锐; 金长新
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-12-15
Anticipated expiration: 2040-07-30
Also published as: CN112085053B

Abstract

本申请公开了一种基于最近邻方法的数据漂移判别方法及装置，用以解决现有的判断数据漂移的算法往往都存在需要消耗大量的计算力，方案复杂，不易操作的问题。方法包括：服务器获取标准参考数据组；服务器获取测试数据组；服务器针对所述测试数据组里每个待测试数据，基于最近邻域算法，判断该待测试数据与所述标准参考数据组的相似性，以及该待测试数据与所述测试数据组的相似性；服务器根据所述测试数据组中每个待测试数据的相似性判断结果，判断所述测试数据组是否发生数据漂移。

Description

一种基于最近邻方法的数据漂移判别方法及装置

技术领域

本申请涉及概念漂移领域，尤其涉及一种基于最近邻方法的数据漂移判别方法及装置。

背景技术

随着网络应用的普遍和发展，各行业的数据正在以数据流的形式不断产生，具有海量、快速变化的特点。例如，在工业领域，传感器需要不断采集新的数据；在电商领域，商家需要不断获取用户的行为数据。

针对同一对象，在不同时间采集到的数据称为时间序列数据，其可用于描述对象随时间变化的情况。但是，在很多领域中，数据分布可能会随着时间产生不可预测的变化，导致数据漂移，而数据漂移会导致现有的数据模型不能应用于新的数据。因此，为了选择合适的数据模型，数据分析者就需要判断数据中是否存在数据漂移。

目前，存在一种判断是否发生数据漂移的算法，为三支决策树概念算法。这种算法需要在检测过程中，用决策树对训练数据进行分类，然后根据各子树的分类错误率，将它们划入三支决策的L域、R域、M域中。其中L域、R域、M域分别代表数据没有发生漂移，数据发生漂移，数据可能发生漂移。

但是，现有的判断数据漂移的算法，包括上述三支决策树概念算法，往往都存在需要消耗大量的计算力，方案复杂，不易操作的问题。

发明内容

本申请实施例提供了一种基于最近邻方法的数据漂移判别方法及装置，用以解决现有的数据漂移判断方法计算量大、复杂不实用的问题。

一方面，本申请实施例提供了一种基于最近邻方法的数据漂移判别方法，所述方法包括：

服务器获取标准参考数据组；

服务器获取测试数据组；

服务器针对所述测试数据组里每个待测试数据，基于最近邻域算法，判断该待测试数据与所述标准参考数据组的相似性，以及该待测试数据与所述测试数据组的相似性；

服务器根据所述测试数据组中每个待测试数据的相似性判断结果，判断所述测试数据组是否发生数据漂移。

在一个示例中，所述标准参考数据组的产生时间早于所述测试数据组的产生时间。

在一个示例中，服务器获取测试数据组之前，所述方法还包括：服务器确定测试数据窗口，所述测试数据窗口用于存储所述测试数据组。

在一个示例中，服务器针对所述测试数据组里每个待测试数据，基于最近邻域算法，判断该待测试数据与所述标准参考数据组的相似性，以及该待测试数据与所述测试数据组的相似性，包括：服务器计算所述待测试数据与所述标准参考数据组中每个数据的距离，以及所述待测试数据与所述测试数据组中每个剩余数据的距离；基于所述待测试数据与所述标准参考数据组中每个数据的距离，以及所述待测试数据与所述测试数据组中每个剩余数据的距离，选取距离所述待测试数据最近的前K条数据，所述K为预设参数；基于所述K条数据，判断所述待测试数据与所述标准参考数据组和所述待测试数据组的相似性。

在一个示例中，所述预设参数K为奇数。

在一个示例中，服务器基于所述K条数据，判断所述待测试数据与所述标准参考数据组和所述待测试数据组的相似性，包括：确定所述K条数据中属于所述标准数据组的数据的数量，作为第一数量；确定所述K条数据中属于所述测试数据组的数据的数量，作为第二数量；若所述第一数量大于所述第二数量，则所述待测试数据与所述标准参考数据组相似；若所述第一数量小于所述第二数量，则所述待测试数据与所述待测试数据组相似。

在一个示例中，服务器根据所述测试数据组中每个所述待测试数据的相似性判断结果，判断所述测试数据组是否发生数据漂移，包括：确定所述测试数据组中与所述标准参考数据组相似的待测试数据的数量，作为第三数量；确定所述测试数据组中与所述测试数据组相似的待测试数据的数量，作为第四数量；若所述第三数量大于所述第四数量，则所述测试数据组未发生数据漂移；若所述第三数量小于所述第四数量，则所述测试数据发生数据漂移。

在一个示例中，服务器计算所述待测试数据与所述标准参考数据组中每个数据的距离，以及所述待测试数据与所述测试数据组中每个剩余数据的距离，包括：基于欧式距离公式，计算所述待测试数据与所述标准参考数据组中每个数据的距离，以及所述待测试数据与所述测试数据组中每个剩余数据的距离；所述欧式距离公式为：

其中，D(x,y)表示所述待测试数据与相应数据之间的距离，(x₁，y₁)表示所述待测试数据的坐标，(x₂，y₂)表示所述相应数据的坐标。

在一个示例中，所述方法还包括：若所述测试数据组发生漂移，则将数据漂移结果发送给相应的边缘设备，以使所述边缘设备对所述测试数据组进行相应的数据处理。

另一方面，本申请实施例还提供了一种基于最近邻方法的数据漂移判别装置，所述装置包括：

第一获取模块，用于获取标准参考数据组；

第二获取模块，用于获取测试数据组；

第一判断模块，用于针对所述测试数据组里每个待测试数据，基于最近邻域算法，判断该待测试数据与所述标准参考数据组的相似性，以及该待测试数据与所述测试数据组的相似性；

第二判断模块，用于根据所述测试数据组中每个待测试数据的相似性判断结果，判断所述测试数据组是否发生数据漂移。

本申请实施例提供的一种基于最近邻方法的数据漂移判别方法及装置，至少包括以下有益效果：通过KNN算法判断测试数据组是否发生漂移，实现方法简单高效，易于理解，无需估计参数，消耗计算力小。标准参考数据组的设计能够增加判断测试数据组是否发生数据漂移的稳定性、鲁棒性。同时，该方法能够使用在边缘设备，与传感器进行结合使用，能在第一时间发现数据发生的变化，并且及时对该数据进行相应的数据处理。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的基于最近邻方法的数据漂移判别方法流程图；

图2为本申请实施例提供的KNN算法原理示意图；

图3为本申请实施例提供的基于最近邻方法的数据漂移判别装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面通过附图对本申请实施例提出的技术方案进行详细的说明。

图1为本申请实施例提供的基于最近邻方法的数据漂移判别方法流程图，本方法包括以下步骤：

S101：服务器获取标准参考数据组。

在本申请实施例中，服务器从采集设备采集的时间序列数据中或数据库预存的时间序列数据中，任意获取一段数据作为标准参考数据组。其中，采集设备可以是传感器等其他设备。

标准参考数据组是若干标准参考数据的集合。标准参考数据组符合任意一种统计分布，可用于以其统计分布为依据，判断测试数据组的统计分布与标准参考数据组的统计分布是否相同，从而判断测试数据组是否发生数据漂移。

其中，标准参考数据组的长度可以根据需要设置，本申请对此不做限定。

S102：服务器获取测试数据组。

在本申请实施例中，服务器从采集设备采集的时间序列数据中或数据库存储的时间序列数据中，获取测试数据组。

测试数据组是本申请中需要判断其是否发生数据漂移的数据集合。测试数据组中包含若干条待测试数据。测试数据组内的待测试数据的维度可以根据需要设置，本申请对此不做限定。

在一个实施例中，基于时间序列数据随时间可能发生变化的特性，服务器可从采集设备所采集的时间序列数据中，获取存在时间差异的测试数据组和标准参考数据组。并且标准参考数据组的产生时间应当早于测试数据组的产生时间，以便根据预知统计分布的标准参考数据组来判断测试数据组是否属于同一种统计分布。

在一个实施例中，服务器在获取测试数据组之前，可确定一个测试数据窗口。测试数据窗口是便于存放测试数据组的存储单元，用于存放测试数据组。因此，测试数据组的长度(即测试数据组中包括的待测试数据的数量)与测试数据窗口的长度相同。测试数据窗口的长度可以根据测试数据组的长度需要设置，本申请对此不做限定。

S103：服务器针对测试数据组里每个待测试数据，基于最近邻域算法，判断该待测试数据与标准参考数据组的相似性，以及该待测试数据与测试数据组的相似性。

在本申请实施例中，服务器针对测试数据窗口中的测试数据组里的每个待测试数据，基于最近邻(K-NearestNeighbor，KNN)方法，判断测试数据组内所选待测试数据与标准参考数据组和测试数据组的相似性。

其中，待测试数据是从测试数据组内任选的一条数据，将该条数据与测试数据组中剩余数据和标准参考数据组中的数据进行比较，以判断该条数据与标准参考数据组和测试数据组的相似性。

在一个实施例中，判断该待测试数据与测试数据组和标准参考数据组的相似性的步骤包括：

第一，计算该待测试数据与测试数据组中剩余数据的距离，以及该待测试数据与标准参考数据组内所有数据的距离。

其中，待测试数据与其他数据的距离可以表示为待测试数据与相应数据的相似性。距离越近，则表示待测试数据与相应数据的相似程度越高，距离越远，则表示待测试数据与相应数据的相似程度越低。

第二，将第一步得到的该待测试数据与测试数据组中剩余数据的距离，以及该待测试数据与标准参考数据组内所有数据的距离进行排序。

第三，确定预设参数K，并根据K值选取距离该待测试数据最近的K条数据。

第四，基于K条数据判断该待测试数据与标准参考数据组和测试数据组的相似性。

在一个实施例中，服务器基于欧式距离公式，计算待测试数据与标准参考数据组中每个数据的距离，以及待测试数据与测试数据组中每个剩余数据的距离。

以二维数据为例，欧式距离公式为：

其中，D(x,y)表示待测试数据与相应数据之间的距离，(x₁，y₁)表示待测试数据的坐标，(x₂，y₂)表示相应数据的坐标。

在一个实施例中，服务器在基于K条数据判断该待测试数据与标准参考数据组和测试数据组的相似性时，可确定K条数据中属于标准参考数据组的数据的数量，作为第一数量，并确定K条数据中属于测试数据组的数据的数量，作为第二数量。

若第一数量大于第二数量，表示在这K条数据中，标准参考数据组中与待测试数据相似的数据的数量更多，可认为待测试数据与标准参考数据组的相似程度更高，则待测试数据与标准参考数据组相似。

若第一数量小于第二数量，表示在这K条数据中，测试数据组中与待测试数据相似的数据的数量更多，可认为待测试数据与测试数据组的相似程度更高，则待测试数据与测试数据组相似。

若第一数量等于第二数量，表示在这K条数据中，测试数据组中与待测试数据相似的数据的数量和标准参考数据组中与待测试数据相似的数据的数量相同，可认为待测试数据与标准参考数据组的相似程度和待测试数据与测试数据组的相似程度相同，则无法判断待测试数据与标准参考数据组和测试数据组的相似性。

在一个实施例中，K的取值优选为奇数。这样可以避免因为K值取偶数而出现的距离待测试数据的前K条数据中标准参考数据组的数据数量和测试数据组的数据数量相同的情况，在这种情况下就无法判断待测试数据和标准参考数据组以及测试数据组的相似性，避免了不确定性因素的出现。

为了方便说明，本申请以二维数据为例进行说明。

图2为本申请实施例提供的KNN算法原理示意图。如图2所示，x轴和y轴分别表示数据的不同维度，

分别代表标准参考数据组和测试数据组，

内的圆圈表示标准参考数据组中的数据，

内的正方形表示测试数据组中的数据，Xu代表待测试数据。

服务器判断待测试数据与标准参考数据组和测试数据组的相似性的步骤包括：

第一步：服务器分别计算X_u与

内所有点的距离。

第二步：服务器将第一步得到的X_u与

内所有点的距离基于欧式距离公式进行排序。

第三步：服务器选取预设参数K＝5，选取距离X_u最近的5个点，如图中箭头所指。

第四步：判断X_u与

的相似性。由图2可知，与X_u距离最近的5个点中，有4个数据点属于标准参考数据组

1个数据点属于测试数据组

所以该待测试数据与标准参考数据组中的数据相似的多，可确定待测试数据与标准参考数据组相似。

S104：服务器根据测试数据组中每个待测试数据的相似性判断结果，判断测试数据组是否发生数据漂移。

在本申请实施例中，服务器根据测试数据组中每个待测试数据与标准参考数据组和测试数据组的相似性，判断测试数据组是否发生数据漂移。

在一个实施例中，服务器确定测试数据组中与标准参考数据组相似的待测试数据的数量，作为第三数量。服务器确定测试数据组中与测试数据组相似的待测试数据的数量，作为第四数量。

若第三数量大于第四数量，表示测试数据组中，与标准参考数据组相似的待测试数据的数量大于与测试数据组相似的待测试数据的数量，测试数据组中大部分数据的统计分布与标准参考数据组一致，则测试数据组未发生数据漂移。

若第三数量小于第四数量，表示测试数据组中，与标准参考数据组相似的待测试数据的数量小于与测试数据组相似的待测试数据的数量，测试数据组中大部分数据的统计分布与标准参考数据组不一致，则测试数据组发生数据漂移。

若第三数量等于第四数量，表示测试数据组中与标准参考数据组相似的待测试数据的数量等于与测试数据组相似的待测试数据的数量，则无法判断测试数据组是否发生数据漂移。

在一个实施例中，服务器采集的测试数据组的数量优选为奇数。这样可以避免因为测试数据组的数量为偶数时，出现上述第三数量等于第四数量的情况而导致无法判断测试数据组是否发生数据漂移，避免了不确定性因素的出现。

在一个实施例中，若测试数据组发生漂移，服务器将数据漂移结果发送给相应的边缘设备，以使边缘设备能够及时监测到发生数据漂移的时间序列数据，并且及时对该时间序列数据进行相应的数据处理。例如，根据时间序列数据的统计分布变化，重新确定与之相适应的数据模型。

在本申请实施例中，服务器通过KNN算法判断测试数据组是否发生漂移，实现方法简单高效，易于实现，易于理解，无需估计参数，无需训练，消耗计算力小。

通过设计标准参考数据组也实现了对测试数据组的有效监督，提高对测试数据组是否发生数据漂移判断的准确性，能够增加判断测试数据组是否发生数据漂移的稳定性、鲁棒性。

并且该方法能够使用在边缘设备，与传感器进行结合使用，能在第一时间发现数据发生的变化。

以上为本申请实施例提供的基于最近邻方法的数据漂移判别方法，基于同样的发明思路，本申请实施例还提供了相应的基于最近邻方法的数据漂移判别装置，如图3所示。

图3为本申请实施例提供的基于最近邻方法的数据漂移判别装置结构示意图，具体包括：

第一获取模块301，用于获取标准参考数据组；

第二获取模块302，用于获取测试数据组；

第一判断模块303，用于针对所述测试数据组里每个待测试数据，基于最近邻域算法，判断该待测试数据与所述标准参考数据组的相似性，以及该待测试数据与所述测试数据组的相似性；

第二判断模块304，用于根据所述测试数据组中每个待测试数据的相似性判断结果，判断所述测试数据组是否发生数据漂移。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于最近邻方法的数据漂移判别方法，其特征在于，所述方法包括：

服务器获取标准参考数据组；

获取测试数据组；

针对所述测试数据组里每个待测试数据，基于最近邻域算法，判断该待测试数据与所述标准参考数据组的相似性，以及该待测试数据与所述测试数据组的相似性；

根据所述测试数据组中每个待测试数据的相似性判断结果，判断所述测试数据组是否发生数据漂移。

2.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法，其特征在于，

所述标准参考数据组的产生时间早于所述测试数据组的产生时间。

3.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法，其特征在于，获取测试数据组之前，所述方法还包括：

服务器确定测试数据窗口，所述测试数据窗口用于存储所述测试数据组。

4.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法，其特征在于，针对所述测试数据组里每个待测试数据，基于最近邻域算法，判断该待测试数据与所述标准参考数据组的相似性，以及该待测试数据与所述测试数据组的相似性，包括：

计算所述待测试数据与所述标准参考数据组中每个数据的距离，以及所述待测试数据与所述测试数据组中每个剩余数据的距离；

基于所述待测试数据与所述标准参考数据组中每个数据的距离，以及所述待测试数据与所述测试数据组中每个剩余数据的距离，选取距离所述待测试数据最近的前K条数据，所述K为预设参数；

基于所述K条数据，判断所述待测试数据与所述标准参考数据组和所述待测试数据组的相似性。

5.根据权利要求4所述的一种基于最近邻方法的数据漂移判别方法，其特征在于，所述预设参数K为奇数。

6.根据权利要求4所述的一种基于最近邻方法的数据漂移判别方法，其特征在于，基于所述K条数据，判断所述待测试数据与所述标准参考数据组和所述待测试数据组的相似性，包括：

确定所述K条数据中属于所述标准数据组的数据的数量，作为第一数量；

确定所述K条数据中属于所述测试数据组的数据的数量，作为第二数量；

若所述第一数量大于所述第二数量，则所述待测试数据与所述标准参考数据组相似；

若所述第一数量小于所述第二数量，则所述待测试数据与所述待测试数据组相似。

7.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法，其特征在于，根据所述测试数据组中每个待测试数据的相似性判断结果，判断所述测试数据组是否发生数据漂移，包括：

确定所述测试数据组中与所述标准参考数据组相似的待测试数据的数量，作为第三数量；

确定所述测试数据组中与所述测试数据组相似的待测试数据的数量，作为第四数量；

若所述第三数量大于所述第四数量，则所述测试数据组未发生数据漂移；

若所述第三数量小于所述第四数量，则所述测试数据组发生数据漂移。

8.根据权利要求4所述的一种基于最近邻方法的数据漂移判别方法，其特征在于，计算所述待测试数据与所述标准参考数据组中每个数据的距离，以及所述待测试数据与所述测试数据组中每个剩余数据的距离，包括：

基于欧式距离公式，计算所述待测试数据与所述标准参考数据组中每个数据的距离，以及所述待测试数据与所述测试数据组中每个剩余数据的距离；

所述欧式距离公式为：

9.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法，其特征在于，所述方法还包括：

若所述测试数据组发生漂移，则将数据漂移结果发送给相应的边缘设备，以使所述边缘设备对所述测试数据组进行相应的数据处理。

10.一种基于最近邻方法的数据漂移判别装置，其特征在于，所述装置包括：

第一获取模块，用于获取标准参考数据组；

第二获取模块，用于获取测试数据组；