CN115017125B

CN115017125B - 改进knn方法的数据处理方法和装置

Info

Publication number: CN115017125B
Application number: CN202210946851.XA
Authority: CN
Inventors: 李国权
Original assignee: Chenda Guangzhou Network Technology Co ltd
Current assignee: Chenda Guangzhou Network Technology Co ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-10-21
Anticipated expiration: 2042-08-09
Also published as: CN115017125A

Abstract

本发明公开一种改进KNN方法的数据处理方法和装置，涉及数据处理技术领域，解决的技术问题是数据处理，采用的技术方案是，一种改进KNN方法的数据处理方法和装置，包括以下步骤：步骤一、从数据库信息中获取数据信息，并对获取的数据信息进行降维处理，以获取低维度数据信息；步骤二、通过改进KNN算法模型对降维后的数据信息进行数据信息处理；步骤三、通过改进型误差评估函数对处理后的数据信息进行评估；步骤四、数据信息应用与分享，对获取的数据信息进行远程数据信息处理和数据分享。本发明通过数据降维、数据预处理、数据挖掘、误差分析和处理，大大提高了数据信息处理能力。

Description

改进KNN方法的数据处理方法和装置

技术领域

本发明涉及数据处理领域，且更确切地涉及一种改进KNN方法的数据处理方法和装置。

背景技术

数据处理，数据处理是***工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响了人类社会发展的进程。数据（Data）是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后，便成为信息。数据处理（dataprocessing）是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

现有技术通常采用数据统计的方法实现数据信息的处理，这种方法虽然在一定程度上提高数据处理能力，但在对数据信息进行分析和计算时，很难实现其分类和数据信息处理，整体数据信息处理能力较差，数据信息处理方法滞后。

发明内容

针对上述技术的不足，本发明公开一种改进KNN方法的数据处理方法和装置，通过数据降维、数据预处理、数据挖掘、误差分析和处理，大大提高了数据信息处理能力。

为了实现上述技术效果，本发明采用以下技术方案：

一种改进KNN方法的数据处理方法，其中包括以下步骤：

步骤一、从数据库信息中获取数据信息，并对获取的数据信息进行降维处理，以获取低维度数据信息；

步骤二、通过改进KNN算法模型对降维后的数据信息进行数据信息处理，改进KNN算法模型包括数据预处理步骤、数据分层步骤、数据KNN算法计算步骤和卷积分故障诊断步骤；

步骤三、通过改进型误差评估函数对处理后的数据信息进行评估；

步骤四、数据信息应用与分享，对获取的数据信息进行远程数据信息处理和数据分享。

作为本发明进一步的技术方案，降维处理的方法包括以下步骤：

（S11）通过重构矩阵数据信息的方式实现降维处理，并设置重构矩阵数据个数、数据维度和时间延迟；

（S12）通过平均交互信息法求解不同元素库的分布概率，并通过关联算法模型分析数据特征；

（S13）通过虚假邻点法计算数据信息的维数，通过比较不同数据信息的维数进而选择不同的数据分类，两个不同维度之间的序列通过特征对度量法实现数据库信息内不同元素之间的比较，公式为：

（1）

在公式（1）中，R表示数据维度，n表示向量，

表示重构前的矩阵数据信息，

表示重构后的矩阵数据信息；

与

表示重构矩阵数据之间的虚假邻点的关系，r 表示重构后增加的数据信息，u为重构矩阵数据信息最佳维度，重构后，重构矩阵数据的元素数据维度和降维后的数据维度之差大于10；

（S14）降维判断，当降维数据信息满足当前需求时，则输出数据信息，当降维数据信息不满足当前需求时，则重新进行降维计算。

作为本发明进一步的技术方案，数据分层为差分分层，差分分层的方法为：

将数据属性按照数量和种类划分为不同的属性，属性数据量从顶层到底层从少至多依次排列和分布；

计算不同数据属性之间的距离，假设数据集合中的某个数据信息为

，数据属性类别划分为

、

、

和

，则数据信息

距离数据属性类别

、

、

和

之间的距离为

、

；

将计算出的不同数据属性数据信息进行差分计算；当

时，其中

为常数，则数据信息

划分到

类。

作为本发明进一步的技术方案，数据KNN算法包括以下步骤：

（S21）选择大数据信息测试集合，根据不同的数据属性选择测试大数据信息向量集合；

（S22）训练大数据信息测试集合，通过分层类别，构建成 n 层树状形式；并通过最佳搜索算法实现大数据信息测试集合的数据搜索；

（S23）依次计算大数据信息测试集合与第 1-n 层大数据信息测试集合训练集中每个大数据信息的文本相似度；

通过欧式距离计算公式如下：

（2）

在公式（2）中，

表示大数据信息测试集合中测试信息的特征向量，

表示大数据信息测试集合中测试信息的特征向量的序列；

为第 1 层第j类的大数据信息测试集合中心向量，

表示大数据信息的类；M为大数据信息测试集合特征向量的维数；

为大数据信息测试集合向量的第 k 维；

表示第 k 维中第一层第j类的大数据信息测试集合向量；

（S24）按照文本相似度，在训练文本集中选出与测试文本最相似的

个文本；

（S25）在测试文本的

个近邻中，依次计算每类的权重，

表示权重值公式，计算式为

，其中

为数据信息，

表示第

类的大数据信息测试集合中测试信息的特征向量，

表示杰卡德相似系数，

为相似度计算公式，

表示相似度程度值，其中

的取值为1 或者0，如果

属于

，则函数

值为 1，否则为 0；

（S26）对计算的权重进行排序，对排序后的权重进行差分比较，当

时，其中

表示特征的数据集，则测试文本属于第 1 类，在对第二层进行相似度比较的时候，只需要比较第二层中第 1 类的子类；如果

，则继续进行判断，存在

，当

时，则测试本文属于1-

类中的其中一类，在对第二层进行比较时，只需要比较第二层中第 1 类中第

类的子类；如果

时，则继续进行判断；其中

表示排序后的向相邻权重的差分值，

表示设置的大数据信息测试集合阈值差分值，

表示存在

类大数据信息测试集合距离值的差分值。

作为本发明进一步的技术方案，卷积分故障诊断方法包括以下步骤：

通过扩张因果卷积与残差块构成故障诊断体系结构，残差块如公式（3）所示：

（3）

在公式（3）中，O是卷积分故障诊断模型输出层的输出变量，

表示分故障诊断模型输出层的输入变量，

表示深度学习的残差映射，在权重层之后，添加设置退出层，扩张因果卷积函数F（t）定义为：

（4）

公式（4）中，

是过滤器；

是神经网络的层级；

表示输入的时间序列信息；

为空洞参数，空洞间隔大小；

表示空洞卷积算子；

故障诊断体系结构的评估公式为：

（5）

公式（5）中，

表示大数据信息故障评估指标均值，T表示预测持续周期，

表示预测大数据信息故障体系结构的评估持续周期参数，

表示深度学习模型各项超参数，θ 表示故障诊断体系结构评价指标，

表示大数据信息故障诊断体系结构评价指标的参数，通过建立正交化的评估矩阵将大数据信息故障评估指标进行信息交叠，不同信息之间相互影响迭代过程为：

（6）

公式（6）中，α表示大数据信息故障评估指标相互交叠函数，β表示大数据信息之间相互影响迭代过程，根据大数据信息故障评估指标之间的迭代公式，对公式（6）矩阵建立算法程序，即：

（7）

公式（7）中，

表示大数据信息故障评估正交化安全矩阵，μ表示正交化矩阵编辑参数；然后将各项大数据信息故障评估指标数据通过施密特公式应用在数据信息智能预测平台中，在线测试获得最佳评估效果输出为：

（8）

公式（8）中，

表示验算的各项数据信息评估指标效果，m表示大数据信息架构节点数量，

表示大数据信息架构节点数量的变量值，通过判定评估指标效果，进而计算权重公式，权重公式为：

（9）

公式（9）中，

表示大数据信息故障评估指标权重。

作为本发明进一步的技术方案，改进型误差评估函数为

（10）

公式（10）中，包含有

组数据，其中

表示为大数据信息测试样本，

表示为大数据信息故障预测样本。

一种改进KNN方法的数据处理装置，包括：

数据获取模块，从数据库信息中获取数据信息，并对获取的数据信息进行降维处理，以获取低维度数据信息；

数据处理模块，通过改进KNN算法模型对降维后的数据信息进行数据信息处理；

数据评估模块，通过改进型误差评估函数对处理后的数据信息进行评估；

数据共享模块，数据信息应用与分享，对获取的数据信息进行远程数据信息处理和数据分享；

其中所述数据处理模块分别与数据获取模块、数据评估模块和数据共享模块连接。

本发明积极有益效果在于：

本发明通过从数据库信息中获取数据信息，并对获取的数据信息进行降维处理，以获取低维度数据信息；通过改进KNN算法模型对降维后的数据信息进行数据信息处理，改进KNN算法模型包括数据预处理步骤、数据分层步骤、数据KNN算法计算步骤和卷积分故障诊断步骤；通过改进型误差评估函数对处理后的数据信息进行评估；数据信息应用与分享，对获取的数据信息进行远程数据信息处理和数据分享。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明流程示意图；

图2为本发明中降维处理模型第一种实施例示意图；

图3为本发明中降维处理模型第二种实施例示意图；

图4为本发明中差分分层模型第一种实施例结构示意图；

图5为本发明中差分分层模型第二种实施例结构示意图；

图6为本发明中差分分层模型第三种实施例结构示意图；

图7为本发明中卷积分故障诊断模型示意图；

图8为本发明实验结果对比示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例（1）方法

如图1所示，一种改进KNN方法的数据处理方法，包括以下步骤：

KNN的全称是K Nearest Neighbors，意思是K个最近的邻居， K的取值肯定是至关重要。KNN的原理就是当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于何种级别。

在上述实施例中，降维处理的方法包括以下步骤：

（1）

在公式（1）中，R表示数据维度，n表示向量，

表示重构前的矩阵数据信息，

表示重构后的矩阵数据信息；

与

具体实施例中，降维处理是将高维数据化为低维度数据的操作，能够提高数据信息的计算能力。在具体实施例中，可以通过MATLAB借用函数 reshape，将一个矩阵重塑为另一个大小不同的新矩阵，但保留其原始数据。通过给出一个由二维数组表示的矩阵，以及两个正整数表示想要的重构的矩阵的行数和列数。重构后的矩阵需要将原始矩阵的所有元素以相同的行遍历顺序填充。如果具有给定参数的reshape操作是可行且合理的，则输出新的重塑矩阵；否则，输出原始矩阵。

具体实施例中，在进行数据处理中，平均互信息从整体上表示一个随机变量Y所给出的关于另一个随机变量X的信息量。假设H(X)代表接收到输出符号以前关于输入变量X的不确定性。而H(Y|X)代表接收到输出符号后关于输入变量X的平均不确定性。二者之差表示接收端所获得的信息量，即平均互信息。可见，通过信道传输消除了一些不确定性，获得了一定的信息，而平均互信息就代表接收到输出符号之后平均每个符号获得的关于输入端X的信息量。

在具体实施例中，支持度表示在总体中的出现概率，总体小票数量越大，最小支持度设置的越小，以保证可以存在频繁项集。频繁项集越少时，应当调小最小支持度。首先将不满足最小支持度的项删除构建一个数据集，扫描一边数据集；接着对筛选后的数据集排序，构建一棵树，根节点为 NULL；将数据集***到树中。

在具体实施例中，在虚假邻域概念基础上,可以提出了可同时确定合适的嵌入维数与时间延迟的方法,从而可据此确定径向基函数神经网络的输入;然后 ,用径向基函数神经网络进行学习及预测。混沌时间序列是高维相空间混沌运动的轨迹在一维空间上的投影，在这个投影的过程中，混沌运动的轨迹会被扭曲。高维相空间中并不相邻的两点投影在一维空间轴上时可能会称为相邻的两点，即虚假邻点，这就是混沌时间序列呈现出无规律的原因所在。重构相空间，实际上就是从馄饨时间序列中恢复混沌运动的轨迹，随着嵌入维数m的增大，混沌运动的轨道就会逐渐打开，虚假邻点也会逐步被踢出，从而混沌运动的轨迹得到恢复，这个思想就是虚假最近邻点法（False Nearest Neighbours，FNN）的出发点。

如图2-图6所示，图2中的数据属性类别

表示数据属性，其中的

-

为数据属性类别的下属分类数据信息，其中 a_11- a₃₂表示下属分类数据信息中多种数据信息。图3中的数据属性类别b表示不同于a的数据属性，其中的

-

表示不同于数据信息a的数据属性，其中的b_11- b₃₂为不同于数据信息a的数据属性的下属分类数据信息中多种数据信息。换言之，a和b都是多种数据信息中的不同类型。

在上述实施例中，数据分层为差分分层，差分分层的方法为：

，数据属性类别划分为

、

、

和

，则数据信息

距离数据属性类别

、

、

和

之间的距离为

、

；

将计算出的不同数据属性数据信息进行差分计算；当

时，其中

为常数，则数据信息

划分到

类。

在具体实施例中，通过将不同数据属性划分，用户能够从大量数据信息中获取不同属性的数据信息，并将获取到的数据信息通过分布计算的方式提高数据处理能力。通过差分计算，能够将获取到的数据信息正确分类，以实现不同模块信息的划分，提高数据处理能力。

在上述实施例中，数据KNN算法包括以下步骤：

通过欧式距离计算公式如下：

（2）

在公式（2）中，

表示大数据信息测试集合中测试信息的特征向量，

表示大数据信息测试集合中测试信息的特征向量的序列；

为第 1 层第j类的大数据信息测试集合中心向量，

为大数据信息测试集合向量的第 k 维；

表示第 k 维中第一层第j类的大数据信息测试集合向量；

个文本；

（S25）在测试文本的

个近邻中，依次计算每类的权重，

表示权重值公式，计算式为

，其中

为数据信息，

表示第

类的大数据信息测试集合中测试信息的特征向量，

表示杰卡德相似系数，

为相似度计算公式，

表示相似度程度值，其中

的取值为1 或者0，如果

属于

，则函数

值为 1，否则为 0；

时，其中

，则继续进行判断，存在

，当

时，则测试本文属于1-

类的子类；如果

时，则继续进行判断；其中

表示排序后的向相邻权重的差分值，

表示设置的大数据信息测试集合阈值差分值，

表示存在

类大数据信息测试集合距离值的差分值。

KNN(K-Nearest Neighbor)是最简单的机器学***均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成反比。

在进一步的实施例中，通过计算测试数据与各个训练数据之间的距离；按照距离的递增关系进行排序；选取距离最小的K个点；再确定前K个点所在类别的出现频率；然后返回前K个点中出现频率最高的类别作为测试数据的预测分类。

在进一步的实施例中，通过k值的选择，先选一个较小的值，然后通过交叉验证选择一个合适的最终值。其中k越小，即使用较小的领域中的样本进行预测，训练误差会减小，但模型会很复杂，以至于过拟合。k越大，即使用交大的领域中的样本进行预测，训练误差会增大，模型会变得简单，容易导致欠拟合。因此在具体实施例中，需要选择合适的k值，以提高数据处理能力。

一种改进KNN方法的数据处理方法中的一种示例性代码如下所示：

load data.txt；

a=data(1：30，1：4)；%取第一类的前三十组

aa=data（31：50，1：4）；%第一类的后二十组

b=data（51：80，1：4)；%第二类的前三十组

bb=data(81：100，1：4)；%第二类的后二十组

c=data(101：130，1：4)；％取第三类的前三十组

cc=data(131：150，1：4)； %第三类的后二十组

train=cat（1，a，b，c）；%组成训练样本(90*4)

test=cat(1，aa，bb，cc)；％组成测试样本(60＊4）

c=3；%c均值c=3

z1=train(1，：)；

z2=train(45，：）；

z3=train（90，：)；%初始聚类中心z1，z2，z3

m=0；t=0；％迭代步数

while m==0

samp1=[]；samp2=[]；samp3=[]；％定义空样本：第一类为samp1，第二类为samp2，第三类为samp3

n1=1；n2=1；n3=1；

t=t+1；

for i=1：90

if（pdist（［train(i，：）；z1］）〈pdist（［train（i，：）；z2］））＆＆(pdist（[train（i，：）；z1])<pdis

（［train(i，：）；z3]))％距离

%若训练样本与聚类z1的距离小于与z2，z3的距离，则赋值于samp1。

samp1(n1，：)=train(i，：)；

n1=n1+1；

elseif (pdist([train(i，：）；z2]）〈pdist（［train(i，：）；z1］)）＆＆(pdist(［train(i，：)；z2]）<pdist([train(i，：)；z3］）)

％若训练样本与聚类z2的距离小于与z1，z3的距离，则赋值于samp2

samp2(n2，：）=train(i，：）；

n2=n2+1；

else%其他则赋值于samp3

samp3（n3，：)=train（i，：）；

n3=n3+1；

end。

如图7所示，在图7中，

表示输入数据信息，

表示隐藏节点数据信息，

表示大数据信息测试集合计算过程中函数数据信息节点，

表示隐含层节点的属性，

表示数据输出层节点的训练数据信息；

在上述实施例中，卷积分故障诊断方法包括以下步骤：

通过扩张因果卷积与残差块构成故障诊断体系结构，在残差块中，Dropout是一种正则化技术，用于删除卷积分故障诊断模型体系结构层的一些随机输出；要丢弃的神经元数量由0到1的DREPOPOUT率给出，这是该层输出被丢弃的概率；卷积分故障诊断模型感受野也取决于剩余块的层数，例如，核大小为k_s=3、扩张因子d=1、2、4，剩余区块堆叠数n=1的感受野大小将为3*4*1=12。残差块如公式（3）所示：

（3）

表示分故障诊断模型输出层的输入变量，

（4）

公式（4）中，

是过滤器；

是神经网络的层级；

表示输入的时间序列信息；

为空洞参数，空洞间隔大小；

表示空洞卷积算子；

故障诊断体系结构的评估公式为：

（5）

公式（5）中，

表示大数据信息故障评估指标均值，T表示预测持续周期，

表示预测大数据信息故障体系结构的评估持续周期参数，

（6）

（7）

公式（7）中，

（8）

公式（8）中，

（9）

公式（9）中，

表示大数据信息故障评估指标权重。

通过建立算法模型将卷积分故障诊断模型的超参数进行迭代处理，根据迭代数据推算出大数据信息故障评估指标，通过正交化矩阵进行优化，从而得到最佳优化参数评估结果，从而改进了卷积分故障诊断模型体系的算法性能。

本发明应用新型的时间卷积网络（Time Convolution Network，卷积分故障诊断模型）深度学习模型，用于调度大数据信息故障智能预测。

如图8所示，在上述实施例中，改进型误差评估函数为

（10）

公式（10）中，包含有

组数据，其中

表示为大数据信息测试样本，

表示为大数据信息故障预测样本。

为了验证本发明的技术效果，假设方案1为决策树分类方法，方案2为k-means分类方法，分别采用这2种方法对本发明的方案进行验证和比较。

通过不断训练得到相应的实验结果如表1所示，通过仿真软件得到对比图如图8所示。

表1不同方法的误差准确度对比示意表

由上图可知，本发明的方法在进行数据分析准确度进行测试中，测试的结果明显高于方案1和方案2的准确度，并且本发明的方法数据分析准确度均高于80%，最高可达96%，准确度波动不大，比较稳定。而方案1与方案2在进行数据分析准确度测试中波动范围较大，并且准确度极不稳定，与本发明的方法相比，存在着很大的不足；由此可见，本发明的方法数据分析准确度较高。

实施例（2）装置

一种改进KNN方法的数据处理装置，包括：

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和***的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。