CN115017125B - 改进knn方法的数据处理方法和装置 - Google Patents
改进knn方法的数据处理方法和装置 Download PDFInfo
- Publication number
- CN115017125B CN115017125B CN202210946851.XA CN202210946851A CN115017125B CN 115017125 B CN115017125 B CN 115017125B CN 202210946851 A CN202210946851 A CN 202210946851A CN 115017125 B CN115017125 B CN 115017125B
- Authority
- CN
- China
- Prior art keywords
- data information
- data
- information
- representing
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/176—Support for shared access to files; File sharing support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种改进KNN方法的数据处理方法和装置,涉及数据处理技术领域,解决的技术问题是数据处理,采用的技术方案是,一种改进KNN方法的数据处理方法和装置,包括以下步骤:步骤一、从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;步骤二、通过改进KNN算法模型对降维后的数据信息进行数据信息处理;步骤三、通过改进型误差评估函数对处理后的数据信息进行评估;步骤四、数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享。本发明通过数据降维、数据预处理、数据挖掘、误差分析和处理,大大提高了数据信息处理能力。
Description
技术领域
本发明涉及数据处理领域,且更确切地涉及一种改进KNN方法的数据处理方法和装置。
背景技术
数据处理,数据处理是***工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响了人类社会发展的进程。数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(dataprocessing)是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
现有技术通常采用数据统计的方法实现数据信息的处理,这种方法虽然在一定程度上提高数据处理能力,但在对数据信息进行分析和计算时,很难实现其分类和数据信息处理,整体数据信息处理能力较差,数据信息处理方法滞后。
发明内容
针对上述技术的不足,本发明公开一种改进KNN方法的数据处理方法和装置,通过数据降维、数据预处理、数据挖掘、误差分析和处理,大大提高了数据信息处理能力。
为了实现上述技术效果,本发明采用以下技术方案:
一种改进KNN方法的数据处理方法,其中包括以下步骤:
步骤一、从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
步骤二、通过改进KNN算法模型对降维后的数据信息进行数据信息处理,改进KNN算法模型包括数据预处理步骤、数据分层步骤、数据KNN算法计算步骤和卷积分故障诊断步骤;
步骤三、通过改进型误差评估函数对处理后的数据信息进行评估;
步骤四、数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享。
作为本发明进一步的技术方案,降维处理的方法包括以下步骤:
(S11)通过重构矩阵数据信息的方式实现降维处理,并设置重构矩阵数据个数、数据维度和时间延迟;
(S12)通过平均交互信息法求解不同元素库的分布概率,并通过关联算法模型分析数据特征;
(S13)通过虚假邻点法计算数据信息的维数,通过比较不同数据信息的维数进而选择不同的数据分类,两个不同维度之间的序列通过特征对度量法实现数据库信息内不同元素之间的比较,公式为:
在公式(1)中,R表示数据维度,n表示向量,表示重构前的矩阵数据信息,表
示重构后的矩阵数据信息;与表示重构矩阵数据之间的虚假邻点的关系,r 表示重
构后增加的数据信息,u为重构矩阵数据信息最佳维度,重构后,重构矩阵数据的元素数据
维度和降维后的数据维度之差大于10;
(S14)降维判断,当降维数据信息满足当前需求时,则输出数据信息,当降维数据信息不满足当前需求时,则重新进行降维计算。
作为本发明进一步的技术方案,数据分层为差分分层,差分分层的方法为:
将数据属性按照数量和种类划分为不同的属性,属性数据量从顶层到底层从少至多依次排列和分布;
作为本发明进一步的技术方案,数据KNN算法包括以下步骤:
(S21)选择大数据信息测试集合,根据不同的数据属性选择测试大数据信息向量集合;
(S22)训练大数据信息测试集合,通过分层类别,构建成 n 层树状形式;并通过最佳搜索算法实现大数据信息测试集合的数据搜索;
(S23)依次计算大数据信息测试集合与第 1-n 层大数据信息测试集合训练集中每个大数据信息的文本相似度;
通过欧式距离计算公式如下:
在公式(2)中, 表示大数据信息测试集合中测试信息的特征向量,表示大数
据信息测试集合中测试信息的特征向量的序列;为第 1 层第j类的大数据信息测试集
合中心向量,表示大数据信息的类;M为大数据信息测试集合特征向量的维数;为大数
据信息测试集合向量的第 k 维;表示第 k 维中第一层第j类的大数据信息测试集合向
量;
(S25)在测试文本的个近邻中,依次计算每类的权重,表示权重值公式,计算
式为,其中为数据信息,表示第类的大数据信息测试集合中测
试信息的特征向量,表示杰卡德相似系数,为相似度计算公式,表示相似
度程度值,其中的取值为1 或者0,如果属于,则函数值为 1,否则为 0;
(S26)对计算的权重进行排序,对排序后的权重进行差分比较,当时,
其中表示特征的数据集,则测试文本属于第 1 类,在对第二层进行相似度比较的时候,
只需要比较第二层中第 1 类的子类;如果,则继续进行判断,存在,当时,则测试本文属于1-类中的其中一类,在对第二
层进行比较时,只需要比较第二层中第 1 类中第类的子类 ;如果时,则继续进
行判断;其中表示排序后的向相邻权重的差分值,表示设置的大数据信息测试集合阈
值差分值,表示存在类大数据信息测试集合距离值的差分值。
作为本发明进一步的技术方案,卷积分故障诊断方法包括以下步骤:
通过扩张因果卷积与残差块构成故障诊断体系结构,残差块如公式(3)所示:
故障诊断体系结构的评估公式为:
公式(5)中,表示大数据信息故障评估指标均值,T表示预测持续周期,表示
预测大数据信息故障体系结构的评估持续周期参数,表示深度学习模型各项超参数,θ
表示故障诊断体系结构评价指标,表示大数据信息故障诊断体系结构评价指标的参数,
通过建立正交化的评估矩阵将大数据信息故障评估指标进行信息交叠,不同信息之间相互
影响迭代过程为:
公式(6)中,α表示大数据信息故障评估指标相互交叠函数,β表示大数据信息之间相互影响迭代过程,根据大数据信息故障评估指标之间的迭代公式,对公式(6)矩阵建立算法程序,即:
一种改进KNN方法的数据处理装置,包括:
数据获取模块,从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
数据处理模块,通过改进KNN算法模型对降维后的数据信息进行数据信息处理;
数据评估模块,通过改进型误差评估函数对处理后的数据信息进行评估;
数据共享模块,数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享;
其中所述数据处理模块分别与数据获取模块、数据评估模块和数据共享模块连接。
本发明积极有益效果在于:
本发明通过从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;通过改进KNN算法模型对降维后的数据信息进行数据信息处理,改进KNN算法模型包括数据预处理步骤、数据分层步骤、数据KNN算法计算步骤和卷积分故障诊断步骤;通过改进型误差评估函数对处理后的数据信息进行评估;数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明流程示意图;
图2为本发明中降维处理模型第一种实施例示意图;
图3为本发明中降维处理模型第二种实施例示意图;
图4为本发明中差分分层模型第一种实施例结构示意图;
图5为本发明中差分分层模型第二种实施例结构示意图;
图6为本发明中差分分层模型第三种实施例结构示意图;
图7为本发明中卷积分故障诊断模型示意图;
图8为本发明实验结果对比示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例(1)方法
如图1所示,一种改进KNN方法的数据处理方法,包括以下步骤:
步骤一、从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
步骤二、通过改进KNN算法模型对降维后的数据信息进行数据信息处理,改进KNN算法模型包括数据预处理步骤、数据分层步骤、数据KNN算法计算步骤和卷积分故障诊断步骤;
步骤三、通过改进型误差评估函数对处理后的数据信息进行评估;
步骤四、数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享。
KNN的全称是K Nearest Neighbors,意思是K个最近的邻居, K的取值肯定是至关重要。KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于何种级别。
在上述实施例中,降维处理的方法包括以下步骤:
(S11)通过重构矩阵数据信息的方式实现降维处理,并设置重构矩阵数据个数、数据维度和时间延迟;
(S12)通过平均交互信息法求解不同元素库的分布概率,并通过关联算法模型分析数据特征;
(S13)通过虚假邻点法计算数据信息的维数,通过比较不同数据信息的维数进而选择不同的数据分类,两个不同维度之间的序列通过特征对度量法实现数据库信息内不同元素之间的比较,公式为:
在公式(1)中,R表示数据维度,n表示向量,表示重构前的矩阵数据信息,表
示重构后的矩阵数据信息;与表示重构矩阵数据之间的虚假邻点的关系,r 表示重
构后增加的数据信息,u为重构矩阵数据信息最佳维度,重构后,重构矩阵数据的元素数据
维度和降维后的数据维度之差大于10;
(S14)降维判断,当降维数据信息满足当前需求时,则输出数据信息,当降维数据信息不满足当前需求时,则重新进行降维计算。
具体实施例中,降维处理是将高维数据化为低维度数据的操作,能够提高数据信息的计算能力。在具体实施例中,可以通过MATLAB借用函数 reshape,将一个矩阵重塑为另一个大小不同的新矩阵,但保留其原始数据。通过给出一个由二维数组表示的矩阵,以及两个正整数表示想要的重构的矩阵的行数和列数。重构后的矩阵需要将原始矩阵的所有元素以相同的行遍历顺序填充。如果具有给定参数的reshape操作是可行且合理的,则输出新的重塑矩阵;否则,输出原始矩阵。
具体实施例中,在进行数据处理中,平均互信息从整体上表示一个随机变量Y所给出的关于另一个随机变量X的信息量。假设H(X)代表接收到输出符号以前关于输入变量X的不确定性。而H(Y|X)代表接收到输出符号后关于输入变量X的平均不确定性。二者之差表示接收端所获得的信息量,即平均互信息。 可见,通过信道传输消除了一些不确定性,获得了一定的信息,而平均互信息就代表接收到输出符号之后平均每个符号获得的关于输入端X的信息量。
在具体实施例中,支持度表示在总体中的出现概率,总体小票数量越大,最小支持度设置的越小,以保证可以存在频繁项集。频繁项集越少时,应当调小最小支持度。首先将不满足最小支持度的项删除构建一个数据集,扫描一边数据集;接着对筛选后的数据集排序,构建一棵树,根节点为 NULL;将数据集***到树中。
在具体实施例中,在虚假邻域概念基础上,可以提出了可同时确定合适的嵌入维数与时间延迟的方法,从而可据此确定径向基函数神经网络的输入;然后 ,用径向基函数神经网络进行学习及预测。混沌时间序列是高维相空间混沌运动的轨迹在一维空间上的投影,在这个投影的过程中,混沌运动的轨迹会被扭曲。高维相空间中并不相邻的两点投影在一维空间轴上时可能会称为相邻的两点,即虚假邻点,这就是混沌时间序列呈现出无规律的原因所在。重构相空间,实际上就是从馄饨时间序列中恢复混沌运动的轨迹,随着嵌入维数m的增大,混沌运动的轨道就会逐渐打开,虚假邻点也会逐步被踢出,从而混沌运动的轨迹得到恢复,这个思想就是虚假最近邻点法(False Nearest Neighbours,FNN)的出发点。
如图2-图6所示,图2中的数据属性类别表示数据属性,其中的- 为数据属
性类别的下属分类数据信息,其中 a11- a32表示下属分类数据信息中多种数据信息。图3中
的数据属性类别b表示不同于a的数据属性,其中的- 表示不同于数据信息a的数据属
性,其中的b11- b32为不同于数据信息a的数据属性的下属分类数据信息中多种数据信息。换
言之,a和b都是多种数据信息中的不同类型。
在上述实施例中,数据分层为差分分层,差分分层的方法为:
将数据属性按照数量和种类划分为不同的属性,属性数据量从顶层到底层从少至多依次排列和分布;
在具体实施例中,通过将不同数据属性划分,用户能够从大量数据信息中获取不同属性的数据信息,并将获取到的数据信息通过分布计算的方式提高数据处理能力。通过差分计算,能够将获取到的数据信息正确分类,以实现不同模块信息的划分,提高数据处理能力。
在上述实施例中,数据KNN算法包括以下步骤:
(S21)选择大数据信息测试集合,根据不同的数据属性选择测试大数据信息向量集合;
(S22)训练大数据信息测试集合,通过分层类别,构建成 n 层树状形式;并通过最佳搜索算法实现大数据信息测试集合的数据搜索;
(S23)依次计算大数据信息测试集合与第 1-n 层大数据信息测试集合训练集中每个大数据信息的文本相似度;
通过欧式距离计算公式如下:
在公式(2)中, 表示大数据信息测试集合中测试信息的特征向量,表示大数
据信息测试集合中测试信息的特征向量的序列;为第 1 层第j类的大数据信息测试集
合中心向量,表示大数据信息的类;M为大数据信息测试集合特征向量的维数;为大数
据信息测试集合向量的第 k 维;表示第 k 维中第一层第j类的大数据信息测试集合向
量;
(S25)在测试文本的个近邻中,依次计算每类的权重,表示权重值公式,计算
式为,其中为数据信息,表示第类的大数据信息测试集合中测试
信息的特征向量,表示杰卡德相似系数,为相似度计算公式,表示相似
度程度值,其中的取值为1 或者0,如果属于,则函数值为 1,否则为
0;
(S26)对计算的权重进行排序,对排序后的权重进行差分比较,当时,
其中表示特征的数据集,则测试文本属于第 1 类,在对第二层进行相似度比较的时候,
只需要比较第二层中第 1 类的子类;如果,则继续进行判断,存在,当时,则测试本文属于1-类中的其中一类,在对第二
层进行比较时,只需要比较第二层中第 1 类中第类的子类 ;如果时,则继续进
行判断;其中表示排序后的向相邻权重的差分值,表示设置的大数据信息测试集合阈
值差分值,表示存在类大数据信息测试集合距离值的差分值。
KNN(K-Nearest Neighbor)是最简单的机器学***均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比。
在进一步的实施例中,通过计算测试数据与各个训练数据之间的距离;按照距离的递增关系进行排序;选取距离最小的K个点;再确定前K个点所在类别的出现频率;然后返回前K个点中出现频率最高的类别作为测试数据的预测分类。
在进一步的实施例中,通过k值的选择,先选一个较小的值,然后通过交叉验证选择一个合适的最终值。其中k越小,即使用较小的领域中的样本进行预测,训练误差会减小,但模型会很复杂,以至于过拟合。k越大,即使用交大的领域中的样本进行预测,训练误差会增大,模型会变得简单,容易导致欠拟合。因此在具体实施例中,需要选择合适的k值,以提高数据处理能力。
一种改进KNN方法的数据处理方法中的一种示例性代码如下所示:
load data.txt;
a=data(1:30,1:4);%取第一类的前三十组
aa=data(31:50,1:4);%第一类的后二十组
b=data(51:80,1:4);%第二类的前三十组
bb=data(81:100,1:4);%第二类的后二十组
c=data(101:130,1:4);%取第三类的前三十组
cc=data(131:150,1:4); %第三类的后二十组
train=cat(1,a,b,c);%组成训练样本(90*4)
test=cat(1,aa,bb,cc);%组成测试样本(60*4)
c=3;%c均值c=3
z1=train(1,:);
z2=train(45,:);
z3=train(90,:);%初始聚类中心z1,z2,z3
m=0;t=0;%迭代步数
while m==0
samp1=[];samp2=[];samp3=[];%定义空样本:第一类为samp1,第二类为samp2,第三类为samp3
n1=1;n2=1;n3=1;
t=t+1;
for i=1:90
if(pdist([train(i,:);z1])〈pdist([train(i,:);z2]))&&(pdist([train(i,:);z1])<pdis
([train(i,:);z3]))%距离
%若训练样本与聚类z1的距离小于与z2,z3的距离,则赋值于samp1。
samp1(n1,:)=train(i,:);
n1=n1+1;
elseif (pdist([train(i,:);z2])〈pdist([train(i,:);z1]))&&(pdist([train(i,:);z2])<pdist([train(i,:);z3]))
%若训练样本与聚类z2的距离小于与z1,z3的距离,则赋值于samp2
samp2(n2,:)=train(i,:);
n2=n2+1;
else%其他则赋值于samp3
samp3(n3,:)=train(i,:);
n3=n3+1;
end。
在上述实施例中,卷积分故障诊断方法包括以下步骤:
通过扩张因果卷积与残差块构成故障诊断体系结构,在残差块中,Dropout是一种正则化技术,用于删除卷积分故障诊断模型体系结构层的一些随机输出;要丢弃的神经元数量由0到1的DREPOPOUT率给出,这是该层输出被丢弃的概率;卷积分故障诊断模型感受野也取决于剩余块的层数,例如,核大小为ks=3、扩张因子d=1、2、4,剩余区块堆叠数n=1的感受野大小将为3*4*1=12。残差块如公式(3)所示:
故障诊断体系结构的评估公式为:
公式(5)中,表示大数据信息故障评估指标均值,T表示预测持续周期,表示
预测大数据信息故障体系结构的评估持续周期参数,表示深度学习模型各项超参数,θ
表示故障诊断体系结构评价指标,表示大数据信息故障诊断体系结构评价指标的参数,通
过建立正交化的评估矩阵将大数据信息故障评估指标进行信息交叠,不同信息之间相互影
响迭代过程为:
公式(6)中,α表示大数据信息故障评估指标相互交叠函数,β表示大数据信息之间相互影响迭代过程,根据大数据信息故障评估指标之间的迭代公式,对公式(6)矩阵建立算法程序,即:
通过建立算法模型将卷积分故障诊断模型的超参数进行迭代处理,根据迭代数据推算出大数据信息故障评估指标,通过正交化矩阵进行优化,从而得到最佳优化参数评估结果,从而改进了卷积分故障诊断模型体系的算法性能。
本发明应用新型的时间卷积网络(Time Convolution Network,卷积分故障诊断模型)深度学习模型,用于调度大数据信息故障智能预测。
为了验证本发明的技术效果,假设方案1为决策树分类方法,方案2为k-means分类方法,分别采用这2种方法对本发明的方案进行验证和比较。
通过不断训练得到相应的实验结果如表1所示,通过仿真软件得到对比图如图8所示。
表1不同方法的误差准确度对比示意表
由上图可知,本发明的方法在进行数据分析准确度进行测试中,测试的结果明显高于方案1和方案2的准确度,并且本发明的方法数据分析准确度均高于80%,最高可达96%,准确度波动不大,比较稳定。而方案1与方案2在进行数据分析准确度测试中波动范围较大,并且准确度极不稳定,与本发明的方法相比,存在着很大的不足;由此可见,本发明的方法数据分析准确度较高。
实施例(2) 装置
一种改进KNN方法的数据处理装置,包括:
数据获取模块,从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
数据处理模块,通过改进KNN算法模型对降维后的数据信息进行数据信息处理;
数据评估模块,通过改进型误差评估函数对处理后的数据信息进行评估;
数据共享模块,数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享;
其中所述数据处理模块分别与数据获取模块、数据评估模块和数据共享模块连接。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和***的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
Claims (6)
1.一种改进KNN方法的数据处理方法,其特征在于:包括以下步骤:
步骤一、从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
步骤二、通过改进KNN算法模型对降维后的数据信息进行数据信息处理,改进KNN算法模型包括数据预处理步骤、数据分层步骤、数据KNN算法计算步骤和卷积分故障诊断步骤;
步骤三、通过改进型误差评估函数对处理后的数据信息进行评估;
步骤四、数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享;
卷积分故障诊断方法包括以下步骤:
通过扩张因果卷积与残差块构成故障诊断体系结构,残差块如公式(1)所示:
故障诊断体系结构的评估公式为:
式(3)中,表示大数据信息故障评估指标均值,T表示预测持续周期,表示预测大
数据信息故障体系结构的评估持续周期参数,表示深度学习模型各项超参数,θ表示故
障诊断体系结构评价指标,表示大数据信息故障诊断体系结构评价指标的参数,通过建
立正交化的评估矩阵将大数据信息故障评估指标进行信息交叠,不同信息之间相互影响迭
代过程为:
式(4)中,α表示大数据信息故障评估指标相互交叠函数,β表示大数据信息之间相互影响迭代过程,根据大数据信息故障评估指标之间的迭代公式,对公式(5)矩阵建立算法程序,即:
然后将各项大数据信息故障评估指标数据通过施密特公式应用在数据信息智能预测平台中,在线测试获得最佳评估效果输出为:
2.根据权利要求1所述的一种改进KNN方法的数据处理方法,其特征在于:降维处理的方法包括以下步骤:
(S11)通过重构矩阵数据信息的方式实现降维处理,并设置重构矩阵数据个数、数据维度和时间延迟;
(S12)通过平均交互信息法求解不同元素库的分布概率,并通过关联算法模型分析数据特征;
(S13)通过虚假邻点法计算数据信息的维数,通过比较不同数据信息的维数进而选择不同的数据分类,两个不同维度之间的序列通过特征对度量法实现数据库信息内不同元素之间的比较,公式为:
在公式(8)中,R表示数据维度,n表示向量,表示重构前的矩阵数据信息,表示重
构后的矩阵数据信息;与表示重构矩阵数据之间的虚假邻点的关系,r 表示重构
后增加的数据信息,u为重构矩阵数据信息最佳维度,重构后,重构矩阵数据的元素数据维
度和降维后的数据维度之差大于10;
(S14)降维判断,当降维数据信息满足当前需求时,则输出数据信息,当降维数据信息不满足当前需求时,则重新进行降维计算。
4.根据权利要求1所述的一种改进KNN方法的数据处理方法,其特征在于:数据KNN算法包括以下步骤:
(S21)选择大数据信息测试集合,根据不同的数据属性选择测试大数据信息向量集合;
(S22)训练大数据信息测试集合,通过分层类别,构建成 n 层树状形式;并通过最佳搜索算法实现大数据信息测试集合的数据搜索;
(S23)依次计算大数据信息测试集合与第 1-n 层大数据信息测试集合训练集中每个大数据信息的文本相似度;
通过欧式距离计算公式如下:
在公式(9)中, 表示大数据信息测试集合中测试信息的特征向量,表示大数据信
息测试集合中测试信息的特征向量的序列;为第 1 层第j类的大数据信息测试集合中
心向量,表示大数据信息的类;M为大数据信息测试集合特征向量的维数;为大数据信
息测试集合向量的第 k 维;表示第 k 维中第一层第j类的大数据信息测试集合向量;
(S25)在测试文本的个近邻中,依次计算每类的权重,表示权重值公式,计算式为,其中为数据信息,表示第类的大数据信息测试集合
中测试信息的特征向量,表示杰卡德相似系数,为相似度计算公式,表示相似度程度值,其中的取值为1 或者0,如果属于,则函数值为 1,否则为 0;
6.一种应用权利要求1-5任意一项所述的一种改进KNN方法的数据处理方法的装置,包括:
数据获取模块,从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
数据处理模块,通过改进KNN算法模型对降维后的数据信息进行数据信息处理;
数据评估模块,通过改进型误差评估函数对处理后的数据信息进行评估;
数据共享模块,数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享;
其中所述数据处理模块分别与数据获取模块、数据评估模块和数据共享模块连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210946851.XA CN115017125B (zh) | 2022-08-09 | 2022-08-09 | 改进knn方法的数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210946851.XA CN115017125B (zh) | 2022-08-09 | 2022-08-09 | 改进knn方法的数据处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115017125A CN115017125A (zh) | 2022-09-06 |
CN115017125B true CN115017125B (zh) | 2022-10-21 |
Family
ID=83066268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210946851.XA Active CN115017125B (zh) | 2022-08-09 | 2022-08-09 | 改进knn方法的数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017125B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720822B1 (en) * | 2005-03-18 | 2010-05-18 | Beyondcore, Inc. | Quality management in a data-processing environment |
CN104408095A (zh) * | 2014-11-15 | 2015-03-11 | 北京广利核***工程有限公司 | 一种基于改进的knn文本分类方法 |
CN114781555A (zh) * | 2022-06-21 | 2022-07-22 | 深圳市鼎合丰科技有限公司 | 改进knn方法的电子元器件数据分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11488010B2 (en) * | 2018-12-29 | 2022-11-01 | Northeastern University | Intelligent analysis system using magnetic flux leakage data in pipeline inner inspection |
CN112308251A (zh) * | 2020-12-31 | 2021-02-02 | 北京蒙帕信创科技有限公司 | 一种基于机器学习的工单分派方法和*** |
-
2022
- 2022-08-09 CN CN202210946851.XA patent/CN115017125B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720822B1 (en) * | 2005-03-18 | 2010-05-18 | Beyondcore, Inc. | Quality management in a data-processing environment |
CN104408095A (zh) * | 2014-11-15 | 2015-03-11 | 北京广利核***工程有限公司 | 一种基于改进的knn文本分类方法 |
CN114781555A (zh) * | 2022-06-21 | 2022-07-22 | 深圳市鼎合丰科技有限公司 | 改进knn方法的电子元器件数据分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115017125A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784881B (zh) | 网络异常流量检测方法、模型及*** | |
CN107622182B (zh) | 蛋白质局部结构特征的预测方法及*** | |
CN107292350A (zh) | 大规模数据的异常检测方法 | |
CN108805193B (zh) | 一种基于混合策略的电力缺失数据填充方法 | |
CN110020712B (zh) | 一种基于聚类的优化粒子群bp网络预测方法和*** | |
Labroche | New incremental fuzzy c medoids clustering algorithms | |
CN113240113B (zh) | 一种增强网络预测鲁棒性的方法 | |
CN112926640A (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
CN114139639B (zh) | 一种基于自步邻域保持嵌入的故障分类方法 | |
Jha et al. | Criminal behaviour analysis and segmentation using k-means clustering | |
Farooq | Genetic algorithm technique in hybrid intelligent systems for pattern recognition | |
CN113516019A (zh) | 高光谱图像解混方法、装置及电子设备 | |
CN112488188A (zh) | 一种基于深度强化学习的特征选择方法 | |
CN115017125B (zh) | 改进knn方法的数据处理方法和装置 | |
CN116759067A (zh) | 一种基于重建和Tabular数据的肝病诊断方法 | |
CN111104950A (zh) | 基于神经网络的k-NN算法中k值预测方法及装置 | |
CN116089801A (zh) | 一种基于多重置信度的医疗数据缺失值修复的方法 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
CN113704570A (zh) | 基于自监督学习式进化的大规模复杂网络社区检测方法 | |
CN116015787B (zh) | 基于混合持续变分量子神经网络的网络入侵检测方法 | |
Węgier et al. | Optimized hybrid imbalanced data sampling for decision tree training | |
CN117437976B (zh) | 基于基因检测的疾病风险筛查方法及*** | |
Singh et al. | Genetic Algorithm based Feature Selection to Enhance Breast Cancer Classification | |
CN114462548B (zh) | 一种提高单细胞深度聚类算法精度的方法 | |
Ahamad et al. | Clustering and classification algorithms in data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |