CN115017125B - 改进knn方法的数据处理方法和装置 - Google Patents

改进knn方法的数据处理方法和装置 Download PDF

Info

Publication number
CN115017125B
CN115017125B CN202210946851.XA CN202210946851A CN115017125B CN 115017125 B CN115017125 B CN 115017125B CN 202210946851 A CN202210946851 A CN 202210946851A CN 115017125 B CN115017125 B CN 115017125B
Authority
CN
China
Prior art keywords
data information
data
information
representing
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210946851.XA
Other languages
English (en)
Other versions
CN115017125A (zh
Inventor
李国权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chenda Guangzhou Network Technology Co ltd
Original Assignee
Chenda Guangzhou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chenda Guangzhou Network Technology Co ltd filed Critical Chenda Guangzhou Network Technology Co ltd
Priority to CN202210946851.XA priority Critical patent/CN115017125B/zh
Publication of CN115017125A publication Critical patent/CN115017125A/zh
Application granted granted Critical
Publication of CN115017125B publication Critical patent/CN115017125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种改进KNN方法的数据处理方法和装置,涉及数据处理技术领域,解决的技术问题是数据处理,采用的技术方案是,一种改进KNN方法的数据处理方法和装置,包括以下步骤:步骤一、从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;步骤二、通过改进KNN算法模型对降维后的数据信息进行数据信息处理;步骤三、通过改进型误差评估函数对处理后的数据信息进行评估;步骤四、数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享。本发明通过数据降维、数据预处理、数据挖掘、误差分析和处理,大大提高了数据信息处理能力。

Description

改进KNN方法的数据处理方法和装置
技术领域
本发明涉及数据处理领域,且更确切地涉及一种改进KNN方法的数据处理方法和装置。
背景技术
数据处理,数据处理是***工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响了人类社会发展的进程。数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(dataprocessing)是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
现有技术通常采用数据统计的方法实现数据信息的处理,这种方法虽然在一定程度上提高数据处理能力,但在对数据信息进行分析和计算时,很难实现其分类和数据信息处理,整体数据信息处理能力较差,数据信息处理方法滞后。
发明内容
针对上述技术的不足,本发明公开一种改进KNN方法的数据处理方法和装置,通过数据降维、数据预处理、数据挖掘、误差分析和处理,大大提高了数据信息处理能力。
为了实现上述技术效果,本发明采用以下技术方案:
一种改进KNN方法的数据处理方法,其中包括以下步骤:
步骤一、从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
步骤二、通过改进KNN算法模型对降维后的数据信息进行数据信息处理,改进KNN算法模型包括数据预处理步骤、数据分层步骤、数据KNN算法计算步骤和卷积分故障诊断步骤;
步骤三、通过改进型误差评估函数对处理后的数据信息进行评估;
步骤四、数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享。
作为本发明进一步的技术方案,降维处理的方法包括以下步骤:
(S11)通过重构矩阵数据信息的方式实现降维处理,并设置重构矩阵数据个数、数据维度和时间延迟;
(S12)通过平均交互信息法求解不同元素库的分布概率,并通过关联算法模型分析数据特征;
(S13)通过虚假邻点法计算数据信息的维数,通过比较不同数据信息的维数进而选择不同的数据分类,两个不同维度之间的序列通过特征对度量法实现数据库信息内不同元素之间的比较,公式为:
Figure 937176DEST_PATH_IMAGE001
(1)
在公式(1)中,R表示数据维度,n表示向量,
Figure 651054DEST_PATH_IMAGE002
表示重构前的矩阵数据信息,
Figure 102895DEST_PATH_IMAGE003
表 示重构后的矩阵数据信息;
Figure 422405DEST_PATH_IMAGE004
Figure 908882DEST_PATH_IMAGE005
表示重构矩阵数据之间的虚假邻点的关系,r 表示重 构后增加的数据信息,u为重构矩阵数据信息最佳维度,重构后,重构矩阵数据的元素数据 维度和降维后的数据维度之差大于10;
(S14)降维判断,当降维数据信息满足当前需求时,则输出数据信息,当降维数据信息不满足当前需求时,则重新进行降维计算。
作为本发明进一步的技术方案,数据分层为差分分层,差分分层的方法为:
将数据属性按照数量和种类划分为不同的属性,属性数据量从顶层到底层从少至多依次排列和分布;
计算不同数据属性之间的距离,假设数据集合中的某个数据信息为
Figure 262503DEST_PATH_IMAGE006
,数据属性类 别划分为
Figure 185328DEST_PATH_IMAGE007
Figure 180966DEST_PATH_IMAGE008
Figure 256369DEST_PATH_IMAGE009
Figure 171105DEST_PATH_IMAGE010
,则数据信息
Figure 456592DEST_PATH_IMAGE011
距离数据属性类别
Figure 865708DEST_PATH_IMAGE012
Figure 310465DEST_PATH_IMAGE013
Figure 271468DEST_PATH_IMAGE014
Figure 185197DEST_PATH_IMAGE010
之间的距离为
Figure 991479DEST_PATH_IMAGE015
Figure 553392DEST_PATH_IMAGE016
将计算出的不同数据属性数据信息进行差分计算;当
Figure 560662DEST_PATH_IMAGE017
时,其中
Figure 210955DEST_PATH_IMAGE018
为常数,则数据信息
Figure 820928DEST_PATH_IMAGE019
划分到
Figure 991009DEST_PATH_IMAGE020
类。
作为本发明进一步的技术方案,数据KNN算法包括以下步骤:
(S21)选择大数据信息测试集合,根据不同的数据属性选择测试大数据信息向量集合;
(S22)训练大数据信息测试集合,通过分层类别,构建成 n 层树状形式;并通过最佳搜索算法实现大数据信息测试集合的数据搜索;
(S23)依次计算大数据信息测试集合与第 1-n 层大数据信息测试集合训练集中每个大数据信息的文本相似度;
通过欧式距离计算公式如下:
Figure 293815DEST_PATH_IMAGE021
(2)
在公式(2)中,
Figure 165824DEST_PATH_IMAGE022
表示大数据信息测试集合中测试信息的特征向量,
Figure 454854DEST_PATH_IMAGE023
表示大数 据信息测试集合中测试信息的特征向量的序列;
Figure 604076DEST_PATH_IMAGE024
为第 1 层第j类的大数据信息测试集 合中心向量,
Figure 202417DEST_PATH_IMAGE025
表示大数据信息的类;M为大数据信息测试集合特征向量的维数;
Figure 312455DEST_PATH_IMAGE026
为大数 据信息测试集合向量的第 k 维;
Figure 264230DEST_PATH_IMAGE027
表示第 k 维中第一层第j类的大数据信息测试集合向 量;
(S24)按照文本相似度,在训练文本集中选出与测试文本最相似的
Figure 661101DEST_PATH_IMAGE028
个文本;
(S25)在测试文本的
Figure 305709DEST_PATH_IMAGE029
个近邻中,依次计算每类的权重,
Figure 903044DEST_PATH_IMAGE030
表示权重值公式,计算 式为
Figure 783144DEST_PATH_IMAGE031
,其中
Figure 641379DEST_PATH_IMAGE032
为数据信息,
Figure 332254DEST_PATH_IMAGE033
表示第
Figure 666152DEST_PATH_IMAGE034
类的大数据信息测试集合中测 试信息的特征向量,
Figure 225310DEST_PATH_IMAGE035
表示杰卡德相似系数,
Figure 78996DEST_PATH_IMAGE036
为相似度计算公式,
Figure 799827DEST_PATH_IMAGE037
表示相似 度程度值,其中
Figure 621022DEST_PATH_IMAGE038
的取值为1 或者0,如果
Figure 593657DEST_PATH_IMAGE039
属于
Figure 692063DEST_PATH_IMAGE040
,则函数
Figure 705500DEST_PATH_IMAGE041
值为 1,否则为 0;
(S26)对计算的权重进行排序,对排序后的权重进行差分比较,当
Figure 764723DEST_PATH_IMAGE042
时, 其中
Figure 665683DEST_PATH_IMAGE043
表示特征的数据集,则测试文本属于第 1 类,在对第二层进行相似度比较的时候, 只需要比较第二层中第 1 类的子类;如果
Figure 477650DEST_PATH_IMAGE044
,则继续进行判断,存在
Figure 946808DEST_PATH_IMAGE045
,当
Figure 86803DEST_PATH_IMAGE046
时,则测试本文属于1-
Figure 181666DEST_PATH_IMAGE047
类中的其中一类,在对第二 层进行比较时,只需要比较第二层中第 1 类中第
Figure 723506DEST_PATH_IMAGE048
类的子类 ;如果
Figure 363566DEST_PATH_IMAGE049
时,则继续进 行判断;其中
Figure 115490DEST_PATH_IMAGE050
表示排序后的向相邻权重的差分值,
Figure 623832DEST_PATH_IMAGE051
表示设置的大数据信息测试集合阈 值差分值,
Figure 895544DEST_PATH_IMAGE052
表示存在
Figure 565560DEST_PATH_IMAGE053
类大数据信息测试集合距离值的差分值。
作为本发明进一步的技术方案,卷积分故障诊断方法包括以下步骤:
通过扩张因果卷积与残差块构成故障诊断体系结构,残差块如公式(3)所示:
Figure 73289DEST_PATH_IMAGE054
(3)
在公式(3)中,O是卷积分故障诊断模型输出层的输出变量,
Figure 995109DEST_PATH_IMAGE055
表示分故障诊断模 型输出层的输入变量,
Figure 511541DEST_PATH_IMAGE056
表示深度学习的残差映射,在权重层之后,添加设置退出层,扩 张因果卷积函数F(t)定义为:
Figure 742671DEST_PATH_IMAGE057
(4)
公式(4)中,
Figure 219920DEST_PATH_IMAGE058
是过滤器;
Figure 804485DEST_PATH_IMAGE059
是神经网络的层级;
Figure 565637DEST_PATH_IMAGE060
表示输入的时间序列信息;
Figure 577455DEST_PATH_IMAGE061
为 空洞参数,空洞间隔大小;
Figure 542000DEST_PATH_IMAGE062
表示空洞卷积算子;
故障诊断体系结构的评估公式为:
Figure 54890DEST_PATH_IMAGE063
(5)
公式(5)中,
Figure 545914DEST_PATH_IMAGE064
表示大数据信息故障评估指标均值,T表示预测持续周期,
Figure 604000DEST_PATH_IMAGE065
表示 预测大数据信息故障体系结构的评估持续周期参数,
Figure 180475DEST_PATH_IMAGE066
表示深度学习模型各项超参数,θ 表示故障诊断体系结构评价指标,
Figure 494126DEST_PATH_IMAGE067
表示大数据信息故障诊断体系结构评价指标的参数, 通过建立正交化的评估矩阵将大数据信息故障评估指标进行信息交叠,不同信息之间相互 影响迭代过程为:
Figure 715023DEST_PATH_IMAGE068
(6)
公式(6)中,α表示大数据信息故障评估指标相互交叠函数,β表示大数据信息之间相互影响迭代过程,根据大数据信息故障评估指标之间的迭代公式,对公式(6)矩阵建立算法程序,即:
Figure 334223DEST_PATH_IMAGE069
(7)
公式(7)中,
Figure 522627DEST_PATH_IMAGE070
表示大数据信息故障评估正交化安全矩阵,μ表示正交化矩阵编辑 参数;然后将各项大数据信息故障评估指标数据通过施密特公式应用在数据信息智能预测 平台中,在线测试获得最佳评估效果输出为:
Figure 128052DEST_PATH_IMAGE071
(8)
公式(8)中,
Figure 328089DEST_PATH_IMAGE072
表示验算的各项数据信息评估指标效果,m表示大数据信息架构 节点数量,
Figure 242825DEST_PATH_IMAGE073
表示大数据信息架构节点数量的变量值,通过判定评估指标效果,进而计算权 重公式,权重公式为:
Figure 669258DEST_PATH_IMAGE074
(9)
公式(9)中,
Figure 937428DEST_PATH_IMAGE075
表示大数据信息故障评估指标权重。
作为本发明进一步的技术方案,改进型误差评估函数为
Figure 116606DEST_PATH_IMAGE076
(10)
公式(10)中,包含有
Figure 343188DEST_PATH_IMAGE077
组数据,其中
Figure 725759DEST_PATH_IMAGE078
表示为大数据信息测试样本,
Figure 190763DEST_PATH_IMAGE079
表示为大 数据信息故障预测样本。
一种改进KNN方法的数据处理装置,包括:
数据获取模块,从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
数据处理模块,通过改进KNN算法模型对降维后的数据信息进行数据信息处理;
数据评估模块,通过改进型误差评估函数对处理后的数据信息进行评估;
数据共享模块,数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享;
其中所述数据处理模块分别与数据获取模块、数据评估模块和数据共享模块连接。
本发明积极有益效果在于:
本发明通过从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;通过改进KNN算法模型对降维后的数据信息进行数据信息处理,改进KNN算法模型包括数据预处理步骤、数据分层步骤、数据KNN算法计算步骤和卷积分故障诊断步骤;通过改进型误差评估函数对处理后的数据信息进行评估;数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明流程示意图;
图2为本发明中降维处理模型第一种实施例示意图;
图3为本发明中降维处理模型第二种实施例示意图;
图4为本发明中差分分层模型第一种实施例结构示意图;
图5为本发明中差分分层模型第二种实施例结构示意图;
图6为本发明中差分分层模型第三种实施例结构示意图;
图7为本发明中卷积分故障诊断模型示意图;
图8为本发明实验结果对比示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例(1)方法
如图1所示,一种改进KNN方法的数据处理方法,包括以下步骤:
步骤一、从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
步骤二、通过改进KNN算法模型对降维后的数据信息进行数据信息处理,改进KNN算法模型包括数据预处理步骤、数据分层步骤、数据KNN算法计算步骤和卷积分故障诊断步骤;
步骤三、通过改进型误差评估函数对处理后的数据信息进行评估;
步骤四、数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享。
KNN的全称是K Nearest Neighbors,意思是K个最近的邻居, K的取值肯定是至关重要。KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于何种级别。
在上述实施例中,降维处理的方法包括以下步骤:
(S11)通过重构矩阵数据信息的方式实现降维处理,并设置重构矩阵数据个数、数据维度和时间延迟;
(S12)通过平均交互信息法求解不同元素库的分布概率,并通过关联算法模型分析数据特征;
(S13)通过虚假邻点法计算数据信息的维数,通过比较不同数据信息的维数进而选择不同的数据分类,两个不同维度之间的序列通过特征对度量法实现数据库信息内不同元素之间的比较,公式为:
Figure 365392DEST_PATH_IMAGE080
(1)
在公式(1)中,R表示数据维度,n表示向量,
Figure 372662DEST_PATH_IMAGE081
表示重构前的矩阵数据信息,
Figure 632742DEST_PATH_IMAGE082
表 示重构后的矩阵数据信息;
Figure 632928DEST_PATH_IMAGE083
Figure 803009DEST_PATH_IMAGE084
表示重构矩阵数据之间的虚假邻点的关系,r 表示重 构后增加的数据信息,u为重构矩阵数据信息最佳维度,重构后,重构矩阵数据的元素数据 维度和降维后的数据维度之差大于10;
(S14)降维判断,当降维数据信息满足当前需求时,则输出数据信息,当降维数据信息不满足当前需求时,则重新进行降维计算。
具体实施例中,降维处理是将高维数据化为低维度数据的操作,能够提高数据信息的计算能力。在具体实施例中,可以通过MATLAB借用函数 reshape,将一个矩阵重塑为另一个大小不同的新矩阵,但保留其原始数据。通过给出一个由二维数组表示的矩阵,以及两个正整数表示想要的重构的矩阵的行数和列数。重构后的矩阵需要将原始矩阵的所有元素以相同的行遍历顺序填充。如果具有给定参数的reshape操作是可行且合理的,则输出新的重塑矩阵;否则,输出原始矩阵。
具体实施例中,在进行数据处理中,平均互信息从整体上表示一个随机变量Y所给出的关于另一个随机变量X的信息量。假设H(X)代表接收到输出符号以前关于输入变量X的不确定性。而H(Y|X)代表接收到输出符号后关于输入变量X的平均不确定性。二者之差表示接收端所获得的信息量,即平均互信息。 可见,通过信道传输消除了一些不确定性,获得了一定的信息,而平均互信息就代表接收到输出符号之后平均每个符号获得的关于输入端X的信息量。
在具体实施例中,支持度表示在总体中的出现概率,总体小票数量越大,最小支持度设置的越小,以保证可以存在频繁项集。频繁项集越少时,应当调小最小支持度。首先将不满足最小支持度的项删除构建一个数据集,扫描一边数据集;接着对筛选后的数据集排序,构建一棵树,根节点为 NULL;将数据集***到树中。
在具体实施例中,在虚假邻域概念基础上,可以提出了可同时确定合适的嵌入维数与时间延迟的方法,从而可据此确定径向基函数神经网络的输入;然后 ,用径向基函数神经网络进行学习及预测。混沌时间序列是高维相空间混沌运动的轨迹在一维空间上的投影,在这个投影的过程中,混沌运动的轨迹会被扭曲。高维相空间中并不相邻的两点投影在一维空间轴上时可能会称为相邻的两点,即虚假邻点,这就是混沌时间序列呈现出无规律的原因所在。重构相空间,实际上就是从馄饨时间序列中恢复混沌运动的轨迹,随着嵌入维数m的增大,混沌运动的轨道就会逐渐打开,虚假邻点也会逐步被踢出,从而混沌运动的轨迹得到恢复,这个思想就是虚假最近邻点法(False Nearest Neighbours,FNN)的出发点。
如图2-图6所示,图2中的数据属性类别
Figure 840236DEST_PATH_IMAGE085
表示数据属性,其中的
Figure 977825DEST_PATH_IMAGE086
-
Figure 532434DEST_PATH_IMAGE087
为数据属 性类别的下属分类数据信息,其中 a11- a32表示下属分类数据信息中多种数据信息。图3中 的数据属性类别b表示不同于a的数据属性,其中的
Figure 806289DEST_PATH_IMAGE088
-
Figure 279996DEST_PATH_IMAGE089
表示不同于数据信息a的数据属 性,其中的b11- b32为不同于数据信息a的数据属性的下属分类数据信息中多种数据信息。换 言之,a和b都是多种数据信息中的不同类型。
在上述实施例中,数据分层为差分分层,差分分层的方法为:
将数据属性按照数量和种类划分为不同的属性,属性数据量从顶层到底层从少至多依次排列和分布;
计算不同数据属性之间的距离,假设数据集合中的某个数据信息为
Figure 390034DEST_PATH_IMAGE090
,数据属性类 别划分为
Figure 341810DEST_PATH_IMAGE091
Figure 756259DEST_PATH_IMAGE092
Figure 276233DEST_PATH_IMAGE093
Figure 122835DEST_PATH_IMAGE094
,则数据信息
Figure 878302DEST_PATH_IMAGE095
距离数据属性类别
Figure 877482DEST_PATH_IMAGE096
Figure 692991DEST_PATH_IMAGE097
Figure 26889DEST_PATH_IMAGE098
Figure 195833DEST_PATH_IMAGE099
之间的距离为
Figure 174154DEST_PATH_IMAGE100
Figure 550777DEST_PATH_IMAGE101
将计算出的不同数据属性数据信息进行差分计算;当
Figure 857125DEST_PATH_IMAGE102
时,其中
Figure 219973DEST_PATH_IMAGE103
为常数,则数据信息
Figure 914784DEST_PATH_IMAGE104
划分到
Figure 213041DEST_PATH_IMAGE105
类。
在具体实施例中,通过将不同数据属性划分,用户能够从大量数据信息中获取不同属性的数据信息,并将获取到的数据信息通过分布计算的方式提高数据处理能力。通过差分计算,能够将获取到的数据信息正确分类,以实现不同模块信息的划分,提高数据处理能力。
在上述实施例中,数据KNN算法包括以下步骤:
(S21)选择大数据信息测试集合,根据不同的数据属性选择测试大数据信息向量集合;
(S22)训练大数据信息测试集合,通过分层类别,构建成 n 层树状形式;并通过最佳搜索算法实现大数据信息测试集合的数据搜索;
(S23)依次计算大数据信息测试集合与第 1-n 层大数据信息测试集合训练集中每个大数据信息的文本相似度;
通过欧式距离计算公式如下:
Figure 131319DEST_PATH_IMAGE106
(2)
在公式(2)中,
Figure 891333DEST_PATH_IMAGE107
表示大数据信息测试集合中测试信息的特征向量,
Figure 844246DEST_PATH_IMAGE108
表示大数 据信息测试集合中测试信息的特征向量的序列;
Figure 47825DEST_PATH_IMAGE109
为第 1 层第j类的大数据信息测试集 合中心向量,
Figure 578033DEST_PATH_IMAGE110
表示大数据信息的类;M为大数据信息测试集合特征向量的维数;
Figure 282683DEST_PATH_IMAGE111
为大数 据信息测试集合向量的第 k 维;
Figure 965469DEST_PATH_IMAGE112
表示第 k 维中第一层第j类的大数据信息测试集合向 量;
(S24)按照文本相似度,在训练文本集中选出与测试文本最相似的
Figure 464583DEST_PATH_IMAGE113
个文本;
(S25)在测试文本的
Figure 482086DEST_PATH_IMAGE114
个近邻中,依次计算每类的权重,
Figure 334636DEST_PATH_IMAGE115
表示权重值公式,计算 式为
Figure 262141DEST_PATH_IMAGE116
,其中
Figure 319440DEST_PATH_IMAGE117
为数据信息,
Figure 309393DEST_PATH_IMAGE118
表示第
Figure 90267DEST_PATH_IMAGE119
类的大数据信息测试集合中测试 信息的特征向量,
Figure 996912DEST_PATH_IMAGE035
表示杰卡德相似系数,
Figure 837829DEST_PATH_IMAGE120
为相似度计算公式,
Figure 580657DEST_PATH_IMAGE121
表示相似 度程度值,其中
Figure 289856DEST_PATH_IMAGE122
的取值为1 或者0,如果
Figure 926373DEST_PATH_IMAGE123
属于
Figure 813558DEST_PATH_IMAGE124
,则函数
Figure 27371DEST_PATH_IMAGE041
值为 1,否则为 0;
(S26)对计算的权重进行排序,对排序后的权重进行差分比较,当
Figure 415627DEST_PATH_IMAGE125
时, 其中
Figure 782017DEST_PATH_IMAGE126
表示特征的数据集,则测试文本属于第 1 类,在对第二层进行相似度比较的时候, 只需要比较第二层中第 1 类的子类;如果
Figure 964737DEST_PATH_IMAGE127
,则继续进行判断,存在
Figure 934354DEST_PATH_IMAGE128
,当
Figure 736088DEST_PATH_IMAGE129
时,则测试本文属于1-
Figure 816040DEST_PATH_IMAGE130
类中的其中一类,在对第二 层进行比较时,只需要比较第二层中第 1 类中第
Figure 825453DEST_PATH_IMAGE131
类的子类 ;如果
Figure 623644DEST_PATH_IMAGE132
时,则继续进 行判断;其中
Figure 229069DEST_PATH_IMAGE133
表示排序后的向相邻权重的差分值,
Figure 553740DEST_PATH_IMAGE134
表示设置的大数据信息测试集合阈 值差分值,
Figure 609421DEST_PATH_IMAGE135
表示存在
Figure 770275DEST_PATH_IMAGE136
类大数据信息测试集合距离值的差分值。
KNN(K-Nearest Neighbor)是最简单的机器学***均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比。
在进一步的实施例中,通过计算测试数据与各个训练数据之间的距离;按照距离的递增关系进行排序;选取距离最小的K个点;再确定前K个点所在类别的出现频率;然后返回前K个点中出现频率最高的类别作为测试数据的预测分类。
在进一步的实施例中,通过k值的选择,先选一个较小的值,然后通过交叉验证选择一个合适的最终值。其中k越小,即使用较小的领域中的样本进行预测,训练误差会减小,但模型会很复杂,以至于过拟合。k越大,即使用交大的领域中的样本进行预测,训练误差会增大,模型会变得简单,容易导致欠拟合。因此在具体实施例中,需要选择合适的k值,以提高数据处理能力。
一种改进KNN方法的数据处理方法中的一种示例性代码如下所示:
load data.txt;
a=data(1:30,1:4);%取第一类的前三十组
aa=data(31:50,1:4);%第一类的后二十组
b=data(51:80,1:4);%第二类的前三十组
bb=data(81:100,1:4);%第二类的后二十组
c=data(101:130,1:4);%取第三类的前三十组
cc=data(131:150,1:4); %第三类的后二十组
train=cat(1,a,b,c);%组成训练样本(90*4)
test=cat(1,aa,bb,cc);%组成测试样本(60*4)
c=3;%c均值c=3
z1=train(1,:);
z2=train(45,:);
z3=train(90,:);%初始聚类中心z1,z2,z3
m=0;t=0;%迭代步数
while m==0
samp1=[];samp2=[];samp3=[];%定义空样本:第一类为samp1,第二类为samp2,第三类为samp3
n1=1;n2=1;n3=1;
t=t+1;
for i=1:90
if(pdist([train(i,:);z1])〈pdist([train(i,:);z2]))&&(pdist([train(i,:);z1])<pdis
([train(i,:);z3]))%距离
%若训练样本与聚类z1的距离小于与z2,z3的距离,则赋值于samp1。
samp1(n1,:)=train(i,:);
n1=n1+1;
elseif (pdist([train(i,:);z2])〈pdist([train(i,:);z1]))&&(pdist([train(i,:);z2])<pdist([train(i,:);z3]))
%若训练样本与聚类z2的距离小于与z1,z3的距离,则赋值于samp2
samp2(n2,:)=train(i,:);
n2=n2+1;
else%其他则赋值于samp3
samp3(n3,:)=train(i,:);
n3=n3+1;
end。
如图7所示,在图7中,
Figure 428658DEST_PATH_IMAGE137
表示输入数据信息,
Figure 748781DEST_PATH_IMAGE138
表示隐藏节点数据信 息,
Figure 319571DEST_PATH_IMAGE139
表示大数据信息测试集合计算过程中函数数据信息节点,
Figure 92355DEST_PATH_IMAGE140
表示隐含层节点的 属性,
Figure 551499DEST_PATH_IMAGE141
表示数据输出层节点的训练数据信息;
在上述实施例中,卷积分故障诊断方法包括以下步骤:
通过扩张因果卷积与残差块构成故障诊断体系结构,在残差块中,Dropout是一种正则化技术,用于删除卷积分故障诊断模型体系结构层的一些随机输出;要丢弃的神经元数量由0到1的DREPOPOUT率给出,这是该层输出被丢弃的概率;卷积分故障诊断模型感受野也取决于剩余块的层数,例如,核大小为ks=3、扩张因子d=1、2、4,剩余区块堆叠数n=1的感受野大小将为3*4*1=12。残差块如公式(3)所示:
Figure 335916DEST_PATH_IMAGE142
(3)
在公式(3)中,O是卷积分故障诊断模型输出层的输出变量,
Figure 733399DEST_PATH_IMAGE143
表示分故障诊断模 型输出层的输入变量,
Figure 852534DEST_PATH_IMAGE144
表示深度学习的残差映射,在权重层之后,添加设置退出层,扩 张因果卷积函数F(t)定义为:
Figure 869031DEST_PATH_IMAGE145
(4)
公式(4)中,
Figure 898167DEST_PATH_IMAGE058
是过滤器;
Figure 325606DEST_PATH_IMAGE059
是神经网络的层级;
Figure 72982DEST_PATH_IMAGE146
表示输入的时间序列信息;
Figure 627592DEST_PATH_IMAGE147
为 空洞参数,空洞间隔大小;
Figure 901447DEST_PATH_IMAGE062
表示空洞卷积算子;
故障诊断体系结构的评估公式为:
Figure 109574DEST_PATH_IMAGE148
(5)
公式(5)中,
Figure 219613DEST_PATH_IMAGE149
表示大数据信息故障评估指标均值,T表示预测持续周期,
Figure 564531DEST_PATH_IMAGE150
表示 预测大数据信息故障体系结构的评估持续周期参数,
Figure 568259DEST_PATH_IMAGE151
表示深度学习模型各项超参数,θ 表示故障诊断体系结构评价指标,
Figure 88233DEST_PATH_IMAGE152
表示大数据信息故障诊断体系结构评价指标的参数,通 过建立正交化的评估矩阵将大数据信息故障评估指标进行信息交叠,不同信息之间相互影 响迭代过程为:
Figure 544622DEST_PATH_IMAGE153
(6)
公式(6)中,α表示大数据信息故障评估指标相互交叠函数,β表示大数据信息之间相互影响迭代过程,根据大数据信息故障评估指标之间的迭代公式,对公式(6)矩阵建立算法程序,即:
Figure 690302DEST_PATH_IMAGE154
(7)
公式(7)中,
Figure 423903DEST_PATH_IMAGE155
表示大数据信息故障评估正交化安全矩阵,μ表示正交化矩阵编辑 参数;然后将各项大数据信息故障评估指标数据通过施密特公式应用在数据信息智能预测 平台中,在线测试获得最佳评估效果输出为:
Figure 504991DEST_PATH_IMAGE156
(8)
公式(8)中,
Figure 307731DEST_PATH_IMAGE157
表示验算的各项数据信息评估指标效果,m表示大数据信息架构节 点数量,
Figure 7834DEST_PATH_IMAGE073
表示大数据信息架构节点数量的变量值,通过判定评估指标效果,进而计算权重 公式,权重公式为:
Figure 986154DEST_PATH_IMAGE158
(9)
公式(9)中,
Figure 97198DEST_PATH_IMAGE159
表示大数据信息故障评估指标权重。
通过建立算法模型将卷积分故障诊断模型的超参数进行迭代处理,根据迭代数据推算出大数据信息故障评估指标,通过正交化矩阵进行优化,从而得到最佳优化参数评估结果,从而改进了卷积分故障诊断模型体系的算法性能。
本发明应用新型的时间卷积网络(Time Convolution Network,卷积分故障诊断模型)深度学习模型,用于调度大数据信息故障智能预测。
如图8所示,在上述实施例中,改进型误差评估函数为
Figure 528180DEST_PATH_IMAGE160
(10)
公式(10)中,包含有
Figure 766394DEST_PATH_IMAGE161
组数据,其中
Figure 720925DEST_PATH_IMAGE162
表示为大数据信息测试样本,
Figure 878237DEST_PATH_IMAGE079
表示为大数 据信息故障预测样本。
为了验证本发明的技术效果,假设方案1为决策树分类方法,方案2为k-means分类方法,分别采用这2种方法对本发明的方案进行验证和比较。
通过不断训练得到相应的实验结果如表1所示,通过仿真软件得到对比图如图8所示。
表1不同方法的误差准确度对比示意表
Figure 671881DEST_PATH_IMAGE163
由上图可知,本发明的方法在进行数据分析准确度进行测试中,测试的结果明显高于方案1和方案2的准确度,并且本发明的方法数据分析准确度均高于80%,最高可达96%,准确度波动不大,比较稳定。而方案1与方案2在进行数据分析准确度测试中波动范围较大,并且准确度极不稳定,与本发明的方法相比,存在着很大的不足;由此可见,本发明的方法数据分析准确度较高。
实施例(2) 装置
一种改进KNN方法的数据处理装置,包括:
数据获取模块,从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
数据处理模块,通过改进KNN算法模型对降维后的数据信息进行数据信息处理;
数据评估模块,通过改进型误差评估函数对处理后的数据信息进行评估;
数据共享模块,数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享;
其中所述数据处理模块分别与数据获取模块、数据评估模块和数据共享模块连接。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和***的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。

Claims (6)

1.一种改进KNN方法的数据处理方法,其特征在于:包括以下步骤:
步骤一、从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
步骤二、通过改进KNN算法模型对降维后的数据信息进行数据信息处理,改进KNN算法模型包括数据预处理步骤、数据分层步骤、数据KNN算法计算步骤和卷积分故障诊断步骤;
步骤三、通过改进型误差评估函数对处理后的数据信息进行评估;
步骤四、数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享;
卷积分故障诊断方法包括以下步骤:
通过扩张因果卷积与残差块构成故障诊断体系结构,残差块如公式(1)所示:
Figure DEST_PATH_IMAGE001
(1)
在公式(1)中,O是卷积分故障诊断模型输出层的输出变量,
Figure 697078DEST_PATH_IMAGE002
表示分故障诊断模型输 出层的输入变量,
Figure DEST_PATH_IMAGE003
表示深度学习的残差映射,在权重层之后,添加设置退出层,扩张因 果卷积函数F(t)定义为:
Figure 16063DEST_PATH_IMAGE004
(2)
式(2)中,
Figure DEST_PATH_IMAGE005
是过滤器;
Figure 514565DEST_PATH_IMAGE006
是神经网络的层级;
Figure DEST_PATH_IMAGE007
表示输入的时间序列信息;
Figure 526384DEST_PATH_IMAGE008
为空洞参 数,空洞间隔大小;
Figure 677879DEST_PATH_IMAGE009
表示空洞卷积算子;
故障诊断体系结构的评估公式为:
Figure 3819DEST_PATH_IMAGE010
(3)
式(3)中,
Figure DEST_PATH_IMAGE011
表示大数据信息故障评估指标均值,T表示预测持续周期,
Figure 353897DEST_PATH_IMAGE012
表示预测大 数据信息故障体系结构的评估持续周期参数,
Figure 474300DEST_PATH_IMAGE013
表示深度学习模型各项超参数,θ表示故 障诊断体系结构评价指标,
Figure 316354DEST_PATH_IMAGE014
表示大数据信息故障诊断体系结构评价指标的参数,通过建 立正交化的评估矩阵将大数据信息故障评估指标进行信息交叠,不同信息之间相互影响迭 代过程为:
Figure DEST_PATH_IMAGE015
(4)
式(4)中,α表示大数据信息故障评估指标相互交叠函数,β表示大数据信息之间相互影响迭代过程,根据大数据信息故障评估指标之间的迭代公式,对公式(5)矩阵建立算法程序,即:
Figure 364426DEST_PATH_IMAGE016
(5)
式(5)中,
Figure DEST_PATH_IMAGE017
表示大数据信息故障评估正交化安全矩阵,μ表示正交化矩阵编辑参数;
然后将各项大数据信息故障评估指标数据通过施密特公式应用在数据信息智能预测平台中,在线测试获得最佳评估效果输出为:
Figure 241115DEST_PATH_IMAGE018
(6)
式(6)中,
Figure DEST_PATH_IMAGE019
表示验算的各项数据信息评估指标效果,m表示大数据信息架构节点数 量,
Figure 594736DEST_PATH_IMAGE020
表示大数据信息架构节点数量的变量值,通过判定评估指标效果,进而计算权重公式, 权重公式为:
Figure DEST_PATH_IMAGE021
(7)
式(7)中,
Figure 189665DEST_PATH_IMAGE022
表示大数据信息故障评估指标权重。
2.根据权利要求1所述的一种改进KNN方法的数据处理方法,其特征在于:降维处理的方法包括以下步骤:
(S11)通过重构矩阵数据信息的方式实现降维处理,并设置重构矩阵数据个数、数据维度和时间延迟;
(S12)通过平均交互信息法求解不同元素库的分布概率,并通过关联算法模型分析数据特征;
(S13)通过虚假邻点法计算数据信息的维数,通过比较不同数据信息的维数进而选择不同的数据分类,两个不同维度之间的序列通过特征对度量法实现数据库信息内不同元素之间的比较,公式为:
Figure DEST_PATH_IMAGE023
(8)
在公式(8)中,R表示数据维度,n表示向量,
Figure 44358DEST_PATH_IMAGE024
表示重构前的矩阵数据信息,
Figure DEST_PATH_IMAGE025
表示重 构后的矩阵数据信息;
Figure 713237DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
表示重构矩阵数据之间的虚假邻点的关系,r 表示重构 后增加的数据信息,u为重构矩阵数据信息最佳维度,重构后,重构矩阵数据的元素数据维 度和降维后的数据维度之差大于10;
(S14)降维判断,当降维数据信息满足当前需求时,则输出数据信息,当降维数据信息不满足当前需求时,则重新进行降维计算。
3.根据权利要求1所述的一种改进KNN方法的数据处理方法,其特征在于:数据分层为差分分层,差分分层的方法为:
将数据属性按照数量和种类划分为不同的属性,属性数据量从顶层到底层从少至多依次排列和分布;
计算不同数据属性之间的距离,假设存在数据集合中的某个数据信息, 数据属性类别 划分为
Figure 300076DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
Figure 447548DEST_PATH_IMAGE030
Figure 653401DEST_PATH_IMAGE031
,则数据信息距离数据属性类别
Figure 35841DEST_PATH_IMAGE032
Figure 262423DEST_PATH_IMAGE033
Figure 707311DEST_PATH_IMAGE034
Figure 107068DEST_PATH_IMAGE035
之间的距离为
Figure DEST_PATH_IMAGE036
Figure 16118DEST_PATH_IMAGE037
将计算出的不同数据属性数据信息进行差分计算;当
Figure DEST_PATH_IMAGE038
时,其中
Figure 679181DEST_PATH_IMAGE039
为 常数,则数据信息划分到
Figure DEST_PATH_IMAGE040
类。
4.根据权利要求1所述的一种改进KNN方法的数据处理方法,其特征在于:数据KNN算法包括以下步骤:
(S21)选择大数据信息测试集合,根据不同的数据属性选择测试大数据信息向量集合;
(S22)训练大数据信息测试集合,通过分层类别,构建成 n 层树状形式;并通过最佳搜索算法实现大数据信息测试集合的数据搜索;
(S23)依次计算大数据信息测试集合与第 1-n 层大数据信息测试集合训练集中每个大数据信息的文本相似度;
通过欧式距离计算公式如下:
Figure 795386DEST_PATH_IMAGE041
(9)
在公式(9)中,
Figure DEST_PATH_IMAGE042
表示大数据信息测试集合中测试信息的特征向量,
Figure 202096DEST_PATH_IMAGE043
表示大数据信 息测试集合中测试信息的特征向量的序列;
Figure DEST_PATH_IMAGE044
为第 1 层第j类的大数据信息测试集合中 心向量,
Figure 965653DEST_PATH_IMAGE045
表示大数据信息的类;M为大数据信息测试集合特征向量的维数;
Figure 330775DEST_PATH_IMAGE046
为大数据信 息测试集合向量的第 k 维;
Figure 15834DEST_PATH_IMAGE047
表示第 k 维中第一层第j类的大数据信息测试集合向量;
(S24)按照文本相似度,在训练文本集中选出与测试文本最相似的
Figure 695077DEST_PATH_IMAGE048
个文本;
(S25)在测试文本的
Figure 906616DEST_PATH_IMAGE048
个近邻中,依次计算每类的权重,
Figure 318006DEST_PATH_IMAGE049
表示权重值公式,计算式为
Figure DEST_PATH_IMAGE050
,其中
Figure 146153DEST_PATH_IMAGE051
为数据信息,
Figure DEST_PATH_IMAGE052
表示第
Figure 897596DEST_PATH_IMAGE053
类的大数据信息测试集合 中测试信息的特征向量,
Figure 166903DEST_PATH_IMAGE054
表示杰卡德相似系数,
Figure 483615DEST_PATH_IMAGE055
为相似度计算公式,
Figure 267901DEST_PATH_IMAGE056
表示相似度程度值,其中
Figure 288946DEST_PATH_IMAGE057
的取值为1 或者0,如果
Figure 84864DEST_PATH_IMAGE058
属于
Figure 228269DEST_PATH_IMAGE059
,则函数
Figure DEST_PATH_IMAGE060
值为 1,否则为 0;
(S26)对计算的权重进行排序,对排序后的权重进行差分比较,当
Figure 171954DEST_PATH_IMAGE061
时,其中
Figure DEST_PATH_IMAGE062
表示特征的数据集,则测试文本属于第 1 类,在对第二层进行相似度比较的时候,只需 要比较第二层中第 1 类的子类;如果
Figure 324587DEST_PATH_IMAGE063
,则继续进行判断,存在
Figure 975011DEST_PATH_IMAGE064
,当
Figure 309826DEST_PATH_IMAGE065
时,则测试本文属于1-
Figure 678490DEST_PATH_IMAGE066
类中的其中一类,在 对第二层进行比较时,只需要比较第二层中第 1 类中第
Figure 838076DEST_PATH_IMAGE066
类的子类 ;如果
Figure 670903DEST_PATH_IMAGE067
时,则继续进行判断;其中
Figure 765898DEST_PATH_IMAGE068
表示排序后的向相邻权重的差分值,
Figure 12071DEST_PATH_IMAGE069
表示设置的大数据信 息测试集合阈值差分值,
Figure DEST_PATH_IMAGE070
表示存在
Figure 647452DEST_PATH_IMAGE066
类大数据信息测试集合距离值的差分值。
5.根据权利要求1所述的一种改进KNN方法的数据处理方法,其特征在于:改进型误差 评估函数为
Figure 600365DEST_PATH_IMAGE071
(10)
公式(10)中,包含有
Figure DEST_PATH_IMAGE072
组数据,其中
Figure 725315DEST_PATH_IMAGE073
表示为大数据信息测试样本,
Figure DEST_PATH_IMAGE074
表示为大数据 信息故障预测样本。
6.一种应用权利要求1-5任意一项所述的一种改进KNN方法的数据处理方法的装置,包括:
数据获取模块,从数据库信息中获取数据信息,并对获取的数据信息进行降维处理,以获取低维度数据信息;
数据处理模块,通过改进KNN算法模型对降维后的数据信息进行数据信息处理;
数据评估模块,通过改进型误差评估函数对处理后的数据信息进行评估;
数据共享模块,数据信息应用与分享,对获取的数据信息进行远程数据信息处理和数据分享;
其中所述数据处理模块分别与数据获取模块、数据评估模块和数据共享模块连接。
CN202210946851.XA 2022-08-09 2022-08-09 改进knn方法的数据处理方法和装置 Active CN115017125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210946851.XA CN115017125B (zh) 2022-08-09 2022-08-09 改进knn方法的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210946851.XA CN115017125B (zh) 2022-08-09 2022-08-09 改进knn方法的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN115017125A CN115017125A (zh) 2022-09-06
CN115017125B true CN115017125B (zh) 2022-10-21

Family

ID=83066268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210946851.XA Active CN115017125B (zh) 2022-08-09 2022-08-09 改进knn方法的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN115017125B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720822B1 (en) * 2005-03-18 2010-05-18 Beyondcore, Inc. Quality management in a data-processing environment
CN104408095A (zh) * 2014-11-15 2015-03-11 北京广利核***工程有限公司 一种基于改进的knn文本分类方法
CN114781555A (zh) * 2022-06-21 2022-07-22 深圳市鼎合丰科技有限公司 改进knn方法的电子元器件数据分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11488010B2 (en) * 2018-12-29 2022-11-01 Northeastern University Intelligent analysis system using magnetic flux leakage data in pipeline inner inspection
CN112308251A (zh) * 2020-12-31 2021-02-02 北京蒙帕信创科技有限公司 一种基于机器学习的工单分派方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720822B1 (en) * 2005-03-18 2010-05-18 Beyondcore, Inc. Quality management in a data-processing environment
CN104408095A (zh) * 2014-11-15 2015-03-11 北京广利核***工程有限公司 一种基于改进的knn文本分类方法
CN114781555A (zh) * 2022-06-21 2022-07-22 深圳市鼎合丰科技有限公司 改进knn方法的电子元器件数据分类方法

Also Published As

Publication number Publication date
CN115017125A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN112784881B (zh) 网络异常流量检测方法、模型及***
CN107622182B (zh) 蛋白质局部结构特征的预测方法及***
CN107292350A (zh) 大规模数据的异常检测方法
CN108805193B (zh) 一种基于混合策略的电力缺失数据填充方法
CN110020712B (zh) 一种基于聚类的优化粒子群bp网络预测方法和***
Labroche New incremental fuzzy c medoids clustering algorithms
CN113240113B (zh) 一种增强网络预测鲁棒性的方法
CN112926640A (zh) 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
CN114139639B (zh) 一种基于自步邻域保持嵌入的故障分类方法
Jha et al. Criminal behaviour analysis and segmentation using k-means clustering
Farooq Genetic algorithm technique in hybrid intelligent systems for pattern recognition
CN113516019A (zh) 高光谱图像解混方法、装置及电子设备
CN112488188A (zh) 一种基于深度强化学习的特征选择方法
CN115017125B (zh) 改进knn方法的数据处理方法和装置
CN116759067A (zh) 一种基于重建和Tabular数据的肝病诊断方法
CN111104950A (zh) 基于神经网络的k-NN算法中k值预测方法及装置
CN116089801A (zh) 一种基于多重置信度的医疗数据缺失值修复的方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN113704570A (zh) 基于自监督学习式进化的大规模复杂网络社区检测方法
CN116015787B (zh) 基于混合持续变分量子神经网络的网络入侵检测方法
Węgier et al. Optimized hybrid imbalanced data sampling for decision tree training
CN117437976B (zh) 基于基因检测的疾病风险筛查方法及***
Singh et al. Genetic Algorithm based Feature Selection to Enhance Breast Cancer Classification
CN114462548B (zh) 一种提高单细胞深度聚类算法精度的方法
Ahamad et al. Clustering and classification algorithms in data mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant