CN111858672A

CN111858672A - 一种改进的knn案例推理检索算法

Info

Publication number: CN111858672A
Application number: CN202010685065.XA
Authority: CN
Inventors: 孙宝贵; 车文刚
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-10-30

Abstract

本发明公开了一种改进的KNN案例推理检索算法，所述算法包括以下步骤：S1，遗传模拟退火‑模糊C均值聚类算法对案例库聚类，形成多个类簇；S2，改进的遗传‑粒子群混合算法优化各类簇近邻K值；S3，最优原则检索策略确定检索子案例库及近邻K值。本发明对优化各类簇近邻K值的算法、以及确定检索子案例库的算法都进行了改进研究，进而改善了案例推理检索算法的预测结果质量。最后使用mackey‑glass混沌时间序列数据进行仿真预测。实验证明，相较于传统KNN检索算法，本发明的检索算法对问题案例聚类后，预测结果的精度显著提高。

Description

一种改进的KNN案例推理检索算法

技术领域

本发明涉及一种检索算法，具体涉及到一种改进的案例推理检索算法。

背景技术

案例推理(case-based reasoning，CBR)是人工智能领域一种基于现有知识的问题求解与学习方法，其解决问题的方法是通过重用或修改与问题案例相似性高的历史案例。一般地，最为广泛应用的CBR模型是Aamodt和Plaza提出的”4R循环“，即以下四个环节：(1)案例检索(Retrieve)：从案例库中检索与问题案例相似性最高的一个或多个相似源案例。(2)案例重用(Reuse)：将检索后得到的相似源案例作为建议解；(3)案例修正(Revise)：对案例重用得到的建议解进行评估。若评估合格，则不需要修正；若评估不合格，则对建议解进行相应的修正；(4)案例保存(Retain)：将问题案例以及其解决方案作为新案例存储到案例库中。目前，CBR的应用与研究非常广泛。

案例检索是案例推理的中心环节。因此，检索算法的性能直接影响案例推理检索结果的精度和执行时间。目前常用的案例推理检索算法有：知识引导法(knowledge-guided)、归纳索引法(induce indexing)、K-最近邻算法(K-nearest neighbor)等。

K最近邻算法(k-nearest neighbor,k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法，是最简单的机器学习算法之一。相较于其他常用的检索算法，KNN是基于距离的相似性度量方法，不存在检索过程繁杂以及对数据的归纳整理操作。由于K-最近邻算法通过欧氏距离实现相似性计算，所以被广泛的应用于案例推理。目前对于改善传统KNN算法性能、提高案例推理检索效率的研究颇多。其中：樊瑞宣等提出一种个性化K近邻的检索算法，其每个样本的近邻K值通过算法自动确定。但是该算法需要对每个样本优化近邻K值，因此时间复杂度相对较高。万碧君等提出一种改进K最近邻回归建模算法。但其采用的K-means以及粒子群算法都存在局部最优解的问题且粒子群算法不易收敛。

发明内容

本发明的目的是提供一种改进的KNN案例推理检索算法，可以显著提高预测结果的精度。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种改进的KNN案例推理检索算法，所述算法包括以下步骤：

S1，遗传模拟退火-模糊C均值聚类算法对案例库聚类，形成多个类簇；

S2，改进的遗传-粒子群混合算法优化各类簇近邻K值；

S3，最优原则检索策略确定检索子案例库及近邻K值。

进一步地,所述步骤S1具体包括以下步骤：

S1.1假设一个数据集X有n个样本，聚类为cn类，其目标函数为：

其中：

u_k为隶属度函数；

d_ij为欧几里得距离，x_i为第i个样本，c_j为第j个类簇中心；b为加权参数，取值范围[1inf]；

隶属度函数：

类簇中心c_j：

S1.2，初始化种群控制参数：种群规模pop_size,最大进化次数max_Iterate，交叉概率p_c，变异概率p_m，退火初始温度T_start，冷却系数J，终止温度T_end，类簇个数cn；

S1.3，随机初始化cn个类簇中心，并生成初始种群Chrom，对每个类簇中心用公式(2)计算各样本的隶属度，以及用公式(1)计算每个个体的适应度值F_i，其中i＝1，2，…，pop_size；

S1.4，设置进化迭代参数Iterate＝0；

S1.5，对种群Chrom进行选择、交叉、变异等遗传操作，对新产生的个体用公式(2)、(3)计算各样本的隶属度、以及cn个类簇中心，并用公式(1)计算每一个体的适应度值f_i；若f_i＞F_i，则新个体替换旧个体；否则，以概率P＝exp((F_i-f_i)T)接受新个体，抛弃旧个体；

S1.6，令Iterate＝Iterate+1，若Iterate<max_Iterate,则转至步骤S1.5；否则执行下一步；

S1.7，令T_i＝J*T_i-1，若T_i＞T_end，则转至步骤S1.4；否则，输出最优解。

进一步地,所述步骤S2具体包括以下步骤：

S2.1，初始化粒子群并对其编码，采用真实值整数编码；如：02，12，36；

S2.2，计算各类簇中每个案例与同类簇其他案例的距离，并将距离值按升序排序；

S2.3，通过适应度函数对每个粒子进行适应度值的计算，其中，适应度函数为当前K值的均方误差值MSE；即公式(4)：

其中，N为类簇内案例的个数；y_j,real为第j个案例y值的真实值；y_j,pre为第j个案例y值的预测值，如公式(5)所示：

其中：y_i为升序排序后前K个案例y值的真实值；

S2.4，根据粒子适应度值更新粒子最优值P_best以及群体最优值G_best；

S2.5，将群体最优值G_best十位上的数值对应交叉到粒子值的十位上，若新的粒子的适应度值优于未交叉粒子的适应度值，则更新粒子以及其适应度值；例如：群体最优值G_best＝16，当前粒子individual＝32，交叉后的粒子new_individual＝12；

S2.6；对粒子上的个位值、十位值进行变异，若新的粒子的适应度值优于未变异粒子的适应度值，则更新粒子以及其适应度值；

S2.7，循环执行步骤S2.3-S2.5，直到满足结束迭代的条件。

进一步地,所述步骤S3具体包括以下步骤：

S3.1，通过公式(6)计算问题案例与各类簇中心的距离dist；

S3.2，将各距离dist按升序排列成(dist₁；dist₂；…；dist_cn)，并通过公式(7)计算Dist；

Dist＝dist₂-dist₁ (7)

其中：dist₁、dist₂为排序后的值；

S3.3，If Dist＞阈值；

S3.4，dist₁对应的子类簇为检索子案例库；

S3.5，K＝K₁；

S3.6，Else；

S3.7，dist₁与dist₂对应的子类簇都作为检索子案例库；

S3.8，

与现有技术相比，本发明具有以下有益效果：

本发明对传统的KNN检索算法进行了改进：首先，利用遗传模拟退火-模糊C均值聚类算法对案例库聚类，形成多个类簇；其次，通过改进的遗传-粒子群混合算法优化各类簇近邻K值；最后提出最优原则检索策略，确定检索子案例库及近邻K值，通过mackey-glass混沌时间序列数据进行仿真预测；相较于传统KNN检索算法，本发明的检索算法预测结果的精度显著提高。

附图说明

图1是本发明的算法流程图；

图2是本发明的预测结果图；

图3是本发明的局部预测结果图(样本为0-60范围内)；

图4是本发明的局部预测结果图(样本为65-78范围内)；

图5是本发明的局部预测结果图(样本为105-135范围内)；

图6是本发明的局部预测结果图(样本为180-210范围内)。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

实施例：如图1-图6所示，

一种改进的KNN案例推理检索算法，所述算法包括以下步骤：

S2，改进的遗传-粒子群混合算法优化各类簇近邻K值；

S3，最优原则检索策略确定检索子案例库及近邻K值。

进一步地,所述步骤S1具体包括以下步骤：

其中：

u_k为隶属度函数；

隶属度函数：

类簇中心c_j：

S1.4，设置进化迭代参数Iterate＝0；

进一步地,所述步骤S2具体包括以下步骤：

其中，N为类簇内案例的个数；y_j，real为第j个案例y值的真实值；y_j，pre为第j个案例y值的预测值，如公式(5)所示：

其中：y_i为升序排序后前K个案例y值的真实值；

S2.7，循环执行步骤S2.3-S2.5，直到满足结束迭代的条件。

进一步地，所述步骤S3具体包括以下步骤：

S3.1，通过公式(6)计算问题案例与各类簇中心的距离dist；

Dist＝dist₂-dist₁ (7)

其中：dist₁、dist₂为排序后的值；

S3.3，If Dist＞阈值；

S3.4，dist₁对应的子类簇为检索子案例库；

S3.5，K＝K₁；

S3.6，Else；

S3.7，dist₁与dist₂对应的子类簇都作为检索子案例库；

S3.8，

实验及结果分析

通过训练集完成聚类以及近邻K值的优化后，对测试集进行预测验证，实验比较本发明的检索算法与其它种检索算法对测试集的预测结果，评价预测结果的指标为均方误差值(MSE)。

(1)传统KNN检索算法，记为KNN；

(2)基于模糊c均值聚类算法结合遗传-粒子群混合算法改进的KNN检索算法，记为FCM-GAPSO-KNN；

(3)基于遗传模拟退火-模糊c均值聚类算法结合遗传-粒子群混合算法改进的KNN检索算法，记为SAGA-FCM-GAPSO-KNN；

(4)本发明的检索算法。

实验内容

使用mackey-glass混沌时间序列数据进行仿真验证，数据集由时滞微分方程生成

当

时，上述微分方程呈现混沌特性。仿真取

通过Runge-Kutta方法生成20000个数据。去掉前5000个暂态点，从剩下的点中选取1000个数据点。其中，前800个数据点为训练集，后200个数据点为测试集。对选取的数据点进行异构重组，得出时延为1，嵌入维为4。即：一个案例由5个数据点组成，前4个数据点决定后1个数据点。

实验结果及分析

通过Davies-Bouldin评价指标确定最佳类簇个数为4。4种检索算法对训练集聚类，其结果基本为：158*5；170*5；200*5；266*5。相应的近邻K值基本为：11；14；10；19。传统KNN的近邻K值为训练集数目的平方根，即26。4种检索算法预测结果的均方误差值如表1所示。

表1：

序号	检索算法	均方误差(MSE)
			1	传统KNN检索算法	3.3075e-4
2	FCM-GAPSO-KNN	1.5312e-4
			3	SAGA-FCM-GAPSO-KNN	1.5185e-4
4	本发明的检索算法	1.2316e-4

由表1可知：四种检索算法中，传统KNN检索算法预测结果的均方误差值最大，即预测效果最差。FCM-GAPSO-KNN、SAGA-FCM-GAPSO-KNN相较于传统KNN检索算法，预测结果的精度均显著的提高。而本发明的改进的KNN检索算法的均方误差值最低，预测效果最好。

从图2可以看出：除去预测结果存在明显偏差的个别案例外，4种检索算法的总体预测结果仍表现良好。其中，本发明的改进的KNN检索算法对所有样本的预测结果最接近。从图3、图4、图5及图6可以看出，传统KNN检索算法的预测结果偏差最大。FCM-GAPSO-KNN仍然存在、SAGA-FCM-GAPSO-KNN较于传统KNN检索算法，其预测结果已经明显改善，但个别案例的预测结果仍存在明显偏差。而本发明的改进的KNN检索算法在FCM-GAPSO-KNN、SAGA-FCM-GAPSO-KNN算法已改善的基础上，解决了两者存在的误差，进一步提高了预测结果的精度。

本发明所提出的一种改进的KNN案例推理检索算法，可以有效的解决传统KNN检索算法存在的两个问题：(1)计算量大，效率低。传统KNN算法需要对案例库中所有的案例进行相似度计算，以此选择相似性最高的K个相似源案例。因此，对于海量案例库而言，计算量巨大，会降低效率。(2)近邻K值作为决定最终输出结果质量的因素之一。当K值较小时，容易发生过拟合；当K值较大时，会将噪声点划分到相似源案例，导致输出结果的误差增大，质量下降。同时，较于已有改进的KNN检索算法，精度进一步提高。

本发明对优化各类簇近邻K值的算法、以及确定检索子案例库的算法都进行了改进研究，进而改善了案例推理检索算法的预测结果质量。最后使用mackey-glass混沌时间序列数据进行仿真预测。实验证明，相较于传统KNN检索算法，本发明的检索算法对问题案例聚类后，预测结果的精度显著提高。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定。