CN108960298A

CN108960298A - 基于密度核心和动态扫描半径的体检报告聚类方法

Info

Publication number: CN108960298A
Application number: CN201810621085.3A
Authority: CN
Inventors: 张玉芳; 谢江; 王刘谦; 王小霞; 戴启祝; 马绍飞; 陈梦
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-12-07

Abstract

本发明涉及机器学习技术领域，公开了一种基于密度核心和动态扫描半径的体检报告聚类方法，包括如下步骤：寻找各体检报告的自然邻居；根据各体检报告的自然邻居，获取各体检报告的动态扫描半径；根据各体检报告的扫描半径，来计算各体检报告的中心点,然后获取各体检报告的收敛点；获取局部密度代表点集合；通过密度搜寻的方式，在局部密度代表点集合LPS中构建密度核心；将剩余的体检报告，根据其收敛点的位置对其进行分配，形成聚类结果。本发明增加了动态扫描半径的寻找方法，减少了参数输入，提高了判别的准确性。

Description

基于密度核心和动态扫描半径的体检报告聚类方法

技术领域

本发明涉及机器学习技术领域，尤其涉及一种体检报告聚类方法。

背景技术

随着我国老龄化问题的不断加剧以及经济社会的快速发展，人们对老年人的健康状况日益关注。通常，解决此问题的主要方法是让专业医师检查体检报告并告知体检结果。在信息技术发展导致海量数据诞生的今天，信息化和智能化是人们所期待的。为了减轻医生的工作量以及降低医疗机构的运行成本，就需要研究出一种能够保证体检结果高准确率且智能化的判别方法。

聚类在各个领域有着广泛的应用，比如图像分割、模式识别和数据分析等。但是，在真实数据环境下，数据的分布是复杂多样的，大多数真实数据集的分布都是非球面或者非椭圆，同时，有着不同的密度层次。为了能够应对不同形状和密度层次的问题(能够正确判别老年人健康状态)，基于快速查找密度代表点的聚类方法DPeak被提出来，DPeak算法的核心思想是基于以下假设：无论什么形状的簇，簇的中心都是被密度相对较小的邻居围绕，这些邻居离密度较大的其它中心的距离都要大于到所属簇的中心的距离。基于以上假设，首先，DPeak识别各个簇中心；然后，将分配其它剩余的数据到各个中心形成相应的簇。

基于密度代表点的聚类方法DPeak，虽然能够应用于任意形状的簇，但是也有很多的不足，首先，由于要手动选择截断距离d_c，不同的d_c值对聚类结果会产生很大影响；其次，由于使用的是基于中心的方法，必然会导致在聚类过程中对簇形状的丢失；最后，由于寻找密度代表点作为聚类中心，可能会产生伪密度代表点。

为了弥补DPeak算法在聚类过程对形状丢失的缺点，C.Yewang等人提出了基于密度核心的聚类算法Dcore。Dcore算法的核心思想是基于以下假设：无论什么形状的簇，簇中都有个密度核心，这个密度核心是由密度相对较高的一部分点连接构成。基于这个假设，Dcore算法使用密度核心替换了密度中心，从而消除了对中心的过度依赖，使整个聚类过程各个簇的形状都能被大致保持，减少聚类过程中对簇形状的丢失。但是，Dcore算法和DPeak算法一样，需要手动输入较多的参数，这导致Dcore算法的聚类结果会受到参数不同的影响；同时，由于Dcore使用了全局固定的参数，导致在对多密度层次的数据进行聚类时，效果不理想。

发明内容

有鉴于此，本发明的目的在于提供一种基于密度核心和动态扫描半径的体检报告聚类方法，增加了动态扫描半径的寻找方法，减少了参数输入，提高了判别的准确性。

为达到上述目的，本发明提供如下技术方案：

基于密度核心和动态扫描半径的体检报告聚类方法，包括如下步骤：

1)寻找各体检报告p_i的自然邻居NaN(p_i)；

2)根据各体检报告p_i的自然邻居NaN(p_i),获取各体检报告的动态扫描半径r(p_i)；

3)根据各体检报告p_i的扫描半径r(p_i)；来计算各体检报告的中心点，距离报告中心点最近的点就是p_i的收敛点CP(p_i)；

4)将收敛点为自己的点作为局部密度代表点，从而获得局部密度代表点集合LPS；

5)通过密度搜寻的方式，在局部密度代表点集合LPS中构建密度核心DensityCores；

6)将剩余的体检报告，根据其收敛点的位置对其进行分配，形成聚类结果。

进一步，所述步骤1)具体包括如下步骤：

11)初始化；

12)将体检报告的数据集构造为一颗K-D树；

13)基于自然邻的搜寻的方法，寻找每份体检报告的自然邻居NaN(p_i)。

进一步，所述步骤2)中，根据各体检报告p_i与其自然邻居NaN(p_i)的距离的均值，来获取各体检报告的动态扫描半径r(p_i)。

进一步，所述步骤3)中，通过使用动态扫描半径r(p_i)，获取每个点p_i动态半径内的点，以这些点的均值作为中心点，离中心点最近的点p_j就是p_i的中心点CPV(p_i),然后通过mean-shift的方式迭代寻找p_j的中心点CPV(p_j)，直到找到中心点为自己本身的点p_k，也就是CPV(p_k)＝p_k，那么p_i的收敛点就为p_k，也就是CP(p_i)＝p_k。

进一步，所述步骤4)中，判断各体检报告p_i是否为噪声点，如果不是噪声点，判断各体检报告p_i的收敛点CP(p_i)是否为自己本身，如过是自己本身，则将其放入到局部密度峰值集合LPS中，从而获得局部密度代表点集合LPS。

进一步，所述步骤4)和步骤5)之间还包括去除噪音点的步骤：将各体检报告的动态扫描半径按升序排列；然后，计算相邻体检报告之间的密度变化率，密度变化率大于阈值的即为噪音点。

进一步，所述步骤5)具体包括如下步骤:在局部密度代表点LPS中，根据每个点的动态扫描半径r进行基于密度的聚类，形成初始的簇，簇的个数就是最终的聚类个数，这些簇就是密度核心Density Cores。

进一步，所述步骤6)具体包括如下步骤：判断非密度代表点是否为噪声点，如果不是噪声点，则将其分配到p_i的收敛点CP(p_i)所在的簇，形成最终的聚类结果。

本发明的有益效果在于：在Dcore算法基础上提出的基于密度核心和动态扫描半径的聚类算法DCNaN。DCNaN使用了自然邻居的概念，从而减少参数的输入，同时，DCNaN通过使用动态扫描半径的方法，以适应不同密度层次的体检报告数据。将DCNaN与K-Means、DBSCAN、DPeak和Dcore聚类算法相比，判别结果的准确率有了很大的提升。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图：

图1为基于自然邻NaN的邻居信息和k值迭代流程图；

图2为收敛点CP搜寻流程图。

图3为局部密度代表点集合LPS搜寻流程图。

图4为密度核心density cores的形成流程图。

图5为基于密度核心和动态扫描半径的聚类方法的整体流程图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述,但所举实施例不作为对本发明的限定。

参见图1-5，本实施例基于密度核心和动态扫描半径的体检报告聚类方法，包括如下步骤：

1)寻找各体检报告p_i的自然邻居NaN(p_i)；参见图1，具体步骤如下：

11)获取体检报告数据集D，进行相关的数据预处理；

12)将体检报告数据集D构造为K-D树；

13)对D中的每个点进行迭代寻找其k近邻居和逆k近邻居，并统计没有被当做邻居点的总个数Nb；

14)判断Nb是否变化，变化k值加1，继续迭代，没有变化则停止迭代，最终得到D的自然邻居和k值信息。

2)根据各体检报告p_i的自然邻居NaN(p_i),计算点p_i和其自然邻居NaN(p_i)的距离均值d，将d作为各体检报告的动态扫描半径r(p_i)；

3)根据各体检报告p_i的扫描半径r(p_i)；来计算各体检报告的中心点,然后获取各体检报告p_i的收敛点CP(p_i)；参见图2，具体步骤如下：

31)根据每个点p_i的动态扫描半径r(p_i)，半径内所有邻居点的均值作为p_i的中心点CPV(p_i)；

32)通过mean-shift的方式迭代寻找p_j的中心点CPV(p_j)，直到找到中心点为自己本身的点p_k，也就是CPV(p_k)＝p_k，那么p_i的收敛点就为p_k，也就是CP(p_i)＝p_k；

4)去除噪音点：将各体检报告的动态扫描半径按升序排列；然后，计算相邻体检报告之间的密度变化率，密度变化率大于阈值的即为噪音点。

5)获取局部密度代表点集合LPS；参见图3，具体步骤如下：

51)根据4)来判断各个点p_i是否为噪声点；

52)如果不是噪声点，那么继续判断p_i的收敛点是否为自己本身，也就是CP(p_i)＝p_i,如果是则将其分配到局部密度代表点集合LPS中,形成局部密度代表点集合LPS；

6)通过密度搜寻的方式，在局部密度代表点集合LPS中构建密度核心DensityCores；参见图4,具体步骤如下：

61)获取动态扫描半径，局部密度代表点集合LPS；

62)根据局部密度代表点集合LPS中各个点的动态扫描半径进行基于密度的聚类，形成初始的聚类结果，也就是密度核心density cores；

7)将剩余的体检报告，根据其收敛点的位置对其进行分配，形成聚类结果。参见图5，具体步骤如下：

71)判断不属于LPS的点p_i是否为噪声点；

72)如果p_i不是噪声点，则将其分配到p_i的收敛点CP(p_i)所在的簇，形成最终的聚类结果。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其做出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.基于密度核心和动态扫描半径的体检报告聚类方法，其特征在于包括如下步骤：

1)寻找各体检报告p_i的自然邻居NaN(p_i)；

5)通过密度搜寻的方式，在局部密度代表点集合LPS中构建密度核心Density Cores；

2.根据权利要求1所述的基于密度核心和动态扫描半径的体检报告聚类方法，其特征在于，所述步骤1)具体包括如下步骤：

11)初始化；

12)将体检报告的数据集构造为一颗K-D树；

3.如权利要求2所述的基于密度核心和动态扫描半径的体检报告聚类方法，其特征在于：所述步骤2)中，根据各体检报告p_i与其自然邻居NaN(p_i)的距离的均值，来获取各体检报告的动态扫描半径r(p_i)。

4.如权利要求3所述的基于密度核心和动态扫描半径的体检报告聚类方法，其特征在于：所述步骤3)中，通过使用动态扫描半径r(p_i)，获取每个点p_i动态半径内的点，以这些点的均值作为中心点，离中心点最近的点p_j就是p_i的中心点CPV(p_i),然后通过mean-shift的方式迭代寻找p_j的中心点CPV(p_j)，直到找到中心点为自己本身的点p_k，也就是CPV(p_k)＝p_k，那么p_i的收敛点就为p_k，也就是CP(p_i)＝p_k。

5.如权利要求4所述的基于密度核心和动态扫描半径的体检报告聚类方法，其特征在于：所述步骤4)中，判断各体检报告p_i是否为噪声点，如果不是噪声点，判断各体检报告p_i的收敛点CP(p_i)是否为自己本身，如过是自己本身，则将其放入到局部密度峰值集合LPS中，从而获得局部密度代表点集合LPS。

6.如权利要求5所述的基于密度核心和动态扫描半径的体检报告聚类方法，其特征在于：所述步骤4)和步骤5)之间还包括去除噪音点的步骤：将各体检报告的动态扫描半径按升序排列；然后，计算相邻体检报告之间的密度变化率，密度变化率大于阈值的即为噪音点。

7.如权利要求6所述的基于密度核心和动态扫描半径的体检报告聚类方法，其特征在于：所述步骤5)具体包括如下步骤:在局部密度代表点LPS中，根据每个点的动态扫描半径r进行基于密度的聚类，形成初始的簇，簇的个数就是最终的聚类个数，这些簇就是密度核心Density Cores。

8.如权利要求7所述的基于密度核心和动态扫描半径的体检报告聚类方法，其特征在于：所述步骤6)具体包括如下步骤：判断非密度代表点是否为噪声点，如果不是噪声点，则将其分配到p_i的收敛点CP(p_i)所在的簇，形成最终的聚类结果。