CN108960298A - 基于密度核心和动态扫描半径的体检报告聚类方法 - Google Patents
基于密度核心和动态扫描半径的体检报告聚类方法 Download PDFInfo
- Publication number
- CN108960298A CN108960298A CN201810621085.3A CN201810621085A CN108960298A CN 108960298 A CN108960298 A CN 108960298A CN 201810621085 A CN201810621085 A CN 201810621085A CN 108960298 A CN108960298 A CN 108960298A
- Authority
- CN
- China
- Prior art keywords
- physical examination
- point
- density
- reported
- dynamic scan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及机器学习技术领域,公开了一种基于密度核心和动态扫描半径的体检报告聚类方法,包括如下步骤:寻找各体检报告的自然邻居;根据各体检报告的自然邻居,获取各体检报告的动态扫描半径;根据各体检报告的扫描半径,来计算各体检报告的中心点,然后获取各体检报告的收敛点;获取局部密度代表点集合;通过密度搜寻的方式,在局部密度代表点集合LPS中构建密度核心;将剩余的体检报告,根据其收敛点的位置对其进行分配,形成聚类结果。本发明增加了动态扫描半径的寻找方法,减少了参数输入,提高了判别的准确性。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种体检报告聚类方法。
背景技术
随着我国老龄化问题的不断加剧以及经济社会的快速发展,人们对老年人的健康状况日益关注。通常,解决此问题的主要方法是让专业医师检查体检报告并告知体检结果。在信息技术发展导致海量数据诞生的今天,信息化和智能化是人们所期待的。为了减轻医生的工作量以及降低医疗机构的运行成本,就需要研究出一种能够保证体检结果高准确率且智能化的判别方法。
聚类在各个领域有着广泛的应用,比如图像分割、模式识别和数据分析等。但是,在真实数据环境下,数据的分布是复杂多样的,大多数真实数据集的分布都是非球面或者非椭圆,同时,有着不同的密度层次。为了能够应对不同形状和密度层次的问题(能够正确判别老年人健康状态),基于快速查找密度代表点的聚类方法DPeak被提出来,DPeak算法的核心思想是基于以下假设:无论什么形状的簇,簇的中心都是被密度相对较小的邻居围绕,这些邻居离密度较大的其它中心的距离都要大于到所属簇的中心的距离。基于以上假设,首先,DPeak识别各个簇中心;然后,将分配其它剩余的数据到各个中心形成相应的簇。
基于密度代表点的聚类方法DPeak,虽然能够应用于任意形状的簇,但是也有很多的不足,首先,由于要手动选择截断距离dc,不同的dc值对聚类结果会产生很大影响;其次,由于使用的是基于中心的方法,必然会导致在聚类过程中对簇形状的丢失;最后,由于寻找密度代表点作为聚类中心,可能会产生伪密度代表点。
为了弥补DPeak算法在聚类过程对形状丢失的缺点,C.Yewang等人提出了基于密度核心的聚类算法Dcore。Dcore算法的核心思想是基于以下假设:无论什么形状的簇,簇中都有个密度核心,这个密度核心是由密度相对较高的一部分点连接构成。基于这个假设,Dcore算法使用密度核心替换了密度中心,从而消除了对中心的过度依赖,使整个聚类过程各个簇的形状都能被大致保持,减少聚类过程中对簇形状的丢失。但是,Dcore算法和DPeak算法一样,需要手动输入较多的参数,这导致Dcore算法的聚类结果会受到参数不同的影响;同时,由于Dcore使用了全局固定的参数,导致在对多密度层次的数据进行聚类时,效果不理想。
发明内容
有鉴于此,本发明的目的在于提供一种基于密度核心和动态扫描半径的体检报告聚类方法,增加了动态扫描半径的寻找方法,减少了参数输入,提高了判别的准确性。
为达到上述目的,本发明提供如下技术方案:
基于密度核心和动态扫描半径的体检报告聚类方法,包括如下步骤:
1)寻找各体检报告pi的自然邻居NaN(pi);
2)根据各体检报告pi的自然邻居NaN(pi),获取各体检报告的动态扫描半径r(pi);
3)根据各体检报告pi的扫描半径r(pi);来计算各体检报告的中心点,距离报告中心点最近的点就是pi的收敛点CP(pi);
4)将收敛点为自己的点作为局部密度代表点,从而获得局部密度代表点集合LPS;
5)通过密度搜寻的方式,在局部密度代表点集合LPS中构建密度核心DensityCores;
6)将剩余的体检报告,根据其收敛点的位置对其进行分配,形成聚类结果。
进一步,所述步骤1)具体包括如下步骤:
11)初始化;
12)将体检报告的数据集构造为一颗K-D树;
13)基于自然邻的搜寻的方法,寻找每份体检报告的自然邻居NaN(pi)。
进一步,所述步骤2)中,根据各体检报告pi与其自然邻居NaN(pi)的距离的均值,来获取各体检报告的动态扫描半径r(pi)。
进一步,所述步骤3)中,通过使用动态扫描半径r(pi),获取每个点pi动态半径内的点,以这些点的均值作为中心点,离中心点最近的点pj就是pi的中心点CPV(pi),然后通过mean-shift的方式迭代寻找pj的中心点CPV(pj),直到找到中心点为自己本身的点pk,也就是CPV(pk)=pk,那么pi的收敛点就为pk,也就是CP(pi)=pk。
进一步,所述步骤4)中,判断各体检报告pi是否为噪声点,如果不是噪声点,判断各体检报告pi的收敛点CP(pi)是否为自己本身,如过是自己本身,则将其放入到局部密度峰值集合LPS中,从而获得局部密度代表点集合LPS。
进一步,所述步骤4)和步骤5)之间还包括去除噪音点的步骤:将各体检报告的动态扫描半径按升序排列;然后,计算相邻体检报告之间的密度变化率,密度变化率大于阈值的即为噪音点。
进一步,所述步骤5)具体包括如下步骤:在局部密度代表点LPS中,根据每个点的动态扫描半径r进行基于密度的聚类,形成初始的簇,簇的个数就是最终的聚类个数,这些簇就是密度核心Density Cores。
进一步,所述步骤6)具体包括如下步骤:判断非密度代表点是否为噪声点,如果不是噪声点,则将其分配到pi的收敛点CP(pi)所在的簇,形成最终的聚类结果。
本发明的有益效果在于:在Dcore算法基础上提出的基于密度核心和动态扫描半径的聚类算法DCNaN。DCNaN使用了自然邻居的概念,从而减少参数的输入,同时,DCNaN通过使用动态扫描半径的方法,以适应不同密度层次的体检报告数据。将DCNaN与K-Means、DBSCAN、DPeak和Dcore聚类算法相比,判别结果的准确率有了很大的提升。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图:
图1为基于自然邻NaN的邻居信息和k值迭代流程图;
图2为收敛点CP搜寻流程图。
图3为局部密度代表点集合LPS搜寻流程图。
图4为密度核心density cores的形成流程图。
图5为基于密度核心和动态扫描半径的聚类方法的整体流程图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述,但所举实施例不作为对本发明的限定。
参见图1-5,本实施例基于密度核心和动态扫描半径的体检报告聚类方法,包括如下步骤:
1)寻找各体检报告pi的自然邻居NaN(pi);参见图1,具体步骤如下:
11)获取体检报告数据集D,进行相关的数据预处理;
12)将体检报告数据集D构造为K-D树;
13)对D中的每个点进行迭代寻找其k近邻居和逆k近邻居,并统计没有被当做邻居点的总个数Nb;
14)判断Nb是否变化,变化k值加1,继续迭代,没有变化则停止迭代,最终得到D的自然邻居和k值信息。
2)根据各体检报告pi的自然邻居NaN(pi),计算点pi和其自然邻居NaN(pi)的距离均值d,将d作为各体检报告的动态扫描半径r(pi);
3)根据各体检报告pi的扫描半径r(pi);来计算各体检报告的中心点,然后获取各体检报告pi的收敛点CP(pi);参见图2,具体步骤如下:
31)根据每个点pi的动态扫描半径r(pi),半径内所有邻居点的均值作为pi的中心点CPV(pi);
32)通过mean-shift的方式迭代寻找pj的中心点CPV(pj),直到找到中心点为自己本身的点pk,也就是CPV(pk)=pk,那么pi的收敛点就为pk,也就是CP(pi)=pk;
4)去除噪音点:将各体检报告的动态扫描半径按升序排列;然后,计算相邻体检报告之间的密度变化率,密度变化率大于阈值的即为噪音点。
5)获取局部密度代表点集合LPS;参见图3,具体步骤如下:
51)根据4)来判断各个点pi是否为噪声点;
52)如果不是噪声点,那么继续判断pi的收敛点是否为自己本身,也就是CP(pi)=pi,如果是则将其分配到局部密度代表点集合LPS中,形成局部密度代表点集合LPS;
6)通过密度搜寻的方式,在局部密度代表点集合LPS中构建密度核心DensityCores;参见图4,具体步骤如下:
61)获取动态扫描半径,局部密度代表点集合LPS;
62)根据局部密度代表点集合LPS中各个点的动态扫描半径进行基于密度的聚类,形成初始的聚类结果,也就是密度核心density cores;
7)将剩余的体检报告,根据其收敛点的位置对其进行分配,形成聚类结果。参见图5,具体步骤如下:
71)判断不属于LPS的点pi是否为噪声点;
72)如果pi不是噪声点,则将其分配到pi的收敛点CP(pi)所在的簇,形成最终的聚类结果。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (8)
1.基于密度核心和动态扫描半径的体检报告聚类方法,其特征在于包括如下步骤:
1)寻找各体检报告pi的自然邻居NaN(pi);
2)根据各体检报告pi的自然邻居NaN(pi),获取各体检报告的动态扫描半径r(pi);
3)根据各体检报告pi的扫描半径r(pi);来计算各体检报告的中心点,距离报告中心点最近的点就是pi的收敛点CP(pi);
4)将收敛点为自己的点作为局部密度代表点,从而获得局部密度代表点集合LPS;
5)通过密度搜寻的方式,在局部密度代表点集合LPS中构建密度核心Density Cores;
6)将剩余的体检报告,根据其收敛点的位置对其进行分配,形成聚类结果。
2.根据权利要求1所述的基于密度核心和动态扫描半径的体检报告聚类方法,其特征在于,所述步骤1)具体包括如下步骤:
11)初始化;
12)将体检报告的数据集构造为一颗K-D树;
13)基于自然邻的搜寻的方法,寻找每份体检报告的自然邻居NaN(pi)。
3.如权利要求2所述的基于密度核心和动态扫描半径的体检报告聚类方法,其特征在于:所述步骤2)中,根据各体检报告pi与其自然邻居NaN(pi)的距离的均值,来获取各体检报告的动态扫描半径r(pi)。
4.如权利要求3所述的基于密度核心和动态扫描半径的体检报告聚类方法,其特征在于:所述步骤3)中,通过使用动态扫描半径r(pi),获取每个点pi动态半径内的点,以这些点的均值作为中心点,离中心点最近的点pj就是pi的中心点CPV(pi),然后通过mean-shift的方式迭代寻找pj的中心点CPV(pj),直到找到中心点为自己本身的点pk,也就是CPV(pk)=pk,那么pi的收敛点就为pk,也就是CP(pi)=pk。
5.如权利要求4所述的基于密度核心和动态扫描半径的体检报告聚类方法,其特征在于:所述步骤4)中,判断各体检报告pi是否为噪声点,如果不是噪声点,判断各体检报告pi的收敛点CP(pi)是否为自己本身,如过是自己本身,则将其放入到局部密度峰值集合LPS中,从而获得局部密度代表点集合LPS。
6.如权利要求5所述的基于密度核心和动态扫描半径的体检报告聚类方法,其特征在于:所述步骤4)和步骤5)之间还包括去除噪音点的步骤:将各体检报告的动态扫描半径按升序排列;然后,计算相邻体检报告之间的密度变化率,密度变化率大于阈值的即为噪音点。
7.如权利要求6所述的基于密度核心和动态扫描半径的体检报告聚类方法,其特征在于:所述步骤5)具体包括如下步骤:在局部密度代表点LPS中,根据每个点的动态扫描半径r进行基于密度的聚类,形成初始的簇,簇的个数就是最终的聚类个数,这些簇就是密度核心Density Cores。
8.如权利要求7所述的基于密度核心和动态扫描半径的体检报告聚类方法,其特征在于:所述步骤6)具体包括如下步骤:判断非密度代表点是否为噪声点,如果不是噪声点,则将其分配到pi的收敛点CP(pi)所在的簇,形成最终的聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810621085.3A CN108960298A (zh) | 2018-06-15 | 2018-06-15 | 基于密度核心和动态扫描半径的体检报告聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810621085.3A CN108960298A (zh) | 2018-06-15 | 2018-06-15 | 基于密度核心和动态扫描半径的体检报告聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108960298A true CN108960298A (zh) | 2018-12-07 |
Family
ID=64489102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810621085.3A Pending CN108960298A (zh) | 2018-06-15 | 2018-06-15 | 基于密度核心和动态扫描半径的体检报告聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108960298A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114675088A (zh) * | 2022-05-27 | 2022-06-28 | 浙江大学 | 一种无监督学习的辐射源快速近场扫描方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902654A (zh) * | 2014-02-28 | 2014-07-02 | 小米科技有限责任公司 | 聚类方法、装置及终端设备 |
CN105631416A (zh) * | 2015-12-24 | 2016-06-01 | 华侨大学 | 采用新型密度聚类进行人脸识别的方法 |
CN105844102A (zh) * | 2016-03-25 | 2016-08-10 | 中国农业大学 | 一种自适应无参空间离群点检测算法 |
CN106127234A (zh) * | 2016-06-17 | 2016-11-16 | 西安电子科技大学 | 基于特征字典的无参考图像质量评价方法 |
CN106909940A (zh) * | 2017-02-20 | 2017-06-30 | 浙江工商大学 | 基于人群疏散的折半聚类方法 |
-
2018
- 2018-06-15 CN CN201810621085.3A patent/CN108960298A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902654A (zh) * | 2014-02-28 | 2014-07-02 | 小米科技有限责任公司 | 聚类方法、装置及终端设备 |
CN105631416A (zh) * | 2015-12-24 | 2016-06-01 | 华侨大学 | 采用新型密度聚类进行人脸识别的方法 |
CN105844102A (zh) * | 2016-03-25 | 2016-08-10 | 中国农业大学 | 一种自适应无参空间离群点检测算法 |
CN106127234A (zh) * | 2016-06-17 | 2016-11-16 | 西安电子科技大学 | 基于特征字典的无参考图像质量评价方法 |
CN106909940A (zh) * | 2017-02-20 | 2017-06-30 | 浙江工商大学 | 基于人群疏散的折半聚类方法 |
Non-Patent Citations (1)
Title |
---|
黄金龙: "基于自然最近邻的无参聚类算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114675088A (zh) * | 2022-05-27 | 2022-06-28 | 浙江大学 | 一种无监督学习的辐射源快速近场扫描方法 |
CN114675088B (zh) * | 2022-05-27 | 2022-08-23 | 浙江大学 | 一种无监督学习的辐射源快速近场扫描方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2648946C2 (ru) | Способ и устройство распознавания категории объекта изображения | |
CN107133651B (zh) | 基于超网络判别子图的功能磁共振影像数据分类方法 | |
CN111524606A (zh) | 一种基于随机森林算法的肿瘤数据统计方法 | |
CN106339416B (zh) | 基于网格快速搜寻密度峰值的教育数据聚类方法 | |
CN106021990B (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
Ephzibah et al. | A neuro fuzzy expert system for heart disease diagnosis | |
CN109686402B (zh) | 基于动态加权相互作用网络中关键蛋白质识别方法 | |
CN112800115B (zh) | 数据处理方法及数据处理装置 | |
CN110533072A (zh) | Web环境下基于Bigraph结构的SOAP服务相似度计算与聚类方法 | |
CN109993070B (zh) | 一种基于全局距离尺度损失函数的行人再识别方法 | |
Poojitha et al. | A collocation of IRIS flower using neural network clustering tool in MATLAB | |
CN110032973A (zh) | 一种基于人工智能的无监督寄生虫分类方法及*** | |
CN108960298A (zh) | 基于密度核心和动态扫描半径的体检报告聚类方法 | |
CN108388769B (zh) | 基于边驱动的标签传播算法的蛋白质功能模块识别方法 | |
Baswade et al. | A comparative study of k-means and weighted k-means for clustering | |
CN117787411A (zh) | 一种基于关系图的局部-全局时序知识图谱推理方法 | |
Babu et al. | A simplex method-based bacterial colony optimization algorithm for data clustering analysis | |
Tran et al. | Mining spatial co-location patterns based on overlap maximal clique partitioning | |
CN115273645B (zh) | 一种室内面要素自动聚类的地图制图方法 | |
Rathore et al. | CBISC: a novel approach for colon biopsy image segmentation and classification | |
CN108717551A (zh) | 一种基于最大隶属度的模糊层次聚类方法 | |
CN108460424B (zh) | 一种基于线点转换和聚类对比的空间运动轨迹识别方法 | |
Krishna Priya et al. | Improved particle swarm optimized deep convolutional neural network with super‐pixel clustering for multiple sclerosis lesion segmentation in brain MRI imaging | |
CN116759067A (zh) | 一种基于重建和Tabular数据的肝病诊断方法 | |
CN108446740B (zh) | 一种用于脑影像病历特征提取的多层一致协同方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181207 |