CN115101153A - 一种基于散列桶邻域的慢病分类标记方法 - Google Patents
一种基于散列桶邻域的慢病分类标记方法 Download PDFInfo
- Publication number
- CN115101153A CN115101153A CN202111503616.7A CN202111503616A CN115101153A CN 115101153 A CN115101153 A CN 115101153A CN 202111503616 A CN202111503616 A CN 202111503616A CN 115101153 A CN115101153 A CN 115101153A
- Authority
- CN
- China
- Prior art keywords
- neighborhood
- chronic disease
- patient
- diagnosis
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000017667 Chronic Disease Diseases 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013610 patient sample Substances 0.000 claims abstract description 91
- 238000003745 diagnosis Methods 0.000 claims abstract description 87
- 230000008569 process Effects 0.000 claims description 13
- 201000010099 disease Diseases 0.000 claims description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 239000000523 sample Substances 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 8
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 108010074051 C-Reactive Protein Proteins 0.000 claims description 3
- 102100032752 C-reactive protein Human genes 0.000 claims description 3
- 102000001554 Hemoglobins Human genes 0.000 claims description 3
- 108010054147 Hemoglobins Proteins 0.000 claims description 3
- XSQUKJJJFZCRTK-UHFFFAOYSA-N Urea Chemical compound NC(N)=O XSQUKJJJFZCRTK-UHFFFAOYSA-N 0.000 claims description 3
- 229930003316 Vitamin D Natural products 0.000 claims description 3
- QYSXJUFSXHHAJI-XFEUOLMDSA-N Vitamin D3 Natural products C1(/[C@@H]2CC[C@@H]([C@]2(CCC1)C)[C@H](C)CCCC(C)C)=C/C=C1\C[C@@H](O)CCC1=C QYSXJUFSXHHAJI-XFEUOLMDSA-N 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 239000004202 carbamide Substances 0.000 claims description 3
- 235000012000 cholesterol Nutrition 0.000 claims description 3
- 210000004698 lymphocyte Anatomy 0.000 claims description 3
- 230000035488 systolic blood pressure Effects 0.000 claims description 3
- 235000019166 vitamin D Nutrition 0.000 claims description 3
- 239000011710 vitamin D Substances 0.000 claims description 3
- 150000003710 vitamin D derivatives Chemical class 0.000 claims description 3
- 229940046008 vitamin d Drugs 0.000 claims description 3
- 206010024217 lentigo Diseases 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 6
- 230000036541 health Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000001684 chronic effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 1
- 241000222418 Lentinus Species 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 201000004101 esophageal cancer Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于医疗检测领域,具体涉及一种基于散列桶邻域的慢病分类标记方法,该方法包括:获取待测用户的个人信息数据,得到医学条件属性集;确定散列函数,采用散列函数将患者空间中的患者样本依次划分到邻域诊断桶中,得到基于邻域诊断慢病的散列桶序列;确定待测用户的诊断邻域;根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患病的概率;根据待诊患者邻域中满足多数投票原则的若干最大概率慢病标签,计算选择距离度最大的慢病标签,根据慢病标签对患者进行分类;通过采用本发明使用的方法,医疗人员可根据预测结果辅助判断患者是否患有慢病,能够极大的提高慢病预测效率与医学诊断质量。
Description
技术领域
本发明属于医疗检测领域,具体涉及一种基于散列桶邻域的慢病分类标记方法。
背景技术
在医疗大数据中相关调查表明,糖尿病、冠心病、肺癌、胃癌、食管癌等 10大慢病占据了全人群疾病总负担的40%以上。面对多源异构高噪的健康医疗大数据,慢病诊断涉及的数据量正呈现***式的增长,涉及到大量关于患者、疾病和医生的信息,而这些信息往往是不完整和不一致的,仅通过医生的专业知识和医学经验对患者进行诊断和评估,不但会大量消耗人力物力,同时效率低下,甚至无法完成疾病的诊断。因此,诸如邻域粗糙集模型等数据挖掘方法可应用于慢病的诊断和预测中,快速有效实现多种慢病一体化预测预警,构建可解释性的慢病诊断医疗模型。
对于医疗健康大数据中广泛存在的数值型数据,传统粗糙集模型处理时必须先进行离散化,这会导致医学信息大量丢失,在慢病医学的数据处理过程中造成很大的障碍。天津大学的胡清华教授基于拓扑空间球形邻域引入了邻域粗糙集模型,使用邻域信息粒代替传统粗糙集中的等价关系,使其既可以支持离散型医疗数据又可以支持数值型医疗数据,并进一步地邻域粗糙集推广到分类预测应用中,实现了一种基于多数原则的邻域分类器。然而传统邻域分类器对患者样本分类预测时,必须先构建患者的邻域信息粒,该过程需要遍历患者样本空间中的所有训练患者样本,导致了分类器诊断的时间效率低下。相应地,在邻域粗糙集属性约简机制中,浙江大学的刘勇教授提出了基于散列桶划分缩小邻域搜索空间的属性快速约简算法,通过散列映射明显缩小了患者样本邻域的检索范围,有效解决了患者邻域计算时间复杂度过高的问题。
面对医疗健康大数据中患者样本的信息量大、不完备、不确定、冗余等问题,当前已有邻域分类器在慢病的诊断和预测方面主要存在以下不足:1)患者样本的邻域计算量大,导致构建患者样本邻域的时间复杂度高;2)邻域半径的设定带有人为设定的随机参数,不能自适用于不同分布的医疗数据集;3)分类器中的多数投票规则不能辩别邻域中患者样本间的差异,故该原则不能适用于所有患者样本的诊断和预测。因此,如何有效利用人群生命周期健康医疗大数据,结合数据挖掘方法,实现多种慢病的预测预警机制,是目前亟待解决的问题。
发明内容
为解决以上现有计算存在的问题,本发明提出了一种基于散列桶邻域的慢病分类标记方法,该方法包括:获取待测用户的医学数据,并将获取的医学数据转换为患者决策信息表,将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中,得到待测用户的各慢病患病的概率,若该待测用户中至少两种慢病的患病概率均为最大且相同,则选择邻域中慢病距离度最大的用户进行标记;
采用基于散列桶邻域的慢病分类模型对待测用户的医学信息数据进行处理并标记患者所患慢病的过程包括:
S1:将待测用户的个人医学数据转化为慢病决策信息表,对慢病决策信息表中的医学条件属性值进行归一化处理,得到医学条件属性集;
S2:根据医学条件属性集确定特殊患者样本和散列函数,采用散列函数将患者空间中的患者样本依次划分到一系列有序的邻域诊断桶中,得到基于邻域诊断慢病的散列桶序列;
S3:根据基于邻域诊断慢病的散列桶序列确定待测用户的诊断邻域;
S4:根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率,计算并得到最大患病概率;根据最大患病概率所对应的慢病标签,若待测用户邻域中概率最大的慢病标签唯一,则将该患者存储到该类别的集合中;若待测用户邻域中概率最大的患病标签不唯一,则执行步骤S5;
S5:根据距离投票原则,针对待诊患者邻域中存在多个满足多数投票原则最大概率慢病标签,计算以上慢病标签在患者邻域中的距离度,进而选择距离度最大的慢病标签,将患者标记为该类慢病。
优选的,获取待测用户的个人医学属性值包括:收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C反应蛋白以及尿素。
优选的,对决策信息表中的数据进行归一化处理的公式为:
其中,xij表示第i个患者样本的第j个医学属性的值,max(xj)表示第j个医学属性的最大值,min(xj)表示第j个医学属性的最小值。
优选的,得到基于邻域诊断慢病的散列桶序列的过程包括:
步骤1:提取医学条件属性集中每个医学条件属性的最小值,根据最小值确定特殊患者样本;
步骤2:计算患者样本和特殊样本的欧式距离;根据患者样本和特殊样本的欧式距离构建邻域诊断桶序列;
步骤3:构建散列函数,采用散列函数将患者样本映射到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列。
进一步的,计算患者样本和特殊样本的欧式距离公式为:
其中,xi表示第i个患者样本,xj表示第j个患者样本,m表示患者样本的数量,xik表示第i个患者样本在第j个医学属性下的医学属性值。
进一步的,构建的邻域诊断桶为:
优选的,确定待测用户的诊断邻域包括:根据基于邻域诊断慢病的散列桶序列确定自适应邻域诊断半径,根据自适应邻域诊断半径确定待测用户的诊断邻域。
优选的,计算每个待测用户被预测患各种慢病的概率公式为:
其中,Dk表示患者邻域U中第k种慢病的患者集合,δ(x)表示待诊患者的诊断邻域,∩表示求交运算。
优选的,计算距离度最大的慢病标签的公式为:
本发明的有益效果:
1)通过采用本发明使用的方法,医疗人员可根据预测结果辅助判断患者是否患有慢病,能够极大的提高慢病预测效率与医学诊断质量;
2)传统邻域分类器构建待诊患者的诊断邻域时,需要计算于患者样本空间中所有患者样本的距离,随着患者数目增多,将面对极高的时间复杂度。本发明基于散列桶序列,将患者空间中的患者样本依次映射到一系列有序的邻域诊断桶中,并基于限定的患者邻域检索范围构建诊断邻域,慢病诊断效率大大提升;
3)在构建的基于邻域诊断慢病的散列桶序列上,定义了基于散列桶的自适应邻域诊断半径,摒除了传统邻域半径中的人为参数,能对应于不同的待诊患者样本生成不同的诊断邻域半径,自适应于分布不同的邻域诊断桶序列和数据集,有效保障了慢病诊断和预测模型的合理性和自适应性;
4)传统投票规则中没有考虑患者样本之间的差异性,导致慢病预测和诊断过程中传统模型所出现的对于慢病决策标签的不可辨别性,本模型定义的距离投票规则为慢病决策类赋予了一个新的评估指标:距离度,提升了区分不同慢病标签患者的能力,有效保障了慢病诊断和预测的准确性和合理性。
附图说明
图1为本发明的邻域诊断桶序列分布图;
图2为本发明的患者的诊断邻域分布图;
图3为本发明的基于散列桶邻域的慢病分类方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于散列桶邻域的慢病分类标记方法,如图3所示,该方法包括:获取待测用户的医学数据,并将获取的医学数据转换为患者决策信息表,将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中,得到待测用户的各慢病患病的概率,若该待测用户中至少两种慢病的患病概率均为最大且相同,则选择邻域中慢病距离度最大的用户进行标记。
采用基于散列桶邻域的慢病分类模型对待测用户的医学信息数据进行处理并标记患者所患慢病的过程包括:
S1:将待测用户的个人医学数据转化为慢病决策信息表,对慢病决策信息表中的医学条件属性值进行归一化处理,得到医学条件属性集;
S2:根据医学条件属性集确定特殊患者样本和散列函数,采用散列函数将患者空间中的患者样本依次划分到一系列有序的邻域诊断桶中,得到基于邻域诊断慢病的散列桶序列;
S3:根据基于邻域诊断慢病的散列桶序列确定待测用户的诊断邻域;
S4:根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率,计算并得到最大患病概率;根据最大患病概率所对应的慢病标签,若待测用户邻域中概率最大的慢病标签唯一,则将该患者存储到该类别的集合中;若待测用户邻域中概率最大的患病标签不唯一,则执行步骤S5;;
S5:根据距离投票原则,针对待诊患者邻域中存在多个满足多数投票原则最大概率慢病标签,计算以上慢病标签在患者邻域中的距离度,进而选择距离度最大的慢病标签,将患者标记为该类慢病。
获取待测用户的个人信息数据,并将个人信息数据转化为决策信息表包括:从医疗健康数据库中采集慢病患者个人信息,采集的慢病患者个人信息具有以下医学属性:收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C 反应蛋白、尿素等。将患者信息转化为慢病决策信息表<U,A,D>,其中 U={x1,x2,...,xn}为患者样本集合;A={a1,a2,...,am}为医学条件属性集合,描述患者的症状和诊断信息;D为慢病决策属性集,标注患者的慢病标签。为了方便展示与说明问题,本发明选择十个患者样本的两列数据进行分析,如表1所示,其中U={x1,x2,...,x10},A={a1,a2},D={d}={1,2},且“1”代表该患者患有慢病,“2”代表该患者不患有慢病,“m”即代表患者的慢病标签待诊断。为了消除不同医学属性量纲对待诊患者诊断效果的影响,对医学数据进行归一化处理,归一化方法如下:
其中,xij表示第i个患者样本的第j个医学属性的值,max(xj)表示第j个医学属性的最大值,min(xj)表示第j个医学属性的最小值。
在慢病的预测和诊断任务中,本发明将患者样本集合切分为用于训练的患者数据集Utrain和用于测试的患者数据集Utest。其中Utrain用来训练慢病预测模型的诊断准确率,找到最优参数;Utest用来评估慢病预测模型,预测和诊断待诊患者的慢病标签。因此,在本发明中将患者样本空间U切分为Utrain={x3,x4,...,x10和 Utest={x1,x2},慢病决策标签“m”表示用于测试的待诊患者,得到归一化的患者数据如表1所示。
表1.慢病决策信息表
得到基于邻域诊断慢病的散列桶序列的过程包括:
步骤1:提取医学条件属性集中每个医学条件属性的最小值,根据最小值确定特殊患者样本;
步骤2:计算患者样本和特殊样本的欧式距离;根据患者样本和特殊样本的欧式距离构建邻域诊断桶序列;
步骤3:构建散列函数,采用散列函数将患者样本映射到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列。
具体的,提取出每个医学条件属性的最小值,确定特殊患者样本x0,即 a(x0)=min(a(xi)),xi∈U;计算患者样本空间中每个患者样本与特殊患者样本间的距离,本发明统一采用欧式距离,对于xi与xj的欧式距离定义如下:
其中,xi表示第i个患者样本,xj表示第j个患者样本,m表示患者样本的数量,xik表示第i个患者样本在第j个医学属性下的医学属性值。
接着构建散列函数,设定wid表示散列桶宽度,w作为散列键。通过散列函数将患者样本空间U中的每个患者样本映射到一系列有序的邻域诊断桶 CB1,CB2,...,CBw中,邻域诊断桶CBw定义如下:
一种确定基于邻域诊断慢病的散列桶序列的具体实施方式,包括:以表1 为例,先确定特殊患者样本x0,其各医学条件属性值为C(x0)={a1=0.10,a2=0.20}。再计算患者样本空间U中每个患者样本xi与特殊患者样本x0间的距离:Δ(xi,x0),i=1,2,...。进而构建邻域诊断桶:设定散列桶宽度wid=0.08,w为散列键,将Δ(xi,x0)除以wid向上取整,得到w。如下图1所示,灰色标签的患者样本其慢病决策属性值d=1,表示患有慢病;黑色标签的患者样本其慢病决策属性值d=2,表示不患有慢病。最后通过散列函数将患者样本空间U中的每个患者样本映射到以下有序的邻域诊断桶中:CB1={x3,x6,x8,x9},CB2={x7},CB3={x4,x5,x10}。
确定待测用户的诊断邻域包括:根据基于邻域诊断慢病的散列桶序列确定自适应邻域诊断半径,根据自适应邻域诊断半径确定待测用户的诊断邻域。具体的,根据基于邻域诊断慢病的散列桶序列确定每个待诊患者样本的邻域检索范围,如果有待诊患者样本xi∈CBq(q=1,2,3,...,w),则xi的患者邻域检索范围会限定在其本身所在的桶和其上下相邻的两个桶中,即CBq-1,CBq,CBq+1。因此基于限定的邻域桶检索范围之上,参与待诊患者邻域计算的患者样本数量大大减少,继而对任意待诊患者样本x∈CBq(q=1,2,3,...,w),本模型提出了一种新的基于散列桶序列的自适应邻域诊断半径:
δ=min(Δ(x,yi))+wid
其中yi∈CBq-1∪CBq∪CBq+1为训练患者样本,min(Δ(x,yi))表示待诊患者x邻域中与其距离最近的训练患者对应的距离,wid表示散列桶宽度。进而确定待诊患者x的诊断邻域:
δ(x)={y∈U|Δ(x,y)≤δ}
如图2所示,根据得到的邻域诊断慢病的散列桶序列CB1={x3,x6,x8,x9}, CB2={x7},CB3={x4,x5,x10},进而确定每个待诊患者样本的邻域检索范围,由于 x1∈CB1,则δ(x1)的诊断检索范围被限定在CB1∪CB2,由于CB0不存在。计算Δ(xi,x1),选择待诊患者x1的诊断邻域中与其距离最近的训练患者: min(Δ(xi,x1))=Δ(x6,x1)=0.036,进而计算x1的患者邻域半径:δ1=min(Δ(xi,x1))+wid =0.116,最后得到待诊患者x1的诊断邻域:δ(x1)={x1,x3,x6,x8,x9},同理可以得到待诊患者x2的诊断邻域:δ(x2)={x2,x7,x8,x9,x10}。
根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患病的概率的过程包括:基于S3得到的待诊患者x的诊断邻域δ(x),计算每个待诊患者x被预测患有第k种慢病的概率:
其中,Dk表示患者邻域U中第k种慢病的患者集合,δ(x)表示待诊患者的诊断邻域,∩表示求交运算。
即在待诊患者的诊断邻域δ(x)中,对应占据最多邻域患者样本数目、概率值最大的慢病标签,待诊患者将被诊断预测为该类慢病,模型预测结束。反而在待诊患者的诊断邻域δ(x)中若存在多个最大概率慢病标签,即超过一个慢病标签满足多数投票原则,则进入步骤S5。
待诊患者x1,x2的诊断邻域为δ(x1)={x1,x3,x6,x8,x9},如黑色圆圈范围所示,δ(x2)={x2,x7,x8,x9,x10},如灰色圆圈范围所示。现计算待诊患者x1被预测患有慢病的概率:即待诊患者x1患病标签的候选集合为同理得到待诊患者x2患病标签的候选集合为如图2所示,在诊断邻域δ(x1)中,灰色患病和黑色不患病标签的训练样本都占据最多数,均对应最大值 2;同样在诊断邻域δ(x2)同样包含两个不可辨别的慢病决策类。因此根据多数投票原则,待诊患者x1,x2的患病情况都不能被诊断和预测。
根据待诊患者邻域中满足多数投票原则的最大概率慢病标签计算距离度最大的慢病标签的过程包括:对待诊患者邻域中满足多数投票原则的若干最大概率慢病标签,即给定任意待诊患者样本x,如果存在多个慢病决策类 Dk,k=1,2,...,m在诊断邻域δ(x)中满足多数投票规则,进而采用距离投票规则,计算以上多个决策类的距离度:
其中dk,k=1,2,...,p表示诊断邻域δ(x)中满足多数投票规则的若干慢病决策标签,表示xi以上慢病决策类在δ(x)中对应的患者样本,xi∈δ(x),且d(xi)表示患者样本xi的慢病决策属性值,d(xi)=dk。
根据距离投票规则选取以上慢病决策类中距离度最大的,即寻找距离度最大的慢病标签,最后待诊患者x被诊断预测为该类慢病:
根据待诊患者邻域δ(x1),δ(x2)中满足多数投票原则的慢病标签候选集合进而采用距离投票原则:先计算患者x1的诊断邻域中,两种慢病决策类的距离度,由于该两类同时满足了多数投票原则,根据距离投票规则进而选择距离度较大的慢病决策标签,因此得到x1的慢病预测标签为d(x1)=2,同理预测得到x2的标签为d(x2)=2。因此两个待诊病患均被诊断预测为不患有慢病。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于散列桶邻域的慢病分类标记方法,其特征在于,包括:获取待测用户的医学数据,并将获取的医学数据转换为患者决策信息表,将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中,得到待测用户的各慢病患病的概率,若该待测用户中至少两种慢病的患病概率均为最大且相同,则选择邻域中慢病距离度最大的用户进行标记;
采用基于散列桶邻域的慢病分类模型对待测用户的医学信息数据进行处理并标记患者所患慢病的过程包括:
S1:将待测用户的个人医学数据转化为慢病决策信息表,对慢病决策信息表中的医学条件属性值进行归一化处理,得到医学条件属性集;
S2:根据医学条件属性集确定特殊患者样本和散列函数,采用散列函数将患者空间中的患者样本依次划分到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列;
S3:根据基于邻域诊断慢病的散列桶序列确定待测用户的诊断邻域;
S4:根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率;计算得到待测用户邻域中概率值最大的慢病标签,若待测用户邻域中概率最大的慢病标签唯一,则将该患者存储到该慢病类别的集合中;若待测用户邻域中概率最大的患病标签不唯一,则执行步骤S5;
S5:根据距离投票规则分类标记待诊患者所患慢病,针对待诊患者邻域中多个满足多数投票原则的最大概率慢病标签,计算得到其中距离度最大的慢病标签,根据该慢病标签对患者进行分类,将该患者存储到该慢病类别的集合中。
2.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,获取待测用户的个人医学条件属性值包括:收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C反应蛋白以及尿素。
4.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,得到基于邻域诊断慢病的散列桶序列的过程包括:
步骤1:提取医学条件属性集中每个医学条件属性的最小值,根据最小值确定特殊患者样本;
步骤2:计算患者样本和特殊样本的欧式距离;根据患者样本和特殊样本的欧式距离构建邻域诊断桶序列;
步骤3:构建散列函数,采用散列函数将患者样本映射到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列。
7.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,确定待测用户的诊断邻域包括:根据基于邻域诊断慢病的散列桶序列确定自适应邻域诊断半径,根据自适应邻域诊断半径确定待测用户的诊断邻域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111503616.7A CN115101153A (zh) | 2021-12-09 | 2021-12-09 | 一种基于散列桶邻域的慢病分类标记方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111503616.7A CN115101153A (zh) | 2021-12-09 | 2021-12-09 | 一种基于散列桶邻域的慢病分类标记方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115101153A true CN115101153A (zh) | 2022-09-23 |
Family
ID=83287264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111503616.7A Pending CN115101153A (zh) | 2021-12-09 | 2021-12-09 | 一种基于散列桶邻域的慢病分类标记方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115101153A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107075588A (zh) * | 2014-10-21 | 2017-08-18 | 优比欧迈公司 | 用于微生物组来源的诊断和治疗的方法及*** |
CN112163133A (zh) * | 2020-09-25 | 2021-01-01 | 南通大学 | 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法 |
CN113012776A (zh) * | 2021-03-30 | 2021-06-22 | 南通大学 | 大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法 |
CN113130028A (zh) * | 2021-04-13 | 2021-07-16 | 上海橘纯科技有限公司 | 基于区块链的医疗电子病历信息管理方法及*** |
-
2021
- 2021-12-09 CN CN202111503616.7A patent/CN115101153A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107075588A (zh) * | 2014-10-21 | 2017-08-18 | 优比欧迈公司 | 用于微生物组来源的诊断和治疗的方法及*** |
CN112163133A (zh) * | 2020-09-25 | 2021-01-01 | 南通大学 | 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法 |
CN113012776A (zh) * | 2021-03-30 | 2021-06-22 | 南通大学 | 大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法 |
CN113130028A (zh) * | 2021-04-13 | 2021-07-16 | 上海橘纯科技有限公司 | 基于区块链的医疗电子病历信息管理方法及*** |
Non-Patent Citations (2)
Title |
---|
JIAYU XIAO 等: "A fast neighborhood classier based on hash bucket with application to medical diagnosis", INTERNATIONAL JOURNAL OF APPROXIMATE REASONING, vol. 148, 6 June 2022 (2022-06-06), pages 117 - 132, XP087131020, DOI: 10.1016/j.ijar.2022.05.012 * |
贾峥 等: "基于电子病历的患者相似性分析综述", 中国生物医学工程学报, no. 03, 20 June 2018 (2018-06-20), pages 100 - 113 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Patel et al. | Heart disease prediction using machine learning and data mining technique | |
CN111081381B (zh) | 院内致命性消化道再出血预测关键指标的智能筛选方法 | |
CN112652361B (zh) | 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 | |
CN108511055A (zh) | 基于分类器融合及诊断规则的室性早搏识别***及方法 | |
CN114220540A (zh) | 一种糖尿病肾病风险预测模型的构建方法及应用 | |
Inan et al. | A hybrid probabilistic ensemble based extreme gradient boosting approach for breast cancer diagnosis | |
Das et al. | Heart disease detection using ml | |
CN117116477A (zh) | 基于随机森林和XGBoost的***癌患病风险预测模型的构建方法及*** | |
CN113593708A (zh) | 基于集成学习算法的脓毒症预后预测方法 | |
Shrestha et al. | Supervised machine learning for early predicting the sepsis patient: modified mean imputation and modified chi-square feature selection | |
CN116259415A (zh) | 一种基于机器学习的患者服药依从性预测方法 | |
Pati et al. | An ensemble deep learning approach for Chronic kidney disease (CKD) prediction | |
Alkurdi | Enhancing Heart Disease Diagnosis Using Machine Learning Classifiers | |
Raju et al. | Chronic kidney disease prediction using ensemble machine learning | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
CN117116475A (zh) | 缺血性脑卒中的风险预测方法、***、终端及存储介质 | |
CN110610766A (zh) | 基于症状特征权重推导疾病概率的装置和存储介质 | |
Nithya et al. | Correlated gain ratio based fuzzy weighted association rule mining classifier for diagnosis health care data | |
CN115101153A (zh) | 一种基于散列桶邻域的慢病分类标记方法 | |
Conforti et al. | Kernel-based support vector machine classifiers for early detection of myocardial infarction | |
AU2021102593A4 (en) | A Method for Detection of a Disease | |
CN111599427B (zh) | 一种一元化诊断的推荐方法、装置、电子设备及存储介质 | |
CN116030957A (zh) | 知识图谱构建方法、装置、辅助诊断设备及存储介质 | |
Alajlan | Model-based approach for anEarly diabetes PredicationUsing machine learning algorithms | |
Manju et al. | Decision Tree-Based Explainable AI for Diagnosis of Chronic Kidney Disease |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240508 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Applicant after: Guangzhou Dayu Chuangfu Technology Co.,Ltd. Country or region after: China Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS Country or region before: China |
|
TA01 | Transfer of patent application right |