CN115101153A

CN115101153A - 一种基于散列桶邻域的慢病分类标记方法

Info

Publication number: CN115101153A
Application number: CN202111503616.7A
Authority: CN
Inventors: 张清华; 肖嘉瑜; 艾志华; 程云龙; 高满; 胡峰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Guangzhou Dayu Chuangfu Technology Co ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-09-23

Abstract

本发明属于医疗检测领域，具体涉及一种基于散列桶邻域的慢病分类标记方法，该方法包括：获取待测用户的个人信息数据，得到医学条件属性集；确定散列函数，采用散列函数将患者空间中的患者样本依次划分到邻域诊断桶中，得到基于邻域诊断慢病的散列桶序列；确定待测用户的诊断邻域；根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患病的概率；根据待诊患者邻域中满足多数投票原则的若干最大概率慢病标签，计算选择距离度最大的慢病标签，根据慢病标签对患者进行分类；通过采用本发明使用的方法，医疗人员可根据预测结果辅助判断患者是否患有慢病，能够极大的提高慢病预测效率与医学诊断质量。

Description

一种基于散列桶邻域的慢病分类标记方法

技术领域

本发明属于医疗检测领域，具体涉及一种基于散列桶邻域的慢病分类标记方法。

背景技术

在医疗大数据中相关调查表明，糖尿病、冠心病、肺癌、胃癌、食管癌等 10大慢病占据了全人群疾病总负担的40％以上。面对多源异构高噪的健康医疗大数据，慢病诊断涉及的数据量正呈现***式的增长，涉及到大量关于患者、疾病和医生的信息，而这些信息往往是不完整和不一致的，仅通过医生的专业知识和医学经验对患者进行诊断和评估，不但会大量消耗人力物力，同时效率低下，甚至无法完成疾病的诊断。因此，诸如邻域粗糙集模型等数据挖掘方法可应用于慢病的诊断和预测中，快速有效实现多种慢病一体化预测预警，构建可解释性的慢病诊断医疗模型。

对于医疗健康大数据中广泛存在的数值型数据，传统粗糙集模型处理时必须先进行离散化，这会导致医学信息大量丢失，在慢病医学的数据处理过程中造成很大的障碍。天津大学的胡清华教授基于拓扑空间球形邻域引入了邻域粗糙集模型，使用邻域信息粒代替传统粗糙集中的等价关系，使其既可以支持离散型医疗数据又可以支持数值型医疗数据，并进一步地邻域粗糙集推广到分类预测应用中，实现了一种基于多数原则的邻域分类器。然而传统邻域分类器对患者样本分类预测时，必须先构建患者的邻域信息粒，该过程需要遍历患者样本空间中的所有训练患者样本，导致了分类器诊断的时间效率低下。相应地，在邻域粗糙集属性约简机制中，浙江大学的刘勇教授提出了基于散列桶划分缩小邻域搜索空间的属性快速约简算法，通过散列映射明显缩小了患者样本邻域的检索范围，有效解决了患者邻域计算时间复杂度过高的问题。

面对医疗健康大数据中患者样本的信息量大、不完备、不确定、冗余等问题，当前已有邻域分类器在慢病的诊断和预测方面主要存在以下不足：1)患者样本的邻域计算量大，导致构建患者样本邻域的时间复杂度高；2)邻域半径的设定带有人为设定的随机参数，不能自适用于不同分布的医疗数据集；3)分类器中的多数投票规则不能辩别邻域中患者样本间的差异，故该原则不能适用于所有患者样本的诊断和预测。因此，如何有效利用人群生命周期健康医疗大数据，结合数据挖掘方法，实现多种慢病的预测预警机制，是目前亟待解决的问题。

发明内容

为解决以上现有计算存在的问题，本发明提出了一种基于散列桶邻域的慢病分类标记方法，该方法包括：获取待测用户的医学数据，并将获取的医学数据转换为患者决策信息表，将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中，得到待测用户的各慢病患病的概率，若该待测用户中至少两种慢病的患病概率均为最大且相同，则选择邻域中慢病距离度最大的用户进行标记；

采用基于散列桶邻域的慢病分类模型对待测用户的医学信息数据进行处理并标记患者所患慢病的过程包括：

S1：将待测用户的个人医学数据转化为慢病决策信息表，对慢病决策信息表中的医学条件属性值进行归一化处理，得到医学条件属性集；

S2：根据医学条件属性集确定特殊患者样本和散列函数，采用散列函数将患者空间中的患者样本依次划分到一系列有序的邻域诊断桶中，得到基于邻域诊断慢病的散列桶序列；

S3：根据基于邻域诊断慢病的散列桶序列确定待测用户的诊断邻域；

S4：根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率，计算并得到最大患病概率；根据最大患病概率所对应的慢病标签，若待测用户邻域中概率最大的慢病标签唯一，则将该患者存储到该类别的集合中；若待测用户邻域中概率最大的患病标签不唯一，则执行步骤S5；

S5：根据距离投票原则，针对待诊患者邻域中存在多个满足多数投票原则最大概率慢病标签，计算以上慢病标签在患者邻域中的距离度，进而选择距离度最大的慢病标签，将患者标记为该类慢病。

优选的，获取待测用户的个人医学属性值包括：收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C反应蛋白以及尿素。

优选的，对决策信息表中的数据进行归一化处理的公式为：

其中，x_ij表示第i个患者样本的第j个医学属性的值，max(x_j)表示第j个医学属性的最大值，min(x_j)表示第j个医学属性的最小值。

优选的，得到基于邻域诊断慢病的散列桶序列的过程包括：

步骤1：提取医学条件属性集中每个医学条件属性的最小值，根据最小值确定特殊患者样本；

步骤2：计算患者样本和特殊样本的欧式距离；根据患者样本和特殊样本的欧式距离构建邻域诊断桶序列；

步骤3：构建散列函数，采用散列函数将患者样本映射到邻域诊断桶序列中，得到基于邻域诊断慢病的散列桶序列。

进一步的，计算患者样本和特殊样本的欧式距离公式为：

其中，x_i表示第i个患者样本，x_j表示第j个患者样本，m表示患者样本的数量，x_ik表示第i个患者样本在第j个医学属性下的医学属性值。

进一步的，构建的邻域诊断桶为：

其中，x_i表示第i个患者样本，U表示患者样本集，∧表示且运算，Δ(x₀,x_i) 表示患者样本x₀到患者样本x_i的欧式距离，wid表示散列桶宽度，w表示散列键，

表示向上取整。

优选的，确定待测用户的诊断邻域包括：根据基于邻域诊断慢病的散列桶序列确定自适应邻域诊断半径，根据自适应邻域诊断半径确定待测用户的诊断邻域。

优选的，计算每个待测用户被预测患各种慢病的概率公式为：

其中，D_k表示患者邻域U中第k种慢病的患者集合，δ(x)表示待诊患者的诊断邻域，∩表示求交运算。

优选的，计算距离度最大的慢病标签的公式为：

其中，

表示慢病标签d_k的距离度，d_k表示诊断邻域δ(x)中满足多数投票规则的慢病决策标签，x_i表示第i个患者样本，

表示患者样本x_i的距离度， d_j表示慢病标签，

表示取最大值对应的慢病标签d_k。

本发明的有益效果：

1)通过采用本发明使用的方法，医疗人员可根据预测结果辅助判断患者是否患有慢病，能够极大的提高慢病预测效率与医学诊断质量；

2)传统邻域分类器构建待诊患者的诊断邻域时，需要计算于患者样本空间中所有患者样本的距离，随着患者数目增多，将面对极高的时间复杂度。本发明基于散列桶序列，将患者空间中的患者样本依次映射到一系列有序的邻域诊断桶中，并基于限定的患者邻域检索范围构建诊断邻域，慢病诊断效率大大提升；

3)在构建的基于邻域诊断慢病的散列桶序列上，定义了基于散列桶的自适应邻域诊断半径，摒除了传统邻域半径中的人为参数，能对应于不同的待诊患者样本生成不同的诊断邻域半径，自适应于分布不同的邻域诊断桶序列和数据集，有效保障了慢病诊断和预测模型的合理性和自适应性；

4)传统投票规则中没有考虑患者样本之间的差异性，导致慢病预测和诊断过程中传统模型所出现的对于慢病决策标签的不可辨别性，本模型定义的距离投票规则为慢病决策类赋予了一个新的评估指标：距离度，提升了区分不同慢病标签患者的能力，有效保障了慢病诊断和预测的准确性和合理性。

附图说明

图1为本发明的邻域诊断桶序列分布图；

图2为本发明的患者的诊断邻域分布图；

图3为本发明的基于散列桶邻域的慢病分类方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于散列桶邻域的慢病分类标记方法，如图3所示，该方法包括：获取待测用户的医学数据，并将获取的医学数据转换为患者决策信息表，将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中，得到待测用户的各慢病患病的概率，若该待测用户中至少两种慢病的患病概率均为最大且相同，则选择邻域中慢病距离度最大的用户进行标记。

S4：根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率，计算并得到最大患病概率；根据最大患病概率所对应的慢病标签，若待测用户邻域中概率最大的慢病标签唯一，则将该患者存储到该类别的集合中；若待测用户邻域中概率最大的患病标签不唯一，则执行步骤S5；；

获取待测用户的个人信息数据，并将个人信息数据转化为决策信息表包括：从医疗健康数据库中采集慢病患者个人信息，采集的慢病患者个人信息具有以下医学属性：收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C 反应蛋白、尿素等。将患者信息转化为慢病决策信息表<U,A,D>，其中 U＝{x₁,x₂,...,x_n}为患者样本集合；A＝{a₁,a₂,...,a_m}为医学条件属性集合，描述患者的症状和诊断信息；D为慢病决策属性集，标注患者的慢病标签。为了方便展示与说明问题，本发明选择十个患者样本的两列数据进行分析，如表1所示，其中U＝{x₁,x₂,...,x₁₀}，A＝{a₁,a₂}，D＝{d}＝{1，2}，且“1”代表该患者患有慢病，“2”代表该患者不患有慢病，“m”即代表患者的慢病标签待诊断。为了消除不同医学属性量纲对待诊患者诊断效果的影响，对医学数据进行归一化处理，归一化方法如下：

在慢病的预测和诊断任务中，本发明将患者样本集合切分为用于训练的患者数据集U_train和用于测试的患者数据集U_test。其中U_train用来训练慢病预测模型的诊断准确率，找到最优参数；U_test用来评估慢病预测模型，预测和诊断待诊患者的慢病标签。因此，在本发明中将患者样本空间U切分为U_train＝{x₃,x₄,...,x₁₀和 U_test＝{x₁,x₂}，慢病决策标签“m”表示用于测试的待诊患者，得到归一化的患者数据如表1所示。

表1.慢病决策信息表

得到基于邻域诊断慢病的散列桶序列的过程包括：

具体的，提取出每个医学条件属性的最小值，确定特殊患者样本x₀，即

a(x₀)＝min(a(x_i))，x_i∈U；计算患者样本空间中每个患者样本与特殊患者样本间的距离，本发明统一采用欧式距离，对于

x_i与x_j的欧式距离定义如下：

接着构建散列函数，设定wid表示散列桶宽度，w作为散列键。通过散列函数将患者样本空间U中的每个患者样本映射到一系列有序的邻域诊断桶 CB₁,CB₂,...,CB_w中，邻域诊断桶CB_w定义如下：

表示向上取整。

一种确定基于邻域诊断慢病的散列桶序列的具体实施方式，包括：以表1 为例，先确定特殊患者样本x₀，其各医学条件属性值为C(x₀)＝{a₁＝0.10,a₂＝0.20}。再计算患者样本空间U中每个患者样本x_i与特殊患者样本x₀间的距离：Δ(x_i,x₀),i＝1,2,...。进而构建邻域诊断桶：

设定散列桶宽度wid＝0.08，w为散列键，将Δ(x_i,x₀)除以wid向上取整，得到w。如下图1所示，灰色标签的患者样本其慢病决策属性值d＝1，表示患有慢病；黑色标签的患者样本其慢病决策属性值d＝2，表示不患有慢病。最后通过散列函数将患者样本空间U中的每个患者样本映射到以下有序的邻域诊断桶中：CB₁＝{x₃,x₆,x₈,x₉},CB₂＝{x₇},CB₃＝{x₄,x₅,x₁₀}。

确定待测用户的诊断邻域包括：根据基于邻域诊断慢病的散列桶序列确定自适应邻域诊断半径，根据自适应邻域诊断半径确定待测用户的诊断邻域。具体的，根据基于邻域诊断慢病的散列桶序列确定每个待诊患者样本的邻域检索范围，如果有待诊患者样本x_i∈CB_q(q＝1,2,3,...,w)，则x_i的患者邻域检索范围会限定在其本身所在的桶和其上下相邻的两个桶中，即CB_q-1,CB_q,CB_q+1。因此基于限定的邻域桶检索范围之上，参与待诊患者邻域计算的患者样本数量大大减少，继而对任意待诊患者样本x∈CB_q(q＝1,2,3,...,w)，本模型提出了一种新的基于散列桶序列的自适应邻域诊断半径：

δ＝min(Δ(x,y_i))+wid

其中y_i∈CB_q-1∪CB_q∪CB_q+1为训练患者样本，min(Δ(x,y_i))表示待诊患者x邻域中与其距离最近的训练患者对应的距离，wid表示散列桶宽度。进而确定待诊患者x的诊断邻域：

δ(x)＝{y∈U|Δ(x,y)≤δ}

如图2所示，根据得到的邻域诊断慢病的散列桶序列CB₁＝{x₃,x₆,x₈,x₉}, CB₂＝{x₇},CB₃＝{x₄,x₅,x₁₀}，进而确定每个待诊患者样本的邻域检索范围，由于 x₁∈CB₁，则δ(x₁)的诊断检索范围被限定在CB₁∪CB₂，由于CB₀不存在。计算Δ(x_i,x₁)，选择待诊患者x₁的诊断邻域中与其距离最近的训练患者： min(Δ(x_i,x₁))＝Δ(x₆,x₁)＝0.036，进而计算x₁的患者邻域半径：δ₁＝min(Δ(x_i,x₁))+wid ＝0.116，最后得到待诊患者x₁的诊断邻域：δ(x₁)＝{x₁,x₃,x₆,x₈,x₉}，同理可以得到待诊患者x₂的诊断邻域：δ(x₂)＝{x₂,x₇,x₈,x₉,x₁₀}。

根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患病的概率的过程包括：基于S3得到的待诊患者x的诊断邻域δ(x)，计算每个待诊患者x被预测患有第k种慢病的概率：

即在待诊患者的诊断邻域δ(x)中，对应占据最多邻域患者样本数目、概率值最大的慢病标签，待诊患者将被诊断预测为该类慢病，模型预测结束。反而在待诊患者的诊断邻域δ(x)中若存在多个最大概率慢病标签，即超过一个慢病标签满足多数投票原则，则进入步骤S5。

待诊患者x₁,x₂的诊断邻域为δ(x₁)＝{x₁,x₃,x₆,x₈,x₉}，如黑色圆圈范围所示，δ(x₂)＝{x₂,x₇,x₈,x₉,x₁₀}，如灰色圆圈范围所示。现计算待诊患者x₁被预测患有慢病的概率：

即待诊患者x₁患病标签的候选集合为

同理得到待诊患者x₂患病标签的候选集合为

如图2所示，在诊断邻域δ(x₁)中，灰色患病和黑色不患病标签的训练样本都占据最多数，均对应最大值 2；同样在诊断邻域δ(x₂)同样包含两个不可辨别的慢病决策类。因此根据多数投票原则，待诊患者x₁,x₂的患病情况都不能被诊断和预测。

根据待诊患者邻域中满足多数投票原则的最大概率慢病标签计算距离度最大的慢病标签的过程包括：对待诊患者邻域中满足多数投票原则的若干最大概率慢病标签，即给定任意待诊患者样本x，如果存在多个慢病决策类 D_k,k＝1,2,...,m在诊断邻域δ(x)中满足多数投票规则，进而采用距离投票规则，计算以上多个决策类的距离度：

其中d_k,k＝1,2,...,p表示诊断邻域δ(x)中满足多数投票规则的若干慢病决策标签，表示x_i以上慢病决策类在δ(x)中对应的患者样本，x_i∈δ(x)，且d(x_i)表示患者样本x_i的慢病决策属性值，d(x_i)＝d_k。

根据距离投票规则选取以上慢病决策类中距离度最大的，即寻找距离度最大的慢病标签，最后待诊患者x被诊断预测为该类慢病：

根据待诊患者邻域δ(x₁)，δ(x₂)中满足多数投票原则的慢病标签候选集合

进而采用距离投票原则：先计算患者x₁的诊断邻域中，两种慢病决策类

的距离度，

由于该两类同时满足了多数投票原则，根据距离投票规则进而选择距离度较大的慢病决策标签，因此得到x₁的慢病预测标签为d(x₁)＝2，同理预测得到x₂的标签为d(x₂)＝2。因此两个待诊病患均被诊断预测为不患有慢病。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于散列桶邻域的慢病分类标记方法，其特征在于，包括：获取待测用户的医学数据，并将获取的医学数据转换为患者决策信息表，将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中，得到待测用户的各慢病患病的概率，若该待测用户中至少两种慢病的患病概率均为最大且相同，则选择邻域中慢病距离度最大的用户进行标记；

S2：根据医学条件属性集确定特殊患者样本和散列函数，采用散列函数将患者空间中的患者样本依次划分到邻域诊断桶序列中，得到基于邻域诊断慢病的散列桶序列；

S4：根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率；计算得到待测用户邻域中概率值最大的慢病标签，若待测用户邻域中概率最大的慢病标签唯一，则将该患者存储到该慢病类别的集合中；若待测用户邻域中概率最大的患病标签不唯一，则执行步骤S5；

S5：根据距离投票规则分类标记待诊患者所患慢病，针对待诊患者邻域中多个满足多数投票原则的最大概率慢病标签，计算得到其中距离度最大的慢病标签，根据该慢病标签对患者进行分类，将该患者存储到该慢病类别的集合中。

2.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法，其特征在于，获取待测用户的个人医学条件属性值包括：收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C反应蛋白以及尿素。

3.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法，其特征在于，将获取的医学数据转换为患者决策信息表的过程包括：对医学数据中的患者的医学条件属性值进行归一化处理，得到患者决策信息表，归一化处理的公式为：

4.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法，其特征在于，得到基于邻域诊断慢病的散列桶序列的过程包括：

5.根据权利要求4所述的一种基于散列桶邻域的慢病分类标记方法，其特征在于，计算患者样本和特殊样本的欧式距离公式为：

6.根据权利要求4所述的一种基于散列桶邻域的慢病分类标记方法，其特征在于，构建的邻域诊断桶为：

其中，x_i表示第i个患者样本，U表示患者样本集，∧表示且运算，Δ(x₀,x_i)表示患者样本x₀到患者样本x_i的欧式距离，wid表示散列桶宽度，w表示散列键，

表示向上取整。

7.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法，其特征在于，确定待测用户的诊断邻域包括：根据基于邻域诊断慢病的散列桶序列确定自适应邻域诊断半径，根据自适应邻域诊断半径确定待测用户的诊断邻域。

8.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法，其特征在于，计算每个待测用户被预测患各种慢病的概率公式为：

9.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法，其特征在于，计算距离度最大的慢病标签的公式为：

其中，

表示患者样本x_i的距离度，d_j表示慢病标签，

表示取最大值对应的慢病标签d_k。