CN108986872B

CN108986872B - 用于大数据电子病历约简的多粒度属性权重Spark方法

Info

Publication number: CN108986872B
Application number: CN201810642497.5A
Authority: CN
Inventors: 丁卫平; 陆琰; 管致锦; 程学云; 王杰华; 董建成; 李跃华; 张晓峰; 胡彬; 陈森博; 沈学华
Original assignee: Nantong University
Current assignee: Nantong University Technology Transfer Center Co ltd
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2021-05-07
Anticipated expiration: 2038-06-21
Also published as: CN108986872A

Abstract

本发明公开了一种用于大数据电子病历约简的多粒度属性权重Spark方法。该方法首先在Hadoop分布式文件***中将大数据电子病历集划分成不同的条件属性作业和决策属性作业；然后设计基于改进MapReduce作业协同结构的Spark模型，将电子病历条件属性作业并行化处理；其次在Hadoop分布式文件***中构建多粒度属性权重Spark方法用于电子病历属性快速约简，从而求得大数据电子病历属性约简最优特征集；最后将大数据电子病历属性约简特征集R₁,R₂,…,R_n存储至Hadoop分布文件***中，为相关疾病的临床诊断和治疗提供重要的智能诊断知识依据。

Description

用于大数据电子病历约简的多粒度属性权重Spark方法

技术领域

本发明涉及医学信息智能处理领域，具体涉及一种用于大数据电子病历约简的多粒度属性权重Spark方法。

背景技术

随着云计算和大数据时代的来临，电子病历数据库中医疗数据规模不断增长，大规模电子病历处理机制在整个医疗大数据产生和使用过程中异常复杂，挖掘出其中重要的医学诊断规则和知识是形成临床决策支持***的关键。由于电子病历***中存储的医疗数据具有容量大、来源分散、格式多样、存取速度快以及应用价值高等特征，给其特征选择、知识发现及临床决策支持服务等带来了较大困难。结合大数据电子病历***自身特点，采用一些高效的方法进行复杂医疗病历属性约简处理与分析，充分挖掘出疾病或体征之间的关联性，对开展大数据临床决策支持分析以及提供个性化与知识化的医疗健康大数据服务等具有重要意义，是设计面向未来医疗健康服务大数据工程和临床智能决策分析服务***的关键。

大数据电子病历约简是当前医疗大数据背景下临床决策支持***研究中一个具有挑战性的课题。为提高大规模电子病历数据处理效率，可利用云计算Spark技术将海量电子病历数据分布存储到不同的数据中心节点上，构建若干个大规模电子病历医疗数据中心，实现大规模海量电子病历数据的分布存储、组织和管理，以支持大规模电子病历的并行智能处理。

发明内容

本发明的目的是为了克服以上的不足，设计了一种用于大数据电子病历约简的多粒度属性权重Spark方法，该方法能适应大数据电子病历的属性约简，大大提高了病历属性约简的效率，对云计算环境下大数据电子病历约简及其相关疾病智能辅助诊断具有重要意义与价值。

本发明的目的通过以下技术方案来实现：一种用于大数据电子病历约简的多粒度属性权重Spark方法，步骤如下：

A.在Hadoop分布式文件***中将大数据电子病历集划分成n个作业，表示为J₁,J₂,…,J_n,它包含i-1个电子病历条件属性作业J₁,J₂,…,J_i-1和n-i+1个电子病历决策属性作业J_i,J_i+1,…,J_n；

B.设计基于改进MapReduce任务协同结构的Spark模型，用于每个客户端用户从Hadoop分布式文件***云服务器中提取电子病历诊断数据集；

C.在Spark模型上执行MapReduce操作，使电子病历条件属性作业J₁,J₂,…,J_i-1并行化处理，其中J₁产生的条件属性作业序列为J₂,…,J_i-1，J₂产生的条件属性作业序列为J₃,…,J_i，以此类推,J_i-1产生的条件属性作业序列为J_i,…,J_n-1；

D.将每个电子病历作业的条件属性和决策属性进行合并，构建属性对序列，分别表示为J_1i,J_2(i+1),…,J_(i-2)(n-1),J_(i-1)n，进一步提取电子病历作业中模糊的条件属性和不完备的决策属性；

E.在Hadoop分布式文件***中构建多粒度属性权重Spark方法，将关联张量T_a转换为属性权重张量T_tr，并生成不同粒度i₁,...,i_l,...,i_k下属性权重k阶张量，获取属性权重张量T_w，用于大数据电子病历属性快速约简，取得大数据电子病历属性约简集局部解和全局最优解的有效平衡；

F.每个客户端用户执行Map作业任务,一致操作对<Key_i,Value_i>被存储在集成向量中，在所有Map作业任务执行完后，主结点采用一致操作对<Key_i,Value_i>执行Reduce任务，求得大数据电子病历属性约简最优特征集；

G.比较求出的属性约简精度RC与预先设定精度值λ关系，若满足RC≥λ，则输出大数据电子病历最优属性集，否则，继续执行上述C,D,E和F步骤，直至属性约简精度满足RC≥λ；

H.将大数据电子病历属性约简特征集R₁,R₂,…,R_n存储至Hadoop分布文件***中，为相关疾病的临床诊断和治疗提供重要的智能诊断知识依据。

优选的是，步骤E中在Hadoop分布式文件***中构建多粒度属性权重Spark方法，将关联张量T_a转换为属性权重张量T_tr，并生成不同粒度i₁,...,i_l,...,i_k下属性权重k阶张量，获取属性权重张量T_w，用于大数据电子病历属性快速约简，取得大数据电子病历属性约简集局部解和全局最优解的有效平衡，具体步骤如下：

a.构建大数据电子病历***为DIIS＝{U,AT,V,f},U为电子病历对象集合，AT为电子病历属性集，V为相关病历属性的值域，f是一个信息函数，用于指定U中每一个病历对象x的值域，A₁,A₂,...,A_m∈AT为m个属性子集序列，w₁,w₂,…,w_m分别对应m个电子病历属性子集序列下的权重值，其中m为非负整数；

b.设共享型协同最近邻域向量为k阶张量

其主要用来对应于不同电子病历属性的k阶特征空间

通过计算每个电子病历属性所在特征空间中非零元素，获取关联张量T_a如下：

将关联张量T_a中非负整数值的元素

表示为从第i₁个电子病历属性到第i_k个属性出现的次数；

c.定义每个电子病历特征空间中病历属性的重要度，利用高阶幂函数方法计算等级向量w₁,w₂,...,w_k，其中w_l,l＝1,2,...,k,计算公式如下：

w_l＝αT_tr×₁w_l…×_l-1w_l×_l+1w_l…×_kw_l+(1-α)μ,

其中T_tr为电子病历属性权重张量，w_l为特征向量对应于k阶电子病历属性权重张量T_tr的主导特征值，μ为一个随机向量，α为一个关联概率，其范围为0<α<1；

d.将关联张量T_a转换为电子病历属性权重张量T_tr，生成用于电子病历约简的多粒度属性权重k阶张量，在不同粒度i₁,...,i_l,...,i_k下属性权重张量计算方法如下：

其中z是T_a所有阶的最大维数；

e.在关联概率0<α<1范围内，定义阈值ε的范围为ε∈[0.5,1],初始向量w₀满足的条件为

f.设随机向量

和j＝0，执行如下循环操作：

(i)j＝j+1；

(ii)w_j＝αT_tr×₁w_j-1…×_l-1w_j-1×_l+1w_j-1…×_kw_j-1+(1-α)μ；

(iii)直到满足条件||w_j-w_j-1||>ε；

g.将w_j的一阶向量表示为I_f1，其排序向量为w_j′，设w_j＝w_j′,则构建大数据电子病历属性权重排序向量如下：

h.计算电子病历属性权重张量

的乘积方程，其计算方法如下：

T_w＝w₁×w₂×…w_k；

该权重张量T_w能够平衡不同电子病历属性在同一特征规则提取中的相对贡献度，从而取得大数据电子病历属性约简集的局部解和全局优势解的有效平衡。

本发明与现有技术相比具有以下优点：1、该方法能准确划分大数据电子病历中相互依赖和关联的属性集，有效处理电子病历数据元素间多维度复杂的内联关系，取得大数据电子病历属性约简集的局部解和全局最优解的有效平衡，保证最终求得的电子病历约简集为所求目标的最优约简特征集，大大降低了执行时间，提升了病历属性提取的精度，从而能更有效地应用于面向云计算的大数据电子病历约简应用服务，找出最具成本效益的相关疾病临床治疗模式；2、该方法在云计算环境下采用Spark模型对病人自身病历数据进行安全收集、维护和管理，帮助用户对医院和患者的大量电子病历数据进行实时与非实时属性约简与分析，能有效处理大数据电子病历约简时所呈现出的复杂***特性，通过构建临床大数据电子病历约简平台，为开展大数据电子病历知识分析以及临床决策支持等智能服务奠定了较好的基础。

附图说明

图1是本发明总体结构图；

图2是基于Spark模型的电子病历条件属性作业MapReduce操作过程图；

图3是基于多粒度属性权重的大数据电子病历约简执行过程图；

具体实施方式

为了加深对本发明的理解，下面将结合实施例和附图对本发明作进一步详述，该实施例仅用于解释本发明，并不构成对本发明保护范围的限定。

如图1、2、3所示，本发明提供了一种用于大数据电子病历约简的多粒度属性权重Spark方法，步骤如下：

步骤E中在Hadoop分布式文件***中构建多粒度属性权重Spark方法，将关联张量T_a转换为属性权重张量T_tr，并生成不同粒度i₁,...,i_l,...,i_k下属性权重k阶张量，获取属性权重张量T_w，用于大数据电子病历属性快速约简，取得大数据电子病历属性约简集局部解和全局最优解的有效平衡，具体步骤如下：

b.设共享型协同最近邻域向量为k阶张量

其主要用来对应于不同电子病历属性的k阶特征空间

将关联张量T_a中非负整数值的元素

表示为从第i₁个电子病历属性到第i_k个属性出现的次数；

w_l＝αT_tr×₁w_l…×_l-1w_l×_l+1w_l…×_kw_l+(1-α)μ,

其中z是T_a所有阶的最大维数；

f.设随机向量

和j＝0，执行如下循环操作：

(i)j＝j+1；

(ii)w_j＝αT_tr×₁w_j-1…×_l-1w_j-1×_l+1w_j-1…×_kw_j-1+(1-α)μ；

(iii)直到满足条件||w_j-w_j-1||>ε；

h.计算电子病历属性权重张量

的乘积方程，其计算方法如下：

T_w＝w₁×w₂×…w_k；

该权重张量T_w能够平衡不同电子病历属性在同一特征规则提取中的相对贡献度，从而取得大数据电子病历属性约简集的局部解和全局最优解的有效平衡。

Claims

1.一种用于大数据电子病历约简的多粒度属性权重Spark方法，其特征在于：步骤如下：

2.根据权利要求1所述一种用于大数据电子病历约简的多粒度属性权重Spark方法，其特征在于：所述步骤E中在Hadoop分布式文件***中构建多粒度属性权重Spark方法，将关联张量T_a转换为属性权重张量T_tr，并生成不同粒度i₁,...,i_l,...,i_k下属性权重k阶张量，获取属性权重张量T_w，用于大数据电子病历属性快速约简，取得大数据电子病历属性约简集局部解和全局最优解的有效平衡，具体步骤如下：

a.构建大数据电子病历***为DIIS＝{U,AT,V,f},U为电子病历对象集合，AT为电子病历属性集，V为相关病历属性的值域，f是一个信息函数，用于指定U中每一个病历对象x的值域，A₁,A₂,...,A_m∈AT为m个属性子集序列，w₁,w_2,…,w_m分别对应m个电子病历属性子集序列下的权重值，其中m为非负整数；

b.设共享型协同最近邻域向量为k阶张量