CN107180283A

CN107180283A - 一种基于最优特征组合的再住院行为预测***及方法

Info

Publication number: CN107180283A
Application number: CN201710542771.7A
Authority: CN
Inventors: 李晖; 徐祥朕; 郭伟; 崔立真
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2017-09-19

Abstract

本发明公开了一种基于最优特征组合的再住院行为预测***及方法，对长时间的住院记录、普通门诊记录、慢性病记录和体检记录进行处理分析，得到能够表示病人再住院环境的多个再住院特征；设计合理的适应度函数，利用遗传算法，获得影响再住院的最优特征组合；将最优特征组合和再住院标签作为预测方法的输入，利用集成学习算法来判断和预测病人是否在观察窗口时间内执行再住院，能够预估患者是否在一定时间间隔内执行再住院，以准确的表达病人再住院环境，帮助患者本身和医疗机构进行合理安排时间与医疗、资金资源。

Description

一种基于最优特征组合的再住院行为预测***及方法

技术领域

本发明涉及一种基于最优特征组合的再住院行为预测***及方法。

背景技术

健康是促进人的全面发展的必然要求，是经济社会发展的基础条件。疾病预防和预警工作，能够有效提高人们的健康水平，并且减少医疗费用的支出。在政府和全民重视健康的大环境下，再住院的精准预测工作逐渐受到学者和业界的重视。随着信息化技术的不断发展，健康医疗领域逐渐积累了大量的数据，形成了健康医疗大数据。大数据技术能够帮助研究人员从复杂和异构的医疗数据中，包括病人长期医疗记录、病理分析报告、基因分析和日常行为数据，提取与疾病预防和疾病预警相关的数据，实现精准的、个性化疾病预防和疾病预警。

目前的研究方向多是针对于病患的病理和疾病预防和疾病预警，但是却鲜有针对已有疾病的病患是否在住院进行评估和预测，这样就会造成病患再住院时可能资金或时间安排不当，造成冲突，带来健康或经济上的损失；同时，也不能够使得医院进行有效的有针对性的前期准备，如病房的安排、医疗设备的调度、投入等等，无法很好的安排医疗资源，造成无法及时治疗延误病情或资源配置无法实现最优化等问题。

发明内容

本发明为了解决上述问题，提出了一种基于最优特征组合的再住院行为预测***及方法，能够预估患者是否在一定时间间隔内执行再住院，以准确的表达病人再住院环境，帮助患者本身和医疗机构进行合理安排时间与医疗、资金资源。

本发明的第一目的是提供一种基于最优特征组合的再住院行为预测方法，本方法能够利用遗传算法获得影响病人再住院的最优特征组合，然后最优特征组合作为输入，使用集成学习算法对病人再住院进行预测，以有助于医疗机构合理安排医疗资源，为病人提供更好的医疗服务，也可以有助于医疗保险机构主动预防和提前干预疾病的进展，减少医疗保险经费的支出。

本发明的第二目的是提供一种病人再住院预测***，提出的预测***对病人再住院环境进行建模和分析。通过特征提取技术和特征选择技术，得到影响病人再住院的特征，通过遗传算法和集成学习算法，提取最优特征组合并预测病人再住院几率，以有助于医疗机构合理安排医疗资源，为病人提供更好的医疗服务。

为了实现上述目的，本发明采用如下技术方案：

一种基于最优特征组合的再住院行为预测方法，包括以下步骤：

(1)获取各个医疗机构的门诊、体检与住院相关记录，构建数据集；

(2)对获取的数据集进行分析，通过特征提取和特征选择技术得到多个再住院相关特征，以表示病人的再住院环境，并在多个特征基础上构建多特征向量，利用所有人多次住院间隔获得再住院观察窗口参数及是否再住院标签；

(3)根据得到的多特征向量，设计适应度函数，利用遗传算法获得最优特征组合；

(4)利用决策树作为基学习器，利用集成学习算法的思想设计集成学习算法，以再住院最优特征组合及是否再住院标签作为输入，使用集成学习算法预测病人是否在一定时间间隔内执行再住院，得出预测结果。

所述步骤(1)中，对住院记录、普通门诊记录、慢性病记录和体检记录进行处理分析，得到能够表示病人再住院环境的多个再住院特征：年龄、性别、报销比例、病人类别、住院天数、住院频率、住院间隔、用药量、辅助治疗、医疗费用和体检指标。

所述步骤(2)中，通过特征选择技术得到能够表示病人再住院环境的多个再住院特征，并为每个人构建一个多特征向量。

进一步的，所述步骤(2)中，通过特征选择技术提取住院间隔为特征，并对其进行标准化，使用住院间隔的均值去表示再住院特征。

所述步骤(3)中，观察窗口参数通过计算各种疾病的所有患者多次住院间隔的均值来表示。

所述步骤(3)中，适应度函数的设计准则为：类间的离散度与类内的样本离散度的比值越大越好。

所述步骤(3)中，遗传算法的适应度函数被设计为：

其中，F是遗传算法的适应度；s_wi为第i个类的样本离散程度，且其中y_k ⁽ⁱ⁾为第i个类的样本矢量，N_i为第i类的样本数,m_i为第i个类的样本均值向量，且Γ_i表示类别；p_i为第i类的先验概率，且p_i＝N_i/N，其中N为总的样本数；s_b为各类间的平均离散度，且其中m为样本集中所有各类样本的总平均向量，即c为样本总数。

所述步骤(4)中，先从初始训练集训练出一个决策树，再根据决策树的表现对训练样本的分布进行调整，使得先前决策树做错的训练样本在后续受到更多关注；然后基于调整后的样本分布来训练下一个决策树，直至决策树数目达到事先指定的值，将得到的多个学习器进行加权结合。

一种基于最优特征组合的再住院行为预测***，包括检测身体各项指标的医疗设备、服务器和数据库，其中：

所述医疗设备，被配置为记录身体的各项指标，并存储至数据库；

所述数据库，被配置为存储医疗设备得到的住院记录、普通门诊记录、慢性病记录和体检记录数据；

所述服务器，被配置为获取并处理数据库内的信息，包括特征工程模块和再住院预测模块，所述特征工程模块，被配置为提取和选择再住院相关的特征，同时根据遗传算法与多个再住院特征获得最优特征组合；

所述再住院预测模块，把决策树作为基学习器，利用集成学习算法的思想设计集成学习算法，使用集成学习算法预测病人是否在未来一定时间跨度内执行再住院行为。

与现有技术相比，本发明的有益效果为：

(1)本发明在对病人再住院的预测中，利用影响病人再住院的因素有很多，能够提取多个再住院相关的特征，多个再住院特征作为输入，设计适应度函数，使用遗传算法能够获得影响病人再住院的最优特征组合，预测结果准确；

(2)本发明在对病人再住院预测的过程中，通过对住院记录、普通门诊记录、慢性病记录和体检记录的分析得到预测方法所需的特征及参数，得到影响再住院的最优特征组合，把决策树作为基学习器，利用集成学习算法的思想设计集成学习算法。再住院最优特征组合及是否再住院标签作为输入，使用集成学习算法预测病人是否在一定时间间隔内执行再住院；

(3)本发明得到的结果有助于病人提前了解自己的健康状况，进行时间和资金的合理安排和调度，一定程度上减轻和延缓疾病带来的痛苦以及因疾病带来的经济负担；有助于医疗机构合理安排医疗资源，为病人提供更好的医疗服务；有助于医疗保险机构主动预防和提前干预疾病的进展，减少医疗保险经费的支出。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的病人再住院预测方法的总体流程图；

图2为本发明的多特征向量构建方法的流程图；

图3为本发明的获取最优特征组合方法的流程图；

图4为本发明的判断是否为再住院方法的流程图；

图5为本发明的一种再住院预测***结构示意图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术所介绍的，对病人再住院的预测是非常重要的。

本发明的内容作为健康医疗的一个重要研究方向，着重于对病人再住院的预测。本发明利用能准确和全面表达病人再住院环境的最优特征组合进行再住院预测。精准和个性化的再住院预测，有助于病人提前了解自己的健康状况，减轻和延缓疾病带来的痛苦以及因疾病带来的经济负担；有助于医疗机构合理安排医疗资源，为病人提供更好的医疗服务；有助于医疗保险机构主动预防和提前干预疾病的进展，减少医疗保险经费的支出。

在现有的再住院预测研究工作中，很多研究工作和研究方法都选择了回归模型作为工具。比如，有文献利用逻辑回归得到一个再住院风险预测模型；也有部分研究工作使用了机器学习方法，比如，有文献使用了分类算法(随机森林，支持向量机，决策树)，有文献使用了人工神经网络建立专家***。上述研究工作和方法将注意力集中在算法方面，并没有关注影响病人再住院的特征及最优特征组合。而再住院特征和最优特征组合能够消除噪声和冗余属性，降低数据维度，准确的表达病人再住院环境，最终能够提高预测方法的精度和运算速度。

本发明提出一种基于最优特征组合病人再住院的预测***，具体来说：

一是根据影响再住院的最优特征组合，提出了基于最优特征组合的病人再住院的预测***。使用集成学习算法和影响病人再住院的最优特征组合，以再住院标签作为评价标准，提出了基于最优特征组合的病人再住院的预测方法。

二是对住院记录、普通门诊记录、慢性病记录和体检记录进行处理分析，得到能够表示病人再住院环境的多个再住院特征：年龄、性别、报销比例、病人类别、住院天数、住院频率、住院间隔、用药量、辅助治疗、医疗费用和体检指标等。设计合理的适应度函数，利用遗传算法，获得影响再住院的最优特征组合。将最优特征组合和再住院标签作为预测方法的输入，利用集成学习算法来判断和预测病人是否在观察窗口时间内执行再住院。

其中，本发明所涉及的下列名词为：

特征提取：通过利用主成分分析或线性判别分析等技术转化n个原始特征(x₁,x₂,...,x_n)为m个特征(y₁,y₂,...,y_m)(m＜n)作为新的特征。

特征选择：也称特征子集选择，或属性选择。是指从已有的M个特征中选择N个特征使得***的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程。

遗传算法：是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。

集成学习：通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器***和基于委员会的学习等。

图1是一种病人再住院预测方法整体流程图。

如图1所示，该实施的病人再住院预测方法，至少包括：

S1：利用特征提取与特征选择技术得到多个再住院相关特征；

具体的，对住院记录、普通门诊记录、慢性病记录和体检记录进行分析可知，病人再住院行为与病人基本信息、时间因素、病人治疗和费用等4大方面相关。通过特征提取技术得到能够表示病人再住院环境的多个再住院特征：报销比例、住院天数、住院频率、住院间隔、用药量、辅助治疗、医疗费用和体检指标等。通过特征选择技术得到能够表示病人再住院环境的多个再住院特征：年龄、性别、病人类别等。并为每个病人构建一个多特征向量。

其中住院间隔被提取为特征的过程为：y_i,j表示第i个病人第j次住院和下一次住院的住院间隔，被标准化为：

每一位病人的所有住院间隔被标准化以后，使用住院间隔的均值去表示再住院特征：

其中m表示第i个病人的住院次数，log操作为了调整样本的倾斜分布。

在该步骤中，利用所有人多次住院间隔获得再住院观察窗口参数及是否再住院标签。

S2：利用遗传算法可以获得再住院最优特征组合；

根据得到的多特征向量，设计适应度函数，利用遗传算法可以获得最优特征组合。适应度函数的设计思想为：类间的离散度与类内的样本离散度的比值越大越好。

具体的，遗传算法的适应度函数被设计为：

S3：利用集成学习算法预测病人观察窗口内是否执行再住院；

本发明利用集成学习算法预测病人再住院。病人的再住院最优特征组合及再住院标签被获得。把决策树作为基学习器，利用集成学习算法的思想设计集成学习算法。再住院最优特征组合及是否再住院标签作为输入，使用集成学习算法预测病人是否在一定时间间隔内执行再住院。

具体地，基于集体学习的思想，设计了一种集成学习算法。先从初始训练集训练出一个决策树，再根据决策树的表现对训练样本的分布进行调整，使得先前决策树做错的训练样本在后续受到更多关注；然后基于调整后的样本分布来训练下一个决策树；如此反复进行，直至决策树数目达到事先指定的值T，最终将这T个学习器进行加权结合：

其中，α_t为第t个决策树的权重系数，h_t(x)为第t个决策树。

下面以一个实施例对病人再住院预测算法进行具体的阐述，如图2-图4所示：

步骤101：分析病人的数据集，具体的，对的住院记录、普通门诊记录、慢性病记录和体检记录进行分析；

步骤102：通过特征提取和特征选择技术得到能够表示病人再住院环境的多个再住院特征：年龄，性别，报销比例，病人类别，住院天数，住院频率，住院间隔，用药量，辅助治疗，费用，体检指标等；

步骤103：根据每个人最后一次住院与倒数第二次住院的住院间隔是否小于观察窗口来给每位病人一个再住院标签。

步骤201：产生m个个体的初始种群，每一个个体的染色体对应一个特征组合的选择。设置代数为N，利用设计好的适应度函数计算每个个体的适应度；

步骤202：采用确定性的选择策略进行复制、交叉和变异计算产生新的个体，利用设计好的适应度函数计算每个个体的适应度，选择优良染色体进入下一代新种群代替旧种群；

步骤203：迭代次数是否达到开始设置的代数N，若达到，转入(204)，否则转入步骤(202)；

步骤204：若迭代次数达到开始设置的代数N，此时输出m个个体中的最大适应度个体，其染色体对应最佳特征组合选择。

步骤301：利用步骤204选择的最优特征组合提取特征，把决策树作为基学习器，先从初始训练集训练出一个基学习器，根据基学习器表现调整样本分布；

步骤302：使得先前训练错误的样本在后续受到更多关注，基于调整后的训练样本分布训练下一个基学习器；

步骤303：判断训练次数是否达到基学习器数目T，若达到，转入(304)，否则转入(302)继续学习；

步骤304：训练次数达到基学习器数目T，训练结束，计算每个基学习器的权重，将这T个基学习器进行加权组合，对病人进行再住院预测。

综上所述，本发明在对病人再住院的预测中，利用病人医疗数据中存在很多和再住院相关的特征。对住院记录、普通门诊记录、慢性病记录和体检记录进行处理分析，得到能够表示病人再住院环境的多个再住院特征，如年龄、性别、病人类别、住院天数、住院频率、住院间隔和费用等。设计合理的适应度函数，利用遗传算法，获得影响再住院的最优特征组合。将最优特征组合和再住院标签作为预测方法的输入，来判断和预测病人是否在观察窗口时间内执行再住院。

图5是本发明的一种病人再住院预测***结构示意图。

如图5所示的一种病人再住院预测***，包括：

(1)再住院特征提取模块，利用特征提取与特征选择技术得到多个再住院相关特征；

在所述再住院特征提取模块，对住院记录、普通门诊记录、慢性病记录和体检记录进行分析，通过特征提取和特征选择技术得到能够表示病人再住院环境的多个再住院特征。为每个病人构建一个多特征向量，利用所有人多次住院间隔获得再住院观察窗口参数及是否再住院标签。

(2)最优特征组合选择模块，利用遗传算法可以获得再住院最优特征组合；

在所述最优特征组合选择模块，根据得到的多特征向量，设计好适应度函数，利用遗传算法可以获得最优特征组合。具体地，适应度函数的设计思想为：类间的离散度与类内的样本离散度的比值越大越好。

(3)病人再住院预测模块，利用集成学习算法预测病人观察窗口内是否执行再住院；

在所述病人再住院预测模块，利用集成学习算法预测病人再住院。某疾病的病人的再住院最优特征组合及标签被获得。把决策树作为基学习器，利用集成学习算法的思想设计集成学习算法。再住院最优特征组合及是否再住院标签作为输入，使用集成学习算法预测病人是否在一定时间间隔内执行再住院。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于最优特征组合的再住院行为预测方法，其特征是：包括以下步骤：

2.如权利要求1所述的一种基于最优特征组合的再住院行为预测方法，其特征是：所述步骤(1)中，对住院记录、普通门诊记录、慢性病记录和体检记录进行处理分析，得到能够表示病人再住院环境的多个再住院特征：年龄、性别、报销比例、病人类别、住院天数、住院频率、住院间隔、用药量、辅助治疗、医疗费用和体检指标。

3.如权利要求1所述的一种基于最优特征组合的再住院行为预测方法，其特征是：所述步骤(2)中，通过特征选择技术得到能够表示病人再住院环境的多个再住院特征，并为每个人构建一个多特征向量。

4.如权利要求3所述的一种基于最优特征组合的再住院行为预测方法，其特征是：所述步骤(2)中，通过特征选择技术提取住院间隔为特征，并对其进行标准化，使用住院间隔的均值去表示再住院特征。

5.如权利要求1所述的一种基于最优特征组合的再住院行为预测方法，其特征是：所述步骤(3)中，观察窗口参数通过计算各种疾病的所有患者多次住院间隔的均值来表示。

6.如权利要求1所述的一种基于最优特征组合的再住院行为预测方法，其特征是：所述步骤(3)中，适应度函数的设计准则为：类间的离散度与类内的样本离散度的比值越大越好。

7.如权利要求1所述的一种基于最优特征组合的再住院行为预测方法，其特征是：所述步骤(3)中，遗传算法的适应度函数被设计为：

<mrow> <mi>F</mi> <mo>=</mo> <msub> <mi>s</mi> <mi>b</mi> </msub> <mo>/</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>s</mi> <mrow> <mi>w</mi> <mi>i</mi> </mrow> </msub> <mo>,</mo> </mrow>

8.如权利要求1所述的一种基于最优特征组合的再住院行为预测方法，其特征是：所述步骤(4)中，先从初始训练集训练出一个决策树，再根据决策树的表现对训练样本的分布进行调整，使得先前决策树做错的训练样本在后续受到更多关注；然后基于调整后的样本分布来训练下一个决策树，直至决策树数目达到事先指定的值，将得到的多个学习器进行加权结合。

9.一种基于最优特征组合的再住院行为预测***，其特征是：包括检测身体各项指标的医疗设备、服务器和数据库，其中：