CN116453706A

CN116453706A - 一种基于强化学习的血液透析方案制定方法及***

Info

Publication number: CN116453706A
Application number: CN202310701530.8A
Authority: CN
Inventors: 李劲松; 高凯戈; 池胜强; 陈佳; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-07-18
Anticipated expiration: 2043-06-14
Also published as: CN116453706B

Abstract

本发明公开了一种基于强化学习的血液透析方案制定方法，包括以下步骤：获取包含患者历史血液透析数据和患者临床数据的数据集；构建基于噪声深度Q网络结构的神经网络，所述神经网络包括特征提取模块，动作生成模块和包含奖励机制的预测模块；采用所述数据集对神经网络进行训练，以获得血液透析方案制定模型；将患者的历史病例数据输入至血液透析方案制定模型，以输出包含患者透析时长与频次的血液透析方案决策，为医师制定治疗方案提供指导。本发明还提供了一种血液透析方案制定***。本发明提供的方法可以结合更多实际情况与患者需求，给予更加合理准确的血液透析方案决策，从而为医师制定医疗方案提供更加具体的指导。

Description

一种基于强化学习的血液透析方案制定方法及***

技术领域

本发明属于医疗健康信息技术领域，尤其涉及一种基于强化学习的血液透析方案制定方法及***。

背景技术

血液透析是***患者最常用的替代疗法，大多数病人根据临床血液透析指南大致为每周接受3次4小时透析血流量200毫升左右的透析，如果患者仍有较好的肾功能，那么透析频次可以缩短到每周两次。如果肾衰竭患者在经过透析一段时间后，情况有所好转，那么也可以适当缩短透析频次与时间；一方面，每周进行更多的透析治疗的患者虽然从数据上来说会对例如左心室质量、血压、磷酸盐控制有益处，但是对身体及认知表现没有太大影响；另一方面考虑到患者透析体验不佳或者患者到院不便等，也可以减少透析次数且增加透析时长和血流量。在真实医疗场景中，临床医生通常根据历史透析病例对透析方案进行调整，人工工作量大，且按照官方指南给出透析方案过于通用化。

专利文献CN109686446A公开了一种基于双机器学习的血液透析治疗方案分析方法及***，该方法包括以下步骤：对汇总的血透中心的训练样本进行预处理；对预处理后的训练样本采用Hot-Deck方法进行填补，对变量缺失百分比超过α的训练样本予以删除，对变量缺失百分比不超过α的训练样本进行变量填充，得到填充后的训练样本；对所述填充后的训练样本分别采用 L a s s o 稀疏约束和RandomForest随机森林进行重要特征筛选，并对筛选出的两组训练样本进行合并，得到最终的训练样本；将最终的训练样本载入多元线性回归模型，不断迭代，得到最终预测模型。该方法并没有考虑血液透析病历数据的时序性特点，同时其预测模型也只是简单的多元线性回归模型，对复杂数据的拟合度可能不佳，并且不能对患者进行动态方案推荐，且没有透析方案的扩充方法，可扩展性弱。

专利文献CN111028913A公开了一种血液透析治疗方案辅助决策方法，该方法包含以下步骤：1:对经由专业透析医师标注的血液透析历史病历数据进行预处理得到总样本集；2:建立基于自注意力机制的长短时记忆网络，为输入模型的各次时序病历分配注意力权重αt从而计算出病历信息全局特征向量c；3:将全局特征向量c输入多任务共享层进行方案标签的学习；4:为各学习任务的损失分配权重λn，将各损失加权求和作为总损失；利用Adam优化算法更新模型的网络参数，得到最终的血液透析治疗方案辅助决策模型。其方案在患者特征变多的情况下会导致模型无法计算，不能对透析方案进行动态推荐，且没有考虑到患者自身意愿，也没有透析方案的扩充方法，可扩展性弱。

发明内容

本发明的目的是提供一种基于强化学习的血液透析方案制定方法及***，可以结合更多实际情况与患者需求，给予更加合理准确的血液透析方案决策，从而为医师制定医疗方案提供更加具体的指导。

为了实现第一个目的，本发明提供了一种基于强化学习的血液透析方案制定方法，包括以下步骤：

获取患者的历史病例数据，并对所述历史病例数据进行筛选以获得包含患者历史血液透析数据和患者临床数据的数据集。

构建基于噪声深度Q网络结构的神经网络，所述神经网络包括特征提取模块，动作生成模块和包含奖励机制的预测模块，所述特征提取模块包括预构建的Quasi-RNN编码器，所述Quasi-RNN编码器根据输入的患者临床数据生成基于时间序列的患者状态数据，所述动作生成模块根据患者历史血液透析数据，生成包含透析时长和透析频次的动作空间参数，所述预测模块根据输入的患者状态数据和动作空间参数，基于奖励机制进行分析，以获得对应的预测结果。

采用所述数据集对神经网络进行训练，以获得用于提供患者血液透析方案决策的血液透析方案制定模型。

将患者的历史病例数据输入至血液透析方案制定模型，以输出包含患者透析时长与频次的血液透析方案决策，为医师制定治疗方案提供指导。

本发明根据血液透析病历数据的时序性特点，并考虑了患者近期和远期健康状态的收益，还将患者自身透析意愿加入奖励函数，提高患者透析体验，从而使得最终治疗方案更加人性化。

具体的，所述患者临床数据通过将据患者的身份ID作为区分标识，采用时间序列对患者的年龄、体重、尿素氮信息、甲状旁腺激素信息、血肌酐信息、血红蛋白信息、血钙信息、血磷信息、血钠信息以及透析史长进行编排获得。

具体的，所述Quasi-RNN编码器的表达式如下：

其中，表示每个患者i的在每一周的透析治疗时间t中输出一个状态，/>表示患者在t时间的患者临床数据。

具体的，所述动作空间参数还包括自定义动作参数，所述自定义动作参数包括透析设备的操作参数或/和患者临床数据。

具体的，所述奖励机制包括基于BP神经网络预测获得的生存奖励值，基于患者身体感受的附加奖励值，以及患者意愿奖励值。

具体的，所述奖励机制的表达式如下：

式中，表示基于BP神经网络对患者生存率的预测结果，s表示归一化矩阵后的患者临床数据，/>表示生存奖励值，/>表示附加奖励值，/>表示患者意愿奖励值且评分范围0到5分。

具体的，所述神经网络还设有经验回放池，所述经验回放池用于存放智能体和环境互动所获得的奖励值。

具体的，训练时，基于时间差异误差组成的损失函数对神经网络进行参数更新。

具体的所述损失函数的表达式如下：

其中，表示时间差异误差，/>表示患者在t时间下的状态，/>表示t时间下的透析动作，/>表示t时间所加噪声，/>表示主网络参数，/>表示目标网络参数，表示优先经验回放的权重值，/>表示噪声深度Q网络的主网络，/>表示噪声深度Q网络的目标网络，/>表示折扣系数取0到1之间的一个值，/>表示t时刻的奖励值。

为了实现第二个目的，本发明还提供了一种血液透析方案制定***，通过上述的基于强化学习的血液透析方案制定方法实现，包括数据采集模块，数据处理模块，策略学习模块以及辅助决策模块。

所述数据采集模块，用于获得患者历史血液透析数据和患者临床数据。

所述数据处理模块，根据输入的患者临床数据，生成对应的患者状态。

所述策略学习模块，用于构建包含患者意愿奖励的血液透析方案制定模型。

所述辅助决策模块，用于将患者的历史病例数据输入至血液透析方案制定模型中，以可视化输出患者的血液透析方案决策，为医师制定治疗方案提供指导。

与现有技术相比，本发明的有益效果：

（1）本发明利用患者临床数据的时序性生成患者状态，从而使得最终血液透析方案制定模型的拟合度更好，同时加入患者意愿值解决，减少患者可能会产生的厌烦透析的情绪问题，提高患者透析体验。

（2）动作空间还具有扩拓展性，可以根据患者情况针对性的生成血液透析方案决策。

附图说明

图1为本实施例提供的一种基于强化学习的血液透析方案制定方法的流程图；

图2为本实施例提供的基于噪声深度Q网络结构的神经网络框架示意图；

图3为本实施例提供的一种血液透析方案制定***的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

如图1所示，一种基于强化学习的血液透析方案制定方法，包括以下步骤：

该历史病例数据包括患者的基本信息、就诊信息例如患者年龄、体重、透析史长、尿素氮、甲状旁腺激素、血肌酐、血红蛋白、血钙、血磷、血钠。

其中，患者临床数据通过将据患者的身份ID作为区分标识，采用时间序列对患者的年龄、体重、尿素氮信息、甲状旁腺激素信息、血肌酐信息、血红蛋白信息、血钙信息、血磷信息、血钠信息以及透析史长进行编排获得。

更具体地，如图2所示为神经网络的框架示意图，该神经网络通过反复实验调整患者参数来最大化预测奖励的整体回报，最终生成一个价值函数，其输入为患者的状态信息，输出则为每个动作的价值。

在训练之前还需要确定本基于噪声深度Q网络的神经网络的学习参数，其中输出层节点数不少于输出动作集合的元素个数，输入层节点数不少于输入状态集合S的元素个数，并且初始化其中噪声深度Q网络的输入层权系数，隐藏层权系数，输出层权系数。

接下来定义奖励函数，奖励函数是从状态-动作对的环境中所得到的反馈，在对智能体奖励函数的构建中，目标是让患者的生存率最大化。首先，而最终目的是让透析患者尽可能的延长其生存时间，那么显而易见的是如果患者死亡，那么智能体所获得的奖励为负数，如果患者存活，那么智能体所获得的奖励为正数。

首先训练一个BP神经网络来预测患者在目前状态下下一年内的生存率。

在这里BP网络结构采用三层网络结构：输入层，隐藏层，输出层。首先输入为患者在目前状态下的状态，例如年龄、体重、透析史长、尿素氮、甲状旁腺激素、血肌酐、血红蛋白、血钙、血磷、血钠。数据在经过归一化处理之后合并为输入矩阵。

隐藏层神经元个数采用试凑法从低到高确定，激活函数使用Sigmoid函数。

设置训练次数，收敛误差之后得到所述BP神经网络。

通过训练好的BP神经网络，本发明设定当生存率大于50%时，奖励值r₁为正，且生存率越大奖励值越大；当生存率小于50%时，奖励值r₁为负，且生存率越小奖励值越小。

其中表示生存奖励；/>表示BP神经网络所预测患者在状态s下一年内生存的概率。

附加奖励则用表示，如果患者在当前状态没有任何不适症状，则/>；如果出现轻度不适症状则/>；如果出现严重透析副反应，则/>。

引入患者意愿值奖励，根据患者自身主观感受让患者为自己评分，例如根据透析痛苦程度，来院方便程度等，评分范围0到5分。

最终总奖励函数为生存奖励值和附加奖励值之和：

接下来定义行为策略：

定义状态价值函数：

其中表示t时刻下按照策略/>进行决策的/>。

定义动作价值函数：

血液透析方案制定网络的行为策略为：

同时，还构建一个经验回放池，经验池回放是将智能体和环境互动之后所得到的奖励值保存起来，用回放缓存区可以减少与环境做互动的次数，提高样本利用率，提高噪声深度Q网络的稳定性。

本发明根据不同状态Q值之间的差值为经验池中的每个经验指定优先级，称为时间差异误差（TD-error）。设定t时刻的样本计为，那么通过观察目前时刻的状态/>，通过上述的/>，从输出动作集合中选择一个动作/>，在环境中执行之后就得到了奖励值/>和下一状态/>，然后得到新的/>，将其放入经验池中。

神经网络在训练过程中所采用的损失函数由时间差异误差组成，反映了当前Q值与目标Q值的差距，并且在每次一个训练回合开始时，在Q网络的每个参数上面加一个高斯噪声，将当前Q值变成Q’：

例如原来的线性层为：

加入噪声后，这个线性层变成了：

式中，是均值为0的噪声，/>都是可学习的参数。

具体到每一个神经元上，的噪声为：

的噪声为：

式中，可以取/> 。

通过从经验池中随机采样一批样本，损失函数表示为：

其中，表示时间差异误差，/>表示患者在t时间下的状态，/>表示t时间下的透析动作，/>表示t时间所加噪声，/>表示主网络参数，/>表示目标网络参数，表示优先经验回放的权重值，/>表示噪声深度Q网络的主网络，/>表示噪声深度Q网络的目标网络，/>表示折扣系数取0到1之间的一个值，/>表示t时刻的奖励值。即最小化损失函数所得到的策略即为最优策略。

通过状态，动作和噪声深度Q网络的设计，血液透析方案制定网络将可以学习到一个价值函数Q网络，实现把不同的状态和动作映射到不同的Q值，从而可以根据此映射为不同的患者在不同的时间里调整透析时长和频次，最终形成智能体推荐的透析时长频次决策。每当有新的患者数据加入，可重复训练过程，使得到的价值函数Q网络继续学习以此达到动态推荐目的。

Quasi-RNN编码器的输入为患者临床数据，输出为马尔科夫决策模型中的患者状态数据集合S。

该Quasi-RNN编码器的设计过程为：

首先对经过由专业透析医师标注的血液透析历史病历数据进行预处理从而得到总样本集。其中需要抹去血液透析历史数据中涉及患者个人隐私的敏感字段，例如患者的姓名，电话，家庭住址等；然后确定输入模型的特征数据以及模型输出的状态集合，特征数据包括患者的年龄、体重、透析史长、尿素氮、甲状旁腺激素、血肌酐、血红蛋白、血钙、血磷、血钠。

然后建立基于Quasi-RNN的模型，透析患者历史病例数据是具有时间序列性的，时间越久远的病历对决定当前状态影响越小，时间越近的病历对当前状态的确定影响越大。首先对上述10个特征进行处理，将病人ID作为唯一区分标识，将患者数据按时间排序形成序列化数据，特征缺失值用0代替，将每周七天的患者临床数据看作一个时间步，然后使用例如大小为2的卷积窗口，即查看前两个时间步的输入来计算。将数据输入单层的128维患者状态自动编码器中，来学习如何表示患者状态，通过这种方式，它在内部学习以较低维度表示输入的最佳方式。在其中的Quasi-RNN卷积层中，计算无需迭代，将所有计算批量化为矩阵的乘法，大大降低循环过程中的计算量。最后最小化原始输入和解码输出之间的损失函数，得到训练完成的患者状态自编码器。

使用训练得到的患者状态自编码器循环编码患者采集的临床观察数据，并为每个患者i在每一周的透析治疗时间t中输出一个状态：

其中，表示每个患者i的在每一周的透析治疗时间t中输出一个状态，/>表示患者在t时间的特征，/>表示由患者数据训练好的患者状态自动编码器。

动作空间参数所在的动作空间的构建：

一般处于稳定期的患者的推荐透析时长以及频率为每周接受3次4小时左右的透析，而随着病人病程进展，一方面可能病情将会有所好专，可以减少透析的频率以及时长；另一方面病人可能面临自身不愿意透析，去医院不便等因素，所以可以降低频率且提高透析时长，结合各种实际情况，所以这里将透析频率和时长之间的变化值设定为动作空间的值，并进行了离散化处理。

离散化处理是指将透析的频率和时长调整范围限定在某一个区间范围内，等调整间隔划分为不同的调整动作。根据临床医生的经验与反馈，对透析频率和时长的动作空间构建可以归纳成如下表格1所示：

表1

本实施例将动作空间分为由透析频次和透析时长所组成的二元组，其中透析频次为[-3, -2, -1, 0, 1]中之一，透析时长为[0, 1, 2, 3]中之一，即动作二元组一共有20种：[-3, 0], [-3, 1] … [1, 3]。例如在初始状态在患者接受的透析时长频次为3次4小时，那么当智能体作出[-1, -1]的动作后，意味着患者所接受的透析时长频次变为2次3小时。

在这里仅为举例说明了透析方案中的频次及时长两方面，如果还需加入其他角度，例如每次透析时的透析器血流量，那么动作空间即变为[△频次，△时长，△血流量]三元组，可根据医生需要灵活改变。

本实施例在获得患者i在时间t下的状态后，然后根据动作空间的制定获得输出的动作集合/>,其中动作集合A一共包含20种动作，每个动作为一个二元组，对应透析频次和时长的调整量，记患者在t时刻的动作为/>。

如图3所示，为本实例提供的一种血液透析方案制定***，该***基于上述实施例提供的血液透析方案制定方法实现，包括：

所述辅助决策模块，用于将患者的历史病例数据输入至血液透析方案制定模型中，以可视化输出患者的血液透析方案决策，为医师制定治疗方案提供指导，更具体地，针对患者的不同透析疗程状态，强化学习智能体将为其推荐最佳透析频率和时长调整值。医师可以设置评估阈值（如每周1次或者每次透析时长少于2h），低于此阈值的调整将由护士直接评估并选择性执行，高于阈值的调整由医师评估并选择性执行，实现对医师透析方案调整决策的辅助支持。***将记录每次透析疗程中智能体的推荐值、医师是否接受智能体的建议、以及医师执行的透析方案调整值，定期评估患者的透析充分性，***会给出患者的预计真实生存率和预计回报，同时记录决策者的真实选择，从而来对模型后续的奖励函数进行进一步调整。利用可视化图表的形式反馈给医师和算法工程师，以便后续对模型进行更新和优化。

为了更好的说明本发明的效果，根据某三甲医院的患者数据进行测试。

从该医院的电子病历数据库中提取到50000次就诊记录，就诊记录中包括患者的年龄、体重、透析史长、尿素氮、甲状旁腺激素、血肌酐、血红蛋白、血钙、血磷、血钠，意愿值。将得到的数据分为三个数据集：训练集（60%），验证集（20%），测试集（10%），这里患者状态编码器的隐藏层数为1层，有128个隐藏单元。通过Quasi-RNN神经网络生成了患者之间的状态表示，状态表示由128位的向量组成。

将得到的患者状态输入血液透析方案制定网络之前，先训练一个BP神经网络来确定奖励值，这里BP神经网络中隐藏层数为1层，而隐藏层神经元个数采用凑数法从低到高确定，激活函数使用Sigmod函数。根据训练得到的BP神经网络，设置生存奖励值：

额外引入代表当前患者身体感受的附加奖励值

即:

设置完奖励函数后再设置动作函数，对透析频率和时长的动作空间构建可以归纳成如下表2所示：

表2

然后将状态集合，奖励函数，动作函数代入Noisy-DQN网络中，在每一个时间步t中，根据建立中的Q函数给出状态和对应的动作/>,获得奖励值/>,将上述所得参数值放入经验池中，接下来更新状态，重复上述步骤直到经验池存满，然后开始从经验池中采样，在每次一个回合开始时，都在Q函数上加入一个高斯噪声。一直循环到损失函数最小化。

训练完成的Q函数即为最优策略，将本发明的策略可视化输出至医生，供医生参考调整患者的血液透析频次及时长。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于强化学习的血液透析方案制定方法，其特征在于，包括以下步骤：

获取患者的历史病例数据，并对所述历史病例数据进行筛选以获得包含患者历史血液透析数据和患者临床数据的数据集；

构建基于噪声深度Q网络结构的神经网络，所述神经网络包括特征提取模块，动作生成模块和包含奖励机制的预测模块，所述特征提取模块包括预构建的Quasi-RNN编码器，所述Quasi-RNN编码器根据输入的患者临床数据生成基于时间序列的患者状态数据，所述动作生成模块根据患者历史血液透析数据，生成包含透析时长和透析频次的动作空间参数，所述预测模块根据输入的患者状态数据和动作空间参数，基于奖励机制进行分析，以获得对应的预测结果；

采用所述数据集对神经网络进行训练，以获得用于提供患者血液透析方案决策的血液透析方案制定模型；

将患者的历史病例数据输入至血液透析方案制定模型，以输出包含患者透析时长与频次的血液透析方案决策。

2.根据权利要求1所述的基于强化学习的血液透析方案制定方法，其特征在于，所述患者临床数据通过将据患者的身份ID作为区分标识，采用时间序列对患者的年龄、体重、尿素氮信息、甲状旁腺激素信息、血肌酐信息、血红蛋白信息、血钙信息、血磷信息、血钠信息以及透析史长进行编排获得。

3.根据权利要求1所述的基于强化学习的血液透析方案制定方法，其特征在于，所述Quasi-RNN编码器的表达式如下：；其中，/>表示每个患者i的在每一周的透析治疗时间t中输出一个状态，/>表示患者在t时间的患者临床数据。

4.根据权利要求1所述的基于强化学习的血液透析方案制定方法，其特征在于，所述动作空间参数还包括自定义动作参数，所述自定义动作参数包括透析设备的操作参数或/和患者临床数据。

5.根据权利要求1所述的基于强化学习的血液透析方案制定方法，其特征在于，所述奖励机制包括基于BP神经网络预测获得的生存奖励值，基于患者身体感受的附加奖励值，以及患者意愿奖励值。

6.根据权利要求1或5所述的基于强化学习的血液透析方案制定方法，其特征在于，所述奖励机制的表达式如下：；/>；；/>；其中，/>表示基于BP神经网络对患者生存率的预测结果，s表示归一化矩阵后的患者临床数据，/>表示生存奖励值，表示附加奖励值，/>表示患者意愿奖励值且评分范围0到5分。

7.根据权利要求1所述的基于强化学习的血液透析方案制定方法，其特征在于，所述神经网络还设有经验回放池，所述经验回放池用于存放智能体和环境互动所获得的奖励值。

8.根据权利要求1所述的基于强化学习的血液透析方案制定方法，其特征在于，训练时，基于时间差异误差组成的损失函数对神经网络进行参数更新。

9.根据权利要求8所述的基于强化学习的血液透析方案制定方法，其特在于，所述损失函数的表达式如下：；；；其中，/>表示时间差异误差，/>表示患者在t时间下的状态，/>表示t时间下的透析动作，/>表示t时间所加噪声，/>表示主网络参数，/>表示目标网络参数，/>表示优先经验回放的权重值，/>表示噪声深度Q网络的主网络，/>表示噪声深度Q网络的目标网络，/>表示折扣系数取0到1之间的一个值，/>表示t时刻的奖励值。

10.一种血液透析方案制定***，其特征在于，通过如权利要求1~9任一项所述的基于强化学习的血液透析方案制定方法实现，包括数据采集模块，数据处理模块，策略学习模块以及辅助决策模块；

所述数据采集模块，用于获得患者历史血液透析数据和患者临床数据；

所述数据处理模块，根据输入的患者临床数据，生成对应的患者状态；

所述策略学习模块，用于构建包含患者意愿奖励的血液透析方案制定模型；

所述辅助决策模块，用于将患者的历史病例数据输入至血液透析方案制定模型中，以可视化输出患者的血液透析方案决策。