CN112329921B

CN112329921B - 基于深度表征学习和强化学习的利尿剂剂量推理设备

Info

Publication number: CN112329921B
Application number: CN202011253328.6A
Authority: CN
Inventors: 黄正行; 孙兆红; 段会龙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2023-11-14
Anticipated expiration: 2040-11-11
Also published as: CN112329921A

Abstract

本发明公开了一种基于深度表征学习和强化学习的利尿剂剂量推理设备，包含：利尿剂剂量推理单元和数据输入单元；利尿剂剂量推理单元包括：利尿剂剂量推荐模块；环境仿真模块；奖赏模块；对抗模块；数据输入单元用于向利尿剂剂量推理单元输入训练数据集对利尿剂剂量推理单元进行训练及向训练好的利尿剂剂量推理单元输入待预测的个体状态以得到预测结果。本发明的基于深度表征学习和强化学习的利尿剂剂量推理设备，利尿剂剂量推理模块、环境仿真模块、奖赏模块和对抗模块相结合，充分利用和医生不一致但相似的干预措施，且能够充分考虑到治疗进程中的动态时序性，利用鉴别器来解决推荐中反事实缺失的问题，提高推荐的性能，保证推荐的合理性。

Description

基于深度表征学习和强化学习的利尿剂剂量推理设备

技术领域

本发明涉及一种基于深度表征学习和强化学习的利尿剂剂量推理设备。

背景技术

治疗推荐(Treatment Recommendation)是一个在临床上辅助医生决策支持的有效工具。近年来，其在精准医学和健康管理中不断发挥着重要作用。

传统的治疗推荐是基于专家指南或者专家共识准则。对于不同的临床疾病，专家根据临床经验或已有的治疗方案制定出合适的干预措施。这种方法虽然有一定的价值，但是其没有充分考虑到不同患者样本之间的个性化特点。此外，治疗推荐应该是一个不断调整的时序动态进程，在推荐干预措施中的，任何既往的治疗记录都应该被充分考虑。

回顾式研究直接根据观察性数据来推荐干预措施。由于真实世界数据容易获取，基于回顾式的研究被广泛应用到各个领域,如利用回顾式数据进行治疗推荐的策略梯度模型(Policy Gradient,PG)。然而利用回顾式数据面临着反事实缺失的挑战。即同一时间内，同一患者只能接受一种干预措施，对于其他的干预措施得到的治疗结果我们无从得知。

为了克服上述挑战，一些传统的干预推荐方法将医生的策略当做金标准来直接学习深度表征，从而直接推荐未来的干预措施。如为推荐华法林剂量而设计的K近邻(KNearest Neighbors)和支持向量回归(Support Vector Regression)。

然而这些传统的方法依旧没有解决反事实缺失的问题。此外，某些和医生采取的干预策略(Physician Policy,PP)不一致但和医生干预相似的措施也是良好的学习样本，也应该在模型训练学习的过程中被充分利用。

发明内容

本发明提供了一种基于深度表征学习和强化学习的利尿剂剂量推理设备，采用如下的技术方案：

一种基于深度表征学习和强化学习的利尿剂剂量推理设备，包含：基于深度表征学习和强化学习的利尿剂剂量推理单元和数据输入单元；

数据输入单元用于向利尿剂剂量推理单元输入训练数据集以对利尿剂剂量推理单元进行训练，训练数据集包括：描述个体特征的自然状态集Θ＝{x₁,x₂,…x_T}、对个体可能采取的不同干预策略集和治疗效果奖赏/>其中，r_i表示在t_i时刻个体采取治疗效果之后的奖赏；

利尿剂剂量推理单元包括：

利尿剂剂量推荐模块，用于根据训练数据集的输入特征预测在给定时刻的袢利尿剂剂量a_t；

环境仿真模块，用于提供一个仿真的交互环境，从而评估施加袢利尿剂剂量a_t之后的下一个时刻的特征；

奖赏模块，用于评估的袢利尿剂剂量a_t的治疗效果奖赏；

对抗模块，用于鉴别利尿剂剂量推荐模块推荐利尿剂剂量后得到的样本轨迹，和真实数据世界中的样本轨迹，从而提高利尿剂剂量推荐模块的性能；

数据输入单元还用于向训练好的利尿剂剂量推理单元输入待预测的个体状态以得到预测结果。

进一步地，利尿剂剂量推荐模块包括一个第一长短记忆网络、一个第一多层感知机和一个softmax层，长短记忆网络用于提取从第一个时刻到当前时刻tj的患者状态深度表征，第一多层感知机和softmax层用于基于深度表征计算每个干预策略的选择概率；

第一长短记忆网络的结构包含四个第一门控单元，四个第一门控单元分别为第一遗忘门、第一输入门、第一记忆门和第一输出门，以训练数据集中的自然状态集作为第一长短记忆网络的输入层，第一长短记忆网络通过以下公式进行计算：

其中，为第i个人t_j时刻的特征，/>为第一长短记忆网络上一个时刻的隐藏特征，/>为第一长短记忆网络上一个时刻的记忆特征，/>为输入层，W_1，f，W_1，i，W_1，m，/>分别为第一遗忘门、第一输入门、第一记忆门和第一输出门的权重矩阵，/>分别为第一遗忘门、第一输入门、第一记忆门和第一输出门的偏置，/>分别为第一遗忘门、第一输入门、第一记忆门和第一输出门的输出，/>为所得的患者状态深度表征；

第一多层感知机的结构设定为两层，以所得的患者状态深度表征作为第一多层感知机的输入层；

设定第一层输出n₁个节点，第二层输出n₂个节点，第一多层感知机通过以下公式进行计算：

其中，表示输入层，/>表示第一层节点的权重矩阵，表示第一层节点的偏置向量，/>表示第二层节点的参数矩阵，表示第二层节点的偏置向量，/>和/>分别表示第i个人在t_j时刻时的第一层和第二层的深度输出表征；

softmax层通过以下计算公式得到：

其中，为softmax层中对第k个候选的利尿剂剂量施加的权重矩阵，/>为softmax层的偏置，/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的softmax层的权重，/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的softmax层的偏置；

利尿剂剂量推荐模块的损失函数如下所示：

其中，N表示输入样本的数量，T表示一个回合的长度，t_s表示初始推荐时刻，γ表示折扣因子，表示基于/>推理得到/>的概率。

进一步地，环境仿真模块由一个编码器和一个解码器组成，编码器用于提取从第一个时刻到当前时刻为止的样本特征和推荐剂量的深度特征，解码器用于将提取出的深度特征解码成下一个时刻的样本特征；

编码器由一个第二长短记忆网络组成，第二长短记忆网络的结构包含四个第二门控单元，四个第二门控单元分别为第二遗忘门、第二输入门、第二记忆门和第二输出门，其计算公式为：

其中，为第i个人t_j时刻的特征，/>为第i个人t_j时刻采用的利尿剂剂量，/>为第二长短记忆网络上一个时刻的隐藏特征，/>为第二长短记忆网络上一个时刻的记忆特征，/>为输入层，W_2，f，W_2，i，W_2，m，分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的权重矩阵，b_2，f，b_2，i，b_2，m，/>分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的偏置，/>分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的输出，/>为获得的第i个人从第一个时刻到当前时刻t_j为止的样本特征和利尿剂剂量的深度表征；

解码器由一个第三长短记忆网路组成，第三长短记忆网络的结构包含四个第三门控单元，四个第三门控单元分别为第三遗忘门、第三输入门、第三记忆门和第三输出门，其计算公式为：

其中，为第i个人t_j时刻的特征，/>为第i个人t_j时刻采用的利尿剂剂量，/>为第三长短记忆网络上一个时刻的隐藏特征，/>为第三长短记忆网络上一个时刻的记忆特征，/>为输入层，W_3，f，W_3，i，W_3，m，/>分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的权重矩阵，b_2，f，b_2，i，b_2，m，b_2，o∈R^|n|分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的偏置，第三长短记忆网络解码得到的/>即为下一个时刻重建的样本特征/>分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的输出，第三长短记忆网络解码得到的/>即为根据解码器提取的深度特征/>解码后得到的下一个时刻重建的样本特征/>

环境仿真模块损失函数的计算公式为：

其中，M为样本的特征数，和/>分别表示第i个人在t_j时刻的特征和由编码器和解码器重建得到的样本特征。

进一步地，奖赏模块由两个结构相同的第二多层感知机组成，两个第二多层感知机分别用于表示出量和入量/>

每个的第二多层感知机的结构设定为一层，输出n_o个节点，第二多层感知机在计算出量时通过以下公式进行计算：

其中，为第i个人t_j时刻的特征，/>为第i个人t_j时刻采用的利尿剂剂量，/>为输入层，w_out为权重矩阵，b_out表示偏置，/>表示第i个人在t_j时刻的出量；

为奖赏模块预测得到的奖赏结果；

奖赏模块的损失函数为：

其中，分别表示第i个人在t_j时刻的奖赏和由奖赏模块预测得到的奖赏。

进一步地，对抗模块由两个结构相同的第三多层感知机组成，以利尿剂剂量推荐模块、环境仿真模块和奖赏模块生成的样本轨迹和真实数据的样本轨迹分别为输入层；

第三多层感知机通过以下公式进行计算：

其中，表示将生成的第i个样本轨迹鉴别为真的概率，/>表示将第i个真实样本轨迹鉴别为真的概率，w_d∈R^|n+2|表示权重向量，bd为偏置，/>为利尿剂剂量推荐模块推荐的剂量，/>为环境仿真模块中重建的样本特征；

对抗模块的损失函数计算公式如下所示：

进一步地，数据输入单元用于向利尿剂剂量推理单元输入训练数据集以对利尿剂剂量推理单元训练的具体方法为：

将训练数据集按照一定比例划分为训练集、测试集和验证集；

将训练集输入利尿剂剂量推理单元对其进行训练；

将验证集输入利尿剂剂量推理单元对其进行超参数优化选择；

将训练集和验证集输入利尿剂剂量推理单元并采用选择的超参数进行训练；

将测试集输入利尿剂剂量推理单元对其验证获得最终结果。

进一步地，将训练集输入利尿剂剂量推理单元对其训练的具体方法为：

选择累计奖赏函数作为利尿剂剂量推理单元的损失函数和预测模块的评价指标，其中利尿剂剂量推荐模块、环境仿真模块和奖赏模块作为一个整体进行训练，对抗模块与利尿剂剂量推荐模块、环境仿真模块和奖赏模块进行交替训练：

采用真实的样本轨迹预训练利尿剂剂量推荐模块、环境仿真模块和奖赏模块；

设定推荐初始时刻t_s的为t₄，对于任何介于t_s到回合长度T之间的时刻t_i，执行预训练和正式训练；

预训练包括：

将训练集中的自然状态集输入到利尿剂剂量推荐模块得到推荐剂量(1≤i≤N，4≤j≤T)；

将训练集中的自然状态集和干预策略集输入到奖赏模块中得到奖赏(1≤i≤N，4≤j≤T)；

将训练集中的自然状态集和干预策略集输入到环境仿真模块中重建下一个时刻的样本特征(1≤i≤N，4≤j≤T)；

优化利尿剂剂量推荐模块损失函数J(π_θ)；

优化奖赏模块损失函数L_reward；

优化环境仿真模块损失函数L_r；

正式训练包括：

当j＝4时，

将训练集中的自然状态集输入到利尿剂剂量推荐模块中得到推荐的剂量(1≤i≤N)；

将训练集中的自然状态集和推荐的剂量输入到奖赏模块中得到奖赏/>(1≤i≤N)；

将训练集中的自然状态集和利推荐的剂量输入到环境仿真模块中重建下一个时刻的样本特征/>(1≤i≤N)；

当j＞4时，

将训练集中的自然状态集、生成的样本特征输入到利尿剂剂量推荐模块中得到推荐的剂量/>(1≤i≤N)；

将训练集中的自然状态集、生成的样本特征和推荐的剂量/>输入到奖赏模块中得到奖赏/>(1≤i≤N)；

将训练集中的自然状态集、生成的样本特征和利推荐的剂量/>输入到环境仿真模块中重建下一个时刻的样本特征/>(1≤i≤N)；

将上述数据组成生成的样本轨迹数据集

优化累计奖赏损失函数并通过梯度下降法更新利尿剂剂量推荐模块损失函数J(π_θ)；

对于任何介于t_s到回合长度T之间的时刻t_j，执行以下过程：

将数据集输入到对抗模块中鉴别真假；

将生成的样本轨迹数据集输入到对抗模块中鉴别真假；

优化对抗模块的损失函数L_D并通过梯度下降法进行参数更新。

进一步地，在将验证集输入利尿剂剂量推理单元对其进行超参数优化选择中，通过贝叶斯优化算法进行验证集上超参数选择。

进一步地，通过RMSprop算法所有的优化损失函数。

本发明的有益之处在于所提供的基于深度表征学习和强化学习的利尿剂剂量推理设备，利尿剂剂量推理模块、环境仿真模块、奖赏模块和对抗模块相结合，充分利用和医生不一致但相似的干预措施，且能够充分考虑到治疗进程中的动态时序性，利用鉴别器来解决反事实缺失问题，提高推荐模型的推荐性能。能够更加准确和科学的推荐利尿剂剂量，且更加符合临床经验。

附图说明

图1是本发明的基于深度表征学习和强化学习的利尿剂剂量推理设备的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示为本发明的一种基于深度表征学习和强化学习的利尿剂剂量推理设备，包含：于深度表征学习和强化学习的利尿剂剂量推理单元和数据输入单元。

数据输入单元用于向利尿剂剂量推理单元输入训练数据集以对利尿剂剂量推理单元进行训练，训练数据集包括：描述个体特征的自然状态集Θ＝{x₁，x₂，...x_T}、对个体可能采取的不同干预策略集和治疗效果奖赏/>其中，ri表示在ti时刻个体采取治疗效果之后的奖赏。数据输入单元还用于向训练好的利尿剂剂量推理单元输入待预测的个体状态以得到预测结果。

利尿剂剂量推理单元包括：利尿剂剂量推荐模块、环境仿真模块、奖赏模块和对抗模块。

利尿剂剂量推荐模块用于根据训练数据集的输入特征预测在给定时刻的袢利尿剂剂量a₊。环境仿真模块用于提供一个仿真的交互环境，从而评估施加袢利尿剂剂量a₊之后的下一个时刻的特征。奖赏模块用于评估的袢利尿剂剂量a_t的治疗效果奖赏。对抗模块用于鉴别利尿剂剂量推荐模块推荐利尿剂剂量后得到的样本轨迹，和真实数据世界中的样本轨迹，从而提高利尿剂剂量推荐模块的性能，解决反事实缺失问题。上述的基于深度表征学习和强化学习的利尿剂剂量推理设备，利尿剂剂量推理模块、环境仿真模块、奖赏模块和对抗模块相结合，充分利用和医生不一致但相似的干预措施，且能够充分考虑到治疗进程中的动态时序性，利用鉴别器来解决反事实缺失问题，提高推荐模型的推荐性能。能够更加准确和科学的推荐利尿剂剂量，且更加符合临床经验。

作为一种优选的实施方式，利尿剂剂量推荐模块包括一个第一长短记忆网络、一个第一多层感知机和一个softmax层，长短记忆网络用于提取从第一个时刻到当前时刻tj的患者状态深度表征，第一多层感知机和softmax层用于基于深度表征计算每个干预策略的选择概率。

其中，为第i个人t_j时刻的特征，/>为第一长短记忆网络上一个时刻的隐藏特征，/>为第一长短记忆网络上一个时刻的记忆特征，/>为输入层，W_1，f，W_1，i，W_1，m，/>分别为遗忘门、输入门、记忆门和输出门的权重矩阵，b_1，f，b_1，i，b_1，m，/>分别为第一遗忘门、第一输入门、第一记忆门和第一输出门的偏置。/>分别为第一遗忘门、第一输入门、第一记忆门和第一输出门的输出，为所得的患者状态深度表征。

第一多层感知机的结构设定为两层，以所得的患者状态深度表征作为第一多层感知机的输入层。

其中，表示输入层，/>表示第一层节点的权重矩阵，表示第一层节点的偏置向量，/>表示第二层节点的参数矩阵，表示第二层节点的偏置向量，/>和/>分别表示第i个人在t_j时刻时的第一层和第二层的深度输出表征。

softmax层通过以下计算公式得到：

其中，为softmax层中对第k个候选的利尿剂剂量施加的权重矩阵，/>为softmax层的偏置，/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的softmax层的权重，/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的softmax层的偏置。

利尿剂剂量推荐模块的损失函数如下所示：

作为一种优选的实施方式，环境仿真模块由一个编码器和一个解码器组成，编码器用于提取从第一个时刻到当前时刻为止的样本特征和推荐剂量的深度特征，解码器用于将提取出的深度特征解码成下一个时刻的样本特征。

其中，为第i个人t_j时刻的特征，/>为第i个人t_j时刻采用的利尿剂剂量，/>为第二长短记忆网络上一个时刻的隐藏特征，/>为第二长短记忆网络上一个时刻的记忆特征，/>为输入层，W_2，f，W_2，i，W_2，m，分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的权重矩阵，b_2，f，b_2，i，b_2，m，/>分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的偏置，/>分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的输出，/>为获得的第i个人从第一个时刻到当前时刻t_j为止的样本特征和利尿剂剂量的深度表征。

其中，为第i个人t_j时刻的特征，/>为第i个人t_j时刻采用的利尿剂剂量，/>R^|n|为第三长短记忆网络上一个时刻的隐藏特征，/>为第三长短记忆网络上一个时刻的记忆特征，/>为输入层，W_3，f，W_3，i，W_3，m，/>分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的权重矩阵，b_2，f，b_2，i，b_2，m，b_2，o∈R^|n|分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的偏置，第三长短记忆网络解码得到的/>即为下一个时刻重建的样本特征/>分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的输出，第三长短记忆网络解码得到的/>即为根据解码器提取的深度特征/>解码后得到的下一个时刻重建的样本特征/>

环境仿真模块损失函数的计算公式为：

作为一种优选的实施方式，奖赏模块由两个结构相同的第二多层感知机组成，两个第二多层感知机分别用于表示出量和入量/>

其中，为第i个人t_j时刻的特征，/>为第i个人t_j时刻采用的利尿剂剂量，/>为输入层。w_out为权重矩阵，b_out表示偏置，/>表示第i个人在t_j时刻的出量。

为奖赏模块预测得到的奖赏结果。

奖赏模块的损失函数为：

其中，M为样本的特征数，分别表示第i个人在t_j时刻的奖赏和由奖赏模块预测得到的奖赏。

作为一种优选的实施方式，对抗模块由两个结构相同的第三多层感知机组成，以利尿剂剂量推荐模块、环境仿真模块和奖赏模块生成的样本轨迹和真实数据的样本轨迹分别为输入层。

第三多层感知机通过以下公式进行计算：

其中，表示将生成的第i个样本轨迹鉴别为真的概率，/>表示将第i个真实样本轨迹鉴别为真的概率。w_d∈R^|n+2|表示权重向量，b_d为偏置，/>为利尿剂剂量推荐模块推荐的剂量，/>为环境仿真模块中重建的样本特征。具体的，当j＝t_s时，/>为正式训练过程中，将训练集中的自然状态集输入到利尿剂剂量推荐模块中得到推荐的剂量。/>为正式训练过程中，将训练集中的自然状态集和上个时刻的推荐剂量/>输入到环境仿真模块中重建的样本特征。当j＞t_s时，/>为正式训练过程中，将训练集中的自然状态集、上个时刻生成的样本特征/>和利推荐的剂量/>输入到环境仿真模块中重建的样本特征。/>为正式训练过程中，将训练集中的自然状态集、当前时刻生成的样本特征/>输入到利尿剂剂量推荐模块中得到推荐的剂量。

对抗模块的损失函数计算公式如下所示：

作为一种优选的实施方式，数据输入单元用于向利尿剂剂量推理单元输入训练数据集以对利尿剂剂量推理单元训练的具体方法为：

将训练数据集按照一定比例划分为训练集、测试集和验证集。

将训练集输入利尿剂剂量推理单元对其进行训练。

将验证集输入利尿剂剂量推理单元对其进行超参数优化选择。

将训练集和验证集输入利尿剂剂量推理单元并采用选择的超参数进行训练。

将测试集输入利尿剂剂量推理单元对其验证获得最终结果。

作为一种优选的实施方式，将训练集输入利尿剂剂量推理单元对其训练的具体方法为：

采用真实的样本轨迹预训练利尿剂剂量推荐模块、环境仿真模块和奖赏模块。

设定训练轮数为200次，设定前3个时刻的数据为已知样本，推荐初始时刻t_s的为t₄，即从第四个时刻开始推荐，每轮的训练过程如下：

对于任何介于t_s到回合长度T之间的时刻t_i，执行预训练和正式训练。

预训练包括：

将训练集中的自然状态集输入到利尿剂剂量推荐模块得到推荐剂量(1≤i≤N，4≤j≤T)。

将训练集中的自然状态集和干预策略集输入到奖赏模块中得到奖赏(1≤i≤N，4≤j≤T)。

将训练集中的自然状态集和干预策略集输入到环境仿真模块中重建下一个时刻的样本特征(1≤i≤N，4≤j≤T)。

优化利尿剂剂量推荐模块损失函数J(π_θ)。

优化奖赏模块损失函数L_reward。

优化环境仿真模块损失函数L_r。

正式训练包括：

当j＝4时，

将训练集中的自然状态集输入到利尿剂剂量推荐模块中得到推荐的剂量(1≤i≤N)。

将训练集中的自然状态集和推荐的剂量输入到奖赏模块中得到奖赏/>(1≤i≤N)。

将训练集中的自然状态集和利推荐的剂量输入到环境仿真模块中重建下一个时刻的样本特征/>(1≤i≤N)。

当j＞4时，

将训练集中的自然状态集、生成的样本特征输入到利尿剂剂量推荐模块中得到推荐的剂量/>(1≤i≤N)。

将训练集中的自然状态集、生成的样本特征和推荐的剂量/>输入到奖赏模块中得到奖赏/>(1≤i≤N)。

将训练集中的自然状态集、生成的样本特征和利推荐的剂量/>输入到环境仿真模块中重建下一个时刻的样本特征/>(1≤i≤N)。

将上述数据组成生成的样本轨迹数据集(1≤i≤N)。

优化累计奖赏损失函数并通过梯度下降法更新利尿剂剂量推荐模块损失函数J(π_θ)。

对于任何介于t_s到回合长度T之间的时刻t_i，执行以下过程：

将数据集输入到对抗模块中鉴别真假。

将生成的样本轨迹数据集输入到对抗模块中鉴别真假。

作为一种优选的实施方式，在将验证集输入利尿剂剂量推理单元对其进行超参数优化选择中，通过贝叶斯优化算法进行验证集上超参数选择。

作为一种优选的实施方式，通过RMSprop算法优化所有的损失函数。

作为一种优选的实施方式，具体地，调用bayes_opt中的BayesianOptimization优化方法对验证集上超参数进行选择，调用Tensorflow 2.0中的tf.keras.optimizers.RMSprop函数来对损失函数进行优化。

应用时，利尿剂剂量推荐模块直接从真实数据中提取从初始时刻到当前时刻为止的长期数据的深度特征，再进一步推荐个性化的利尿剂剂量。推荐得到的利尿剂剂量输入至奖赏模块和环境仿真模块中得到下一个时刻的奖赏和样本特征。最后通过对抗模块鉴别真实的样本轨迹和上述生成的样本轨迹，从而进一步提高推荐设备的性能。

当完成模型训练之后，将待预测的个体状态输入到训练好的利尿剂剂量推理单元中，模型单元能够根据个体状态输入不同的利尿剂推荐剂量。

以中国人民解放军总医院301的心衰数据集为例，分别采用本发明的设备以及现有的策略梯度设备、医生策略设备以及随机策略设备进行对比。301的心衰数据集包含从1997年到2018年所有心内科病人的数据。为了研究本设备的有效性和动态推荐的有效性，对301数据集中使用利尿剂的患者进行样本提取，保留住院时长大于10天的样本，从而获取了涉及7454次每天用药记录的449个样本数据。

对于个体化干预推荐的评估，采用样本个体获得的累计奖赏作为评估指标。累计奖赏越大说明推荐结果越好。对比结果如下，可见，本发明的设备预测效果更好。

表1 301数据集上本发明的推荐设备与对比设备的表现

模型	累计奖赏
		策略梯度设备	8.240
随机策略设备	2.305
		医生策略设备	-1.281
本发明策略设备	12.314

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于深度表征学习和强化学习的利尿剂剂量推理设备，其特征在于，包含：基于深度表征学习和强化学习的利尿剂剂量推理单元和数据输入单元；

所述数据输入单元用于向所述利尿剂剂量推理单元输入训练数据集以对所述利尿剂剂量推理单元进行训练，所述训练数据集包括：描述个体特征的自然状态集Θ＝{x₁,x₂,…x_T}、对个体可能采取的不同干预策略集和治疗效果奖赏其中，r_i表示在t_i时刻个体采取治疗效果之后的奖赏；

所述利尿剂剂量推理单元包括：

利尿剂剂量推荐模块，用于根据所述训练数据集的输入特征预测在给定时刻的袢利尿剂剂量a_t；

环境仿真模块，用于提供一个仿真的交互环境，从而评估施加所述袢利尿剂剂量a_t之后的下一个时刻的特征；

奖赏模块，用于评估所述的袢利尿剂剂量a_t的治疗效果奖赏；

对抗模块，用于鉴别所述利尿剂剂量推荐模块推荐利尿剂剂量后得到的样本轨迹，和真实数据世界中的样本轨迹，从而提高利尿剂剂量推荐模块的性能；

所述数据输入单元还用于向训练好的所述利尿剂剂量推理单元输入待预测的个体状态以得到预测结果；

所述利尿剂剂量推荐模块包括一个第一长短记忆网络、一个第一多层感知机和一个softmax层，所述长短记忆网络用于提取从第一个时刻到当前时刻t_j的患者状态深度表征，所述第一多层感知机和所述softmax层用于基于所述深度表征计算每个干预策略的选择概率；

所述第一长短记忆网络的结构包含四个第一门控单元，四个所述第一门控单元分别为第一遗忘门、第一输入门、第一记忆门和第一输出门，以所述训练数据集中的自然状态集作为所述第一长短记忆网络的输入层，所述第一长短记忆网络通过以下公式进行计算：

其中，为第i个人t_j时刻的特征，/>为所述第一长短记忆网络上一个时刻的隐藏特征，/>为所述第一长短记忆网络上一个时刻的记忆特征，为输入层，/>分别为所述第一遗忘门、所述第一输入门、所述第一记忆门和所述第一输出门的权重矩阵，/>分别为所述第一遗忘门、所述第一输入门、所述第一记忆门和所述第一输出门的偏置，分别为所述第一遗忘门、所述第一输入门、所述第一记忆门和所述第一输出门的输出，/>为所得的所述患者状态深度表征；

所述第一多层感知机的结构设定为两层，以所得的所述患者状态深度表征作为所述第一多层感知机的输入层；

设定第一层输出n₁个节点，第二层输出n₂个节点，所述第一多层感知机通过以下公式进行计算：

其中，表示输入层,/>表示第一层节点的权重矩阵，/>表示第一层节点的偏置向量，/>表示第二层节点的参数矩阵，/>表示第二层节点的偏置向量，/>和/>分别表示第i个人在t_j时刻时的第一层和第二层的深度输出表征；

所述softmax层通过以下计算公式得到：

其中，为所述softmax层中对第k个候选的利尿剂剂量施加的权重矩阵，/>为所述softmax层的偏置，/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的所述softmax层的权重，/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的所述softmax层的偏置；

所述利尿剂剂量推荐模块的损失函数如下所示：

其中，N表示输入样本的数量，T表示一个回合的长度，t_s表示初始推荐时刻,γ表示折扣因子，表示基于/>推理得到/>的概率；

所述环境仿真模块由一个编码器和一个解码器组成，所述编码器用于提取从第一个时刻到当前时刻为止的样本特征和推荐剂量的深度特征，所述解码器用于将提取出的深度特征解码成下一个时刻的样本特征；

所述编码器由一个第二长短记忆网络组成，所述第二长短记忆网络的结构包含四个第二门控单元，四个所述第二门控单元分别为第二遗忘门、第二输入门、第二记忆门和第二输出门，其计算公式为：

其中，为第i个人t_j时刻的特征,/>为第i个人t_j时刻采用的利尿剂剂量，为所述第二长短记忆网络上一个时刻的隐藏特征，/>为所述第二长短记忆网络上一个时刻的记忆特征，/>为输入层，/> 分别为所述第二遗忘门、所述第二输入门、所述第二记忆门和所述第二输出门的权重矩阵，/>分别为所述第二遗忘门、所述第二输入门、所述第二记忆门和所述第二输出门的偏置，/>分别为所述第二遗忘门、所述第二输入门、所述第二记忆门和所述第二输出门的输出，/>为获得的第i个人从第一个时刻到当前时刻t_j为止的样本特征和利尿剂剂量的深度表征；

所述解码器由一个第三长短记忆网路组成，所述第三长短记忆网络的结构包含四个第三门控单元，四个所述第三门控单元分别为第三遗忘门、第三输入门、第三记忆门和第三输出门，其计算公式为：

其中，为第i个人t_j时刻的特征,/>为第i个人t_j时刻采用的利尿剂剂量,为所述第三长短记忆网络上一个时刻的隐藏特征，/>为所述第三长短记忆网络上一个时刻的记忆特征，/>为输入层，/>分别为所述第三遗忘门、所述第三输入门、所述第三记忆门和所述第三输出门的权重矩阵，b_2,f,b_2,i,b_2,m,b_2,o∈R^|n|分别为所述第三遗忘门、所述第三输入门、所述第三记忆门和所述第三输出门的偏置，/>分别为所述第三遗忘门、所述第三输入门、所述第三记忆门和所述第三输出门的输出，所述第三长短记忆网络解码得到的/>即为根据所述解码器提取的深度特征/>解码后得到的下一个时刻重建的样本特征/>

所述环境仿真模块损失函数的计算公式为：

其中，M为样本的特征数，和/>分别表示第i个人在t_j时刻的特征和由所述编码器和所述解码器重建得到的样本特征。

2.根据权利要求1所述的基于深度表征学习和强化学习的利尿剂剂量推理设备，其特征在于，

所述奖赏模块由两个结构相同的第二多层感知机组成，两个所述第二多层感知机分别用于表示出量和入量/>

每个所述的第二多层感知机的结构设定为一层，输出n_o个节点，所述第二多层感知机在计算出量时通过以下公式进行计算：

其中，为第i个人t_j时刻的特征,/>为第i个人t_j时刻采用的利尿剂剂量，为输入层，w_out为权重矩阵，b_out表示偏置，/>表示第i个人在t_j时刻的出量；

为所述奖赏模块预测得到的奖赏结果；

所述奖赏模块的损失函数为：

3.根据权利要求2所述的基于深度表征学习和强化学习的利尿剂剂量推理设备，其特征在于，

所述对抗模块由两个结构相同的第三多层感知机组成，以所述利尿剂剂量推荐模块、环境仿真模块和奖赏模块生成的样本轨迹和真实数据的样本轨迹分别为输入层；

所述第三多层感知机通过以下公式进行计算：

其中，表示将生成的第i个样本轨迹鉴别为真的概率，/>表示将第i个真实样本轨迹鉴别为真的概率，w_d∈R^|n+2|表示权重向量，b_d为偏置，/>为所述利尿剂剂量推荐模块推荐的剂量，/>为所述环境仿真模块中重建的样本特征；

所述对抗模块的损失函数计算公式如下所示：

4.根据权利要求3所述的基于深度表征学习和强化学习的利尿剂剂量推理设备，其特征在于，

所述数据输入单元用于向所述利尿剂剂量推理单元输入训练数据集以对所述利尿剂剂量推理单元训练的具体方法为：

将所述训练数据集按照一定比例划分为训练集、测试集和验证集；

将所述训练集输入所述利尿剂剂量推理单元对其进行训练；

将所述验证集输入所述利尿剂剂量推理单元对其进行超参数优化选择；

将所述训练集和所述验证集输入所述利尿剂剂量推理单元并采用选择的超参数进行训练；

将所述测试集输入所述利尿剂剂量推理单元对其验证获得最终结果。

5.根据权利要求4所述的基于深度表征学习和强化学习的利尿剂剂量推理设备，其特征在于，

所述将所述训练集输入所述利尿剂剂量推理单元对其训练的具体方法为：

选择累计奖赏函数作为所述利尿剂剂量推理单元的损失函数和预测模块的评价指标，其中所述利尿剂剂量推荐模块、所述环境仿真模块和所述奖赏模块作为一个整体进行训练，所述对抗模块与所述利尿剂剂量推荐模块、所述环境仿真模块和所述奖赏模块进行交替训练：

采用真实的样本轨迹预训练所述利尿剂剂量推荐模块、所述环境仿真模块和所述奖赏模块；

设定训练轮数为200次，设定前3个时刻的数据为已知样本，推荐初始时刻t_s为t₄，每轮的训练过程如下：

对于任何介于t_s到回合长度T之间的时刻t_j，执行预训练和正式训练；

所述预训练包括：

将所述训练集中的所述自然状态集输入到所述利尿剂剂量推荐模块得到推荐剂量

将所述训练集中的所述自然状态集和所述干预策略集输入到所述奖赏模块中得到奖赏

将所述训练集中的所述自然状态集和所述干预策略集输入到所述环境仿真模块中重建下一个时刻的样本特征

优化所述利尿剂剂量推荐模块损失函数J(π_θ)；

优化所述奖赏模块损失函数L_reward；

优化所述环境仿真模块损失函数L_r；

所述正式训练包括：

当j＝4时，

将所述训练集中的所述自然状态集输入到所述利尿剂剂量推荐模块中得到推荐的剂量

将所述训练集中的所述自然状态集和所述推荐的剂量输入到所述奖赏模块中得到奖赏/>

将所述训练集中的所述自然状态集和所述推荐的剂量输入到所述环境仿真模块中重建下一个时刻的样本特征/>

当j>4时，

将所述训练集中的所述自然状态集、生成的样本特征输入到所述利尿剂剂量推荐模块中得到推荐的剂量/>

将所述训练集中的所述自然状态集、生成的样本特征和所述推荐的剂量/>输入到所述奖赏模块中得到奖赏/>

将所述训练集中的所述自然状态集、生成的样本特征和所述推荐的剂量/>输入到所述环境仿真模块中重建下一个时刻的样本特征/>

将上述数据组成生成的样本轨迹数据集

优化累计奖赏损失函数并通过梯度下降法更新所述利尿剂剂量推荐模块损失函数J(π_θ)；

对于任何介于t_s到回合长度T之间的时刻t_j，执行以下过程：

将所述数据集输入到所述对抗模块中鉴别真假；

将生成的所述样本轨迹数据集输入到所述对抗模块中鉴别真假；

优化所述对抗模块的损失函数L_D并通过梯度下降法进行参数更新。

6.根据权利要求4所述的基于深度表征学习和强化学习的利尿剂剂量推理设备，其特征在于，

在所述将所述验证集输入所述利尿剂剂量推理单元对其进行超参数优化选择中，通过贝叶斯优化算法进行验证集上超参数选择。

7.根据权利要求4所述的基于深度表征学习和强化学习的利尿剂剂量推理设备，其特征在于，

通过RMSprop算法优化所有的损失函数。