CN112329921B - 基于深度表征学习和强化学习的利尿剂剂量推理设备 - Google Patents

基于深度表征学习和强化学习的利尿剂剂量推理设备 Download PDF

Info

Publication number
CN112329921B
CN112329921B CN202011253328.6A CN202011253328A CN112329921B CN 112329921 B CN112329921 B CN 112329921B CN 202011253328 A CN202011253328 A CN 202011253328A CN 112329921 B CN112329921 B CN 112329921B
Authority
CN
China
Prior art keywords
module
gate
diuretic
dose
diuretic dose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011253328.6A
Other languages
English (en)
Other versions
CN112329921A (zh
Inventor
黄正行
孙兆红
段会龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011253328.6A priority Critical patent/CN112329921B/zh
Publication of CN112329921A publication Critical patent/CN112329921A/zh
Application granted granted Critical
Publication of CN112329921B publication Critical patent/CN112329921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度表征学习和强化学习的利尿剂剂量推理设备,包含:利尿剂剂量推理单元和数据输入单元;利尿剂剂量推理单元包括:利尿剂剂量推荐模块;环境仿真模块;奖赏模块;对抗模块;数据输入单元用于向利尿剂剂量推理单元输入训练数据集对利尿剂剂量推理单元进行训练及向训练好的利尿剂剂量推理单元输入待预测的个体状态以得到预测结果。本发明的基于深度表征学习和强化学习的利尿剂剂量推理设备,利尿剂剂量推理模块、环境仿真模块、奖赏模块和对抗模块相结合,充分利用和医生不一致但相似的干预措施,且能够充分考虑到治疗进程中的动态时序性,利用鉴别器来解决推荐中反事实缺失的问题,提高推荐的性能,保证推荐的合理性。

Description

基于深度表征学习和强化学习的利尿剂剂量推理设备
技术领域
本发明涉及一种基于深度表征学习和强化学习的利尿剂剂量推理设备。
背景技术
治疗推荐(Treatment Recommendation)是一个在临床上辅助医生决策支持的有效工具。近年来,其在精准医学和健康管理中不断发挥着重要作用。
传统的治疗推荐是基于专家指南或者专家共识准则。对于不同的临床疾病,专家根据临床经验或已有的治疗方案制定出合适的干预措施。这种方法虽然有一定的价值,但是其没有充分考虑到不同患者样本之间的个性化特点。此外,治疗推荐应该是一个不断调整的时序动态进程,在推荐干预措施中的,任何既往的治疗记录都应该被充分考虑。
回顾式研究直接根据观察性数据来推荐干预措施。由于真实世界数据容易获取,基于回顾式的研究被广泛应用到各个领域,如利用回顾式数据进行治疗推荐的策略梯度模型(Policy Gradient,PG)。然而利用回顾式数据面临着反事实缺失的挑战。即同一时间内,同一患者只能接受一种干预措施,对于其他的干预措施得到的治疗结果我们无从得知。
为了克服上述挑战,一些传统的干预推荐方法将医生的策略当做金标准来直接学习深度表征,从而直接推荐未来的干预措施。如为推荐华法林剂量而设计的K近邻(KNearest Neighbors)和支持向量回归(Support Vector Regression)。
然而这些传统的方法依旧没有解决反事实缺失的问题。此外,某些和医生采取的干预策略(Physician Policy,PP)不一致但和医生干预相似的措施也是良好的学习样本,也应该在模型训练学习的过程中被充分利用。
发明内容
本发明提供了一种基于深度表征学习和强化学习的利尿剂剂量推理设备,采用如下的技术方案:
一种基于深度表征学习和强化学习的利尿剂剂量推理设备,包含:基于深度表征学习和强化学习的利尿剂剂量推理单元和数据输入单元;
数据输入单元用于向利尿剂剂量推理单元输入训练数据集以对利尿剂剂量推理单元进行训练,训练数据集包括:描述个体特征的自然状态集Θ={x1,x2,…xT}、对个体可能采取的不同干预策略集和治疗效果奖赏/>其中,ri表示在ti时刻个体采取治疗效果之后的奖赏;
利尿剂剂量推理单元包括:
利尿剂剂量推荐模块,用于根据训练数据集的输入特征预测在给定时刻的袢利尿剂剂量at
环境仿真模块,用于提供一个仿真的交互环境,从而评估施加袢利尿剂剂量at之后的下一个时刻的特征;
奖赏模块,用于评估的袢利尿剂剂量at的治疗效果奖赏;
对抗模块,用于鉴别利尿剂剂量推荐模块推荐利尿剂剂量后得到的样本轨迹,和真实数据世界中的样本轨迹,从而提高利尿剂剂量推荐模块的性能;
数据输入单元还用于向训练好的利尿剂剂量推理单元输入待预测的个体状态以得到预测结果。
进一步地,利尿剂剂量推荐模块包括一个第一长短记忆网络、一个第一多层感知机和一个softmax层,长短记忆网络用于提取从第一个时刻到当前时刻tj的患者状态深度表征,第一多层感知机和softmax层用于基于深度表征计算每个干预策略的选择概率;
第一长短记忆网络的结构包含四个第一门控单元,四个第一门控单元分别为第一遗忘门、第一输入门、第一记忆门和第一输出门,以训练数据集中的自然状态集作为第一长短记忆网络的输入层,第一长短记忆网络通过以下公式进行计算:
其中,为第i个人tj时刻的特征,/>为第一长短记忆网络上一个时刻的隐藏特征,/>为第一长短记忆网络上一个时刻的记忆特征,/>为输入层,W1,f,W1,i,W1,m,/>分别为第一遗忘门、第一输入门、第一记忆门和第一输出门的权重矩阵,/>分别为第一遗忘门、第一输入门、第一记忆门和第一输出门的偏置,/>分别为第一遗忘门、第一输入门、第一记忆门和第一输出门的输出,/>为所得的患者状态深度表征;
第一多层感知机的结构设定为两层,以所得的患者状态深度表征作为第一多层感知机的输入层;
设定第一层输出n1个节点,第二层输出n2个节点,第一多层感知机通过以下公式进行计算:
其中,表示输入层,/>表示第一层节点的权重矩阵,表示第一层节点的偏置向量,/>表示第二层节点的参数矩阵,表示第二层节点的偏置向量,/>和/>分别表示第i个人在tj时刻时的第一层和第二层的深度输出表征;
softmax层通过以下计算公式得到:
其中,为softmax层中对第k个候选的利尿剂剂量施加的权重矩阵,/>为softmax层的偏置,/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的softmax层的权重,/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的softmax层的偏置;
利尿剂剂量推荐模块的损失函数如下所示:
其中,N表示输入样本的数量,T表示一个回合的长度,ts表示初始推荐时刻,γ表示折扣因子,表示基于/>推理得到/>的概率。
进一步地,环境仿真模块由一个编码器和一个解码器组成,编码器用于提取从第一个时刻到当前时刻为止的样本特征和推荐剂量的深度特征,解码器用于将提取出的深度特征解码成下一个时刻的样本特征;
编码器由一个第二长短记忆网络组成,第二长短记忆网络的结构包含四个第二门控单元,四个第二门控单元分别为第二遗忘门、第二输入门、第二记忆门和第二输出门,其计算公式为:
其中,为第i个人tj时刻的特征,/>为第i个人tj时刻采用的利尿剂剂量,/>为第二长短记忆网络上一个时刻的隐藏特征,/>为第二长短记忆网络上一个时刻的记忆特征,/>为输入层,W2,f,W2,i,W2,m分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的权重矩阵,b2,f,b2,i,b2,m,/>分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的偏置,/>分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的输出,/>为获得的第i个人从第一个时刻到当前时刻tj为止的样本特征和利尿剂剂量的深度表征;
解码器由一个第三长短记忆网路组成,第三长短记忆网络的结构包含四个第三门控单元,四个第三门控单元分别为第三遗忘门、第三输入门、第三记忆门和第三输出门,其计算公式为:
其中,为第i个人tj时刻的特征,/>为第i个人tj时刻采用的利尿剂剂量,/>为第三长短记忆网络上一个时刻的隐藏特征,/>为第三长短记忆网络上一个时刻的记忆特征,/>为输入层,W3,f,W3,i,W3,m,/>分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的权重矩阵,b2,f,b2,i,b2,m,b2,o∈R|n|分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的偏置,第三长短记忆网络解码得到的/>即为下一个时刻重建的样本特征/>分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的输出,第三长短记忆网络解码得到的/>即为根据解码器提取的深度特征/>解码后得到的下一个时刻重建的样本特征/>
环境仿真模块损失函数的计算公式为:
其中,M为样本的特征数,和/>分别表示第i个人在tj时刻的特征和由编码器和解码器重建得到的样本特征。
进一步地,奖赏模块由两个结构相同的第二多层感知机组成,两个第二多层感知机分别用于表示出量和入量/>
每个的第二多层感知机的结构设定为一层,输出no个节点,第二多层感知机在计算出量时通过以下公式进行计算:
其中,为第i个人tj时刻的特征,/>为第i个人tj时刻采用的利尿剂剂量,/>为输入层,wout为权重矩阵,bout表示偏置,/>表示第i个人在tj时刻的出量;
为奖赏模块预测得到的奖赏结果;
奖赏模块的损失函数为:
其中,分别表示第i个人在tj时刻的奖赏和由奖赏模块预测得到的奖赏。
进一步地,对抗模块由两个结构相同的第三多层感知机组成,以利尿剂剂量推荐模块、环境仿真模块和奖赏模块生成的样本轨迹和真实数据的样本轨迹分别为输入层;
第三多层感知机通过以下公式进行计算:
其中,表示将生成的第i个样本轨迹鉴别为真的概率,/>表示将第i个真实样本轨迹鉴别为真的概率,wd∈R|n+2|表示权重向量,bd为偏置,/>为利尿剂剂量推荐模块推荐的剂量,/>为环境仿真模块中重建的样本特征;
对抗模块的损失函数计算公式如下所示:
进一步地,数据输入单元用于向利尿剂剂量推理单元输入训练数据集以对利尿剂剂量推理单元训练的具体方法为:
将训练数据集按照一定比例划分为训练集、测试集和验证集;
将训练集输入利尿剂剂量推理单元对其进行训练;
将验证集输入利尿剂剂量推理单元对其进行超参数优化选择;
将训练集和验证集输入利尿剂剂量推理单元并采用选择的超参数进行训练;
将测试集输入利尿剂剂量推理单元对其验证获得最终结果。
进一步地,将训练集输入利尿剂剂量推理单元对其训练的具体方法为:
选择累计奖赏函数作为利尿剂剂量推理单元的损失函数和预测模块的评价指标,其中利尿剂剂量推荐模块、环境仿真模块和奖赏模块作为一个整体进行训练,对抗模块与利尿剂剂量推荐模块、环境仿真模块和奖赏模块进行交替训练:
采用真实的样本轨迹预训练利尿剂剂量推荐模块、环境仿真模块和奖赏模块;
设定推荐初始时刻ts的为t4,对于任何介于ts到回合长度T之间的时刻ti,执行预训练和正式训练;
预训练包括:
将训练集中的自然状态集输入到利尿剂剂量推荐模块得到推荐剂量(1≤i≤N,4≤j≤T);
将训练集中的自然状态集和干预策略集输入到奖赏模块中得到奖赏(1≤i≤N,4≤j≤T);
将训练集中的自然状态集和干预策略集输入到环境仿真模块中重建下一个时刻的样本特征(1≤i≤N,4≤j≤T);
优化利尿剂剂量推荐模块损失函数J(πθ);
优化奖赏模块损失函数Lreward
优化环境仿真模块损失函数Lr
正式训练包括:
当j=4时,
将训练集中的自然状态集输入到利尿剂剂量推荐模块中得到推荐的剂量(1≤i≤N);
将训练集中的自然状态集和推荐的剂量输入到奖赏模块中得到奖赏/>(1≤i≤N);
将训练集中的自然状态集和利推荐的剂量输入到环境仿真模块中重建下一个时刻的样本特征/>(1≤i≤N);
当j>4时,
将训练集中的自然状态集、生成的样本特征输入到利尿剂剂量推荐模块中得到推荐的剂量/>(1≤i≤N);
将训练集中的自然状态集、生成的样本特征和推荐的剂量/>输入到奖赏模块中得到奖赏/>(1≤i≤N);
将训练集中的自然状态集、生成的样本特征和利推荐的剂量/>输入到环境仿真模块中重建下一个时刻的样本特征/>(1≤i≤N);
将上述数据组成生成的样本轨迹数据集
优化累计奖赏损失函数并通过梯度下降法更新利尿剂剂量推荐模块损失函数J(πθ);
对于任何介于ts到回合长度T之间的时刻tj,执行以下过程:
将数据集输入到对抗模块中鉴别真假;
将生成的样本轨迹数据集输入到对抗模块中鉴别真假;
优化对抗模块的损失函数LD并通过梯度下降法进行参数更新。
进一步地,在将验证集输入利尿剂剂量推理单元对其进行超参数优化选择中,通过贝叶斯优化算法进行验证集上超参数选择。
进一步地,通过RMSprop算法所有的优化损失函数。
本发明的有益之处在于所提供的基于深度表征学习和强化学习的利尿剂剂量推理设备,利尿剂剂量推理模块、环境仿真模块、奖赏模块和对抗模块相结合,充分利用和医生不一致但相似的干预措施,且能够充分考虑到治疗进程中的动态时序性,利用鉴别器来解决反事实缺失问题,提高推荐模型的推荐性能。能够更加准确和科学的推荐利尿剂剂量,且更加符合临床经验。
附图说明
图1是本发明的基于深度表征学习和强化学习的利尿剂剂量推理设备的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种基于深度表征学习和强化学习的利尿剂剂量推理设备,包含:于深度表征学习和强化学习的利尿剂剂量推理单元和数据输入单元。
数据输入单元用于向利尿剂剂量推理单元输入训练数据集以对利尿剂剂量推理单元进行训练,训练数据集包括:描述个体特征的自然状态集Θ={x1,x2,...xT}、对个体可能采取的不同干预策略集和治疗效果奖赏/>其中,ri表示在ti时刻个体采取治疗效果之后的奖赏。数据输入单元还用于向训练好的利尿剂剂量推理单元输入待预测的个体状态以得到预测结果。
利尿剂剂量推理单元包括:利尿剂剂量推荐模块、环境仿真模块、奖赏模块和对抗模块。
利尿剂剂量推荐模块用于根据训练数据集的输入特征预测在给定时刻的袢利尿剂剂量a+。环境仿真模块用于提供一个仿真的交互环境,从而评估施加袢利尿剂剂量a+之后的下一个时刻的特征。奖赏模块用于评估的袢利尿剂剂量at的治疗效果奖赏。对抗模块用于鉴别利尿剂剂量推荐模块推荐利尿剂剂量后得到的样本轨迹,和真实数据世界中的样本轨迹,从而提高利尿剂剂量推荐模块的性能,解决反事实缺失问题。上述的基于深度表征学习和强化学习的利尿剂剂量推理设备,利尿剂剂量推理模块、环境仿真模块、奖赏模块和对抗模块相结合,充分利用和医生不一致但相似的干预措施,且能够充分考虑到治疗进程中的动态时序性,利用鉴别器来解决反事实缺失问题,提高推荐模型的推荐性能。能够更加准确和科学的推荐利尿剂剂量,且更加符合临床经验。
作为一种优选的实施方式,利尿剂剂量推荐模块包括一个第一长短记忆网络、一个第一多层感知机和一个softmax层,长短记忆网络用于提取从第一个时刻到当前时刻tj的患者状态深度表征,第一多层感知机和softmax层用于基于深度表征计算每个干预策略的选择概率。
第一长短记忆网络的结构包含四个第一门控单元,四个第一门控单元分别为第一遗忘门、第一输入门、第一记忆门和第一输出门,以训练数据集中的自然状态集作为第一长短记忆网络的输入层,第一长短记忆网络通过以下公式进行计算:
其中,为第i个人tj时刻的特征,/>为第一长短记忆网络上一个时刻的隐藏特征,/>为第一长短记忆网络上一个时刻的记忆特征,/>为输入层,W1,f,W1,i,W1,m,/>分别为遗忘门、输入门、记忆门和输出门的权重矩阵,b1,f,b1,i,b1,m,/>分别为第一遗忘门、第一输入门、第一记忆门和第一输出门的偏置。/>分别为第一遗忘门、第一输入门、第一记忆门和第一输出门的输出,为所得的患者状态深度表征。
第一多层感知机的结构设定为两层,以所得的患者状态深度表征作为第一多层感知机的输入层。
设定第一层输出n1个节点,第二层输出n2个节点,第一多层感知机通过以下公式进行计算:
其中,表示输入层,/>表示第一层节点的权重矩阵,表示第一层节点的偏置向量,/>表示第二层节点的参数矩阵,表示第二层节点的偏置向量,/>和/>分别表示第i个人在tj时刻时的第一层和第二层的深度输出表征。
softmax层通过以下计算公式得到:
其中,为softmax层中对第k个候选的利尿剂剂量施加的权重矩阵,/>为softmax层的偏置,/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的softmax层的权重,/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的softmax层的偏置。
利尿剂剂量推荐模块的损失函数如下所示:
其中,N表示输入样本的数量,T表示一个回合的长度,ts表示初始推荐时刻,γ表示折扣因子,表示基于/>推理得到/>的概率。
作为一种优选的实施方式,环境仿真模块由一个编码器和一个解码器组成,编码器用于提取从第一个时刻到当前时刻为止的样本特征和推荐剂量的深度特征,解码器用于将提取出的深度特征解码成下一个时刻的样本特征。
编码器由一个第二长短记忆网络组成,第二长短记忆网络的结构包含四个第二门控单元,四个第二门控单元分别为第二遗忘门、第二输入门、第二记忆门和第二输出门,其计算公式为:
其中,为第i个人tj时刻的特征,/>为第i个人tj时刻采用的利尿剂剂量,/>为第二长短记忆网络上一个时刻的隐藏特征,/>为第二长短记忆网络上一个时刻的记忆特征,/>为输入层,W2,f,W2,i,W2,m分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的权重矩阵,b2,f,b2,i,b2,m,/>分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的偏置,/>分别为第二遗忘门、第二输入门、第二记忆门和第二输出门的输出,/>为获得的第i个人从第一个时刻到当前时刻tj为止的样本特征和利尿剂剂量的深度表征。
解码器由一个第三长短记忆网路组成,第三长短记忆网络的结构包含四个第三门控单元,四个第三门控单元分别为第三遗忘门、第三输入门、第三记忆门和第三输出门,其计算公式为:
其中,为第i个人tj时刻的特征,/>为第i个人tj时刻采用的利尿剂剂量,/>R|n|为第三长短记忆网络上一个时刻的隐藏特征,/>为第三长短记忆网络上一个时刻的记忆特征,/>为输入层,W3,f,W3,i,W3,m,/>分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的权重矩阵,b2,f,b2,i,b2,m,b2,o∈R|n|分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的偏置,第三长短记忆网络解码得到的/>即为下一个时刻重建的样本特征/>分别为第三遗忘门、第三输入门、第三记忆门和第三输出门的输出,第三长短记忆网络解码得到的/>即为根据解码器提取的深度特征/>解码后得到的下一个时刻重建的样本特征/>
环境仿真模块损失函数的计算公式为:
其中,M为样本的特征数,和/>分别表示第i个人在tj时刻的特征和由编码器和解码器重建得到的样本特征。
作为一种优选的实施方式,奖赏模块由两个结构相同的第二多层感知机组成,两个第二多层感知机分别用于表示出量和入量/>
每个的第二多层感知机的结构设定为一层,输出no个节点,第二多层感知机在计算出量时通过以下公式进行计算:
其中,为第i个人tj时刻的特征,/>为第i个人tj时刻采用的利尿剂剂量,/>为输入层。wout为权重矩阵,bout表示偏置,/>表示第i个人在tj时刻的出量。
为奖赏模块预测得到的奖赏结果。
奖赏模块的损失函数为:
其中,M为样本的特征数,分别表示第i个人在tj时刻的奖赏和由奖赏模块预测得到的奖赏。
作为一种优选的实施方式,对抗模块由两个结构相同的第三多层感知机组成,以利尿剂剂量推荐模块、环境仿真模块和奖赏模块生成的样本轨迹和真实数据的样本轨迹分别为输入层。
第三多层感知机通过以下公式进行计算:
其中,表示将生成的第i个样本轨迹鉴别为真的概率,/>表示将第i个真实样本轨迹鉴别为真的概率。wd∈R|n+2|表示权重向量,bd为偏置,/>为利尿剂剂量推荐模块推荐的剂量,/>为环境仿真模块中重建的样本特征。具体的,当j=ts时,/>为正式训练过程中,将训练集中的自然状态集输入到利尿剂剂量推荐模块中得到推荐的剂量。/>为正式训练过程中,将训练集中的自然状态集和上个时刻的推荐剂量/>输入到环境仿真模块中重建的样本特征。当j>ts时,/>为正式训练过程中,将训练集中的自然状态集、上个时刻生成的样本特征/>和利推荐的剂量/>输入到环境仿真模块中重建的样本特征。/>为正式训练过程中,将训练集中的自然状态集、当前时刻生成的样本特征/>输入到利尿剂剂量推荐模块中得到推荐的剂量。
对抗模块的损失函数计算公式如下所示:
作为一种优选的实施方式,数据输入单元用于向利尿剂剂量推理单元输入训练数据集以对利尿剂剂量推理单元训练的具体方法为:
将训练数据集按照一定比例划分为训练集、测试集和验证集。
将训练集输入利尿剂剂量推理单元对其进行训练。
将验证集输入利尿剂剂量推理单元对其进行超参数优化选择。
将训练集和验证集输入利尿剂剂量推理单元并采用选择的超参数进行训练。
将测试集输入利尿剂剂量推理单元对其验证获得最终结果。
作为一种优选的实施方式,将训练集输入利尿剂剂量推理单元对其训练的具体方法为:
选择累计奖赏函数作为利尿剂剂量推理单元的损失函数和预测模块的评价指标,其中利尿剂剂量推荐模块、环境仿真模块和奖赏模块作为一个整体进行训练,对抗模块与利尿剂剂量推荐模块、环境仿真模块和奖赏模块进行交替训练:
采用真实的样本轨迹预训练利尿剂剂量推荐模块、环境仿真模块和奖赏模块。
设定训练轮数为200次,设定前3个时刻的数据为已知样本,推荐初始时刻ts的为t4,即从第四个时刻开始推荐,每轮的训练过程如下:
对于任何介于ts到回合长度T之间的时刻ti,执行预训练和正式训练。
预训练包括:
将训练集中的自然状态集输入到利尿剂剂量推荐模块得到推荐剂量(1≤i≤N,4≤j≤T)。
将训练集中的自然状态集和干预策略集输入到奖赏模块中得到奖赏(1≤i≤N,4≤j≤T)。
将训练集中的自然状态集和干预策略集输入到环境仿真模块中重建下一个时刻的样本特征(1≤i≤N,4≤j≤T)。
优化利尿剂剂量推荐模块损失函数J(πθ)。
优化奖赏模块损失函数Lreward
优化环境仿真模块损失函数Lr
正式训练包括:
当j=4时,
将训练集中的自然状态集输入到利尿剂剂量推荐模块中得到推荐的剂量(1≤i≤N)。
将训练集中的自然状态集和推荐的剂量输入到奖赏模块中得到奖赏/>(1≤i≤N)。
将训练集中的自然状态集和利推荐的剂量输入到环境仿真模块中重建下一个时刻的样本特征/>(1≤i≤N)。
当j>4时,
将训练集中的自然状态集、生成的样本特征输入到利尿剂剂量推荐模块中得到推荐的剂量/>(1≤i≤N)。
将训练集中的自然状态集、生成的样本特征和推荐的剂量/>输入到奖赏模块中得到奖赏/>(1≤i≤N)。
将训练集中的自然状态集、生成的样本特征和利推荐的剂量/>输入到环境仿真模块中重建下一个时刻的样本特征/>(1≤i≤N)。
将上述数据组成生成的样本轨迹数据集(1≤i≤N)。
优化累计奖赏损失函数并通过梯度下降法更新利尿剂剂量推荐模块损失函数J(πθ)。
对于任何介于ts到回合长度T之间的时刻ti,执行以下过程:
将数据集输入到对抗模块中鉴别真假。
将生成的样本轨迹数据集输入到对抗模块中鉴别真假。
优化对抗模块的损失函数LD并通过梯度下降法进行参数更新。
作为一种优选的实施方式,在将验证集输入利尿剂剂量推理单元对其进行超参数优化选择中,通过贝叶斯优化算法进行验证集上超参数选择。
作为一种优选的实施方式,通过RMSprop算法优化所有的损失函数。
作为一种优选的实施方式,具体地,调用bayes_opt中的BayesianOptimization优化方法对验证集上超参数进行选择,调用Tensorflow 2.0中的tf.keras.optimizers.RMSprop函数来对损失函数进行优化。
应用时,利尿剂剂量推荐模块直接从真实数据中提取从初始时刻到当前时刻为止的长期数据的深度特征,再进一步推荐个性化的利尿剂剂量。推荐得到的利尿剂剂量输入至奖赏模块和环境仿真模块中得到下一个时刻的奖赏和样本特征。最后通过对抗模块鉴别真实的样本轨迹和上述生成的样本轨迹,从而进一步提高推荐设备的性能。
当完成模型训练之后,将待预测的个体状态输入到训练好的利尿剂剂量推理单元中,模型单元能够根据个体状态输入不同的利尿剂推荐剂量。
以中国人民解放军总医院301的心衰数据集为例,分别采用本发明的设备以及现有的策略梯度设备、医生策略设备以及随机策略设备进行对比。301的心衰数据集包含从1997年到2018年所有心内科病人的数据。为了研究本设备的有效性和动态推荐的有效性,对301数据集中使用利尿剂的患者进行样本提取,保留住院时长大于10天的样本,从而获取了涉及7454次每天用药记录的449个样本数据。
对于个体化干预推荐的评估,采用样本个体获得的累计奖赏作为评估指标。累计奖赏越大说明推荐结果越好。对比结果如下,可见,本发明的设备预测效果更好。
表1 301数据集上本发明的推荐设备与对比设备的表现
模型 累计奖赏
策略梯度设备 8.240
随机策略设备 2.305
医生策略设备 -1.281
本发明策略设备 12.314
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (7)

1.一种基于深度表征学习和强化学习的利尿剂剂量推理设备,其特征在于,包含:基于深度表征学习和强化学习的利尿剂剂量推理单元和数据输入单元;
所述数据输入单元用于向所述利尿剂剂量推理单元输入训练数据集以对所述利尿剂剂量推理单元进行训练,所述训练数据集包括:描述个体特征的自然状态集Θ={x1,x2,…xT}、对个体可能采取的不同干预策略集和治疗效果奖赏其中,ri表示在ti时刻个体采取治疗效果之后的奖赏;
所述利尿剂剂量推理单元包括:
利尿剂剂量推荐模块,用于根据所述训练数据集的输入特征预测在给定时刻的袢利尿剂剂量at
环境仿真模块,用于提供一个仿真的交互环境,从而评估施加所述袢利尿剂剂量at之后的下一个时刻的特征;
奖赏模块,用于评估所述的袢利尿剂剂量at的治疗效果奖赏;
对抗模块,用于鉴别所述利尿剂剂量推荐模块推荐利尿剂剂量后得到的样本轨迹,和真实数据世界中的样本轨迹,从而提高利尿剂剂量推荐模块的性能;
所述数据输入单元还用于向训练好的所述利尿剂剂量推理单元输入待预测的个体状态以得到预测结果;
所述利尿剂剂量推荐模块包括一个第一长短记忆网络、一个第一多层感知机和一个softmax层,所述长短记忆网络用于提取从第一个时刻到当前时刻tj的患者状态深度表征,所述第一多层感知机和所述softmax层用于基于所述深度表征计算每个干预策略的选择概率;
所述第一长短记忆网络的结构包含四个第一门控单元,四个所述第一门控单元分别为第一遗忘门、第一输入门、第一记忆门和第一输出门,以所述训练数据集中的自然状态集作为所述第一长短记忆网络的输入层,所述第一长短记忆网络通过以下公式进行计算:
其中,为第i个人tj时刻的特征,/>为所述第一长短记忆网络上一个时刻的隐藏特征,/>为所述第一长短记忆网络上一个时刻的记忆特征,为输入层,/>分别为所述第一遗忘门、所述第一输入门、所述第一记忆门和所述第一输出门的权重矩阵,/>分别为所述第一遗忘门、所述第一输入门、所述第一记忆门和所述第一输出门的偏置,分别为所述第一遗忘门、所述第一输入门、所述第一记忆门和所述第一输出门的输出,/>为所得的所述患者状态深度表征;
所述第一多层感知机的结构设定为两层,以所得的所述患者状态深度表征作为所述第一多层感知机的输入层;
设定第一层输出n1个节点,第二层输出n2个节点,所述第一多层感知机通过以下公式进行计算:
其中,表示输入层,/>表示第一层节点的权重矩阵,/>表示第一层节点的偏置向量,/>表示第二层节点的参数矩阵,/>表示第二层节点的偏置向量,/>和/>分别表示第i个人在tj时刻时的第一层和第二层的深度输出表征;
所述softmax层通过以下计算公式得到:
其中,为所述softmax层中对第k个候选的利尿剂剂量施加的权重矩阵,/>为所述softmax层的偏置,/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的所述softmax层的权重,/>为当第k个利尿剂剂量为样本在真实数据中记录的利尿剂剂量时对应的所述softmax层的偏置;
所述利尿剂剂量推荐模块的损失函数如下所示:
其中,N表示输入样本的数量,T表示一个回合的长度,ts表示初始推荐时刻,γ表示折扣因子,表示基于/>推理得到/>的概率;
所述环境仿真模块由一个编码器和一个解码器组成,所述编码器用于提取从第一个时刻到当前时刻为止的样本特征和推荐剂量的深度特征,所述解码器用于将提取出的深度特征解码成下一个时刻的样本特征;
所述编码器由一个第二长短记忆网络组成,所述第二长短记忆网络的结构包含四个第二门控单元,四个所述第二门控单元分别为第二遗忘门、第二输入门、第二记忆门和第二输出门,其计算公式为:
其中,为第i个人tj时刻的特征,/>为第i个人tj时刻采用的利尿剂剂量,为所述第二长短记忆网络上一个时刻的隐藏特征,/>为所述第二长短记忆网络上一个时刻的记忆特征,/>为输入层,/> 分别为所述第二遗忘门、所述第二输入门、所述第二记忆门和所述第二输出门的权重矩阵,/>分别为所述第二遗忘门、所述第二输入门、所述第二记忆门和所述第二输出门的偏置,/>分别为所述第二遗忘门、所述第二输入门、所述第二记忆门和所述第二输出门的输出,/>为获得的第i个人从第一个时刻到当前时刻tj为止的样本特征和利尿剂剂量的深度表征;
所述解码器由一个第三长短记忆网路组成,所述第三长短记忆网络的结构包含四个第三门控单元,四个所述第三门控单元分别为第三遗忘门、第三输入门、第三记忆门和第三输出门,其计算公式为:
其中,为第i个人tj时刻的特征,/>为第i个人tj时刻采用的利尿剂剂量,为所述第三长短记忆网络上一个时刻的隐藏特征,/>为所述第三长短记忆网络上一个时刻的记忆特征,/>为输入层,/>分别为所述第三遗忘门、所述第三输入门、所述第三记忆门和所述第三输出门的权重矩阵,b2,f,b2,i,b2,m,b2,o∈R|n|分别为所述第三遗忘门、所述第三输入门、所述第三记忆门和所述第三输出门的偏置,/>分别为所述第三遗忘门、所述第三输入门、所述第三记忆门和所述第三输出门的输出,所述第三长短记忆网络解码得到的/>即为根据所述解码器提取的深度特征/>解码后得到的下一个时刻重建的样本特征/>
所述环境仿真模块损失函数的计算公式为:
其中,M为样本的特征数,和/>分别表示第i个人在tj时刻的特征和由所述编码器和所述解码器重建得到的样本特征。
2.根据权利要求1所述的基于深度表征学习和强化学习的利尿剂剂量推理设备,其特征在于,
所述奖赏模块由两个结构相同的第二多层感知机组成,两个所述第二多层感知机分别用于表示出量和入量/>
每个所述的第二多层感知机的结构设定为一层,输出no个节点,所述第二多层感知机在计算出量时通过以下公式进行计算:
其中,为第i个人tj时刻的特征,/>为第i个人tj时刻采用的利尿剂剂量,为输入层,wout为权重矩阵,bout表示偏置,/>表示第i个人在tj时刻的出量;
为所述奖赏模块预测得到的奖赏结果;
所述奖赏模块的损失函数为:
其中,分别表示第i个人在tj时刻的奖赏和由奖赏模块预测得到的奖赏。
3.根据权利要求2所述的基于深度表征学习和强化学习的利尿剂剂量推理设备,其特征在于,
所述对抗模块由两个结构相同的第三多层感知机组成,以所述利尿剂剂量推荐模块、环境仿真模块和奖赏模块生成的样本轨迹和真实数据的样本轨迹分别为输入层;
所述第三多层感知机通过以下公式进行计算:
其中,表示将生成的第i个样本轨迹鉴别为真的概率,/>表示将第i个真实样本轨迹鉴别为真的概率,wd∈R|n+2|表示权重向量,bd为偏置,/>为所述利尿剂剂量推荐模块推荐的剂量,/>为所述环境仿真模块中重建的样本特征;
所述对抗模块的损失函数计算公式如下所示:
4.根据权利要求3所述的基于深度表征学习和强化学习的利尿剂剂量推理设备,其特征在于,
所述数据输入单元用于向所述利尿剂剂量推理单元输入训练数据集以对所述利尿剂剂量推理单元训练的具体方法为:
将所述训练数据集按照一定比例划分为训练集、测试集和验证集;
将所述训练集输入所述利尿剂剂量推理单元对其进行训练;
将所述验证集输入所述利尿剂剂量推理单元对其进行超参数优化选择;
将所述训练集和所述验证集输入所述利尿剂剂量推理单元并采用选择的超参数进行训练;
将所述测试集输入所述利尿剂剂量推理单元对其验证获得最终结果。
5.根据权利要求4所述的基于深度表征学习和强化学习的利尿剂剂量推理设备,其特征在于,
所述将所述训练集输入所述利尿剂剂量推理单元对其训练的具体方法为:
选择累计奖赏函数作为所述利尿剂剂量推理单元的损失函数和预测模块的评价指标,其中所述利尿剂剂量推荐模块、所述环境仿真模块和所述奖赏模块作为一个整体进行训练,所述对抗模块与所述利尿剂剂量推荐模块、所述环境仿真模块和所述奖赏模块进行交替训练:
采用真实的样本轨迹预训练所述利尿剂剂量推荐模块、所述环境仿真模块和所述奖赏模块;
设定训练轮数为200次,设定前3个时刻的数据为已知样本,推荐初始时刻ts为t4,每轮的训练过程如下:
对于任何介于ts到回合长度T之间的时刻tj,执行预训练和正式训练;
所述预训练包括:
将所述训练集中的所述自然状态集输入到所述利尿剂剂量推荐模块得到推荐剂量
将所述训练集中的所述自然状态集和所述干预策略集输入到所述奖赏模块中得到奖赏
将所述训练集中的所述自然状态集和所述干预策略集输入到所述环境仿真模块中重建下一个时刻的样本特征
优化所述利尿剂剂量推荐模块损失函数J(πθ);
优化所述奖赏模块损失函数Lreward
优化所述环境仿真模块损失函数Lr
所述正式训练包括:
当j=4时,
将所述训练集中的所述自然状态集输入到所述利尿剂剂量推荐模块中得到推荐的剂量
将所述训练集中的所述自然状态集和所述推荐的剂量输入到所述奖赏模块中得到奖赏/>
将所述训练集中的所述自然状态集和所述推荐的剂量输入到所述环境仿真模块中重建下一个时刻的样本特征/>
当j>4时,
将所述训练集中的所述自然状态集、生成的样本特征输入到所述利尿剂剂量推荐模块中得到推荐的剂量/>
将所述训练集中的所述自然状态集、生成的样本特征和所述推荐的剂量/>输入到所述奖赏模块中得到奖赏/>
将所述训练集中的所述自然状态集、生成的样本特征和所述推荐的剂量/>输入到所述环境仿真模块中重建下一个时刻的样本特征/>
将上述数据组成生成的样本轨迹数据集
优化累计奖赏损失函数并通过梯度下降法更新所述利尿剂剂量推荐模块损失函数J(πθ);
对于任何介于ts到回合长度T之间的时刻tj,执行以下过程:
将所述数据集输入到所述对抗模块中鉴别真假;
将生成的所述样本轨迹数据集输入到所述对抗模块中鉴别真假;
优化所述对抗模块的损失函数LD并通过梯度下降法进行参数更新。
6.根据权利要求4所述的基于深度表征学习和强化学习的利尿剂剂量推理设备,其特征在于,
在所述将所述验证集输入所述利尿剂剂量推理单元对其进行超参数优化选择中,通过贝叶斯优化算法进行验证集上超参数选择。
7.根据权利要求4所述的基于深度表征学习和强化学习的利尿剂剂量推理设备,其特征在于,
通过RMSprop算法优化所有的损失函数。
CN202011253328.6A 2020-11-11 2020-11-11 基于深度表征学习和强化学习的利尿剂剂量推理设备 Active CN112329921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011253328.6A CN112329921B (zh) 2020-11-11 2020-11-11 基于深度表征学习和强化学习的利尿剂剂量推理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011253328.6A CN112329921B (zh) 2020-11-11 2020-11-11 基于深度表征学习和强化学习的利尿剂剂量推理设备

Publications (2)

Publication Number Publication Date
CN112329921A CN112329921A (zh) 2021-02-05
CN112329921B true CN112329921B (zh) 2023-11-14

Family

ID=74318363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011253328.6A Active CN112329921B (zh) 2020-11-11 2020-11-11 基于深度表征学习和强化学习的利尿剂剂量推理设备

Country Status (1)

Country Link
CN (1) CN112329921B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539517B (zh) * 2021-08-05 2024-04-16 浙江大学 时序干预效果的预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427985A (zh) * 2018-01-02 2018-08-21 北京理工大学 一种基于深度强化学习的插电式混合动力车辆能量管理方法
CN108536572A (zh) * 2018-04-16 2018-09-14 浙江大学 基于AppUsage2Vec模型的智能手机App使用预测方法
WO2018211140A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Data efficient imitation of diverse behaviors
CN109635204A (zh) * 2018-12-21 2019-04-16 上海交通大学 基于协同过滤和长短记忆网络的在线推荐***
CN110059206A (zh) * 2019-03-29 2019-07-26 银江股份有限公司 一种基于深度表征学习的大规模哈希图像检索方法
CN110321361A (zh) * 2019-06-15 2019-10-11 河南大学 基于改进的lstm神经网络模型的试题推荐判定方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211140A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Data efficient imitation of diverse behaviors
CN108427985A (zh) * 2018-01-02 2018-08-21 北京理工大学 一种基于深度强化学习的插电式混合动力车辆能量管理方法
CN108536572A (zh) * 2018-04-16 2018-09-14 浙江大学 基于AppUsage2Vec模型的智能手机App使用预测方法
CN109635204A (zh) * 2018-12-21 2019-04-16 上海交通大学 基于协同过滤和长短记忆网络的在线推荐***
CN110059206A (zh) * 2019-03-29 2019-07-26 银江股份有限公司 一种基于深度表征学习的大规模哈希图像检索方法
CN110321361A (zh) * 2019-06-15 2019-10-11 河南大学 基于改进的lstm神经网络模型的试题推荐判定方法

Also Published As

Publication number Publication date
CN112329921A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN111524602B (zh) 一种老年人记忆及认知功能评估筛查预警***
US9370689B2 (en) System and methods for providing dynamic integrated wellness assessment
Yang et al. Change matters: Medication change prediction with recurrent residual networks
CN111798954A (zh) 基于时间注意力机制和图卷积网络的药物组合推荐方法
KR20170061222A (ko) 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치
CN109065171A (zh) 基于集成学习的川崎病风险评估模型的构建方法及***
CN116453706B (zh) 一种基于强化学习的血液透析方案制定方法及***
US20200058399A1 (en) Control method and reinforcement learning for medical system
CN115295153B (zh) 基于深度学习的认知评估方法及认知任务推送方法
CN112329921B (zh) 基于深度表征学习和强化学习的利尿剂剂量推理设备
Bhatia et al. Prediction of severity of diabetes mellitus using fuzzy cognitive maps
Hodson et al. The empirical status of predictive coding and active inference
CN117034142B (zh) 一种不平衡医疗数据缺失值填充方法及***
Liew et al. Mechanisms of recovery after neck‐specific or general exercises in patients with cervical radiculopathy
CN115394448B (zh) 冠心病运动反应性预测模型的建模方法、模型、设备
El-Kassabi et al. Deep learning approach for forecasting athletes' performance in sports tournaments
Wang et al. Application of physical examination data on health analysis and intelligent diagnosis
CN115565639A (zh) 一种锻炼心率的预测方法、装置以及设备
Sun Application and Comparison of Artificial Neural Networks and XGBoost on Alzheimer's Disease
US11250723B1 (en) Visuospatial disorders detection in dementia using a computer-generated environment based on voting approach of machine learning algorithms
CN111184948B (zh) 基于血管靶向光动力疗法的鲜红斑痣处理方法及***
Fang et al. Enhancing digital health services: A machine learning approach to personalized exercise goal setting
Jarusek et al. Automated diagnostics of patients with severe brain damage
Sun et al. The design of adolescents’ physical health prediction system based on deep reinforcement learning
Payá et al. Development of an artificial neural network for helping to diagnose diseases in urology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant