CN111785366B

CN111785366B - 患者治疗方案的确定方法、装置及计算机设备

Info

Publication number: CN111785366B
Application number: CN202010602269.2A
Authority: CN
Inventors: 徐卓扬; 赵惟; 左磊; 孙行智; 胡岗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2023-05-26
Anticipated expiration: 2040-06-29
Also published as: WO2021151295A1; CN111785366A

Abstract

本申请公开了一种患者治疗方案的确定方法、装置及计算机设备，涉及数字医疗领域，可以解决在线生成患者治疗方案时，生成结果不够准确的问题。其中方法包括：基于深度强化学习DQN创建用于处理时序数据的患者分群模型；利用标记好分群结果的样本数据训练患者分群模型，以使患者分群模型符合预设训练标准；将预设时间段内的目标患者数据输入符合预设训练标准的患者分群模型，获取得到目标患者所属的目标群组；基于目标群组内的人群特征确定目标患者的第一治疗方案；依据目标患者数据提取目标患者的禁忌药品，并从第一治疗方案中筛选出包含禁忌药品的第二治疗方案；按照第一治疗方案以及第二治疗方案，分析得到目标患者的目标治疗方案。

Description

患者治疗方案的确定方法、装置及计算机设备

技术领域

本申请涉及数字医疗领域，尤其涉及到一种患者治疗方案的确定方法、装置及计算机设备。

背景技术

深度强化学习是机器学习方法中的一种，完成从环境状态到动作映射学习，根据最大的反馈值选择最优的策略，搜索策略选择最优的动作，引起状态的变化得到延迟反馈值，评估函数，迭代循环，直到满足学习条件即终止学习。

随着科技的发展，深度强化学习已逐步应到各个领域。目前，已有工作将深度强化学习技术用于患者诊断。但是利用深度强化学习进行患者诊断的方法往往存在以下不足：1.在患者诊断场景，在进行诊断决策时更关注哪些特征、各特征对结局贡献了多少，而目前的模型难以解释，导致信息无法做到透明化。2.目前的模型往往只能将患者的单次随访信息作为输入，但单次随访很难完全表示患者的长期随访状态，导致分析结果不够准确。

发明内容

有鉴于此，本申请提供了一种患者治疗方案的确定方法、装置及计算机设备，主要解决在将深度强化学习技术应用于患者诊断时，对特征贡献的可解释性弱，且分析结果不够准确的问题。

根据本申请的一个方面，提供了一种患者治疗方案的确定方法，该方法包括：

基于深度强化学习DQN创建用于处理时序数据的患者分群模型；

利用标记好分群结果的样本数据训练所述患者分群模型，以使所述患者分群模型符合预设训练标准；

将预设时间段内的目标患者数据输入符合所述预设训练标准的患者分群模型，获取得到目标患者所属的目标群组；

基于所述目标群组内的人群特征确定所述目标患者的第一治疗方案；

依据所述目标患者数据提取所述目标患者的禁忌药品，并从所述第一治疗方案中筛选出包含所述禁忌药品的第二治疗方案；

按照所述第一治疗方案以及所述第二治疗方案，分析得到所述目标患者的目标治疗方案。

根据本申请的另一个方面，提供了一种患者治疗方案的确定装置，该装置包括：

创建模块，用于基于深度强化学习DQN创建用于处理时序数据的患者分群模型；

训练模块，用于利用标记好分群结果的样本数据训练所述患者分群模型，以使所述患者分群模型符合预设训练标准；

输入模块，用于将预设时间段内的目标患者数据输入符合所述预设训练标准的患者分群模型，获取得到目标患者所属的目标群组；

确定模块，用于基于所述目标群组内的人群特征确定所述目标患者的第一治疗方案；

提取模块，用于依据所述目标患者数据提取所述目标患者的禁忌药品，并从所述第一治疗方案中筛选出包含所述禁忌药品的第二治疗方案；

分析模块，用于按照所述第一治疗方案以及所述第二治疗方案，分析得到所述目标患者的目标治疗方案。

根据本申请的另一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述患者治疗方案的确定方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述患者治疗方案的确定方法。

借由上述技术方案，本申请提供的一种患者治疗方案的确定方法、装置及计算机设备，与目前进行患者诊断的方式相比，本申请通过提出一种可解释的深度强化学习模型DQN的网络结构，以便创建用于处理时序数据的患者分群模型，之后利用样本数据训练患者分群模型，使其达到预设训练标准。再将预设时间段内的目标患者数据输入符合预设训练标准的患者分群模型中，即可获取得到目标分群结果，进而可利用目标群组内的人群特征确定出目标患者的第一治疗方案；进一步为了增强诊断安全性，还可基于目标患者数据确定出目标患者的禁忌药品，以便从第一治疗方案中筛选出包含禁忌药品的第二治疗方案；最后可利用第一治疗方案以及第二治疗方案，分析得到适用于目标患者的目标治疗方案。此外，在本申请中，可实现对患者治疗方案的数字化处理，将预期奖励值Q的计算过程扩展为一个时序结构，可考虑更多的信息，并且通过融入人工智能和深度学习算法，可使分析结果更加准确。还在计算预期奖励值的过程中加入Attention机制，能够实现对患者特征的可解释性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种患者治疗方案的确定方法的流程示意图；

图2示出了本申请实施例提供的另一种患者治疗方案的确定方法的流程示意图；

图3示出了本申请实施例提供的一种患者分群模型的网络结构图；

图4示出了本申请实施例提供的一种患者治疗方案的确定装置的结构示意图；

图5示出了本申请实施例提供的另一种患者治疗方案的确定装置的结构示意图。

具体实施方式

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对在将深度强化学习技术应用于患者诊断时，对特征贡献的可解释性弱，且分析结果不够准确的问题，本申请实施例提供了一种患者治疗方案的确定方法，如图1所示，该方法包括：

101、基于深度强化学习DQN创建用于处理时序数据的患者分群模型。

对于本实施例，旨在通过对传统的深度强化学习DQN模型进行改进，将模型扩展为时序模型，并加入Attention机制，利用改进后的DQN模型进行对患者分群的处理，以便能用于处理时序数据，且能够实现对患者特征的可解释性。

102、利用标记好分群结果的样本数据训练患者分群模型，以使患者分群模型符合预设训练标准。

在具体的应用场景中，可通过预先设定分群决策规则，并基于分群决策规则确定样本数据对应所属的群组，进而将分群结果以类似打标签的形式标注至对应的样本数据中，用于作为校验参照，对患者分群模型针对样本数据输出的结果进行校验，进而判定患者分群模型的训练状态，若判定患者分群模型的输出结果与标注结果误差较小，则可判定患者分群模型符合预设训练标准。

103、将预设时间段内的目标患者数据输入符合预设训练标准的患者分群模型，获取得到目标患者所属的目标群组。

其中，预设时间段可根据实际应用需求进行设定，如可设定预设时间段为包含当前时刻的前一个月内，对应的历史目标患者数据为在该预设时间段内记录的一个或多个关于目标患者的随访数据。

对于本实施例，在具体的应用场景中，由于在将患者的单次随访信息作为输入时，单次随访信息很难完全表示患者的长期随访状态，进而容易导致分析结果不够准确。故在本实施例中，在将当前时刻的患者随访数据作为输入之外，还可将预设时间段内存在的所有历史患者随访数据作为输入，通过整合各个患者随访数据的输出结果，确定出最终相对较为准确的目标分群结果。此外，还可以基于Attention机制，解释每个时间点中的每个特征对分群结果的贡献度、关注系数、贡献比例等。

104、基于目标群组内的人群特征确定目标患者的第一治疗方案。

在具体的应用场景中，在对目标患者数据进行群组划分后，可进一步基于该群组内的人群信息，确定出与目标患者对应人群特征相似度较高的患者，以便基于该患者已生成的治疗方案，筛选出可供目标患者选取的第一治疗方案。

105、依据目标患者数据提取目标患者的禁忌药品，并从第一治疗方案中筛选出包含禁忌药品的第二治疗方案。

对于本实施例，在具体的应用场景中，由于不同的患者可能存在对应不同的禁忌药品，故应该首先提取出目标患者的禁忌药品，从而在第一治疗方案中筛选出包含对应禁忌药品的第二治疗方案，以便在最终生成治疗方案推荐时，不考虑第二治疗方案。

106、按照第一治疗方案以及第二治疗方案，分析得到目标患者的目标治疗方案。

对于本实施例，在具体的应用场景中，在确定出第一治疗方案以及第二治疗方案后，会在第一治疗方案中剔除第二治疗方案，并将剔除后的第一治疗方案确定为目标患者的目标治疗方案，在本实施例中，考虑到药品禁忌因素，从而能够保证患者治疗的安全性。

通过本实施例中患者治疗方案的确定方法，通过提出一种改进深度强化学习模型DQN的网络结构，以便创建用于处理时序数据的患者分群模型，之后利用样本数据训练患者分群模型，使其达到预设训练标准。再将预设时间段内的目标患者数据输入符合预设训练标准的患者分群模型中，即可获取得到目标分群结果，进而可利用目标群组内的人群特征确定出目标患者的第一治疗方案；进一步为了增强诊断安全性，还可基于目标患者数据确定出目标患者的禁忌药品，以便从第一治疗方案中筛选出包含禁忌药品的第二治疗方案；最后可利用第一治疗方案以及第二治疗方案，分析得到适用于目标患者的目标治疗方案。此外，在本申请中，可实现对患者治疗方案的数字化处理，将预期奖励值Q的计算过程扩展为一个时序结构，可考虑更多的信息，并且通过融入人工智能和深度学习算法，可使分析结果更加准确。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种患者治疗方案的确定方法，如图2所示，该方法包括：

201、基于深度强化学习DQN创建用于处理时序数据的患者分群模型。

对于本实施例，在具体的应用场景中，实施例步骤201具体可以包括：将深度强化学习DQN对应网络结构中的最后一个全连接层，拆分成第一全连接层、第二循环神经网络层、第三循环神经网络层；利用更改网络结构后的深度强化学习DQN构建患者分群模型，以便在向患者分群模型输入包含多个时间点的患者数据时，由第一全连接层输出各个时间点对应患者状态的嵌入值，由第二循环神经网络层输出各个时间点对应患者状态的第一关注度，由第三循环神经网络层输出各个时间点对应分群结果的第二关注度，并基于嵌入值、第一关注度以及第二关注度计算患者数据对应各个预设群组的预期奖励值。

例如，如图3所示的患者分群模型的网络结构图，将卷积层提取的抽象特征分流到三个支路中，即将深度强化学习DQN对应网络结构中的最后一个全连接层拆分为：第一全连接层1、第二循环神经网络层2、第三循环神经网络层3，第一全连接层1用于输出各个时间点对应患者状态的嵌入值，第二循环神经网络层2为状态价值函数(value function)，用于输出各个时间点对应患者状态的第一关注度，第三循环神经网络层3为动作优势函数(advantage function)，用于输出各个时间点对应分群结果的第二关注度。

在具体的应用场景中，为了在利用样本数据训练患者分群模型时，能够监测患者分群模型的训练状态，故需要预先对样本数据进行所属群组的标记，具体包括：依据预设分组决策规则对样本数据进行分群处理，获取得到各个样本数据对应的分群结果；基于分群结果标记样本数据。

其中，预设分组决策规则可根据实际需求进行设定，如设定分群决策规则可按照患者个人特征信息，并结合检查指标信息来进行划分。在进行群组划分时，可将患者个人特征信息相似度较高且包含相同检查指标以及相同检查结果的患者划分为一个群组。

202、将当前时间点和历史时间点下的样本数据，输入患者分群模型，获取得到预设数量个群组，以及各个样本数据对应各个群组的预期奖励值。

其中，样本数据为包含当前时间点以及预设数量个历史时间点的时序数据，可包括当前时刻以及历史时刻内的患者数据信息，患者数据信息可为个人身份信息(如姓名、性别、年龄等)、治疗方案信息(用药组合、用药周期、用药量等)、检查指标信息(如血糖、血压、心电图等检查指标以及对应的检查结果等)等；预期奖励值是在计算同一时间点下第一关注度与第二关注度的第一加和，以及第一加和与嵌入值的乘积后，通过累加当前时间点和历史时间点下的乘积得到的。

例如，如图3所示的患者分群模型的网络结构图，若向患者分群模型输入样本数据对应的当前患者状态(s₃)加上历史两个时间点的患者状态(s₁、s₂)，经过患者分群模型中的全连接层和两个循环神经网络层，即可得到第一全连接层输出的各个时间点的e(e₁，e₂，e₃)，第二循环神经网络层输出的各个时间点的V(V₁、V₂、V₃)，第三循环神经网络层输出的各个时间点的A(A₁、A₂、A₃)，之后利用同一时间步骤中的V和A相加，再与e进行element-wise相乘后累加计算当前状态的Q值(Q₃)。其中，V表示每个时间点对应患者状态的关注度；A表示每个时间点的对应患者状态的关注度；e表示患者状态的嵌入表示。各层的计算公式为：

h_V1,h_V2,h_V3＝LSTM-V(s₁,s₂,s₃)

h_A1,h_A2,h_A3＝LSTM-A(s₁,s₂,s₃)

A₁,A₂,A₃＝(W_Ah_A1,W_Ah_A2,W_Ah_A3)

v₁,v₂,v₃＝(W_Is₁,W_Is₂,W_Is₃)

e₁,e₂,e₃＝(W_IIv₁,W_IIv₂,W_IIv₃)

Q₃＝(e₁O(V₁+A₁)+e₂O(V₂+A₂)+e₃O(V₃+A₃)

其中，s_i、h_vi、w_v、h_Ai、A_i、v_i、e_i、Q₃为向量，V_i为标量，W_A、W_I、W_II为矩阵，O表示元素对应相乘。

需要说明的是，在本申请中，还融入了Attention机制，进而能够实现对患者特征的可解释性。其中，模型决策的解释方法可为：通过输入的所有s_i可正向推导出各个时间点中的各个患者特征对最终Q值的贡献。

根据预期奖励值(Q₃)的计算公式：

Q₃＝(e₁O(V₁+A₁)+e₂O(V₂+A₂)+e₃O(V₃+A₃))

＝(W_IIW_Is₁O(V₁+A₁)+W_IIW_Is₂O(V₂+A₂)+W_IIW_Is₃O(V₃+A₃))

可见，第i个时间点的第j个特征对第k个Q值的重要性为：

w(i,j,k)＝(V_i+A_i[k])*(W_II[K]·W_I[j])*s_i[j]

其中，(V_i+A_i[k])*(W_II[k]·W_I[j])即为贡献的系数，关注度。

203、提取样本数据对应的标记群组，将标记群组对应输出的第一预期奖励值确定为患者分群模型的训练输出结果。

对于本实施例，在具体的应用场景中，每个样本数据均对应唯一一个标记群组，在将样本数据输入患者分群模型中，会得到对应各个预设群组下的预期奖励值，为了验证患者分群模型的训练进程，故仅需要提取出标记群组对应输出的第一预期奖励值，并将第一预期奖励值确定为患者分群模型的训练输出结果。

204、计算第一预期奖励值与真实预期奖励值的均方差损失，若依据均方差损失判定损失函数达到收敛状态，则确定患者分群模型符合预设训练标准。

其中，第一预期奖励值为标记群组对应输出当前患者状态下的预期奖励值，真实预期奖励值为下一患者状态下最大的预期奖励值+实际得到的奖励(reward)，进一步计算得到的，即对应标记群组的真实预期奖励值。

对于本实施例，在具体的应用场景中，在提取出第一预期奖励值后，需要依据第一预期奖励值与真实预期奖励值计算均方差损失，进一步确定损失函数是否达到收敛状态，当损失函数达到收敛状态时，即可确定患者分群模型符合预设训练标准。

205、若判定损失函数未达到收敛状态，则利用样本数据重复训练患者分群模型，以使患者分群模型符合预设训练标准。

相应的，若判定损失函数未达到收敛状态，即可确定患者分群模型未训练成功，应利用样本数据重复上述训练步骤，以使患者分群模型符合预设训练标准。

206、将预设时间段内的目标患者数据输入符合预设训练标准的患者分群模型，获取得到目标患者所属的目标群组。

其中，当目标患者信息为时序数据时，需要将当前时刻以及历史时刻的所有目标患者信息输入患者分群模型中，获取得到分群结果；当目标患者信息不是时序数据时，仅需要将当前时刻的目标患者信息输入患者分群模型中，并将患者分群模型中历史时间点对应的参数值设置为0，即可获取得到分群结果。

对于本实施例，在具体的应用场景中，当目标患者信息为时序数据时，实施例步骤206具体可以包括：提取预设时间段内目标患者的历史患者随访数据以及当前患者随访数据；将历史患者随访数据以及当前患者随访数据，输入符合预设训练标准的患者分群模型中，获取得到对应各个预设群组下的预期奖励值；将预期奖励值最大的预设群组确定为目标患者对应的目标群组。

207、基于目标群组内的人群特征确定目标患者的第一治疗方案。

对于本实施例，在具体的应用场景中，为了确定出目标患者的第一治疗方案，实施例步骤207具体可以包括：根据目标患者数据在目标群组中筛选与目标患者对应人群特征相似度大于第一预设阈值的第一患者，人群特征至少包括病情信息及个人信息；提取第一患者对应的治疗方案，以及治疗方案关于治疗效果的分数值，将分数值大于第二预设阈值的治疗方案确定为第一治疗方案；或获取依据目标群组的人群特征创建的预设治疗方案，并将预设治疗方案确定为第一治疗方案。

其中，目标群组中包含多个样本患者的数据信息，其中数据信息除了包含样本患者的个人身份信息、检查指标信息、诊断结果信息等多个维度的特征信息之外，还可包括治疗效果的分数信息以及治疗方案信息，如用药组合、用药周期、用药量等；第一预设阈值和第二预设阈值均为大于0且小于等于1的数据，具体数值可根据具体应用场景进行设定，需要说明的是，当第一预设阈值设定的数值越接近1，则可说明筛选出的第一患者与目标患者的特征相似度越高；当第二预设阈值设定的数值越接近1，则可说明筛选出的第一治疗方案，经患者反馈的治疗效果越好。

在具体的应用场景中，在完成对目标患者的分群后，可预先在目标患者信息中提取出目标患者的个人身份信息、检查指标信息、诊断结果信息等多个维度的特征信息，进而在目标群组中筛选出与目标患者的特征信息匹配度大于第一预设阈值的第一患者，进而提取第一患者对应治疗效果的分数值大于第二预设阈值的治疗方案，并将该治疗方案确定为第一治疗方案。

例如，根据目标患者数据在目标群组中筛选与目标患者对应人群特征相似度大于第一预设阈值的第一患者包括：A、B、C、D四个第一患者，其中第一患者A对应的用药组合为a+c+d，第一患者B对应的用药组合为a+c+e，第一患者C对应的用药组合为a+b+c，第一患者D对应的用药组合为a+c+d，通过统计可发现共包含a+c+d、a+c+e以及a+b+c三个不重合治疗方案，进而获取这三个方案关于治疗效果的分数值，例如获取a+c+d这一治疗方案对应的分数值为0.75，a+b+e这一治疗方案对应的分数值为0.91，a+b+c这一治疗方案对应的分数值为0.88，若设定的第二预设阈值为0.85，则可确定筛选出的第一治疗方案包括a+b+e、a+b+c。

相应地，作为本实施例中的另一种可选方式，还可预先根据目标群组中的人群特征以及医师诊断结果事先确定各个目标群组对应的预设治疗方案，如对于目标群组中的患者为儿童，且对应的医师诊断结果为疾病a，并且普遍采用的治疗方案包括A、B时，此时可直接将治疗方案A、B确定为目标群组对应的预设治疗方案，在判定目标患者属于该目标群组时，即可将治疗方案A、B确定确定为目标患者对应的第一治疗方案。

208、依据目标患者数据提取目标患者的禁忌药品，并从第一治疗方案中筛选出包含禁忌药品的第二治疗方案。

对于本实施例，在具体的应用场景中，为了确定得到包含目标患者所禁忌药品的第二治疗方案，实施例步骤208具体可以包括：根据用药禁忌数据确定目标患者对应人群类型不适于服用的第一禁忌药品；依据目标患者数据中的药物过敏史，确定目标患者存在过敏反应的第二禁忌药品；将包含第一禁忌药品和/或第二禁忌药品的第一治疗方案确定为第二治疗方案。

例如，目标患者为孕妇时，目标患者的第一禁忌药品可对应孕妇禁用药品；目标患者为青霉素过敏人群时，则可确定青霉素类药物为目标患者的第二禁忌药品。

209、按照第一治疗方案以及第二治疗方案，分析得到目标患者的目标治疗方案。

对于本实施例，在具体的应用场景中，实施例步骤209具体可以包括：将第一治疗方案中剔除第二治疗方案，得到目标治疗方案。

例如，从能够治疗目标患者所属疾病的第一治疗方案中剔除该人群所禁用的第二治疗方案，就可得到适合该人群健康的治疗方案有哪些，使用这些治疗方案即可有效治疗该人群的疾病。

通过上述患者治疗方案的确定方法，通过提出一种可解释的深度强化学习模型DQN的网络结构，以便创建用于处理时序数据的患者分群模型，之后利用样本数据训练患者分群模型，使其达到预设训练标准。再将预设时间段内的目标患者数据输入符合预设训练标准的患者分群模型中，即可获取得到目标分群结果，进而可利用目标群组内的人群特征确定出目标患者的第一治疗方案；进一步为了增强诊断安全性，还可基于目标患者数据确定出目标患者的禁忌药品，以便从第一治疗方案中筛选出包含禁忌药品的第二治疗方案；最后可利用第一治疗方案以及第二治疗方案，分析得到适用于目标患者的目标治疗方案。此外，在本申请中，可实现对患者治疗方案的数字化处理，将预期奖励值Q的计算过程扩展为一个时序结构，可考虑更多的信息，并且通过融入人工智能和深度学习算法，可使分析结果更加准确。此外，还在计算预期奖励值的过程中加入Attention机制，能够实现一定程度的可解释性。

进一步的，作为图1和图2所示方法的具体体现，本申请实施例提供了一种患者治疗方案的确定装置，如图4所示，该装置包括：创建模块31、训练模块32、输入模块33、确定模块34、提取模块35、分析模块36。

创建模块31，可用于基于深度强化学习DQN创建用于处理时序数据的患者分群模型；

训练模块32，可用于利用标记好分群结果的样本数据训练患者分群模型，以使患者分群模型符合预设训练标准；

输入模块33，可用于将预设时间段内的目标患者数据输入符合预设训练标准的患者分群模型，获取得到目标分群结果；

确定模块34，可用于将预设时间段内的目标患者数据输入符合预设训练标准的患者分群模型，获取得到目标患者所属的目标群组；

提取模块35，可用于依据目标患者数据提取目标患者的禁忌药品，并从第一治疗方案中筛选出包含禁忌药品的第二治疗方案；

分析模块36，可用于按照第一治疗方案以及第二治疗方案，分析得到目标患者的目标治疗方案。

在具体的应用场景中，为了创建用于处理时序数据的患者分群模型，如图5所示，创建模块31，具体可包括：拆分单元311、构建单元312；

拆分单元311，可用于将深度强化学习DQN对应网络结构中的最后一个全连接层，拆分成第一全连接层、第二循环神经网络层、第三循环神经网络层；

构建单元312，可用于利用更改网络结构后的深度强化学习DQN构建患者分群模型，以便在向患者分群模型输入包含多个时间点的患者数据时，由第一全连接层输出各个时间点对应患者状态的嵌入值，由第二循环神经网络层输出各个时间点对应患者状态的第一关注度，由第三循环神经网络层输出各个时间点对应分群结果的第二关注度，并基于嵌入值、第一关注度以及第二关注度计算患者数据对应各个预设群组的预期奖励值。

相应的，为了训练得到符合预设训练标准的患者分群模型，如图5所示，训练模块32，具体可包括：第一输入单元321、第一提取单元322、计算单元323、训练单元324；

第一输入单元321，可用于将当前时间点和历史时间点下的样本数据，输入患者分群模型，获取得到预设数量个群组，以及各个样本数据对应各个群组的预期奖励值，预期奖励值是在计算同一时间点下第一关注度与第二关注度的第一加和，以及第一加和与嵌入值的乘积后，通过累加当前时间点和历史时间点下的乘积得到的；

第一提取单元322，可用于提取样本数据对应的标记群组，将标记群组对应输出的第一预期奖励值确定为患者分群模型的训练输出结果；

计算单元323，可用于计算第一预期奖励值与真实预期奖励值的均方差损失，若基于均方差损失判定损失函数达到收敛状态，则确定患者分群模型符合预设训练标准；

训练单元324，可用于若判定损失函数未达到收敛状态，则利用样本数据重复训练患者分群模型，以使患者分群模型符合预设训练标准。

在具体的应用场景中，为了确定目标患者对应所属的目标群组，如图5所示，输入模块33，具体可包括：第二提取单元331、第二输入单元332、第一确定单元333；

第二提取单元331，可用于提取预设时间段内目标患者的历史患者随访数据以及当前患者随访数据；

第二输入单元332，可用于将历史患者随访数据以及当前患者随访数据，输入符合预设训练标准的患者分群模型中，获取得到对应各个预设群组下的预期奖励值；

第一确定单元333，可用于将预期奖励值最大的预设群组确定为目标患者对应的目标群组。

在具体的应用场景中，为了基于目标分群结果确定出目标患者的第一治疗方案，如图5所示，确定模块34，具体可包括：筛选单元341、第二确定单元342；

筛选单元341，可用于根据目标患者数据在目标群组中筛选与目标患者对应人群特征相似度大于第一预设阈值的第一患者，人群特征至少包括病情信息及个人信息；

第二确定单元342，可用于提取第一患者对应的治疗方案，以及治疗方案关于治疗效果的分数值，将分数值大于第二预设阈值的治疗方案确定为第一治疗方案；或

第二确定单元342，还可用于获取依据目标群组的人群特征创建的预设治疗方案，并将预设治疗方案确定为第一治疗方案。

在具体的应用场景中，为了从第一治疗方案中筛选出包含目标患者的禁忌药品的第二治疗方案，如图5所示，提取模块35，具体可包括：第三确定单元351；

第三确定单元351，可用于根据用药禁忌数据确定目标患者对应人群类型不适于服用的第一禁忌药品；

第三确定单元351，还可用于依据目标患者数据中的药物过敏史，确定目标患者存在过敏反应的第二禁忌药品；

第三确定单元351，还可用于将包含第一禁忌药品和/或第二禁忌药品的第一治疗方案确定为第二治疗方案。

相应的，为了分析得到目标患者的目标治疗方案，如图5所示，分析模块36，具体可包括：剔除单元361；

剔除单元361，可用于将第一治疗方案中剔除第二治疗方案，得到目标治疗方案。

需要说明的是，本实施例提供的一种患者治疗方案的确定装置所涉及各功能单元的其它相应描述，可以参考图1至图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的患者治疗方案的确定方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1、图2所示的方法，以及图4、图5所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的患者治疗方案的确定方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性可读存储介质中还可以包括操作***、网络通信模块。操作***是文本语义相似度的分析实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可通过提出一种可解释的深度强化学习模型DQN的网络结构，以便创建用于处理时序数据的患者分群模型，之后利用样本数据训练患者分群模型，使其达到预设训练标准。再将预设时间段内的目标患者数据输入符合预设训练标准的患者分群模型中，即可获取得到目标分群结果，进而可利用目标群组内的人群特征确定出目标患者的第一治疗方案；进一步为了增强诊断安全性，还可基于目标患者数据确定出目标患者的禁忌药品，以便从第一治疗方案中筛选出包含禁忌药品的第二治疗方案；最后可利用第一治疗方案以及第二治疗方案，分析得到适用于目标患者的目标治疗方案。此外，在本申请中，可实现对患者治疗方案的数字化处理，将预期奖励值Q的计算过程扩展为一个时序结构，可考虑更多的信息，并且通过融入人工智能和深度学习算法，可使分析结果更加准确。此外，还在计算预期奖励值的过程中加入Attention机制，能够实现一定程度的可解释性。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种患者治疗方案的确定方法，其特征在于，包括：

按照所述第一治疗方案以及所述第二治疗方案，分析得到所述目标患者的目标治疗方案；

所述基于深度强化学习DQN创建用于处理时序数据的患者分群模型，具体包括：

将深度强化学习DQN对应网络结构中的最后一个全连接层，拆分成第一全连接层、第二循环神经网络层、第三循环神经网络层；

利用更改网络结构后的所述深度强化学习DQN构建患者分群模型，以便在向所述患者分群模型输入包含多个时间点的患者数据时，由所述第一全连接层输出各个时间点对应患者状态的嵌入值，由所述第二循环神经网络层输出各个时间点对应患者状态的第一关注度，由所述第三循环神经网络层输出各个时间点对应分群结果的第二关注度，并基于所述嵌入值、所述第一关注度以及所述第二关注度计算所述患者数据对应各个预设群组的预期奖励值；

其中，所述预期奖励值是在计算同一时间点下所述第一关注度与所述第二关注度的第一加和，以及所述第一加和与所述嵌入值的乘积后，通过累加当前时间点和历史时间点下的所述乘积得到的。

2.根据权利要求1所述的方法，其特征在于，所述样本数据为包含当前时间点以及预设数量个历史时间点的时序数据；

所述利用标记好分群结果的样本数据训练所述患者分群模型，以使所述患者分群模型符合预设训练标准，具体包括：

将所述当前时间点和所述历史时间点下的样本数据，输入所述患者分群模型，获取得到预设数量个群组，以及各个样本数据对应各个群组的预期奖励值；

提取所述样本数据对应的标记群组，将所述标记群组对应输出的第一预期奖励值确定为所述患者分群模型的训练输出结果；

计算所述第一预期奖励值与真实预期奖励值的均方差损失，若基于所述均方差损失判定损失函数达到收敛状态，则确定所述患者分群模型符合预设训练标准；

若判定所述损失函数未达到收敛状态，则利用所述样本数据重复训练所述患者分群模型，以使所述患者分群模型符合所述预设训练标准。

3.根据权利要求2所述的方法，其特征在于，所述将预设时间段内的目标患者数据输入符合所述预设训练标准的患者分群模型，获取得到目标患者所属的目标群组，具体包括：

提取预设时间段内目标患者的历史患者随访数据以及当前患者随访数据；

将所述历史患者随访数据以及所述当前患者随访数据，输入符合所述预设训练标准的患者分群模型中，获取得到对应各个预设群组下的预期奖励值；

将所述预期奖励值最大的预设群组确定为目标患者对应的目标群组。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标群组内的人群特征确定所述目标患者的第一治疗方案，具体包括：

根据所述目标患者数据在所述目标群组中筛选与所述目标患者对应人群特征相似度大于第一预设阈值的第一患者，所述人群特征至少包括病情信息及个人信息；

提取所述第一患者对应的治疗方案，以及所述治疗方案关于治疗效果的分数值，将所述分数值大于第二预设阈值的治疗方案确定为第一治疗方案；或

获取依据所述目标群组的人群特征创建的预设治疗方案，并将所述预设治疗方案确定为所述第一治疗方案。

5.根据权利要求4所述的方法，其特征在于，所述依据所述目标患者数据提取所述目标患者的禁忌药品，并从所述第一治疗方案中筛选出包含所述禁忌药品的第二治疗方案，具体包括：

根据用药禁忌数据确定所述目标患者对应人群类型不适于服用的第一禁忌药品；

依据所述目标患者数据中的药物过敏史，确定所述目标患者存在过敏反应的第二禁忌药品；

将包含所述第一禁忌药品和/或所述第二禁忌药品的第一治疗方案确定为第二治疗方案。

6.根据权利要求5所述的方法，其特征在于，所述按照所述第一治疗方案以及所述第二治疗方案，分析得到所述目标患者的目标治疗方案，具体包括：

将所述第一治疗方案中剔除所述第二治疗方案，得到所述目标治疗方案。

7.一种患者治疗方案的确定装置，其特征在于，包括：

分析模块，用于按照所述第一治疗方案以及所述第二治疗方案，分析得到所述目标患者的目标治疗方案；

所述创建模块，具体可包括：拆分单元、构建单元；

所述拆分单元，可用于将深度强化学习DQN对应网络结构中的最后一个全连接层，拆分成第一全连接层、第二循环神经网络层、第三循环神经网络层；

所述构建单元，可用于利用更改网络结构后的所述深度强化学习DQN构建患者分群模型，以便在向所述患者分群模型输入包含多个时间点的患者数据时，由所述第一全连接层输出各个时间点对应患者状态的嵌入值，由所述第二循环神经网络层输出各个时间点对应患者状态的第一关注度，由所述第三循环神经网络层输出各个时间点对应分群结果的第二关注度，并基于所述嵌入值、所述第一关注度以及所述第二关注度计算所述患者数据对应各个预设群组的预期奖励值；

8.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6中任一项所述的患者治疗方案的确定方法。

9.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6中任一项所述的患者治疗方案的确定方法。