CN116759041B

CN116759041B - 一种考虑诊疗事件关系的医疗时序数据生成方法及装置

Info

Publication number: CN116759041B
Application number: CN202311057070.6A
Authority: CN
Inventors: 徐铭鸿; 李劲松; 池胜强; 周天舒; 田雨
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-12-22
Anticipated expiration: 2043-08-22
Also published as: CN116759041A

Abstract

本发明公开了一种考虑诊疗事件关系的医疗时序数据生成方法，包括：基于患者就诊信息获取诊疗事件集合和就诊集合；采用训练好的就诊自编码器模型的编码器、就诊长短期记忆自编码器模型、就诊长短期记忆自编码器模型解码器辅助的生成对抗网络获取重构的就诊嵌入表示，将重构的就诊嵌入表示输入到训练好的就诊自编码器模型的解码器获取重构的就诊多热编码，根据重构的就诊多热编码得到重构的就诊中包含的诊疗事件，最终输出带有时序信息且包含多个诊疗事件的医疗数据。本发明还公开了一种考虑诊疗事件关系的医疗时序数据生成装置。本发明方法可以获取融合时序信息且包含丰富的诊疗事件的医疗数据，同时减少了生成数据出现逻辑不合理的情况。

Description

一种考虑诊疗事件关系的医疗时序数据生成方法及装置

技术领域

本发明属于医疗健康信息技术领域，尤其涉及一种考虑诊疗事件关系的医疗时序数据生成方法及装置。

背景技术

电子健康记录(EHR)数据为医学研究的进步提供了有力支持。然而，由于医疗数据涉及患者隐私，直接使用真实数据可能导致患者隐私泄露，因此EHR数据的访问和协作使用往往会受到监管和限制。为了保护患者隐私，同时为医学研究提供数据支持，特别是在罕见病、特殊人群或特定地区的研究中，数据往往不足以支持深入分析。合成数据是一种替代方法，通过生成类似原始数据但并非与原始患者记录一对一对应的合成数据，可以避免泄露患者隐私的风险。同时，通过扩展数据集的方法，可提高研究的可靠性和有效性，促进医疗人工智能的应用，提升医疗服务的智能水平。

现有的医疗数据生成方法主要有：（1）传统方法：不使用数据建模生成合成数据，通过替换值、删除敏感属性和向数据中添加噪声的方式来生成合成数据，但由于其无法改变合成数据与原始患者记录一对一的关系，因此患者信息容易被推测出。该方法无法达到扩充数据集的目的，只能基于原有数据集进行修改。（2）基于统计机器学习的方法：使用已知的医学数据集训练一个统计概率模型或机器学习模型，并对医疗数据进行模拟。该类方法用于生成分类和数值数据，无法生成时间序列数据。并且表征能力有限，严重依赖特定领域的知识以及实际数据。（3）基于深度学习的方法：是目前最为先进的技术之一，主要运用生成对抗性网络（GAN）模型生成数据，通过生成器和辨别器的对抗用患者数据进行训练，训练完成后输入随机噪声生成数据。该方法主要集中于医学图像、临床文本生成，缺少关于患者就诊的高维离散数据生成，并且缺少对患者按时间顺序的医疗状况的研究。

授权公告号为CN 109698017 B的发明专利公开了一种医疗病历数据生成方法及装置，方法包括：获得多个样本病历数据，对各样本病历数据进行处理并编码后输入至预设生成式对抗网络中进行训练以得到医疗病历模型，并采用医疗病历模型生成预设数量的医疗编码数据后进行解码处理以得到预设数量的医疗病历数据。

医疗数据较为复杂，不仅包含用药、手术和诊断等多维数据，且具有复杂的纵向时序信息，患者有多次就诊信息，不同时间有不同的诊疗事件。并且多次就诊之间有明显的时间顺序，而单次就诊中的诊疗事件时间顺序不明显。现有方法难以生成这样复杂的纵向电子病历数据，无法生成丰富的诊疗事件，且生成数据不能包含不同就诊数据之间的时序信息。此外，现有方法生成的医疗数据可能逻辑不妥，例如，（胆固醇=60.1，糖尿病=1）是逻辑不妥的记录，因为胆固醇水平过低，无法诊断为糖尿病。

授权公告号为CN 115359870 B的发明专利公开了一种基于层次图神经网络的疾病诊疗过程异常识别***，包括数据采集模块、数据预处理模块、层次图神经网络构建模块、诊疗过程异常评分计算模块和诊疗过程异常识别应用模块。该发明提出层次图神经网络模型构建和训练方法，对复杂的纵向电子病历数据进行建模分析，实现对时序信息和共现信息的融合利用。该方法主要用于对疾病诊疗过程异常进行识别，并不能生成包含丰富诊疗事件和时序信息的医疗数据。

鉴于上述现有技术的不足，寻找一种考虑诊疗事件关系的医疗时序数据的生成方法来生成包含不同的诊疗事件且带有复杂的纵向时序信息的电子医疗数据具有重要的意义。

发明内容

为解决上述技术问题，本发明提供了一种考虑诊疗事件关系的医疗时序数据生成方法和装置，可以获取融合时序信息且包含丰富的诊疗事件的医疗数据，同时减少了生成数据出现逻辑不合理的情况。

本发明第一个方面提供了一种考虑诊疗事件关系的医疗时序数据生成方法，包括以下步骤：

S1：基于患者就诊信息获取诊疗事件集合和就诊集合；

S2：根据诊疗事件集合和就诊集合获取初始就诊多热编码，将初始就诊多热编码输入到训练好的就诊自编码器模型的编码器部分进行编码降维，获取就诊初始嵌入表示；

S3：将就诊以患者为单位按时间顺序排列为多个就诊序列输入到训练好的就诊长短期记忆自编码器模型，获取第一就诊嵌入表示；利用生成对抗网络获取第二就诊嵌入表示/>，其中所述生成对抗网络的生成器和判别器之间引入就诊长短期记忆自编码器模型解码器；采用/>、/>和/>对生成对抗网络进行优化训练；利用训练好的生成对抗网络获取重构的就诊嵌入表示/>；

S4：将重构的就诊嵌入表示输入到训练好的就诊自编码器模型的解码器部分进行解码，输出重构的就诊多热编码，根据重构的就诊多热编码得到重构的就诊中包含的诊疗事件，最终输出带有时序信息且包含多个诊疗事件的医疗数据。

进一步地，步骤S1中，所述的患者就诊信息包括诊断、实验室检验、手术和用药数据。

进一步地，步骤S1中，基于患者就诊信息获取诊疗事件集合和就诊集合的步骤为：提取采集到的患者就诊信息并对提取的数据进行预处理，获取诊断集合、检验集合、手术集合、用药集合；将诊断集合、检验集合、手术集合和用药集合进行合并构成诊疗事件集合，诊疗事件集合中的元素称为诊疗事件。根据患者的就诊经历将患者的所有就诊构成就诊集合，其中就诊集合中每个元素都代表着一次就诊，这些就诊中包含了一个或多个诊疗事件。

进一步地，提取采集到的患者就诊信息并对提取的数据进行预处理包括将实验室检验数据根据正常参考范围分为偏低、偏高和正常三种结果类别，并保留实验室检验名称和结果类别；手术数据使用简单的自然语言处理技术处理，保留手术名称和相应类别。

进一步地，就诊集合表示为，其中/>表示集合中第/>个就诊，/>表示就诊数量；诊断集合表示为/>，/>表示集合中第个诊断，/>表示诊断数量；检验集合、手术集合和用药集合合并表示为，/>表示合并集合中第/>个诊疗事件，/>表示检验、手术和用药数量总和；/>和/>一起构成诊疗事件集合/>，/>表示集合中第/>个诊疗事件，诊疗事件数量/>。

进一步地，步骤S2中：获取就诊初始嵌入表示的具体步骤为：

S21：用独热编码对诊疗事件进行编码得到诊疗事件的初始独热编码，对每一个就诊，加和其中诊疗事件的初始独热编码得到每个诊疗事件的初始就诊多热编码；

S22：构建就诊自编码器模型并对就诊自编码器模型进行优化训练，利用训练好的就诊自编码器模型对每个诊疗事件的初始就诊多热编码进行编码降维，得到每个诊疗事件的就诊初始嵌入表示，用编码器对所有就诊/>的初始就诊多热编码进行编码降维，得到就诊初始嵌入表示/>。

具体的，步骤S21中，用独热编码对诊疗事件进行编码得到诊疗事件的初始独热编码，每个诊疗事件构建长度为的向量，诊疗事件/>的第/>个对应值为1，其余全部用0填充。对于每个就诊/>，加和其中诊疗事件的初始独热编码得到每个诊疗事件的初始就诊多热编码/>。例如，/>，则/>的多热编码为/>。

进一步地，步骤S22中，所述的就诊自编码器模型分为编码器和解码器两个部分，对所述的就诊自编码器模型进行优化训练的具体步骤为：将就诊/>的初始多热编码/>输入编码器后得到一个潜在向量/>，然后将潜在向量/>作为解码器的输入，解码器使用sigmoid作为最后的激活函数，对潜在向量/>进行解码输出重构的就诊多热编码/>，用重构损失/>对模型进行训练，具体如下：

其中是L2范数。

进一步地，步骤S3中，所述的就诊长短期记忆自编码器模型分为编码器和解码器/>两个部分，通过潜在向量/>相连，编码器和解码器部分都由长短期记忆网络（LSTM）组成。长短期记忆网络是一种循环神经网络，根据不同长度的输入序列相应地改变LSTM循环的次数。

进一步地，步骤S3中，获取重构的就诊嵌入表示的具体步骤为：

S31：将就诊以患者为单位按时间顺序排列为多个就诊序列，得到就诊序列，其中/>的就诊嵌入表示为零向量，用于标识序列开始，就诊/>的就诊初始嵌入表示为/>，所有就诊/>的就诊初始嵌入表示为/>；

S32：构建就诊长短期记忆自编码器模型并对就诊长短期记忆自编码器模型进行优化训练，将就诊序列中的就诊按顺序输入到训练好的就诊长短期记忆自编码器模型，获取重构的就诊序列，重构后就诊/>的第一就诊嵌入表示为，所有就诊/>的第一就诊嵌入表示为/>；

S33：构建就诊长短期记忆自编码器模型解码器辅助的生成对抗网络，将随机噪声输入到就诊长短期记忆自编码器模型解码器辅助的生成对抗网络，得到第二就诊嵌入表示；采用就诊初始嵌入表示/>、第一就诊嵌入表示/>和第二就诊嵌入表示/>对就诊长短期记忆自编码器模型解码器辅助的生成对抗网络进行优化训练，利用训练好的就诊长短期记忆自编码器模型解码器辅助的生成对抗网络获取重构的就诊嵌入表示/>，对应生成的就诊集合/>，其中就诊/>的嵌入表示为/>。

进一步地，步骤S32中，对就诊长短期记忆自编码器模型进行优化训练的具体步骤为：将就诊序列中的就诊按顺序输入编码器/>后得到一个潜在向量/>，然后将潜在向量/>作为解码器/>的初始输入，对潜在向量/>进行解码，解码过程中，每次循环都输入前一次就诊的信息，逐步输出重构的就诊序列，重构后就诊/>的第一就诊嵌入表示为/>，用重构损失对模型进行训练，具体如下：

进一步地，步骤S33中，所述就诊长短期记忆自编码器模型解码器辅助的生成对抗网络由生成器/>和判别器/>组成，中间加入了就诊长短期记忆解码器/>的辅助，生成器接受随机噪声并生成潜在向量，潜在向量经就诊长短期记忆自编码器模型的解码器解码后输入判别器判断输入的真假。所述生成器和判别器都采用神经网络模型，参数分别为/>和/>。

进一步地，步骤S33中，对就诊长短期记忆自编码器模型解码器辅助的生成对抗网络进行训练的具体步骤为：生成器输入随机噪声/>，生成与潜在向量/>维度相同的潜在向量/>；将潜在向量/>输入到训练好的长短期记忆解码器/>，对潜在向量/>进行解码，得到重构的第二就诊嵌入表示/>；将/>、/>和/>都输入判别器判断真假，其中/>作为真实样本，/>和/>作为虚假样本，得到判别器损失/>，将/>输入判别器判断真假并计算生成器损失/>：

其中，是真实就诊嵌入表示/>的分布，/>和/>是重构得到的/>和/>的分布，/>是噪声/>的先验分布，/>代表期望；

根据判别器损失和生成器损失/>分别更新判别器参数/>和生成器参数/>：

其中，是学习率，/>和/>分别是判别器梯度和生成器梯度。

进一步地，步骤S4中，所述的根据重构的就诊多热编码得到重构的就诊中包含的诊疗事件的方法为：设定阈值/>，若重构的就诊多热编码中诊疗事件的编码值大于阈值，则认为就诊中存在对应的诊疗事件。

具体的，就诊的重构的就诊多热编码为/>，对于其中每一个代表诊疗事件的编码值/>（/>），表示重构的就诊多热编码/>中第/>个诊疗事件的编码值，设定阈值/>，如果/>，则就诊/>中存在该诊疗事件。

进一步地，步骤S4中，在根据重构的就诊多热编码得到重构的就诊中包含的诊疗事件之后还包括用知识图谱辅助判断重构的就诊中包含的诊疗事件的合理性。

医学知识图谱是揭示诊疗事件之间关系的语义网络，选用成熟公开的医学知识图谱，图谱节点包括各种诊疗事件，如疾病诊断、药品、检查、检验、手术、症状等。

进一步地，用知识图谱辅助判断重构的就诊中包含的诊疗事件的合理性的方法为：采用知识图谱对训练好的就诊自编码器模型进行进一步优化训练以增强解码器生成数据的合理性。

进一步地，采用知识图谱对训练好的就诊自编码器模型进行进一步优化训练的具体步骤为：将重构的就诊中的诊断与该重构的就诊中的检验、手术和用药数据进行配对得到事件对，计算事件对的得分，根据事件对得分计算医学知识图谱损失，用知识谱图损失对就诊自编码器模型的解码器进行优化训练。

具体的，将诊断与检验、手术和用药/>进行配对，其中/>是就诊/>中的诊断，/>是就诊/>中的检验、手术和用药，得到多组事件对。对于第/>个事件对(/>)，对应编码(/>)，其中/>，/>；将编码相乘得到就诊/>的第/>个事件对得分；根据事件对得分计算医学知识图谱损失/>，用知识谱图损失/>对就诊自编码器模型的解码器/>进行优化训练。

进一步地，根据事件对得分计算医学知识图谱损失的方法如下：对于每一组事件对，在医学知识图谱/>内定位对应节点，根据节点间是否有相连的边计算医学知识图谱损失/>：

本发明第二个方面提供了一种考虑诊疗事件关系的医疗时序数据生成装置，包括：

数据预处理模块：所述数据预处理模块用于基于患者就诊信息获取诊疗事件集合和就诊集合；

初始嵌入表示获取模块：所述初始嵌入表示获取模块用于根据诊疗事件集合和就诊集合获取初始就诊多热编码，将初始就诊多热编码输入到训练好的就诊自编码器模型的编码器部分进行编码降维，获取就诊初始嵌入表示；

就诊嵌入表示生成模块：所述就诊嵌入表示生成模块用于将就诊以患者为单位按时间顺序排列为多个就诊序列输入到训练好的就诊长短期记忆自编码器模型，获取第一就诊嵌入表示；利用生成对抗网络获取第二就诊嵌入表示/>，其中所述生成对抗网络的生成器和判别器之间引入就诊长短期记忆自编码器模型解码器；采用/>、/>和/>对生成对抗网络进行优化训练；利用训练好的生成对抗网络获取重构的就诊嵌入表示/>；

诊疗事件数据生成模块：所述诊疗事件数据生成模块用于将重构的就诊嵌入表示输入到训练好的就诊自编码器模型的解码器部分进行解码，输出重构的就诊多热编码，根据重构的就诊多热编码得到重构的就诊中包含的诊疗事件，最终输出带有时序信息且包含多个诊疗事件的医疗数据。

本发明第三个方面提供了一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的基于考虑诊疗事件关系的医疗时序数据生成方法。

本发明第四个方面提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的考虑诊疗事件关系的医疗时序数据生成方法。

相比于现有技术，本发明至少具备以下有益效果：

（1）本发明的考虑诊疗事件关系的医疗时序数据生成方法，包含了就诊自编码器模型，就诊长短期记忆自编码器模型和生成对抗网络的综合运用，且生成合理就诊嵌入表示后再进行最终诊疗事件数据的生成，使最终生成的医疗数据融合时序信息同时考虑诊疗事件之间的关系；

（2）本发明的考虑诊疗事件关系的医疗时序数据生成方法采用预训练的自编码器模型对诊疗事件编码进行降维，并在后续生成过程中用作诊疗事件生成，包含了诊疗事件之间的关系；

（3）本发明的考虑诊疗事件关系的医疗时序数据生成方法采用就诊长短期记忆自编码器模型获取就诊之间的时间信息，并把就诊长短期记忆自编码器模型和生成对抗网络结合，提升了本发明方法生成时序数据的能力；

（4）本发明的考虑诊疗事件关系的医疗时序数据生成方法采用知识图谱辅助判断数据合理性，减少了生成数据出现逻辑不合理的情况；

（5）本发明的考虑诊疗事件关系的医疗时序数据生成方法只需要输入随机噪声即可生成带有时序信息且包含丰富诊疗事件的医疗数据，不会泄露真实数据。

附图说明

图1为本实施例的考虑诊疗事件关系的医疗时序数据生成方法的流程示意图。

图2为本实施例中就诊自编码器模型获取重构的多热编码的流程示意图。

图3为本实施例对就诊长短期记忆自编码器模型进行优化训练的流程示意图。

图4为本实施例采用知识图谱判断诊疗事件合理性的流程示意图。

图5为本实施例的考虑诊疗事件关系的医疗时序数据生成装置的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1为本实施例的考虑诊疗事件关系的医疗时序数据生成方法的流程示意图，包括以下步骤：

S1：基于患者就诊信息获取诊疗事件集合和就诊集合。

所述患者就诊信息包括诊断、实验室检验、手术和用药数据。

具体的，基于患者就诊信息获取诊疗事件集合和就诊集合的步骤为：提取采集到的患者就诊信息并对提取的数据进行预处理，获取诊断集合、检验集合、手术集合、用药集合；将诊断集合、检验集合、手术集合和用药集合进行合并构成诊疗事件集合，诊疗事件集合中的元素称为诊疗事件。根据患者的就诊经历将患者的所有就诊构成就诊集合，其中就诊集合中每个元素都代表着一次就诊，这些就诊中包含了一个或多个诊疗事件。

具体的，提取采集到的患者就诊信息并对提取的数据进行预处理包括将实验室检验数据根据正常参考范围分为偏低、偏高和正常三种结果类别，并保留实验室检验名称和结果类别；手术数据使用简单的自然语言处理技术处理，保留手术名称和相应类别。

具体的，就诊集合表示为，其中/>表示集合中第/>个就诊，/>表示就诊数量；诊断集合表示为/>，/>表示集合中第/>个诊断，/>表示诊断数量；检验集合、手术集合和用药集合合并表示为，/>表示合并集合中第/>个诊疗事件，/>表示检验、手术和用药数量总和；/>和/>一起构成诊疗事件集合/>，/>表示集合中第/>个诊疗事件，诊疗事件数量/>。

S2：根据诊疗事件集合和就诊集合获取初始就诊多热编码，将初始就诊多热编码输入到训练好的就诊自编码器模型的编码器部分进行编码降维，获取就诊初始嵌入表示。

具体的，获取就诊初始嵌入表示的具体步骤为：

具体的，步骤S22中，所述的就诊自编码器模型分为编码器和解码器/>两个部分。对所述的就诊自编码器模型进行优化训练的具体步骤为：将就诊/>的初始多热编码/>输入编码器后得到一个潜在向量/>，然后将潜在向量/>作为解码器的输入，解码器使用sigmoid作为最后的激活函数，对潜在向量/>进行解码输出重构的就诊多热编码（如图2所示），用重构损失/>对模型进行训练，具体如下：

其中是L2范数。

S3：将就诊以患者为单位按时间顺序排列为多个就诊序列输入到训练好的就诊长短期记忆自编码器模型，获取第一就诊嵌入表示；利用生成对抗网络获取第二就诊嵌入表示/>，其中所述生成对抗网络的生成器和判别器之间引入就诊长短期记忆自编码器模型解码器；采用/>、/>和/>对生成对抗网络进行优化训练；利用训练好的生成对抗网络获取重构的就诊嵌入表示/>。

具体的，所述的就诊长短期记忆自编码器模型分为编码器和解码器两个部分，通过潜在向量/>相连，每个部分都由长短期记忆网络（LSTM）组成。长短期记忆网络是一种循环神经网络，根据不同长度的输入序列相应地改变LSTM循环的次数。

具体的，获取重构的就诊嵌入表示的具体步骤为：

图3为对就诊长短期记忆自编码器模型进行优化训练的流程示意图，包括：将就诊序列中的就诊按顺序输入编码器/>后得到一个潜在向量/>，然后将潜在向量/>作为解码器/>的初始输入，对潜在向量/>进行解码，解码过程中，每次循环都输入前一次就诊的信息，逐步输出重构的就诊序列，重构后就诊/>的第一就诊嵌入表示为/>，用重构损失/>对模型进行训练，具体如下：

具体的，步骤S33中，所述生成对抗网络由生成器和判别器/>组成，中间加入了就诊长短期记忆解码器/>的辅助，生成器接受随机噪声并生成潜在向量，潜在向量经就诊长短期记忆自编码器模型的解码器解码后输入判别器判断输入是真实的还是虚假的。所述生成器和判别器都采用神经网络模型，参数分别为/>和/>。

具体的，步骤S33中，对就诊长短期记忆自编码器模型解码器辅助的生成对抗网络进行训练的具体步骤为：生成器输入随机噪声/>，生成与潜在向量/>维度相同的潜在向量/>；将潜在向量/>输入到训练好的长短期记忆解码器/>，对潜在向量/>进行解码，得到重构的第二就诊嵌入表示/>；将/>、/>和/>都输入判别器判断真假，其中/>作为真实样本，/>和/>作为虚假样本，得到判别器损失/>，将/>输入判别器判断真假并计算生成器损失/>：

其中，是学习率，/>和/>分别是判别器梯度和生成器梯度。

所述根据重构的就诊多热编码得到重构的就诊中包含的诊疗事件的方法为：设定阈值/>，若重构的就诊多热编码中诊疗事件的编码值大于阈值/>，则认为就诊中存在对应的诊疗事件。

具体的，就诊的重构的就诊多热编码为/>，对于其中每一个代表诊疗事件的编码值/>（/>）表示重构的就诊多热编码/>中第/>个诊疗事件的编码值，设定阈值，如果/>，则就诊/>中存在该诊疗事件。

在本发明的一个实施例中，步骤S4中，在根据重构的就诊多热编码得到重构的就诊中包含的诊疗事件之后还包括用知识图谱辅助判断重构的就诊中包含的诊疗事件的合理性。采用知识图谱判断诊疗事件合理性的流程示意图如图4所示。

具体的，用知识图谱辅助判断重构的就诊中包含的诊疗事件的合理性的方法为：采用知识图谱对训练好的就诊自编码器模型进行进一步优化训练以增强解码器生成数据的合理性。

具体的，采用知识图谱对训练好的就诊自编码器模型进行进一步优化训练的具体步骤为：将重构的就诊中的诊断与该重构的就诊中的检验、手术和用药数据进行配对得到事件对，计算事件对的得分，根据事件对得分计算医学知识图谱损失，用知识谱图损失对就诊自编码器模型的解码器进行优化训练。

具体的，将诊断与检验、手术和用药/>进行配对，其中/>是就诊/>中的诊断，/>是就诊/>中的检验、手术和用药，得到/>组事件对。对于第/>个事件对()，对应编码为(/>)，其中/>，/>；将编码相乘得到就诊/>的第/>个事件对得分/>；根据事件对得分计算医学知识图谱损失/>，用知识谱图损失对就诊自编码器模型的解码器/>进行优化训练。

具体的，根据事件对得分计算医学知识图谱损失的方法如下：对于每一组事件对，在医学知识图谱/>内定位对应节点，根据节点间是否有相连的边计算医学知识图谱损失/>：

图5为本实施例的考虑诊疗事件关系的医疗时序数据生成装置的示意图，包括：

本实施例还提供了一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的基于考虑诊疗事件关系的医疗时序数据生成方法。

本实施例还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的考虑诊疗事件关系的医疗时序数据生成方法。

Claims

1.一种考虑诊疗事件关系的医疗时序数据生成方法，其特征在于，包括以下步骤：

S1：基于患者就诊信息获取诊疗事件集合和就诊集合；

S3：将就诊以患者为单位按时间顺序排列为多个就诊序列输入到训练好的就诊长短期记忆自编码器模型，获取第一就诊嵌入表示；利用生成对抗网络获取第二就诊嵌入表示，其中所述生成对抗网络的生成器和判别器之间引入就诊长短期记忆自编码器模型解码器；采用/>、/>和/>对生成对抗网络进行优化训练；利用训练好的生成对抗网络获取重构的就诊嵌入表示/>；

S4：将重构的就诊嵌入表示输入到训练好的就诊自编码器模型的解码器部分进行解码，输出重构的就诊多热编码，根据重构的就诊多热编码得到重构的就诊中包含的诊疗事件，最终输出带有时序信息且包含多个诊疗事件的医疗数据；

其中，步骤S3中，利用训练好的生成对抗网络获取重构的就诊嵌入表示的具体步骤为：

S32：构建就诊长短期记忆自编码器模型并对就诊长短期记忆自编码器模型进行优化训练，将就诊序列中的就诊按顺序输入到训练好的就诊长短期记忆自编码器模型，获取重构的就诊序列，重构后就诊/>的第一就诊嵌入表示为/>，所有就诊/>的第一就诊嵌入表示为/>；

2.根据权利要求1所述的考虑诊疗事件关系的医疗时序数据生成方法，其特征在于，基于患者就诊信息获取诊疗事件集合和就诊集合的步骤为：提取采集到的患者就诊信息并对提取的数据进行预处理，获取诊断集合、检验集合、手术集合、用药集合；将诊断集合、检验集合、手术集合和用药集合进行合并构成诊疗事件集合，诊疗事件集合中的元素称为诊疗事件，根据患者的就诊经历将患者的所有就诊构成就诊集合，其中就诊集合中每个元素都代表着一次就诊，就诊中包含了一个或多个诊疗事件。

3.根据权利要求1所述的考虑诊疗事件关系的医疗时序数据生成方法，其特征在于，步骤S2中，获取就诊初始嵌入表示的具体步骤为：

4.根据权利要求1所述的考虑诊疗事件关系的医疗时序数据生成方法，其特征在于，步骤S4中，所述的根据重构的就诊多热编码得到重构的就诊中包含的诊疗事件的方法为：设定阈值，若重构的就诊多热编码中诊疗事件的编码值大于阈值/>，则认为就诊中存在对应的诊疗事件。

5.根据权利要求1所述的考虑诊疗事件关系的医疗时序数据生成方法，其特征在于，步骤S4中，在根据重构的就诊多热编码得到重构的就诊中包含的诊疗事件之后还包括用知识图谱辅助判断重构的就诊中包含的诊疗事件的合理性。

6.根据权利要求5所述的考虑诊疗事件关系的医疗时序数据生成方法，其特征在于，用知识图谱辅助判断重构的就诊中包含的诊疗事件的合理性的方法为：采用知识图谱对训练好的就诊自编码器模型进行进一步优化训练。

7.一种考虑诊疗事件关系的医疗时序数据生成装置，包括：

就诊嵌入表示生成模块：所述就诊嵌入表示生成模块用于将就诊以患者为单位按时间顺序排列为多个就诊序列输入到训练好的就诊长短期记忆自编码器模型，获取第一就诊嵌入表示；利用生成对抗网络获取第二就诊嵌入表示/>，其中所述生成对抗网络的生成器和判别器之间引入就诊长短期记忆自编码器模型解码器；采用/>、/>和/>对生成对抗网络进行优化训练；利用训练好的生成对抗网络获取重构的就诊嵌入表示/>，

其中，利用训练好的生成对抗网络获取重构的就诊嵌入表示的具体步骤为：

S33：构建就诊长短期记忆自编码器模型解码器辅助的生成对抗网络，将随机噪声输入到就诊长短期记忆自编码器模型解码器辅助的生成对抗网络，得到第二就诊嵌入表示；采用就诊初始嵌入表示/>、第一就诊嵌入表示/>和第二就诊嵌入表示/>对就诊长短期记忆自编码器模型解码器辅助的生成对抗网络进行优化训练，利用训练好的就诊长短期记忆自编码器模型解码器辅助的生成对抗网络获取重构的就诊嵌入表示/>，对应生成的就诊集合/>，其中就诊/>的嵌入表示为/>；

诊疗事件数据生成模块：所述诊疗事件数据生成模块用于将重构的就诊嵌入表示输入到训练好的就诊自编码器模型的解码器部分进行解码，输出重构的就诊多热编码，最终输出带有时序信息且包含多个诊疗事件的医疗数据。

8.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-6中任一项所述的考虑诊疗事件关系的医疗时序数据生成方法。

9.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-6中任一项所述的考虑诊疗事件关系的医疗时序数据生成方法。