CN116775960B

CN116775960B - 一种多模态医疗数据问答方法及存储介质

Info

Publication number: CN116775960B
Application number: CN202311067907.5A
Authority: CN
Inventors: 刘瑞华; 滕龙; 李睿; 胡其桐; 邢沛瑶; 郑名扬; 邢天奇
Original assignee: Chengdu Angels Biomedical Technology Co ltd
Current assignee: Chengdu Angels Biomedical Technology Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-10-20
Anticipated expiration: 2043-08-23
Also published as: CN116775960A

Abstract

本发明属于电数字数据处理技术领域，公开了一种多模态医疗数据问答方法及存储介质，多模态医疗数据问答方法包括：将训练数据处理为包括问题和回答的数据格式，问题包括图像数据和文本数据；将图像数据输入预训练的CLIP模型得到图像数据编码，将文本数据输入GPT‑3模型得到文本数据编码，使用图像数据编码和文本数据编码，调用GPT‑3模型和CLIP模型进行跨模态适配器训练，得到多模态GPT‑3模型；将多模态医疗数据输入到多模态GPT‑3模型，生成回答；利用医学知识图谱对回答进行准确性验证，将验证后的回答作为结果输出。本发明可以快速回答用户的医学问题，适应更广泛的检索需求。

Description

一种多模态医疗数据问答方法及存储介质

技术领域

本发明属于电数字数据处理技术领域，具体涉及一种多模态医疗数据问答方法。

背景技术

医疗机器人可以自动回答病人的医疗相关问题，可以大幅降低医生的工作量，提升医疗***的整体工作效率。随着AI技术的发展，尤其是以ChatGPT为代表的AIGC技术的发展，医疗机器人技术受到了越来越多的重视。在医疗机器人领域，有两个问题需要被解决：1.如何更好地理解病人提出的问题。这个问题可以是自然语言数据，数值数据（比如各项化验指标），或者是医疗影像（CT/MRI/PET）。处理这种多模态数据。传统的医疗机器人关注自然语言数据处理，但不能很好地支持多模态数据；2.如何保证医疗机器人生成回答的准确性。医疗机器人可以自动化生成医疗建议，但这也带来了不确定性。如何保证医疗机器人回答问题的准确性，避免错误的医学建议，这个问题至今仍没有很好的解决方案。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。为此，本发明目的在于提供一种多模态医疗数据问答方法及存储介质。

本发明所采用的技术方案为：

一种多模态医疗数据问答方法，包括：

将训练数据处理为包括问题和回答的数据格式，问题包括图像数据和文本数据；将图像数据输入预训练的CLIP模型得到图像数据编码，将文本数据输入GPT-3模型得到文本数据编码，使用图像数据编码和文本数据编码，调用GPT-3模型和CLIP模型进行跨模态适配器训练，得到多模态GPT-3模型；

将多模态医疗数据输入到多模态GPT-3模型，生成回答；利用医学知识图谱对回答进行准确性验证，将验证后的回答作为结果输出。

优选地，跨模态适配器训练过程包括：输入图像数据编码和文本数据编码，将GPT-3模型作为先验模型，融合图像数据和文本数据，生成结果。

优选地，文本数据输入GPT-3模型生成最大期望的公式为：

，

图像数据和文本数据输入GPT-cancer模型生成回答的公式为：

，

通过跨模态适配器训练，图像数据和文本数据输入多模态GPT-3模型生成回答的公式为：

，

其中，x_T为文本数据，x_I为图像数据，p_data为文本数据分布，G为待微调训练的GPT-3模型，G(x_T)为文本数据x_T通过GPT-3模型后的输出，V(G)为以网络G作为待优化变量的损失得分，p_cancer为医疗数据分布，为以预训练的GPT-3大模型为先验条件，输入多模态数据生成的输出；G(x_I)为网络G对于图像数据x_I的输出，/>为以预训练的GPT-3大模型为先验条件，输入文本数据生成的输出。

优选地，多模态GPT-3模型生成回答的过程包括：多模态GPT-3模型以图像数据x_I和文本数据x_T为输入，输出一个单词y₀，之后以为输入输出第二个单词，依次类推，直至输出结束标识符。

优选地，回答包括诊断建议和康复预期。多模态医疗数据包括图像数据和文本数据。

一种存储介质，其上存储有计算机可执行代码，当所述计算机可执行代码被执行时实现上述的多模态医疗数据问答方法。

本发明的有益效果为：

本发明所提供的多模态医疗数据问答方法，基于多模态GPT-3模型，可以快速回答用户的医学问题（包括自然语言、化验指标和医学影像等形式），适应更广泛的检索需求；利用医学知识图谱对生成的回答进行准确性验证，从而保证建议的专业性，也避免了潜在的错误建议；

多模态GPT-3模型可以允许用户只上传化验指标或者医疗影像，不必对自身病情进行精确描述，就可以获得相应医学建议，降低了使用门槛。同时，用户只需要输入相关医疗诊断和病情描述信息，机器人就可以给出相应医疗建议，并不需要用户提供其他个人隐私信息；可以在保护用户隐私的前提下实现定制化咨询。

附图说明

图1是本发明多模态医疗数据问答方法的问答流程示意图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，还应当注意到实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如，取决于所涉及的功能/动作，实际上可以实质上并发地执行，或者有时可以以相反的顺序来执行连续示出的两个图。

如图1所示，本实施例的一种多模态医疗数据问答方法，包括以下步骤：

S1、以医疗数据库中的历史近似查询（文本和图像）作为训练数据，将训练数据处理为包括“问题”和“回答”的数据格式，“问题”为用户输入的问题，包括图像数据和文本数据，图像数据例如MRI/CT/PET等；“回答”为对应的医学建议。训练数据用来微调GPT-3模型得到多模态GPT-3模型，为了控制多模态GPT-3模型的输出结果，训练数据的“回答”应包括“诊断建议和康复预期”两部分。其中，诊断建议包含“药物治疗、手术、化疗、放疗、其他”等常见治疗手段，而康复预期包含“预期寿命、ECOG体能状态评分、复发预期、不良反应”等指标。通过设置“回答”数据的格式，可以使得多模态GPT-3模型给出更专业的医学建议。

S2、微调GPT-3模型是为了使得模型能够较为准确地回答医疗问题，为了能够在纯文本的GPT-3模型上，进行“文本和图像”的跨模态训练。为了将文本数据和图像数据的tokenizer对齐，分别使用预训练的CLIP模型得到图像编码，使用GPT-3模型得到文本数据编码，并通过跨模态适配器进行特征融合和解码。在微调的过程中，不对GPT-3模型本身训练（即GPT-3模型仅作为先验模型），从而加速跨模态训练收敛。具体的，将图像数据输入预训练的CLIP模型得到图像数据编码，将文本数据输入标准的GPT-3模型得到文本数据编码，使用图像数据编码和文本数据编码，调用标准的GPT-3模型和CLIP模型进行跨模态适配器训练，得到多模态GPT-3模型。

跨模态适配器训练过程包括：输入图像数据编码和文本数据编码，将GPT-3模型作为先验模型，融合图像数据和文本数据，生成结果。微调时将联合概率分布求解，简化为文本、图像独立概率分布求解，文本概率分布先验为GPT-3模型分布，从而进一步简化问题求解，提升微调速度。

文本数据输入GPT-3模型生成最大期望（即最有可能回答）的公式为：

，

图像数据和文本数据输入GPT-cancer模型生成回答的公式为：

，

S3、将多模态医疗数据（即图像数据和文本数据）输入到多模态GPT-3模型，生成回答，回答包括诊断建议和康复预期。具体的，多模态GPT-3模型以图像数据x_I和文本数据x_T为输入，输出一个单词y₀，之后以为输入输出第二个单词，依次类推，直至输出结束标识符。

比如用户给定自然语言形式的查询：“该MRI影像中是否有肿瘤病变？”，多模态GPT-3模型会接受该语句和MRI影像，并输出回答中最可能会出现的第一个单词“这”，之后多模态GPT-3模型接受“该MRI影像中是否有肿瘤病变；x_I。这”作为新的输入，并输出“张”；依次类推，最终得到完整输出“这张影像里面没有肿瘤病变。”。

S4、利用医学知识图谱对回答进行准确性验证，验证医学建议是否符合医学知识，比如：如果用户在输入的查询文字中表明自己对某种药物过敏，那么在诊断建议中就应当避免可能触发过敏反应的治疗方案。最后将验证后的回答作为结果输出。

本发明不局限于上述可选实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是落入本发明权利要求界定范围内的技术方案，均落在本发明的保护范围之内。

Claims

1.一种多模态医疗数据问答方法，其特征在于，包括：

将多模态医疗数据输入到多模态GPT-3模型，生成回答；利用医学知识图谱对回答进行准确性验证，将验证后的回答作为结果输出；

文本数据输入GPT-3模型生成最大期望的公式为：

，

图像数据和文本数据输入GPT-cancer模型生成回答的公式为：

，

其中，x_T为文本数据，x_I为图像数据，p_data为文本数据分布，G为待微调训练的GPT-3模型，G(x_T)为文本数据x_T通过GPT-3模型后的输出，V(G)为以网络G作为待优化变量的损失得分，p_cancer为医疗数据分布，为以预训练的GPT-3模型为先验条件，输入多模态数据生成的输出；G(x_I)为网络G对于图像数据x_I的输出，/>为以预训练的GPT-3模型为先验条件，输入文本数据生成的输出；

多模态GPT-3模型生成回答的过程包括：多模态GPT-3模型以图像数据x_I和文本数据x_T为输入，输出一个单词y₀，之后以为输入输出第二个单词，依次类推，直至输出结束标识符。

2.根据权利要求1所述的多模态医疗数据问答方法，其特征在于：跨模态适配器训练过程包括：输入图像数据编码和文本数据编码，将GPT-3模型作为先验模型，融合图像数据和文本数据，生成结果。

3.根据权利要求1所述的多模态医疗数据问答方法，其特征在于：回答包括诊断建议和康复预期。

4.根据权利要求1所述的多模态医疗数据问答方法，其特征在于：多模态医疗数据包括图像数据和文本数据。

5.一种存储介质，其特征在于，其上存储有计算机可执行代码，当所述计算机可执行代码被执行时实现如权利要求1-4任一项所述的多模态医疗数据问答方法。