CN116775960B - 一种多模态医疗数据问答方法及存储介质 - Google Patents

一种多模态医疗数据问答方法及存储介质 Download PDF

Info

Publication number
CN116775960B
CN116775960B CN202311067907.5A CN202311067907A CN116775960B CN 116775960 B CN116775960 B CN 116775960B CN 202311067907 A CN202311067907 A CN 202311067907A CN 116775960 B CN116775960 B CN 116775960B
Authority
CN
China
Prior art keywords
data
model
gpt
image data
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311067907.5A
Other languages
English (en)
Other versions
CN116775960A (zh
Inventor
刘瑞华
滕龙
李睿
胡其桐
邢沛瑶
郑名扬
邢天奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Angels Biomedical Technology Co ltd
Original Assignee
Chengdu Angels Biomedical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Angels Biomedical Technology Co ltd filed Critical Chengdu Angels Biomedical Technology Co ltd
Priority to CN202311067907.5A priority Critical patent/CN116775960B/zh
Publication of CN116775960A publication Critical patent/CN116775960A/zh
Application granted granted Critical
Publication of CN116775960B publication Critical patent/CN116775960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明属于电数字数据处理技术领域,公开了一种多模态医疗数据问答方法及存储介质,多模态医疗数据问答方法包括:将训练数据处理为包括问题和回答的数据格式,问题包括图像数据和文本数据;将图像数据输入预训练的CLIP模型得到图像数据编码,将文本数据输入GPT‑3模型得到文本数据编码,使用图像数据编码和文本数据编码,调用GPT‑3模型和CLIP模型进行跨模态适配器训练,得到多模态GPT‑3模型;将多模态医疗数据输入到多模态GPT‑3模型,生成回答;利用医学知识图谱对回答进行准确性验证,将验证后的回答作为结果输出。本发明可以快速回答用户的医学问题,适应更广泛的检索需求。

Description

一种多模态医疗数据问答方法及存储介质
技术领域
本发明属于电数字数据处理技术领域,具体涉及一种多模态医疗数据问答方法。
背景技术
医疗机器人可以自动回答病人的医疗相关问题,可以大幅降低医生的工作量,提升医疗***的整体工作效率。随着AI技术的发展,尤其是以ChatGPT为代表的AIGC技术的发展,医疗机器人技术受到了越来越多的重视。在医疗机器人领域,有两个问题需要被解决:1.如何更好地理解病人提出的问题。这个问题可以是自然语言数据,数值数据(比如各项化验指标),或者是医疗影像(CT/MRI/PET)。处理这种多模态数据。传统的医疗机器人关注自然语言数据处理,但不能很好地支持多模态数据;2.如何保证医疗机器人生成回答的准确性。医疗机器人可以自动化生成医疗建议,但这也带来了不确定性。如何保证医疗机器人回答问题的准确性,避免错误的医学建议,这个问题至今仍没有很好的解决方案。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。为此,本发明目的在于提供一种多模态医疗数据问答方法及存储介质。
本发明所采用的技术方案为:
一种多模态医疗数据问答方法,包括:
将训练数据处理为包括问题和回答的数据格式,问题包括图像数据和文本数据;将图像数据输入预训练的CLIP模型得到图像数据编码,将文本数据输入GPT-3模型得到文本数据编码,使用图像数据编码和文本数据编码,调用GPT-3模型和CLIP模型进行跨模态适配器训练,得到多模态GPT-3模型;
将多模态医疗数据输入到多模态GPT-3模型,生成回答;利用医学知识图谱对回答进行准确性验证,将验证后的回答作为结果输出。
优选地,跨模态适配器训练过程包括:输入图像数据编码和文本数据编码,将GPT-3模型作为先验模型,融合图像数据和文本数据,生成结果。
优选地,文本数据输入GPT-3模型生成最大期望的公式为:
图像数据和文本数据输入GPT-cancer模型生成回答的公式为:
通过跨模态适配器训练,图像数据和文本数据输入多模态GPT-3模型生成回答的公式为:
其中,xT为文本数据,xI为图像数据,pdata为文本数据分布,G为待微调训练的GPT-3模型,G(xT)为文本数据xT通过GPT-3模型后的输出,V(G)为以网络G作为待优化变量的损失得分,pcancer为医疗数据分布,为以预训练的GPT-3大模型为先验条件,输入多模态数据生成的输出;G(xI)为网络G对于图像数据xI的输出,/>为以预训练的GPT-3大模型为先验条件,输入文本数据生成的输出。
优选地,多模态GPT-3模型生成回答的过程包括:多模态GPT-3模型以图像数据xI和文本数据xT为输入,输出一个单词y0,之后以为输入输出第二个单词,依次类推,直至输出结束标识符。
优选地,回答包括诊断建议和康复预期。多模态医疗数据包括图像数据和文本数据。
一种存储介质,其上存储有计算机可执行代码,当所述计算机可执行代码被执行时实现上述的多模态医疗数据问答方法。
本发明的有益效果为:
本发明所提供的多模态医疗数据问答方法,基于多模态GPT-3模型,可以快速回答用户的医学问题(包括自然语言、化验指标和医学影像等形式),适应更广泛的检索需求;利用医学知识图谱对生成的回答进行准确性验证,从而保证建议的专业性,也避免了潜在的错误建议;
多模态GPT-3模型可以允许用户只上传化验指标或者医疗影像,不必对自身病情进行精确描述,就可以获得相应医学建议,降低了使用门槛。同时,用户只需要输入相关医疗诊断和病情描述信息,机器人就可以给出相应医疗建议,并不需要用户提供其他个人隐私信息;可以在保护用户隐私的前提下实现定制化咨询。
附图说明
图1是本发明多模态医疗数据问答方法的问答流程示意图。
具体实施方式
下面将结合本发明中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,还应当注意到实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
如图1所示,本实施例的一种多模态医疗数据问答方法,包括以下步骤:
S1、以医疗数据库中的历史近似查询(文本和图像)作为训练数据,将训练数据处理为包括“问题”和“回答”的数据格式,“问题”为用户输入的问题,包括图像数据和文本数据,图像数据例如MRI/CT/PET等;“回答”为对应的医学建议。训练数据用来微调GPT-3模型得到多模态GPT-3模型,为了控制多模态GPT-3模型的输出结果,训练数据的“回答”应包括“诊断建议和康复预期”两部分。其中,诊断建议包含“药物治疗、手术、化疗、放疗、其他”等常见治疗手段,而康复预期包含“预期寿命、ECOG体能状态评分、复发预期、不良反应”等指标。通过设置“回答”数据的格式,可以使得多模态GPT-3模型给出更专业的医学建议。
S2、微调GPT-3模型是为了使得模型能够较为准确地回答医疗问题,为了能够在纯文本的GPT-3模型上,进行“文本和图像”的跨模态训练。为了将文本数据和图像数据的tokenizer对齐,分别使用预训练的CLIP模型得到图像编码,使用GPT-3模型得到文本数据编码,并通过跨模态适配器进行特征融合和解码。在微调的过程中,不对GPT-3模型本身训练(即GPT-3模型仅作为先验模型),从而加速跨模态训练收敛。具体的,将图像数据输入预训练的CLIP模型得到图像数据编码,将文本数据输入标准的GPT-3模型得到文本数据编码,使用图像数据编码和文本数据编码,调用标准的GPT-3模型和CLIP模型进行跨模态适配器训练,得到多模态GPT-3模型。
跨模态适配器训练过程包括:输入图像数据编码和文本数据编码,将GPT-3模型作为先验模型,融合图像数据和文本数据,生成结果。微调时将联合概率分布求解,简化为文本、图像独立概率分布求解,文本概率分布先验为GPT-3模型分布,从而进一步简化问题求解,提升微调速度。
文本数据输入GPT-3模型生成最大期望(即最有可能回答)的公式为:
图像数据和文本数据输入GPT-cancer模型生成回答的公式为:
通过跨模态适配器训练,图像数据和文本数据输入多模态GPT-3模型生成回答的公式为:
其中,xT为文本数据,xI为图像数据,pdata为文本数据分布,G为待微调训练的GPT-3模型,G(xT)为文本数据xT通过GPT-3模型后的输出,V(G)为以网络G作为待优化变量的损失得分,pcancer为医疗数据分布,为以预训练的GPT-3大模型为先验条件,输入多模态数据生成的输出;G(xI)为网络G对于图像数据xI的输出,/>为以预训练的GPT-3大模型为先验条件,输入文本数据生成的输出。
S3、将多模态医疗数据(即图像数据和文本数据)输入到多模态GPT-3模型,生成回答,回答包括诊断建议和康复预期。具体的,多模态GPT-3模型以图像数据xI和文本数据xT为输入,输出一个单词y0,之后以为输入输出第二个单词,依次类推,直至输出结束标识符。
比如用户给定自然语言形式的查询:“该MRI影像中是否有肿瘤病变?”,多模态GPT-3模型会接受该语句和MRI影像,并输出回答中最可能会出现的第一个单词“这”,之后多模态GPT-3模型接受“该MRI影像中是否有肿瘤病变;xI。这”作为新的输入,并输出“张”;依次类推,最终得到完整输出“这张影像里面没有肿瘤病变。”。
S4、利用医学知识图谱对回答进行准确性验证,验证医学建议是否符合医学知识,比如:如果用户在输入的查询文字中表明自己对某种药物过敏,那么在诊断建议中就应当避免可能触发过敏反应的治疗方案。最后将验证后的回答作为结果输出。
一种存储介质,其上存储有计算机可执行代码,当所述计算机可执行代码被执行时实现上述的多模态医疗数据问答方法。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。

Claims (5)

1.一种多模态医疗数据问答方法,其特征在于,包括:
将训练数据处理为包括问题和回答的数据格式,问题包括图像数据和文本数据;将图像数据输入预训练的CLIP模型得到图像数据编码,将文本数据输入GPT-3模型得到文本数据编码,使用图像数据编码和文本数据编码,调用GPT-3模型和CLIP模型进行跨模态适配器训练,得到多模态GPT-3模型;
将多模态医疗数据输入到多模态GPT-3模型,生成回答;利用医学知识图谱对回答进行准确性验证,将验证后的回答作为结果输出;
文本数据输入GPT-3模型生成最大期望的公式为:
图像数据和文本数据输入GPT-cancer模型生成回答的公式为:
通过跨模态适配器训练,图像数据和文本数据输入多模态GPT-3模型生成回答的公式为:
其中,xT为文本数据,xI为图像数据,pdata为文本数据分布,G为待微调训练的GPT-3模型,G(xT)为文本数据xT通过GPT-3模型后的输出,V(G)为以网络G作为待优化变量的损失得分,pcancer为医疗数据分布,为以预训练的GPT-3模型为先验条件,输入多模态数据生成的输出;G(xI)为网络G对于图像数据xI的输出,/>为以预训练的GPT-3模型为先验条件,输入文本数据生成的输出;
多模态GPT-3模型生成回答的过程包括:多模态GPT-3模型以图像数据xI和文本数据xT为输入,输出一个单词y0,之后以为输入输出第二个单词,依次类推,直至输出结束标识符。
2.根据权利要求1所述的多模态医疗数据问答方法,其特征在于:跨模态适配器训练过程包括:输入图像数据编码和文本数据编码,将GPT-3模型作为先验模型,融合图像数据和文本数据,生成结果。
3.根据权利要求1所述的多模态医疗数据问答方法,其特征在于:回答包括诊断建议和康复预期。
4.根据权利要求1所述的多模态医疗数据问答方法,其特征在于:多模态医疗数据包括图像数据和文本数据。
5.一种存储介质,其特征在于,其上存储有计算机可执行代码,当所述计算机可执行代码被执行时实现如权利要求1-4任一项所述的多模态医疗数据问答方法。
CN202311067907.5A 2023-08-23 2023-08-23 一种多模态医疗数据问答方法及存储介质 Active CN116775960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311067907.5A CN116775960B (zh) 2023-08-23 2023-08-23 一种多模态医疗数据问答方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311067907.5A CN116775960B (zh) 2023-08-23 2023-08-23 一种多模态医疗数据问答方法及存储介质

Publications (2)

Publication Number Publication Date
CN116775960A CN116775960A (zh) 2023-09-19
CN116775960B true CN116775960B (zh) 2023-10-20

Family

ID=87986354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311067907.5A Active CN116775960B (zh) 2023-08-23 2023-08-23 一种多模态医疗数据问答方法及存储介质

Country Status (1)

Country Link
CN (1) CN116775960B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575009A (zh) * 2023-11-22 2024-02-20 浙江杉工智能科技有限公司 基于大语言模型进行桥梁病害诊断与养护措施推荐的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527962A (zh) * 2020-12-17 2021-03-19 云从科技集团股份有限公司 基于多模态融合的智能应答方法、装置、机器可读介质及设备
CN115631251A (zh) * 2022-09-07 2023-01-20 北京百度网讯科技有限公司 基于文本生成图像的方法、装置、电子设备和介质
CN115759062A (zh) * 2022-10-09 2023-03-07 阿里巴巴(中国)有限公司 基于知识注入的文图预训练模型处理方法和文图检索***
CN116503515A (zh) * 2023-04-26 2023-07-28 北京理工大学 基于文本和图像多模态的脑病灶图像生成方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220199079A1 (en) * 2020-12-22 2022-06-23 Meta Platforms, Inc. Systems and Methods for Providing User Experiences on Smart Assistant Systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527962A (zh) * 2020-12-17 2021-03-19 云从科技集团股份有限公司 基于多模态融合的智能应答方法、装置、机器可读介质及设备
CN115631251A (zh) * 2022-09-07 2023-01-20 北京百度网讯科技有限公司 基于文本生成图像的方法、装置、电子设备和介质
CN115759062A (zh) * 2022-10-09 2023-03-07 阿里巴巴(中国)有限公司 基于知识注入的文图预训练模型处理方法和文图检索***
CN116503515A (zh) * 2023-04-26 2023-07-28 北京理工大学 基于文本和图像多模态的脑病灶图像生成方法和***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Kelei He et al..Transformers in medical image analysis.《Intelligent Medicine》.2023,59-78. *
刘洋.基于深度学习的图像语义分析与跨模态检索研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2023,I138-1255. *
王虞 等.视觉问答技术研究综述.《计算机科学与探索》.2023,1487-1505. *

Also Published As

Publication number Publication date
CN116775960A (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
Yang et al. Large language models in health care: Development, applications, and challenges
Xia et al. Generative adversarial regularized mutual information policy gradient framework for automatic diagnosis
Zhu et al. A hierarchical attention retrieval model for healthcare question answering
CN116775960B (zh) 一种多模态医疗数据问答方法及存储介质
KR102424085B1 (ko) 기계-보조 대화 시스템 및 의학적 상태 문의 장치 및 방법
Li et al. Semi-supervised variational reasoning for medical dialogue generation
CN107038336A (zh) 一种电子病历自动生成方法及装置
CN112883157B (zh) 一种多源异构医疗数据的标准化方法及装置
CN110569343B (zh) 一种基于问答的临床文本结构化方法
Naseem et al. Vision-language transformer for interpretable pathology visual question answering
WO2023035623A1 (zh) 基于人工智能的应答语料生成方法及相关设备
CN116386800B (zh) 基于预训练语言模型的医疗病历数据分割方法和***
WO2023288148A1 (en) Machine reasoning as a service
CN117216209A (zh) 一种基于大型语言模型的超声检查报告解读***
Fu et al. Enhancing psychological counseling with large language model: A multifaceted decision-support system for non-professionals
Varshney et al. Knowledge grounded medical dialogue generation using augmented graphs
Liu et al. Perspective-corrected spatial referring expression generation for human–robot interaction
Liao et al. Medical data inquiry using a question answering model
Hartsock et al. Vision-language models for medical report generation and visual question answering: A review
Boag et al. A Pilot Study in Surveying Clinical Judgments to Evaluate Radiology Report Generation
CN117573835A (zh) 一种大模型微调指令自动化生成方法、装置、设备及介质
US11080335B2 (en) Concept-based autosuggest based on previously identified items
CN117292783A (zh) 医学影像报告生成***
CN116738998A (zh) 一种基于Web的医疗对话多粒度语义标注***和方法
Orsi et al. Keyword-based, context-aware selection of natural language query patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant