CN117995340A - 基于大模型的临床试验智能招募方法及装置 - Google Patents

基于大模型的临床试验智能招募方法及装置 Download PDF

Info

Publication number
CN117995340A
CN117995340A CN202410406985.1A CN202410406985A CN117995340A CN 117995340 A CN117995340 A CN 117995340A CN 202410406985 A CN202410406985 A CN 202410406985A CN 117995340 A CN117995340 A CN 117995340A
Authority
CN
China
Prior art keywords
record information
medical record
large model
patient
patient medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410406985.1A
Other languages
English (en)
Other versions
CN117995340B (zh
Inventor
苏志鹄
张奇
王实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Huimei Medical Technology Co ltd
Beijing Huimeiyun Technology Co ltd
Original Assignee
Hangzhou Huimei Medical Technology Co ltd
Beijing Huimeiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huimei Medical Technology Co ltd, Beijing Huimeiyun Technology Co ltd filed Critical Hangzhou Huimei Medical Technology Co ltd
Priority to CN202410406985.1A priority Critical patent/CN117995340B/zh
Publication of CN117995340A publication Critical patent/CN117995340A/zh
Application granted granted Critical
Publication of CN117995340B publication Critical patent/CN117995340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种基于大模型的临床试验智能招募方法及装置,该方法包括:获取临床试验数据,并通过临床试验数据对大模型进行预训练,以使大模型理解医学文本数据的不同场景,临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据。调用预训练后的大模型对患者病历信息中的患者隐私信息进行识别,以对患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录。将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案。该方法提高了招募效率,而且能够保障患者的隐私安全。

Description

基于大模型的临床试验智能招募方法及装置
技术领域
本发明涉及医疗技术领域,特别是涉及一种基于大模型的临床试验智能招募方法及装置。
背景技术
临床试验是指以人为对象的前瞻性研究,预先将受试者或受试人群分配至接受一种或多种医疗干预,以评价医疗干预对健康结局的影响。受试者招募在临床试验中属于研究实施阶段的前期工作,是临床试验中一个非常重要的环节,过程主要包括招募受试者、筛选合格受试者、获得受试者的知情同意。受试者招募能否招募到足够数量的符合试验要求的受试对象,将会对试验质量高低产生重要影响,也是影响试验进度的重要因素,如果无法招募到足够数量的适宜受试者,临床试验不得不暂停甚至终止。
目前,现有的针对临床招募的方法主要是通过配置器对临床试验方案文件进行处理获得入选排除标准数据,并将入选排除标准数据分类为客观评价标准、主观评价标准、关键评价标准和非关键评价标准。随后将主观评价标准、非关键评价标准通过大语言模型进行提取,得到招募特征,并将收集的患者资料进行文字内容提取,对文字内容进行结构化处理得到文本数据。再对文本数据通过大语言模型进行提取,得到客观评价标准所需数据、主观评价标准所需数据、关键评价标准所需数据和非关键评价标准所需数据。将主观评价标准所需数据、非关键评价标准所需数据通过大语言模型进行提取,得到患者特征。最后,将客观评价标准所需数据、关键评价标准所需数据和患者特征送入招募池,机器招募员根据客观评价标准、关键评价标准和招募特征对上述所需数据进行筛选匹配,再对招募池中的全部患者进行筛选匹配,将筛选匹配符合要求的患者推送给研究人员做最终判断。但是该现有方法主要是基于分类配置器获取临床招募入选排除标准数据,以及基于大模型患者医学病历中的信息,最后比对两个信息是否一致,来判断患者是否符合某临床试验方案的要求。在获取临床试验入选和排除标准时,需要借用分类配置器,这里需要人工介入,效率比较低。此外,该现有方法难以确保患者的隐私不被泄露,最终结果只是推荐患者给到研究人员,导致结果的可解释性较差。
综上所述,现有的针对临床招募的方法较多依赖人工,导致招募效率较低,且难以保障患者的隐私不被泄露,最终招募结果的可解释性较差。
发明内容
基于此,有必要针对上述技术问题,提供一种招募效率较高、招募结果可解释性较好且能够保障患者隐私安全的基于大模型的临床试验智能招募方法及装置。
本发明提供了一种基于大模型的临床试验智能招募方法,所述方法包括:
获取临床试验数据,并通过所述临床试验数据对大模型进行预训练,以使所述大模型理解医学文本数据的不同场景,所述临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据;
调用预训练后的所述大模型对所述患者病历信息中的患者隐私信息进行识别,以对所述患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录;
将脱敏处理后的患者病历信息以及提示对话框作为预训练后的所述大模型的输入,以按照所述提示对话框的答案模板输出与所述患者病历信息匹配的临床试验方案。
在其中一个实施例中,所述大模型至少包括开源大模型Llama2;
所述获取临床试验数据,并通过所述临床医学试验数据对大模型进行预训练,以使所述大模型理解医学文本数据的不同场景,包括:
对所述临床试验数据进行预处理,得到所述医学文本数据,并基于所述医学文本数据构建训练数据集,所述预处理至少包括数据清洗、数据过滤以及缺失值填充;
通过所述训练数据集对所述开源大模型Llama2进行预训练,以使预训练后的所述开源大模型Llama2理解所述医学文本数据的语境和含义。
在其中一个实施例中,所述调用预训练后的所述大模型对所述患者病历信息中的患者隐私信息进行识别,以对所述患者病历信息进行脱敏处理,包括:
将所述患者病历信息作为预训练后的所述大模型的输入,以调用预训练后的所述大模型识别出所述患者病历信息中的患者隐私信息,所述患者隐私信息至少包括患者身份信息;
将所述患者病历信息中的所述患者隐私信息替换为同等长度的替换符,以对所述患者病历信息进行脱敏处理。
在其中一个实施例中,所述将脱敏处理后的患者病历信息以及提示对话框作为预训练后的所述大模型的输入,以按照所述提示对话框的答案模板输出与所述患者病历信息匹配的临床试验方案,之前包括:
获取脱敏处理后的多个历史患者病历信息以及每个历史患者病历信息对应的历史临床试验方案;
将所述历史患者病历信息作为预训练后的所述大模型的输入,并将所述历史患者病历信息对应的历史临床试验方案作为预训练后的所述大模型的输出,对预训练后的所述大模型进行训练。
在其中一个实施例中,所述将脱敏处理后的患者病历信息以及提示对话框作为预训练后的所述大模型的输入,以按照所述提示对话框的答案模板输出与所述患者病历信息匹配的临床试验方案,之前还包括:
基于所述历史临床试验方案生成所述答案模板,并根据所述答案模板构建所述提示对话框;
将所述提示对话框作为预训练后的所述大模型的输入,并将所述历史临床试验方案作为预训练后的所述大模型的输出,对预训练后的所述大模型进行训练,以使预训练后的所述大模型按照所述提示对话框的答案模板输出临床试验方案。
在其中一个实施例中,所述将脱敏处理后的患者病历信息以及提示对话框作为预训练后的所述大模型的输入,以按照所述提示对话框的答案模板输出与所述患者病历信息匹配的临床试验方案,包括:
获取脱敏处理后的当前患者病历信息,所述脱敏处理后的当前患者病历信息至少包括当前患者的出入院记录、首次病程记录、病程记录以及治疗记录;
将所述脱敏处理后的当前患者病历信息作为预训练后的所述大模型的输入,以调用预训练后的所述大模型按照所述提示对话框的答案模板输出与所述脱敏处理后的当前患者病历信息匹配的当前临床试验方案。
在其中一个实施例中,所述方法还包括:
对所述患者病历信息进行划分,以获取多个阶段的子病历信息,所述子病历信息至少包括患者的出入院病历信息、首次病程病历信息、病程病历信息以及治疗病历信息;
将所述多个阶段的子病历信息以及提示对话框作为预训练后的所述大模型的输入,以输出所述多个阶段的子病历信息分别对应的多个临床试验子方案;
将所述多个临床试验子方案进行合并,并调用预训练后的所述大模型对合并后的所述多个临床试验子方案以及所述提示对话框进行处理,得到所述临床试验方案。
本发明还提供了一种基于大模型的临床试验智能招募装置,所述装置包括:
模型预训练模块,用于获取临床试验数据,并通过所述临床试验数据对大模型进行预训练,以使所述大模型理解医学文本数据的不同场景,所述临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据;
信息脱敏模块,用于调用预训练后的所述大模型对所述患者病历信息中的患者隐私信息进行识别,以对所述患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录;
临床试验招募模块,用于将脱敏处理后的患者病历信息以及提示对话框作为预训练后的所述大模型的输入,以按照所述提示对话框的答案模板输出与所述患者病历信息匹配的临床试验方案。
本发明还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的基于大模型的临床试验智能招募方法。
本发明还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的基于大模型的临床试验智能招募方法。
本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的基于大模型的临床试验智能招募方法。
上述基于大模型的临床试验智能招募方法及装置,通过获取临床试验数据,并通过临床试验数据对大模型进行预训练,以使大模型理解医学文本数据的不同场景,该临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据。随后,调用预训练后的大模型对患者病历信息中的患者隐私信息进行识别,以对患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录。最后,将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案。该方法中所有临床试验数据的处理均基于大语言模型来完成,并对患者病历中隐私信息进行识别和脱敏处理,不仅提高了招募效率,而且能够保障患者的隐私安全。此外,最终的临床试验方案是大模型按照相应的答案模板输出的,在一定程度上提高了招募结果的可解释性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于大模型的临床试验智能招募方法流程示意图之一;
图2为本发明提供的具体实施例中基于大模型的临床试验智能招募方法的临床招募整体流程示意图;
图3为本发明提供的基于大模型的临床试验智能招募方法流程示意图之二;
图4为本发明提供的基于大模型的临床试验智能招募方法流程示意图之三;
图5为本发明提供的基于大模型的临床试验智能招募方法流程示意图之四;
图6为本发明提供的基于大模型的临床试验智能招募方法流程示意图之五;
图7为本发明提供的基于大模型的临床试验智能招募方法流程示意图之六;
图8为本发明提供的基于大模型的临床试验智能招募方法流程示意图之七;
图9为本发明提供的基于大模型的临床试验智能招募装置结构示意图;
图10为本发明提供的计算机设备的内部结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图10描述本发明的基于大模型的临床试验智能招募方法及装置。
如图1所示,在一个实施例中,一种基于大模型的临床试验智能招募方法,包括以下步骤:
步骤S110,获取临床试验数据,并通过临床试验数据对大模型进行预训练,以使大模型理解医学文本数据的不同场景,临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据。
具体的,服务器获取大量的临床试验数据,该临床试验数据包括但不仅限于临床试验信息、患者病历信息、医学文献以及高质量的医学知识库数据,并对该临床试验数据对开源大模型进行预训练,使得大语言模型能够理解医学文本数据的不同应用医学场景。
结合图2所示,在具体的实施例中,本发明提供的基于大模型的临床试验智能招募方法,首先需要明确临床试验智能招募***的目标,例如是否专注于某个特定领域的临床试验、招募特定类型的患者等,定义***的应用范围,确保明白***的预期用途。
在本实施例中,聚焦在招募比较困难的罕见病和肿瘤领域的临床试验患者招募。首先,收集临床试验相关数据,包括临床试验信息、患者病历、医学文献等,同时也包括高质量的知识库数据。整理数据并确保数据的质量和一致性,数据来源包括国内、国外的相关数据,即涵盖多语言的数据。
步骤S120,调用预训练后的大模型对患者病历信息中的患者隐私信息进行识别,以对患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录。
具体的,服务器调用步骤S110中预训练后的大语言模型对患者病历信息中的患者隐私信息进行识别,进而对患者病历信息进行脱敏处理,脱敏处理后的患者病历信息包括但不仅限于患者的出入院记录、首次病程记录、病程记录以及治疗记录,治疗记录包括手术、药物等治疗方式。
结合图2所示,在具体的实施例中,选择适合医学领域的大模型,如选择开源大模型Llama2(是一组预训练和微调的大型语言模型LLM),进行预训练,以便模型能够理解医学文本的语境和术语,预训练的模型使用先前得到的医学文本数据集进行。随后,基于特定预训练的大语言模型识别患者病历中的隐私信息,并进行脱敏处理,例如脱敏方式为将隐私信息替换为同样长度的“***”。
步骤S130,将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案。
具体的,服务器将脱敏处理后的患者病历信息以及预先构建好的提示对话框或者提示词作为预训练后的大模型的输入,使得预训练后的大模型按照提示对话框的答案模板输出与该患者病历信息匹配的临床试验方案。
结合图2所示,在具体的实施例中,将临床试验方案和经过脱敏的患者病历信息,加上提示词,共同作为输入给到预训练好的大语言模型,让大模型基于患者的病历信息,给出符合的临床试验方案。在这个过程中,患者病历信息作为输入给到大模型旨在方便最后研究医生根据推荐结果进行溯源,即临床试验方案和经过脱敏的患者病历信息,多次分别作为输入给到模型。一次完整的住院包含多个阶段的病历信息,包括入院记录、首次病程、病程记录、手术记录、出院记录等,每个独立阶段的患者病历信息(后统称患者副病历信息)分别与临床试验方案进行组合,加上提示词作为输入给到大模型,给出临床试验方案与患者每个副病历信息的匹配情况,并把结果进行保存记录。
在本实施例中,多个副病历信息输入大模型得到的多个结果合并起来,加上提示词,作为输入给到预训练好的大模型,让大模型给出决策结果,该患者是否有完全匹配的临床试验方案,以及匹配上的临床试验方案具体是哪些。最后,给出某患者匹配的临床试验方案,并附上先前保存的临床试验方案中,每个子方案与患者病历信息的匹配情况。
在本实施例中,研究医生可以汇总大模型的决策结果,包括患者匹配临床试验方案结果、临床试验子方案以及患者不同阶段病历命中情况(只返回有命中的)。最后,将结果以质控弹窗的形式,在医生工作终端进行展示,医生进行确认,同时支持医生进行评论,可以支持保存所有交互的数据。
上述基于大模型的临床试验智能招募方法,通过获取临床试验数据,并通过临床试验数据对大模型进行预训练,以使大模型理解医学文本数据的不同场景,该临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据。随后,调用预训练后的大模型对患者病历信息中的患者隐私信息进行识别,以对患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录。最后,将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案。该方法中所有临床试验数据的处理均基于大语言模型来完成,并对患者病历中隐私信息进行识别和脱敏处理,不仅提高了招募效率,而且能够保障患者的隐私安全。此外,最终的临床试验方案是大模型按照相应的答案模板输出的,在一定程度上提高了招募结果的可解释性。
如图3所示,在一个实施例中,本发明提供的基于大模型的临床试验智能招募方法,获取临床试验数据,并通过临床试验数据对大模型进行预训练,以使大模型理解医学文本数据的不同场景,具体包括以下步骤:
步骤S112,对临床试验数据进行预处理,得到医学文本数据,并基于医学文本数据构建训练数据集,预处理至少包括数据清洗、数据过滤以及缺失值填充。
具体的,服务器对临床试验数据进行清洗、过滤以及缺失值填充等预处理,来确保数据的质量和一致性,得到医学文本数据,并基于该医学文本数据构建大语言模型的训练数据集。
步骤S114,通过训练数据集对开源大模型Llama2进行预训练,以使预训练后的开源大模型Llama2理解医学文本数据的语境和含义。
具体的,服务器通过步骤S112中构建的训练数据集对开源大模型Llama2进行预训练,以使预训练后的开源大模型Llama2理解医学文本数据的语境和含义。
如图4所示,在一个实施例中,本发明提供的基于大模型的临床试验智能招募方法,调用预训练后的大模型对患者病历信息中的患者隐私信息进行识别,以对患者病历信息进行脱敏处理,具体包括以下步骤:
步骤S122,将患者病历信息作为预训练后的大模型的输入,以调用预训练后的大模型识别出患者病历信息中的患者隐私信息,患者隐私信息至少包括患者身份信息。
具体的,在信息脱敏的过程中,服务器将患者病历信息作为预训练后的大模型的输入,来调用预训练后的大模型识别出患者病历信息中的患者隐私信息,患者隐私信息包括但不仅限于患者身份信息。
步骤S124,将患者病历信息中的患者隐私信息替换为同等长度的替换符,以对患者病历信息进行脱敏处理。
具体的,服务器将步骤S122中识别出的患者隐私信息替换为同等长度的替换符,例如“***”,以此达到对患者病历信息脱敏处理的目的。
如图5所示,在一个实施例中,本发明提供的基于大模型的临床试验智能招募方法,将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案,之前包括以下步骤:
步骤S510,获取脱敏处理后的多个历史患者病历信息以及每个历史患者病历信息对应的历史临床试验方案。
具体的,服务器获取脱敏处理后的多个历史患者病历信息以及每个历史患者病历信息对应的历史临床试验方案。
步骤S520,将历史患者病历信息作为预训练后的大模型的输入,并将历史患者病历信息对应的历史临床试验方案作为预训练后的大模型的输出,对预训练后的大模型进行训练。
具体的,服务器将步骤S510中获取的历史患者病历信息作为预训练后的大语言模型的输入,并将相应的历史临床试验方案作为预训练后的大语言模型的输出,来对预训练后的大语言模型进行进一步训练,以此来提高大语言模型输出预测结果的准确度。
如图6所示,在一个实施例中,本发明提供的基于大模型的临床试验智能招募方法,将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案,之前还包括以下步骤:
步骤S610,基于历史临床试验方案生成答案模板,并根据答案模板构建提示对话框。
具体的,服务器基于历史临床试验方案生成相应的答案模板,并根据该答案模板构建提示对话框。
步骤S620,将提示对话框作为预训练后的大模型的输入,并将历史临床试验方案作为预训练后的大模型的输出,对预训练后的大模型进行训练,以使预训练后的大模型按照提示对话框的答案模板输出临床试验方案。
具体的,服务器将步骤S610中构建的提示对话框作为预训练后的大语言模型的输入,并将历史临床试验方案作为预训练好的大语言模型的输出,来对预训练后的大语言模型进一步训练,使得预训练后的大语言模型能够按照提示对话框的答案模板格式输出临床试验方案。
如图7所示,在一个实施例中,本发明提供的基于大模型的临床试验智能招募方法,将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案,具体包括以下步骤:
步骤S132,获取脱敏处理后的当前患者病历信息,脱敏处理后的当前患者病历信息至少包括当前患者的出入院记录、首次病程记录、病程记录以及治疗记录。
具体的,在进行临床试验招募的过程中,服务器获取脱敏处理后的当前患者病历信息,该脱敏处理后的当前患者病历信息至少包括当前患者的出入院记录、首次病程记录、病程记录以及治疗记录。
步骤S134,将脱敏处理后的当前患者病历信息作为预训练后的大模型的输入,以调用预训练后的大模型按照提示对话框的答案模板输出与脱敏处理后的当前患者病历信息匹配的当前临床试验方案。
具体的,服务器将脱敏处理后的当前患者病历信息作为预训练后的大模型的输入,以调用预训练后的大模型按照提示对话框的答案模板输出与脱敏处理后的当前患者病历信息匹配的当前临床试验方案。
如图8所示,在一个实施例中,本发明提供的基于大模型的临床试验智能招募方法,还包括以下步骤:
步骤S810,对患者病历信息进行划分,以获取多个阶段的子病历信息,子病历信息至少包括患者的出入院病历信息、首次病程病历信息、病程病历信息以及治疗病历信息。
具体的,服务器对患者病历信息进行划分,以获取多个阶段的子病历信息,该多个阶段的子病历信息至少包括患者的出入院病历信息、首次病程病历信息、病程病历信息以及治疗病历信息。
步骤S820,将多个阶段的子病历信息以及提示对话框作为预训练后的大模型的输入,以输出多个阶段的子病历信息分别对应的多个临床试验子方案。
具体的,服务器将步骤S810中划分得到的多个阶段的子病历信息以及提示对话框作为预训练后的大模型的输入,以输出多个阶段的子病历信息分别对应的多个临床试验子方案。
步骤S830,将多个临床试验子方案进行合并,并调用预训练后的大模型对合并后的多个临床试验子方案以及提示对话框进行处理,得到临床试验方案。
具体的,服务器将步骤S820中得到的多个临床试验子方案进行合并,并调用预训练后的大模型对合并后的多个临床试验子方案以及提示对话框进行处理,得到临床试验方案。
下面对本发明提供的基于大模型的临床试验智能招募装置进行描述,下文描述的基于大模型的临床试验智能招募装置与上文描述的基于大模型的临床试验智能招募方法可相互对应参照。
如图9所示,在一个实施例中,一种基于大模型的临床试验智能招募装置,包括模型预训练模块910、信息脱敏模块920以及临床试验招募模块930。
模型预训练模块910用于获取临床试验数据,并通过临床试验数据对大模型进行预训练,以使大模型理解医学文本数据的不同场景,临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据。
信息脱敏模块920用于调用预训练后的大模型对患者病历信息中的患者隐私信息进行识别,以对患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录。
临床试验招募模块930用于将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案。
在本实施例中,本发明提供的基于大模型的临床试验智能招募装置,模型预训练模块具体用于:
对临床试验数据进行预处理,得到医学文本数据,并基于医学文本数据构建训练数据集,预处理至少包括数据清洗、数据过滤以及缺失值填充。
通过训练数据集对开源大模型Llama2进行预训练,以使预训练后的开源大模型Llama2理解医学文本数据的语境和含义。
在本实施例中,本发明提供的基于大模型的临床试验智能招募装置,信息脱敏模块具体用于:
将患者病历信息作为预训练后的大模型的输入,以调用预训练后的大模型识别出患者病历信息中的患者隐私信息,患者隐私信息至少包括患者身份信息。
将患者病历信息中的患者隐私信息替换为同等长度的替换符,以对患者病历信息进行脱敏处理。
在本实施例中,本发明提供的基于大模型的临床试验智能招募装置,还包括第一模型训练模块,用于:
获取脱敏处理后的多个历史患者病历信息以及每个历史患者病历信息对应的历史临床试验方案。
将历史患者病历信息作为预训练后的大模型的输入,并将历史患者病历信息对应的历史临床试验方案作为预训练后的大模型的输出,对预训练后的大模型进行训练。
在本实施例中,本发明提供的基于大模型的临床试验智能招募装置,还包括第二模型训练模块,用于:
基于历史临床试验方案生成答案模板,并根据答案模板构建提示对话框。
将提示对话框作为预训练后的大模型的输入,并将历史临床试验方案作为预训练后的大模型的输出,对预训练后的大模型进行训练,以使预训练后的大模型按照提示对话框的答案模板输出临床试验方案。
在本实施例中,本发明提供的基于大模型的临床试验智能招募装置,临床试验招募模块具体用于:
获取脱敏处理后的当前患者病历信息,脱敏处理后的当前患者病历信息至少包括当前患者的出入院记录、首次病程记录、病程记录以及治疗记录。
将脱敏处理后的当前患者病历信息作为预训练后的大模型的输入,以调用预训练后的大模型按照提示对话框的答案模板输出与脱敏处理后的当前患者病历信息匹配的当前临床试验方案。
在本实施例中,本发明提供的基于大模型的临床试验智能招募装置,还包括模型决策模块,用于:
对患者病历信息进行划分,以获取多个阶段的子病历信息,子病历信息至少包括患者的出入院病历信息、首次病程病历信息、病程病历信息以及治疗病历信息。
将多个阶段的子病历信息以及提示对话框作为预训练后的大模型的输入,以输出多个阶段的子病历信息分别对应的多个临床试验子方案。
将多个临床试验子方案进行合并,并调用预训练后的大模型对合并后的多个临床试验子方案以及提示对话框进行处理,得到临床试验方案。
图10示例了一种电子设备的实体结构示意图,该电子设备可以是智能终端,其内部结构图可以如图10所示。该电子设备包括通过***总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于大模型的临床试验智能招募方法,该方法包括:
获取临床试验数据,并通过临床试验数据对大模型进行预训练,以使大模型理解医学文本数据的不同场景,临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据;
调用预训练后的大模型对患者病历信息中的患者隐私信息进行识别,以对患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录;
将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
另一方面,本发明还提供了一种计算机存储介质,存储有计算机程序,计算机程序被处理器执行时实现基于大模型的临床试验智能招募方法,该方法包括:
获取临床试验数据,并通过临床试验数据对大模型进行预训练,以使大模型理解医学文本数据的不同场景,临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据;
调用预训练后的大模型对患者病历信息中的患者隐私信息进行识别,以对患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录;
将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案。
又一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令时实现基于大模型的临床试验智能招募方法,该方法包括:
获取临床试验数据,并通过临床试验数据对大模型进行预训练,以使大模型理解医学文本数据的不同场景,临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据;
调用预训练后的大模型对患者病历信息中的患者隐私信息进行识别,以对患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录;
将脱敏处理后的患者病历信息以及提示对话框作为预训练后的大模型的输入,以按照提示对话框的答案模板输出与患者病历信息匹配的临床试验方案。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于大模型的临床试验智能招募方法,其特征在于,所述方法包括:
获取临床试验数据,并通过所述临床试验数据对大模型进行预训练,以使所述大模型理解医学文本数据的不同场景,所述临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据;
调用预训练后的所述大模型对所述患者病历信息中的患者隐私信息进行识别,以对所述患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录;
将脱敏处理后的患者病历信息以及提示对话框作为预训练后的所述大模型的输入,以按照所述提示对话框的答案模板输出与所述患者病历信息匹配的临床试验方案。
2.根据权利要求1所述的基于大模型的临床试验智能招募方法,其特征在于,所述大模型至少包括开源大模型Llama2;
所述获取临床试验数据,并通过所述临床医学试验数据对大模型进行预训练,以使所述大模型理解医学文本数据的不同场景,包括:
对所述临床试验数据进行预处理,得到所述医学文本数据,并基于所述医学文本数据构建训练数据集,所述预处理至少包括数据清洗、数据过滤以及缺失值填充;
通过所述训练数据集对所述开源大模型Llama2进行预训练,以使预训练后的所述开源大模型Llama2理解所述医学文本数据的语境和含义。
3.根据权利要求1所述的基于大模型的临床试验智能招募方法,其特征在于,所述调用预训练后的所述大模型对所述患者病历信息中的患者隐私信息进行识别,以对所述患者病历信息进行脱敏处理,包括:
将所述患者病历信息作为预训练后的所述大模型的输入,以调用预训练后的所述大模型识别出所述患者病历信息中的患者隐私信息,所述患者隐私信息至少包括患者身份信息;
将所述患者病历信息中的所述患者隐私信息替换为同等长度的替换符,以对所述患者病历信息进行脱敏处理。
4.根据权利要求1所述的基于大模型的临床试验智能招募方法,其特征在于,所述将脱敏处理后的患者病历信息以及提示对话框作为预训练后的所述大模型的输入,以按照所述提示对话框的答案模板输出与所述患者病历信息匹配的临床试验方案,之前包括:
获取脱敏处理后的多个历史患者病历信息以及每个历史患者病历信息对应的历史临床试验方案;
将所述历史患者病历信息作为预训练后的所述大模型的输入,并将所述历史患者病历信息对应的历史临床试验方案作为预训练后的所述大模型的输出,对预训练后的所述大模型进行训练。
5.根据权利要求4所述的基于大模型的临床试验智能招募方法,其特征在于,所述将脱敏处理后的患者病历信息以及提示对话框作为预训练后的所述大模型的输入,以按照所述提示对话框的答案模板输出与所述患者病历信息匹配的临床试验方案,之前还包括:
基于所述历史临床试验方案生成所述答案模板,并根据所述答案模板构建所述提示对话框;
将所述提示对话框作为预训练后的所述大模型的输入,并将所述历史临床试验方案作为预训练后的所述大模型的输出,对预训练后的所述大模型进行训练,以使预训练后的所述大模型按照所述提示对话框的答案模板输出临床试验方案。
6.根据权利要求5所述的基于大模型的临床试验智能招募方法,其特征在于,所述将脱敏处理后的患者病历信息以及提示对话框作为预训练后的所述大模型的输入,以按照所述提示对话框的答案模板输出与所述患者病历信息匹配的临床试验方案,包括:
获取脱敏处理后的当前患者病历信息,所述脱敏处理后的当前患者病历信息至少包括当前患者的出入院记录、首次病程记录、病程记录以及治疗记录;
将所述脱敏处理后的当前患者病历信息作为预训练后的所述大模型的输入,以调用预训练后的所述大模型按照所述提示对话框的答案模板输出与所述脱敏处理后的当前患者病历信息匹配的当前临床试验方案。
7.根据权利要求1至6任一项所述的基于大模型的临床试验智能招募方法,其特征在于,所述方法还包括:
对所述患者病历信息进行划分,以获取多个阶段的子病历信息,所述子病历信息至少包括患者的出入院病历信息、首次病程病历信息、病程病历信息以及治疗病历信息;
将所述多个阶段的子病历信息以及提示对话框作为预训练后的所述大模型的输入,以输出所述多个阶段的子病历信息分别对应的多个临床试验子方案;
将所述多个临床试验子方案进行合并,并调用预训练后的所述大模型对合并后的所述多个临床试验子方案以及所述提示对话框进行处理,得到所述临床试验方案。
8.一种基于大模型的临床试验智能招募装置,其特征在于,所述装置包括:
模型预训练模块,用于获取临床试验数据,并通过所述临床试验数据对大模型进行预训练,以使所述大模型理解医学文本数据的不同场景,所述临床试验数据至少包括临床试验信息、患者病历信息、医学文献以及医学知识库数据;
信息脱敏模块,用于调用预训练后的所述大模型对所述患者病历信息中的患者隐私信息进行识别,以对所述患者病历信息进行脱敏处理,脱敏处理后的患者病历信息至少包括患者的出入院记录、首次病程记录、病程记录以及治疗记录;
临床试验招募模块,用于将脱敏处理后的患者病历信息以及提示对话框作为预训练后的所述大模型的输入,以按照所述提示对话框的答案模板输出与所述患者病历信息匹配的临床试验方案。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202410406985.1A 2024-04-07 2024-04-07 基于大模型的临床试验智能招募方法及装置 Active CN117995340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410406985.1A CN117995340B (zh) 2024-04-07 2024-04-07 基于大模型的临床试验智能招募方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410406985.1A CN117995340B (zh) 2024-04-07 2024-04-07 基于大模型的临床试验智能招募方法及装置

Publications (2)

Publication Number Publication Date
CN117995340A true CN117995340A (zh) 2024-05-07
CN117995340B CN117995340B (zh) 2024-06-25

Family

ID=90896276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410406985.1A Active CN117995340B (zh) 2024-04-07 2024-04-07 基于大模型的临床试验智能招募方法及装置

Country Status (1)

Country Link
CN (1) CN117995340B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680676A (zh) * 2017-09-26 2018-02-09 电子科技大学 一种基于电子病历数据驱动的妊娠期糖尿病预测方法
CN114913942A (zh) * 2022-04-18 2022-08-16 北京健康之家科技有限公司 患者招募项目智能匹配方法及装置
CN115527678A (zh) * 2022-10-24 2022-12-27 中国人民解放军总医院 融合病历文本的Nomogram ICU老年疾病风险评分模型、装置、及其建立方法
CN115831298A (zh) * 2023-02-22 2023-03-21 北京肿瘤医院(北京大学肿瘤医院) 基于医院管理信息***的临床试验患者招募方法及装置
WO2023240846A1 (zh) * 2022-06-16 2023-12-21 康键信息技术(深圳)有限公司 基于人工智能的药品推荐方法、装置、设备及存储介质
CN117352112A (zh) * 2023-10-12 2024-01-05 北京遥领医疗科技有限公司 临床试验受试者招募方法及招募***
CN117438025A (zh) * 2023-12-19 2024-01-23 南京江北新区生物医药公共服务平台有限公司 一种基于深度学习的单病种电子病历数据库构建方法
WO2024042350A1 (zh) * 2022-08-24 2024-02-29 Evyd科技有限公司 医疗文本数据脱敏方法、装置、介质及电子设备
CN117637097A (zh) * 2023-12-06 2024-03-01 厦门狄耐克物联智慧科技有限公司 基于大模型的门诊问诊对话生成电子病历的方法及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680676A (zh) * 2017-09-26 2018-02-09 电子科技大学 一种基于电子病历数据驱动的妊娠期糖尿病预测方法
CN114913942A (zh) * 2022-04-18 2022-08-16 北京健康之家科技有限公司 患者招募项目智能匹配方法及装置
WO2023240846A1 (zh) * 2022-06-16 2023-12-21 康键信息技术(深圳)有限公司 基于人工智能的药品推荐方法、装置、设备及存储介质
WO2024042350A1 (zh) * 2022-08-24 2024-02-29 Evyd科技有限公司 医疗文本数据脱敏方法、装置、介质及电子设备
CN115527678A (zh) * 2022-10-24 2022-12-27 中国人民解放军总医院 融合病历文本的Nomogram ICU老年疾病风险评分模型、装置、及其建立方法
CN115831298A (zh) * 2023-02-22 2023-03-21 北京肿瘤医院(北京大学肿瘤医院) 基于医院管理信息***的临床试验患者招募方法及装置
CN117352112A (zh) * 2023-10-12 2024-01-05 北京遥领医疗科技有限公司 临床试验受试者招募方法及招募***
CN117637097A (zh) * 2023-12-06 2024-03-01 厦门狄耐克物联智慧科技有限公司 基于大模型的门诊问诊对话生成电子病历的方法及***
CN117438025A (zh) * 2023-12-19 2024-01-23 南京江北新区生物医药公共服务平台有限公司 一种基于深度学习的单病种电子病历数据库构建方法

Also Published As

Publication number Publication date
CN117995340B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
US11710571B2 (en) Long short-term memory model-based disease prediction method and apparatus, and computer device
CN110021439A (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110826908A (zh) 人工智能预测的评估方法、装置、存储介质及电子设备
CN110298030B (zh) 语义分析模型准确度的校验方法、装置、存储介质及设备
CN110210544B (zh) 图像分类方法、计算机设备和存储介质
CN112287068A (zh) 基于人工智能的问诊对话数据处理方法及装置
CN111832581A (zh) 肺部特征识别方法、装置、计算机设备及存储介质
CN112214607B (zh) 基于人工智能的交互方法、心理干预***、终端和介质
CN114974501A (zh) 基于人工智能的药品推荐方法、装置、设备及存储介质
CN110188813B (zh) 图像特征分类方法、计算机设备和存储介质
CN115050442A (zh) 基于挖掘聚类算法的病种数据上报方法、装置及存储介质
CN116612879B (zh) 诊断结果预测方法、装置、电子设备及存储介质
Hasan et al. Improving Medical Image Decision‐Making by Leveraging Metacognitive Processes and Representational Similarity
CN117995340B (zh) 基于大模型的临床试验智能招募方法及装置
CN110705714B (zh) 深度学***台以及计算机设备
CN111783473A (zh) 医疗问答中最佳答案的识别方法、装置和计算机设备
KR102503609B1 (ko) 머신 러닝을 이용한 가상 환자 정보 생성 시스템 및 방법
KR102306953B1 (ko) 음성인식 기반 진료 지원 방법
Meshram et al. Development And Analysis Of Deep Learning Model Based On Multiclass Classification Of Retinal Image For Early Detection Of Diabetic Retinopathy
CN112651397A (zh) 检查单分类方法、装置、计算机设备和存储介质
CN117995426A (zh) 医疗知识图谱构建方法、装置、电子设备及存储介质
CN112541085B (zh) 问卷的结构化方法、问卷的结构化装置及存储介质
CN117995347B (zh) 病历内涵质控方法、装置、电子设备及存储介质
CN117995346B (zh) 病历质控优化方法、装置、电子设备及存储介质
CN115544483A (zh) 一种验证方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant