CN116884559A

CN116884559A - 一种基于语言模型的影像报告生成方法和***

Info

Publication number: CN116884559A
Application number: CN202310898640.8A
Authority: CN
Inventors: 樊连玺; 董昢
Original assignee: Lianying Intelligent Medical Technology Beijing Co ltd
Current assignee: Lianying Intelligent Medical Technology Beijing Co ltd
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-13

Abstract

本说明书实施例提供一种基于语言模型的影像报告生成方法和***，该方法包括：获取预训练模型，预训练模型为经过预训练阶段得到的语言模型；基于预训练模型，确定生成模型，生成模型为经过微调阶段得到的语言模型；基于生成模型对医疗影像数据进行处理，确定影像报告。

Description

一种基于语言模型的影像报告生成方法和***

技术领域

本说明书涉及自然语言处理领域，特别涉及一种基于语言模型的影像报告生成方法和***。

背景技术

医学影像报告是指通过各种医学影像学技术所获得的影像资料，经过专业医学人员分析、诊断和评估，编写出的医学报告。医学影像报告是医生诊断和治疗疾病的重要依据，对于病人的诊断和治疗具有重要的指导作用。

但专业的医学影像报告可能涉及大量的医学术语、缩写和数字，这些内容对于普通患者来说可能非常难以理解。此外，专业的影像报告可能还包含复杂的解剖学和病理学知识，需要读者具备相关的医学背景知识才能够理解。这些因素都会使得患者难以读懂专业的影像报告，从而影响他们对自身疾病状态的认识和治疗方案的选择。

现有的生成医学影像报告的方法主要分为人工方法和计算机辅助的方法。传统的人工方法需要依赖医生的医学专业知识，因此容易受到医生的自身经验、情绪等主观因素的影响，导致判断结果不够客观，同时，人工方法需要消耗大量的时间和精力。计算机辅助的方法是指根据专业的医学知识体系构建医学影像资料与医学影像报告的映射关系表，进而通过计算机代码将医学影像资料映射为医学影像报告。该方法由于依赖固定的映射关系，所以难以覆盖大规模的现实应用环境，难以实现精准化。同时，难以对专业的医学影像报告进行解读并给出健康建议。

因此，亟需提出一种基于语言模型的影像报告生成方法和***，自动生成对于患者来说通俗易懂且具有人文关怀的影像报告。

发明内容

本说明书一个或多个实施例提供一种基于语言模型的影像报告生成方法，所述方法包括：获取预训练模型，所述预训练模型为经过预训练阶段得到的语言模型；基于所述预训练模型，确定生成模型，所述生成模型为经过微调阶段得到的语言模型；基于所述生成模型对医疗影像数据进行处理，确定所述影像报告。

在一些实施例中，所述获取预训练模型包括：获取初始第一训练集；对所述初始第一训练集进行处理，确定目标第一训练集；将所述目标第一训练集输入初始语言模型进行训练，获取所述预训练模型。

在一些实施例中，所述获取初始第一训练集包括：收集语料库数据，通过对所述语料库数据进行数据预处理，得到所述初始第一训练集；所述数据预处理至少包括数据清洗操作、数据整合操作、数据规范操作、数据重构操作中的至少一种。

在一些实施例中，所述对所述初始第一训练集进行处理，确定目标第一训练集，包括：对所述初始第一训练集进行文本预处理和训练集划分，以确定所述目标第一训练集。

在一些实施例中，所述基于所述预训练模型，确定生成模型包括：获取第二训练集；将所述第二训练集输入预训练模型进行训练，确定所述生成模型。

在一些实施例中，所述第二训练集包括带有标签的一类训练样本和二类训练样本，所述一类训练样本及其标签相关于第一医疗数据，所述二类训练样本及其标签相关于当前时间收集的第二医疗数据，所述二类训练样本的标签基于报告完成时间确定的实际影像报告进行标注，所述报告完成时间位于所述当前时间之后。

在一些实施例中，所述基于所述生成模型对医疗影像数据进行处理，确定所述影像报告包括：基于所述生成模型进行多轮处理，以确定所述影像报告；所述多轮处理包括：基于所述生成模型对医疗影像数据进行第一轮处理，确定初始影像报告；在后续轮次处理中，基于所述生成模型对前一轮输出的所述初始影像报告和补充输入进行处理，确定所述影像报告，所述补充输入由用户输入得到。

本说明书实施例之一提供一种基于语言模型的影像报告生成***，所述***包括：预训练模块，用于获取预训练模型，所述预训练模型为经过预训练阶段得到的语言模型；微调模块，用于基于所述预训练模型，确定生成模型，所述生成模型为经过微调阶段得到的语言模型；应用模块，用于基于所述生成模型对医疗影像数据进行处理，确定所述影像报告。

本说明书一个或多个实施例提供一种基于语言模型的影像报告生成装置，包括处理器，所述处理器用于执行基于语言模型的影像报告生成方法。

本说明书一个或多个实施例提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行基于语言模型的影像报告生成方法。

本说明书一些实施例至少包括如下有益效果：(1)通过生成模型对影像所见进行处理，生成影像结论和影像报告解读，自动将医疗影像数据生成专业的影像，以及将晦涩难懂的医学专业术语转化为通俗易懂且具有人文关怀的影像报告解读，帮助医生获取患者的病情，帮助患者对自身病情和医疗情况进行深入理解；(2)通过使用语言模型，可以将其本身的参数权重中编码的大量基于自然语言语料存储的常识性信息用于预检结果确定，相比仅从医学语料训练得到的模型，基于语言模型的***能够更好地生成患者能够理解的、通俗易懂且具有人文关怀的内容；(3)通过生成模型的多轮处理，可以不断优化影像结论，提高影像结论的完整性和准确性，有效降低模型在信息不充足情况下给出错误结论的可能性；通过提示工程可以提高生成模型的处理效果和性能，减少训练时间和成本，并提高模型的可解释性和可控性；(4)在预训练阶段使用海量的文本数据对语言模型进行训练，可以使语言模型学习语言的各种规律和结构；在微调阶段使用具体的训练样本及标签对预训练模型进行微调训练，可以将泛化的预训练模型训练为符合实际任务处理需求的生成模型，使生成模型适应个性化的、特定的任务。

附图说明

图1是根据本说明书一些实施例所示的基于语言模型的影像报告生成***的示例性模块图；

图2是根据本说明书一些实施例所示的基于语言模型的影像报告生成方法的示例性流程图；

图3是根据本说明书一些实施例所示的预训练阶段的示例性示意图；

图4是根据本说明书一些实施例所示的微调阶段的示例性示意图；

图5是根据本说明书一些实施例所示的生成模型通过多轮处理确定影像报告的示例性示意图。

具体实施方式

下面将对实施例描述中所需要使用的附图作简单的介绍。附图并不代表全部的实施方式。

本文使用的“***”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

语言模型是一种基于深度学习技术，使用大量文本数据进行训练的机器学习模型。它能够自动学习语言的规律和结构，从而能够生成高质量的文本内容，如文章、对话等。语言模型的训练过程可以分为预训练阶段和微调阶段。在预训练阶段，可以使用海量的文本数据对语言模型进行训练，如***、百度百科、新闻语料库等，使语言模型学习语言的各种规律和结构。在预训练完成后，可以对语言模型进行微调，以使其适应特定的任务，如自然语言理解、文本生成、机器翻译等。经过预训练的语言模型已经在自然语言处理领域得到了广泛的应用，如Google的BERT、OpenAI的GPT系列等。本发明旨在利用语言模型自动生成对于患者来说通俗易懂且具有人文关怀的影像报告。

图1是根据本说明书一些实施例所示的基于语言模型的影像报告生成***的示例性模块图。如图1所示，在一些实施例中，基于语言模型的影像报告生成***100可以包括预训练模块110、微调模块120和应用模块130。

预训练模块110用于获取预训练模型，预训练模型为经过预训练阶段得到的语言模型。

在一些实施例中，预训练模块110用于获取初始第一训练集；对初始第一训练集进行处理，确定目标第一训练集；将目标第一训练集输入初始语言模型进行训练，获取预训练模型。

在一些实施例中，预训练模块110用于收集语料库数据，通过对语料库数据进行数据预处理，得到初始第一训练集；所述数据预处理至少包括数据清洗操作、数据整合操作、数据规范操作、数据重构操作中的至少一种。

在一些实施例中，预训练模块110用于对初始第一训练集进行文本预处理和训练集划分，以确定目标第一训练集。

微调模块120用于基于预训练模型，确定生成模型，生成模型为经过微调阶段得到的语言模型。

在一些实施例中，微调模块120用于获取第二训练集；将第二训练集输入预训练模型进行训练，确定生成模型。

在一些实施例中，第二训练集包括带有标签的一类训练样本和二类训练样本，一类训练样本及其标签相关于第一医疗数据，二类训练样本及其标签相关于当前时间收集的第二医疗数据，二类训练样本的标签基于报告完成时间确定的实际影像报告进行标注，报告完成时间位于当前时间之后。

应用模块130用于基于生成模型对医疗影像数据进行处理，确定影像报告。

在一些实施例中，应用模块130用于基于生成模型进行多轮处理，以确定影像报告；多轮处理包括：基于生成模型对医疗影像数据进行第一轮处理，确定初始影像报告；在后续轮次处理中，基于生成模型对前一轮输出的初始影像报告和补充输入进行处理，确定影像报告，补充输入由用户输入得到。

关于预训练模型、生成模型、医疗影像数据、影像报告、初始影像报告、补充输入的更多内容，参见图2及其相关描述；关于预训练阶段、初始第一训练集、数据清洗、数据整合、目标第一训练集、文本预处理、训练集划分的更多内容，参见图2、图3及其相关描述；关于微调阶段、第二训练集、一类训练样本及其标签、二类训练样本及其标签、第一医疗数据、第二医疗数据、确定生成模型的更多内容，参见图2、图4、图5及其相关描述。

需要注意的是，以上对于基于语言模型的影像报告生成***100及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该***的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子***与其他模块连接。

图2是根据本说明书一些实施例所示的基于语言模型的影像报告生成方法的示例性流程图。在一些实施例中，流程200可以由处理器或基于语言模型的影像报告生成***100执行。例如，流程200可以以程序或指令的形式存储在存储装置中，当处理器或基于语言模型的影像报告生成***100执行该程序或指令时，可以实现流程200。如图2所示，流程200包括下述步骤：

步骤210，获取预训练模型，预训练模型为经过预训练阶段得到的语言模型。在一些实施例中，步骤210可以由处理器或预训练模块110执行。

在一些实施例中，预训练模型可以为经过预训练阶段得到的语言模型(LanguageModel，LM)。

在一些实施例中，预训练模型可以为经过预训练阶段得到的大语言模型。示例性的大语言模型包括BERT(Bidirectional Encoder Representation from Transformers)、GPT(Generative Pre-trained Transformer)、XLNet、ChatGLM-6B模型等。

预训练阶段指通过无监督学习方法，在大规模数据上训练语言模型的阶段。

无监督学习方法指语言模型通过阅读大量的未标注文本来学习语言的规律和语言表示方式的训练方式。例如，无监督学习方法有掩码语言建模(Masked LanguageModeling，MLM)、自回归语言建模(Autoregressive Language Modeling，ALM)等。在预训练过程中，语言模型可以学习到语言的上下文信息，例如句子的语法结构、单词之间的关系等。这些信息可以帮助语言模型更好地理解语言，并在后续任务中得到更好的表现。同时，预训练还可以减少在特定任务上所需要的标注数据量，降低训练成本。

预训练模型可以指在预训练数据集的基础上进行预训练得到的语言模型或大语言模型。预训练数据集可以是通用文本语料库。预训练数据集可以由无数的文本源组成，包括书籍、文章和网站。这些数据经过精心策划，以确保全面反映人类知识、语言细微差别和文化观点。预训练数据集通常是大规模的数据集，包含丰富的特征和样本。

预训练模型适用于多种场景，实际应用时通过微调训练可以得到专用于特定任务的语言模型或大语言模型。

在一些实施例中，预训练模块110可以通过网络直接获取现有的预训练好的预训练模型。例如，可以将BERT、GPT或XLNet作为预训练模型。

在一些实施例中，预训练模块110可以通过预训练得到预训练模型。例如，可以用预训练数据对GPT进行训练，也可使用监督微调、反馈自助、人类反馈强化学习等技术对GPT的语言表达能力做进一步的提升。

在一些实施例中，预训练模块110可以通过获取初始第一训练集，并对初始第一训练集进行处理，获取预训练模型。更多内容参见图3及其相关描述。

步骤220，基于预训练模型，确定生成模型，生成模型为经过微调阶段得到的语言模型。在一些实施例中，步骤220可以由处理器或微调模块120执行。

在一些实施例中，生成模型可以为经过微调阶段得到的语言模型。在一些实施例中，生成模型可以为经过微调阶段得到的语言模型。

微调阶段指通过有监督学习方法，基于特定任务对经过预训练阶段的语言模型进行微调的阶段。

有监督学习方法指经过预训练阶段的语言模型基于特定任务的有标注数据进行训练的训练方式。

在一些实施例中，微调模块120通过各种微调策略，对经过预训练阶段的语言模型或大语言模型进行微调，确定生成模型。例如，微调策略包括适应性微调(Adaptive Fine-tuning)、多任务学习(Multi-task Learning)等。

在一些实施例中，微调模块120可以通过获取第二训练集，将第二训练集输入预训练模型进行训练，确定生成模型。更多内容参见图4及其相关描述。

步骤230，基于生成模型对医疗影像数据进行处理，确定影像报告。在一些实施例中，步骤230可以由处理器或应用模块130执行。

医疗影像数据指在诊疗过程中生成的各种与医疗影像相关的信息数据。在一些实施例中，医疗影像数据可以包括通过各种扫描方式得到的医疗影像，如CT图像、PCT图像、MRI图像、超声图像等。

在一些实施例中，应用模块130还可以将影像所见输入生成模型。在一些实施例中，应用模块130可以仅将影像所见输入生成模型。在一些实施例中，应用模块130可以仅将医疗影像数据输入生成模型。在一些实施例中，应用模块130可以将医疗影像数据和影像所见输入生成模型。

影像所见指由专业的医学术语、缩写、数字等对医疗影像中所观察到的病变、异常表现、结构变化等影像特征进行的描述。

在一些实施例中，影像所见可以包括感兴趣区域的影像学表现、大小、位置、数量、形态、密度、强度等方面的描述。例如，影像所见可以是：“右中叶内侧段见直径约4mm结节影。左肺上叶后段及下叶胸膜局部增厚，局部可见条片及索条，下叶后基底段见略不规则软组织密度灶相连，大小约1.2cm×0.9cm。右肺胸膜下见散在点片及索条，下叶外基底段胸膜下见结节状增厚。双肺支气管血管束走行、分布未见异常，段及段以上支气管通畅。双侧胸腔未见积液。纵隔及双肺门未见肿大***。心脏形态未见异常。心包未见增厚，未见心包积液”。

影像报告指基于医疗影像数据生成的结论性报告。例如，总结医疗影像数据所反映的病情的报告。

在一些实施例中，影像报告包括影像结论和影像报告解读中的至少一种。

影像结论指医生对于影像所见进行诊断和评估的结论。在一些实施例中，影像结论可以包括由专业的医学术语等对疾病名称、病变性质、程度、分型、部位、大小、范围等方面的描述。例如，上述示例中影像所见对应的影像结论可以是：“右中叶内侧段、下叶后基底段小结节，必要时追随。左侧胸膜病变并肺内改变，陈旧病灶。请结合临床，必要时进一步检查。双肺少许陈旧病变”。

影像报告解读指对影像结论进行解读，将专业复杂的医学术语以通俗易懂的方式进行展现。

在一些实施例中，影像报告解读中可以包括对影像结论中涉及的医学专业名词、疾病的病因、治疗方法、预后(如，根据经验预测的疾病发展情况)等相关内容的通俗解释，还包括对患者生活上的健康建议，让患者感受到关怀和支持。例如，上述示例中影像结论对应的影像报告解读可以是：“您好，根据您的影像检查结果，发现您右肺的中叶内侧段和下叶后基底段出现了小结节，这些结节通常是无症状的，但在一些情况下，它们可能会导致呼吸困难、咳嗽、胸痛等症状。在大多数情况下，肺部小结节是良性的，但有时候也可能是恶性的，需要进一步的测试和诊断。治疗通常取决于结节的类型和大小，以及是否存在其他肺部疾病的存在。需要进一步追随观察。同时，左侧胸膜也有病变并且有肺内改变，这些是陈旧性病灶。双肺还有少许陈旧病变。建议您结合临床情况，进一步检查明确病因。同时，建议您保持良好的生活习惯，避免吸烟和被动吸烟，保持良好的饮食和作息习惯，增强身体免疫力。如果有任何疑问或需要进一步了解，请咨询您的主治医生”。

在一些实施例中，影像报告可以由医生等专业人员根据医疗影像数据人为确定。例如，医生基于临床病史、体格检查、实验室检查和其他相关检查结果综合评估，确定影像结论，并进一步以通俗易懂的方式调整表述，给出影像报告解读。

在一些实施例中，应用模块130可以基于生成模型对医疗影像数据和/或影像所见进行处理，确定影像报告。

在一些实施例中，生成模型的输入包括医疗影像数据和/或影像所见，输出包括影像报告。例如，生成模型的输入可以是医疗影像和/或影像所见，输出可以包括影像结论和影像报告解读。

在一些实施例中，生成模型的输入还可以包括历史信息序列。历史信息序列指由患者的历史患病信息、历史诊断信息等历史信息构成的信息序列，历史信息序列以文本的方式展现。

在一些实施例中，应用模块130可以通过提示工程(Prompt Engineering)构建一种或多种提示语，将提示语输入生成模型，以最大化模型的表达能力。在一些实施例中，应用模块130可以基于提示工程确定不同医疗影像数据对应的指令(即生成模型的任务目标)、上下文背景(模型的外部信息)、问题(让模型输出的具体内容)、输出格式要求(对模型输出结果的格式要求)等，将获取的指令、上下文背景、问题、输出格式要求确定为提示语。例如，提示语可以是“你是一位影像科医生，请将影像所见用通俗的语言解释给患者”

在一些实施例中，通过人工输入或应用模块130自动生成的方式，提前设置多种提示语。

在一些实施例中，应用模块130可以通过搜索方法，选取最优的提示语作为生成模型的输入，其中，搜索方法包括但不限于随机搜索、贪心搜索、强化学习搜索等。

在一些实施例中，生成模型可以通过与用户进行多轮交互，确定影像结论。

如图5所示，在一些实施例中，应用模块130基于生成模型进行多轮处理，以确定影像报告；多轮处理包括：基于生成模型对医疗影像数据和/或影像所见进行第一轮处理，确定初始影像报告；在后续轮次处理中，基于生成模型对前一轮输出的初始影像报告和补充输入进行处理，确定影像报告，补充输入由用户输入得到。

如图5所示，在第一轮处理中，应用模块130将医疗影像数据511和/或影像所见512输入生成模型520，生成模型520对医疗影像数据511和/或影像所见512进行处理，输出初始影像报告1，此时便完成了第一轮处理。

初始影像报告指经过生成模型处理后存在缺陷，仍旧需要生成模型进行再次处理的影像报告。缺陷包括初始影像报告内容不完整、初始影像报告部分内容有误等。

在一些实施例中，用户可以根据生成模型输出的影像报告进行评估，从而确定生成模型输出的影像报告是否存在缺陷。

如图5所示，在第二轮处理中，应用模块130将前一轮处理输出的初始影像报告1，以及补充输入1输入生成模型520，生成模型520输出初始影像报告2；在第三轮处理中，应用模块130将前一轮处理输出的初始影像报告2，以及补充输入2输入生成模型520，生成模型520输出初始影像报告3(图中未示出)；依此方式进行多轮处理，直至第n轮处理中，将初始影像报告n和补充输入n输入生成模型520后，输出的影像报告530不存在缺陷，则将该影像报告530作为生成模型的最终输出。

补充输入指用户补充输入的相关信息。示例性的输入方式包括通过提示用户输入自身症状的文本描述、语音描述、拍摄图像等方式中的一种或多种。

在一些实施例中，补充输出可以与生成模型在前一轮处理中输出的初始影像报告相关。例如，补充输入包括前一轮处理输出的初始影像报告的评价(如，存在缺陷)、新增的相关信息(如，新增的与患者最近病情相关的信息或缺陷对应的影像所见)等。其中，缺陷对应的影像所见可以由医生判断确定。

在一些实施例中，补充输入可以以提示语的方式输入生成模型。关于提示语的更多内容参见前文。

在本说明书的一些实施例中，通过生成模型对影像所见进行处理，生成影像结论和影像报告解读，自动将医疗影像数据生成专业的影像，以及将晦涩难懂的医学专业术语转化为通俗易懂且具有人文关怀的影像报告解读，帮助医生获取患者的病情，帮助患者对自身病情和医疗情况进行深入理解；通过使用语言模型，可以将其本身的参数权重中编码的大量基于自然语言语料存储的常识性信息用于预检结果确定，相比仅从医学语料训练得到的模型，基于语言模型的***能够更好地生成患者能够理解的、通俗易懂且具有人文关怀的内容；通过生成模型的多轮处理，可以不断优化影像结论，提高影像结论的完整性和准确性，有效降低模型在信息不充足情况下给出错误结论的可能性；通过提示工程可以提高生成模型的处理效果和性能，减少训练时间和成本，并提高模型的可解释性和可控性。

图3是根据本说明书一些实施例所示的预训练阶段的示例性示意图。

在一些实施例中，预训练模块110获取初始第一训练集；对初始第一训练集进行处理，确定目标第一训练集；将目标第一训练集输入初始语言模型进行训练，获取预训练模型。

初始第一训练集指用于预训练阶段的大量未标注的文本数据。初始第一训练集覆盖多种文本类型和主题领域，例如，新闻、社交媒体、文学作品、科学论文等。初始第一训练集也称为预训练数据集。关于预训练数据集的更多说明参见图2。

在一些实施例中，预训练模块110可以收集语料库数据，将该语料库数据直接作为初始第一训练集。

在一些实施例中，预训练模块110可以通过在互联网中爬取文字语料的方式，收集语料库数据。

在一些实施例中，预训练模块110通过下述步骤S11-S13爬取文字语料：

S11、确定需要爬取的网站、页面或者特定数据，不限制语言；

S12、使用编程语言(如，Python等)，在代码中编写爬虫程序，通过网络请求获取网页的源代码；

S13、使用解析工具(如，HTML解析器、正则表达式等)对网页源代码进行解析，提取出所需的文字数据，获得文字语料。

在一些实施例中，参见图3，预训练模块110可以收集语料库数据，通过对语料库数据310进行数据预处理，得到初始第一训练集320。关于收集语料库数据的更多内容参见前文。

在一些实施例中，数据预处理至少包括数据清洗操作、数据整合操作、数据规范操作、数据重构操作中的至少一种。

数据清洗操作指去除收集到的语料库数据中不必要的数据。数据清洗操作包括去除隐私信息、去除无用的标签、去除重复数据、去除错误数据等。数据清洗操作可以使得数据更加规范、干净、完整和可靠。

数据整合操作指将若干个具有不同格式、命名和来源的数据源整合到一个统一的数据集中。数据整合操作的方法包括表格融合、特征融合、数据并行处理、协同过滤等。

数据规范操作指将若干个具有不同格式、命名和来源的数据进行统一规范化处理。在一些实施例中，数据规范操作包括元数据管理、数据命名规则、数据类型和格式控制等。通过格式控制可以将完成数据清洗操作的语料库数据的格式进行统一处理。

在一些实施例中，预训练模块110可以将语料库数据转换为语言模型所需的格式，以便语言模型能够进行训练。语言模型所需的格式包括但不限于TFRecord格式。

数据重构操作是指对数据的形式进行重组、转化或转型。数据重构操作可以将表结构进行调整，在不影响数据意义的前提下对数据进行功能性增强或优化。在一些实施例中，数据重构操作包括数据分流、数据合并、数据转换和数据聚合。

在本说明书的一些实施例中，通过对语料库数据进行数据清洗操作和数据整合操作，可以使得获取到的初始第一训练集的质量更高，提高后续模型处理第一训练集时的效率和准确度。

目标第一训练集指对初始第一训练集优化处理后得到的，用于训练初始语言模型的数据集。

在一些实施例中，预训练模块110通过各种可行的数据处理方式，对初始第一训练集进行优化处理，确定目标第一训练集。

在一些实施例中，参见图3，预训练模块110对初始第一训练集320进行文本预处理和训练集划分，以确定目标第一训练集330。

文本预处理指对初始第一训练集的文本进行处理。文本预处理包括去除停用词、进行词向量表示等。

训练集划分指根据使用目的将初始第一训练集划分为不同的子集。例如，训练集划分包括将初始第一训练集划分为训练集、验证集和测试集等。

在一些实施例中，初始语言模型可以使用划分后的初始第一训练集执行不同的任务。例如，初始语言模型可以使用训练集进行模型的训练，利用验证集验证初始语言模型的训练成果，利用测试集测试使用训练好的预训练模型等。

在本说明书的一些实施例中，通过对初始第一训练集进行文本预处理，方便语言模型能够更好地处理文本；通过对初始第一训练集进行训练集划分，可以使得语言模型能够在不同的数据集上进行验证和测试，提高模型训练的效率。

在一些实施例中，参见图3，预训练模块110将目标第一训练集330输入初始语言模型340，通过无监督学习方法进行训练，获取预训练模型350。关于无监督学习方法的更多内容，参见图2及其相关描述。

在本说明书的一些实施例中，通过对初始第一训练集进行数据清洗、数据整合、文本预处理、训练集划分一系列操作，获得高质量的目标第一训练集，可以有效提高训练初始语言模型的效率，进一步保证了获取到的预训练模型的适用性。并且，预训练可以帮助初始语言模型更好地理解语言，从而在后续任务中更高效地确定影像报告，同时，预训练还可以减少在特定任务上所需要的标注数据量，降低了训练成本。

图4是根据本说明书一些实施例所示的微调阶段的示例性示意图。

在一些实施例中，参见图4，微调模块120获取第二训练集410；将第二训练集410输入预训练模型420进行训练，确定生成模型430。

第二训练集指用于微调阶段的训练数据。

在一些实施例中，第二训练集包括医疗影像数据(例如，影像所见)及其对应的影像报告(包括影像结论和影像报告解读)。

在一些实施例中，微调模块120可以从各个医院的数据库中获取数据，并作为第二训练集。

在一些实施例中，微调模块120可以基于第二训练集中的影像报告解读和影像结论标注为对应影像所见的标签。

在一些实施例中，第二训练集包括带有标签的一类训练样本和二类训练样本。

在一些实施例中，一类训练样本及其标签相关于第一医疗数据。

第一医疗数据指已经完成医疗检查流程后得到的，与医学影像数据相关的信息数据。已经完成医疗检查流程是指获取医疗影像数据(如，影像所见)后，医生或相关人员已经完成对影像所见的评估，获得影像报告。

在一些实施例中，第一医疗数据包括历史医学影像数据及其对应的历史影像结论和历史影像报告解读。

第一医疗数据可以基于历史数据确定。在一些实施例中，微调模块120通过医院的电子病历***或者影像数据库获取第一医疗数据。例如，可以将患者的历史医学影像数据及其对应的历史影像结论、历史影像报告解读等作为第一医疗数据。

在一些实施例中，微调模块120可以基于第一医疗数据确定一类训练样本及其标签。例如，微调模块120可以获取第一医疗数据中的历史医疗影像数据及其对应的历史影像结论和历史影像报告解读，将历史医疗影像数据作为一类训练样本，并将历史医疗影像数据对应的历史影像结论和历史影像报告解读作为一类训练样本的标签。

在一些实施例中，二类训练样本及其标签相关于当前时间收集的第二医疗数据。

第二医疗数据指尚未完成医疗检查流程时得到的，与医学影像数据相关的信息数据。尚未完成医疗检查流程是指当前时间获取医疗影像数据(如，影像所见)后，医生或相关人员尚未完成对影像所见的评估，即尚未获得影像报告。

在一些实施例中，第二医疗数据包括医学影像数据。

在一些实施例中，二类训练样本的标签基于报告完成时间确定的实际影像报告进行标注。

报告完成时间是指医生等完成对第二医疗数据中的医学影像数据的评估的时间。在一些实施例中，报告完成时间位于获取第二医疗数据的当前时间之后。

在一些实施例中，微调模块120通过医院的影像科室或医生的协助，确定患者预约的检查时间，等待患者完成医疗检查流程，获取第二医疗数据对应的实际影像报告。例如，可以确定医生完成对医疗影像数据进行评估的报告完成时间，到达报告完成时间后，获取医学影像数据对应的实际影像报告，将该实际影像报告标注为医疗影像数据的标签，以得到第二医疗数据。

在一些实施例中，微调模块120可以基于第二医疗数据确定二类训练样本及其标签。例如，微调模块120可以获取第二医疗数据中的医疗影像数据及其对应的影像结论和影像报告解读，将医疗影像数据作为二类训练样本，并将医疗影像数据对应的影像结论和影像报告解读作为二类训练样本的标签。

在本说明书的一些实施例中，第二训练集包含基于报告完成时间确定的实际影像报告作为标签，可以为模型训练提供更及时的信息，确保最终训练得到的生成模型的更适用于当前情况。

在一些实施例中，在应用第二训练集进行训练之前，微调模块120还对第二训练集进行数据清洗操作和数据整合操作。

微调模块120对第二训练集进行数据清洗操作和数据整合操作，与预训练模块110对语料库数据进行数据清洗操作和数据整合操作相同，更多内容参见图2及其相关描述。

在一些实施例中，微调模块120可以对第二训练集的内容质量进行核查。例如，影像所见应完整地对医疗影像中的病灶进行描述，避免出现遗漏。又例如，影像结论应与影像所见中的描述有严格的对应关系，避免出现错误。

在本说明书的一些实施例中，通过对第二训练集进行数据清洗操作和数据整合操作，可以使得用于训练的第二训练集的质量更高，提高后续模型处理第二训练集时的效率和准确度，进一步保证生成模型的适用性；并且，对第二训练集的内容质量进行核查，可以避免由于第二训练集本身存在问题，导致用于训练过程中也存在问题，从而使得生成模型的相关参数不准确，影响影像报告的准确性的情况。

在一些实施例中，在生成模型的微调阶段，微调模块120可以将带有标签的一类训练样本输入预训练模型中进行训练，得到训练好的生成模型。例如，可以将多个带有标签的一类训练样本输入预训练模型，通过标签和预训练模型的输出构建损失函数，基于损失函数通过梯度下降或其他方法迭代更新预训练模型的模型参数。当满足预设条件时模型训练完成，得到训练好的生成模型。其中，预设条件可以是损失函数收敛、迭代的次数达到阈值等。

在一些实施例中，预训练模型的模型参数包括多个权重矩阵，不同权重矩阵在模型中承担不同作用。例如，预训练模型中的模型参数包括Attention模块里的多个权重矩阵、MLP(Multilayer Perceptron)层里的多个权重矩阵等。

预训练模型在训练过程中，可以基于损失函数确定权重更新矩阵，利用权重更新矩阵对预训练模型的原始权重矩阵进行训练更新。原始权重矩阵指预训练模型未进行训练前原有的权重矩阵。在一些实施例中，权重更新矩阵可以通过损失函数的负梯度乘以学习率得到。示例性的计算公式如下：

式中，ΔW为权重更新矩阵，α为学习率，为损失函数的负梯度。

示例性的更新原始权重矩阵的方式如下：

W′＝W+ΔW

式中，W为原始权重矩阵，W′为更新后的权重矩阵。

重复上述方式可以迭代更新预训练模型的权重矩阵，直到满足预设条件时训练完成，确定生成模型。

考虑到语言模型的巨大参数量，以及有限的算力资源，在微调模型阶段可以使用包括但不限于LoRA(Low-Rank Adaptation of Large Language Models)技术，LoRA技术可冻结预训练模型的权重并在每个Transformer块中注入可训练层(秩-分解矩阵)。因为不需要为大多数模型权重计算梯度，所以大大减少了需要训练参数的数量并且降低了GPU的内存要求。

在一些实施例中，微调模块120可以在预训练模型420中构建新增线性层423，将第二训练集410分别输入预训练模型420中的原始结构层421和新增线性层423，基于第二训练集410对预训练模型420进行训练；训练过程中，保持原始结构层421的第一权重矩阵422不变，同时对新增线性层423的第二权重矩阵424进行训练，得到训练好的第二权重矩阵426；基于第一权重矩阵422和训练好的第二权重矩阵426，得到训练好的生成模型430。其中，第一权重矩阵422和第二权重矩阵424的加和结果为未构建线性层的预训练模型的原始权重矩阵。

在一些实施例中，新增线性层423包括第一线性层423-1和第二线性层423-2。第一线性层423-1用于对第二权重矩阵424进行降维处理，以得到低秩矩阵。第二线性层423-2用于对低秩矩阵进行升维处理，以还原第二权重矩阵原本的维度。

在一些实施例中，对新增线性层423的第二权重矩阵423进行训练的过程包括下述步骤S21-步骤S24：

步骤S21、利用第一线性层423-1对第二权重矩阵424进行降维处理，得到至少两个子权重矩阵425。子权重矩阵指基于具有完整秩的权重更新矩阵进行降维处理后，得到的低秩矩阵。例如，第一线性层423-1对第二权重矩阵424进行降维处理，可以生成至少两个子权重矩阵425(例如，子权重矩阵A和子权重矩阵B)，至少两个子权重矩阵425(子权重矩阵A和子权重矩阵B)的乘积为第二权重矩阵424。

步骤S22、基于第二训练集410对至少两个子权重矩阵425进行迭代更新，得到训练好的至少两个子权重矩阵。例如，可以分别对子权重矩阵A和子权重矩阵B进行迭代更新，直到满足预设条件时停止迭代，得到训练好的子权重矩阵A和子权重矩阵B；

步骤S23、通过第二线性层423-2对训练好的至少两个子权重矩阵进行升维处理，得到训练好的第二权重矩阵426。例如，可以将训练好的子权重矩阵A和子权重矩阵B输入第二线性层423-2中进行升维处理，以还原第二权重矩阵424原本的维度，得到训练好的第二权重矩阵426。

步骤S24、基于第一权重矩阵422和训练好的第二权重矩阵426，得到训练好的生成模型430。例如，可以将第一权重矩阵422和训练好的第二权重矩阵426相加，得到训练好的权重矩阵427，进而得到生成模型430。

在一些实施例中，在生成模型的应用过程中，微调模块120可以在获取二类训练样本对应的标签后，将带有标签的二类训练样本输入生成模型中进行训练，以对生成模型的参数进行优化更新。基于带有标签的二类训练样本对生成模型的参数进行优化更新的过程与基于带有标签的一类训练样本对预训练模型的参数进行优化更新的过程类似，在此不再赘述。

在本说明书的一些实施例中，在基于第二训练集确定生成模型时，通过保持预训练模型中原始结构层的第一权重矩阵不变，仅对第二权重矩阵进行降维处理后得到的低秩子权重矩阵进行训练更新，来确定生成模型，可以不需要计算梯度或维护大多数参数的优化器状态，只需要优化注入的、小得多的低秩权重矩阵，从而大大减少了需要训练参数的数量，并且降低了GPU的内存要求，节省算力成本和时间消耗。

本说明书的一些实施例中，在预训练阶段使用海量的文本数据对语言模型进行训练，可以使语言模型学习语言的各种规律和结构。在微调阶段使用具体的训练样本及标签对预训练模型进行微调训练，可以将泛化的预训练模型训练为符合实际任务处理需求的生成模型，使生成模型适应个性化的、特定的任务。

本说明书中的实施例仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以进行的各种修正和改变仍在本说明书的范围之内。

此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

如果本说明书引用材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

Claims

1.一种基于语言模型的影像报告生成方法，其特征在于，所述方法包括：

获取预训练模型，所述预训练模型为经过预训练阶段得到的语言模型；

基于所述预训练模型，确定生成模型，所述生成模型为经过微调阶段得到的语言模型；

基于所述生成模型对医疗影像数据进行处理，确定所述影像报告。

2.如权利要求1所述的方法，其特征在于，所述获取预训练模型包括：

获取初始第一训练集；

对所述初始第一训练集进行处理，确定目标第一训练集；

将所述目标第一训练集输入初始语言模型进行训练，获取所述预训练模型。

3.如权利要求2所述的方法，其特征在于，所述获取初始第一训练集包括：

收集语料库数据，通过对所述语料库数据进行数据预处理，得到所述初始第一训练集；所述数据预处理至少包括数据清洗操作、数据整合操作、数据规范操作、数据重构操作中的至少一种。

4.如权利要求2所述的方法，其特征在于，所述对所述初始第一训练集进行处理，确定目标第一训练集，包括：

对所述初始第一训练集进行文本预处理和训练集划分，以确定所述目标第一训练集。

5.如权利要求1所述的方法，其特征在于，所述基于所述预训练模型，确定生成模型包括：

获取第二训练集；

将所述第二训练集输入预训练模型进行训练，确定所述生成模型。

6.如权利要求5所述的方法，其特征在于，所述第二训练集包括带有标签的一类训练样本和二类训练样本，所述一类训练样本及其标签相关于第一医疗数据，所述二类训练样本及其标签相关于当前时间收集的第二医疗数据，所述二类训练样本的标签基于报告完成时间确定的实际影像报告进行标注，所述报告完成时间位于所述当前时间之后。

7.如权利要求1所述的方法，其特征在于，所述基于所述生成模型对医疗影像数据进行处理，确定所述影像报告包括：

基于所述生成模型进行多轮处理，以确定所述影像报告；所述多轮处理包括：

基于所述生成模型对医疗影像数据进行第一轮处理，确定初始影像报告；

在后续轮次处理中，基于所述生成模型对前一轮输出的所述初始影像报告和补充输入进行处理，确定所述影像报告，所述补充输入由用户输入得到。

8.一种基于语言模型的影像报告生成***，其特征在于，所述***包括：

预训练模块，用于获取预训练模型，所述预训练模型为经过预训练阶段得到的语言模型；

微调模块，用于基于所述预训练模型，确定生成模型，所述生成模型为经过微调阶段得到的语言模型；

应用模块，用于基于所述生成模型对医疗影像数据进行处理，确定所述影像报告。

9.一种基于语言模型的影像报告生成装置，包括处理器，其特征在于，所述处理器用于执行权利要求1-7中任意一项所述的基于语言模型的影像报告生成方法。

10.一种计算机可读存储介质，所述存储介质存储计算机指令，其特征在于，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1-7中任意一项所述的基于语言模型的影像报告生成方法。