CN117352120A

CN117352120A - 基于gpt的膝关节病变诊断智能自生成方法、装置及设备

Info

Publication number: CN117352120A
Application number: CN202310656118.9A
Authority: CN
Inventors: 张逸凌; 刘星宇
Original assignee: Longwood Valley Medtech Co Ltd
Current assignee: Longwood Valley Medtech Co Ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2024-01-05
Anticipated expiration: 2043-06-05
Also published as: CN117352120B

Abstract

本申请提供了基于GPT的膝关节病变诊断智能自生成方法、装置及设备，所述方法包括：将待诊断膝关节图像输入预训练的编码器，得到所述编码器输出的图像编码信息，所述编码器由Swin Transformer模型构建；将所述图像编码信息输入微调后的语言模型GPT，得到所述语言模型GPT自生成的诊断信息；所述编码器是基于第一目标样本图像进行粗训练并基于第二目标样本图像进行微调后得到的，所述语言模型GPT是基于所述第二目标样本图像微调得到的。本申请中，通过基于Swin Transformer模型构建的编码网络模型将膝关节图像编码为GPT可以识别的图像编码信息，从而解决了GPT难以处理膝关节图像信息的问题。

Description

基于GPT的膝关节病变诊断智能自生成方法、装置及设备

技术领域

本申请涉及医疗器械技术领域，具体而言，涉及基于GPT的膝关节病变诊断智能自生成方法、装置及设备。

背景技术

目前对于膝关节病变的发现方式主要是依靠X光的形式实现，即患者通过拍摄X光片，并由影像科医生进行阅片给出诊断的建议。但是随着中国老龄化程度的发展，以及影像科医生的缺乏，导致膝关节病变的人工诊断方式越来越难以满足需求。

GPT(Generative Pre-Trained Transformer)是一种基于深度学习的语言模型，可以生成自然语言文本，从而可以应用于膝关节病变的诊断；但是GPT主要基于输入的文字信息生成自然语言文本，难以处理患者膝关节图像。

发明内容

本申请解决的问题是很难解决GPT难以处理膝关节图像信息的问题。

为解决上述问题，本申请第一方面提供了基于GPT的膝关节病变诊断智能自生成方法，包括：

将待诊断膝关节图像输入预训练的编码器，得到所述编码器输出的图像编码信息，所述编码器由Swin Transformer模型构建；

将所述图像编码信息输入微调后的语言模型GPT，得到所述语言模型GPT自生成的诊断信息；

所述编码器是基于第一目标样本图像进行粗训练并基于第二目标样本图像进行微调后得到的，所述语言模型GPT是基于所述第二目标样本图像微调得到的，所述第一目标样本图像和所述第二目标样本图像用于指示任意对象的膝关节部位，所述第二目标样本图像具有标注的诊断信息。

进一步地，所述将待诊断膝关节图像输入预训练的编码器，得到所述编码器输出的图像编码信息之前，还包括：

获取所述第一目标样本图像，所述第一目标样本图像具有掩码MASK；

根据多组所述第一目标样本图像对所述编码器进行训练，得到粗训练后的编码器；

将所述第二目标样本图像输入所述编码器，得到所述编码器输出的图像编码信息；

将所述图像编码信息输入语言模型GPT，得到所述语言模型GPT自生成的预测诊断信息；

基于所述预测诊断信息和所述第二目标样本图像标注的诊断信息，确定所述编码器、所述语言模型GPT的整体损失；

根据所述整体损失同步调整所述编码器、所述语言模型GPT，直至所述整体损失收敛为止。

进一步地，所述根据多组所述第一目标样本图像对所述编码器进行训练，得到粗训练后的编码器，包括：

对所述第一目标样本图像进行Patch分割；

根据分割后的所述第一目标样本图像和所述掩码MASK，确定掩码样本图像；

将所述掩码样本图像输入所述编码器，得到掩码图像编码；

将分割后的所述第一目标样本图像输入所述编码器，得到样本图像编码；

以所述掩码图像编码为查询向量，对应的所述样本图像编码为正样本向量，其余组的所述样本图像编码为负样本向量，计算所述编码器的整体损失；

根据所述整体损失调整所述编码器，直至所述整体损失收敛为止。

进一步地，所述掩码MASK的掩蔽率大于50％。

进一步地，所述编码器的整体损失的计算公式为：

式中，q为查询向量，k为正样本向量，k_i为负样本向量，sim(q,k)为查询向量与正样本向量的相似度，sim(q,k_i)为查询向量与负样本向量的相似度，τ为温度参数。

进一步地，所述编码器包括线性嵌入层、第一重塑层、偶数个Swin Transformer模块和第二重塑层；

所述线性嵌入层改变输入的图像数据的维度；

所述第一重塑层改变所述图像数据的通道数；

多个所述Swin Transformer模块对所述图像数据进行特征提取，得到特征信息；

所述第二重塑层重新排列所述编码器的输出，得到所述图像编码信息。

进一步地，所述Swin Transformer模块包括：MLP模块和基于位移窗口的MSA模块，所述MSA模块和所述MLP模块前均具有归一化层，且所述MSA模块和所述MLP模块后均具有残差连接。

本申请第二方面提供了基于GPT的膝关节病变诊断智能自生成装置，其包括：

编码模块，其用于将待诊断膝关节图像输入预训练的编码器，得到所述编码器输出的图像编码信息，所述编码器由Swin Transformer模型构建；

语言模块，其用于将所述图像编码信息输入微调后的语言模型GPT，得到所述语言模型GPT自生成的诊断信息；

本申请第三方面提供了一种电子设备，其包括：存储器和处理器；

所述存储器，其用于存储程序；

所述处理器，耦合至所述存储器，用于执行所述程序，以用于：

本申请第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述所述的基于GPT的膝关节病变诊断智能自生成方法。

本申请中，通过基于Swin Transformer模型构建的编码网络模型将膝关节图像编码为GPT可以识别的图像编码信息，从而解决了GPT难以处理膝关节图像信息的问题。

本申请中，通过使用互结合的编码器和GPT模型，实现对于膝关节图像的病变进行自动化诊断，并自动输出诊断报告。一方面，减少单个病例医生的阅片时长；另一方面，降低医生的误诊情况。

本申请中，通过相互结合的编码器和GPT模型，实现膝关节图像病变的端到端训练和推理；在降低模型复杂度的同时，也降低了模型的推理时间，并且可以自动生成诊断报告。

附图说明

图1为根据本申请实施例的膝关节病变诊断智能自生成方法的流程图；

图2为根据本申请实施例的膝关节病变诊断智能自生成方法的模型架构图；

图3为根据本申请实施例的膝关节病变诊断智能自生成方法模型训练的流程图；

图4为根据本申请实施例的膝关节病变诊断智能自生成方法编码器粗训练的流程图；

图5为根据本申请实施例的膝关节病变诊断智能自生成方法连续SwinTransformer模块的架构图；

图6为根据本申请实施例的膝关节病变诊断智能自生成方法Swin Transformer模块的原理图；

图7为根据本申请实施例的膝关节病变诊断智能自生成方法损失确定的流程图；

图8为根据本申请实施例的膝关节病变诊断智能自生成装置的结构框图；

图9为根据本申请实施例的电子设备的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更为明显易懂，下面结合附图对本申请的具体实施例做详细的说明。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

膝关节的疾病给病人带来了很多的烦恼，在膝关节疾病形成之前，在膝关节的位置通常会出现一些形态的变化，如果能够在疾病的早期发现这些病变，并作为疾病的早期信号对疾病进行早期的预防和干预，则可以为病人带来极大的益处。

目前对于膝关节病变的发现方式主要是依靠X光的形式实现，即患者通过拍摄X光片，并由影像科医生进行阅片给出诊断的建议。但是随着中国老龄化程度的发展，以及影像科医生的缺乏，导致影像科医生长期处于高强度的工作压力下。这种状态，一方面不利于影像科医生的健康；另一方面，由于疲劳状态下的工作，也容易产生错误诊断的情况。

GPT(Generative Pre-Trained Transformer)是一种基于深度学习的语言模型，由Openai推出，它是在海量的无标签数据上进行预训练，然后使用有标签数据进行微调训练的一种方法。

但是GPT主要基于输入的文字信息生成自然语言文本，难以处理患者膝关节图像。

针对上述问题，本申请提供一种新的基于GPT的膝关节病变诊断智能自生成方案，能够基于Swin Transformer模型将膝关节图像编码为GPT可以识别的编码信息，解决GPT难以处理膝关节图像信息的问题。

为了便于理解，在此对下述可能使用的术语进行解释：

端到端学习：(End-To-End Learning)，也称端到端训练，是指在学习过程中不进行分模块或分阶段训练，直接优化任务的总体目标。

Teacher-Forcing：在训练网络过程中，每次不使用上一个时间步的输出作为下一个时间步的输入，而是直接使用训练数据的标准答案的对应上一项作为下一个时间步的输入，称为Teacher-Forcing。

MSA模块：标准多头自注意力模块；

W-MSA：基于非重叠局部窗口的多头自注意力模块；

SW-MSA：基于移位窗口的多头自注意力模块。

本申请实施例提供了基于GPT的膝关节病变诊断智能自生成方法，该方法的具体方案由图1-图7所示，该方法可以由基于GPT的膝关节病变诊断智能自生成装置来执行，该基于GPT的膝关节病变诊断智能自生成装置可以集成在电脑、服务器、计算机、服务器集群、数据中心等电子设备中。结合图1、图2所示，其为根据本申请一个实施例的基于GPT的膝关节病变诊断智能自生成方法的流程图；其中，所述基于GPT的膝关节病变诊断智能自生成方法，包括：

S200，将待诊断膝关节图像输入预训练的编码器，得到所述编码器输出的图像编码信息，所述编码器由Swin Transformer模型构建；

本申请中，所述待诊断膝关节图像为包含膝关节的医学图像，基于该医学图像可以判断出膝关节状态。医学图像例如包括：X线片、电子计算机断层扫描(ComputedTomography，CT)图像、磁共振(Magnetic Resonance Imaging，MRI)图像，或者上述多个图像的合成图像等。

S300，将所述图像编码信息输入微调后的语言模型GPT，得到所述语言模型GPT自生成的诊断信息；

本申请中，基于第一目标样本图像对编码器进行粗训练，从而使得编码器“理解”第一目标样本图像，以提高编码器输出的图像编码信息与第一目标样本图像实质上的对应性。

本申请中，图像编码信息，为GPT可以识别的信息格式。

本申请中，对象用于指示患者，第一目标样本图像、第二目标样本图像、待诊断膝关节图像可以是对患者进行扫描获取的医学图像。

本申请中，第一目标样本图像、第二目标样本图像、待诊断膝关节图像为相同类型的图像，其具体可以是全身像、半身像、局部人体图像等，只要包含膝关节部位的图像即可；其中不同之处在于，第二目标样本图像具有对应的目标样本信息，从而作为样本微调编码器和GPT模型。

其中，第二目标样本图像标注的诊断信息为第二目标样本图像的膝关节诊断信息，在微调时，该对应的诊断信息作为编码器和GPT的监督信号。

实际执行过程中，为了增加第一目标样本图像、第二目标样本图像的数量，可以对同一对象获取不同姿态的医学图像，作为不同的第一目标样本图像、第二目标样本图像；需要说明的是，同一个对象获取的医学图像扩展出的不同的第二目标样本图像对应的诊断信息是相同或相似的。

需要说明的是，目前存在通过深度学习的方法对于膝关节疾病诊断的方案，但是这种方案需要先通过检测模型，在X光图像中检测出膝关节的位置，并在原图中切除出来，再将切出的图像输入到分类模型中，对病变的种类进行分类训练。这种方案需要训练多个模型进行X光图像中膝关节疾病的诊断，无法实现端到端的训练。一方面增大了模型训练的复杂度，另一方面也增加了模型的推理时间。

本申请中，编码器和GPT并非相互独立的，而是相互结合的一体化模型。实际执行过程中，编码器的微调过程和GPT模型的微调过程是同时进行的，是基于第二目标样本图像和对应的诊断信息同时进行微调，也即是编码器和GPT模型是作为一个一体化模型进行微调的，只是由于GPT模型是现有技术中的已训练的，编码器是本申请粗训练后的，所以在一体化模型微调的过程中，其中的编码器已经过粗训练的，此时进行微调，而其中的GPT直接进行了微调(现有技术存在已训练的GPT模型)。

本申请中，语言模型GPT自生成的诊断信息和第二目标样本图像标注的诊断信息为相同类型的信息，其中第二目标样本图像的诊断信息，在微调过程中作为监督信号；语言模型GPT自生成的诊断信息为待诊断膝关节图像对应的诊断信息，作为训练完成后的一体化模型的输出信息。

需要说明的是，本申请中，GPT模型为GPT系列的模型，其具体可以为GPT-1模型、GPT-2模型或GPT-3模型；本申请以GPT-2为例进行说明，如图2中以GPT-2为例展示对应的附图。

结合图3所示，在一种实施方式中，所述S200，将待诊断膝关节图像输入预训练的编码器，得到所述编码器输出的图像编码信息之前，还包括：

S101，获取所述第一目标样本图像，所述第一目标样本图像具有掩码MASK；

S102，根据多组所述第一目标样本图像对所述编码器进行训练，得到粗训练后的编码器；

S103，将所述第二目标样本图像输入所述编码器，得到所述编码器输出的图像编码信息；

本申请中，所述图像编码信息为2x2的Path信息。

S104，将所述图像编码信息输入语言模型GPT，得到所述语言模型GPT自生成的预测诊断信息；

本申请中，所述预测诊断信息为训练过程中GPT自生成的诊断信息，其与第二目标样本图像标注的诊断信息的类型相同。

S105，基于所述预测诊断信息和所述第二目标样本图像标注的诊断信息，确定所述编码器、所述语言模型GPT的整体损失；

S106，根据所述整体损失同步调整所述编码器、所述语言模型GPT，直至所述整体损失收敛为止。

实际执行过程中，对编码器、所述语言模型GPT的调整是同时进行的，从而将其作为一体化模型，实现端到端的训练。

本申请中，步骤S101-S106为编码器、GPT模型的训练/微调过程，即在实际使用前训练编码器、(微调)GPT模型和编码器。

与前述类似，本申请中，编码器和GPT并非相互独立的，而是相互结合的一体化模型。实际执行过程中，编码器的粗训练过程是独立的，但编码器的微调过程和GPT模型的微调过程是同时进行的，是基于第二目标样本图像和诊断信息同时进行微调，也即是编码器和GPT模型是作为一个一体化模型进行训练的。

实际执行时，训练过程实际包含粗训练过程和微调过程，通过粗训练对编码器进行自监督学习，以使编码器理解膝关节图像信息；然后将粗训练的编码器与语言模型GPT进行微调，从而实现编码器与语言模型GPT的一体化。

结合图4所示，在一种实施方式中，所述S102，根据多组所述第一目标样本图像对所述编码器进行训练，得到粗训练后的编码器，包括：

S301，对所述第一目标样本图像进行Patch分割；

本申请中，可以将第一目标样本图像分成固定大小的Patch序列，利用多头注意力对Patch序列建模上下文关系。

本申请中，也可以以可变形的方式分割图像为Patch。通过这种方式(如Deformable Patch模块(DPT))，可以在一个Patch中更好地保留语义，减少固定Patch分割造成的语义破坏。

需要说明的是，掩码MASK是在Patch的基础上完成的，因此在进行固定大小或可变大小分割第一目标样本图像时，分割后的第一目标样本图像与掩码MASK仍然需要具有对应关系。

S302，根据分割后的所述第一目标样本图像和所述掩码MASK，确定掩码样本图像；

本申请中，所述掩码MASK用于将分割后的所述第一目标样本图像中的部分Patch遮挡，从而形成零输入的Patch。

其中，掩码样本图像即是根据掩码MASK将分割后的所述第一目标样本图像进行对应遮挡后的图像，该图像中被掩蔽的Patch扔保留对应位置，仅调整其对应的像素值。

其中，图像是具有大量空间冗余的自然信号，这与作为人类生成的具有高度语义和信息密集度的信号的语言存在很大的不同，直接通过具有Swin Transformer模型的编码器进行图像编码，很难清晰获取图像中的精确语义信息。

本申请中，通过掩码MASK掩蔽图像中的部分内容后进行训练，从而使得编码器可以从剩余图像中提取语义信息对掩蔽的信息进行补充，达到编码器“理解”图像的效果。

在一种实施方式中，每组所述第一目标样本图像对应的掩码MASK各不相同。这样，通过打乱掩码MASK，提高粗训练的难度，从而避免编码器提取的语义信息中与掩码MASK高度相关的内容，达到更好的训练效果。

需要说明的是，图像具有大量空间冗余，基于该性质可以从相邻的块中恢复丢失的块，但是这种恢复是基于相邻块进行的，无需对图像的语义信息进行理解；这使得训练后的编码器对局部、对象和场景的高级理解很少。

在一种实施方式中，掩码MASK为随机生成，从而增加图像恢复的难度，使得编码器无法基于相邻的块直接恢复，从而提高编码器对图像的高级理解。

在一种实施方式中，所述掩码MASK的掩蔽率大于50％。

其中，所述掩蔽率是指掩码MASK中被掩蔽的Patch块占据图像总的Patch块的比例。掩码MASK的掩蔽率大于50％，即是分割后的所述第一目标样本图像的一半以上被掩蔽。

这样，通过高掩蔽率，使得编码器无法基于相邻的块直接恢复，从而提高编码器对图像的高级理解。另外，高掩蔽率一方面优化了编码器对图像的理解，另一方面编码器训练过程中无需提取掩蔽的Patch的特征，从而大大降低了需要处理的数据(只需处理未掩蔽的部分)，这可以使得粗训练的时间减少1倍或更多，且减少内存消耗，使得可以将编码器应用或扩展到大型模型。

S303，将所述掩码样本图像输入所述编码器，得到掩码图像编码；

S304，将分割后的所述第一目标样本图像输入所述编码器，得到样本图像编码；

需要说明的是，掩码图像编码、样本图像编码为相同格式的编码。

其中，掩码图像编码可以为输入GPT模型的对应格式信息，也可以为临时设置的预设格式信息(该信息可以转换为输入GPT模型的对应格式信息)，具体格式本申请中不作限制。

在一种实施方式中，样本图像编码包含所述第一目标样本图像所有Patch的图像信息，掩码图像编码包含与第一目标样本图像所有Patch对应的图像信息。

其中，样本图像编码包含所述第一目标样本图像所有Patch的图像信息，是指样本图像编码由被划分后的完整的第一目标样本图像输入所述编码器得到的；掩码图像编码包含与第一目标样本图像所有Patch对应的图像信息，是指掩码图像编码由被划分后的第一目标样本图像与掩码MASK结合后输入所述编码器得到的，其中的被掩蔽Patch仍然被保留，而非删除。

本申请中，通过保留被掩蔽Patch，从而使得提取的特征与掩蔽图像和未掩蔽图像均具有对应关系，避免删除被掩蔽Patch造成的提取特征与掩蔽图像不对应的情况。

S305，以所述掩码图像编码为查询向量，对应的所述样本图像编码为正样本向量，其余组的所述样本图像编码为负样本向量，计算所述编码器的整体损失；

在一种实施方式中，所述编码器的整体损失的计算公式为：

其中，相似度的计算，温度参数的确定可以根据实际情况进行，在此不再赘述。

本申请中，将真正的第一目标样本图像作为正样本，将编码器对被掩蔽的第一目标样本图像的输出作为查询样本，其他组的第一目标样本图像(也可以包括其他组的掩蔽的第一目标样本图像)作为负样本，通过训练拉近查询样本与正样本的距离，拉大与负样本的距离。

S306，根据所述整体损失调整所述编码器，直至所述整体损失收敛为止。

需要说明的是，编码器将膝关节图像转换为图像编码信息后输入语言模型GPT，但是语言模型GPT为文本解析模型，其对于图像中的特性提取效果很差，因此编码器转换的图像编码信息必须是能够反映关键的文本信息的情况下，语言模型GPT才可以进行顺利的诊断。若直接对编码器和语言模型GPT的一体化模型进行训练，则由于上述问题，使得训练过程冗长且训练效果不佳。

本申请中，通过粗训练对编码器进行自监督学习，以使编码器理解膝关节图像信息；然后将粗训练的编码器与语言模型GPT进行微调，实现编码器与语言模型GPT的一体化；一方面可以节省模型训练的时间占用和资源占用，另一方面还可以提高编码器对膝关节图像信息的理解能力和解析能力，从而达到更好的训练效果。

本申请中，具有高掩蔽率的随机采样掩码MASK在很大程度上消除了冗余，从而创建无法通过从可见相邻补丁外推来轻松解决的任务，达到更好的编码器的训练效果。

结合图2所示，在一种实施方式中，所述编码器包括线性嵌入层、第一重塑层、偶数个Swin Transformer模块和第二重塑层；

所述线性嵌入层改变输入的图像数据的维度；

所述第一重塑层改变所述图像数据的通道数；

本申请中，所述线性嵌入层为图2中Linear Embedding层，其将输入向量的维度转换成预设的维度值即Swin Transformer模块能够接收的维度值；所述第一重塑层为图2中Swin Transformer模块前的Reshape层，用于将指定的矩阵变换成特定维数的矩阵，且矩阵中元素个数不变，其可以重新调整矩阵的行数、列数、维数，本申请中用于调整输入向量的通道数，以将输入向量的通道数转换成预设的通道数即Swin Transformer模块能够接收的通道数；多个所述Swin Transformer模块为图2中Swin Transformer Block×N层，用于对输入的图像数据进行特征提取，已提取图像特性，得到特征信息/特征图；所述第二重塑层为图2中Swin Transformer模块后的Reshape层，用于重塑编码器的输出，以得到图像编码信息，该图像编码信息为可以输入GPT模型的对应格式信息。

本申请中，Swin Transformer模块为偶数个，两个相邻的Swin Transformer模块的结构相似且构成组合，与其余的两个Swin Transformer模块的组合的结构完全相同。

结合图5所示，在一种实施方式中，所述Swin Transformer模块包括：MLP模块和基于位移窗口的MSA模块，所述MSA模块和所述MLP模块前均具有归一化层，且所述MSA模块和所述MLP模块后均具有残差连接。

其中，图5中为两个连续的Swin Transformer Block的架构图，可以看出，两个Swin Transformer Block的架构相似，但MSA模块并不相同，其中前一Swin TransformerBlock为W-MSA模块，后一Swin Transformer Block为SW-MSA模块，其余部分保持相同。

其中，MLP模块为接一个夹有Gelu非线性在中间的2层MLP模块，图中Layernorm(LN)层为所述归一化层。

结合/6的原理图，可以看出W-MSA模块在非重叠的局部窗口中计算自注意力，取代全局自注意力；以不重叠的方式均匀地划分图像得到各个窗口，W-MSA模块具有线性复杂度，与具有二次复杂度的MSA模块相比，大大降低了计算复杂度。

基于窗口的自注意力模块(W-MSA)虽将计算复杂度从二次降为线性，但跨窗口之间交流与联系的匮乏将限制其建模表征能力；因此通过移位窗口引入夸窗口的联系，且同时保持非重叠窗口的计算效率；该引入在连续Swin Transformer Blocks中的两种分区配置间交替。

结合图6所示，通过循环向左上方移位，在这种移位后，批窗口可由特征图中不相邻的子窗口组成，因此使用屏蔽机制将(Masked MSA)自注意计算限制在每个子窗口内，具体为：先正常计算自注意力，再进行Mask操作将不需要的注意力图置0，从而将自注意力计算限制在各子窗口内。

结合图7所示，在一种实施方式中，所述S105，基于所述预测诊断信息和所述第二目标样本图像标注的诊断信息，确定所述编码器、所述语言模型GPT的整体损失，包括：

S501，获取标注的诊断信息的输入词序列，输入词序列中的每个输入词具有对应的时间步；

本步骤中，将输入词序列设置为序列X＝[X1,X2,...,Xn]，其中Xt表示时间步T的输入词。

需要说明的是，本申请中，标注的诊断信息并非直接作为输入词序列，而是基于结巴库等处理后转换为多个向量；例如十个词语的句子会处理为10×N向量，其中的每个向量均是一个输入词，N个输入词构成输入词序列。

本申请中，输入词序列可以仅作为损失计算的一部分，也可以同时在训练时在当前时间步输入当前时间步以前的输入词序列作为生成基础。

语言模型GPT应用了自回归(Auto-Regression)思想，即预测结果的每一步都依赖于上一时间步已经生成的结果；因此，语言模型GPT或者包含语言模型GPT的一体化模型，对于当前时间步是已知的。基于此，可以获取当前时间步，具体获取方式本申请中不作限制。

本申请中，通过语言模型GPT基于当前时间步的标准答案为基础，预测下一时间步的目标词，从而截断了因生成的样本诊断信息作为下一时间步生成基础而指数放大对应错误的路径，避免了编码器的错误被指数放大的后果。

本申请中，通过将诊断信息作为标准答案输入语言模型GPT，从而在实现膝关节图像病变的端到端训练和推理的基础上，限制了错误传播的范围，从而保证整体损失的顺利收敛。

S502，确定每个时间步的下一个输入词的概率分布；

本步骤中，使用GPT模型/一体化模型生成序列X中每个时间步T的下一个词的概率分布P(Xt+1|X)。

具体生成方式可以为：在训练过程中将当前时间步及以前的输入词序列作为输入来生成下一个词的概率分布分布。

S503，获取语言模型GPT自生成的样本诊断信息的目标词序列，目标词序列中的每个目标词具有对应的时间步；

本步骤中，将目标词序列设置为序列Y＝[Y1,Y2,...,Yn]，其中Yt表示时间步T的目标词。

S504，确定每个时间步的下一个目标词的概率分布；

本步骤中，使用目标词序列Y生成序列Y中每个时间步T的下一个词的概率分布Q(Yt+1|Y)。

具体生成方式可以为：在训练过程中将目标序列作为输入词序列来生成下一个词的概率分布分布。

S505，根据每个时间步的下一个输入词的概率分布和下一个目标词的概率分布，确定每个时间步的交叉熵损失；

本步骤中，每个时间步的交叉熵损失L(T)的计算方式为：

L(T)＝-Logp(Xt+1|X)*Q(Yt+1|Y)

其中，P(Xt+1|X)为输入词序列X中时间步T的下一个词的概率分布，Q(Yt+1|Y)为目标词序列Y中时间步T的下一个词的概率分布。

S506，根据每个时间步的交叉熵损失，确定所述整体损失。

本步骤中，所述整体损失为所有时间步的交叉熵损失的平均值，其计算公式为：

L＝(1/N)*ΣL(T)

其中，L为整体损失，N为时间步的总数，L(T)为每个时间步的交叉熵损失。

这样，基于最大似然估计的损失函数，使用交叉熵损失来衡量一体化模型生成文本与目标文本之间的差异，从而达到好的训练效果。

本申请中，一体化模型通过自回归(Autoregressive)的方式生成下一个词的概率分布，从而通过迭代使得预测下一个词的概率分布与实际下一个词的分布尽可能相似。

本申请实施例提供了基于GPT的膝关节病变诊断智能自生成装置，用于执行本申请上述内容所述的基于GPT的膝关节病变诊断智能自生成方法，以下对所述基于GPT的膝关节病变诊断智能自生成装置进行详细描述。

如图8所示，所述基于GPT的膝关节病变诊断智能自生成装置，包括：

编码模块101，其用于将待诊断膝关节图像输入预训练的编码器，得到所述编码器输出的图像编码信息，所述编码器由Swin Transformer模型构建；

语言模块102，其用于将所述图像编码信息输入微调后的语言模型GPT，得到所述语言模型GPT自生成的诊断信息；

在一种实施方式中，结合图8所示，基于GPT的膝关节病变诊断智能自生成装置还包括：

模型训练模块103，其用于：获取所述第一目标样本图像，所述第一目标样本图像具有掩码MASK；根据多组所述第一目标样本图像对所述编码器进行训练，得到粗训练后的编码器；将所述第二目标样本图像输入所述编码器，得到所述编码器输出的图像编码信息；将所述图像编码信息输入语言模型GPT，得到所述语言模型GPT自生成的预测诊断信息；基于所述预测诊断信息和所述第二目标样本图像标注的诊断信息，确定所述编码器、所述语言模型GPT的整体损失；根据所述整体损失同步调整所述编码器、所述语言模型GPT，直至所述整体损失收敛为止。

在一种实施方式中，模型训练模块103还用于：对所述第一目标样本图像进行Patch分割；根据分割后的所述第一目标样本图像和所述掩码MASK，确定掩码样本图像；将所述掩码样本图像输入所述编码器，得到掩码图像编码；将分割后的所述第一目标样本图像输入所述编码器，得到样本图像编码；以所述掩码图像编码为查询向量，对应的所述样本图像编码为正样本向量，其余组的所述样本图像编码为负样本向量，计算所述编码器的整体损失；根据所述整体损失调整所述编码器，直至所述整体损失收敛为止。

在一种实施方式中，所述掩码MASK的掩蔽率大于50％。

在一种实施方式中，所述编码器的整体损失的计算公式为：

在一种实施方式中，所述编码器包括线性嵌入层、第一重塑层、偶数个SwinTransformer模块和第二重塑层；所述线性嵌入层改变输入的图像数据的维度；所述第一重塑层改变所述图像数据的通道数；多个所述Swin Transformer模块对所述图像数据进行特征提取，得到特征信息；所述第二重塑层重新排列所述编码器的输出，得到所述图像编码信息。

在一种实施方式中，所述Swin Transformer模块包括：MLP模块和基于位移窗口的MSA模块，所述MSA模块和所述MLP模块前均具有归一化层，且所述MSA模块和所述MLP模块后均具有残差连接。

本申请的上述实施例提供的基于GPT的膝关节病变诊断智能自生成装置与本申请实施例提供的基于GPT的膝关节病变诊断智能自生成方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

以上描述了基于GPT的膝关节病变诊断智能自生成装置的内部功能和结构，如图9所示，实际中，该基于GPT的膝关节病变诊断智能自生成装置可实现为电子设备，包括：存储器301及处理器303。

存储器301，可被配置为存储程序。

另外，存储器301，还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器303，耦合至存储器301，用于执行存储器301中的程序，以用于：

在一种实施方式中，处理器303具体用于：

获取所述第一目标样本图像，所述第一目标样本图像具有掩码MASK；根据多组所述第一目标样本图像对所述编码器进行训练，得到粗训练后的编码器；将所述第二目标样本图像输入所述编码器，得到所述编码器输出的图像编码信息；将所述图像编码信息输入语言模型GPT，得到所述语言模型GPT自生成的预测诊断信息；基于所述预测诊断信息和所述第二目标样本图像标注的诊断信息，确定所述编码器、所述语言模型GPT的整体损失；根据所述整体损失同步调整所述编码器、所述语言模型GPT，直至所述整体损失收敛为止。

在一种实施方式中，处理器303具体用于：

对所述第一目标样本图像进行Patch分割；根据分割后的所述第一目标样本图像和所述掩码MASK，确定掩码样本图像；将所述掩码样本图像输入所述编码器，得到掩码图像编码；将分割后的所述第一目标样本图像输入所述编码器，得到样本图像编码；以所述掩码图像编码为查询向量，对应的所述样本图像编码为正样本向量，其余组的所述样本图像编码为负样本向量，计算所述编码器的整体损失；根据所述整体损失调整所述编码器，直至所述整体损失收敛为止。

在一种实施方式中，所述掩码MASK的掩蔽率大于50％。

在一种实施方式中，所述编码器的整体损失的计算公式为：

本申请中，图9中仅示意性给出部分组件，并不意味着电子设备只包括图9所示组件。

本实施例提供的电子设备，与本申请实施例提供的基于GPT的膝关节病变诊断智能自生成方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(Flash RAM)。内存是计算机可读介质的示例。

本申请还提供一种与前述实施方式所提供的基于GPT的膝关节病变诊断智能自生成方法对应的计算机可读存储介质，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的基于GPT的膝关节病变诊断智能自生成方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(Transitory Media)，如调制的数据信号和载波。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的基于GPT的膝关节病变诊断智能自生成方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是，在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的结构和技术，以便不模糊对本说明书的理解。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于GPT的膝关节病变诊断智能自生成方法，其特征在于，包括：

2.根据权利要求1所述的膝关节病变诊断智能自生成方法，其特征在于，所述将待诊断膝关节图像输入预训练的编码器，得到所述编码器输出的图像编码信息之前，还包括：

3.根据权利要求2所述的膝关节病变诊断智能自生成方法，其特征在于，所述根据多组所述第一目标样本图像对所述编码器进行训练，得到粗训练后的编码器，包括：

对所述第一目标样本图像进行Patch分割；

将所述掩码样本图像输入所述编码器，得到掩码图像编码；

4.根据权利要求3所述的膝关节病变诊断智能自生成方法，其特征在于，所述掩码MASK的掩蔽率大于50％。

5.根据权利要求3所述的膝关节病变诊断智能自生成方法，其特征在于，所述编码器的整体损失的计算公式为：

6.根据权利要求1-5中任一项所述的膝关节病变诊断智能自生成方法，其特征在于，所述编码器包括线性嵌入层、第一重塑层、偶数个Swin Transformer模块和第二重塑层；

所述线性嵌入层改变输入的图像数据的维度；

所述第一重塑层改变所述图像数据的通道数；

7.根据权利要求6所述的膝关节病变诊断智能自生成方法，其特征在于，所述SwinTransformer模块包括：MLP模块和基于位移窗口的MSA模块，所述MSA模块和所述MLP模块前均具有归一化层，且所述MSA模块和所述MLP模块后均具有残差连接。

8.一种基于GPT的膝关节病变诊断智能自生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器，其用于存储程序；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现权利要求1-7任一项所述的基于GPT的膝关节病变诊断智能自生成方法。