CN116433934A

CN116433934A - 一种生成ct影像表征及影像报告的多模态预训练方法

Info

Publication number: CN116433934A
Application number: CN202310180977.5A
Authority: CN
Inventors: 徐枫; 马靓笛; 郭雨晨
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-07-14

Abstract

本申请提出了一种CT影像表征及影像报告生成的多模态预训练方法，涉及自然语言处理领域，包括获取多模态数据组合；对CT影像采取随机数据增强，并将增强后的数据输入图像编码器进行编码，确定影像特征；将影像报告输入文本编码器进行编码，确定文本特征，且将影像特征输入文本解码器，确定影像描述；分别根据第一影像特征与第二影像特征、文本特征与影像特征在特征空间的相似性以及影像描述与影像报告的准确性，确定混合损失函数；基于混合损失函数，利用梯度下降算法进行模型训练，更新图像编码器、文本编码器与文本解码器的参数。本申请能够实现模型参数优化，提高模型对CT影像的表征能力与数据的使用效率。

Description

一种生成CT影像表征及影像报告的多模态预训练方法

技术领域

本申请涉及自然语言处理领域，尤其涉及一种生成CT影像表征及影像报告的多模态预训练方法。

背景技术

近年来，深度学习技术飞速发展，并在各领域得到了广泛使用。深度学习技术的成功极大程度上依赖于海量的标注数据，对于医学、化学、生物学等专业领域，获取精确的标注需要标注人员具有一定的专业知识，获得海量标注数据需要极高的成本，给深度学习技术的发展和应用带来了较大的限制。使用大规模数据对基础模型进行预训练，并且利用迁移学习的方法将基础模型应用到数据规模较小的下游任务中，有助于提高模型处理下游任务的能力。与预定义的标签或者图像自监督相比，自然语言具有更加丰富的语义信息，使用自然语言和图像进行多模态预训练，能够为图像中的细粒度特征提供更为准确的监督信息，有助于模型更准确的提取细粒度图像的表征。

随着深度学习技术的发展，基于Transformer的自然语言处理方法能够有效分析大规模文本数据，适用于对自然语言文本数据进行解析，提取关键信息，进行文本编码，同时可以高效地基于编码信息生成目标文本；基于卷积神经网络的图像处理方法能够对影像进行高效特征提取，获取图像关键信息的表征；图像自监督学习方法能够帮助模型挖掘更加通用的影像特征。

发明内容

针对上述问题，提出了一种生成CT影像表征及影像报告的多模态预训练方法，有助于提高模型处理CT影像相关任务的能力。

本申请第一方面提出了一种生成CT影像表征及影像报告的多模态预训练方法，包括：

获取多模态数据组合，其中，所述多模态数据组合包括CT影像与影像报告；

对所述CT影像采取随机数据增强，并将增强后的数据输入图像编码器进行编码，确定影像特征，其中，所述影像特征包括第一影像特征与第二影像特征；

将所述影像报告输入文本编码器进行编码，确定文本特征，且将所述影像特征输入文本解码器，确定影像描述；

分别根据所述第一影像特征与所述第二影像特征、所述文本特征与所述影像特征在特征空间的相似性以及所述影像描述与所述影像报告的准确性，确定混合损失函数；

基于所述混合损失函数，利用梯度下降算法进行模型训练，更新所述图像编码器、所述文本编码器与所述文本解码器的参数。

可选的，所述对所述CT影像采取随机数据增强，并将增强后的数据输入图像编码器进行编码，确定影像特征，包括：

基于卷积神经网络构建所述图像编码器，根据ImageNet数据集预训练的模型参数对所述图像编码器参数进行初始化；

将所述CT影像进行两次随机旋转、翻转、裁剪与缩放，得到所述CT影像的两个不同视角；

将两个不同视角的影像分别输入到所述图像编码器中进行编码，得到所述CT影像的两个不同视角在特征空间中的影像特征。

可选的，所述将所述影像报告输入文本编码器进行编码，确定文本特征，包括：

构建基于Transformer的文本编码器，根据BERT模型的参数对所述文本编码器以及文本嵌入矩阵进行初始化；

根据所述文本嵌入矩阵计算所述影像报告的文本嵌入，在所述文本嵌入中添加位置编码后输入到所述文本编码器；

根据所述文本编码器获取所述影像报告映射到所述特征空间中的文本特征。

可选的，所述将所述影像特征输入文本解码器，确定影像描述，包括：

构建基于Transformer的文本解码器，将所述影像特征输入所述文本解码器中；

通过解码生成与所述影像特征对应的基于自然语言的所述影像描述。

可选的，所述确定混合损失函数，包括：

根据所述第一影像特征与所述第二影像特征在所述特征空间的相似性确定单模态对比损失函数；

根据所述文本特征与所述影像特征在所述特征空间的相似性确定多模态对比损失函数；

根据所述影像描述与所述影像报告的准确性确定交叉熵损失函数。

可选的，所述根据所述第一影像特征与所述第二影像特征在所述特征空间的相似性确定单模态对比损失函数，包括：

获得所述第一影像特征与所述第二影像特征构成的二元特征对；

在所述特征空间中，计算所述二元特征对内所述第一影像特征与所述第二影像特征的相似度；

通过最大化配对的所述第一影像特征与所述第二影像特征在所述特征空间中的相似度，与最小化不配对的所述第一影像特征与所述第二影像特征在所述特征空间中的相似度，计算所述单模态对比损失函数。

可选的，所述根据所述文本特征与所述影像特征在所述特征空间的相似性确定多模态对比损失函数，包括：

获得所述文本特征、所述第一影像特征与所述第二影像特征构成的三元特征对；

在所述特征空间中，计算所述三元特征对中所述影像特征与所述文本特征的相似度；

通过最大化配对的所述影像特征与所述文本特征在所述特征空间中的相似度，与最小化不配对的所述影像特征与所述文本特征在所述特征空间中的相似度，计算所述多模态对比损失函数。

可选的，所述根据所述影像描述与所述影像报告的准确性确定交叉熵损失函数，包括：

根据所述影像描述与所述影像报告，以字符为单位计算生成报告的交叉熵损失函数。

本申请第二方面提出一种生成CT影像表征及影像报告的多模态预训练装置，包括：

数据收集模块，用于获取多模态数据组合，其中，所述多模态数据组合包括CT影像与影像报告；

第一处理模块，用于对所述CT影像采取随机数据增强，并将增强后的数据输入图像编码器进行编码，确定影像特征，其中，所述影像特征包括第一影像特征与第二影像特征；

第二处理模块，用于将所述影像报告输入文本编码器进行编码，确定文本特征，且将所述影像特征输入文本解码器，确定影像描述；

损失函数计算模块，用于分别根据所述第一影像特征与所述第二影像特征、所述文本特征与所述影像特征在特征空间的相似性以及所述影像描述与所述影像报告的准确性，确定混合损失函数；

更新模块，用于基于所述混合损失函数，利用梯度下降算法进行模型训练，更新所述图像编码器、所述文本编码器与所述文本解码器的参数。

本申请的实施例提供的技术方案至少带来以下有益效果：

通过输入配对的CT影像和影像报告，利用随机数据增强方法，获得同一影像的两个不同视角并输入基于卷积神经网络的图像编码器中，提取各自的影像特征，利用基于Transformer的文本编码器提取影像报告对应的文本特征，并使用基于Transformer的文本解码器生成影像对应的报告，通过多任务学习策略进行预训练，实现模型参数优化，提高模型对CT影像的表征能力，同时提高数据的使用效率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请实施例示出的一种生成CT影像表征及影像报告的多模态预训练方法的流程图；

图2是根据本申请实施例示出的确定影像特征的流程图；

图3是根据本申请实施例示出的确定文本特征的流程图；

图4是根据本申请实施例示出的确定影像描述的流程图

图5是根据本申请实施例示出的确定单模态对比损失函数的流程图；

图6是根据本申请实施例示出的确定多模态对比损失函数的流程图；

图7是根据本申请实施例示出的一种生成CT影像表征及影像报告的多模态预训练装置的框图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

图1是根据本申请实施例示出的一种生成CT影像表征及影像报告的多模态预训练方法的流程图，包括；

步骤101，获取多模态数据组合，其中，多模态数据组合包括CT影像与影像报告。

本申请实施例中，通过PACS影像管理和通信***，采集以同一用户的CT影像和对应的影像报告为基本数据单元的多模态数据组合。

其中，为了更准确的提取到影像中潜在的结构和纹理特征，需要对影像进行规范化处理，删除影像和报告不完整的样本，同时对CT影像在检查时天然带有的黑色边框等无效区域进行裁剪，保证模型能够尽可能的关注到更多有效信息，减少其他区域的无效干扰，经过规范化后的影像-报告数据组成实际使用的模态数据组合。

步骤102，对CT影像采取随机数据增强，并将增强后的数据输入图像编码器进行编码，确定影像特征，其中，影像特征包括第一影像特征与第二影像特征。

本申请实施例中，步骤102还包括：

步骤201，基于卷积神经网络构建图像编码器，根据ImageNet数据集预训练的模型参数对图像编码器参数进行初始化；

步骤202，将CT影像进行两次随机旋转、翻转、裁剪与缩放，得到CT影像的两个不同视角；

步骤203，将两个不同视角的影像分别输入到图像编码器中进行编码，得到CT影像的两个不同视角在特征空间中的影像特征。

本申请实施例中，将输入的CT影像进行两次随机旋转、翻转、裁剪、缩放，得到对应于同一CT影像的两个不同视角，并将两个不同视角的影像各自输入到图像编码器中进行编码，将影像映射到一个更高阶的特征空间中，得到同一CT影像的两个不同视角各自在特征空间中的影像特征。

另外，ImageNet数据集是一个按照WordNet层次结构组织的图像数据库，其中层次结构的每个节点都由成百上千个图像来描述，该数据集包合14,197,122张图片和21,841个Synset索引，它包含了各种各样的图像，并且每张图像都被关联了标签。

步骤103，将影像报告输入文本编码器进行编码，确定文本特征，且将影像特征输入文本解码器，确定影像描述。

其中，确定文本特征的过程如下：

步骤301，构建基于Transformer的文本编码器，根据BERT模型的参数对文本编码器以及文本嵌入矩阵进行初始化；

步骤302，根据文本嵌入矩阵计算影像报告的文本嵌入，在文本嵌入中添加位置编码后输入到文本编码器；

步骤303，根据文本编码器获取影像报告映射到特征空间中的文本特征。

本申请实施例中，首先利用文本嵌入矩阵计算输入的影像报告对应的文本嵌入，然后将文本嵌入加上位置编码后输入到文本编码器中，将影像报告映射到与上述步骤203的同一特征空间中，得到对应的文本特征。

其中，确定影像描述的过程如下：

步骤401，构建基于Transformer的文本解码器，将影像特征输入文本解码器中；

步骤402，通过解码生成与影像特征对应的基于自然语言的影像描述。

本申请实施例中，随机选取上述步骤203得到的两个视角的影像特征中的任意一个，输入文本解码器中，通过解码生成与影像特征对应的基于自然语言的影像描述。

步骤104，分别根据第一影像特征与第二影像特征、文本特征与影像特征在特征空间的相似性以及影像描述与影像报告的准确性，确定混合损失函数。

本申请实施例中，混合损失函数包括根据第一影像特征与第二影像特征在特征空间的相似性确定单模态对比损失函数、根据文本特征与影像特征在特征空间的相似性确定多模态对比损失函数以及根据影像描述与影像报告的准确性确定交叉熵损失函数。

其中，确定单模态对比损失函数的过程为：

步骤501，获得第一影像特征与第二影像特征构成的二元特征对；

步骤502，在特征空间中，计算二元特征对内第一影像特征与第二影像特征的相似度；

步骤503，通过最大化配对的第一影像特征与第二影像特征在特征空间中的相似度，与最小化不配对的第一影像特征与第二影像特征在特征空间中的相似度，计算单模态对比损失函数。

本申请实施例中，通过计算单模态对比损失函数，实现配对视角的影像特征在特征空间中的对齐。

其中，确定多模态对比损失函数的过程为：

步骤601，获得文本特征、第一影像特征与第二影像特征构成的三元特征对；

步骤602，在特征空间中，计算三元特征对中影像特征与文本特征的相似度；

步骤603，通过最大化配对的影像特征与文本特征在特征空间中的相似度，与最小化不配对的影像特征与文本特征在特征空间中的相似度，计算多模态对比损失函数。

本申请实施例中，通过计算多模态对比损失函数，实现配对的影像和报告所对应的影像特征及文本特征在特征空间中的对齐。

其中，确定交叉熵损失函数的过程为：

根据影像描述与影像报告，以字符为单位计算生成报告的交叉熵损失函数。

本申请实施例中，通过最小化交叉熵损失函数促进图像编码器学到图像中的关键信息并且输出合理表征，并且能够通过文本解码器正确解码进行跨模态文本生成，实现语义层面的监督。

步骤105，基于混合损失函数，利用梯度下降算法进行模型训练，更新图像编码器、文本编码器与文本解码器的参数。

本申请实施例中，训练完成后将图像编码器作为骨干网络可以适用于包括CT影像诊断、影像分割等各种下游任务，无需大量的标注数据即可高效提取CT影像中的关键特征。同时将图像编码器和文本解码器联合使用，能够实现CT影像的报告生成任务。

本申请实施例通过输入配对的CT影像和影像报告，利用随机数据增强方法，获得同一影像的两个不同视角并输入基于卷积神经网络的图像编码器中，提取各自的影像特征，利用基于Transformer的文本编码器提取影像报告对应的文本特征，并使用基于Transformer的文本解码器生成影像对应的报告，通过多任务学习策略进行预训练，实现模型参数优化，提高模型对CT影像的表征能力，同时提高数据的使用效率。

图7是根据本申请实施例示出的一种生成CT影像表征及影像报告的多模态预训练装置，包括数据收集模块710、第一处理模块720、第二处理模块730、损失函数计算模块740和更新模块750。

数据收集模块710，用于获取多模态数据组合，其中，多模态数据组合包括CT影像与影像报告；

第一处理模块720，用于对CT影像采取随机数据增强，并将增强后的数据输入图像编码器进行编码，确定影像特征，其中，影像特征包括第一影像特征与第二影像特征；

第二处理模块730，用于将影像报告输入文本编码器进行编码，确定文本特征，且将影像特征输入文本解码器，确定影像描述；

损失函数计算模块740，用于分别根据第一影像特征与第二影像特征、文本特征与影像特征在特征空间的相似性以及影像描述与影像报告的准确性，确定混合损失函数；

更新模块750，用于基于混合损失函数，利用梯度下降算法进行模型训练，更新图像编码器、文本编码器与文本解码器的参数。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种生成CT影像表征及影像报告的多模态预训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述CT影像采取随机数据增强，并将增强后的数据输入图像编码器进行编码，确定影像特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述影像报告输入文本编码器进行编码，确定文本特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述影像特征输入文本解码器，确定影像描述，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定混合损失函数，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一影像特征与所述第二影像特征在所述特征空间的相似性确定单模态对比损失函数，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述文本特征与所述影像特征在所述特征空间的相似性确定多模态对比损失函数，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述影像描述与所述影像报告的准确性确定交叉熵损失函数，包括：

9.一种生成CT影像表征及影像报告的多模态预训练装置，其特征在于，包括：