CN114758360B

CN114758360B - 一种多模态图像分类模型训练方法、装置及电子设备

Info

Publication number: CN114758360B
Application number: CN202210435881.4A
Authority: CN
Inventors: 于昕晔; 马璐; 丁佳; 吕晨翀
Original assignee: Beijing Yizhun Medical AI Co Ltd
Current assignee: Zhejiang Yizhun Intelligent Technology Co ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2023-04-18
Anticipated expiration: 2042-04-24
Also published as: CN114758360A

Abstract

本公开提供了一种多模态图像分类模型训练方法、装置及电子设备，包括：确认训练图像集；将训练图像集中的第一超声图像和第一超声造影图像输入至多模态图像分类模型包括的图像序列化模块和特征提取模块中，获得第一超声图像对应的第一特征编码集合和第一超声造影图像对应的第二特征编码集合；将第一特征编码集合和第二特征编码集合输入至多模态图像分类模型包括的多模态聚合模块中，获得第一超声图像和第一超声造影图像对应的分类预测结果；基于第一超声图像和所述第一超声造影图像对应的分类标注结果与分类预测结果之间的差异，调整多模态图像分类模型的参数；其中，所述多模态聚合模块包括多头自注意力层和多层感知机。

Description

一种多模态图像分类模型训练方法、装置及电子设备

技术领域

本公开涉及图像处理技术领域，尤其涉及一种多模态图像分类模型训练方法、装置、电子设备及存储介质。

背景技术

相关技术中，对于图像的分类可以采用基于提取纹理特征并通过分类器进行分类，纹理特征可以通过灰度共生矩阵、小波变换和Gabor变换实现，分类器可以通过支持向量机、随机森林算法或贝叶斯分类器实现，然而对于存在多个维度的图像，如何提升图像分类的准确性亟需解决。

发明内容

本公开提供了一种多模态图像分类模型训练方法、装置及电子设备，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供了一种多模态图像分类模型训练方法，包括：

确认训练图像集，所述训练图像集中包括超声图像子集和超声造影图像子集，所述超声图像子集中的图像与所述超声造影图像子集中的图像一一对应；

将所述训练图像集中的第一超声图像和第一超声造影图像输入至所述多模态图像分类模型包括的图像序列化模块和特征提取模块中，获得所述第一超声图像对应的第一特征编码集合和所述第一超声造影图像对应的第二特征编码集合；

将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果；

基于所述第一超声图像和所述第一超声造影图像对应的分类标注结果与所述分类预测结果之间的差异，调整所述多模态图像分类模型的参数；

其中，所述多模态聚合模块包括多头自注意力层、多层感知机和多层感知机头。

上述方案中，所述确认训练图像集包括：

获取第二超声图像，以及与所述第二超声图像对应第二超声造影图像；

分别从所述第二超声图像和所述第二超声造影图像中获取尺寸相同的第一超声图像和第一超声造影图像，所述第一超声图像和所述第一超声造影图像为所述训练图像集中的图像；

其中，从所述超声图像中获取的所述第一超声图像为所述超声图像子集中的图像；从所述超声造影图像中获取的所述第一超声造影图像为所述超声造影图像子集中的图像。

上述方案中，所述将所述训练图像集中的第一超声图像和第一超声造影图像输入至所述多模态图像分类模型包括的图像序列化模块和特征提取模块中，获得所述第一超声图像对应的第一特征编码集合和所述第一超声造影图像对应的第二特征编码集合，包括：

所述图像序列化模块对所述第一超声图像和第一超声造影图像进行分块处理，获得至少两个图像块；

所述特征提取模块对每一个图像块进行特征提取，获取每一个图像块的特征编码；

确认所述第一超声图像的图像块对应的特征编码为所述第一特征编码集合，确认所述第一超声造影图像的图像块对应的特征编码为所述第二特征编码集合。

上述方案中，所述特征提取模块的结构为ResNet50结构；

所述特征提取模块的最后一层为线性投影层。

上述方案中，所述将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果，包括：

确认所述第一超声图像和第一超声造影图像的第一分类标志；

在所述第一特征编码集合中的特征编码、所述第二特征编码集合中的特征编码和所述第一分类标志中添加位置信息编码；

所述位置信息编码用于表征特征编码所对应的图像块在第一超声图像或第一超声造影图像中的位置信息；所述位置信息编码还用于区分所述第一分类标志。

上述方案中，所述将所述第一特征编码集合、所述第二特征编码集合和第一分类标志输入至所述多模态图像分类模型包括的多模态聚合模块中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果，包括：

将所述第一特征编码集合和所述第二特征编码集合中位置信息编码相同的特征编码输入至所述多头自注意力层中，获得所述第一超声图像和所述第一超声造影图像对应的图像特征；

将所述图像特征输入至所述多层感知机；

将所述第一分类标志输入至所述多头注意力层和所述多层感知机，获得分类特征；

将所述分类特征输入至所述多层感知机头，获得分类预测结果。

上述方案中，所述多模态聚合模块还包括：

层标准化结构和跳跃连接结构；

其中，所述层标准化结构位于所述多头注意力层和所述多层感知机之前。

上述方案中，所述多层感知机包括全连接层、激活函数层和Dropout层。

上述方案中，所述基于所述第一超声图像和所述第一超声造影图像对应的分类标注结果与所述分类预测结果之间的差异，调整所述多模态图像分类模型的参数之后，所述方法还包括：

将所述训练图像集中的第三超声图像和第三超声造影图像输入至调整参数后的多模态图像分类模型包括的图像序列化模块中，获得所述第三超声图像对应的第三特征编码集合和所述第三超声造影图像对应的第四特征编码集合；

将所述第三特征编码集合和所述第四特征编码集合输入至所述调整参数后的多模态图像分类模型包括的多模态聚合模块中，获得所述第三超声图像和所述第三超声造影图像对应的分类预测结果；

基于所述第三超声图像和所述第三超声造影图像对应的分类标注结果与所述第三超声图像和所述第三超声造影图像对应的分类预测结果之间的差异，调整所述多模态图像分类模型的参数。

上述方案中，所述方法还包括：

响应于所述分类标注结果与所述分类预测结果之间的差异小于第一阈值，确定所述多模态图像分类模型训练完成。

根据本公开的第二方面，提供一种图像分类方法，应用上述所述的多模态图像分类模型，所述方法包括：

将待识别图像输入至所述多模态图像分类模型；

确认所述多模态图像分类模型的输出的为所述待识别图像的分类结果。

根据本公开的第三方面，提供一种多模态图像分类模型训练装置，包括：

数据准备单元，用于确认训练图像集，所述训练图像集中包括超声图像子集和超声造影图像子集，所述超声图像子集中的图像与所述超声造影图像子集中的图像一一对应；

第一数据处理单元，用于将所述训练图像集中的第一超声图像和第一超声造影图像输入至所述多模态图像分类模型包括的图像序列化模块中，获得所述第一超声图像对应的第一特征编码集合和所述第一超声造影图像对应的第二特征编码集合；

第二数据处理单元，用于将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果；

调整单元，用于基于所述第一超声图像和所述第一超声造影图像对应的分类标注结果与所述分类预测结果之间的差异，调整所述多模态图像分类模型的参数；

其中，所述多模态聚合模块包括多头自注意力层和多层感知机。

根据本公开的第四方面，提供一种图像分类装置，包括：

输入单元，用于将待识别图像输入至所述多模态图像分类模型；

识别单元，用于确认所述多模态图像分类模型的输出的为所述待识别图像的分类结果。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的多模态图像分类模型训练方法和图像分类方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的多模态图像分类模型训练方法和图像分类方法。

本公开的多模态图像分类模型训练方法，通过确认训练图像集，所述训练图像集中包括超声图像子集和超声造影图像子集，所述超声图像子集中的图像与所述超声造影图像子集中的图像一一对应；将所述训练图像集中的第一超声图像和第一超声造影图像输入至所述多模态图像分类模型包括的图像序列化模块中，获得所述第一超声图像对应的第一特征编码集合和所述第一超声造影图像对应的第二特征编码集合；将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果；基于所述第一超声图像和所述第一超声造影图像对应的分类标注结果与所述分类预测结果之间的差异，调整所述多模态图像分类模型的参数；其中，所述多模态聚合模块包括多头自注意力层和多层感知机，如此，可以提升图像分类的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例提供的多模态图像分类模型训练方法的一种可选流程示意图；

图2示出了本公开实施例提供的多头自注意力层的可选结构示意图；

图3示出了本公开实施例提供的图像分类方法的一种可选流程示意图；

图4示出了本公开实施例提供的多模态图像分类模型训练方法的另一种可选流程示意图；

图5示出了本公开实施例提供的多模态图像分类模型训练方法的数据示意图；

图6示出了本公开实施例提供的多模态聚合模块包括的变换器网络的可选结构示意图；

图7示出了本公开实施例提供的多模态图像分类模型训练装置的可选结构示意图；

图8示出了本公开实施例提供的图像分类装置的可选结构示意图；

图9示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)变换器网络(Transformer)技术最初应用于自然语言处理(Natural LanguageProcessing,NLP)中，是一种深度自注意力变换网络，用于提取文本数据的内在特征。最近，Transformer技术在计算机视觉方面取得了突破，许多基于Transformer的方法已经被用于计算机视觉任务，如用于目标检测的检测变换(Detection Transform，DETR)，用于语义分割的序列到序列的检测变换(Segmentation Transformer，SETR)，用于图像分类的视觉转换器(Vision Transformer，ViT)和高效数据图像变换器网络(Data-effificient imageTransformers，DeiT)。

2)自注意力机制(Self-Attention，SA)。也可以被称为自注意力层。向量X输入后，首先被转换为三个不同的向量：查询矩阵Q、键矩阵K和值矩阵V：

Q＝XW_q,K＝XW_k,V＝XW_v

其中，W_q、W_k和W_v是共享的可学习参数矩阵。然后，分配给每个值V的权重由查询Q和相应键K的点积决定。不同输入向量之间的注意函数计算如下：

其中d_k是关键向量K的维数。

提供了适当的标准化，使梯度更加稳定。

3)多头自注意力机制(Multi Self-Attention，MSA)是由多个自注意力机制组合而成的，将单头分成了多次，分别计算自注意力，最后再拼接所有注意力输出，以获得最终结果，具体包括：

MultiHead＝Concat(head₁,...,head_h)W^O

其中，

和W^O都是可以训练学习的参数，h是次数。

多头自注意力机制的优点是，不同的随机初始化映射矩阵W_q、W_k和W_v可以将输入向量映射到不同的子空间，这可以让模型从不同角度理解输入的序列。因此同时几个自注意力机制的组合效果会优于单个自注意力机制。

现有的图像多模态融合方式一般有以下几种：1.图像输入到算法网络之前先进行融合，缺点是难以建立不同模态图像之间的内在关系，导致模型性能下降；2.每种模态的图像单独在网络里面训练，提取出的特征进行融合，缺点是每个模态对应一个神经网络，这会带来巨大的计算成本，尤其是在模态数量增多的情况下；3.每种模态的图像得到各自的决策结果，再将决策结果进行融合，得到最终的结果，缺点是各模态的输出相互独立，无法建立内在联系。因此，迫切需要将这三种融合策略有效地结合起来。一个好的多模态融合策略应该以较低的计算复杂度实现尽可能多的不同模态之间的交互。

Transformer在自然图像中取得了成功，但在医学图像分析中，尤其是在多模态医学图像融合中，它很少受到关注。并且，Transformer需要非常大的数据集才能超过CNN，ViT的性能只有在谷歌私有图像数据集JFT-300M进行预训练才能够得到体现。医学成像领域数据集更小，缺乏足够的信息来建立低层语义特征之间的关系。

因此，针对相关技术中图像分类方法中存在的缺陷，本公开提供一种多模态图像分类模型训练方法，以至少解决上述部分或全部缺陷。

图1示出了本公开实施例提供的多模态图像分类模型训练方法的一种可选流程示意图，将根据各个步骤进行说明。

步骤S101，确认训练图像集。

在一些实施例中，多模态图像分类模型训练装置(以下简称第一装置)获取第二超声图像，以及与所述第二超声图像对应第二超声造影图像；分别从所述第二超声图像和所述第二超声造影图像中获取尺寸相同的第一超声图像和第一超声造影图像，所述第一超声图像和所述第一超声造影图像为所述训练图像集中的图像；其中，从所述超声图像中获取的所述第一超声图像为所述超声图像子集中的图像；从所述超声造影图像中获取的所述第一超声造影图像为所述超声造影图像子集中的图像。

步骤S102，将所述训练图像集中的第一超声图像和第一超声造影图像输入至所述多模态图像分类模型包括的图像序列化模块和特征提取模块中，获得所述第一超声图像对应的第一特征编码集合和所述第一超声造影图像对应的第二特征编码集合。

在一些实施例中，所述第一装置基于所述图像序列化模块对所述第一超声图像和第一超声造影图像进行分块处理，获得至少两个图像块；所述特征提取模块对每一个图像块进行特征提取，获取每一个图像块的特征编码；确认所述第一超声图像的图像块对应的特征编码为所述第一特征编码集合，确认所述第一超声造影图像的图像块对应的特征编码为所述第二特征编码集合。

具体实施时，所述第一装置可以基于所述图像序列化模块将所述第一超声图像和所述第一超声造影图像分别分块为N个K×K大小的图像块；进一步，假设所述超声图像子集中包括M个超声图像，则经过所述图像序列化模块之后，所述超声图像子集中包括M×N个图像块；同理，所述超声造影图像子集中也包括M×N个图像块。

在一些可选实施例中，第一超声图像表示为x，第一超声造影图像表示为y；则所述第一超声图像对应的图像块可以表示为x_i；进一步，所述第一超声造影图像对应的图像块可以表示为y_i，其中，i∈{1,2,...,N}。

在一些实施例中，所述特征提取模块的结构为ResNet50结构；所述特征提取模块的最后一层为线性投影层。

具体实施时，所述特征提取模块将图像块映射为一维空间，得到一维的特征编码。例如，第一超声图像对应的特征编码为fx_i，第一超声造影图像对应的特征编码为fy_i。

步骤S103，将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果。

在一些实施例中，所述第一装置确认所述第一超声图像和第一超声造影图像的第一分类标志；在所述第一特征编码集合中的特征编码、所述第二特征编码集合中的特征编码和所述第一分类标志中添加位置信息编码；所述位置信息编码用于表征特征编码所对应的图像块在第一超声图像或第一超声造影图像中的位置信息；所述位置信息编码还用于区分所述第一分类标志。

具体实施时，所述第一分类标志可以是Class token(cls token)，所述第一装置可以基于相关技术中的方法生成所述第一分类标志。

在另一些实施例中，所述第一装置将所述第一特征编码集合和所述第二特征编码集合中位置信息编码相同的特征编码输入至所述多头自注意力层中，获得所述第一超声图像和所述第一超声造影图像对应的图像特征；将所述图像特征输入至所述多层感知机；将所述第一分类标志输入至所述多头注意力层和所述多层感知机，获得分类特征；将所述分类特征输入至所述多层感知机头，获得分类预测结果。其中，所述多模态聚合模块包括多头自注意力层、多层感知机和多层感知机头。

在一些可选实施例中，所述多模态聚合模块还包括：层标准化结构和跳跃连接结构；其中，所述层标准化结构位于所述多头注意力层和所述多层感知机之前；所述多层感知机包括全连接层、激活函数层和Dropout层。

具体实施时，所述层标准化结构用于提高模型的训练速度和精度，使得模型更加稳健；所述跳跃连接结构用于解决网络层数较深的情况下梯度消失的问题，同时有助于梯度的反向传播，加快训练过程。

图2示出了本公开实施例提供的多头自注意力层的可选结构示意图。

多头自注意力层的输入通常为相同的向量，即如图2所示，相关技术中Q、K、V的输入为相同的向量，但是在本公开中，多头自注意力层的输入为不同的向量；具体的，可以如图2所示，第一超声图像的图像块的特征编码fx_i输入至Q，第一超声造影图像的图像块的特征编码fy_i输入至K和V；可选的，还可以第一超声图像的图像块的特征编码fx_i输入至Q和K，第一超声造影图像的图像块的特征编码fy_i输入至V。需要说明的是，Q、K和V对其输入的特性编码的处理完全相同，本公开中不限定第一超声图像的图像块的特征编码fx_i和第一超声造影图像的图像块的特征编码fy_i输入至多头自注意力层的顺序，Q、K和V的输入可以是一个fx_i和两个fy_i，输入方式可以是fy_i、fx_i、fy_i，也可以是fy_i、fy_i、fx_i，还可以是fx_i、fy_i、fy_i，其最后输出的结果是完全相同的，Q、K和V的输入为两个fx_i和一个fy_i的输入方式与一个fx_i和两个fy_i类似，本公开不做具体限定。需要说明的是，fx_i和fy_i输入至多头自注意力层的数量不同，其输出的结果不同，具体可以根据需求设置，或者根据实验结果设置，本公开不作具体限制。

第一超声图像的图像块的特征编码fx_i和第一超声造影图像的图像块的特征编码fy_i输入至多头自注意力层的Q、K和V之后，经过线性变换(Linear)输入至至少一个自注意力层中(如图2中包括h个自注意力层，h为大于1的整数)，进而对至少一个自注意力层的输出进行拼接(Concat)和线性变换，之后，输入至多模态聚合模块包括的多层感知机中。

此外，由于本公开中使用的训练集仅包括两个模态，即超声图像和超声造影图像，本公开实施例还可以适用于三个及三个以上模态的场景中，在三个模态的场景中，Q、K和V的输入完全不同。

步骤S104，基于所述第一超声图像和所述第一超声造影图像对应的分类标注结果与所述分类预测结果之间的差异，调整所述多模态图像分类模型的参数。

在一些实施例中，所述第一装置将所述训练图像集中的第三超声图像和第三超声造影图像输入至调整参数后的多模态图像分类模型包括的图像序列化模块中，获得所述第三超声图像对应的第三特征编码集合和所述第三超声造影图像对应的第四特征编码集合；将所述第三特征编码集合和所述第四特征编码集合输入至所述调整参数后的多模态图像分类模型包括的多模态聚合模块中，获得所述第三超声图像和所述第三超声造影图像对应的分类预测结果；基于所述第三超声图像和所述第三超声造影图像对应的分类标注结果与所述第三超声图像和所述第三超声造影图像对应的分类预测结果之间的差异，调整所述多模态图像分类模型的参数。

直至所述训练图像集所包括的超声图像子集和超声造影图像子集中全部图像均经过所述多模态图像分类模型进行训练，确认所述多模态图像分类模型训练完成；或者，响应于所述分类标注结果与所述分类预测结果之间的差异小于第一阈值，确定所述多模态图像分类模型训练完成。其中，所述第一阈值可以基于实际需求和/或实验结果确定，本公开不作具体限制。

如此，通过本公开实施例提供的多模态图像分类模型训练方法，确认训练图像集，所述训练图像集中包括超声图像子集和超声造影图像子集，所述超声图像子集中的图像与所述超声造影图像子集中的图像一一对应；将所述训练图像集中的第一超声图像和第一超声造影图像输入至所述多模态图像分类模型包括的图像序列化模块中，获得所述第一超声图像对应的第一特征编码集合和所述第一超声造影图像对应的第二特征编码集合；将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果；基于所述第一超声图像和所述第一超声造影图像对应的分类标注结果与所述分类预测结果之间的差异，调整所述多模态图像分类模型的参数；其中，所述多模态聚合模块包括多头自注意力层和多层感知机。训练图像集中包括所述超声图像和超声造影图像，可以得到丰富的图像信息；此外，在确定图像块对应的特征编码时，通过Resnet50结构，可以有效地从低层特征序列中提取序列之间的长期依赖关系，使多模态的图像特征融合，从而使多模态图像分类模型获得良好的性能；最后，多头自注意力层的输入是超声图像和超声造影图像的特征编码，可以将多模态特征融合在一起，使模型学习到同一客体的不同模态下的不同角度的特征，为后续多模态图像分类提供有力支撑。

图3示出了本公开实施例提供的图像分类方法的一种可选流程示意图，将根据各个步骤进行说明。

步骤S301，将待识别图像输入至多模态图像分类模型。

在一些实施例中，图像分类装置(以下简称第二装置)将待识别图像输入至多模态图像分类模型。其中，所述多模态图像分类模型可以是经过步骤S101至步骤S104训练完成的多模态图像分类模型。

具体实施时，所述第二装置基于所述多模态图像分类模型包括的图像序列化模块，获取所述待识别图像对应的特征编码集合；所述多模态聚合模块基于所述特征编码模型生成分类标志，并将所述分类标志输入至所述多层感知机头中，获得所述待识别图像的分类结果。

步骤S302，确认所述多模态图像分类模型的输出的为所述待识别图像的分类结果。

在一些是实施例中，所述第二装置确认所述多模态图像分类模型的输出的为所述待识别图像的分类结果；其中，所述分类结果可以包括：所述待识别图像中包括第一类客体，和/或所述待识别图像中不包括第一类客体。其中，所述客体可以是细胞、骨骼等组织。

如此，通过本公开实施例提供的图像分类方法，应用本公开提供的多模态图像分类模型，可以提升图像分类的准确性。

接下来以肝脏的超声图像和超声造影图像为例，进一步解释本公开实施例提供的多模态图像分类模型训练方法。

肝细胞癌是最常见的肝脏恶性肿瘤，在肝癌病例中约为70％都为肝细胞癌。在全球最常见的肿瘤中，肝细胞癌位居第五位，在全球与癌症相关的死亡人数中，它也位列第四位。肝细胞癌通常由肝硬化演变而来。如今，肝癌诊断的黄金标准是穿刺活检，但这是一种侵入性、危险的技术，因为它可能导致肿瘤在人体内扩散，也可能导致感染。超声检查是一种廉价、无创、无辐射的医学检查方法，因此具有可重复性，适用于患者疾病监测。而超声造影是一种基于超声的改进技术，利用造影剂，使后散射回声增强,明显提高超声诊断的分辨力、敏感性和特异性。

在超声图像中，脂肪细胞、坏死、纤维化和活跃生长组织是交织在一起的，肝细胞癌在进化阶段后期出现，超声图像的特点是具有高回声。在超声造影图像中，由于恶性肿瘤特有的致密而复杂的血管结构，肝细胞癌显得更加突出。然而，超声图像和超声造影图像中，很多情况下肝细胞癌很难与其演变的肝硬化实质区分开来，因此需要先进的计算机方法，以非侵入性的方式跨越人眼的局限性。

现有技术进行肝细胞癌的识别，一般使用的方法有：基于提取纹理特征并且分类器进行分类，纹理特征提取的方法主要有：灰度共生矩阵、小波和Gabor变换，分类器主要有：支持向量机(SVM)、随机森林、Fisher线性判别法或贝叶斯分类器。最近，深度学习技术，如深度信念网络(DBN)、递归神经网络(RNN)，以及基于CNN的分类器，这些方法成功地用于医学图像的自动诊断。深度学习技术的发展在许多情况下都显示了其优越性，例如超声图像中的脂肪肝识别，超声图像中的乳腺肿瘤识别，肝损伤识别，肝脏肿瘤识别和分割，肺结节检测等。

在医学领域，现有技术一般是针对同一种模态的图像进行病灶的检测分析，而在实际当中，医生需要结合多种模态的图像进行病灶的最终诊断。

基于此，本公开提供了一种多模态图像分类模型训练方法，通过同一病灶对应的超声图像和超声造影图像两种模态，实现多模态融合的多模态图像分类模型训练方法。结合了CNN和Transformer的有点来捕获底层特征和跨模态的高层特征，将多模态图像处理为序列并发送给CNN，然后使用Transformer学习序列之间的关系并进行预测。

图4示出了本公开实施例提供的多模态图像分类模型训练方法的另一种可选流程示意图，图5示出了本公开实施例提供的多模态图像分类模型训练方法的数据示意图，将根据各个步骤进行说明。

本公开中，多模态图像分类模型包括图像序列化模块、特征提取模块、多模态聚合模块和损失模块；其中，图像序列化模块是数据处理模块，用于将图像进行预处理和将图像序列化为图像块；特征提取模块：用于提取两个模态图像的低层特征，并将特征进行初步编码，得到一维向量(特征编码)；多模态聚合模块，用于特征模块提取的编码后的图像特征进行特征融合，并得到输入数据的分类结果；损失模块，用于通过最小化模型结果和标注结果的误差来优化模型参数。

步骤S401，确认训练图像集。

在一些实施例中，所述训练图像集中包括超声图像子集和超声造影图像子集，所述超声图像子集中的图像与所述超声造影图像子集中的图像一一对应。可选的，训练图像集中的图像是由一系列成对的肝脏超声图像(第一超声图像)和肝脏超声造影图像(第一超声造影图像)组成，并且所述图像训练集中的图像包括病灶区域的标注信息，以及病灶区域的分类信息(或病灶良、恶性标注信息)，为方便描述，肝脏超声图像所组成的超声图像子集为数据集A，肝脏超声造影图像所组成的超声造影图像子集为数据集B。

在一些实施例中，第一装置进行数据的预处理，将成对的肝脏超声图像和肝脏超声造影图像带有病灶的区域截取(即图5中裁剪病灶区域)出来，并且将病灶区域大小调整为一致，数据集A和数据集B中分别有M个图像。

步骤S402，图像序列化处理。

在一些实施例中，所述第一装置基于所述图像序列化模块对所述肝脏超声图像和肝脏超声造影图像进行分块处理，获得至少两个图像块

具体实施时，所述第一装置可以基于所述图像序列化模块将所述肝脏超声图像和所述肝脏超声造影图像分别分块为N个K×K大小的图像块(即图5中将图像分开，大小为K×K)；进一步，假设所述超声图像子集中包括M个超声图像，则经过所述图像序列化模块之后，所述超声图像子集中包括M×N个图像块；同理，所述超声造影图像子集中也包括M×N个图像块。

在一些可选实施例中，肝脏超声图像表示为x，肝脏超声造影图像表示为y；则所述肝脏超声图像对应的图像块可以表示为x_i；进一步，所述肝脏超声造影图像对应的图像块可以表示为y_i，其中，i∈{1,2,...,N}。

步骤S403，特征提取处理。

在一些实施例中，所述第一装置通过所述特征提取模块对每一个图像块进行特征提取，获取每一个图像块的特征编码；确认所述肝脏超声图像的图像块对应的特征编码为所述第一特征编码集合，确认所述第一超声造影图像的图像块对应的特征编码为所述第二特征编码集合。其中，所述特征提取模块的结构为ResNet50结构；所述特征提取模块的最后一层为线性投影层。可选的，所述特征提取模块的最后一层还可以是其他网络结构如：ResNet-18等其他ResNet结构，AlexNet等常见的网络结构，以及MobileNet、ShuffleNet等轻量级的网络结构，都可以实现本发明。

具体实施时，所述第一装置从所述数据集A和数据集B中分别获取属于同一图像(同一肝脏图像)对应的肝脏超声图像的N个图像块，和肝脏造影图像对应的N个图像块；分别将肝脏超声图像和肝脏造影图像对应的2N(即N+N)个图像块输入至所述特征提取模块；所述特征提取模块主要基于CNN算法构成，所述特征提取模块将图像块映射为一维空间，得到一维的特征编码。例如，肝脏超声图像对应的特征编码为fx_i，肝脏超声造影图像对应的特征编码为fy_i。其中，图像块的数量与生成的特征编码的数量相同。

步骤S404，多模态聚合处理。

在一些实施例中，所述装置基于多模态聚合模块确认所述肝脏超声图像和肝脏超声造影图像的第一分类标志和/或位置信息编码；在所述第一特征编码集合中的特征编码、所述第二特征编码集合中的特征编码和所述第一分类标志中添加位置信息编码；所述位置信息编码用于表征特征编码所对应的图像块在肝脏超声图像或肝脏超声造影图像中的位置信息；所述位置信息编码还用于区分所述第一分类标志。

具体实施时，所述第一装置将所述第一特征编码集合和所述第二特征编码集合中位置信息编码相同的特征编码输入至所述多头自注意力层中，获得所述肝脏超声图像和所述肝脏超声造影图像对应的图像特征；将所述图像特征输入至所述多层感知机；将所述第一分类标志输入至所述多头注意力层和所述多层感知机，获得分类预测结果。

具体实施时，所述多模态聚合模块基于N个肝脏超声图像对应的特征编码和N个肝脏超声造影图像对应的特征编码生成第一分类标志cls token，作为后续多模态聚合模块的输入，可以用于进行图像分类。N个肝脏超声图像对应的特征编码、N个肝脏超声造影图像对应的特征编码和第一分类标志中添加位置信息编码，所述位置信息编码可以通过p_cls,px_i,py_i，i∈{1,2,...,N}表示，用于确定特征编码在图像上的相对位置，防止在后续的特征提取中丢掉位置信息。

所述第一装置将添加了位置信息编码的N个肝脏超声图像对应的特征编码、N个肝脏超声造影图像对应的特征编码和第一分类标志输入至多模态聚合模块中，其中，所述多模态聚合模块可以包括Transformer编码器和多层感知机头，所述Transformer编码器包括多头自注意力层和多层感知机，并且在所述Transformer编码器的头部和尾部还增加了层标准化结构LN和类似ResNet的跳跃连接结构(skip connection)；多层感知机由全连接层+GELU激活函数+Dropout层组成。

图6示出了本公开实施例提供的多模态聚合模块包括的变换器网络的可选结构示意图。

如图6所示，多模态聚合模块包括的Transformer编码器(变换器网络)包括多头自注意力层(多头自注意力MSA)和多层感知机MLP，其中，在多头自注意力MSA和多层感知机MLP之前分别设置有第一层标准化结构(层标准化LN)和第二层标准化结构，跳跃连接结构即图6中多模态聚合模块的输入不仅输入第一层标准化机构和多头自注意力层，还会与多头自注意力层的输出相加，输入至第二层标准化结构和多层感知机中；此外，第二层标准化结构和多层感知机的输入，还会与多层感知机的输出相加，作为多层感知机头的输入。

具体实施时，以多模态聚合模块的输入为fx_i、fy_i、fy_i为例，所述第一层标准化结构依次对fx_i、fy_i、fy_i进行处理，如图2所示，经过第一层标准化结构处理后的fx_i、fy_i、fy_i分别进行线性变换，然后分别输入至自注意力层，多个自注意力层的数据进行拼接和线性变换后，与fx_i、fy_i、fy_i进行相加，输入至第二层标准化结构和多层感知机中，与所述第二层标准化结构的输入相加，得到所述多模态聚合模块的输出。最后，所述第一分类标志对应的特征向量输入至所述多头自注意力层和多层感知机中，获得分类特征，将所述分类特征输入至所述多模态聚合模块包括的多层感知机头MLP Head中，MLP Head由全连接层和softmax激活函数组成，得到最后肝脏超声图像的分类预测结果。所述分类预测结果可以包括，所述肝脏造影图像中包括第一类细胞(病灶为恶性)，或者所述肝脏造影图像中不包括第一类细胞(病灶为良性)。其中，所述第一类细胞可以是肝癌细胞。

步骤S405，损失模块调整多模态图像分类模型的参数。

在一些实施例中，所述第一装置通过损失模块基于所述第一超声图像和所述第一超声造影图像对应的分类标注结果与所述分类预测结果之间的差异，调整所述多模态图像分类模型的参数。

在另一些可选实施例中，所述第一装置重复执行步骤S402至步骤S405，将所述训练图像集中的第三超声图像和第三超声造影图像输入至调整参数后的多模态图像分类模型包括的图像序列化模块中，获得所述第三超声图像对应的第三特征编码集合和所述第三超声造影图像对应的第四特征编码集合；将所述第三特征编码集合和所述第四特征编码集合输入至所述调整参数后的多模态图像分类模型包括的多模态聚合模块中，获得所述第三超声图像和所述第三超声造影图像对应的分类预测结果；基于所述第三超声图像和所述第三超声造影图像对应的分类标注结果与所述第三超声图像和所述第三超声造影图像对应的分类预测结果之间的差异，调整所述多模态图像分类模型的参数。

如此，通过本公开实施例提供的多模态图像分类模型训练方法，使用了肝脏两种图像模态(超声图像和超声造影图像)，可以充分的学习到两种图像模态下病灶的丰富的信息。本公开提出的方法是包含了CNN和Transformer的混合模型。其中，CNN作为低层特征提取工具，生成多模态图像的局部特征序列，本公开使用的是Resnet50结构；而Transformer可以有效地从低层特征序列中提取序列之间的长期依赖关系，使多模态的图像特征融合，从而获得良好的性能。本公开提出的方法中，Transformer用在多模态聚合模块中，在多头注意力层上有所改进，通常多头注意力层Q、K、V是相同的输入，而在本公开中，Q、K、V是不同模态图像的特征编码，这样就可以将多模态特征融合在一起，使模型学习到同一病灶的不同模态下的不同角度的特征。

此外，本公开中，对于特征提取模块的结构是ResNet-50，但是其他网络结构如：ResNet-18等其他ResNet结构，AlexNet等常见的网络结构，以及MobileNet、ShuffleNet等轻量级的网络结构，都可以实现本公开，本公开不作具体限制。

图7示出了本公开实施例提供的多模态图像分类模型训练装置的可选结构示意图，将根据各个部分进行说明。

在一些实施例中，多模态图像分类模型训练装置600包括：数据准备单元601、第一数据处理单元602、第二数据处理单元603和调整单元604。

所述数据准备单元601，用于确认训练图像集，所述训练图像集中包括超声图像子集和超声造影图像子集，所述超声图像子集中的图像与所述超声造影图像子集中的图像一一对应；

所述第一数据处理单元602，用于将所述训练图像集中的第一超声图像和第一超声造影图像输入至所述多模态图像分类模型包括的图像序列化模块和特征提取模块中，获得所述第一超声图像对应的第一特征编码集合和所述第一超声造影图像对应的第二特征编码集合；

所述第二数据处理单元603，用于将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果；

所述调整单元604，用于基于所述多模态图像分类模型包括的损失模块，基于所述第一超声图像和所述第一超声造影图像对应的分类标注结果与所述分类预测结果之间的差异，调整所述多模态图像分类模型的参数；

所述数据准备单元601，具体用于获取第二超声图像，以及与所述第二超声图像对应第二超声造影图像；分别从所述第二超声图像和所述第二超声造影图像中获取尺寸相同的第一超声图像和第一超声造影图像，所述第一超声图像和所述第一超声造影图像为所述训练图像集中的图像；其中，从所述超声图像中获取的所述第一超声图像为所述超声图像子集中的图像；从所述超声造影图像中获取的所述第一超声造影图像为所述超声造影图像子集中的图像。

所述第一数据处理单元602，具体用于基于所述图像序列化模块对所述第一超声图像和第一超声造影图像进行分块处理，获得至少两个图像块；基于所述特征提取模块对每一个图像块进行特征提取，获取每一个图像块的特征编码；确认所述第一超声图像的图像块对应的特征编码为所述第一特征编码集合，确认所述第一超声造影图像的图像块对应的特征编码为所述第二特征编码集合。

所述第二数据处理单元603，具体用于确认所述第一超声图像和第一超声造影图像的第一分类标志；在所述第一特征编码集合中的特征编码、所述第二特征编码集合中的特征编码和所述第一分类标志中添加位置信息编码；所述位置信息编码用于表征特征编码所对应的图像块在第一超声图像或第一超声造影图像中的位置信息；所述位置信息编码还用于区分所述第一分类标志。

所述第二数据处理单元603，具体用于将所述第一特征编码集合和所述第二特征编码集合中位置信息编码相同的特征编码输入至所述多头自注意力层中，获得所述第一超声图像和所述第一超声造影图像对应的图像特征；将所述图像特征输入至所述多层感知机；将所述第一分类标志输入至所述多头注意力层和所述多层感知机，获得分类特征；

在一些实施例中，所述多模态聚合模块还包括：层标准化结构和跳跃连接结构；其中，所述层标准化结构位于所述多头注意力层和所述多层感知机之前。

在一些实施例中，所述多层感知机包括全连接层、激活函数层和Dropout层。

所述第一数据处理单元602，在所述基于所述第一超声图像和所述第一超声造影图像对应的分类标注结果与所述分类预测结果之间的差异，调整所述多模态图像分类模型的参数之后，还用于将所述训练图像集中的第三超声图像和第三超声造影图像输入至调整参数后的多模态图像分类模型包括的图像序列化模块中，获得所述第三超声图像对应的第三特征编码集合和所述第三超声造影图像对应的第四特征编码集合；

所述第二数据处理单元603，还用于将所述第三特征编码集合和所述第四特征编码集合输入至所述调整参数后的多模态图像分类模型包括的多模态聚合模块中，获得所述第三超声图像和所述第三超声造影图像对应的分类预测结果；

所述调整单元604，还用于基于所述第三超声图像和所述第三超声造影图像对应的分类标注结果与所述第三超声图像和所述第三超声造影图像对应的分类预测结果之间的差异，调整所述多模态图像分类模型的参数。

所述调整单元604，具体用于响应于所述分类标注结果与所述分类预测结果之间的差异小于第一阈值，确定所述多模态图像分类模型训练完成。

图8示出了本公开实施例提供的图像分类装置的可选结构示意图，将根据各个部分进行说明。

在一些实施例中，图像分类装置700包括输入单元701和识别单元702。

所述输入单元701，用于将待识别图像输入至所述多模态图像分类模型；

所述识别单元702，用于确认所述多模态图像分类模型的输出的为所述待识别图像的分类结果。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图9示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如多模态图像分类模型训练方法和/或图像分类方法。例如，在一些实施例中，多模态图像分类模型训练方法和/或图像分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM803并由计算单元801执行时，可以执行上文描述的多模态图像分类模型训练方法和/或图像分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行多模态图像分类模型训练方法和/或图像分类方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多模态图像分类模型训练方法，其特征在于，所述方法包括：

将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块的多头自注意力层中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果；

其中，所述多模态聚合模块包括多头自注意力层、多层感知机和多层感知机头；所述将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块的多头自注意力层中，包括：

将所述第一特征编码集合中第一超声图像的图像块的特征编码，作为所述多头自注意力层包括的K、Q、V中任一或者任二的输入；将所述第二特征编码集合中第一超声造影图像的图像块的特征编码，作为K、Q、V中未输入第一超声图像的图像块的特征编码的剩余部分的输入。

2.根据权利要求1所述的方法，其特征在于，所述确认训练图像集包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述训练图像集中的第一超声图像和第一超声造影图像输入至所述多模态图像分类模型包括的图像序列化模块和特征提取模块中，获得所述第一超声图像对应的第一特征编码集合和所述第一超声造影图像对应的第二特征编码集合，包括：

4.根据权利要求1或3所述的方法，其特征在于，

所述特征提取模块的结构为ResNet50结构；

所述特征提取模块的最后一层为线性投影层。

5.根据权利要求1所述的方法，其特征在于，所述将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果，包括：

将所述图像特征输入至所述多层感知机；

7.根据权利要求1所述的方法，其特征在于，所述多模态聚合模块还包括：

层标准化结构和跳跃连接结构；

8.根据权利要求1所述的方法，其特征在于，

所述多层感知机包括全连接层、激活函数层和Dropout层。

9.根据权利要求1所述的方法，其特征在于，所述基于所述第一超声图像和所述第一超声造影图像对应的分类标注结果与所述分类预测结果之间的差异，调整所述多模态图像分类模型的参数之后，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.一种图像分类方法，其特征在于，应用权利要求1至10任一项所述的多模态图像分类模型，所述方法包括：

将待识别图像输入至所述多模态图像分类模型；

12.一种多模态图像分类模型训练装置，其特征在于，所述装置包括：

第一数据处理单元，用于将所述训练图像集中的第一超声图像和第一超声造影图像输入至所述多模态图像分类模型包括的图像序列化模块和特征提取模块中，获得所述第一超声图像对应的第一特征编码集合和所述第一超声造影图像对应的第二特征编码集合；

第二数据处理单元，用于将所述第一特征编码集合和所述第二特征编码集合输入至所述多模态图像分类模型包括的多模态聚合模块的多头自注意力层中，获得所述第一超声图像和所述第一超声造影图像对应的分类预测结果；

其中，所述多模态聚合模块包括多头自注意力层、多层感知机和多层感知机头；

所述第二数据处理单元，具体用于将所述第一特征编码集合中第一超声图像的图像块的特征编码，作为所述多头自注意力层包括的K、Q、V中任一或者任二的输入；将所述第二特征编码集合中第一超声造影图像的图像块的特征编码，作为K、Q、V中未输入第一超声图像的图像块的特征编码的剩余部分的输入。

13.一种图像分类装置，其特征在于，应用权利要求1至10任一项所述的多模态图像分类模型，所述装置包括：

14. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法；

或者，执行权利要求11所述的方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法；

或者，执行权利要求11所述的方法。