CN114708471B

CN114708471B - 跨模态图像生成方法、装置、电子设备与存储介质

Info

Publication number: CN114708471B
Application number: CN202210628095.6A
Authority: CN
Inventors: 崔玥; 李超; 余山
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-09-06
Anticipated expiration: 2042-06-06
Also published as: CN114708471A

Abstract

本发明涉及人工智能技术领域，提供一种跨模态图像生成方法、装置、电子设备与存储介质，跨模态图像生成模型通过第一样本神经影像及其对应的目标模态样本影像对跨模态图像生成预训练模型进行训练得到，跨模态图像生成预训练模型通过第二样本神经影像及其对应的指定模态样本影像对无监督预训练模型训练得到，无监督预训练模型基于第三样本神经影像训练得到，该方法中采用有监督和无需人工标注信息的无监督的训练方式预训练得到跨模态图像生成预训练模型，节省数据的标注成本，避免模型出现过拟合的问题，极大提升模型在跨模态图像生成任务上的性能与泛化性，应用跨模态图像生成模型对输入的神经影像进行模态转换，极大提升目标模态影像的准确性。

Description

跨模态图像生成方法、装置、电子设备与存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种跨模态图像生成方法、装置、电子设备与存储介质。

背景技术

跨模态图像生成任务是指将一种模态的图像转换成另一种模态的图像，该任务通常通过神经网络模型实现。

目前，基于迁移学习的跨模态图像生成模型大多采用单一预训练任务结合微调的常规训练方式训练得到。然而，对于跨模态脑部神经影像生成任务来说，数据集规模通常较小，仅有几十例或几百例数据量使得常规训练方式容易出现过拟合的问题，从而导致跨模态图像生成模型的性能较差。

发明内容

本发明提供一种跨模态图像生成方法、装置、电子设备与存储介质，用以解决现有技术中神经影像的跨模态图像生成模型的训练方式容易出现过拟合的缺陷。

本发明提供一种跨模态图像生成方法，包括：

确定初始模态的神经影像；

将所述神经影像输入至跨模态图像生成模型，得到所述跨模态图像生成模型输出的目标模态影像；

其中，所述跨模态图像生成模型是在跨模态图像生成预训练模型的基础上，基于非目标模态的第一样本神经影像及其对应的目标模态样本影像训练得到的，所述跨模态图像生成预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的指定模态样本影像训练得到的，所述无监督预训练模型是基于第三样本神经影像训练得到。

根据本发明提供的一种跨模态图像生成方法，所述无监督预训练模型基于如下步骤训练得到：

基于所述第三样本神经影像，构建正样本对和负样本对；

将所述正样本对中的各个影像输入至图像重建预训练模型，得到所述图像重建预训练模型输出的所述正样本对对应的各个特征向量；所述图像重建预训练模型基于第四样本神经影像训练得到；

将所述负样本对中的各个影像输入至所述图像重建预训练模型，得到所述图像重建预训练模型输出的所述负样本对对应的各个特征向量；

以所述正样本对对应的各个特征向量的一致性，以及所述负样本对对应的各个特征向量的差异性为目标，对所述图像重建预训练模型进行训练，得到所述无监督预训练模型。

根据本发明提供的一种跨模态图像生成方法，所述图像重建预训练模型基于如下步骤训练得到：

对所述第四样本神经影像进行随机区域的裁剪或遮罩，得到缺陷样本影像；

将所述缺陷样本影像输入至初始模型，得到所述初始模型输出的预测影像；

计算所述预测影像与所述缺陷样本影像的逐体素均方误差，并以所述逐体素均方误差为目标，对所述初始模型进行训练，得到所述图像重建预训练模型。

根据本发明提供的一种跨模态图像生成方法，所述初始模型包括特征提取结构和上采样结构。

根据本发明提供的一种跨模态图像生成方法，所述基于所述第三样本神经影像，构建正样本对和负样本对，包括：

对所述第三样本神经影像进行数据增强操作，得到增强影像；

基于所述第三样本神经影像对应的增强影像，构建所述正样本对和所述负样本对。

根据本发明提供的一种跨模态图像生成方法，所述跨模态图像生成模型基于如下步骤训练得到：

将所述第一样本神经影像输入至所述跨模态图像生成预训练模型，得到所述跨模态图像生成预训练模型输出的生成影像；

计算所述生成影像与所述目标模态影像的逐体素均方误差，并以所述逐体素均方误差为目标，对所述跨模态图像生成预训练模型进行训练，所述跨模态图像生成模型。

根据本发明提供的一种跨模态图像生成方法，所述第一样本神经影像、所述第二样本神经影像以及所述第三样本神经影像均为除所述目标模态外的多模态神经影像。

本发明还提供一种跨模态图像生成装置，包括：

确定单元，用于确定初始模态的神经影像；

生成单元，用于将所述神经影像输入至跨模态图像生成模型，得到所述跨模态图像生成模型输出的目标模态影像；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的跨模态图像生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的跨模态图像生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的跨模态图像生成方法。

本发明提供的跨模态图像生成方法、装置、电子设备与存储介质，通过确定初始模态的神经影像，将神经影像输入至跨模态图像生成模型，得到目标模态影像。采用的跨模态图像生成模型通过第一样本神经影像及其对应的目标模态样本影像对跨模态图像生成预训练模型进行训练得到，跨模态图像生成预训练模型则是通过第二样本神经影像及其对应的指定模态样本影像对无监督预训练模型训练得到的，无监督预训练模型则是基于第三样本神经影像训练得到，该方法中采用有监督和无需人工标注信息的无监督的训练方式预训练得到跨模态图像生成预训练模型，从而节省了数据的标注成本，同时避免了模型出现过拟合的问题，极大提升了模型在跨模态图像生成任务上的性能与泛化性，在此基础上，应用跨模态图像生成模型对输入的神经影像进行模态转换，能够极大提升目标模态影像的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的跨模态图像生成方法的流程示意图；

图2是本发明提供的跨模态图像生成模型的训练流程示意图；

图3是本发明提供的跨模态图像生成模型的网络结构示意图；

图4是本发明提供的跨模态图像生成装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前主流的跨模态神经影像生成技术一部分基于生成式对抗网络（GenerativeAdversarial Networks，GAN），GAN包括生成网络与判别网络两部分，生成网络负责根据输入模态影像生成目标模态预测影像且目标模态预测影像尽量接近目标模态真实影像，判别网络则负责区别目标模态真实影像与生成网络所生成的目标模态预测影像。

另一部分基于有监督学习得到的网络模型，需要有成对的输入模态影像与目标模态影像，网络模型输出为目标模态预测影像，根据网络模型输出的目标模态预测影像与目标模态真实影像的偏差计算网络模型训练的损失函数值（loss）。

现有的基于GAN的跨模态神经影像生成技术由于没有真实的目标模态影像用于计算loss，无法保证模型生成图像的准确性。

现有的基于有监督的跨模态神经影像生成技术大多在目标影像数据集上直接训练模型进行图像重建，仍存在过拟合的风险。虽然预训练能够有效提升模型性能与泛化能力，但是现有基于预训练的跨模态图像生成方法局限于单一的预训练任务，未对不同预训练任务的结合方法进行探索。这也会影响最后微调得到的模型，导致其跨模态神经图像生成性能较差。而且，已有的模型预训练时所使用的预训练数据集规模较小，限制了预训练方法对模型的性能提升。

基于此，本发明实施例中提供了一种跨模态图像生成方法。

图1是本发明提供的跨模态图像生成方法的流程示意图，如图1所示，该方法包括：

S11，确定初始模态的神经影像；

S12，将所述神经影像输入至跨模态图像生成模型，得到所述跨模态图像生成模型输出的目标模态影像；

具体地，本发明实施例中提供的跨模态图像生成方法，其执行主体为跨模态图像生成装置，该装置可以配置于服务器内，该服务器可以是本地服务器，也可以是云端服务器，本地服务器具体可以是计算机等，本发明实施例中对此不作具体限定。

首先执行步骤S11，确定初始模态的神经影像。其中，初始模态的神经影像是指需要进行模态转换的三维神经影像，可以是核磁影像、CT（Computed Tomography，计算机断层扫描）影像、PET（Positron Emission Computed Tomography，正电子发射型计算机断层显像）影像或超声波影像等脑部神经影像，此处不作具体限定。

然后执行步骤S12，将该神经影像输入至跨模态图像生成模型，通过跨模态图像生成模型对神经影像进行分析，得到并输出神经影像对应的目标模态影像。该目标模态影像可以是目标模态的神经影像，该目标模态与初始模态不同，以实现不同模态影像之间的转换。例如，目标模态影像可以是超声波影像，初始模态的神经影像可以是PET影像、核磁影像或CT影像等与超声波影像模态不同的神经影像。

考虑到无监督预训练方法可以充分利用大量的无标签（label）神经影像数据，从神经影像数据中抽取更好的表征能力，提升下游任务的性能，对此，本发明实施例中引入无监督预训练过程，从而能够有效利用无标签大数据集，提高神经影像的表征学习能力，进而可以提升模型在跨模态图像生成任务上的性能与泛化性，同时能够降低对于有标签数据集的依赖性，节省数据的标注成本。

此外，考虑到基于单一预训练任务的预训练方式对模型跨模态图像生成性能的提升效果有限，本发明实施例中采用无监督和有监督融合的多阶段式预训练策略，可以进一步提升模型在跨模态图像生成任务上的性能与泛化性。

基于此，本发明实施例中的跨模态图像生成模型是通过非目标模态的第一样本神经影像及其对应的目标模态样本影像对跨模态图像生成预训练模型进行训练得到的，跨模态图像生成预训练模型是通过第二样本神经影像及其对应的指定模态样本影像对无监督预训练模型进行训练得到的，而无监督预训练模型则是基于第三样本神经影像训练得到的。

此处，非目标模态是指除目标模态之外的其他模态，目标模态样本影像是指第一样本神经影像对应的目标模态的样本神经影像。

指定模态样本影像可以是第二样本神经影像对应的目标模态样本影像，也可以是第二样本神经影像对应的与目标模态接近的其他模态的样本神经影像。

例如，可以先通过第三样本神经影像，对基础模型进行无监督预训练，得到无监督预训练模型，然后，在无监督预训练模型的基础上添加特定于跨模态影像生成任务的层，并应用第二样本神经影像及其对应的指定模态样本影像进行训练，从而得到跨模态图像生成预训练模型。随即，在跨模态图像生成预训练模型的基础上，继续应用第一样本神经影像及其对应的目标模态样本影像对跨模态图像生成预训练模型进行微调，即可得到最终的跨模态图像生成模型。

此处，在得到无监督预训练模型的无监督训练阶段，可以应用无标签的第三样本神经影像对基础模型进行无监督训练，进而得到无监督预训练模型，用于后续的有监督预训练阶段。该基础模型可以是跨模态图像生成模型的初始模型，也可以是该初始模型经过多个无监督训练认为联合训练得到。即无监督预训练阶段可以采用单个无监督训练任务，也可以采用多个无监督训练任务的组合，此处不作具体限定。

无监督训练的具体方式例如可以采用GAN算法、VAE（Variational Auto-Encoder，变分自编码器）算法、对比学习算法等，本发明实施例对此均不作具体限定。

初始模型可以采用单一的神经网络，也可以采用多个神经网络的组合，本发明实施例对此不作具体限定。此处，涉及的神经网络可以包括ResNet、Inception、U-Net等卷积神经网络（Convolutional Neural Network，CNN）、Transformer等。

可以理解的是，在整个训练过程中，模型结构并未发生变化，即跨模态图像生成模型、跨模态图像生成预训练模型以及无监督预训练模型，均与初始模型的模型结构相同，不同的仅仅在于模型参数，而训练过程正是对模型参数进行调整的过程。

本发明实施例中，采用的第一样本神经影像、第二样本神经影像以及第三样本神经影像可以取自于同一样本神经影像集合，也可以是第一样本神经影像取自于目标影像数据集，而第二样本神经影像以及第三样本神经影像取自于大数据神经影像集，此处不作具体限定。目标影像数据集的数据量可以小于大数据神经影像集，且在目标影像数据集中一定包含有第一样本神经影像对应的目标模态样本影像，而在大数据神经影像集则可能不存在某一模态的样本神经影像对应的目标模态样本影像。进而，指定模态样本影像则取决于大数据神经影像集中是否包含第二样本神经影像对应的目标模态样本影像，如果包含则该指定模态样本影像就是第二样本神经影像对应的目标模态样本影像，如果不包含，则该指定模态样本影像就是大数据神经影像集中第二样本神经影像对应的与目标模态接近的其他模态的样本神经影像。

需要说明的是，跨模态图像生成模型采用无监督和有监督融合的多阶段式预训练策略以串行方式对初始模型先后进行预训练得到，从而极大促进了模型学习到泛化性更强的特征表示，多阶段式预训练策略可以缓解模型在单一预训练任务上所出现的过拟合问题，进而极大提升了模型在跨模态图像生成任务上的性能与泛化性，在此基础上，应用跨模态图像生成模型对输入的初始模态的神经影像进行跨模态生成，从而能够得到较为准确的目标模态影像。

本发明实施例提供的跨模态图像生成方法，首先确定初始模态的神经影像；然后将神经影像输入至跨模态图像生成模型，得到跨模态图像生成模型输出的目标模态影像。采用的跨模态图像生成模型通过第一样本神经影像及其对应的目标模态样本影像对跨模态图像生成预训练模型进行训练得到，跨模态图像生成预训练模型则是通过第二样本神经影像及其对应的指定模态样本影像对无监督预训练模型训练得到的，无监督预训练模型则是基于第三样本神经影像训练得到，该方法中采用有监督和无需人工标注信息的无监督的训练方式预训练得到跨模态图像生成预训练模型，从而节省了数据的标注成本，同时避免了模型出现过拟合的问题，极大提升了模型在跨模态图像生成任务上的性能与泛化性，在此基础上，应用跨模态图像生成模型对输入的神经影像进行模态转换，能够极大提升目标模态影像的准确性。

在上述实施例的基础上，本发明实施例中提供的跨模态图像生成方法，所述无监督预训练模型基于如下步骤训练得到：

基于所述第三样本神经影像，构建正样本对和负样本对；

具体地，为了从无标签大数据集中学习潜在空间的表征，保证同类数据的表征尽量相似，异类数据的表征尽量不同，以利用学习到的表征能力来提升模型在下游任务上的性能表现，本发明实施例采用比学习算法，即对图像重建预训练模型进行对比学习无监督预训练，从而得到无监督预训练模型。该图像重建预训练模型可以通过第四样本神经影像训练得到，训练对象可以是初始模型，也可以是其他预训练方式训练得到的模型，此处不作具体限定。

采用的第四样本神经影像与第一样本神经影像、第二样本神经影像以及第三样本神经影像均可以取自于同一样本神经影像集合，也可以仅与第二样本神经影像以及第三样本神经影像相同，均取自于大数据神经影像集，此处不作具体限定。

对比学习无监督预训练的具体训练过程可以如下：

首先，可以通过第三样本神经影像构建正样本对和负样本对，正样本对为来自相同的样本神经影像的两个影像，负样本对为来自不同的样本神经影像的两个影像。此处，可以通过对第三样本神经影像进行处理，得到不同于第三样本神经影像的多个影像。

此后，将正样本对中的每个影像输入到图像重建预训练模型中，得到图像重建预训练模型输出的每个影像的特征向量，由此即可得到正样本对对应的两个特征向量；将负样本对中的每个影像输入到图像重建预训练模型中，得到图像重建预训练模型输出的每个影像的特征向量，由此即可得到负样本对对应的两个特征向量。

在此基础上，即可以正样本对对应的两个特征向量之间的一致性，以及负样本对对应的两个特征向量之间的差异性为目标，对图像重建预训练模型进行训练，即在训练过程中结合正样本对对应的两个特征向量之间的一致性的损失，以及负样本对对应的两个特征向量之间的差异性的损失，来更新图像重建预训练模型的参数，最终得到无监督预训练模型。

本发明实施例中，在对比学习无监督预训练过程中，模型能够学习到不同样本神经影像间底层语义信息差异性，提取到的特征在各种下游任务中有较强的通用性。同时，在第三样本神经影像上应用对比学习无监督预训练的成本更低，不需要额外的标签或其他模态等信息，仅需要样本神经影像本身即可进行。

在上述实施例的基础上，本发明实施例中提供的跨模态图像生成方法，所述图像重建预训练模型基于如下步骤训练得到：

具体地，本发明实施例中，训练得到图像重建预训练模型的过程，即图像重建无监督预训练过程。在图像重建预训练之前，可以通过第四样本神经影像获取更多用于对初始模型进行图像重建预训练的缺陷样本影像，即可以对第四样本神经影像进行随机区域的裁剪或遮罩。随机区域可以是第四样本神经影像中多个以任意随机位置为中心的随机大小的三维长方体区域。裁剪即将随机区域去除，遮罩即将随机区域遮挡，裁剪或遮罩的目的是使随机区域的数据变为空。

然后将该缺陷样本影像输入至初始模型，通过初始模型得到并输出预测影像，进而，可以计算预测影像与缺陷样本影像的逐体素均方误差，并以逐体素均方误差为目标，对初始模型进行训练。即可以将逐体素均方误差作为损失函数，用以优化初始模型的结构，更新初始模型的参数，进而实现对初始模型的训练，得到图像重建预训练模型。

在上述实施例的基础上，本发明实施例中提供的跨模态图像生成方法，所述初始模型包括特征提取结构和上采样结构。

具体地，初始模型可以包括特征提取结构和上采样结构，可以通过特征提取结构对输入的图像进行特征提取，通过上采样结构对特征提取结构提取到的特征进行上采样，得到输出的图像。此处，初始模型可以基于全卷积网络（Fully Convolutional Networks，FCN）、U-net、U-net++、Seg Net、Refine Net等构建，即可以选取其一作为初始模型的网络结构。

在上述实施例的基础上，本发明实施例中提供的跨模态图像生成方法，所述基于所述第三样本神经影像，构建正样本对和负样本对，包括：

具体地，本发明实施例中，在构建正样本对和负样本对时，可以先对第三样本神经影像进行数据增强操作，得到增强影像。数据增强操作可以包括旋转、翻转、颜色变换、模糊等，得到的增强图像与第三样本神经影像不同，且对应于同一第三样本神经影像的增强图像可以有多个。

然后，根据第三样本神经影像及其对应的增强影像，构建所述正样本对和所述负样本对，即可以从同一第三样本神经影像的增强影像中选取两个影像构成正样本对；可以从不同第三样本神经影像的增强影像中选取两个影像构成负样本对。

本发明实施例中，通过数据增强操作构建正样本对和负样本对，可以大大降低对第三样本神经影像的需求量。

在上述实施例的基础上，本发明实施例中提供的跨模态图像生成方法，所述跨模态图像生成模型基于如下步骤训练得到：

具体地，本发明实施例中，训练得到跨模态图像生成模型的过程即对跨模态图像生成预训练模型的微调过程。在该过程中，首先将第一样本神经影像输入至跨模态图像生成预训练模型，跨模态图像生成预训练模型对第一样本神经影像进行模态转换，得到并输出第一样本神经影像对应的生成影像。

此后，可以计算生成影像与第一样本神经影像对应的指定模态影像的逐体素均方误差，并可以以逐体素均方误差为目标，对跨模态图像生成预训练模型进行训练。即可以将逐体素均方误差作为损失函数，用以优化跨模态图像生成预训练模型的结构，更新跨模态图像生成预训练模型的参数，进而实现对跨模态图像生成预训练模型的训练，得到跨模态图像生成模型。

本发明实施例中，能够使跨模态图像生成预训练模型在跨模态转换的过程中学习到不同模态间的关系，同时跨模态转换任务可以一定程度上视作将其他模态的信息以标签的形式提供给了模型。

在上述实施例的基础上，本发明实施例中提供的跨模态图像生成方法，所述第一样本神经影像、所述第二样本神经影像以及所述第三样本神经影像均为除所述目标模态外的多模态神经影像。

具体地，本发明实施例中，考虑到不同模态的神经影像包含的信息不一样，第一样本神经影像、第二样本神经影像以及第三样本神经影像可以是除目标模态外的多模态神经影像，从而可以通过采用多模态融合策略，引入更多的数据模态，进而可以使通过第一样本神经影像及其对应的目标模态样本影像训练得到的跨模态图像生成模型的跨模态图像生成效果更优。

图2为本发明实施例中提供的跨模态图像生成装置的完整训练流程示意图，如图2所示，该流程包括：

S21，采用图像重建无监督预训练的训练方式得到图像重建预训练模型：

在大规模神经影像数据集上进行图像重建预训练。以第四样本神经影像随机位置为中心点裁剪下一个或多个随机大小的三维长方体，以裁剪后的影像作为初始模型的输入，对裁剪位置的原始数据进行预测，训练过程中使用遮盖部分对应位置的第四样本神经影像与初始模型的预测影像的逐体素均方误差作为loss。

S22，采用对比学习无监督预训练的训练方式得到无监督预训练模型：

在大规模神经影像数据集上对图像重建预训练模型进行对比学习无监督预训练，对原始的第三样本神经影像进行一定的旋转、翻转、颜色变换、模糊等数据增强操作，根据增强处理后的影像构建正样本对和负样本对，正样本对为来自相同的第三样本神经影像的样本对，负样本对为来自不同的第三样本神经影像的样本对，训练过程中，每次取样本对中的两个影像分别输入到图像重建预训练模型，图像重建预训练模型针对每个输入的影像输出一个长度相同的特征向量，计算两个特征向量的余弦距离

，不同的是，针对于正样本对，将

作为其loss，针对于负样本对，将

作为其loss。

S23、采用跨模态影像生成有监督预训练的训练方式得到跨模态图像生成预训练模型：

在大规模神经影像数据集上对无监督预训练模型进行跨模态图像生成有监督预训练，即将大规模神经影像数据集上多模态的第二样本神经影像作为无监督预训练模型的输入，无监督预训练模型的输出为输入影像对应的其他模态影像，此处是期望无监督预训练模型能够将一种或几种模态的神经影像转换为第二样本神经影像对应的指定模态样本影像。在训练过程中，可以将无监督预训练模型得到的影像与指定模态样本影像的逐体素均方误差作为loss用于优化无监督预训练模型的网络结构，进而得到跨模态图像生成预训练模型。

S24、在下游任务上对跨模态图像生成预训练模型进行微调，得到跨模态图像生成模型：

可以将跨模态图像生成预训练模型应用于下游任务中进行微调训练，例如，可以应用于跨模态图像生成任务中，在跨模态图像生成预训练模型的基础上添加特定于跨模态图像生成任务的层，并应用第一样本神经影像及其对应的目标模态样本影像进行训练，最终即可得到微调后的跨模态图像生成模型。由于跨模态图像生成预训练模型已在原始数据上收敛，此时应设置较小学习率（例如≤0.0001）在第一样本神经影像上进行训练。

图3是本发明提供的跨模态图像生成模型的网络结构示意图，以初始模型基于U- net构建为例，初始模型经过预训练过程以及微调过程得到的跨模态图像生成模型也具有 U-net的网络结构。如图3所示，在跨模态图像生成模型的应用过程中，可以将初始模态的神经影像

（通道、高度、宽度和深度分别为C₁、H、W和D）输入到跨模态图像生成模型中，依次经过收缩路径和扩张路径，最终得到目标模态影像O（通道、高度、宽度和深度依然分别为C₂、 H、W和D）。其中，C₁与C₂可以相同，也可以不同，此处不作具体限定。

图3中左侧向下路径为收缩路径，为特征提取结构；右侧向上路径为扩张路径，为上采样结构。

其中，收缩路径用于特征提取，包括5个特征提取层，5个特征提取层依次连接。扩张路径用于上采样，包括5个上采样层，5个上采样层依次连接。其中，第一个特征提取层与第五个上采样层连接，第二个特征提取层与第四个上采样层连接，第三个特征提取层与第三个上采样层连接，第四个特征提取层与第二个上采样层连接，第五个上采样层与第一个上采样层连接。其中，连接的意义为：将连线起始层的输出作为箭头所指向层的输入。对于同时有两个箭头所指向的层，表示将两个连线起始层的输出特征图沿通道（channel）维度拼接后，作为箭头所指向层的输入。

第一个特征提取层包括依次连接的两个3×3的卷积层（Convolutional Layer，Conv），第二个特征提取层至第五个特征提取层均包括依次连接的一个2×2的最大池化层（Max Pooling Layer，MaxPool）以及两个3×3的Conv。第一个上采样层包括一个2×2的上卷积层（Upconvolutional Layer，Upconv），第二个上采样层至第四个上采样层均包括依次连接的两个3×3的Conv以及一个1×1的Upconv，第五个上采样层包括依次连接的两个3×3的Conv以及一个1×1的Conv。

第五个特征提取层中的最后一个Conv与第一个上采样层中的Upconv连接，且I从第一个特征提取层输入，目标模态影像O由第五个上采样层中1×1的Conv输出。

综上所述，本发明实施例提供的跨模态图像生成方法，使用无监督和有监督融合的多阶段式预训练策略，引入对比学习无监督预训练、跨模态图像生成有监督预训练以及图像重建无监督预训练等多个预训练任务，能够有效利用无标签大数据集，提升跨模态图像生成模型在下游任务上的性能与泛化性，提高神经影像的表征学习能力。

如图4所示，在上述实施例的基础上，本发明实施例中提供了一种跨模态图像生成装置，包括：

确定单元41，用于确定初始模态的神经影像；

生成单元42，用于将所述神经影像输入至跨模态图像生成模型，得到所述跨模态图像生成模型输出的目标模态影像；

在上述实施例的基础上，本发明实施例中提供了一种跨模态图像生成方法，还包括第一预训练模块，用于：

基于所述第三样本神经影像，构建正样本对和负样本对；

在上述实施例的基础上，本发明实施例中提供了一种跨模态图像生成装置，还包括第二预训练模块，用于：

在上述实施例的基础上，本发明实施例中提供了一种跨模态图像生成装置，所述初始模型包括特征提取结构和上采样结构。

在上述实施例的基础上，本发明实施例中提供了一种跨模态图像生成装置，所述第一预训练模块具体用于：

在上述实施例的基础上，本发明实施例中提供了一种跨模态图像生成装置，还包括训练模块，用于：

在上述实施例的基础上，本发明实施例中提供了一种跨模态图像生成装置，所述第一样本神经影像、所述第二样本神经影像以及所述第三样本神经影像均为除所述目标模态外的多模态神经影像。

具体地，本发明实施例中提供的跨模态图像生成装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器（Processor）510、通信接口（Communications Interface）520、存储器（Memory）530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行上述各实施例中提供的跨模态图像生成方法，该方法包括：确定初始模态的神经影像；将所述神经影像输入至跨模态图像生成模型，得到所述跨模态图像生成模型输出的目标模态影像；其中，所述跨模态图像生成模型是在跨模态图像生成预训练模型的基础上，基于非目标模态的第一样本神经影像及其对应的目标模态样本影像训练得到的，所述跨模态图像生成预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的指定模态样本影像训练得到的，所述无监督预训练模型是基于第三样本神经影像训练得到。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例中提供的跨模态图像生成方法，该方法包括：确定初始模态的神经影像；将所述神经影像输入至跨模态图像生成模型，得到所述跨模态图像生成模型输出的目标模态影像；其中，所述跨模态图像生成模型是在跨模态图像生成预训练模型的基础上，基于非目标模态的第一样本神经影像及其对应的目标模态样本影像训练得到的，所述跨模态图像生成预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的指定模态样本影像训练得到的，所述无监督预训练模型是基于第三样本神经影像训练得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的跨模态图像生成方法，该方法包括：确定初始模态的神经影像；将所述神经影像输入至跨模态图像生成模型，得到所述跨模态图像生成模型输出的目标模态影像；其中，所述跨模态图像生成模型是在跨模态图像生成预训练模型的基础上，基于非目标模态的第一样本神经影像及其对应的目标模态样本影像训练得到的，所述跨模态图像生成预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的指定模态样本影像训练得到的，所述无监督预训练模型是基于第三样本神经影像训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种跨模态图像生成方法，其特征在于，包括：

确定初始模态的神经影像；

其中，所述跨模态图像生成模型是在跨模态图像生成预训练模型的基础上，基于非目标模态的第一样本神经影像及其对应的目标模态样本影像训练得到的，所述跨模态图像生成预训练模型是在无监督预训练模型的基础上，基于第二样本神经影像及其对应的指定模态样本影像训练得到的，所述无监督预训练模型是基于第三样本神经影像训练得到；

所述无监督预训练模型基于如下步骤训练得到：

基于所述第三样本神经影像，构建正样本对和负样本对；

2.根据权利要求1所述的跨模态图像生成方法，其特征在于，所述图像重建预训练模型基于如下步骤训练得到：

3.根据权利要求2所述的跨模态图像生成方法，其特征在于，所述初始模型包括特征提取结构和上采样结构。

4.根据权利要求1所述的跨模态图像生成方法，其特征在于，所述基于所述第三样本神经影像，构建正样本对和负样本对，包括：

5.根据权利要求1-4中任一项所述的跨模态图像生成方法，其特征在于，所述跨模态图像生成模型基于如下步骤训练得到：

6.根据权利要求1-4中任一项所述的跨模态图像生成方法，其特征在于，所述第一样本神经影像、所述第二样本神经影像以及所述第三样本神经影像均为除所述目标模态外的多模态神经影像。

7.一种跨模态图像生成装置，其特征在于，包括：

确定单元，用于确定初始模态的神经影像；

第一预训练模块，用于：

基于所述第三样本神经影像，构建正样本对和负样本对；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的跨模态图像生成方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的跨模态图像生成方法。