CN112465737A

CN112465737A - 图像处理模型训练方法、图像处理方法及图像处理装置

Info

Publication number: CN112465737A
Application number: CN202011418790.7A
Authority: CN
Inventors: 田赛赛; 苏喆; 朱培航; 乔媛
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-09
Anticipated expiration: 2040-12-07
Also published as: CN112465737B

Abstract

本公开提供了一种图像处理模型训练方法、图像处理方法及图像处理装置，可用于人工智能领域或其他领域，该训练图像处理模型的方法包括：重复执行以下操作：获取针对来自至少两个来源的训练图像的伪真值图像，至少两个来源的训练图像包括在不同光波频段下针对相同拍摄对象采集的图像；以及将伪真值图像和来自至少两个来源的训练图像共同作为模型训练监督信息，通过调整第一图像处理模型的模型参数，以最小化联合损失函数；其中，伪真值图像是由经训练的第二图像处理模型输出的针对来自至少两个来源的训练图像的融合图像或者当前训练阶段的上一训练阶段由第一图像处理模型输出的融合图像，联合损失函数表征第一图像处理模型输出的融合图像相对于监督信息的损失。

Description

图像处理模型训练方法、图像处理方法及图像处理装置

技术领域

本公开涉及人工智能技术领域，更具体地，涉及一种图像处理模型训练方法、图像处理方法及图像处理装置。

背景技术

图像融合技术有助于提升图像质量。例如，红外与可见光图像融合技术旨在提取红外图像中的热辐射信息和可见光图像中的细节纹理信息，形成一幅信息量更加丰富的融合图像，方便后续的计算机视觉任务以及决策的制定，并广泛应用于视频监督以及一些军事应用中。

在实现本公开构思的过程中，申请人发现相关技术中至少存在如下问题，对于有监督的模型训练，需要获取大量有标注信息的训练数据。无标注信息的图像处理模型训练较困难。此外，人为设计融合规则的困难度较高。

发明内容

有鉴于此，本公开提供了一种图像处理模型训练方法、图像处理方法及图像处理装置，以至少部分解决图像融合任务中，因无标注的融合图像造成的网络训练困难，并且降低对人为设计融合规则的依赖，以提高网络的融合性能。

本公开的一个方面提供了训练图像处理模型的方法，包括：重复执行以下操作直至完成至少两个阶段的模型训练，得到模型参数：获取针对来自至少两个来源的训练图像的伪真值图像，至少两个来源的训练图像包括在不同光波频段下针对相同拍摄对象采集的图像；以及将伪真值图像和来自至少两个来源的训练图像共同作为模型训练监督信息，通过调整第一图像处理模型的模型参数，以最小化联合损失函数；其中，伪真值图像是由经训练的第二图像处理模型输出的针对来自至少两个来源的训练图像的融合图像或者当前训练阶段的上一训练阶段由第一图像处理模型输出的融合图像，联合损失函数表征第一图像处理模型输出的融合图像相对于来自至少两个来源的训练图像和伪真值图像的损失。

本公开的一个方面提供了一种图像处理方法，包括：获取来自至少两个来源的多个输入图像，来自至少两个来源的多个输入图像包括在不同光波频段下针对相同拍摄对象采集的图像；以及利用第一图像处理模型对多个输入图像进行图像处理，以输出融合图像；其中，第一图像处理模型的训练过程包括：重复执行以下操作直至完成至少两个阶段的模型训练，得到模型参数：获取针对来自至少两个来源的训练图像的伪真值图像，至少两个来源的训练图像包括在不同光波频段下针对相同拍摄对象采集的图像；以及将伪真值图像和来自至少两个来源的训练图像共同作为模型训练监督信息，通过调整第一图像处理模型的模型参数，以最小化联合损失函数；其中，伪真值图像是由经训练的第二图像处理模型输出的针对来自至少两个来源的训练图像的融合图像或者当前训练阶段的上一训练阶段由第一图像处理模型输出的融合图像，联合损失函数表征第一图像处理模型输出的融合图像相对于来自至少两个来源的训练图像和伪真值图像的损失。

本公开的一个方面提供了一种图像处理装置，包括：图像获取模块，用于获取来自至少两个来源的输入图像，来自至少两个来源的输入图像包括在不同光波频段下针对相同拍摄对象采集的图像；以及图像处理模块，用于利用第一图像处理模型对输入图像进行图像处理，以输出融合图像，其中，第一图像处理模型的训练过程包括：重复执行以下操作直至完成至少两个阶段的模型训练，得到模型参数：获取针对来自至少两个来源的训练图像的伪真值图像，至少两个来源的训练图像包括在不同光波频段下针对相同拍摄对象采集的图像；以及将伪真值图像和来自至少两个来源的训练图像共同作为模型训练监督信息，通过调整第一图像处理模型的模型参数，以最小化联合损失函数；其中，伪真值图像是由经训练的第二图像处理模型输出的针对来自至少两个来源的训练图像的融合图像或者当前训练阶段的上一训练阶段由第一图像处理模型输出的融合图像，联合损失函数表征第一图像处理模型输出的融合图像相对于来自至少两个来源的训练图像和伪真值图像的损失。

本公开的另一方面提供了一种电子设备，包括一个或多个处理器以及存储装置，其中，存储装置用于存储可执行指令，可执行指令在被处理器执行时，实现如上的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，指令在被执行时用于实现如上的训练图像处理模型训练的方法和/或图像处理方法。

本公开的另一方面提供了一种计算机程序，计算机程序包括计算机可执行指令，指令在被执行时用于实现如上的训练图像处理模型训练的方法和/或图像处理方法。

本公开实施例提供的图像处理模型训练方法、图像处理方法及图像处理装置，可以与由伪真值图像为图像处理模型学习提供模板信息，指导图像处理模型的训练学习。但是，伪真值图像中存在一些不准确的融合信息，因此，为了降低这些不准确的融合信息对图像处理模型学习的影响，并且学习更多的细节信息，将伪真值图像、来自至少两个来源的训练图像结合在一起，作为图像处理模型的监督信息。另外，为了能够改善伪真值图像中不准确的融合部分，在网络的学习过程中使用图像处理模型训练收敛时的融合图像替换伪真值图像，通过至少两个阶段的学习，实现来自至少两个来源的训练图像的融合。

本公开实施例提供的图像处理模型训练方法、图像处理方法及图像处理装置，从基础网络不同的深度提取多级深度图像特征(其为单模态图像特征)，通过单模态相邻特征融合，得到多级包含丰富细节信息与上下文信息的单模态深度图像特征，便于图像处理模型学习更多的细节信息。

本公开实施例提供的图像处理模型训练方法、图像处理方法及图像处理装置，首先，通过自注意力机制得到相应深度图像特征的重要性权重，然后，使用权重归一化操作得到决策映射，并由此逐级实现高层级特征与低层级特征的融合。

本公开实施例提供的图像处理模型训练方法、图像处理方法及图像处理装置，创建联合损失函数，通过结合融合图像相应于红外图像的基于像素级的损失、融合图像相应于可见光图像的基于图像块级的损失和融合图像相应于伪真值图像的基于特征集的损失，实现融合结果的准确重构与优化。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的图像处理模型训练方法、图像处理方法及图像处理装置的应用场景；

图2示意性示出了根据本公开实施例的可以应用图像处理方法、图像处理装置的示例性***架构；

图3示意性示出了根据本公开实施例的训练图像处理模型的方法的流程图；

图4示意性示出了根据本公开实施例的模型训练监督信息的示意图；

图5示意性示出了根据本公开实施例的第一图像处理模型的结构示意图；

图6示意性示出了根据本公开实施例的获取上下文深度图像特征的示意图；

图7示意性示出了根据本公开实施例的权重确定子模块的结构示意图；

图8示意性示出了根据本公开实施例的多模态特征融合模块的结构示意图；

图9示意性示出了根据本公开实施例的第一网络的结构示意图；

图10示意性示出了根据本公开实施例的第一图像处理模型的图像处理过程的示意图；

图11示意性示出了根据本公开另一实施例的第一图像处理模型的结构示意图；

图12示意性示出了根据本公开实施例的图像处理方法的流程图；

图13示意性示出了根据本公开实施例的图像处理装置的方框图；以及

图14示意性示出了根据本公开实施例的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。

为了便于理解本公开实施例的技术方案，以可见光图像和红外图像融合为例进行示例性说明。

现有的红外与可见光图像融合方法大体可以分成两大类：传统的红外与可见光图像融合方法和基于深度学习的红外与可见光图像融合方法。传统的红外与可见光图像融合方法需要人为地设计特征的提取与融合，增加了算法设计的难度。通常，传统的算法具有较高复杂度，同时，实时性比较差。近年来，随着深度学习的广泛应用，出现了基于深度学习的红外与可见光图像融合方法，并且实现了较好的融合性能。但是，此类图像融合任务没有逐像素点标注的融合图像，这就使得基于深度学习的红外与可见光图像融合方法难以实现端到端的训练学习。

为了解决上述问题，相关技术中引入了对抗生成网络，使用输入图像作为监督信息，分别训练生成网络与辨别网络，通过构建生成网络与辨别网络之间的对抗完成红外与可见光图像的融合。但是，在网络的训练过程中需要对生成网络与辨别网络进行训练，导致整体网络的训练较为困难。

一些方法采用人为设计融合规则的方式，使用输入图像作为网络的监督信息，从而使网络能够达到重构输入图像的目的。融合部分采用人为设计融合规则的方式，网络只学习特征提取与图像重构的参数。这种处理方式，一方面增加了算法设计所带来的困难。另一方面，使得融合部分难以根据数据本身的特性实现合理、精确的融合。

为了至少部分地改善现有技术中存在的如上缺陷，本公开实施例的目的在于提出一种图像融合方法，以基于自监督学习的方式解决此类图像融合任务因无标注的融合图像造成的网络训练困难以及避免人为设计融合规则的问题，以提高模型的图像融合性能。

本公开的实施例提供了一种图像处理模型训练方法、图像处理方法及图像处理装置。该图像处理模型训练方法包括多轮训练过程，每一轮训练过程包括伪真值图像获取过程和参数调整过程。在伪真值图像获取过程中，获取针对来自至少两个来源的训练图像的伪真值图像，至少两个来源的训练图像包括在不同光波频段下针对相同拍摄对象采集的图像。在完成伪真值图像获取过程之后进入参数调整过程，将伪真值图像和来自至少两个来源的训练图像共同作为模型训练监督信息，通过调整第一图像处理模型的模型参数，以最小化联合损失函数，其中，伪真值图像是由经训练的第二图像处理模型输出的针对来自至少两个来源的训练图像的融合图像或者当前训练阶段的上一训练阶段由第一图像处理模型输出的融合图像，联合损失函数表征第一图像处理模型输出的融合图像相对于来自至少两个来源的训练图像和伪真值图像的损失。

为了便于更好地理解本公开实施例的技术方案，首先对本公开实施例涉及的多个关键技术进行示例性说明。本公开实施例的关键过程可以包括监督信息的生成与伪真值图像的更新、单模态特征提取模块的创建、多模态特征融合模块的创建以及联合损失函数的创建。以下以可见光图像和红外图像融合为例进行说明。

关于监督信息的生成与伪真值图像的更新：伪真值图像(也可以称为初始的融合图像)可以为模型学习提供模板信息，指导模型的训练学习。但是，伪真值图像中存在一些不准确的融合信息，因此，为了改善网络对于红外图像中热辐射信息以及可见光图像中的细节信息，将伪真值图像、红外图像与可见光图像结合在一起，作为网络的监督信息。另外，为了能够改善伪真值图像中不准确的融合部分，在网络的学习过程中使用网络训练收敛时的融合图像替换伪真值图像，通过多阶段(如3阶段)的学习，实现红外与可见光图像的融合。

关于创建单模态特征提取网络：从用于特征提取的网络(如基础网络)不同的深度提取多级粗糙的单模态图像特征，构建单模态相邻特征融合模块，得到多级包含丰富细节信息与上下文信息的单模态深度图像特征，有助于提升融合图像中关于细节的展现能力。

关于创建多模态特征融合模块：首先，通过自注意力机制得到相应模态特征的重要性权重。然后，使用权重归一化操作得到决策映射，并由此实现特征的融合。通过自注意力机制确定模态特征各自的重要性，这样有助于基于各模态特征的重要性进行加权融合，提升融合图像的图像效果。

关于创建联合损失函数：通过结合针对伪真值图像、红外图像和可见光图像的三部分损失，实现了模型的针对性学习，从而实现融合图像的准确重构与优化。

图1示意性示出了根据本公开实施例的图像处理模型训练方法、图像处理方法及图像处理装置的应用场景。

如图1所示，以可见光图像和红外图像融合的场景为例进行说明。如图1所示，图1左上角图像是可见光图像，对于处于较黑暗环境中，对于颜色是黑色等深色系的对象，则其在可见光图像中的辨识度较低。图1右上角图像是红外图像，由于人体等温度较高的对象会发出红外光，该红外光在较黑暗环境中辨识度较高，使得在红外图像中可以较好地辨识温度较高的物体，而不会明显受到物体的颜色的影响。因此，如果能较好地将可见光图像和红外图像进行融合，则可以使得拍摄对象在融合后的图像中具有更好地辨识度，以满足用户的多种需求。图1中下方图像是示例性的可见光图像和红外图像的融合图像，相对于可见光图像，该融合图像中能较好地辨识身着深色衣服并且打伞的男士，以及背景中偏暗的树木等。此外，相对于红外图像，该融合图像中帐篷、路灯等温度较低的对象也具有较好地辨识度。

需要说明的是，上述可见光图像和红外图像融合的场景仅为示例性说明，还可以是诸如针对可见光图像、红外图像、紫外图像、射线图像、磁共振图像中至少两种图像的融合，在此不做限定。

图2示意性示出了根据本公开实施例的可以应用图像处理方法、图像处理装置的示例性***架构。需要注意的是，图2所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。需要说明的是，本公开实施例提供的图像处理模型训练方法、图像处理方法及图像处理装置可用于人工智能领域在图像处理相关方面，也可用于除人工智能领域之外的多种领域，如图像处理领域，本公开实施例提供的图像处理模型训练方法、图像处理方法及图像处理装置的应用领域不做限定。

如图2所示，根据该实施例的***架构200可以包括终端设备201、202、203，网络204和服务器205。网络204可以包括多个网关、路由器、集线器、网线等，用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备201、202、203通过网络204与其他终端设备和服务器205进行交互，以接收或发送信息等，如发送模型训练指令、融合图像数据等。终端设备201、202、203可以安装有各种通讯客户端应用，例如，图像处理类应用、银行类应用、电商类应用、网页浏览器应用、搜索类应用、办公类应用、即时通信工具、邮箱客户端、社交平台软件等应用(仅为示例)。

终端设备201、202、203包括但不限于智能手机、台式电脑、增强现实设备、平板电脑、膝上型便携计算机等等可以支持上网、网页编辑等功能的电子设备。终端设备上可以下载有图像处理模型，以便

服务器205可以接收模型训练请求、图像合成请求、模型下载请求等，并对请求进行处理。例如，服务器205可以为后台管理服务器、服务器集群等。后台管理服务器可以对接收到的服务请求、信息请求等进行分析处理，并将处理结果(如融合图像、训练模型得到的模型参数等)反馈给终端设备。

需要说明的是，本公开实施例所提供的训练图像处理模型、图像处理方法可以由终端设备201、202、203或服务器205执行。相应地，本公开实施例所提供的图像处理装置可以设置于终端设备201、202、203或服务器205中。应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图3示意性示出了根据本公开实施例的训练图像处理模型的方法的流程图。如图3所示，重复执行操作S302～操作S304直至完成至少两个阶段的模型训练，得到模型参数。

在操作S302中，获取针对来自至少两个来源的训练图像的伪真值图像，至少两个来源的训练图像包括在不同光波频段下针对相同拍摄对象采集的图像。

在本实施例中，来源可以指实体装置，如可见光相机、红外相机、射线检测晶体阵列、线圈等。来源也可以指不同的图像获取渠道，如从互联网渠道、本地存储渠道、图像库、训练数据集等。

其中，伪真值图像可以指针对来自至少两个来源的训练图像的融合效果没有达到最优的融合图像等。例如，伪真值图像是由经训练的第二图像处理模型输出的针对来自至少两个来源的训练图像的融合图像，或者，伪真值图像是当前训练阶段的上一训练阶段由第一图像处理模型输出的融合图像。该伪真值图像可以是由没有全部完成所有训练过程的图像处理模型输出的融合图像。该伪真值图像可以是由与所要训练的图像处理模型不同的另一图像处理模型，处理来自至少两个来源的训练图像后输出的融合图像。该另一图像处理模型与上述图像处理模型的模型结构和/或模型参数等可以相同或不同。例如，可以利用已有的可以实现图像融合的图像处理模型，处理来自至少两个来源的训练图像后输出该伪真值图像。

在一个实施例中，该伪真值图像还可以是预先处理得到的，如训练数据库中包括两个来源的训练图像以及针对该两个来源的训练图像的伪真值图像。这样可以直接调用该两个来源的训练图像及其伪真值图像即可。

在一个实施例中，不同光波频段之间可以存在交叠频段或不存在交叠频段，如可见光频段、红外频段、微波频段、紫外频段、X射线频段、γ射线频段等。

为了便于理解本公开的实施例，以下主要以可见光频段和红外频段的图像为例对图像处理模型的训练方法进行示例性说明。需要说明的是，至少两个来源的训练图像可以是经过配准的，以保证图像融合效果。

在一个具体实施例中，首先，从TNO数据集中选取包含各种场景的红外图像和与其对应的可见光图像，采用随机采样的方式，将源图像分成120×120的图像块，以此为基础创建进行模型训练所需的训练数据集。

在操作S304中，将伪真值图像和来自至少两个来源的训练图像共同作为模型训练监督信息，通过调整第一图像处理模型的模型参数，以最小化联合损失函数；

联合损失函数表征第一图像处理模型输出的融合图像相对于来自至少两个来源的训练图像和伪真值图像的损失。

将伪真值图像和来自至少两个来源的训练图像共同作为模型训练监督信息有助于降低：有监督模型训练对监督信息的准确度的依赖，如可以借助来自至少两个来源的训练图像来降低伪真值图像中不正确的融合图像信息对模型学习效果的影响。

具体地，可以通过反向传播算法调整第一图像处理模型的模型参数，以最小化第一图像处理模型输出的融合图像相对于如可见光图像、红外图像和伪真值图像的损失。

在一个具体实施例中，在操作S302中创建了进行模型训练所需的训练数据集的基础上，以伪真值图像、红外图像和可见光图像共同作为模型训练监督信息，采用深度监督机制训练第一图像处理模型，优化联合损失函数，完成第一图像处理模型的训练，得到第一图像处理模型的模型参数。

在一个实施例中，至少两个阶段的模型训练包括：第一阶段模型训练、第二阶段模型训练和第三阶段模型训练。

例如，在第一阶段模型训练过程中，伪真值图像是由经训练的第二图像处理模型输出的针对来自至少两个来源的训练图像的融合图像。

在第二阶段模型训练过程中，伪真值图像是由第一图像处理模型在第一阶段模型训练过程输出的第一融合图像。

在第三阶段模型训练过程中，伪真值图像是由第一图像处理模型在第二阶段模型训练过程输出的第二融合图像。

在一个实施例中，可以使用经训练的图像处理模块(如预训练网络)生成初始的伪真值图像。由于，伪真值图像中存在不准确的融合部分，为了改善融合图像中的细节信息与热辐射信息，可以将伪真值图像、红外图像、可见光图像结合在一起，共同作为模型训练监督信息。

图4示意性示出了根据本公开实施例的模型训练监督信息的示意图。

如图4所示，在不同的阶段，模型训练监督信息中关于伪真值图像部分是在不断改变的，以逐阶段提升模型监督信息的准确度。例如，训练好的第一图像处理模型输出的融合图像的图像质量最高。第三阶段中模型训练监督信息中第二合成图像(为第一图像处理模型在第二阶段输出的融合图像)的质量次之。第二阶段中模型训练监督信息中第一合成图像(为第一图像处理模型在第一阶段输出的融合图像)的质量再次之。第一阶段中模型训练监督信息中第二模型输出的融合图像的质量再次之。

在一个实施例中，联合损失函数由第一损失函数、第二损失函数和第三损失函数的和构成。

具体地，联合损失函数包含三个部分：相应于红外图像的基于像素级的损失L_I、相应于可见光图像的基于图像块级的损失L_V、相应于伪真值图像的基于特征集的损失L_{Pseudo_GT}，将此三种损失函数采用求和的方式得到网络整体的联合损失函数L_Total。

例如，第一损失函数表征第一图像处理模型输出的融合图像相应于红外图像的基于像素级的损失。

相应于红外图像的基于像素级的损失L_I可以表述为如下式(1)所示：

其中，H和W表示图像的长度和宽度；I_F和I_I分别表示融合图像与红外图像；||·||₁表示求取矩阵的L1范数。

例如，第二损失函数表征第一图像处理模型输出的融合图像相应于可见光图像的基于图像块级的损失。

其中，第二损失函数包括梯度损失和结构相似度损失。

相应于可见光图像的基于图像块级的损失L_V可以表述为如式(2)所示：

L_V＝L_Gradient+λ₁×L_SSIM 式(2)

其中，L_Gradient表示梯度损失；L_SSIM表示结构相似性损失；λ₁用于平衡两项之间的差异，此处设为20000。

梯度损失L_Gradient可以描述为如式(3)所示：

其中H和W表示图像的长度和宽度；I_F和I_I分别表示融合图像与红外图像；

表示求梯度操作；||·||₂表示求L2范数操作。

结构相似性损失L_SSIM可以表述为如式(4)所示：

其中，C₁和C₂为两个常数，用于防止除0错误，分别设置为0.01和0.03；μ_x和μ_y表示x与y的均值；σ_x和σ_y表示x与y的方差；σ_xy表示x与y的协方差。

例如，第三损失函数表征第一图像处理模型输出的融合图像相应于伪真值图像的基于特征集的损失。

相应于伪真值图像的基于特征集的损失L_{Pseudo_GT}可以表述为如式(5)所示：

其中，H和W表示图像的长度和宽度；I_F和I_{Pseudo_GT}分别表示融合图像与伪真值图像；VGG_b2(·)表示VGG19网络第二个特征提取块的特征提取函数；||·||₂表示求L2范数操作。

在一个实施例中，针对至少两个阶段的模型训练中每一个阶段，通过调整第一图像处理模型的模型参数，以最小化联合损失函数可以包括：通过调整第一图像处理模型的模型参数，最小化第一图像处理模型输出的融合图像相对于模型训练监督信息的损失。

其中，融合图像的构建过程可以包括：对于来自至少两个来源的训练图像的相同等级的深度图像特征，基于各自的权重进行相同等级特征融合，得到至少两级多模态融合图像特征，并且融合至少两级多模态融合图像特征，以构建针对来自至少两个来源的训练图像的融合图像。融合图像的构建过程可以是第一图像处理模型的各功能模块来自动完成。

在一个具体实施例中，使用网络训练收敛时得到的融合图像对模型训练监督信息中伪真值图像进行替换，并与红外图像和可见光图像结合在一起，作为网络的监督信息重复训练多个阶段。如通过3阶段的学习，最终，得到最优的网络模型参数。训练图像可以包括红外图像与可见光图像。

以下对第一图像处理模型的结构、图像处理过程和在每一阶段的训练过程进行示例性说明。

例如，第一图像处理模型可以是多种回归模型，例如，线性回归、广义线性回归、神经网络等。回归模型可以通过诸如反向传播算法进行训练。

本公开实施例中神经网络可以包括卷积层等以实现诸如深度图像特征提取、特征融合、图像重构等。

图5示意性示出了根据本公开实施例的第一图像处理模型的结构示意图。

如图5所示，第一图像处理模型可以包括：深度图像特征提取网络、多模态特征融合模块和图像重构模块。

其中，深度图像特征提取网络用于获取来自至少两个来源的训练图像各自的至少两级深度图像特征。例如，对红外图像和可见光图像进行至少两级深度图像特征提取。例如，对输入图像分别使用基础网络提取多级深度图像特征，具体可以将用于实现图像提取的基础网络中位于不同深度的5级特征作为粗糙的单模态特征。

例如，5级粗糙的单模态特征分别用符号

表示，其中n＝1,2分别表示红外图像特征与可见光图像特征。

多模态特征融合模块用于基于来自至少两个来源的训练图像的相同等级的深度图像特征各自的权重进行相同等级特征融合，获得针对对象的至少两级多模态融合图像特征，，并且基于反向信息传递的方式对所述至少两级多模态融合图像特征进行特征融合，得到融合后的图像特征。其中，来自至少两个来源的训练图像的相同等级的深度图像特征各自的权重是基于自注意力机制确定的。例如，实现不同模态的特征进行融合，得到融合特征，可以包括如下操作：对上一操作中得到的同一层级下的不同模态特征进行融合(如将红外图像对应的第4级单模态特征和可见光图像对应的第4级单模态特征进行融合)，得到融合特征。然后，将得到的融合特征采用反向传递的方式，逐级实现高层级信息与低层级信息的融合。

图像重构模块用于处理所述融合后的图像特征，获得针对来自至少两个来源的训练图像的融合图像。例如，针对至少两级多模态融合图像特征进行图像重构，得到融合图像，具体可以通过卷积操作实现对至少两级多模态融合图像特征进行融合。

在一个实施例中，为了提升深度图像特征的质量，第一图像处理模型还可以包括单模态相邻特征融合模块。

其中，单模态相邻特征融合模块用于在获取来自至少两个来源的训练图像各自的至少两级深度图像特征之后，针对来自至少两个来源的训练图像中每一个训练图像，基于与训练图像对应的至少两级深度图像特征获取至少一级上下文深度图像特征，其中，一级上下文深度图像特征是由相邻的两级深度图像特征融合后得到的。

相应地，多模态特征融合模块具体用于基于来自至少两个来源的训练图像的相同等级的上下文深度图像特征各自的权重进行相同等级特征融合。

图6示意性示出了根据本公开实施例的获取上下文深度图像特征的示意图。

如图6所示，通过相邻等级的深度图像特征融合，得到包含丰富细节信息与上下文信息的深度图像特征具体可以包括：5级深度图像特征进行处理，将相邻等级的深度图像特征进行融合，得到4级包含丰富细节信息与上下文信息的深度图像特征。

在一个实施例中，单模态相邻特征融合模块包括：第一卷积层和第一激活函数。其中，第一卷积层用于基于第一激活函数处理训练图像的相邻的至少两级深度图像特征，获得至少一级上下文深度图像特征。

此外，单模态相邻特征融合模块还可以包括：级联子模块，该级联子模块用于级联与训练图像对应的至少两级深度图像特征中相邻的两级深度图像特征。

相应地，第一卷积层具体用于基于第一指定尺寸的第一卷积核和第一激活函数处理级联的两级深度图像特征，获得至少一级上下文深度图像特征。

例如，每一个单模态相邻特征融合模块包括：1个卷积操作和ReLU激活函数，以获得第d(d＝1,2,3,4)级包含丰富细节信息与上下文信息的深度图像特征。

具体地，首先，使用级联操作将单模态的相邻特征

与

级联在一起，然后，使用卷积核尺寸为3×3，步长为1，核参数为

的卷积操作(使用ReLU激活函数)作用于级联之后的特征，得到包含32个通道的单模态融合特征

单模态的相邻特征融合可以表述为如式(6)所示：

其中，Cat(·)表示级联操作；*表示卷积操作。

在一个实施例中，多模态特征融合模块包括权重确定子模块和权重融合子模块。其中，该权重确定子模块可以包括：两个分支网络、分支处理结果融合单元和权重确定单元。

两个分支网络各自用于获取处理后的至少两级深度图像特征，其中，两个分支中第一分支用于使用第二卷积核对至少两级深度图像特征进行卷积操作，两个分支中第二分支用于使用第三卷积核、第四卷积核和第五卷积核对至少两级深度图像特征进行卷积操作。

分支处理结果融合单元用于相加两个分支各自的处理后的至少两级深度图像特征，获得至少两级的分支融合深度图像特征。

权重确定单元用于基于第二激活函数得到针对所述至少两级的分支融合深度图像特征各自的权重。

权重融合子模块用于基于至少两级的分支融合深度图像特征各自的权重进行相同等级特征融合。

图7示意性示出了根据本公开实施例的权重确定子模块的结构示意图。

参考图7所示，对输入的第d级单模态图像特征

使用自注意力机制(包含两个分支：第一个分支使用核尺寸为1×1，步长为1，输出16个通道的卷积操作，并使用ReLU函数激活；第二个分支使用连续的三个卷积操作，其中第一个卷积操作核尺寸为1×1，输出16个通道,第二个卷积操作核尺寸为3×3，输出32个通道，第三个卷积操作核尺寸为1×1，输出16个通道)进行处理；将两个分支得到的图像特征采用相加操作得到特征

然后，使用Sigmoid函数得到相应的逐通道、逐像素点的权重信息

可以表述为如式(7)所示：

在一个实施例中，为了便于实现基于来自至少两个来源的训练图像的相同等级的深度图像特征各自的权重进行相同等级特征融合，第一图像处理模型还可以包括：权重归一化模块，对各自的权重进行归一化处理，这样便于通过加权求和的方式实现特征融合。

例如，权重归一化模块用于在基于来自至少两个来源的训练图像的相同等级的深度图像特征各自的权重进行相同等级特征融合之前，对来自至少两个来源的训练图像的相同等级的深度图像特征各自的权重进行归一化处理，以便将来自至少两个来源的训练图像的相同等级的深度图像特征进行相同等级特征融合。

例如，使用权重归一化融合操作为每一个模态的特征分配权重信息

可以表述为如式(8)所示：

由权重信息

实现不同模态间特征的融合，得到权重融合特征

可以表述为如式(9)：

在一个实施例中，权重融合子模块包括：多级第三卷积层。

其中，当前等级第三卷积层用于基于来自至少两个来源的训练图像的相同等级的分支融合深度图像特征各自的权重，对前一等级卷积层的输出和所述来自至少两个来源的训练图像各自的相同等级的分支融合深度图像特征(如式(9)中权重融合特征

)进行相同等级特征融合，其中，与最后一级分支融合深度图像特征对应的第一级第三卷积层的输入，包括所述来自至少两个来源的训练图像各自的最后一级分支融合深度图像特征，多级第三卷积层中除所述第一级第三卷积层之外的各等级第三卷积层的输入包括上一等级第三卷积层的输出和与所述各等级第三卷积层对应的所述来自至少两个来源的训练图像各自的相同等级分支融合深度图像特征。

图8示意性示出了根据本公开实施例的多模态特征融合模块的结构示意图。

如图8所示，使用反向信息传递的方式，将前一级多模态融合模块的输出输入到当前级多模态融合模块中。网络中，只有第一级多模态融合模块有2个输入，其余均有3个输入。对于有2个输入的多模态融合模块只进行上述的特征融合，而对于有3个输入的多模态融合模块，将融合特征与前一级多模态融合模块的输出级联在一起，使用带有ReLU激活的卷积层(核尺寸为3×3，步长为1，输出32个通道)进行融合可以表述为如式(10)：

其中，

表示第d级融合特征；

为融合参数；*表示卷积操作。

在一个实施例中，图像重构模块包括：第四卷积层。

第四卷积层用于基于第二指定尺寸的第六卷积核对针对对象的至少两级多模态融合图像特征进行卷积操作，以输出单通道的融合图像。

例如，图像重构模块是由一个卷积操作构成的，其核尺寸为3×3，步长为1，使用ReLU函数激活，输出1个通道。可以表述为如式(11)所示：

其中，W_recons，b_recons为融合参数；*表示卷积操作。

在一个实施例中，深度图像特征提取网络包括第一网络。

第一网络用于处理来自至少两个来源的训练图像，获得来自至少两个来源的训练图像各自的至少两级深度图像特征，其中，第一网络包括第二卷积层。

图9示意性示出了根据本公开实施例的第一网络的结构示意图。

如图9所示，第一网络可以为改进的VGG19网络，去掉原始VGG19网络中的池化层。具体地，改进的VGG19网络包括多个卷积层。图9中第一网络中卷积层可以划分为不同的块(Block)，从前到后依次编号为块1～块5。

图10示意性示出了根据本公开实施例的第一图像处理模型的图像处理过程的示意图。

如图10所示，在第一阶段模型训练过程中，使用可见光图像、红外图像和初始伪真值图像(可以是由预训练网络输出的融合图像)共同作为监督信息，通过最小化联合损失函数来完成模型训练。其中，在训练过程中，可以通过上述融合图像构建过程依序分别得到针对可见光图像和红外图像的如下特征：粗糙的多级深度图像特征、改善的多级深度图像特征。然后对可见光图像和红外图像的改善的多级深度图像特征进行融合，得到融合后的图像特征。接着，基于融合后的图像特征进行图像重构，得到融合图像。

在完成第一阶段模型训练后，重复执行多个下一阶段模型训练，来优化模型参数，其中，与第一阶段模型训练不同的是，之后的每个阶段模型训练过程中，需要将上一阶段经训练的模型输出的融合图像代替监督信息中初始伪真值图像，得到更新后的监督信息。然后基于更新后的监督信息对第一图像处理模型进行下一阶段模型训练，通过最小化联合损失函数来确定更新的模型参数。

图11示意性示出了根据本公开另一实施例的第一图像处理模型的结构示意图。

如图11所示，B1～B5是5级深度图像特征提取网络，其中，针对来源1的训练图像的B1～B5和针对来源2的训练图像的B1～B5可以是相同的结构，或者针对来源1的训练图像使用的B1～B5和针对来源2的训练图像的B1～B5是相同的五个块。C表示级联。单模态相邻特征融合模块采用的3*3*32的卷积核。A1～A5是4级多模态特征融合模块。C1是图像重构模块。其中，B1～B5具体可以是改进后的VGG19网络，如去除VGG19网络中池化层。来源1的训练图像、伪真值图像和来源2的训练图像共同作为第一阶段的模型训练监督信息。在其后的阶段中，需要基于C1的输出更新伪真值图像。

本公开实施例提供的基于图像处理模型训练方法，一方面，无需人为设计并提取特征，能够实现红外与可见光图像的准确融合，仿真结果表明本公开实施例能够得到背景细节信息丰富并且目标信息显著的融合图像。一方面，本公开实施例首先使用基础网络并提取其不同深度的5级单模态图像特征作为粗糙特征，然后，通过单模态相邻特征融合模块得到4级包含丰富细节信息与上下文信息的单模态深度图像特征，能够有效捕捉输入图像的低级细节和高级语义信息，同时避免特征级数过多而导致网络整体参数急剧增多，降低网络训练难度。一方面，本公开实施例通过构建多模态特征融合模块，首先，通过自注意力机制为相应模态特征学习得到重要性权重；然后，使用权重归一化操作得到用于多模态特征融合的决策映射，并由此实现特征的融合。有效地改善了融合结果中的细节信息与目标信息。一方面，本公开实施例通过构建联合损失函数，实现了网络的针对性学习，从而优化网络的训练。

本公开实施例的另一方面提供了一种图像处理方法。

图12示意性示出了根据本公开实施例的图像处理方法的流程图。

如图12所示，该图像处理方法包括操作S1202～操作S1204。

在操作S1202，获取来自至少两个来源的多个输入图像，来自至少两个来源的多个输入图像包括在不同光波频段下针对相同拍摄对象采集的图像。

在操作S1204，利用第一图像处理模型对多个输入图像进行图像处理，以输出融合图像。

其中，第一图像处理模型可以是通过如下方式进行训练的。

重复执行以下操作直至完成至少两个阶段的模型训练，得到模型参数：

首先，获取针对来自至少两个来源的训练图像的伪真值图像，至少两个来源的训练图像包括在不同光波频段下针对相同拍摄对象采集的图像。

然后，将伪真值图像和来自至少两个来源的训练图像共同作为模型训练监督信息，通过调整第一图像处理模型的模型参数，以最小化联合损失函数。

其中，伪真值图像是由经训练的第二图像处理模型输出的针对来自至少两个来源的训练图像的融合图像或者当前训练阶段的上一训练阶段由第一图像处理模型输出的融合图像，联合损失函数表征第一图像处理模型输出的融合图像相对于来自至少两个来源的训练图像和伪真值图像的损失。

参照图10所示，以红外图像和可见光图像融合为例，图像处理方法可以包括如下所示的操作。

首先，对输入图像分别使用基础网络提取多级深度图像特征：

对红外图像或可见光图像，提取VGG19网络(移除原VGG19网络中所有的池化层)中位于不同深度的5级特征作为粗糙的单模态特征，分别为：

Conv1-2(用符号

表示，包含64个尺寸为120×120的特征图)

Conv2-2(用符号

表示，包含128个尺寸为120×120的特征图)

Conv3-3(用符号

表示，包含256个尺寸为120×120的特征图)

Conv4-3(用符号

表示，包含512个尺寸为120×120的特征图)

Conv5-3(用符号

表示，包含512个尺寸为120×120的特征图)

其中，n＝1或者2，n＝1表示红外图像分支；n＝2表示可见光图像分支。

然后，构建单模态的相邻特征融合模块，得到包含丰富细节信息与上下文信息的深度图像特征。

其中，构建单模态的相邻特征融合模块，对上一操作得到的5级深度图像特征进行处理：将相邻的特征进行融合，得到4级包含丰富细节信息与上下文信息的单模态深度图像特征

(其中，n＝1或者2，n＝1表示红外图像分支；n＝2表示可见光图像分支；d＝1,2,3,4分别表示第d级单模态深度图像特征)。首先，使用级联操作将单模态的相邻特征

与

单模态的相邻特征融合可以表述为如式(12)所示：

其中，Cat(·)表示级联操作；*表示卷积操作。

接着，构建多模态融合模块，实现不同模态的特征进行融合，得到融合特征，具体地，对由上一操作得到的同一层级下的不同模态特征进行融合，得到融合特征。然后，将得到的融合特征采用反向传递的方式，逐级实现高层级信息与低层级信息的融合。具体可以包括如下所示的过程1～3：

过程1.对输入的第d级单模态图像特征

使用自注意力机制(包含两个分支：第一个分支使用核尺寸为1×1，步长为1，输出16个通道的卷积操作，并使用ReLU函数激活；第二个分支使用连续的三个卷积操作，其中第一个卷积操作核尺寸为1×1，输出16个通道,第二个卷积操作核尺寸为3×3，输出32个通道，第三个卷积操作核尺寸为1×1，输出16个通道；将两个分支得到的图像特征采用相加操作得到特征

可以表述为如式(13)所示：

过程2.使用权重归一化融合操作为每一个模态的特征分配权重信息

可以表述为如式(14)所示：

由权重信息

实现不同模态间特征的融合，得到权重融合特征

可以表述为如式(15)所示：

过程3.使用反向信息传递的方式，将前一级多模态融合模块的输出输入到当前级多模态融合模块中。网络中，只有第一级多模态融合模块有2个输入，其余均有3个输入。对于有2个输入的多模态融合模块只进行上述的特征融合，而对于有3个输入的多模态融合模块，将融合特征与前一级多模态融合模块的输出级联在一起，使用带有ReLU激活的卷积层(核尺寸为3×3，步长为1，输出32个通道)进行融合可以表述为如式(16)所示：

其中，

表示第d级融合特征；

为融合参数；*表示卷积操作。

然后，构建图像重构模块，得到融合图像：

使用卷积操作实现融合图像的重构，其核尺寸为3×3，步长为1，使用ReLU函数激活，输出1个通道。可以表述为如式(17)所示：

其中，W_recons，b_recons为融合参数；*表示卷积操作。

关于监督信息的生成：先使用预训练DenseFuse网络生成初始的伪真值图像。将伪真值图像、红外图像、可见光图像结合在一起，一同作为网络的监督信息。

关于训练算法网络：从TNO数据集中选取包含各种场景的红外图像和与其对应的可见光图像，采用随机采样的方式，将源图像分成120×120的图像块，以此为基础创建本文算法的训练数据集。然后，在训练数据集上，对融合图像，采用深度监督机制训练算法网络，优化联合损失函数，完成网络的训练，得到网络模型参数。基于自监督学习的红外与可见光图像融合算法运行环境均为Ubuntu 16.04.5，CPU为Intel Xeon E5-2620 v4(3GHz)，运行在一块GTX1080Ti GPU(11GB Memory)上，使用Keras深度学习框架完成网络的训练以及测试。所有卷积层权重与偏置分别使用TruncatedNormal和0进行初始化，步长设置为1。学习率初始化为5×10^-4，当网络训练收敛时，学习率降为原来的0.1倍，继续训练，直到网络输出最优的融合结果。在模型训练时使用Adam优化器(使用默认参数)进行网络优化。

进一步的，联合损失函数包含三个部分：相应于红外图像的基于像素级的损失L_I、相应于可见光图像的基于图像块级的损失L_V、相应于伪真值图像的基于特征集的损失L_{Pseudo_GT}，将此三种损失函数采用求和的方式得到网络整体的联合损失函数L_Total。

相应于红外图像的基于像素级的损失L_I可以表述为如式(18)所示：

相应于可见光图像的基于图像块级的损失L_V可以表述为如式(19)所示：

L_V＝L_Gradient+λ₁×L_SSIM 式(19)

梯度损失L_Gradient可以描述为如式(20)所示：

表示求梯度操作；||·||₂表示求L2范数操作。

结构相似性损失L_SSIM可以表述为如式(21)所示：

相应于伪真值图像的基于特征集的损失L_{Pseudo_GT}可以表述为如式(22)所示：

关于多阶段学习：使用网络训练收敛时得到的融合图像对伪真值图像进行替换，并与红外图像和可见光图像结合在一起，作为网络的监督信息重复多阶段学习。通过3阶段的学习，最终，得到最优的网络模型参数。

下面结合仿真实验，对本公开实施例的红外与可见光图像融合方法的技术效果进行示例性说明。

使用本公开实施例与多种现有技术对测试数据集进行融合，并使用归一化互信息(Q_NMI)、非线性信息相关熵(Q_NICE)、结构相似性指标(Q_Y)和基于人类视觉的指标(Q_CB)。其中，多种现有技术包括：CVT(Centroidal Voronoi Tessellation)、线性规划(LP)、ASR、低秩算法(LRR)、梯度转移融合(GTF)、卷积网络(CNN)、生成对抗网络(GAN)、DenseFuse、SEDR、深度学习(DL)、残差网络(RESNet)。客观评价指标的值越大代表融合图像的质量越高。

经过仿真实验，对于选取的4个指标，本公开实施例得到的融合结果相较于上述多种现有技术的融合结果都有一定提升。

图13示意性示出了根据本公开实施例的图像处理装置的方框图。

如图13所示，该图像处理装置1300可以包括：图像获取模块1310和图像处理模块1320。

其中，图像获取模块1310用于获取来自至少两个来源的输入图像，来自至少两个来源的输入图像包括在不同光波频段下针对相同拍摄对象采集的图像。

图像处理模块1320用于利用第一图像处理模型对输入图像进行图像处理，以输出融合图像。

其中，第一图像处理模型的训练过程包括：重复执行以下操作直至完成至少两个阶段的模型训练，得到模型参数：

需要说明的是，装置部分实施例中各模块/单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再一一赘述。

根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，图像获取模块1310和图像处理模块1320中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，图像获取模块1310和图像处理模块1320中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，图像获取模块1310和图像处理模块1320中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图14示意性示出了根据本公开实施例的电子设备的方框图。图14示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图14所示，根据本公开实施例的电子设备1400包括处理器1401，其可以根据存储在只读存储器(ROM)1402中的程序或者从存储部分1408加载到随机访问存储器(RAM)1403中的程序而执行各种适当的动作和处理。处理器1401例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1401还可以包括用于缓存用途的板载存储器。处理器1401可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1403中，存储有电子设备1400操作所需的各种程序和数据。处理器1401、ROM 1402以及RAM 1403通过总线1404彼此通讯连接。处理器1401通过执行ROM 1402和/或RAM 1403中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 1402和RAM 1403以外的一个或多个存储器中。处理器1401也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1400还可以包括输入/输出(I/O)接口1405，输入/输出(I/O)接口1405也连接至总线1404。电子设备1400还可以包括连接至I/O接口1405的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1407；包括硬盘等的存储部分1408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1410上，以便于从其上读出的计算机程序根据需要被安装入存储部分1408。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1409从网络上被下载和安装，和/或从可拆卸介质1411被安装。在该计算机程序被处理器1401执行时，执行本公开实施例的***中限定的上述功能。根据本公开的实施例，上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1402和/或RAM 1403和/或ROM 1402和RAM 1403以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的图像模型训练方法或图像处理方法。

在该计算机程序被处理器1401执行时，执行本公开实施例的***/装置中限定的上述功能。根据本公开的实施例，上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1409被下载和安装，和/或从可拆卸介质1411被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种训练图像处理模型的方法，包括：

获取针对来自至少两个来源的训练图像的伪真值图像，所述至少两个来源的训练图像包括在不同光波频段下针对相同拍摄对象采集的图像；以及

将所述伪真值图像和所述来自至少两个来源的训练图像共同作为模型训练监督信息，通过调整第一图像处理模型的模型参数，以最小化联合损失函数；

其中，所述伪真值图像是由经训练的第二图像处理模型输出的针对所述来自至少两个来源的训练图像的融合图像或者当前训练阶段的上一训练阶段由所述第一图像处理模型输出的融合图像，所述联合损失函数表征所述第一图像处理模型输出的融合图像相对于所述来自至少两个来源的训练图像和所述伪真值图像的损失。

2.根据权利要求1所述的方法，其中，所述至少两个阶段的模型训练包括：第一阶段模型训练、第二阶段模型训练和第三阶段模型训练；其中，

在第一阶段模型训练过程中，所述伪真值图像是由经训练的第二图像处理模型输出的针对所述来自至少两个来源的训练图像的融合图像；

在第二阶段模型训练过程中，所述伪真值图像是由所述第一图像处理模型在第一阶段模型训练过程输出的第一融合图像；以及

在第三阶段模型训练过程中，所述伪真值图像是由所述第一图像处理模型在第二阶段模型训练过程输出的第二融合图像。

3.根据权利要求1所述的方法，其中，所述联合损失函数由第一损失函数、第二损失函数和第三损失函数的和构成；

所述第一损失函数表征所述第一图像处理模型输出的融合图像相应于红外图像的基于像素级的损失；

所述第二损失函数表征所述第一图像处理模型输出的融合图像相应于可见光图像的基于图像块级的损失；以及

所述第三损失函数表征所述第一图像处理模型输出的融合图像相应于伪真值图像的基于特征集的损失。

4.根据权利要求3所述的方法，其中，所述第二损失函数包括梯度损失和结构相似度损失。

5.根据权利要求1所述的方法，其中，针对所述至少两个阶段的模型训练中每一个阶段，所述通过调整第一图像处理模型的模型参数，以最小化联合损失函数包括：

通过调整所述第一图像处理模型的模型参数，最小化所述第一图像处理模型输出的融合图像相对于所述模型训练监督信息的损失，

其中，所述融合图像的构建过程包括：对于所述来自至少两个来源的训练图像的相同等级的深度图像特征，基于各自的权重进行相同等级特征融合，得到至少两级多模态融合图像特征，并且融合所述至少两级多模态融合图像特征，以构建针对所述来自至少两个来源的训练图像的融合图像。

6.根据权利要求5所述的方法，其中，所述第一图像处理模型包括：

深度图像特征提取网络，用于获取所述来自至少两个来源的训练图像各自的至少两级深度图像特征；

多模态特征融合模块，用于基于所述来自至少两个来源的训练图像的相同等级的深度图像特征各自的权重进行相同等级特征融合，获得针对所述对象的至少两级多模态融合图像特征，并且基于反向信息传递的方式对所述至少两级多模态融合图像特征进行特征融合，得到融合后的图像特征，其中，所述来自至少两个来源的训练图像的相同等级的深度图像特征各自的权重是基于自注意力机制确定的；以及

图像重构模块，用于处理所述融合后的图像特征，获得针对所述来自至少两个来源的训练图像的融合图像。

7.根据权利要求6所述的方法，其中，所述第一图像处理模型还包括：

权重归一化模块，用于在所述基于所述来自至少两个来源的训练图像的相同等级的深度图像特征各自的权重进行相同等级特征融合之前，对所述来自至少两个来源的训练图像的相同等级的深度图像特征各自的权重进行归一化处理，以便将来自至少两个来源的训练图像的相同等级的深度图像特征进行相同等级特征融合。

8.根据权利要求6所述的方法，其中，所述第一图像处理模型还包括：

单模态相邻特征融合模块，用于在所述获取所述来自至少两个来源的训练图像各自的至少两级深度图像特征之后，针对所述来自至少两个来源的训练图像中每一个训练图像，基于与所述训练图像对应的至少两级深度图像特征获取至少一级上下文深度图像特征，其中，一级上下文深度图像特征是由相邻的两级深度图像特征融合后得到的；

所述多模态特征融合模块具体用于基于所述来自至少两个来源的训练图像的相同等级的上下文深度图像特征各自的权重进行相同等级特征融合。

9.根据权利要求8所述的方法，其中，所述单模态相邻特征融合模块包括：第一卷积层和第一激活函数；

所述第一卷积层用于基于所述第一激活函数处理所述训练图像的相邻的两级深度图像特征，获得至少一级上下文深度图像特征。

10.根据权利要求9所述的方法，其中，所述单模态相邻特征融合模块还包括：

级联子模块，用于级联与所述训练图像对应的至少两级深度图像特征中相邻的两级深度图像特征；以及

所述第一卷积层具体用于基于第一指定尺寸的第一卷积核和第一激活函数处理级联的两级深度图像特征，获得所述至少一级上下文深度图像特征。

11.根据权利要求6所述的方法，其中，所述深度图像特征提取网络包括第一网络；

所述第一网络用于处理所述来自至少两个来源的训练图像，获得来自至少两个来源的训练图像各自的至少两级深度图像特征，其中，所述第一网络包括第二卷积层。

12.根据权利要求6所述的方法，其中，所述多模态特征融合模块包括权重确定子模块和权重融合子模块；

所述权重确定子模块包括：

两个分支网络，所述两个分支网络各自用于获取处理后的至少两级深度图像特征，其中，所述两个分支中第一分支用于使用第二卷积核对至少两级深度图像特征进行卷积操作，所述两个分支中第二分支用于使用第三卷积核、第四卷积核和第五卷积核对至少两级深度图像特征进行卷积操作；

分支处理结果融合单元，用于相加两个分支各自的处理后的至少两级深度图像特征，获得至少两级的分支融合深度图像特征；

权重确定单元，用于基于第二激活函数得到针对所述至少两级的分支融合深度图像特征各自的权重；以及

所述权重融合子模块用于基于所述至少两级的分支融合深度图像特征各自的权重进行相同等级特征融合。

13.根据权利要求12所述的方法，其中，所述权重融合子模块包括：多级第三卷积层；

当前等级第三卷积层用于基于来自至少两个来源的训练图像的相同等级的分支融合深度图像特征各自的权重，对前一等级卷积层的输出和所述来自至少两个来源的训练图像各自的相同等级的分支融合深度图像特征进行相同等级特征融合，其中，与最后一级分支融合深度图像特征对应的第一级第三卷积层的输入，包括所述来自至少两个来源的训练图像各自的最后一级分支融合深度图像特征，多级第三卷积层中除所述第一级第三卷积层之外的各等级第三卷积层的输入包括上一等级第三卷积层的输出和与所述各等级第三卷积层对应的所述来自至少两个来源的训练图像各自的相同等级分支融合深度图像特征。

14.根据权利要求6所述的方法，其中，所述图像重构模块包括：第四卷积层；

所述第四卷积层用于基于第二指定尺寸的第六卷积核对所述融合后的图像特征进行卷积操作，以输出单通道的融合图像。

15.根据权利要求1～14任一项所述的方法，所述来自至少两个来源的训练图像包括针对相同拍摄对象采集的红外图像和可见光图像。

16.一种图像处理方法，包括：

获取来自至少两个来源的多个输入图像，所述来自至少两个来源的多个输入图像包括在不同光波频段下针对相同拍摄对象采集的图像；以及

利用第一图像处理模型对所述多个输入图像进行图像处理，以输出融合图像；

其中，所述第一图像处理模型的训练过程包括：

17.一种图像处理装置，包括：

图像获取模块，用于获取来自至少两个来源的输入图像，所述来自至少两个来源的输入图像包括在不同光波频段下针对相同拍摄对象采集的图像；以及

图像处理模块，用于利用第一图像处理模型对所述输入图像进行图像处理，以输出融合图像，其中，所述第一图像处理模型的训练过程包括：

18.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储可执行指令，所述可执行指令在被所述处理器执行时，实现根据权利要求1～15任一项所述的训练图像处理模型训练的方法，或者实现根据权利要求16所述的图像处理方法。

19.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时，实现根据权利要求1～15任一项所述的训练图像处理模型训练的方法，或者实现根据权利要求16所述的图像处理方法。