CN116665002A

CN116665002A - 图像处理方法、深度学习模型的训练方法和装置

Info

Publication number: CN116665002A
Application number: CN202310780661.XA
Authority: CN
Inventors: 陈子亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-08-29
Anticipated expiration: 2043-06-28
Also published as: CN116665002B

Abstract

本公开提供了一种图像处理方法，涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习技术领域。具体实现方案为：使用N个编码模块分别基于N个待处理图像各自的初始特征，确定N个待处理图像各自的编码特征，N个待处理图像是利用N个不同图像传感器针对相同场景采集得到的图像；针对每个初始特征，使用N个解码模块中的一个目标解码模块，基于对象查找参数和与初始特征对应的编码特征，从初始特征中确定有效信息，得到对象查找特征；将N个对象查找特征进行融合，得到融合特征；根据融合特征识别N个待处理图像中任一待处理图像中的目标对象。本公开还提供了一种深度学习模型的训练方法、装置、电子设备和存储介质。

Description

图像处理方法、深度学习模型的训练方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域，可应用于活体检测等场景。更具体地，本公开提供了一种图像处理方法、深度学习模型的训练方法、装置、电子设备和存储介质。

背景技术

近年来，随着深度学习理论的兴起，目标检测技术取得了飞速的发展，并逐渐投入到生产、生活等方面。例如广泛应用于活体检测、人脸识别、案情识别、违规行为识别等场景。

发明内容

本公开提供了一种图像处理方法、深度学习模型的训练方法、装置、设备以及存储介质。

根据第一方面，提供了一种图像处理方法，该方法包括：使用N个编码模块分别基于N个待处理图像各自的初始特征，确定N个待处理图像各自的编码特征，其中，N为大于1的整数，N个待处理图像是利用N个不同图像传感器针对相同场景采集得到的图像；针对每个初始特征，使用N个解码模块中的一个目标解码模块，基于对象查找参数和与初始特征对应的编码特征，从初始特征中确定有效信息，得到对象查找特征；将N个对象查找特征进行融合，得到融合特征；以及根据融合特征识别N个待处理图像中任一待处理图像中的目标对象。

根据第二方面，提供了一种深度学习模型的训练方法，深度学习模型包括N个编码模块以及N个解码模块，N为大于1的整数；该方法包括：将N个样本图像各自的初始特征分别输入N个编码模块，得到N个样本图像各自的编码特征，其中，N为大于1的整数，N个样本图像是利用N个不同图像传感器针对相同场景采集得到的图像；针对每个初始特征，将初始特征、与初始特征对应的编码特征以及对象查找参数输入N个解码模块中的一个目标解码模块，得到对象查找特征；将N个对象查找特征进行融合，得到融合特征；根据融合特征确定N个样本图像中任一样本图像中的样本对象的识别结果；以及根据识别结果确定深度学习模型的损失，并根据损失调整深度学习模型的参数。

根据第三方面，提供了一种图像处理装置，该装置包括：第一编码单元，用于使用N个编码模块分别基于N个待处理图像各自的初始特征，确定N个待处理图像各自的编码特征，其中，N为大于1的整数，N个待处理图像是利用N个不同图像传感器针对相同场景采集得到的图像；第一解码单元，用于针对每个初始特征，使用N个解码模块中的一个目标解码模块，基于对象查找参数和与初始特征对应的编码特征，从初始特征中确定有效信息，得到对象查找特征；第一融合单元，用于将N个对象查找特征进行融合，得到融合特征；以及第一识别单元，用于根据融合特征识别N个待处理图像中任一待处理图像中的目标对象。

根据第四方面，提供了一种深度学习模型的训练装置，深度学习模型包括N个编码模块以及N个解码模块，N为大于1的整数；该装置包括：第二编码单元，用于将N个样本图像各自的初始特征分别输入N个编码模块，得到N个样本图像各自的编码特征，其中，N为大于1的整数，N个样本图像是利用N个不同图像传感器针对相同场景采集得到的图像；第二解码单元，用于针对每个初始特征，将初始特征、与初始特征对应的编码特征以及对象查找参数输入N个解码模块中的一个目标解码模块，得到对象查找特征；第二融合单元，用于将N个对象查找特征进行融合，得到融合特征；第二识别单元，用于根据融合特征确定N个样本图像中任一样本图像中的样本对象的识别结果；以及训练单元，用于根据样本对象的识别结果确定深度学习模型的损失，并根据损失调整深度学习模型的参数。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A是相关技术中的一种基于多模态数据的目标检测方法的示意图；

图1B是相关技术中的另一种基于多模态数据的目标检测方法的示意图；

图2是根据本公开的一个实施例的图像处理方法的流程图；

图3是根据本公开的一个实施例的图像处理方法的示意图；

图4A是相关技术中DETR模型的解码模块的结构示意图；

图4B是根据本公开的一个实施例的解码模块的示意图；

图5是根据本公开的一个实施例的图像处理方法的示意图；

图6是根据本公开的一个实施例的深度学习模型的训练方法的流程图；

图7是根据本公开的一个实施例的图像处理装置的框图；

图8是根据本公开的一个实施例的深度学习模型的训练装置的框图；

图9是根据本公开的一个实施例的图像处理方法以及深度学习模型的训练方法中的至少之一的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目标检测可应用于多种场景，例如可以应用于图像中人物的检测、动物的检测、车辆的检测等。在一个示例场景中，可以用来检测图像中人体的位置信息，以确定图像中的人物对象是否存在跨线、翻越围栏等行为。

用于采集图像的摄像头可以包括不同成像原理的图像传感器，例如可以包括彩色图像传感器、红外图像传感器等。彩色图像传感器采集得到彩色图像(RGB图像)，红外图像传感器例如近红外图像传感器采集得到近红外图像(NIR图像，Near Infrared)。RGB图像和NIR图像为不同模态的图像。

基于多模态数据的目标检测是一项极具有挑战的任务，它往往是由多个模态的数据作为输入，例如RGB图像和NIR图像均作为输入，然后要求定位出RGB图像或NIR图像中的目标对象(例如人体)的位置信息。一般可以将多模态数据送入到基于卷积神经网络(CNN)的检测器或者基于Transformer的检测器中，来定位出目标对象的位置信息。

DETR(Detection Transformer)是一种基于Transformer的目标检测模型，相比于基于CNN的目标检测模型，检测效果取得了巨大的提升，达到了SOTA(State-of-The-Art)效果。

由于目前的主流检测器(例如DETR)都是基于单模态的数据，也就是同一时间只能使用RGB图像或者NIR图像中的一个模态的数据来检测目标，这就造成了另外一个模态信息的浪费，从而导致检测的结果并不是最优的。

图1A是相关技术中的一种基于多模态数据的目标检测方法的示意图。

如图1A所示，多模态数据可以包括RGB图像和NIR图像，检测器可以采用当前经典的目标检测器(例如DETR)。多种模态数据作为输入，一次只送入一种模态的数据，让多种模态进行混合训练，从而使得模型具有在多种模态下都能检出目标对象的能力。

例如，可以在一个批次内混合RGB图像和NIR图像，但是RGB图像和NIR图像是彼此独立的，每一次送入检测器(例如DETR的解码器)的只有一种数据，多种模态数据进行混合训练，使得检测器强行拟合出具有针对不同模态数据的检测能力。例如能够检测得到RGB图像中目标对象的类别和检测框，也可以检测得到NIR图像中的目标对象的类别和检测框。

由于每一次目标检测只能利用一种模态的数据，造成另一种模态数据的浪费，所以目标检测结果也不是最优的。

图1B是相关技术中的另一种基于多模态数据的目标检测方法的示意图。

如图1B所示，多模态数据可以包括RGB图像和NIR图像，可以将两种模态的数据在输入的时候直接简单的按照通道进行拼接，将拼接后的多模态数据送入到目标检测器中去检测目标对象的位置信息。这种做法虽然显式的利用到了两种模态的数据，但是由于当前主流的检测器的预训练模型(例如DETR)都是基于3通道的，而RGB和NIR模态拼接以后，通道数是大于3的。无法有效的利用当前SOTA模型(DETR)的预训练参数，导致学到的结果往往是次优的。

此外，由于RGB和NIR属于不同模态数据，不同模态数据的语义存在不一致性，直接拼接会导致一定的语义干扰性。例如，白天的RGB图像的特征更显著，夜晚的NIR图像的特征更显著，二者拼接在一起会使得特征平均，没有利用到不同模态数据各自的优势，影响检测效果。

因此，急需一种能够有效利用多模态数据的目标检测方法，来提升多模输入情况下的检测效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图2是根据本公开的一个实施例的图像处理方法的流程图。

如图2所示，该图像处理方法200包括操作S210～操作S240。

在操作S210，使用N个编码模块分别基于N个待处理图像各自的初始特征，确定N个待处理图像各自的编码特征。

N个待处理图像是利用N个不同图像传感器针对相同场景采集得到的图像，N个不同图像传感器可以是指成像原理不同的传感器，从而N个待处理图像是不同模态的、包含相同目标对象的图像，N为大于1的整数。例如N＝2，N个待处理图像可以包括彩色图像(RGB图像)和近红外图像(NIR图像)。又例如，N＝3，N个待处理图像可以包括彩色图像(RGB图像)、近红外图像(NIR图像)以及深度图像。

在一个示例中，用于采集图像的摄像头包括N个不同成像原理的图像传感器，例如可以包括彩色图像传感器、红外图像传感器等。摄像头在同一时刻使用彩色图像传感器和近红外图像传感器分别进行图像采集，可以认为彩色图像传感器和近红外图像传感器的采集角度一致，采集得到的图像内容一致，得到的RGB图像和NIR图像是一组针对相同场景的、不同模态的图像。

在另一个示例中，针对同一路段(或路口)可以设置有多个摄像头，每个摄像头可以包括彩色图像传感器和近红外图像传感器。来自不同摄像头的RGB图像和NIR图像虽然采集角度不同，但是采集的场景中的对象(例如行人、车辆等)相同，因此，也可以作为一组针对相同场景的、不同模态的图像。

DETR模型包括特征提取模块、基于Transformer的Encoder-Decoder模块、以及输出模块。本实施例的编码模块可以是DETR模型中的基于Transformer的Encoder模块。N个编码模块可以是对DETR模型的结构进行改进得到的。

例如，本实施例使用的目标检测模型的结构包括N个并列的特征提取模块(CNN模块)、N个并列的编码模块(Encoder模块)、N个并列的解码模块(Decoder模块)、融合模块以及输出模块。其中，N个并列的(CNN+Encoder)结构是彼此独立的网络，分别与N个待处理图像各自对应。

N个待处理图像分别输入N个并列的CNN模块，得到N个待处理图像各自的初始特征。N个待处理图像各自的初始特征输入N个并列的Encoder模块，得到N个待处理图像各自的编码特征。

例如，针对每个初始特征，包括多个特征单元，Encoder模块可以将每个特征单元在待处理图像中的位置信息编码到每个特征单元中，得到编码特征。

由于使用N个并列的CNN分别针对N个待处理图像单独提取特征，能够避免不同模态的特征拼接造成的语义干扰。在编码阶段也使用N个并列的编码模块分别针对N个初始特征进行独立编码，也进一步避免不同模态的特征之间的语义干扰。

在操作S220，针对每个初始特征，使用N个解码模块中的一个目标解码模块，基于对象查找参数以及与初始特征对应的编码特征，从初始特征中确定有效信息，得到对象查找特征。

对象查找参数(Query)是DETR模型中的一组可学习的参数，Decoder模块使用该对象查找参数可以从待处理图像中查找出目标对象。具体来说，对象查找参数与Encoder模块输出的编码特征一起，作为Decoder模块的输入。在Decoder模块中，Decoder模块计算对象查找参数和编码特征之间的相关性，根据相关性从初始特征中确定有效信息，得到对象查找特征。

可以理解，待处理图像的对象查找特征包含了该待处理图像中的初始特征中的有效信息，该有效信息可以表征待处理图像中的目标对象的有效信息或者背景图像的有效信息。因此，利用该对象查找特征可以将目标对象和背景图像区分开来，从而实现目标对象的识别。

此外，每个待处理图像包含的目标对象的个数可以是多个。对象查找参数中查询参数(Query)的数量可以是预设的该待处理图像中包含的目标对象的最大数量。因此，利用对象查找参数可以从待处理图像中检测出多个目标对象。

例如，针对每个待处理图像，该待处理图像的初始特征、编码特征和对象查找参数一起输入N个并列的解码模块的一个目标解码模块。目标解码模块可以是与该待处理图像对应的解码模块。在目标解码模块中，目标解码模块计算编码特征和对象查找参数之间的相关性，编码特征包括多个特征单元，每个特征单元编码有位置信息，编码特征和对象查找参数之间的相关性可以表征每个特征单元的权重。根据每个特征单元的权重，可以将初始特征处理为对象查找特征，该对象查找特征中每个特征单元的特征值表征了初始特征中对应特征单元的重要性。也即，对象查找参数从初始特征中查找到了重要性强的有效信息，该有效信息可以将目标对象和背景图像区分开来。

由于使用N个并列的解码模块分别处理N个编码特征，因此，N个并列的解码模块可以同时使用对象查找参数并行地查找N个初始特征的有效信息，解决了相关技术中DETR模型无法支持同一时间多种模态数据的处理的问题。

在操作S230，将N个对象查找特征进行融合，得到融合特征。

在通过N个并列的解码模块得到N个待处理图像各自的对象查找特征之后，将N个对象查找特征进行融合，得到融合特征。

例如，针对每个编码特征，该编码特征包括多个编码单元，且每个编码单元编码有位置信息。对应的，每个对象查找特征也包括多个特征单元，每个特征单元包含位置信息。可以将N个对象查找特征按照特征单元的位置信息进行融合。例如，同一位置的N个特征单元融合在一起，多个位置的特征单元逐一进行融合，得到融合特征。

由于N个对象查找特征各自包含了N个模态数据的有效信息，因此，将不同模态的有效信息融合在一起，能够使得各模态数据的显著性特征得到充分利用。

在操作S240，根据融合特征识别N个待处理图像中任一待处理图像中的目标对象。

例如，N个待处理图像的融合特征输入输出模块，该输出模块针对融合特征进行分类和位置检测，得到N个待处理图像中任一待处理图像中的目标对象的识别结果，识别结果包括类别以及检测框。

可以理解，N个待处理图像是包含相同目标对象的不同模态的图像，经上述操作S210～操作S240，可以得到任一待处理图像中目标对象的类别和检测框。

本公开的实施例使用N个编码模块分别针对N个不同模态的待处理图像的初始特征进行编码，得到N个编码特征，能够避免不同模态的特征之间的语义干扰，并且使用N个解码模块基于对象查找参数分别对N个编码特征进行解码，得到N个对象查找特征，将N个对象查找特征进行融合，能够充分利用不同模态的有效信息，提高目标检测效果。具体地，可以提高待处理图像中目标对象的类别识别准确率，以及检测框的位置信息的准确度。

图3是根据本公开的一个实施例的图像处理方法的示意图。

如图3所示，本实施例的目标检测模型310可以是基于DETR模型的结构进行改进得到的。例如，目标检测模型310包括N个并列的CNN模块(CNN模块311A～311C)、N个并列的编码模块(编码模块312A～312C)、N个并列的解码模块(解码模块313A～313C)、融合模块314以及输出模块315。

N个待处理图像(图像301A～301C)可以是包含相同目标对象的不同模态的图像。例如图像301A为RGB图像，图像301B为NIR图像，图像301C为深度图像，等等。

N个不同模态的待处理图像(图像301A～301C)分别输入N个并列的CNN模块(CNN模块311A～311C)，得到N个待处理图像各自的初始特征，N个初始特征分别输入N个并列的编码模块(编码模块312A～312C)，得到N个编码特征。每个编码特征与对象查找参数(Query)输入一个解码模块，得到对象查找特征。N个对象查找特征输入融合模块314，得到融合特征，融合特征输入输出模块315，得到每个图像中的目标对象的类别302以及检测框303。

本实施例通过将DETR模型的Encoder-Decoder结构改进为N个并列的Encoder模块、N个并列的Decoder模块、以及融合模块，能够在编码阶段分别使用并列的编码模块对不同模态的数据单独处理，能够避免特征干扰；在解码阶段，使用对象查找参数Query同时查询多个模态的数据的有效特征(对象查找特征)，再将多个模态各自的有效特征融合在一起，能够充分利用各模态的有效信息，提高目标检测效果。

需要说明的是，融合模块是对N个解码模块输出的对象查找特征进行融合的，融合模块可以并入到解码模块中。

下面对解码模块进行说明。

图4A是相关技术中DETR模型的解码模块的结构示意图。

如图4A所示，解码模块包括多头注意力子模块(Multi-head-attention)，多头注意力子模块用于对输入的特征进行交叉注意力计算(Cross-attention)。多头注意力子模块的输入特征Memory包括待处理图像的编码特征以及初始特征。实质上，编码特征是对初始特征进行位置编码得到的。编码特征作为关键字Key，初始特征作为值Value，与对象查询特征Query一起输入多头注意力子模块。

多头注意力子模块计算对象查询特征Query和编码特征Key之间的相关性(相似度)，得到相关性矩阵。相关性矩阵中的每个相似度表征了初始特征Value中每个特征单元的权重。将相关性矩阵和初始特征Value相乘，可以得到对象查找特征。该对象查找特征中每个特征单元的特征值表征了初始特征中对应特征单元的重要性。也即，对象查找参数从初始特征中查找到了重要性强的有效信息，该有效信息可以将目标对象和背景图像区分开来。

图4B是根据本公开的一个实施例的解码模块的示意图。

如图4B所示，本实施例的解码模块包括多个并列的解码子模块(解码子模块401～402)，以及与多个并列的解码子模块级联的融合子模块403。可以理解，本实施例将用于融合N个对象查找特征的融合模块并入到了解码模块中。解码子模块401和解码子模块402均可以是多头注意力结构(Multi-head-attention)，本实施例的解码模块可以称为多头解码模块。

例如，解码子模块401是针对第一种模态数据的(例如RGB图像)，解码子模块402是针对第二种模态数据的(例如NIR图像)。输入到解码子模块401的特征Memory1可以包括RGB图像的初始特征和编码特征。输入到解码子模块402的特征Memory2可以包括NIR图像的初始特征和编码特征。解码子模块401和解码子模块402可以分别使用对象查询参数Query同时并行的对特征Memory1和特征Memory2进行处理，分别从特征Memory1和特征Memory2中查询出有效信息，得到RGB图像的对象查找特征以及NIR图像的对象查找特征。

融合子模块403用于将RGB图像的对象查找特征以及NIR图像的对象查找特征按照位置信息进行融合，得到融合特征。融合特征包含了各个模态的有效信息，使得目标检测模型能够充分利用各模态的显著性信息，从而提高目标检测效果。

图5是根据本公开的一个实施例的图像处理方法的示意图。

如图5所示，待处理图像501A和待处理图像501B可以是包含相同目标对象的不同模态的图像。例如待处理图像501A是RGB图像，待处理图像501B是近红外NIR图像。

本实施例的目标检测模型510包括彼此并列设置的CNN模块511A和CNN模块511B、彼此并列设置的编码模块512A和编码模块512B、以及多头解码模块513。多头解码模块513的具体结构可以如图4B所示。

RGB图像501A输入CNN模块511A，得到RGB图像501A的初始特征。NIR图像501B输入CNN模块511B，得到NIR图像501B的初始特征。

RGB图像501A的初始特征输入编码模块512A，得到RGB图像501A的编码特征。NIR图像501B的初始特征输入编码模块512B，得到NIR图像501B的编码特征。

RGB图像501A的初始特征和编码特征、NIR图像501B的初始特征和编码特征、以及对象查找参数Query输入多头解码模块513，得到融合特征。该融合特征融合了RGB图像501A和NIR图像501B的有效信息。

根据融合特征，可以确定RGB图像501A中的目标对象的类别和检测框、以及NIR图像501B中的目标对象的类别502和检测框503。

本实施例利用多头解码模块513使用对象查找参数Query分别对不同模态的特征进行处理，使得检测器能够在同一时间处理不同模态的数据，利用不同模态的有效信息，提高目标检测效果。

图6是根据本公开的一个实施例的深度学习模型的训练方法的流程图。

如图6所示，该深度学习模型的训练方法600包括操作S610～操作S650。其中，深度学习模型包括N个编码模块以及N个解码模块，N为大于1的整数。

在操作S610，将N个样本图像各自的初始特征分别输入N个编码模块，得到N个样本图像各自的编码特征。

其中，N为大于1的整数，N个样本图像是利用N个不同图像传感器针对相同场景采集得到的图像。

本实施例的深度学习模型可以是基于DETR模型的结构进行改进得到的。本实施例的深度学习模型可以包括N个并列的特征提取模块(CNN模块)、N个并列的编码模块(Encoder模块)、N个并列的解码模块(Decoder模块)、融合模块以及输出模块。

N个样本图像是利用N个不同图像传感器针对相同场景采集得到的图像，N个不同图像传感器是指成像原理不同的传感器，从而N个样本图像是不同模态的、包含相同目标对象的图像，N为大于1的整数。例如N＝2，N个样本图像可以包括彩色图像(RGB图像)和近红外图像(NIR图像)。又例如，N＝3，N个样本图像可以包括彩色图像(RGB图像)、近红外图像(NIR图像)以及深度图像。

N个样本图像分别输入N个并列的CNN模块，得到N个样本图像各自的初始特征。N个样本图像各自的初始特征输入N个并列的Encoder模块，得到N个样本图像各自的编码特征。

由于使用N个并列的CNN模块分别针对N个样本图像单独提取特征，能够避免不同模态的特征拼接造成的语义干扰。在编码阶段也使用N个并列的编码模块分别针对N个初始特征进行独立编码，也进一步避免不同模态的特征之间的语义干扰。

在操作S620，针对每个初始特征，将初始特征、与初始特征对应的编码特征以及对象查找参数输入N个解码模块中的一个目标解码模块，得到对象查找特征。

对象查找参数(Query)是DETR模型中的一组可学习的参数，Decoder模块使用该对象查找参数从初始特征中确定有效信息，得到对象查找特征。对象查找特征中的有效信息包括目标对象的有效信息以及背景图像的有效信息，因此，利用对象查找特征能够将目标对象和背景图像区分开来，从而实现目标对象的识别。

例如，针对每个样本图像，该样本图像的初始特征、编码特征和对象查找参数一起输入N个并列的解码模块的一个目标解码模块。目标解码模块可以是与该样本图像对应的解码模块。在目标解码模块中，目标解码模块计算编码特征和对象查找参数之间的相关性，根据相关性将初始特征处理为对象查找特征。

在操作S630，将N个对象查找特征进行融合，得到融合特征。

在通过N个并列的解码模块得到N个样本图像各自的对象查找特征之后，将N个对象查找特征输入融合模块，得到融合特征。

由于N个对象查找特征各自包含了对应模态数据的有效信息，因此，将不同模态的有效信息融合在一起，能够使得各模态数据的显著性特征得到充分利用。

在操作S640，根据融合特征确定N个样本图像中任一样本图像中的样本对象的识别结果。

例如，N个样本图像的融合特征输入输出模块，该输出模块针对融合特征进行分类和位置检测，得到N个样本图像中任一样本图像中的目标对象的识别结果，识别结果包括目标对象的类别以及检测框。

在操作S650，根据样本对象的识别结果确定深度学习模型的损失，并根据损失调整深度学习模型的参数。

每个样本图像可以均标注有真实类别和真实位置信息。针对每个样本图像，根据该样本图像中目标对象的输出类别与真实类别之间的差异，可以确定该样本图像的类别损失。根据该样本图像中目标对象的真实位置信息和输出检测框信息之间的差异，可以确定该样本图像的位置损失。

根据每个样本图像的类别损失和位置损失，可以确定深度学习模型的整体损失。利用该损失可以调整深度学习模型的参数，深度学习模型的参数包括N个特征提取模块各自的参数、N个编码模块各自的参数、N个解码模块各自的参数、融合模块的参数、输出模块的参数以及对象查找参数，因此，利用损失可以调整上述参数中的至少之一。

本实施例使用N个编码模块分别针对N个不同模态的待处理图像的初始特征进行编码，得到N个编码特征，能够避免不同模态的特征之间的语义干扰，并且使用N个解码模块基于对象查找参数分别对N个编码特征进行解码，得到N个对象查找特征，将N个对象查找特征进行融合，能够充分利用不同模态的有效信息，提高目标检测效果。具体地，可以提高待处理图像中目标对象的类别识别准确率，以及检测框的位置信息的准确度。

图7是根据本公开的一个实施例的图像处理装置的框图。

如图7所示，该图像处理装置700包括第一编码单元701、第一解码单元702、第一融合单元703以及第一识别单元704。

第一编码单元701用于使用N个编码模块分别基于N个待处理图像各自的初始特征，确定N个待处理图像各自的编码特征，其中，N为大于1的整数，N个待处理图像是利用N个不同图像传感器针对相同场景采集得到的图像。

第一解码单元702用于针对每个初始特征，使用N个解码模块中的一个目标解码模块，基于对象查找参数以及与初始特征对应的编码特征，从初始特征中确定有效信息，得到对象查找特征。

第一融合单元703用于将N个对象查找特征进行融合，得到融合特征。

第一识别单元704用于根据融合特征识别N个待处理图像中任一待处理图像中的目标对象。

第一编码单元701用于针对每个初始特征，使用N个编码模块中的一个目标编码模块，对初始特征中的多个特征单元添加位置信息，得到编码特征。

第一解码单元702用于针对每个初始特征，使用目标解码模块计算对象查找参数和与初始特征对应的编码特征之间的相关性，并根据相关性从初始特征中确定有效信息，得到对象查找特征。

第一融合单元包括第一位置确定子单元和第一融合子单元。

第一位置确定子单元用于针对每个对象查找特征，根据编码特征中多个特征单元各自的位置信息，确定对象查找特征中多个特征单元各自的位置信息。

第一融合子单元用于根据对象查找特征中多个特征单元各自的位置信息，将N个对象查找特征进行融合，得到融合特征。

根据本公开的实施例，N个待处理图像包括彩色图像、红外图像和深度图像中的至少两种。

图8是根据本公开的一个实施例的深度学习模型的训练装置的框图。

如图8所示，该深度学习模型的训练装置800包括第二编码单元801、第二解码单元802、第二融合单元803、第二识别单元804以及训练单元805。

第二编码单元801用于将N个样本图像各自的初始特征分别输入N个编码模块，得到N个样本图像各自的编码特征，其中，N为大于1的整数，N个样本图像是利用N个不同图像传感器针对相同场景采集得到的图像。

第二解码单元802用于针对每个初始特征，将初始特征、与初始特征对应的编码特征以及对象查找参数输入N个解码模块中的一个目标解码模块，得到对象查找特征。

第二融合单元803用于将N个对象查找特征进行融合，得到融合特征。

第二识别单元804用于根据融合特征确定N个样本图像中任一样本图像中的样本对象的识别结果。

训练单元805用于根据样本对象的识别结果确定深度学习模型的损失，并根据损失调整深度学习模型的参数。

第二编码单元801用于针对每个初始特征，使用N个编码模块中的一个目标编码模块，对初始特征中的多个特征单元添加位置信息，得到编码特征。

第二解码单元802用于针对每个初始特征，使用目标解码模块计算对象查找参数和与初始特征对应的编码特征之间的相关性，并根据相关性从初始特征中确定有效信息，得到对象查找特征。

第二融合单元803包括第二位置确定子单元和第二融合子单元。

第二位置确定子单元用于针对每个对象查找特征，根据编码特征中多个特征单元各自的位置信息，确定对象查找特征中多个特征单元各自的位置信息。

第二融合子单元用于根据对象查找特征中多个特征单元各自的位置信息，将N个对象查找特征进行融合，得到融合特征。

根据本公开的实施例，深度学习模型还包括N个特征提取模块。深度学习模型的训练装置800还包括第二特征提取单元。

第二特征提取单元用于将N个样本图像分别输入N个特征提取模块，得到N个样本图像各自的初始特征。

训练单元805用于根据损失调整N个特征提取模块各自的参数、N个编码模块各自的参数、N个解码模块各自的参数以及对象查找参数中的至少之一。

根据本公开的实施例，N个样本图像包括彩色图像、红外图像和深度图像中的至少两种。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如图像处理方法以及深度学习模型的训练方法中的至少之一。例如，在一些实施例中，图像处理方法以及深度学习模型的训练方法中的至少之一可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的图像处理方法以及深度学习模型的训练方法中的至少之一的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法以及深度学习模型的训练方法中的至少之一。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

使用N个编码模块分别基于N个待处理图像各自的初始特征，确定所述N个待处理图像各自的编码特征，其中，N为大于1的整数，所述N个待处理图像是利用N个不同图像传感器针对相同场景采集得到的图像；

针对每个初始特征，使用N个解码模块中的一个目标解码模块，基于对象查找参数以及与所述初始特征对应的编码特征，从所述初始特征中确定有效信息，得到对象查找特征；

将N个所述对象查找特征进行融合，得到融合特征；以及

根据所述融合特征识别所述N个待处理图像中任一待处理图像中的目标对象。

2.根据权利要求1所述的方法，其中，所述使用N个编码模块分别基于N个待处理图像各自的初始特征，确定所述N个待处理图像各自的编码特征包括：

针对每个初始特征，使用N个编码模块中的一个目标编码模块，对所述初始特征中的多个特征单元添加位置信息，得到所述编码特征。

3.根据权利要求2所述的方法，其中，所述针对每个初始特征，使用N个解码模块中的一个目标解码模块，基于对象查找参数以及与所述初始特征对应的编码特征，从所述初始特征中确定有效信息，得到对象查找特征包括：针对每个初始特征，

使用所述目标解码模块计算所述对象查找参数和与所述初始特征对应的编码特征之间的相关性，并根据所述相关性从所述初始特征中确定有效信息，得到所述对象查找特征。

4.根据权利要求2或3所述的方法，其中，所述将N个所述对象查找特征进行融合，得到融合特征包括：

针对每个对象查找特征，根据所述编码特征中多个特征单元各自的位置信息，确定所述对象查找特征中多个特征单元各自的位置信息；

根据所述对象查找特征中多个特征单元各自的位置信息，将N个所述对象查找特征进行融合，得到所述融合特征。

5.根据权利要求1至4中任一项所述的方法，还包括：

使用N个特征提取模块分别提取所述N个待处理图像的初始特征。

6.根据权利要求1至5中任一项所述的方法，其中，所述N个待处理图像包括彩色图像、红外图像和深度图像中的至少两种。

7.一种深度学习模型的训练方法，所述深度学习模型包括N个编码模块以及N个解码模块，N为大于1的整数；所述方法包括：

将N个样本图像各自的初始特征分别输入所述N个编码模块，得到所述N个样本图像各自的编码特征，其中，N为大于1的整数，所述N个样本图像是利用N个不同图像传感器针对相同场景采集得到的图像；

针对每个初始特征，将所述初始特征、与所述初始特征对应的编码特征以及对象查找参数输入所述N个解码模块中的一个目标解码模块，得到对象查找特征；

将N个所述对象查找特征进行融合，得到融合特征；

根据所述融合特征确定所述N个样本图像中任一样本图像中的样本对象的识别结果；以及

根据所述识别结果确定所述深度学习模型的损失，并根据所述损失调整所述深度学习模型的参数。

8.根据权利要求7所述的方法，其中，所述将N个样本图像各自的初始特征分别输入所述N个编码模块，得到所述N个样本图像各自的编码特征包括：

9.根据权利要求8所述的方法，其中，所述针对每个初始特征，将所述初始特征、与所述初始特征对应的编码特征以及对象查找参数输入所述N个解码模块中的一个目标解码模块，得到对象查找特征包括：针对每个初始特征，

10.根据权利要求8或9所述的方法，其中，所述将N个所述对象查找特征进行融合，得到融合特征包括：

11.根据权利要求7至10中任一项所述的方法，其中，所述深度学习模型还包括N个特征提取模块；所述方法还包括：

将所述N个样本图像分别输入所述N个特征提取模块，得到所述N个样本图像各自的初始特征。

12.根据权利要求11所述的方法，其中，所述根据所述损失调整所述深度学习模型的参数包括：

根据所述损失调整所述N个特征提取模块各自的参数、N个编码模块各自的参数、N个解码模块各自的参数以及对象查找参数中的至少之一。

13.根据权利要求7至12中任一项所述的方法，其中，所述N个样本图像包括彩色图像、红外图像和深度图像中的至少两种。

14.一种图像处理装置，包括：

第一编码单元，用于使用N个编码模块分别基于N个待处理图像各自的初始特征，确定所述N个待处理图像各自的编码特征，其中，N为大于1的整数，所述N个待处理图像是利用N个不同图像传感器针对相同场景采集得到的图像；

第一解码单元，用于针对每个初始特征，使用N个解码模块中的一个目标解码模块，基于对象查找参数以及与所述初始特征对应的编码特征，从所述初始特征中确定有效信息，得到对象查找特征；

第一融合单元，用于将N个所述对象查找特征进行融合，得到融合特征；以及

第一识别单元，用于根据所述融合特征识别所述N个待处理图像中任一待处理图像中的目标对象。

15.根据权利要求14所述的装置，其中，所述第一编码单元，用于针对每个初始特征，使用N个编码模块中的一个目标编码模块，对所述初始特征中的多个特征单元添加位置信息，得到所述编码特征。

16.根据权利要求15所述的装置，其中，所述第一解码单元，用于针对每个初始特征，使用所述目标解码模块计算所述对象查找参数和与所述初始特征对应的编码特征之间的相关性，并根据所述相关性从所述初始特征中确定有效信息，得到所述对象查找特征。

17.根据权利要求1 5或16所述的装置，其中，所述第一融合单元包括：

第一位置确定子单元，用于针对每个对象查找特征，根据所述编码特征中多个特征单元各自的位置信息，确定所述对象查找特征中多个特征单元各自的位置信息；

第一融合子单元，用于根据所述对象查找特征中多个特征单元各自的位置信息，将N个所述对象查找特征进行融合，得到所述融合特征。

18.根据权利要求14至17中任一项所述的装置，还包括：

特征提取单元，用于使用N个特征提取模块分别提取所述N个待处理图像的初始特征。

19.根据权利要求14至18中任一项所述的装置，其中，所述N个待处理图像包括彩色图像、红外图像和深度图像中的至少两种。

20.一种深度学习模型的训练装置，所述深度学习模型包括N个编码模块以及N个解码模块，N为大于1的整数；所述装置包括：

第二编码单元，用于将N个样本图像各自的初始特征分别输入所述N个编码模块，得到所述N个样本图像各自的编码特征，其中，N为大于1的整数，所述N个样本图像是利用N个不同图像传感器针对相同场景采集得到的图像；

第二解码单元，用于针对每个初始特征，将所述初始特征、与所述初始特征对应的编码特征以及对象查找参数输入所述N个解码模块中的一个目标解码模块，得到对象查找特征；

第二融合单元，用于将N个所述对象查找特征进行融合，得到融合特征；

第二识别单元，用于根据所述融合特征确定所述N个样本图像中任一样本图像中的样本对象的识别结果；以及

训练单元，用于根据所述识别结果确定所述深度学习模型的损失，并根据所述损失调整所述深度学习模型的参数。

21.根据权利要求20所述的装置，其中，所述第二编码单元，用于针对每个初始特征，使用N个编码模块中的一个目标编码模块，对所述初始特征中的多个特征单元添加位置信息，得到所述编码特征。

22.根据权利要求21所述的装置，其中，所述第二解码单元，用于针对每个初始特征，使用所述目标解码模块计算所述对象查找参数和与所述初始特征对应的编码特征之间的相关性，并根据所述相关性从所述初始特征中确定有效信息，得到所述对象查找特征。

23.根据权利要求21或22所述的装置，其中，所述第二融合单元包括：

第二位置确定子单元，用于针对每个对象查找特征，根据所述编码特征中多个特征单元各自的位置信息，确定所述对象查找特征中多个特征单元各自的位置信息；

第二融合子单元，用于根据所述对象查找特征中多个特征单元各自的位置信息，将N个所述对象查找特征进行融合，得到所述融合特征。

24.根据权利要求20至23中任一项所述的装置，其中，所述深度学习模型还包括N个特征提取模块；所述装置还包括：

第二特征提取单元，用于将所述N个样本图像分别输入所述N个特征提取模块，得到所述N个样本图像各自的初始特征。

25.根据权利要求24所述的装置，其中，所述调整单元，用于根据所述损失调整所述N个特征提取模块各自的参数、N个编码模块各自的参数、N个解码模块各自的参数以及对象查找参数中的至少之一。

26.根据权利要求20至25中任一项所述的装置，其中，所述N个样本图像包括彩色图像、红外图像和深度图像中的至少两种。

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至13中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1至13中任一项所述的方法。