CN111898638B

CN111898638B - 融合不同视觉任务的图像处理方法、电子设备及介质

Info

Publication number: CN111898638B
Application number: CN202010604780.6A
Authority: CN
Inventors: 马思伟; 黄志勐; 贾川民; 赵政辉; 王苫社
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2022-12-02
Anticipated expiration: 2040-06-29
Also published as: CN111898638A

Abstract

本申请提供一种融合不同视觉任务的图像处理方法、装置、电子设备及介质。方法包括：根据待处理图像的视觉任务类型，提取出图像中针对视觉任务类型的先验知识；利用基础压缩模型对图像进行压缩，得到第一部分码流和残差数据；对残差数据进行预处理；根据先验知识调整预处理后的残差数据，得到目标残差数据，并利用残差压缩模型对目标残差数据进行压缩，得到第二部分码流；对第一部分码流和第二部分码流分别解码再相加，得到输出图像。本方案中，通过一个先验知识来修改图像残差的分布，来实现调整码率分配的目的，给视觉任务关注的区域提供更高质量的编码，最终使得压缩后的图像在不额外消耗码字的情况下，在视觉任务中获得了更高的准确率。

Description

融合不同视觉任务的图像处理方法、电子设备及介质

技术领域

本申请涉及数字信号处理领域，具体涉及一种融合不同视觉任务的图像处理方法及装置、一种电子设备以及一种计算机可读存储介质。

背景技术

视觉任务是一类任务的集合，比较有代表性的任务是目标检测、分类、识别等。不同的视觉任务的关注点会有所不同，但是其本质都是研究如何让计算机看懂图像。

例如，目标检测任务的目标是教会计算机寻找出图像中的目标物体；行人重识别任务的目标是教会计算机如何找到不同图像中的同一个人。人眼在获取外界信息的时候，会有着自己更加感兴趣的区域和独特的信息获取顺序。比如在对一个物体进行分类的时候，肯定会更加关注物体本身而不是物体以外的背景部分。和人眼看懂图像的过程类似，计算机在执行不同的视觉任务的时候也会有重点关注的区域或对象。

因此，对于不同视觉任务的压缩编码中，如何在不加大压缩代价的前提下给计算机关注的区域提供更高质量的编码，是本领域亟需解决的技术问题。

发明内容

本申请的目的是提供一种融合不同视觉任务的图像处理方法及装置、一种电子设备以及一种计算机可读存储介质。

本申请第一方面提供一种融合不同视觉任务的图像处理方法，包括：

S1、根据待处理图像的视觉任务类型，提取出所述图像中针对所述视觉任务类型的先验知识，该先验知识用于表示图像不同区域在相应视觉任务中的重要度；

S2、利用基础压缩模型对所述图像进行压缩，得到第一部分码流和残差数据；

S3、对所述残差数据进行预处理，得到预处理后的残差数据；

S4、根据所述先验知识调整所述预处理后的残差数据，得到目标残差数据，并利用残差压缩模型对所述目标残差数据进行压缩，得到第二部分码流；

S5、对所述第一部分码流和所述第二部分码流分别解码再相加，得到输出图像；

其中，所述基础压缩模型和所述残差压缩模型是卷积神经网络经过深度学习训练得到的，所述基础压缩模型的训练使用均方误差作为优化目标，所述残差压缩模型的训练使用结构相似性作为优化目标。

本申请第二方面提供一种融合不同视觉任务的图像处理装置，包括：

先验知识模块，用于根据待处理图像的视觉任务类型，提取出所述图像中针对所述视觉任务类型的先验知识，该先验知识用于表示图像不同区域在相应视觉任务中的重要度；

基础压缩模块，用于利用基础压缩模型对所述图像进行压缩，得到第一部分码流和残差数据；

预处理模块，用于对所述残差数据进行预处理，得到预处理后的残差数据；

残差压缩模块，用于根据所述先验知识调整所述预处理后的残差数据，得到目标残差数据，并利用残差压缩模型对所述目标残差数据进行压缩，得到第二部分码流；

解压缩模块，用于对所述第一部分码流和所述第二部分码流分别解码再相加，得到输出图像；

本申请第三方面提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。

本申请第四方面提供一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。

相较于现有技术，本申请提供的融合不同视觉任务的图像处理方法，根据待处理图像的视觉任务类型，提取出所述图像中针对所述视觉任务类型的先验知识；利用基础压缩模型对所述图像进行压缩，得到第一部分码流和残差数据；对所述残差数据进行预处理，得到预处理后的残差数据；根据所述先验知识调整所述预处理后的残差数据，得到目标残差数据，并利用残差压缩模型对所述目标残差数据进行压缩，得到第二部分码流；对所述第一部分码流和所述第二部分码流分别解码再相加，得到输出图像。本方案中，通过一个先验知识来修改图像残差的分布，来实现调整码率分配的目的，给视觉任务关注的区域提供更高质量的编码，最终使得压缩后的图像在不额外消耗码字的情况下，在视觉任务中获得了更高的准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的一些实施方式所提供的一种融合不同视觉任务的图像处理方法的流程图；

图2示出了本申请的一些实施方式所提供的分层图像压缩框架的示意图；

图3示出了采用本申请的图像处理方法的实际效果的对比示意图一；

图4示出了采用本申请的图像处理方法的实际效果的对比示意图二；

图5示出了本申请的一些实施方式所提供的一种融合不同视觉任务的图像处理装置的示意图；

图6示出了本申请的一些实施方式所提供的一种电子设备的示意图；

图7示出了本申请的一些实施方式所提供的一种计算机可读存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，对于不同视觉任务的压缩编码中，如何在不加大压缩代价的前提下给计算机关注的区域提供更高质量的编码，是本领域亟需解决的技术问题。

有鉴于此，本申请实施例将提供一种融合不同视觉任务的图像处理方法及装置，和基于该方法的电子设备以及介质等。在本申请实施例的方案中，先提取出图像中针对视觉任务的先验知识；然后对图像进行一次极低码率下的压缩，首次压缩主要为了获得图像的色彩信息；最后将首次压缩后产生的残差数据和先验知识相结合，调整残差数据的分布模型来实现码率分配，将调整后的残差数据再进行一次压缩，第二次压缩主要为了补全图像的纹理信息。解压缩时将上述两次压缩的结果解压后相加得到最后的输出图像。本申请中，在一个针对视觉任务的先验知识的指导下，通过改变图像压缩时残差数据的分布模型，来实现码率的重新分配，这样可以在不额外消耗码字的前提下，大大提升压缩后图像在视觉任务(例如，目标识别、检测和分类等)中的性能。

为进一步说明本申请实施例的方案，下面将结合附图进行描述。可以理解的是，下面各实施例中，相同或相应的内容可以相互参考，为描述简便，后续不作赘述。

本申请实施例提供一种融合不同视觉任务的图像处理方法及装置、一种电子设备以及计算机可读存储介质，下面结合附图进行说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种融合不同视觉任务的图像处理方法的流程图，如图所示，该方法包括以下步骤S101-S105：

步骤S101：根据待处理图像的视觉任务类型，提取出图像中针对视觉任务类型的先验知识，该先验知识用于表示图像不同区域在相应视觉任务中的重要度。

其中，视觉任务类型可以包括目标识别、目标检测和目标分类，重要度是指重要性程度。因为不同的视觉任务有不同的关注区域，也就是说，图像中不同的区域对于不同的视觉任务，其重要性程度是不同的，本申请针对不同视觉任务可以提取出图像中相应的先验知识，先验知识的作用是通过度量图像不同区域对视觉任务的重要性程度来指导后续的码率分配。

具体的，步骤S101可以实现为：

根据待处理图像的视觉任务类型，确定对应的先验知识提取模型，利用先验知识提取模型提取出图像中针对视觉任务类型的先验知识。其中，先验知识提取模型是卷积神经网络经过深度学习训练得到的。

本申请中，针对不同的视觉任务预先训练了相应的提取模型，也就是上述的先验知识提取模型，以便通过深度学习与图像处理技术，获得原图像对应的先验知识。

具体的，当视觉任务类型为目标检测时，先验知识用于表示图像中不同目标在目标检测任务中的重要度。

上述利用先验知识提取模型提取出图像中针对视觉任务类型的先验知识，可以实现为：

利用先验知识提取模型提取图像中各目标的位置信息，将各目标的位置信息还原成为一个和图像具有相同大小的重要度矩阵，该重要度矩阵为图像的先验知识。

具体的，先验知识提取模型的输出定义为和输入图像相关的一个向量，向量的数值指导了压缩框架的码率分配策略，其形式包括但不限于一个和输入图像有着同等宽和高的热度图。该先验知识提取模型可以采用基于卷积神经网络的YOLOV3检测框架。具体的，先训练了一个基于卷积神经网络的YOLOV3检测框架来获得图像中主要目标的定位，得到图像中主要目标的位置信息，然后将有限的位置信息还原成为一个和输入图像具有相同大小的重要性矩阵。后续还可以通过一个滤波器来对图像的边缘进行模糊处理，使得码率分配时图像的边缘更加平滑。

步骤S102：利用基础压缩模型对图像进行压缩，得到第一部分码流和残差数据。

其中，基础压缩模型是卷积神经网络经过深度学习训练得到的，基础压缩模型的训练使用均方误差作为优化目标。残差数据是原图像与基础压缩模型的输出图像之间的差值。通过基础压缩模型对原图像进行特征提取，通过多次下采样和卷积计算来对特征进行降维，得到第一部分码流。

具体的，基础压缩模型可以采用基于深度学习的自编码器，也可以采用一些基于变换的传统编码方法，在本实施例中也可以起到很好的效果。

步骤S103：对残差数据进行预处理，得到预处理后的残差数据。

本实施例中，预处理的方式可以是将残差数据归一化为(0，1)之间的小数，方便数据处理，因为将数据映射到0～1范围之内，可以使处理过程更加便捷、快速。

步骤S104：根据先验知识调整预处理后的残差数据，得到目标残差数据，并利用残差压缩模型对目标残差数据进行压缩，得到第二部分码流。

其中，残差压缩模型是卷积神经网络经过深度学习训练得到的，残差压缩模型的训练使用结构相似性作为优化目标。

具体的，残差压缩模型也可以采用基于深度学习的自编码器。本实施例中，基础压缩模型和残差压缩模型均可以采取卷积神经网络实现的端到端的自编码器模型，其中主要包含卷积层和GDN(Generalized Divisive Normalization，广义分离归一化)层来提取特征，上下采样层来修改图像尺寸。训练过程使用反向传播的方法进行更新参数，用一个白噪声去拟合量化时图像会出现的梯度缺失。基础压缩模型使用均方误差作为优化目标，残差压缩模型使用结构相似性作为优化目标。通过结合上述的两种优化目标，可以实现码率分配的效果。

步骤S105：对第一部分码流和第二部分码流分别解码再相加，得到输出图像。

其中，基础压缩模型的训练使用均方误差作为优化目标，残差压缩模型的训练使用结构相似性作为优化目标。

在实际应用中，本申请的融合不同视觉任务的图像处理方法可以应用于如图2所示的分层图像压缩框架中，该框架分为先验知识层、基础压缩层、残差压缩层三层。其中，基础压缩层包括编码器B、量化器和解码器B，残差压缩层包括编码器R、量化器和解码器R。编码器R结合先验知识对解码器B输入的残差数据进行压缩编码。

上述分层图像压缩框架的应用需要两个阶段：预训练与应用阶段。

在预训练阶段，对选定的数据集进行端到端的训练。对于先验知识层通过有监督学习训练网络对于目标位置信息的提取。基础压缩层和残差压缩层的自编码器使用无监督学习的方法进行训练：先学习基础压缩层的相关参数，然后固定基础压缩层的参数，训练残差压缩层的相关参数。

在应用阶段，同时将图像送到基础压缩层和先验知识层中，分别获得第一次极低码率下的简单压缩的效果和先验知识。然后结合第一次压缩后产生的残差数据和先验知识得到第二次待压缩的内容，并通过残差压缩层进行压缩。其中，解码器内部解码时对两次压缩的码流分别进行解码，在解码器内部将分别解码的结果相加得到最终的输出图像。

上述分层图像压缩框架的压缩性能在目标检测任务识别性能与主观质量两个方面与传统编码方法如JPEG2000、AVC/H.264等相比具有明显的优越性，在压缩的主观质量方面有着明显的提升。在目标检测任务方面，图像调整不同区域的码率分配，对检测任务相对敏感的区域分配了更多的码字，这样可以获得更高质量的压缩效果，实际效果，如图3中每张图的右上角方框区域为目标检测的重点区域，左下角方框区域为相对不重要的区域；如图4中每张图的右上角方框区域为目标检测的重点区域，右下角方框区域为相对不重要的区域，从图3和图4的效果上可以看到，本申请可以有效实现图像不同区域的码率分配效果。

相较于现有技术，本申请实施例提供的上述融合不同视觉任务的图像处理方法，根据待处理图像的视觉任务类型，提取出图像中针对视觉任务类型的先验知识；利用基础压缩模型对图像进行压缩，得到第一部分码流和残差数据；对残差数据进行预处理，得到预处理后的残差数据；根据先验知识调整预处理后的残差数据，得到目标残差数据，并利用残差压缩模型对目标残差数据进行压缩，得到第二部分码流；对第一部分码流和第二部分码流分别解码再相加，得到输出图像。本方案中，通过一个先验知识来修改图像残差的分布，来实现调整码率分配的目的，给视觉任务关注的区域提供更高质量的编码，最终使得压缩后的图像在不额外消耗码字的情况下，在视觉任务中获得了更高的准确率。

在上述的实施例中，提供了一种融合不同视觉任务的图像处理方法，与之相对应的，本申请还提供一种融合不同视觉任务的图像处理装置。请参考图5，其示出了本申请的一些实施方式所提供的一种融合不同视觉任务的图像处理装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图5所示，融合不同视觉任务的图像处理装置10可以包括：

先验知识模块101，用于根据待处理图像的视觉任务类型，提取出图像中针对视觉任务类型的先验知识，该先验知识用于表示图像不同区域在相应视觉任务中的重要度；

基础压缩模块102，用于利用基础压缩模型对图像进行压缩，得到第一部分码流和残差数据；

预处理模块103，用于对残差数据进行预处理，得到预处理后的残差数据；

残差压缩模块104，用于根据先验知识调整预处理后的残差数据，得到目标残差数据，并利用残差压缩模型对目标残差数据进行压缩，得到第二部分码流；

解压缩模块105，用于对第一部分码流和第二部分码流分别解码再相加，得到输出图像；

其中，基础压缩模型和残差压缩模型是卷积神经网络经过深度学习训练得到的，基础压缩模型的训练使用均方误差作为优化目标，残差压缩模型的训练使用结构相似性作为优化目标。

根据本申请的一些实施方式中，先验知识模块101，具体用于：

根据待处理图像的视觉任务类型，确定对应的先验知识提取模型；

利用先验知识提取模型提取出图像中针对视觉任务类型的先验知识；

其中，先验知识提取模型是卷积神经网络经过深度学习训练得到的。

根据本申请的一些实施方式中，视觉任务类型包括目标识别、目标检测和目标分类。

根据本申请的一些实施方式中，视觉任务类型为目标检测时，先验知识用于表示图像中不同目标在目标检测任务中的重要度；

先验知识模块101，具体用于：

根据本申请的一些实施方式中，先验知识提取模型采用基于卷积神经网络的YOLOV3检测框架。

根据本申请的一些实施方式中，基础压缩模型和残差压缩模型均采用基于深度学习的自编码器。

本申请实施例提供的融合不同视觉任务的图像处理装置10，与本申请前述实施例提供的融合不同视觉任务的图像处理方法出于相同的发明构思，具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的融合不同视觉任务的图像处理方法对应的电子设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述融合不同视觉任务的图像处理方法。

请参考图6，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图6所示，所述电子设备20包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的融合不同视觉任务的图像处理方法。

本申请实施例提供的电子设备与本申请实施例提供的融合不同视觉任务的图像处理方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的融合不同视觉任务的图像处理方法对应的计算机可读存储介质，请参考图7，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的融合不同视觉任务的图像处理方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的融合不同视觉任务的图像处理方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种融合不同视觉任务的图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括：

利用所述先验知识提取模型提取出所述图像中针对所述视觉任务类型的先验知识；

其中，所述先验知识提取模型是卷积神经网络经过深度学习训练得到的。

3.根据权利要求2所述的方法，其特征在于，所述视觉任务类型包括目标识别、目标检测和目标分类。

4.根据权利要求3所述的方法，其特征在于，所述视觉任务类型为目标检测时，所述先验知识用于表示图像中不同目标在目标检测任务中的重要度；

利用所述先验知识提取模型提取出所述图像中针对所述视觉任务类型的先验知识，包括：

利用所述先验知识提取模型提取所述图像中各目标的位置信息，将所述各目标的位置信息还原成为一个和所述图像具有相同大小的重要度矩阵，该重要度矩阵为所述图像的先验知识。

5.根据权利要求4所述的方法，其特征在于，所述先验知识提取模型采用基于卷积神经网络的YOLOV3检测框架。

6.根据权利要求1所述的方法，其特征在于，所述基础压缩模型和所述残差压缩模型均采用基于深度学习的自编码器。

7.一种融合不同视觉任务的图像处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述先验知识模块，具体用于：

9.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至6中任一项所述的方法。