CN115861343B

CN115861343B - 基于动态隐式图像函数的任意尺度图像表示方法及***

Info

Publication number: CN115861343B
Application number: CN202211590183.8A
Authority: CN
Inventors: 金枝; 何宗耀
Original assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Current assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2024-06-04
Anticipated expiration: 2042-12-12
Also published as: CN115861343A

Abstract

本发明公开了基于动态隐式图像函数的任意尺度图像表示方法及***，其中，方法包括获取待处理图像；通过预先训练的编码器对所述待处理图像进行隐式编码处理，得到二维特征图；将所述二维特征图输入动态隐式图像网络，对所述二维特征图进行动态坐标切片处理，并通过双阶段多层感知器进行像素值预测处理，得到图像像素值。本发明实施例能够减少图像连续表示的计算成本，提高了处理性能，可广泛应用于人工智能技术领域。

Description

基于动态隐式图像函数的任意尺度图像表示方法及***

技术领域

本发明涉及人工智能技术领域，尤其是基于动态隐式图像函数的任意尺度图像表示方法及***。

背景技术

数字图像是真实世界在数字世界中的二维表示，但连续的物理世界却在常常在传感器中被量化同时在计算机中被存储为了离散的像素矩阵形式。如果图像可以表达为连续的形式，就可以在连续空间获取任意分辨率的图像，从而保证图像的所描述场景的精度。相关技术中对于图像的连续表示方法虽然在连续图像表示方面具有优异的性能，但是计算成本会随着图像放大倍数的增加而呈平方阶增加，使得任意尺度的超分辨率重建耗时巨大。综合上述，相关技术中存在的技术问题亟需得到解决。

发明内容

有鉴于此，本发明实施例提供基于动态隐式图像函数的任意尺度图像表示方法及***，以实现减少计算成本，提高处理性能。

一方面，本发明提供了一种基于动态隐式图像函数的任意尺度图像表示方法，包括：

获取待处理图像；

通过预先训练的编码器对所述待处理图像进行隐式编码处理，得到二维特征图；

将所述二维特征图输入动态隐式图像网络，对所述二维特征图进行动态坐标切片处理，并通过双阶段多层感知器进行像素值预测处理，得到图像像素值。

可选地，所述对所述二维特征图进行动态坐标切片处理，包括：

输入图像放大倍数；

从所述二维特征图中获取特征向量确定为隐码，根据所述隐码对所述二维特征图中的坐标进行分组处理，得到特征坐标组；

根据所述图像放大倍数对所述特征坐标组进行切片处理，得到坐标切片。

可选地，所述根据所述图像放大倍数对所述特征坐标组进行切片处理，得到坐标切片，包括：

根据所述图像放大倍数确定切片间隔；

根据所述切片间隔对所述特征坐标组进行划分，得到坐标切片，所述坐标切片用于对切片内的所有坐标共享同一隐码。

可选地，所述通过双阶段多层感知器进行像素值预测处理，包括：

输入坐标切片和切片隐码；

对所述坐标切片和切片隐码进行第一阶段处理，得到切片隐向量；

获取待预测坐标，所述待预测坐标为所述坐标切片中的任意坐标；

根据所述待预测坐标对所述切片隐向量进行第二阶段处理，得到所述待预测坐标的像素值。

可选地，所述双阶段多层感知器包括隐藏层，所述隐藏层由线性层和激活函数组成。

可选地，在所述通过预先训练的编码器对所述待处理图像进行隐式编码处理，得到二维特征图之前，所述方法还包括预先训练所述编码器和动态隐式图像网络，具体包括：

获取训练图像；

通过所述编码器和所述动态隐式图像网络对所述训练图像进行像素预测处理，得到预测像素值；

根据所述训练图像的像素值和所述预测像素值确定像素损失值；

根据所述像素损失值对所述编码器和所述动态隐式图像网络的权重参数进行更新，得到训练好的编码器和动态隐式图像网络。

另一方面，本发明实施例还提供了一种***，包括：

第一模块，用于获取待处理图像；

第二模块，用于通过预先训练的编码器对所述待处理图像进行隐式编码处理，得到二维特征图；

第三模块，用于将所述二维特征图输入动态隐式图像网络，对所述二维特征图进行动态坐标切片处理，并通过双阶段多层感知器进行像素值预测处理，得到图像像素值。

可选地，所述第三模块包括：

第一子模块，用于对所述二维特征图进行动态坐标切片处理；

第二子模块，用于通过双阶段多层感知器进行像素值预测处理。

可选地，所述第一子模块包括：

第一单元，用于输入图像放大倍数；

第二单元，用于从所述二维特征图中获取特征向量确定为隐码，根据所述隐码对所述二维特征图中的坐标进行分组处理，得到特征坐标组；

第三单元，用于根据所述图像放大倍数对所述特征坐标组进行切片处理，得到坐标切片。

可选地，所述第二子模块包括：

第四单元，用于输入坐标切片和切片隐码；

第五单元，用于对所述坐标切片和切片隐码进行第一阶段处理，得到切片隐向量；

第六单元，用于获取待预测坐标，所述待预测坐标为所述坐标切片中的任意坐标；

第七单元，用于根据所述待预测坐标对所述切片隐向量进行第二阶段处理，得到所述待预测坐标的像素值。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明实施例将所述二维特征图输入动态隐式图像网络，对所述二维特征图进行动态坐标切片处理，能够使神经网络执行从坐标切片到像素值切片的多对多映射，以便解码器可以仅使用一次隐码来预测坐标切片对应的所有像素值，减少了计算成本；并通过双阶段多层感知器进行像素值预测处理，得到图像像素值，能够令解码器使用非固定数量的坐标作为输入从而减少隐藏层数量，提高了处理性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于动态隐式图像函数的任意尺度图像表示方法的流程图；

图2是本申请实施例提供的一种动态隐式图像函数的整体框架图；

图3是本申请实施例提供的一种坐标切片示例图；

图4是本申请实施例提供的一种双阶段多层感知器的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例中提供的基于动态隐式图像函数的任意尺度图像表示方法及***主要涉及人工智能技术。人工智能(Artificial Intelligence，AI)技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术；人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

具体地，本申请实施例中提供的基于动态隐式图像函数的任意尺度图像表示方法及***可以采用人工智能领域内的计算机视觉技术以及机器学习/深度学习技术对图像进行分析处理，以得到图像的连续图像表示。可以理解的是，针对不同的任务，本申请实施例中提供的方法均可以在对应的人工智能***的应用场景中被执行；并且，这些方法执行的具体时机可以处于人工智能***运行流程中的任意环节。

隐式神经表示技术:与显式表示相比，隐式神经表示能够用少量参数捕捉物体的细节，并且其可微分特性允许通过神经渲染模型进行反向传播。然而，隐式神经表示在二维视觉任务上应用时通常需要独立预测每一个像素点，需要耗费大量计算成本和漫长的运行时间。

局部隐式图像函数(Local Implicit Image Function,LIIF)，为一种一种新颖的图像隐式表示方法，其使用多层感知器推断每个坐标上的像素值。

在相关技术中，尽管LIIF可以在最大为30倍的任意尺度超分辨率任务中提供稳定的表现，但其计算成本随着放大倍数的增加而迅速增加。

有鉴于此，参照图1，本发明实施例提供一种基于动态隐式图像函数的任意尺度图像表示方法，包括：

S101、获取待处理图像；

S102、通过预先训练的编码器对所述待处理图像进行隐式编码处理，得到二维特征图；

S103、将所述二维特征图输入动态隐式图像网络，对所述二维特征图进行动态坐标切片处理，并通过双阶段多层感知器进行像素值预测处理，得到图像像素值。

在本发明实施例中，提出了动态隐式图像函数(Dynamic Implicit ImageFunction,DIIF)，这是一种快速有效的任意尺度图像表示方法。参照图2，I_in表示输入图像，编码器将输入图像映射到二维特征图作为其DIIF表示。给定真实图像的分辨率，可以从二维特征图中获取隐码z^*，以及隐码周围的坐标切片其中，X_1st表示坐标切片的首坐标，X_last表示坐标切片的尾坐标。然后解码函数使用上述的信息来预测该坐标切片的所有像素值，即通过双阶段多层感知器(或称为粗到细的多层感知器)进行坐标的像素值预测，通过第一阶段(粗略阶段)预测切片隐向量H^*，并和待预测坐标X_i一起作为第二阶段(精细阶段)的输入，输出得到待预测坐标的像素值I_out-i。本发明实施例在训练阶段，使用预测得到的像素值I_out-i和真实图像的像素值I_gt-i计算损失函数，编码器和解码函数在自监督超分辨率任务中联合训练，而学习到的网络参数由所有图像共享。本发明实施例通过使用图像坐标分组和切片策略，使神经网络能够执行从坐标切片到像素值切片的多对多映射，而不是每次单独预测给定坐标的像素值。本发明实施例进一步提出了双阶段多层感知器(Coarse-to-FineMultilayer Perceptron,C2F-MLP)，用于执行基于动态坐标切片策略的图像解码，使得每个切片中的坐标数量能随着放大倍数的变化而变化，使用动态坐标切片策略的DIIF可以显著降低大尺度超分辨率需要的计算成本。实验结果表明，与现有的任意尺度超分辨率方法相比，DIIF实现了最佳的计算效率和超分辨率性能。

进一步作为优选的实施方式，所述对所述二维特征图进行动态坐标切片处理，包括：

输入图像放大倍数；

在本发明实施例中，从二维特征图中选取一个向量作为隐码，根据隐码对二维特征图中距离该隐码比距离其他隐码更近的坐标进行分组处理，得到特征坐标组。通过特征坐标组能够在一个坐标组内共享隐码，以便解码器可以仅使用一次隐码来预测坐标组对应的所有像素值。一个坐标组中的坐标数量与放大倍数成正比，因此放大倍数越大，可以节省的计算成本也更多。坐标分组要求解码器同时预测坐标组的所有像素值，这在进行大尺度的超分辨率时会给解码器带来了沉重的负担。本发明实施例提供了一个合理的解决方案是根据图像放大倍数对特征坐标组进行切片处理，得到坐标切片，通过将一个坐标组划分为多个坐标片，并且只在坐标切片内而不是整个坐标组内共享隐码输入。

进一步作为优选的实施方式，所述根据所述图像放大倍数对所述特征坐标组进行切片处理，得到坐标切片，包括：

根据所述图像放大倍数确定切片间隔；

其中，设置合适的切片间隔以达到最好的性能和效率平衡，最简单的方法是固定坐标切片，它在任何情况下都使用固定的切片间隔。然而，随着放大倍数的增加，这种策略保留了计算成本的平方阶增加特性。此外，坐标切片内部会存在空间不连续性和冗余坐标两大问题。为了解决这些问题，本发明实施例提出了动态坐标切片，以在放大倍数变化时调整切片间隔。本发明实施例可采用第一种策略为线性阶坐标切片，它将切片间隔设置为放大倍数。使用线性阶坐标切片时，DIIF的计算成本随放大倍数的增加而线性增加。另一种策略是将切片间隔设置为放大倍数的平方，称之为常数阶坐标切片。使用常数阶坐标切片时，DIIF的计算成本仅由输入图像的分辨率决定，其随着放大倍数的增加会保持不变。在本发明实施例中，根据切片间隔对特征坐标组进行划分，得到坐标切片，坐标切片用于对切片内的所有坐标共享同一隐码。参照图3，图3为放大倍数为4坐标分组和采用切片间隔为4的坐标切片，Z^*表示隐码，X_1st表示坐标切片的首坐标，X_last表示坐标切片的尾坐标。

进一步作为优选的实施方式，所述通过双阶段多层感知器进行像素值预测处理，包括：

输入坐标切片和切片隐码；

其中，为了执行动态坐标切片策略，解码器需要具有使用非固定数量的坐标作为输入并输出相应像素值的可伸缩性。然而，普通MLP只允许使用固定长度的向量作为输入。为了解决这个问题，本发明实施例提出了一种双阶段多层感知器(C2F-MLP)作为解码器，分为用于预测切片隐向量的第一阶段(粗略阶段)和用于预测像素值的第二阶段(精细阶段)。在本发明实施例中，粗略阶段的隐藏层将坐标切片的边界坐标及其对应隐码作为输入，生成切片隐向量。切片隐向量包含切片中所有像素值的信息，并被用作精细阶段的输入。粗略阶段的计算成本由坐标切片的数量决定，由于使用了动态坐标切片策略，该数量远小于输出坐标的数量。粗略阶段还允许解码函数利用切片内的空间关系，这使得其对像素值的预测更加准确。精细阶段的隐藏层将粗略阶段输出的切片隐向量和给定坐标切片中的任何坐标作为输入，以预测该坐标上的像素值。精细阶段被设计为独立预测待预测坐标上的像素值。精细阶段采用的解码函数可表示为：

I(X^*)＝f_θ(z^*,[x_tl-v^*,…,x_rb-v^*])；

式中，I是像素值，X^*＝[x_tl,…,x_rb]是给定的坐标切片，f_θ是解码器，z^*是坐标切片对应的隐码，v^*是隐码的坐标，x_tl和x_rb分别是该坐标切片的首坐标和尾坐标。

由于切片隐向量的长度比隐码的长度更短，且精细阶段的隐藏层数更少，因此与LIIF的解码器相比，DIIF的精细阶段所需要的计算成本显著更低。

进一步作为优选的实施方式，所述双阶段多层感知器包括隐藏层，所述隐藏层由线性层和激活函数组成。

参照图4，C2F-MLP将解码器分为用于预测切片隐向量的粗略阶段和用于预测像素值的精细阶段。C2F-MLP的隐藏层由维度为256的线性层组成，随后是ReLU激活函数。在粗略阶段，将隐码z^*，坐标切片的首坐标X_1st，坐标切片的尾坐标X_last，当前放大倍数下的像素点面积a作为输入，输出得到坐标隐向量H_lt～rb。在精细阶段，输入坐标隐向量以及待预测坐标X_I,输出得到I_i。为了预测RGB值，精细阶段最后使用一个维度为3的输出线性层。

进一步作为优选的实施方式，在所述通过预先训练的编码器对所述待处理图像进行隐式编码处理，得到二维特征图之前，所述方法还包括预先训练所述编码器和动态隐式图像网络，具体包括：

获取训练图像；

在本发明实施例中，训练阶段使用预测得到的像素值和真实图像的像素值计算像素级损失。编码器和解码函数在自监督超分辨率任务中联合训练，而学习到的网络参数由所有图像共享。

另一方面，本发明实施例还提供了一种***，包括：

第一模块，用于获取待处理图像；

可选地，所述第三模块包括：

可选地，所述第一子模块包括：

第一单元，用于输入图像放大倍数；

可选地，所述第二子模块包括：

第四单元，用于输入坐标切片和切片隐码；

本发明提出了基于动态隐式图像函数的任意尺度图像表示方法及***，用于快速有效的任意尺度图像表示。在DIIF中，基于像素的图像被表示为二维特征图，而解码函数采用坐标切片和局部特征向量作为输入，预测对应的像素值组。通过在坐标切片内部共享局部特征向量，DIIF可以在极低的计算成本下进行大尺度超分辨率重建。实验结果表明，在所有的缩放倍数上，DIIF的超分辨率性能和计算效率都优于已有的任意尺度超分辨率方法。与LIIF相比，DIIF可以节省高达87％的计算成本,并始终具有更好的PSNR表现。DIIF可以高效地应用于需要以任意分辨率实时展示图像的场景。通过应用本发明实施例，能够实现图像查看/编辑软件中的任意缩放功能，对低分辨率图像的放大与修复以及对高分辨率图像的压缩与存储。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于动态隐式图像函数的任意尺度图像表示方法，其特征在于，所述方法包括：

获取待处理图像；

将所述二维特征图输入动态隐式图像网络，对所述二维特征图进行动态坐标切片处理，并通过双阶段多层感知器进行像素值预测处理，得到图像像素值；

所述对所述二维特征图进行动态坐标切片处理，包括：

输入图像放大倍数；

根据所述图像放大倍数对所述特征坐标组进行切片处理，得到坐标切片；

所述根据所述图像放大倍数对所述特征坐标组进行切片处理，得到坐标切片，包括：

根据所述图像放大倍数确定切片间隔；

根据所述切片间隔对所述特征坐标组进行划分，得到坐标切片，所述坐标切片用于对切片内的所有坐标共享同一隐码；

所述通过双阶段多层感知器进行像素值预测处理，包括：

输入坐标切片和切片隐码；

2.根据权利要求1所述的方法，其特征在于，所述双阶段多层感知器包括隐藏层，所述隐藏层由线性层和激活函数组成。

3.根据权利要求1至2任一项所述的方法，其特征在于，在所述通过预先训练的编码器对所述待处理图像进行隐式编码处理，得到二维特征图之前，所述方法还包括预先训练所述编码器和动态隐式图像网络，具体包括：

获取训练图像；

4.一种基于动态隐式图像函数的任意尺度图像表示***，其特征在于，所述***包括：

第一模块，用于获取待处理图像；

第三模块，用于将所述二维特征图输入动态隐式图像网络，对所述二维特征图进行动态坐标切片处理，并通过双阶段多层感知器进行像素值预测处理，得到图像像素值；

所述第三模块包括：

第二子模块，用于通过双阶段多层感知器进行像素值预测处理；

所述第一子模块包括：

第一单元，用于输入图像放大倍数；

第三单元，用于根据所述图像放大倍数对所述特征坐标组进行切片处理，得到坐标切片；

所述第三单元，用于根据所述图像放大倍数对所述特征坐标组进行切片处理，得到坐标切片，包括：

根据所述图像放大倍数确定切片间隔；

所述第二子模块包括：

第四单元，用于输入坐标切片和切片隐码；