CN113962882B

CN113962882B - 一种基于可控金字塔小波网络的jpeg图像压缩伪影消除方法

Info

Publication number: CN113962882B
Application number: CN202111155935.3A
Authority: CN
Inventors: 张译; 禹冬晔; 牟轩沁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-08-25
Anticipated expiration: 2041-09-29
Also published as: CN113962882A

Abstract

本发明公开了一种基于可控金字塔小波网络的JPEG图像压缩伪影消除方法，该方法首先提取与压缩等级相关的图像特征，其次使用该特征指导恢复Y通道图像，之后使用该特征和恢复的Y通道图像指导恢复CbCr通道图像，最后将图像变换至RGB空间得到最终的恢复结果。本发明提出的方法，不需要预知图像编码参数信息，能针对多个不同压缩等级的图像均具有较好的恢复效果，且每个恢复网络都只需训练单个网络模型，该模型一方面使用跳跃连接来避免训练过程中可能出现的梯度消失和梯度***问题，另一方面使用递归模块共享参数策略来降低模型复杂度，保证算法高效运行。因此，本发明提出的方法具有模型简洁、参数量少、应用范围广、恢复效果显著等优势。

Description

一种基于可控金字塔小波网络的JPEG图像压缩伪影消除方法

技术领域

本发明属于图像处理领域，具体涉及一种基于可控金字塔小波网络的JPEG图像压缩伪影消除方法。

背景技术

受传输带宽和存储容量的限制，摄影机拍摄的图像或视频在使用过程中需要进行压缩，目前以JPEG压缩为代表的有损压缩方法已广泛应用于图像处理的各个环节。由于在量化阶段会丢失图像的高频信息，经过压缩的图像会包含块效应、振铃和模糊等压缩伪影，这些压缩伪影不仅会导致图像感知质量的下降，而且会影响以压缩图像作为输入的各类计算机视觉算法的性能。因此，设计快速有效的JPEG压缩图像恢复算法，具有广阔的应用前景和实用价值。

目前，JPEG图像压缩伪影消除技术可以大致分为以下三种类型：

1)基于滤波的方法，即通过沿着空间或频率域的块边界执行滤波操作来消除压缩伪影。空间域滤波方法通常根据不同图像区域的特征，在块边界附近选择合适的滤波器进行滤波，即空间自适应滤波方法。之后，一些更复杂的滤波方法应运而生，包括图像块移位窗口滤波、非线性滤波、自适应非局部均值滤波、自适应双边滤波等。频域滤波方法主要通过调整离散余弦变换(DCT)系数来恢复图像细节信息。

2)基于逆问题优化的方法，即将图像去压缩伪影看作一个逆问题的优化和求解过程，利用图像的某些先验知识来求解原始图像。典型的图像先验包括低秩先验、量化约束先验、非局部相似性、稀疏表示先验等。部分方法使用多个先验知识来获得逆问题的最优解。基于先验知识的方法由于优化过程复杂，因此多数算法较为耗时。

3)基于机器学习的方法，即通过学习大量原始图像和压缩图像样本，获得某种图像映射/变换关系，将压缩图像映射/变换为原始图像。典型的机器学习方法是利用卷积神经网络(CNN)实现图像映射/变换，如ARCNN、TNRD、DnCNN、CAS-CNN、MemNet、S-Net、深度卷积稀疏编码(DCSC)网络、生成式对抗网络模型等。部分方法(如DMCNN、DDCN、MWCNN、DPW-SDNet等)使用CNN分别对图像的空间域和频率域进行恢复，以获得更好的图像恢复性能。

以上三类方法中，基于滤波的方法图像恢复性能较差，基于逆问题优化的方法计算复杂度较高，算法耗时。相比较而言，随着GPU并行计算技术的发展，基于机器学习的方法不仅能获得较好的图像恢复性能，且算法速度较快。然而，目前多数基于机器学习的方法需要预知压缩图像的编码信息，且仅针对部分压缩等级图像有效，从而限制了算法的应用范围。虽然DnCNN通过调整训练数据来克服以上局限，但其图像恢复性能一般，且只对灰度图像有效。此外，也有一些方法通过训练多个网络模型来实现多压缩等级图像恢复任务，然而多个网络模型意味着更多的存储空间被占用。因此，有必要提出一个统一的网络模型，该模型不需要预知压缩图像的编码信息，且能针对各种压缩等级的灰度和彩色图像有效，同时占用较少的存储空间，从而易于在小型设备上实现。

发明内容

本发明的目的在于克服上述不足，提供一种基于可控金字塔小波网络的JPEG图像压缩伪影消除方法，该算法首先提取与压缩等级(用质量因子QF表示)相关的图像特征，其次使用该特征指导恢复Y通道图像，之后使用该特征和恢复的Y通道图像指导恢复CbCr通道图像，最后将图像变换至RGB空间得到最终的恢复结果。本发明的Y通道图像恢复网络包含6个递归模块，以多尺度、多方向小波系数作为输入，来预测原始图像的小波系数。CbCr通道图像恢复网络包含6个递归U-Net结构，使用压缩图像的CbCr通道和恢复的Y通道作为输入，进而得到恢复后的CbCr通道图像。

为了达到上述目的，包括以下步骤：

步骤一，将输入的JPEG压缩图像转换为YCbCr颜色空间；

步骤二，将JPEG压缩图像的Y通道输入QF预测网络，利用级联卷积层提取非线性特征图，在输入恢复网络之前，将非线性特征图在第三维重新缩放；

步骤三，将JPEG压缩图像的Y通道经过可控金字塔小波变换，在三个尺度和八个方向上进行分解，从而产生一个高通子带、二十四个带通子带和一个低通子带，所有子带系数连同与QF预测网络的相关特征图，以及对应不同尺度的压缩图像，一起送入Y通道恢复网络中，Y通道恢复网络输出的子带系数经过逆小波变换至空间域，从而得到恢复的Y通道图像；

步骤四，将QF预测网络中的线性特征图、步骤三中恢复的Y通道图像，以及压缩图像的CbCr通道，一起输入到CbCr通道恢复网络中，从而得到恢复后的CbCr通道图像；

步骤五，将YCbCr通道图像转换到RGB颜色空间，得到恢复后的彩色图像。

QF预测网络的结构如下：

输入图像块的尺寸为128×128像素。

步骤二中，QF预测网络的第四、第六和第八层卷积层的输出在经过通道数调整缩放后，输入到Y通道和CbCr通道的恢复网络中。

步骤三中，Y通道恢复网络包括六个递归模块，递归模块包括并行的四路卷积神经网络，四路卷积神经网络分别对应不同尺度的图像输入，在经过特征图拼接和两层卷积层运算后，不同尺度的特征图经过上采样和下采样操作，在每一路神经网络实现特征融合，融合后特征图再通过两层卷积层和参数校正线性单元后，得到网络输出。

步骤三中，QF预测网络提取的非线性特征图包括四个尺度的特征图，四个尺度的特征图通过与小波系数特征图拼接的方式，分别接入对应的四路卷积神经网络中，而不同尺度的压缩图像，则分别与相应小波子带系数拼接，作为递归模块每一路神经网络的输入，由于小波变换系数为复数，因此分别提取系数的实部和虚部，将实部特征图和虚部特征图拼接后作为网络的输入。

Y通道恢复网络中递归模块输出的小波系数实部和虚部，与原始输入的小波系数实部和虚部逐元素求和，从而得到恢复的小波系数；该计算过程共重复六次，六个递归模块共享相同的网络参数。

步骤四中，CbCr通道恢复网络包括六个具有相同网络结构的递归模块，每个递归模块的输入包括压缩图像的CbCr通道、QF预测网络提取的非线性特征图以及步骤三中得到的恢复的Y通道图像，CbCr通道恢复网络利用恢复的Y通道图像和QF预测网络提取的相关特征，反复通过残差学习来预测CbCr通道图像。

CbCr通道恢复网络中递归模块的网络结构包括编码器端和解码器端，编码器端完成三次下采样，解码器端完成三次上采样；编码器端和解码器端相同尺度的特征图之间通过跳跃连接实现特征融合；

CbCr通道恢复网络的每个卷积层的输出均为64通道，并且在编码端，不同尺度的卷积层输出与QF预测网络提取的对应尺度大小的特征拼接组合；

递归模块输出与原压缩图像CbCr通道逐元素求和得到恢复的CbCr通道，该计算过程共重复六次，六个递归模块共享相同的网络参数。

与现有技术相比，本发明利用QF预测网络提取与压缩等级相关的图像特征，其次通过两个恢复网络分别恢复图像的Y通道和CbCr通道，最后将图像变换至RGB空间得到最终的恢复结果。发明提出用QF预测网络提取与压缩等级相关的图像特征，从而引导网络在不同压缩等级条件下自适应恢复图像，因此本发明方法不需要预知图像压缩编码信息，且能较好完成多个不同压缩等级图像的恢复任务；本发明提出的恢复网络只需训练单个网络模型，该模型一方面使用跳跃连接来避免训练过程中可能出现的梯度消失和梯度***问题，另一方面使用递归模块共享参数策略来降低模型复杂度，保证算法高效运行。本发明使用QF预测网络提取图像特征，可增加网络非线性能力，从而学习更复杂的图像映射/变换关系。本发明采用Y通道恢复网络使用可控金字塔小波变换分析图像多尺度、多方向的空间相关性，同时分析小波子带系数的幅度和相位信息，从而获得更好的图像恢复性能。本发明将已恢复的Y通道图像输入CbCr通道恢复网络，从而利用亮度图像的结构和纹理特征，辅助恢复图像的颜色分量。

进一步的，本发明的恢复网络使用递归模块共享模型参数策略，有助于降低模型复杂度，保证算法高效运行。

进一步的，本发明的恢复网络使用跳跃连接增加网络深度，避免训练过程中可能会出现的梯度消失和梯度***问题。

附图说明

图1为本发明的方法框架图；

图2为本发明中QF相关特征提取网络示意图；

图3为本发明中Y通道恢复网络中递归模块网络结构图；

图4为不同维度的小波特征图的拼接方法；

图5为CbCr通道恢复网络中递归模块网络结构图；

图6为本发明方法与其他方法对不同压缩等级图像的恢复性能比较示意图；其中，(a)为使用不同算法恢复图像时，PSNR指标增长情况；(b)为使用不同算法恢复图像时，SSIM指标增长情况。

具体实施方式

下面结合附图对本发明做进一步说明。

在本发明的描述中，需要理解的是，本发明所描述的实施方案是示例性的，实施方案描述中所出现的具体参数仅是为了便于描述本发明，而不能理解为对本发明的限制。

步骤一：将输入的JPEG压缩图像由RGB颜色空间转换至YCbCr颜色空间。

步骤二：将压缩图像的Y通道输入QF预测网络，利用级联卷积层提取非线性特征图，在输入恢复网络之前，非线性特征图在第三维(通道数)重新缩放。

输入图像块的尺寸为128×128，QF预测网络结构如表1所示。

表1QF预测网络结构模型

如图2所示，使用QF预测网络的第二、第四、第六和第八层卷积层提取QF相关特征。假设输入W×H图像块，则网络的第二、四、六、八层卷积层输出特征图的维度分别为：W×H×64、W/2×H/2×128、W/4×H/4×256、W/8×H/8×512。调整第四层、第六层和第八层卷积层的输出特征图通道数至64。具体来讲，对于W/2×H/2×128的特征图，每相邻2张特征图取均值；对于W/4×H/4×256的特征图，每相邻4张特征图取均值；对于W/8×H/8×512的特征图，每相邻8张特征图取均值。提取的QF相关特征分别用C1、f1、f2和f3表示，其维度分别为：W×H×64、W/2×H/2×64、W/4×H/4×64、W/8×H/8×64。

步骤三：压缩图像的Y通道经过可控金字塔小波变换，在3个尺度和8个方向上进行分解，从而产生1个高通子带、24个带通子带和1个低通子带。这些子带系数连同QF相关特征，以及不同尺度的原始压缩图像，一并输入到由6个递归模块组成的恢复网络中，网络输出的子带系数经过逆小波变换至空间域，从而得到恢复的Y通道图像。

如图1所示，首先使用可控金字塔小波变换(SPWT)在3个尺度和8个方向上对Y通道图像进行分解，得到1个高通子带(H0)，24个不同尺度、不同方向的带通子带(不同尺度的子带分别用B1、B2和B3表示)，以及1个低通子带(L0)。将H0、B1、Y通道图像拼接合并，作为递归模块的第一尺度输入；将B2与下采样的Y通道图像拼接合并，作为递归模块的第二尺度输入；将B3与两次下采样的Y通道图像拼接合并，作为递归模块的第三尺度输入；L0为递归模块的第四尺度输入。对于H0、B1、B2和B3，分别提取小波系数的实部和虚部，并将实部特征图和虚部特征图拼接合并。因此，递归模块四个尺度输入的通道数分别为18、17、17和1。

在递归模块中，首先对四个尺度的输入进行卷积和参数校正线性单元(PReLU)运算，得到四个尺度的64通道特征图。如图3所示，这些特征图与对应的QF特征(C1、f1、f2和f3)拼接合并，在经过两次卷积和PReLU运算后，对不同尺度的特征图在每一个尺度上进行特征图融合。如图4所示，不同尺度的特征图通过均值池化和反卷积的方式，实现维度一致。具体来说，通过1×1卷积核实现特征图长宽维度不变，通过比例因子为2的均值池化操作实现特征图长宽维度减半，通过比例因子为2的反卷积操作实现特征图长宽维度翻倍，通过多次均值池化/反卷积操作实现特征图长宽维度的多次减半/翻倍。最终，递归模块的输出为四个尺度的小波系数残差图，其通道数分别为17、16、16和1。

如图1所示，递归模块的输出与原小波子带系数逐像素相加，其结果被再次输入到递归模块中，其输出与原小波子带系数再次逐像素相加。该计算过程重复6次，6个递归模块共享相同的网络参数，从而降低模型复杂度。最后，这些恢复的小波子带系数经过逆小波变换(Inverse SPWT)至空间域，从而得到恢复的Y通道图像。在参数选择上，除第一层和最后一层卷积层的卷积核尺寸分别设置为7×7和5×5像素外，其他所有卷积核尺寸均为3×3像素。对第一层和最后一层卷积层分别采用镜像3像素和镜像2像素填充，对其余卷积层均采用1像素零填充，从而保证网络每一层输入和输出的维度一致。此外，除最后一层卷积层外，其他每个卷积层后都使用PReLU实现特征非线性。

步骤四：将步骤二中提取的QF相关特征，步骤三中恢复的Y通道图像、以及压缩图像的CbCr通道，一并输入包含6个递归模块的CbCr通道恢复网络，从而得到恢复的CbCr通道图像。

如图1所示，CbCr通道恢复网络采用与Y通道恢复网络相类似的结构，即利用恢复的Y通道图像和QF相关特征，反复通过残差学习来预测CbCr通道图像，且所有递归模块共享相同的网络参数，从而降低模型复杂度。如图5所示，递归模块采用与U-Net相类似的网络结构，不同之处在于，在编码器端，不同尺度的卷积层输出与对应尺度大小的QF相关特征拼接组合，从而使网络能自适应完成不同压缩等级图像的恢复任务。由于人眼对图像颜色失真不敏感，因此将所有层的输出设置为64通道，即使用轻量级网络对CbCr通道进行恢复。在参数选择上，与Y通道恢复网络类似，除第一层和最后一层卷积层的卷积核尺寸分别设置为7×7和5×5像素，反卷积层的卷积核尺寸设置为2×2像素外，其他所有卷积核尺寸均为3×3像素。对第一层和最后一层卷积层分别采用镜像3像素和镜像2像素填充，对其余卷积层均采用1像素零填充，从而保证网络每一层输入和输出的维度一致。此外，除最后一层卷积层外，其他每个卷积层后都使用PReLU实现特征非线性。

网络的训练方法可以总结为：

1)本发明主要包括三个网络：QF预测网络、Y通道恢复网络和CbCr通道恢复网络。由于各网络之间存在一定的变量依赖关系，因此，首先训练QF预测网络；之后使用参数固定的QF预测网络提取压缩图像块的QF相关特征，训练Y通道恢复网络；最后使用参数固定的QF预测网络和Y通道恢复网络，提取压缩图像块的QF相关特征并计算恢复的Y通道图像，训练CbCr通道恢复网络。

2)使用VOC2012数据库训练QF预测网络。具体方法为：对数据库中的每一幅RGB图像使用一个随机的QF值压缩，QF为整数且取值范围是[5，95]，共生成12700幅压缩图像；之后，将压缩图像转换至YCbCr空间，并从Y通道图像中提取105234个互不重叠的128×128像素图像块用于网络训练，训练过程使用L1损失函数。

3)使用伯克利分割数据库(Berkeley Segmentation Dataset,BSD)、DIV2K数据库、滑铁卢勘探数据库(Waterloo Exploration Dataset,WED)、以及Flickr2K数据库训练Y通道和CbCr通道恢复网络，其中BSD包含400幅图像(训练集和测试集各200幅)，DIV2K包含900幅图像，WED包含4744幅图像，Flickr2K包含2000幅图像。具体方法为：对每一幅参考图像使用一个随机的QF值压缩，QF为整数且取值范围是QF∈{10:20,22:2:30,35:5:60,70:10:90}，共生成8044幅压缩图像；随后，将参考图像和压缩图像转换至YCbCr空间，分别提取583625个互不重叠的128×128像素图像块用于网络训练。其中，训练Y通道恢复网络需要使用Y通道图像块作为训练数据，损失函数为像素均方误差损失(l_MSE)和结构相似性损失(l_SSIM)的线性组合，即L＝l_MSE+λ·l_SSIM(λ＝0.001)；训练CbCr通道恢复网络需要使用CbCr通道图像块作为训练数据，损失函数为像素均方误差损失。

4)像素均方误差损失(l_MSE)计算公式为：

其中,I(i,j)和I_R(i,j)分别表示参考图像I和恢复图像I_R中，空间位置为(i,j)的像素值；W和H分别表示图像的宽度和高度。结构相似性损失(l_SSIM)计算公式为：

其中，表示SSIM(I,I_R)的平均值，其计算公式为：

式中，和/>分别表示I(I_R)的局部平均值和局部标准差；C₁和C₂为常数，其取值与SSIM方法相同。

5)本发明使用PyTorch深度学习框架，在8核英特尔i9-9900K 3.60GHz CPU和NVIDIA GeForce RTX 2080SUPER GPU工作站上进行实验。网络初始化参数为正态分布N(1，0.02)的采样值；PReLU斜率的初始化参数为0.1；使用Adam算法进行优化；初始学习率为2×10^-4，并将第一/二阶矩指数衰减率分别设置为0.9和0.999。训练QF预测网络时，batchsize设定为64，每经过一个epoch，学习率下降至之前的0.8，共训练120个epoch。训练两个恢复网络时，batchsize设定为4，每经过20000次迭代学习率下降至之前的0.9，共训练4个epoch。

网络的测试方法可以总结为：

1)对已知QF值压缩图像的恢复

选取LIVE、CSIQ、BSD100(BSD验证集中的100幅图像)和Urban100数据库的参考图像进行算法性能测试。具体方法为：对每个数据库的每幅参考图像，分别使用八个不同压缩等级进行JPEG压缩，实验中QF取值为10、20、30、40、50、60、70和80；之后，使用不同的算法/网络模型对压缩图像进行恢复；最后，对恢复图像使用峰值信噪比(PSNR)和结构相似度(SSIM)两个指标进行算法性能测试。表2展示了本发明与其他方法对已知QF值的JPEG压缩图像的恢复性能比较。

表2本发明(SPW-Net)与其他方法在LIVE、BSD100、CSIQ、Urban100数据库上的测试性能比较

2)对未知QF值压缩图像的恢复

选取SDIVL数据库进行算法性能测试，测试内容包括两部分：(1)直接选取SDIVL数据库中QF∈[10,90]的JPEG压缩图像进行测试；(2)将SDIVL数据库的每一幅原始图像按QF从10到90(步长为1)依次进行JPEG压缩，对生成的1620幅压缩图像进行恢复。表3和图6分别展示了在以上两部分测试中不同方法的性能比较。实验结果表明，与其他方法相比，本发明提出的方法能针对各个不同压缩等级的图像均具有更好的恢复性能。

表3本发明(SPW-Net)与其他方法在SDIVL数据库上的测试性能比较

总之，本发明一种基于可控金字塔小波网络的JPEG图像压缩伪影消除方法，首先利用QF预测网络提取与压缩等级相关的图像特征，其次通过两个恢复网络分别恢复图像的Y通道和CbCr通道，最后将图像变换至RGB空间得到最终的恢复结果。本发明提出的方法，不需要预知图像编码参数信息，能针对不同压缩等级的灰度和彩色图像均具有较好的恢复效果，且每个恢复网络都只需训练单个网络模型，该模型一方面使用跳跃连接来避免训练过程中可能出现的梯度消失和梯度***问题，另一方面使用递归模块共享参数策略来降低模型复杂度，保证算法高效运行。因此，本发明提出的方法具有模型简洁、参数量少、应用范围广、恢复效果显著等优势。

尽管以上结合附图对本发明的具体实施方案进行了描述，但本发明并不仅局限于上述具体的实施方案。上述实施方案仅是指导性的、示意性的，而不是限制性的。本领域的技术人员在本说明书的启示下，在不脱离本发明的权利要求所保护的范围的情况下，还可以做出很多种JPEG图像压缩伪影消除方法，这些均属于本发明的保护之列。

Claims

1.一种基于可控金字塔小波网络的JPEG图像压缩伪影消除方法，其特征在于，包括以下步骤：

步骤一，将输入的JPEG压缩图像转换为YCbCr颜色空间；

Y通道恢复网络包括六个具有相同网络结构的递归模块，递归模块包括并行的四路卷积神经网络，四路卷积神经网络分别对应不同尺度的图像输入，在经过特征图拼接和两层卷积层运算后，不同尺度的特征图经过上采样和下采样操作，在每一路神经网络实现特征融合，融合后特征图再通过两层卷积层和参数校正线性单元后，得到网络输出；

CbCr通道恢复网络包括六个具有相同网络结构的递归模块，每个递归模块的输入包括压缩图像的CbCr通道、QF预测网络提取的非线性特征图以及步骤三中得到的恢复的Y通道图像，CbCr通道恢复网络利用恢复的Y通道图像和QF预测网络提取的相关特征，反复通过残差学习来预测CbCr通道图像；

递归模块输出与原压缩图像CbCr通道逐元素求和得到恢复的CbCr通道，该计算过程共重复六次，六个递归模块共享相同的网络参数；

2.根据权利要求1所述的一种基于可控金字塔小波网络的JPEG图像压缩伪影消除方法，其特征在于，QF预测网络的结构如下：

输入图像块的尺寸为128×128像素。

3.根据权利要求2所述的一种基于可控金字塔小波网络的JPEG图像压缩伪影消除方法，其特征在于，步骤二中，QF预测网络的第四、第六和第八层卷积层的输出在经过通道数调整缩放后，输入到Y通道和CbCr通道的恢复网络中。

4.根据权利要求1所述的一种基于可控金字塔小波网络的JPEG图像压缩伪影消除方法，其特征在于，步骤三中，QF预测网络提取的非线性特征图包括四个尺度的特征图，四个尺度的特征图通过与小波系数特征图拼接的方式，分别接入对应的四路卷积神经网络中，而不同尺度的压缩图像，则分别与相应小波子带系数拼接，作为递归模块每一路神经网络的输入，由于小波变换系数为复数，因此分别提取系数的实部和虚部，将实部特征图和虚部特征图拼接后作为网络的输入。

5.根据权利要求3所述的一种基于可控金字塔小波网络的JPEG图像压缩伪影消除方法，其特征在于，Y通道恢复网络中递归模块输出的小波系数实部和虚部，与原始输入的小波系数实部和虚部逐元素求和，从而得到恢复的小波系数；该计算过程共重复六次，六个递归模块共享相同的网络参数。