CN115358954B

CN115358954B - 一种注意力引导的特征压缩方法

Info

Publication number: CN115358954B
Application number: CN202211293023.7A
Authority: CN
Inventors: 朱树元; 罗昕; 熊垒; 曾兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2022-12-23
Anticipated expiration: 2042-10-21
Also published as: CN115358954A

Abstract

本发明属于图像压缩和图像质量增强领域，具体提供一种注意力引导的特征压缩方法，用以有效提升特征压缩效率，在不同压缩率情况下均达到了较好的性能，在低压缩率下尤其突出。本发明在基于纹理协同的特征压缩方法的基础上，引入了自适应的频域注意力机制和通道注意力机制，通过高频注意力重建网络自适应选择参数来恢复图像的高频信息，实现了图像低频信息的保留和高频信息的恢复；通过通道注意力特征提取网络为重建图像的特征的不同通道赋予重要性，实现了后续视觉任务性能的进一步提升；最终达到了在不同量化因子，即不同压缩率下，良好、稳定的视觉任务性能。

Description

一种注意力引导的特征压缩方法

技术领域

本发明属于图像压缩和图像质量增强领域，具体提供一种注意力引导的特征压缩方法。

背景技术

受益于深度学习的高速发展，将其运用于图像分类、目标识别以及语义分割等视觉任务均取得了惊人的效果；但是在压缩、传输领域，由于编码端的变换、量化操作，图像会出现不同程度的失真，解码端的图像很难保证良好的视觉任务性能；对此，本发明的发明人在专利文献CN114245126A中公开了一种纹理协同的深度特征图压缩方法，通过直接压缩、传输原始图像的特征和低质量图像，在解码端再进行图像重建能一定程度上恢复图像的纹理信息。

然而，上述基于纹理协同的深度特征压缩方法仍然存在诸多不足；其一，该方法重点在于恢复图像的纹理信息（低频分量），但是在实际压缩过程中常常是高频分量被量化为0而难以恢复，并且，无论是分类还是语义分割任务，网络通常对图像的边缘信息（高频分量）比较敏感，尤其在压缩率较低、无法传输高质量特征时更为突出，如何在不同压缩率下达到稳定、良好的性能仍然是亟待解决的问题；其二，该方法将特征的每一个通道做相同处理，然而压缩后的特征用于视觉任务时，部分通道往往对视觉任务有更大的贡献；基于此，本发明在该方法的基础上进一步改进，提出一种注意力引导的特征压缩方法。

发明内容

本发明的目的在于提供一种注意力引导的特征压缩方法，通过引入自适应的频域注意力机制，实现了压缩率越低、图像的高频分量损失越多，则越注重于恢复图像的高频分量，同时通过引入通道注意力机制，为对视觉任务贡献更大的通道赋予更大的权重，最终保证了在不同压缩率情况下所提供的特征均能在视觉任务上达到较好的性能。

为实现上述目的，本发明采用的技术方案如下：

一种注意力引导的特征压缩方法，包括：编码与解码，具体步骤如下：

步骤1. 编码包括：特征编码与图像编码，具体为：

步骤1.1 对原始RGB图像进行特征编码；

采用ResNet50网络的前三层或VGG16网络的前五层作为中间层特征提取模块，对原始RGB图像进行特征提取得到深度特征；对提取得深度特征的每一个通道进行单独量化得到其对应的特征图，将量化后的特征图转换为YUV400格式，再采用HM对转换得YUV图像进行压缩，得到压缩特征并传输；

步骤1.2 对原始RGB图像进行图像编码；

对原始RGB图像进行4倍降采样得到低质量图像，并将低质量图像转换为YUV444格式，再采用HM对转换得YUV图像进行压缩，得到压缩图像并传输；

步骤2. 解码包括：解压缩、图像重建与视觉任务特征提取；具体为：

步骤2.1 对压缩特征与图像特征分别进行解压缩；

对压缩特征每个通道进行解压缩和反量化，得到解压缩后的特征图Comfeature_input；对压缩图像进行解压缩得到解压缩后的YUV图像，再将YUV图像转换为RGB图像，得到低质量图像LQ_input；

步骤2.2 基于高频注意力图像重建网络进行图像重建；

将特征图Comfeature_input与低质量图像LQ_input输入高频注意力图像重建网络，由高频注意力图像重建网络输出重建图像Rec_img；

步骤2.3 基于通道注意力特征提取网络进行视觉任务特征提取；

采用中间层特征提取模块对重建图像Rec_img进行特征提取得到浅层特征Rec_feature，将浅层特征Rec_feature输入通道注意力特征提取网络，由通道注意力特征提取网络输出视觉任务特征RA_feature，用于基于ResNet或VGG网络的视觉任务。

进一步的，高频注意力图像重建网络包括：残差特征提取模块、上采样模块与图像重建模块；其中，

残差特征提取模块由卷积层Conv1与16个残差单元（Res_block1~ Res_block16）连接构成，卷积层Conv1的输入为低质量图像LQ_input、输出为V1out；16个残差单元依次连接，第1个残差单元的输入为V1out，第16个残差单元的输出与V1out相加得到残差特征提取模块的输出Fout；

上采样模块由超分模块Up_block1与超分模块Up_block2连接构成，超分模块Up_block1的输入为Fout，超分模块Up_block1的输出与特征图Comfeature_input相加作为超分模块Up_block2的输入，超分模块Up_block2的输出作为上采样模块的输出Uout；

图像重建模块由卷积层Conv2与卷积层Conv3连接构成，卷积层Conv2的输入为Uout，卷积层Conv3的输出与低质量图像LQ_input相加得到重建图像Rec_img。

更进一步的，残差特征提取模块中，卷积层Conv1的结构为Conv 3×3×64，残差单元中卷积层的结构均为Conv 3×3×64；上采样模块中，超分模块的上采样方法采用PixelShuffer，超分模块中卷积层的结构均为Conv 3×3×256；图像重建模块中，卷积层Conv2的结构为Conv 3×3×64，卷积层Conv3的结构为Conv3×3×3；高频注意力图像重建网络中，所有卷积层的步长均为1、padding参数均为1、激活函数均为LeakyRelu函数。

更进一步的，高频注意力图像重建网络的训练过程为：设置损失函数与训练参数，采用Adam优化器对高频注意力图像重建网络进行训练；其中，

训练集为：将训练图像经过编码以及解压缩后的特征图和低质量图像作为输入图像，训练图像作为标签图像，构成训练集；

损失函数为：

其中，Loss _frequency表示图像高频信息的损失，Loss _pixel表示图像像素域的损失，α表示0到1之间的加权因子；qp表示HEVC的量化因子；I ₁表示高频注意力图像重建网络输出的重建图像，I ₀表示标签图像，(i, j)表示图像的像素坐标；D ₁表示高频注意力图像重建网络输出的重建图像的DCT变换结果，D ₀表示标签图像的DCT变换结果，(m, n)表示DCT变换结果像素坐标，M、N分别表示输入图像的宽、高。

进一步的，通道注意力特征提取网络由卷积层Conv4、卷积层Conv5、卷积层Conv6、卷积层Conv7与softmax函数连接构成；其中，卷积层Conv4、卷积层Conv5与卷积层Conv6的输入均为浅层特征Rec_feature，依次输出C1out、C2out与C3out，并对输出C1out进行尺度转换：由N×M×C转换为NM×C、对输出C2out进行尺度转换：由N×M×C转换为C×NM、对输出C3out进行尺度转换：由N×M×C转换为NM×C；C1out与C2out相乘后作为softmax函数的输入，softmax函数的输出与C3out相乘得到Sout，并对Sout进行尺度转换：由NM×C转换为N×M×C；Sout作为卷积层Conv7的输入，卷积层Conv7的输出与浅层特征Rec_feature相加得到视觉任务特征RA_feature；浅层特征Rec_feature的宽为M、高为N、通道数为2C。

更进一步的，通道注意力特征提取网络中，卷积层Conv4、卷积层Conv5与卷积层Conv6的结构均为：Conv 1×1×C，卷积层Conv7的结构为：Conv 1×1×2C，并且所有卷积层的步长为1、padding参数为0、激活函数为LeakyRelu函数。

更进一步的，通道注意力特征提取网络的训练过程为：设置损失函数与训练参数，采用Adam优化器对通道注意力特征提取网络进行训练；其中，

训练集为：将训练图像经过编码、解压缩及图像重建后得到重建训练图像，采用中间层特征提取模块对重建训练图像进行特征提取得到的浅层特征作为输入特征，采用特征提取模块对训练图像进行特征提取得到的浅层特征作为标签特征，构成训练集；

损失函数为：

其中，f ₁表示通道注意力特征提取网络的输出，f ₀表示标签特征，(i, j,c)表示特征的坐标，M、N与C分别表示输入特征的宽、高与通道数。

与现有技术相比，本发明的有益效果在于：

本发明提出了一种注意力引导的特征压缩方法，通过构建一个能够自适应引导高频信息恢复的图像重建网络，实现压缩后的低质量图像和特征图的融合，重建出的高质量图像不仅能保留原始图像的低频信息，还能根据不同的量化因子自适应的恢复大部分高频信息，使其在不同的量化因子下，特别是压缩率较低、量化因子较大时，仍能表现出较好的视觉任务性能；同时，通过构建通道注意力特征提取网络，为重建后图像的特征的每一个通道赋予不同的重要性，进一步提升了后续视觉任务的性能。综上所述，本发明在基于纹理协同的特征压缩方法的基础上，引入了自适应的频域注意力机制和通道注意力机制，通过高频注意力重建网络自适应选择参数来恢复图像的高频信息，实现了图像低频信息的保留和高频信息的恢复；通过通道注意力特征提取网络为重建图像的特征的不同通道赋予重要性，实现了后续视觉任务性能的进一步提升；最终达到了在不同量化因子，即不同压缩率下，良好、稳定的视觉任务性能。

附图说明

图1为本发明中注意力引导的特征压缩方法的流程示意图。

图2为本发明中高频注意力重建网络的结构示意图。

图3为本发明中通道注意力特征提取网络的结构示意图。

图4为本发明实施例与对比例在ImageNet 2012数据集下Compression Rate-Fidelity曲线对比图。

图5为本发明实施例与对比例在Pascal Voc 2007数据集下Compression Rate-Fidelity曲线对比图。

具体实施方式

为使本发明目的、技术方案与有益效果更加清楚明白，下面结合附图和实施例对本发明作进一步详细说明。

本实施例提供一种注意力引导的特征压缩方法，其流程如图1所示，包括：编码与解码，具体步骤如下：

步骤1. 编码包括：特征编码与图像编码，具体为：

步骤1.1 对原始RGB图像进行特征编码；

采用Pytorch预训练完成的ResNet50网络的前三层（Conv + BN + ReLU）或VGG16网络的前五层（Conv + ReLU + Conv + ReLU + Maxpool）作为中间层特征提取模块，对原始RGB图像进行特征提取得到深度特征；对提取得深度特征的每一个通道进行单独量化（0~255区间）得到其对应的特征图，将量化后的特征图转换为YUV400格式，再采用HM对转换得YUV图像进行压缩，得到压缩特征并传输；

步骤1.2 对原始RGB图像进行图像编码；

步骤2.1 对压缩特征与图像特征分别进行解压缩；

对压缩特征每个通道进行解压缩和反量化（0~1区间），得到解压缩后的特征图Comfeature_input；对压缩图像进行解压缩得到解压缩后的YUV图像，再将YUV图像转换为RGB图像，得到低质量图像LQ_input；

步骤2.2 基于高频注意力图像重建网络进行图像重建；

采用中间层特征提取模块（与步骤1.1中相同）对重建图像Rec_img进行特征提取得到浅层特征Rec_feature，将浅层特征Rec_feature输入通道注意力特征提取网络，由通道注意力特征提取网络输出视觉任务特征RA_feature，用于基于ResNet或VGG网络的视觉任务。

更为具体的讲：

所述高频注意力图像重建网络的结构如图2所示，其中，“Res_block”表示残差单元，由两层卷积层组成；“Up_block”表示超分模块，由一层卷积层和一个PixelShuffer组成；高频注意力图像重建网络有两个输入，分别为：低质量图像LQ_input与特征图Comfeature_input，网络的输出为重建得原始分辨率重建图像Rec_img；

高频注意力图像重建网络具体包括：残差特征提取模块、上采样模块与图像重建模块；

所述残差特征提取模块由卷积层Conv1与16个残差单元（Res_block1~ Res_block16）连接构成，卷积层Conv1的输入为低质量图像LQ_input、输出为V1out；16个残差单元依次连接，第1个残差单元的输入为V1out，第16个残差单元的输出与V1out相加得到残差特征提取模块的输出Fout；

所述上采样模块由超分模块Up_block1与超分模块Up_block2连接构成，超分模块Up_block1的输入为Fout，超分模块Up_block1的输出与特征图Comfeature_input相加作为超分模块Up_block2的输入，超分模块Up_block2的输出作为上采样模块的输出Uout；

所述图像重建模块由卷积层Conv2与卷积层Conv3连接构成，卷积层Conv2的输入为Uout，卷积层Conv3的输出与低质量图像LQ_input相加得到重建图像Rec_img；

进一步的，残差特征提取模块中，卷积层Conv1的结构为Conv 3×3×64，残差单元中卷积层的结构均为Conv 3×3×64；上采样模块中，超分模块的上采样方法采用PixelShuffer，超分模块中卷积层的结构均为Conv 3×3×256；图像重建模块中，卷积层Conv2的结构为Conv 3×3×64，卷积层Conv3的结构为Conv3×3×3；高频注意力图像重建网络中，所有卷积层的步长均为1、padding参数均为1、激活函数均为LeakyRelu函数；需要说明的是：“ConvA×A×B”表示卷积核大小为A×A、输出通道为B的卷积层。

所述高频注意力图像重建网络的训练过程为：设置损失函数与训练参数，采用Adam优化器对高频注意力图像重建网络进行训练；其中，

训练集为：随机抽取COCO2017测试集中RGB图像，并切分为M×N大小的子图像作为训练图像；将训练图像经过编码以及解压缩后的特征图和低质量图像作为输入图像，训练图像作为标签图像，构成训练集；本实施例中，M=N=384；

损失函数为：

其中，Loss _frequency表示图像高频信息的损失，Loss _pixel表示图像像素域的损失，α表示0到1之间的加权因子；qp表示HEVC的量化因子；I ₁表示高频注意力图像重建网络输出的重建图像，I ₀表示标签图像，(i, j)表示图像的像素坐标；D ₁表示高频注意力图像重建网络输出的重建图像的DCT变换结果，D ₀表示标签图像的DCT变换结果，(m, n)表示DCT变换结果像素坐标，M、N分别表示输入图像的宽、高；

训练参数为：学习率为2×10^-4、批尺寸为8，迭代次数为200000。

更为具体的讲：

所述通道注意力特征提取网络的结构如图3所示，通道注意力特征提取网络的输入为浅层特征Rec_feature，浅层特征Rec_feature的宽为M、高为N、通道数为2C，通道注意力特征提取网络的输出为注意力引导后的视觉任务特征RA_feature；具体由卷积层Conv4、卷积层Conv5、卷积层Conv6、卷积层Conv7与softmax函数连接构成；其中，卷积层Conv4、卷积层Conv5与卷积层Conv6的输入均为浅层特征Rec_feature，依次输出C1out、C2out与C3out，并对输出C1out进行尺度转换：由N×M×C转换为NM×C、对输出C2out进行尺度转换：由N×M×C转换为C×NM、对输出C3out进行尺度转换：由N×M×C转换为NM×C；C1out与C2out相乘后作为softmax函数的输入，softmax函数的输出（NM×NM）与C3out相乘得到Sout，并对Sout进行尺度转换：由NM×C转换为N×M×C；Sout作为卷积层Conv7的输入，卷积层Conv7的输出与浅层特征Rec_feature相加得到视觉任务特征RA_feature（N×M×2C）；

进一步的，通道注意力特征提取网络中，卷积层Conv4、卷积层Conv5与卷积层Conv6的结构均为：Conv 1×1×C，卷积层Conv7的结构为：Conv 1×1×2C，并且所有卷积层的步长为1、padding参数为0、激活函数为LeakyRelu函数。

所述通道注意力特征提取网络的训练过程为：设置损失函数与训练参数，采用Adam优化器对通道注意力特征提取网络进行训练；其中，

训练集为：随机抽取COCO2017测试集中高频注意力图像重建网络未使用过的RGB图像，并切分为M×N大小的子图像作为训练图像；将训练图像经过编码、解压缩及图像重建后得到重建训练图像，采用中间层特征提取模块（与步骤1.1中相同）对重建训练图像进行特征提取得到的浅层特征作为输入特征，采用特征提取模块对训练图像进行特征提取得到的浅层特征作为标签特征，构成训练集；本实施例中，M=N=384；

损失函数为：

其中，f ₁表示通道注意力特征提取网络的输出，f ₀表示标签特征，(i, j,c)表示特征的坐标，M、N与C分别表示输入特征的宽、高与通道数；

训练参数为：学习率为1×10^-4、批尺寸为1，迭代次数为10000。

基于上述技术方案，针对分类任务，本实施例在ImageNet 2012验证集的1000个类别中，每个类随机选取了一张图作为测试集进行测试；同时，采用默认的HEVC intra压缩方法作为对比例1，专利文献CN114245126A中纹理协同的深度特征图压缩方法作为对比例2；选择5个HEVC中的量化因子（35、37，39、41和43）对本发明与对比例1、对比例2进行对比，对应的测试结果如图4所示，其中，横轴为压缩率（Compression rate），表示未压缩之前的大小与压缩之后大小的比值；纵轴为保真度（Fidelity），表示视觉任务特征用于视觉任务的准确率，其保真度计算公式如下：

其中，

和

分别代表原始图像经过VGG16网络后得到的分类向量和视觉任务特征经过VGG16网络除前五层外后续其他模块得到的分类向量，

表示对应分类向量中最大值所在下标。

针对语义分割任务，本实施例在Pascal Voc 2007测试集里的210个语义分割类别中，每个类随机抽取了一张图作为测试集；选择5个HEVC中的量化因子（34、36，38、40和42）对本发明与对比例1进行比较，对应的测试结果如图5所示，其中，横轴为压缩率（Compression rate）；纵轴为保真度（Fidelity），与分类任务不同，分割任务侧重于像素级分类，其保真度计算公式如下：

其中，N和M为输入图像的高度和宽度，

和

分别代表原始RGB图像

经过ResNet50网络后在

处像素获得的语义分割的分类向量和视觉任务特征

经过ResNet50除前五层外后续其他模块在

处像素获得的语义分割的分类向量。

由图4可知，本实施例中注意力引导的特征压缩方法在分类任务中，不仅优于HEVC帧内压缩方法，在各个量化因子下也均优于纹理协同的特征压缩方法，且量化因子越大，提升越大；由图5可知，本实施例中注意力引导的特征压缩方法在语义分割任务中，也远远优于HEVC帧内压缩方法。测试结果证明了本发明方法的有效性及优越性。

综上所述，本发明所提出的注意力引导的特征压缩方法具有出色的表现，相较于HEVC intra和纹理协同的特征压缩方法，在同等压缩率下，均获得了更高的保真度，且压缩率越低，保真度提升越大。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征或步骤以外，均可以任何方式组合。

Claims

1.一种注意力引导的特征压缩方法，包括：编码与解码，其特征在于，包括以下步骤：

步骤1. 编码包括：特征编码与图像编码，具体为：

步骤1.1 对原始RGB图像进行特征编码；

步骤1.2 对原始RGB图像进行图像编码；

步骤2.1 对压缩特征与图像特征分别进行解压缩；

步骤2.2 基于高频注意力图像重建网络进行图像重建；

高频注意力图像重建网络包括：残差特征提取模块、上采样模块与图像重建模块；其中，

残差特征提取模块由卷积层Conv1与16个残差单元连接构成，卷积层Conv1的输入为低质量图像LQ_input、输出为V1out；16个残差单元依次连接，第1个残差单元的输入为V1out，第16个残差单元的输出与V1out相加得到残差特征提取模块的输出Fout；

图像重建模块由卷积层Conv2与卷积层Conv3连接构成，卷积层Conv2的输入为Uout，卷积层Conv3的输出与低质量图像LQ_input相加得到重建图像Rec_img；

采用中间层特征提取模块对重建图像Rec_img进行特征提取得到浅层特征Rec_feature，将浅层特征Rec_feature输入通道注意力特征提取网络，由通道注意力特征提取网络输出视觉任务特征RA_feature，用于基于ResNet或VGG网络的视觉任务；

通道注意力特征提取网络由卷积层Conv4、卷积层Conv5、卷积层Conv6、卷积层Conv7与softmax函数连接构成；其中，卷积层Conv4、卷积层Conv5与卷积层Conv6的输入均为浅层特征Rec_feature，依次输出C1out、C2out与C3out，并对输出C1out进行尺度转换：由N×M×C转换为NM×C、对输出C2out进行尺度转换：由N×M×C转换为C×NM、对输出C3out进行尺度转换：由N×M×C转换为NM×C；C1out与C2out相乘后作为softmax函数的输入，softmax函数的输出与C3out相乘得到Sout，并对Sout进行尺度转换：由NM×C转换为N×M×C；Sout作为卷积层Conv7的输入，卷积层Conv7的输出与浅层特征Rec_feature相加得到视觉任务特征RA_feature；浅层特征Rec_feature的宽为M、高为N、通道数为2C。

2.根据权利要求1所述注意力引导的特征压缩方法，其特征在于，残差特征提取模块中，卷积层Conv1的结构为Conv 3×3×64，残差单元中卷积层的结构均为Conv 3×3×64；上采样模块中，超分模块的上采样方法采用PixelShuffer，超分模块中卷积层的结构均为Conv 3×3×256；图像重建模块中，卷积层Conv2的结构为Conv 3×3×64，卷积层Conv3的结构为Conv3×3×3；高频注意力图像重建网络中，所有卷积层的步长均为1、padding参数均为1、激活函数均为LeakyRelu函数。

3.根据权利要求1所述注意力引导的特征压缩方法，其特征在于，高频注意力图像重建网络的训练过程为：设置损失函数与训练参数，采用Adam优化器对高频注意力图像重建网络进行训练；其中，

损失函数为：

4.根据权利要求1所述注意力引导的特征压缩方法，其特征在于，通道注意力特征提取网络中，卷积层Conv4、卷积层Conv5与卷积层Conv6的结构均为：Conv 1×1×C，卷积层Conv7的结构为：Conv 1×1×2C，并且所有卷积层的步长为1、padding参数为0、激活函数为LeakyRelu函数。

5.根据权利要求1所述注意力引导的特征压缩方法，其特征在于，通道注意力特征提取网络的训练过程为：设置损失函数与训练参数，采用Adam优化器对通道注意力特征提取网络进行训练；其中，

损失函数为：