CN115358954B - 一种注意力引导的特征压缩方法 - Google Patents

一种注意力引导的特征压缩方法 Download PDF

Info

Publication number
CN115358954B
CN115358954B CN202211293023.7A CN202211293023A CN115358954B CN 115358954 B CN115358954 B CN 115358954B CN 202211293023 A CN202211293023 A CN 202211293023A CN 115358954 B CN115358954 B CN 115358954B
Authority
CN
China
Prior art keywords
image
feature
attention
input
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211293023.7A
Other languages
English (en)
Other versions
CN115358954A (zh
Inventor
朱树元
罗昕
熊垒
曾兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211293023.7A priority Critical patent/CN115358954B/zh
Publication of CN115358954A publication Critical patent/CN115358954A/zh
Application granted granted Critical
Publication of CN115358954B publication Critical patent/CN115358954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明属于图像压缩和图像质量增强领域,具体提供一种注意力引导的特征压缩方法,用以有效提升特征压缩效率,在不同压缩率情况下均达到了较好的性能,在低压缩率下尤其突出。本发明在基于纹理协同的特征压缩方法的基础上,引入了自适应的频域注意力机制和通道注意力机制,通过高频注意力重建网络自适应选择参数来恢复图像的高频信息,实现了图像低频信息的保留和高频信息的恢复;通过通道注意力特征提取网络为重建图像的特征的不同通道赋予重要性,实现了后续视觉任务性能的进一步提升;最终达到了在不同量化因子,即不同压缩率下,良好、稳定的视觉任务性能。

Description

一种注意力引导的特征压缩方法
技术领域
本发明属于图像压缩和图像质量增强领域,具体提供一种注意力引导的特征压缩方法。
背景技术
受益于深度学习的高速发展,将其运用于图像分类、目标识别以及语义分割等视觉任务均取得了惊人的效果;但是在压缩、传输领域,由于编码端的变换、量化操作,图像会出现不同程度的失真,解码端的图像很难保证良好的视觉任务性能;对此,本发明的发明人在专利文献CN114245126A中公开了一种纹理协同的深度特征图压缩方法,通过直接压缩、传输原始图像的特征和低质量图像,在解码端再进行图像重建能一定程度上恢复图像的纹理信息。
然而,上述基于纹理协同的深度特征压缩方法仍然存在诸多不足;其一,该方法重点在于恢复图像的纹理信息(低频分量),但是在实际压缩过程中常常是高频分量被量化为0而难以恢复,并且,无论是分类还是语义分割任务,网络通常对图像的边缘信息(高频分量)比较敏感,尤其在压缩率较低、无法传输高质量特征时更为突出,如何在不同压缩率下达到稳定、良好的性能仍然是亟待解决的问题;其二,该方法将特征的每一个通道做相同处理,然而压缩后的特征用于视觉任务时,部分通道往往对视觉任务有更大的贡献;基于此,本发明在该方法的基础上进一步改进,提出一种注意力引导的特征压缩方法。
发明内容
本发明的目的在于提供一种注意力引导的特征压缩方法,通过引入自适应的频域注意力机制,实现了压缩率越低、图像的高频分量损失越多,则越注重于恢复图像的高频分量,同时通过引入通道注意力机制,为对视觉任务贡献更大的通道赋予更大的权重,最终保证了在不同压缩率情况下所提供的特征均能在视觉任务上达到较好的性能。
为实现上述目的,本发明采用的技术方案如下:
一种注意力引导的特征压缩方法,包括:编码与解码,具体步骤如下:
步骤1. 编码包括:特征编码与图像编码,具体为:
步骤1.1 对原始RGB图像进行特征编码;
采用ResNet50网络的前三层或VGG16网络的前五层作为中间层特征提取模块,对原始RGB图像进行特征提取得到深度特征;对提取得深度特征的每一个通道进行单独量化得到其对应的特征图,将量化后的特征图转换为YUV400格式,再采用HM对转换得YUV图像进行压缩,得到压缩特征并传输;
步骤1.2 对原始RGB图像进行图像编码;
对原始RGB图像进行4倍降采样得到低质量图像,并将低质量图像转换为YUV444格式,再采用HM对转换得YUV图像进行压缩,得到压缩图像并传输;
步骤2. 解码包括:解压缩、图像重建与视觉任务特征提取;具体为:
步骤2.1 对压缩特征与图像特征分别进行解压缩;
对压缩特征每个通道进行解压缩和反量化,得到解压缩后的特征图Comfeature_input;对压缩图像进行解压缩得到解压缩后的YUV图像,再将YUV图像转换为RGB图像,得到低质量图像LQ_input;
步骤2.2 基于高频注意力图像重建网络进行图像重建;
将特征图Comfeature_input与低质量图像LQ_input输入高频注意力图像重建网络,由高频注意力图像重建网络输出重建图像Rec_img;
步骤2.3 基于通道注意力特征提取网络进行视觉任务特征提取;
采用中间层特征提取模块对重建图像Rec_img进行特征提取得到浅层特征Rec_feature,将浅层特征Rec_feature输入通道注意力特征提取网络,由通道注意力特征提取网络输出视觉任务特征RA_feature,用于基于ResNet或VGG网络的视觉任务。
进一步的,高频注意力图像重建网络包括:残差特征提取模块、上采样模块与图像重建模块;其中,
残差特征提取模块由卷积层Conv1与16个残差单元(Res_block1~ Res_block16)连接构成,卷积层Conv1的输入为低质量图像LQ_input、输出为V1out;16个残差单元依次连接,第1个残差单元的输入为V1out,第16个残差单元的输出与V1out相加得到残差特征提取模块的输出Fout;
上采样模块由超分模块Up_block1与超分模块Up_block2连接构成,超分模块Up_block1的输入为Fout,超分模块Up_block1的输出与特征图Comfeature_input相加作为超分模块Up_block2的输入,超分模块Up_block2的输出作为上采样模块的输出Uout;
图像重建模块由卷积层Conv2与卷积层Conv3连接构成,卷积层Conv2的输入为Uout,卷积层Conv3的输出与低质量图像LQ_input相加得到重建图像Rec_img。
更进一步的,残差特征提取模块中,卷积层Conv1的结构为Conv 3×3×64,残差单元中卷积层的结构均为Conv 3×3×64;上采样模块中,超分模块的上采样方法采用PixelShuffer,超分模块中卷积层的结构均为Conv 3×3×256;图像重建模块中,卷积层Conv2的结构为Conv 3×3×64,卷积层Conv3的结构为Conv3×3×3;高频注意力图像重建网络中,所有卷积层的步长均为1、padding参数均为1、激活函数均为LeakyRelu函数。
更进一步的,高频注意力图像重建网络的训练过程为:设置损失函数与训练参数,采用Adam优化器对高频注意力图像重建网络进行训练;其中,
训练集为:将训练图像经过编码以及解压缩后的特征图和低质量图像作为输入图像,训练图像作为标签图像,构成训练集;
损失函数为:
Figure 750756DEST_PATH_IMAGE001
其中,Loss frequency 表示图像高频信息的损失,Loss pixel 表示图像像素域的损失,α表示0到1之间的加权因子;qp表示HEVC的量化因子;I 1表示高频注意力图像重建网络输出的重建图像,I 0表示标签图像,(i, j)表示图像的像素坐标;D 1表示高频注意力图像重建网络输出的重建图像的DCT变换结果,D 0表示标签图像的DCT变换结果,(m, n)表示DCT变换结果像素坐标,MN分别表示输入图像的宽、高。
进一步的,通道注意力特征提取网络由卷积层Conv4、卷积层Conv5、卷积层Conv6、卷积层Conv7与softmax函数连接构成;其中,卷积层Conv4、卷积层Conv5与卷积层Conv6的输入均为浅层特征Rec_feature,依次输出C1out、C2out与C3out,并对输出C1out进行尺度转换:由N×M×C转换为NM×C、对输出C2out进行尺度转换:由N×M×C转换为C×NM、对输出C3out进行尺度转换:由N×M×C转换为NM×C;C1out与C2out相乘后作为softmax函数的输入,softmax函数的输出与C3out相乘得到Sout,并对Sout进行尺度转换:由NM×C转换为N×M×C;Sout作为卷积层Conv7的输入,卷积层Conv7的输出与浅层特征Rec_feature相加得到视觉任务特征RA_feature;浅层特征Rec_feature的宽为M、高为N、通道数为2C。
更进一步的,通道注意力特征提取网络中,卷积层Conv4、卷积层Conv5与卷积层Conv6的结构均为:Conv 1×1×C,卷积层Conv7的结构为:Conv 1×1×2C,并且所有卷积层的步长为1、padding参数为0、激活函数为LeakyRelu函数。
更进一步的,通道注意力特征提取网络的训练过程为:设置损失函数与训练参数,采用Adam优化器对通道注意力特征提取网络进行训练;其中,
训练集为:将训练图像经过编码、解压缩及图像重建后得到重建训练图像,采用中间层特征提取模块对重建训练图像进行特征提取得到的浅层特征作为输入特征,采用特征提取模块对训练图像进行特征提取得到的浅层特征作为标签特征,构成训练集;
损失函数为:
Figure 190965DEST_PATH_IMAGE002
其中,f 1表示通道注意力特征提取网络的输出,f 0表示标签特征,(i, j,c)表示特征的坐标,MNC分别表示输入特征的宽、高与通道数。
与现有技术相比,本发明的有益效果在于:
本发明提出了一种注意力引导的特征压缩方法,通过构建一个能够自适应引导高频信息恢复的图像重建网络,实现压缩后的低质量图像和特征图的融合,重建出的高质量图像不仅能保留原始图像的低频信息,还能根据不同的量化因子自适应的恢复大部分高频信息,使其在不同的量化因子下,特别是压缩率较低、量化因子较大时,仍能表现出较好的视觉任务性能;同时,通过构建通道注意力特征提取网络,为重建后图像的特征的每一个通道赋予不同的重要性,进一步提升了后续视觉任务的性能。综上所述,本发明在基于纹理协同的特征压缩方法的基础上,引入了自适应的频域注意力机制和通道注意力机制,通过高频注意力重建网络自适应选择参数来恢复图像的高频信息,实现了图像低频信息的保留和高频信息的恢复;通过通道注意力特征提取网络为重建图像的特征的不同通道赋予重要性,实现了后续视觉任务性能的进一步提升;最终达到了在不同量化因子,即不同压缩率下,良好、稳定的视觉任务性能。
附图说明
图1为本发明中注意力引导的特征压缩方法的流程示意图。
图2为本发明中高频注意力重建网络的结构示意图。
图3为本发明中通道注意力特征提取网络的结构示意图。
图4为本发明实施例与对比例在ImageNet 2012数据集下Compression Rate-Fidelity曲线对比图。
图5为本发明实施例与对比例在Pascal Voc 2007数据集下Compression Rate-Fidelity曲线对比图。
具体实施方式
为使本发明目的、技术方案与有益效果更加清楚明白,下面结合附图和实施例对本发明作进一步详细说明。
本实施例提供一种注意力引导的特征压缩方法,其流程如图1所示,包括:编码与解码,具体步骤如下:
步骤1. 编码包括:特征编码与图像编码,具体为:
步骤1.1 对原始RGB图像进行特征编码;
采用Pytorch预训练完成的ResNet50网络的前三层(Conv + BN + ReLU)或VGG16网络的前五层(Conv + ReLU + Conv + ReLU + Maxpool)作为中间层特征提取模块,对原始RGB图像进行特征提取得到深度特征;对提取得深度特征的每一个通道进行单独量化(0~255区间)得到其对应的特征图,将量化后的特征图转换为YUV400格式,再采用HM对转换得YUV图像进行压缩,得到压缩特征并传输;
步骤1.2 对原始RGB图像进行图像编码;
对原始RGB图像进行4倍降采样得到低质量图像,并将低质量图像转换为YUV444格式,再采用HM对转换得YUV图像进行压缩,得到压缩图像并传输;
步骤2. 解码包括:解压缩、图像重建与视觉任务特征提取;具体为:
步骤2.1 对压缩特征与图像特征分别进行解压缩;
对压缩特征每个通道进行解压缩和反量化(0~1区间),得到解压缩后的特征图Comfeature_input;对压缩图像进行解压缩得到解压缩后的YUV图像,再将YUV图像转换为RGB图像,得到低质量图像LQ_input;
步骤2.2 基于高频注意力图像重建网络进行图像重建;
将特征图Comfeature_input与低质量图像LQ_input输入高频注意力图像重建网络,由高频注意力图像重建网络输出重建图像Rec_img;
步骤2.3 基于通道注意力特征提取网络进行视觉任务特征提取;
采用中间层特征提取模块(与步骤1.1中相同)对重建图像Rec_img进行特征提取得到浅层特征Rec_feature,将浅层特征Rec_feature输入通道注意力特征提取网络,由通道注意力特征提取网络输出视觉任务特征RA_feature,用于基于ResNet或VGG网络的视觉任务。
更为具体的讲:
所述高频注意力图像重建网络的结构如图2所示,其中,“Res_block”表示残差单元,由两层卷积层组成;“Up_block”表示超分模块,由一层卷积层和一个PixelShuffer组成;高频注意力图像重建网络有两个输入,分别为:低质量图像LQ_input与特征图Comfeature_input,网络的输出为重建得原始分辨率重建图像Rec_img;
高频注意力图像重建网络具体包括:残差特征提取模块、上采样模块与图像重建模块;
所述残差特征提取模块由卷积层Conv1与16个残差单元(Res_block1~ Res_block16)连接构成,卷积层Conv1的输入为低质量图像LQ_input、输出为V1out;16个残差单元依次连接,第1个残差单元的输入为V1out,第16个残差单元的输出与V1out相加得到残差特征提取模块的输出Fout;
所述上采样模块由超分模块Up_block1与超分模块Up_block2连接构成,超分模块Up_block1的输入为Fout,超分模块Up_block1的输出与特征图Comfeature_input相加作为超分模块Up_block2的输入,超分模块Up_block2的输出作为上采样模块的输出Uout;
所述图像重建模块由卷积层Conv2与卷积层Conv3连接构成,卷积层Conv2的输入为Uout,卷积层Conv3的输出与低质量图像LQ_input相加得到重建图像Rec_img;
进一步的,残差特征提取模块中,卷积层Conv1的结构为Conv 3×3×64,残差单元中卷积层的结构均为Conv 3×3×64;上采样模块中,超分模块的上采样方法采用PixelShuffer,超分模块中卷积层的结构均为Conv 3×3×256;图像重建模块中,卷积层Conv2的结构为Conv 3×3×64,卷积层Conv3的结构为Conv3×3×3;高频注意力图像重建网络中,所有卷积层的步长均为1、padding参数均为1、激活函数均为LeakyRelu函数;需要说明的是:“ConvA×A×B”表示卷积核大小为A×A、输出通道为B的卷积层。
所述高频注意力图像重建网络的训练过程为:设置损失函数与训练参数,采用Adam优化器对高频注意力图像重建网络进行训练;其中,
训练集为:随机抽取COCO2017测试集中RGB图像,并切分为M×N大小的子图像作为训练图像;将训练图像经过编码以及解压缩后的特征图和低质量图像作为输入图像,训练图像作为标签图像,构成训练集;本实施例中,M=N=384;
损失函数为:
Figure 791710DEST_PATH_IMAGE001
其中,Loss frequency 表示图像高频信息的损失,Loss pixel 表示图像像素域的损失,α表示0到1之间的加权因子;qp表示HEVC的量化因子;I 1表示高频注意力图像重建网络输出的重建图像,I 0表示标签图像,(i, j)表示图像的像素坐标;D 1表示高频注意力图像重建网络输出的重建图像的DCT变换结果,D 0表示标签图像的DCT变换结果,(m, n)表示DCT变换结果像素坐标,MN分别表示输入图像的宽、高;
训练参数为:学习率为2×10-4、批尺寸为8,迭代次数为200000。
更为具体的讲:
所述通道注意力特征提取网络的结构如图3所示,通道注意力特征提取网络的输入为浅层特征Rec_feature,浅层特征Rec_feature的宽为M、高为N、通道数为2C,通道注意力特征提取网络的输出为注意力引导后的视觉任务特征RA_feature;具体由卷积层Conv4、卷积层Conv5、卷积层Conv6、卷积层Conv7与softmax函数连接构成;其中,卷积层Conv4、卷积层Conv5与卷积层Conv6的输入均为浅层特征Rec_feature,依次输出C1out、C2out与C3out,并对输出C1out进行尺度转换:由N×M×C转换为NM×C、对输出C2out进行尺度转换:由N×M×C转换为C×NM、对输出C3out进行尺度转换:由N×M×C转换为NM×C;C1out与C2out相乘后作为softmax函数的输入,softmax函数的输出(NM×NM)与C3out相乘得到Sout,并对Sout进行尺度转换:由NM×C转换为N×M×C;Sout作为卷积层Conv7的输入,卷积层Conv7的输出与浅层特征Rec_feature相加得到视觉任务特征RA_feature(N×M×2C);
进一步的,通道注意力特征提取网络中,卷积层Conv4、卷积层Conv5与卷积层Conv6的结构均为:Conv 1×1×C,卷积层Conv7的结构为:Conv 1×1×2C,并且所有卷积层的步长为1、padding参数为0、激活函数为LeakyRelu函数。
所述通道注意力特征提取网络的训练过程为:设置损失函数与训练参数,采用Adam优化器对通道注意力特征提取网络进行训练;其中,
训练集为:随机抽取COCO2017测试集中高频注意力图像重建网络未使用过的RGB图像,并切分为M×N大小的子图像作为训练图像;将训练图像经过编码、解压缩及图像重建后得到重建训练图像,采用中间层特征提取模块(与步骤1.1中相同)对重建训练图像进行特征提取得到的浅层特征作为输入特征,采用特征提取模块对训练图像进行特征提取得到的浅层特征作为标签特征,构成训练集;本实施例中,M=N=384;
损失函数为:
Figure 287676DEST_PATH_IMAGE002
其中,f 1表示通道注意力特征提取网络的输出,f 0表示标签特征,(i, j,c)表示特征的坐标,MNC分别表示输入特征的宽、高与通道数;
训练参数为:学习率为1×10-4、批尺寸为1,迭代次数为10000。
基于上述技术方案,针对分类任务,本实施例在ImageNet 2012验证集的1000个类别中,每个类随机选取了一张图作为测试集进行测试;同时,采用默认的HEVC intra压缩方法作为对比例1,专利文献CN114245126A中纹理协同的深度特征图压缩方法作为对比例2;选择5个HEVC中的量化因子(35、37,39、41和43)对本发明与对比例1、对比例2进行对比,对应的测试结果如图4所示,其中,横轴为压缩率(Compression rate),表示未压缩之前的大小与压缩之后大小的比值;纵轴为保真度(Fidelity),表示视觉任务特征用于视觉任务的准确率,其保真度计算公式如下:
Figure 897649DEST_PATH_IMAGE003
其中,
Figure 661206DEST_PATH_IMAGE004
Figure 698432DEST_PATH_IMAGE005
分别代表原始图像经过VGG16网络后得到的分类向量和视觉任务特征经过VGG16网络除前五层外后续其他模块得到的分类向量,
Figure 914650DEST_PATH_IMAGE006
表示对应分类向量中最大值所在下标。
针对语义分割任务,本实施例在Pascal Voc 2007测试集里的210个语义分割类别中,每个类随机抽取了一张图作为测试集;选择5个HEVC中的量化因子(34、36,38、40和42)对本发明与对比例1进行比较,对应的测试结果如图5所示,其中,横轴为压缩率(Compression rate);纵轴为保真度(Fidelity),与分类任务不同,分割任务侧重于像素级分类,其保真度计算公式如下:
Figure 62734DEST_PATH_IMAGE007
其中,N和M为输入图像的高度和宽度,
Figure 680797DEST_PATH_IMAGE008
Figure 888925DEST_PATH_IMAGE009
分别代表原始RGB图像
Figure 123597DEST_PATH_IMAGE010
经过ResNet50网络后在
Figure 809793DEST_PATH_IMAGE011
处像素获得的语义分割的分类向量和视觉任务特征
Figure 813521DEST_PATH_IMAGE012
经过ResNet50除前五层外后续其他模块在
Figure 192550DEST_PATH_IMAGE011
处像素获得的语义分割的分类向量。
由图4可知,本实施例中注意力引导的特征压缩方法在分类任务中,不仅优于HEVC帧内压缩方法,在各个量化因子下也均优于纹理协同的特征压缩方法,且量化因子越大,提升越大;由图5可知,本实施例中注意力引导的特征压缩方法在语义分割任务中,也远远优于HEVC帧内压缩方法。测试结果证明了本发明方法的有效性及优越性。
综上所述,本发明所提出的注意力引导的特征压缩方法具有出色的表现,相较于HEVC intra和纹理协同的特征压缩方法,在同等压缩率下,均获得了更高的保真度,且压缩率越低,保真度提升越大。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征或步骤以外,均可以任何方式组合。

Claims (5)

1.一种注意力引导的特征压缩方法,包括:编码与解码,其特征在于,包括以下步骤:
步骤1. 编码包括:特征编码与图像编码,具体为:
步骤1.1 对原始RGB图像进行特征编码;
采用ResNet50网络的前三层或VGG16网络的前五层作为中间层特征提取模块,对原始RGB图像进行特征提取得到深度特征;对提取得深度特征的每一个通道进行单独量化得到其对应的特征图,将量化后的特征图转换为YUV400格式,再采用HM对转换得YUV图像进行压缩,得到压缩特征并传输;
步骤1.2 对原始RGB图像进行图像编码;
对原始RGB图像进行4倍降采样得到低质量图像,并将低质量图像转换为YUV444格式,再采用HM对转换得YUV图像进行压缩,得到压缩图像并传输;
步骤2. 解码包括:解压缩、图像重建与视觉任务特征提取;具体为:
步骤2.1 对压缩特征与图像特征分别进行解压缩;
对压缩特征每个通道进行解压缩和反量化,得到解压缩后的特征图Comfeature_input;对压缩图像进行解压缩得到解压缩后的YUV图像,再将YUV图像转换为RGB图像,得到低质量图像LQ_input;
步骤2.2 基于高频注意力图像重建网络进行图像重建;
将特征图Comfeature_input与低质量图像LQ_input输入高频注意力图像重建网络,由高频注意力图像重建网络输出重建图像Rec_img;
高频注意力图像重建网络包括:残差特征提取模块、上采样模块与图像重建模块;其中,
残差特征提取模块由卷积层Conv1与16个残差单元连接构成,卷积层Conv1的输入为低质量图像LQ_input、输出为V1out;16个残差单元依次连接,第1个残差单元的输入为V1out,第16个残差单元的输出与V1out相加得到残差特征提取模块的输出Fout;
上采样模块由超分模块Up_block1与超分模块Up_block2连接构成,超分模块Up_block1的输入为Fout,超分模块Up_block1的输出与特征图Comfeature_input相加作为超分模块Up_block2的输入,超分模块Up_block2的输出作为上采样模块的输出Uout;
图像重建模块由卷积层Conv2与卷积层Conv3连接构成,卷积层Conv2的输入为Uout,卷积层Conv3的输出与低质量图像LQ_input相加得到重建图像Rec_img;
步骤2.3 基于通道注意力特征提取网络进行视觉任务特征提取;
采用中间层特征提取模块对重建图像Rec_img进行特征提取得到浅层特征Rec_feature,将浅层特征Rec_feature输入通道注意力特征提取网络,由通道注意力特征提取网络输出视觉任务特征RA_feature,用于基于ResNet或VGG网络的视觉任务;
通道注意力特征提取网络由卷积层Conv4、卷积层Conv5、卷积层Conv6、卷积层Conv7与softmax函数连接构成;其中,卷积层Conv4、卷积层Conv5与卷积层Conv6的输入均为浅层特征Rec_feature,依次输出C1out、C2out与C3out,并对输出C1out进行尺度转换:由N×M×C转换为NM×C、对输出C2out进行尺度转换:由N×M×C转换为C×NM、对输出C3out进行尺度转换:由N×M×C转换为NM×C;C1out与C2out相乘后作为softmax函数的输入,softmax函数的输出与C3out相乘得到Sout,并对Sout进行尺度转换:由NM×C转换为N×M×C;Sout作为卷积层Conv7的输入,卷积层Conv7的输出与浅层特征Rec_feature相加得到视觉任务特征RA_feature;浅层特征Rec_feature的宽为M、高为N、通道数为2C。
2.根据权利要求1所述注意力引导的特征压缩方法,其特征在于,残差特征提取模块中,卷积层Conv1的结构为Conv 3×3×64,残差单元中卷积层的结构均为Conv 3×3×64;上采样模块中,超分模块的上采样方法采用PixelShuffer,超分模块中卷积层的结构均为Conv 3×3×256;图像重建模块中,卷积层Conv2的结构为Conv 3×3×64,卷积层Conv3的结构为Conv3×3×3;高频注意力图像重建网络中,所有卷积层的步长均为1、padding参数均为1、激活函数均为LeakyRelu函数。
3.根据权利要求1所述注意力引导的特征压缩方法,其特征在于,高频注意力图像重建网络的训练过程为:设置损失函数与训练参数,采用Adam优化器对高频注意力图像重建网络进行训练;其中,
训练集为:将训练图像经过编码以及解压缩后的特征图和低质量图像作为输入图像,训练图像作为标签图像,构成训练集;
损失函数为:
Figure DEST_PATH_IMAGE002
其中,Loss frequency 表示图像高频信息的损失,Loss pixel 表示图像像素域的损失,α表示0到1之间的加权因子;qp表示HEVC的量化因子;I 1表示高频注意力图像重建网络输出的重建图像,I 0表示标签图像,(i, j)表示图像的像素坐标;D 1表示高频注意力图像重建网络输出的重建图像的DCT变换结果,D 0表示标签图像的DCT变换结果,(m, n)表示DCT变换结果像素坐标,MN分别表示输入图像的宽、高。
4.根据权利要求1所述注意力引导的特征压缩方法,其特征在于,通道注意力特征提取网络中,卷积层Conv4、卷积层Conv5与卷积层Conv6的结构均为:Conv 1×1×C,卷积层Conv7的结构为:Conv 1×1×2C,并且所有卷积层的步长为1、padding参数为0、激活函数为LeakyRelu函数。
5.根据权利要求1所述注意力引导的特征压缩方法,其特征在于,通道注意力特征提取网络的训练过程为:设置损失函数与训练参数,采用Adam优化器对通道注意力特征提取网络进行训练;其中,
训练集为:将训练图像经过编码、解压缩及图像重建后得到重建训练图像,采用中间层特征提取模块对重建训练图像进行特征提取得到的浅层特征作为输入特征,采用特征提取模块对训练图像进行特征提取得到的浅层特征作为标签特征,构成训练集;
损失函数为:
Figure DEST_PATH_IMAGE004
其中,f 1表示通道注意力特征提取网络的输出,f 0表示标签特征,(i, j,c)表示特征的坐标,MNC分别表示输入特征的宽、高与通道数。
CN202211293023.7A 2022-10-21 2022-10-21 一种注意力引导的特征压缩方法 Active CN115358954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211293023.7A CN115358954B (zh) 2022-10-21 2022-10-21 一种注意力引导的特征压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211293023.7A CN115358954B (zh) 2022-10-21 2022-10-21 一种注意力引导的特征压缩方法

Publications (2)

Publication Number Publication Date
CN115358954A CN115358954A (zh) 2022-11-18
CN115358954B true CN115358954B (zh) 2022-12-23

Family

ID=84008728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211293023.7A Active CN115358954B (zh) 2022-10-21 2022-10-21 一种注意力引导的特征压缩方法

Country Status (1)

Country Link
CN (1) CN115358954B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192200A (zh) * 2020-01-02 2020-05-22 南京邮电大学 基于融合注意力机制残差网络的图像超分辨率重建方法
CN112330542A (zh) * 2020-11-18 2021-02-05 重庆邮电大学 基于crcsan网络的图像重建***及方法
CN113065578A (zh) * 2021-03-10 2021-07-02 合肥市正茂科技有限公司 一种基于双路区域注意力编解码的图像视觉语义分割方法
CN113962893A (zh) * 2021-10-27 2022-01-21 山西大学 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法
CN114245126A (zh) * 2021-11-26 2022-03-25 电子科技大学 一种纹理协同的深度特征图压缩方法
CN114331830A (zh) * 2021-11-04 2022-04-12 西安理工大学 一种基于多尺度残差注意力的超分辨率重建方法
CN114449276A (zh) * 2022-01-06 2022-05-06 北京工业大学 一种基于学习的超先验边信息补偿图像压缩方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461983B (zh) * 2020-03-31 2023-09-19 华中科技大学鄂州工业技术研究院 一种基于不同频度信息的图像超分辨率重建模型及方法
CN112215223B (zh) * 2020-10-16 2024-03-19 清华大学 基于多元注意力机制的多方向场景文字识别方法及***
US20220198610A1 (en) * 2020-12-17 2022-06-23 PicsArt, Inc. Image super-resolution
CN114266709B (zh) * 2021-12-14 2024-04-02 北京工业大学 一种基于跨分支连接网络的复合降质图像解耦分析与复原方法
CN114757825A (zh) * 2022-03-21 2022-07-15 西安电子科技大学 基于特征分离的红外图像超分辨率重建方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192200A (zh) * 2020-01-02 2020-05-22 南京邮电大学 基于融合注意力机制残差网络的图像超分辨率重建方法
CN112330542A (zh) * 2020-11-18 2021-02-05 重庆邮电大学 基于crcsan网络的图像重建***及方法
CN113065578A (zh) * 2021-03-10 2021-07-02 合肥市正茂科技有限公司 一种基于双路区域注意力编解码的图像视觉语义分割方法
CN113962893A (zh) * 2021-10-27 2022-01-21 山西大学 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法
CN114331830A (zh) * 2021-11-04 2022-04-12 西安理工大学 一种基于多尺度残差注意力的超分辨率重建方法
CN114245126A (zh) * 2021-11-26 2022-03-25 电子科技大学 一种纹理协同的深度特征图压缩方法
CN114449276A (zh) * 2022-01-06 2022-05-06 北京工业大学 一种基于学习的超先验边信息补偿图像压缩方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DFCE: Decoder-Friendly Chrominance Enhancement for HEVC Intra Coding;Shuyuan Zhu等;《IEEE Transactions on Circuits and Systems for Video Technology ( Early Access )》;20220801;1-5 *
End-to-End Learnt Image Compression via Non-Local Attention Optimization and Improved Context Modeling;Tong Chen等;《IEEE Transactions on Image Processing》;20210219;第30卷;3179-3191 *
基于MRI图像的乳腺异常分类与病灶分割;张靖怡;《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》;20220915(第9期);E060-43 *
基于局部期望最大化注意力的图像降噪;李泽田等;《液晶与显示》;20200415(第04期);61-70 *
基于注意力机制的遥感图像分割模型;刘航等;《激光与光电子学进展》;20201231(第04期);170-180 *

Also Published As

Publication number Publication date
CN115358954A (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
Rippel et al. Real-time adaptive image compression
CN110087092B (zh) 基于图像重构卷积神经网络的低码率视频编解码方法
Mishra et al. Wavelet-based deep auto encoder-decoder (wdaed)-based image compression
CN110751597B (zh) 基于编码损伤修复的视频超分辨方法
CN110290387B (zh) 一种基于生成模型的图像压缩方法
CN103607591A (zh) 结合超分辨率重建的图像压缩方法
CN111885280B (zh) 一种混合卷积神经网络视频编码环路滤波方法
CN110956671B (zh) 一种基于多尺度特征编码的图像压缩方法
CN109903351B (zh) 基于卷积神经网络和传统编码相结合的图像压缩方法
CN109361919A (zh) 一种联合超分辨率和去压缩效应的图像编码性能提升方法
Zhou et al. DCT-based color image compression algorithm using an efficient lossless encoder
CN115358954B (zh) 一种注意力引导的特征压缩方法
CN114245126B (zh) 一种纹理协同的深度特征图压缩方法
CN116418990A (zh) 一种基于神经网络的用于压缩视频质量增强的方法
CN113822801B (zh) 基于多分支卷积神经网络的压缩视频超分辨率重建方法
Jia et al. Deep convolutional network based image quality enhancement for low bit rate image compression
CN115150628A (zh) 具有超先验引导模式预测的由粗到细深度视频编码方法
CN114463449A (zh) 一种基于边缘引导的高光谱图像压缩方法
CN114463453A (zh) 图像重建、编码解码方法、相关装置
KR100412176B1 (ko) 문자와 이미지가 포함된 문서의 압축, 복원 시스템 및방법
Tang et al. Feature Fusion Enhanced Super Resolution for Low Bitrate Screen Content Compression
CN111031312B (zh) 基于网络实现注意力机制的图像压缩方法
Xiong et al. Deep feature compression with collaborative coding of image texture
Yagnasree et al. Image compression using neural networks
CN116248807A (zh) 通话信道下图像优化的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant