CN113192147B - 显著性压缩的方法、***、存储介质、计算机设备及应用 - Google Patents
显著性压缩的方法、***、存储介质、计算机设备及应用 Download PDFInfo
- Publication number
- CN113192147B CN113192147B CN202110294081.0A CN202110294081A CN113192147B CN 113192147 B CN113192147 B CN 113192147B CN 202110294081 A CN202110294081 A CN 202110294081A CN 113192147 B CN113192147 B CN 113192147B
- Authority
- CN
- China
- Prior art keywords
- compression
- image
- module
- significance
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007906 compression Methods 0.000 title claims abstract description 117
- 230000006835 compression Effects 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 25
- 238000010586 diagram Methods 0.000 claims abstract description 21
- 238000010276 construction Methods 0.000 claims abstract description 19
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 13
- 239000000203 mixture Substances 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像压缩技术领域,公开了一种显著性压缩的方法、***、存储介质、计算机设备及应用,所述显著性压缩的方法包括:对于显著性检测模块:采用U2Net网络实现显著性检测模块;对比残差块融合局部特征与多尺度特征,提出整体网络架构;根据U‑Net和非局部残差,提出ResU来提取阶段内多尺度特征;输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);以中间特征图F1(x)为输入,通过U‑block学习和编码多尺度上下文信息;通过F1(x)和U(F1(x))融合局部特征与多尺度特征;对于压缩模块:提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。本发明能够在低比特率下,提升图像的压缩质量。
Description
技术领域
本发明属于图像压缩技术领域,尤其涉及一种显著性压缩的方法、***、存储介质、计算机设备及应用。
背景技术
目前,虽然图片中数据量庞大,但并不是所有的内容都包含用户感兴趣信息。人们在典型应用场景中往往更加关注感兴趣目标。在带宽受限的条件下,显著性目标的识别问题显得尤为重要。采用全局压缩方式会使显著性区域一些重要细节模糊,比如车牌号、指示牌等。采用显著性区域压缩可以降低显著性区域的压缩比,提高背景等不相关信息的压缩倍率,在相同的图片压缩大小下,可以尽可多的保留用户感兴趣的信息。
随着FCN在图像分割领域上的成功,开启了基于深度神经网络图片语义分割的热潮。近年来,大量基于神经网络的语义分割算法都表现出他们的优异性能。然而,并不是所有的算法在应用于图像压缩的领域均能取得优异效果。
2017年,基于端到端的图像压缩取得了优异的成绩,其压缩性能超越JPEG与JPEG2000,由于基于似然的离散生成模型学习像素的概率分布,它们在理论上可以用于无损图像压缩。研究了各种端到端图像压缩方法。最近,值得注意的方法是用于学习图像压缩的上下文自适应熵模型,以在所有学习的编解码器中获得更好的性能。在此之后引发了学术界的广泛关注,其中基于GMM的优化模型使的端到端压缩性能全面超越BPG。
通过上述分析,现有技术存在的问题及缺陷为:现有图片压缩方法中,边缘分割精度较低,压缩效果低于BPG,且不是所有的算法在应用于图像压缩的领域均能取得优异效果。
解决以上问题及缺陷的难度和意义为:实现图片精细化分割,提高低比特率下图像压缩质量。
发明内容
针对现有技术存在的问题,本发明提供了一种显著性压缩的方法、***、存储介质、计算机设备及应用,旨在解决现有显著性压缩算法效果不好的问题。
本发明是这样实现的,一种显著性压缩的方法,所述显著性压缩的方法包括:
对于显著性检测模块采用U2Net网络实现;对于图像压缩模块的架构基于基本模型,引入注意力通道方法,改进离散高斯混合模型,最后加入解码器增强模块。
进一步,所述显著性压缩的方法包括以下步骤:
步骤一,采用U2Net网络实现显著性检测模块;提出的显著性检测框架可以提高显著性目标识别与分割精度,对于多目标复杂场景准确度更高。
步骤二,对比残差块融合局部特征与多尺度特征,提出整体网络架构;提高局部细节提取准确度。
步骤三,根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
步骤四,输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
步骤五,以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
步骤六,提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。改进的压缩模型提高了压缩精度,在PSNR和SSIM结果上均有突破。
进一步,步骤六中,所述注意力通道方法,包括:
(1)引入轻量级的注意通道模型,设输入特征映射为X,,其中I、J、C分别表示特征映射的高、宽、通道维数,应用全局平均池化来获得信道统计量t∈RC,公式如下:
其中,t表示t和x的第c项c(i,j)表示输入特征映射x的第c通道特定值。
(2)应用几个非线性变换来捕捉通道之间的关系;其中,所述非线性变换的描述公式如下:
s=σ(W2δ(Wlt));
其中,s指输出通道方向的注意值,和/>表示完全连接的层,δ是非线性变换的ReLU激活函数,σ表示Sigmoid激活,r设为16。
(3)用s重新缩放输入特征映射X,并在实现中添加残差操作。
进一步,步骤六中,所述改进离散高斯模型,包括:
高斯混合模型由下述公式表示:
采用离散的高斯混合模型,由高斯混合构成的熵模型由下述公式表示:
其中,i表示特征图中的位置,k表示混合高斯模型的数量;每个高斯模型有三组参数,即权重,均值,和方差;实验中,k=3,即使用3个混合高斯模型。
进一步,步骤六中,所述解码器增强,包括:
在图像重建后的解码器端引入增强模块;在输入的重构图像的基础上,采用几个残差块恢复原始图像;根据受超分辨率网络设计策略,引入残差块学习高频信息,用于图像压缩,包括:
增加一个卷积层,将信道维数从3增加到32;将三个增强块应用到卷积层的输出,每个增强块都有三个剩余块;通过卷积层和残差运算得到重构图像,学习到的图像是最终卷积层之后的输出;其中,学习到的所述残差图像包含高频信息。
进一步,所述显著性压缩的方法,还包括:
通过提出的显著性分割模块对数据集进行处理,生成显著性区域黑白图像;通过提出的压缩模块分块压缩,最后输出图片,包括:
(1)数据集构建:采用DUTS-TR数据集作为训练数据集,包含10533张图片;其中,所述数据集是显著性检测数据集中最大且最常用的数据集;
(2)训练设置:除了最后输出层,所有卷积层均采用3*3卷积核;采用Adam优化器,所有模型均在实验室工作站上基于pytorch深度学习框架开发;
(3)评估结果:通过PSNR和SSIM评价最终图像效果;
(4)最终结果输出。
进一步,步骤(1)中,对于测试数据集,采用6个常用的基准数据集进行评估,包括:
DUT-OMRON包括5168幅图像,其中大多数包含少量结构复杂的前景对象;DUTS-TE包含5019幅图像;HKU-IS包含4447幅图像,其中包含多个前景图像;ECSSD包含1000个结构复杂的图像,许多图片中包含大型前景对象;PASCAL-S包含850幅前景复杂且背景杂乱的图像;SOD包含300幅图像。
进一步,步骤(2)中,所述参数设置为:lr=0.001,betas=(0.9,0.999),eps=1e-08;所述工作站环境如下:Windows10操作***、英特尔酷睿i7-3770CPU、一块英伟达GTX1080ti显卡、256G内存、Python3.6、pytorch1.2。
进一步,步骤(3)中,所述PSNR是图像压缩中最常用的评价指标;对于图像压缩,PSNR由最大像素值和图像见得均方误差决定;给定一张m*n的压缩前图像x,压缩后重建图像为,将均方误差和PSNR定义为:
当比较压缩编解码器时,PSNR近似于人类对重建质量的感知。如果位深度为8位,则有损图像和视频压缩中PSNR的典型值在30至50dB之间,越高越好。对于16位数据,PSNR的典型值在60至80dB之间。无线传输质量损失的可接受值被认为约为20dB至25dB。
SSIM的想法是测量两个图像之间的结构相似性,而不是像PSNR这样的像素间差异。基本假设是人眼对图像结构的变化更敏感。x与压缩后重建图像为y之间的SSIM可以定义为:
其中,ux或uy表示原图像x或压缩重建图像y的像素均值,σx或σy表示x或y的像素标准差值,σxy代表σx和σy之间的协方差,c1和c2表示一个常量扰动防止不稳定。
进一步,所述损失函数分为三个部分:首先整体网路压缩存在相关误差;其次,感兴趣区域需要保留更多图像细节,采用压缩模块进行压缩;背景区域不需要保留更多高频细节,采用balle基准模型进行压缩,整体的损失函数为:
L=L1+αLbg+βLobj;
其中,为失真损失,/>与/>为熵损失。
本发明的另一目的在于提供一种应用所述的显著性压缩的方法的显著性压缩的***,所述显著性压缩的***包括:
显著性检测模块,用于采用U2Net网络实现显著性检测;
整体网络架构提出模块,用于通过对比残差块融合局部特征与多尺度特征,提出整体网络架构;
特征提取模块,用于根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
特征图转换模块,用于通过输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
上下文信息处理模块,用于以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;
特征融合模块,用于通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
图像压缩架构构建模块,用于通过提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建;
数据集构建模块,用于采用DUTS-TR数据集作为训练数据集,包含10533张图片;其中,所述数据集是显著性检测数据集中最大且最常用的数据集;
训练设置模块,除了最后输出层,所有卷积层均采用3*3卷积核;采用Adam优化器,所有模型均在实验室工作站上基于pytorch深度学习框架开发;
评估结果获取模块,通过PSNR和SSIM评价最终图像效果;
结果输出模块,用于将最终结果进行输出。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
采用U2Net网络实现显著性检测模块;
对比残差块融合局部特征与多尺度特征,提出整体网络架构;
根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
采用U2Net网络实现显著性检测模块;
对比残差块融合局部特征与多尺度特征,提出整体网络架构;
根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的显著性压缩的***。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的显著性压缩的方法,能够在低比特率下,提升图像压缩质量,有效解决现有显著性压缩算法效果不好的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的显著性压缩的方法流程图。
图2是本发明实施例提供的显著性压缩的***结构框图;
图中:1、显著性检测模块;2、整体网络架构提出模块;3、特征提取模块;4、特征图转换模块;5、上下文信息处理模块;6、特征融合模块;7、图像压缩架构构建模块;8、数据集构建模块;9、训练设置模块;10、评估结果获取模块;11、结果输出模块。
图3是本发明实施例提供的整体网络架构示意图。
图4是本发明实施例提供的最终结果示意图;(a)显著性分割结果;(b)显著性压缩算法在柯达数据集的SSIM和PSNR;(c)ImageNet数据集指标。
图5是本发明实施例提供的注意模块的结构示意图;(a)图像融合结果;(b)结果展示。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种显著性压缩的方法、***、存储介质、计算机设备及应用,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的显著性压缩的方法包括以下步骤:
S101,采用U2Net网络实现显著性检测模块;
S102,对比残差块融合局部特征与多尺度特征,提出整体网络架构;
S103,根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
S104,输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
S105,以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
S106,提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。
如图2所示,本发明实施例提供的显著性压缩的***包括:
显著性检测模块1,用于采用U2Net网络实现显著性检测;
整体网络架构提出模块2,用于通过对比残差块融合局部特征与多尺度特征,提出整体网络架构;
特征提取模块3,用于根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
特征图转换模块4,用于通过输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
上下文信息处理模块5,用于以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;
特征融合模块6,用于通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
图像压缩架构构建模块7,用于通过提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建;
数据集构建模块8,用于采用DUTS-TR数据集作为训练数据集,包含10533张图片;其中,所述数据集是显著性检测数据集中最大且最常用的数据集;
训练设置模块9,除了最后输出层,所有卷积层均采用3*3卷积核;采用Adam优化器,所有模型均在实验室工作站上基于pytorch深度学习框架开发;
评估结果获取模块10,通过PSNR和SSIM评价最终图像效果;
结果输出模块11,用于将最终结果进行输出。
下面结合实施例对本发明的技术方案作进一步的描述。
本发明技术思路是:对于显著性检测模块采用U2Net网络实现;对于图像压缩模块的架构是基于Balle等人提出的基本模型,引入Jiaheng Liu等人提出的注意力通道方法,改进Zhengxue Cheng等人的离散高斯混合模型,最后加入解码器增强模块。
根据以上思路,本发明的实现步骤如下:对于显著性检测模块采用U2Net网络实现,将具体介绍U2Net方法,首先对比残差块融合局部特征与多尺度特征,然后提出整体网络架构。受U-Net和非局部残差的启发,提出ResU来提取阶段内多尺度特征。首先输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);然后以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息。U-Net,U-block块越多,池化操作越多,可以获得更大感受野的全局信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征。
对于图像压缩架构,本发明首先提出注意力通道方法,然后改进离散高斯模型,最后引入解码器增强。
1.注意力通道方法:
Balle的自回归先验模型可以通过获取隐藏表示空间关系来提升压缩性能。研究发现,一些空间注意力机制的图像压缩方法也可以减少空间冗余。基于以上方法启发,本发明引入Jiaheng Liu等人提出轻量级的注意通道模型。该注意模块的结构如图5所示。设输入特征映射为X,,其中I、J、C分别表示特征映射的高、宽、通道维数。首先,本发明应用全局平均池化来获得信道统计量t∈RC,其公式如下:
其中,t表示t和x的第c项c(i,j)表示输入特征映射x的第c通道特定值。然后,本发明应用几个非线性变换来捕捉通道之间的关系。其中,非线性变换的描述公式如下:
s=σ(W2δ(W1t));
其中,s指输出通道方向的注意值,和/>表示完全连接的层,δ是非线性变换的ReLU激活函数,σ表示Sigmoid激活。为了减小维数,本发明将r设为16。最后,本发明用s重新缩放输入特征映射X。此外,本发明还在实现中添加了残差操作
2.改进的离散高斯模型:
在Balle等人提出的编解码模型中,超先验编解码模块作为熵估计,其作用是用于估计隐藏层的高斯分布mu和sigma,虽然对比之前的深度学习方法,单高斯的熵模型已经取得了非常好的效果,但是单高斯的能力有限,特别是处理一些复杂内容。Zhengxue Cheng等人使用3混合高斯模型,Jiaheng Liu等人采用2个混合高斯模型。使用3个混合高斯模型能够取得更好的性能表现。
该高斯混合模型由下述公式表示:
因为高斯分布处理的是连续数值,但隐层特征经过量化后是离散的值,所以采用离散的高斯混合模型。此外,研究发现相较于逻辑混合似然,高斯似然估计效果会稍微更好一些。由高斯混合构成的熵模型由下述公式表示:
其中,i表示特征图中的位置,比如表示y的第i个元素,表示的第i个元素,k表示混合高斯模型的数量。每个高斯模型有三组参数,即权重,均值,和方差。实验中,k=3,即使用3个混合高斯模型。
3.解码器增强:
由于所提出的压缩方案是一个有损压缩过程,重构图像不可避免地存在压缩现象。为了进一步提高重建质量,本发明在图像重建后的解码器端引入增强模块。在输入的重构图像的基础上,采用几个残差块恢复原始图像。受超分辨率网络设计策略的启发,本发明引入残差块学习高频信息,用于图像压缩。本发明首先增加一个卷积层,将信道维数从3增加到32。然后,本发明将三个增强块应用到卷积层的输出。每个增强块都有三个剩余块。最后,通过卷积层和残差运算得到重构图像。此外,解码器端增强模块可以方便地集成到整个压缩***中,并以端到端方式进行优化,效率高。学习到的图像是最终卷积层之后的输出。本发明观察到,学习到的残差图像主要包含高频信息,这意味着解码器端增强模块有助于预测高频成分。
实施例2
本发明实施例提供的显著性压缩的方法,包括:
步骤1,数据集本发明采用DUTS-TR数据集作为训练数据集,其中包含10533张图片。该数据集是显著性检测数据集中最大且最常用的数据集。对于测试数据集,本发明采用6个常用的基准数据集来评估,包括:
DUT-OMRON包括5168幅图像,其中大多数包含少量结构复杂的前景对象。DUTS-TE包含5019幅图像。HKU-IS包含4447幅图像,其中包含多个前景图像。ECSSD包含1000个结构复杂的图像,许多图片中包含大型前景对象。PASCAL-S包含850幅前景复杂且背景杂乱的图像。SOD只包含300幅图像。但其中图片前背景边界模糊、重叠,其对比度较低,分割效果较差。
步骤2,训练设置。除了最后输出层,所有卷积层均采用3*3卷积核。优化器采用Adam优化器,其中参数设置为:lr=0.001,betas=(0.9,0.999),eps=1e-08。所有模型均在实验室工作站上基于pytorch深度学习框架开发。工作站环境如下:Windows10操作***、英特尔酷睿i7-3770CPU、一块英伟达GTX1080ti显卡、256G内存、Python3.6、pytorch1.2。
步骤3,评估结果。通过PSNR和SSIM评价最终图像效果。
PSNR是图像压缩中最常用的评价指标。对于图像压缩,PSNR由最大像素值和图像见得均方误差决定。给定一张m*n的压缩前图像x,压缩后重建图像为,可以将均方误差和PSNR定义为:
当比较压缩编解码器时,PSNR近似于人类对重建质量的感知。如果位深度为8位,则有损图像和视频压缩中PSNR的典型值在30至50dB之间,越高越好。对于16位数据,PSNR的典型值在60至80dB之间。无线传输质量损失的可接受值被认为约为20dB至25dB。
SSIM的想法是测量两个图像之间的结构相似性,而不是像PSNR这样的像素间差异。基本假设是人眼对图像结构的变化更敏感。x与压缩后重建图像为y之间的SSIM可以定义为:
其中,ux或uy表示原图像x或压缩重建图像y的像素均值,σx或σy表示x或y的像素标准差值,σxy代表σx和σy之间的协方差,c1和c2表示一个常量扰动防止不稳定。
步骤4,最终结果。
通过图4实现结果展示,本发明提出的压缩模型优于BPG等算法。
在显著性区域,实现结果远优于全局压缩。
过度引入部分:
为了提高图像重建质量,本发明将损失函数分为三个部分:首先整体网路压缩存在相关误差;其次,感兴趣区域需要保留更多图像细节,本发明采用压缩模块进行压缩;背景区域不需要保留更多高频细节,本发明采用balle基准模型进行压缩。整体的损失函数为:
L=L1+αLbg+βLobj;
其中,为失真损失,/>与/>为熵损失。
下面结合工作原理对本发明的技术方案作进一步说明。
首先通过提出的显著性分割模块对数据集进行处理,生成显著性区域黑白图像。然后通过提出的压缩模块分块压缩,最后输出图片。整体网络架构如图3所示。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种显著性压缩的方法,其特征在于,所述显著性压缩的方法包括:对于显著性检测模块采用U2Net网络实现;对于图像压缩模块的架构基于基本模型,引入注意力通道方法,改进离散高斯混合模型,最后加入解码器增强模块;
所述显著性压缩的方法包括以下步骤:
步骤一,采用U2Net网络实现显著性检测模块;
步骤二,对比残差块融合局部特征与多尺度特征,提出整体网络架构;
步骤三,根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
步骤四,输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
步骤五,以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
步骤六,提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建;所述解码器增强,包括:
在图像重建后的解码器端引入增强模块;在输入的重构图像的基础上,采用几个残差块恢复原始图像;根据受超分辨率网络设计策略,引入残差块学习高频信息,用于图像压缩,包括:
增加一个卷积层,将信道维数从3增加到32;将三个增强块应用到卷积层的输出,每个增强块都有三个剩余块;通过卷积层和残差运算得到重构图像,学习到的图像是最终卷积层之后的输出;其中,学习到的所述残差图像包含高频信息;
步骤六中,所述注意力通道方法,包括:
(1)引入轻量级的注意通道模型,设输入特征映射为X,其中I、J、C分别表示特征映射的高、宽、通道维数,应用全局平均池化来获得信道统计量t∈RC,公式如下:
其中,t表示t和x的第c项c(i,j)表示输入特征映射x的第c通道特定值;
(2)应用几个非线性变换来捕捉通道之间的关系;其中,所述非线性变换的描述公式如下:
s=σ(W2δ(W1t));
其中,s指输出通道方向的注意值,和/>表示完全连接的层,δ是非线性变换的ReLU激活函数,σ表示Sigmoid激活,r设为16;
(3)用s重新缩放输入特征映射X,并在实现中添加残差操作;
步骤六中,所述改进离散高斯模型,包括:
高斯混合模型由下述公式表示:
采用离散的高斯混合模型,由高斯混合构成的熵模型由下述公式表示:
其中,i表示特征图中的位置,k表示混合高斯模型的数量;每个高斯模型有三组参数,即权重,均值,和方差;实验中,k=3,即使用3个混合高斯模型。
2.如权利要求1所述的显著性压缩的方法,其特征在于,所述显著性压缩的方法,还包括:
通过提出的显著性分割模块对数据集进行处理,生成显著性区域黑白图像;通过提出的压缩模块分块压缩,最后输出图片,包括:
(1)数据集构建:采用DUTS-TR数据集作为训练数据集,包含10533张图片;对于测试数据集,采用6个常用的基准数据集进行评估,包括:
DUT-OMRON包括5168幅图像,其中大多数包含少量结构复杂的前景对象;DUTS-TE包含5019幅图像;HKU-IS包含4447幅图像,其中包含多个前景图像;ECSSD包含1000个结构复杂的图像,许多图片中包含大型前景对象;PASCAL-S包含850幅前景复杂且背景杂乱的图像;SOD包含300幅图像;
其中,所述数据集是显著性检测数据集中最大且最常用的数据集;
(2)训练设置:除了最后输出层,所有卷积层均采用3*3卷积核;采用Adam优化器,所有模型均在实验室工作站上基于pytorch深度学习框架开发;参数设置为:lr=0.001,betas=(0.9,0.999),eps=1e-08;所述工作站环境如下:Windows10操作***、英特尔酷睿i7-3770CPU、一块英伟达GTX1080ti显卡、256G内存、Python3.6、pytorch1.2;
(3)评估结果:通过PSNR和SSIM评价最终图像效果;PSNR是图像压缩中最常用的评价指标;对于图像压缩,PSNR由最大像素值和图像见得均方误差决定;给定一张m*n的压缩前图像x,压缩后重建图像为,将均方误差和PSNR定义为:
当比较压缩编解码器时,PSNR近似于人类对重建质量的感知;如果位深度为8位,则有损图像和视频压缩中PSNR的典型值在30至50dB之间,越高越好;对于16位数据,PSNR的典型值在60至80dB之间;无线传输质量损失的可接受值被认为约为20dB至25dB;
SSIM的想法是测量两个图像之间的结构相似性,而不是像PSNR这样的像素间差异;基本假设是人眼对图像结构的变化更敏感,x与压缩后重建图像为y之间的SSIM可以定义为:
其中,ux或uy表示原图像x或压缩重建图像y的像素均值,σx或σy表示x或y的像素标准差值,σxy代表σx和σy之间的协方差,c1和c2表示一个常量扰动防止不稳定;
(4)最终结果输出。
3.如权利要求2所述的显著性压缩的方法,其特征在于,所述损失函数分为三个部分:首先整体网路压缩存在相关误差;其次,感兴趣区域需要保留更多图像细节,采用压缩模块进行压缩;背景区域不需要保留更多高频细节,采用balle基准模型进行压缩,整体的损失函数为:
L=L1+αLbg+βLobj;
其中,为失真损失,/>与/>为熵损失。
4.一种实施权利要求1~3任意一项所述的显著性压缩的方法的显著性压缩的***,其特征在于,所述显著性压缩的***包括:
显著性检测模块,用于采用U2Net网络实现显著性检测;
整体网络架构提出模块,用于通过对比残差块融合局部特征与多尺度特征,提出整体网络架构;
特征提取模块,用于根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
特征图转换模块,用于通过输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
上下文信息处理模块,用于以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;
特征融合模块,用于通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
图像压缩架构构建模块,用于通过提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建;
数据集构建模块,用于采用DUTS-TR数据集作为训练数据集,包含10533张图片;其中,所述数据集是显著性检测数据集中最大且最常用的数据集;
训练设置模块,除了最后输出层,所有卷积层均采用3*3卷积核;采用Adam优化器,所有模型均在实验室工作站上基于pytorch深度学习框架开发;
评估结果获取模块,通过PSNR和SSIM评价最终图像效果;
结果输出模块,用于将最终结果进行输出。
5.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~3任意一项所述的显著性压缩的方法。
6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~3任意一项所述的显著性压缩的方法。
7.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求4所述的显著性压缩的***。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110294081.0A CN113192147B (zh) | 2021-03-19 | 2021-03-19 | 显著性压缩的方法、***、存储介质、计算机设备及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110294081.0A CN113192147B (zh) | 2021-03-19 | 2021-03-19 | 显著性压缩的方法、***、存储介质、计算机设备及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113192147A CN113192147A (zh) | 2021-07-30 |
CN113192147B true CN113192147B (zh) | 2024-04-16 |
Family
ID=76973461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110294081.0A Active CN113192147B (zh) | 2021-03-19 | 2021-03-19 | 显著性压缩的方法、***、存储介质、计算机设备及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113192147B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592843B (zh) * | 2021-08-09 | 2023-06-23 | 北京联合大学 | 基于改进的U-Net眼底视网膜血管图像分割方法及装置 |
CN114241308B (zh) * | 2021-12-17 | 2023-08-04 | 杭州电子科技大学 | 一种基于压缩模块的轻量化遥感图像显著性检测方法 |
CN116228912B (zh) * | 2023-05-06 | 2023-07-25 | 南京信息工程大学 | 基于U-Net多尺度神经网络的图像压缩感知重建方法 |
CN117615148B (zh) * | 2024-01-24 | 2024-04-05 | 华中科技大学 | 一种基于多尺度框架的端到端特征图分层压缩方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197468A (zh) * | 2019-06-06 | 2019-09-03 | 天津工业大学 | 一种基于多尺度残差学习网络的单图像超分辨重建算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200160565A1 (en) * | 2018-11-19 | 2020-05-21 | Zhan Ma | Methods And Apparatuses For Learned Image Compression |
-
2021
- 2021-03-19 CN CN202110294081.0A patent/CN113192147B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197468A (zh) * | 2019-06-06 | 2019-09-03 | 天津工业大学 | 一种基于多尺度残差学习网络的单图像超分辨重建算法 |
Non-Patent Citations (2)
Title |
---|
涂云轩 ; 冯玉田 ; .基于多尺度残差网络的全局图像压缩感知重构.工业控制计算机.2020,(07),全文. * |
温洪发 ; 周晓飞 ; 任小元 ; 颜成钢 ; .视觉显著性检测综述.杭州电子科技大学学报(自然科学版).2020,(02),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113192147A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113192147B (zh) | 显著性压缩的方法、***、存储介质、计算机设备及应用 | |
Cavigelli et al. | CAS-CNN: A deep convolutional neural network for image compression artifact suppression | |
Liu et al. | Data-driven soft decoding of compressed images in dual transform-pixel domain | |
Jamil et al. | Learning-driven lossy image compression: A comprehensive survey | |
CN103167284B (zh) | 一种基于画面超分辨率的视频流传输方法及*** | |
WO2019001095A1 (zh) | 一种视频编码方法、解码方法、装置及电子设备 | |
Zhu et al. | Generative adversarial image super‐resolution through deep dense skip connections | |
CN111970509B (zh) | 一种视频图像的处理方法、装置与*** | |
CN113516601A (zh) | 基于深度卷积神经网络与压缩感知的图像恢复技术 | |
Wang et al. | Semantic perceptual image compression with a Laplacian pyramid of convolutional networks | |
CN112950480A (zh) | 一种融合多感受野和密集残差注意的超分辨率重建方法 | |
Chen et al. | Image denoising via deep network based on edge enhancement | |
CN113379858A (zh) | 一种基于深度学习的图像压缩方法及装置 | |
Ma et al. | CVEGAN: a perceptually-inspired gan for compressed video enhancement | |
CN110288529B (zh) | 一种基于递归局部合成网络的单幅图像超分辨率重建方法 | |
Zhang et al. | Feature compensation network based on non-uniform quantization of channels for digital image global manipulation forensics | |
Khmelevskiy et al. | Model of Transformation of the Alphabet of the Encoded Data as a Tool to Provide the Necessary Level of Video Image Qualityi in Aeromonitoring Systems. | |
TWI826160B (zh) | 圖像編解碼方法和裝置 | |
CN113191947B (zh) | 一种图像超分辨率的方法及*** | |
WO2023050433A1 (zh) | 视频编解码方法、编码器、解码器及存储介质 | |
Mustafa et al. | A comparative study on the loss functions for image enhancement networks | |
CN117676149B (zh) | 一种基于频域分解的图像压缩方法 | |
Kaur et al. | Algorithm for fuzzy based compression of gray JPEG images for big data storage | |
CN111031312B (zh) | 基于网络实现注意力机制的图像压缩方法 | |
Ciolino | Image Compression and Actionable Intelligence With Deep Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |