CN112750175B - 基于八度卷积和语义分割的图像压缩方法及*** - Google Patents
基于八度卷积和语义分割的图像压缩方法及*** Download PDFInfo
- Publication number
- CN112750175B CN112750175B CN202110038512.7A CN202110038512A CN112750175B CN 112750175 B CN112750175 B CN 112750175B CN 202110038512 A CN202110038512 A CN 202110038512A CN 112750175 B CN112750175 B CN 112750175B
- Authority
- CN
- China
- Prior art keywords
- image
- convolution
- semantic segmentation
- octave
- original image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 95
- 230000006835 compression Effects 0.000 title claims abstract description 55
- 238000007906 compression Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000005070 sampling Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims 1
- 239000010410 layer Substances 0.000 description 44
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Abstract
本公开提供了一种基于八度卷积和语义分割的图像压缩方法及***,所述方案包括:利用预训练的语义分割网络生成原始图像的语义分割图;将所述语义分割图和原始图像作为第一组八度卷积网络的输入,生成图像的压缩表示;对所述压缩表示进行上采样,并将其与所述语义分割图作为第二组八度卷积网络的输入,得到原始图像估计值;计算原始图像与所述原始图像估计值间的残差,并对所述残差进行有损编码,将原始图像估计值与解码后的残差图像相加,得到最终的重建图像。通过将语义分割图的输入可以指导图像空间上的比特流的分配,利用八度卷积网络针对图像空间中的高频信息和低频信息进行单独优化,在保证压缩率的同时,可以有效合成高质量、高细节的图像。
Description
技术领域
本公开涉及计算机视觉技术领域,特别是涉及基于八度卷积和语义分割的图像压缩方法及***。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
随着信息技术突飞猛进的发展,互联网上出现越来越多的多媒体数据,高质量的多媒体内容开始大量普及。如何对这些数据进行处理来提高传输效率以及降低存储成本成为了一个极为重要的问题。对于图像方面,大量的图像产生巨大数据量给存储和传输都带来极大的挑战,合理的进行图像压缩有利于减小存储压力,提高传输能力,图像压缩技术受到了越来越多的关注。
图像之所以能够进行压缩是因为存在很大的数据冗余,图像的冗余主要包含空间冗余、频率冗余、信息熵冗余等。图像压缩的目的就是去尽量减小这些冗余。图像压缩技术包含有损图像压缩和无损图像压缩技术。无损压缩技术就是运用适当的编码技术,使得像素之间的联系被几乎完整的保留下来,所以图像更精确,但这样以来压缩比率比较小,占用空间较大。由于人的肉眼具有视觉上的冗余,对于一些极细的信息感知不敏感,人眼允许图像编码上可以有一定的失真,这使得有损图像压缩的运用成为可能,对于一些不需要很高精确度或者压缩后不影响表达内容的图像,在保证观感质量的同时,可以使用有损图像压缩技术,能够进一步的减小存储资源的占用。
发明人发现,传统的有损图像压缩***通常由编码器、量化器和解编码器组成,编码器对图像进行编码,量化器通过对数据进行量化来减小存储空间,然后进行熵编码来进一步的压缩数据,最后通过反量化,进入解码器来恢复图像。最经典的算法有JPEG和JPEG2000等。前者采用离散余弦变换将图像分成数据块进行编码,解码器端采用DCT反变换来生成图像。而JPEG2000改用小波变换作为编码器。JPEG2000对于JPEG的优点在于解压缩后没有块状颗粒失真的效果,但JPEG2000主要是模糊失真。JPEG2000性能比JPEG提高大约20%,在极高压缩比的情况下,优势较为明显。WebP则是谷歌公司2010年推出的一款同时支持有损和无损的图像压缩技术,以VP8为编码内核。而BPG以HEVC为编码内核,在相同分辨率下,BPG文件大小是JPEG的一半,尽管BPG十分优秀,但高昂的专利费导致其无法大量普及。这些传统的图像压缩方案依赖于对编码器的单独优化,处理流程较为复杂,有时在细节还原等方面不尽人意,通常伴随着伪影、模糊等缺点,对于低数据率的图像压缩的性能也较差。
发明内容
本公开为了解决上述问题,提供了一种基于八度卷积和语义分割的图像压缩方法及***;所述方案通过将语义分割图作为辅助输入可以指导图像空间上的比特流的分配,并且引入八度卷积网络针对图像空间中的高频信息和低频信息进行单独的优化,在保证压缩率的同时,可以进一步合成高质量、高细节的图像。
根据本公开实施例的第一方面,提供了一种基于八度卷积和语义分割的图像压缩方法,包括:
利用预训练的语义分割网络生成原始图像的语义分割图,并对其进行无损编码;
将编码后的所述语义分割图和原始图像作为第一组八度卷积网络的输入,生成图像的压缩表示,并对其进行无损编码;对所述压缩表示进行上采样,并将其与所述语义分割图作为第二组八度卷积网络的输入,得到原始图像估计值;
计算原始图像与所述原始图像估计值间的残差,并对所述残差进行有损编码,将原始图像估计值与解码后的残差图像相加,得到最终的重建图像。
根据本公开实施例的第二个方面,提供了一种基于八度卷积和语义分割的图像压缩***,包括:
语义分割图获取单元,其用于利用预训练的语义分割网络生成原始图像的语义分割图,并对其进行无损编码;
编码单元,其用于将所述语义分割图和原始图像作为第一组八度卷积网络的输入,生成图像的压缩表示,并对其进行无损编码;对所述压缩表示进行上采样,并将其与所述语义分割图作为第二组八度卷积网络的输入,得到原始图像估计值;同时,计算原始图像与所述原始图像估计值间的残差,并对所述残差进行有损编码。
解码单元,其用于将原始图像估计值与解码后的残差图像相加,得到最终的重建图像。
根据本公开实施例的第三个方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,执行上述的一种基于八度卷积和语义分割的图像压缩方法。
根据本公开实施例的第四个方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述的一种基于八度卷积和语义分割的图像压缩方法。
与现有技术相比,本公开的有益效果是:
(1)本公开提出了一种基于八度卷积和语义分割图的图像压缩框架,由深度学习网络提取的语义分割图作为辅助输入可以进一步的指导图像空间上的比特流的分配,并且引入八度卷积网络针对图像空间中的高频信息和低频信息进行单独的优化,在保证压缩率的同时,可以进一步合成高质量、高细节的图像。
(2)本公开所述方案通过八度卷积(OctConv)用于替换掉传统的卷积层,在提高识别精度的同时减小了算力以及存储空间;并且OctConv模块化,即插即用十分方便,在提升效率的同时,节约计算资源的消耗。由自然图像中得到的启发,卷积层的输出也可以根据其空间频率分为高频和低频信息,平缓变化的低频信息可以进一步压缩以节省空间,减小冗余;同时OctConv也有利于每一层获得更大的接受域,可以捕获更多的上下文信息;OctConv将卷积核分成四块,形成一个卷积立体块,不仅同频之间的特征数据可以进行交流,高频和低频之间也可以进行有效通信,提高了重建图像的质量。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开实施例一中所述的基于八度卷积和语义分割的图像压缩方法的***结构图;
图2为本公开实施例一中所述的编码器网络(ComNet网络)的结构图;
图3为本公开实施例一中所述的八度卷积第一层的结构图;
图4为本本公开实施例一中所述的八度卷积中间层的结构图;
图5为本公开实施例一中所述的八度卷积最后一层的结构图;
图6为本公开实施例一中所述的GNet网络的结构图;
图7为本公开实施例一中所述的鉴别器网络Dnet结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释:
语义分割图:由预训练的SegNet网络进行提取,得到原始图像的语义分割图;利用语义分割图作为编码器的输入流,可以在图像空间上指导比特流的分配,使生成的图像的上下文更加精准。
八度卷积:卷积网络所生成的特征图在维度中也存在大量冗余,由于中间层输出的特征图本身就是高频信息和低频信息的混合体,每个位置独立存储自己的特征描述,这无疑增加了运算量和存储空间。图像压缩目的就是让高频信息尽可能的保留细节,让平滑的低频信息得到进一步的压缩,而八度卷积刚好做到了这一点。最近推出的八度卷积(OctConv)用于替换掉传统的卷积层,在提高识别精度的同时减小了算力以及存储空间。并且OctConv模块化,即插即用十分方便,在提升效率的同时,节约计算资源的消耗。由自然图像中得到的启发,卷积层的输出也可以根据其空间频率分为高频和低频信息,平缓变化的低频信息可以进一步压缩以节省空间,减小冗余。这与我们的图像压缩的目的不谋而合,同时OctConv也有利于每一层获得更大的接受域,可以捕获更多的上下文信息。OctConv将卷积核分成四块,形成一个卷积立体块。不仅同频之间的特征数据可以进行交流,高频和低频之间也可以进行有效通信,提高重建图像的质量。
生成对抗网络:生成对抗网络(Generative Adversarial Network这里简称GAN)在生成具有更好视觉质量的图像方面显示了巨大的成功。GAN由Ian Goodfellow首先提出,包含一个生成器网络和判别器网络,生成器和判别器相互促进,其中生成器要尽可能的生成接近真实的图像去“骗过”判别器。而判别器则是尽可能把生成的图像和真实的图像区分。这样生成器和判别器就构成了一个动态的“博弈过程”。解编码器部分采用GAN来辅助生成高质量的重建。
感知损失:感知损失也在图像的生成中被广泛运用,感知损失的方法不是基于像素域比较的失真,而是特征空间的纹理“相似”。它是将真实图片卷积得到的中间层的featuremap与生成图片卷积得到的featuremap作比较,使得高层信息(内容和全局结构)更加接近,增强细节,使生成的图像更加自然。本文采用了基于GAN的感知损失以及基于VGG-19网络的感知损失。
在过去的几年里,得益于算力的大幅度提高以及大数据时代的到来。深度学***稳变化的低频信息和快速变化的高频信息,八度卷积认为卷积层输出的featuremap也可以分解为高频和低频信息,分解之后低频的特征所占的描述符就自然的可以被进一步压缩,降低空间占用,提高高频信息的占比。此外,与普通卷积相比,八度卷积有效地将接收域扩大了2倍。进一步帮助每个层从更远的位置捕获更多的上下文信息,来提高性能。
实施例一:
本实施例的目的是提供一种基于八度卷积和语义分割的图像压缩方法。
一种基于八度卷积和语义分割的图像压缩方法,包括:
利用预训练的语义分割网络生成原始图像的语义分割图,并对其进行无损编码;
将所述语义分割图和原始图像作为第一组八度卷积网络的输入,生成图像的压缩表示,并对其进行无损编码;对所述压缩表示进行上采样,并将其与所述语义分割图作为第二组八度卷积网络的输入,得到原始图像估计值;
计算原始图像与所述原始图像估计值间的残差,并对所述残差进行有损编码,将原始图像估计值与解码后的残差图像相加,得到最终的重建图像。
具体的,如图1所示,本申请采用分层压缩的方式,通过预训练的SegNet获取输入图像的语义分割图s,将其编码为比特流的底层,然后和原始图像x一起作为第一组八度卷积网络(即ComNet网络)的输入,生成图像的压缩表示c,并且将该压缩表示c编码为第一增强层;解码器端则采用GAN生成图像的粗略重建x’,其中,生成器网络GNet以语义分割图s和压缩图c作为输入,最后输入图像x和粗略重建x’之间的残差r被编码为第二增强层;在恢复图像的过程中,语义分割图s和压缩图c分别解编码,输入到GNet中生成粗略重建x’,然后解编码残差r,x’与r相加得到最终的重建图像,需要说明的是,此处的语义分割图s和压缩图c均使用FLIF进行无损编码;
进一步的,所述语义分割图由预训练的SegNet网络进行提取,得到原始图像的语义分割图s。经过one-hot编码,得到一个151通道(训练集ADE20K包含151个语义标签)、大小与原始图像相同的张量。然后与原始图像x一起,组成154×h×w的张量,作为编码器ComNet的输入。在解码器部分,语义分割图和低维压缩表示c,一起作为GNet的输入,来进一步指导生成图像过程中特征空间上的比特流的分配。
进一步的,所述ComNet网络是由数个八度卷积模块(以下称OctConv)组成的卷积网络,它将高频信息与低频信息区分开来,以达到进一步压缩低频特征的目的。使用一个系数α,将特征图因式分解为XH和XL,其中高频分量XH不做处理,低频信息XL是进行t=2的高斯滤波得到的通道。OctConv节约了存储和运算,减少了特征空间上的冗余;同时,OctConv有利于每一层获得更大的接受域,捕获更多的上下文信息,能够有效保持原始图像的框架,具体的,所述ComNet网络的具体结构如下:
ComNet网络由三层OctConv构成,每一层通过两个参数αin和αout来控制低高频的输入通道和输出通道。首先进行一次卷积操作得到64×h×w大小的矩阵,其中卷积核为64×7×7,stride=1,并且采用镜像填充(ReflectionPad=3)以便保持第一层的维度不变,然后进行instance normalization和ReLU激活。之后进入OctConv层。
其中第一层如图2所示,αin=0,αout=0.75。一开始输入只有一个X,然后通过两个卷积操作f(XH;WH→H)和f(pool(XH,2);WH→L),得到高频部分YH以及低频部分YL,这包括两个卷积核,其中WH→H大小为32×3×3,WH→L大小为96×3×3,而f(pool(XH,2);WH→L)是将高频汇合到低频信息中,先通过一个stride=2的平均池化,然后进行卷积。
第二层的结构如图4所示。αin=αout=0.75,YH=f(XH;WH→H)+upsample(f(XL;WL→H),2),YL=f(XL;WL→L)+f(pool(XH,2);WH→L),这包括四个卷积核,WH→H和WL→H大小为64×3×3,WH →L和WL→L为192×3×3,其中upsample(f(XL;WL→H),2)是将低频信息汇合到高频信息,先进行卷积,然后使用最近邻插值法进行一个上采样。
最后需要从两个输入恢复出一个输出,如图5所示。此时αout为0,通过f(XH;WH→H)和upsample(f(XL;WL→H),2)两个操作得到单独输出YH。然后经过最后一次卷积得到3通道的矩阵。以上过程除了最后一层之外,均使用batchnormalization和ReLU激活函数,最后一层则使用Tanh激活函数以便生成低维压缩图像c,同时为了固定下采样因子为8,以上三次下采样过程中stride=2,padding=1。
进一步的,为了提高重建图像的精度,低维版本c经过上采样(这里采用插值法)后得到c’,与语义分割图s共同作为第二组卷积网络(GNet网络)的输入,去尝试重建图像x’,x’是对原始图像的估计。其中,GNet是一个残差网络,包含GAN的鉴别器部分,用于学习低维版本c’所丢失的信息。GNet的输出x’与原始图像的残差被记作r,其学习的目的之一就是去降低残差r,最后将r通过BPG进行有损编码;在解码器部分的GNet部分,本申请采用GAN来生成高质量的重建图像,为了细节的真实而不是单纯的像素比对,同时采用预训练的VGG网络和基于GAN的感知损失来提高高层的纹理与细节;具体的,所述GNet网络的具体结构如下:
GNet如图6所示,语义分割图s与低维压缩表示的c的上采样版本一同作为网络的输入,其中第一层卷积层包含stride=1的64×7×7的卷积核,然后进行instancenormalization和ReLU激活。第2到4层依次包含生成128、256、512通道的OctConv层,结构与ComNet类似,这里不再赘述。为了增强图像信息以及防止梯度消失,中间采用了9个残差块,每一个残差块包含两层卷积层,每层包含512个3×3的卷积核,采用镜像填充(ReflectionPad=3)。之后的3层包含生成256、128、64通道的转置八度卷积层,αin=αout=0.75,其中第一层包含两个卷积核,WH→H大小为64×3×3,WH→L大小为192×3×3,第二层包含四个卷积核,WH→H和WL→H为32×3×3,WH→L和WL→L为96×3×3,第三层包含两个卷积核,WH→H为16×3×3,WL→H为48×3×3。最后一层则是3×3×3的卷积,stride=1,用于输出3通道的图像。
进一步的,所述GNet网络中所包含的生成对抗网络鉴别器DNet的具体设置如下:
对于模型的生成对抗性训练,本实施例中使用了两个在不同尺度空间上判别器,分别为的D1和D2。D1在原尺度上进行训练,可以引导生成器在图像中合成上拥有更加丰富的细节;D2则使用2×向下采样的图像操作,去辅助合成图像的框架结构。这两个鉴别器的结构如图7。每一层为K×4×4卷积层,stride=2,然后进行instance normalization和LeakyReLU激活,其中K分别为64、128、256、512。为了产生一维输出,在鉴别器D的最后一层之后使用带1个滤波器的卷积层。
进一步的,通过数学公式的形式对本公开所述方案进行说明:
s=segNet(x) (1)
c=CompNet(s,x) (2)
然后将c上采样,与语义分割图一起作为GNet的输入,以重建图像x’,其中f∈Rh ×w×k为GNet学到的残差信息,然后将其与c’相加。
c'=upsample(c) (3)
f=GNet(c',s),x'=f+c' (4)
对于x和x’之间的误差我们使用不同损失函数的组合测量,其中包括L1、LSSIM、LVGG和GAN损失。其中L1损失函数如下:
L1=2λ||x-x'||1 (5)
它是将目标值x与估计值x’的绝对差值的总和最小化,然后取绝对值,是基于像素来比较差异。
SSIM损失是基于图像结构的一种对比,能够有效的衡量结构的相似性,采用SSIM损失能够显著的提高重建图像的质量。函数如下:
LSSIM==I(x,x').C(x,x').S(x,x') (6)
亮度I、对比度C和结构S计算公式为:
μx和μx’是x和x’的平均值,σx和σx’是标准差,σxx’为相关系数。C1、C2和C3是用于数值稳定性的常数。
除此之外,本文也采用了预训练的VGG网络
的感知特征匹配损失。适当的选取某个层输出的特征输入感知损失函数可以增强细节,基于VGG的损失计算如下:
其中Vj表示从VGG的第j层提取的特征。
鉴别器D(也就是DNet)的损失函数为:
生成器G(也就是GNet)的损失函数为:
最后的目标函数为以上所有损失函数的集合:
L=2λL1+λLSSIM+λLVGG+λLD+λLG (11)
其中λ为各函数的权值,这里设为10。
实施例二:
本实施例的目的是提供一种基于八度卷积和语义分割的图像压缩***。
一种基于八度卷积和语义分割的图像压缩***,包括:
语义分割图获取单元,其用于利用预训练的语义分割网络生成原始图像的语义分割图,并对其进行无损编码;
编码单元,其用于将所述语义分割图和原始图像作为第一组八度卷积网络的输入,生成图像的压缩表示,并对其进行无损编码;对所述压缩表示进行上采样,并将其与所述语义分割图作为第二组八度卷积网络的输入,得到原始图像估计值;同时,计算原始图像与所述原始图像估计值间的残差,并对所述残差进行有损编码。
解码单元,其用于将原始图像估计值与解码后的残差图像相加,得到最终的重建图像。
实施例三:
本实施例的目的是提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,执行上述的一种基于八度卷积和语义分割的图像压缩方法,包括:
利用预训练的语义分割网络生成原始图像的语义分割图,并对其进行无损编码;
将所述语义分割图和原始图像作为第一组八度卷积网络的输入,生成图像的压缩表示,并对其进行无损编码;对所述压缩表示进行上采样,并将其与所述语义分割图作为第二组八度卷积网络的输入,得到原始图像估计值;
计算原始图像与所述原始图像估计值间的残差,并对所述残差进行有损编码,将原始图像估计值与解码后的残差图像相加,得到最终的重建图像。
实施例四:
根据本公开实施例的第四个方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述的一种基于八度卷积和语义分割的图像压缩方法,包括:
利用预训练的语义分割网络生成原始图像的语义分割图,并对其进行无损编码;
将所述语义分割图和原始图像作为第一组八度卷积网络的输入,生成图像的压缩表示,并对其进行无损编码;对所述压缩表示进行上采样,并将其与所述语义分割图作为第二组八度卷积网络的输入,得到原始图像估计值;
计算原始图像与所述原始图像估计值间的残差,并对所述残差进行有损编码,将原始图像估计值与解码后的残差图像相加,得到最终的重建图像。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于八度卷积和语义分割的图像压缩方法,其特征在于,包括:
利用预训练的语义分割网络生成原始图像的语义分割图,并对其进行无损编码;
将所述语义分割图和原始图像作为第一组八度卷积网络的输入,生成图像的压缩表示,并对其进行无损编码;对所述压缩表示进行上采样,并将其与所述语义分割图作为第二组八度卷积网络的输入,得到原始图像估计值;
所述第一组八度卷积网络采用ComNet网络,所述ComNet网络具有三层八度卷积,每一层八度卷积对原始图像进行一次下采样,分别生成128、256、512通道的特征图;
所述ComNet网络由三层OctConv构成,每一层通过两个参数αin和αout来控制低高频的输入通道和输出通道;首先进行一次卷积操作得到64×h×w大小的矩阵,其中卷积核为64×7×7,stride=1,并且采用镜像填充(ReflectionPad=3)以便保持第一层的维度不变,然后进行instance normalization和ReLU激活;之后进入OctConv层;
其中第一层αin=0,αout=0.75;一开始输入只有一个X,然后通过两个卷积操作f(XH;WH →H)和f(pool(XH,2);WH→L),得到高频部分YH以及低频部分YL,这包括两个卷积核,其中WH→H大小为32×3×3,WH→L大小为96×3×3,而f(pool(XH,2);WH→L)是将高频汇合到低频信息中,先通过一个stride=2的平均池化,然后进行卷积;
第二层αin=αout=0.75,YH=f(XH;WH→H)+upsample(f(XL;WL→H),2),YL=f(XL;WL→L)+f(pool(XH,2);WH→L),这包括四个卷积核,WH→H和WL→H大小为64×3×3,WH→L和WL→L为192×3×3,其中upsample(f(XL;WL→H),2)是将低频信息汇合到高频信息,先进行卷积,然后使用最近邻插值法进行一个上采样;
最后需要从两个输入恢复出一个输出,此时αout为0,通过f(XH;WH→H)和upsample(f(XL;WL→H),2)两个操作得到单独输出YH;然后经过最后一次卷积得到3通道的矩阵;以上过程除了最后一层之外,均使用Batch Normalization和ReLU激活函数,最后一层则使用Tanh激活函数以便生成低维压缩图像c,同时为了固定下采样因子为8,以上三次下采样过程中stride=2,padding=1;
所述第二组八度卷积网络采用GNet网络,所述GNet网络包含下采样层、残差网络块、上采样层三部分,其中下采样层基于八度卷积设计,包含三层卷积层,分别输出128、256、512通道的特征图;所述残差网络块包含9个残差网络,每个残差网络包含两个卷积层;所述上采样部分基于八度转置卷积设计,在减少通道数的过程中,上采样得到与原始图像大小相同的生成图;
所述GNet的第一层卷积层包含stride=1的64×7×7的卷积核,然后进行instancenormalization和ReLU激活;第2到4层依次包含生成128、256、512通道的OctConv层;为了增强图像信息以及防止梯度消失,中间采用了9个残差块,每一个残差块包含两层卷积层,每层包含512个3×3的卷积核,采用镜像填充(ReflectionPad=3);之后的3层包含生成256、128、64通道的转置八度卷积层,αin=αout=0.75,其中第一层包含两个卷积核,WH→H大小为64×3×3,WH→L大小为192×3×3,第二层包含四个卷积核,WH→H和WL→H为32×3×3,WH→L和WL →L为96×3×3,第三层包含两个卷积核,WH→H为16×3×3,WL→H为48×3×3;最后一层是3×3×3的卷积,stride=1,用于输出3通道的图像;
计算原始图像与所述原始图像估计值间的残差,并对所述残差进行有损编码,将原始图像估计值与解码后的残差图像相加,得到最终的重建图像。
2.如权利要求1所述的一种基于八度卷积和语义分割的图像压缩方法,其特征在于,所述语义分割网络采用SegNet网络,原始图像通过预训练的SegNet输出语义分割图,将其编码为比特流的底层,然后使其与原始图像共同作为ComNet输入,以生成原始图像的低维表示。
3.如权利要求2所述的一种基于八度卷积和语义分割的图像压缩方法,其特征在于,所述语义分割图和原始图像的低维表示均使用FLIF进行无损编码。
4.如权利要求1所述的一种基于八度卷积和语义分割的图像压缩方法,其特征在于,所述八度卷积层的结构包括:四个卷积核分别对应两个不同频率的分量的计算:XH→YH,XH→YL,XL→YH,XL→YL,其中XH→YL过程为了使低频维度减半,采用步长为2的平均池化,而XL→YH中为了使维度增加,先进行基于最临近插值法进行上采样,在进行卷积操作。
6.一种基于八度卷积和语义分割的图像压缩***,其基于如权利要求1-5任一项所述的一种基于八度卷积和语义分割的图像压缩方法,其特征在于,包括:
语义分割图获取单元,其用于利用预训练的语义分割网络生成原始图像的语义分割图,并对其进行无损编码;
编码单元,其用于将所述语义分割图和原始图像作为第一组八度卷积网络的输入,生成图像的压缩表示,并对其进行无损编码;对所述压缩表示进行上采样,并将其与所述语义分割图作为第二组八度卷积网络的输入,得到原始图像估计值;同时,计算原始图像与所述原始图像估计值间的残差,并对所述残差进行有损编码;
解码单元,其用于将原始图像估计值与解码后的残差图像相加,得到最终的重建图像。
7.一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,其特征在于,所述计算机指令被处理器运行时,执行如权利要求1-5任一项所述的一种基于八度卷积和语义分割的图像压缩方法。
8.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时,完成如权利要求1-5任一项所述的一种基于八度卷积和语义分割的图像压缩方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110038512.7A CN112750175B (zh) | 2021-01-12 | 2021-01-12 | 基于八度卷积和语义分割的图像压缩方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110038512.7A CN112750175B (zh) | 2021-01-12 | 2021-01-12 | 基于八度卷积和语义分割的图像压缩方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112750175A CN112750175A (zh) | 2021-05-04 |
CN112750175B true CN112750175B (zh) | 2022-07-08 |
Family
ID=75650916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110038512.7A Expired - Fee Related CN112750175B (zh) | 2021-01-12 | 2021-01-12 | 基于八度卷积和语义分割的图像压缩方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750175B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113660486A (zh) * | 2021-07-28 | 2021-11-16 | 阿里巴巴(中国)有限公司 | 图像编码、解码、重建、分析方法、***及电子设备 |
CN115424247B (zh) * | 2022-06-24 | 2023-04-25 | 中国农业科学院农业信息研究所 | 一种采用cbam与八度卷积改进yolov5的温室番茄识别与检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110880193A (zh) * | 2019-12-03 | 2020-03-13 | 山东浪潮人工智能研究院有限公司 | 一种利用深度语义分割技术的图像压缩方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111246217B (zh) * | 2020-01-19 | 2022-02-01 | 中国石油大学(华东) | 基于八度卷积的压缩视频动作识别方法 |
-
2021
- 2021-01-12 CN CN202110038512.7A patent/CN112750175B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110880193A (zh) * | 2019-12-03 | 2020-03-13 | 山东浪潮人工智能研究院有限公司 | 一种利用深度语义分割技术的图像压缩方法 |
Non-Patent Citations (2)
Title |
---|
《Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution》;Yunpeng Chen等;《COMPUTER VISION AND PATTERN RECOGNITION》;20190818;第1-12页 * |
《DSSLIC: Deep Semantic Segmentation-based Layered Image Compression》;Mohammad Akbari等;《COMPUTER VISION AND PATTERN RECOGNITION》;20190418;第1-12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112750175A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Energy compaction-based image compression using convolutional autoencoder | |
Cheng et al. | Deep convolutional autoencoder-based lossy image compression | |
CN111988609A (zh) | 图像编码装置、概率模型生成装置和图像解码装置 | |
CN112750175B (zh) | 基于八度卷积和语义分割的图像压缩方法及*** | |
CN109996073B (zh) | 一种图像压缩方法、***、可读存储介质及计算机设备 | |
CN114449276B (zh) | 一种基于学习的超先验边信息补偿图像压缩方法 | |
CN113259676A (zh) | 一种基于深度学习的图像压缩方法和装置 | |
Chang et al. | Thousand to one: Semantic prior modeling for conceptual coding | |
Fu et al. | An extended hybrid image compression based on soft-to-hard quantification | |
Jiang et al. | Multi-modality deep network for extreme learned image compression | |
CN112991169B (zh) | 基于图像金字塔和生成对抗网络的图像压缩方法及*** | |
Boopathi et al. | Image compression: Wavelet transform using radial basis function (rbf) neural network | |
Jiang et al. | An untrained neural network prior for light field compression | |
Guo et al. | Deep scalable image compression via hierarchical feature decorrelation | |
Garg et al. | Analysis of different image compression techniques: a review | |
Hill et al. | Transform and bitstream domain image classification | |
CN113344786B (zh) | 基于几何生成模型的视频转码方法、装置、介质和设备 | |
Sebai | Multi-rate deep semantic image compression with quantized modulated autoencoder | |
Putra et al. | Intra-frame based video compression using deep convolutional neural network (dcnn) | |
Mao et al. | Learning to predict on octree for scalable point cloud geometry coding | |
Keser | An Image Compression Method Based on Subspace and Downsampling | |
CN117615148B (zh) | 一种基于多尺度框架的端到端特征图分层压缩方法 | |
WO2023178662A1 (en) | Image and video coding using multi-sensor collaboration and frequency adaptive processing | |
Lu et al. | 3D Snapshot: Invertible Embedding of 3D Neural Representations in a Single Image | |
Garg et al. | Various Image Compression Techniques: A Review. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220708 |