CN115361559A - 图像编码方法、图像解码方法、装置以及存储介质 - Google Patents
图像编码方法、图像解码方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN115361559A CN115361559A CN202210772560.3A CN202210772560A CN115361559A CN 115361559 A CN115361559 A CN 115361559A CN 202210772560 A CN202210772560 A CN 202210772560A CN 115361559 A CN115361559 A CN 115361559A
- Authority
- CN
- China
- Prior art keywords
- feature
- transformation
- quantization
- image encoding
- encoding method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 238000013139 quantization Methods 0.000 claims abstract description 106
- 230000009466 transformation Effects 0.000 claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000009467 reduction Effects 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 8
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/12—Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Discrete Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种图像编码方法、图像解码方法、装置以及计算机存储介质,该图像编码方法包括:获取待处理图像的待编码特征;对所述待编码特征进行特征变换,得到变换特征,其中,所述变换特征的特征维度低于所述待编码特征的特征维度;基于配置参数,将所述变换特征进行量化处理,得到量化特征;对所述量化特征进行特征编码,得到特征码流。本申请的图像编码方法能够通过简单有效的量化方式,进一步提升特征的编码率。
Description
技术领域
本申请涉及特征编码技术领域,特别是涉及一种图像编码方法、图像解码方法、装置以及计算机存储介质。
背景技术
传统的图像编码技术是针对人类视觉特性设计的,而随着深度神经网络在各项机器视觉任务中展现出的优越性能,例如图像分类、目标检测、语义分割等,涌现出大量基于机器视觉的人工智能应用。为了保证机器视觉任务的性能不因图像编码过程而受损,采取先分析后编码的模式应对机器视觉需求,即在图像获取端直接将无损的图像通过神经网络进行特征提取,然后对所提取的特征进行编码传输,解码端直接利用解码后的特征输入到后续网络结构中完成不同的机器视觉任务。因此,为了节省传输带宽资源,需要研究针对机器视觉的图像编码方法。
目前的特征编码算法主要有两大类:基于传统的编码方法和基于学习的方案。其中基于传统的编码方法主要有以下几种,一是通过使用低精度的数据类型来替代高精度的数据类型,从而减少原始特征数据所占用的空间,但是其本质上并不是真正的对特征数据的编码,而是从计算机存储的角度来实现的;二是通过降维的方式,例如PCA(主成分分析法),来提取原始特征数据的主要数据成分信息,从而可以使用低维度的数据来大体上表示原始数据的信息,属于有损编码。三是混合编码器方案,即先将深度特征进行量化,然后使用例如高效率视频编码(HEVC)、H.266/VVC等编码器对量化后的特征进行有损编码。该方案的缺点在于,混合编码器的有损编码降质与特征在进行视觉分析任务时性能的降质不一致,会导致特征无法提供视觉分析需要的重要信息。
发明内容
本申请提供一种图像编码方法、图像解码方法、图像编码装置以及计算机存储介质。
本申请采用的一个技术方案是提供一种图像编码方法,所述图像编码方法包括:
获取待处理图像的待编码特征;
对所述待编码特征进行特征变换,得到变换特征,其中,所述变换特征的特征维度低于所述待编码特征的特征维度;
基于配置参数,将所述变换特征进行量化处理,得到量化特征;
对所述量化特征进行特征编码,得到特征码流。
其中,所述对所述待编码特征进行特征变换,得到变换特征,包括:
将所述待编码特征输入降维网络,通过所述降维网络的卷积层和/或全连接层对所述待编码特征进行下采样,得到所述变换特征。
其中,所述降维网络的卷积层为一维卷积层或二维卷积层。
其中,所述降维网络还包括空间特征变换子网络、通道注意力机制子网络、自注意力机制子网络中的一种或多种。
其中,所述将所述待编码特征输入降维网络,包括:
将所述待编码特征依次输入所述降维网络的若干降维子网络,每个所述降维层子网络包括依次串联的全连接层、归一化层以及激活层。
其中,所述对所述待编码特征进行特征变换,得到变换特征,包括:
基于无监督类降维算法和有监督类降维算法中的至少一种,对所待编码特征进行特征稀疏化处理,得到所述变换特征。
其中,所述基于配置参数,将所述变换特征进行量化处理,得到量化特征,包括:
获取预设线性变换函数,并基于所述配置参数,对所述预设线性变换函数中的非学习参数进行赋值;
利用赋值后的预设线性变换函数以及预设比特深度,对所述变换特征进行映射,得到所述量化特征。
其中,所述利用赋值后的预设线性变换函数以及预设比特深度,对所述变换特征进行映射,得到所述量化特征之前,所述图像编码方法还包括:
采用预设非线性函数对所述变换特征进行非线性变换,得到非线性变换后的变换特征。
其中,所述基于配置参数,将所述变换特征进行量化处理,得到量化特征之后,
所述图像编码方法,还包括:
对所述量化特征进行反量化处理,得到反量化特征;
基于所述变换特征和所述反量化特征的差异信息,获取量化损失值;
利用所述量化损失值对所述预设线性变换函数中的学习参数进行训练。
其中,所述基于配置参数,将所述变换特征进行量化处理,得到量化特征之后,所述图像编码方法还包括:
利用熵编码模型,对所述量化特征的上下文特征信息进行提取;
基于所述量化特征的上下文特征信息对所述量化特征进行预测,得到所述量化特征的熵编码特征;
基于所述熵编码特征进行特征编码,得到所述特征码流。
其中,所述熵编码模型包括采用超先验网络构建的概率模型,其中,所述概率模型为单高斯模型、混合高斯模型、拉普拉斯模型、逻辑回归模型中的其中一个或多个的组合模型。
本申请采用的另一个技术方案是提供一种图像解码方法,所述图像解码方法包括:
对特征码流进行特征解码得到解码特征;
基于配置参数,将所述解码特征进行反量化处理,得到反量化特征;
对所述反量化特征进行特征反变换,得到反变换特征,其中,所述反变换特征的特征维度高于所述反量化特征的特征维度;
对所述反变换特征进行特征重建,得到重建图像。
本申请采用的另一个技术方案是提供一种图像编码装置,所述图像编码装置包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的图像编码方法。
本申请采用的另一个技术方案是提供一种图像解码装置,所述图像解码装置包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的图像解码方法。
本申请采用的另一个技术方案是提供一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如上述的图像编码方法和/或图像编码方法。
本申请的有益效果是:图像编码装置获取待处理图像的待编码特征;对所述待编码特征进行特征变换,得到变换特征,其中,所述变换特征的特征维度低于所述待编码特征的特征维度;基于配置参数,将所述变换特征进行量化处理,得到量化特征;对所述量化特征进行特征编码,得到特征码流。本申请的图像编码方法能够通过简单有效的量化方式,进一步提升特征的编码率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的图像编码方法一实施例的流程示意图;
图2是本申请提供的特征编码的整体框架结构的示意图;
图3是本申请提供的基于二维卷积的降维网络的结构示意图;
图4是本申请提供的SFT结构一实施例的结构示意图;
图5是本申请提供的通道注意力结构一实施例的结构示意图;
图6是本申请提供的全连接降维网络一实施例的结构示意图;
图7是本申请提供的包含熵模型的特征编码框架的示意图;
图8是本申请提供的图像解码方法一实施例的流程示意图;
图9是本申请提供的图像编码装置一实施例的结构示意图;
图10是本申请提供的图像解码装置一实施例的结构示意图;
图11是本申请提供的计算机存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
具体请参阅图1和图2,图1是本申请提供的图像编码方法一实施例的流程示意图,图2是本申请提供的特征编码的整体框架结构的示意图。
如图2所示,图2表示的是本申请提供的图像编码方法,以及图像解码方法的整体框架结构,而图像编码方法和图像解码方法实质上互为逆过程。具体地,整体框架结构中依次包括特征变换模块、量化模块、熵编码模块、熵解码模块、反量化模块以及特征重建模块。
其中,特征变换模块对输入的原始特征进行紧凑空间变换,得到降维后特征的紧凑表达,特征变换模块的降维方式可以包括但不限于:传统的特征降维方法、基于深度学习的降维方法。而特征重建模块的处理过程则为特征变换模块的处理过程的逆过程。
量化模块对变换后的特征分配量化参数,并进行量化,能够进一步压缩特征数据量的大小。而反量化模块的处理过程为量化模块的处理过程的逆过程。
熵编码模块,为整体框架结构中的可选模块,熵编码模块能够基于特征的上下文信息构建概率模型,使得概率模型能够准确预测特征数据中每个字符出现的概率,从而降低特征数据的冗余性。而熵解码模块的处理过程为熵编码模块的处理过程的逆过程。
下面结合图2所示的整体框架结构继续介绍本申请提供的图像编码方法,以及图像解码方法:
如图1所示,本申请实施例的图像编码方法包括以下步骤:
步骤S11:获取待处理图像的待编码特征。
步骤S12:对待编码特征进行特征变换,得到变换特征,其中,变换特征的特征维度低于待编码特征的特征维度。
在本申请实施例中,图像编码装置对输入的待编码特征进行特征变换,即紧凑空间变换,得到变换特征,即降维后特征的紧凑表达。其具体过程可以为:图像编码装置通过间接的码率约束对输入的原始特征进行紧凑空间变换,即直接对量化后的多通道特征图进行码率约束,间接实现对输入的原始特征进行紧凑空间变换,得到原始特征的紧凑特征表达。
考虑到特征与图像/视频、音频、文本等的区别,本申请还可以通过设计一些更有效的结构来捕捉特征数据的语义信息。主要思路分为:传统的特征降维方法、基于深度学习的降维方法。
下面先介绍基于深度学习的降维方法:
基于深度学习的方法通常依托于VAE(Variational autoEncoder,变分自动编码器)或者GAN(Generativeadversarial networks,生成对抗网络)来构建,针对特征数据的特点(特征数据包含了更加抽象的语义信息,也更稀疏,可能已经不具备原始图像中的空间相关性),提出以下几种方案:
(1)采用基于注意力机制或空间相关性的二维卷积实现降维,提升编码效率。
(2)采用一维卷积/全连接的方式进行降维,对特征信息更友好,更能捕捉特征数据的语义信息。
另外,采用一些策略进行网络设计,可提升网络的性能。
例如,请参阅图3,图3是本申请提供的基于二维卷积的降维网络的结构示意图。基于二维卷积的降维网络利用卷积层对输入特征进行卷积下采样,从而将输入特征的特征维度降低。
在如图3的其中一种实施例中,输入特征依次经过卷积下采样、激活、卷积下采样、激活以及若干残差块,得到经过降维后的变换特征。
具体地,基于二维卷积的降维网络中,卷积核可以采用3x3,5x5,7x7等,此处对卷积核的大小和数量不做限制。另外,为了进一步提高特征降维的准确性,降维网络结构中还可以添加空间特征变换层(SFT层)、通道注意力机制、自注意力机制(transformer中的attention机制)中的一种或多种。在其他实施例中,还可以添加其他网络层,在此不一一列举。
例如,降维网络结构中可以***SFT结构和通道注意力结构,具体请参阅图4和图5,图4是本申请提供的SFT结构一实施例的结构示意图,图5是本申请提供的通道注意力结构一实施例的结构示意图。
其中,图4中的D代表点乘,SFT结构将原始特征与经过不同卷积处理后的环境特征进行点乘或相加,从而对原始特征进行空间变换。另外,特征的每一个通道都代表着一个专门的检测器,因此,通道注意力是关注什么样的特征是有意义的。通道注意力结构能够将原始特征的不同通道中不同特征设置不同权重,然后按照不同权重将原始特征的不同通道特征进行融合,从而输出更准确的特征。
SFT结构和通道注意力结构在降维网络结构中的使用方式包括但不限于:
(1)灵活地***降维网络结构的任意位置,比如放在残差块中。
(2)采用SFT结构和通道注意力结构组成更深或更宽的网络结构,例如:
i)在残差块中加入SFT结构和通道注意力结构等,并纵向堆叠多个残差块,形成较深的网络结构。
ii)在残差块中加入SFT结构和通道注意力结构等,并借鉴inception的思想,在某一层或几层横向组合不同卷积核大小的残差块,最后将所有结果串联作为下一层的输入。
另外,图像编码装置还可以采用对特征信息更友好的一维卷积或全连接的方式进行网络构建,一维卷积的卷积核可以设置的大一点,例如:25x1等,以便于有更大的感受野来感知特征不同位置之间的关系。其中,一维卷积降维网络示例可采用与图3类似的网络结构,只需要将其中的二维卷积核改为一维即可,在此不再赘述。
而采用全连接的方式进行网络构建,则可以结合归一化层,如BatchNorm层、LayerNorm层、InstanceNorm层、GroupNorm层中的至少一种对特征进行归一化处理,以保证数据特征分布的稳定性,具体的网络结果实例请参阅图6,图6是本申请提供的全连接降维网络一实施例的结构示意图。
在图6所述的全连接降维网络中,全连接降维网络至少包括若干组全连接降维层组,每组全连接降维层组包括依次连接的全连接层、归一化层以及激活层等。
在其他实施例中,也可以采用全连接层加卷积层的方式构建降维网络,在此不一一列举。
另外,图像编码装置还可以使用以下方法对降维网络进行网络设计,以进一步形成多样化的网络结构:
(1)改变特征变换过程中的通道数(例如中间翻倍再降回原通道数)。
(2)改变激活函数(例如relu/leakyrelu/gdn/gelu)。
(3)改变上采样方式(特征重建阶段,如反卷积、pixelshuffle、interpolate)等。
(4)使用batchnorm层、layernorm层、dropout层等增加网络收敛的速度,控制梯度***并防止过拟合。
下面继续介绍传统的特征降维方法:
传统的特征变换方法通常聚焦于如何使得特征稀疏化,从而达到降维的目的,可采用的方法有很多,例如:无监督类方法:PCA(Principal Component Analysis)降维、SVD(Singular Value Decomposition,奇异值分解)、拉普拉斯图方法、LASSO(Least absoluteshrinkage and selection operator)、流行学习等;有监督类方法:LDA(线性判别分析,Linear Discriminant Analysis);以及一些频域变换类的方法:小波分析、傅里叶变换、DCT(Discrete Cosine Transform,离散余弦变换)变换等。
步骤S13:基于配置参数,将变换特征进行量化处理,得到量化特征。
在本申请实施例中,如果步骤S12的特征变换使用基于深度学习的方案来实现,那么在现有技术中一般不包含量化模块或者加入量化模块后,使得网络设计变的割裂,难以进行端到端的联合优化。本申请实施例可以考虑更简单有效的量化方式,将其融入到整个网络结构中,便于联合优化网络性能。具体可采用线性或非线性的量化方法来实现:
(1)线性量化的方式一般是将变换后的特征数据线性映射到某个预设比特深度下,可以结合参数可学习的策略将整个量化过程融合到整个神经网络中,从而实现联合优化,减少量化带来的损失。假设需要将变换后的特征数据量化为n比特(n为整数),其数据范围是0到2n-1,则需要考虑如下预设线性变换函数:
其中,
其中,n为预设比特深度,xi为变换特征,x′i为量化特征。
由于在实际训练过程中,max{xi}和min{xi}无法获取到,因此,可以将上述式子中的参数α和β中至少一个设置为可学习的参数,其余参数则设置为固定值的配置参数,从而对设置为可学习的参数进行训练。
同样地,在其他实施例中,也可以将min{xi}和max{xi}中至少一个设置为可学习的参数,如此,便可以将特征的量化过程嵌入到整个神经网络中,并参与反向传播。
(2)非线性量化方法则先采用某种非线性函数对变换后的特征数据进行非线性变换,然后线性映射到某种比特范围,其中,线性映射则可以按照上述线性量化的方式实现,在此不再赘述。
同样假设将变换后的特征数据量化为n比特,先采用某种非线性函数f(x)对变换后的特征数据进行非线性变换,然后线性映射到对应的n比特的数据范围即可。
同时为了使得量化过程更具有可控性,还可以将量化损失加入神经网络的整体损失值中进行优化,从而提升量化特征的性能。
(3)如果步骤S12的特征变换使用基于传统特征变换的方法来实现,那么特征量化除了可使用类似于上述的均匀量化方法外,还可以根据原始特征数据的一些统计信息设计非均匀量化的方式。
例如,典型地,假设需要将变换后的特征数据量化为8比特,则其量化后的数据范围是0-255。同时将参数α和max{xi}设置为可学习的参数。例如在pytorch中,可以采用nn.Parameter()的方式将需要学习的参数设置为可学习参数。另外两个参数β和min{xi},例如均设置为0,然后对量化前的变换特征和反量化之后的量化特征求损失值,即计算变换特征和量化特征的差异信息,例如二范数,变换特征和量化特征的损失值作为整个神经网络损失的一部分加入整体的损失值中,具体公式如下:
(aD1+bD2)+λR
其中D1和D2分别代表整体的失真和量化部分的失真,a和b分别代表其在总失真中所占的比例。在其他一种实施例中,可取a、b均为0.5。
在其他实施例中,非线性量化具体有以下几种示例:
(1)采用sigmoid函数将变换后的特征归一化到[0,1]之间,然后将归一化后的特征映射到新的数据范围并作四舍五入,即利用clip函数限制数据范围,即可得到最终的量化值:
x′i=round(sigmoid(xi)×(2n-1))
x′i=clip(x′i,0,2n-1)
(2)采用tanh函数将变换后的特征映射到[-1,1]之间,然后通过线性映射将该结果放大到新的数据范围并作四舍五入,即利用clip函数限制数据范围,得到量化结果:
x′i=clip(x′i,0,2n-1)
(3)采用relu函数将变换后的特征映射到0以上,并将数值范围的上限设置为可学习的参数,然后通过线性映射将该结果放大到新的数据范围并作四舍五入,即利用clip函数限制数据范围,得到量化结果:
x′i=clip(x′i,0,2n-1)
(4)采用softplus函数将变换后的特征映射到0以上,并将数值范围的上限设置为可学习的参数,然后通过线性映射将该结果放大到新的数据范围并作四舍五入及clip,得到量化结果:
x′i=clip(x′i,0,2n-1)
其中,(3)relu函数、(4)softplus函数中maxx代表的是学习到的xi的最大值。非线性量化也同样可设计损失函数部分,在此不再赘述。
进一步地,在传统的量化方案中,还可以考虑对输入的特征数据进行分析,并利用分析结果对不同数据分配不同的比特数进行量化。例如:
方法1:分析数据的分布规律或统计规律,根据特征数据分布的密集程度将数据区间进行划分或者根据特征数据的均值、方差等信息对数据进行排序并划分区间,然后将不同区间的数据量化到不同的比特范围,例如将特征分布区间划分为4部分,各部分分别采用2、4、6、8比特来量化。
方法2:同样先统计数据规律,然后采用固定比特量化,只是对不同区间的数据分配不同数量的数来量化。例如采用8比特量化,将特征分布区间A映射到0-140,将特征分布区间B映射到141-210,将特征分布区间C映射到211-255。
在步骤S13之后,为了进一步降低特征的数据量,还可以对量化特征进行熵编码处理,即如图2所示的整体框架结构中,在量化模块后面增加熵编码模块,以及在反量化模块前面增加熵解码模块。
具体地,熵编码模块以及熵解码模块作为整体框架机构的可选模块,可进一步压缩码流的大小而不带来损失,从而保证特征编码的编码性能。
例如,如图7所示,在基于深度学习的框架中,熵编码模块以及熵解码模块可采用超先验网络来构建概率模型,用于熵编码过程,具体的网络结构示例请参阅图7,图7是本申请提供的包含熵模型的特征编码框架的示意图。
其中,本申请实施例中的概率模型可以单高斯模型、混合高斯模型、拉普拉斯模型、逻辑回归等模型来构建,在此不一一列举。
例如,在传统的特征编码框架中,熵编码模块以及熵解码模块也可采用CAVLC、CABAC、霍夫曼编码等比较成熟的熵编码方案。
步骤S14:对量化特征进行特征编码,得到特征码流。
在本申请实施例中,图像编码装置可以直接对步骤S13得到的量化特征进行特征编码,也可以对熵编码模型输出的熵编码特征进行特征编码,在此不再赘述。
在本申请实施例中,图像编码装置获取待处理图像的待编码特征;对所述待编码特征进行特征变换,得到变换特征,其中,所述变换特征的特征维度低于所述待编码特征的特征维度;基于配置参数,将所述变换特征进行量化处理,得到量化特征;对所述量化特征进行特征编码,得到特征码流。本申请的图像编码方法能够通过简单有效的量化方式,进一步提升特征的编码率。
请继续参阅图8,图8是本申请提供的图像解码方法一实施例的流程示意图。
如图8所示,本申请实施例的图像解码方法包括以下步骤:
步骤S21:对特征码流进行特征解码得到解码特征。
步骤S22:基于配置参数,将所述解码特征进行反量化处理,得到反量化特征。
步骤S23:对反量化特征进行特征反变换,得到反变换特征,其中,反变换特征的特征维度高于反量化特征的特征维度。
步骤S24:对反变换特征进行特征重建,得到重建图像。
在本申请实施例中,如图2、图3、图6以及图7,可以理解的是,本申请实施例的图像编码方法与图像解码方法互为逆过程,因此,图像编码方法的技术方案能够适应性适用与本申请实施例的图像解码方法,具体技术方案在此不再赘述。
本申请提出了一种图像编码方法和图像解码方法,图像编码方法和图像解码方法可采用传统或深度学习的框架进行实现,具有普适性,而非针对某一特定视觉任务;同时基于深度学习的特征编码方案可实现端到端联合优化;本申请还依据是否包含熵模型提出了两种具体的特征编码框架,即图2和图7所示的特征编码框架。
本申请进一步提出在特征变换过程中使用如下方式进行降维:(1)使用基于注意力机制或空间特征变换的二维卷积来提升网络性能;(2)采用一维卷积、全连接等结构来捕捉特征数据的语义信息(3)考虑更深或更宽的网络结构,提升网络性能。
本申请提出了新的简单有效的量化方式,包含线性量化、非线性量化、非均匀量化等,并通过设计新的损失函数,来提升特征的编码率。
以上实施例,仅是对本申请的其中一种常见案例而已,并非对本申请的技术范围做任何限制,故凡是依据本申请方案的实质对以上内容所做的任何细微修改、等同变化或者修饰,均仍属于本申请技术方案的范围内。
请继续参见图9,图9是本申请提供的图像编码装置一实施例的结构示意图。本申请实施例的图像编码装置500包括处理器51、存储器52、输入输出设备53以及总线54。
该处理器51、存储器52、输入输出设备53分别与总线54相连,该存储器52中存储有程序数据,处理器51用于执行程序数据以实现上述实施例所述的图像编码方法。
在本申请实施例中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP,Digital Signal Process)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现场可编程门阵列(FPGA,FieldProgrammable Gate Array)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。
请继续参见图10,图10是本申请提供的图像解码装置一实施例的结构示意图。本申请实施例的图像解码装置600包括处理器61、存储器62、输入输出设备63以及总线64。
该处理器61、存储器62、输入输出设备63分别与总线64相连,该存储器62中存储有程序数据,处理器61用于执行程序数据以实现上述实施例所述的图像解码方法。
本申请还提供一种计算机存储介质,请继续参阅图11,图11是本申请提供的计算机存储介质一实施例的结构示意图,该计算机存储介质700中存储有程序数据71,该程序数据71在被处理器执行时,用以实现上述实施例的图像编码方法和/或图像解码方法。
本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,方式利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (15)
1.一种图像编码方法,其特征在于,所述图像编码方法包括:
获取待处理图像的待编码特征;
对所述待编码特征进行特征变换,得到变换特征,其中,所述变换特征的特征维度低于所述待编码特征的特征维度;
基于配置参数,将所述变换特征进行量化处理,得到量化特征;
对所述量化特征进行特征编码,得到特征码流。
2.根据权利要求1所述的图像编码方法,其特征在于,
所述对所述待编码特征进行特征变换,得到变换特征,包括:
将所述待编码特征输入降维网络,通过所述降维网络的卷积层和/或全连接层对所述待编码特征进行下采样,得到所述变换特征。
3.根据权利要求2所述的图像编码方法,其特征在于,
所述降维网络的卷积层为一维卷积层或二维卷积层。
4.根据权利要求2或3所述的图像编码方法,其特征在于,
所述降维网络还包括空间特征变换子网络、通道注意力机制子网络、自注意力机制子网络中的一种或多种。
5.根据权利要求2所述的图像编码方法,其特征在于,
所述将所述待编码特征输入降维网络,包括:
将所述待编码特征依次输入所述降维网络的若干降维子网络,每个所述降维层子网络包括依次串联的全连接层、归一化层以及激活层。
6.根据权利要求1所述的图像编码方法,其特征在于,
所述对所述待编码特征进行特征变换,得到变换特征,包括:
基于无监督类降维算法和有监督类降维算法中的至少一种,对所待编码特征进行特征稀疏化处理,得到所述变换特征。
7.根据权利要求1所述的图像编码方法,其特征在于,
所述基于配置参数,将所述变换特征进行量化处理,得到量化特征,包括:
获取预设线性变换函数,并基于所述配置参数,对所述预设线性变换函数中的非学习参数进行赋值;
利用赋值后的预设线性变换函数以及预设比特深度,对所述变换特征进行映射,得到所述量化特征。
8.根据权利要求7所述的图像编码方法,其特征在于,
所述利用赋值后的预设线性变换函数以及预设比特深度,对所述变换特征进行映射,得到所述量化特征之前,所述图像编码方法还包括:
采用预设非线性函数对所述变换特征进行非线性变换,得到非线性变换后的变换特征。
9.根据权利要求7或8所述的图像编码方法,其特征在于,所述基于配置参数,将所述变换特征进行量化处理,得到量化特征之后,
所述图像编码方法,还包括:
对所述量化特征进行反量化处理,得到反量化特征;
基于所述变换特征和所述反量化特征的差异信息,获取量化损失值;
利用所述量化损失值对所述预设线性变换函数中的学习参数进行训练。
10.根据权利要求1所述的图像编码方法,其特征在于,
所述基于配置参数,将所述变换特征进行量化处理,得到量化特征之后,所述图像编码方法还包括:
利用熵编码模型,对所述量化特征的上下文特征信息进行提取;
基于所述量化特征的上下文特征信息对所述量化特征进行预测,得到所述量化特征的熵编码特征;
基于所述熵编码特征进行特征编码,得到所述特征码流。
11.根据权利要求10所述的图像编码方法,其特征在于,
所述熵编码模型包括采用超先验网络构建的概率模型,其中,所述概率模型为单高斯模型、混合高斯模型、拉普拉斯模型、逻辑回归模型中的其中一个或多个的组合模型。
12.一种图像解码方法,其特征在于,所述图像解码方法包括:
对特征码流进行特征解码得到解码特征;
基于配置参数,将所述解码特征进行反量化处理,得到反量化特征;
对所述反量化特征进行特征反变换,得到反变换特征,其中,所述反变换特征的特征维度高于所述反量化特征的特征维度;
对所述反变换特征进行特征重建,得到重建图像。
13.一种图像编码装置,其特征在于,所述图像编码装置包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1~11任一项所述的图像编码方法。
14.一种图像解码装置,其特征在于,所述图像解码装置包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求12所述的图像编码方法。
15.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如权利要求1~11任一项所述的图像编码方法和/或权利要求12所述的图像解码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210772560.3A CN115361559A (zh) | 2022-06-30 | 2022-06-30 | 图像编码方法、图像解码方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210772560.3A CN115361559A (zh) | 2022-06-30 | 2022-06-30 | 图像编码方法、图像解码方法、装置以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115361559A true CN115361559A (zh) | 2022-11-18 |
Family
ID=84030015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210772560.3A Pending CN115361559A (zh) | 2022-06-30 | 2022-06-30 | 图像编码方法、图像解码方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115361559A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805971A (zh) * | 2023-04-11 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 图像编解码方法、装置、设备 |
CN117351520A (zh) * | 2023-10-31 | 2024-01-05 | 广州恒沙数字科技有限公司 | 基于生成网络的前背景图像混合生成方法及*** |
-
2022
- 2022-06-30 CN CN202210772560.3A patent/CN115361559A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805971A (zh) * | 2023-04-11 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 图像编解码方法、装置、设备 |
CN117351520A (zh) * | 2023-10-31 | 2024-01-05 | 广州恒沙数字科技有限公司 | 基于生成网络的前背景图像混合生成方法及*** |
CN117351520B (zh) * | 2023-10-31 | 2024-06-11 | 广州恒沙数字科技有限公司 | 基于生成网络的前背景图像混合生成方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Energy compaction-based image compression using convolutional autoencoder | |
CN111641832B (zh) | 编码方法、解码方法、装置、电子设备及存储介质 | |
Cai et al. | Efficient variable rate image compression with multi-scale decomposition network | |
CN115361559A (zh) | 图像编码方法、图像解码方法、装置以及存储介质 | |
CN110753225A (zh) | 一种视频压缩方法、装置及终端设备 | |
WO2022028197A1 (zh) | 一种图像处理方法及其设备 | |
CN104392207B (zh) | 一种用于数字图像内容识别的特征编码方法 | |
Li et al. | Image compression using transformed vector quantization | |
Cui et al. | An efficient deep quantized compressed sensing coding framework of natural images | |
Zepeda et al. | Image compression using the iteration-tuned and aligned dictionary | |
CN108182712B (zh) | 图像处理方法、装置及*** | |
Barman et al. | A quantization based codebook formation method of vector quantization algorithm to improve the compression ratio while preserving the visual quality of the decompressed image | |
US9948928B2 (en) | Method and apparatus for encoding an image | |
Hasnat et al. | Luminance approximated vector quantization algorithm to retain better image quality of the decompressed image | |
WO2023118317A1 (en) | Method and data processing system for lossy image or video encoding, transmission and decoding | |
Thakker et al. | Lossy Image Compression-A Comparison Between Wavelet Transform, Principal Component Analysis, K-Means and Autoencoders | |
CN113393543B (zh) | 高光谱图像压缩方法、装置、设备及可读存储介质 | |
Wang et al. | Adaptively hybrid fractal image coding | |
Kunwar | Strategies in JPEG compression using Convolutional Neural Network (CNN) | |
CN113052258B (zh) | 基于中间层特征图压缩的卷积方法、模型及计算机设备 | |
CN117915107B (zh) | 图像压缩***、图像压缩方法、存储介质与芯片 | |
Yin et al. | A Reference Resource Based End-to-End Image Compression Scheme | |
CN114882133B (zh) | 一种图像编解码方法、***、设备及介质 | |
Tao et al. | Prior-information-based remote sensing image compression with Bayesian dictionary learning | |
Khowaja et al. | Image compression using moving average histogram and RBF network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |