CN116567240A

CN116567240A - 基于自适应通道和空间窗口熵模型的图像压缩方法及***

Info

Publication number: CN116567240A
Application number: CN202310675737.2A
Authority: CN
Inventors: 凌强; 王健; 李峰; 方毅
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-08-08

Abstract

本发明涉及一种基于自适应通道和空间窗口熵模型的图像压缩方法及***，首先输入待编码的图片，然后使用参数合成变换将待编码的图片转换到隐状态变量，编码隐状态变量比编码原始的图像的压缩性能更好，接着使用非均匀的通道划分和棋盘式的空间划分方法进行通道和空间划分，然后使用通道熵模型和空间熵模型生成通道上下文和空间上下文，再通过参数变换网络预测锚点和非锚点变量的均值和方差，根据预测的均值和方差对隐状态变量进行编码和解码，最后使用参数合成变换恢复解码后的图像。本发明能够分别提高通道上下文和空间上下文的准确性，从而提高隐状态变量均值和方差预测的准确性，减少编码所需的比特数，并显著提高解码图像的清晰度。

Description

基于自适应通道和空间窗口熵模型的图像压缩方法及***

技术领域

本发明涉及一种基于自适应通道和空间窗口熵模型的图像压缩方法及***，属于图像压缩技术领域。

背景技术

图像压缩是计算机视觉领域的一项重要任务，能够极大地减轻存储设备和通信网络的负担。1992年，联合图像专家组发布了第一个国际图像压缩标准JPEG，已经成为世界上使用最广泛的压缩标准。JPEG2000创建于2000年，并对其JPEG进行了显著改进。其中最重要的改进之一是用离散小波变换(DWT)取代了JPEG的离散余弦变换(DCT)。为了进一步提高压缩性能，AVC，HEVC和VVC等高级编解码器被研发。这些高级编解码器使用多种帧内预测模式根据先前编码的像素预测当前像素的值，并且使用更多的变换类型，例如离散正弦变换(DST)和哈达玛变换(WHT)来处理残差信号。这些方法通常采用手工定制的混合编码方案，包括预测、变换、量化和熵编码。然而，手工定制的编码规则不太灵活，可能会限制图像压缩性能。近年来，基于深度学习的图像压缩方法取得了巨大的进步，并取得了比传统图像压缩方法更好的率失真性能。Balle等人采用卷积神经网络设计了第一种端到端优化的图像压缩方法。随后，人们开发了许多方法来进一步提高压缩性能。学习图像压缩遵循由非线性变换、量化和熵模型组成的编码框架，非线性变换将原始的RGB图像转换成隐状态变量，量化将连续的隐状态变量转换成离散的整数值，利用熵模型对量化后的隐状态变量的概率分布进行估计，根据概率估计进行无损编码和解码，最后，再通过非线性变换将解码后的隐状态变量转换成解码后的图像。

现有的通道熵模型和空间熵模型大多使用堆叠的卷积神经网络来进行空间和通道的上下文估计，没有考虑到通道隐状态变量之间的全局相关以及锚点和非锚点特征的局部相关性，导致解码后的图像不清晰，造成不好的视觉体验。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于自适应通道和空间窗口熵模型的图像压缩方法及***，能够大大节省压缩图像所需的比特，并显著提高解码图像的清晰度。

本发明技术解决方案：

第一方面，本发明提供一种基于自适应通道和空间窗口熵模型的图像压缩方法，实现如下：

步骤1：将输入待压缩的图像转换成隐状态变量；

步骤2：将所述隐状态变量输入超先验分析下采样网络，得到超先验变量；对超先验变量进行编码和解码，解码的超先验变量输入超先验合成上采样网络，得到上采样的超先验变量；

步骤3：将所述隐状态变量按照通道进行非均匀通道划分得到多个通道隐状态变量，对于每个通道隐状态变量依次执行步骤4，步骤5，步骤6和步骤7；

步骤4：采用棋盘方式对每个通道隐状态变量进行空间划分，空间划分的结果是分成锚点特征和非锚点特征；

步骤5：对于第一个通道隐状态变量，将步骤2中上采样的超先验变量输入自适应通道熵模型预测通道上下文；对于非第一个通道隐状态变量，将所有已经解码的通道隐状态变量和上采样的超先验变量同时输入自适应通道熵模型预测通道上下文；将预测的通道上下文输入两个相同的锚点参数变换网络预测锚点特征的均值和方差，根据均值和方差对锚点特征进行无损编码，得到编码后的比特流，并对比特流进行解码，得到解码后的锚点特征；

步骤6：将步骤5中解码后的锚点特征输入基于窗口的空间熵模型预测非锚点特征的空间上下文；将非锚点特征的空间上下文和步骤5中预测的通道上下文输入两个相同的非锚点参数变换网络预测非锚点特征的均值和方差，根据均值和方差对非锚点特征进行无损编码，得到编码后的比特流，并对所述比特流进行解码，得到解码后的非锚点特征；

步骤7：将步骤5中解码后的锚点特征和步骤6中解码后的非锚点特征进行棋盘式空间合并，得到解码的通道隐状态变量；

步骤8：将所述解码的所有通道隐状态变量按照通道维度合并，得到解码的隐状态变量，并将解码的隐状态变量输入参数合成变换网络得到解码后的图像。

为了进一步优化上述技术方案，本发明还包括以下技术措施。

进一步地，所述步骤5中，所述自适应通道熵模型由4个阶段的特征变换网络依次联接构成，每个阶段的特征变换网络包括两个自适应更新层和与之连接的一个通道激励层；对于第一个通道隐状态变量，通道上下文初始化为上采样的超先验变量，对于非第一个通道隐状态变量，通道上下文通过在通道上连接上采样的超先验变量和所有已经解码的通道隐状态变量的方式进行初始化；

所述每个自适应更新层利用通道之间的相关性对通道进行更新，通道上下文中的第m个通道更新方式如下：

其中，t表示更新的次数，β是学习的参数，N_i表示通道上下文S_t中通道的数量，表示通道之间的余弦相似度量；

所述通道激励层对更新后通道上下文中的无关通道上下文进行抑制，增强有关的通道上下文，对通道的增强和抑制表示如下：

S_t+1＝S_t(σ(W₂δ(W₁(AVG(S_t)))))

其中，S_t+1是更新后的通道上下文，S_t为通道上下文，δ是RELU激活函数，σ是sigmoid激活函数，AVG表示平均池化；W₁,W₂是通道激励层中两个线性层的参数，为了降低复杂度，第一个线性层将通道维度降低到原来的第二个线性层将通道还原到原始的通道维度。

进一步地，所述步骤6中，

所述基于窗口的空间熵模型包括编码网络和解码网络，编码网络将锚点特征被分成M×M的不重叠的窗口，M是窗口的大小；编码网络由一个位置编码层和两个空间transformer层依次连接构成；位置编码层通过对每个窗口内的特征加上一个固定的参数，实现窗口内不同特征在位置上的区分；空间transformer层捕获全局的语义特征，实现特征聚合；

解码网络由一个位置编码层和两个空间transformer层构成，编码网络只对锚点特征进行处理，解码网络通过在非锚点位置添加0的方式得到非锚点特征的初始表达，再依次通过位置编码层和空间transformer层得到预测的非锚点特征的空间上下文。

第二方面，本发明提供一种基于自适应通道和空间窗口熵模型的图像压缩***，包括参数分析变换网络，超先验分析下采样网络和超先验合成上采样网络，通道划分模块，空间划分模块，自适应通道熵模型，基于窗口的空间熵模型，锚点和非锚点参数变换网络，参数合成变换网络。

参数分析变换网络：将输入待压缩的图像转换成隐状态变量；

超先验分析下采样网络和超先验合成上采样网络：将隐状态变量输入超先验分析下采样网络，得到超先验变量，对超先验变量进行编码和解码，解码的超先验变量输入超先验合成上采样网络，得到上采样的超先验变量；

通道划分模块：将隐状态变量按照通道进行非均匀通道划分得到多个通道隐状态变量；

空间划分模块：将每个通道隐状态变量使用棋盘式空间划分成锚点特征和非锚点特征；

自适应通道熵模型：将已经编码的通道隐状态变量和上采样的超先验变量输入自适应熵模型预测待编码的通道隐状态变量的通道上下文；

基于窗口的空间熵模型：将已经编码的锚点特征输入基于窗口的空间熵模型预测非锚点特征的空间上下文；

锚点参数变换网络和非锚点参数变换网络：将通道上下文输入两个相同的锚点参数变换网络预测锚点特征的均值和方差，将非锚点特征的空间上下文和通道上下文输入两个相同的非锚点参数变换网络预测非锚点特征的均值和方差；

参数合成变换网络：将解码的所有通道隐状态变量按照通道维度合并，得到解码的隐状态变量，并将解码的隐状态变量输入参数合成变换网络得到解码后的图像。

第三方面，本发明提供一种电子装置(计算机、服务器、智能手机等)，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序，执行时实现一种基于自适应通道和空间窗口熵模型的图像压缩方法。

第四方面，本发明提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于自适应通道和空间窗口熵模型的图像压缩方法。

本发明与现有技术相比的优点：

(1)本发明能够提高通道上下文和空间上下文的准确性，从而提高隐状态变量均值和方差预测的准确性，减少编码所需的比特数，并提高解码图像的清晰度。

本发明基于自适应通道熵模型和基于窗口空间熵模型进行通道和空间上下文预测。自适应通道熵模型由用4阶段特征变换网络组成，每个阶段的特征变换网络由两个自适应更新层和一个通道激励层组成，自适应更新模块能够根据通道之间的相关性进行通道上下文更新，通道激励模块抑制无关的通道响应并增强有用的通道响应。基于窗口的空间熵模型能够有效利用图像压缩是一个局部任务的特点，使用空间transformer聚合局部窗口内的特征，并利用位置编码来区分窗口内不同特征点的位置。根据预测的通道上下文和空间上下文，利用锚点参数变换网络来预测锚点特征的均值和方差，利用非锚点参数网络来预测非锚点特征的均值和方差，并根据预测的均值和方差分别对锚点特征和非锚点特征进行编码和解码。因此，本发明的自适应通道熵模型和基于窗口的空间熵模型能够分别提高通道上下文和空间上下文的准确性，从而提高隐状态变量均值和方差预测的准确性，减少编码所需的比特数，并提高解码图像的清晰度。

(2)本发明提出了一种自适应的通道熵模型，能够更加准确的预测通道上下文，减少隐状态变量的通道冗余，从而节省了编码所需的比特数，并能够提高解码后图像的质量。

传统的通道熵模型通常是几个卷积层和激活函数实现的，这种方法不能够有效的利用待编码通道和已经编码通道之间的相关性。本发明采用4阶段特征变换网络预测待编码的通道的上下文，每个阶段的特征变换网络由两个自适应更新层和一个通道激励层组成，自适应更新模块能够根据通道之间的相关性进行自适应的通道上下文更新，通道激励模块抑制无关的通道响应并增强有用的通道响应。因此，本发明的自适应的通道熵模型能够更加准确的预测通道上下文，减少隐状态变量的通道冗余，从而节省了编码所需的比特数，并能够提高解码后图像的质量。

(3)本发明提出了一种基于窗口的空间熵模型，能够更加准确的预测非锚点特征的空间上下文，减少图像的空间冗余，节省了编码所需的比特数，能够提高解码后图像的质量。

本发明基于窗口的空间熵模型能够有效利用图像压缩是一个局部任务的特点，使用空间transformer捕获窗口内全局的语义特征，并利用位置编码来区分窗口内不同特征点的位置，从而实现根据编码的锚点特征来预测非锚点特征空间上下文的功能。因此，本发明基于窗口的空间熵模型能够更加准确的预测非锚点特征的空间上下文，减少图像的空间冗余，节省了编码所需的比特数，能够提高解码后图像的质量。

附图说明

图1为本发明方法的实现流程图；

图2为空间划分方式；

图3为在kodak数据集上的图像压缩性能，并与VVC编解码算法的帧内编码方式相对比图，其中a为多尺度结构相似度性能图，b为峰值信噪比性能图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明方法具体实现为：

步骤1：将输入待压缩的图像转换成隐状态变量；

本发明使用参数分析变换网络g_a(x)将原始图像x映射到通道数目为320的隐状态变量y，参数分析变换由步长为2，卷积核大小为5的四个卷积层构成，相邻的两个卷积层之间使用GDN进行正则化。

步骤2：将隐状态变量输入超先验分析下采样网络，得到超先验变量；对超先验变量进行编码和解码，解码的超先验变量输入超先验合成上采样网络，得到上采样的超先验变量；

超先验分析下采样网络由5个卷积核大小为3的卷积层组成，相邻的卷积层使用GELU进行激活。其中第3个和第5个卷积层的步长为2。

超先验合成上采样网络由5个卷积核大小为3的卷积层组成，相邻的卷积层使用GELU进行激活。其中第2个和4个卷积层的步长为2，并且为子像素卷积来实现上采样。

步骤3：将所述隐状态变量按照通道进行非均匀通道划分得到4个通道隐状态变量，每个通道隐状态变量的通道数为分别为32,32,64,192，对于每个通道隐状态变量依次执行步骤4，步骤5，步骤6和步骤7；

步骤4：采用棋盘方式对每个通道隐状态变量进行空间划分，空间划分的结果是分成锚点特征和非锚点特征，空间划分方式如图2所示，非锚点特征的上下左右位置均为锚点位置。

(51)自适应通道熵模型g_ce

为了降低通道之间的依赖性，后编码的通道的参数通过先前解码的通道和超先验预测得到。对于第i个通道块yⁱ，本发明将已经解码的通道隐状态变量和上采样的超先验变量/>合并到一个通道集合{S^i,1,S^i,2,…,S^i,Ni}。对于yⁱ中要编码的第k通道y^i,k，与y^i,k具有较高相关性的解码通道应该对y^i,k的通道上下文预测做出更多贡献，因此，应该基于解码的通道和要编码的通道之间的相关性预测通道的熵参数。然而，由于编码的通道的信息是完全未知的，所以不能显式地利用这些相关性。

为了解决上述问题，本发明隐式地使用上述相关性预测通道上下文。

本发明使用自适应更新层更新S_t生成yⁱ的通道上下文，其中t是更新的次数，并且对于任意要编码的通道y^i,k，本发明假设S_t中的第m个通道/>是与通道y^i,k具有强相关性的通道。在每次迭代中，本发明使用S_t中的所有其他通道来更新以生成y^i,k的通道上下文预测。

对于任意一个通道假设它与/>的相关性为τ_m,n，这三个通道首先使用下面方法进行归一化：

其中，‖·‖是L2范数，R(·)将二维矢量拉伸成长度为HW的向量。使用余弦相似度来度量三者之间的相关性，

根据余弦相似度的三角不等式有根据上述公式，τ_n,k的下界随着τ_m,n的增加而增加，由于待编码通道y^i,k是未知的，因此本发明使用τ_m,n来近似τ_n,k，越大的τ^m,k生成越准确的近似。基于上述的相似性，通道上下文S_t中的第m个通道/>更新方式如：

其中，t表示更新的次数，β是学习的参数，N_i表示S_t中通道的数量，表示通道之间的余弦相似度量。由于具体的哪个预测的通道和待编码通道具有强相关性是未知的，因此，本发明使用上述更新策略更新S_t中所有的通道。

在上述的更新策略中，所有的通道被假设具有和待编码通道具有强相关性，实际上，有一些通道和待编码通道是弱相关的，因此，这些通道属于无用的通道。本发明使用通道激励层来抑制无用通道的响应，并增强有用通道的响应。首先使用一个平均池化来将每个通道的全局空间信息压缩成一个通道描述符，为了捕获通道之间的相关性，使用简单的门控网络和一个sigmoid激活函数来得到通道的响应权重。

更新后的通道上下文S_t+1：

S_t+1＝S_t(σ(W₂δ(W₁(AVG(S_t)))))

其中，δ是RELU激活函数，σ是sigmoid激活函数，W₁,W₂是两个线性层的参数，AVG表示平均池化。为了降低复杂度，第一个线性层将通道维度降低到原来的第二个线性层将通道还原到原始的维度。

(52)锚点参数变换网络g_anchor

通道上下文输入两个相同的锚点参数变换网络g_anchor来预测锚点特征的均值和方差，g_anchor表示一个3x3的卷积。

(61)基于窗口的空间熵模型g_ce

由于图像压缩任务是一个局部的任务，不同于目标分类，目标检测等计算机视觉任务，不能够从全局的语义信息中受益，因此，本发明使用一个基于窗口的空间熵模型预测非锚点位置的空间上下文。

解码的锚点特征首先被分成M×M的不重叠的窗口，M是窗口的大小，本发明使用编解码的结构预测每个窗口内非锚点特征的空间上下文，编码器和解码器具有相似的结构，编码网络由一个位置编码层和两个空间transformer层依次连接构成；位置编码层通过对每个窗口内的特征加上一个固定的参数，实现窗口内不同特征在位置上的区分；空间transformer层捕获全局的语义特征，实现特征聚合。

空间transformer层可以形式化如下：

X_l'＝MSA(LN(X_l-1))+X_l-1,

X_l＝FFN(LN(X_l'))+X_l',

其中，X_l-1是第l层的输入，X_l'是第l层中间变量，X_l是第l层的输出，LN表示Layernormalization正则化方法。

其中，MSA是多头自注意力模块，FFN是前馈网络模块。使用编码器的输入来解释MSA的执行过程。由于编码器只包括锚点特征，因此特征数目是/>其中C是特征的维度。每个注意力头的数量h被设置成4，因此每个头的维度是/>第p个头的自注意力计算如下：

其中，是查询Q，键K和值V的投影矩阵。然后，拼接所有的头的输出并使用线性层投影得到最终的输出，

其中，Linear表示线性层，Concat表示拼接操作，Y₁,Y₂,…,Y_h分别表示第1,2,…,h个头的自注意力。

在前馈网络FFN中，首先使用一个线性层来将每个token的维度增加到原来的4倍，然后再使用一个线性层还原到原来的维度，在两个线性层中间使用GELU激活函数进行激活。

(62)非锚点参数变换网络g_non-anchor

本发明将通道上下文和空间上下文输入两个相同的非锚点参数变换网络g_non-anchor分别预测非锚点特征的均值和方差，g_non-anchor由四个线性层组成，并且每两个线性模块之间使用GELU激活函数进行激活。

本发明使用参数合成变换网络g_s(x)将解码的隐状态变量转换为解码的图像，参数分析变换由步长为2，卷积核大小为5的四个反卷积层构成，相邻的两个卷积层之间使用GDN进行正则化。

如图3所示，为在kodak数据集上的图像压缩性能，并与VVC编解码算法的帧内编码方式相对比。a为多尺度结构相似度性能图，b为峰值信噪比性能图，横坐标表示编码每个像素需要的比特数，纵坐标代表不同的性能指标，从图3中可以看出，本发明能够节省压缩图像所需的比特数，提高了峰值信噪比(PSNR)和多尺度结构相似度(MS-SSIM)，因此解码的图像具有更高的清晰度。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于自适应通道和空间窗口熵模型的图像压缩方法，其特征在于，实现如下：

步骤1：将输入待压缩的图像转换成隐状态变量；

步骤2：将所述隐状态变量输入超先验分析下采样网络，得到超先验变量；对超先验变量进行编码和解码，解码的超先验变量输入超先验分析上采样网络，得到上采样的超先验变量；

2.根据权利要求1所述的基于自适应通道和空间窗口熵模型的图像压缩方法，其特征在于：所述步骤5中，

所述自适应通道熵模型由4个阶段的特征变换网络依次联接构成，每个阶段的特征变换网络包括两个自适应更新层和与之连接的一个通道激励层；对于第一个通道隐状态变量，通道上下文初始化为上采样的超先验变量，对于非第一个通道隐状态变量，通道上下文通过在通道上连接上采样的超先验变量和所有已经解码的通道隐状态变量的方式进行初始化；

S_t+1＝S_t(σ(W₂δ(W₁(AVG(S_t)))))

3.根据权利要求1所述的基于自适应通道和空间窗口熵模型的图像压缩方法，其特征在于：所述步骤6中，

4.一种基于自适应通道和空间窗口熵模型的图像压缩***，其特征在于：包括参数分析变换网络，超先验分析下采样网络和超先验分析上采样网络，通道划分模块，空间划分模块，自适应通道熵模型，基于窗口的空间熵模型，锚点和非锚点参数变换网络，参数合成变换网络；

超先验分析下采样网络和超先验分析上采样网络：将隐状态变量输入超先验分析下采样网络，得到超先验变量，对超先验变量进行编码和解码，解码的超先验变量输入超先验分析上采样网络，得到上采样的超先验变量；

5.一种电子装置，其特征在于，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序，执行时实现权利要求1-3中任意之一所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-3中任意之一所述的方法。