CN112866694A

CN112866694A - 联合非对称卷积块和条件上下文的智能图像压缩优化方法

Info

Publication number: CN112866694A
Application number: CN202011644521.2A
Authority: CN
Inventors: 殷海兵; 叶宗苗; 黄晓峰
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-28
Anticipated expiration: 2040-12-31
Also published as: CN112866694B

Abstract

本发明用于基于端到端的智能图像压缩领域，属于图像/视频压缩领域，涉及联合非对称卷积块和条件上下文的智能图像压缩的优化方法，具有训练阶段和推理阶段，在所述训练阶段，搭建整体端到端的图像压缩框架，包括主编码/解码器，超先验编码/解码器，条件上下文模型，熵参数模型，以及因子分解熵模型，其中，所述主编码/解码器，超先验编码/解码器均采用非对称卷积块即ACB模块对视频图像进行特征提取；在推理阶段，利用ACB模块的兼容性对并行卷积核合成。本发明通过非对称卷积块能够提高标准平方卷积的提取特征的能力，邻域/全局域的上下文捕获机制则可以提高潜在特征值的建模精准度，使之更符合客观出现概率情况来减少编码冗余。

Description

联合非对称卷积块和条件上下文的智能图像压缩优化方法

技术领域

本发明用于基于端到端的智能图像压缩领域，属于图像/视频压缩领域，涉及联合非对称卷积块和条件上下文的智能图像压缩的优化方法。

背景技术

随着互联网的发展，整个网络环境中的图像，视频数据呈现***性增长，为了节省传输带宽以及本地的存储成本，这要求互联网有更强的网络传输能力，即需要更高效的图像/视频压缩算法。其中传统的手工图像压缩算法：JPEG，JPEG2000，HEVC等采用DCT，小波变换等线性变换将输入转换为潜在表示，通过对潜在表示进行量化，熵编码生成压缩后的码流文件。但是，显然传统的线性变换的方式限制了传统编码方式的效率。

而另外一方面，通过神经网络自动设计编/解码器的图像智能压缩算法也展现出巨大的压缩潜力。深度卷积网络可以从大量的样本中建模并且自动地、端到端地学习到更为本质的特征,从而有效地避免了传统人工建模和设计特征的弊端。通过高效的非线性变换以及精准的熵率模型，使得神经网络在图像压缩方面取得了巨大的成功。短短几年的时间，基于端到端的图像压缩性能已经超越了发展几十年的传统的图像编码方式，最新的图像压缩性能已经在性能上与VTM(VVC帧内编码标准)相当，由此可见端到端的图像压缩以及视频压缩在编码领域的巨大潜力。

在智能图像压缩领域，将现有的算法优化分为两个方向，其一为如何在底熵的条件下，提取到更完备的图像特征。第二是，如何进行精准的进行熵模型建模以便于在熵编码阶段得到更低码率的码流。

在现有的技术中，标准平方卷积核被用于提取图像的潜在特征表示，在现有的基于框架中立的CNN结构探索发现标准平方卷积核的提取特征的能力存在不足。

对于码率估计模块中，条件上下文模块采用自回归模型通过已解码信息推断当前信息，这一模块的使用使得智能图像压缩编码框架的编码效率大大增加。在图像中，空域冗余不仅仅存在于邻域范围，也存在于全局域。然而，现有的条件上下文模型仅仅关注邻域信息的获取，而缺乏全局域的已解码信息的捕获机制。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出一种联合非对称卷积块和邻域/全局域上下文的智能图像压缩的优化方法，用于非对称卷积块能够提高标准平方卷积的提取特征的能力，邻域/全局域的上下文捕获机制则可以提高潜在特征值的建模精准度，使之更符合客观出现概率情况来减少编码冗余，其具体技术方案如下。

联合非对称卷积块和条件上下文的智能图像压缩的优化方法，具有训练阶段和推理阶段，在所述训练阶段，搭建整体端到端的图像压缩框架，包括主编码/解码器，超先验编码/解码器，条件上下文模型，熵参数模型，以及因子分解熵模型，其中，所述主编码/解码器，超先验编码/解码器均采用非对称卷积块即ACB模块对视频图像进行特征提取。

进一步的，其特征在于，所述ACB模块即表示三个并行的大小为：1×d，d×d，d×1的卷积核，并且将三个并行地卷积核输出相加以此等效原始的d×d卷积核，通过1×d和d×1的卷积核对d×d的卷积核进行重要位置的加强。

进一步的，在训练阶段具体包括：

步骤1，在整体端到端的图像压缩框架中，通过神经网络的非线性变换的函数映射关系分别记为：主编码/解码器(ga/gs)，超先验编码/解码器(ha/hs)；输入图片经过主编码器生成潜在表示：y＝ga(x)；采用添加均匀噪声以近似量化操作：

输出量化后的信息,；

步骤2，接着通过超先验编码器输出边信息的潜在表示，并且使用量化器进行量化：

输出的信息通过因子分解熵模型被编码为比特流，超先验解码器生成潜在表示的概率模型的中间参数：

步骤3，将条件上下文模型的LSTM网络与带掩膜的卷积并行融合，通过熵参数模型和高斯分布建模后进行熵编码和码率估计，然后使用解码器重建源图像：

步骤4，计算源图像和重建图像的失真以用于损失函数进行端到端的整体优化，表达式为：

D代表了失真函数，将输入与解码器的输出图片进行失真计算，通常使用MSE，或者MS-SSIM进行失真评价，R为码率估计网络得到的码率结果，其中，R＝R_y+R_z，R_y即在网络中传输特征值所消耗的码率，Rz即超先验网络传输的边信息

的码流

进一步的，图像数据在输入LSTM网络前先进行展平工作，将数据从3-D转化为2-D维度，并且在数据的前端添加了0向量作为初始状态，丢弃了数据的最后一列的向量，在经过LSTM网络之后，又将数据从2-D恢复成3-D的维度，此处为维度的表示，即原本的3-D维度表示shape为[w，h，c]，2-D则其shape为[w×h，c]，通过reshape函数转化。

进一步的，所述步骤3具体为：条件上下文模型的LSTM网络与带掩膜的卷积并行，用1×1的卷积核融合两者输出为

并且与φ进行通道拼接，通过熵参数模型后生成μ和σ，代表高斯概率密度函数的均值和方差，用于对特征值的高斯分布建模：

根据生成的值进行熵编码和码率估计，该公式表示每一个y_i服从均值为μ_i和方差为σ_i，量化后的

受到均匀噪声的影响故而其预测概率密度函数与均匀噪声进行卷积运算，得到最终的概率密度函数，其中

表示由于上述的自回归模块，解码端的每一个特征点的概率密度函数均需要已解码的信息以及边信息

得到。

进一步的，所述LSTM网络：通过遗忘门，输入门，输出门进行全局域有关信息的捕获，保留重要性信息，遗忘非重要性息：

忘记门：f_t＝σ(w_f[h_t-1，x_t]+b_f)

输入门：

输出门：

其中，x_t，C_t，h_t，f_t，O_t分别表示时序输入，Cell状态，隐藏层输出，遗忘门输出，输出门输出。w和b都是通过学习参数，w_f，w_q，w_c，w_o表示全连接层的权重参数，b_f，b_q，b_c，b_o表示偏置参数，

表示点乘运算，[h_t-1，x_t]表示两个输入进行拼接操作。w[h，x]+b表示对拼接结果进行标准全连接层的神经网络运算。h_t-1表示t-1时刻的隐藏层状态输出，C_t-1表示t-1时刻的Cell状态输出。σ(x)以及tanh(x)分别表示使用sigmoid和tanh激活函数对输入x进行非线性运算。

进一步的，在所述推理阶段：所述的ACB模块的兼容性使得三个并行的卷积核合成为标准平方卷积核，其中卷积核的兼容性描述如下：

M^(p)＝M^(q)，H_p≤H_q，W_p≤W_q，C_p＝C_q

表示在两个卷积核的输入数据的分辨率M(p)，M(q)一致，且在特征图上的滑动步长以及特征图补0一致，一个卷积核的长宽即H与W均小于等于另一卷积核，且输出的通道数C一致的情况下，两个卷积核是可兼容的，其具体兼容性表现在可以将两个卷积核叠加为一个卷积核：

I为输入的特征图，K为卷积核的权重，当两个卷积核是并连的，输出相加，且满足上述兼容性条件的情况下，则可以将可以通过

运算，即卷积核对应位置的权重值相加合成为一个卷积核，合成后的卷积输出等价于合成前的两个卷积核的输出的和。

进一步的，在推理阶段使用四舍五入的量化准则将浮点型转化为整形用于熵编码。

附图说明

图1是本发明的整体框架示意图；

图2是本发明的并行上下文模型示意图；

图3是本发明的LSTM分支数据处理示意图；

图4a是本发明的ACB模块训练阶段结构示意图；

图4b是本发明的ACB模块推理阶段结构示意图；

图5是本发明实施例的ACB模块合成结构示意图；

图6是本发明的带掩膜的卷积层示意图；

图7是本发明的PSNR失真尺度下的R-D曲线图；

图8是本发明的MS-SSIM失真尺度下的R-D曲线图。

具体实施方式

为了使本发明的目的、技术方案和效果更加清楚明白，以下结合说明书附图和实施例，对本发明做进一步详细说明。

联合非对称卷积块和条件上下文的智能图像压缩的优化方法，具有训练阶段和推理阶段。

在所述训练阶段，搭建整体端到端的图像压缩框架，包括主编码/解码器，超先验编码/解码器，条件上下文模型和熵参数模型，以及因子分解熵模型。

所述主编码/解码器，超先验编码/解码器均采用非对称卷积块即ACB模块代替标准平方卷积核对视频图像进行特征提取。其中，ACB模块即表示三个并行的大小为：1×d，d×d，d×1的卷积核，并且将三个并行地卷积核输出相加以此等效原始的d×d卷积核，通过1×d和d×1的卷积核对d×d的卷积核进行重要位置的加强。

如图1-8所示，在整体端到端的图像压缩框架中，通过神经网络提供强大的非线性变换，各个模块的提供非线性变换的函数映射关系分别记为：主编/解码器(ga/gs)，超先验编/解码器(ha/hs)。输入图片经过主编码器生成潜在表示：y＝ga(x)，x为视频图片的输入变量，由于传统的量化操作具有不可微分的特性，即在非边界处的导数为0，边界处的导数不存在，收噪声抖动原理的启发，采用添加均匀噪声以近似量化操作：Q：

输出量化后的信息，接着通过超先验编码器输出边信息的潜在表示，并且使用量化器进行量化：

输出的信息通过因子分解熵模型被编码为比特流。并且超先验解码器将生成潜在表示的概率模型的中间参数：

其中条件上下文模型中由于LSTM网络的原因，且与带掩膜的卷积有并行关系，为保证当前点预测不包含未解码信息，需要对图像在输入LSTM前后进行处理，先进行展平工作，将数据从3-D转化为2-D维度，并且在数据的前端添加了0向量作为初始状态，丢弃了数据的最后一列的向量，在经过LSTM网络之后，又将数据从2-D恢复成3-D的维度，此处为维度的表示，即原本的3-D维度表示shape为[w,h,c],2-D则其shape为[w×h，c]，通过reshape函数转化。用1×1的卷积核融合两者输出生成φ，并且与φ进行通道拼接，通过熵参数模型后生成μ和σ，代表高斯概率密度函数的均值和方差，用于对特征值的高斯分布建模：

根据生成的值进行熵编码和码率估计。该公式表示每一个y_i服从均值为μ_i和方差为σ_i，而在训练过程中，添加了均匀噪声，所以量化后的

会收到均匀噪声的影响故而其预测概率密度函数与均匀噪声进行卷积运算，得到最终的概率密度函数，其中

才能得到，故而采用条件概率的形式。然后使用解码器重建源图像：

最后，计算源图像和重建图像的失真以用于损失函数进行端到端的整体优化，表达式为：

D代表了失真函数，将输入与解码器的输出图片进行失真计算，通常使用MSE，或者MS-SSIM进行失真评价，R为码率估计网络得到的码率结果，其中，R＝R_y+R_z，R_y即在网络中传输特征值所消耗的码率，R_z即超先验网络传输的边信息

的码流。

过程中，通过优化条件上下文模型，建立高效地全局域上下文捕获机制。本发明使用并行的条件上下文以应用于整体压缩框架的码率估计作用，并行的条件上下文模型包含LSTM网络：通过遗忘门，输入门，输出门进行全局域有关信息的捕获，保留重要性信息，遗忘非重要性息：

忘记门：f_t＝σ(w_f[h_t-1，x_t]+b_f)

输入门：

输出门：

带掩膜的卷积：通过掩蔽卷积的形式掩盖当前及以后未解码信息，确保预测信息的源域只取决于未解码信息，但是如背景技术中所说，带有掩膜的卷积层形式其感受野只在邻域范围，而无法捕获感受野外的信息冗余。

带有PRelu激活层的1×1的卷积层。LSTM网络用于捕获已解码的全局域信息，而带掩膜的卷积层则用于捕获邻域信息，最后采用1×1的卷积层融合两者的输出结果，得到上下文模块的最后输出。

在所述推理阶段：整体数据流程与训练阶段一致。其中对量化与ACB模块进行调整。其中所述的ACB模块的兼容性可以使得三个并行的卷积核合成为标准平方卷积核，通过合成机制，达到了提高性能的目的，而没有额外的计算开销，其中卷积核的兼容性描述如下：

M^(p)＝M^(q)，H_p≤H_q，W_p≤W_q，C_p＝C_q

该表达式表示在两个卷积核的输入数据的分辨率M(p)，M(q)一致，且在特征图上的滑动步长以及特征图补0一致，一个卷积核的长宽即H与W均小于等于另一卷积核，且输出的通道数C一致的情况下，两个卷积核是可兼容的，其具体兼容性表现在可以将两个卷积核叠加为一个卷积核：

运算，即卷积核对应位置的权重值相加合成为一个卷积核。合成后的卷积输出等价于合成前的两个卷积核的输出的和。利用兼容机制可以有效地提高模型的精度而不增加额外的计算开销。

如图5所示，本发明实施例通过三个卷积核：1×5，5×5，5×1构造为ACB模块并且替换基线模型中的5×5卷积核，而在推理阶段合成为单个5×5卷积核。这种合成增强了卷积核提取特征的能力，仅仅损失了训练所需要的时长，但是带来部署阶段的性能提升。本发明所提出的图像压缩框架的卷积核参数细节如下表：

其中，ACB：192×5×5s2表示三个并行的大小为:1×5，5×5，5×1的卷积核，其步长为2，输出通道为192。IACB则表示上采样情况下的逆ACB，GDN则是广义除法归一化的激活层，而IGDN则代表上采样情况下的逆GDN。

由于训练过程需要反向传播而导致量化阶段采用添加噪声的形式，在推理阶段不需要进行优化，则使用四舍五入的量化准则将浮点型转化为整形用于熵编码。

ACB模块由三个并行的卷积核组成，在推理阶段，由于其卷积核兼容性，将三个卷积核合称为一个卷积核，减少计算复杂度。

Claims

1.联合非对称卷积块和条件上下文的智能图像压缩优化方法，具有训练阶段和推理阶段，其特征在于，在所述训练阶段，搭建整体端到端的图像压缩框架，包括主编码/解码器，超先验编码/解码器，条件上下文模型，熵参数模型，以及因子分解熵模型，其中，所述主编码/解码器，超先验编码/解码器均采用非对称卷积块即ACB模块对视频图像进行特征提取。

2.如权利要求1所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法，其特征在于，所述ACB模块即表示三个并行的大小为：1×d，d×d，d×1的卷积核，并且将三个并行地卷积核输出相加以此等效原始的d×d卷积核，通过1×d和d×1的卷积核对d×d的卷积核进行重要位置的加强。

3.如权利要求2所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法，其特征在于，在训练阶段具体包括：

步骤1，在整体端到端的图像压缩框架中，通过神经网络的非线性变换的函数映射关系分别记为：主编码/解码器(ga/gs)，超先验编码/解码器(ha/hs)；输入图片经过主编码器生成潜在表示：y＝ga(x)，x输入变量；采用添加均匀噪声以近似量化操作：

输出量化后的信息,；

的码流。

4.如权利要求3所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法，其特征在于，图像数据在输入LSTM网络前先进行展平工作，将数据从3-D转化为2-D维度，并且在数据的前端添加了0向量作为初始状态，丢弃了数据的最后一列的向量，在经过LSTM网络之后，又将数据从2-D恢复成3-D的维度，此处为维度的表示，即原本的3-D维度表示shape为[w,h,c],2-D则其shape为[w×h，c]，通过reshape函数转化。

5.如权利要求3所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法，其特征在于，所述步骤3具体为：条件上下文模型的LSTM网络与带掩膜的卷积并行，用1×1的卷积核融合两者输出为

得到。

6.如权利要求3所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法，其特征在于，所述LSTM网络：通过遗忘门，输入门，输出门进行全局域有关信息的捕获，保留重要性信息，遗忘非重要性息：

忘记门：f_t＝σ(w_f[h_t-1，x_t]+b_f)

输入门

输出门

7.如权利要求2所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法，其特征在于，在所述推理阶段：所述的ACB模块的兼容性使得三个并行的卷积核合成为标准平方卷积核，其中卷积核的兼容性描述如下：

M^(p)＝M^(q)，h_p≤H_q，W_p≤W_q，C_p＝C_q

表示在两个卷积核的输入数据的分辨率M^(p)，M^(q)一致，且在特征图上的滑动步长以及特征图补0一致，一个卷积核的长宽即H与W均小于等于另一卷积核，且输出的通道数C一致的情况下，两个卷积核是可兼容的，其具体兼容性表现在可以将两个卷积核叠加为一个卷积核：

8.如权利要求7所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法，其特征在于，在推理阶段使用四舍五入的量化准则将浮点型转化为整形用于熵编码。