CN116016954A - 图像编码方法、图像解码方法、装置以及计算机存储介质 - Google Patents
图像编码方法、图像解码方法、装置以及计算机存储介质 Download PDFInfo
- Publication number
- CN116016954A CN116016954A CN202211598629.1A CN202211598629A CN116016954A CN 116016954 A CN116016954 A CN 116016954A CN 202211598629 A CN202211598629 A CN 202211598629A CN 116016954 A CN116016954 A CN 116016954A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- coding
- network
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种图像编码方法、图像解码方法、装置以及计算机存储介质,该方法包括:利用主编码网络中变换模块的第一分支提取待编码图像的待编码图像特征和第一编码特征;利用变换模块的第二分支提取待编码图像特征的全局信息,基于全局信息获取第一编码特征的全局相关性因子;利用全局相关性因子对第一编码特征进行调制,获取调制后的第二编码特征;将第二编码特征输入第一熵模型网络进行特征分析,获取第二编码特征的分布信息;采用主编码网络的编码模块根据分布信息对第二编码特征进行编码,得到待编码图像的特征码流。本申请通过采用基于全局信息指导的变换网络,该网络采用双分支结构充分利用输入特征的全局相关性,提取紧凑的特征表示。
Description
技术领域
本申请涉及特征编码技术领域,特别是涉及一种图像编码方法、图像解码方法、装置以及计算机存储介质。
背景技术
传统的图像编码技术是针对人类视觉特性设计的,而随着深度神经网络在各项机器视觉任务中展现出的优越性能,例如图像分类、目标检测、语义分割等,涌现出大量基于机器视觉的人工智能应用。为了保证机器视觉任务的性能不因图像编码过程而受损,采取先分析后编码的模式应对机器视觉需求,即在图像获取端直接将无损的图像通过神经网络进行特征提取,然后对所提取的特征进行编码传输,解码端直接利用解码后的特征输入到后续网络结构中完成不同的机器视觉任务。因此,为了节省传输带宽资源,需要研究针对机器视觉的图像编码方法。
然而,目前的特征编码算法缺乏对全局信息的提取和利用,导致无法提取紧凑的特征表示。
发明内容
本申请提供一种图像编码方法、图像解码方法、装置以及计算机存储介质。
本申请采用的一个技术方案是提供一种图像编码方法,所述图像编码方法包括:
输入待编码图像,并利用主编码网络中变换模块的第一分支提取所述待编码图像的待编码图像特征和第一编码特征;
利用所述变换模块的第二分支提取所述待编码图像特征的全局信息,基于所述全局信息获取所述第一编码特征的全局相关性因子;
利用所述全局相关性因子对所述第一编码特征进行调制,获取调制后的第二编码特征;
将所述第二编码特征输入第一熵模型网络进行特征分析,获取所述第二编码特征的分布信息;
采用所述主编码网络的编码模块根据所述分布信息对所述第二编码特征进行编码,得到所述待编码图像的特征码流。
其中,所述利用所述变换模块的第二分支提取所述待编码图像特征的全局信息,包括:
利用所述变换模块的第二分支获取所述待编码图像特征的空域注意力权重,以及获取所述待编码图像特征的通道维度注意力权重;
利用所述空域注意力权重,获取所述待编码图像特征在空域的非局部计算得到的第三编码特征;
利用所述通道维度注意力权重,获取所述待编码图像特征在通道维度的非局部计算得到的第四编码特征;
将所述第三编码特征和所述第四编码特征进行特征融合,提取所述待编码图像特征的全局信息。
其中,所述获取所述待编码图像特征的空域注意力权重,包括:
利用第一卷积获取所述待编码图像特征的第一特征表示;
利用第二卷积获取所述第一特征表示的第二特征表示;
对所述第二特征表示采用不同的维度调整方式后,得到第三特征表示和第四特征表示;
将所述第三特征表示和所述第四特征表示进行矩阵运算,得到所述待编码图像特征的空域注意力权重;
所述利用所述空域注意力权重,获取所述待编码图像特征在空域的非局部计算得到的第三编码特征,包括:
将所述待编码图像特征和所述空域注意力权重进行矩阵运算,得到第一加权特征表示;
将所述第一加权特征表示与所述待编码图像特征进行特征融合,得到所述第三编码特征。
其中,所述获取所述待编码图像特征的通道维度注意力权重,包括:
利用第三卷积获取所述第待编码图像特征的第五特征表示;
对所述第五特征表示采用不同的维度调整方式后,得到第六特征表示和第七特征表示;
将所述第六特征表示和所述第七特征表示进行矩阵运算,得到所述待编码图像特征的通道维度注意力权重;
所述利用所述通道维度注意力权重,获取所述待编码图像特征在通道维度的非局部计算得到的第四编码特征,包括:
利用第四卷积获取所述待编码图像特征的第八特征表示;
将所述第八特征表示和所述通道维度注意力权重进行矩阵运算,得到第二加权特征表示;
将所述第二加权特征表示与所述待编码图像特征进行特征融合,得到所述第四编码特征。
其中,所述全局相关性因子包括掩膜因子和偏移因子;
所述基于所述全局信息获取所述第一编码特征的全局相关性因子,包括:
利用第五卷积对所述全局信息进行卷积处理,获取所述第一编码特征的掩膜因子;
利用第六卷积对所述全局信息进行卷积处理,获取所述第一编码特征的偏移因子;
所述利用所述全局相关性因子对所述第一编码特征进行调制,获取调制后的第二编码特征,包括:
将所述第一编码特征与所述掩膜因子的特征相乘结果,与所述偏移因子进行特征相加,得到所述调制后的第二编码特征。
其中,所述将所述第二编码特征输入第一熵模型网络进行特征分析,获取所述第二编码特征的分布信息,包括:
将所述第二编码特征,以及所述第一熵模型网络对所述第二编码特征的第一辅反变换结果输入所述第一熵模型网络的上下文预测器,获取所述第二编码特征的上下文信息;
将所述上下文信息输入所述第一熵模型网络的第一概率模型,获取所述第一概率模型输出的分布信息。
其中,所述将所述第二编码特征,以及所述第一熵模型网络对所述第二编码特征的第一辅反变换结果输入所述第一熵模型网络的上下文预测器,获取所述第二编码特征的上下文信息,包括:
获取所述第二编码特征的已编码特征图;
利用前半部分激活卷积提取所述已编码特征图的第一估计结果;
利用所述上下文预测器中的预测网络提取所述第二编码特征的第一预测结果;
利用后半部分激活卷积提取所述第一预测结果的第二估计结果;
将所述第一估计结果和所述第二估计结果进行融合,得到所述第二编码特征的邻域范围结果;
将所述第一辅反变换结果与所述邻域范围结果进行融合,得到所述第二编码特征的上下文信息。
其中,所述前半部分激活卷积的卷积中心点的前半部分权重不为0,后半部分权重为0;所述后半部分激活卷积的卷积中心点的前半部分权重为0,后半部分权重不为0。
其中,所述图像编码方法还包括:
获取所述第二编码特征输入所述第一熵模型网络的辅变换模块,得到第五编码特征;
利用第二熵模型网络的预测器,获取所述第五编码特征的预测信息;
将所述预测信息输入所述第二熵模型网络的第二概率模型,获取所述第五编码特征的分布信息;
利用所述第五编码特征的分布信息对所述第五编码特征进行编解码,得到所述第一辅反变换结果。
其中,所述利用第二熵模型网络的预测器,获取所述第五编码特征的预测信息,包括:
利用所述第二熵模型网络的预测器中的预测网络,提取所述第五编码特征的第二预测结果;
将所述第二预测结果与所述第二熵模型网络对所述第五编码特征的第二辅反变换结果进行融合,得到所述第五编码特征的预测信息。
本申请采用的另一个技术方案是提供一种图像解码方法,所述图像解码方法包括:
输入特征码流;
采用主编码网络根据分布信息对所述特征码流进行解码,得到所述特征码流的第一解码特征;
采用所述主编码网络根据预设全局相关性因子对所述第一解码特征进行反调制,获取反调制后的第二解码特征;
按照所述第二解码特征进行重建,得到解码图像。
本申请采用的另一个技术方案是提供一种图像编码装置,所述图像编码装置包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的图像编码方法。
本申请采用的另一个技术方案是提供一种图像解码装置,所述图像解码装置包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的图像解码方法。
本申请采用的另一个技术方案是提供一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如上述的图像编码方法和/或图像解码方法。
本申请的有益效果是:图像编码装置输入待编码图像,并利用主编码网络中变换模块的第一分支提取待编码图像的待编码图像特征和第一编码特征;利用所述变换模块的第二分支提取待编码图像特征的全局信息,基于全局信息获取第一编码特征的全局相关性因子;利用全局相关性因子对第一编码特征进行调制,获取调制后的第二编码特征;将第二编码特征输入第一熵模型网络进行特征分析,获取第二编码特征的分布信息;采用主编码网络的编码模块根据分布信息对第二编码特征进行编码,得到待编码图像的特征码流。本申请的图像编码方法通过采用基于全局信息指导的变换网络,该网络采用双分支结构充分利用输入特征的全局相关性,提取紧凑的特征表示。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是图像端到端编解码器的基本结构示意图;
图2是神经图像编解码器的基本结构示意图;
图3是本申请提供的图像编码方法一实施例的流程示意图;
图4是本申请提供的图像端到端编解码器的简要结构示意图;
图5是图3所示图像编码方法步骤S12的具体流程示意图;
图6是本申请提供的基于全局信息指导的双分支变换结构;
图7是本申请提供的空域的非局部计算结构示意图;
图8是本申请提供的通道维度的非局部计算结构示意图;
图9是本申请提供的空域信息和通道维度信息的融合结构示意图;
图10是图3所示图像编码方法步骤S14的具体流程示意图;
图11是本申请提供的结合预测值的上下文预测器的结构示意图;
图12是本申请提供的前半部分激活的3D mask卷积展开图;
图13是本申请提供的后半部分(包括中心点)激活的3D mask卷积展开图;
图14是本申请提供的结合预测值的预测器的结构示意图;
图15是本申请提供的图像解码方法一实施例的流程示意图;
图16是本申请提供的图像编码装置一实施例的结构示意图;
图17是本申请提供的图像解码装置一实施例的结构示意图;
图18是本申请提供的计算机存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
面向未来视频编码学习组,是一个隶属于IEEE数据压缩标准委员会(DCSC,TheIEEE Computer Society/Data Compression Standards Committee)的致力于发展基于神经网络的图像编码标准的组织。目前,该组织已经公布出图像编解码器的参考软件,其证实了在性能上高于目前最先进图像编解码器标准,包括JPEG,BPG和VVC等。该图像编解码器,又命名为神经图像编解码器(NIC,Neural Image Caption),其本质上是一个完全由神经网络构成的端到端图像编解码器,其特点是编解码器中各个模块功能采用联合优化的方式去构建。图像端到端编解码器基本结构如图1所示,其中包含:主编码网络和熵模型网络。在主编码器下,包含变换和反变换、量化和反量化、熵编码和熵解码。
(1)变换主要采用卷积神经网络进行非线性下采样,其作用在于使用更紧凑的表达表述原始图像的主要特征,并减少图像的维度和数据量,而反变换则是从紧凑的表达中恢复出原始图像。
(2)量化则是有损编码的环节之一,将数据进行整型化,提高压缩率,而反量化(可选)则是相反操作,但也可以不做,因为通过神经网络的强大非线性能力,可以包含了反量化的作用。
(3)而熵编码是是个无损过程,通过已构建概率模型,计算出每个特征中符号位的概率,并将其编码成二进制表示写进码流中,而熵解码是其反过程。
在熵模型网络,包括辅变换和辅反变换、量化和反量化、熵编码和熵解码,以及构建概率模型。其中,除了构建概率模型,其余模块功能与主编码网络类型。构建概率模型主要是通过神经网络学习模型参数,用来计算出主编码网络待编码特征的概率。
目前,随着标准的持续推进,NIC在基础结构上进一步发展,目前该标准在原有的模块下进行改进,并新增模块包含,多熵模型网络、上下文模型、前处理、熵编码加速和后处理增强,其示意图如图2所示,具体地:
(1)前处理,图像进行划分成512*512的分块,并对输入图像进行垂直翻转和旋转,生成8个副本,每个副本输入到网络框架中,计算其率失真RD,记录RD最小的索引。
(2)熵编码加速,只编码有效通道,即非全0的特征通道,将其索引进行编码。
(3)多熵模型网络,新增一个熵模型网络2,为熵模型网络1拟合概率模型。
(4)上下文预测器。该部分包含一个上下文模型和预测网络:
a)上下文模型。由于特征中每个待编码特征点,依赖于前一个已编码特征点,上下文模型可以学习其相关关系,减少冗余。
b)预测网络。记主编解码网络中变换网络的输出为主要潜在特征表示,则预测网络旨在估计出该潜在表示预测值,并与其求差值,其对残差进行编解码。
(5)预测器。仅包含预测网络,目的是为了估计出辅变换网络的潜在特征表示,以求残差进行编码,不包含上下文模型。
(6)后处理,通过预训练的基于神经网络的增强模块,消除重建后的块效应、伪影和振铃效应等。
NIC联合优化时采用的损失函数形式如下:
本申请在图1所示的图像端到端编解码器基本结构和图2所示的神经图像编解码器的基础上,提出在NIC的主编解码网络中,采用双分支的网络结构,以局部到全局的方式,自适应地利用空域的相关性,去掉冗余信息,获取紧凑的特征表示,提高编解码性能;提出在NIC的上下文预测器中,尽可能利用到待编/解码点上下左右邻域范围内的信息来预测该位置点的信息,提高编解码性能。
具体请参阅图3和图4,图3是本申请提供的图像编码方法一实施例的流程示意图,图4是本申请提供的图像端到端编解码器的简要结构示意图。
本申请提出一种高效端到端图像压缩方法,在上述图2所示NIC的基础上,主要改进点包含变换/反变换,辅变换/辅反变换,以及上下文模型。具体如图4所示,图4表示的是本申请提出的图像端到端编解码器总体框架:
(1)变换/反变换:采用双分支结构,从局部到全局,自适应学习邻域的相关性。
(2)上下文预测器:结合预测值的上下文模型,使得待编/解码点能够同时参考其位置前后的上下文信息,提升编码性能。
(3)预测器。联合预测网络的输出和辅反变换结果生成概率模型的参数。
下面结合图3所示的图像编码方法实施例,对上述主要改进点进行详细阐述:
如图3所示,本申请实施例的图像编码方法包括以下步骤:
步骤S11:输入待编码图像,并利用主编码网络中变换模块的第一分支提取待编码图像的待编码图像特征和第一编码特征。
在本申请实施例中,图像编码装置获取需要编码的图像,然后提取图像的待编码图像特征和第一编码特征。
步骤S12:利用变换模块的第二分支提取待编码图像特征的全局信息,基于全局信息获取第一编码特征的全局相关性因子。
在本申请实施例中,图像编码装置提取待编码图像特征的全局信息,全局信息的提取方式或提取结构包括但不限于:Transformer结构以及其他成熟的全局特征提取网络等。图像编码装置利用全局信息指导后续的编码过程,从而获得紧凑的特征表示,实现更低的编码码流大小。
具体地,如图4所示,本申请在NIC的变换/反变换模块,采用了并行的双分支结构提取全局信息。请继续参阅图5和图6,图5是图3所示图像编码方法步骤S12的具体流程示意图,图6是本申请提供的基于全局信息指导的双分支变换结构。
如图6所示,基于全局信息指导的双分支变换结构,包含主分支和Mask辅分支。其中,主分支主要包含多个下采样阶段,对输入图像进行非线性变换和降维。Mask分支主要利用空域的全局信息和通道维度的全局信息对主分支的每个下采样阶段的编码特征进行调制和补偿。
具体地,图6所示的双分支结构主要包含以下模块:
(1)主分支包含多个卷积、残差块和M组采样模块,其中,每组采样模块包括:
(a)采样操作:为上采样(升维)或者下采样(降维)操作。下采样包含但不限于步长卷积、池化或像素重组等方法,上采样包含但不限于反卷积或者亚像素卷积等方法。在图像编码过程,采样操作为下采样操作;在图像解码过程,采样操作为上采样操作。
(b)非线性变换:每次采样操作后进行非线性变换,非线性变换方法包含但不限于:普通的残差块、密集残差块和可分离卷积残差块等。
(2)Mask分支包含联合全局信息提取模块和下采样模块:
全局信息提取模块:获取输入图像的全局相关性,即全局信息,提取方法包含但不限于基于双注意力的双分支结构、Transformer结构等。
例如,全局信息提取模块的基于双注意力的双分支结构中,一分支主要进行空域的非局部计算,另一分支进行通道维度的非局部计算。设输入维度为H×W×C,则全局信息提取模块包含空域的非局部计算模块、通道维度的非局部计算模块和融合三部分,下面结合步骤S12的具体流程继续介绍全局信息提取模块的具体工作过程:
步骤S121:获取待编码图像特征的空域注意力权重,以及获取待编码图像特征的通道维度注意力权重。
在本申请实施例中,空域的非局部计算结构图请继续参阅图7,如图7所示,图像编码装置获取维度为H×W×C的输入。
然后,图像编码装置先分别使用不同感受野(K×K和K0×K0)的卷积对输入进行空间或通道上的降维或非线性映射,获得三份特征表示。
具体地,如图7所示,图像编码装置利用第一卷积(K×K,步长为s)对待编码图像特征进行卷积处理,得到第一特征表示,其特征维度为H/s×W/s×C。然后,图像编码装置利用第二卷积(K0×K0,步长为s1)对第一特征表示进行卷积处理,得到第二特征表示,其特征维度为H/s×W/s×C/s1。其中,s和s1均表示降维因子。
进一步地,对于图7中的前两份特征表示,即第二特征表示进行不同的维度调整,得到第三特征表示(H/s×W/s)×C/s1和第四特征表示C/s1×(H/s×W/s)。图像编码装置将第三特征表示和第四特征表示进行矩阵乘法,输出第一编码特征中每一个像素点的注意力权重,其维度为(H/s×W/s)×(H/s×W/s)。
步骤S122:利用空域注意力权重,获取待编码图像特征在空域的非局部计算得到的第三编码特征。
在本申请实施例中,图像编码装置将步骤S121的待编码图像特征与注意力权重进行矩阵乘法,即表示待编码图像特征的每一个新的像素点由空间位置的所有像素点加权生成,得到第一加权特征表示,其特征维度为:H/s×W/s×C。
进一步,图像编码装置将第一加权特征表示进一步通过变换操作(维度变换或非线性映射)得到与输入的待编码图像特征相同维度的特征(H×W×C),并与待编码图像特征进行特征相加,得到待编码图像特征在空域的非局部计算得到的第三编码特征。
步骤S123:利用通道维度注意力权重,获取待编码图像特征在通道维度的非局部计算得到的第四编码特征。
在本申请实施例中,通道维度的非局部计算结构图请继续参阅图8,如图8所示,图像编码装置获取维度为H×W×C的输入。
然后,图像编码装置首先使用两个第三卷积(K1×K1,K1>1)对输入进行空间上的降维或者非线性变换,获得两份特征表示,即第五特征表示,其特征维度均为H/s2×W/s2×C,s2表示降维因子。
另一分支,图像编码装置使用一个第四卷积(K2×K2)对输入进行非线性变换,得到第八特征表示(H×W×C),特征维度保持不变。
为C×C。
在本申请实施例中,图像编码装置将第八特征表示与通道维度的注意力权重进行矩阵乘法,即表示第一编码特征的每一个新的像素点由其所在通道上的所有像素点加权生成,得到第二加权特征表示,其特征维度为:H×W×C。
进一步,图像编码装置将第一加权特征与待编码图像特征进行特征相加,得到待编码图像特征在通道维度的非局部计算得到的第四编码特征。
步骤S124:将第三编码特征和第四编码特征进行特征融合,提取待编码图像特征的全局信息。
在本申请实施例中,如图9所示,图9是本申请提供的空域信息和通道维度信息的融合结构示意图。图像编码装置将上述步骤的空域的非局部计算结果和通道维度的非局部计算结果进行通道级的拼接,并通过卷积融合,再加上输入构建残差块,促进信息的流动。这就相当于,输出的每一个像素由其所在空域和通道上的所有像素点加权生成,充分利用像素间的全局相关性。
在本申请实施例中,提出在变换网络中,采用基于双注意力的并行结构,充分考虑到空间维度和通道维度的全局信息,提高编码性能。
步骤S13:利用全局相关性因子对第一编码特征进行调制,获取调制后的第二编码特征。
在本申请实施例中,上述步骤S12计算所得的全局信息可以通过全局相关性因子表征对主分支中第一编码特征的调制效果。具体地,本申请的全局相关性因子具体包括掩膜因子和偏移因子。
请继续参阅图6,主分支的待编码图像经过卷积以及若干残差块处理后,将待编码图像特征输入Mask分支提取全局信息。Mask分支将全局信息经过Mask分支的采样模块后,由调制模块的卷积处理,生成相应的全局相关性因子。另外,主分支的待编码图像经过卷积、若干残差块以及采样模块后,得到第一编码特征。
具体地,Mask分支的采样模块与主分支的采样模块类型,全局信息依次通过M组相应的采样模块进行降维(或升维)和非线性变换。调制模块提供两组卷积,每组采样模块输出的全局信息通过两组卷积分别生成两个因子,即掩膜(mask)因子和偏移因子(offset)。mask因子乘上主分支的每个采样模块的输出的第一编码特征并加上offset因子进行调制,得到调制后的第二编码特征。
在一种具体的实施方式中,将图6的基于全局信息指导的双分支变换结构应用到图4的变换网络中,则具体配置如下:
(a)双分支变换结构的输入为待编码图像,输出则为潜在特征表示。
(b)采样模块中的采样为下采样操作,为步长为2的步长卷积,即空间维度为原来的1/2。
(c)空域的非局部计算中,为控制复杂度,K=5,K0=1,s=2,s1=2,即空间维度和通道均为降为原来的1/2。同时,变换为反卷积的上采样。
(d)通道维度的非局部计算中,K1=5,K1=1,s2=2,即空间维度降为原来的1/2。
在一种具体的实施方式中,将图6的基于全局信息指导的双分支变换结构应用到图4的反变换网络中,和变换网络相反,则具体配置如下:
(e)双分支的输入为解码的潜在特征表示,输出则为解码图像。
(f)采样模块中的采样为上采样操作,为升维因子为2的反卷积,即空间维度为原来的2倍。
(g)空域的非局部计算中,K=5,K0=1,s=1,s1=1,即空间维度和通道均不变(因为输入的潜在特征表示维度已经比较小了)。同时,变换为普通的卷积操作。
(h)通道维度的非局部计算中,K1=5,K2=1,s2=1,即空间维度不变。
在本申请实施例中,提出在变换/反变换中,采用基于全局信息指导的变换网络,该网络采用双分支结构充分利用输入特征的全局相关性,提取紧凑的特征表示。
步骤S14:将第二编码特征输入第一熵模型网络进行特征分析,获取第二编码特征的分布信息。
在本申请实施例中,图像编码装置将上述变换网络处理后得到的第二编码特征输入第一熵模型网络进行特征分析,由第一熵模型网络中的概率模型输出第二编码特征的分布信息。其中,第一熵模型网络可以采用现有的图像端到端编解码器中的第一熵模型网络,如图1和图2中的熵模型网络等。
为了进一步提高编解码性能,本申请提出一种结合预测值的上下文模型,对第一熵模型网络进行优化改进。集体请参阅图10和图11,图10是图3所示图像编码方法步骤S14的具体流程示意图,图11是本申请提供的结合预测值的上下文预测器的结构示意图。
如图11所示,本申请提供的上下文模型可以在熵编码时利用已编/解码的特征点来学习当前特征点。然而,由于样本点之间的依赖性,仅仅利用已编/解码点来预测当前特征点是远远不够的。若能同时利用当前特征点之后的邻域范围内的像素点(即未编/解码点)辅助预测当前点,将能够有提高编解码性能。
下面结合步骤S14的具体流程继续介绍结合预测值的上下文预测器的具体工作过程:
步骤S141:将第二编码特征,以及第一熵模型网络对第二编码特征的第一辅反变换结果输入第一熵模型网络的上下文预测器,获取第二编码特征的上下文信息。
在本申请实施例中,如图4所示,图像编码装置将第一熵模型网络的辅反变换结果以及主编码网络的变换结果输入上下文预测器,由上下文预测器根据辅反变换结果提取变换结构中第二编码特征的上下文信息。
具体地,请参阅图12和图13,图12是本申请提供的前半部分激活的3D mask卷积展开图,图13是本申请提供的后半部分(包括中心点)激活的3D mask卷积展开图。
图像编码装置利用图12所示的前半部分激活卷积提取已编码特征图的第一估计结果。具体地,针对已编/解码点,图像编码装置对已编/解码点使用前半部分激活的K×K×K的3D mask卷积,如图12所示,即只有卷积中心点的前半部分有权重(不为0),后半部分为0,得到当前点的初步估计结果,即第一估计结果。
图像编码装置利用图13所示的后半部分激活卷积提取未编码特征图的第二估计结果。具体地,针对上下文预测器中的预测网络输出的预测结果(未编/解码点),图像编码装置首先确定当前特征点在预测网络输出的特征图中的位置,并对当前特征点后半邻域范围内使用后半部分的K×K×K的3D mask卷积,如图13所示,即同上述图12的3D mask卷积相反,只有卷积中心点的后半部分和中心点有权重,前半部分为0,即只取了当前特征点邻域的后半部分,获得当前特征点的第二估计结果。
请继续参阅图11,图像编码装置将上述计算所得的第一估计结果和第二估计结果进行融合,融合方式包含但不限于相加、卷积融合等方法。这就相当于,当前特征点由其邻域范围内的像素(这些像素的前半部分来自已编码点,后半部分来自预测网络的估计结果,即未编码点)预测得到。
进一步地,图像编码装置将邻域范围的融合结果,与第一熵模型网络的辅反变换结果进行融合,获得概率模型的参数。另外,上下文预测器中预测网络输出的预测结果还用于后续的求差/求和操作,具体包括在编码过程中,预测结果与变换模块输出的变换结果的相减,以及在解码过程中,预测结果与解码结果相加。
具体地,预测结果将和变换结果求差值,编解码模块对差值进行编码;同理,编解码模块对特征码流的解码结果为差值,需要加上预测结果之后,再进行反变换得到解码图像。
在一种具体的实施方式中,将图11的结合预测值的上下文预测器应用到图4的上下文预测器中,则具体配置如下:
(a)针对已编/解码点的3D mask卷积核大小:K=11。
(b)针对预测网络输出的预测结果(未编/解码点)的3D mask卷积核大小:K=11。
(c)图11的邻域范围融合方法为:点对点相加策略;第二个融合方法为:通道拼接和1×1的卷积融合。
在本申请实施例中,提出结合预测值的上下文模型,同时考虑当前点上下左右邻域范围内的像素值(即已编/解码点和未编/解码点),更加准确预测当前点的信息,提高编解码性能。
进一步介绍图4中第一熵模型网络和第二熵模型网络的具体运算过程:
图像编码装置获取第二编码特征输入第一熵模型网络的辅变换模块,得到第五编码特征,其中,辅变换模块与上述变换模块为相同结构,在此不再赘述。图像编码装置利用第二熵模型网络的预测器,获取第五编码特征的预测信息;将预测信息输入第二熵模型网络的第二概率模型,获取第五编码特征的分布信息;利用第五编码特征的分布信息对第五编码特征进行编解码,得到第一辅反变换结果。
其中,图像编码装置利用第二熵模型网络的预测器中的预测网络,提取第五编码特征的第二预测结果;将第二预测结果与第二熵模型网络对第五编码特征的第二辅反变换结果进行融合,得到第五编码特征的预测信息。具体请参阅图14,图14是本申请提供的结合预测值的预测器的结构示意图。
图14的预测器主要用于第二熵模型网络中,用于估计第二熵模型网络的概率模型的参数值。类似上述结合预测值的上下文预测器,分别对预测网络的估计结果和辅变换结果采用核大小为M×M和N×N的卷积(包含但不限于普通卷积、残差块或扩张卷积)进行映射,再进行融合获取概率模型所需的参数。
具体地,图14的预测结果将和辅变换结果求差值,对差值进行编码。同理,解码结果为差值,需要加上预测结果,再进行辅反变换得到解码特征。
在一种具体的实施方式中,将图14的结合预测值的预测器应用到图4的预测器中,则具体配置如下:
(a)卷积1:3×3的卷积。
(b)卷积2:3×3的卷积。
(c)融合方式为:通道拼接和1×1的卷积。
在本申请实施例中,提出结合预测值的预测器,联合潜在特征表示的预测值和辅变换结果,充分预测当前点的信息。
步骤S142:将上下文信息输入第一熵模型网络的第一概率模型,获取所述第一概率模型输出的分布信息。
在本申请实施例中,图像编码装置将上下文预测器输出的上下文信息输入概率模型,概率模型根据上下文信息预测特征的分布情况,并输出分布信息。
步骤S15:采用主编码网络的编码模块根据分布信息对第二编码特征进行编码,得到待编码图像的特征码流。
在本申请实施例中,主编码网络利用第一熵模型网络输出的分布信息对第二编码特征进行编码,得到,能够按照特征的分布情况提高编码准确性和编码效率。
在本申请实施例中,图像编码装置输入待编码图像,并利用主编码网络中变换模块的第一分支提取待编码图像的待编码图像特征和第一编码特征;利用所述变换模块的第二分支提取待编码图像特征的全局信息,基于全局信息获取第一编码特征的全局相关性因子;利用全局相关性因子对第一编码特征进行调制,获取调制后的第二编码特征;将第二编码特征输入第一熵模型网络进行特征分析,获取第二编码特征的分布信息;采用主编码网络的编码模块根据分布信息对第二编码特征进行编码,得到待编码图像的特征码流。本申请的图像编码方法通过采用基于全局信息指导的变换网络,该网络采用双分支结构充分利用输入特征的全局相关性,提取紧凑的特征表示。
相对地,请继续参阅图15,图15是本申请提供的图像解码方法一实施例的流程示意图。
如图15所示,本申请实施例的图像解码方法包括以下步骤:
步骤S21:输入特征码流。
步骤S22:采用主编码网络根据分布信息对特征码流进行解码,得到特征码流的第一解码特征。
步骤S23:采用主编码网络根据预设全局相关性因子对第一解码特征进行反调制,获取反调制后的第二解码特征。
步骤S24:按照第二解码特征进行重建,得到解码图像。
需要说明的是,本申请实施例的图像解码方法实质上为上述实施例的图像编码方法的逆过程,因此,可以毫无疑义地将图像编码方法的所有技术方案应用到本实施例的图像解码方法中,可以通过简单的逆工程推导出相关的技术方案,在此不再赘述。
以上实施例,仅是对本申请的其中一种常见案例而已,并非对本申请的技术范围做任何限制,故凡是依据本申请方案的实质对以上内容所做的任何细微修改、等同变化或者修饰,均仍属于本申请技术方案的范围内。
请继续参见图16,图16是本申请提供的图像编码装置一实施例的结构示意图。本申请实施例的图像编码装置500包括处理器51、存储器52、输入输出设备53以及总线54。
该处理器51、存储器52、输入输出设备53分别与总线54相连,该存储器52中存储有程序数据,处理器51用于执行程序数据以实现上述实施例所述的图像编码方法。
在本申请实施例中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP,Digital Signal Process)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现场可编程门阵列(FPGA,FieldProgrammable Gate Array)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。
请继续参见图17,图17是本申请提供的图像解码装置一实施例的结构示意图。本申请实施例的图像解码装置600包括处理器61、存储器62、输入输出设备63以及总线64。
该处理器61、存储器62、输入输出设备63分别与总线64相连,该存储器62中存储有程序数据,处理器61用于执行程序数据以实现上述实施例所述的图像解码方法。
本申请还提供一种计算机存储介质,请继续参阅图18,图18是本申请提供的计算机存储介质一实施例的结构示意图,该计算机存储介质700中存储有程序数据71,该程序数据71在被处理器执行时,用以实现上述实施例的图像编码方法和/或图像解码方法。
本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,方式利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种图像编码方法,其特征在于,所述图像编码方法包括:
输入待编码图像,并利用主编码网络的变换模块的第一分支提取所述待编码图像的待编码图像特征和第一编码特征;
利用所述变换模块的第二分支提取所述待编码图像特征的全局信息,基于所述全局信息获取所述第一编码特征的全局相关性因子;
利用所述全局相关性因子对所述第一编码特征进行调制,获取调制后的第二编码特征;
将所述第二编码特征输入第一熵模型网络进行特征分析,获取所述第二编码特征的分布信息;
采用所述主编码网络的编码模块根据所述分布信息对所述第二编码特征进行编码,得到所述待编码图像的特征码流。
2.根据权利要求1所述的图像编码方法,其特征在于,
所述利用所述变换模块的第二分支提取所述待编码图像特征的全局信息,包括:
利用所述变换模块的第二分支获取所述待编码图像特征的空域注意力权重,以及获取所述待编码图像特征的通道维度注意力权重;
利用所述空域注意力权重,获取所述待编码图像特征在空域的非局部计算得到的第三编码特征;
利用所述通道维度注意力权重,获取所述待编码图像特征在通道维度的非局部计算得到的第四编码特征;
将所述第三编码特征和所述第四编码特征进行特征融合,提取所述待编码图像特征的全局信息。
3.根据权利要求2所述的图像编码方法,其特征在于,
所述获取所述待编码图像特征的空域注意力权重,包括:
利用第一卷积获取所述待编码图像特征的第一特征表示;
利用第二卷积获取所述第一特征表示的第二特征表示;
对所述第二特征表示采用不同的维度调整方式后,得到第三特征表示和第四特征表示;
将所述第三特征表示和所述第四特征表示进行矩阵运算,得到所述待编码图像特征的空域注意力权重;
所述利用所述空域注意力权重,获取所述待编码图像特征在空域的非局部计算得到的第三编码特征,包括:
将所述待编码图像特征和所述空域注意力权重进行矩阵运算,得到第一加权特征表示;
将所述第一加权特征表示与所述待编码图像特征进行特征融合,得到所述第三编码特征。
4.根据权利要求2所述的图像编码方法,其特征在于,
所述获取所述待编码图像特征的通道维度注意力权重,包括:
利用第三卷积获取所述待编码图像特征的第五特征表示;
对所述第五特征表示采用不同的维度调整方式后,得到第六特征表示和第七特征表示;
将所述第六特征表示和所述第七特征表示进行矩阵运算,得到所述待编码图像特征的通道维度注意力权重;
所述利用所述通道维度注意力权重,获取所述待编码图像特征在通道维度的非局部计算得到的第四编码特征,包括:
利用第四卷积获取所述待编码图像特征的第八特征表示;
将所述第八特征表示和所述通道维度注意力权重进行矩阵运算,得到第二加权特征表示;
将所述第二加权特征表示与所述待编码图像特征进行特征融合,得到所述第四编码特征。
5.根据权利要求1所述的图像编码方法,其特征在于,
所述全局相关性因子包括掩膜因子和偏移因子;
所述基于所述全局信息获取所述第一编码特征的全局相关性因子,包括:
利用第五卷积对所述全局信息进行卷积处理,获取所述第一编码特征的掩膜因子;
利用第六卷积对所述全局信息进行卷积处理,获取所述第一编码特征的偏移因子;
所述利用所述全局相关性因子对所述第一编码特征进行调制,获取调制后的第二编码特征,包括:
将所述第一编码特征与所述掩膜因子的特征相乘结果,与所述偏移因子进行特征相加,得到所述调制后的第二编码特征。
6.根据权利要求1所述的图像编码方法,其特征在于,
所述将所述第二编码特征输入第一熵模型网络进行特征分析,获取所述第二编码特征的分布信息,包括:
将所述第二编码特征,以及所述第一熵模型网络对所述第二编码特征的第一辅反变换结果输入所述第一熵模型网络的上下文预测器,获取所述第二编码特征的上下文信息;
将所述上下文信息输入所述第一熵模型网络的第一概率模型,获取所述第一概率模型输出的分布信息。
7.根据权利要求6所述的图像编码方法,其特征在于,
所述将所述第二编码特征,以及所述第一熵模型网络对所述第二编码特征的第一辅反变换结果输入所述第一熵模型网络的上下文预测器,获取所述第二编码特征的上下文信息,包括:
获取所述第二编码特征的已编码特征图;
利用前半部分激活卷积提取所述已编码特征图的第一估计结果;
利用所述上下文预测器中的预测网络提取所述第二编码特征的第一预测结果;
利用后半部分激活卷积提取所述第一预测结果的第二估计结果;
将所述第一估计结果和所述第二估计结果进行融合,得到所述第二编码特征的邻域范围结果;
将所述第一辅反变换结果与所述邻域范围结果进行融合,得到所述第二编码特征的上下文信息。
8.根据权利要求7所述的图像编码方法,其特征在于,
所述前半部分激活卷积的卷积中心点的前半部分权重不为0,后半部分权重为0;所述后半部分激活卷积的卷积中心点的前半部分权重为0,后半部分权重不为0。
9.根据权利要求6所述的图像编码方法,其特征在于,
所述图像编码方法还包括:
获取所述第二编码特征输入所述第一熵模型网络的辅变换模块,得到第五编码特征;
利用第二熵模型网络的预测器,获取所述第五编码特征的预测信息;
将所述预测信息输入所述第二熵模型网络的第二概率模型,获取所述第五编码特征的分布信息;
利用所述第五编码特征的分布信息对所述第五编码特征进行编解码,得到所述第一辅反变换结果。
10.根据权利要求9所述的图像编码方法,其特征在于,
所述利用第二熵模型网络的预测器,获取所述第五编码特征的预测信息,包括:
利用所述第二熵模型网络的预测器中的预测网络,提取所述第五编码特征的第二预测结果;
将所述第二预测结果与所述第二熵模型网络对所述第五编码特征的第二辅反变换结果进行融合,得到所述第五编码特征的预测信息。
11.一种图像解码方法,其特征在于,所述图像解码方法包括:
输入特征码流;
采用主编码网络根据分布信息对所述特征码流进行解码,得到所述特征码流的第一解码特征;
采用所述主编码网络根据预设全局相关性因子对所述第一解码特征进行反调制,获取反调制后的第二解码特征;
按照所述第二解码特征进行重建,得到解码图像。
12.一种图像编码装置,其特征在于,所述图像编码装置包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1~10任一项所述的图像编码方法。
13.一种图像解码装置,其特征在于,所述图像解码装置包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求11所述的图像解码方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如权利要求1~10任一项所述的图像编码方法和/或权利要求11所述的图像解码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211598629.1A CN116016954A (zh) | 2022-12-09 | 2022-12-09 | 图像编码方法、图像解码方法、装置以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211598629.1A CN116016954A (zh) | 2022-12-09 | 2022-12-09 | 图像编码方法、图像解码方法、装置以及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116016954A true CN116016954A (zh) | 2023-04-25 |
Family
ID=86025732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211598629.1A Pending CN116016954A (zh) | 2022-12-09 | 2022-12-09 | 图像编码方法、图像解码方法、装置以及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116016954A (zh) |
-
2022
- 2022-12-09 CN CN202211598629.1A patent/CN116016954A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Minnen et al. | Joint autoregressive and hierarchical priors for learned image compression | |
CN111263161B (zh) | 视频压缩处理方法、装置、存储介质和电子设备 | |
CN112203093B (zh) | 一种基于深度神经网络的信号处理方法 | |
CN111630570A (zh) | 图像处理方法、设备及计算机可读存储介质 | |
CN111641826B (zh) | 对数据进行编码、解码的方法、装置与*** | |
CN111986278A (zh) | 图像编码装置、概率模型生成装置和图像压缩*** | |
CN115131675A (zh) | 一种基于参考影像纹理迁移的遥感影像压缩方法及*** | |
CN112507849A (zh) | 一种基于条件生成对抗网络的动态到静态场景转换方法 | |
US20240242467A1 (en) | Video encoding and decoding method, encoder, decoder and storage medium | |
CN116600119B (zh) | 视频编码、解码方法、装置、计算机设备和存储介质 | |
Khoshkhahtinat et al. | Multi-context dual hyper-prior neural image compression | |
CN112702607A (zh) | 一种基于光流决策的智能视频压缩方法及装置 | |
TWI826160B (zh) | 圖像編解碼方法和裝置 | |
CN117036436A (zh) | 一种基于双编码器-解码器的单目深度估计方法及*** | |
CN111080729A (zh) | 基于Attention机制的训练图片压缩网络的构建方法及*** | |
CN114501031B (zh) | 一种压缩编码、解压缩方法以及装置 | |
CN115866252A (zh) | 一种图像压缩方法、装置、设备及存储介质 | |
CN116016954A (zh) | 图像编码方法、图像解码方法、装置以及计算机存储介质 | |
CN115512199A (zh) | 一种基于图注意和非对称卷积网络的图像压缩模型 | |
CN115361555A (zh) | 图像编码方法、图像编码方法、装置以及计算机存储介质 | |
CN117915107B (zh) | 图像压缩***、图像压缩方法、存储介质与芯片 | |
Ayyoubzadeh et al. | Lossless compression of mosaic images with convolutional neural network prediction | |
US20240244218A1 (en) | Encoding method, decoding method, bitstream, encoder, decoder, storage medium, and system | |
CN116168093A (zh) | 图像特征变换处理的方法、图像编码方法、图像解码方法 | |
CN117422779A (zh) | 图像特征变换处理的方法、图像编码方法、图像解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |