CN112866694A - 联合非对称卷积块和条件上下文的智能图像压缩优化方法 - Google Patents
联合非对称卷积块和条件上下文的智能图像压缩优化方法 Download PDFInfo
- Publication number
- CN112866694A CN112866694A CN202011644521.2A CN202011644521A CN112866694A CN 112866694 A CN112866694 A CN 112866694A CN 202011644521 A CN202011644521 A CN 202011644521A CN 112866694 A CN112866694 A CN 112866694A
- Authority
- CN
- China
- Prior art keywords
- convolution
- decoder
- image compression
- output
- coder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明用于基于端到端的智能图像压缩领域,属于图像/视频压缩领域,涉及联合非对称卷积块和条件上下文的智能图像压缩的优化方法,具有训练阶段和推理阶段,在所述训练阶段,搭建整体端到端的图像压缩框架,包括主编码/解码器,超先验编码/解码器,条件上下文模型,熵参数模型,以及因子分解熵模型,其中,所述主编码/解码器,超先验编码/解码器均采用非对称卷积块即ACB模块对视频图像进行特征提取;在推理阶段,利用ACB模块的兼容性对并行卷积核合成。本发明通过非对称卷积块能够提高标准平方卷积的提取特征的能力,邻域/全局域的上下文捕获机制则可以提高潜在特征值的建模精准度,使之更符合客观出现概率情况来减少编码冗余。
Description
技术领域
本发明用于基于端到端的智能图像压缩领域,属于图像/视频压缩领域,涉及联合非对称卷积块和条件上下文的智能图像压缩的优化方法。
背景技术
随着互联网的发展,整个网络环境中的图像,视频数据呈现***性增长,为了节省传输带宽以及本地的存储成本,这要求互联网有更强的网络传输能力,即需要更高效的图像/视频压缩算法。其中传统的手工图像压缩算法:JPEG,JPEG2000,HEVC等采用DCT,小波变换等线性变换将输入转换为潜在表示,通过对潜在表示进行量化,熵编码生成压缩后的码流文件。但是,显然传统的线性变换的方式限制了传统编码方式的效率。
而另外一方面,通过神经网络自动设计编/解码器的图像智能压缩算法也展现出巨大的压缩潜力。深度卷积网络可以从大量的样本中建模并且自动地、端到端地学习到更为本质的特征,从而有效地避免了传统人工建模和设计特征的弊端。通过高效的非线性变换以及精准的熵率模型,使得神经网络在图像压缩方面取得了巨大的成功。短短几年的时间,基于端到端的图像压缩性能已经超越了发展几十年的传统的图像编码方式,最新的图像压缩性能已经在性能上与VTM(VVC帧内编码标准)相当,由此可见端到端的图像压缩以及视频压缩在编码领域的巨大潜力。
在智能图像压缩领域,将现有的算法优化分为两个方向,其一为如何在底熵的条件下,提取到更完备的图像特征。第二是,如何进行精准的进行熵模型建模以便于在熵编码阶段得到更低码率的码流。
在现有的技术中,标准平方卷积核被用于提取图像的潜在特征表示,在现有的基于框架中立的CNN结构探索发现标准平方卷积核的提取特征的能力存在不足。
对于码率估计模块中,条件上下文模块采用自回归模型通过已解码信息推断当前信息,这一模块的使用使得智能图像压缩编码框架的编码效率大大增加。在图像中,空域冗余不仅仅存在于邻域范围,也存在于全局域。然而,现有的条件上下文模型仅仅关注邻域信息的获取,而缺乏全局域的已解码信息的捕获机制。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种联合非对称卷积块和邻域/全局域上下文的智能图像压缩的优化方法,用于非对称卷积块能够提高标准平方卷积的提取特征的能力,邻域/全局域的上下文捕获机制则可以提高潜在特征值的建模精准度,使之更符合客观出现概率情况来减少编码冗余,其具体技术方案如下。
联合非对称卷积块和条件上下文的智能图像压缩的优化方法,具有训练阶段和推理阶段,在所述训练阶段,搭建整体端到端的图像压缩框架,包括主编码/解码器,超先验编码/解码器,条件上下文模型,熵参数模型,以及因子分解熵模型,其中,所述主编码/解码器,超先验编码/解码器均采用非对称卷积块即ACB模块对视频图像进行特征提取。
进一步的,其特征在于,所述ACB模块即表示三个并行的大小为:1×d,d×d,d×1的卷积核,并且将三个并行地卷积核输出相加以此等效原始的d×d卷积核,通过1×d和d×1的卷积核对d×d的卷积核进行重要位置的加强。
进一步的,在训练阶段具体包括:
步骤1,在整体端到端的图像压缩框架中,通过神经网络的非线性变换的函数映射关系分别记为:主编码/解码器(ga/gs),超先验编码/解码器(ha/hs);输入图片经过主编码器生成潜在表示:y=ga(x);采用添加均匀噪声以近似量化操作:输出量化后的信息,;
步骤4,计算源图像和重建图像的失真以用于损失函数进行端到端的整体优化,表达式为:
D代表了失真函数,将输入与解码器的输出图片进行失真计算,通常使用MSE,或者MS-SSIM进行失真评价,R为码率估计网络得到的码率结果,其中,R=Ry+Rz,Ry即在网络中传输特征值所消耗的码率,Rz即超先验网络传输的边信息的码流
进一步的,图像数据在输入LSTM网络前先进行展平工作,将数据从3-D转化为2-D维度,并且在数据的前端添加了0向量作为初始状态,丢弃了数据的最后一列的向量,在经过LSTM网络之后,又将数据从2-D恢复成3-D的维度,此处为维度的表示,即原本的3-D维度表示shape为[w,h,c],2-D则其shape为[w×h,c],通过reshape函数转化。
进一步的,所述步骤3具体为:条件上下文模型的LSTM网络与带掩膜的卷积并行,用1×1的卷积核融合两者输出为并且与φ进行通道拼接,通过熵参数模型后生成μ和σ,代表高斯概率密度函数的均值和方差,用于对特征值的高斯分布建模:
根据生成的值进行熵编码和码率估计,该公式表示每一个yi服从均值为μi和方差为σi,量化后的受到均匀噪声的影响故而其预测概率密度函数与均匀噪声进行卷积运算,得到最终的概率密度函数,其中表示由于上述的自回归模块,解码端的每一个特征点的概率密度函数均需要已解码的信息以及边信息得到。
进一步的,所述LSTM网络:通过遗忘门,输入门,输出门进行全局域有关信息的捕获,保留重要性信息,遗忘非重要性息:
忘记门:ft=σ(wf[ht-1,xt]+bf)
其中,xt,Ct,ht,ft,Ot分别表示时序输入,Cell状态,隐藏层输出,遗忘门输出,输出门输出。w和b都是通过学习参数,wf,wq,wc,wo表示全连接层的权重参数,bf,bq,bc,bo表示偏置参数,表示点乘运算,[ht-1,xt]表示两个输入进行拼接操作。w[h,x]+b表示对拼接结果进行标准全连接层的神经网络运算。ht-1表示t-1时刻的隐藏层状态输出,Ct-1表示t-1时刻的Cell状态输出。σ(x)以及tanh(x)分别表示使用sigmoid和tanh激活函数对输入x进行非线性运算。
进一步的,在所述推理阶段:所述的ACB模块的兼容性使得三个并行的卷积核合成为标准平方卷积核,其中卷积核的兼容性描述如下:
M(p)=M(q),Hp≤Hq,Wp≤Wq,Cp=Cq
表示在两个卷积核的输入数据的分辨率M(p),M(q)一致,且在特征图上的滑动步长以及特征图补0一致,一个卷积核的长宽即H与W均小于等于另一卷积核,且输出的通道数C一致的情况下,两个卷积核是可兼容的,其具体兼容性表现在可以将两个卷积核叠加为一个卷积核:
I为输入的特征图,K为卷积核的权重,当两个卷积核是并连的,输出相加,且满足上述兼容性条件的情况下,则可以将可以通过运算,即卷积核对应位置的权重值相加合成为一个卷积核,合成后的卷积输出等价于合成前的两个卷积核的输出的和。
进一步的,在推理阶段使用四舍五入的量化准则将浮点型转化为整形用于熵编码。
附图说明
图1是本发明的整体框架示意图;
图2是本发明的并行上下文模型示意图;
图3是本发明的LSTM分支数据处理示意图;
图4a是本发明的ACB模块训练阶段结构示意图;
图4b是本发明的ACB模块推理阶段结构示意图;
图5是本发明实施例的ACB模块合成结构示意图;
图6是本发明的带掩膜的卷积层示意图;
图7是本发明的PSNR失真尺度下的R-D曲线图;
图8是本发明的MS-SSIM失真尺度下的R-D曲线图。
具体实施方式
为了使本发明的目的、技术方案和效果更加清楚明白,以下结合说明书附图和实施例,对本发明做进一步详细说明。
联合非对称卷积块和条件上下文的智能图像压缩的优化方法,具有训练阶段和推理阶段。
在所述训练阶段,搭建整体端到端的图像压缩框架,包括主编码/解码器,超先验编码/解码器,条件上下文模型和熵参数模型,以及因子分解熵模型。
所述主编码/解码器,超先验编码/解码器均采用非对称卷积块即ACB模块代替标准平方卷积核对视频图像进行特征提取。其中,ACB模块即表示三个并行的大小为:1×d,d×d,d×1的卷积核,并且将三个并行地卷积核输出相加以此等效原始的d×d卷积核,通过1×d和d×1的卷积核对d×d的卷积核进行重要位置的加强。
如图1-8所示,在整体端到端的图像压缩框架中,通过神经网络提供强大的非线性变换,各个模块的提供非线性变换的函数映射关系分别记为:主编/解码器(ga/gs),超先验编/解码器(ha/hs)。输入图片经过主编码器生成潜在表示:y=ga(x),x为视频图片的输入变量,由于传统的量化操作具有不可微分的特性,即在非边界处的导数为0,边界处的导数不存在,收噪声抖动原理的启发,采用添加均匀噪声以近似量化操作:Q:输出量化后的信息,接着通过超先验编码器输出边信息的潜在表示,并且使用量化器进行量化:输出的信息通过因子分解熵模型被编码为比特流。并且超先验解码器将生成潜在表示的概率模型的中间参数:其中条件上下文模型中由于LSTM网络的原因,且与带掩膜的卷积有并行关系,为保证当前点预测不包含未解码信息,需要对图像在输入LSTM前后进行处理,先进行展平工作,将数据从3-D转化为2-D维度,并且在数据的前端添加了0向量作为初始状态,丢弃了数据的最后一列的向量,在经过LSTM网络之后,又将数据从2-D恢复成3-D的维度,此处为维度的表示,即原本的3-D维度表示shape为[w,h,c],2-D则其shape为[w×h,c],通过reshape函数转化。用1×1的卷积核融合两者输出生成φ,并且与φ进行通道拼接,通过熵参数模型后生成μ和σ,代表高斯概率密度函数的均值和方差,用于对特征值的高斯分布建模:
根据生成的值进行熵编码和码率估计。该公式表示每一个yi服从均值为μi和方差为σi,而在训练过程中,添加了均匀噪声,所以量化后的会收到均匀噪声的影响故而其预测概率密度函数与均匀噪声进行卷积运算,得到最终的概率密度函数,其中表示由于上述的自回归模块,解码端的每一个特征点的概率密度函数均需要已解码的信息以及边信息才能得到,故而采用条件概率的形式。然后使用解码器重建源图像:最后,计算源图像和重建图像的失真以用于损失函数进行端到端的整体优化,表达式为:
D代表了失真函数,将输入与解码器的输出图片进行失真计算,通常使用MSE,或者MS-SSIM进行失真评价,R为码率估计网络得到的码率结果,其中,R=Ry+Rz,Ry即在网络中传输特征值所消耗的码率,Rz即超先验网络传输的边信息的码流。
过程中,通过优化条件上下文模型,建立高效地全局域上下文捕获机制。本发明使用并行的条件上下文以应用于整体压缩框架的码率估计作用,并行的条件上下文模型包含LSTM网络:通过遗忘门,输入门,输出门进行全局域有关信息的捕获,保留重要性信息,遗忘非重要性息:
忘记门:ft=σ(wf[ht-1,xt]+bf)
输出门:其中,xt,Ct,ht,ft,Ot分别表示时序输入,Cell状态,隐藏层输出,遗忘门输出,输出门输出。w和b都是通过学习参数,wf,wq,wc,wo表示全连接层的权重参数,bf,bq,bc,bo表示偏置参数,表示点乘运算,[ht-1,xt]表示两个输入进行拼接操作。w[h,x]+b表示对拼接结果进行标准全连接层的神经网络运算。ht-1表示t-1时刻的隐藏层状态输出,Ct-1表示t-1时刻的Cell状态输出。σ(x)以及tanh(x)分别表示使用sigmoid和tanh激活函数对输入x进行非线性运算。
带掩膜的卷积:通过掩蔽卷积的形式掩盖当前及以后未解码信息,确保预测信息的源域只取决于未解码信息,但是如背景技术中所说,带有掩膜的卷积层形式其感受野只在邻域范围,而无法捕获感受野外的信息冗余。
带有PRelu激活层的1×1的卷积层。LSTM网络用于捕获已解码的全局域信息,而带掩膜的卷积层则用于捕获邻域信息,最后采用1×1的卷积层融合两者的输出结果,得到上下文模块的最后输出。
在所述推理阶段:整体数据流程与训练阶段一致。其中对量化与ACB模块进行调整。其中所述的ACB模块的兼容性可以使得三个并行的卷积核合成为标准平方卷积核,通过合成机制,达到了提高性能的目的,而没有额外的计算开销,其中卷积核的兼容性描述如下:
M(p)=M(q),Hp≤Hq,Wp≤Wq,Cp=Cq
该表达式表示在两个卷积核的输入数据的分辨率M(p),M(q)一致,且在特征图上的滑动步长以及特征图补0一致,一个卷积核的长宽即H与W均小于等于另一卷积核,且输出的通道数C一致的情况下,两个卷积核是可兼容的,其具体兼容性表现在可以将两个卷积核叠加为一个卷积核:
I为输入的特征图,K为卷积核的权重,当两个卷积核是并连的,输出相加,且满足上述兼容性条件的情况下,则可以将可以通过运算,即卷积核对应位置的权重值相加合成为一个卷积核。合成后的卷积输出等价于合成前的两个卷积核的输出的和。利用兼容机制可以有效地提高模型的精度而不增加额外的计算开销。
如图5所示,本发明实施例通过三个卷积核:1×5,5×5,5×1构造为ACB模块并且替换基线模型中的5×5卷积核,而在推理阶段合成为单个5×5卷积核。这种合成增强了卷积核提取特征的能力,仅仅损失了训练所需要的时长,但是带来部署阶段的性能提升。本发明所提出的图像压缩框架的卷积核参数细节如下表:
其中,ACB:192×5×5s2表示三个并行的大小为:1×5,5×5,5×1的卷积核,其步长为2,输出通道为192。IACB则表示上采样情况下的逆ACB,GDN则是广义除法归一化的激活层,而IGDN则代表上采样情况下的逆GDN。
由于训练过程需要反向传播而导致量化阶段采用添加噪声的形式,在推理阶段不需要进行优化,则使用四舍五入的量化准则将浮点型转化为整形用于熵编码。
ACB模块由三个并行的卷积核组成,在推理阶段,由于其卷积核兼容性,将三个卷积核合称为一个卷积核,减少计算复杂度。
Claims (8)
1.联合非对称卷积块和条件上下文的智能图像压缩优化方法,具有训练阶段和推理阶段,其特征在于,在所述训练阶段,搭建整体端到端的图像压缩框架,包括主编码/解码器,超先验编码/解码器,条件上下文模型,熵参数模型,以及因子分解熵模型,其中,所述主编码/解码器,超先验编码/解码器均采用非对称卷积块即ACB模块对视频图像进行特征提取。
2.如权利要求1所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法,其特征在于,所述ACB模块即表示三个并行的大小为:1×d,d×d,d×1的卷积核,并且将三个并行地卷积核输出相加以此等效原始的d×d卷积核,通过1×d和d×1的卷积核对d×d的卷积核进行重要位置的加强。
3.如权利要求2所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法,其特征在于,在训练阶段具体包括:
步骤1,在整体端到端的图像压缩框架中,通过神经网络的非线性变换的函数映射关系分别记为:主编码/解码器(ga/gs),超先验编码/解码器(ha/hs);输入图片经过主编码器生成潜在表示:y=ga(x),x输入变量;采用添加均匀噪声以近似量化操作:输出量化后的信息,;
步骤4,计算源图像和重建图像的失真以用于损失函数进行端到端的整体优化,表达式为:
4.如权利要求3所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法,其特征在于,图像数据在输入LSTM网络前先进行展平工作,将数据从3-D转化为2-D维度,并且在数据的前端添加了0向量作为初始状态,丢弃了数据的最后一列的向量,在经过LSTM网络之后,又将数据从2-D恢复成3-D的维度,此处为维度的表示,即原本的3-D维度表示shape为[w,h,c],2-D则其shape为[w×h,c],通过reshape函数转化。
6.如权利要求3所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法,其特征在于,所述LSTM网络:通过遗忘门,输入门,输出门进行全局域有关信息的捕获,保留重要性信息,遗忘非重要性息:
忘记门:ft=σ(wf[ht-1,xt]+bf)
7.如权利要求2所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法,其特征在于,在所述推理阶段:所述的ACB模块的兼容性使得三个并行的卷积核合成为标准平方卷积核,其中卷积核的兼容性描述如下:
M(p)=M(q),hp≤Hq,Wp≤Wq,Cp=Cq
表示在两个卷积核的输入数据的分辨率M(p),M(q)一致,且在特征图上的滑动步长以及特征图补0一致,一个卷积核的长宽即H与W均小于等于另一卷积核,且输出的通道数C一致的情况下,两个卷积核是可兼容的,其具体兼容性表现在可以将两个卷积核叠加为一个卷积核:
8.如权利要求7所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法,其特征在于,在推理阶段使用四舍五入的量化准则将浮点型转化为整形用于熵编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011644521.2A CN112866694B (zh) | 2020-12-31 | 2020-12-31 | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011644521.2A CN112866694B (zh) | 2020-12-31 | 2020-12-31 | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112866694A true CN112866694A (zh) | 2021-05-28 |
CN112866694B CN112866694B (zh) | 2023-07-14 |
Family
ID=76000938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011644521.2A Active CN112866694B (zh) | 2020-12-31 | 2020-12-31 | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112866694B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113747163A (zh) * | 2021-08-17 | 2021-12-03 | 上海交通大学 | 基于上下文重组建模的图像编码、解码方法及压缩方法 |
CN113949880A (zh) * | 2021-09-02 | 2022-01-18 | 北京大学 | 一种极低码率人机协同图像编码训练方法及编解码方法 |
CN114363615A (zh) * | 2021-12-27 | 2022-04-15 | 上海商汤科技开发有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN114386595A (zh) * | 2021-12-24 | 2022-04-22 | 西南交通大学 | 一种基于超先验架构的sar图像压缩方法 |
CN114501011A (zh) * | 2022-02-22 | 2022-05-13 | 北京市商汤科技开发有限公司 | 图像压缩方法、图像解压缩方法及装置 |
CN114861835A (zh) * | 2022-07-04 | 2022-08-05 | 浙江大学 | 一种基于非对称卷积的噪声性听力损失预测*** |
WO2022253088A1 (zh) * | 2021-05-29 | 2022-12-08 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质、计算机程序及产品 |
CN117676149A (zh) * | 2024-02-02 | 2024-03-08 | 中国科学技术大学 | 一种基于频域分解的图像压缩方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728707A (zh) * | 2019-10-18 | 2020-01-24 | 陕西师范大学 | 基于非对称深度卷积神经网络的多视角深度预测方法 |
US20200081431A1 (en) * | 2018-09-07 | 2020-03-12 | DoorDash, Inc. | Video system with frame synthesis |
CN111163314A (zh) * | 2018-11-07 | 2020-05-15 | 合肥图鸭信息科技有限公司 | 一种图像压缩方法及*** |
US20200160565A1 (en) * | 2018-11-19 | 2020-05-21 | Zhan Ma | Methods And Apparatuses For Learned Image Compression |
CN111311629A (zh) * | 2020-02-21 | 2020-06-19 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置及设备 |
EP3723048A1 (en) * | 2019-04-11 | 2020-10-14 | Fujitsu Limited | Method and apparatus for coding and decoding using a convolutional neural network |
CN112017116A (zh) * | 2020-07-23 | 2020-12-01 | 西北大学 | 基于非对称卷积的图像超分辨率重建网络及其构建方法 |
-
2020
- 2020-12-31 CN CN202011644521.2A patent/CN112866694B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200081431A1 (en) * | 2018-09-07 | 2020-03-12 | DoorDash, Inc. | Video system with frame synthesis |
CN111163314A (zh) * | 2018-11-07 | 2020-05-15 | 合肥图鸭信息科技有限公司 | 一种图像压缩方法及*** |
US20200160565A1 (en) * | 2018-11-19 | 2020-05-21 | Zhan Ma | Methods And Apparatuses For Learned Image Compression |
EP3723048A1 (en) * | 2019-04-11 | 2020-10-14 | Fujitsu Limited | Method and apparatus for coding and decoding using a convolutional neural network |
CN110728707A (zh) * | 2019-10-18 | 2020-01-24 | 陕西师范大学 | 基于非对称深度卷积神经网络的多视角深度预测方法 |
CN111311629A (zh) * | 2020-02-21 | 2020-06-19 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置及设备 |
CN112017116A (zh) * | 2020-07-23 | 2020-12-01 | 西北大学 | 基于非对称卷积的图像超分辨率重建网络及其构建方法 |
Non-Patent Citations (2)
Title |
---|
DAVID MINNEN等: "Joint Autoregressive and Hierarchical Priors for Learned Image Compression", 《ACM DIGITAL LIBRARY》 * |
JOHANNES BALLÉD等: "VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR", 《RESEARCHGATE》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022253088A1 (zh) * | 2021-05-29 | 2022-12-08 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质、计算机程序及产品 |
CN113747163B (zh) * | 2021-08-17 | 2023-09-26 | 上海交通大学 | 基于上下文重组建模的图像编码、解码方法及压缩方法 |
CN113747163A (zh) * | 2021-08-17 | 2021-12-03 | 上海交通大学 | 基于上下文重组建模的图像编码、解码方法及压缩方法 |
CN113949880A (zh) * | 2021-09-02 | 2022-01-18 | 北京大学 | 一种极低码率人机协同图像编码训练方法及编解码方法 |
CN114386595A (zh) * | 2021-12-24 | 2022-04-22 | 西南交通大学 | 一种基于超先验架构的sar图像压缩方法 |
CN114363615B (zh) * | 2021-12-27 | 2023-05-19 | 上海商汤科技开发有限公司 | 数据处理方法及装置、电子设备和存储介质 |
WO2023124148A1 (zh) * | 2021-12-27 | 2023-07-06 | 上海商汤智能科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN114363615A (zh) * | 2021-12-27 | 2022-04-15 | 上海商汤科技开发有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN114501011A (zh) * | 2022-02-22 | 2022-05-13 | 北京市商汤科技开发有限公司 | 图像压缩方法、图像解压缩方法及装置 |
CN114501011B (zh) * | 2022-02-22 | 2023-04-21 | 北京市商汤科技开发有限公司 | 图像压缩方法、图像解压缩方法及装置 |
CN114861835A (zh) * | 2022-07-04 | 2022-08-05 | 浙江大学 | 一种基于非对称卷积的噪声性听力损失预测*** |
CN117676149A (zh) * | 2024-02-02 | 2024-03-08 | 中国科学技术大学 | 一种基于频域分解的图像压缩方法 |
CN117676149B (zh) * | 2024-02-02 | 2024-05-17 | 中国科学技术大学 | 一种基于频域分解的图像压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112866694B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112866694B (zh) | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 | |
CN111787323B (zh) | 一种基于对抗学习的可变比特率生成式压缩方法 | |
CN103329522B (zh) | 用于使用字典编码视频的方法 | |
CN113259676A (zh) | 一种基于深度学习的图像压缩方法和装置 | |
CN114503576A (zh) | 通过可变形卷积生成用于视频编解码的预测帧 | |
CN114449276B (zh) | 一种基于学习的超先验边信息补偿图像压缩方法 | |
WO2020261314A1 (ja) | 画像符号化方法、及び画像復号方法 | |
CN114374846A (zh) | 视频压缩方法、装置、设备及存储介质 | |
CN115345785A (zh) | 一种基于多尺度时空特征融合的暗光视频增强方法及*** | |
CN116939226A (zh) | 一种面向低码率图像压缩的生成式残差修复方法及装置 | |
CN113747163A (zh) | 基于上下文重组建模的图像编码、解码方法及压缩方法 | |
Löhdefink et al. | GAN-vs. JPEG2000 image compression for distributed automotive perception: Higher peak SNR does not mean better semantic segmentation | |
Fan et al. | D-dpcc: Deep dynamic point cloud compression via 3d motion prediction | |
CN115278262A (zh) | 一种端到端智能视频编码方法及装置 | |
CN115988215A (zh) | 可变码率图像压缩方法、***、装置、终端及存储介质 | |
CN116916036A (zh) | 视频压缩方法、装置及*** | |
CN115052147B (zh) | 基于生成模型的人体视频压缩方法、*** | |
CN117980914A (zh) | 用于以有损方式对图像或视频进行编码、传输和解码的方法及数据处理*** | |
CN111163320A (zh) | 一种视频压缩方法及*** | |
CN111770344B (zh) | 一种基于深度学习网络的激光光谱图像压缩方法及*** | |
Putra et al. | Intra-frame based video compression using deep convolutional neural network (dcnn) | |
Teng et al. | Light Field Compression via a Variational Graph Auto-Encoder | |
CN117425013B (zh) | 一种基于可逆架构的视频传输方法和*** | |
US11683515B2 (en) | Video compression with adaptive iterative intra-prediction | |
CN114697632B (zh) | 一种基于双向条件编码的端到端立体图像压缩方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |