CN114915786B - 一种面向物联网场景的非对称语义图像压缩方法 - Google Patents
一种面向物联网场景的非对称语义图像压缩方法 Download PDFInfo
- Publication number
- CN114915786B CN114915786B CN202210445325.5A CN202210445325A CN114915786B CN 114915786 B CN114915786 B CN 114915786B CN 202210445325 A CN202210445325 A CN 202210445325A CN 114915786 B CN114915786 B CN 114915786B
- Authority
- CN
- China
- Prior art keywords
- semantic
- linear encoder
- image
- internet
- quantized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006835 compression Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000007906 compression Methods 0.000 title claims abstract description 44
- 238000005070 sampling Methods 0.000 claims abstract description 106
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 7
- 210000000887 face Anatomy 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000006855 networking Effects 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种面向物联网场景的非对称语义图像压缩方法。所述面向物联网场景的非对称语义图像压缩方法包括获取量化采样信号,并使用深度解码器重构图像;从所述重构图像中提取语义信息,将所述语义信息用于训练所述轻量级线性编码器,并将经过训练的所述轻量级线性编码器广播到物联网设备。本发明通过基于残差保真块重构取得更好的率失真表现,基于数据语义的率失真优化,保证了下游任务的准确率。
Description
技术领域
本发明涉及图像处理领域,具体涉及一种面向物联网场景的非对称语义图像压缩方法。
背景技术
通过分析理解由物联网前端设备感知的海量数据,深度学习已经使得智能物联网(AIoT)的概念成为现实,但由于物联网设备的计算资源、存储空间以及电池容量有限,在物联网设备上部署深度网络模型仍然存在客观障碍。随着移动边缘计算和5G技术(第五代移动通信技术)的发展,通过在靠近物联网设备的具有较强计算能力的服务器上部署深度神经网络模型,并在物联网设备和服务器之间部署图像压缩算法,可以有效的解决上述障碍。
目前流行的有损图像压缩算法,没有考虑语义失真优化。Liu、Choi等人提出的基于JPEG(JointPhotographicExpertsGroup)框架的图像压缩算法是不变的和不可学习的,从而导致在特定下游任务中表现不佳。Yuan等人提出的基于压缩感知的灰度图像压缩框架,没有考虑对彩色图像的有效扩展。深度有损图像压缩方法虽然取得了良好的率失真性能,但是其高昂的部署代价不适用于计算资源有限的物联网设备。
因此,现有技术还有待于改进和发展。
发明内容
本发明要解决的技术问题在于,针对计算资源有限的物联网场景设计一种非对称语义图像压缩方法,旨在解决现有的图像压缩算法没有考虑语义失真优化和彩色图像有效扩展、不可学习以及不能轻量级部署的问题。
本发明解决技术问题所采用的技术方案如下:
第一方面,本发明实施例提供一种面向物联网场景的非对称语义图像压缩方法,其中,所述方法包括:
获取量化采样信号,并基于所述量化采样信号使用深度解码器进行图像重构,得到重构图像;
从所述重构图像中提取语义信息,使用所述语义信息训练第一轻量级线性编码器,得到已训练的轻量级线性编码器,并将已训练的所述轻量级线性编码器广播到物联网设备。
在一种实现方式中,所述量化采样信号从所述物联网设备中获取得到,所述物联网设备用于:
通过第二轻量级线性编码器获取目标图像,并将所述目标图像进行分离采样处理,得到采样信号;
通过所述第二轻量级线性编码器采用可学习量化将所述采样信号转换为所述量化采样信号;
通过所述第二轻量级线性编码器将所述量化采样信号用算术编码器进行熵编码,得到所述量化采样信号的比特流;
通过所述第二轻量级线性编码器将所述比特流上传到服务器。
在一种实现方式中,所述通过所述第二轻量级线性编码器获取目标图像,并将所述目标图像进行分离采样处理,包括:
通过所述第二轻量级线性编码器将所述目标图像的RGB颜色空间通过RGB-YUV变换转换为YUV颜色空间;
通过所述第二轻量级线性编码器将所述目标图像的所述YUV颜色空间中每个YUV通道分成不重叠的B×B大小的采样块,其中,所述B×B大小的采样块的表达式为:其中H,W是所述目标图像的高与宽,y,u,v为Y,U,V通道下标;
通过所述第二轻量级线性编码器用可学习的线性采样矩阵对所述采样块进行采样,采样过程为:yi:j=Axi:j,其中是所述可学习的线性采样矩阵,使得M<3B2,其中M是采样的数量。
在一种实现方式中,所述方法还包括:
将所述可学习的线性采样矩阵作为可学习参数集成到带有参数集的与任务相关的语义深度特征提取器中。
在一种实现方式中,所述获取量化的采样信号,并使用深度解码器重构图像,包括:
接收所述量化采样信号的比特流;
将所述量化采样信号的比特流输入深度解码器中;
将所述量化采样信号的比特流采用算术解码器进行熵解码,得到所述量化采样信号;
将所述量化的采样信号进行重构处理,得到中间YUV重构信号;
将所述中间YUV重构信号进行保真处理,得到保真度恢复,并分通道梯度将中间YUV重构信号更新为保真YUV重构信号;
用所述带有参数集的与任务相关的语义深度特征提取器从所述保真度恢复中提取特征,并加入到原始特征中;
其中,所述将所述量化的采样信号进行重构处理,得到中间YUV重构信号,包括:
用残差块学习所述目标图像的先验性,得到基于残差块的可学习先验;
将所述量化的采样信号用所述基于残差块的可学习先验进行重构,得到所述中间YUV重构信号。
在一种实现方式中,所述从所述重构图像中提取语义信息,使用所述语义信息训练第一轻量级线性编码器,包括:
从所述重构图像中提取重构推断语义信息;
根据所述重构推断语义信息,得到为评价下游任务推断准确率的损失;
根据所述为评价下游任务推断准确率的损失,得到数据-语义率失真优化目标;
基于所述数据-语义率失真优化目标,得到数据-语义率失真损失函数;
用所述数据-语义率失真损失函数训练所述轻量级线性编码器。
在一种实现方式中,所述数据-语义率失真优化目标包括估计的比特率损失,人眼感知损失和所述为评价下游任务推断准确率的损失;
所述数据-语义率失真损失函数为:
其中,是编码和量化后的向量,X是所述目标图像,/>是所述重构图像,z是真实的语义标签,/>是所述重构图像经过下游任务模型推断生成的语义标签,d1(·)为MSE或其他评价图像重构质量的损失,d2(·)为预期语义失真,λ1,λ2是控制总体损失的拉格朗日乘数,DR是估计的比特率损失,D1是人眼感知损失,D2为评价下游任务推断准确率的损失。
第二方面,本发明实施例还提供一种面向物联网场景的非对称语义图像压缩***,所述非对称语义图像压缩***包括:服务器以及与所述服务器连接的物联网设备,其中,所述服务器包括:
重构图像获取模块,用于获取量化采样信号,并基于所述量化采样信号使用深度解码器进行图像重构,得到重构图像;
轻量级线性编码器训练模块,用于从所述重构图像中提取语义信息,使用所述语义信息训练第一轻量级线性编码器,得到已训练的轻量级线性编码器,并将已训练的所述轻量级线性编码器广播到物联网设备。
第三方面,本发明实施还提供一种服务器,所述服务器包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的面向物联网场景的非对称语义图像压缩程序,所述处理器执行所述面向物联网场景的非对称语义图像压缩程序时,实现如上述方案中任一项所述的面向物联网场景的非对称语义图像压缩方法的步骤。
第四方面,本发明实施例还提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述方案中任一项所述的一种面向物联网场景的非对称语义图像压缩方法的步骤。
有益效果:与现有技术相比,本发明提供了一种面向物联网场景的非对称语义图像压缩算法,本发明首先获取量化采样信号,并使用深度解码器重构图像。然后从所述重构图像中提取语义信息,将所述语义信息用于训练所述轻量级线性编码器。最后,将经过训练的所述轻量级线性编码器广播到物联网设备。本发明通过部署在服务器上基于残差保真块的深度解码器重构图像,并通过数据-语义率失真损失函数训练轻量级线性编码器以取得更好的率失真表现,保证了下游任务的准确率,从而解决现有的图像压缩算法没有考虑语义失真优化以及不可学习的问题。通过将深度解码器和训练函数部署在所述服务器上解决了物联网设备计算资源和存储空间有限的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的面向物联网场景的非对称语义图像压缩方法的流程示意图。
图2是本发明实施例提供的面向物联网场景的非对称语义图像压缩算法的网络构架图
图3是本发明实施例提供的RGB与YUV通道内部的皮尔森相关系数的绝对值关系图。
图4是本发明实施例提供的分离采样过程示意图。
图5是本发明实施例提供的基于残差保真块的迭代解码过程示意图。
图6本发明实施例提供的不同压缩算法在Cityscapes与KITTI数据集上的率失真表现示意图。
图7是本发明实施例提供的面向物联网场景的非对称语义图像压缩***的原理框图。
图8是本发明实施例提供的服务器的原理框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
目前流行的有损图像压缩算法,没有考虑语义失真优化。Liu、Choi等人提出的基于JPEG(JointPhotographicExpertsGroup)框架的图像压缩算法是不变的和不可学习的,从而导致在特定下游任务中表现不佳。Yuan等人提出的基于压缩感知的灰度图像压缩框架,没有考虑对彩色图像的有效扩展。深度有损图像压缩方法虽然取得了良好的率失真性能,但是其高昂的部署代价不适用于计算资源有限的物联网设备。为了解决上述技术问题,本实施例提供了一种面向物联网场景的非对称语义图像压缩算法,本实施例首先获取量化采样信号,并使用深度解码器重构图像。然后从所述重构图像中提取语义信息,将所述语义信息用于训练所述轻量级线性编码器。最后,将经过训练的所述轻量级线性编码器广播到物联网设备。本实施例通过基于残差保真块重构取得更好的率失真表现,基于数据语义的率失真优化,保证了下游任务的准确率。
示例性方法
本实施例提供一种面向物联网场景的非对称语义图像压缩算法,本实施例可应用于服务器中,所述服务器可为云/边缘服务器。如图1所示,所述方法包括如下步骤:
步骤S100、获取量化采样信号,并基于所述量化采样信号使用深度解码器进行图像重构,得到重构图像。
在本实施例中,云/边缘服务器接收到物联网设备发送的量化采样信号后,由部署在云/边缘服务器上的深度解码器对所述量化采样信号进行重构处理,以得到重构图像。
其中,所述量化采样信号是通过把采样信号对应的连续变化区间转换为离散整数值得到的。现实中采集到的原始图像信号是连续灰度的信号,连续信号是不能在信道中传输的,这就需要将连续灰度的图像信号重新划分为若干个区间,为每个区间分别取离散整数值代表对应的灰度级。本实施例中,物联网设备上的轻量级线性编码器先将目标图像进行采样后得到采样信号,再将采样信号对应的连续变化区间转换为离散整数值,就得到量化采样信号。
其中,所述深度解码器部署在云/边缘服务器上,图像解码方法和图像编码方法是相互对应的过程。所述量化采样信号是通过对物联网设备上的目标图像进行编码所得到的,所以,重构图像是通过云/边缘服务器上的深度解码器对所述量化采样信号进行重构得到的。
在一种实施方式中,本实施例中所述量化采样信号从所述物联网设备中获取得到,所述物联网设备通过如下步骤得到所述量化采样信号:
S10、通过第二轻量级线性编码器获取目标图像,并将所述目标图像进行分离采样处理,得到采样信号;
S20、通过所述第二轻量级线性编码器采用可学习量化将所述采样信号转换为所述量化采样信号;
S30、通过所述第二轻量级线性编码器将所述量化采样信号用算术编码器进行熵编码,得到所述量化采样信号的比特流;
S40、通过所述第二轻量级线性编码器将所述比特流上传到服务器。
具体地,部署在所述物联网设备上的第二轻量级线性编码器获取目标图像预先进行采样,即物联网设备接收到图像采集设备发送的目标图像后,对所述目标图像进行采样得到采样信号,再将采样信号转换为量化采样信号,以比特流的形式发送至服务器。在信号数据传输过程中,大量数据将导致信道拥塞,并且信号数据往往会因环境因素影响,如噪声、障碍物等因素使得终端接收到的信息不完整、缺失或者接收时长加大,如图像模糊、图像损坏等。因此,为了提高终端接收到的数据质量,需要对原始图像进行采样,使得终端接收采样后的采样信号,通过对其量测和优化重构而成功重建出原始图像。这样,通过采样就可以在保证信号质量的前提下降低采样率,从而,通过采样数据的减少使得图像、视频等数据的传输以及处理等代价显著降低。
举例说明,物联网前端设备,如街道监控摄像头或者无人机火灾监控***拍摄到目标图像后,向物联网设备发送目标图像X,物联网设备接收到目标图像X后,通过其上部署的第二轻量级线性编码器将所述目标图像X进行分离采样处理,从而得到采样信号,进一步地,将所述采样信号经过量化和熵编码转换为量化采样信号的比特流,并以比特流的形式传输至云/边缘服务器上,如图2所示,其中左上为轻量级线性编码器,左下为JPEG编码器,RGB-to-YUV传输法和2D-DCT是一种用于比较的特殊卷积操作,用于和本发明中的轻量级线性编码器比较编码效果,右侧对应完成图像重构的深度解码器。LQ表示可学习的量化,AE和AD分别表示算术编码器和算术解码器,LE表示无损编码器。卷积参数表示为:核高度×核宽度×滤波器数/步幅。
在一种实现方式中,本实施例所述步骤S10包括如下步骤:
S11、通过所述第二轻量级线性编码器将所述目标图像的RGB颜色空间通过RGB-YUV变换转换为YUV颜色空间;
S12、通过所述第二轻量级线性编码器将所述目标图像的所述YUV颜色空间中每个YUV通道分成不重叠的B×B大小的采样块,其中,所述B×B大小的采样块的表达式为:其中H,W是所述目标图像的高与宽,y,u,v为Y,U,V通道下标;
S13、通过所述第二轻量级线性编码器用可学习的线性采样矩阵对所述采样块进行采样,采样过程为:yi:j=Axi:j,其中是所述可学习的线性采样矩阵,使得M<3B2,其中M是采样的数量。
具体地,对彩色图像信号分别沿一个颜色维度和两个空间维度进行采样,可以减小样本矩阵的大小。此外,RGB通道内的相关性高于YUV通道内的相关性,如图3所示。因此,本发明独立采样每个YUV通道,因为它们已经去相关。如图4所示,本发明的物联网设备上的第二轻量级线性编码器对接收到的彩色目标图像信号沿着空间维度对每个YUV通道分别采样。
再执行一个基于块的压缩感知采样操作把每个YUV通道分成重叠B×B块,可以减小样本矩阵的大小。具体地,给定一个目标X,再将目标图像X分成不重叠的B×B块:其中H,W是图像的高与宽,然后使用可学习的线性采样矩阵对每个采样块独立进行采样。本发明中,这些块相对于一个正交基Ψ是稀疏的,例如离散余弦变换(DCT)。那么,对于每一个采样过程可以表示为yi:j=Axi:j,其中 是所述可学习的线性采样矩阵,使得M<3B2,其中M是采样的数量。值得注意的是,我们的基于块的采样步骤可以用卷积表示。
在一种实现方式中,所述面向物联网场景的非对称语义图像压缩算法还包括如下步骤:
S50、将所述可学习的线性采样矩阵作为可学习参数集成到带有参数集的与任务相关的语义深度特征提取器中。
具体地,JPEG的编码器只是为了人眼的感知设计的,与现有的JPEG编码器不同的是,本发明的轻量级线性编码器是可以基于数据-语义率失真进行训练的,即本发明的方法同时兼顾了人眼感知以及机器学习模型的感知。我们的可学习的线性采样矩阵的每一行都可以看作是一个滤波器,其采样操作等同于一系列卷积滤波器。内核大小和stride都为B×B。基于这一观点,我们可以将线性采样矩阵作为可学习参数集成到带有参数集的与任务相关的语义深度特征提取器中。
在一种实现方式中,本实施例所述步骤S100包括如下步骤:
S101、接收所述量化采样信号的比特流;
S102、将所述量化采样信号的比特流输入深度解码器中;
S103、将所述量化采样信号的比特流采用算术解码器进行熵解码,得到所述量化采样信号;
S104、将所述量化的采样信号进行重构处理,得到中间YUV重构信号;
S105、将所述中间YUV重构信号进行保真处理,得到保真度恢复,并分通道梯度将中间YUV重构信号更新为保真YUV重构信号;
S106、用所述带有参数集的与任务相关的语义深度特征提取器从所述保真度恢复中提取特征,并加入到原始特征中。
本发明中,服务器接收到第二轻量级线性编码器发送的量化采样信号的比特流,深度解码器还包含熵解码步骤和合成变换以得到量化采样信号,并对接收到的量化采样信号进行重构,提取并恢复出中间YUV重构信号,经过保真处理,即可得到保真YUV重构信号,达到了由少量低维的采样数据恢复出大量多维的原始数据,所述服务器可以为连接物联网设备的云/边缘服务器。
已有的压缩感知理论证明,如果采样矩阵满足受限等距性质(RestrictedIsometry Property,RIP),则可以用稀疏优化: 来恢复第i个图像块,其中ρ是一个超参数。本发明中,将常规压缩感知优化中的稀疏先验替换为可学习先验,如公式(1)所示,以提高比率失真性能。具体来说我们使用了一个深度重构函数fθ来学习从量化的采样信号到原始信号的重构:
其中,ρ是一个超参数,是编码和量化后的向量,X是所述目标图像,/>是所述重构图像,y,u,v为Y,U,V通道下标,W是RGB到YUV的转移矩阵。
进一步地,我们采用迭代梯度展开法求解该问题。首先我们定义初始重构为:然后我们可以得到如下迭代解码算法:
式中,K为总迭代次数,为中间恢复,/>为/>的梯度,/>为反卷积运算。
具体地,本发明利用公式(2)的残差块学习所述目标图像的先验性,得到基于残差块的可学习先验。利用公式(3),将所述量化的采样信号用所述基于残差块的可学习先验进行重构,得到所述中间YUV重构信号,相比于基于稀疏先验的重构,重构质量更好。利用公式(4)分通道梯度将中间YUV重构信号更新为保真YUV重构信号,可以减少中间YUV重构信号的重构误差。如图5所示,最后,将从保真度恢复中提取的特征加入到原始特征中,以修正在特征层中的累积误差。
步骤S200、从所述重构图像中提取语义信息,使用所述语义信息训练第一轻量级线性编码器,得到已训练的轻量级线性编码器,并将已训练的所述轻量级线性编码器广播到物联网设备。
在本实施例中,因为物联网设备的资源有限,无法训练部署深度神经网络模型,所以,将深度神经网络模型部署在计算能力更强的云/边缘服务器上以保证物联网设备上的处理是低复杂度的。云/边缘服务器上的深度神经网络模型从重构图像中提取重构推断语义信息,得到数据-语义率失真优化目标,并用数据-语义率失真损失函数训练所述第一轻量级线性编码器,这样就得到了已训练的可学习的轻量级线性编码器。最后将已训练的所述轻量级线性编码器广播到物联网设备,从而在不影响物联网设备的处理能力的条件下实现了物联网设备上的轻量级线性编码器的可学习,进而保证了下游任务的准确率。
在一种实现方式中,本实施例所述步骤S200包括如下步骤:
S201、从所述重构图像中提取重构推断语义信息;
S202、根据所述重构推断语义信息,得到为评价下游任务推断准确率的损失;
S203、根据所述为评价下游任务推断准确率的损失,得到数据-语义率失真优化目标;
S204、基于所述数据-语义率失真优化目标,得到数据-语义率失真损失函数;
S205、用所述数据-语义率失真损失函数训练所述轻量级线性编码器。
具体地,所述重构推断语义信息由部署在所述云/边缘服务器上的语义深度神经网络分析模型推断。所述语义深度神经网络分析模型从所述重构图像中提取重构推断语义信息,并得到为评价下游任务推断准确率的损失,和数据-语义率失真优化目标包括估计的比特率损失,人眼感知损失一起组成了数据-语义率失真优化目标,再通过下述数据-语义率失真损失函数(5)来训练所述第一轻量级线性编码器:
其中,是编码和量化后的向量,X是所述目标图像,/>是所述重构图像,z是真实的语义标签,/>是所述重构图像经过下游任务模型推断生成的语义标签,d1(·)为MSE或其他评价图像重构质量的损失,d2(·)为预期语义失真,λ1,λ2是控制总体损失的拉格朗日乘数,DR是估计的比特率损失,D1是人眼感知损失,D2为评价下游任务推断准确率的损失。
在一种实现方式中,部署在云/边缘服务器上的语义深度神经网络分析模型将第一轻量级线性编码器训练后得到训练过的轻量级线性编码器,再通过广播的方式,将所述训练过的轻量级线性编码器广播到所述物联网设备。本发明可以自适应地提高了特定下游任务的语义精度,实现了自适应编码,并设计了一种适用于物联网这种资源受限场景的非对称语义图像压缩算法。
将本发明的基于非对称语义图像压缩方法的轻量级线性编码器(CS-ASIC)和经过数据-语义率失真损失函数训练的基于非对称语义图像压缩方法的轻量级线性编码器(CS-ASIC*)在Cityscapes和KITTI数据集上进行测试以模拟资源受限的物联网设备,通过比较当前业界主流的图像压缩方法,以及采用PSNR(Peak Signal to Noise Ratio)MS-SSIM(multiscale structure similarity),mIoU(Mean Intersection over Union)作为评价指标,得到了如图6所示的比较结果。其中Cityscapes数据集是一个大规模的数据集,它对来自50个不同城市的5000张街景图像进行了高质量的像素级表示,它包含19个前景对象,用于图像分割。KITTI数据集是自动驾驶领域的图像处理技术的主要数据集。
图6(a)Cityscapes展示了CS-ASIC和CS-ASIC*在Cityscapes数据集上与JetsonNanob01上的JPEG、WebP、H.264、DeepN-JPEG、Balle(2017)方法进行比较测试的结果,图6(b)KITTI展示了CS-ASIC和CS-ASIC*在KITTI数据集上与JetsonNanob01上的JPEG、WebP、H.264、DeepN-JPEG、Balle(2017)方法进行比较测试的结果。可见CS-ASIC*的压缩率是JPEG1.5~的3.8倍,CS-ASIC的压缩率是JPEG的1.5~2.5倍,表现均优于JPEG编码器。WebP和H.264优于JPEG。这是因为它们有内部预测来去关联相邻的块。DeepN-JPEG在图像分割任务上优于JPEG,但在目标检测任务上较差。Balle(2017)在数据速率失真性能上优于CS-ASIC,但对编码有较高复杂度的要求,不适用于计算资源有限的物联网设备。综上可知,本发明的非对称语义图像压缩方法是更适用于物联网场景的图像压缩方法。
示例性***
进一步地,本发明还相应提供了一种面向物联网场景的非对称语义图像压缩***,所述非对称语义图像压缩***包括:服务器以及与所述服务器连接的物联网设备,其中,所述服务器包括:
重构图像获取模块10,用于获取量化采样信号,并基于所述量化采样信号使用深度解码器进行图像重构,得到重构图像;
轻量级线性编码器训练模块20,用于从所述重构图像中提取语义信息,使用所述语义信息训练第一轻量级线性编码器,得到已训练的轻量级线性编码器,并将已训练的所述轻量级线性编码器广播到物联网设备。
本发明还提供一种服务器,所述服务器包括存储器71、处理器72及存储在所述存储器71中并可在所述处理器72上运行的面向物联网场景的非对称语义图像压缩程序73,所述处理器72执行所述面向物联网场景的非对称语义图像压缩程序73时,实现上述面向物联网场景的非对称语义图像压缩方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、运营数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双运营数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上,本发明公开了一种面向物联网场景的非对称语义图像压缩方法、***、服务器及存储介质,所述方法包括:获取量化采样信号,并使用深度解码器重构图像;从所述重构图像中提取语义信息,将所述语义信息用于训练所述轻量级线性编码器,并将经过训练的所述轻量级线性编码器广播到物联网设备。本发明通过基于残差保真块重构取得更好的率失真表现,基于数据语义的率失真优化,保证了下游任务的准确率。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种面向物联网场景的非对称语义图像压缩方法,其特征在于,所述方法包括:
获取量化采样信号,并基于所述量化采样信号使用深度解码器进行图像重构,得到重构图像;
从所述重构图像中提取语义信息,使用所述语义信息训练第一轻量级线性编码器,得到已训练的轻量级线性编码器,并将已训练的所述轻量级线性编码器广播到物联网设备;
所述量化采样信号从所述物联网设备中获取得到,所述物联网设备用于:
通过第二轻量级线性编码器获取目标图像,并将所述目标图像进行分离采样处理,得到采样信号;
通过所述第二轻量级线性编码器采用可学习量化将所述采样信号转换为所述量化采样信号;
通过所述第二轻量级线性编码器将所述量化采样信号用算术编码器进行熵编码,得到所述量化采样信号的比特流;
通过所述第二轻量级线性编码器将所述比特流上传到服务器;
所述通过所述第二轻量级线性编码器获取目标图像,并将所述目标图像进行分离采样处理,包括:
通过所述第二轻量级线性编码器将所述目标图像的RGB颜色空间通过RGB-YUV变换转换为YUV颜色空间;
通过所述第二轻量级线性编码器将所述目标图像的所述YUV颜色空间中每个YUV通道分成不重叠的B×B大小的采样块,其中,所述B×
B大小的采样块的表达式为:
其中H,W是所述目标图像的高与宽,y,u,v为Y,U,V通道下标;
通过所述第二轻量级线性编码器用可学习的线性采样矩阵对所述采样块进行采样,采样过程为:yi:j=Axi:,其中是所述可学习的线性采样矩阵,使得M<3B2,其中M是采样的数量。
2.根据权利要求1所述的面向物联网场景的非对称语义图像压缩方法,其特征在于,所述方法还包括:
将所述可学习的线性采样矩阵作为可学习参数集成到带有参数集的与任务相关的语义深度特征提取器中。
3.根据权利要求2所述的非对称语义图像压缩方法,其特征在于,所述获取量化的采样信号,并使用深度解码器重构图像,包括:
接收所述量化采样信号的比特流;
将所述量化采样信号的比特流输入深度解码器中;
将所述量化采样信号的比特流采用算术解码器进行熵解码,得到所述量化采样信号;
将所述量化的采样信号进行重构处理,得到中间YUV重构信号;
将所述中间YUV重构信号进行保真处理,得到保真度恢复,并分通道梯度将中间YUV重构信号更新为保真YUV重构信号;
用所述带有参数集的与任务相关的语义深度特征提取器从所述保真度恢复中提取特征,并加入到原始特征中;
其中,所述将所述量化的采样信号进行重构处理,得到中间YUV重构信号,包括:
用残差块学习所述目标图像的先验性,得到基于残差块的可学习先验;
将所述量化的采样信号用所述基于残差块的可学习先验进行重构,得到所述中间YUV重构信号。
4.根据权利要求1所述的非对称语义图像压缩方法,其特征在于,所述从所述重构图像中提取语义信息,使用所述语义信息训练第一轻量级线性编码器,包括:
从所述重构图像中提取重构推断语义信息;
根据所述重构推断语义信息,得到为评价下游任务推断准确率的损失;
根据所述为评价下游任务推断准确率的损失,得到数据-语义率失真优化目标;
基于所述数据-语义率失真优化目标,得到数据-语义率失真损失函数;
用所述数据-语义率失真损失函数训练所述轻量级线性编码器。
5.根据权利要求4所述的非对称语义图像压缩方法,其特征在于,所述数据-语义率失真优化目标包括估计的比特率损失,人眼感知损失和所述为评价下游任务推断准确率的损失;
所述数据-语义率失真损失函数为:
其中,是编码和量化后的向量,X是所述目标图像,/>是所述重构图像,z是真实的语义标签,/>是所述重构图像经过下游任务模型推断生成的语义标签,d1(·)为MSE或其他评价图像重构质量的损失,d2(·)为预期语义失真,λ1,λ2是控制总体损失的拉格朗日乘数,DR是估计的比特率损失,D1是人眼感知损失,D2为评价下游任务推断准确率的损失。
6.一种面向物联网场景的非对称语义图像压缩***,其特征在于,所述非对称语义图像压缩***包括:服务器以及与所述服务器连接的物联网设备,其中,所述服务器包括:
重构图像获取模块,用于获取量化采样信号,并基于所述量化采样信号使用深度解码器进行图像重构,得到重构图像;
轻量级线性编码器训练模块,用于从所述重构图像中提取语义信息,使用所述语义信息训练第一轻量级线性编码器,得到已训练的轻量级线性编码器,并将已训练的所述轻量级线性编码器广播到物联网设备;
所述量化采样信号从所述物联网设备中获取得到,所述物联网设备用于:
通过第二轻量级线性编码器获取目标图像,并将所述目标图像进行分离采样处理,得到采样信号;
通过所述第二轻量级线性编码器采用可学习量化将所述采样信号转换为所述量化采样信号;
通过所述第二轻量级线性编码器将所述量化采样信号用算术编码器进行熵编码,得到所述量化采样信号的比特流;
通过所述第二轻量级线性编码器将所述比特流上传到服务器;
所述通过所述第二轻量级线性编码器获取目标图像,并将所述目标图像进行分离采样处理,包括:
通过所述第二轻量级线性编码器将所述目标图像的RGB颜色空间通过RGB-YUV变换转换为YUV颜色空间;
通过所述第二轻量级线性编码器将所述目标图像的所述YUV颜色空间中每个YUV通道分成不重叠的B×B大小的采样块,其中,所述B×
B大小的采样块的表达式为:
其中H,W是所述目标图像的高与宽,y,u,v为Y,U,V通道下标;
通过所述第二轻量级线性编码器用可学习的线性采样矩阵对所述采样块进行采样,采样过程为:yi:j=Axi:,其中是所述可学习的线性采样矩阵,使得M<3B2,其中M是采样的数量。
7.一种服务器,其特征在于,所述服务器包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的面向物联网场景的非对称语义图像压缩程序,所述处理器执行所述面向物联网场景的非对称语义图像压缩程序时,实现如权利要求1-5任一项所述的面向物联网场景的非对称语义图像压缩方法的步骤。
8.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述权利要求1-5任一项所述的一种面向物联网场景的非对称语义图像压缩方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210445325.5A CN114915786B (zh) | 2022-04-26 | 2022-04-26 | 一种面向物联网场景的非对称语义图像压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210445325.5A CN114915786B (zh) | 2022-04-26 | 2022-04-26 | 一种面向物联网场景的非对称语义图像压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114915786A CN114915786A (zh) | 2022-08-16 |
CN114915786B true CN114915786B (zh) | 2023-07-28 |
Family
ID=82765249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210445325.5A Active CN114915786B (zh) | 2022-04-26 | 2022-04-26 | 一种面向物联网场景的非对称语义图像压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114915786B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115767108B (zh) * | 2022-10-20 | 2023-11-07 | 哈尔滨工业大学(深圳) | 一种基于特征域匹配的分布式图像压缩方法、*** |
CN115496818B (zh) * | 2022-11-08 | 2023-03-10 | 之江实验室 | 一种基于动态物体分割的语义图压缩方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009013A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 编码器训练及表征信息提取方法和装置 |
WO2020142077A1 (en) * | 2018-12-31 | 2020-07-09 | Didi Research America, Llc | Method and system for semantic segmentation involving multi-task convolutional neural network |
CN113688836A (zh) * | 2021-09-28 | 2021-11-23 | 四川大学 | 一种基于深度学习的实时性道路图像语义分割方法及*** |
CN114067162A (zh) * | 2021-11-24 | 2022-02-18 | 重庆邮电大学 | 一种基于多尺度多粒度特征解耦的图像重构方法及*** |
CN114143040A (zh) * | 2021-11-08 | 2022-03-04 | 浙江工业大学 | 一种基于多通道特征重构的对抗信号检测方法 |
-
2022
- 2022-04-26 CN CN202210445325.5A patent/CN114915786B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020142077A1 (en) * | 2018-12-31 | 2020-07-09 | Didi Research America, Llc | Method and system for semantic segmentation involving multi-task convolutional neural network |
CN110009013A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 编码器训练及表征信息提取方法和装置 |
CN113688836A (zh) * | 2021-09-28 | 2021-11-23 | 四川大学 | 一种基于深度学习的实时性道路图像语义分割方法及*** |
CN114143040A (zh) * | 2021-11-08 | 2022-03-04 | 浙江工业大学 | 一种基于多通道特征重构的对抗信号检测方法 |
CN114067162A (zh) * | 2021-11-24 | 2022-02-18 | 重庆邮电大学 | 一种基于多尺度多粒度特征解耦的图像重构方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN114915786A (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114915786B (zh) | 一种面向物联网场景的非对称语义图像压缩方法 | |
US11025907B2 (en) | Receptive-field-conforming convolution models for video coding | |
US20200092556A1 (en) | Efficient Use of Quantization Parameters in Machine-Learning Models for Video Coding | |
US20200092552A1 (en) | Receptive-Field-Conforming Convolutional Models for Video Coding | |
US20170359584A1 (en) | A method and apparatus for performing graph-based prediction using optimazation function | |
JP2020508010A (ja) | 画像処理およびビデオ圧縮方法 | |
CN110971901B (zh) | 卷积神经网络的处理方法、装置、设备及存储介质 | |
TWI830107B (zh) | 通過指示特徵圖資料進行編碼 | |
TWI834087B (zh) | 用於從位元流重建圖像及用於將圖像編碼到位元流中的方法及裝置、電腦程式產品 | |
Fracastoro et al. | Superpixel-driven graph transform for image compression | |
Akbari et al. | Generalized octave convolutions for learned multi-frequency image compression | |
CN110827198A (zh) | 基于压缩感知和超分辨率重构的多相机全景图像构建方法 | |
CN112235569B (zh) | 基于h264压缩域的快速视频分类方法、***及装置 | |
CN114096987A (zh) | 视频处理方法及装置 | |
TW202337211A (zh) | 條件圖像壓縮 | |
WO2023024115A1 (zh) | 编码方法、解码方法、编码器、解码器和解码*** | |
WO2022037146A1 (zh) | 图像处理方法、装置、设备、计算机存储介质和*** | |
Lukin et al. | Lossy compression of remote sensing images with controllable distortions | |
EP3156943A1 (en) | Method and device for clustering patches of a degraded version of an image | |
CN112383778A (zh) | 一种视频编码方法、装置及解码方法、装置 | |
CN116437102A (zh) | 可学习通用视频编码方法、***、设备及存储介质 | |
Petrov et al. | Intra frame compression and video restoration based on conditional markov processes theory | |
WO2023082107A1 (zh) | 解码方法、编码方法、解码器、编码器和编解码*** | |
CN118020306A (zh) | 视频编解码方法、编码器、解码器及存储介质 | |
CN109451314B (zh) | 一种基于图模型的图像压缩感知方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |