CN102801997B

CN102801997B - 基于感兴趣深度的立体图像压缩方法

Info

Publication number: CN102801997B
Application number: CN201210239272.8A
Authority: CN
Inventors: 杨敬钰; 陈铖; 李坤
Original assignee: Tianjin University
Current assignee: Shenzhen Lingyun Shixun Technology Co.,Ltd.
Priority date: 2012-07-11
Filing date: 2012-07-11
Publication date: 2014-06-11
Anticipated expiration: 2032-07-11
Also published as: CN102801997A

Abstract

本发明属于视频编解码领域。提供一种编码方式，使之尽可能的符合人眼需求的去除冗余，本发明所采用的技术方案是：基于感兴趣深度的立体图像压缩方法，包括如下步骤：对图像进行预处理，根据深度不同使用双边滤波对人眼不敏感部分进行平滑处理；预处理后就对图像进行编码，应用视频编解码标准HEVC的帧内编码部分，对不同敏感程度的部分赋予不同的量化参数，对感兴趣深度的区域分配更多的码率进行高质量的编码，获得清晰图像；对非感兴趣深度的区域分配更少的码率进行低质量编码。本发明主要应用于视频编解码。

Description

基于感兴趣深度的立体图像压缩方法

技术领域

本发明属于视频编解码领域，特别是帧内编解码的技术。涉及对图像进行重曝光（Re-exposure）处理的方法。编码是基于High Efficiency Video Coding（HEVC）的改进，使得在同样的比特率下，主观效果更好。具体讲，涉及基于感兴趣深度的立体图像压缩方法。

背景技术

多视点视频由多个成像设备从不同视点对动态三维场景采集得到，包含了丰富的场景信息以满足用户对真实感与沉浸感的需求。目前，多视点视频共有两种数据格式：一种是多视点视频(Multi-view video)；另一种是多视点视频数据加上相应的深度信息(Multi-view videoplus depth)。前者是最简单直接的多视点视频数据格式，后者作为一种拓展格式辅以基于深度图像的渲染技术(Depth image based rendering)可以方便地适应于自由视点视频(Free viewpointvideo,FPV)、虚拟现实(Virtual reality)、自由立体显示(Auto-stereoscopic display)等应用。相比于传统的单视点视频，这两种格式的多视点视频数据量产生了急剧的扩张，给存储与传输带来了很大的压力。因此，多视点视频的编码成为实现上述应用的关键技术。针对这两种格式，研究人员都提出了多种编码方法。对于第一种多视点视频格式，主要是在基于帧间预测（运动估计与运动补偿）的视频编码方法中引入视点间预测（视差估计与补偿）。目前，在获得相同解码质量的情况下，多视点视频编码标准H.264/AVC MVC比各视点独立编码的方法平均节省约20%的比特率。对于第二种格式，其中的多视点视频可采用普通的多视点编码方法（例如H.264/AVC MVC）进行编码，同时将深度序列视为黑白序列进行编码。由于深度信息比较光滑，对一路深度视频以较高质量进行编码所需的码率仅为普通单路视频所需码率的10%~20%。这表明，对Multi-view video plus depth这种数据的编码效率主要取决于对多视点视频编码的效率。概而言之，在现有编码技术水平下，多视点视频巨大的数据量依然是将多视点视频技术推向实际应用的障碍之一。

多视点视频是三维场景在多个相机成像平面的二维投影，而在相应的深度信息则记录了像素从成像平面到三维场景对应点深度信息，两者存在着紧密的内在几何联系，从而形成了对三维动态场景更为丰富的描述。这些几何关系常常用来进行虚拟视点绘制（Virtual viewsynthesis）以应用于裸眼立体显示、FVV或者3DTV。但是，在针对Multi-view video plus depth数据的编码中，多视点视频编码与深度序列编码是分离的，没有充分利用多视点视频和相应深度序列之间的内在几何关系。

从1992年制定出的MPEG-1开始，视频编解码经历了多个标准的演化。HEVC在2010年4月在德国德累斯顿召开的JCT-VT第一次会议上确定的标准名称，并且建立了测试模型（TMUC），成立了AD HOC小组，分领域搜集和审阅技术提案。新一代视频压缩标准的核心目标是在H.264/AVC highprofile的基础上，压缩效率提高一倍。即在保证相同视频图像质量的前提下，视频流的码率减少50%。在提高压缩效率的同时，可以允许编码端适当提高复杂度。

编码的本质是为了在适合人眼舒适度的情况下尽可能的压缩。通常，对一幅图像编码是将图像分块，通过对分块图像的不同特点进行不同模式的编解码。而分块图像的特点并不完全符合人眼的舒适度需求。峰值性噪比(PSNR)是客观评价重构质量的一个重要指标，但是它并不能完全反应人眼的主观感受。即在相同的比特率前提下，PSNR小的可能主观效果上更好。综上所述，当下编解码技术并没有充分符合人眼视觉需求，也没有充分利用深度信息与视频序列之间的关系。编解码技术尤其是多视点的编解码技术还不理想。

发明内容

通过深度信息和图像之间的几何关系，提供一种编码方式，使之尽可能的符合人眼需求的去除冗余。

本发明所采用的技术方案是：基于感兴趣深度的立体图像压缩方法，包括如下步骤：对图像进行预处理，根据深度不同使用双边滤波对人眼不敏感部分进行平滑处理；预处理后就对图像进行编码，应用视频编解码标准HEVC的帧内编码部分，对不同敏感程度的部分赋予不同的量化参数，对感兴趣深度的区域分配更多的码率进行高质量的编码，获得清晰图像；对非感兴趣深度的区域分配更少的码率进行低质量编码。

根据深度不同使用双边滤波对人眼不敏感部分进行平滑处理，具体步骤为：对于复杂场景，拟辅以人工标记的方法进行感兴趣深度的提取，采用基于感兴趣深度信息提取，前述步骤进一步细化为：

11）扩展图像以及对应深度图的边缘，以保证在之后的图像处理中，保留完整的边缘信息，图像上下左右分别扩展30；

12）人工标定感兴趣区域：假设感兴趣深度靠前，也就是深度值比较大的区域，首先找到最大深度max(disp)，将深度和最大深度的差值进行归一化作为半径使用：

radius1＝max(disp)-disp (1)

radius 2 = 30 \times \frac{radius 1 - \min (radius 1)}{\max (radius 1) - \min (radius 1)} - - - (2)

其中disp为图像的深度矩阵，max(radius1)为radius1最大值，min(radius1)为radius1最小值，最后求出的radius2再取整：

radius＝radius2-r (3)

其中r为人为标定，代表感兴趣深度的区域，r越大，感兴趣区域的范围更大；再将radius的值为负数的都赋为0，正值不变。也就是说，半径小的区域，也就是靠前的区域，人工假定为感兴趣区域都为0，这样就可以导致滤波的时候对人眼感兴趣区域不滤波，而对靠后的区域即人眼不感兴趣区域滤波；

根据双边滤波的原理，首先需要构造高斯滤波，具体为：

21）根据下面的公式构造高斯滤波函数，

G (x, y) = A \times \exp (- \frac{1}{2} {(\frac{x - y}{σ})}^{2}) - - - (4)

其中x-y表示两个点位置之间的距离，σ为高斯参数，A为系数常量；

22）根据上述高斯滤波函数进而构造双边滤波器

B (x, y) = G (x, y) \times \exp (- \frac{1}{2} {(\frac{I (x) - I (y)}{σ})}^{2}) - - - (5)

I(x)-I(y)表示两个像素值之间的距离，即两个像素灰度值之间的差值或者RGB向量之间的欧氏距离；σ为一个常数；即先构造一个高斯滤波器，然后加上

项，构成双边滤波；

23）利用双边滤波器对输入多视点序列进行重曝光re-exposure：

I(x)＝∫S(x,y)I₀(y)dy （6）

其中为I₀为原图，S(x,y)为上一个步骤构造的双边滤波器，构造的双边滤波器矩阵大小为[2×radius+1，2×radius+1]，对用半径标记后的原图进行滤波，上述radius=0的像素，对应双边滤波器大小为[1,1],乘以双边滤波器相当于不滤波；如12）所述，感兴趣区域的radius变成了0，为后面的编码做准备；调整不同的光圈，也就是调整双边滤波器不同的σ值，对图像预处理的效果不同，光圈越大，景深越小，背景模糊越厉害；反之亦然。

利用HEVC对经过预处理后的图像进行编解码，具体如下：

31）读取深度信息，和预处理一样，提取感兴趣区域的深度DOI；

32）针对不同的深度区域分配不同的量化参数quantification parameter即QP值，人眼感兴趣区域分配更多的码率，也就是令QP值更小，相反人眼非感兴趣区域分配少量码率。

解码图像的质量评价：

41）采用主观测试手段进行验证，在使用相同码率的前提下，将获得的图像结果与原图直接编解码后重构的图进行比较、评判。

本发明的技术特点及效果：

1、方法简单，算法复杂度低，容易实现。

2、在预处理中提取感兴趣深度，不是根据传统复杂的算法，也采用人工标定的方式，

简单易行，且符合人眼要求。

3、采用双边滤波进行非感兴趣区域平滑处理，使之能更好的保留边缘信息。

4、依托于最新编解码技术HEVC处理，使得编解码效率更高。

5、不采用传统的Rate-PSNR曲线评价重构质量，而采取主观感受。使得采用此方法

重构的图像更加符合人眼的需求。

6、对感兴趣区域和非感兴趣区域分配不同的码率，能更有效的利用码率，提高图像

质量和人眼舒适度。

附图说明

图1基于感兴趣深度的图像编码框图。

图2预处理之前的原图art。

图3经过双边滤波使背景平滑后的art图。

图4art原图直接编解码后的重构图，比特率为1447.2。

图5art图像使用本方法后编解码后的重构图，比特率为1397.2。

图6预处理之前的原图books。

图7经过双边滤波使背景平滑后的books图。

图8books原图直接编解码后的重构图，比特率为1186.8。

图9books图像使用本方法后的重构图，比特率为1236.8。

具体实施方式

下面结合实施例和附图对本发明的基于感兴趣深度的立体图像压缩做出详细的说明。

本发明是根据感兴趣深度的图像压缩方法。根据已有的深度信息，对人眼敏感部分进行选择性量化，提高整体编码效率。感兴趣图像编码是根据人眼的敏感性进行分区域编码的方法。但是编码中图像时分块进行这就造成了感兴趣区域与非感兴趣区域过渡非常生硬，这就需要在编解码之前进行预处理。

因此，本发明的技术方案是：对图像进行预处理，根据深度不同使用双边滤波对人眼不敏感部分进行平滑处理。这样做的目的就是为了在之后的编码过程中，非敏感区域可以过渡平滑，以免对人眼造成更大的不适。预处理后就对图像进行编码，主要应用最新的视频编解码标准HEVC的帧内编码部分，对不同敏感程度的部分赋予不同的量化参数，对感兴趣深度的区域分配更多的码率进行高质量的编码，获得清晰图像。对非感兴趣深度的区域分配更少的码率进行低质量编码。提高编码效率的同时又使得重要的图像区域获得了很好的编码质量。使得在同样的比特率前提下，能够获得更好地主观感受。

具体步骤细化如下：

1）从深度信息中提取感兴趣的深度（DOI）信息。

感兴趣深度是人眼感兴趣区域（ROI）所对应的深度。在感兴趣区域编码中，ROI通常通过人工划定或者采用规则形状(矩形和圆形)给出一个大致的区域，本发明，先假设深度信息靠前的部分为人眼感兴趣的区域，而相对来说，背景则为人眼非感兴趣区域。

11）扩展图像以及对应深度图的边缘，以保证在之后的图像处理中，保留完整的边缘信息。图像上下左右分别扩展30；

12）人工标定感兴趣区域。假设感兴趣深度靠前，也就是深度值比较大的区域，首先找到最大深度，将深度和最大深度的差值进行归一化作为半径使用。

radius1＝max(disp)-disp (1)

radius 2 = 30 \times \frac{radius 1 - \min (radius 1)}{\max (radius 1) - \min (radius 1)} - - - (2)

其中disp为图像的深度矩阵,max(radius1)为radius1最大值，min(radius1)为radius1最小值。最后求出的radius2再取整。

radius＝radius2-r (3)

其中r可变，代表感兴趣深度的区域，r越大，感兴趣区域的范围更大。再将radius的值为负数的都赋为0，正值不变。也就是说，半径小的区域，也就是靠前的区域（人工假定为感兴趣区域）都为0，这样就可以导致滤波的时候对人眼感兴趣区域不滤波，而对靠后的区域（人眼不感兴趣区域）滤波。

2）根据深度信息构造双边滤波器

焦平面的共轭物平面(清晰成像的物平面)由深度信息决定。这种方案的关键问题包括基于计算摄像学的重曝光和目标码率与光圈大小的映射。利用双边滤波实现，构造双边滤波

21）根据下面的公式构造高斯滤波函数，

G (x, y) = A \times \exp (- \frac{1}{2} {(\frac{x - y}{σ})}^{2}) - - - (4)

22）根据上述高斯滤波函数进而构造双边滤波器

B (x, y) = G (x, y) \times \exp (- \frac{1}{2} {(\frac{I (x) - I (y)}{σ})}^{2}) - - - (5)

I(x)-I(y)表示两个像素值之间的距离，可以直接使用其灰度值之间的差值或者RGB向量之间的欧氏距离。σ为一个常数。也就是说，可以先构造一个高斯滤波器，然后加上

项，构成双边滤波。

23）利用双边滤波器对输入多视点序列进行重曝光(re-exposure)。

I(x)＝∫S(x,y)I₀(y)dy （6）

其中为I₀为原图，S（x,y）为上一个步骤构造的双边滤波器。构造的双边滤波器矩阵大小为[2*radius+1，2*radius+1]，对用半径标记后的原图进行滤波。上述radius=0的像素，对应双边滤波器大小为[1,1],乘以双边滤波器相当于不滤波。如12）所述，感兴趣区域的radius变成了0，这样作乘积时，这样就使得非感兴趣的部分变得更加平滑，而感兴趣的部分依旧清晰。为后面的编码做准备。如上所述，调整不同的光圈，也就是调整双边滤波器不同的σ值，对图像预处理的效果不同，光圈越大，景深越小，背景模糊越厉害。反之亦然。3）利用HEVC针对感兴趣深度对重曝光后的图像进行编解码

31）在帧内编码部分读取深度信息，和预处理一样，提取感兴趣区域的深度（DOI）；

32）针对不同的深度区域分配不同的量化参数quantification parameter（QP）值。人眼感兴趣区域分配更多的码率，也就是令QP值更小，相反人眼非感兴趣区域分配少量码率。比如，分配非感兴趣区域QP值为26，那么可以给感兴趣的区域QP值赋为25。这样相对于原图未经重曝光直接利用未改变的HEVC编解码来说，在保证相同的人眼舒适度的情况下，能节省码率。也就是说在相同码率的前提下，此方法重构出的图人眼效果更好。

4）解码图像的质量评价

MSE、PSNR等客观失真度量的缺点已经成为共识。所提编码方案利用了人眼成像***的特性，因此所得解码图像的失真应符合人眼的视觉特性。本项目拟采用主观测试手段进行验证。在保证原图直接编解码后重构的图与应用此方法解码后的图使用相同码率的前提下，将两者重构图进行比较。

下面结合实例和附图对本发明的基于感兴趣深度的图像编码技术做详细说明。

对图像进行预处理，根据深度不同使用双边滤波对人眼不敏感部分进行平滑处理。这样做的目的就是为了在之后的编码过程中，非敏感区域可以过渡平滑，以免对人眼造成更大的不适。预处理后就对图像进行编码，利用最新编码标准HEVC进行，但是在帧内编码部分，需要对预处理中人眼感兴趣的区域分配更多的比特，也就是调整QP值更小，而在人眼非感兴趣部分分配较小的比特，也就是调整QP值更大。这样就使得在保证人眼舒适度的前提下，减少比特数。达到提高编码效率的目的。

1）从深度信息中提取感兴趣的深度（DOI）信息。

感兴趣深度是人眼感兴趣区域（ROI）所对应的深度。在感兴趣区域编码中，ROI通常通过人工划定或者采用规则形状(矩形和圆形)给出一个大致的区域，不能精确地给出人眼真正感兴趣的区域，因为从自然图像推断出感兴趣区域是一个很困难的任务。但是，从深度信息中提取感兴趣深度则变得更为可行。通常而言，图像中人眼感兴趣的区域具有明确的物理意义，例如人物、动物、建筑等，且他们对应的深度通常也有规律可循。从简单的情况入手，本研究将对视频中的图像构图和人眼感兴趣区域做一些简单假设，通过对深度直方图(histogram ofdepth)进行挖掘，从而提取出感兴趣深度。对于复杂场景，拟辅以人工标记的方法进行感兴趣深度的提取。本发明，先假设深度信息靠前的部分为人眼感兴趣的区域，而相对来说，背景则为人眼非感兴趣区域。

扩展图像以及对应深度图的边缘，以保证在之后的图像处理中，保留完整的边缘信息。图像上下左右分别扩展30；

人工标定感兴趣区域。假设感兴趣深度靠前，也就是深度值比较大的区域，首先找到最大深度，将深度和最大深度的差值进行归一化作为半径使用。

radius1＝max(disp)-disp (1)

radius 2 = 30 \times \frac{radius 1 - \min (radius 1)}{\max (radius 1) - \min (radius 1)} - - - (2)

其中disp为图像的深度矩阵，max(radius1)为radius1最大值，min(radius1)为radius1最小值。最后求出的radius2再取整。

radius＝radius2-r (3)

2）根据深度信息构造双边滤波器

焦平面的共轭物平面(清晰成像的物平面)由深度信息决定；光圈的大小（由计算参数σ代替）由目标码率决定：若目标码率较小，则增大光圈使得非感兴趣区域变得更模糊，反之亦然。这种方案的关键问题包括基于计算摄像学的重曝光和目标码率与光圈大小的映射。利用双边滤波实现，构造双边滤波

根据下面的公式构造高斯滤波函数，

G (x, y) = A \times \exp (- \frac{1}{2} {(\frac{x - y}{σ})}^{2}) - - - (4)

根据上述高斯滤波函数进而构造双边滤波器

B (x, y) = G (x, y) \times \exp (- \frac{1}{2} {(\frac{I (x) - I (y)}{σ})}^{2}) - - - (5)

项，构成双边滤波。

利用双边滤波器对输入多视点序列进行重曝光(re-exposure)。

I(x)＝∫S(x,y)I₀(y)dy （6）

其中为I₀为原图，S（x,y）为上一个步骤构造的双边滤波器。构造的双边滤波器矩阵大小为[2*radius+1，2*radius+1]，对用半径标记后的原图进行滤波。上述radius=0的像素，对应双边滤波器大小为[1,1],乘以双边滤波器相当于不滤波。如12）所述，感兴趣区域的radius变成了0，这样作乘积时，这样就使得非感兴趣的部分变得更加平滑，而感兴趣的部分依旧清晰。为后面的编码做准备。如上所述，调整不同的光圈，也就是调整双边滤波器不同的σ值，对图像预处理的效果不同，光圈越大，景深越小，背景模糊越厉害。反之亦然。

3）利用HEVC针对感兴趣深度对重曝光后的图像进行编解码

HEVC（High Efficiency Video Coding）是即H.264后的视频编码方案，由ISO/IEC(MPEG)和ITU-T的Video Coding Experts Group(VCEG)联合构建，通过JCT-VC（Joint CollaborativeTeam on Video Coding）运作（类似于H.264中的JVT）。

在帧内编码部分读取深度信息，和预处理一样，提取感兴趣区域的深度（DOI）；

针对不同的深度区域分配不同的量化参数quantification parameter（QP）值。人眼感兴趣区域分配更多的码率，也就是令QP值更小，相反人眼非感兴趣区域分配少量码率。比如，分配非感兴趣区域QP值为26，那么可以给感兴趣的区域QP值赋为25。这样相对于原图未经重曝光直接利用未改变的HEVC编解码来说，在保证相同的人眼舒适度的情况下，能节省码率。也就是说在相同码率的前提下，此方法重构出的图人眼效果更好。

4）解码图像的质量评价

尽管MSE、PSNR等客观失真度量的缺点已经成为共识，但是图像和视频的质量评价仍然是开放性问题。所提编码方案利用了人眼成像***的特性，因此所得解码图像的失真应符合人眼的视觉特性。本项目拟采用主观测试手段进行验证。在保证原图直接编解码后重构的图与应用此方法解码后的图使用相同码率的前提下，将两者重构图进行比较。

在本发明中，我们选取了两组测试图像，art和books，如图所示。原图分别为图2，图6。进过双边滤波预处理后的图为图3和图7，可以看出我们人工标定的是前面部分为人眼感兴趣区域。图4和图5采用的比特数基本相同，但是可以明显的看出，利用原图直接编解码的图4石膏像的人脸面部出现一些块效应，而图5采用本方法的图像效果就好很多。以及在颜料盖子上面图4细节缺失。图8与图9效果对比我们可以看到，图8中书的部分边缘信息丢失。总的可以看出，我们提出的新方法对图像压缩效率有所提高的同时，能够更加符合人眼的视觉需求。

Claims

1.一种基于感兴趣深度的立体图像压缩方法，其特征是，包括如下步骤：对图像进行预处理，根据深度不同使用双边滤波对人眼不敏感部分进行平滑处理；预处理后就对图像进行编码，应用视频编解码标准HEVC的帧内编码部分，对不同敏感程度的部分赋予不同的量化参数，对感兴趣深度的区域分配更多的码率进行高质量的编码，获得清晰图像；对非感兴趣深度的区域分配更少的码率进行低质量编码；根据深度不同使用双边滤波对人眼不敏感部分进行平滑处理，具体步骤为：对于复杂场景，拟辅以人工标记的方法进行感兴趣深度的提取，采用基于感兴趣深度信息提取，前述步骤进一步细化为：

12）人工标定感兴趣区域：假设感兴趣深度靠前，也就是深度值比较大的区域，首先找到最大深度max（disp），将深度和最大深度的差值进行归一化作为半径使用：

radius1=max(disp)-disp (1)

radius=radius2-r (3)

其中r为人为标定，代表感兴趣深度的区域，r越大，感兴趣区域的范围更大；再将radius的值为负数的都赋为0，正值不变；也就是说，半径小的区域，也就是靠前的区域，人工假定为感兴趣区域都为0，这样就可以导致滤波的时候对人眼感兴趣区域不滤波，而对靠后的区域即人眼不感兴趣区域滤波。

2.如权利要求1所述的基于感兴趣深度的立体图像压缩方法，其特征是，双边滤波具体步骤为：

21）根据下面的公式构造高斯滤波函数，

22）根据上述高斯滤波函数进而构造双边滤波器

项，构成双边滤波；

23）利用双边滤波器对输入多视点序列进行重曝光re-exposure：

I(x)=∫S(x,y)I₀(y)dy （6）

3.如权利要求1所述的基于感兴趣深度的立体图像压缩方法，其特征是，利用HEVC对经过预处理后的图像进行编解码，具体如下：

32）针对不同的深度区域分配不同的量化参数quantification parameter即QP值，人眼感兴趣区域分配更多的码率，也就是令QP值更小，相反人眼非感兴趣区域分配少量码率；

解码图像的质量评价：