CN101945288B

CN101945288B - 一种基于h.264压缩域图像深度图生成方法

Info

Publication number: CN101945288B
Application number: CN 201010511107
Authority: CN
Inventors: 冯杰; 黄海; 胡洁; 蒋明峰; 王成群
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2010-10-19
Filing date: 2010-10-19
Publication date: 2011-12-21
Anticipated expiration: 2030-10-19
Also published as: CN101945288A

Abstract

本发明公开了一种基于H.264压缩域图像深度图生成方法，包括以下步骤：输入原图像的H.264压缩域码流；可变长熵解码并提取码流中编码块的相关特征并计算编码块的预测残差能量；据此计算各编码块的标记值并进行归一化处理后，对图像进行区域划分；分别计算每个区域的平均深度值并作为该区域所有编码块的深度值，得到整幅图像中所有编码块的深度值，得到整幅图像的编码块深度图；对得到的编码块深度图进行高斯滤波和上采样，最终得到与原图像大小一致的深度图。本发明方法使用H.264压缩码流内部信息提取图像深度图，在编码块的级别上对图像深度进行分析，具有很高的运算效率，得到的深度图接近真实的物体深度。

Description

一种基于H.264压缩域图像深度图生成方法

技术领域

本发明涉及数字视频信号处理领域，具体涉及二维图像转换三维图像时深度图生成方法。

背景技术

深度图生成是二维图像转换为三维图像过程中最为关键的步骤。在二维图像到三维图像转换过程中，如果能够较好的获得场景的深度信息，对于转换后的三维图像质量起着非常重要的作用。在已知二维图像和深度信息的情况下，可以采用DIBR(Depth Image Based Rendering，基于深度图的图像绘制)技术来合成所需要的三维视点。

目前，通常是在像素域进行单目图像深度信息自动生成，其普遍的方法是：首先根据图像的色彩信息或边缘信息进行图像分割，然后对分割后的区域进行深度赋值。在像素域进行图像分割与深度图生成，需要处理大量的数据。申请号为200910091469.X的中国专利申请公开了一种实现平面视频转立体视频的方法和装置，其中，对关键帧的深度图生成主要是在像素域完成，首先对像素域的图像进行颜色空间转换，并将每一个像素的颜色空间变量和空间坐标组合成一个五维向量，对五维向量进行滤波，然后采用洪泛算法对滤波后的图像进行区域分割，最后对分割后的图像进行深度赋值。基于像素域的方法需要处理的数据量较大，并且进行区域分割方法也比较复杂，不利于快速计算得到图像的深度图。

发明内容

本发明提供了一种基于H.264压缩域图像深度图生成的方法，解决了二维图像到三维图像转换过程中的深度图生成问题。

一种基于H.264压缩域图像深度图生成方法，包括以下步骤：

(1)输入原图像的H.264压缩域码流；

(2)将H.264压缩域码流进行可变长熵解码并提取所述的H.264压缩域码流中编码块的相关特征；所述的编码块的相关特征包括：编码块的预测方式特征和编码块整型DCT变换(Discrete Cosine Transform变换，离散余弦变换)的系数特征；所述的编码块为4×4块，相应地，每个4×4块具有各自的预测方式特征。

本发明将每个4×4块的预测(即帧内预测)方式特征分为9种，分别为：垂直预测、水平预测、直流预测、对角线左下预测，对角线右下预测、垂直右预测、水平下预测、垂直左预测和水平上预测，分别对应于H.264帧内预测模式中Intra4×4模式的9种预测方式，H.264帧内预测模式中的Intra16×16模式的4种预测方式也可以归纳到这9种预测方式之中。

帧内预测之后，H.264标准通过原始图像与预测值相减得到预测残差，并对预测残差采用基于4×4块的整型DCT变换编码，得到4×4块的整型DCT变换系数。

以上所述的帧内预测方式和整型DCT变换系数都可以通过可变长熵解码直接从H.264码流中提取出来，从而得到所述的编码块的预测方式特征和编码块整型DCT变换的系数特征。

由于可变长熵解码属于部分解码，因此，相对于全部解压而言，这一过程只占到对H.264压缩域码流全部解压的10％的计算量，从而避免了由对H.264压缩码流进行全部解压所带来的额外计算量，降低了整个深度图提取过程的计算复杂度。

(3)根据步骤(2)提取得到的编码块整型DCT变换的系数特征，计算编码块的预测残差能量En(i，j)，如式(I)所示：

En(i，j)＝|DC(i，j)|+|AC₀₁(i，j)|+|AC₁₀(i，j)|+|AC₁₁(i，j)| (I)

式(I)中，DC(i，j)，AC₀₁(i，j)，AC₁₀(i，j)，AC₁₁(i，j)分别为第(i，j)个4×4块的整型DCT变换系数z字扫描的第1、2、3、5个系数。

(4)根据由步骤(2)和(3)获得的编码块的预测方式特征和编码块的预测残差能量计算各编码块的标记值并进行归一化处理，再根据各编码块的归一化标记值对图像进行区域划分；

其过程具体如下：

(4.1)首先初始化所有编码块的标记值为1，并初始化全局标记(GlobalLabel)为1；

(4.2)根据每个编码块的预测残差能量和预测方式特征，对第一排的每个编码块进行水平方向的块标记；

可选地，所述的水平方向的块标记采取以下方式进行：

当编码块的预测残差能量小于或等于阈值时，该编码块的标记值等于其左边编码块的标记值；

当编码块的预测残差能量大于阈值，并且该编码块的预测方式特征为水平预测或直流预测时，该编码块的标记值等于其左边编码块的标记值；否则，将全局标记自加1，并设定该编码块标记为全局标记；

(4.3)根据每个编码块的预测残差能量和预测方式特征，对第一列的每个编码块进行垂直方向的块标记；

可选地，所述的垂直方向的块标记采取以下方式进行：

当编码块的预测残差能量小于或等于阈值时，该编码块的标记值等于其上边编码块的标记值；

当编码块的预测残差能量大于阈值，并且该编码块的预测方式特征为垂直预测或直流预测时，该编码块的标记值等于其上边编码块的标记值加1；否则，该编码块的标记值等于其上边编码块的标记值加2；

(4.4)根据每个编码块的预测残差能量和预测方式特征，计算除第一排和第一列之外的每个编码块的标记值；

可选地，所述的除第一排和第一列之外的每个编码块的标记值的计算采取以下方式进行：

首先，比较每个编码块的预测残差能量与阈值的大小，将编码块分为两类：(①)预测残差能量小于或等于阈值的编码块；(②)预测残差能量大于阈值的编码块；

然后，对于第(①)和(②)类的编码块，采取不同的方法计算编码块的标记值，具体为：

对于第(①)类编码块，

当编码块预测方式特征为垂直预测时，该编码块标记值等于其上边编码块的标记值；当编码块预测方式特征为水平预测时，该编码块标记值等于其左边编码块的标记值；当编码块预测方式特征为对角线左下预测时，该编码块标记值等于其右上编码块的标记值；当编码块预测方式特征为对角线右下预测时，该编码块标记值等于其左上编码块的标记值；

当编码块预测方式特征为直流预测时，分别计算该编码块的上边与左边编码块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则该编码块标记值为：

Label(i，j)＝(LabelMin*3+LabelMax)/4 (VI)

当编码块预测方式特征为垂直右预测时，分别计算该编码块的上边与左上边编码块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则该编码块标记值按照式(VI)的方式进行计算；

当编码块预测方式特征为垂直左预测时，分别计算该编码块的上边与右上边编码块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则该编码块标记值按照式(VI)的方式进行计算；

当编码块预测方式特征为水平下预测时，分别计算该编码块的左边与左上边编码块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则该编码块标记值按照式(VI)的方式进行计算；

当编码块预测方式特征为水平上预测时，分别计算该编码块的左边与右上边编码块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则该编码块标记值按照式(VI)的方式进行计算；

对于第(②)类编码块，

当编码块预测方式特征为垂直预测时，如果其上边编码块的预测残差能量大于阈值时，该编码块标记值等于其上边编码块的标记值；当编码块预测方式特征为水平预测时，如果其左边编码块的预测残差能量大于阈值时，该编码块标记值等于其左边编码块的标记值；当编码块预测方式特征为对角线左下预测时，如果其右上编码块的预测残差能量大于阈值时，该编码块标记值等于其右上编码块的标记值；当编码块预测方式特征为对角线右下预测时，如果其左上编码块的预测残差能量大于阈值时，该编码块标记值等于其左上编码块的标记值；

当编码块预测方式特征为直流预测时，如果其上边和左边编码块的预测残差能量至少有一个大于阈值，分别计算该编码块的上边与左边编码块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则编码块标记值按照式(VI)的方式进行计算；

当编码块预测方式特征为垂直右预测时，如果其上边和左上边编码块的预测残差能量至少有一个大于阈值，分别计算该编码块的上边与左上边编码块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则该编码块标记值按照式(VI)的方式进行计算；

当编码块预测方式特征为垂直左预测时，如果其上边和右上边编码块的预测残差能量至少有一个大于阈值，分别计算该编码块的上边与右上边编码块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则该编码块标记值按照式(VI)的方式进行计算；

当编码块预测方式特征为水平下预测时，如果其左边与左上边编码块的预测残差能量至少有一个大于阈值，分别计算该编码块的左边与左上边编码块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则该编码块标记值按照式(VI)的方式进行计算；

当编码块预测方式特征为水平上预测时，如果其左边与右上边编码块的预测残差能量至少有一个大于阈值，分别计算该编码块的左边与右上边编码块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则该编码块标记值按照式(VI)的方式进行计算；

对于第(②)类编码块，如果不满足上述的各种情况，则将全局标记自加1，并设定该编码块标记为全局标记；

记最后得到的全局标记为MaxLable；

(4.5)对每个编码块的标记值进行归一化处理，得到每个编码块的归一化标记值；

可选地，所述的归一化处理可采取式(IX)来计算：

{Label}^{'} (i, y) = \frac{Label (i, j) * STAGE}{MaxLabel} - - - (IX)

式(IX)中，Label′(i，j)为第(i，j)个编码块的归一化标记值，在0～STAGE范围内；Label(i，j)为第(i，j)个编码块的标记值，STAGE为用户可设定的区域标记级数，STAGE取值越大，区域划分越细致。一般可根据图像分辨率大小进行选择STAGE值，图像分辨率越大，STAGE取值越大；反之，图像分辨率越小，STAGE取值越小。

至此，整个图像编码块的标记过程完成。

(4.6)根据所述的各个编码块的归一化标记值将整个图像划分为不同的区域，其中，具有相同的归一化标记值的编码块属于同一区域；

步骤(4)中，所述的阈值可以是用户设定值，也可以是根据整帧图像结果自适应设定为该帧所有编码块的平均预测残差能量。

(5)根据图像位置信息计算每个区域的平均深度值，作为该区域所有编码块的深度值；遍历图像中所有区域，得到所有区域中所有编码块的深度值，即得到整幅图像的编码块深度图。

其中，所述的每个区域的平均深度值计算过程如下：

首先，设定图像的初始深度值。

通常，初始深度值可以根据场景不同而由用户自行设定。本发明优选采

取公式(X)来设定图像的初始深度值InitDepth(i，j)：

InitDepth (i, j) = \{\begin{matrix} \frac{j * i}{Height * Width / 2} * 255 & i \leq Width / 2 \\ \frac{j * (Width - i)}{Height * Width / 2} * 255 & i > Width / 2 \end{matrix} - - - (X)

式(X)中，i，j分别为编码块的水平坐标值和垂直坐标值，InitDepth(i，j)为设定的第(i，j)个编码块的初始深度值，Width和Height分别为该图像在水平方向和垂直方向上所具有的编码块个数。初始深度值InitDepth(i，j)在0～255之间，其值越大，表示距离观察者越近；其值越小，表示距离观察者越远。

然后，计算每个区域的平均深度值。

对每个具有相同归一化标记值的区域Ω中的编码块，按式(XI)计算它们的平均深度值：

{AvgDepth}_{Ω} = \frac{\underset{(i, j) &Element; Ω}{Σ} InitDepth (i, j)}{{Count}_{Ω}} - - - (XI)

式(XI)中，Count_Ω为区域Ω中编码块的个数，AvgDepth_Ω为区域Ω的平均深度值。

计算得到每个区域的平均深度值后，将该区域Ω中所有编码块的深度值都设为AvgDepth_Ω；并采取同样的方法，得到所有区域中所有编码块的深度值，即得到整幅图像的编码块深度图。

(6)对得到的整幅图像的编码块深度图进行高斯滤波和上采样，最终得到与原图像大小一致的深度图。

通过上述步骤(1)～(6)，可以在没有人工介入的情况下，全自动地实现了对一幅H.264压缩图像所对应的深度图生成。

本发明中，如无特殊说明，所述的编码块均为4×4块。

本发明中，H.264为ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT，Joint Video Team)发布的视频编码标准。H.264Intra编码方式与JPEG2000具有相近的编码效率，尤其是在低分辨率时拥有更好的率失真性能。在H.264中，帧内编码并不直接采用DCT变换来进行，而是采用整型DCT变换，并且在变换之前要先根据周围的像素相似性对编码块进行预测得到残差，再对残差进行编码。帧内预测(IntraPrediction)是H.264区别于之前视频编码标准的一项重要改进，它充分利用了编码图像中空域的信息，极大提高了I帧的压缩效率。

本发明中，根据H.264部分解码得到的编码块的预测方式特征和编码块整型DCT变换的系数特征(计算得到预测残差能量)，计算各编码块进行标记值，并对图像进行区域划分，再根据图像位置信息计算每个区域的平均深度，得到基于编码块的深度图，最后得到的编码块深度图进行高斯滤波和上采样，得到与原图像大小一致的深度图。

本发明充分考虑到目前大多图像都是以压缩形式进行存储，采取基于H.264压缩域生成图像深度图的方法，在压缩域中直接提取深度图，既节省了由图像解压过程所消耗的计算资源，又有效利用了压缩图像本身的数据量少的优势，(大部分压缩图像是以块为基本单位，所需要处理的数据量仅是像素域的1/16(基于4×4块)或更少)，因此，相对于基于像素域的方法，本发明方法具有非常明显的技术优势，避免了在像素域进行复杂的图像分割操作，也避免了由解压码流带来的额外计算，具有很高的运算效率。

本发明的基于H.264压缩域图像深度图生成方法，能够在普通PC机或工作站等硬件***上实现。对于比较普遍的外部场景，该方法通常都能获得令人满意的效果，得到的深度图接近真实的物体深度。

附图说明

图1为本发明深度图生成方法的流程框图；

图2为本发明中计算4×4块预测残差能量时相关的残差系数位置示意图。

具体实施方式

下面结合附图和实施例来详细说明本发明，但本发明并不仅限于此。

如图1所示，一种基于H.264压缩域图像深度图生成的方法，包括以下步骤：

(1)输入原图像的H.264压缩域码流；

(2)将H.264压缩域码流进行可变长熵解码并提取压缩域码流中编码块的相关特征；所述的编码块的相关特征包括编码块的预测方式特征和编码块整型DCT变换的系数特征。所述的编码块为4×4块。

在H.264I帧压缩码流中，每个宏块(16×16块)会通过帧内预测来进行编码。帧内预测分为两种方式：Intra16×16和Intra4×4。其中，Intra16×16有4种预测方式，分别为：垂直预测(V)、水平预测(H)、直流预测(DC)和平面预测(P)；Intra4×4有9种预测方式，分别为：垂直预测(V)、水平预测(H)、直流预测(DC)、对角线左下预测(DDL)，对角线右下预测(DDR)、垂直右预测(VR)、水平下预测(HD)、垂直左预测(VL)和水平上预测(HU)。

在Intra4×4模式下，将每一个宏块(16×16块)分割成16个4×4的子块进行预测，每个4×4块中的像素可通过该块左上角重建像素值的不同加权和来进行不同方向的预测。

对于Intra16×16模式，由于其4种预测方式是针对整个16×16宏块的预测方式，为了与Intra4×4模式相对应，首先要将其预测方式映射到其中的16个4×4块中。当16×16宏块的预测模式为Intra16×16垂直预测(V)时，将该16×16宏块中的所有4×4块都设置为垂直预测(V)；当16×16宏块的预测模式为Intra16×16水平预测(H)时，将该16×16宏块中的所有4×4块都设置为水平预测(H)；当16×16宏块的预测模式为Intra16×16直流预测(DC)时，将该16×16宏块中的所有4×4块都设置为直流预测(DC)；当16×16宏块的预测模式为Intra16×16平面预测(P)时，将该16×16宏块中的所有4×4块都设置为对角线左下预测(DDL)。

以上所述的4×4块的帧内预测方式和整型DCT变换系数都可以通过可变长熵解码直接从H.264码流中提取出来，从而得到所述的4×4块的预测方式特征和编码块整型DCT变换的系数特征。

(3)根据步骤(2)提取得到的4×4块整型DCT变换的系数特征，计算4×4块的预测残差能量En(i，j)，如式(I)所示：

式(I)中，DC(i，j)，AC₀₁(i，j)，AC₁₀(i，j)，AC₁₁(i，j)分别为第(i，j)个4×4块的整型DCT变换系数z字扫描的第1、2、3、5个系数，DC(i，j)，AC₀₁(i，j)，AC₁₀(i，j)，AC₁₁(i，j)在第(i，j)个4×4块的整型DCT变换系数中的位置如图2所示。

(4)根据由步骤(2)和(3)获得的4×4块的预测方式特征和4×4块的预测残差能量对整个图像进行基于4×4块的区域标记划分；所述的区域标记划分的过程具体如下：

(4.1)首先初始化所有4×4块的标记值为1，并初始化全局标记(GlobalLabel)为1；

(4.2)根据每个4×4块的预测残差能量和预测方式特征，对第一排的每个4×4块进行水平方向的块标记，具体如下：

(4.2.1)如果第(i，j)个4×4块的预测残差能量En(i，j)小于或等于一定的阈值ENTH，即En(i，j)≤ENTH，该4×4块的标记值等于其左边4×4块的标记值，即：

Label(i，j)＝Label(i-1，j)； (II)

式(II)中，Label(i，j)为第(i，j)个4×4块的标记值，Label(i-1，j)为第(i，j)个4×4块左边的4×4块的标记值。

阈值ENTH可以为用户设定值，也可以根据整帧图像结果自适应设定为该帧所有4×4块的平均预测残差能量。

(4.2.2)如果第(i，j)个4×4块的预测残差能量En(i，j)大于阈值ENTH，并且该4×4块的预测方式特征为水平预测(H)或直流预测(DC)，则该4×4块的标记值等于其左边4×4块的标记值；否则，将全局标记GlobalLabel自加1，并设定当前4×4块标记为GlobalLabel，即：

式(III)中，PredMode(i，j)为第(i，j)个4×4块的预测方式特征，GlobalLabel++表示将全局标记GlobalLabel自加1。

(4.3)根据每个4×4块的预测残差能量和预测方式特征，对第一列的每个4×4块进行垂直方向的块标记，具体如下：

(4.3.1)如果第(i，j)个4×4块的预测残差能量En(i，j)小于或等于一定的阈值ENTH，即En(i，j)≤ENTH，该4×4块的标记值等于其上边4×4块的标记值，即：

Label(i，j)＝Label(i，j-1)； (IV)

式(IV)中，Label(i，j-1)为第(i，j)个4×4块上边的4×4块的标记值。

(4.3.2)如果第(i，j)个4×4块的预测残差能量En(i，j)大于阈值ENTH，并且该4×4块的预测方式特征为垂直预测(V)或直流预测(DC)，则该4×4块的标记值等于其上边4×4块的标记值加1；否则，该4×4块的标记值等于其上边4×4块的标记值加2，即：

(4.4)对于除第一排和第一列之外的每个4×4块，先比较每个4×4块的预测残差能量与阈值(ENTH)的大小，将其分为两类：(①)预测残差能量小于或等于阈值的4×4块和(②)预测残差能量大于阈值的4×4块。再对这两类进行不同的处理，计算4×4块的标记值：

(4.4.1)如果第(i，j)个4×4块的预测残差能量En(i，j)小于或等于阈值ENTH，即En(i，j)≤ENTH，即第(①)类情况，根据当前4×4块的预测方式特征PredMode(i，j)分类进行处理：

(a)如果当前4×4块的预测方式特征为垂直预测(V)，即PredMode(i，j)＝＝V，则当前4×4块标记值等于其上边4×4块的标记值，即：Label(i，j)＝Label(i，j-1)；

(b)如果当前4×4块的预测方式特征为水平预测(H)，即PredMode(i，j)＝＝H，则当前4×4块标记值等于其左边4×4块的标记值，即：Label(i，j)＝Label(i-1，j)；

(c)如果当前4×4块的预测方式特征为直流预测(DC)，即PredMode(i，j)＝＝DC，那么首先判断该4×4块上边与左边块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则当前块标记值为：

Label(i，j)＝(LabelMin*3+LabelMax)/4； (VI)

(d)如果当前4×4块的预测方式特征为对角线左下预测(DDL)，即PredMode(i，j)＝＝DDL，则当前4×4块标记值等于其右上4×4块的标记值，即：Label(i，j)＝Label(i+1，j-1)；

(e)如果当前4×4块的预测方式特征为对角线右下预测(DDR)，即PredMode(i，j)＝＝DDR，则当前4×4块标记值等于其左上4×4块的标记值，即：Label(i，j)＝Label(i-1，j-1)；

(f)如果当前4×4块的预测方式特征为垂直右预测(VR)，即PredMode(i，j)＝＝VR，那么首先判断该4×4块上边与左上块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则当前块标记值按照式(VI)的方式进行计算；

(g)如果当前4×4块的预测方式特征为水平下预测(HD)，即PredMode(i，j)＝＝HD，那么首先判断该4×4块左边与左上块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则当前块标记值按照式(VI)的方式进行计算；

(h)如果当前4×4块的预测方式特征为垂直左预测(VL)，即PredMode(i，j)＝＝VL，那么首先判断该4×4块上边与右上块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则当前块标记值为按照式(VI)的方式进行计算；

(i)如果当前4×4块的预测方式特征为水平上预测(HU)，即PredMode(i，j)＝＝HU，那么首先判断该4×4块左边与右上块的标记值，取较小者记为LabelMin，较大者记为LabelMax，则当前块标记值为按照式(VI)的方式进行计算。

(4.4.2)如果第(i，j)个4×4块的预测残差能量En(i，j)大于阈值ENTH，即En(i，j)＞ENTH，即第(②)类情况，同样根据当前4×4块的预测方式特征PredMode(i，j)分类进行处理。其处理方式与第(①)类情况比较相似，只是在判断各个模式时需要同时满足相应块的预测残差能量也要大于阈值ENTH，具体说明如下：

(a′)如果当前4×4块的预测方式特征为垂直预测(V)，即PredMode(i，j)＝＝V，此时如果其上边4×4块的预测残差能量大于阈值ENTH时，设定当前4×4块标记值等于其上边4×4块的标记值，即：Label(i，j)＝Label(i，j-1)；

(b′)如果当前4×4块的预测方式特征为水平预测(H)，即PredMode(i，j)＝＝H，此时如果其左边4×4块的预测残差能量大于阈值ENTH时，设定当前4×4块标记值等于其左边4×4块的标记值，即：Label(i，j)＝Label(i-1，j)；

(c′)如果当前4×4块的预测方式特征为直流预测(DC)，即PredMode(i，j)＝＝DC，此时如果其上边4×4块和左边4×4块的预测残差能量至少有一个大于阈值ENTH时，则再判断该4×4块上边与左边块的标记值，取较小者记为LabelMin，较大者记为LabelMax，当前块标记值按照式(VI)的方式进行计算；

(d′)如果当前4×4块的预测方式特征为对角线左下预测(DDL)，即PredMode(i，j)＝＝DDL，此时如果其右上4×4块的预测残差能量大于阈值ENTH时，设定当前4×4块标记值等于其右上4×4块的标记值，即：Label(i，j)＝Label(i+1，j-1)；

(e′)如果当前4×4块的预测方式特征为对角线右下预测(DDR)，即PredMode(i，j)＝＝DDR，此时如果其左上4×4块的预测残差能量大于阈值ENTH时，设定当前4×4块标记值等于其左上4×4块的标记值，即：Label(i，j)＝Label(i-1，j-1)；

(f′)如果当前4×4块的预测方式特征为垂直右预测(VR)，即PredMode(i，j)＝＝VR，此时如果其上边4×4块和左上4×4块的预测残差能量至少有一个大于阈值ENTH时，则再判断该4×4块上边与左上块的标记值，取较小者记为LabelMin，较大者记为LabelMax，当前块标记值按照式(VI)的方式进行计算；

(g′)如果当前4×4块的预测方式特征为水平下预测(HD)，即PredMode(i，j)＝＝HD，此时如果其左边4×4块和左上4×4块的预测残差能量至少有一个大于阈值ENTH时，则再判断该4×4块左边与左上块的标记值，取较小者记为LabelMin，较大者记为LabelMax，当前块标记值按照式(VI)的方式进行计算；

(h′)如果当前4×4块的预测方式特征为垂直左预测(VL)，即PredMode(i，j)＝＝VL，此时如果其上边4×4块和右上4×4块的预测残差能量至少有一个大于阈值ENTH时，则再判断该4×4块上边与右上块的标记值，取较小者记为LabelMin，较大者记为LabelMax，当前块标记值为按照式(VI)的方式进行计算；

(i′)如果当前4×4块的预测方式特征为水平上预测(HU)，即PredMode(i，j)＝＝HU，此时如果其左边4×4块和右上4×4块的预测残差能量至少有一个大于阈值ENTH时，则再判断该4×4块左边与右上块的标记值，取较小者记为LabelMin，较大者记为LabelMax，当前块标记值为按照式(VI)的方式进行计算。

在第(②)类情况中，如果不满足上述(a′)～(i′)的各种条件，则将全局标记GlobalLabel自加1，即：

GlobalLabel++ (VII)，

并设定当前4×4块标记为GlobalLabel，即：

Label(i，j)＝GlobalLabel (VIII)。

记最后得到的GlobalLabel为MaxLable。

(4.5)对每个4×4块的标记值进行归一化处理，得到归一化标记值，在0～STAGE范围内，第(i，j)个4×4块的归一化标记值Label′(i，j)表示为：

{Label}^{'} (i, y) = \frac{Label (i, j) * STAGE}{MaxLabel} - - - (IX)

式(IX)中，STAGE为用户可设定的区域标记级数，STAGE取值越大，区域划分越细致。一般可根据图像分辨率大小进行选择，图像分辨率越大，STAGE取值越大；反之，图像分辨率越小，STAGE取值越小。

至此，整个图像4×4块的标记过程完成。

(4.6)根据各个4×4块的归一化标记值将整个图像划分为不同的区域，其中，具有相同的归一化标记值的4×4块属于同一区域；

(5)根据图像位置信息计算每个区域的平均深度，作为该区域所有4×4块的深度值；遍历图像中所有区域，得到所有区域中所有4×4块的深度值，即得到整幅图像的编码块深度图。

所述的每个区域的平均深度计算过程如下：

首先，设定图像的初始深度值。初始深度值可以根据场景不同而由用户自行设定。本发明采取公式(X)设定图像的初始深度值InitDepth(i，j)：

InitDepth (i, j) = \{\begin{matrix} \frac{j * i}{Height * Width / 2} * 255 & i \leq Width / 2 \\ \frac{j * (Width - i)}{Height * Width / 2} * 255 & i > Width / 2 \end{matrix} - - - (X)

式(X)中，i，j分别为4×4块的水平坐标值和垂直坐标值，InitDepth(i，j)为设定的第(i，j)个4×4块的初始深度值，Width和Height分别为该图像在水平方向和垂直方向上所具有的编码块个数。初始深度值InitDepth(i，j)在0～255之间，其值越大，表示距离观察者越近；其值越小，表示距离观察者越远。

然后，计算每个区域的平均深度值。

对每个具有相同归一化标记值的区域Ω中的4×4块，按式(XI)计算它们的平均深度值：

{AvgDepth}_{Ω} = \frac{\underset{(i, j) &Element; Ω}{Σ} InitDepth (i, j)}{{Count}_{Ω}} - - - (XI)

式(XI)中，Count_Ω为区域Ω中4×4块的个数，AvgDepth_Ω为区域Ω的平均深度值。

将该区域Ω中所有4×4块的深度值都设为AvgDepth_Ω；同样的方法，得到所有区域中所有4×4块的深度值，即得到整幅图像的编码块深度图。

通过上述步骤(1)～(6)，全自动地实现了对一幅H.264压缩图像所对应的深度图生成。上述的基于H.264压缩域图像深度图生成方法，能够在普通PC机或工作站等硬件***上实现。实验证明，对于比较普遍的外部场景，该方法通常都能获得令人满意的效果，得到的深度图接近真实的物体深度。

上述方法中，使用H.264压缩码流内部信息提取图像深度图，可以在没有人工介入的情况下，较好地完成基于H.264压缩域图像深度图生成的任务。由于避免了在像素域进行复杂的图像分割操作，仅仅在H.264压缩码流内部信息提取图像深度图，从而避免了由解压码流带来的额外计算，具有很高的运算效率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于H.264压缩域图像深度图生成方法，其特征在于，包括以下步骤：

(1)输入图像的H.264压缩域码流；

(2)将H.264压缩域码流进行可变长熵解码并提取所述的H.264压缩域码流中编码块的相关特征；所述的编码块的相关特征包括：编码块的预测方式特征和编码块整型DCT变换的系数特征；所述的编码块为4×4块；

(3)根据步骤(2)提取得到的编码块整型DCT变换的系数特征，计算编码块的预测残差能量；

(5)根据图像位置信息计算每个区域的平均深度值，作为该区域所有编码块的深度值；遍历图像中所有区域，得到所有区域中所有编码块的深度值，即得到整幅图像的编码块深度图；

(6)对得到的整幅图像的编码块深度图进行高斯滤波和上采样，最终得到与图像大小一致的深度图。

2.如权利要求1所述的基于H.264压缩域图像深度图生成方法，其特征在于，所述的步骤(3)中，采取式(I)计算编码块的预测残差能量En(i，j)：

式(I)中，DC(i，j)，AC₀₁(i，j)，AC₁₀(i，j)，AC₁₁(i，j)分别为第(i，j)个编码块的整型DCT变换系数z字扫描的第1、2、3、5个系数。

3.如权利要求1所述的基于H.264压缩域图像深度图生成方法，其特征在于，所述的步骤(4)中，

(4.1)首先初始化所有编码块的标记值为1，并初始化全局标记为1；

(4.5)对由步骤(4.2)～(4.4)得到的所有编码块的标记值进行归一化处理，得到所有编码块的归一化标记值；

(4.6)根据所述的所有编码块的归一化标记值将整个图像划分为不同的区域，其中，具有相同的归一化标记值的编码块属于同一区域。

4.如权利要求3所述的基于H.264压缩域图像深度图生成方法，其特征在于，所述的归一化处理采取式(IX)来计算：

{Label}^{'} (i, j) = \frac{Label (i, j) * STAGE}{MaxLabel} - - - (IX)

式(IX)中，Label′(i，j)为第(i，j)个编码块的归一化标记值，在0～STAGE范围内；Label(i，j)为第(i，j)个编码块的标记值，STAGE为设定的区域标记级数；MaxLabel为最后得到的全局标记。

5.如权利要求1所述的基于H.264压缩域图像深度图生成方法，其特征在于，所述的步骤(5)中，每个区域的平均深度值的计算过程如下：

首先，根据公式(X)设定图像的初始深度值InitDepth(i，j)：

InitDepth (i, j) = \{\begin{matrix} \frac{j * i}{Height * Width / 2} * 255 & i \leq Width / 2 \\ \frac{j * (Width - i)}{Height * Width / 2} * 255 & i > Width / 2 \end{matrix} - - - (X)

式(X)中，i，j分别为编码块的水平坐标值和垂直坐标值，InitDepth(i，j)为设定的第(i，j)个编码块的初始深度值，Width和Height分别为该图像在水平方向和垂直方向上所具有的编码块个数；

然后，计算每个区域的平均深度值：

{AvgDepth}_{Ω} = \frac{\underset{(i, j) &Element; Ω}{Σ} InitDepth (i, j)}{{Count}_{Ω}} - - - (XI)

式(XI)中，Count_Ω为区域Ω中编码块的个数，AvgDepth_Ω为区域Ω的平均深度值，

为区域Ω中所有编码块的初始深度值之和。