CN102158712B

CN102158712B - 一种基于视觉的多视点视频信号编码方法

Info

Publication number: CN102158712B
Application number: CN 201110069318
Authority: CN
Inventors: 郁梅; 卢小明; 蒋刚毅; 彭宗举; 邵枫
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2011-03-22
Filing date: 2011-03-22
Publication date: 2012-10-24
Anticipated expiration: 2031-03-22
Also published as: CN102158712A

Abstract

本发明公开了一种基于视觉的多视点视频信号编码方法，通过建立被编码的视频图像的视觉显著性图对视频图像感兴趣区域进行划分，在其后的编码过程中，在人眼比较感兴趣的区域采用较小的编码量化参数，而在人眼不太感兴趣的区域采用较大的编码量化参数。虽然本发明在人眼关注度比较低的区域分配较少的码率，但这些区域由于编码所造成的失真不会或很少引起人眼的察觉，因而对图像整体质量的影响并不明显，而与此同时却极大地节省了码率；而在人眼关注度比较高的区域分配较多的码率，可以提高解码图像的整体主观视觉质量，从而提高多视点视频信号编码效率。

Description

一种基于视觉的多视点视频信号编码方法

技术领域

本发明涉及视频信号处理技术，尤其是涉及一种基于视觉的多视点视频信号编码方法。

背景技术

随着计算机技术以及图形图像处理等多媒体技术的发展，尤其是近年来3D显示技术的长足进步，使人们希望自由地选择视点欣赏场景的愿望逐渐成为可能。这种自由视点视频***(FVV，Free Viewpoint Video)在影视娱乐、教育、产品展示、医疗、安全监控和虚拟现实等领域具有广阔的应用前景，是下一代多媒体技术的核心。自由视点视频是通过多相机***进行捕获，各视点独立地接受来自同一场景的特定摄像点的视频，并通过绘制技术来生成任意视点视频，从而达到使人们能欣赏到任意位置视点图像的目的。传统的虚拟视点的绘制方法可以采用两路彩***信号进行绘制。而由于深度视频中只有亮度信号需要编码，相对于彩***信号具有更小的码流，因此采用基于深度图的绘制技术(DIBR，Depth Image Based Rendering)，更加适合于表示和实现FVV***。由于单路视频信号及对应的深度视频仅允许在较小的范围内进行交互式地自由切换视点，所以国际标准化组织采用多路彩***信号及对应多路深度视频信号(MVD，MultiviewView plus Depth)来扩展FVV的视频切换范围。图1是用多路彩***信号及对应多路深度视频信号表示和实现的FVV的框图。从该框图可以看出，自由视点视频的核心技术是多视点视频信号编解码和实时的图像绘制。

和传统的单通道视频相比，多视点视频中彩***的数据量随着相机数量的增加而成倍增长，且每幅彩***图像都对应一幅深度图，使得MVD的数据量更为惊人。为了能有效存储、传输MVD信号，并且在应用中能实现用户和***之间的交互操作、视点间的自由切换，必须对多视点视频信号进行高效的压缩。目前，很多FVV***框架中的多视点视频信号编码压缩方法中采用了如图2所示的分层B帧(HBP，HierarchicalB Pictures)预测编码结构。HBP结构除了采用运动估计消除时间上的信号冗余外，还采用了视差估计来消除视点间的空间冗余，能够对多视点视频信号进行较好的压缩。

JMVM(Joint Multiview Video Model)是国际标准组织的联合视频编码组JVT用于多视点视频编码研究的基于H.264编码标准的多视点视频编码校验模型。在JMVM中，编码量化策略是根据B帧所在层次决定的，具体的方案是：如果基准量化步长参数BasicQP确定，那么其它编码帧的量化步长参数QP是通过QP＝QP_l+C得到的。l表示在HBP结构中的帧层次，当l＝1时，QP_l＝BasicQP，C＝3；当l＞1时，C＝1。通过这种分帧层量化的方法可以获得较高的编码效率。然而，在JMVM校检模型中，编码也仅仅是从传统的空间、时间和视点间的信号冗余的角度出发，而没有挖掘视频图像中大量存在的视觉冗余。大量人类视觉生理学和视觉心理学实验表明，针对一幅视频图像，人眼对其中的内容并非一视同仁，而是往往表现出选择性和迁移性，即人眼会下意识地或者有意地将一幅图像划分为若干个不同的区域，并将注意力集中在人眼比较感兴趣的区域；如果感兴趣区域不止一个的话，注意力在这些区域中也往往会有个迁移的过程，即注意力首先集中在最感兴趣的区域，一定的时间段之后再转移到次感兴趣的区域，依次类推，当人眼关注度比较低的区域发生某些变化时，甚至不能引起人眼的察觉。人类视觉的这种特性对图像观察者理解图像内容和评价图像质量起着至关重要的作用。因此，在编码过程中充分考虑人类视觉特性，有助于在保证人眼的主观视觉效果的同时提高编码压缩效率。

发明内容

本发明所要解决的技术问题是提供一种基于视觉的多视点视频信号编码方法，根据人眼视觉特性划分视频图像中人眼感兴趣区域，并以此为基础，对人眼感兴趣区域和非感兴趣区域采用不同的量化参数进行编码，以提高多视点视频信号编码效率。

本发明解决上述技术问题所采用的技术方案为：一种基于视觉的多视点视频信号编码方法，其特征在于首先建立被编码的视频图像的视觉显著性图以对视频图像感兴趣区域进行划分，在其后的编码过程中，在人眼比较感兴趣的区域分配较多的码率，而在人眼不太感兴趣的区域分配较少的码率，具体包括以下步骤：

①计算得到静态视觉的亮度显著性图A_I、颜色显著性图A_H，S和方向显著性图A_θ：

A1.记多视点视频中当前正在处理的t时刻的彩色图像为C^t，把彩色图像C^t转换到HSI彩色空间表示，彩色图像C^t的色调分量表示为

彩色图像C^t的饱和度分量表示为

彩色图像C^t的亮度分量表示为采用Gabor方向滤波器对彩色图像C^t的亮度分量进行滤波，得到彩色图像C^t在0°、45°、90°和135°四个方向的方向分量，分别记为

和

A2.对彩色图像C^t的每一个图像分量

P∈{H，S，I，0°，45°，90°，135°}，分别进行高斯金字塔运算，得到彩色图像C^t的各个图像分量的不同层次的图像特征图1≤n≤8，这里，

其中为第n层高斯金字塔运算的结果，Gaussian是高斯函数卷积核，符号“*”表示卷积运算，SubSample[Image]表示对输入图像Image的水平和垂直方向均进行1/2下采样；当n＝1时，

即为

A3.对于彩色图像C^t的各个图像分量

计算其高斯金字塔不同层次的图像特征图的Center-Surround差异

其中，和

分别表示彩色图像C^t的图像分量

的高斯金字塔第i层和第j层的图像特征图，i∈{2，3，4}，j＝i+d，d∈{3，4}；符号“Θ”表示将第j层的图像特征图

上采样到第i层的图像特征图

的尺寸大小，然后将这2幅图像特征图对应像素点进行相减，“|·|”表示取绝对值；

A4.对于彩色图像C^t的亮度分量

对其6幅Center-Surround差异计算结果进行Across-Scale融合，

其中，

表示局部迭代归一化过程，若令M是局部迭代归一化过程的输入图像，则

这里DOG是高斯差分函数，c是一个常量，符号“*”表示卷积运算；符号

表示先将6幅Center-Surround差异计算结果局部迭代归一化后得到的图像

均下采样到高斯金字塔中第4层图像特征图的尺寸大小，即长宽均为彩色图像C^t长宽的1/16，然后将经上述处理后的6幅Center-Surround差异计算结果相加；对于彩色图像C^t的色调分量

和饱和度分量

对其12幅Center-Surround差异计算结果

以及进行Across-Scale融合，即

对于彩色图像C^t的四个方向分量

和

对其24幅Center-Surround差异计算结果进行Across-Scale融合，即

A5.对Across-Scale融合的结果

分别进行线性归一化使

中各个像素的值在0～255之间，记经过线性归一化后的

分别为A⊥、A_H，S、A_θ；

②计算其中，

和分别为与彩色图像C^t同一个视点的前一时刻t-1时刻和后一时刻t+1时刻的彩色图像C^t-1和C^t+1的亮度分量，符号“∩”表示图像与运算，“|·|”表示取绝对值；对

进行线性归一化使其各个像素的值在0～255之间；然后，对线性归一化后的

的水平和垂直方向均进行1/16下采样，得到运动视觉显著性图M；

③计算得到深度视觉显著性图B，具体步骤为：

C1.令

表示彩色图像C^t所对应的深度图像，采用Gabor方向滤波器对深度图像

进行滤波，得到深度图像

的0°、45°、90°和135°四个方向的方向分量，分别记为

和

C2.对步骤C1得到的每一个图像分量

R∈{I，0°，45°，90°，135°}，分别进行高斯金字塔运算，得到深度图像

的各个图像分量不同层次的图像特征图

1≤n≤8，这里，

其中为第n层高斯金字塔运算的结果；当n＝1时，

即为

C3.对于深度图像

的各个图像分量

计算其高斯金字塔不同层次的图像特征图的Center-Surround差异，即

其中，和

分别表示图像分量

上采样到第i层的图像特征图

的尺寸大小，然后将这2幅图像特征图对应像素点进行相减；

C4.对于深度图像

对其6幅Center-Surround差异计算结果

进行Across-Scale融合，即

其中，

表示局部迭代归一化过程，符号

均下采样到高斯金字塔中第4层图像的尺寸大小，即长宽均为输入的深度图像长宽的1/16，然后将经上述处理后的6幅Center-Surround差异计算结果相加；对于四个方向分量

和

对其24幅Center-Surround差异计算结果进行Across-Scale融合，即

C5.对Across-Scale融合的结果

分别进行线性归一化使中各个像素的值在0～255之间，然后将线性归一化后的

进行线性加权融合，得到深度视觉显著性图B；

④将静态视觉的亮度显著性图A_I、颜色显著性图A_H，S和方向显著性图A_θ、运动视觉显著性图M、深度视觉显著性图B，按照VPV＝αA_I+βA_H，S+γA_θ+λM+ηB进行加权融合，得到输入的彩色图像C^t的视觉显著性图VPV；视觉显著性图中每个像素的像素值vpv_i为彩色图像C^t对应的第i个16×16宏块的视觉优先权值，表征人眼对该宏块的关注度；α、β、γ、λ和η分别是亮度特征、颜色特征、方向特征、运动特征和深度特征的权重系数，表征人眼对这些特征的敏感程度；

⑤对彩色图像C^t进行编码，在编码时，根据彩色图像C^t的视觉显著性图VPV调整彩色图像C^t各个16×16宏块的编码量化参数：QP_i＝QP+ΔQP_i，其中QP是由JMVM确定的对于彩色图像C^t进行编码所采用的量化参数，QP_i是编码彩色图像C^t中第i个宏块时最终所采用的量化参数，

这里，

是彩色图像C^t的第i个16×16宏块的视觉优先权值，vpv_max和vpv_min分别为彩色图像C^t的视觉显著性图VPV中的最大值和最小值，α₁、β₁、α₂、β₂、γ₂、ω₂、α₃、β₃、γ₃和μ为常数。

所述的步骤④中的亮度特征、颜色特征、方向特征、运动特征和深度特征的权重系数α、β、γ、λ和η的取值分别是α＝0.3、β＝0.1、γ＝0.1、λ＝04和η＝0.1。

所述的步骤⑤中α₁＝6.27，β₁＝-0.10；α₂＝-2.75，β₂＝-52.10，γ₂＝18.3，ω₂＝4.17；α₃＝-0.05，β₃＝-6.57，γ₃＝3.21；μ＝0.08。

与现有技术相比，本发明的优点在于充分挖掘了多视点视频中大量存在的视觉冗余，在人眼关注度比较低的区域分配较少的码率，这样在这些区域由于编码所造成的失真不会或很少引起人眼的察觉，与此同时却极大地节省了码率；而在人眼关注度比较高的区域分配较多的码率，以提高解码图像的整体主观视觉质量，从而提高多视点视频信号编码效率。

附图说明

图1为典型的FVV视频***；

图2为分层B帧预测编码结构；

图3为多视点视频Ballet的彩色图像；

图4为图3所示的多视点视频Ballet的彩色图像对应的深度图像；

图5为图3所示的多视点视频Ballet的彩色图像的视觉显著性图；

图6为本发明编码方法码率的节省情况；

图7为本发明编码方法与现有编码方法编码后图像质量的比较(QP＝22)；

图8为本发明编码方法与现有编码方法编码后图像质量的比较(QP＝27)；

图9为本发明编码方法与现有编码方法编码后图像质量的比较(QP＝32)；

图10为本发明编码方法与现有编码方法编码后图像质量的比较(QP＝37)。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明的一种基于视觉的多视点视频信号编码方法，其特征在于首先建立被编码的视频图像的视觉显著性图以对视频图像感兴趣区域进行划分，在其后的编码过程中，在人眼比较感兴趣的区域分配较多的码率，而在人眼不太感兴趣的区域分配较少的码率，具体包括以下步骤：

彩色图像C^t的饱和度分量表示为

彩色图像C^t的亮度分量表示为

采用Gabor方向滤波器对彩色图像C^t的亮度分量

进行滤波，得到彩色图像C^t在0°、45°、90°和135°四个方向的方向分量，分别记为

和

A2.对彩色图像C^t的每一个图像分量

P∈{H，S，I，0°，45°，90°，135°}，分别进行高斯金字塔运算，得到彩色图像C^t的各个图像分量的不同层次的图像特征图

1≤n≤8，这里，

其中

为第n层高斯金字塔运算的结果，Gaussian是高斯函数卷积核，本实施例中采用了5×5的高斯函数卷积核，即

符号“*”表示卷积运算，SubSample[Image]表示对输入图像Image的水平和垂直方向均进行1/2下采样；当n＝1时，

即为

A3.对于彩色图像C^t的各个图像分量

计算其高斯金字塔不同层次的图像特征图的Center-Surround差异

其中，

和分别表示彩色图像C^t的图像分量的高斯金字塔第i层和第j层的图像特征图，i∈{2，3，4}，j＝i+d，d∈{3，4}；符号“Θ”表示将第j层的图像特征图上采样到第i层的图像特征图的尺寸大小，然后将这2幅图像特征图对应像素点进行相减，“|·|”表示取绝对值。

A4.对于彩色图像C^t的亮度分量

对其6幅Center-Surround差异计算结果

进行Across-Scale融合，即

其中，

这里DOG是高斯差分函数，本实施例中

σ_ex和σ_inh分别为输入图像宽度的2％和25％，c_ex取0.5，c_inh取1.5，c是一个常量，取值为1。符号“*”表示卷积运算；符号表示先将6幅Center-Surround差异计算结果局部迭代归一化后得到的图像

和饱和度分量

对其12幅Center-Surround差异计算结果

以及

进行Across-Scale融合，即

对于彩色图像C^t的四个方向分量

对其24幅Center-Surround差异计算结果进行Across-Scale融合，即

A5.对Across-Scale融合的结果

分别进行线性归一化使

中各个像素的值在0～255之间，记经过线性归一化后的

分别为A_⊥、A_H，S、A_θ。

②计算

其中，

和

分别为与彩色图像C^t同一个视点的前一时刻t-1时刻和后一时刻t+1时刻的彩色图像C^t-1和C^t+1的亮度分量，符号“∩”表示图像与运算，“|·|”表示取绝对值；对进行线性归一化使其各个像素的值在0～255之间；然后，对线性归一化后的

的水平和垂直方向均进行1/16下采样，得到运动视觉显著性图M。

③计算得到深度视觉显著性图B，具体步骤为：

C1.令

表示彩色图像C^t所对应的深度图像，本实施例所采用的深度图像如图4所示。采用Gabor方向滤波器对深度图像

进行滤波，得到深度图像

的0°、45°、90°和135°四个方向的方向分量，分别记为

C2.对步骤C1得到的每一个图像分量

R∈{I，0°，45°，90°，135°}，分别进行高斯金字塔运算，得到深度图像的各个图像分量不同层次的图像特征图

1≤n≤8，这里，

其中

为第n层高斯金字塔运算的结果；当n＝1时，

即为

C3.对于深度图像

的各个图像分量

其中，

和分别表示图像分量

上采样到第i层的图像特征图

的尺寸大小，然后将这2幅图像特征图对应像素点进行相减。

C4.对于深度图像

对其6幅Center-Surround差异计算结果

进行Across-Scale融合，即

其中

表示局部迭代归一化过程，符号

表示先将6幅Center-Surround差异计算结果局部迭代归一化后得到的图像均下采样到高斯金字塔中第4层图像的尺寸大小，即长宽均为输入的深度图像长宽的1/16，然后将经上述处理后的6幅Center-Surround差异计算结果相加；对于四个方向分量

和

对其24幅Center-Surround差异计算结果进行Across-Scale融合，即

C5.对Across-Scale融合的结果

分别进行线性归一化使

中各个像素的值在0～255之间，然后将线性归一化后的

进行线性加权融合，得到深度视觉显著性图B。

④将静态视觉的亮度显著性图A_I、颜色显著性图A_H，S和方向显著性图A_θ、运动视觉显著性图M、深度视觉显著性图B，按照VPV＝αA_I+βA_H，S+γA_θ+λM+ηB进行加权融合，得到输入的彩色图像C^t的视觉显著性图VPV；视觉显著性图中每个像素的像素值vpv_i为彩色图像C^t对应的第i个16×16宏块的视觉优先权值，表征人眼对该宏块的关注度；α、β、γ、λ和η分别是亮度特征、颜色特征、方向特征、运动特征和深度特征的权重系数，表征人眼对这些特征的敏感程度。本实施例中，α＝0.3、β＝0.1、γ＝0.1、λ＝0.4和η＝0.1。图5给出了按上述方法得到的图3所示的多视点视频Ballet的彩色图像的视觉显著性图，该视觉显著性图的长宽均为图3所示的Ballet的彩色图像以及图4所示的Ballet的深度图像的1/16。

这里，T＝α₁+β₁·QP，

是彩色图像C^t的第i个16×16宏块的视觉优先权值，vpv_max和vpv_min分别为彩色图像C^t的视觉显著性图VPV中的最大值和最小值。本实施例中，α₁＝6.27，β₁＝-0.10；α₂＝-2.75，β₂＝-52.10，γ₂＝18.3，ω₂＝4.17；α₃＝-0.05，β₃＝-6.57，γ₃＝3.21；μ＝0.08。

图6是采用本发明编码方法编码如图3所示的多视点视频Ballet时码率的节省情况，编码平台采用JMVM，HBP结构，GOP长度为12，编码Ballet序列61帧。如图6所示，在不同的编码量化参数下，与JMVM编码方法相比，采用本发明编码方法码率节省了5％～30％。对于重建图像的质量，这里采用基于结构相似度(Structural SIMilarity，SSIM)的图像质量评价方法，具体的指标为：1)原始图像与JMVM编码后重建图像的SSIM(原始图像，JMVM)；2)原始图像与本发明编码方法编码后重建图像的SSIM(原始图像，本发明)；3)JMVM编码后重建图像与本发明编码方法编码后重建图像的SSIM(JMVM，本发明)。图7、图8、图9、图10分别给出了Ballet序列在QP＝22、QP＝27、QP＝32、QP＝37时的上述3项指标的结果，从图中可以看出，本发明编码方法编码后重建图像与JMVM编码后重建图像的结构相似度达到98％以上，即与JMVM相比，本发明编码方法的重建图像质量几乎与JMVM编码重建图像相当，但是码率却节省了5～30％，因而本发明编码方法在保证图像质量的同时很大程度上提高了编码效率。