CN101895749B

CN101895749B - 一种快速视差估计和运动估计方法

Info

Publication number: CN101895749B
Application number: CN 201010217600
Authority: CN
Inventors: 郁梅; 姒越后; 蒋刚毅
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2010-06-29
Filing date: 2010-06-29
Publication date: 2012-06-27
Anticipated expiration: 2030-06-29
Also published as: CN101895749A

Abstract

本发明公开了一种快速视差估计和运动估计方法，利用了与当前宏块的边缘属性一致的相邻宏块与当前宏块同属同一对象的概率较大，因而其视差矢量或运动矢量也较为一致的特点，用当前宏块的已编码相邻宏块的视差矢量或运动矢量来预测当前宏块的视差矢量或运动矢量，在此基础上自适应地减少了多视点视频编码过程中视差估计和运动估计的搜索范围，从而达到了降低多视点视频编码的计算复杂度，提高多视点视频编码速度的目的；此外，本发明方法对运动剧烈的对象采用了精细搜索的策略，保证了编码后重建视频信号的质量。

Description

一种快速视差估计和运动估计方法

技术领域

本发明涉及一种多视点视频信号的编码技术，尤其是涉及一种快速视差估计和运动估计方法。

背景技术

多视点彩***是由处于空间不同位置的相机阵列拍摄同一场景得到的一组视频序列信号，是一种新型的具有立体感和交互操作功能的视频。多视点视频***能让用户自由地选择不同视角观看场景，可应用于自由视点电视、立体电视和三维远程医疗等正在兴起的媒体业务。与普通单通道视频信号相比，多视点彩***信号具有更大的信号量。为了有效存储、传输多视点彩***信号，并且在应用中实现视点间自由切换以及用户和***之间的交互操作，必须对多视点彩***信号进行高效的压缩，以提高多视点彩***信号的编码效率。

多视点彩***信号相关性除了存在于同一视点的不同时间域外，还存在于同一时刻的不同视点间，因此，多视点彩***信号的编码技术分别采用视差估计和运动估计来消除视点间的空间冗余和时间上的冗余。由于结合了视差估计和运动估计，多视点彩***信号的编码往往比单通道视频信号的编码具有更加复杂的预测编码结构，其编码算法的复杂度也远远大于单通道视频信号的编码算法的复杂度。

块匹配法是常用的一种进行视差估计和运动估计的方法，其基本思想是将当前编码帧分割成若干个块，并假定块内所有像素的视差矢量或运动矢量都是相同的，在参考帧中按一定的匹配准则寻找与当前编码帧中当前编码块最为相似的块，即率失真代价最小的最佳匹配块，从而在好的画面质量和码率之间获得平衡。视差估计是在不同视点的同一时刻的图像帧之间进行块匹配；而运动估计则是在同一视点的不同时刻的图像帧之间进行块匹配，因此视差估计和运动估计的过程大体相似。在多视点彩***信号的编码过程中，视差估计和运动估计通常占一个编码器总运算量的八成以上，其性能的优劣直接影响到整个多视点视频***的运行效率和多视点彩***信号的重构质量。在采用块匹配法进行视差估计和运动估计时，全搜索法虽然能够获得非常高的搜索精度，但是其巨大的运算量不利于软硬件的实现。

发明内容

本发明所要解决的技术问题是提供一种在保证搜索精度的同时，能够大幅度提高多视点视频信号的编码速度，且能够有效降低计算复杂度的快速视差估计和运动估计方法。

本发明解决上述技术问题所采用的技术方案为：一种快速视差估计和运动估计方法，将多视点视频预测编码结构中的所有帧分为D1类帧和D2类帧两类，其中，D1类帧包括多视点视频预测编码结构中的所有I帧和仅具有一个参考帧的P帧，对D1类帧中的各个帧进行编码时不采用快速视差估计和运动估计方法；D2类帧包括多视点视频预测编码结构中的所有具有多个参考帧的B帧，对D2类帧中的各个帧进行编码时采用以下步骤进行快速视差估计或运动估计：

①对于D2类帧，定义D2类帧中当前正在编码的帧为当前编码帧，定义当前编码帧中当前正在编码的宏块为当前宏块；

②从当前宏块的左相邻宏块、上相邻宏块、左上边相邻宏块和右上边相邻宏块这四个相邻宏块中选取出与当前宏块的边缘属性一致的相邻宏块，将这些选取出的相邻宏块组成一个可选预测宏块集，记为C ，C＝{MB|MB∈{MB_left，MB_up，MB_{up_left}，MB_{up_right}}且(E_MB＝E_current)}，其中，MB表示可选预测宏块集C中的可选预测宏块，MB_left表示当前宏块的左相邻宏块，MB_up表示当前宏块的上相邻宏块，MB_{up_left}表示当前宏块的左上边相邻宏块，MB_{up_right}表示当前宏块的右上边相邻宏块，E_MB表示可选预测宏块MB的边缘属性，E_current表示当前宏块的边缘属性；

③当对当前宏块进行视差估计时，将可选预测宏块集C中所有可选预测宏块的视差矢量的中值或均值作为当前宏块的预测视差矢量，记当前宏块的预测视差矢量为DV_P，然后根据当前宏块的预测视差矢量DV_P获取当前宏块的视差矢量，记为DV，再根据当前宏块的视差矢量DV获取当前宏块的最优视差矢量；具体包括以下步骤：

A1.将可选预测宏块集C中所有可选预测宏块的视差矢量的中值或均值作为当前宏块的预测视差矢量，记当前宏块的预测视差矢量为DV_P；

B1.根据当前宏块的预测视差矢量DV_P进行粗搜索，具体过程为：以当前宏块的预测视差矢量DV_P为搜索起点，再在当前编码帧的视点间参考帧中采用预设的第一搜索窗以菱形搜索法进行搜索，寻找具有最小率失真代价的视差矢量，将该寻找得到的视差矢量作为当前宏块的视差矢量，记为DV；

C1.判断当前宏块的视差矢量DV的水平分量或垂直分量是否大于3个整像素，如果是，则继续执行，否则，将当前宏块的视差矢量DV作为当前宏块的最优视差矢量，并结束对当前宏块的视差估计；

D1.根据当前宏块的视差矢量DV进行精细搜索，具体过程为：判断当前宏块的视差矢量DV的水平分量或垂直分量是否大于1个整像素，如果是，则以当前宏块的视差矢量DV为搜索起点，再在当前编码帧的视点间参考帧中采用预设的第二搜索窗以菱形搜索法进行搜索，寻找具有最小率失真代价的视差矢量，将该寻找得到的视差矢量作为当前宏块的最优视差矢量，并结束对当前宏块的视差估计，否则，以当前宏块的视差矢量DV为搜索中心，再在当前编码帧的视点间参考帧中对该搜索中心的八邻域范围内的8个整像素点进行搜索，寻找具有最小率失真代价的视差矢量，将该寻找得到的视差矢量作为当前宏块的最优视差矢量，并结束对当前宏块的视差估计；其中，预设的第二搜索窗大于预设的第一搜索窗；

当对当前宏块进行运动估计时，将可选预测宏块集C中所有可选预测宏块的运动矢量的中值或均值作为当前宏块的预测运动矢量，记当前宏块的预测运动矢量为MV_P，然后根据当前宏块的预测运动矢量MV_P获取当前宏块的运动矢量，记为MV，再根据当前宏块的运动矢量MV获取当前宏块的最优运动矢量；具体包括以下步骤：

A2.将可选预测宏块集C中所有可选预测宏块的运动矢量的中值或均值作为当前宏块的预测运动矢量，记当前宏块的预测运动矢量为MV_P；

B2.根据当前宏块的预测运动矢量MV_P进行粗搜索，具体过程为：以当前宏块的预测运动矢量MV_P为搜索起点，再在当前编码帧的时域参考帧中采用预设的第一搜索窗以菱形搜索法进行搜索，寻找具有最小率失真代价的运动矢量，将该寻找得到的运动矢量作为当前宏块的运动矢量，记为MV；

C2.判断当前宏块的运动矢量MV的水平分量或垂直分量是否大于3个整像素，如果是，则继续执行，否则，将当前宏块的运动矢量MV作为当前宏块的最优运动矢量，并结束对当前宏块的运动估计；

D2.根据当前宏块的运动矢量MV进行精细搜索，具体过程为：判断当前宏块的运动矢量MV的水平分量或垂直分量是否大于1个整像素，如果是，则以当前宏块的运动矢量MV为搜索起点，再在当前编码帧的时域参考帧中采用预设的第二搜索窗以菱形搜索法进行搜索，寻找具有最小率失真代价的运动矢量，将该寻找得到的运动矢量作为当前宏块的最优运动矢量，并结束对当前宏块的运动估计，否则，以当前宏块的运动矢量MV为搜索中心，再在当前编码帧的时域参考帧中对该搜索中心的八邻域范围内的8个整像素点进行搜索，寻找具有最小率失真代价的运动矢量，将该寻找得到的运动矢量作为当前宏块的最优运动矢量，并结束对当前宏块的运动估计；其中，预设的第二搜索窗大于预设的第一搜索窗。

所述的步骤②中边缘属性是指采用边缘检测方法对帧进行检测时，确定帧中各个宏块是否位于对象边缘区域，将宏块位于对象边缘区域或不位于对象边缘区域的特性称为边缘属性，当宏块位于对象边缘区域时其边缘属性为1，当宏块不位于对象边缘区域时其边缘属性为0。

所述的步骤③中预设的第一搜索窗为一个大小为(-8，+8)的搜索窗。

所述的步骤③中预设的第二搜索窗为一个大小为(-32，+32)的搜索窗。

与现有技术相比，本发明的优点在于利用了与当前宏块的边缘属性一致的相邻宏块与当前宏块同属同一对象的概率较大，因而其视差矢量或运动矢量也较为一致的特点，用当前宏块的已编码相邻宏块的视差矢量或运动矢量来预测当前宏块的视差矢量或运动矢量，在此基础上自适应地减少了多视点视频编码过程中视差估计和运动估计的搜索范围，从而达到了降低多视点视频编码的计算复杂度，提高多视点视频编码速度的目的；此外，本发明方法对运动剧烈的对象采用了精细搜索的策略，保证了编码后重建视频信号的质量。

附图说明

图1为分层B帧预测编码结构图；

图2为当前宏块及其相邻宏块的位置示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

将多视点视频预测编码结构中的所有帧分为D1类帧和D2类帧两类，其中，D1类帧包括多视点视频预测编码结构中的所有I帧和仅具有一个参考帧的P帧，对D1类帧中的各个帧进行编码时不采用快速视差估计和运动估计方法；D2类帧包括多视点视频预测编码结构中的所有具有多个参考帧的B帧。图1给出了一种典型的多视点视频预测编码结构，称为分层B帧预测编码结构。在图1中横轴代表视点(View)，纵轴代表时间(Time)，图1为一个由8个视点组成的GOP(Group of Pictures，图像组)长度为8的多视点视频预测编码结构，图1中有5个视点第T0时刻的5帧为D1类帧，即第S0视点第T0时刻的帧内编码帧I0帧，第S2、S4、S6和S7视点第T0时刻的只具有一个参考帧的帧间编码帧P0帧；T0～T7时刻各视点其余各帧均属于D2类帧，它们都具有多个参考帧，可以采用视差补偿预测也可以采用运动补偿预测。本发明提出的一种快速视差估计和运动估计方法适用于D2类帧，对D2类帧中的各个帧进行编码时采用以下步骤进行快速视差估计或运动估计：

①对于D2类帧，定义D2类帧中当前正在编码的帧为当前编码帧，定义当前编码帧中当前正在编码的宏块为当前宏块。

②从当前宏块的左相邻宏块、上相邻宏块、左上边相邻宏块和右上边相邻宏块这四个相邻宏块中选取出与当前宏块的边缘属性一致的相邻宏块，将这些选取出的相邻宏块组成一个可选预测宏块集，记为C，C＝{MB|MB∈{MB_left，MB_up，MB_{up_left}，MB_{up_right}}且(E_MB＝E_current)}，其中，MB表示可选预测宏块集C中的可选预测宏块，MB_left表示当前宏块的左相邻宏块，MB_up表示当前宏块的上相邻宏块，MB_{up_left}表示当前宏块的左上边相邻宏块，MB_{up_right}表示当前宏块的右上边相邻宏块，E_MB表示可选预测宏块MB的边缘属性，E_current表示当前宏块的边缘属性。

在此具体实施例中，当前宏块的左相邻宏块MB_left是指位于当前宏块的左侧且与当前宏块紧邻的宏块，当前宏块的上相邻宏块MB_up是指位于当前宏块的正上方且与当前宏块紧邻的宏块，当前宏块的左上边相邻宏块MB_{up_left}是指位于当前宏块的左上方且与当前宏块的左相邻宏块MB_left和当前宏块的上相邻宏块MB_up紧邻的宏块，当前宏块的右上边相邻宏块MB_{up_right}是指位于当前宏块的右上方且与当前宏块的上相邻宏块MB_up紧邻的宏块，图2给出了当前宏块及其左相邻宏块MB_left、上相邻宏块MB_up、左上边相邻宏块MB_{up_Pleft}和右上边相邻宏块MB_{up_right}的位置示意图。如果当前宏块与其相邻宏块的边缘属性一致，则当前宏块与该相邻宏块同属同一对象的可能性较大，可以利用该已完成编码的相邻宏块的视差矢量和运动矢量来估计当前宏块的视差矢量和运动矢量，因此将与当前宏块边缘属性一致的相邻宏块作为可选预测宏块。

在此具体实施例中，边缘属性是指采用边缘检测方法对帧进行检测时，确定帧中各个宏块是否位于对象边缘区域，将宏块位于对象边缘区域或不位于对象边缘区域的特性称为边缘属性，当宏块位于对象边缘区域时其边缘属性为1，当宏块不位于对象边缘区域时其边缘属性为0。在此，边缘检测方法可采用现有任意的边缘检测算法，在检测过程中，如果当前宏块的内部包含了对象边缘，则认为当前宏块位于对象边缘区域，否则认为当前宏块不位于对象边缘区域。

A1.将可选预测宏块集C中所有可选预测宏块的视差矢量的中值或均值作为当前宏块的预测视差矢量，记当前宏块的预测视差矢量为DV_P。

B1.根据当前宏块的预测视差矢量DV_P进行粗搜索，具体过程为：以当前宏块的预测视差矢量DV_P为搜索起点，再在当前编码帧的视点间参考帧中采用预设的第一搜索窗以现有的菱形搜索法进行搜索，寻找具有最小率失真代价的视差矢量，将该寻找得到的视差矢量作为当前宏块的视差矢量，记为DV。在此，预设的第一搜索窗采用一个较小的搜索窗，如采用一个大小为(-8，+8)的搜索窗。

C1.判断当前宏块的视差矢量DV的水平分量或垂直分量是否大于3个整像素，如果是，则认为当前宏块属于运动剧烈的对象区域，并继续执行，否则，将当前宏块的视差矢量DV作为当前宏块的最优视差矢量，并结束对当前宏块的视差估计。

D1.根据当前宏块的视差矢量DV进行精细搜索，具体过程为：判断当前宏块的视差矢量DV的水平分量或垂直分量是否大于1个整像素，如果是，则以当前宏块的视差矢量DV为搜索起点，再在当前编码帧的视点间参考帧中采用预设的第二搜索窗以现有的菱形搜索法进行搜索，寻找具有最小率失真代价的视差矢量，将该寻找得到的视差矢量作为当前宏块的最优视差矢量，并结束对当前宏块的视差估计，否则，以当前宏块的视差矢量DV为搜索中心，再在当前编码帧的视点间参考帧中对该搜索中心的八邻域范围内的8个整像素点进行搜索，寻找具有最小率失真代价的视差矢量，将该寻找得到的视差矢量作为当前宏块的最优视差矢量，并结束对当前宏块的视差估计；其中，预设的第二搜索窗大于预设的第一搜索窗，预设的第二搜索窗采用一个较大的搜索窗，如采用一个大小为(-32，+32)的搜索窗。

A2.将可选预测宏块集C中所有可选预测宏块的运动矢量的中值或均值作为当前宏块的预测运动矢量，记当前宏块的预测运动矢量为MV_P。

B2.根据当前宏块的预测运动矢量MV_P进行粗搜索，具体过程为：以当前宏块的预测运动矢量MV_P为搜索起点，再在当前编码帧的时域参考帧中采用预设的第一搜索窗以现有的菱形搜索法进行搜索，寻找具有最小率失真代价的运动矢量，将该寻找得到的运动矢量作为当前宏块的运动矢量，记为MV。在此，预设的第一搜索窗采用一个较小的搜索窗，如采用一个大小为(-8，+8)的搜索窗。

C2.判断当前宏块的运动矢量MV的水平分量或垂直分量是否大于3个整像素，如果是，则认为当前宏块属于运动剧烈的对象区域，并继续执行，否则，将当前宏块的运动矢量MV作为当前宏块的最优运动矢量，并结束对当前宏块的运动估计。

D2.根据当前宏块的运动矢量MV进行精细搜索，具体过程为：判断当前宏块的运动矢量MV的水平分量或垂直分量是否大于1个整像素，如果是，则以当前宏块的运动矢量MV为搜索起点，再在当前编码帧的时域参考帧中采用预设的第二搜索窗以现有的菱形搜索法进行搜索，寻找具有最小率失真代价的运动矢量，将该寻找得到的运动矢量作为当前宏块的最优运动矢量，并结束对当前宏块的运动估计，否则，以当前宏块的运动矢量MV为搜索中心，再在当前编码帧的时域参考帧中对该搜索中心的八邻域范围内的8个整像素点进行搜索，寻找具有最小率失真代价的运动矢量，将该寻找得到的运动矢量作为当前宏块的最优运动矢量，并结束对当前宏块的运动估计；其中，预设的第二搜索窗大于预设的第一搜索窗，预设的第二搜索窗采用一个较大的搜索窗，如采用一个大小为(-32，+32)的搜索窗。

在本发明方法中，对于多视点视频预测编码结构中的D1类帧，为确保其预测的准确性不采用本发明的快速运动估计或视差估计方法，而直接采用现有技术。

为了测试采用本发明的快速视差估计和运动估计方法进行多视点视频编码的有效性，采用了如表1所示的测试环境。在Intel Core2 Duo 3.0 GHz，3.25 GB内存的服务器上，对Microsoft提供的“Breakdancers”和“Ballet”测试序列，根据JVT提出的多视点视频公共的测试环境，测试了JMVM中采用全搜索的视差估计和运动估计方法及本发明方法进行编码的性能情况。

表2给出了采用JMVM平台对“Breakdancers”和“Ballet”测试序列进行编码时采用全搜索的视差估计和运动估计方法以及本发明方法对多视点视频编码的编码速度提升的情况。与采用全搜索的视差估计和运动估计方法相比，采用本发明方法的编码速度提高了20余倍，对其它多幅测试序列的测试结果表明采用本发明方法时的编码速度提高了15～30余倍。表3给出了采用全搜索的视差估计和运动估计方法和本发明方法时的率失真性能比较结果，从表3中可以看出，采用本发明方法的率失真性能和采用全搜索的视差估计和运动估计方法的率失真性能基本一样，即本发明方法保证了搜索精度。

表1测试环境

表2“Breakdancers”和“Ballet”测试序列采用JMVM中全搜索的运动估计和视差估计方法以及本发明方法进行多视点视频编码的编码速度提升情况

表3采用JMVM中全搜索的运动估计和视差估计方法和本发明方法的率失真性能比较

Claims

1.一种快速视差估计和运动估计方法，其特征在于将多视点视频预测编码结构中的所有帧分为D1类帧和D2类帧两类，其中，D1类帧包括多视点视频预测编码结构中的所有I帧和仅具有一个参考帧的P帧，对D1类帧中的各个帧进行编码时不采用快速视差估计和运动估计方法；D2类帧包括多视点视频预测编码结构中的所有具有多个参考帧的B帧，对D2类帧中的各个帧进行编码时采用以下步骤进行快速视差估计或运动估计：

②从当前宏块的左相邻宏块、上相邻宏块、左上边相邻宏块和右上边相邻宏块这四个相邻宏块中选取出与当前宏块的边缘属性一致的相邻宏块，将这些选取出的相邻宏块组成一个可选预测宏块集，记为C，C＝{MB|MB∈{MB_left，MB_up，MB_{up_left}，MB_{up_right}}且(E_MB＝E_current)}，其中，MB表示可选预测宏块集C中的可选预测宏块，MB_left表示当前宏块的左相邻宏块，MB_up表示当前宏块的上相邻宏块，MB_{up_left}表示当前宏块的左上边相邻宏块，MB_{up_right}表示当前宏块的右上边相邻宏块，E_MB表示可选预测宏块MB的边缘属性，E_current表示当前宏块的边缘属性；

C1.判断当前宏块的视差矢量DV的水平分量或垂直分量是否大于3个整像素，如果是，则继续执行步骤D1，否则，将当前宏块的视差矢量DV作为当前宏块的最优视差矢量，并结束对当前宏块的视差估计；

C2.判断当前宏块的运动矢量MV的水平分量或垂直分量是否大于3个整像素，如果是，则继续执行步骤D2，否则，将当前宏块的运动矢量MV作为当前宏块的最优运动矢量，并结束对当前宏块的运动估计；

2.根据权利要求1所述的一种快速视差估计和运动估计方法，其特征在于所述的步骤②中边缘属性是指采用边缘检测方法对帧进行检测时，确定帧中各个宏块是否位于对象边缘区域，将宏块位于对象边缘区域或不位于对象边缘区域的特性称为边缘属性，当宏块位于对象边缘区域时其边缘属性为1，当宏块不位于对象边缘区域时其边缘属性为0。

3.根据权利要求2所述的一种快速视差估计和运动估计方法，其特征在于所述的步骤③中预设的第一搜索窗为一个大小为(-8，+8)的搜索窗。

4.根据权利要求2所述的一种快速视差估计和运动估计方法，其特征在于所述的步骤③中预设的第二搜索窗为一个大小为(-32，+32)的搜索窗。