CN109547800A - 用于3d-hevc的简化高级残余预测 - Google Patents

用于3d-hevc的简化高级残余预测 Download PDF

Info

Publication number
CN109547800A
CN109547800A CN201811201284.5A CN201811201284A CN109547800A CN 109547800 A CN109547800 A CN 109547800A CN 201811201284 A CN201811201284 A CN 201811201284A CN 109547800 A CN109547800 A CN 109547800A
Authority
CN
China
Prior art keywords
block
arp
video
view
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811201284.5A
Other languages
English (en)
Other versions
CN109547800B (zh
Inventor
刘鸿彬
陈颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority to CN201811201284.5A priority Critical patent/CN109547800B/zh
Publication of CN109547800A publication Critical patent/CN109547800A/zh
Application granted granted Critical
Publication of CN109547800B publication Critical patent/CN109547800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及用于3D‑HEVC的简化高级残余预测。本发明描述用于3D视频译码的技术。具体而言,本发明涉及在3D‑HEVC中用于高级残余预测ARP的技术。根据本发明的一种技术,当执行经双向预测块的视图间ARP时,所述视频译码器可确定第一对应块的运动向量,作为针对第一预测方向执行ARP的一部分,且在针对第二预测方向执行ARP时再使用所述所确定的运动向量。根据另一技术,对于经双向预测块,视频译码器可针对块的色度分量仅在一个方向上应用ARP,而针对所述块的明度分量在两个方向上应用ARP。根据另一技术,视频译码器可基于块大小而选择性地将ARP应用于色度分量。这些简化以及本发明中包含的其它技术可减小总体译码复杂性。

Description

用于3D-HEVC的简化高级残余预测
分案申请的相关信息
本申请是国际申请日为2014年3月13日、国际申请号为PCT/CN2014/073353、发明名称为“用于3D-HEVC的简化高级残余预测”的PCT申请进入中国国家阶段申请号为201480077043.8的发明专利申请的分案申请。
技术领域
本发明涉及视频编码和解码。
背景技术
数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播***、无线广播***、个人数字助理(PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏机、蜂窝式或卫星无线电电话、视频电话会议装置及其类似物。数字视频装置实施视频压缩技术,例如通过MPEG-2、MPEG-4、ITU-T H.263、ITU-TH.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、目前正在开发的高效率视频译码(HEVC)标准及这类标准的扩展中描述的技术,以便更有效地发射、接收及存储数字视频信息。
前述标准中的一些标准的扩展(包含H.264/AVC)可提供用于进行多视图视频译码以便产生立体或三维(“3D”)视频的技术。确切地说,已经提议用于多视图译码的技术,以在AVC中与可缩放视频译码(SVC)标准(为H.264/AVC的可缩放扩展)和多视图视频译码(MVC)标准(已变为H.264/AVC的多视图扩展)一起使用。
通常,使用两个视图(例如,左视图和右视图)实现立体视频。左视图的图片可与右视图的图片基本上同时显示以实现三维视频效果。举例来说,用户可佩戴偏光被动式眼镜,其将左视图从右视图中过滤掉。替代地,可快速连续展示两个视图的图片,且用户可佩戴主动式眼镜,其以相同频率快速遮光左眼及右眼,但其中相位移位90度。
发明内容
一般来说,本发明描述用于3D视频译码的技术。确切地说,本发明涉及在3D-HEVC中用于高级残余预测(ARP)的技术。
在一个实例中,一种对视频数据进行译码的方法包含:确定使用高级残余预测(ARP)模式对第一视图的当前块进行译码,其中双向预测所述当前块;确定所述当前块的第一视差运动向量和第二视差运动向量;用所述第一视差运动向量在第二视图中定位所述当前块的第一对应块;用所述第二视差运动向量在第二视图中定位所述当前块的第二对应块;从所述当前块的所述第一对应块和所述当前块的所述第二对应块中的至少一者的运动信息确定运动向量;使用所述运动向量,识别所述第一视图中的所述当前块的参考块、所述第二视图中的所述第一对应块的参考块和所述第二视图中的所述第二对应块的参考块;基于所述第一对应块、所述当前块的所述参考块和所述第一对应块的所述参考块产生第一预测性块;以及基于所述第二对应块、所述当前块的所述参考块和所述第二对应块的所述参考块产生第二预测性块。
在另一实例中,一种对视频数据进行译码的方法包含:确定使用高级残余预测(ARP)模式对第一视图的当前块进行译码,其中双向预测所述当前块;对于所述当前块的明度块,针对第一预测方向执行ARP以确定所述明度块的第一预测性块;对于所述当前块的所述明度块,针对第二预测方向执行ARP以确定所述明度块的第二预测性块;以及对于所述当前块的色度块,针对所述第一预测方向或所述第二预测方向中的仅一者执行ARP以确定所述色度块的第一预测性块。
在另一实例中,一种对视频数据进行译码的方法包含:确定使用高级残余预测(ARP)模式对第一视图的当前块进行译码;对于所述当前块的明度块,执行ARP以确定所述明度块的预测性块;对于所述当前块的色度块,基于所述色度块的大小而确定是否执行所述色度块的ARP。
在另一实例中,一种计算机可读存储媒体在其上存储在执行时致使一或多个处理器执行所述方法或上述方法的组合的指令。
在另一实例中,一种用于对视频进行译码的装置包含经配置以执行以下操作的视频译码器:确定使用高级残余预测(ARP)模式对第一视图的当前块进行译码,其中双向预测所述当前块;确定所述当前块的第一视差运动向量和第二视差运动向量;用所述第一视差运动向量在第二视图中定位所述当前块的第一对应块;用所述第二视差运动向量在第二视图中定位所述当前块的第二对应块;从所述当前块的所述第一对应块和所述当前块的所述第二对应块中的至少一者的运动信息确定运动向量;使用所述运动向量来识别所述第一视图中的所述当前块的参考块、所述第二视图中的所述第一对应块的参考块和所述第二视图中的所述第二对应块的参考块;基于所述第一对应块、所述当前块的所述参考块和所述第一对应块的所述参考块产生第一预测性块;基于所述第二对应块、所述当前块的所述参考块和所述第二对应块的所述参考块产生第二预测性块。
在另一实例中,一种用于对视频进行译码的装置包含经配置以执行以下操作的视频译码器:确定使用高级残余预测(ARP)模式对第一视图的当前块进行译码,其中双向预测所述当前块;对于所述当前块的明度块,针对第一预测方向执行ARP以确定所述明度块的第一预测性块;对于所述当前块的所述明度块,针对第二预测方向执行ARP以确定所述明度块的第二预测性块;以及对于所述当前块的色度块,针对所述第一预测方向或所述第二预测方向中的仅一者执行ARP以确定所述色度块的第一预测性块。
在另一实例中,一种用于对视频进行译码的装置包含经配置以执行以下操作的视频译码器:确定使用高级残余预测(ARP)模式对第一视图的当前块进行译码;对于所述当前块的明度块,执行ARP以确定所述明度块的预测性块;以及对于所述当前块的色度块,基于所述色度块的大小而确定是否执行所述色度块的ARP。
在另一实例中,一种用于对视频数据进行译码的设备包含:用于确定使用高级残余预测(ARP)模式对第一视图的当前块进行译码的装置,其中双向预测所述当前块;用于确定所述当前块的第一视差运动向量和第二视差运动向量的装置;用于用所述第一视差运动向量在第二视图中定位所述当前块的第一对应块的装置;用于用所述第二视差运动向量在第二视图中定位所述当前块的第二对应块的装置;用于从所述当前块的所述第一对应块和所述当前块的所述第二对应块中的至少一者的运动信息确定运动向量的装置;用于使用所述运动向量,识别所述第一视图中的所述当前块的参考块、所述第二视图中的所述第一对应块的参考块和所述第二视图中的所述第二对应块的参考块的装置;用于基于所述第一对应块、所述当前块的所述参考块和所述第一对应块的所述参考块产生第一预测性块的装置;以及用于基于所述第二对应块、所述当前块的所述参考块和所述第二对应块的所述参考块产生第二预测性块的装置。
在另一实例中,一种用于对视频数据进行译码的设备包含:用于确定使用高级残余预测(ARP)模式对第一视图的当前块进行译码的装置,其中双向预测所述当前块;对于所述当前块的明度块,用于针对第一预测方向执行ARP以确定所述明度块的第一预测性块的装置;对于所述当前块的所述明度块,用于针对第二预测方向执行ARP以确定所述明度块的第二预测性块的装置;以及对于所述当前块的色度块,用于针对所述第一预测方向或所述第二预测方向中的仅一者执行ARP以确定所述色度块的第一预测性块的装置。
在另一实例中,一种用于对视频数据进行译码的设备包含:用于确定使用高级残余预测(ARP)模式对第一视图的当前块进行译码的装置;对于所述当前块的明度块,用于执行ARP以确定所述明度块的预测性块的装置;对于所述当前块的色度块,用于基于所述色度块的大小而确定是否执行所述色度块的ARP的装置。
在附图和以下描述中阐明一或多个实例的细节。其它特征、目标和优点将从所述描述和图式以及权利要求书而显而易见。
附图说明
图1为说明可使用本发明中描述的技术的实例视频编码和解码***的框图。
图2为说明实例多视图解码顺序的概念图。
图3为说明用于多视图译码的实例预测结构的概念图。
图4展示相对于译码单元的空间相邻块的实例。
图5展示在3D-HEVC中用于高级残余预测(ARP)的实例预测结构。
图6展示在多视图视频译码中在当前块、参考块及经运动补偿块之间的实例关系。
图7展示用于视图间残余数据的ARP的实例。
图8A展示块层级时间ARP的实例预测结构。
图8B展示块层级视图间ARP的实例预测结构。
图9展示用于子PU层级视图间运动预测的实例预测结构。
图10A展示子PU层级时间ARP的实例预测结构。
图10B展示子PU层级视图间ARP的实例预测结构。
图11展示在3D-HEVC中针对双向视图间ARP的参考块存取的实例。
图12展示在3D-HEVC中针对时间ARP和视图间ARP的实例参考块存取。
图13展示在双向视图间ARP中使用的单一时间运动向量的实例。
图14展示经配置以实施本发明中描述的技术的视频编码器的实例。
图15展示经配置以实施本发明中描述的技术的视频解码器的实例。
图16展示根据本发明的技术预测视频块的实例方法。
图17展示根据本发明的技术预测视频块的实例方法。
图18展示根据本发明的技术预测视频块的实例方法。
具体实施方式
本发明引入与用于3D-HEVC的高级残余预测(ARP)有关的技术。本发明的技术可由视频译码器(例如视频编码器或视频解码器)执行。在ARP中,视频译码器基于已经译码图像之间的差产生残余预测符。视频译码器接着将此残余预测符添加到原始预测性块以产生最终预测性块。包含残余预测符的最终预测性块潜在地为较好预测符,亦即,比原始预测符更接近地类似于正在预测的块。
通常存在两种类型的ARP,在本发明中称为时间ARP和视图间ARP。在时间ARP中,对于第一视图中的当前块,视频译码器使用当前块的视差向量将对应块定位在第二视图中。在本发明中,第二视图中的此对应块将被称为基础块。使用当前块的时间运动向量,视频译码器将当前块的参考块定位在第一视图的不同图片中。在本发明中,此块被称为当前参考块。使用用以识别当前参考块的相同时间运动向量,视频译码器将基础块的参考块定位在第二视图的图片中。在本发明中,此块将被称为参考基础块。基础块与基础参考块之间的差可经计算作为残余预测符。视频译码器接着将残余预测符(其可能具有加权因子)添加到当前参考块以确定最终预测符。
在视图间ARP中,对于第一视图中的当前块,视频译码器使用当前块的视差运动向量将对应块定位在第二视图中。使用基础块的时间运动向量,视频译码器将基础块的参考基础块定位在第二视图的不同图片中。使用用于识别基础参考块的同一时间运动向量,视频译码器识别第一视图的图片中的当前块的当前参考块。视频译码器计算当前参考块与基础参考块之间的差且将所计算的差用作残余预测符。视频译码器接着将此残余预测符(其可能具有加权因子)添加到基础块以确定最终预测符。
当视频译码器使用ARP对经双向预测块进行译码时,视频译码器必须评估针对两个预测方向的额外参考块,从而增加总体复杂性。当视频译码器使用ARP对块进行译码时,ARP可用于对所述块的色度分量和所述块的明度分量两者进行译码,从而进一步增加总体复杂性。本发明引入对已知ARP技术的若干潜在简化。在一个实例中,根据本发明的技术,当执行经双向预测块的视图间ARP时,视频译码器可确定第一对应块的运动向量,作为针对第一预测方向执行ARP的一部分,且在针对第二预测方向执行ARP时再使用所述所确定的运动向量。根据另一实例,对于经双向预测块,视频译码器可针对块的色度分量仅在一个方向上应用ARP,而针对所述块的明度分量在两个方向上应用ARP。根据另一实例,视频译码器可基于块大小而选择性地将ARP应用于色度分量。这些简化以及本发明中包含的其它技术可减小总体译码复杂性。
图1为说明可经配置以执行本发明中描述的ARP技术的实例视频编码和解码***10的框图。如在图1中所示,***10包含源装置12,其产生稍后将由目的地装置14解码的经编码视频数据。源装置12和目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”平板计算机、电视机、相机、显示装置、数字媒体播放器、视频游戏机、视频流式传输装置或类似者。在一些情况下,可装备源装置12和目的地装置14以用于无线通信。
***10可根据不同视频译码标准、专属标准或多视图译码的任何其它方式操作。以下描述视频译码标准的几个实例,且不应被视为限制性的。视频译码标准包含ITU-TH.261、ISO/IEC MPEG-1视觉、ITU-T H.262或ISO/IEC MPEG-2视觉、ITU-T H.263、ISO/IECMPEG-4视觉和ITU-T H.264(也被称为ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。MVC的最新联合草案描述于“用于通用视听服务的高级视频译码(Advanced video coding for generic audiovisual services)”(ITU-T建议H.264,2010年3月)中,其全部内容以引用的方式并入本文中。MVC的另一联合草案描述于“用于通用视听服务的高级视频译码(Advanced video coding for generic audiovisualservices)”(ITU-T建议H.264,2011年6月)中,其全部内容以引入的方式并入本文中。一些额外视频译码标准包含基于AVC的MVC+D和3D-AVC。另外,ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)已开发出新视频译码标准,即,高效率视频译码(HEVC)。
仅出于说明的目的,以根据例如3D-AVC的H.264标准的实例来描述本发明中描述的技术。然而,本发明中描述的技术不应被视为限于这些实例性标准,且可扩展到用于多视图译码或3D视频译码(例如,3D-HEVC)的其它视频译码标准,或可扩展到与不一定基于特定视频译码标准的多视图译码或3D视频译码相关的技术。举例来说,本发明中描述的技术由用于多视图译码的视频编码器/解码器(编解码器)实施,其中多视图译码包含两个或两个以上视图的译码。
目的地装置14可经由链路16接收待解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,链路16可包括使得源装置12能够实时地将经编码视频数据直接传输到目的地装置14的通信媒体。可根据通信标准(例如,无线通信协议)调制经编码视频数据,并将其传输到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于分组的网络(例如,局域网、广域网或全局网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。
替代地,可将经编码数据从输出接口22输出到存储装置34。类似地,可通过输入接口从存储装置34存取经编码数据。存储装置34可以包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中,存储装置34可对应于文件服务器或可保持源装置12所产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置34存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。这可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置34的传输可为流式传输、下载传输或两者的组合。
本发明的用于ARP的技术未必限于无线应用或设置。所述技术可应用于视频译码以支持多种多媒体应用中的任一者,例如空中电视广播、有线电视发射、***发射、流式视频传输(例如,经由因特网)、编码数字视频以用于存储于数据存储媒体上、解码存储于数据存储媒体上的数字视频,或其它应用。在一些实例中,***10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频播放、视频广播和/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。如下文将更详细地阐释,视频编码器20可经配置以执行本发明中描述的ARP技术。在一些情况下,输出接口22可包含调制器/解调器(调制解调器)和/或发射器。在源装置12中,视频源18可包含例如视频俘获装置(例如,摄像机)、含有先前俘获的视频的视频存档、用以从视频内容提供者接收视频的视频馈入接口及/或用于产生计算机图形数据作为源视频的计算机图形***,或这类源的组合等源。作为一个实例,如果视频源18为摄像机,那么源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而,本发明中所描述的技术一般来说可适用于视频译码,且可应用于无线和/或有线应用。
可由视频编码器20来编码所俘获视频、经预先俘获的视频或计算机产生的视频。经编码视频数据可经由源装置12的输出接口22直接传输到目的地装置14。经编码视频数据也可(或替代地)存储到存储装置34上以供稍后由目的地装置14或其它装置存取以用于解码和/或播放。
目的地装置14包含输入接口28、视频解码器30和显示装置32。如下文将更详细地阐释,视频解码器30可经配置以执行本发明中描述的ARP技术。在一些情况下,输入接口28可包含接收器和/或调制解调器。目的地装置14的输入接口28经由链路16接收经编码视频数据。经由链路16传达或在存储装置34上提供的经编码视频数据可包含视频编码器20所产生的多种语法元素,以供视频解码器(例如视频解码器30)用于解码视频数据。这类语法元素可与在通信媒体上传输、存储于存储媒体上或存储在文件服务器上的经编码视频数据包含在一起。
显示装置32可与目的地装置14集成在一起,或在目的地装置14外部。在一些实例中,目的地装置14可包含集成显示装置,且还经配置以与外部显示装置介接。在其它实例中,目的地装置14可为显示装置。一般来说,显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一者,例如液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
尽管图1中未展示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器和解码器集成,且可包含适当MUX-DEMUX单元或其它硬件和软件,以处置对共同数据流或单独数据流中的音频和视频两者的编码。在一些实例中,如果适用的话,那么MUX-DEMUX单元可以符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
视频编码器20和视频解码器30各自可实施为多种合适的编码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。举例来说,可从设备或装置的角度描述本发明中描述的技术。作为一个实例,所述设备或装置可包含视频解码器30(例如,作为无线通信装置的一部分的目的地装置14),且视频解码器30可包含经配置以实施本发明中描述的技术(例如,根据本发明中描述的技术解码视频数据)的一或多个处理器。作为另一实例,所述设备或装置可包含包括视频解码器30的微处理器或集成电路(IC),且所述微处理器或IC可为目的地装置14或另一种类型的装置的一部分。相同情况可应用于视频编码器20(即,如源装置12和/或微控制器或IC的设备或装置包含视频编码器20,其中视频编码器20经配置以根据本发明中描述的技术编码视频数据)。
当部分地在软件中实施所述技术时,装置可将用于软件的指令存储在合适的非暂时性计算机可读媒体中并使用一或多个处理器在硬件中执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(编解码器)的一部分。
视频序列通常包含来自视图的一系列视频图片。图片群组(GOP)通常包括一系列的一或多个视频图片。GOP可包含GOP的标头、GOP的一或多个图片的标头或其它地方中的语法数据,其描述GOP中包含的图片的数目。每一图片可包含图片语法数据,其描述用于相应图片的编码模式。视频编码器20通常对个别视频图片内的视频块进行操作以便编码视频数据。视频块可对应于宏块、宏块的分区和可能地分区的子块,如在H.264标准中所定义。视频块可具有固定或变化的大小,并且根据指定译码标准可在大小上有所不同。每一视频图片可包含多个切片。每一切片可包含多个块。
作为实例,ITU-T H.264标准支持各种块大小的帧内预测(例如用于明度分量的16乘16、8乘8或4乘4及用于色度分量的8×8),以及各种块大小的帧间预测,例如针对明度分量的16×16、16×8、8×16、8×8、8×4、4×8及4×4及针对色度分量的对应的经按比例缩放的大小。在本发明中,“N×N”及“N乘N”可互换地使用以指代块在垂直和水平尺寸方面的像素尺寸(例如,16×16像素或16乘16像素)。大体来说,16×16块将在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样,N×N块大体上在垂直方向上具有N个像素,并且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可布置成行和列。此外,块未必需要在水平方向上与在垂直方向上具有相同数目个像素。举例来说,块可包括N×M个像素,其中M未必等于N。
当块经帧内模式编码(例如,经帧内预测)时,所述块可包含描述块的帧内预测模式的数据。作为另一实例,当块经帧间模式编码(例如,经帧间预测)时,所述块可包含界定块的运动向量的信息。此运动向量是关于同一视图中的参考图片(例如,时间运动向量),或关于另一视图中的参考图片(例如,视差运动向量)。定义块的运动向量的数据描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)。另外,当经帧间预测时,所述块可包含参考索引信息,例如运动向量所指向的参考图片和/或运动向量的参考图片列表(例如,RefPicList0或RefPicList1)。
在H.264标准中,在帧内预测性或帧间预测性译码后,视频编码器20计算宏块的残余数据。残余数据可对应于未经编码图片的像素与H.264中的宏块的预测值之间的像素差。
在一些实例中,在进行任何变换以产生变换系数之后,视频编码器20执行变换系数的量化。量化大体是指对变换系数进行量化以可能地减少用以表示系数的数据的量,从而提供进一步压缩的过程。量化过程减少与一些或全部系数相关联的位深度。举例来说,n位值在量化期间被下舍入到m位值,其中n大于m。
在一些实例中,视频编码器20使用预定义的扫描次序扫描经量化变换系数以产生可经熵编码的串行化向量。在其它实例中,视频编码器20执行自适应扫描。在一些实例中,在扫描经量化变换系数以形成一维向量之后,视频编码器20根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法(作为几个实例)对所述一维向量进行熵编码。视频编码器20还对与经编码视频数据相关联的语法元素进行熵编码以供视频解码器30在解码视频数据时使用。
为了执行CABAC,视频编码器20可向待传输的符号指派上下文模型内的上下文。上下文可涉及(例如)符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可选择用于待传输的符号的可变长度码。VLC中的码字可经构建以使得相对较短码对应于较大可能的符号,而较长码对应于较小可能的符号。以此方式,使用VLC与例如针对待传输的每一符号使用等长度码字相比可实现位节省。概率确定可基于指派给符号的上下文。
视频解码器30实施视频编码器20的技术的逆技术。举例来说,视频解码器30解码经编码视频位流且通过逆量化和逆变换确定残余块。视频解码器30将残余块与先前经解码图片的块进行求和以确定图片内的块的像素值。
本发明中描述的某些技术可由视频编码器20和视频解码器30两者执行。作为一个实例,视频编码器20可执行ARP,作为确定如何编码视频数据块的一部分,且/或可执行ARP,作为视频编码器中解码环的一部分。视频解码器30可执行与视频编码器20所执行的相同的ARP技术,作为解码视频块的一部分。本发明有时可涉及视频解码器30执行本发明中描述的某些ARP技术。然而,应理解,除非另外说明,否则这类技术也可由视频编码器20执行。
如上文所描述,本发明中描述的技术是针对3D视频译码。为了更好地理解所述技术,以下描述一些H.264/AVC译码技术、从H.264/MVC扩展和高效率视频译码(HEVC)标准的角度的多视图视频译码以及3D-AVC技术。
对于H.264/高级视频译码(AVC),对宏块实施视频编码或解码(例如,译码),其中宏块表示经帧间预测或经帧内预测(即,经帧间预测编码或解码,或者经帧内预测编码或解码)的帧的一部分。举例来说,在H.264/AVC中,每一帧间宏块(MB)(例如,经帧间预测宏块)可以四个不同方式分割:一个16×16MB分区,两个16×8MB分区,两个8×16MB分区,或四个8×8MB分区。一个MB中的不同MB分区可具有针对每一方向的不同参考索引值(即,RefPicList0或RefPicList1)。当MB未分割成多个(1个以上)MB分区时,其在每一方向上针对整个MB分区仅具有一个运动向量。
作为视频译码(编码或解码)的一部分,视频译码器20/30可经配置以构建一个或两个参考图片列表,称为RefPicList0和RefPicList1。一或多个参考图片列表识别可用以对帧或切片的宏块进行帧间预测的参考图片。举例来说,视频编码器20可用信号表示参考索引和参考图片列表识别符。视频解码器30可接收参考索引和参考图片列表识别符,且根据所述参考索引和参考图片列表识别符确定将用于对当前宏块进行帧间预测解码的参考图片。
当MB分割成四个8×8MB分区时,每一8×8MB分区可进一步分割成子块。存在用以从8×8MB分区得到子块的四种不同方式:一个8×8子块,两个8×4子块,两个4×8子块,或四个4×4子块。每一子块可具有在每一方向上的不同运动向量,但针对每一方向共享同一参考图片索引。将8×8MB分区分割成子块的方式称为子块分割。
本发明将大体上使用术语块来指代任何视频数据块。举例来说,在H.264译码及其扩展的上下文中,块可指代宏块、宏块分区、子块或任何其它类型的块中的任一者。在HEVC及其扩展的上下文中,块可指代PU、TU、CU或任何其它类型的块中的任一者。如本发明中所使用的子块大体上指代较大块的任一部分。子块还可自身简称为块。
对于多视图视频译码,存在多个不同视频译码标准。为了避免混淆,当本发明一般地描述多视图视频译码时,本发明使用短语“多视图视频译码”。一般来说,在多视图视频译码中,存在基础视图和一或多个非基础或相依视图。基础视图可在不参考相依视图中的任一者的情况下完全解码(即,对基础视图仅以时间运动向量进行帧间预测)。这允许未经配置以用于多视图视频译码的编解码器仍接收可完全解码的至少一个视图(即,可提取出基础视图且丢弃其它视图,从而允许未经配置以用于多视图视频译码的解码器仍解码视频内容,但无3D体验)。所述一或多个相依视图可相对于基础视图或相对于另一相依视图(即,视差补偿预测)或相对于同一视图中的其它图片(即,运动补偿预测)而经帧间预测。
鉴于一般使用“多视图视频译码”,首字母缩写MVC与H.264/AVC的扩展相关联。因此,当本发明使用首字母缩写MVC时,本发明具体地参考H.264/AVC视频译码标准的扩展。H.264/AVC的MVC扩展除时间运动向量之外还依赖于视差运动向量作为另一种类型的运动向量。JCT-3V和MPEG也已开发出称为MVC加深度(MVC+D)的另一视频译码标准。MVC+D应用与用于纹理和深度两者的MVC的那些工具相同的低层级译码工具,其中深度的解码独立于纹理的解码且反之亦然。举例来说,在MVC中,帧仅由一个视图分量表示,所述视图分量称为纹理视图分量或简称为纹理。在MVC+D中,存在两个视图分量:纹理视图分量和深度视图分量,或简称为纹理和深度。举例来说,在MVC+D中,每一视图包含纹理视图和深度视图,其中视图包含多个视图分量,纹理视图包含多个纹理视图分量,且深度视图包含多个深度视图分量。
每一纹理视图分量与深度视图分量相关联以形成视图的视图分量。深度视图分量表示纹理视图分量中的对象的相对深度。在MVC+D中,深度视图分量和纹理视图分量是可单独解码的。举例来说,视频解码器30可实施MVC编解码器的两个例子,其中第一编解码器解码纹理视图分量,且第二编解码器解码深度视图分量。这两个编解码器可独立于彼此而执行,因为纹理视图分量和深度视图分量单独地经编码。
在MVC+D中,深度视图分量总是紧跟在相关联(例如,对应)的纹理视图分量之后。以此方式,MVC+D支持纹理优先译码,其中纹理视图分量是在深度视图分量之前经解码。
纹理视图分量和其相关联(例如,对应)的深度视图分量可包含相同图片次序计数(POC)值和view_id(即,纹理视图分量和其相关联深度视图分量的POC值和view_id是相同的)。POC值指示纹理视图分量的显示次序,且view_id指示纹理视图分量和深度视图分量所属于的视图。
图2展示典型MVC解码次序(即,位流次序)。解码次序布置被称作时间优先译码。应注意,存取单元的解码次序可不同于输出或显示次序。在图2中,S0到S7各自是指多视图视频的不同视图。T0到T8各自表示一个输出时间例项。存取单元可包含针对一个输出时间例项的所有视图的经译码图片。举例来说,第一存取单元可包含针对时间例项T0的所有视图S0到S7,第二存取单元可包含针对时间例项T1的所有视图S0到S7,等。
出于简洁目的,本发明可使用以下定义:
视图分量:单一存取单元中的视图的经译码表示。当视图包含经译码纹理和深度表示两者时,视图分量可包含纹理视图分量和深度视图分量。
纹理视图分量:单一存取单元中的视图的纹理的经译码表示。
深度视图分量:单一存取单元中的视图的深度的经译码表示。
如上文所论述,在本发明的上下文中,视图分量、纹理视图分量和深度视图分量可总体上被称作层。在图2中,所述视图中的每一者包含图片集。举例来说,视图S0包含图片集0、8、16、24、32、40、48、56及64,视图S1包含图片集1、9、17、25、33、41、49、57及65,等。每一集包含两个图片:一个图片称为纹理视图分量,且另一图片称为深度视图分量。视图的图片集内的纹理视图分量和深度视图分量可被视为对应于彼此。举例来说,视图的图片集内的纹理视图分量被视为对应于所述视图的所述图片集内的深度视图分量,且反之亦然(即,深度视图分量对应于其在所述集中的纹理视图分量,且反之亦然)。如本发明中所使用,对应于深度视图分量的纹理视图分量可被视为纹理视图分量,且深度视图分量为单一存取单元的同一视图的一部分。
纹理视图分量包含所显示的实际图像内容。举例来说,纹理视图分量可包含明度(Y)和色度(Cb和Cr)分量。深度视图分量可指示其对应纹理视图分量中的像素的相对深度。作为一个实例类比,深度视图分量就像仅包含明度值的灰度级图像。换句话说,深度视图分量可不传达任何图像内容,而是提供纹理视图分量中的像素的相对深度的量度。
举例来说,深度视图分量中的纯白色像素指示在对应纹理视图分量中其对应的一或多个像素较接近于观察者的视角,且深度视图分量中的纯黑色像素指示在对应纹理视图分量中其对应的一或多个像素距观察者的视角较远。黑色与白色之间的各种灰度指示不同深度水平。举例来说,深度视图分量中的极高灰度的像素指示在纹理视图分量中其对应的像素比深度视图分量中的轻微灰度的像素更远。由于仅需要灰度级来识别像素的深度,因此深度视图分量不需要包含色度分量,这是因为深度视图分量的色彩值可能不用于任何目的。以上阐释预期为出于使深度图像与纹理图像相关的目的的类比。深度图像中的深度值并不实际上表示灰度,而是实际上表示8位或其它位大小的深度值。
仅使用明度值(例如,强度值)来识别深度的深度视图分量是出于说明的目的而提供,且不应被视为限制性。在其它实例中,可使用任何技术来指示纹理视图分量中的像素的相对深度。
图3展示用于多视图视频译码的典型MVC预测结构(包含每一视图内的图片间预测和视图之间的视图间预测两者)。预测方向由箭头指示,箭头指向的对象使用箭头出发的对象作为预测参考。在MVC中,视差运动补偿支持视图间预测,所述视差运动补偿使用H.264/AVC运动补偿的语法,但允许将不同视图中的图片用作参考图片。
在图3的实例中,说明八个视图(具有视图ID“S0”到“S7”),且对于每一视图说明十二个时间位置(“T0”到“T11”)。也就是说,图3中的每一行对应于视图,而每一列指示时间位置。
尽管MVC具有可由H.264/AVC解码器解码的所谓的基础视图,且立体视图对也可由MVC支持,但MVC的优势在于,其可支持使用两个以上视图作为3D视频输入且解码通过多个视图表示的此3D视频的实例。具有MVC解码器的客户端的显现器(renderer)可期望具有多个视图的3D视频内容。
在每一行与每一列的交叉点处指示图3中的图片。H.264/AVC标准可使用术语帧来表示视频的一部分。本发明可互换地使用术语图片与帧。
使用包含字母的块来说明图3中的图片,字母指定对应图片是经帧内译码(即,I图片),还是在一个方向上经帧间译码(即,作为P图片)或在多个方向上经帧间译码(即,作为B图片)。大体来说,预测由箭头指示,其中箭头指向的图片将箭头出发的图片用于预测参考。举例来说,时间位置T0处的视图S2的P图片是从时间位置T0处的视图S0的I图片预测的。
如同单一视图视频编码,可相对于不同时间位置处的图片预测性地编码多视图视频译码视频序列的图片。举例来说,时间位置T1处的视图S0的b图片具有从时间位置T0处的视图S0的I图片指向其的箭头,从而指示所述b图片是从所述I图片预测的。然而,另外,在多视图视频编码的上下文下,图片可经视图间预测。也就是说,视图分量可将其它视图中的视图分量用于参考。举例来说,在MVC中,如同另一视图中的视图分量为帧间预测参考般实现视图间预测。潜在视图间参考在序列参数集(SPS)MVC扩展中用信号通知且可通过参考图片列表构建过程加以修改,所述参考图片列表构建过程实现帧间预测或视图间预测参考的灵活排序。视图间预测也是包含3D-HEVC(多视图加上深度)的所提议HEVC多视图扩展的特征。
图3提供视图间预测的各种实例。在图3的实例中,视图S1的图片说明为是从视图S1的不同时间位置处的图片经预测,且是从相同时间位置处的视图S0和S2的图片经视图间预测。举例来说,时间位置T1处的视图S1的b图片是从时间位置T0和T2处的视图S1的B图片中的每一者以及时间位置T1处的视图S0和S2的b图片预测。
在一些实例中,图3可被视为说明纹理视图分量。举例来说,图2中所说明的I图片、P图片、B图片和b图片可被视为视图中的每一者的纹理视图分量。根据本发明中描述的技术,对于图3中所说明的纹理视图分量中的每一者,存在对应深度视图分量。在一些实例中,可以类似于图3中针对对应纹理视图分量所说明的方式预测深度视图分量。
两个视图的译码也可由MVC支持。MVC的优势中的一者为,MVC编码器可将两个以上视图当作3D视频输入,且MVC解码器可解码此多视图表示。因而,具有MVC解码器的任何显现器可解码具有两个以上视图的3D视频内容。
如上文所论述,在MVC中,允许在相同存取单元中(在一些情况下,意味着具有相同时间例项)的图片当中进行视图间预测。当对非基础视图中的一者中的图片进行译码时,如果图片处于不同视图中但在相同时间例项内,那么可将所述图片添加到参考图片列表中。可将视图间预测参考图片放置在参考图片列表的任何位置中,就像任何帧间预测参考图片一样。如图3中所展示,视图分量可出于参考目的使用其它视图中的视图分量。在MVC中,如同另一视图中的视图分量为帧间预测参考般实现视图间预测。
在MVC中,允许在相同存取单元(即,具有相同时间例项)中的图片当中进行视图间预测。当对非基础视图中的一者中的图片进行译码时,如果图片处于不同视图中但在相同时间例项内,那么可将所述图片添加到参考图片列表中。可将视图间预测参考图片放置在参考图片列表的任何位置中,就像任何帧间预测参考图片一样。
如图3中所展示,视图分量可出于参考目的使用其它视图中的视图分量。此情况被称为视图间预测。在MVC中,如同另一视图中的视图分量为帧间预测参考般实现视图间预测。
在多视图视频译码的上下文中,存在两种类别的运动向量,一种是指向时间参考图片的正常运动向量。对应的时间帧间预测是运动补偿预测(MCP)。另一类型的运动向量是指向不同视图中的图片(即,视图间参考图片)的视差运动向量。对应的帧间预测是视差补偿预测(DCP)。
视频解码器30可使用多个HEVC帧间译码模式解码视频。在HEVC标准中,对于预测单元(PU)存在两个帧间预测模式,分别称为合并(跳过被视为合并的特殊状况)和高级运动向量预测(AMVP)模式。在AMVP或合并模式中,视频解码器30维持用于多个运动向量预测符的运动向量(MV)候选者列表。可通过从MV候选者列表获取一个候选者来产生当前PU的一或多个运动向量,以及合併模式中的参考索引。
举例来说,MV候选者列表含有针对合并模式的多达五个候选者和针对AMVP模式的仅两个候选者。合并候选者可含有运动信息集,例如对应于两个参考图像清单(列表0和列表1)的运动向量和参考索引。如果合并候选者经合并索引识别,那么确定用于当前块的预测的参考图片以及相关联的运动向量。然而,在AMVP模式下,对于自列表0或列表1起的每一潜在预测方向,需要将参考索引连同对MV候选者列表的MVP索引一起明确地用信号表示,这是因为AMVP候选者仅含有运动向量。在AMVP模式中,另外用信号表示所选运动向量与对应于MVP索引的运动向量预测符之间的运动向量差。如可从上文看出,合并候选者对应于整个运动信息集,而AMVP候选者仅含有用于特定预测方向的一个运动向量和参考索引。
如上文所介绍,视频解码器30可解码根据基于HEVC的3D视频译码标准经译码的视频。目前,VCEG和MPEG的3D视频译码联合合作小组(JCT-3C)正在开发基于HEVC的3DV标准,其标准化努力的一部分包含基于HEVC的多视图视频编解码器(MV-HEVC)的标准化和用于基于HEVC的3D视频译码(3D-HEVC)的另一部分。对于3D-HEVC,可包含且支持用于纹理和深度视图两者的新译码工具,包含在译码单元/预测单元层级中的那些工具。3D-HEVC的最新软件3D-HTM可从以下链接下载:
[3D-HTM版本9.0r1]:https://hevc.hhi.fraunhofer.de/svn/svn_3DVCSoftware/tags/HTM-9.0r1/
将为可用的最新参考软件描述如下:
张丽(Li Zhang)、格哈德·泰什(Gerhard Tech)、科里茨多夫韦格纳(KrzysztofWegner)、叶世勋(Sehoon Yea)的“3D-HEVC和MV-HEVC的测试模型6(Test Model 6 of 3D-HEVC and MV-HEVC)”,JCT3V-F1005,Joint Collaborative Team on 3D Video CodingExtension Development of ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第六次会议:日内瓦,2013年11月。其可从以下链接下载:
http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=1636
可用的3D-HEVC最新工作草案如下:
格哈德泰什(Gerhard Tech)、科里茨多夫韦格纳(Krzysztof Wegner)、陈英(YingChen)、叶世勋(Sehoon Yea)的“3D-HEVC草案文本2(3D-HEVC Draft Text 2)”,JCT3V-F1001,ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第六次会议:日内瓦,2013年11月。其可从以下链接下载:
http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/6_Geneva/wg11/JCT3V-F1001-v4.zip
作为根据HEVC标准解码视频的一部分,视频解码器30可经配置以执行基于相邻块的视差向量导出(NBDV)。NBDV是在3D-HEVC中针对全部视图使用纹理优先译码次序的视差向量导出方法。在当前3D-HEVC设计中,通过从参考视图的深度图检索深度数据,可进一步优化从NBDV导出的视差向量。
视频解码器30可将视差向量(DV)用作两个视图之间的位移的估计量。因为相邻块在视频译码中几乎共享相同的运动/视差信息,所以当前块可使用相邻块中的运动向量信息作为良好预测符。遵循此想法,NBDV使用相邻视差信息用于估计不同视图中的视差向量。
作为执行NBDV的一部分,首先定义数个空间和时间相邻块。视频解码器30接着可按由当前块与候选块之间的相关性的优先级所确定的经预定义次序检查所述空间和时间相邻块中的每一者。一旦在候选者中找到视差运动向量(即,指向视图间参考图片的运动向量),便将所述视差运动向量转换为视差向量,且还传回相关联视图次序索引。使用两组相邻块。一组是来自空间相邻块,且另一组是来自时间相邻块。
3D-HEVC首先采用在JCT3V-A0097中所提议的NBDV方法。隐式视差向量与简化NBDV一起包含在JCTVC-A0126中。另外,在JCT3V-B0047中,通过移除存储在经解码图片缓冲器中的隐式视差向量来进一步简化NBDV,而且还改进针对RAP图片选择的译码增益。以下文献描述3D-HEVC和NDBV的方面。
●JCT3V-A0097:3D-CE5.h:视差向量产生结果,张丽(L.Zhang)、陈英(Y.Chen)、M.Karczewicz(高通)
●JCT3V-A0126:3D-CE5.h:用于基于HEVC的3D视频译码的视差向量导出的简化,J.Sung、M.Koo、叶世勋(S.Yea)(LG)
●JCT3V-B0047:3D-CE5.h相关:视差向量导出的改进,J.Kang、陈英(Y.Chen)、张丽(L.Zhang)、M.Karczewicz(高通)
●JCT3V-D0181:CE2:在3D-HEVC中基于CU的视差向量导出,J.Kang、陈英(Y.Chen)、张丽(L.Zhang)、M.Karczewicz(高通)
图4展示相对于一个译码单元的空间运动向量相邻者的实例。在NBDV的一些实施方案中,五个空间相邻块用于视差向量导出。其为覆盖当前预测单元(PU)的译码单元(CU)的左下方块、左块、右上方块、上方块和左上方块,如由A0、A1、B0、B1或B2所指示,如在图4:相对于一个译码单元的空间运动向量相邻者中所展示。应注意,其与在HEVC的合并/AMVP模式中所使用的块相同。因此,无需额外存储器存取。
为检查时间相邻块,视频解码器30执行候选图片列表的构建过程。来自当前视图的多达两个参考图片可被视为候选图片。首先将相同位置的参考图片***到候选图片列表,接着按参考索引的升序***其余候选图片。当两个参考图片列表中的具有相同参考索引的参考图片可用时,相同位置的图片的相同参考图片列表中的一个参考图片在另一参考图片前面。对于候选图片列表中的每一候选图片,确定三个候选区以用于导出时间相邻块。
当通过视图间运动预测对块进行译码时,视频解码器30导出视差向量以用于选择不同视图中的对应块。隐式视差向量(IDV或也称为所导出的视差向量)是指在视图间运动预测中导出的视差向量。即使块是通过运动预测译码的,出于对随后的块进行译码的目的也不会丢弃所导出的视差向量。
在3D-HTM 7.0的当前设计和3D-HTM的随后版本中,NBDV过程按次序检查时间相邻块中的视差运动向量、空间相邻块中的视差运动向量以及随后的IDV。一旦找到视差运动向量或IDV,过程便终止。另外,在NBDV过程中检查到的空间相邻区块的数目进一步减小为2。
视频解码器30也可执行通过存取深度信息对NBDV(NBDV-R)的细化。当一个视差向量是从NBDV过程导出时,通过从参考视图的深度图检索深度数据来进一步细化所述视差向量。细化过程包含两个步骤。首先,视频解码器30通过先前经译码的参考深度视图(例如基础视图)中的经导出视差向量来定位对应深度块。对应深度块的大小可与当前PU的大小相同。视频解码器30接着从对应深度块的四个拐角像素选择一个深度值,且将所述深度值转换为经细化视差向量的水平分量。视差向量的垂直分量不变。
在一些实施方案中,经细化的视差向量可例如用于视图间运动预测,而未细化的视差向量可用于视图间残余预测。另外,如果一个PU是以后向视图合成预测模式经译码,那么可将经细化的视差向量存储为所述PU的运动向量。在一些实施方案中,将总是存取基础视图的深度视图分量,而不管从NBDV过程导出的视图次序索引的值为何。
视频解码器30还可经配置以执行ARP,所述ARP是使用视图之间的残余相关性的译码工具。在ARP中,通过对准当前视图处的运动信息以用于参考视图中的运动补偿,产生残余预测符。另外,引入加权因子以补偿视图之间的质量差。当针对一个块启用ARP时,用信号表示当前残余与残余预测符之间的差。目前,ARP可仅应用于其中分区模式等于Part_2N×2N的经帧间译码CU。ARP应用于明度(Y)组分和色度(Cb和Cr)组分两者。在以下描述中,对一个块(或像素)的运算(例如加法、减法)意谓对所述块(或像素)中的每一像素的每一组分(Y、Cb和Cr)的运算。当需要区分用于明度和色度分量的过程时,用于明度分量的过程被称作明度ARP(子PU ARP),且用于色度分量的过程被称作色度ARP(子PU ARP)。
图5展示在3D-HEVC中用于时间ARP的实例预测结构,其在JCT3V第4次会议中被采纳,如在JCT3V-D0177中所提议。图5说明在多视图视频译码中用于时间残余的ARP的预测结构(即,一个参考图片列表中的当前参考图片是时间参考图片)。
如在图5中所展示,视频解码器30在对正被译码的当前块的预测中识别以下块。当前块在图5中展示为Curr 150。Base 151表示由视差向量(DV 152A)导出的参考/基础视图中的参考块。CurrTRef 153表示在与由当前块的时间运动向量(TMV 154A)导出的块Curr150相同的视图中的块。BaseTRef 155表示在与由当前块的时间运动向量(TMV 154B)导出的块Base 151相同的视图中的块。因此,TMV 154A和TMV 154B对应于相同运动向量,意谓其识别沿着x轴和y轴的相同位移量。可由向量TMV+DV表达BaseTRef 155与Curr 150之间的相对位置的差。可由视差向量152B表达CurrTRef 153与BaseTRef 155之间的相对位置的差。TMV+DV和DV 152B提供于图5中以展示各种块之间的关系,且其未必对应于视频解码器30所导出或使用的向量。
当执行时间ARP时,视频解码器30可依据BaseTRef-Base计算残余预测符,其中减法运算应用于所指示像素阵列的每一像素。视频解码器30可将残余预测符乘以加权因子(w)。因而,视频解码器30所确定的当前块的最终预测符指示为CurrTRef+w*(Base-BaseTRef)。
图5的实例展示单向预测的情况。当扩展到双向预测的情况时,视频解码器30可将上述步骤应用于每一参考图片列表。因此,对于双向预测,视频解码器30可确定针对两个不同预测性块的两个残余预测符。
图6展示当前块160、对应块161以及经运动补偿块162之间的实例关系。视频解码器30可通过首先获得指向目标参考视图(V0)的视差向量(DV 163)执行ARP。视频解码器30可使用例如在当前3D-HEVC中规定的技术中的任一者获得DV 163。在相同存取单元内的参考视图V0的图片中,视频解码器30可使用DV 163定位对应块161。视频解码器30可再使用当前块160的运动信息以导出参考块161的运动信息。举例来说,如果视频解码器30使用运动向量164A预测当前块160,那么视频解码器30可使用运动向量164B预测对应块161。运动向量164A和运动向量164B预期表示相同运动向量的两个不同例子。
视频解码器30可基于用以译码当前块160和参考视图中用于参考块的经导出参考图片的相同运动向量而将运动补偿应用于对应块161,以导出残余块。视频解码器30选择参考视图(V0)中具有与当前视图(Vm)的参考图片相同的POC(图片次序计数)值的参考图片作为所述对应块的参考图片。视频解码器30将加权因子应用于残余块以获得经加权残余块,且将经加权残余块的值添加到经预测样本。
视频解码器30还可经配置以执行视图间ARP。类似于时间ARP,当当前预测单元使用视图间参考图片时,实现视图间残余的预测。首先,计算不同存取单元内的视图间残余,接着可使用所计算的残余信息预测当前块的视图间残余。此技术在JCT3V-F0123中提议且已经采纳到3D-HEVC中。
图7展示用于视图间ARP的实例预测结构。如图7中所展示,对于视图间ARP,视频解码器30识别当前块170的三个相关块。Base 171表示通过当前块170的视差运动向量(DMV172A)定位的参考视图中的参考块。BaseRef 173表示通过时间运动向量mvLX 174A和(如果可行的话)Base 171含有的参考索引所定位的参考视图中的Base 171的参考块。CurrRef175表示通过再使用来自Base 171的时间运动信息识别的当前视图中的参考块。因此,视频解码器30可使用mvLX 174B定位CurrRef 175,其中mvLX 174A和mvLX 174B表示相同运动向量的两个例子。DMV 172B等于如包含在图7中的DMV 172A,以说明Curr 170与Base 171之间的视差等于CurrRef 175与BaseRef 173之间的视差。DMV 172B可实际上不对应于视频解码器30所使用或产生的视差运动向量。
使用所识别的三个块,视频解码器30可依据CurrRef与BaseRef之间的差计算当前PU(即,Curr 170)的残余信号的残余预测符。此外,视图间预测符可乘以加权因子(w)。因此,视频解码器30所确定的当前块(Curr 170)的最终预测符指示为Base+w*(CurrRef-BaseRef)。
如在用于时间残余预测的ARP的一些已知设计中,视频解码器30可使用双线性滤波来产生三个相对块。此外,当Base 171所包含的时间运动向量指向在当前PU的第一可用时间参考图片的不同存取单元中的参考图片时,视频解码器30可按比例缩放指向第一可用时间参考图片的时间运动向量,且可使用经按比例缩放的运动向量来定位不同存取单元中的两个块。
当ARP应用于视图间残余时,当前PU使用视图间ARP,当ARP应用于时间残余时,当前PU使用时间ARP。
在以下描述中,如果一个参考图片列表的对应参考是时间参考图片且应用ARP,那么其指示为时间ARP。否则,如果用于一个参考图片列表的对应参考是视图间参考图片且应用ARP,那么其指示为视图间ARP。
如上文所介绍,视频解码器30可将残余预测符乘以加权因子。通常在ARP中使用三个加权因子(即,0、0.5和1),不过也可使用更多或更少加权因子以及不同加权因子。视频编码器20可例如选择导致对于当前CU为最少的速率-失真成本的加权因子作为最终加权因子,且在CU层级的位流中用信号表示对应加权因子索引(分别对应于加权因子0、1和0.5的0、1和2)。一个CU中的所有PU预测可共享同一加权因子。当加权因子等于0时,ARP不用于当前CU。
视频解码器30可经配置以经由运动向量按比例缩放执行参考图片选择。在JCT3V-C0049中,用非零加权因子译码的预测单元的参考图片可在块与块间不同。因此,可能需要存取来自参考视图的不同图片以产生对应块的经运动补偿块(即,图5中的BaseTRef)。当加权因子不等于0时,对于时间残余,在执行对于残余和残余预测符产生过程两者的运动补偿之前,朝向固定图片按比例缩放当前PU的运动向量。当ARP应用于视图间残余时,在执行对于残余和残余预测符产生过程两者的运动补偿之前,朝向固定图片按比例缩放参考块(即,图7中的Base)的时间运动向量。
对于所述两种情况(即,时间残余或视图间残余),固定图片定义为每一参考图片列表的第一可用时间参考图片。当经解码的运动向量并不指向固定图片时,首先按比例缩放所述运动向量,且接着将其用以识别CurrTRef和BaseTRef。
用于ARP的此参考图片称为目标ARP参考图片。应注意,在当前切片为B切片时,目标ARP参考图片与参考图片列表相关联。因而,可使用两个目标ARP参考图片。
视频解码器30可执行目标ARP参考图片的可用性检查。与一个参考图片列表X(其中X为0或1)相关联的目标ARP参考图片可由RpRefPicLX指示,且在具有等于从NBDV过程导出的索引的视图次序索引且具有RpRefPicLX的相同POC值的视图中的图片可由RefPicInRefViewLX指示。当以下条件中的一者为假时,视频解码器30可停用针对参考图片列表X停用的ARP:(1)RpRefPicLX不可用,(2)RefPicInRefViewLX不存储在经解码图片缓冲器中,(3)RefPicInRefViewLX不包含在由来自NBDV过程的DV或与当前块相关联的DMV定位的对应块(即,图5和图7中的Base)的参考图片列表中的任一者,可针对此参考图片列表停用ARP。
当应用ARP时,视频解码器30可在产生残余和残余预测符时使用双线性滤波器。也就是说,可使用双线性滤波器产生在ARP过程涉及的除当前块以外的三个块。
视频解码器30也可执行块层级ARP。与有时被称作PU层级ARP的其中一个PU内的所有块共享相同运动信息的以上描述相反,在块层级ARP中,视频解码器30将一个PU拆分成数个8×8块,且每一8×8块具有其自身的运动信息以执行ARP。当实现时间或视图间的块层级ARP时,首先将每一PU拆分成数个块,且每一块共享与当前PU相同的运动信息。然而,可针对每一8×8块更新所导出的运动向量(即,时间ARP中的视差向量或视图间ARP中的时间运动向量)。
图8A展示块层级时间ARP的实例预测结构。在图8A的实例中,Curr 180表示分成四个8×8块(在图8A中标记为A到D)的PU。Base 181表示当前180的视差向量所导出的参考/基础视图中的四个参考块(标记为A'到D')。使用块A的视差向量(在图8A中展示为DV[0])识别Based 181的块A',且使用视差向量(在图8A中展示为DV[1])识别块B'。尽管图8A中未明确示出,但可同样地使用块C和D的视差向量来识别块C'和D'。
可针对每一8×8块更新所导出的运动向量(即,时间ARP中的视差向量)。对于时间ARP,首先将默认derivedMv(针对图8A中的第i个8×8块,由DV[i]表示)设置为来自NBDV过程的DV。当覆盖CurrRef内的第i个8×8块的中心位置的块含有视差运动向量时,将DV[i]更新为所述视差运动向量。因此,如在图8A中所展示,与块A到D相对于彼此相比,块A'到D'可相对于彼此不同地定位。CurrRef 183表示在与curr 180相同的视图中由Curr 180的时间运动向量(在图8A中展示为mvLX 184A)导出的四个块(AP到DP)。BaseRef 185表示在与Base181相同的视图中由当前块的时间运动向量(mvLX 184B)导出的四个块(AR到DR)。在图8A的实例中,mvLX 184A和mvLX 184B预期表示同一运动向量的两个不同应用。也就是说,mvLX184A和mvLX 184B具有相同的x分量和y分量。
在图8A的实例中,将残余预测符指示为BaseRef-Base,其中减法运算应用于所指示的像素阵列的每一像素。将加权因子(w)进一步乘以残余预测符。因此,视频解码器30所确定的块A到D的最终预测符指示为CurrRef[NP]+w*(Base[N']-BaseRef[NR]),其中N对应于A到D。
图8B展示块层级视图间ARP的实例预测结构。在图8B的实例中,视频解码器30识别当前块182的三个相关块。Base 186表示由当前块182的视差运动向量(DMV 188A)所定位的参考视图中的四个参考块(A到D)。BaseRef 187表示由时间运动向量mvLX[N]和(如果可行的话)Base 186含有的参考索引所定位的参考视图中的Base 186的四个参考块(A'到D'),其中N对应于块A到D。对于视图间ARP,可将默认derivedMv(对于图8B中的第i个8×8块,由mvLX[i]指示)设置为如在当前ARP中与覆盖Base的中心位置的块相关联的时间运动向量。当覆盖Base内的第i个8×8块的中心位置的块含有时间运动向量时,将mvLX[i]更新为所述时间运动向量。因此,如在图8A中所展示,与块A到D相对于彼此相比,块A'到D'可相对于彼此不同地定位。
CurrRef 189表示通过再使用来自Base 186的时间运动信息来识别的当前视图中的四个参考块(AR到DR)。因此,举例来说,视频解码器30使用mvLX[A]来定位AR,使用mvLX[B]来定位BR,等等。对于三个所识别的块,视频解码器30可依据CurrRef-BaseRef之间的差计算当前PU的残余信号的残余预测符。所述块可在不同存取单元中。此外,视图间预测符可乘以加权因子(w)。因而,视频解码器30所确定的当前块的最终预测符指示为Base[N]+w*(CurrRef[NR]-BaseRef[N'])。
如上文所说明,对于基于块的时间ARP和基于块的视图间ARP两者,仅存取由当前PU的运动向量所定位的参考块的块层级(例如,8×8)运动信息以产生最终残余预测符。
视频解码器30也可执行子PU层级视图间运动预测。在JCT3V-F0110中,提议用以产生新合并候选者的子PU层级视图间运动预测方法。将新候选者添加到合并候选者列表。视频解码器30可使用以下方法导出新候选者(被称为子PU合并候选者)。在以下描述中,nPSW×nPSH指示当前PU的大小,N×N指示用信号表示的子PU大小,且subW×subH指示最终子PU大小。首先,视频解码器30视PU大小和用信号表示的子PU大小而将当前PU划分成一或多个子PU。
subW=max(N,nPSW)!=N?N:nPSW;
subH=max(N,nPSH)!=N?N:nPSH;
其次,对于每一参考图片列表,视频解码器30将默认运动向量tmvLX设置为(0,0),且将参考索引refLX设置为-1(其中X为0和1)。对于光栅扫描次序中的每一子PU,视频解码器30执行以下操作:
○将来自DoNBDV或NBDV过程的DV添加到当前子PU的中间位置,以获得参考样本位置(xRefSub,yRefSub),其中:
xRefSub=Clip3(0,PicWidthInSamplesL-1,xPSub+nPSWsub/2+((mvDisp[0]+2)>>2))
yRefSub=Clip3(0,PicHeightInSamplesL-1,yPSub+nPSHSub/2+((mvDisp[1]+2)>>2))
参考视图中覆盖(xRefSub,yRefSub)的块可用作当前子PU的参考块。
○对于所识别的参考块,
-如果其係使用时间运动向量经译码,那么以下适用:
●相关联运动参数可用作当前子PU的候选运动参数。
●另外,将tmvLX和refLX更新为当前子PU的运动信息。
●如果当前子PU不是光栅扫描次序中的第一者,那么所有先前子PU继承所述运动信息(tmvLX和refLX)。
-否则(参考块经帧内译码),可将当前子PU的运动信息设置为tmvLX和refLX。
视频解码器30还可经配置以执行子PU层级ARP。当应用子PU层级视图间运动预测时,PU可含有多个子PU且每一子PU具有其自身的运动信息,且可针对每一子PU执行ARP。可应用不同子PU块大小,例如4×4、8×8和16×16。子PU块的大小存在于视图参数集中。
图9展示子PU层级视图间运动预测的实例。图9展示当前视图(称为V1)和参考视图(称为V0)。当前PU 190包含四个子PU A到D。视频解码器30可使用四个子PU A到D中的每一者的视差向量定位参考块191,所述参考块包含四个参考块AR到DR。子PU A到D的视差向量在图9中展示为MV[i],其中i对应于A到D。因为四个子PU中的每一者具有唯一视差向量,所以子PU A到D相对于彼此的位置可不同参考块AR到DR相对于彼此的位置。在子PU层级视图间运动预测中,视频解码器30可使用参考块的运动向量预测子PU。参考块AR到DR的运动向量在图9中展示为MV[i],其中i对应于A到D。因此,作为一个实例,对于子PU A,视频解码器30可使用DV[A]定位参考块AR,确定使用MV[A]译码参考块AR,且使用MV[A]定位用于子PU A的预测性块。
图10A展示子PU层级时间ARP的实例预测结构。在图10A的实例中,PU(Curr 200)分成四个子PU(在图10A中标记为A到D)。对于子PU层级时间ARP,视频解码器30可针对Curr200的所有子PU使用相同视差向量(DV 202)识别参考视图中的参考块(Base 201),此与在PU层级ARP中大体上相同。Base 201可细分成对应于子PU A到D的子参考块(在图10A中为A'到D')。视频解码器30可例如使用NBDV技术导出DV 202。视频解码器30使用子PU A到D中的每一者的运动信息识别时间参考块(在图10A中为AP到DP)。子PU A到D的运动信息在图10A中展示为针对第i个子PU的TMV[i],其中ⅰ对应于A到D。举例来说,TMV[A]表示子PU A的时间运动向量,且TMV[C]表示子PU C的运动向量。尽管在图10A中未明确地展示,但子PU B和子PUD将类似地分别具有相关联运动向量TMV[B]和TMV[D]。
视频解码器30可再使用子PU A到D的运动信息(即TMV[i],其中i=A到D)定位Base201的参考块(在图10A中展示为BaseRef 205)。BaseRef 205包含四个子块(在图10A中为AR到DR)。在图10A的实例中,残余预测符可指示为BaseRef-Base,其中减法运算应用于所指示的像素阵列的每一像素。将加权因子(w)进一步乘以残余预测符。因而,视频解码器30所确定的块A到D的最终预测符可指示为CurrRef[NP]+w*(Base[N']-BaseRef[NR]),其中N对应于A到D。
图10B展示子PU层级视图间ARP的实例预测结构。在图10B的实例中,PU(Curr 200)分成四个子PU(在图10B中标记为A到D)。对于视图间ARP,视频解码器30使用子PU A到D中的每一者的视差运动向量识别参考视图中的参考块(Base 206)。Base 206包含四个子参考块,其在图10B中标记为AP到DP。子PU A到D的视差运动向量在图10B中展示为针对第i个子PU的DMV[i],其中i对应于A到D。举例来说,DMV[A]表示子PU A的视差运动向量,且DMV[B]表示子PU B的视差运动向量。尽管在图10B中未明确地展示,但子PU C和子PU D将类似地分别具有相关联视差运动向量DMV[C]和DMV[D]。
当参考块(即Base 206)含有时间运动向量(在图10B中指示为mvLX[i],其中ⅰ对应于A到D)时,视频解码器30使用时间运动向量识别用于当前子PU和其在参考视图中的参考块两者的时间参考块。举例来说,视频解码器30使用mvLX[A]定位用于AP的参考块(其在图10B中为AR),以及定位A的参考块(其在图10B中为A')。视频解码器30可类似地使用mvLX[C]定位CP的参考块(其在图10B中为CR),以及定位C的参考块(其在图10B中为C')。尽管在图10B中未明确地展示,但视频解码器30可类似地定位用于C、CP、D及DP的参考块。
使用所识别的块,视频解码器30可依据CurrRef[N']-BaseRef[NR]之间的差计算当前PU的残余预测符,其中N对应于A到D。此外,视图间预测符可乘以加权因子(w)。因而,视频解码器30所确定的当前块的最终预测符可指示为Base[NP]+w*(CurrRef[N']-BaseRef[NR])。
ARP的一些实施方案具有一些潜在问题。作为一实例,在对块进行双向预测的一些译码情境中,可需要评定用于块(或PU、子PU)的四个额外参考块。在由图11说明的第一实例中,当对一个块进行双向预测,且两个预测方向对应于视图间参考图片时,两次调用视图间ARP,且针对每一ARP存取两个额外参考块。
图11展示在3D-HEVC中针对双向视图间ARP由视频解码器30所存取的参考块的实例。在图11的实例中,预测方向X的视差运动向量由DMVX指示,其中X=0或1。对于预测方向X,由与参考视图中的参考块(在图11中为BaseX)相关联的运动信息(在图11中为mvBaseX)识别当前视图中的参考块(在图11中为CurrRefX),且评定由DMVX+mvBaseX识别的参考视图中的BaseX的参考块(在图11中为BaseXRef)。
图12展示在3D-HEVC中针对时间ARP和视图间ARP由视频解码器30存取的参考块的实例。在由图12说明的第二实例中,当对一个块进行双向预测,且一个预测方向对应于时间参考图片(且时间运动向量为TMV)且另一预测方向对应于视图间参考图片(且视差运动向量为DMV)时,调用时间ARP和视图间ARP两者,且针对如图12中所展示的每一ARP存取两个额外参考块。
在时间ARP中,评定由使用NBDV过程导出的DV所识别的参考视图中的参考块(在图12中为Base1),以及由DV+TMV所识别的参考视图中的Base1的参考块(在图12中为Base1TRef)。在视图间ARP中,评定由与参考视图中的参考块(在图12中为Base2)相关联的运动信息(在图12中为mvBase)所识别的当前视图中的参考块(在图12中为CurrRef),以及由DMV+mvBase所识别的参考视图中的Base2的参考块(在图12中为Base2Ref)。
根据一些已知技术,简化图12的过程以减少额外评定的参考块。举例来说,对于时间ARP,可使用DMV代替使用NBDV过程导出的DV来识别参考视图中的参考块(即图12中的Base1)。以此方式,块Base1与图12中的块Base2相同,且无需对Base1的额外评定。因而,在第一实例中额外评定的参考块从四个减少到三个。
然而,在上述问题的第一实例中,仍然存在四个待评定的额外参考块。此造成对于ARP经预测块需要存取的块的数目从三个增加到四个的最差情况。
本发明潜在地提供对ARP中的上述一些问题的解决方案以减少额外评定的参考块。作为一个实例,提议当第一块是用ARP(包括子PU层级ARP)译码,且是经双向预测并且两个预测方向均具有为视图间参考图片的参考图片时,视频解码器30可使用一个单一时间运动向量识别针对两个预测方向(的视图间ARP)的当前视图中的当前块的参考块。换句话说,两个时间运动向量(例如,如在图11中所展示的mvBase0和mvBase1)设置为mvBase。另外,相对于图12中的两个CurrRef0和CurrRef1,仅确定当前块的一个参考块。在此情况下,如在图13中所展示,仅评定当前视图中的一个参考块(在图13中由CurrRef指示),而非两个参考块。
图13展示可如何在双向视图间ARP中使用一个单一时间运动向量的实例。在一个实例中,单一时间运动向量(mvBase)可设置为与针对预测方向0的参考视图中的参考块相关联的时间运动向量(例如,mvBase0)。另外,当mvBase0不可用时,可针对第一块停用ARP。替代地,当mvBase0不可用时,单一运动向量(mvBase)可设置为零运动向量。
在图13的实例中,视频解码器30可针对两个预测方向执行视图间ARP。对于预测方向0,视频解码器30确定用于Curr的第一视差运动向量(DMV0)和用于Curr的第二视差运动向量(DMV1)。视频解码器30使用DMV0定位第一对应块(Base0)且使用DMV1定位第二对应块(Base1)。依据Base0和Base1的运动向量,视频解码器30确定将用于ARP的运动向量(mvBase)。下文将更详细地阐释视频解码器30可使用以确定mvBase的各种过程。使用mvBase,视频解码器30确定与Curr相同的视图中的不同图片中的当前块的参考块(CurrRef)。使用mvBase,视频解码器30还确定用于Base 0的参考块(Base0Ref)和用于Base1的参考块(Base1Ref)。使用所识别的块,视频解码器30产生两个预测符。第一预测符是Base0+w*(CurrRef-Base0Ref),且第二预测符是Base1+w*(CurrRef-Base1Ref)。
视频解码器30可在Base0运动向量可用的情况下确定mvBase为与Base0相关联的时间运动向量,或可在Base1的运动向量可用的情况下确定mvBase为与Base1相关联的时间运动向量。如果视频解码器30经配置以使用Base0的运动向量作为mvBase,那么可在Base0的运动向量不可用时针对第一块停用ARP。替代地,如果视频解码器30经配置以使用Base0的运动向量作为mvBase,那么可在Base0的运动向量不可用时将mvBase设置为零运动向量。如果视频解码器30经配置以使用Base1的运动向量作为mvBase,那么可在Base1的运动向量不可用时针对第一块停用ARP。替代地,如果视频解码器30经配置以使用Base1的运动向量作为mvBase,那么可在Base1的运动向量不可用时将mvBase设置为零运动向量。
在另一实例中,视频解码器30可在Base0的运动向量不可用的情况下将mvBase设置为Base1的时间运动向量,或可在Base1的运动向量不可用的情况下将mvBase设置为Base0的时间运动向量。视频解码器可在Base1的运动向量不可用的情况下且在Base0的运动向量不可用的情况下将mvBase设置为零运动向量。视频解码器可在Base1的运动向量不可用的情况下且在Base0的运动向量不可用的情况下停用ARP。在另一实例中,当与参考视图中的参考块相关联的时间运动向量不可用预测方向X时,视频解码器30可停用针对预测方向X的视图间ARP。
根据本发明的另一技术,提议当一个块是用ARP(包括子PU层级ARP)译码且是经双向预测时,视频解码器30将色度ARP仅应用于一个预测方向(预测方向X)且针对另一预测方向(预测方向1-X)停用ARP,其中X可为0或1。明度ARP(包括子PU层级ARP)可保持不变。在一个实例中,X等于0。视频解码器30可使用此技术,或其与上文所描述的单一运动向量技术联合地或独立地使用。
根据本发明的另一技术,提议当用ARP译码一个块时,而且仅当块大小处于特定范围内(其意谓当前块的宽度和高度处于特定范围内)时,应用针对色度分量的ARP。在一个实例中,如果块大小等于8×8,那么可停用针对色度分量的ARP。在另一实例中,如果块大小小于32×32,那么可停用针对色度分量的ARP。在另一实例中,可针对具有等于N×N的大小的任何子PU停用用于色度的子PU层级ARP,但针对具有等于N×N的大小的PU启用用于色度的ARP。此处,N可为8、16、32或64。在另一实例中,可针对具有等于N×N的大小的任何子PU停用用于色度的子PU层级ARP,但针对具有等于M×M的大小的PU启用用于色度的ARP。此处,M可小于N且其两者均可为8、16、32或64,只要M小于N即可。
预期可独立地或联合地实施本发明中描述的各种技术。举例来说,上文所描述的单一运动向量技术可结合上文所描述的色度ARP技术而实施。类似地,还预期上文所描述的基于块大小的色度ARP技术可结合上文所描述的单一运动向量技术而实施。此外,预期本发明中描述的各种技术可应用于PU层级ARP、子PU层级ARP和块层级ARP中的任一者。
图15是说明可实施本发明中描述的ARP技术的视频编码器的实例的框图。举例来说,图15说明可表示遵从3D-AVC或遵从3D-HEVC的视频编码器的视频编码器20。将使用例如PU、TU和CU等某些HEVC术语描述视频编码器20,但应理解,参考视频编码器20描述的技术也可以针对根据H.264标准译码的视频而执行。
视频编码器20可执行视频切片内的视频块的帧内和帧间译码。举例来说,视频编码器20可执行帧间预测编码或帧内预测编码。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测或视图间预测来减少或移除视频序列的邻近帧或图片内的时间冗余或不同视图中的图片之间的冗余。帧内模式(I模式)可指若干基于空间的压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指代若干基于时间的压缩模式中的任一者。
在图15的实例中,视频编码器20包含视频数据存储器40、预测处理单元42、参考图片存储器64、求和器50、变换处理单元52、量化处理单元54和熵编码单元56。预测处理单元42包含运动和视差估计单元44、运动和视差补偿单元46以及帧内预测单元48。为了视频块重构,视频编码器20还包含逆量化处理单元58、逆变换处理单元60以及求和器62。还可包含解块滤波器(图15中未示出)以便对块边界进行滤波,以从经重构视频移除成块假影。必要时,解块滤波器通常将滤波求和器62的输出。除了解块滤波器外,还可使用额外回路滤波器(回路中或回路后)。
视频数据存储器40可存储待由视频编码器20的组件编码的视频数据。可例如从视频源18获得存储在视频数据存储器40中的视频数据。参考图片存储器64是解码图片缓冲器(存储参考视频数据以供视频编码器20在(例如,以帧内或帧间译码模式,也称为帧内或帧间预测译码模式)编码视频数据时使用的的DPB)的一个实例。视频数据存储器40和参考图片存储器64可由多种存储器装置中的任一者形成,所述存储器装置例如包含同步DRAM(SDRAM)的动态随机存取存储器(DRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。视频数据存储器40和参考图片存储器64可由同一存储器装置或单独的存储器装置提供。在各种实例中,视频数据存储器40可与视频编码器20的其它组件一起在芯片上,或相对于那些组件在芯片外。
视频编码器20接收视频数据,且分割单元(未示出)将所述数据分割为视频块。此分割还可包含分割为切片、图块或其它较大单元,以及视频块分割(例如,宏块分区和分区的子块)。视频编码器20一般说明编码待编码的视频切片内的视频块的组件。所述切片可以分成多个视频块(并且可能分成被称为图块的视频块集)。预测处理单元42可基于错误结果(例如,译码速率和失真层级)选择用于当前视频块的多个可能的译码模式中的一者,例如多个帧内译码模式(帧内预测译码模式)中的一者或多个帧间译码模式(帧间预测译码模式)中的一者。预测处理单元42可将所得经帧内或帧间译码块提供到求和器50以产生残余块数据,并提供到求和器62以重构经编码块以用作参考图片。
预测处理单元42内的帧内预测单元48可相对于与待译码当前块在相同的帧或切片中的一或多个相邻块执行当前视频块的帧内预测性译码,以提供空间压缩。预测处理单元42内的运动和视差估计单元44以及运动和视差补偿单元46相对于一或多个参考图片中的一或多个预测性块执行对当前视频块的帧间预测性译码以提供时间压缩。
运动和视差估计单元44可经配置以根据用于视频序列的预定模式为视频切片确定帧间预测模式。预定样式可将序列中的视频切片指定为P切片或B切片。运动和视差估计单元44与运动和视差补偿单元46可高度集成,但出于概念目的单独地说明。由运动和视差估计单元44所执行的运动估计是产生估计视频块的运动的运动向量的过程。举例来说,运动向量可指示当前视频帧或图片内的视频块相对于参考图片内的预测性块的位移。
预测性块是被发现在像素差方面与待译码视频块密切匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,视频编码器20可计算存储在参考图片存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动和视差估计单元44可执行相对于全像素位置和分数像素位置的运动搜索,且输出具有分数像素精度的运动向量。
运动和视差估计单元44通过将视频块的位置与参考图片的预测性块的位置进行比较来计算经帧间译码(经帧间预测译码)切片中的视频块的运动向量。参考图片可选自第一参考图片列表(RefPicList0)或第二参考图片列表(RefPicList1),其中的每一者识别存储在参考图片存储器64中的一或多个参考图片。运动和视差估计单元44将计算的运动向量发送到熵编码单元56以及运动和视差补偿单元46。
运动和视差补偿单元46所执行的运动补偿可以涉及基于运动估计(可能执行对子像素精度的内插)所确定的运动向量而提取或产生预测性块。在接收到当前视频块的运动向量后,运动和视差补偿单元46即刻可以在参考图片列表中的一者中定位所述运动向量指向的预测性块。视频编码器20通过从正被译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块,从而形成像素差值。像素差值形成用于所述块的残余数据,且可包含明度和色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动和视差补偿单元46还可产生与视频块和视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。
作为由运动和视差估计单元44与运动和视差补偿单元46执行的帧间预测(如上文所描述)的替代方案,帧内预测单元48可帧内预测当前块。确切地说,帧内预测单元48可以确定用来编码当前块的帧内预测模式。在一些实例中,帧内预测单元48可以例如在单独的编码编次期间使用各种帧内预测模式编码当前块,且帧内预测单元48(或在一些实例中为模式选择单元)可从经测试模式中选择将使用的适当帧内预测模式。举例来说,帧内预测单元48可使用针对各种经测试帧内预测模式的速率-失真分析来计算速率-失真值,且从经测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析通常确定经编码块与经编码以产生所述经编码块的原始未经编码块之间的失真(或误差)的量,以及用以产生经编码块的位速率(也就是说,位数目)。帧内预测单元48可以依据各种经编码块的失真和速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率-失真值。
在任何情况下,在选择用于块的帧内预测模式之后,帧内预测单元48可将指示用于块的帧内预测模式的信息提供到熵编码单元56。熵编码单元56可根据本发明的技术编码指示所选帧内预测模式的信息。视频编码器20在所传输的位流中可包含配置数据,其可包含多个帧内预测模式索引表和多个经修改的帧内预测模式索引表(也称为码字映射表)、对编码各种块的上下文的定义,以及对将用于所述上下文中的每一者的最可能帧内预测模式、帧内预测模式索引表和经修改的帧内预测模式索引表的指示。
在预测处理单元42经由帧间预测或帧内预测产生当前视频块的预测性块之后,视频编码器20通过从当前视频块减去预测性块而形成残余视频块。残余块中的残余视频数据可应用于变换处理单元52。变换处理单元52使用例如离散余弦变换(DCT)或概念上类似的变换等的变换将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素域转换到变换域,例如频域。
变换处理单元52可将所得变换系数发送到量化处理单元54。量化处理单元54量化所述变换系数以进一步减小位速率。量化过程可减少与一些或全部系数相关联的位深度。可通过调整量化参数来修改量化的程度。在一些实例中,量化处理单元54接着可执行对包含经量化变换系数的矩阵的扫描。替代地,熵编码单元56可执行扫描。
在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码方法或技术。在熵编码单元56进行熵编码之后,经编码位流可发射到视频解码器30,或经存档以供稍后传输或由视频解码器30检索。熵编码单元56还可对正被译码的当前视频切片的运动向量和其它语法元素进行熵编码。
逆量化处理单元58和逆变换处理单元60分别应用逆量化和逆变换以在像素域中重构残余块,以供稍后用作参考图片的参考块。运动和视差补偿单元46可通过将残余块添加到参考图片列表中的一者内的参考图片中的一者的预测性块来计算参考块。运动和视差补偿单元46还可将一或多个内插滤波器应用于经重构残余块以计算用于运动估计的子整数像素值。求和器62将经重构残余块添加到由运动和视差补偿单元46产生的经运动补偿的预测块以产生参考块以用于存储在参考图片存储器64中。运动和视差估计单元44与运动和视差补偿单元46可将所述参考块用作用于帧间预测后续视频帧或图片中的块的参考块。
以此方式,视频编码器20是可经配置以实施本发明中描述的一或多个实例技术的视频编码器的实例。举例来说,视频数据存储器40存储视频数据。视频数据可包含相依视图的纹理视频分量和对应于纹理视图分量的深度视图分量,视频编码器20将在遵从3D-AVC或遵从3D-HEVC的视频译码过程中对其中的每一者进行编码。
在本发明中描述的技术中,视频编码器20可包含经配置以在遵从3D-AVC或遵从3D-HEVC的视频译码过程中编码视频数据的相依视图的纹理视图分量的一或多个处理器。如上文所描述,3D-AVC中的每一视图包含纹理视图分量和深度视图分量。3D-AVC中存在一个基础视图和一或多个增强或相依视图,其中可对一或多个增强或相依视图的纹理视图分量进行视图间预测。
为了编码纹理视图分量,视频编码器20可经配置以评估纹理视图分量中的当前块的一或多个相邻块的运动信息,以确定是否以参考除相依视图以外的视图中的视图间参考图片的视差运动向量对至少一个相邻块进行视图间预测。视频编码器20可基于相邻块中的一者的视差运动向量导出当前块的视差向量。对于纹理优先译码,视频编码器20可在编码纹理视图分量之后编码视频数据的对应于纹理视图分量的深度视图分量。
在一些实例中,视频编码器20的预测处理单元42可为经配置以实施本发明中所描述的实例的处理器的一个实例。在一些实例中,除预测处理单元42以外的单元(例如,一或多个处理器)可实施上文所描述的实例。在一些实例中,预测处理单元42与视频编码器20的一或多个其它单元结合可实施上文所描述的实例。在一些实例中,视频编码器20的处理器(图15中未示出)可单独地或与视频编码器20的其它处理器结合实施上文所描述的实例。
图16是说明可实施本发明中描述的ARP技术的视频编码器的实例的框图。图16是说明可实施本发明中描述的技术的视频解码器的实例的框图。举例来说,图16说明可表示遵从3D-AVC或遵从3D-HEVC的视频解码器的视频解码器30。将使用例如PU、TU和CU等某些HEVC术语描述视频解码器30,但应理解,参考视频解码器30描述的技术也可以针对根据H.264标准译码的视频而执行。
视频解码器30可执行帧间预测解码或帧内预测解码。图16说明视频解码器30。在图16的实例中,视频解码器30包含视频数据存储器69、熵解码单元70、预测处理单元71、逆量化处理单元76、逆变换处理单元78、求和器80和参考图片存储器82。预测处理单元71包含运动和视差补偿单元72及帧内预测单元74。在一些实例中,视频解码器30可执行与关于来自图15的视频编码器20所描述的编码遍次互逆的解码遍次。
视频数据存储器69可存储待由视频解码器30的组件解码的视频数据,例如经编码视频位流。存储在视频数据存储器69中的视频数据可(例如)从存储装置34、从例如相机等本地视频源、经由视频数据的有线或无线网络通信或者通过存取物理数据存储媒体而获得。视频数据存储器69可形成存储来自经编码视频位流的经编码视频数据的经译码图片缓冲器(CPB)。
参考图片存储器82是存储参考视频数据以供视频解码器30在(例如,以帧内或帧间译码模式)解码视频数据时使用的经解码图片缓冲器(DPB)的一个实例。视频数据存储器69和参考图片存储器82可由多种存储器装置中的任一者形成,所述存储器装置例如包含同步DRAM(SDRAM)的动态随机存取存储器(DRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。视频数据存储器69和参考图片存储器82可由同一存储器装置或单独的存储器装置提供。在各种实例中,视频数据存储器69可与视频解码器30的其它组件一起在芯片上,或相对于那些组件在芯片外。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联的语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量和其它语法元素。熵解码单元70将运动向量和其它语法元素转发到预测处理单元71。视频解码器30可在视频切片层级和/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,预测处理单元71的帧内预测单元74可以基于用信号表示的帧内预测模式和来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即,B或P)切片时,预测处理单元71的运动和视差补偿单元72基于从熵解码单元70接收的运动向量和其它语法元素产生用于当前视频切片的视频块的预测性块。预测性块可以从参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可基于存储在参考图片存储器82中的参考图片使用默认构建技术构建参考图片列表(RefPicList0和RefPicList1)。
运动和视差补偿单元72通过解析运动向量和其它语法元素而确定用于当前视频切片的视频块的预测信息,且使用所述预测信息产生用于正被解码的当前视频块的预测性块。举例来说,运动和视差补偿单元72使用所接收语法元素中的一些语法元素确定用以译码视频切片的视频块的预测模式(例如,帧内或帧间预测)、帧间预测切片类型(例如,B切片或P切片)、切片的参考图片列表中的一或多者的构建信息、切片的每一经帧间编码视频块的运动向量、切片的每一经帧间译码视频块的帧间预测状态,以及用以解码当前视频切片中的视频块的其它信息。
运动和视差补偿单元72可经配置以执行本发明中描述的ARP技术。作为一个实例,对于使用ARP译码的经双向预测当前块,运动和视差补偿单元72可确定当前块的第一视差运动向量,且使用所述第一视差运动向量在第二视图中定位当前块的第一对应块。运动和视差补偿单元72也可确定当前块的第二视差运动向量,且使用所述第二视差运动向量在第三视图中定位当前块的第二对应块。依据第一对应块和第二对应块的运动信息,运动和视差补偿单元72可确定单一运动向量。运动和视差补偿单元72可使用此单一运动向量确定当前块的参考块、第一对应块的参考块和第二对应块的参考块。运动和视差补偿单元72可基于第一对应块、当前块的参考块和第一对应块的参考块产生第一预测性块,且基于第二对应块、当前块的参考块和第二对应块的参考块产生第二预测性块。
运动和视差补偿单元72可进一步经配置。举例来说,运动和视差补偿单元72可确定使用高级残余预测(ARP)模式译码第一视图的当前块且双向预测当前块。对于当前块的明度块,运动和视差补偿单元72可执行针对第一预测方向ARP以确定明度块的第一预测性块,且针对第二预测方向执行ARP以确定明度块的第二预测性块。对于当前块的色度块,运动和视差补偿单元72可针对第一预测方向或第二预测方向中的仅一者执行ARP以确定色度块的第一预测性块。
运动和视差补偿单元72可进一步经配置。举例来说,运动和视差补偿单元72可确定使用ARP模式对第一视图的当前块进行译码。对于当前块的明度块,运动和视差补偿单元72可执行ARP以确定明度块的预测性块。对于当前块的色度块,运动和视差补偿单元72可基于色度块的大小而确定是否执行针对所述色度块的ARP。作为一个实例,运动和视差补偿单元72可响应于色度块的大小为8×8而停用ARP。作为另一实例,运动和视差补偿单元72可响应于色度块的大小小于32×32而停用ARP。作为另一实例,运动和视差补偿单元72可响应于色度块的大小等于N×N且当前块包括子PU而停用ARP,其中N等于8、16、32或64中的一者。作为另一实例,运动和视差补偿单元72可响应于色度块的大小为N×N且当前块包括PU而执行ARP。作为另一实例,运动和视差补偿单元72可响应于色度块的大小等于N×N且当前块包括子PU而停用ARP,且响应于色度块的大小为M×M且当前块包括PU而执行ARP,其中N和M等于8、16、32和64中的一者,且其中M小于N。
运动和视差补偿单元72还可执行基于内插滤波器的内插。运动和视差补偿单元72可在编码视频块期间使用如由视频编码器20使用的内插滤波器来计算用于参考块的子整数像素的内插值。在此情况下,运动和视差补偿单元72可从所接收的语法元素确定由视频编码器20使用的内插滤波器且使用所述内插滤波器产生预测性块。
逆量化处理单元76逆量化(即,解量化)提供于位流中且由熵解码单元70解码的经量化变换系数。逆量化过程可包含使用由视频编码器20针对视频切片中的每一视频块计算的量化参数来确定应应用的量化的程度及同样地逆量化的程度。逆变换处理单元78对变换系数应用逆变换(例如,逆DCT、逆整数变换,或概念上类似的逆变换过程),以便产生像素域中的残余块。
在运动和视差补偿单元72基于运动向量和其它语法元素产生当前视频块的预测性块后,视频解码器30通过对来自逆变换处理单元78的残余块与由运动和视差补偿单元72产生的对应预测性块求和而形成经解码视频块。求和器80表示执行此求和运算的一或多个组件。必要时,还可应用解块滤波器以对经解码块进行滤波以便移除成块假象。还可使用其它回路滤波器(在译码回路中或在译码回路之后)来使像素转变变平滑或者以其它方式改进视频质量。给定图片中的经解码视频块接着存储在参考图片存储器82中,所述参考图片存储器存储用于后续运动补偿的参考图片。参考图片存储器82还存储经解码视频以用于稍后呈现在显示装置(例如,图1的显示装置32)上。
以此方式,视频解码器30是可经配置以实施本发明中描述的一或多个实例技术的视频解码器的实例。举例来说,视频数据存储器69存储视频数据。视频数据可包含视频解码器30可从其解码相依视图的纹理视频分量和对应于所述纹理视图分量的深度视图分量的信息,视频编码器20在遵从3D-AVC或遵从3D-HEVC的视频译码过程中对其中的每一者进行编码。
在本发明中描述的技术中,视频解码器30可包含经配置以在3D-AVC顺应或3D-HEVC顺应视频译码过程中解码视频数据的相依视图的纹理视图分量的一或多个处理器。为了解码纹理视图分量,视频解码器30可经配置以评估纹理视图分量中的当前块的一或多个相邻块的运动信息,以确定是否以参考除相依视图外的视图中的视图间参考图片的视差运动向量对至少一个相邻块进行视图间预测。视频解码器30可基于相邻块中的一者的视差运动向量导出当前块的视差向量。对于纹理优先译码,视频解码器30可在解码纹理视图分量之后解码视频数据的对应于纹理视图分量的深度视图分量。
在一些实例中,视频解码器30的预测处理单元71可为经配置以实施本发明中所描述的实例的处理器的一个实例。在一些实例中,除预测处理单元71以外的单元(例如,一或多个处理器)可实施上文所描述的实例。在一些实例中,预测处理单元71与视频解码器30的一或多个其它单元结合可实施上述实例。在又一些其它实例中,视频解码器30的处理器(图16中未示出)可单独地或与视频解码器30的其它处理器结合实施上文所描述的实例。
图16展示根据本发明的技术预测视频块的实例方法。图16的技术可例如由视频解码器30的运动和视差补偿单元72或由视频编码器20的运动和视差估计单元44或运动和视差补偿单元46执行。根据图16的技术,视频译码器可确定使用ARP模式对第一视图的当前块进行译码且确定双向预测当前块(250)。视频译码器可确定当前块的第一视差运动向量和第二视差运动向量(252)。视频译码器可用第一视差运动向量在第二视图中定位当前块的第一对应块(254)。视频译码器也可用第二视差运动向量在第三视图中定位当前块的第二对应块(256)。视频译码器可从当前块的第一对应块和当前块的第二对应块中的至少一者的运动信息确定运动向量(258)。使用所述运动向量,视频译码器可识别第一视图中的当前块的参考块、第二视图中的第一对应块的参考块以及第三视图中的第二对应块的参考块(260)。在图17的实例中,第二视图和第三视图可为相同视图或不同视图,但通常将不同于第一视图。
视频译码器可基于第一对应块、当前块的参考块以及第一对应块的参考块产生第一预测性块(262)。视频译码器可基于第二对应块、当前块的参考块以及第二对应块的参考块产生第二预测性块(264)。视频译码器可例如通过确定对应于当前块的参考块与第二对应块的参考块之间的差的残余预测符来产生第二预测性块。视频译码器可将残余预测符添加到第二对应块以产生预测性块,且可在将所述残余预测符添加到第二对应块之前将加权因子应用到残余预测符。
视频译码器可例如通过响应于第一对应块的运动向量不可用而对所述运动向量使用零运动向量,从当前块的第一对应块和当前块的第二对应块中的至少一者的运动信息确定运动向量。在另一实例中,视频译码器可通过响应于当前块的第一对应块的运动向量不可用而使用当前块的第二对应块的运动向量作为所述运动向量,从当前块的第一对应块和当前块的第二对应块中的至少一者的运动信息确定运动向量。在另一实例中,视频译码器可通过响应于当前块的第一对应块的运动向量不可用且当前块的第二对应块的运动向量不可用而对所述运动向量使用零运动向量,从当前块的第一对应块和当前块的第二对应块中的至少一者的运动信息确定运动向量
在一些译码情境下,视频译码器可停用ARP。举例来说,对于响应于第二当前块的第一对应块的运动向量不可用的视频,视频译码器可停用ARP。在另一实例中,响应于第二当前块的第一对应块的运动向量不可用且第二当前块的第二对应块的运动向量不可用,视频译码器可停用针对第二当前块的ARP。
图17展示根据本发明的技术预测视频块的实例方法。图17的技术可例如由视频解码器30的运动和视差补偿单元72或由视频编码器20的运动和视差估计单元44或运动和视差补偿单元46执行。根据图17的技术,视频译码器可确定使用ARP模式对第一视图的当前块进行译码且确定双向预测当前块(270)。对于当前块的明度块,视频译码器可针对第一预测方向执行ARP以确定明度块的第一预测性块(272)。对于当前块的明度块,视频译码器可针对第二预测方向执行ARP以确定明度块的第二预测性块(274)。对于当前块的色度块,视频译码器可针对第一预测方向或第二预测方向中的仅一者执行ARP以确定色度块的第一预测性块(276)。
图18展示根据本发明的技术预测视频块的实例方法。图18的技术可例如由视频解码器30的运动和视差补偿单元72或由视频编码器20的运动和视差估计单元44或运动和视差补偿单元46执行。根据图18的技术,视频译码器可确定使用ARP模式对第一视图的当前块进行译码(280)。对于当前块的明度块,视频译码器可执行ARP以确定明度块的预测性块(282)。对于当前块的色度块,视频译码器可基于色度块的大小而确定是否执行所述色度块的ARP。
在一个实例中,视频译码器可通过响应于色度块的大小为8×8而停用ARP来基于色度块的大小而确定是否执行针对所述色度块的ARP。在另一实例中,视频译码器可通过响应于色度块的大小小于32×32而停用ARP来基于色度块的大小而确定是否执行针对所述色度块的ARP。在另一实例中,视频译码器可通过响应于色度块的大小等于N×N且当前块包括子PU而停用ARP,以及响应于色度块的大小为N×N且当前块包括PU而执行ARP,来基于色度块的大小而确定是否执行针对所述色度块的ARP。N可等于例如8、16、32或64中的一者。在另一实例中,视频译码器可通过响应于色度块的大小等于N×N且当前块包括子PU而停用ARP,以及响应于色度块的大小为M×M且当前块包括PU而执行ARP,来基于色度块的大小而确定是否执行针对所述色度块的ARP。N和M可例如为8、16、32或64中的一者,M可小于N。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果用软件实施,则所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,所述计算机可读存储媒体对应于有形媒体,例如数据存储媒体或包含(例如)根据通信协议促进计算机程序从一位置传送至另一位置的任何媒体的通信媒体。以此方式,计算机可读媒体通常可对应于(1)有形计算机可读存储媒体,其是非暂时性的,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一个或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储指令或数据结构的形式的期望程序代码并且可由计算机存取的任何其它媒体。此外,任何连接被恰当地称作计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字用户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么所述同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是,应理解,所述计算机可读存储媒体和数据存储媒体并不包括连接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可提供在经配置用于编码和解码的专用硬件和/或软件模块内,或者并入在组合式编解码器中。此外,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,所述装置或设备包含无线手持机、集成电路(IC)或IC组(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可以结合合适的软件和/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述了各种实例。这些和其它实例在所附权利要求书的范围内。

Claims (11)

1.一种对视频数据进行译码的方法,所述方法包括:
确定使用高级残余预测ARP模式对第一视图的当前块进行译码,其中双向预测所述当前块;
对于所述当前块的明度块,针对第一预测方向执行ARP以确定所述明度块的第一预测性块;
对于所述当前块的所述明度块,针对第二预测方向执行ARP以确定所述明度块的第二预测性块;
对于所述当前块的色度块,针对所述第一预测方向或所述第二预测方向中的仅一者执行ARP以确定所述色度块的第一预测性块。
2.一种对视频数据进行译码的方法,所述方法包括:
确定使用高级残余预测ARP模式对第一视图的当前块进行译码;
对于所述当前块的明度块,执行ARP以确定所述明度块的预测性块;
对于所述当前块的色度块,基于所述色度块的大小而确定是否执行所述色度块的ARP。
3.根据权利要求2所述的方法,其中基于所述色度块的所述大小而确定是否执行所述色度块的ARP包括响应于所述色度块的所述大小为8×8而停用ARP。
4.根据权利要求2所述的方法,其中基于所述色度块的所述大小而确定是否执行所述色度块的ARP包括响应于所述色度块的所述大小小于32×32而停用ARP。
5.根据权利要求2所述的方法,其中基于所述色度块的所述大小而确定是否执行所述色度块的ARP包括:
响应于所述色度块的所述大小等于N×N且所述当前块包括子PU而停用ARP,其中N等于8、16、32或64中的一者;
响应于所述色度块的所述大小为N×N且所述当前块包括PU而执行ARP。
6.根据权利要求2所述的方法,其中基于所述色度块的所述大小而确定是否执行所述色度块的ARP包括:
响应于所述色度块的所述大小等于N×N且所述当前块包括子PU而停用ARP,其中N等于8、16、32或64中的一者;
响应于所述色度块的所述大小为M×M且所述当前块包括PU而执行ARP,其中M等于8、16、32或64中的一者,且其中M小于N。
7.一种包括权利要求1与2到6中的任一权利要求的组合的方法。
8.一种用于对视频进行译码的装置,所述装置包括经配置以执行以下操作的视频译码器:确定使用高级残余预测ARP模式对第一视图的当前块进行译码,其中双向预测所述当前块;对于所述当前块的明度块,针对第一预测方向执行ARP以确定所述明度块的第一预测性块;对于所述当前块的所述明度块,针对第二预测方向执行ARP以确定所述明度块的第二预测性块;以及对于所述当前块的色度块,针对所述第一预测方向或所述第二预测方向中的仅一者执行ARP以确定所述色度块的第一预测性块。
9.一种用于对视频进行译码的装置,所述装置包括经配置以执行以下操作的视频译码器:确定使用高级残余预测ARP模式对第一视图的当前块进行译码;对于所述当前块的明度块,执行ARP以确定所述明度块的预测性块;以及对于所述当前块的色度块,基于所述色度块的大小而确定是否执行所述色度块的ARP。
10.一种用于对视频数据进行译码的设备,所述设备包括:
用于确定使用高级残余预测ARP模式对第一视图的当前块进行译码的装置,其中双向预测所述当前块;
对于所述当前块的明度块,用于针对第一预测方向执行ARP以确定所述明度块的第一预测性块的装置;
对于所述当前块的所述明度块,用于针对第二预测方向执行ARP以确定所述明度块的第二预测性块的装置;
对于所述当前块的色度块,用于针对所述第一预测方向或所述第二预测方向中的仅一者执行ARP以确定所述色度块的第一预测性块的装置。
11.一种用于对视频数据进行译码的设备,所述设备包括:
用于确定使用高级残余预测ARP模式对第一视图的当前块进行译码的装置;
对于所述当前块的明度块,用于执行ARP以确定所述明度块的预测性块的装置;
对于所述当前块的色度块,用于基于所述色度块的大小而确定是否执行所述色度块的ARP的装置。
CN201811201284.5A 2014-03-13 2014-03-13 用于3d-hevc的简化高级残余预测 Active CN109547800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811201284.5A CN109547800B (zh) 2014-03-13 2014-03-13 用于3d-hevc的简化高级残余预测

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/CN2014/073353 WO2015135172A1 (en) 2014-03-13 2014-03-13 Simplified advanced residual prediction for 3d-hevc
CN201811201284.5A CN109547800B (zh) 2014-03-13 2014-03-13 用于3d-hevc的简化高级残余预测
CN201480077043.8A CN106105190B (zh) 2014-03-13 2014-03-13 用于3d-hevc的简化高级残余预测

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480077043.8A Division CN106105190B (zh) 2014-03-13 2014-03-13 用于3d-hevc的简化高级残余预测

Publications (2)

Publication Number Publication Date
CN109547800A true CN109547800A (zh) 2019-03-29
CN109547800B CN109547800B (zh) 2023-04-07

Family

ID=54070804

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201480077043.8A Active CN106105190B (zh) 2014-03-13 2014-03-13 用于3d-hevc的简化高级残余预测
CN201811201284.5A Active CN109547800B (zh) 2014-03-13 2014-03-13 用于3d-hevc的简化高级残余预测

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201480077043.8A Active CN106105190B (zh) 2014-03-13 2014-03-13 用于3d-hevc的简化高级残余预测

Country Status (9)

Country Link
US (1) US10574965B2 (zh)
EP (1) EP3117606B1 (zh)
JP (1) JP6359681B2 (zh)
KR (1) KR20160132862A (zh)
CN (2) CN106105190B (zh)
CA (1) CA2939009A1 (zh)
ES (1) ES2716676T3 (zh)
HU (1) HUE043182T2 (zh)
WO (1) WO2015135172A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112243131A (zh) * 2020-10-31 2021-01-19 西安邮电大学 基于可重构阵列处理器的先进残差预测方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3002716A1 (fr) * 2013-02-26 2014-08-29 France Telecom Derivation de vecteur de mouvement de disparite, codage et decodage video 3d utilisant une telle derivation
US10200666B2 (en) * 2015-03-04 2019-02-05 Dolby Laboratories Licensing Corporation Coherent motion estimation for stereoscopic video
US10462459B2 (en) * 2016-04-14 2019-10-29 Mediatek Inc. Non-local adaptive loop filter
CN116708783A (zh) * 2016-07-12 2023-09-05 韩国电子通信研究院 图像编码/解码方法以及用于该方法的记录介质
WO2020069652A1 (en) * 2018-10-06 2020-04-09 Huawei Technologies Co., Ltd. Candidate mv construction method for hmvp mode

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034449A (zh) * 2009-09-29 2011-04-27 乐金显示有限公司 三维图像显示装置
US20110280311A1 (en) * 2010-05-13 2011-11-17 Qualcomm Incorporated One-stream coding for asymmetric stereo video
WO2012128847A1 (en) * 2011-03-18 2012-09-27 Qualcomm Incorporated Signaling of multiview video plus depth content with a block-level 4-component structure
WO2012167712A1 (en) * 2011-06-10 2012-12-13 Mediatek Inc. Method and apparatus of scalable video coding
WO2013021023A1 (en) * 2011-08-11 2013-02-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. View synthesis compliant signal codec
US20130243093A1 (en) * 2012-03-16 2013-09-19 Qualcomm Incorporated Motion vector coding and bi-prediction in hevc and its extensions
WO2013159702A1 (zh) * 2012-04-25 2013-10-31 浙江大学 三维视频序列辅助信息的解码方法、编码方法及装置
US20140002599A1 (en) * 2011-01-06 2014-01-02 Samsung Electronics Co., Ltd. Competition-based multiview video encoding/decoding device and method thereof
WO2014005248A1 (en) * 2012-07-02 2014-01-09 Qualcomm Incorporated Intra-coding of depth maps for 3d video coding
CN104221385A (zh) * 2012-04-16 2014-12-17 高通股份有限公司 基于非对称纹理及深度分辨率的视图合成

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619256A (en) * 1995-05-26 1997-04-08 Lucent Technologies Inc. Digital 3D/stereoscopic video compression technique utilizing disparity and motion compensated predictions
KR101276720B1 (ko) * 2005-09-29 2013-06-19 삼성전자주식회사 카메라 파라미터를 이용하여 시차 벡터를 예측하는 방법,그 방법을 이용하여 다시점 영상을 부호화 및 복호화하는장치 및 이를 수행하기 위한 프로그램이 기록된 기록 매체
US9357229B2 (en) * 2010-07-28 2016-05-31 Qualcomm Incorporated Coding motion vectors in video coding
CN101917619B (zh) * 2010-08-20 2012-05-09 浙江大学 一种多视点视频编码快速运动估计方法
US9288501B2 (en) 2011-03-08 2016-03-15 Qualcomm Incorporated Motion vector predictors (MVPs) for bi-predictive inter mode in video coding
US9525861B2 (en) * 2012-03-14 2016-12-20 Qualcomm Incorporated Disparity vector prediction in video coding
US20130258052A1 (en) * 2012-03-28 2013-10-03 Qualcomm Incorporated Inter-view residual prediction in 3d video coding
US10136143B2 (en) * 2012-12-07 2018-11-20 Qualcomm Incorporated Advanced residual prediction in scalable and multi-view video coding
US9615090B2 (en) * 2012-12-28 2017-04-04 Qualcomm Incorporated Parsing syntax elements in three-dimensional video coding
US10244223B2 (en) * 2014-01-10 2019-03-26 Ostendo Technologies, Inc. Methods for full parallax compressed light field 3D imaging systems
US9967592B2 (en) * 2014-01-11 2018-05-08 Qualcomm Incorporated Block-based advanced residual prediction for 3D video coding
US10326981B2 (en) * 2015-05-15 2019-06-18 Semyon Nisenzon Generating 3D images using multi-resolution camera set

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034449A (zh) * 2009-09-29 2011-04-27 乐金显示有限公司 三维图像显示装置
US20110280311A1 (en) * 2010-05-13 2011-11-17 Qualcomm Incorporated One-stream coding for asymmetric stereo video
US20140002599A1 (en) * 2011-01-06 2014-01-02 Samsung Electronics Co., Ltd. Competition-based multiview video encoding/decoding device and method thereof
WO2012128847A1 (en) * 2011-03-18 2012-09-27 Qualcomm Incorporated Signaling of multiview video plus depth content with a block-level 4-component structure
WO2012167712A1 (en) * 2011-06-10 2012-12-13 Mediatek Inc. Method and apparatus of scalable video coding
WO2013021023A1 (en) * 2011-08-11 2013-02-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. View synthesis compliant signal codec
US20130243093A1 (en) * 2012-03-16 2013-09-19 Qualcomm Incorporated Motion vector coding and bi-prediction in hevc and its extensions
CN104221385A (zh) * 2012-04-16 2014-12-17 高通股份有限公司 基于非对称纹理及深度分辨率的视图合成
WO2013159702A1 (zh) * 2012-04-25 2013-10-31 浙江大学 三维视频序列辅助信息的解码方法、编码方法及装置
WO2014005248A1 (en) * 2012-07-02 2014-01-09 Qualcomm Incorporated Intra-coding of depth maps for 3d video coding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋洁: ""高性能视频帧内编码技术研究"", 《中国优秀硕博毕业论文》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112243131A (zh) * 2020-10-31 2021-01-19 西安邮电大学 基于可重构阵列处理器的先进残差预测方法

Also Published As

Publication number Publication date
US10574965B2 (en) 2020-02-25
CN109547800B (zh) 2023-04-07
HUE043182T2 (hu) 2019-08-28
US20170013275A1 (en) 2017-01-12
EP3117606B1 (en) 2018-12-26
CA2939009A1 (en) 2015-09-17
WO2015135172A1 (en) 2015-09-17
CN106105190A (zh) 2016-11-09
ES2716676T3 (es) 2019-06-14
JP2017512033A (ja) 2017-04-27
CN106105190B (zh) 2018-11-13
JP6359681B2 (ja) 2018-07-18
EP3117606A4 (en) 2017-11-29
KR20160132862A (ko) 2016-11-21
EP3117606A1 (en) 2017-01-18

Similar Documents

Publication Publication Date Title
CN106471806B (zh) 3d-hevc中的简化移位合并候选者及合并列表导出
CN104904218B (zh) 视差矢量推导
CN104170380B (zh) 视频译码中的视差矢量预测
CN104956678B (zh) 用于三维视频的高级合并/跳过模式及高级运动向量预测(amvp)模式
CN105637870B (zh) 使用不对称运动分割的视频译码技术
CN105009586B (zh) 多视图或3维视频译码中的视图间残余预测
CN105580372B (zh) 用于3d视频译码的组合式双向预测合并候选者
CN104769949B (zh) 用于视差向量导出的图片的选择的方法和装置
CN105379282B (zh) 用于纹理译码的先进残余预测(arp)的方法和设备
CN105874799B (zh) 用于3d视频译码的基于块的高级残差预测
CN105359530B (zh) 面向深度的视图间运动向量预测
CN104904213B (zh) 可缩放及多视角视频译码中的高级残差预测
CN106797477B (zh) 用于解码及编码视频数据的方法和设备
CN107211156B (zh) 一种译码视频数据的方法、装置及计算机可读存储媒体
CN105393538B (zh) 用于视频编解码的方法、装置及计算机可读存储介质
CN105052146B (zh) 对3d视频译码中的视差向量导出和运动向量预测的简化
CN106576171B (zh) 一种对视频数据进行编码、解码的方法以及装置
CN104322070B (zh) 用于高效率视频译码的高级别语法扩展
CN106797476B (zh) 用于编码/解码视频数据的方法和视频解码装置
CN105379288B (zh) 处理对视频译码的照明补偿
CN104170381B (zh) 在高效率视频译码及其扩展中的运动矢量译码及双向预测
CN104662909B (zh) 用于3d视频的视图间运动预测
CN105556969B (zh) 视频译码中使用视差向量的块识别
CN104303502B (zh) 对多视图视频数据进行编码、解码和译码的方法、装置及计算机可读存储介质
CN105027571B (zh) 三维视频译码中导出的视差向量

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant