CN103907347B - 多视图视频编码和解码 - Google Patents

多视图视频编码和解码 Download PDF

Info

Publication number
CN103907347B
CN103907347B CN201280052535.2A CN201280052535A CN103907347B CN 103907347 B CN103907347 B CN 103907347B CN 201280052535 A CN201280052535 A CN 201280052535A CN 103907347 B CN103907347 B CN 103907347B
Authority
CN
China
Prior art keywords
view
picture
prediction
encoded
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280052535.2A
Other languages
English (en)
Other versions
CN103907347A (zh
Inventor
M·汉努卡塞拉
D·卢萨诺维斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN103907347A publication Critical patent/CN103907347A/zh
Application granted granted Critical
Publication of CN103907347B publication Critical patent/CN103907347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种方法、设备、服务器、客户端和非瞬时性计算机可读介质,所述非瞬时性计算机可读介质包括:存储其中用于多视图视频编码和解码的计算机程序。视图随机存取(VRA)图片或存取单元被编码进多视图比特流中。VRA图片使得能够开始对所述比特流中存在的视图子集的解码。选定为在VRA图片中可存取的视图在连续的VRA图片中交替出现,从而当两个或多个VRA图片已被解码时所有视图被逐步重建。

Description

多视图视频编码和解码
技术领域
本发明涉及一种用于多视图编码的方法、设备、服务器、客户端和非瞬时性计算机可读介质,所述非瞬时性计算机可读介质包括存储其中的计算机程序。
背景技术
本部分旨在为权利要求所述的本发明提供背景或上下文。这里的描述可包括能够被追溯的概念,但不一定是那些之前已经预想或实现描述概念。因此,除非本文另有注明,否则本部分所述的内容不是本申请说明书和权利要求的现有技术,并且不会因为包含在本部分中而承认是现有技术。
数字视频编码的发展使得视频能够应用于个人通信中,比如:基于移动通信网络实现视频电话、捕获并分享个人数字视频以及使用互联网服务中可用的视频内容。同时,从将色彩加入移动图片之后,最显著的突破可能发生了:可以按照三维方式从不同视角观看移动图片。此外,数字视频编码使得该技术能够用于个人广泛使用。
为促进视频内容在一种或多种网络中传播,已开发出了多种编码标准。视频编码标准包括:ITU-TH.261、ISO/IEC MPEG-1Video、ITU-T H.262或ISO/IEC MPEG-2Video、ITU-T H.263、ISO/IEC MPEG-4Visual;ITU-T H.264(也称为ISO/IEC MPEG-4AVC)、H.264/AVC的可伸缩视频编码(SVC)扩展、以及H.264/AVC的多视图视频编码(MVC)扩展。此外,当前正在努力开发新的视频编码标准。
高级视频编码(H.264/AVC)标准在数字视频应用领域中广泛使用。称为多视图视频编码(MVC)的多视图扩展被标准化为H.264/AVC的附件。MVC比特流的基本视图可通过任意H.264/AVC解码器解码,这有助于将立体的多视图内容引入现有服务中。MVC实现了视图间预测,这在依赖于相邻视图之间的相关性的前提下,相比于对所有视图进行独立编码节省了比特率。因为无新的低级编码工具引入MVC,所以就MVC而言,H.264/AVC的现有硬件实现通常适用。
许多用于多视图视频的显示装置均基于将不同图像绘制到观众的左右眼。例如,虽然通常能从不同位置或角度观看屏幕,但是当使用数据眼镜或自动立体显示器时,在典型MVC应用程序(如,3D电视)中每次仅能观看两个视图。
在多视图视频编码中,将从各个与不同视图相对应的不同摄像机中输出的视频序列编码至一个比特流中。解码后,为了显示特定视图,对属于该视图的解码图片进行重建并显示。也有可能对一个以上的视图进行重建并显示。
多视图视频编码具有多种多样的应用,包括:自由视点视频/电视、3D电视和监视。
由于多视图视频编码越来越流行且其应用也不断增加,因此需要进一步提高多视图视频编码效率和质量的解决方案。
发明内容
现在,已发明了一种改进型方法以及实施所述方法的技术设备,上述问题通过所述改进型方法和技术设备得以缓和。视图随机存取(VRA)图片或存取单元被编码进多视图比特流。VRA图片使得能够开始对比特流中存在的视图子集的解码。选定为可存取在VRA图片中的视图在连续地VRA图片中交替出现,从而当两个或多个VRA图片已被解码时所有视图被逐步重建。若使用多视图加深度(MVD)或相似编码排列,那么在已经接收足够数量的VRA图片之前不能解码的视图可被合成。
本发明的各个方面包括方法、设备、服务器、客户端及包括存储其中的计算机程序的非瞬时性计算机可读介质。
根据本发明的第一方面,提供了一种方法,其包括:
将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元;
确定用于所述至少一个比特流的随机存取位置;
将来自所述第一序列的第三图片和来自所述第二序列的第四图片编码进所述至少一个比特流的第二存取单元,所述第二存取单元跟随在所述随机存取位置之后,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
在某些实施例中,可使用预测来将深度图片编码进所述至少一个比特流中。
根据本发明的第二方面,提供了一种装置,其包括:至少一个处理器和包括计算机程序代码的存储器,所述存储器和所述计算机程序代码配置为与所述至少一个处理器一起来使所述装置:
将来自第一序列的第一图片和来自第二序列的第二编码进至少一个比特流的第一存取单元;
确定用于所述至少一个比特流的随机存取位置;以及
将来自所述第一序列的第三图片和来自所述第二序列的第四图片编码进所述至少一个比特流的第二存取单元,所述第二存取单元跟随在所述随机存取位之后,所述第三图片被帧内编码且所述第四图片是根据所述第二图片中预测得到的。
根据本发明的第三方面,提供了一种包含在非瞬时性计算机可读介质中的计算机程序,所述计算机程序包括:当在至少一个处理器上执行时使至少一个装置执行以下步骤的指令:
将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元;
确定用于至少一个比特流的随机存取位置;以及
将来自所述第一序列的第三图片和来自所述第二序列的第四图片编码进所述至少一个比特流的第二存取单元,所述第二存取单元跟随在所述随机存取位置之后,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
在某些实施例中,使用预测来将深度图片编码进所述至少一个比特流中。
根据本发明的第四方面,提供了一种方法,其包括:
从至少一个比特流中推断第一随机存取位置,所述第一随机存取位置之后随有第一存取单元,所述第一存取单元包括来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述随机存取位置之前的图片预测得到的;
从所述第一随机存取位置开始解码;
解码所述第一编码图片;
解码来自所述第一视图的一个或多个后续编码图片。
在某些示例实施例中,从所述至少一个比特流中推断第二随机存取位置,所述第二随机存取位置之后随有第二存取单元,所述第二存取单元包括来自所述第一视图的第三编码图片和来自所述第二视图的第四编码图片,所述第四编码图片被帧内编码;
解码所述第三编码图片;以及
解码所述第四编码图片。
根据本发明的第五方面,提供了一种装置,其包括:至少一个处理器和包括计算机程序代码的存储器,所述存储器和所述计算机程序代码配置为何所述至少一个处理器一起使所述装置:
从至少一个比特流中推断第一随机存取位置,所述第一随机存取位置之后随有来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述随机存取位置之前的图片预测得到的,并且所述第一编码图片和所述第二编码图片表示第一时刻;
从所述第一随机存取位置开始解码;
解码所述第一编码图片;
解码来自所述第一视图的一个或多个后续编码图片。
根据本发明的第六方面,提供了一种包含在非瞬时性计算机可读介质中的计算机程序,所述计算机程序包括:当在至少一个处理器上执行时使至少一个装置执行以下步骤的指令:
从至少一个比特流中推断第一随机存取位置,所述第一随机存取位置之后随有来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述随机存取位置之前的图片预测得到的,并且所述第一编码图片和所述第二编码图片表示第一时刻;
从所述第一随机存取位置开始解码;
解码所述第一编码图片;
解码来自所述第一视图的一个或多个后续编码图片。
根据本发明的第七方面,提供了一种装置,其包括:
编码元件,其配置为将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元中;
测定仪,其配置为确定用于所述至少一个比特流的随机存取位置;以及
所述编码元件进一步配置为将来自所述第一序列的第三图片和来自所述第二序列的第四图片编码进所述至少一个比特流的第二存取单元,所述第二存取单元跟随在所述随机存取位置之后,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
根据本发明的第八方面,提供了一种装置,其包括:
测定仪,其配置为从至少一个比特流中推断第一随机存取位置,所述第一随机存取位置之后随有来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述随机存取位置之前的图片预测得到的;
配置为从所述第一随机存取位置开始解码的元件;
解码元件,其配置为解码所述第一编码图片和来自所述第一视图的一个或多个后续编码图片。
根据本发明的第九方面,提供了一种装置,其包括:将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元的部件;
确定用于所述至少一个比特流的随机存取位置的部件;以及
将来自所述第一序列的第三图片和来自所述第二序列的第四图片编码进所述至少一个比特流的第二存取单元的部件,所述第二存取单元跟随在所述随机存取位置之后,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
根据本发明的第十方面,提供了一种装置,其包括:
从至少一个比特流中推断第一随机存取位置的部件,所述第一随机存取位置之后随有来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述随机存取位置之前的图片预测得到的,以及所述第一编码图片和所述第二编码图片表示第一时刻;
从所述第一随机存取位置开始解码的部件;
解码所述第一编码图片的部件;
解码来自所述第一视图的一个或多个后续编码图片的部件。
附图说明
在下文中,将参考所附附图对本发明的多个实施例进行详细描述,在附图中:
图1举例说明了带时间可扩展性的示例性分层编码结构;
图2举例说明了示例性MVC解码顺序;
图3举例说明了用于多视图视频编码的示例性MVC预测结构;
图4是可实施本发明的多个实施例的***的概况图;
图5举例说明了可依照本发明的各个实施例进行利用的示例性电子装置的透视图;
图6为可包括在图5所示电子装置中的电路的示意图;
图7为可实施多个实施例的普通多媒体通信***的图示;
图8为根据示例实施例的编码器的操作流程图;
图9为根据示例实施例的解码器的操作流程图;
图10图示了根据本发明示例实施例的编码器;
图11图示了根据本发明示例实施例的解码器;
图12示出了立体摄像机设置的简化2D模型;
图13示出了这种多视图摄像机设置的简化模型;
图14示出了多视图自动立体显示器的简化模型;
图15图示了用于多视图应用程序的以基于深度图像的绘制为基础的三维视觉解决方案的示例;
图16示出了根据ISO基本媒体文件格式的简化文件结构;
图17提供了简化框层级,该框层级指示了用于样本组框的嵌套结构;
图18举例说明了包含电影片段的文件的示例,该电影片段包括SampleToGroup框;
图19a举例说明了用于立体编码的编码方案的示例;
图19b举例说明了用于立体编码的编码方案的另一示例;
图19c举例说明了用于立体编码的编码方案的第三示例;
图19d举例说明了具有画中画视图间预测分层的3-视图比特流中的编码方案的示例;
图19e举例说明了具有IBP视图间预测分层的3-视图比特流中的编码方案的示例;
图19f举例说明了具有不与MVC兼容的IBP视图间预测分层的3-视图比特流中的编码方案的示例;以及
图20举例说明了利用在回路视图合成将备选随机存取扩展至MVD***的示例。
具体实施方式
在下文中,将结合多视图视频编码和/或3D视频的上下文对本发明的多个实施例进行描述。下文所述的各个实施例大体上涉及图像和视频处理。
本部分对H.264/AVC的某些关键定义、比特流、编码结构及概念进行了描述,作为其中可实施实施例的视频编码器、解码器、编码方法、解码方法以及比特流结构的示例。本发明的各个方面不限于H.264/AVC,相反,本说明是基于一个可依据的基础而提供的,在该基础上,本发明可部分或全部实现。
与许多早期视频编码标准相似,H.264/AVC规定了比特流语法和语义以及用于零误差比特流的解码过程。虽然未规定编码过程,但是编码器应生成一致的比特流。可用假定参考解码器(HRD)来验证比特流和解码器的一致性,H.264/AVC的附件C对其进行了规定。该标准包含有助于应对传输误差和丢失的编码工具,但是这些工具在编码中的使用是可选的,且未对错误的比特流规定解码过程。
用于进入H.264/AVC编码器的输入以及来自H.264/AVC解码器的输出的基本单位是图片。图片可以是帧或是场。帧可包括亮度样本和相应色度样本的矩阵。场是帧的交替的样本行的集合,且当源信号被隔行时可用作编码器输入。宏块为16x16的亮度样本块和相应的色度样本块。与亮度图片相比,色度图片可以被二次采样。例如,在4:2:0的采样模式中,沿着两条坐标轴,色度图片的空间分辨率是亮度图片的空间分辨率的一半,因此,宏块每色度成分包含一个8x8的色度样本块。一张图片可划分为一个或多个片组,一个片组包含一个或多个片(slice)。一个片包括整数个宏块,这些宏块以光栅扫描顺序连续地排列在具体片组内。
H.264/AVC编码器的输出以及H.264/AVC解码器的输入的基本单位是网络提取层(NAL)单元。对部分或损坏的NAL单元进行解码相当困难。为了在面向分组的网络上进行传输或储存进结构文件中,NAL单元可封装在数据包或类似结构中。中H.264/AVC中已经为不提供组帧结构的传输或储存上下文规定了字节流格式。字节流格式通过在每个NAL单元前附连起始码来将NAL单元彼此分开。为避免NAL单元边界的错误检测,编码器可运行面向字节的起始码仿真预防算法,如果出现起始码,该算法向NAL单元有效载荷增加仿真预防字节。为了能够在面向分组的***和面向流的***之间进行直接的网关操作,往往是不管是否使用了字节流格式,都执行起始码仿真预防。
与许多其他视频编码标准一样,H.264/AVC能将编码图片分割为多个片。图内预测不能跨过片边界。因此,片可当做是将编码图片分割为独立可解码部分的一种方式,因此,片为用于传输的基本单位。
某些H.264/AVC的简档文件能够使每个编码图片使用多达八个片组。当使用一个以上的片组时,图片被划分为片组映射单元,当使用宏块自适应帧-场(MBAFF)编码时,这些片组映射单元等同于两个垂直连续的宏块,否则等同于一个宏块。图片参数集包含数据,基于该数据,图片的每个片组映射单元与具体的片组相关联。片组可包含任意的片组映射单元,包括非相邻映射单元。当为图片指定一个以上的片组时,采用该标准的灵活宏块排序(FMO)机制。
在H.264/AVC中,一个片由以光栅扫描顺序位于具体片组中的一个或多个连续宏块(或者,当使用MBAFF时,为宏块对)组成。如果仅使用一个片组,H.264/AVC片则包含光栅扫描顺序的连续宏块,因此,与许多先前编码标准中的片相似。在某些H.264/AVC的简档中,编码图片的片可按照相对于彼此的任意顺序出现比特流中,这称为任意片顺序(ASO)机制。否则,片必须以光栅扫描顺序位于比特流中。
NAL单元由报头和有效载荷组成。NAL单元报头指示NAL单元的类型以及NAL单元中包含的编码片是否为参考图片或非参考图片的一部分。用于SVC和MVC NAL单元的报头还包含与可扩展性和多视图层级相关的各种指示。
H.264/AVC的比特流语法指示特定图片是否为用于其他任意图片的帧间预测的参考图片。因此,不用于预测的图片、非参考图片均可被安全处理。任意编码类型(I、P、B)的图片都可以是H.264/AVC中的参考图片或非参考图片。NAL单元报头指示NAL单元的类型以及NAL单元中包含的编码片是否为参考图片或非参考图片的一部分。
许多混合视频编解码器,包括H.264/AVC,分两个阶段来编码视频信息。在第一阶段中,预测特定图片区域或“块”中的像素或样本值。这些像素或样本值可通过例如运动补偿机制进行预测,该运动补偿机制涉及:发现并指示先前被编码的视频帧中与正被编码的块密切对应的区域。此外,像素或样本值可通过空间机制预测,该空间机制涉及:发现并指示空间区域关系。
利用来自先前被编码的图像的图像信息的预测方法也可称为帧间预测方法,该方法还可称为时间预测和运动补偿。利用相同图像内的图像信息的预测方法还可称为帧内预测方法。
在许多视频编码***中,包括H.264/AVC,对像素或样本的预测块与像素或样本的原始块之间的误差进行编码。这可通过使用规定的变换来变换像素或样本值的差值来实现。这种变换可以是离散余弦变换(DCT)或其变体。在变换差值之后,将变换的差值量化并熵编码。
通过改变量化处理的保真度,编码器可控制在像素或样本表示的准确性(即,图片的视觉质量)和由此产生的编码视频表示的大小(即,文件大小或传输比特率)之间的平衡。在H.264/AVC中,量化参数(QP)用于控制量化步长,由此控制量化处理的保真度。
解码器通过采用与编码器所使用的预测机制相似的预测机制,来重建输出视频,以(利用由编码器创建并储存在图像的压缩表示中的运动或空间信息)形成像素或样本块的预测表示以及预测误差解码(预测误差编码的逆运算以在空间域中恢复量化的预测误差信号)。
在采用像素或样本预测和误差解码过程之后,解码器将预测和预测误差信号(像素或样本值)合并以形成输出视频帧。
解码器(及编码器)还可采用附加的过滤过程,以便在将输出视频进行显示和/或将其存储为视频序列中即将到来的图片的预测参考之前,提高输出视频的质量。
在许多视频编解码器中,包括H.264/AVC,运动信息由与每个运动补偿图像块相关联的运动矢量指示。这些运动矢量中的每一个表示待编码(在编码器中)或待解码(在解码器处)图片中的图像块的位移以及在先前被编码或解码的图像(或图片)中的一个中的预测源块。作为许多其他视频压缩标准,H.264/AVC将一个图片划分到矩形的网格中,对于矩形中的每一个,参考图片中的一个中的相似块被指示用于帧间预测。预测块的位置被编码为运动矢量,该运动矢量指示预测块相较于正被编码的块的位置。
H.264/AVC使得能够使用P片和SP片(本文称为单向预测片)中单个预测块,或使用用于双向预测片的两个运动补偿预测块的线性组合成,该双向预测片还称为B片。B片中的个体块可以被双向预测、单向预测或帧内预测,而P片或SP片中的个体块可以被单向预测或帧内预测。在H.264/AVC中,双向预测图片的参考图片不限于按照输出顺序的后续图片和先前图片,相反可使用任意的参考图片。
H.264/AVC规定了用于解码参考图片标记的过程,以控制解码器中的存储器消耗。用于帧内预测的参考图片的最大数量(称为M)被确定在序列参数集中。在解码参考图片时,参考图片标记为“用于参考”。如果参考图片的解码致使多于M个的图片被标记为“用于参考”,那么至少一个图片标记为“不用于参考”。用于解码参考图片标记的操作方式有两种:自适应存储器控制和滑动窗。用于解码参考图片标记的操作模式基于图片进行选择。自适应存储器控制能实现图片标记为“不用于参考”的显式信令,还可将长期索引分配给短期参考图片。自适应存储器控制可能需要比特流中存在存储器管理控制操作(MMCO)参数。如果使用滑动窗操作模式且有M个图片标记为“用于参考”,那么将作为标记为“用于参考”的短期参考图片中的第一解码图片的短期参考图片标记为“不用于参考”。换言之,滑动窗操作模式在短期参考图片之间引起先进先出的缓冲操作。
H.264/AVC中的存储器管理控制操作之一致使除了当前图片之外的所有参考图片都标记为“不用于参考”。瞬时解码刷新(IDR)图片仅包含帧内编码片并使参考图片产生类似“复位”的操作。
用于帧间预测的参考图片由对于参考图片列表的索引指示。该索引可用可变长度编码进行编码,例如,索引越小,相应的语法元素越短。为H.264/AVC的每个双向预测片生成两个参考图片列表(参考图片列表0和参考图片列表1),且为H.264/AVC的每个帧间编码的(P或SP)片形成一个参考图片列表(参考图片列表0)。通过两步建立一个参考图片列表:首先,生成初始参考图片列表,然后,可用片报头包含的参考图片列表重新排序(RPLR)命令将该初始参考图片列表重新排序。RPLR命令指示排序至各个参考图片列表开头的图片。
与多个参考图片相关的各种解码过程使用frame_num(帧号)语法元素。在H.264/AVC中,用于IDR图片的帧号的值为0。用于非IDR图片的帧号的值与按照解码顺序的先前参考图片的帧号增加1相等(在模运算中,即,在最大帧号之后,帧号的值叠起到0)。
可为各个图片衍生出图片序列号(POC)的值,相对于先前的IDR图片或包含将所有图片标记为“不用于参考”的存储器管理控制操作的图片,图片序列号不会随着输出顺序中的图片位置的增加而减少。因此,图片序列号指示图片的输出顺序。图片序列号还可用于针对双向预测片的时间直接模式下的运动矢量的隐式缩放、针对加权预测中的隐式衍生权重、以及针对B片的参考图片列表初始化的解码过程中。此外,图片序列号可用于验证输出顺序一致性。
假定参考解码器(HRD)可用于检查比特流和解码器一致性。HRD可包含编码图片缓冲器(CPB)、瞬时解码过程、解码图片缓冲器(DPB)以及输出图片剪切块。CPB和瞬时解码过程被规定为与任意其他的视频编码标准类似,输出图片剪切块仅对来自位于信号传送的输出图片范围之外的解码图片的样本进行剪切。
HRD中的编码图片缓冲操作可简化如下。假设比特以恒定的到达比特率进入CPB。因此,编码图片或存取单元与初始到达时间相关联,该初始到达时间指示编码图片或存取单元的第一比特进入CPB的时间。此外,假设编码图片或存取单元在编码图片或存取单元的最后一个比特***CPB且随后各自的解码图片***DPB时将被瞬间移除,因此模拟了瞬时解码。这个时间称为编码图片或存取单元的移除时间。例如,编码视频序列的第一编码图片的移除时间一般使用例如缓冲周期补充增强信息(SEI)消息进行控制。所谓的初始编码图片移除时延确保:相对于用于填入CPB中的恒定比特率,编码比特率的任意变更不会引起CPB的不足或溢出。要理解,HRD的操作比起本文所述的稍显复杂,例如,其具有低时延操作模式以及在多种不同的恒定比特率下操作的能力。
DPB用于控制解码一致比特流所需的存储器资源。缓冲解码图片有两个原因,用于帧间预测的参考以及用于将解码图片重排序至输出顺序。由于H.264/AVC为参考图片标记和输出重排序提供了大量的灵活性,所以用于参考图片缓冲和输出图片缓冲的分开的缓冲区就是浪费存储器资源。因此,DPB包括用于参考图片和输出重排序的统一解码图片缓冲过程。当解码图片不再用作参考以及不再需要输出时,从DPB移除中解码图片。H.264/AVC的级别定义(附加A)中规定了允许比特流使用的DPB的最大容量。
解码器的一致性具有两种类型:输出定时一致性和输出顺序一致性。对于输出定时一致性,与HRD相比,解码器在相同的时间输出图片。对于输出顺序一致性,仅考虑输出图片的正确顺序。假定输出顺序DPB包含最大允许数量的帧缓冲器。当帧不再用作参考以及不再需要输出时,从DPB移除帧。当DPB容量满时,将按照输出顺序的最早的帧输出,直到空出至少一个帧缓冲器。
图片定时和HRD的操作可由两个补充增强信息(SEI)消息控制:缓冲周期SEI消息和图片定时SEI消息。缓冲周期SEI消息指定了初始CPB移除时延。图片定时SEI消息指定了与HRD操作以及解码图片的输出时间相关的其他时延(cpb_removal_delay(CPB移除时延)和dpb_removal_delay(DPB移除时延))。缓冲周期SEI消息和图片定时SEI消息还可通过其他手段传输,不需包括在H.264/AVC比特流中。
NAL单元可分为视频编码层(VCL)NAL单元和非VCL NAL单元。VCL NAL单元为编码片NAL单元、编码片数据分区NAL单元或VCL前缀NAL单元。编码片NAL单元包含表示一个或多个编码宏块的语法元素,宏块中的每一个对应于未压缩图片中的样本块。编码片NAL单元有四种类型:瞬时解码刷新(IDR)图片中的编码片、非IDR图片中的编码片、辅助编码图片(比如,α平面)的编码片以及编码片延伸(对于在可扩展或多视图扩展中的编码片)。三个编码片数据分区NAL单元的集合包含与编码片相同的语法元素。编码片数据分区A包括宏块报头和片的运动矢量,而编码片数据分区B和C分别包括用于宏块内和宏块间的编码残差数据。VCL前缀NAL单元位于SVC比特流中基层的编码片之前,且包含关联编码片的可扩展性层级的指示。
非VCL NAL单元可为以下类型中的一种:序列参数集、图片参数集、补充增强信息(SEI)NAL单元、存取单元定界符、序列结尾NAL单元、流结尾NAL单元或填充数据NAL单元。解码图片的重建可能需要参数集,然而,其他非VCL NAL单元对于重建解码样本值并非必要,而是用于其他目的。
为了鲁棒地偶尔发送变化的编码参数,H.264/AVC采用了参数集机制。将整个编码视频序列中保持不变的参数包括在序列参数集中。除了解码处理所必需的参数之外,序列参数集可选择地包含视频可用性信息(VUI),其包括对缓冲、图片输出定时、绘制和资源预留十分重要的参数。图片参数集包含了在几个编码图片中很可能未改变的参数。H.264/AVC比特流中不存在图片报头,但是在各个片报头中重复频繁改变的图片级数据,图片参数集载有剩下的图片级参数。H.264/AVC语法允许很多序列和图片参数集的实例,且各个实例采用唯一的标识符进行识别。各个片报头包括图片参数集的标识符,该图片参数集是有效的以便对包含片的图片进行解码,各个图片参数集包含有效序列参数集的标识符。因此,图片和序列参数集的传输不必与片的传输精确同步。相反,只需要在图片和序列参数集被参考前的任意时刻接收该有效的图片和序列参数集即可,这就允许使用与用于片数据的协议相比更可靠的传输机制来传输参数集。例如,参数集可作为参数包括在用于H.264/AVC RTP会话的会话描述中。可使用带外的可靠传输机制,只要其可以应用到正在使用的应用程序中。如果参数集通过带内传输,那么参数集可被重复以便提高误差鲁棒性。
SEL NAL单元包含一个或多个SEI消息,这些SEI消息对于输出图片的解码并非必需,但是其有助于相关处理,比如,图片输出定时、绘制、错误检测、错误掩盖和资源预留。H.264/AVC中指定了多个SEI消息,用户数据SEI消息使机构和公司能够指定SEI消息以方便其使用。H.264/AVC包含用在指定SEI消息的语法和语义,但是没有定义用于在接收方中操作消息的处理过程。因此,编码器在其创建SEI消息时可遵循H.264/AVC标准,遵循H.264/AVC标准的解码器不需要处理SEI消息以便保持输出顺序一致性。H.264/AVC包括SEI消息的语法和语义的原因之一是允许不同***规范同样地对补充信息进行解释,从而进行交互操作。其意图是:***规范可要求在编码端和解码端中均使用特定SEI消息,此外,可指定在接收方中用于处理特定SEI消息的过程。
在H.264/AVC中编码图片包括对图片进行解码所需的VCL NAL单元。编码图片可为主要编码图片或冗余编码图片。主要编码图片用在有效比特流的解码过程中,而冗余编码图片为冗余表示,该冗余表示仅在基本编码图片不能成功解码时被解码。
在H.264/AVC中,存取单元包括主要编码图片和与其相关联的NAL单元。存取单元的NAL单元按照解码顺序是连续的。除主要编码图片之外,存取单元还可包含一个或多个冗余编码图片、一个辅助编码图片或其他不包含编码图片的片或片数据划分的NAL单元。存取单元的解码可产生解码图片。存取单元中的NAL单元的出现顺序可作如下限制。可选的存取单元定界符NAL单元可指示存取单元的开始。其后随有零个或多个SEI NAL单元。主要编码图片的编码片或片数据划分紧接着出现,之后是用于零个或多个冗余编码图片的编码片。
编码视频序列定义为按照解码顺序的连续存取单元序列,从IDR存取单元(包括IDR存取单元)到下一个IDR存取单元(不包括下一个IDR存取单元),或到比特流的末端,看哪一个较早出现。
可扩展编码和SVC
H.264/AVC能实现分层的时间可扩展性。其延伸的SVC和MVC提供某些附加指示,尤其是NAL单元报头中的temporal_id语法元素,该temporal_id语法元素使时间可扩展性的使用更加直截了当。时间可扩展性通过提供帧速率调节的灵活性,改善了时域中的视频质量。在后续段落中将对SVC提供的不同类型的可扩展性进行综述,下文中将进一步对时间可扩展性进行详细综述。
在可扩展视频编码中,视频信号可被解码至基本层和一个或多个增强层中。增强层增强时间分辨率(即,帧速率)、空间分辨率、或仅仅由另一层或另一层的部分表示的视频内容的质量。每一个层连同其所有从属层是按照特定空间分辨率、时间分辨率和质量级别的对视频信号的一种表示。在本申请中,可扩展层连同其所有从属层称为“可扩展层表示”。与可扩展层表示相对应的可扩展比特流的一部分可被提取并解码,以产生特定保真度的原始信号的表示。
在某些情况下,增强层中的数据可在特定位置之后或者甚至是在任意位置处截断,其中,每一个截断位置可包括表示逐渐增强的视觉质量的附加数据。这种可扩展性称为细粒度(颗粒度)的可扩展性(FGS)。与FGS相比,由不能被截断的增强层提供的可扩展性称为粗粒度(颗粒度)的可扩展性(CGS)。CGS共同包括传统质量(SNR)可扩展性和空间可扩展性。SVC草案标准还支持所谓的中粒度可扩展性(MGS),其中,如SNR可扩展层图片一样,对质量增强图片进行编码,但是通过使quality_id语法元素大于0,来类似于FGS层图片那样由高级别语法元素指示质量增强图片。
SVC使用层间预测机制,其中,可以根据除了当前重建的层或者下一更低层之外的层来预测特定信息。可以层间预测的信息包括内部纹理、运动和残差数据。层间运动预测包括对块编码模式、报头信息等的预测,其中来自更低层的运动信息可以用于更高层的预测。在帧内编码的情况下,以周围宏块或者以更低层的同位宏块为根据的预测是可能的。这些预测技术没有使用来自早期编码存取单元中的信息,因此被称为帧内预测技术。另外,来自更低层的残差数据也可以用于当前层的预测。
在SVC中的可扩展性结构的特征在于三个语法元素:“temporal_id”、“dependency_id”和“quality_id”。语法元素“temporal_id”用于指示时间可扩展性分层或间接地指示帧速率。包括较小的“temporal_id”最大值的图片的可扩展层表示与包括较大的“temporal_id”最大值的图片的可扩展层表示相比,具有的帧速率较小。给定时间层可依赖于更低时间层(即,具有较小“temporal_id”值的时间层),但不依赖于任意更高时间层。语法元素“dependency_id”用于指示CGS层间编码依赖分层(如先前所述,其包括SNR和空间可扩展性)。在任意时间级位置,较小“dependency_id”值的图片可用于对较大“dependency_id”值的图片的编码进行层间预测。语法元素“quality_id”用于指示FGS或MGS层的质量级别分层。在任意时间位置,且具有相同“dependency_id”值时,具有与QL相等的“quality_id”的图片采用具有与QL-1相等的“quality_id”的图片进行层间预测。具有大于0的“quality_id”的编码片可被编码为可截断的FGS片或非可截断的MGS片。
为简洁起见,将一个存取单元中具有相同“dependency_id”值的所有数据单元(例如,SVC上下文中的网络提取层单元或NAL单元)称为依赖单元或依赖表示。在一个依赖单元中,所有具有相同“quality_id”值的数据单元均称为质量单元或层表示。
基本表示,也称为解码基本图片或参考基本图片,是由解码依赖单元的视频编码层(VCL)NAL单元而产生的解码图片,该依赖单元的“quality_id”等于0且“store_ref_base_pic_flag”设为1。增强表示,也称为解码图片,由常规解码过程产生,其中,针对最高依赖表示呈现的所有层表示都被解码。
在SVC比特流中,每一个H.264/AVC VCL NAL单元(NAL单元类型介于1-5范围内)的前面都有前缀NAL单元。兼容的H.264/AVC解码器实施方式忽略了前缀NAL单元。前缀NAL单元包括“temporal_id”值,因此,对基本层进行解码的SVC解码器可从前缀NAL单元中获知时间可扩展性分层。此外,前缀NAL单元包括用于基本表示的参考图片标记指令。
SVC使用与H.264/AVC相同的机制来提供时间可扩展性。时间可扩展性通过提供帧速率调节的灵活性,改善了时域中的视频质量。在后续段落中将对时间可扩展性进行综述。
最早引入视频编码标准的可扩展性为MPEG-1Visual中利用B图片的时间可扩展性。在该B图片概念中,B图片为根据两张图片的双预测图片,其中一张图片按照显示顺序在B图片之前而另一张图片按照显示顺序在B图片之后。在双向预测中,将来自两张参考图片的两个预测块按照逐个样本进行平均以得到最终预测块。照惯例,B图片为非参考图片(即,不被其他图片用于帧间预测参考)。因此,可丢弃B图片以实现低帧速率的时间可扩展性点。MPEG-2Video、H.263和MPEG-4Visual中均沿用了同样的机制。
在H.264/AVC中,相比于MPEG-1Visual的概念,B图片或B片的概念已发生了变化。B片的定义如下:一种片,该类型的片可以通过使用帧内预测根据在相同片内的解码采样被解码,或通过使用帧间预测根据以前解码的图像被解码,最多使用两个运动矢量和参考帧索引以预测每个块的样本值。B片中的块可从按照显示顺序的相同或不同方向的两个参考图片中预测得到,包括B片的图片可被其他图片参考用于帧间预测。
在H.264/AVC、SVC和MVC中,时间可扩展性可通过使用非参考图片和/或分层帧间预测结构实现。通过丢弃非参考图片,仅使用非参考图片能够获得与在MPEG-1/2/4中使用常规的B图片相似的时间可扩展性。分层编码结构可实现更灵活的时间可扩展性。
现在参见图1,图1采用四个级别的时间可扩展性举例说明了分层编码结构。显示顺序通过表示为图片序列号(POC)210的值来指示。在时间级(TL)0的I或P图片,比如I/P图片212,也称为关键图片,被编码为按照解码顺序的图片组(GOP)的第一图片。当对关键图片(例如,关键图片216、218)进行帧间编码时,先前的关键图片212、216用作进行帧间预测的参考。这些图片与时间可扩展结构中的最低时间级220(在图中表示为TL)相对应,与最低帧速率相关联。较高时间级的图片仅可使用相同或较低时间级的图片进行帧间预测。根据这种分层的编码结构,与不同帧速率相对应的不同时间可扩展性可通过丢弃特定时间级值及该值以上的图片实现。在图1中,图片0、8和16均为最低时间级,而图片1、3、5、7、9、11、13和15均为最高时间级。其他图片被分层地分配有其他时间级。不同时间级的这些图片构成不同帧速率的比特流。当解码所有时间级时,得到帧速率30Hz(假定编码的原始序列的帧速率为30Hz)。其他帧速率可通过丢弃某些时间级的图片而得到。最低时间级的图片与帧速率3.75Hz相关联。具有较低时间级或较低帧速率的时间可扩展层也称为较低时间层。
上述分层B图片编码结构为用于时间可扩展性的最典型的编码结构。然而,要注意,可能存在更灵活的编码结构。例如,GOP大小并非总是随时间恒定的。在另一示例中,时间增强层图片不必编码为B片,还可编码为P片。
在H.264/AVC中,时间级可通过在子序列信息补充增强信息(SEI)消息中子序列层号以信号形式通知。在SVC和MVC中,时间级可通过语法元素“temporal_id”在网络提取层(NAL)单元报头中以信号形式通知。用于每个时间级的比特率和帧速率信息可以在可扩展性信息SEI消息中以信号形式通知。
多视图视频编码(MVC)
在多视图视频编码中,不同视图的视频序列(每个序列例如与不同的摄像机相对应)编码进一个比特流。解码后,为了显示特定视图,对属于该视图的解码图片进行重建并显示。也有可能对一个以上的视图进行重建和显示。
多视图视频编码有各种各样的应用,包括:自由视点视频/电视、3D电视和监视。
MVC中的存取单元定义为NAL单元的集合,这些NAL单元按照解码顺序是连续存在的且实际包含由一个或多个视图组件组成的一个主要编码图片。除了主要编码图片之外,存取单元还可包含一个或多个冗余编码图片、一个辅助编码图片或其他不包含编码图片的片或片数据划分的NAL单元。存取单元的解码可产生由一个或多个解码视图组件组成的一个解码图片。换言之,MVC中的存取单元可包含对于一个输出时间实例的视图的视图组件。
MVC中的视图组件称为单个存取单元中的视图的编码表示。另一锚定图片(anchorpicture)为编码图片,其中,所有片只可参考同一存取单元中的片,即,可使用视图间预测,但不能使用帧间预测,并且所有按照输出顺序的随后的编码图片不使用根据按照解码顺序在编码图片之前的任意图片的帧间预测。视图间预测可用于作为非基本视图的一部分的IDR视图组件。MVC中的基本视图是在编码视频序列中具有最小视图顺序索引值的视图。基本视图可独立于其他视图而解码,且不使用视图间预测。基本视图可由支持仅单个视图简档的H.264/AVC解码器解码,比如,H.264/AVC的基准简档和高级简档。
现在参见图3,图3举例说明了用于多视图视频编码的示例性MVC预测(包括每个视图内的帧间预测和视图间预测)结构。在所示结构中,预测用箭头指示,指向的对象采用始端对象进行预测参考。
锚定图片是这样的编码图片,其中所有片只参考具有相同时间索引的片,即,仅在其他视图中的片,而非在当前视图的早前图片中的片。锚定图片可通过将“anchor_pic_flag”设为1以信号形式通知。在解码锚定图片之后,可对按照显示顺序的所有随后的编码图片进行解码,而不需要根据锚定图片之前的任意图片进行帧间预测。如果视图组件的“anchor_pic_flag”等于1,那么在同一存取单元中的所有视图组件的“anchor_pic_flag”也可等于1。因此,任意视图的解码可从与锚定图片相对应的时间索引处开始。“anchor_pic_flag”等于0的图片命名为非锚定图片。
在MVC中,序列参数集(SPS)MVC扩展中规定了视图依赖性。对于锚定图片和非锚定图片的依赖性被分开指定。因此,锚定图片和非锚定图片可具有不同的视图依赖性。然而,对于参考同一SPS的图片集,所有锚定图片具有相同的视图依赖性,且所有非锚定图片具有相同的视图依赖性。而且,在SPS MVC扩展中,分别针对在参考图片列表0中用作参考图片的视图和针对在参考图片列表1中用作参考图片的视图,以信号形式通知依赖视图。
在MVC中,在网络提取层(NAL)单元报头中存在“inter_view_flag”,其指示当前图片是否未被使用于或是否被允许用于针对其他视图中的图片的视图间预测。用作视图间预测参考(即,“inter_view_flag”等于1)的非参考图片(“nal_ref_idc”等于0)称为仅用于视图间的参考图片。“nal_ref_idc”大于0且用于视图间预测参考(即,“inter_view_flag”等于1)的图片称为视图间参考图片。
在MVC中,视图间预测由纹理预测(即,重建样本值可用于视图间预测)支持,仅有作为当前视图组件的同一输出时间实例(即,同一存取单元)的解码视图组件被用于视图间预测。重建样本值用于视图间预测这一事实也意味着MVC利用多回路解码。换言之,为每个视图执行运动补偿和解码视图组件重建。
在MVC标准中,通过采用“视图组件”、“帧视图组件”和“场视图组件”分别替代在H.264/AVC标准的子过程规范中的术语“图片”、“帧”和“场”,MVC解码过程的许多子过程使用H.264/AVC标准的相应子过程。同样地,在下文中通常使用术语“图片”、“帧”和“场”来分别表示“视图组件”、“帧视图组件”和“场视图组件”。
在MVC中构建参考图片列表的过程概括如下。第一,通过两步生成初始参考图片列表:i)构建初始参考图片列表,包括:所有标记为“用于参考”且属于与当前片相同的视图的短期和长期参考图片,如H.264/AVC一样。为简洁起见,将这些短期和长期参考图片均命名为视图内参考;ii)然后,根据活跃SPS中指示的视图依赖性顺序和“inter_view_flag”,将视图间参考图片和仅用于视图间的参考图片附在视图内参考之后,以形成初始参考图片列表。
在MVC中生成初始参考图片列表之后,初始参考图片列表可通过参考图片列表重排序(RPLP)命令进行重排序,该RPLP命令可以被包括在片报头中。RPLR过程可将视图内参考图片、视图间参考图片和仅用于视图间的参考图片重排序为与初始列表中的顺序不同的顺序。初始列表和在重排序之后的最终列表必须包含一定数量的条目,这些条目由片报头或被片参考的图片参数集中的语法元素指示。
与H.264/AVC相同,在MVC中为每个视图独立地执行参考图片标记,如同比特流中不存在其他视图一样。
MVC中的DPB操作与H.264/AVC类似,除下述之外。用于视图间预测参考的非参考图片(“nal_ref_idc”等于0)称为仅用于视图间的参考图片,术语“视图间参考图片”仅指“nal_ref_idc”大于0且用于视图间预测参考的图片。在MVC的某些草案版本中,将仅用于视图间的参考图片标记为“用于参考”,存储在DPB中,在解码存取单元之后隐含地标记为“不用于参考”,且当其不再需要用于输出和视图间参考时被隐含地从DPB中移除。
在MVC编码片中,在NAL(网络提取层)单元的首字节之后紧接着的是NAL单元报头延展(3字节)。NAL单元报头延展包括描述MVC上下文中NAL单元的属性的语法元素。
MVC可扩展嵌套SEI消息可用于包含其他SEI消息,该其他SEI消息通常指定为单个视图(H.264/AVC)使用。MVC可扩展嵌套SEI消息指示适用于所包含的SEI消息的view_id值。
虽然MVC可将多视图视频编码至单个比特流中,但也可采用其他编码多视图视频的方法。例如,可利用用于单视图视频编码器的编码器,比如,使用高级简档的H.264/AVC编码器,将每个视图编码至单独的比特流中。例如,可利用包括或引用带到比特流的容器型文件格式的恰当元数据,将比特流与视图关联并与多视图表示关联。
深度增强型视频
立体的显示和多视图显示在特征和典型视距上有所不同。因此,在编码比特流中的深度或视差范围可能与观看装置上的舒适深度范围不匹配。因此,多视图视频格式应可实现对绘制视图之间的视差进行绘制时间调节。在实际应用中,为实现这些目的,可从编码视图中合成一个或多个视图。下面对深度增强型视频进行综述。
纹理视图是指表示普通视频内容的视图,例如,该视图通过使用普通摄像机捕捉得到且通常合适于绘制到显示器上。
在下文中,假设我们要观看立体显示器上的立体视频内容。
立体视频内容由多对分别展示给观众左右眼的偏移图像组成。这些偏移图像可用具体的立体摄像机设置捕捉得到,且可在摄像机之间假定特定的立体基线距离。
图12示出了这类立体摄像机设置的简化2D模型。术语CI、C2注明了摄像机的中心位置,b为在两个摄像机的中心(立体基线)之间的距离,f为摄像机的焦距,X为在真实3D场景中被捕获到的对象。将真实世界的对象X投影于由摄像机C1和摄像机C2捕捉到的图像中的不同位置上,这些位置分别为x1和x2。在图像的绝对坐标中x1和x2之间的水平距离被称为视差。
用这类摄像机设置捕捉到的图像称为立体图像。这些图像中出现的视差会创建或增强深度的错觉。
然而,立体显示器可能在诸如视距和视差位移等特点上彼此不同。因此,在显示的立体视频中的深度或视差范围可能与观看装置上的舒适深度范围不匹配。这些参数的不匹配可能会降低立体体验,甚至会使观众眼睛疲劳或感到恶心。为了避免这些不良效应,立体显示应能够自动地调节立体内容中的视差,或经要求将该功能提供给观众。
然而,视差调节并非一个简单明了的过程。其可能需要具有不同基线距离(b为变量)的附加摄像机视图或者需要对真实世界中不存在的虚拟摄像机视图进行绘制。图13示出了这种适合于该解决方案的多视图摄像机设置的简化模型。该设置能够提供立体视频内容,该立体视频内容是利用针对立体基线的几个离散值捕捉得到的,因此使立体显示能够选择一对适合于观看条件的摄像机。
一种更先进的用于在客厅实现三维视觉的方法是具有不需要眼镜的多视图自动立体显示(ASD)。ASD每次发射一个以上的视图,但该发射以如下方式局部化在空间中:从图14所示,使观众从特定视点只能看见一个立体对。而且,观众能从不同视点看见另一立体对,因此,如果连续的视图为立体对且设置恰当,那么可支持运动视差观看。
某些ASD技术能够同时示出52种或更多不同的图像,这些图像中,从特定视点只可看见立体对。这支持在客厅环境下不戴眼镜实现多用户三维视觉。考虑到ASD可能需要大量的视图作为输入,这样大量的编码视图的总比特率可能会很容易超过传输通道带宽的限制。另外,这些大量的视图必须同时被捕获、编码并传输,这可能会比较复杂。
这种多视图应用的一种更为可行的解决方案可为:通过具有有限数量的输入视图,例如,单声道或立体声以及补充数据,将所有所需的视图本地地绘制(合成)在显示器中。基于深度图像的绘制(DIBR)是用于视图绘制的技术中的一种。DIBR的实施将具有立体基线b0的立体视频和相应的深度信息作为输入,并利用基线(bi<b0)合成在两个输入视图之间的无限数量的虚拟视图。然而,为了能够实现基于DIBR的多视图绘制,解码器侧应该具有纹理数据与相应的深度数据可用。图15示出了基于DIBR的3DV***的简化模型。
在图15的示例***中,按照用于立体图像捕获的ID平行配置安排两个捕获摄像机102和104。深度估计器105产生深度图。捕获到的图像和深度图被提供至视频编码过程106。视频编码过程106可包括:编码输入信息、传输编码信息以及对编码信息进行解码。在视频编码过程106中,多视图绘制器107处理视频信息和深度图,并可提供虚拟视图。因此,由摄像机102、104捕获到的图像中的一个和虚拟视图可被选择,以输出至立体显示。
在这类3DV***中,在编码器侧以深度图片(也称为深度图)的形式为各个视频帧产生深度信息。深度图为带有每像素的深度信息的图像。深度图中的每个样本表示各自纹理样本与摄像机所在平面的距离。换言之,如果z轴沿着摄像机的拍摄轴(因此,正交于摄像机所在平面),那么,深度图中的样本表示z轴上的值。
深度图还可具有更高的空间分辨率,即,比各自的纹理图像具有更大的样本计数。换言之,深度图可具有相对于各自的纹理图像的子像素精确度。
深度信息可通过多种方式获得。在一个示例中,三维场景的深度从捕获摄像机所登记的视差中计算得出。
示例深度估计算法将立体视图作为输入,并计算这两个偏移图像之间的局部视差。每个图像在重叠块中逐个像素地被处理,对于每个像素块,水平局部搜索偏移图像中的匹配块。一旦计算出逐像素的视差,相应的深度值z也可通过以下等式(1)计算得出。
术语f和b分别为摄像机焦距和摄像机之间的基线距离。术语d为两个摄像机之间观察得出的视差,摄像机偏移Δd表明两个摄像机光学中心处可能存在的水平错位。
关于任何基于块匹配的算法,通过视差进行深度估计的质量取决于内容,而且往往不准确。例如,对于特征在于无纹理或较大噪音的平滑区域的图像片段而言,没有简单的用于深度估计的解决方案。
除此之外,一种示例算法为每个输入视图独立地估计深度图,考虑到该过程的不精确性,这种算法可能会致使产生的深度图明显不一致。
可替换地或者另外地,可使用红外发射器和摄像机,并可使用飞行时间原理推导出深度值。
在一个示例实施例中,照明装置产生电磁发射(其强度调制为例如10-100MHz频率之间),以相同频率调制图像传感器,从而同步地采样从场景中的对象所反射出的光。与对象的距离表示为照明调制中的相移,该距离可从大体上同时为场景中的每个像素进行采样而得到的样本数据中确定。
飞行时间摄像机可由以下组件组成:
照明源对场景进行照明。由于以很高的速度对光进行调制,所以LED或激光二极管是可行的。照明可使用红外线以使照明不会引起注意。
透镜积聚反射光并将环境成像在图像传感器上。光学带通滤波器仅允许具有相同波长的光通过,以作为照明单元。这有助于抑制背景光。
在图像传感器中,每个像素可测量光从照明单元到达对象并返回所用的时间。可使用多种不同的方法进行定时。
照明装置和图像传感器单元可由同步信号控制。
与立体相比,基于飞行时间的深度估计的精确度大多独立于内容,例如,它不受内容中缺乏纹理外观的影响。然而,飞行时间摄像机可能会具有低像素分辨率传感器,深度读数可能会明显受到随机和***噪音的影响。此外,基于DIBR的绘制假定深度图数据与用于各个视图的纹理数据相关联。这就意味着,多视图捕获***将以多个飞行时间摄像机为特征。由于每个飞行时间摄像机独立地估计深度值,这可能会使由此产生的用于多视图***设计的深度图中的明显不一致性。
深度图及各自的纹理图像还可由计算机生成。
然而,一旦在编码器侧提取出深度信息或通过内容发生器提供了深度信息,那么深度图片可以与其各自的纹理图片一起被编码并传输到解码器。
差异或视差图,比如,ISO/IEC国际标准23002-3中指定的视差图,可类似于深度图一样被处理。深度和视差具有简单的对应关系且可通过数学方程式从对方中计算得出。
深度增强型视频是指具有一个或多个与具有一个或多个深度视图的深度视频相关联的视图的纹理视频。可使用许多方法来编码深度增强型视频,包括使用视频加深度(V+D)、多视图视频加深度(MVD)和分层深度视频(LDV)。用于单个视图的深度图视频流可认为是规律的单***流并利用任意视频编解码器编码。深度图流的特征,比如,在世界坐标轴中的最小深度和最大深度,可用例如根据MPEG-C第3部分标准格式化的消息来指示。在视频加深度(V+D)表示中,深度图片序列可利用任意视频编解码器(比如,H.264/AVC)被独立编码,或作为辅助图片被包括在作为纹理视频的同一视频比特流中。在MVD表示中,用于每个纹理视图的深度图片序列利用任意视频编解码器(比如,MVC)编码。在LDV表示中,中心视图的纹理和深度被照惯例编码,而对其他视图的纹理和深度进行部分地表示并仅仅盖住对中间视图进行正确视图合成所需的未遮挡区域。
深度增强型视频可以按照纹理和深度彼此相独立地被编码的方式而被编码。例如,纹理视图可编码为一个MVC比特流,而深度视图可编码为另一个MVC比特流。或者,深度增强型视频可以按照纹理和深度被联合地编码的方式而被编码。当联合编码纹理和深度视图被应用到深度增强型视频表示中时,从深度图片的某些解码样本或深度图片的解码过程中得到的数据元素中,预测或推导得出纹理图片的某些解码样本或用于纹理图片解码的数据元素。可替换地或者另外地,从纹理图片的某些解码样本或纹理图片的解码过程中得到的数据元素中,预测或推导得出深度图片的某些解码样本或用于深度图片解码的数据元素。
在针对深度增强型视频的纹理和深度的联合编码的情况下,视图合成可被利用在编解码器的回路中,从而提供视图合成预测(VSP)。在VSP中,预测信号,比如,VSP参考图片,通过利用纹理和深度信息采用DIBR或视图合成算法形成。例如,合成图片(即,VSP参考图片)可以按照与视图间参考图片和仅用于视图间的参考图片相似的方式,被引入参考图片列表中。可替换地或者另外地,用于具体预测块的特定VSP预测模式可由编码器确定,由编码器指示在比特流中,且在从比特流中推断时由解码器使用。
在MVC中,帧间预测和视图间预测实质上使用了相同的运动补偿预测过程。视图间参考图片和仅用于视图间的参考图片实质上被看作不同预测过程中的长期参考图片。相似地,视图合成预测可通过如下方式实现:视图合成预测实质上使用了与帧间预测和视图间预测相同的运动补偿预测处理。为了与仅在无任意VSP的单个视图中发生的运动补偿预测区别开来,包括并能够灵活选择混合帧间预测、帧间预测和/或视图合成预测的运动补偿预测在本文中被称为混合方向运动补偿预测。
在解码器侧,深度增强型视频比特流的纹理和深度数据可解码,并且可由基于深度图像的绘制(DIBR)算法利用以用于视图合成。
ISO基础媒体文件格式
可用的媒体文件格式标准包括ISO基础媒体文件格式(ISO/IEC14496-12)、MPEG-4文件格式(ISO/IEC14496-14,也称为MP4格式)、AVC文件格式(ISO/IEC14496-15)、3GPP文件格式(3GPP TS26.244,也称为3GP格式)以及DVB文件格式。SVC和MVC文件格式指定为对AVC文件格式的修正。ISO文件格式是推导出所有上述文件格式(除了ISO文件格式本身)的基础。这些文件格式(包括ISO文件格式本身)称为ISO文件格式族。
图16示出了根据ISO基础媒体文件格式的简化文件结构。ISO基础媒体文件格式中的基础构造块称为框。各个框均具有报头和有效载荷。框报头指示框的类型和由字节表示的框的大小。框可包含其他框,ISO文件格式指定了何种框类型能够包含在某类型的框中。而且,某些框是强制性出现在每个文件中,而其他框则是可选地。此外,对某些框类型而言,多于一个的框可以出现在文件中。在这点上,ISO基础媒体文件格式规定了框的分层结构。
根据ISO文件格式族,文件包括媒体数据和元数据,媒体数据和元数据被装入分开的框中,分别为媒体数据(mdat)框和电影(moov)框。对于要操作的文件,这些框都应该存在,除非媒体数据位于一个或多个外部文件中且使用如后续描述所述的数据参考框被引用。电影框可包含一个或多个轨道,每个轨道驻留于一个轨道框中。轨道可为以下类型之一:媒体、提示和定时元数据。媒体轨道指的是根据媒体压缩格式格式化的样本(以及其到ISO基础媒体文件格式的封装)。提示轨道指的是提示样本,该提示样本包含用于构建根据指示的通信协议进行传输的数据包的食谱指令。该食谱指令可包含针对数据包报头构建的向导并包括数据包有效载荷构建。在数据包有效载荷构建中,驻留于其他轨道或项中的数据可以被参考,即,其通过参考被指示:特定轨道或项目中的哪条数据被命令为将在数据包构建过程期间被复制进数据包。定时元数据轨道指的是描述所参考的媒体和/或提示样本的样本。为了呈现,选择一个媒体类型,通常是一个媒体轨道。
轨道的样本与样本号隐式地相关联,该样本号按照所指示的样本解码顺序加1。轨道中的第一样本与样本号1相关联。要注意,该假设影响了下述某些公式,对本领域的技术人员而言显而易见的是,可以根据样本号的其他起始偏移量(比如,0)来修改这些公式。
根据ISO基础媒体文件格式而格式化的许多文件从文件类型框开始,该文件类型框也称为ftyp框。该ftyp框包含对文件进行标记的品牌信息。ftyp框包括一个主要品牌指示和可兼容品牌列表。该主要品牌识别将被用于解析文件的最适合的文件格式规范。可兼容品牌指示文件符合哪种文件格式规范和/或符合点。文件可能符合多种规范。所有指示与这些规范具有兼容性的品牌都应列出,从而使仅能理解可兼容品牌的子集的阅读器可获得该文件能被解析的指示。可兼容品牌还使特定文件格式规范的文件解析器被准许处理包含与ftyp框中的特定文件格式品牌相同的文件。
要注意,ISO基础媒体文件格式不限制将被包含在一个文件中的呈现,并且该呈现可以被包含在若干个文件中。一个文件包含针对整个呈现的元数据。该文件还可以包含所有的媒体数据,由此该演示是自包含的。如果使用其他文件,则其他文件不需要被格式化成ISO基础媒体文件格式,其用于包含媒体数据,并且还可以包含未使用的媒体数据,或者其他信息。ISO基础媒体文件格式仅关心演示文件的结构。媒体数据文件的格式受ISO基础媒体文件格式或其派生格式的约束仅在于:媒体文件中的媒体数据被格式化为ISO基础媒体文件格式中指定的格式或其派生格式。
引用外部文件的能力通过如下数据参考来实现。每个轨道中包含的样本描述框包括样本条目列表,每个样本条目提供了关于所使用的编码类型的详细信息以及进行该编码所需的任意初始化信息。组块的所有样本和轨道片段的所有样本均使用相同的样本条目。组块为一个轨道的邻接的样本集合。数据参考框(也包括在每个轨道中)包含统一资源定位符(URLs)、统一资源号(URNs)及到包含元数据的文件的自我参考的索引列表。样本条目指向数据参考框的一个索引,因此指示包含各自的组块或轨道片段的样本的文件。
在将内容记录至ISO文件中时,为避免如果记录应用程序崩溃、磁盘空间不足或某些其他事故的发生会导致数据丢失,可使用电影片段。在没有电影片段的情况下,可能会发生数据丢失,这是因为文件格式要求所有元数据(电影框)都应该写进文件的一个邻接区域。而且,当记录文件时,由于可用的存储装置的大小,可能没有足够数量的随机存取存储器(RAM)或其他读/写存储器来缓存电影框,并且在电影结束时重新计算电影框的内容太慢。而且,电影片段可以使得能够使用常规的ISO文件解析器来实现同时地记录和回放文件。最后,当电影片段被使用并且初始的电影框比具有相同媒体内容但在没有电影片段的情况下构造的文件要小时,针对渐进式下载,可以要求较小的初始缓存持续时间,即,同时接收和回放文件。
电影片段特征使得能够将常规而言驻留在moov框中的元数据划分成多个部分,每个部分对应于轨道的一定时间段。换言之,电影片段特征使得能够实现文件元数据和媒体数据的交织。因此,moov框的大小可以被限制,并且实现上述的使用情形。
针对电影片段的媒体样本驻留在mdat框中,如果它们在与moov框相同的文件中,则通常是这样。然而,针对电影片段的元数据,提供moof框。其包括针对回放时间中的某段持续时间的信息,该信息先前已经在moov框中。moov框仍然自己表示有效的电影,但是另外,其还包括mvex框,该mvex框指示同一文件中将跟随的电影片段。电影片段在时间上扩展了关联到moov框的呈现。
在电影片段中存在轨道片段集合,每个轨道有零或多个轨道片段。该轨道片段又包含零或多个轨道行程,每个轨道行程用文件记录该轨道的邻接样本行程。在这些结构中,许多字段为可选择的并可默认设置。
可被包括在moof框中的元数据被限制于可被包括在moov框中的元数据的子集,并在某些情况下可将其有区别地编码。可被包括在moof框中的框的详细信息可见于ISO基础媒体文件格式规范。
ISO基础媒体文件格式中的样本分组及其派生物(比如,AVC文件格式和SVC文件格式)是基于分组标准将轨道中的每个样本指配为一个样本组的成员。在样本分组中的样本组不限于为邻接的样本,且可包含非邻接样本。由于针对轨道中的样本可有多于一个样本分组,所以各个样本分组具有类型字段来指示分组的类型。样本分组由两个链接的数据结构表示:(1)SampleToGroup框(sbgp框)表示将样本指配到样本组;以及(2)SampleGroupDescription框(sgpd框)含有针对每个样本组的样本组条目,描述该组的性质。基于不同的分组标准可有多个SampleToGroup框和SampleGroupDescription框的实例。它们通过用于指示分组类型的类型字段来加以区分。
图17提供了指示用于样本组框的嵌套结构的简化框分层。样本组框(SampleGroupDescription框和SampleToGroup框)驻留于样本表(stbl)框内部,该stbl框装入电影(moov)框内部的媒体信息(minf)、媒体(mdia)和轨道(trak)框(以此顺序)内。
SampleToGroup框允许驻留于电影片段中。因此,样本分组可通过按照逐个片段完成。图18举例说明了包含电影片段的文件的示例,该电影片段包括SampleToGroup框。除了样本表框之外,允许可包括SampleGroupDescription框来驻留于电影片段中。
对某些编码***而言,同步样本被指定为随机存取点,按照解码顺序在该随机存取点之后的所有样本均可被正确解码。在样本格式中可用SyncSample框指示同步样本,或者,如果样本被电影片段引用,则使用sample_is_non_sync_sample样本标志。
编码“公开”的随机存取点是可能的,按照输出顺序在该随机存取点之后的所有样本均可被正确解码,但是按照解码顺序在该随机存取点之后且按照输出顺序在该随机存取点之前的某些样本不需要正确解码。例如,开始图片公开组的帧内图片之后按照解码顺序可以随有(双向)预测图片,然而,该(双向)预测图片按照输出顺序在该帧内图片之前;虽然如果从帧内图片开始解码,它们可能不会被正确解码,但是也不需要。这类“公开”随机存取样本可标记为ISO基础媒体文件格式(版本3)的修正案3中指定的“rap”样本组中的成员。由该组标记的样本应为随机存取点,且还可为同步点(即,不要求排除由同步样本表标记的样本)。
视频传输
实时传输协议(RTP)可用于传输连续的媒体数据,比如,基于互联网协议(IP)的网络中的编码音视频流。实时传输控制协议(RTCP)是RTP的同伴,即,当网络和应用基础建设允许RTP使用时,RTCP可用于对RTP进行补充。RTP和RTCP通常根据用户数据报协议(UDP)传输,这进而又是根据互联网协议(IP)传输。RTCP用于监测网络提供的服务的质量,并传输关于正在进行的会话参与者的信息。RTP和RTCP是为会话而设计的,这类会话的范围从一对一通信到数以千计的终点的大型多播组不等。为了控制多方会话中由RTCP数据包引起的总比特率,由单个终点发送的RTCP数据包的传输间隔与会话参与者的数量成比例。每个媒体编码格式均具有特定的RTP有效载荷格式,该RTP有效载荷格式指定如何将媒体数据构成在RTP数据包的有效载荷中。
服务器或发送器或传输器使用通信协议栈来发送编码媒体比特流。该栈可包括,但不限于,实时传输协议(RTP)、用户数据报协议(UDP)和互联网协议(IP)。该栈也可以是或者改为包括,但不限于,超文本传输协议(HTTP)、传输控制协议(TCP)和IP。当通信协议栈面向数据包时,服务器将编码媒体比特流封装到数据包中。例如,当使用RTP时,服务器根据RTP有效载荷格式将编码媒体比特流封装到RTP数据包中。通常,每个媒体类型具有专用的RTP有效载荷格式。
在用于SVC的RTP有效载荷格式中,规定了有效载荷内容可扩展性信息(PACSI)NAL单元。PACSI NAL单元(若存在)是包含多个NAL单元的RTP数据包有效载荷(即所谓的聚合数据包)中的第一个NAL单元,。PACSI NAL单元指示RTP有效载荷中所有其余NAL单元共同的特征。
在服务器驱动的流切换或比特率自适应中,服务器可确定是否需要从一个具有特定特征的流切换到另一个具有至少部分不同特征的流,基于与上述客户端驱动的流切换类似的基础。为辅助服务器,客户端可向服务器提供针对例如接受的比特率或数据包率或针对客户端的缓冲器占用状态的指示。RTCP可用于这种反馈或指示。例如,3GPP分组切换流服务中已经规定了带有接收机缓冲器状态指示的RTCP延展报告,也称为带有客户端缓冲器反馈(NADU APP数据包)的RTCP APP数据包。
视频传输和比特率自适应也可为客户端驱动的,其属于例如根据HTTP(DASH)进行的动态自适应流式传输的情形。MPEG DASH标准规定了使得能够将媒体内容从标准HTTP服务器传输至HTTP客户端并使得能够通过标准HTTP缓存将内容缓存的格式。MPEG DASH主要定义了两种格式:
1.媒体呈现描述(MPD)描述了媒体呈现,即,媒体内容的有界或无界呈现。具体地,其定义格式以通告用于Segment(分段)的资源标示符并为Media Presentation(媒体呈现)中标识的资源提供上下文。在MPEG DASH中,资源标示符为排他HTTP-URL。
2.Segment(分段)格式规定当用范围穿过HTTP/1.1的所指示字节向MPD中识别的资源发布HTTP GET请求或部分HTTP GET时,请求响应的实体主体的格式。
MPEG DASH旨在支持媒体流模式,其中会话控制完全在于客户端。客户端可利用HTTP协议向无DASH特定的能力的标准web服务器请求数据。因此,MPEG DASH的关注点不在客户端或服务器程序,而在于用于提供DASH呈现的数据格式。
Media Presentation Description(媒体呈现描述)文档描述DASH MediaPresentation。这描述时间上的Period(时段)序列。一个Period通常表示一个较长的时间段,在此期间可用一致的内容编码版本的集合,即,比特率、语言、字幕、副标题等的可用集合在该Period期间不会发生改变。
在Period期间,素材设置在Adaptation Set(适应集合)中。一个Adaptation Set表示内容的某些方面的可互换编码版本的集合。例如,主视频组件可具有一个AdaptationSet,且主音频组件可具有分开的一个Adaptation Set。若存在其他可用的素材,例如字幕或音频描述,那么其可分别具有分开的Adaptation Set。素材还可按照多路复用的形式提供,这种情况下,多路复用的可互换版本可描述为单个Adaptation Set,例如,包含用于Period的主音频和主视频的Adaptation Set。
Adaptation Set包含Representation(表示)的集合。Representation描述具体编码版本的内容。Adaptation Set内的任意单个Representation都足以绘制内容。通常,客户端可在Period期间从一个表示切换到另一个表示,以便适应网络条件或其他因素。客户端还可忽略依赖于其不支持的编解码器的Representation或者不适合的Representation。
在Representation内,内容在时间上分为多个Segment(分段)。Segment是MediaPresentation Description中通告的数据的基本单元。为各个Segment提供URL,这意味着:Segment是可用单个HTTP请求检索到的数据的最大单元。严格来说,这不是十分准确,因为MPD还可包括具有URL的字节范围,这意味着,Segment被包含在所提供的某些较大资源的字节范围中。客户端装置原则上可构件对于多个Segment的单个请求,但这不能作为典型实例。
Segment可以是任意持续时间的。通常,Representation中的所有Segment均具有相同或大致类似的持续时间。然而,Segment持续时间可根据不同的Representation有所不同。DASH呈现可用较短(例如,几秒钟)的分段构建,或用包括用于整个Representation的单个Segment的较长的分段构建。
在端到端延时方面存在限制的实况转播内容的情况下需要短Segment。Segment的持续时间通常是端到端延时的下限。DASH不支持Segment在时间上扩展的可能性:Segment是完整的离散单元,其必须作为整体可用。
Segment可进一步分为Subsegment(子分段),每个Subsegment包含大量的完整存取单元。子分段边界还可存在特定于文件格式的限制,例如,在ISO基础媒体文件格式中,子分段必须包含大量的完整Movie Fragment(电影片段)。如果Segment分为多个Subsegment,那么该划分可用紧凑Segment索引描述,该索引提供了Representation中的呈现时间范围以及由每个Subsegment占用的Segment的相应字节范围。客户端可提前下载该索引,然后发出对于个别Subsegment的请求。
客户端可在媒体的任意点从Adaptation Set内的一个表示切换至另一个表示。然而,由于Representation内的编码依赖性和其他因素,在任意位置进行切换可能会比较复杂。同样需要的是避免下载“重叠”数据,即,来自多个Representation的相同时间段的媒体。通常,在新的流中的随机存取点处进行切换是最简单的,将与切换DASH有关的要求形式化定义出了各种类型的Stream Access Points的独立于编解码器的概念。
Segmentation和Subsegmentation可以按照一种使切换更简单的方式执行。例如,在一个非常简单的案例中,每个Segment或Subsegment以随机存取点开始,Segment或Subsegment的边界在Adaptation Set的Representation中都对齐。在这种情况下,切换Representation包括:播放到一个Representation的分段(子分段)的结尾,然后从新Representation的下一个分段(子分段)的开头开始播放。Media PresentationDescription和Segment Index提供了各种指示,这些指示描述了可使切换更简单的Representation的属性。然后,该规定的简档可要求以特定方式设置这些,从而,以要求媒体数据服从指示的限制为代价,使客户端实施这些简档更简单。
对On-Demand(点播)服务而言,Media Presentation Description是描述MediaPresentation的各个方面的静态文档。一旦任意Segment可用,那么MediaPresentation的所有Segment在服务器上均为可用。然而,对于现场服务而言,随着内容的产生,Segment也随时间而变得可用。Media Presentation Description可定期更新来反映随时间变化而改变的表示,例如,可将用于新分段的Segment URL添加到MPD中,并且可移除那些旧的不再可用的Segment。然而,如果Segment URL是使用模板来描述的,那么除了某些冗余/故障恢复模式之外,可能没有必要进行该更新。
在下文中,将会对从一个流切换至另一个流的某些进一步示例进行更加详细地描述。在作为示例用于自适应式HTTP流式传输(比如,DASH)的接收机驱动的流切换或比特率自适应中,客户端可例如基于下文所述的基础,确定需要从具有特定特征的一个流切换至具有至少部分不同特征的另一个流。
客户端可例如通过监测所请求分段正在被接收时的比特率,来估计信道或网络连接的吞吐量。客户端还可使用其他手段进行吞吐量估计。例如,客户端可具有无线存取链路的普遍平均和最大比特率的信息,如由无线存取连接的服务质量参数所确定的那样。客户端可基于估计的吞吐量以及MPD中包括的表示的比特率信息,来确定将被接收的表示。当确定了将被接收的合适表示时,客户端还可使用表示的其他MPD属性。例如,指示为为解码该表示而保留的计算和存储器资源应该是客户端可以处理的。这些计算和存储器资源可用一个等级指示,该等级是针对可由语法元素和标准(例如,H.264/AVC标准的附件A)的变量采用的值的被定义的约束集合。
此外或相反,客户端可确定例如在回放持续时间方面的目标缓冲器占用等级。目标缓冲器占用等级可例如基于预期的最大蜂窝无线电网络切换持续时间而被设置。客户端可将当前缓冲器占用等级比作目标等级,如果当前缓冲器占用等级明显偏离目标等级,确定需要进行表示切换。如果缓冲器占用等级低于目标缓冲器等级减去特定阈值,那么客户端可确定切换至更低比特率表示。如果缓冲器占用等级超过目标缓冲器等级加上另一阈值,那么客户端可确定切换至更高比特率表示。
流存取点(SAP)使得能够随机接入媒体流的容器,在本段及下文中称为ContainerStream(容器流)。Container Stream可包含多于一个的媒体流,每个媒体流为编码版本的特定媒体类型的连续媒体。SAP为处于Container Stream中的位置,其使得能够仅使用从该位置开始向前的包含在Container Stream中的信息,以及可能的来自Container Stream的其他部分的初始化数据或外部可用的初始化数据,而开始媒体流的回放。派生出的规范应该规定初始化数据是否需要访问在SAP处的Container Stream以及如何能够存取初始化数据。
对于每个SAP,属性、ISAP、TSAP、ISAU、TDEC、TEPT和TPT被识别并定义如下:
TSAP为媒体流的任意存取单元的最早表示时间,从而使得利用比特流中的开始于ISAP的数据且无任何在ISAP前方的数据,使具有大于或等于TSAP的表示时间的媒体流的全部存取单元可被正确解码。
ISAP为Bitstream(比特流)中的最大位置,从而使得利用开始于ISAP的数据且无任何在ISAP前方的数据,使具有大于或等于TSAP的表示时间的媒体流的全部存取单元可被正确解码。
ISAU为按照解码顺序在媒体流内的最后存取单元的Bitstream中的起始位置,从而使得利用该最后存取单元以及按照解码顺序紧跟其后的存取单元且无在解码顺序中较早的存取单元,使具有大于或等于TSAP的表示时间的媒体流的全部存取单元可被正确解码。
TDEC为这样的媒体流的任意存取单元的最早表示时间,其中该媒体流可以利用Bitstream中开始于ISAU的数据且无任何在ISAU之前的数据,而被正确解码。
TEPT为在Bitstream中开始于ISAU的媒体流的任意存取单元的最早表示时间。
TPTF为按照解码顺序在Bitstream中开始于ISAU的媒体流的第一存取单元的表示时间。
将六种类型的SAP的属性定义如下:
类型1:TEPT=TDEC=TSAP=TPTF
类型2:TEPT=TDEC=TSAP<TPTF
类型3:TEPT<TDEC=TSAP<=TPTF
类型4:TEPT<=TPTF<TDEC=TSAP
类型5:TEPT=TDEC<TSAP
类型6:TEPT<TDEC<TSAP
类型1对应于在某些编码方案中被称为的“封闭式GoP随机存取点”(其中,按照解码顺序从ISAP开始的所有存取单元可被正确解码,导致无间隙的正确解码的存取单元的连续时间序列),此外,按照解码顺序的存取单元也为按照呈现顺序的第一存取单元。
类型2对应于在某些编码方案中被称为的“封闭式GoP随机存取点”,按照解码顺在媒体流中从ISAU开始的第一存取单元不是按照呈现顺序的第一存取单元。
类型3对应于在某些编码方案中被称为“开放式GoP随机存取点”,其中,按照解码顺序在ISAU之后的某些存取单元不能被正确解码,且其表示时间少于TSAP。
类型4对应于在某些编码方案中被称为“逐渐解码刷新(GDR)随机存取点”,其中,按照解码顺序从ISAU开始且在ISAU之后的某些存取单元不能被正确解码,且其表示时间少于TSAP。
为MPEG DASH段格式指定的Segment Index(分段索引)框通过文件记录了在参考子分段中存在的流存取点(SAP)。如果使用基于ISO基础媒体文件格式的分段格式,那么类型1或类型2的SAP通过在电影片段中的sample_is_not_sync_sample标记等于0被指示为同步样本,且将类型3的SAP标记为类型“rap”样本组的成员。
视频编码中的随机存取
视频编码中的随机存取是指解码器在不同于流的开始位置的点上开始解码流并恢复解码图片的准确或近似表示的能力。
本文中,将随机存取点或入口点定义为比特流中可发起解码过程的点。将恢复点定义为比特流中的这样的点,在该点处,由比特流表示的解码图片的准确或近似表示的恢复可在上一随机存取点处的随机存取或破碎链接之后实现。将破碎链接定义为在比特流中的这样的的位置,在该位置处指示按照解码顺序的某些随后的图片可能由于在生成比特流期间执行的未指定操作而包含严重的视觉假像。当从开放式GoP帧内图片(如下)开始的编码图片的第一序列被串联至最初未在编码图片的第一序列之前的编码图片的第二序列时,可产生破碎链接。在恢复点上的或按照输出顺序在恢复点之后的所有解码图片在内容上都是准确的或近似准确的。如果随机存取点与恢复点相同,那么随机存取操作为即时的;否则,其为逐渐的,并且按照输出顺序在随机存取点和恢复点之间的图片可能在内容上不是准确的或近似准确的。在上述SAP的定义中,随机存取点可与上述SAP定义中的ISAP、ISAU和TPTF相对应。除非序列或图片参数集或类似初始化信息未存在于ISAU处且因此由ISAP指向,否则在基本视频流中,ISAP和ISAU通常一样。恢复点可对应于TSAP。
随机存取点使得能够在本地存储的视频流中进行搜索操作、快进操作和快退操作。在视频点播流中,服务器可通过从离搜索操作的请求目的地最近的随机存取点开始传输数据,来自对搜索请求作出回应。在不同比特率的编码流之间进行切换是在单播流中普遍使用的方法,以便使传输的比特率和预期的网络吞吐量相配且避免网络拥塞。在随机存取点上有可能切换至另一个流。而且,随机存取点使得能够实现调谐至广播或多播。另外,可将随机存取点编码,作为对资源序列中的场景切换的响应或者对帧内图片更新请求的响应。
照惯例,每个帧内图片已经是编码序列中的随机存取点。用于帧间预测的多个参考图片的引入致使帧内图片可能不足以用于随机存取。例如,可将按照解码顺序在帧内图片之前的解码图片用作用于按照解码顺序在该帧内图片之后的帧间预测的参考图片。因此,H.264/AVC标准中指定的IDR图片或具有与IDR图片类似的属性的帧内图片必须被用作随机存取点。封闭式图片组(GOP)是其中所有图片均可被正确解码的图片组。在H.264/AVC中,封闭式GoP可从IDR存取单元开始(或者从带有将所有在前的参考图片标记为未使用的存储器管理控制操作的帧内编码图片开始)。在H.264/AVC的MVC扩展中,IDR存取单元包括IDR视图组件。基本视图的IDR视图组件与H.264/AVC的编码IDR图片相同,而非基本视图的IDR视图组件可通过视图间预测得到。
开放式图片组(GOP)是这样的图片组,在该图片组中,按照输出顺序在初始帧内图片之前的图片不可被正确解码,但是按照输出顺序在初始帧内图片之后的图片可被正确解码。不同标准均包括用于指示开始开放式GOP的帧内图片的机制,包括以下:
-H.264/AVC解码器可从H.264/AVC比特流中的恢复点SEI消息中识别开始开放式GOP的帧内图片。当使用恢复点SEI消息时,随机存取点为包含恢复点SEI消息的存取单元。(按照输出顺序的输出图片的)恢复点通过恢复点SEI消息的recovery_frame_cnt语法元素指示。按照输出顺序的所有解码图片被指示为在内容上正确或近似正确,开始于按照输出顺序具有的frame_num等于用于当前存取单元的VCL NAL单元的frame_num的参考图片的位置,frame_num按照模MaxFrameNum运算增长recovery_frame_cnt,其中,MaxFrameNum为frame_num+1的最大可允许值。
-在MVC中,将锚定图片定义为这样的编码图片,在该编码图片中所有片可只参考同一存取单元中的片,即,可使用视图间预测,但不可使用帧间预测,并且按照输出顺序的所有随后的编码图片不使用根据按照解码顺序在该编码图片之前的任意图片的帧间预测。对于所有前缀NAL单元(当存在时)和所有包含在锚定图片中的片延展NAL单元而言,anchor_pic_flag的值等于1。锚定图片与多视图编码中的开放式GOP的开始相对应。
-在草案高效视频编码(HEVC)标准中,NAL单元类型已经被专用于指示清洁随机存取(CRA)图片的片,其为开始开放式GOP的帧内图片,因此解码器可从专用NAL单元类型中识别出开放式GOP的开始。在HEVC中,按照解码顺序和输出顺序在CRA图片后的所有编码图片均不使用根据按照解码顺序或输出顺序中在CRA图片之前的任意图片的帧间预测;并且按照解码顺序在CRA之前的任意图片按照输出顺序还在CRA图片之前。
按照输出顺序在开始开放式GOP的初始帧内图片之前的图片称为前导图片。前导图片有两种类型:可解码的和不可解码的。可解码前导图片为当从开始开放式GOP的初始帧内图片开始解码时可被正确解码的图片。换言之,可解码前导图片仅使用按照解码顺序的初始帧内图片或随后的图片作为帧间预测的参考。不可解码前导图片为当从开始开放式GOP的初始帧内图片开始解码时不可被正确解码的图片。换言之,不可解码前导图片使用按照解码顺序在开始开放式GOP的初始帧内图片之前的图片作为帧间预测的参考。ISO基础媒体文件格式(版本3)的修正案1包括:通过样本依赖性类型框中的主导语法元素和包括在可用于轨道片段的样本标记中的语法元素,来支持指示可解码的和不可解码的前导图片。
要注意,相对于用于SVC的上下文中,术语GOP有区别地用于随机存取的上下文中。在SVC中,GOP是指从具有等于0的temporal_id的图片(包括该图片)到具有等于0的temporal_id的下一个图片(不包括该下一个图片)的图片组。在随机存取上下文中,GOP为不管按照解码顺序较早的任何图片是否已经被解码都可被解码的图片的组。
逐渐解码刷新(GDR)是指在非IDR图片上开始解码的能力和在解码特定数量图片之后恢复在内容上正确的解码图片的能力。即,GDR可用于从非帧内图片中实现随机存取。某些用于帧间预测的参考图片在随机存取点和恢复点之间可为不可使用的,因此,在逐渐解码刷新期间的解码图片的某些部分为不可正确重建的。然而,这些部分不用于在恢复点处或在恢复点后的预测,其可引起从恢复点开始的无误差的解码图片。
相比于瞬间解码刷新,逐渐解码刷新对于编码器和解码器而言可能更加难处理。然而,在易于出错的环境中逐渐解码刷新是令人期望的,这由于两个方面:第一,编码帧内图片通常远远大于编码非帧内图片。这使帧内图片比非帧内图片更容易出错,且这些错误有可能及时传播直到崩溃的宏块位置被帧内编码。第二,将帧内编码宏块使用于易于出错的环境中以阻止错误传播。因此,例如,运行在易于出错的传输信道上的在视频会话和广播视频应用程序中,联合用于随机存取和用于阻止错误传播的帧内宏块编码是有意义的。该结论被使用于逐渐解码刷新中。
可用隔离区域编码法实现逐渐解码刷新。在图片中的隔离区域可包含任意宏块位置,且一个图片可包含零个或更多个不重叠的隔离区域。剩余区域为未被图片的任意隔离区域覆盖的图片区域。当编码隔离区域时,图片内预测不可超过其边界。可从相同图片的隔离区域中预测剩余区域。
被编码的隔离区域可在没有相同编码图片的任意其他隔离区域或剩余区域存在的情况下被解码。需要在残留区域之前解码图片的所有隔离区域。隔离区域或剩余区域包含至少一个片。
将根据彼此预测得出的隔离区域的图片分组进隔离区域图片组。可以根据在相同隔离区域图片组中的其他图片中的相应隔离区域,来帧间预测隔离区域,然而根据其他隔离区域或在隔离区域图片组外的帧间预测是不被允许的。可根据任意隔离区域,来帧间预测剩余区域。耦合的隔离区域的形状、位置和尺寸可从隔离区域图片组中的一个图片向另一图片演化。
演化的隔离区域可用于提供逐渐解码刷新。将一个新演化的隔离区域建立在随机存取点上的图片中,且在隔离区域中的宏块被帧内编码。隔离区域的形状、尺寸和位置从一个图片向另一图片演化。隔离区域可从在逐渐解码刷新期间在较早图片中的相应的隔离区域被帧间预测。当隔离区域覆盖整个图片区域时,在从随机存取点开始解码时可以获得在内容上完全正确的图片。这种过程还可被概括为包括多于一个最终覆盖整个图片区域的演化隔离区域。
可定做带内信令,比如,恢复点SEI消息,以为解码器指示逐渐随机存取点和恢复点。而且,恢复点SEI消息包括指示演化的隔离区域是否用于随机存取点和恢复点之间来提供逐渐解码刷新。
在多视图视频编码中将IDR或锚定存取单元用于随机存取可致使IDR或锚定存取单元相比其他存取单元较大,这是由于帧内编码基本视图视图组件和在非基本视图的视图组件中缺乏帧间预测。大尺寸的IDR或锚定存取单元可引起多种后果,比如,在解码器中的长时初始缓冲延迟、在实时服务中的长端对端延迟、传输误差的较大易损性以及将几个比特流多路复用至恒定比特率的一个多路复用中的困难性。就2D/3D解码和绘制能力而言,用于广播/多播服务的客户端能力可为不均匀的。在许多情况下,能2D的客户端可形成大多数,因此大多数用户可从基本视图中的改良功能中获利,比如,当与为非基本视图或贯穿全部视图提供功能相比时更频繁的随机存取点。然而,IDR或锚定存取单元可要求所有视图提供相等的随机存取能力。
在本发明的某些实施例中,将视图随机存取(VRA)图片或存取单元编码至多视图比特流中。VRA图片使得能够开始对在比特流中出现的视图子集的解码。在VRA图片中选择为可存取的视图被交替排在连续的VRA图片中,从而当两个或多个VRA图片被解码时,逐渐重建所有视图。如果使用多视图加深度或类似编码排列,那么不能在足够数量的VRA图片被接收之前解码的视图可被合成。
由于帧间预测可用于VRA存取单元的某些视图组件,所以VRA存取单元的压缩效率要高于锚定或IDR存取单元的压缩效率。
根据某些示例实施例的编码器300可操作如下,且描绘在图8的流程图中。
编码器300接收一个或多个视频信号(图8中的块801),该视频信号包含用于编码的多视图图像信息。多视图图像信息可已经例如由一个或多个摄像机捕获作为帧。图像捕获和编码可大体上同时(实时)处理,或图像捕获可先前已被执行,其中图像信息可存储至存储器中,其中图像信息从存储器恢复并输入至编码器300.
编码器300例如基于预先确定的随机存取点频率,确定特定存取单元为用于比特流的随机存取点,并且确定该特定存取单元将被编码为VRA存取单元(图8中的块802)。编码器确定视图的集合,被称为视图集合A,其当从被编码的VRA存取单元开始解码过程(块804)时,视图集合A可被正确解码。在图19a的示例中,用于存取单元15的这样的视图集合可包含非基本视图,即,在图19a中的最底部的视图。对图19a的存取单元30而言,可将基本视图确定为视图集合A。在VRA存取单元中,编码器将在视图集合A中的这些所选视图中的一个编码为帧内编码视图组件,且将这些所选视图中的剩余的视图编码为P或B视图组件(806),P或B视图组件仅从VRA存取单元内的所选视图中先前编码的视图组件中预测得到。换言之,编码器编码在VRA存取单元内的所选择的视图,犹如其属于锚定存取单元。编码器可通过使用帧间预测(除此之外,还潜在地使用视图间预测和视图合成预测)来编码未在视图集合A中的808视图。编码器还可将指示编码810至比特流中和/或数据包封装格式内和/或容器文件格式内,以指示VRA存取单元的位置和潜在地对于当从VRA存取单元开始解码时可解码的视图的指示。
在某些实施例中,编码器可改变812在VRA存取单元处的视图间预测依赖性顺序。编码器可选择基本视图,来包含VRA存取单元的帧内编码视图组件。编码器可使用特定语法结构指示在比特流中的变化的视图间依赖性顺序。
在用于MVD编码的某些实施例中,编码器为了深度视图执行步骤804-812(除此之外还为了纹理视图操作它们)。编码器可选择从特定的VRA存取单元开始可解码的各自的深度视图,作为在视图集合A中的纹理视图。
如果确定当前存取单元不是VRA存取单元,那么编码器编码另一类型的存取单元而不是VRA存取单元(图8的块814)。编码器可编码例如IDR存取单元、锚定存取单元或非锚定存取单元。编码器可以按照这样的方式对VRA存取单元之后的存取单元进行编码,在该方式中,带有视图集合A的视图组件仅从在视图集合A中的视图组件预测得到,而没在视图集合A中的视图组件可从任意视图中预测得到。
根据某些示例实施例的解码器400可操作如下,且描绘在图9的流程图中。
解码器400接收一个或多个包含多视图图像信息的编码存取单元的比特流(图9中的块900)。
解码器400使用在比特流中的指示、数据包封装格式或容器文件格式中的一个,来检测902视图随机存取(VRA)存取单元。然后,解码器推断904,从检测到的VRA存取单元开始,哪个视图可被解码。例如,解码器可使用在MVC可扩展的嵌套SEI消息中的view_id值,该嵌套SEI消息封装了指示VRA存取单元的恢复点SEI消息。解码器从检测到的VRA存取单元开始解码比特流(图9中的块906)。
在某些实施例中,解码器检测908并从指示变化的视图间依赖性顺序的比特流中解码910语法结构。视图间依赖性顺序用于例如初始参考图片列表构建过程中。
当从VRA存取单元(即,视图集合A)开始解码时,解码器对可解码的VRA存取单元的视图组件进行解码912。解码器省略其他出现在VRA存取单元中的视图的解码。解码器从VRA存取单元之后的存取单元中解码视图集合A的914视图组件,而省略不在视图集合A中的视图组件的解码。
在某些实施例中,对于MVD解码而言,解码器可确定916视图集合B,视图集合B包含需要显示的但不存在于视图集合A中的视图。然后,解码器可使用例如DIBR算法和视图集合A的纹理及深度视图作为至DIBR算法的输入,合成918视图集合B的视图。当块916和块918在图9的块914之后时,在某些实施例中,可在按照解码顺序解码下一个存取单元之前,为在块912和块914中解码的每个存取单元执行块916和块918。
在接下来的某些示例中,将会详细描述图19a-19f。在这些图中,假定30Hz输入序列和15帧的随机存取间隔,但是明显的是,其他类型的序列和随机存取间隔也可适用。按照输出顺序从左往右列出存取单元。假设使用二元编码分层的分层扩展时间可扩展性,但是为了方便起见,不是所有的存取单元均包括在图中。
图19a举例说明了用于与MVC兼容的立体编码的编码方案。基本视图在顶部,而非基本视图在底部。
如可从图中可见一样,视图间预测能够用于帧0至14和帧30至44,如由从基本视图的存取单元0-14,30-44至非基本视图的临时对应存取单元的箭头指示的一样,而视图间预测不能用于其他所呈现的帧。帧间预测能用于存取单元15和45的基本视图并能用于存取单元30的非基本视图。这分别地由从基本视图的存取单元0至基本视图的存取单元15的箭头,以及从非基本视图的存取单元15至非基本视图的存取单元30的箭头示出。存取单元15和存取单元45为使得能够开始对非基本视图的解码的VRA存取单元,而存取单元30为使得能够开始对基本视图的解码的VRA存取单元。
注意,用于上述列举的帧不能视图间预测是由于与MVC的兼容性,其中视图间预测依赖性需要在编码视频序列中保持不变。
图19b举例说明了用于与MVC兼容的立体编码的计划编码方案的另一个实现方式。基本视图位于顶部而非基本视图位于底部。
如可从图中可见一样,各个其他随机存取位置为常规的锚定存取单元,而各个其他随机存取位置仅为基本视图提供随机存取。
图19c举例说明了用于不与MVC兼容的立体编码的编码方案。
视图间预测顺序和因此的基本视图根据正在被编码的VRA存取单元而交替。在存取单元0-14中(包括存取单元0和14),顶部视图为基本视图,而底部视图是根据顶部视图而视图间预测的。在存取单元15-29中(包括存取单元15和29),底部视图为基本视图,而顶部视图是根据底部视图而视图间预测的。视图间预测顺序可以相似地在连续存取单元中交替。交替的视图间预测顺序使方案与MVC不一致。
图19d举例说明了在具有PIP视图间预测分层的3视图比特流中实现编码方案的可能性,其中,在中间的视图为基本视图而其他两个视图中的每一个可以是根据基本视图而视图间预测的。
注意,相比于用于PIP视图间预测的常规编码必须作的,视图间编码没有限制。为了在P视图中的某些时间-级-0帧,允许帧间预测。因为在编码视图序列的中间没有完成对视图间预测顺序的变化,所以方案为MVC兼容。
图19e举例说明了在具有IBF视图间预测分层的3视图比特流中实现编码方案的一个可能性,其中在顶部的视图为基本视图。
当将视图从顶部到底部编号为0-2时,可以得出关于视图间和帧间预测的以下评论。
在存取单元15-29(包括存取单元15和29)和45-59(包括45和59)中,视图2的视图间预测不能够使得能够进行在存取单元15和45处对视图2的随机存取。在存取单元15和45中,能够进行视图0和视图1的帧间预测。
在存取单元30中,能够进行视图2的帧间预测。从视图2中的对视图1的视图间预测不能够使得能够进行在存取单元3处对视图0和视图1的随机存取。
注意,图片标记为P(帧间)编码还可为双向预测,但是用于在当前图片中的块的双向预测的参考块都源自相同的参考图片。
图19f举例说明了在具有不与MVC兼容的IBP视图间预测分级的3视图比特流中,实现编码方案的一个可能性。
根据正在被编码的VRA存取单元,视图间预测顺序和因此的基本视图交替出现。在存取单元0-14中(包括存取单元0和14),视图0为基本视图而视图2是从顶部视图中视图间预测的。在存取单元15-29中(包括存取单元15和29),视图2为基本视图而视图0是从视图2中视图间预测的。视图间预测顺序交替在连续的存取单元中相似地交替。交替的视图间预测顺序使方案与MVC不一致。
当编码两个或三个视图时,图19a-19e举例说明了示例实施例,要理解本发明的各个方面不限于两个或三个视图,而是给定图19a-19e的举例说明来提供可针对任意数量的视图部分地或全部地实现本发明所基于的一个可能性。
根据本发明的另一示例实施例,编码器300可操作如下。编码器可例如基于以下原因确定是否需要随机存取AU。编码器可被配置为产生在随机存取AU之间的恒定的或确定的最大间距。编码器可例如通过执行对同样视图的连续图片的样本值的柱状图对照,检测场景切换或其他场景变化。关于场景切换的信息可用外部装置获得,比如,通过来自视频编辑设备或软件的指示。编码器可接受帧内图片更新请求或来自远端终端或媒体网关或在视频通信***中的其他元件的相似请求。编码器可接收来自网络元件或远端终端的关于传输错误的反馈,并且推断可需要帧内编码来刷新图片内容。
编码器可确定在确定的随机存取AU中刷新哪个视图。刷新的视图可定义为具有该性能:以输出顺序从恢复点开始的所有图片可在从随机存取AU开始解码时被正确地解码。编码器可确定在被编码的视图的子集由于例如以下一个或多个原因被刷新。编码器可确定锚定存取单元或IDR存取单元的频率或间距,并且将剩余的随机存取AU编码为VRA存取单元。估计的信道吞吐量或延迟忍受仅视图子集的刷新。估计的或接收的远端终端缓冲器占有的信息指示仅视图的子集可被刷新,而不会致使远端终端缓冲器耗尽或在解码和/或回放中发生中断。从远端终端或媒体网关接收的反馈可指示对于更新仅视图的特定子集的需要或请求。编码器可为多个接收器或播放器优化图片质量,仅其部分被期望或知道从这种随机存取AU开始解码。因此,随机存取AU不需要提供所有视图的完美重建。编码器可推断正在被编码的内容仅适合于将被刷新的视图的子集。例如,如果视图间的最大视差较小,那么可推断很难感知视图的子集是否被刷新。例如,编码器可基于相邻视图间的最大视差确定在VRA存取单元中的刷新视图的数量并确定刷新视图,从而其具有近似相等的彼此间的摄像机间隔。编码器可用任意深度估计算法检测视差。一个或多个立体对可用于深度估计。可替换地,可基于摄像机的已知基线间隔和场景中对象的已知深度范围,来推断最大绝对视差。
编码器还可基于在较早的VRA存取单元中已刷新的视图,来确定要刷新哪个视图。编码器可选择在连续的VRA存取单元中以交替或循环的方式来刷新视图。可替换地,编码器还可刷新在所有VRA存取单元中的视图的相同子集,或者可根据应用于连续的VRA存取单元的预定模式来选择要刷新的视图。编码器还可选择刷新视图,从而使得在该VRA存取单元中刷新的所有视图的最大视差相比于先前VRA存取单元以一种方式被降低,当从先前VRA存取单元开始解码时,该方式在主观上是令人满意的。这样,编码器可逐步刷新所有编码视图。编码器可在VRA存取单元的序列中用特定指示来指示第一VRA存取单元。
编码器允许帧间预测到这些在VRA存取单元中不被刷新的视图。编码器不允许从未刷新视图的视图间预测到开始于VRA存取单元的被刷新的视图。
编码器可如下文中的详细描述那样将VRA存取单元的指示创建至比特流中。编码器还可创建在特定VRA存取单元中被刷新的视图的指示。而且,编码器可为VRA存取单元指示前导图片。下文中将描述用于指示的某些示例选项。
在某些实施例中,编码器可改变在VRA存取单元处的视图间预测顺序,正如在图19a-19e中举例说明的某些示例预测分级和下文中解释的一样。
编码器可为视图组件的编码使用帧间预测和视图间预测,例如,如图19a-19e中所述。在编码深度增强型视频时,比如MVD,编码器可为视图组件的编码使用视图合成预测,不论视图间预测是否还可被使用。
可选择各种MVD***设计以用于部署。为实现高编码效率,可联合编码多视图纹理数据和多视图深度数据。在这种设计中,表示在近似地或完全相同的时刻中的真实场景的多视图纹理和深度数据可被并入单个存取单元,以便能够进行这种联合的纹理深度视图处理。
在深度增强型视频中,比如,多视图视频加深度(MVD),深度视频图片通常利用相同的帧间预测和视图间预测参考来被编码为各自的纹理图片。换言之,深度的VRA存取单元可将相同的视图作为各自的纹理视频的VRA存取单元。因此,没有用于深度的VRA存取单元的单独的指示需要被编码。
在某些实施例中,相比于各自的纹理,编码深度可有不同的视图随机存取属性,因此,编码器可在比特流中指示深度VRA图片。例如,深度嵌套SEI消息或特定深度SEI NAL单元类型可被规定为包含仅涉及指示的深度图片和/或视图的SEI消息。深度嵌套SEI消息可用于包含其他SEI消息,其典型地被规定用于纹理视图和/或单个视图。深度嵌套SEI消息可在语法结构中指示所包含的SEI消息用于的深度视图。编码器可例如编码深度嵌套SEI消息,以包含恢复点SEI消息来指示VRA深度图片。
作为可能的实施例,多视图纹理的编码有助于回路视图合成预测。因此,出于利用回路视图合成的帮助的另一纹理视图的预测的目的,使用某些属于相同存取单元的纹理和深度视图。所谓的视图合成参考图片可使用视图合成处理从相同存取单元的一个或多个纹理图片和一个或多个深度图片中形成。于是,可将视图合成参考图片加入参考图片列表,并在单向预测或双向预测中用作预测参考,或者可为视图合成预测指示一个或多个特定预测模式。
在分层时间编码中,可级联量化参数值,从而使时间级0具有最低量化参数值(产生最佳图片质量)并且最高时间级具有最高的量化参数值。在一个实施例中,不调准用于纹理和深度的时间级级的选择。换言之,相同的存取单元包含某个时间级的纹理视图组件和另一时间级的深度视图组件。因此,当与在相同存取单元中纹理和深度的时间级被调准相比时,在TLD<TLT时视图合成参考图片可有更好的质量,其中TLD为深度的时间级而TLT为在相同存取单元中的纹理的时间级。帧内编码深度图片还可具有比单向预测或双向预测深度图片更高的保真度。因此,当相比于其他视图合成参考图片时,从帧内编码深度图片中生成的视图合成参考图片可具有特别好的质量。
在图20中描绘的示例示出了交替的随机存取扩展到利用回路视图合成的MVD***中的可能性。标记有“V”的块为视图合成参考帧,其质量为属于相同存取单元的纹理的质量和深度图片的质量的主题。有可能提高某些纹理图片的质量,该纹理图片从高质量的视图合成参考图片中预测得出,该高质量的视图合成参考图片可当将TLD<TLT的帧内编码深度图片和/或深度图片用作用于视图合成的输入时产生。
编码器可将VRA存取单元的指示通过包括但不限于下文中的各种语法元素来生成至比特流中。编码器可将标记或其他语法元素生成在NAL单元报头中或片报头中。编码器可将特定NAL单元类型或其他语法元素的一个或多个特定值生成在NAL单元报头中。编码器可将标记或其他语法元素生成在图片报头、图片参数集、片参数集、图片定界符NAL单元、前缀NAL单元或其他可用于大于单个片的区域的语法结构中。
编码器还可生成被封装在MVC延展嵌套SEI消息中的恢复点SEI消息。MVC延展嵌套SEI消息指示所包含的SEI消息应用于的view_id值。当恢复点SEI消息被包含在MVC延展嵌套SEI消息中时,所包含的恢复点SEI消息的语义可以按照这样的方式翻译,在方式中仅仅在MVC延展内嵌SEI消息中所指示的视图的解码被要求以恢复所指示的视图,即,没有发生从不是MVC延展嵌套SEI消息中所指示的视图的其他视图中的视图间预测或视图合成预测。因此,在恢复点SEI消息封装至MVC延展嵌套SEI消息中时,可传达在视图方面的入口点(a.k.a随机存取点)和恢复点信息。
编码器可生成MVC恢复点SEI消息,其提供入口点(a.k.a随机存取点)和恢复点的视图方面的信息。
可使用上述多于一个指示,例如,其可有利地具有在高效且可容易进入的语法结构的等级中,比如NAL单元报头和其他语法结构(比如SEI消息),指示VRA存取单元的标记,从而给出关于VRA存取单元的更多信息。
编码器还可通过多种语法元素为VRA存取单元指示前导图片。对前导图片而言,编码器也可指示当从VRA存取单元开始解码时其是否为可解码的或不可解码的。编码器还可指示view_id值或其他使用前导图片的视图标示符。可使用以下语法元素中的一个或多个:
1.在NAL单元报头中的标记或其他语法元素。
2.特定NAL单元类型或在NAL单元报头中的其他语法元素的一个或多个特定值。
3.在片报头中的标记或其他语法元素。
4.在图片报头、图片参数集、片参数集、图片定界符NAL单元、前缀NAL单元或其他可用于大于单个片的区域的语法结构中的标记或其他语法元素。
5.用于前导图片指示的SEI消息,或作为SEI消息的一部分用于指示前导图片的标记或语法元素。
6.图片序列号或呈现时间或指示存取单元的呈现顺序或时间的相似语法元素。前导图片具有的呈现时间或顺序小于VRA存取单元具有的。
在某些实施例中,VRA存取单元没有前导图片,即,以解码顺序随在VRA存取之后的所有存取单元按照输出顺序也随在该VRA之后。这样的VRA存取单元可使用与用于具有前导图片的VRA存取单元的语法元素值相比的用于语法元素的不同值或部分不同值来指示。
VRA存取单元和前导图片的指示还可由数据包或文件生成器生成,且指示在数据包封装格式或文件格式中。例如,可如下指示VRA存取单元和前导图片:
1.在RTP有效载荷格式的PACSI NAL单元或其他RTP有效载荷格式或RTP有效载荷报头结构中;
2.在使用例如标记位或RTP有效载荷报头延展的RTP报头中。
3.为ISO基础媒体文件格式轨道使用“rap”样本分组,该轨道包含具有相同的视图随机存取和前导图片特征的视图。
4.在样本依赖性类型框中使用is_leading样本依赖性指示,或者为ISO基础媒体文件格式轨道使用在电影片段中针对样本的样本标记,该轨道包含具有相同的视图随机存取和前导图片特征的视图。
为了执行在使用交替的基本视图的计划的方案中可能需要的视图预测顺序更新,必须更新在序列参数集中规定的视图依赖性的信息。因为只有在按照H.264/AVC及其延展的IDR图片中才可激活新的SPS,所以视图预测顺序更新可通过来自SPS的不同机制发生。例如,可为视图预测顺序更新指示新的NAL单元,或者视图预测顺序更新可被包括在前缀NAL单元中。视图预测顺序更新的语法可类似于在序列参数集MVC延展中的各自部分的语法,为方便起见,重复如下:
当编码器创建视图预测顺序改变的VRA存取单元时,它还可以创建对视图预测顺序更新的指示。当解码器在比特流中接收视图预测顺序更新指示时,其相应地更新视图顺序索引,好似新的序列参数集已被激活。基本视图的编码/解码以这样的方式修正:帧间预测参考图片为具有与正在被编码/解码的图片相同的view_id的图片(并且这些参考图片不需要是基本视图图片)。其他视图的编码/解码相比于MVC没有改变,除了视图预测顺序的更新之外。
根据某些其他示例实施例,解码器400可操作如下。
首先,解码器通过使用比特流中的指示、数据包封装格式或文件格式中的一个来检测VRA存取单元。然后,解码器推断从检测到的VRA存取单元开始可解码哪个视图。例如,解码器可使用在MVC可扩展嵌套SEI消息中的view_id值,该MVC可扩展嵌套SEI消息封装用于指示VRA存取单元的恢复点SEI消息。解码器对可从VRA存取单元解码的视图进行解码。解码器省略对其他存在于VRA存取单元中的视图的解码。
解码器可确定期望显示的视图,该确定例如基于显示器的已知特征、估计或期望的查看者的位置以及编码的多视图序列的特征,比如在编码视图间的最大视差,这些特征中的一部分可从例如多视图获得信息SEI消息中获得。如果期望显示的某些视图不在从检测到的VRA存取单元开始可被解码的视图之中,那么解码器可从可获得的那些视图中合成丢失的视图。例如,如果编码视图间的最大视差被估计以创建对于所感知的多视图图片质量的清晰显著的退化,那么解码器可合成一定数量的被估计用以提供足够感知质量的视图。如果使用深度增强型视频格式,那么解码器可为了合成而使用纹理和深度视图。如果使用多视图视频格式,那么解码器可例如估计解码视图的逐像素的视差或深度,且将其用于合成需要显示的视图。可替换地,解码器仅可显示可解码的视图,而且例如仅仅将可获得的视图复制至不可获得的显示视图。可替换地,解码器可使用其他某些手段来合成不可获得的视图。已观察得知立体视觉可掩饰一个事实:某些视图在随机存取之后短期间内是不可获得的。
解码器可使用比特流中的指示、数据包封装格式或文件格式之一,来检测在相同视图中可在VRA存取单元中被解码的前导图片。解码器可选择解码这些可解码的前导图片或者可选择省略对它们的解码。解码器可省略对不可解码的前导图片的解码。
解码器解码这些在VRA存取单元中可解码的在相同视图中的非前导图片。解码器可省略对其他视图的图片(即,视图组件)的解码,直到下一个VRA/IDR/锚定存取单元被检测出。可替换地,解码器可例如如下对在VRA存取单元中不能被近似正确地解码的视图的视图组件进行解码。如果编码的视图组件v1使用根据不可获得的参考图片的帧间预测,那么解码器可从相同存取单元的特定解码纹理和深度视图组件中合成视图组件相应的v1。然后,合成的视图组件v1可用作相同视图的随后的视图组件的帧间预测参考。在某些实施例中,编码器包括使用v1而不是正确的解码视图组件的解码操作,并且可测量后续解码图片的正确性。编码器可将指示包括进比特流中,比如SEI消息中,指示在正确的解码视图组件不能被解码时是否建议解码器使用v1。SEI消息还可指示是否不应该使用v1。
类似于对用于VRA存取单元的期望显示的视图的确定,解码器可确定期望为在该VRA存取单元之后的存取单元显示的视图,即该确定例如基于显示器的已知特征、估计或期望的观看者的位置以及编码多视图序列的特征,比如编码视图间的最大视差。然后,解码器可合成当从VRA存取开始解码时通过解码不可获得的视图。解码器还可逐步增加合成视图的数量超过按照输出顺序的存取单元的数量。
当检测到下一个VRA/IDR/锚定存取单元时,解码器于是推断可从新检测的VRA/IDR/锚定存取单元开始解码的视图,并且开始解码这些视图。检测/监控后续VRA/IDR/锚定存取单元,并且开始如此解码新视图直到所有视图或所有期望的视图被解码。
帧封装可用于构建包含图片的图片序列,每个包含多视图(代表性地立体的)序列的构成图片。可使用常规的单视图视频编码器编码帧封装视频。相同瞬时的帧封装输入图片可具有例如并排式或从上至下式的排列,以便包含立体的图片。从单个视图编码器输出单个比特流。在解码之后,可以为了在多视图显示上显示,来拆开帧封装解码图片。
对所应用的帧封装或平铺的指示可被包括在比特流中。例如,可使用H.264/AVC的帧封装排列补充增强信息(SEI)消息。可替换地,与包括在帧封装SEI消息中相似的信息可以被包括在比特流的其他部分,比如,序列参数集、图片参数集、视频可用性信息(VUI)结构、序列报头、图片报头组、图片报头或片报头。
根据某些示例实施例的编码器可为构成图片的每个序列形成独立区域图片组。例如,左视图构成图片(例如,在图片的左半边以并排式帧封装排列)可形成隔离区域图片组,而右视图构成图片可形成另一个隔离区域图片组。编码器可用SEI消息指示隔离区域图片组的存在,比如H.264/AVC的运动限制片组集SEI消息。
编码器可按照交替方式使用帧内模式来编码构成图片。换言之,在图片中的仅一个或构成图片的任意其他子集可被帧内编码。表示相同视图的后续构成图片的编码可被限制,从而使得它们不使用根据按照解码顺序或输出顺序在视图被帧内编码的图片之前的图片的帧间预测。编码器可为帧封装视频中的视图通过SEI消息指示视图随机存取能力。例如,可规定帧封装嵌套SEI消息。帧封装嵌套SEI消息可用于包含其他SEI消息,其被代表性地规定用于单个视图非帧封装。帧封装嵌套SEI消息可包含对于其应用于的构成图片或帧封装视图的指示,并且可以包含仅应用于所指示的构成图片的SEI消息。于是,帧封装嵌套SEI消息可包含恢复点SEI消息,该恢复点SEI消息指示对于所指示的视图的随机存取能力。
根据某些示例实施例,解码器可类似于上述操作,但是其可以仅解码通过视图随机存取的指示被指示为可编码的构成图片,直到所有构成图片成为通过后续视图随机存取点或完整的帧内或IDR图片可解码的。
随机可接入存取单元和因此的VRA存取单元可在下述应用程序、服务项目和用例中使用。
在单播流中的服务器驱动的流切换。在流式传输应用程序中,服务器通常具有可获得的相同内容的多个版本,每个版本针对不同比特率和/或接收器特征而被编码。服务器可例如基于接收器反馈来确定可获得的吞吐量,并且切换在VRA存取单元处的流。服务器可根据提供在提示轨道中的命令来对视频分包化。
容器文件,比如根据ISO基础媒体文件格式而被格式化的文件,可用于包括或引用包括VRA存取的比特流。可有特定切换提示轨道或切换提示样本,描述VRA存取单元和后续存取单元的封装,直到所有视图都为可解码的。用于创建这种提示轨道的文件生成器可按照本质上与根据本发明的解码器类似的方式进行操作,而不解码,文件生成器创建切换提示样本。例如,文件生成器可接收包含VRA存取单元的比特流。文件生成器可分析比特流,以推断按照解码顺序的存取单元,并生成用于每个存取单元的分包命令的一个或多个提示样本,且将提示样本包括至提示轨道中。文件生成器可检测存取单元是否为VRA存取单元,且推断当从VRA存取单元(即,视图集合A)开始解码时可解码的视图。文件生成器可为检测到的VRA存取单元生成切换提示轨道。文件生成器可为切换提示轨道生成提示样本,以包括用以仅对视图集合A的编码数据分包的命令,而在提示样本中没有用于切换提示轨道的命令被创建,来将排除视图集合A的视图的编码数据包括在数据包中。
随机可接入存取单元还可用于在单播流中的接收器驱动的流切换。接收器可例如基于可获得的显示特征,确定仅接收可获得的视图的子集。可通过在DASH会话中的不同Representation(表示)来获得不同视图。因此,VRA存取单元可被认为和标记为在分段索引框中的流存取点(SAP),还可在确定MPD中的SAP相关属性的值时被认为是SAP。VRA存取单元还可用于在DASH中的Representation(表示)切换。
随机可接入存取单元可进一步用于在单播流中的视图子集的接收。3D显示解决方案中为多视图自由立体显示器,其中,观看视图依赖于观看者相对于显示器的位置,且立体显示器需要使用偏振或快门眼镜。立体的和常规的2D显示器可配备有报头和视线追踪解决方案,例如以便交互式地选择视图或正在显示的视图,因此提高3D体验。用户只可在任意单一时间观看视图的子集的事实可在单播流应用程序中被开发利用,来减少必需的用于传输的频带宽度。换言之,仅有这些用户观看的视图和对于正确解码观看视图需要的视图必需被传输。VRA存取单元可用于切换至多视图流中的视图子集。
媒体意识网络单元(MANE),比如网关140,可使用如下的VRA存取单元。MANE可通过有选择地将从发送器130接收到的编码数据转发至一个或多个接收器150而运行。MANE可推断在编码数据存在破坏,例如在发生数据包丢失时可基于例如数据包序列号推断,或者在接收器已经下达搜索或特技播放操作时可基于例如呈现时间戳推断。在破坏之后,MANE可从编码数据中检测到VRA存取单元,并推断在从VRA存取单元(即,视图集合A)开始解码时哪些视图是可解码的。MANE可仅转发视图集合A的编码数据,而不转发视图集合A中不包括的视图的编码数据,直到接收到后续的VRA、IDR或锚定存取单元。当MANE如此运行时,可节约网络资源并避免在MANE及接收器之间的网络连接中的拥塞和丢失。而且,因为MANE不转发不可解码的视图中的编码数据,所以接收器和/或解码器不需要检测可正确解码的视图。
本地多视图视频文件或远程多视图视频文件的搜索、快进和快退也可能是用于使用随机可接入存取单元的应用程序。VRA存取单元可在搜索位置上或搜索位置后被检测到,并且可从提供对至少一些所需视图的解码可能性的后续VRA存取单元开始解码。对于快进和快退操作而言,VRA存取单元提供了仅对比特流的存取单元的子集解码的性能。
上述的编码方案可提高多视图编码的压缩效率。
编码器框图示例
图10示出了根据本发明的示例实施例的编码器实现的示例。其示出了简化的框图,该框图可生成为本质上相似的编码器结构的通用编码方案。在后文中,框图中的各个节点或块称为进程。
在图10的示例实施例中,编码器300包括输入302以用于接收用于编码的图像信息。编码器300可包括适用于产生预测帧或块(例如,视图间、帧间和/或帧内预测帧或块)的预测元件304。编码器300可进一步包括适用于确定视图随机存取(VRA)存取单元(AU)是否应被编码至多视图比特流的随机存取定位元件306。然后,随机存取定位元件306可命令预测元件304如以上与在图8中描绘的编码进程的示例实施例的描述相关的描绘的那样,基于视图的子集形成VRA AU。在图10的示例实施例中,编码器300还包括适用于形成VRA AU的指示的指示器元件308。可将该指示加入多视图比特流中或可将其加入单独的语法元素中。可将编码比特流提供至编码器300的输出310。
编码器300还可包括深度图构建元件316,深度图构建元件316可从如距离检测器(未图示)或从另一合适的元件中接收深度信息。可经由例如输入302接收深度信息。深度图信息可被提供至编码器300的输出310。
在本文中应注意的是,编码器300还可包括上述以外的其它元件,或者,部分元件(例如,指示器元件308)可能不存在于每个编码器实施方式中。且,编码器300的元件的详细结构在不同实施方式中可有所不同,因此,本文不对其进行详细描述。进一步地,尽管在图10中输入302和输出310描绘为两条或多条线路,但是不同种类的信息不需要经由分开的线路输入/输出。例如,编码图像信息和其它可能的语法元素和/或深度图可被***一个比特流中,或者它们可作为分开的比特流输出。
解码器框图示例
图11图示了根据本发明的解码器400的示例实施例的框图。
在图11的示例实施例中,解码器400包括第一输入402,用于接收包含多视图视频的存取单元的编码比特流。应该注意的是,编码比特流可有不同的格式,且可被接收器接收、可从存储器获得或由某些其它装置提供至解码器400以用于进行解码。解码器400进一步包括适用于从接收的比特流中检测视图随机存取(VRA)存取单元(AU)的第一检测元件406。解码器400还包括预测元件404,该预测元件404适用于,基于编码器进程中用作预测参考的帧或块和某些其它信息,比如编码在接收的比特流中的预测误差,来重建存取单元。第一检测元件406可将指示408提供至预测元件404,从而使其可从检测到的VRA AU开始解码一个或多个视图组件。解码器400可进一步包括适用于确定在接收的编码比特流中的视图间相依性顺序中是否存在变化的第二检测元件410。然后,第二检测元件410适用于提供视图间相依性顺序中存在的变化的信息414至预测元件404。被解码的视图组件可被提供至解码器400的输出412。
解码器400可包括合成元件416,该合成元件416适用于在一个或多个视图不可用于解码或不能被正确解码时形成合成视图。合成元件416可利用其它解码视图和一个或多个已经由解码器400接收并解码的深度图。
在本文中应该注意的是,解码器400还可包括上述之外的其它元件,或者,某些元件(例如,第二检测元件410)可能不存在于每个解码器实施方式中。且,解码器400的元件的细节结构在不同实施方式中可有所不同,因此本文对其不进行详细描述。进一步地,尽管在图11中输入402和输出412描绘为两条或多条线路,但是不同种类的信息不需要经由分开的线路输入/输出。例如,在VRA AU上的编码图像信息和指示可接收在一个比特流中。
图4示出了其中可利用本发明各种实施例的***10,该***包括:可通过一个或多个网络通信的多个通信设备。该***10可包括有线或无线网络的任意组合,包括但不限于:移动电话网络、无线局域网络(LAN)、蓝牙个人区域网络、以太网LAN、令牌环LAN、广域网络、互联网等。该***10可包括有线和无线通信设备。
举例而言,图4中示出的***10包括移动电话网络11和互联网28。互联网28的连通性可包括但不限于:远程无线连接、短程无线连接、以及包括但不限于电话线、电缆线、电力线等的多种有线连接。
***10的示例性通信设备可包括但不限于:移动电话形式的电子设备12、组合个人数字助理(PDA)和移动电话14、PDA16、集成消息传送设备(IMD)18、台式电脑20、笔记本电脑22等。通信设备可为固定式或当被移动的个体携带时的移动式。还可将通信设备定位为运输模式,包括但不限于:汽车、卡车、出租车、公共汽车、火车、飞机、自行车、摩托车等。部分或全部通信设备可发送并接收电话和消息,并通过到基站24的无线连接25与服务供应商通信。可将基站24连接至允许在移动电话网络11和互联网28之间通信的网络服务器26。***10可包括附加的通信设备和不同类型的通信设备。
通信设备可以使用各种传输技术进行通信,这些传输技术包括,但不限于,码分多址(CDMA)、全球移动通信***(GSM)、通用移动电信***(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议/网际协议(TCP/IP)、短消息接发服务(SMS)、多媒体消息接发服务(MMS)、电子邮件、即时消息接发服务(IMS)、蓝牙、IEEE802.11等。在实现本发明的各种实施方式中,所涉及的通信设备可以使用各种媒体进行通信,所述媒体包括但不限于无线电、红外线、激光、线缆连接等。
图5和图6示出了一个典型的电子设备28,该电子设备可用作根据本发明的各种实施例的网络节点。然而,要理解,本发明的范围不旨在局限于一种特定类型的设备。图5和图6中的电子设备28包括:壳体30、液晶显示器形式的显示器32、按键34、麦克风36、耳机38、电池40、红外端口42、天线44、根据一个实施例的UICC形式的智能卡46、读卡器48、无线电接口电路52、编解码电路54、控制器56和存储器58。电子设备28还可包括摄像机60。上述元件使电子设备28能够发送/接收各种信息至/从其它可存在于根据本发明的各种实施例的网络上的装置。单独的电路和元件均是本领域所熟知的类型,例如,Nokia移动电话范围内的类型。
图7为可实施多种实施例的通用多媒体通信***的图示。如图7所示,数据源100提供模拟格式、未压缩数字格式、或压缩数字格式、或这些格式的任意组合的源信号。编码器110将源信号编码至编码媒体比特流中。应该注意的是,需要解码的比特流可被直接或间接地从虚拟地位于任何类型的网络中的远程装置接收。另外,可从本地硬件或软件中接收比特流。编码器110可具有编码多于一个媒体类型的能力,比如音频和视频,或者可能需要多于一个编码器110来编码不同媒体类型的源信号。编码器110还可获得合成产生的输入,比如图形和文本,或其能够产生合成媒体的编码比特流。在下文中,为简化描述,仅考虑处理一种媒体类型的一个编码媒体比特流。然而,应注意的是,通常,实时广播服务包括多个流(通常包括至少一个音频、视频和文本字幕流)。还应注意的是,***可包括多个编码器,然而,为了简化描述而又不缺乏概论,在图7中仅表示了一个编码器110。应进一步理解,尽管包含在此的文本和示例可明确描述一个编码过程,但是本领域的技术人员应理解,同样的概念和原则也可应用于相应的解码处理,反之亦然。
将编码媒体比特流传到存储器120。存储器120可包括任意类型的海量存储器,以用于存储编码媒体比特流。存储器120中的编码媒体比特流的格式可为基本的自包含比特流格式,或者一个或多个编码媒体比特流可被封装至容器文件中。如果一个或多个媒体比特流被封装至容器文件中,那么文件生成器(未图示)可用于将一个或多个编码媒体比特流存储在文件中并创建文件格式元数据,该文件格式元数据同样存储在文件中。编码器110或存储器120可包括文件生成器,或者该文件生成器可操作地附连于编码器110或存储器120。某些***“实况”运行,即,省略存储并将编码媒体比特流从编码器110直接传至发送器130。然后,基于需要将编码媒体比特流传至发送器130,该发送器也称为服务器。在传输中使用的格式可为基本的自包含比特流格式和数据包流格式,或者,一个或多个编码媒体比特流可封装在容器文件中。编码器110、存储器120和服务器130可驻留于相同的物理设备上也可包括在分开的设备中。编码器110和服务器130可操作实况转播的实时内容,在这种情况下,编码媒体比特流通常不会永久存储,而是在内容编码器110和/或在服务器130上缓冲一小段时间以平滑在处理延迟、转移延迟和编码媒体比特率上的变化。
服务器130使用通信协议栈发送编码媒体比特流。该栈可包括但不限于实时传送协议(RTP)、用户数据报协议(UDP)和互联网协议(IP)。当通信协议栈面向分组时,服务器130将编码媒体比特流封装至数据包中。例如,在使用RTP时,服务器130根据RTP有效载荷格式将编码媒体比特流封装至RTP数据包中。通常,每个媒体类型具有专用的RTP有效载荷格式。应再次注意的是,***可包含多于一个服务器130,但是为了简洁起见,下文的描述中仅考虑了一个服务器130。
如果为了存储器120或为了输入数据至发送器130而将媒体内容封装在容器文件中,那么发送器130可包括或可操作性地附连于“发送文件解析器”(未图示)。具体地,如果容器文件未被如此传输,而是至少一个包含的解码媒体比特流为了通过通信协议进行传送而被封装,那么发送文件解析器将编码媒体比特流的合适部分定位为通过通信协议进行传输。发送文件解析器还可有助于创建用于通信协议的正确格式,比如,数据包报头和有效载荷。多媒体容器文件可包括封装指令,比如,在ISO基础媒体文件格式中的提示轨道,用于将至少一个包含的媒体比特流封装在通信协议上。
服务器130可以或可以不通过通信网络与网关140连接。网关140可执行不同类型的功能,比如,将根据一个通信协议栈的数据包流转译为另一通信协议栈、合并和分开数据流、以及根据下行链路和/或接收器的能力对数据流进行操作,比如根据主要的下行网络的条件控制转发流的比特率。网关140的示例包括MCU、电路交换和分组交换视频技术之间的网关、无线一键通(PoC)服务器、手持数字视频广播(DVB-h)***中的IP封装器,或者将广播传输本地转发至家庭无线网络的机顶盒。在使用RTP时,网关140可称为RTP混合器或RTP转译器,并可作为RTP连接的端点。
***包括一个或多个接收器150,典型地能够接收、解调、和将所传输的信号解封装至编码媒体比特流。编码媒体比特流被传至纪录存储器155。记录存储器155可包括任意类型的海量存储器,来存储编码媒体比特流。纪录存储器155可替换地或附加地包括估算存储器,比如,随机存取存储器。纪录存储器155中的编码媒体比特流的格式可为基本的自我包含的比特流格式,或者一个或多个编码媒体比特流可被封装至容器文件中。若有多个编码媒体比特流,比如,彼此相关联的音频流和视频流,则典型地使用容器文件且接收器150包括或附连于从输入流产生容器文件的容器文件生成器。某些***操作“实况转播”,即省略记录存储器155且将编码媒体比特流从接收器150直接传至解码器160。在某些***中,仅有记录的流的最新部分,例如记录的流的最近的10分钟抄录,被维持在记录存储器155中,而将任意较早的记录数据从记录存储器155中丢弃。
编码媒体比特流被从记录存储器155中传至解码器160。若有许多编码媒体比特流,比如,音频流和视频流,彼此相关且封装至容器文件,或单一媒体比特流中被封装在容器文件中,例如为了较早存取,则使用文件解析器(未图示)以从容器文件中将每个编码媒体比特流去封装。记录存储器155或解码器160可包括文件解析器,或该文件解析器附着于记录存储器155或解码器160。
编码媒体比特流可用解码器160进一步处理,解码器160的输出为一个或多个未压缩的媒体流。最终,绘制器170可通过例如麦克风或显示器来再生未压缩的媒体流。接收器150、记录存储器155、解码器160和绘制器170可存在于相同的实体设备或其可包括在分开的设备中。
要理解,不同的实施例允许不同的部分在不同的元件中被执行。例如,视频的编码和解码可执行在例如12、14、16、18、20或22的用户设备中、或者在服务器设备26中、或者遍及多个用户设备或遍及多个网络设备、或者同时遍及用户设备和网络设备。例如,视频的不同视图可存储在一个设备中,对用于传输至用户的立体视频的编码可发生在另一个设备中,且可在第三设备中执行信息分包。如另一示例,可在一个设备中接收视频流并解码,且解码的视频可用于第二设备来将立体的视频示出给用户。视频编码元件可被实施为存在于一个设备的或分布存在于几个设备的软件组件,例如,如上所述,从而使得设备形成所谓的云。
不同的实施例可被实施为运行在移动设备上的和可选地针对服务的软件。移动电话可至少装备有存储器、处理器、显示器、按键、运动检测器硬件和通信装置,比如2G、3G、WLAN或其它。不同设备可具有如触屏(单点触控或多点触控)的硬件以及用于定位的如网络定位或全球定位***(GPS)模块的装置。在设备中可有多种应用程序,比如,日历应用程序、通讯录应用程序、地图应用程序、消息应用程序、浏览器应用程序、图库应用程序、视频播放器应用程序和各种其它的办公和/或私人使用的应用程序。
解码器或绘制单元或显示器可包括基于深度图像的绘制(DIBR)或视图合成过程。该过程可输入解码的深度图和纹理图片,并在虚拟摄像机位置合成图片。在解码的视图数量不足或其摄影机的间隔不适于显示器时,视图合成可用于生成用于多视图显示器的合适的视图。交替地或附加地,视图合成可用作在编码和解码回路中的所谓的视图合成预测,以便创建预测参照。可替换地或附加地,在用户想要将所显示视图间的视差调节至用于观看的舒适值时,视图合成可由用户控制。视图合成还可用于其它目的,且实施例不限于结合视图合成的特定使用而被应用。
上述本发明的某些实施例包括作为解码器装置的一部分的视图合成或DIBR操作。然而,要理解,可将视图合成或DIBR操作耦合于从解码器装置分开的装置,例如,通过固定连接与解码器装置连接的绘制装置,固定连接例如高清多媒体接口(HDMI)电缆和连接器或无线连接,比如无线局域网络连接。
上述本发明的某些实施例包括深度估测或衍生操作作为编码器装置的一部分。然而,要理解,可将深度估测或衍生耦合于从编码器装置分开的装置,例如,通过固定连接与编码器装置连接的捕获装置,固定连接例如高清多媒体接口(HDMI)电缆和连接器或无线连接,比如无线局域网络连接。
上述本发明的实施例就分开的编码器和解码器装置描述了编解码器,以便帮助理解所涉及的过程。然而,要理解,设备、结构和操作可以实现为单个编码器-解码器装置/结构/操作。此外,在本发明的某些实施例中,编码器和解码器可共享部分或所有共用元件。
虽然以上示例描述了在电子设备内的编解码器内操作的本发明的实施例,但是应当认识到,上述的发明可以实现为任意视频编解码器的一部分。因此,例如,本发明的实施例可以在视频编解码器中实现,该视频编解码器可通过固定或有线通信路径实现视频编码。
因此,用户设备可包括诸如本发明的以上实施例中所描述的视频编解码器之类的视频编解码器。
应当认识到,术语“用户设备”旨在涵盖任意合适类型的无线用户设备,诸如移动电话、便携式数据处理装置或便携式网页浏览器。
还应当认识到,术语“用户设备”旨在涵盖任意合适类型的非便携式用户设备,诸如电视接收机、桌上数据处理装置或机顶盒。
此外,公共陆地移动网络(PLMN)的元件也可包括如上所述的视频编解码器。
一般来说,本发明的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合来实现。例如,某些方面可以以硬件来实现,而其他方面可以以固件或软件来实现,该固件或软件可以由控制器、微处理器或其他计算装置来执行,虽然本发明并不限于此。虽然本发明的各个方面可以作为框图、流程图或者使用某个其他图形表示来进行图示和描述,但是容易理解的是,作为非限制性示例,本文所述的这些块、装置、***、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算装置或者其某一组合来实现。
本发明的实施例可以通过由移动设备的数据处理器执行的计算机软件(诸如在处理器实体中),或者通过硬件,或者通过软件和硬件的组合来实现。进一步地,在这方面,应当注意的是,如附图中的任意逻辑流程的块可以表示程序步骤,或者相互连接的逻辑电路、块和功能单元,或者程序步骤与逻辑电路、块与功能单元的组合。该软件可存储在物理介质上,诸如存储器芯片、或者在处理器内实现的存储器块、诸如硬盘或软盘之类的磁介质,以及诸如DVD及其数据变体(CD)之类的光介质等。
存储器可以是适合于当地技术环境的任意类型,并且可以使用任意合适的数据存储技术(诸如基于半导体的存储器装置、磁存储器设备和***、光存储器设备和***、固定存储器和可移动存储器)来实现。数据处理器可以是适合于当地技术环境的任意类型,并且作为非限制性示例,可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)和基于多核处理器架构的处理器中的一个或多个。
本发明的实施例可以以各种组件(诸如集成电路模块)来实践。集成电路的设计总的来说是高度自动化的过程。复杂和强大的软件工具可用于将逻辑电平设计转换为准备好蚀刻和形成在半导体衬底上的半导体电路设计。
程序(诸如由.Mountain View,California的Synopsys,Inc和San Jose,California的Cadence Design提供的那些程序)使用建立好的设计规则和预先存储的设计模块库在半导体芯片上自动地对导体进行布线和对组件进行定位。一旦完成半导体电路的设计,具有标准化电子格式(例如Opus、GDSII等)的结果设计可以被传送到半导体制造设施或“工厂”以用于制造。
前述描述已经通过示例性和非限制性示例提供了本发明的示例实施例的完整而翔实的描述。然而,当结合附图和所附权利要求阅读时,鉴于前述描述,各种修改和适应对于相关领域的技术人员而言可以变得显而易见。然而,本发明的教导的所有这些和类似修改仍将落入本发明的范围内。
一种根据某些示例实施例的方法包括:
将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元;
确定用于所述至少一个比特流的随机存取位置;
将来自所述第一序列的第三图片和来自所述第二序列的第四图片编码进所述至少一个比特流的第二存取单元,所述第二存取单元跟随在所述随机存取位置之后,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
在某些实施例中,使用预测将深度图片编码进所述至少一个比特流中。
在某些实施例中,所述第一序列表示第一视图而所述第二序列表示第二视图,方法进一步包括:确定当解码是从所述随机存取位置开始的时将可被正确解码的视图集合,以包括所述第一视图。
在某些实施例中,方法进一步包括:
将来自第三序列的第五图片编码进所述第一存取单元,其中所述第三序列表示第三视图;以及
使用根据所述第三图片的预测将来自所述第三序列的第六图片编码进所述第二存取单元。
在某些实施例中,方法进一步包括:将随机存取位置的指示编码进所述至少一个比特流中。
在某些实施例中,所述第一图片的编码包括根据所述第二图片的预测。
在某些实施例中,其中,第一视图间预测顺序指示根据所述第一存取单元中的第二视图对所述第一视图的预测,第二视图间预测顺序指示根据所述第一视图对所述第二视图的预测,方法进一步包括:将对视图间预测依赖性顺序的变化的指示编码进所述至少一个比特流中。
在某些实施例中,所述第一序列的图片是用第一摄影机捕获的,所述第二序列是用第二摄影机捕获的。
一种根据某些示例实施例的装置包括:至少一个处理器和至少一个包括计算机程序代码的存储器,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置:
将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元;
确定用于所述至少一个比特流的随机存取位置;以及
将来自所述第一序列的第三图片和来自所述第二序列的第四图片编码进所述至少一个比特流的第二存取单元,所述第二存取单元跟随在所述随机存取位置之后,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
在某些实施例中,至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置使用预测将深度图片编码进所述至少一个比特流中。
在某些实施例中,所述第一序列表示第一视图而所述第二序列表示第二视图,且所述至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置使用预测来确定当解码从所述随机存取位置开始时将可被正确解码的视图集合,以包括所述第一视图。
在某些实施例中,至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置使用预测来:
将来自所述第三序列的第五图片编码进所述第一存取单元,其中,所述第三序列表示第三视图;以及
使用根据所述第三图片的预测,将来自所述第三序列的第六图片编码进所述第二存取单元。
在某些实施例中,至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置使用预测将随机存取位置的指示编码进所述至少一个比特流中。
在某些实施例中,所述第一图片的编码包括根据所述第二图片的预测。
在某些实施例中,其中,第一视图间预测顺序指示根据所述第一存取单元中的第二视图对所述第一视图预测,第二视图间预测顺序指示根据所述第一视图对所述第二视图的预测,至少一个存储器包括计算机程序代码,所述至少一个存储器和所述计算机程序代码配置为与至少一个处理器一起使所述装置使用预测将对视图间预测依赖性顺序的变化的指示编码进所述至少一个比特流中。
在某些实施例中,所述装置为编码器。
在某些实施例中,所述装置为无线通信设备。
在某些实施例中,所述装置为服务器。
根据某些示例实施例,提供了一种包含在非瞬时性计算机可读介质上的计算机程序,计算机程序包括:当在至少一个处理器上执行时使至少一个装置执行以下步骤的指令:
将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元;
确定用于所述至少一个比特流的随机存取位置;
将来自第一序列的第三图片和来自第二序列的第四图片编码进所述至少一个比特流的第二存取单元,所述第二存取单元跟随在所述随机存取位置之后,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
在某些实施例中,计算机程序包括:当在至少一个处理器上执行时使至少一个装置使用预测将深度图片编码进所述至少一个比特流中的指令。
在某些实施例中,所述第一序列表示第一视图而所述第二序列表示第二视图,且至少一个存储器包括计算机程序代码,至少一个存储器和计算机程序包括当在至少一个处理器上执行时,使至少一个装置执行以下步骤的指令:使用预测来确定当解码从所述随机存取位置开始时将可被正确解码的视图集合,以包括所述第一视图。
在某些实施例中,计算机程序包括:当在至少一个处理器上执行时,致使至少一个装置使用预测执行以下步骤的指令:
将来自第三序列的第五图片编码进所述第一存取单元,其中,所述第三序列表示第三视图;以及
使用根据所述第三图片的预测将来自所述第三序列的第六图片编码进所述第二存取单元。
在某些实施例中,计算机程序包括:在至少一个处理器上执行时,致使至少一个装置使用预测将随机存取位置的指示编码进所述至少一个比特流的指令。
在某些实施例中,所述第一图片的编码包括根据所述第二图片的预测。
在某些实施例中,其中,第一视图间预测顺序指示根据所述第一存取单元中的第二视图对第一视图的预测,第二视图间预测顺序指示根据所述第一视图对所述第二视图的预测,计算机程序包括:在至少一个处理器上执行时,使至少一个设备使用预测将对视图间预测依赖性顺序的变化的指示编码进所述至少一个比特流中的指令。
一种根据某些示例实施的方法包括:
从至少一个比特流中推断第一随机存取位置,所述第一随机存取位置之后随有第一存取单元,所述第一存取单元包括来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述随机存取位置之前的图片预测得到的;
从所述第一随机存取位置开始解码;
解码所述第一编码图片;
解码来自所述第一视图的一个或多个后续编码图片。
在某些示例实施例中,从所述至少一个比特流中推断第二随机存取位置,所述第二随机存取位置之后随有第二存取单元,所述第二存取单元包括来自所述第一视图的第三编码图片和来自所述第二视图的第四编码图片,所述第四编码图片被帧内编码;
解码所述第三编码图片;以及
解码所述第四编码图片。
在某些实施例中,从所述至少一个比特流中解码深度图片。
在某些实施例中,第一序列表示第一视图而第二序列表示第二视图,方法进一步包括:确定当解码从所述随机存取位置开始时将可被正确解码的视图集合。
在某些实施例中,方法进一步包括:从所述至少一个比特流中解码所述随机存取位置的指示。
在某些实施例中,其中,第一视图间预测顺序指示根据所述第一存取单元中的第二视图对所述第一视图的预测,第二视图间预测顺序指示根据所述第一视图对所述第二视图的预测,方法进一步包括:从所述至少一个比特流中解码对视图间预测依赖性顺序的变化的指示。
在某些实施例中,所述第一随机存取位置被用于从另外的至少一个比特流切换到所述至少一个比特流。
在某些实施例中,第一随机存取位置被用于从所述第二视图切换到所述第一视图。
在某些实施例中,所述第一序列的图片是用第一摄影机捕获的,所述第二序列是用第二摄影机捕获的。
一种根据某些示例实施例的设备包括至少一个处理器和包括计算机程序代码的存储器,所述存储器和计算机程序代码配置为与至少一个处理器一起使装置:
从至少一个比特流中推断第一随机存取位置,所述第一随机存取位置之后随有第一存取单元,所述第一存取单元包括来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述随机存取位置之前的图片预测得到的;
从所述第一随机存取位置开始解码;
解码所述第一编码图片;
解码来自所述第一视图的一个或多个后续编码图片。
在某些示例实施例中,至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使装置:从所述至少一个比特流中推断第二随机存取位置,所述第二随机存取位置之后随有第二存取单元,所述第二存取单元包括来自第一视图的第三编码图片和来自第二视图的第四编码图片,所述第四编码图片被帧内编码;
解码所述第三编码图片;以及
解码所述第四编码图片。
在某些实施例中,至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使装置:从所述至少一个比特流中解码深度图片。
在某些实施例中,第一序列表示第一视图而第二序列表示第二视图,并且至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置:确定当解码从所述随机存取位置开始时可被正确解码的视图集合。
在某些实施例中,至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置:从所述至少一个比特流中解码随机存取位置的指示。
在某些实施例中,其中,第一视图间预测顺序指示根据所述第一存取单元中的第二视图对所述第一视图的预测,第二视图间预测顺序指示根据所述第一视图对所述第二视图的预测,至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置:从所述至少一个比特流中解码对视图间预测依赖性顺序的变化的指示。
在某些实施例中,至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置:使用所述第一随机存取位置以从另外的至少一个比特流切换到所述至少一个比特流。
在某些实施例中,至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置:使用所述第一随机存取位置从所述第二视图切换到所述第一视图。
在某些实施例中,至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码配置为与至少一个处理器一起使所述装置:用第一摄影机捕获所述第一序列的图片且用第二摄影机捕获所述第二序列。
在某些实施例中,所述装置为解码器。
在某些实施例中,所述装置为无线通信设备。
在某些实施例中,所述装置为客户端设备。
一种包含在非瞬时性计算机可读介质上的计算机程序,根据某些示例实施例的计算机程序包括:在至少一个处理器上执行时,使至少一个装置执行以下步骤的指令:
从至少一个比特流中推断第一随机存取位置,所述第一随机存取位置之后随有第一存取单元,所述第一存取单元包括来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述随机存取位置之前的图片预测得到;
从所述第一随机存取位置开始解码;
解码所述第一编码图片;
解码来自所述第一视图的一个或多个后续编码图片。
在某些示例实施例中,计算机程序包括在至少一个处理器上执行时使至少一个装置执行以下步骤的指令:
从至少一个比特流中推断第二随机存取位置,所述第二随机存取位置之后随有第二存取单元,所述第二存取单元包括来自第一视图的第三编码图片和来自第二视图的第四编码图片,所述第四编码图片被帧内编码;
解码所述第三编码图片;以及
解码所述第四编码图片。
在某些实施例中,计算机程序包括在至少一个处理器上执行时使至少一个装置从至少一个比特流中解码深度图片的指令。
在某些实施例中,第一序列表示第一视图而第二序列表示第二视图,并且至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序包括在至少一个处理器上执行时使至少一个装置执行以下操作的指令:确定当解码从所述随机存取位置开始时将可被正确解码的视图集合。
在某些实施例中,至少一个存储器包括计算机程序代码,至少一个存储器和计算机程序代码配置为与至少一个处理器一起使装置执行以下操作的指令:从所述至少一个比特流中解码所述随机存取位置的指示。
在某些实施例中,其中,第一视图间预测顺序指示根据所述第一存取单元中的第二视图对所述第一视图的预测,第二视图间预测顺序指示根据所述第一视图对所述第二视图的预测,计算机程序包括在至少一个处理器上执行时使至少一个装置执行以下操作的指令:从所述至少一个比特流中解码对视图内预测依赖性顺序的变化的指示。
在某些实施例中,计算机程序包括:在至少一个处理器上执行时使至少一个装置使用所述第一随机存取位置从另外的至少一个比特流切换到所述至少一个比特流的指令。
在某些实施例中,计算机程序包括:在至少一个处理器上执行时使至少一个装置使用所述第一随机存取位置从所述第二视图切换到所述第一视图的指令。
在某些实施例中,计算机程序包括:在至少一个处理器上执行时使至少一个装置通过第一摄像机捕获所述第一序列图片并通过第二摄像机捕获所述第二序列的指令。
一种根据某些示例实施例的装置包括:
编码元件,其配置为将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元;
测定仪,其配置为确定用于所述至少一个比特流的随机存取位置;以及
所述编码元件进一步配置为将来自所述第一序列的第三图片和来自所述第二序列的第四图片编码进所述至少一个比特流的第二存取单元,所述第二存取单元跟随在所述随机存取位置之后,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
一种根据某些示例实施例的装置包括:
测定仪,其配置为从至少一个比特流中推断第一随机存取位置,所述第一随机存取位置之后随有来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述随机存取位置之前的图片预测得到的;
配置为从所述第一随机存取位置开始解码的元件;
解码元件,其配置为解码所述第一编码图片和来自所述第一视图的一个或多个后续编码图片。
一种根据某些示例实施例的装置包括:
将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元的部件;
确定用于所述至少一个比特流的随机存取位置的部件;以及
将来自所述第一序列的第三图片和来自所述第二序列的第四图片编码进所述至少一个比特流的第二存取单元的部件,所述第二存取单元跟随在所述随机存取位置之后,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
一种根据某些示例实施例的装置包括:
从至少一个比特流推断第一随机存取位置的部件,第一随机存取位置之后随有来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据在所述随机存取位置之前的图片预测得到的,且所述第一编码图片和所述第二编码图片表示第一时刻;
从所述第一随机存取位置开始解码的部件;
解码所述第一编码图片的部件;
解码来自所述第一视图的一个或多个后续编码图片的部件。

Claims (18)

1.一种用于对视频编码的方法,所述方法包括:
将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元;
形成用于所述至少一个比特流的随机存取存取单元,包括:
将来自所述第一序列的第三图片和来自所述第二序列的第四图片编码进所述至少一个比特流的所述随机存取存取单元,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
2.根据权利要求1所述的方法,其中,所述第一序列表示第一视图而所述第二序列表示第二视图,所述方法进一步包括:确定当解码是从所述随机存取存取单元开始的时将可被解码的视图集合,以包括所述第一视图。
3.根据权利要求2所述的方法,其进一步包括:
将来自第三序列的第五图片编码进所述第一存取单元,其中,所述第三序列表示第三视图;以及
利用根据所述第三图片的预测将来自所述第三序列的第六图片编码进第二存取单元。
4.根据权利要求2或3所述的方法,其中,第一视图间预测顺序指示根据所述第一存取单元中的所述第二视图对所述第一视图的预测,第二视图间预测顺序指示根据所述第一视图对所述第二视图的预测,所述方法进一步包括:将对视图间预测依赖性顺序的变化的指示编码进所述至少一个比特流中。
5.根据权利要求1-3中任一项所述的方法,其进一步包括:将所述随机存取存取单元的指示编码进所述至少一个比特流中。
6.一种用于对视频编码的装置,所述装置包括:
用于将来自第一序列的第一图片和来自第二序列的第二图片编码进至少一个比特流的第一存取单元的模块;
用于形成用于所述至少一个比特流的随机存取存取单元的模块,包括:
用于将来自第一序列的第三图片和来自第二序列的第四图片编码进所述至少一个比特流的所述随机存取存取单元的模块,所述第三图片被帧内编码且所述第四图片是根据所述第二图片预测得到的。
7.根据权利要求6所述的装置,其中,所述第一序列表示第一视图而所述第二序列表示第二视图,并且所述装置进一步包括:用于使用预测来确定当解码是从所述随机存取存取单元开始的时将可被解码的视图集合以包括所述第一视图的模块。
8.根据权利要求7所述的装置,进一步包括:
用于将来自第三序列的第五图片编码进所述第一存取单元的模块,其中,所述第三序列表示第三视图;以及
用于利用根据所述第三图片的预测将来自所述第三序列的第六图片编码进第二存取单元的模块。
9.根据权利要求7-8中任一项所述的装置,其中,第一视图间预测顺序指示根据所述第一存取单元中的所述第二视图对所述第一视图的预测,第二视图间预测顺序指示根据所述第一视图对所述第二视图的预测,并且所述装置进一步包括:用于使用预测来将对所述视图间预测依赖性顺序的变化的指示编码进所述至少一个比特流中的模块。
10.根据权利要求6-8中任一项所述的装置,其中,所述装置为编码器、无线通信设备或服务器。
11.一种用于对编码视频解码的方法,所述方法包括:
根据至少一个比特流推断第一随机存取存取单元,所述第一随机存取存取单元包括来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述第一随机存取存取单元之前的图片预测得到的;
从所述第一随机存取存取单元开始解码;
解码所述第一编码图片;
解码来自所述第一视图的一个或多个后续编码图片。
12.根据权利要求11所述的方法,其包括:
从所述至少一个比特流中推断第二随机存取存取单元,所述第二随机存取存取单元包括来自所述第一视图的第三编码图片和来自所述第二视图的第四编码图片,所述第四编码图片被帧内编码;
解码所述第三编码图片;以及
解码所述第四编码图片。
13.根据权利要求11或12所述的方法,所述方法进一步包括:确定当解码从所述随机存取存取单元开始时将可被解码的视图集合。
14.根据权利要求13所述的方法,其中,第一视图间预测顺序指示根据第一存取单元中的所述第二视图对所述第一视图的预测,第二视图间预测顺序指示根据所述第一视图对所述第二视图的预测,所述方法进一步包括:从所述至少一个比特流中解码对视图内预测依赖性顺序的变化的指示。
15.一种用于对编码视频解码的装置,所述装置包括:
用于从至少一个比特流中推断第一随机存取存取单元的模块,所述第一随机存取存取单元包括来自第一视图的第一编码图片和来自第二视图的第二编码图片,所述第一编码图片被帧内编码且所述第二编码图片是根据所述第一随机存取存取单元之前的图片预测得到的;
用于从所述第一随机存取存取单元开始解码的模块;
用于解码所述第一编码图片的模块;
用于解码来自所述第一视图的一个或多个后续编码图片的模块。
16.根据权利要求15所述的装置,进一步包括:
用于从所述至少一个比特流中推断第二随机存取存取单元的模块,所述第二随机存取存取单元包括来自所述第一视图的第三编码图片和来自所述第二视图的第四编码图片,所述第四编码图片被帧内编码;
用于解码所述第三编码图片的模块;以及
用于解码所述第四编码图片的模块。
17.根据权利要求15或16所述的装置,所述装置进一步包括:用于确定当解码从所述随机存取存取单元开始时将可被解码的视图集合的模块。
18.根据权利要求15-16中任一项所述的装置,其中,所述装置为解码器、无线通信设备或客户端设备。
CN201280052535.2A 2011-08-31 2012-08-31 多视图视频编码和解码 Active CN103907347B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161529456P 2011-08-31 2011-08-31
US61/529,456 2011-08-31
PCT/FI2012/050843 WO2013030458A1 (en) 2011-08-31 2012-08-31 Multiview video coding and decoding

Publications (2)

Publication Number Publication Date
CN103907347A CN103907347A (zh) 2014-07-02
CN103907347B true CN103907347B (zh) 2018-01-30

Family

ID=47755386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280052535.2A Active CN103907347B (zh) 2011-08-31 2012-08-31 多视图视频编码和解码

Country Status (6)

Country Link
US (2) US10244257B2 (zh)
EP (1) EP2752011B1 (zh)
KR (1) KR101649207B1 (zh)
CN (1) CN103907347B (zh)
IN (1) IN2014CN01752A (zh)
WO (1) WO2013030458A1 (zh)

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
US9190110B2 (en) 2009-05-12 2015-11-17 JBF Interlude 2009 LTD System and method for assembling a recorded composition
US11232458B2 (en) 2010-02-17 2022-01-25 JBF Interlude 2009 LTD System and method for data mining within interactive multimedia
US9131245B2 (en) 2011-09-23 2015-09-08 Qualcomm Incorporated Reference picture list construction for video coding
US9247258B2 (en) * 2011-10-26 2016-01-26 Qualcomm Incorporated Unified design for picture partitioning schemes
US9264717B2 (en) * 2011-10-31 2016-02-16 Qualcomm Incorporated Random access with advanced decoded picture buffer (DPB) management in video coding
US9241167B2 (en) * 2012-02-17 2016-01-19 Microsoft Technology Licensing, Llc Metadata assisted video decoding
KR20130107861A (ko) * 2012-03-23 2013-10-02 한국전자통신연구원 인터 레이어 인트라 예측 방법 및 장치
US9351016B2 (en) 2012-04-13 2016-05-24 Sharp Kabushiki Kaisha Devices for identifying a leading picture
US20130272619A1 (en) * 2012-04-13 2013-10-17 Sharp Laboratories Of America, Inc. Devices for identifying a leading picture
US9532055B2 (en) 2012-04-16 2016-12-27 Microsoft Technology Licensing, Llc Constraints and unit types to simplify video random access
US10051264B2 (en) * 2012-04-20 2018-08-14 Qualcomm Incorporated Marking reference pictures in video sequences having broken link pictures
US10491913B2 (en) * 2012-04-24 2019-11-26 Telefonaktiebolaget L M Ericsson (Publ) Identifying a parameter set for decoding a multi-layer video representation
FI3471419T3 (fi) * 2012-06-25 2023-05-29 Huawei Tech Co Ltd Gtla (gradual temporal layer access) -kuvat videopakkauksessa
US9479776B2 (en) 2012-07-02 2016-10-25 Qualcomm Incorporated Signaling of long-term reference pictures for video coding
US20140003520A1 (en) * 2012-07-02 2014-01-02 Cisco Technology, Inc. Differentiating Decodable and Non-Decodable Pictures After RAP Pictures
US9380289B2 (en) 2012-07-20 2016-06-28 Qualcomm Incorporated Parameter sets in video coding
US9451256B2 (en) 2012-07-20 2016-09-20 Qualcomm Incorporated Reusing parameter sets for video coding
US9674499B2 (en) * 2012-08-15 2017-06-06 Qualcomm Incorporated Compatible three-dimensional video communications
US10021394B2 (en) 2012-09-24 2018-07-10 Qualcomm Incorporated Hypothetical reference decoder parameters in video coding
US9161039B2 (en) 2012-09-24 2015-10-13 Qualcomm Incorporated Bitstream properties in video coding
US9491457B2 (en) * 2012-09-28 2016-11-08 Qualcomm Incorporated Signaling of regions of interest and gradual decoding refresh in video coding
US20140092976A1 (en) * 2012-09-30 2014-04-03 Sharp Laboratories Of America, Inc. System for signaling idr and bla pictures
US10375405B2 (en) * 2012-10-05 2019-08-06 Qualcomm Incorporated Motion field upsampling for scalable coding based on high efficiency video coding
US9154785B2 (en) 2012-10-08 2015-10-06 Qualcomm Incorporated Sub-bitstream applicability to nested SEI messages in video coding
KR102134049B1 (ko) * 2012-10-09 2020-07-14 소니 주식회사 화상 처리 장치 및 방법
JP2014082541A (ja) * 2012-10-12 2014-05-08 National Institute Of Information & Communication Technology 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラムおよび装置
US9374585B2 (en) * 2012-12-19 2016-06-21 Qualcomm Incorporated Low-delay buffering model in video coding
US9774927B2 (en) * 2012-12-21 2017-09-26 Telefonaktiebolaget L M Ericsson (Publ) Multi-layer video stream decoding
US10805605B2 (en) * 2012-12-21 2020-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Multi-layer video stream encoding and decoding
US9357199B2 (en) * 2013-01-04 2016-05-31 Qualcomm Incorporated Separate track storage of texture and depth views for multiview coding plus depth
JP6150277B2 (ja) * 2013-01-07 2017-06-21 国立研究開発法人情報通信研究機構 立体映像符号化装置、立体映像復号化装置、立体映像符号化方法、立体映像復号化方法、立体映像符号化プログラム及び立体映像復号化プログラム
US9398293B2 (en) 2013-01-07 2016-07-19 Qualcomm Incorporated Gradual decoding refresh with temporal scalability support in video coding
IN2015DN04041A (zh) * 2013-01-16 2015-10-02 Ericsson Telefon Ab L M
US9300710B2 (en) * 2013-03-07 2016-03-29 Qualcomm Innovation Center, Inc. Adaptive bandwidth switching via short-circuitable download
US10349074B2 (en) * 2013-04-05 2019-07-09 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding multi-layer video using decoded picture buffers which operate identically
US9930363B2 (en) * 2013-04-12 2018-03-27 Nokia Technologies Oy Harmonized inter-view and view synthesis prediction for 3D video coding
KR20150009465A (ko) * 2013-07-15 2015-01-26 주식회사 케이티 스케일러블 비디오 신호 인코딩/디코딩 방법 및 장치
CN105379277B (zh) 2013-07-15 2019-12-17 株式会社Kt 用于编码/解码可伸缩视频信号的方法和装置
WO2015009020A1 (ko) * 2013-07-15 2015-01-22 주식회사 케이티 스케일러블 비디오 신호 인코딩/디코딩 방법 및 장치
BR112016000920A2 (pt) * 2013-07-22 2020-03-10 Sony Corporation Aparelho e método de decodificação de imagem
US10264272B2 (en) * 2013-10-15 2019-04-16 Qualcomm Incorporated Device and method for scalable coding of video information
KR102064792B1 (ko) * 2013-12-17 2020-01-10 한국전자통신연구원 Http 기반의 멀티미디어 스트리밍 서비스를 위한 네트워크 대역폭 적응적 콘텐츠 생성 방법 및 시스템
CN105075251B (zh) 2014-01-02 2016-11-23 维迪奥股份有限公司 利用辅助图片的覆盖的视频解码方法、装置和***
US10560710B2 (en) 2014-01-03 2020-02-11 Qualcomm Incorporated Method for coding recovery point supplemental enhancement information (SEI) messages and region refresh information SEI messages in multi-layer coding
JP2015136060A (ja) * 2014-01-17 2015-07-27 ソニー株式会社 通信装置、通信データ生成方法、および通信データ処理方法
WO2015140064A1 (en) * 2014-03-17 2015-09-24 Bitmovin Gmbh Media streaming
US10880565B2 (en) * 2014-03-24 2020-12-29 Qualcomm Incorporated Use of specific HEVC SEI messages for multi-layer video codecs
US9653115B2 (en) 2014-04-10 2017-05-16 JBF Interlude 2009 LTD Systems and methods for creating linear video from branched video
WO2016002513A1 (ja) * 2014-07-01 2016-01-07 ソニー株式会社 情報処理装置および方法
JP2016015009A (ja) * 2014-07-02 2016-01-28 ソニー株式会社 情報処理システム、情報処理端末、および情報処理方法
US9792957B2 (en) 2014-10-08 2017-10-17 JBF Interlude 2009 LTD Systems and methods for dynamic video bookmarking
EP3200460A4 (en) 2014-10-16 2017-08-23 Samsung Electronics Co., Ltd Method and device for processing encoded video data, and method and device for generating encoded video data
US9313508B1 (en) 2014-10-29 2016-04-12 Qualcomm Incorporated Feeding intra-coded video frame after port reconfiguration in video telephony
US9681185B2 (en) * 2014-11-04 2017-06-13 Spot Trender Inc. Content utilization paramerization
GB2534136A (en) * 2015-01-12 2016-07-20 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
US10334223B2 (en) 2015-01-30 2019-06-25 Qualcomm Incorporated System and method for multi-view video in wireless devices
GB2538997A (en) * 2015-06-03 2016-12-07 Nokia Technologies Oy A method, an apparatus, a computer program for video coding
US9979926B1 (en) * 2015-06-09 2018-05-22 The Directv Group, Inc. Dynamic segment slicing for faster video playback
CN106713916B (zh) * 2015-07-24 2020-02-14 浙江大华技术股份有限公司 一种视频图像的存储和读取方法、装置以及***
US10460765B2 (en) * 2015-08-26 2019-10-29 JBF Interlude 2009 LTD Systems and methods for adaptive and responsive video
EP3142365A1 (en) * 2015-09-14 2017-03-15 Thomson Licensing Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product
KR102477964B1 (ko) * 2015-10-12 2022-12-16 삼성전자주식회사 미디어 전송 시스템에서 비디오 비트스트림의 임의 접근 및 재생을 가능하게 하는 기법
CN108476346B (zh) * 2016-01-13 2021-03-12 索尼公司 信息处理装置和信息处理方法
KR20240017138A (ko) 2016-02-09 2024-02-06 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
FI20165115A (fi) * 2016-02-17 2017-08-18 Nokia Technologies Oy Laitteisto, menetelmä ja tietokoneohjelma videokoodausta ja videokoodauksen purkua varten
CN108702534B (zh) * 2016-02-22 2021-09-14 索尼公司 文件生成装置、文件生成方法以及再现装置和再现方法
EP3226561A1 (en) * 2016-03-31 2017-10-04 Thomson Licensing Method and apparatus for coding a video into a bitstream carrying region-based post processing parameters into an sei nesting message
US11856271B2 (en) 2016-04-12 2023-12-26 JBF Interlude 2009 LTD Symbiotic interactive video
JP6969541B2 (ja) * 2016-04-12 2021-11-24 ソニーグループ株式会社 送信装置および送信方法
US10554981B2 (en) * 2016-05-10 2020-02-04 Qualcomm Incorporated Methods and systems for generating regional nesting messages for video pictures
CN109690243B (zh) * 2016-09-16 2022-03-01 松下电器(美国)知识产权公司 三维数据制作方法以及三维数据制作装置
CN106572353A (zh) * 2016-10-21 2017-04-19 上海拆名晃信息科技有限公司 用于虚拟现实的无线传输方法、装置、终端和头显设备
EP3328051B1 (en) * 2016-11-29 2019-01-02 Axis AB Method for controlling an infrared cut filter of a video camera
US11050809B2 (en) 2016-12-30 2021-06-29 JBF Interlude 2009 LTD Systems and methods for dynamic weighting of branched video paths
US10999605B2 (en) * 2017-01-10 2021-05-04 Qualcomm Incorporated Signaling of important video information in file formats
GB2560921B (en) 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
US10819907B2 (en) * 2017-03-30 2020-10-27 Mediatek Inc. Method and apparatus for signaling spherical region information in ISOBMFF
WO2018191224A1 (en) * 2017-04-11 2018-10-18 Vid Scale, Inc. 360-degree video coding using face continuities
US10586377B2 (en) 2017-05-31 2020-03-10 Verizon Patent And Licensing Inc. Methods and systems for generating virtual reality data that accounts for level of detail
US10311630B2 (en) * 2017-05-31 2019-06-04 Verizon Patent And Licensing Inc. Methods and systems for rendering frames of a virtual scene from different vantage points based on a virtual entity description frame of the virtual scene
CN109086152B (zh) * 2017-06-14 2021-12-14 杭州海康威视数字技术股份有限公司 图片分析方法、装置及***、计算机设备及存储介质
US10536708B2 (en) * 2017-09-21 2020-01-14 Intel Corporation Efficient frame loss recovery and reconstruction in dyadic hierarchy based coding
EP3474562A1 (en) * 2017-10-20 2019-04-24 Thomson Licensing Method, apparatus and stream for volumetric video format
KR101950852B1 (ko) * 2017-12-06 2019-02-21 서울과학기술대학교 산학협력단 메타데이터를 이용한 자유선택시점 영상 제공 장치 및 방법
US10735826B2 (en) * 2017-12-20 2020-08-04 Intel Corporation Free dimension format and codec
US10257578B1 (en) 2018-01-05 2019-04-09 JBF Interlude 2009 LTD Dynamic library display for interactive videos
GB2571526A (en) * 2018-02-28 2019-09-04 Sony Corp Data buffer and data buffer control
US11601721B2 (en) 2018-06-04 2023-03-07 JBF Interlude 2009 LTD Interactive video dynamic adaptation and user profiling
US10623736B2 (en) 2018-06-14 2020-04-14 Telefonaktiebolaget Lm Ericsson (Publ) Tile selection and bandwidth optimization for providing 360° immersive video
US10419738B1 (en) 2018-06-14 2019-09-17 Telefonaktiebolaget Lm Ericsson (Publ) System and method for providing 360° immersive video based on gaze vector information
US10567780B2 (en) 2018-06-14 2020-02-18 Telefonaktiebolaget Lm Ericsson (Publ) System and method for encoding 360° immersive video
US10432970B1 (en) * 2018-06-14 2019-10-01 Telefonaktiebolaget Lm Ericsson (Publ) System and method for encoding 360° immersive video
CN112369016A (zh) * 2018-07-06 2021-02-12 索尼公司 信息处理装置、信息处理方法和程序
EP3595319A1 (en) * 2018-07-12 2020-01-15 InterDigital VC Holdings, Inc. Methods and apparatus for volumetric video transport
US10841662B2 (en) 2018-07-27 2020-11-17 Telefonaktiebolaget Lm Ericsson (Publ) System and method for inserting advertisement content in 360° immersive video
US10757389B2 (en) 2018-10-01 2020-08-25 Telefonaktiebolaget Lm Ericsson (Publ) Client optimization for providing quality control in 360° immersive video during pause
US10440416B1 (en) * 2018-10-01 2019-10-08 Telefonaktiebolaget Lm Ericsson (Publ) System and method for providing quality control in 360° immersive video during pause
KR102166158B1 (ko) * 2018-12-19 2020-10-15 (주)이머시브캐스트 입체 영상 생성 장치, 입체 영상 복원 장치와 이를 포함하는 입체 영상 재생 시스템
EP3900345A4 (en) * 2018-12-20 2022-03-02 Telefonaktiebolaget LM Ericsson (publ) NORMATIVE DISPLAY OF A RECOVERY POINT
WO2020185150A1 (en) * 2019-03-11 2020-09-17 Telefonaktiebolaget Lm Ericsson (Publ) Methods for recovery point process for video coding and related apparatus
US20200296316A1 (en) 2019-03-11 2020-09-17 Quibi Holdings, LLC Media content presentation
US20200296462A1 (en) 2019-03-11 2020-09-17 Wci One, Llc Media content presentation
EP3811626B1 (en) * 2019-08-16 2022-12-07 Google LLC Face-based frame packing for video calls
US11490047B2 (en) 2019-10-02 2022-11-01 JBF Interlude 2009 LTD Systems and methods for dynamically adjusting video aspect ratios
US11245961B2 (en) 2020-02-18 2022-02-08 JBF Interlude 2009 LTD System and methods for detecting anomalous activities for interactive videos
US12047637B2 (en) 2020-07-07 2024-07-23 JBF Interlude 2009 LTD Systems and methods for seamless audio and video endpoint transitions
US20220224924A1 (en) * 2021-01-11 2022-07-14 Tencent America LLC Hierarchical structure for neural network based tools in video coding
CN117529917A (zh) * 2021-04-08 2024-02-06 抖音视界有限公司 补充增强信息消息约束
US11882337B2 (en) 2021-05-28 2024-01-23 JBF Interlude 2009 LTD Automated platform for generating interactive videos
US11934477B2 (en) 2021-09-24 2024-03-19 JBF Interlude 2009 LTD Video player integration within websites
US12015659B2 (en) 2022-02-25 2024-06-18 International Business Machines Corporation Optimized transmission and consumption of digital content

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008008133A2 (en) * 2006-07-11 2008-01-17 Thomson Licensing Methods and apparatus for use in multi-view video coding
CN101523914A (zh) * 2006-10-13 2009-09-02 三星电子株式会社 用于对多视图图像进行编码和解码的方法和设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1999967A2 (en) * 2006-03-29 2008-12-10 Thomson Licensing Multi-view video coding method and device
KR100813064B1 (ko) 2006-05-19 2008-03-14 엘지전자 주식회사 비디오 영상 복호화/부호화 방법 및 장치, 데이터 포맷
JP4793366B2 (ja) 2006-10-13 2011-10-12 日本ビクター株式会社 多視点画像符号化装置、多視点画像符号化方法、多視点画像符号化プログラム、多視点画像復号装置、多視点画像復号方法、及び多視点画像復号プログラム
US8548261B2 (en) 2007-04-11 2013-10-01 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding multi-view image
US8121191B1 (en) * 2007-11-13 2012-02-21 Harmonic Inc. AVC to SVC transcoder
EP2392138A4 (en) * 2009-01-28 2012-08-29 Nokia Corp METHOD AND APPARATUS FOR VIDEO ENCODING AND DECODING
US8457155B2 (en) 2009-09-11 2013-06-04 Nokia Corporation Encoding and decoding a multi-view video signal
WO2012052968A1 (en) * 2010-10-20 2012-04-26 Nokia Corporation Method and device for video coding and decoding
US9674525B2 (en) * 2011-07-28 2017-06-06 Qualcomm Incorporated Multiview video coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008008133A2 (en) * 2006-07-11 2008-01-17 Thomson Licensing Methods and apparatus for use in multi-view video coding
CN101523914A (zh) * 2006-10-13 2009-09-02 三星电子株式会社 用于对多视图图像进行编码和解码的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
INFORMATION TECHNOLOGY-CODING OF AUDIO-VISUAL OBJECTS-PART12:ISO BASE MEDIA FILE FORMAT,AMENDMENT 3:DASH SUPPORT AND RTP RECEPTION HINT TRACK PROCESSING;ANONYMOUS;《ISO/IEC JTC 1/SC 29/WG11》;20110817;参见第8.17至8.18节,H.3.2,H.4.5.,Annex-I节 *
Transport and storage systems for 3-D Video coding using mpeg-2 systems,rtp,and iso file format;THOMAS SCHIERL;《PROCEEDINGS OF THE IEEE,IEEE》;20110401;参见第II部分、III部分、图2 *

Also Published As

Publication number Publication date
US10244257B2 (en) 2019-03-26
US10911782B2 (en) 2021-02-02
IN2014CN01752A (zh) 2015-09-04
EP2752011A1 (en) 2014-07-09
CN103907347A (zh) 2014-07-02
EP2752011B1 (en) 2020-05-20
US20190222863A1 (en) 2019-07-18
WO2013030458A1 (en) 2013-03-07
KR101649207B1 (ko) 2016-08-19
KR20140064926A (ko) 2014-05-28
EP2752011A4 (en) 2015-04-22
US20130235152A1 (en) 2013-09-12

Similar Documents

Publication Publication Date Title
CN103907347B (zh) 多视图视频编码和解码
CN111543060B (zh) 用于视频编码和解码的装置、方法和计算机程序
KR102170550B1 (ko) 미디어 콘텐츠를 인코딩하는 방법, 장치 및 컴퓨터 프로그램
Vetro et al. Overview of the stereo and multiview video coding extensions of the H. 264/MPEG-4 AVC standard
CN106464891B (zh) 用于视频编码和解码的方法和装置
CN106464893B (zh) 用于视频编码和解码的装置、方法和计算机程序
CN107113476B (zh) 用于视频流的方法、装置以及计算机可读存储介质
CN102918836B (zh) 用于非对称立体视频的帧封装
Chen et al. Overview of the MVC+ D 3D video coding standard
US9602802B2 (en) Providing frame packing type information for video coding
CN105981387B (zh) 用于处理视频的方法、装置和计算机可读存储介质
CN105637884B (zh) 多层视频文件格式设计的方法及装置
KR101437798B1 (ko) 비디오 데이터를 스트리밍하기 위한 서브-트랙 단편들의 배열
CN104769948B (zh) 一种编解码方法、装置及可读存储介质
CN103155571B (zh) 译码立体视频数据
CN108702503A (zh) 用于视频编码和解码的装置、方法及计算机程序
CN102804773B (zh) 在mpeg‑2***中组合多视角视频译码子位流
KR20190061002A (ko) 360 도 비디오 데이터를 프로세싱하기 위한 방법 및 시스템
CN110431849A (zh) 包含用于视频译码的子图片位流的视频内容的信令传输
CN110419219A (zh) 用于视频编码和解码的装置、方法和计算机程序
KR20100119228A (ko) 스테레오스코픽 영상의 효율적 전송 장치 및 방법
CN115211131A (zh) 用于全向视频的装置、方法及计算机程序
Vetro Representation and coding formats for stereo and multiview video
Kurutepe et al. A standards-based, flexible, end-to-end multi-view video streaming architecture
TW201223249A (en) Coding stereo video data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160112

Address after: Espoo, Finland

Applicant after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Applicant before: Nokia Oyj

GR01 Patent grant
GR01 Patent grant