CN110383843A - 用于360度视频的有效压缩的球体赤道投影 - Google Patents

用于360度视频的有效压缩的球体赤道投影 Download PDF

Info

Publication number
CN110383843A
CN110383843A CN201880015514.0A CN201880015514A CN110383843A CN 110383843 A CN110383843 A CN 110383843A CN 201880015514 A CN201880015514 A CN 201880015514A CN 110383843 A CN110383843 A CN 110383843A
Authority
CN
China
Prior art keywords
video frame
video
spherical representation
bottom zone
middle area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880015514.0A
Other languages
English (en)
Other versions
CN110383843B (zh
Inventor
G·范德奥维拉
M·科班
M·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110383843A publication Critical patent/CN110383843A/zh
Application granted granted Critical
Publication of CN110383843B publication Critical patent/CN110383843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/12Panospheric to cylindrical image transformations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/88Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving rearrangement of data among different coding units, e.g. shuffling, interleaving, scrambling or permutation of pixel data or permutation of transform coefficient data among different blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)

Abstract

本发明提供用于处理360度视频数据的***及方法。在各种实施方案中,360度视频帧的球面表示可分割成顶部区、底部区及中间区。使用圆柱等面积投影,诸如兰伯特圆柱等面积投影,可将所述中间区映射至输出视频帧的一或多个矩形区域中。

Description

用于360度视频的有效压缩的球体赤道投影
背景技术
虚拟实境(VR)描述可在看起来真实或物理方式内交互的三维的计算机产生的环境。一般来说,经历虚拟实境环境的用户可左右转、上下看及/或前后移动,因此改变其对虚拟环境的视角。呈现给所述用户的360度视频可因此改变,从而使得用户的体验如在真实世界中同样顺畅。虚拟实境视频可以极高质量被捕捉且显现,从而潜在地提供真实沉浸式虚拟实境体验。
为提供顺畅360度视图,通过360度视频捕捉***捕捉的视频通常进行图像缝合。在360度视频产生的情况下的图像缝合涉及组合或合并视频帧重叠或将以其它方式连接所在的区域中的邻近相机的视频帧。结果将为大致球形帧。然而,类似于麦卡托(Mercator)投影,经合并的数据通常以平面样式表示。举例来说,经合并视频帧中的像素可经映射至立方体形状或某种其它三维平面形状(例如,角锥形、八面体、十面体等)的平面上。视频捕捉及视频显示大体上通常按光栅原理操作--意味着视频帧作为像素栅格处置--因此,正方形或矩形平面通常用以表示球面环境。
360度视频可经编码用于存储及/或发射。视频译码标准包含国际电信联盟(ITU)ITU-T H.261、国际标准组织/国际电子装置委员会(ISO/IEC)动画群组(MPEG)MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual、ITU-T H.264(也称为ISO/IEC MPEG-4AVC)、包含其可调式视频译码(SVC)及多视图视频译码(MVC)扩展及ITU-T H.265(也称为ISO/IEC MPEG-4HEVC)及其扩展。
发明内容
在各种实施方案中,描述用于处理360度视频数据以获得更好译码效率的技术及***。这些技术及***可包含使用分割球体投影将360度视频帧的球面表示分成北极或顶部区、南极或底部区,及赤道或中间区。所述区可接着映射成可使译码装置更容易进行操控的二维矩形格式。在产生此映射时,可使用圆柱等面积投影将赤道区映射成二维格式。圆柱等面积格式修改赤道区的高宽比以保持所述区域。保持所述区域可导致较少失真,其对于达成更好译码效率将为不利的。
根据至少一个实例,提供一种用于编码视频数据的方法。在各种实施方案中,所述方法包含获得包含多个视频帧的360度视频数据,所述多个视频帧中的每一视频帧包含用于视频帧的视频数据的球面表示。所述方法进一步包含将来自所述多个视频帧中的视频帧分割成顶部区、中间区及底部区,所述顶部区包含球面表示的第一圆形区域,所述底部区包含球面表示的第二圆形区域,其在球面表示上与第一圆形区域相对,其中所述中间区包含球面表示中不包含于顶部区或底部区中的区域。所述方法进一步包含使用圆柱等面积投影将中间区映射至输出视频帧的一或多个矩形区域。
在另一实例中,提供一种设备,其包含经配置以存储360度视频数据的存储器及处理器。所述360度视频数据可包含多个视频帧,所述多个视频帧中的每一视频帧包含用于视频帧的视频数据的球面表示。处理器经配置以且可将来自所述多个视频帧中的视频帧分割成顶部区、中间区及底部区,所述顶部区包含球面表示的第一圆形区域,所述底部区包含球面表示的第二圆形区域,其在球面表示上与所述第一圆形区域相对,其中所述中间区包含球面表示中不包含于顶部区或底部区中的区域。处理器经配置以且可使用圆柱等面积投影将中间区映射至输出视频帧的一或多个矩形区域。
在另一实例中,提供一种上面存储有指令的非暂时性计算机可读媒体,所述指令在由一或多个处理器执行时致使所述一或多个处理器执行包含以下的操作:获得包含多个视频帧的360度视频数据,所述多个视频帧中的每一视频帧包含用于视频帧的视频数据的球面表示。所述指令可进一步致使所述一或多个处理器执行包含以下的操作:将来自多个视频帧的视频帧分割成顶部区、中间区及底部区,所述顶部区包含球面表示的第一圆形区域,所述底部区包含球面表示的第二圆形区域,其在球面表示上与第一圆形区域相对,其中所述中间区包含球面表示中不包含于顶部区或底部区中的区域。所述指令可进一步致使所述一或多个处理器执行包含以下的操作:使用圆柱等面积投影将中间区映射至输出视频帧的一或多个矩形区域。
在另一实例中,提供一种设备,其包含用于获得包含多个视频帧的360度视频数据的装置,所述多个视频帧中的每一视频帧包含用于视频帧的视频数据的球面表示。所述设备进一步包括用于将来自所述多个视频帧中的视频帧分割成顶部区、中间区及底部区的装置,所述顶部区包含球面表示的第一圆形区域,所述底部区包含球面表示的第二圆形区域,其在球面表示上与所述第一圆形区域相对,其中所述中间区包含球面表示中不包含于顶部区或底部区中的区域。所述设备进一步包括用于将中间区映射至输出视频帧的一或多个矩形区域的装置。所述设备进一步包括用于使用圆柱等面积投影将中间区映射至输出视频帧的一或多个矩形区域的装置。
在一些方面中,在高于球面表示的赤道的第一纬度及低于赤道的第二纬度下分割视频帧,其中所述第一纬度及第二纬度与赤道等距,其中顶部区高于第一纬度,且其中底部区低于第二纬度。在一些方面中,中间区包含球面表示的区域的三分之二。
在一些方面中,映射中间区包含选择输出视频帧中的像素位置,及确定球面表示上对应于所述像素位置的点,其中使用用于将二维矩形转换为三维球体的映射来确定球面表示上的点。这些方面进一步包含在球面表示上的点处对像素进行取样,及将经取样像素分配至像素位置。
在一些方面中,中间区包含左视图、正视图及右视图,其中左视图在输出视频帧中邻近于正视图置放,且其中右视图邻近于正视图置放。
在一些方面中,中间区包含后视图,其中所述底部区在输出视频帧中邻近于后视图置放,且其中顶部区邻近于后视图置放。
在一些方面中,上述方法、计算机可读媒体及设备可进一步包含将顶部区映射至输出视频帧中及将底部区映射至输出视频帧中。
在一些方面中,所述输出视频帧具有三乘二高宽比。
根据至少一个实例,提供一种用于编码视频数据的方法。在各种实施方案中,所述方法包含获得包含多个视频帧的360度视频数据,所述多个视频帧中的每一视频帧包含用于视频帧的视频数据的二维表示。所述方法进一步包含识别来自多个视频帧中的视频帧的一或多个矩形区域。所述方法进一步包含使用圆柱等面积投影将一或多个矩形区域映射至视频数据的球面表示的中间区中,所述球面表示进一步包含顶部区及底部区,其中所述中间区位于顶部区与底部区之间。
在另一实例中,提供一种设备,其包含经配置以存储360度视频数据的存储器及处理器。所述360度视频数据可包含多个视频帧,来自所述多个视频帧的每一视频帧包含用于视频帧的视频数据的二维表示。处理器经配置以且可识别来自多个视频帧中的视频帧的一或多个矩形区域。处理器经配置以且可使用圆柱等面积投影将一或多个矩形区域映射至视频数据的球面表示的中间区中,所述球面表示进一步包含顶部区及底部区,其中中间区位于顶部区与底部区之间。
在另一实例中,提供一种在上面存储有指令的非暂时性计算机可读媒体,所述指令在由一或多个处理器执行时致使所述一或多个处理器执行包含以下的操作:获得包含多个视频帧的360度视频数据,来自所述多个视频帧的每一视频帧包含用于视频帧的视频数据的二维表示。所述指令可进一步致使一或多个处理器执行包含以下的操作:识别来自多个视频帧的视频帧的一或多个矩形区域。所述指令可进一步致使一或多个处理器执行包含以下的操作:使用圆柱等面积投影将一或多个矩形区域映射至视频数据的球面表示的中间区中,所述球面表示进一步包含顶部区及底部区,其中中间区位于顶部区与底部区之间。
在另一实例中,提供一种设备,其包含用于获得包含多个视频帧的360度视频数据的装置,来自所述多个视频帧的每一视频帧包含用于视频帧的视频数据的二维表示。所述设备进一步包括用于识别来自多个视频帧中的视频帧的一或多个矩形区域的装置。所述设备进一步包括用于使用圆柱等面积投影将一或多个矩形区域映射至视频数据的球面表示的中间区中的装置,所述球面表示进一步包含顶部区及底部区,其中中间区位于顶部区与底部区之间。
在一些方面中,顶部区包含球面表示中高于球面表示的第一纬度的表面,其中底部区包含球面表示中低于球面表示的第二纬度的表面,其中所述第一纬度及所述第二纬度与球面表示的赤道等距。在一些方面中,所述一或多个矩形区域包含视频帧的区域的三分之二。
在一些方面中,映射一或多个矩形区域包含选择球面表示上的点及确定视频帧中对应于所述点的像素位置,其中使用用于将三维球体转换为二维矩形的映射来确定像素位置。这些方面进一步包含从所述像素位置对像素进行取样,及将所述经取样像素分配至点。
在一些方面中,一或多个额外矩形区域包含左视图、正视图及右视图,其中左视图邻近于正视图定位,且其中右视图邻近于正视图。
在一些方面中,所述一或多个额外矩形区域包含后视图,其中第一矩形区域邻近于后视图,且其中第二矩形区域邻近于后视图。
在一些方面中,上文所论述的方法、计算机可读媒体及设备进一步包含将视频帧的第一矩形区域映射至顶部区中及将视频帧的第二矩形区域映射至底部区中。
此发明内容并不意在识别所要求保护的主题的关键或基本特征,也不意在单独使用以确定所要求保护的主题的范围。应参考此专利的整个说明书的适当部分、任何或所有图式及每一权利要求来理解主题。
在参考以下说明书、权利要求书及随附图式时,前述内容连同其它特征及实施例将变得更显而易见。
附图说明
下文参考以下图式详细描述本发明的说明性实施例:
图1A说明包含360度视频帧的等矩形投影的视频帧。
图1B说明包含360度视频帧的立方图投影的视频帧。
图2A为说明球体的表面至竖直映射的分段式球体投影的图。
图2B为说明可使用分段式球体映射产生的用于各面及视图的交替映射的图。
图3为说明将兰伯特圆柱等面积投影应用至球体的赤道段的实例的图。
图4为说明圆至正方形或正方形至圆的映射的实例的图。
图5为说明圆至正方形及正方形至圆的映射的实例的图。
图6说明已使用用于赤道区的圆柱等面积投影及用于极性区的圆至正方形映射而从360度视频数据映射的视频帧的实例。
图7为说明用于根据本文所论述的技术处理视频数据的过程的实例的流程图。
图8为说明用于根据本文所论述的技术处理视频数据的过程的实例的流程图。
图9为说明实例编码装置的框图。
图10为说明实例解码装置的框图。
具体实施方式
下文提供本发明的某些方面及实施例。这些方面及实施例的一些可独立地应用并且其中的一些可以将对本领域的技术人员显而易见的组合来应用。在以下描述中,出于解释的目的,阐述特定细节以便提供对本发明的实施例的透彻理解。然而,各种实施例可在无这些特定细节的情况下得以实践将为显而易见的。图式及描述不意在为限定性的。
随后的描述仅提供实例,且并不意在限制本发明的范围、适用性或配置。相反,各种实例的随后描述将为本领域的技术人员提供用于实施实例中的任一者的启发性描述。应理解,可在不脱离如所附权利要求书中所阐述的本发明的精神及范围的情况下对元件的功能及布置做出各种改变。
在以下描述中,给出特定细节以提供对实例的彻底理解。然而,一般技术人员应了解,实例可在无需这些具体细节的情况下实践。举例来说,电路、***、网络、过程及其它组件可以框图形式展示为组件以免以不必要的细节混淆实例。在其它情况下,已在无不必要的细节的情况下展示熟知电路、过程、算法、结构及技术以便避免混淆实例。
另外,应注意,个别实例可描述为被描绘为流程图、流图、数据流图、结构图或框图的过程。尽管流程图可能将操作描述为顺序过程,但许多操作可并行地或同时加以执行。另外,操作的次序可重新布置。过程在其操作完成时终止,但可具有不包含于图中的额外步骤。过程可对应于方法、函式、程序、次例行程序、子程序等。当过程对应于函式时,其终止可对应于函式传回至呼叫函式或主函式。
术语“计算机可读媒体”包含但不限于便携式或非便携式存储装置、光学存储装置,及能够存储、含有或携载指令及/或数据的各种其它媒体。计算机可读媒体可包含非暂时性媒体,其中可存储数据并且不包含载波及/或以无线方式或经由有线连接传播的暂时电子信号。非暂时性媒体的实例可包含(但不限于)磁盘或磁带、诸如光盘(CD)或数字化通用光盘(DVD)的光学存储媒体、快闪存储器、存储器或存储器装置。计算机可读媒体可具有存储于其上的代码及/或机器可执行指令,所述代码及/或机器可执行指令可表示过程、函数、子程序、程序、例行程序、次例行程序、模块、软件包、类别,或指令、数据结构或程序语句的任何组合。代码段可通过传递及/或接收信息、数据、引数、参数或存储器内容耦接至另一代码段或硬件电路。信息、引数、参数、数据等可经由包含存储器共用、消息传递、令牌传递、网络发射或类似者的任何合适方式传递、转寄或发射。
此外,可由硬件、软件、固件、中间软件、微码、硬件描述语言或其任何组合来实施各种实例。当实施于软件、固件、中间软件或微码中时,用以执行必要任务的程序代码或代码段(例如,计算机程序产品)可存储于计算机可读或机器可读媒体中。处理器可执行必要任务。
虚拟实境(VR)描述可在看起来真实或物理方式内交互的三维的计算机产生的环境。在一些情况下,体验虚拟实境环境的用户使用诸如头戴显示器(HMD)及视情况选用的其它可穿戴物品(诸如,配备有传感器的手套)的电子装备以与虚拟环境交互。随着用户在真实世界中移动,在虚拟环境中显现的图像也改变,从而向用户给予用户正在虚拟环境内移动的感知。在一些情况下,虚拟环境包含与用户的移动相关的声音,从而向用户给予声音来源于特定方向或来源的视听。虚拟实境视频可以极高质量被捕捉且显现,从而潜在地提供真实沉浸式虚拟实境体验。虚拟实境应用包含游戏、训练、教育、体育视频及线上购物以及其它。
360度视频为经捕捉以用于在虚拟实境环境中显示的视频。举例来说,360度视频的帧可包含从给定点可见的完整360度,使得帧包含以所述点为中心的球体的全部或一部分的像素。360度视频数据也可被称作球面视频,是因为360度视频捕捉所有方向上的视图,使得每一360度视频帧可被视为所捕捉像素的球体。360度视频的帧可为计算机产生的,且可用以呈现虚构环境。在一些应用中,来自真实世界的视频可用于呈现虚拟实境环境。在这些应用中,用户可以用户可体验目前位置的相同方式体验另一位置。举例来说,用户可在使用定位于旧金山的360度视频***时体验柏林的步行旅行。
360度视频***可包含视频捕捉装置及视频显示装置,且可能也包含诸如服务器、数据存储器及数据发射装备的其它中间装置。视频捕捉装置可包含相机集合,即,多个相机的集合,每一相机定向于不同方向且捕捉不同视图。在各种应用中,两个至六个相机可用以捕捉以相机集合的位置为中心的完整360度视图。一些视频捕捉装置可使用主要捕捉侧对侧视图的较少相机,诸如视频捕捉装置。视频包含帧,其中帧为场景的电子译码静态图像。相机每秒捕捉某数目个帧,其通常被称作相机的帧速率。
在一些情况下,为了提供无缝的360度视图,通过相机集合中的每一相机捕捉的视频经历图像缝合。在360度视频产生的情况下的图像缝合涉及组合或合并视频帧重叠或将以其它方式连接所在的区域中的邻近相机的视频帧。结果为大致球面的视频数据帧。为与现有视频***集成,球面视频数据帧可映射成平面格式。为了映射,可使用诸如用于产生麦卡托投影的技术的技术来产生等矩形格式。作为另一实例,经合并视频帧中的像素可经映射至立方体形状或某种其它三维平面形状(例如,角锥形、八面体、十面体等)的平面上。视频捕捉及视频显示装置按光栅原理操作--意味着视频帧作为像素栅格处置--因此,正方形或矩形平面通常用以表示球面环境。
映射至平面表示的360度视频帧可经编码及/或压缩以供存储及/或发射。可使用视频编码解码器(例如,符合高效率视频译码(HEVC)标准(也被称作H.265)的编码解码器,或符合先进视频译码标准(也被称作H.264)或另一适合译码标准的编码解码器)实现编码及/或压缩,其产生经编码及/或经压缩视频位流或位流的群组。下文进一步详细地描述使用视频编码解码器对视频数据进行编码。
在一些实施方案中,经编码视频位流可以媒体格式或文件格式存储及/或囊封。一或多个所存储位流可(例如)经由网络发射至接收器装置,所述接收器装置可解码并显现视频以供显示。此接收器装置在本文中可被称作视频显示装置。举例来说,360度视频***可从经编码视频数据(例如,使用国际标准组织(ISO)基本媒体文件格式及/或导出的文件格式)产生经囊封文件。举例来说,视频编码解码器可编码视频数据,且囊封引擎可通过将视频数据囊封于一或多个ISO格式媒体文件中而产生媒体文件。或者或另外,一或多个所存储位流可直接从存储媒体提供至接收器装置。
接收器装置也可实施编码解码器以解码及/或解压缩经编码视频位流。在一或多个经编码视频位流以媒体格式或文件格式存储及/或囊封的情况下,接收器装置可支持用以将视频位流封装至文件(或多个文件)中的媒体或文件格式,且可提取视频(且也可能为音讯)数据以产生经编码视频数据。举例来说,接收器装置用经囊封视频数据剖析媒体文件以产生经编码视频数据,且接收器装置中的编码解码器可解码经编码视频数据。
接收器装置接着可发送经解码视频信号至显现装置(例如,视频显示装置、播放器装置或其它适合的显现装置)。举例来说,显现装置包含头戴显示器、虚拟实境电视及其它180度或360度显示装置。一般来说,头戴式显示器能够追踪穿戴者的头部的移动及/或穿戴者的眼睛的移动。头戴显示器可使用追踪信息来显现对应于穿戴者正观察的方向的360度视频的部分,使得穿戴者以与穿戴者将体验真实世界相同的方式体验虚拟环境。显现装置可以捕捉视频的相同帧速率或以不同帧速率显现视频。
投影及映射用于在二维(2-D)图上表示三维(3-D)表面。举例来说,在360度视频应用中,投影及映射可用于将360度视频帧映射至二维视频帧上,所述360度视频帧从相机捕捉所有方向上的像素且因此可被视为球体。二维投影的实例包含等矩形(ERP)投影及立方图(CMP)投影以及其它。图1A说明包含360度视频帧的等矩形投影的视频帧110。等矩形投影通过以线性方式将球体上的点的纬度及经度映射至视频帧110中的(x,y)座标而将球体上的点映射至二维图。等矩形投影能够包含从360度视频帧至二维视频帧110中的所有像素,因此从视频帧110的一个区域至另一区域的转变是顺畅的。无缝转变意味着等矩形视频帧可在经编码视频帧的尺寸方面进行有效编码。其是因为诸如运动估计及运动补偿的操作在视频帧之间的运动显得连续时产生更好结果。
图1B说明包含360度视频帧的立方图投影的视频帧120。立方图投影将球体的表面上的点投影至与球体表面相切的平面上的点。即,像素适配至立方体的六个面上,其中立方体的高度、宽度及长度可使得所述立方体适配在球面内。图1B的实例为3×2布置;即,三个立方体面宽,且两个立方体面高。3×2布置产生可有效地编码的高宽比。举例来说,相比使用诸如1×2的布置的情况,需要每像素线存储更少的数据。
在图1B的实例视频帧120中,可视为前向正表面122的立方体面置放于视频帧120的上半部分的中间中。位于前表面右侧及左侧的立方体面(例如,右面124及左面126)分别置放于视频帧120的上半部分的右侧及左侧上。可视为背面128的立方体面旋转-90度,且置放于视频帧120的下半部分的中间。可视为上面或顶面130的立方体面置放于背面128的右侧,且也经旋转使得顶面130的边缘匹配背面128的边缘。可视为下面或底面132的立方体面置放于背面128的左侧,经旋转以匹配背面128的边缘。
在图1B的实例中,包含于前面122中的像素可经选择为直接置放于观看者前方的视图。在其它实例中,可将视频数据的另一部分选择为正视图。另外,在图1B的实例视频帧120中说明的立方体面的布置为一个实例布置。其它布置也为可能的。
归因于对于出现在立方体面的边缘处的像素数据的某些压缩,立方图投影与等矩形投影相比可更为紧凑。立方图也产生图像的较少失真,其可改进译码效率。
另一种投影被称作分段式球体投影(SSP)。分段式球体投影描述于Y.Ye、E.Alshina及J.Boyce“360Lib中的投影格式转换及视频质量度量的算法描述(Algorithmdescriptions of projection format conversion and video quality metrics in360Lib)”,JVET-E1003,2017年1月(下文称为“JVET-E1003”)中,其特此以全文引用的方式及出于所有目的而并入。图2A说明球体202的表面至根据分段式球体投影产生的实例竖直二维映射210的分段式球体投影。分段式球体投影将球体分成三段:北极区204、南极区208及赤道区206。北极区及南极区在本文中也被称作球极或球极段。在所说明实例中,以北纬45度及南纬45度(例如,如从球体202的中心量测)划分三段。在其它实例中,可以不同纬度来划分三段。
在图2A中所说明的实例二维映射210中,由北极区204覆盖的区域经映射至第一圆形区,其将被称作顶视图214。类似地,由南极区208覆盖的区域经映射至第二圆形区,其将被称作底视图218。在此实例中,底视图218在映射210中置放为靠近顶视图214及在所述顶视图下方。顶视图214及底视图21也分别标记为面0及面1。赤道区206经划分成四个相同片段,且每一片段经映射至一正方形区域,所述片段在映射210中以一个在另一个下方的方式置放于底视图218下方。出于此实例的目的,赤道区206的正方形区域从上而下将分别被称作左视图216a、正视图216b、右视图216c及后视图216d或面2、面3、面4及面5。左视图216a、正视图216b、右视图216c及后视图216d的数值标记已经旋转-90度,以说明置放于这些视图中的像素的定向;在此实例中,所有四个视图北向右定向且南向左定向。在其它实例中,左视图、右视图、正视图及后视图可以不同次序布置且其南北定向与此处所说明的定向不同。在其它实例中,其中映射赤道区206的区域可能并非为正方形。举例来说,当不同于45度的角度用于划定极性区时,并非正方形的矩形区域可更好地拟合像素数据,且与此实例中数据经映射至正方形区域的情况相比可导致较少失真。
在视频应用中,可使用通常被称为鱼眼投影的角向投影将来自北极区204及南极区208中的每一者的像素分别映射至顶视图214及底视图218的圆形区。在此实例中,归因于每一视图覆盖90度纬度,顶视图214及底视图218中的每一者中的圆形区的直径与赤道区中的每一者的边缘相同。左视图216a、正视图216b、右视图216c及后视图216d中的每一者可使用用以产生等矩形投影的投影产生,其可产生在这些视图之间的相对平滑的转变。
图2B为说明可使用分段式球体映射产生的用于各面及视图的交替映射220的图。在图2B的实例,视图以3×2形状布置;即,三个面交叉且两个面高。在此映射220中,正视图216b置放于映射220的上半部的中间。左视图216a及右视图216c分别置放在正视图216b的左侧及右侧。后视图216d旋转-90度且置放于映射220的下半部的中间。顶视图212也经旋转使得所述顶视图的左边缘与后视图216d的右边缘对准,且置放在后视图216d的右侧。底视图218也经旋转使得底视图218的右边缘与后视图216d的左边缘对准,且置放在后视图216d的左侧。在此实例中,“对准”意味着来自每一视图的将在原始球体202中相邻的至少一些像素在映射220中相邻。在此实例中,超出鱼眼投影范围的顶视图212及底视图218的拐角区域是用灰色填充。在其它实例中,这些拐角区域可用另一颜色填充。
可使用各种技术将分段式球体映射的赤道区映射至二维视频帧的一或多个区。举例来说,可使用等矩形投影或立方图投影。这些投影可导致视频帧中的非所需量的失真。举例来说,等矩形投影使极性区跨越投影宽度延伸,以及压缩这些区域。作为另一实例,立方图投影可产生立方体面之间的非线性转变,以使得立方体面之间的边界是可见的。
除在显现视频帧时产生可见疵点以外,这些及其它失真可降低译码效率。举例来说,一些视频压缩算法搜索视频帧及/或视频帧中在视觉上类似于同一视频帧或另一视频帧中的其它块的块之间的连续运动。视频帧的失真可导致应为连续运动的视频帧显得不连续。另外或替代地,在原始360度视频中类似的块可以使块中的像素不再类似的方式失真。这些及其它问题可降低视频压缩算法有效编码二维视频帧从而产生较大经压缩位流的能力。
在各种实施方案中,提供使用避免上文所论述的问题的分段式球体投影处理360度视频数据的***及方法。在各种实施方案中,可使用分段式球体投影将360度视频帧映射至二维矩形格式,其可使视频发射器及接收器更容易进行处置。在产生此映射时,可使用圆柱等面积投影将分段式球体投影的赤道区映射至二维表示。圆柱等面积投影可导致视频帧的较少失真。减少失真可经由产生具有更多失真的视频帧的投影增大译码效率。增大的译码效率可产生更好压缩及较小经编码位流。
可使用各种圆柱等面积投影将分段式球极投影的赤道段映射至二维格式。举例来说,视频译码***可应用兰伯特圆柱等面积投影来执行映射。兰伯特圆柱等面积投影为用于将球面形状映射成二维格式的一类投影中的一者,其中二维格式沿球体的赤道无失真及其失真在赤道与极点之间增大。等面积投影以极性区中的视觉失真为代价来保持球体的区域。其它圆柱等面积投影包含贝尔曼(Behrmann)、高尔-彼得(Gall-Peters)及其它投影,其中任一者可用于将360度视频帧转换为二维格式。兰伯特投影提供最简式,且已展示为与至少一些更复杂的圆柱等面积投影相比产生更好译码效率。
图3为说明将兰伯特圆柱等面积投影应用至球体302的赤道区306的实例的图。此实例的球体302已根据分段式球体投影分割,且因此,除了赤道区306以外也包含北极区304及南极区308。在图3中所说明的实例中,划定北极区304及南极区308的纬度为其经选择以使得赤道区306包含球体的整个区域的三分之二,且每一极性段包含球体的区域的六分之一。
图3以实例的方式说明球体302的像素可映射至其上的圆柱310。圆柱310可“展开”或放平且划分成用于将球体302映射至二维映射的四个面。由于赤道区306包含球体的区域的三分之二,在赤道区306映射至二维映射中的面时(参见例如图2A及2B),赤道面中的样本的数目也等于二维映射中的样本的三分之二。可替代地,在一些实例中,图3中所说明的赤道区306可映射至矩形面以保持高宽比。投影的实例描述于Aleksandar M.Dimitrijevic、Martin Lambers及Dejan D.Rancic,“用于行星大小地形显现中的球面立方体图投影的比较(Comparison of spherical cube map projections used in planet-sized terrainrendering)”,Facta Universitatis(NIS),Ser.Math.Inform.,第31卷,第2期(2016),259-297,其特此以全文引用的方式且出于所有目的并入。
如上文所论述,极性段(例如,北极区304及南极区308)可映射成球体302的二维映射中的圆盘形或圆形。在映射至圆盘时,极性段的二维映射中的样本小于二维映射中的样本的三分之一。当极性段经映射以扩展至正方形面中时,如上文所论述,则每一极性段可包含二维映射中样本的六分之一。
将360度视频帧映射至二维矩形格式涉及将360度视频数据的三维空间转换为输出视频帧的二维空间。执行此转换可包含选择输出视频帧中的像素位置(m,n)及确定球面视频数据上的点(φ,θ)。像素样本可获自由(φ,θ)指定的点且置放于输出视频帧中的点(m,n)处。
在一些实例中,北极区304及南极区308可使用角向鱼眼投影映射,其也可描述为圆形极点映射。使用鱼眼投影,极区域可映射至视频帧的矩形区域,同时维持圆形形状。
可使用以下方程式将北极区304(例如面0)映射至二维映射:
其中
以下方程式可用于南极区308(例如面1)至二维映射:
其中
以下方程式说明兰伯特圆柱等面积投影至赤道区306的实例应用。在此实例中,赤道区306可映射至四个正方形区域,其使用以下方程式由f=2...5标识(例如,面2、3、4及5):
在方程式(5)及(6)中,取决于哪一面f=2...5经映射,偏航(例如水平角度)处于范围内,且俯仰(例如竖直角度)处于范围内。
图4说明已使用以上方程式及如先前所论述的3×2布置从360度视频数据映射的视频帧420的实例。在此实例中,视频帧420、可被称作左视图416a、正视图416b及右视图416c的面2、面3及面4已彼此相邻地置放于视频帧420的上半部中。左视图416a、正视图416b及右视图416c因此可形成像素似乎在视图之间平滑转变的区域。在视频帧420的下半部中,可被称作后视图416d的面5已旋转-90度且已置放于面1(底视图418)与面0(顶视图412)之间。底视图418及顶视图412也旋转以便与后视图416d的边缘对准。底视图418、后视图416d及顶视图412的旋转至少产生连续像素,其中底视图418邻近于后视图416d且其中后视图416d邻近于顶视图412。
如上文所论述,鱼眼投影导致北极区及南极区的像素各自在其中映射像素的正方形区域内占据圆形区域。鱼眼投影能够保持大部分来自球面视频数据的数据,尽管由于像素弯曲成圆形而可能出现某种损失。另外,正方形区具有拐角区域,其中像素是用灰色或某一其它值填充而非用来自球面视频数据的像素数据填充。在经编码时,归因于无视频数据,拐角区域可降低译码效率。此外,拐角区域添加不必要数据,是因为将在显现视频帧以供显示时丢弃来自拐角区域的数据。
在一些实例中,可使用圆至正方形转换将圆形极性数据映射至视频帧的正方形区域中。在显现视频帧以供显示时,视频译码***可使用正方形至圆转换以重构建极性区。
图5为说明圆502至正方形504及正方形504至圆502的映射的实例的图。可使用各种技术来实现这些映射,其中的一些描述于M.Lambers“球体、圆盘及正方体之间的映射(Mappings between Sphere,Disc,and Square)”,Journal of Computer GraphicsTechniques,第5卷,第2期,2016中,其特此以全文引用的方式及出于所有目的并入。举例来说,可使用Fernández-Gausti圆方形映射、椭圆弧形映射或另一种映射。使用圆至正方形转换及正方形至圆转换将360度视频数据投影成二维格式及从二维格式投影回至360度表示进一步论述于____申请的美国申请案第____号(代理人案号173521)中,所述美国申请案以全文引用的方式并入本文中。
图6说明已使用用于赤道区的圆柱等面积投影及用于极性区的圆至正方形映射从360度视频数据映射的视频帧620的实例。实例视频帧620布置不同面及后视图,其中三者交叉且两者较高。与图4的实例中相同,在图6中,可被称作左视图616a、正视图616b及右视图616c的面2、面3及面4已彼此相邻地置放于视频帧620的上半部中。在视频帧620的下半部中,可被称作后视图616d的面5已旋转-90度且已置放于面1(底视图618)与面0(顶视图612)之间。
在此实例中,底视图618及顶视图612的极性区已经扩展以填充视频帧620中极性区已映射至其中的正方形区域中。底视图618及顶视图612已旋转以便与后视图616d的边缘对准。因此,跨越底视图618、后视图616d及顶视图612的像素几乎为连续的。在一些实例中,可能出现少量失真,其中底视图618与后视图616d相接及/或顶视图612与后视图616d相接。
通过将圆形极性区扩展至视频帧的正方形区域中,不再需要用像素数据来填充底视图618及顶视图612,所述像素数据可减小译码效率且将在显现视频帧620以供显示时丢弃。在视频帧620的下半部中布置底视图618、后视图616d及顶视图612产生半连续区。每一视图之间的平滑转变是合需要的,是因为与突然转变时相比,对视频帧的编码可产生更紧凑的经编码表示。在其它实例中,可使用视图的其它布置,诸如1×6布置或6×1布置。或者或另外,在其它实例中,顶视图及底视图可置放于视频帧620的顶部或底部、视频帧620的左侧或右侧上,或某一其它部分中。或者或另外,在顶视图及底视图经映射至视频帧之前,可应用顶视图及底视图的其它选择,以获得不同的半连续区。
一旦映射成二维格式,则视频帧可经编码以供存储及传送。视频帧也可经映射回至三维球面表示,且接着使用360度视频播放装置来观看。
为了从视频帧的二维映射产生球面表示,视频译码***可执行三维至二维转换。执行此转换可包含选择球体上的点(φ,θ)及确定二维映射中的对应点(m,n)。像素可接着从二维映射中的点取样,且置放于球体中的点处。在以下方程式中,假定每一面的尺寸为A×A。
可使用以下方程式将顶视图(例如面0)映射至北极区:
其中
可使用以下方程式将底视图(例如面1)映射至南极区:
其中
分别由f=2...5标识的包含视频帧的赤道区域的左视图、正视图、右视图及后视图可使用以下方程式映射至球体的赤道区:
在方程式(11)及(12)中,取决于哪一面f=2...5经映射,偏航(例如水平角度)处于范围内,且俯仰(例如竖直角度)处于范围 内。
使用上文所论述的投影以将360度视频帧映射至二维映射可改进360度视频的译码效率。举例来说,按照描述于J.Boyce、E.Alshina、A.Abbas、Y.Ye,“360度视频的JVET常见测试条件及评估程序(JVET common test conditions and evaluation procedures for360-degree video)”,JVET-E1030(其特此以全文引用的方式及出于所有目的并入)中的常见测试条件,在使用图4中所说明的映射时,译码增益为-11.4%。
图7说明用于根据上文所论述的技术处理视频数据的过程700的实例。在702处,过程700包含获得包含多个视频帧的360度视频数据,所述多个视频帧中的每一视频帧包含用于视频帧的视频数据的球面表示。在一些实例中,360度视频数据可从视频捕捉装置直接获得。在这些实例中,球面表示可包含同时捕捉的多个图片,诸如多个矩形图片或一或多个鱼眼图片。或者或另外,360度视频数据可包含其中多个图片已通过视频捕捉装置或另一装置缝合在一起的视频帧。在一些实例中,以矩形格式(例如,等矩形或立方图格式)获得的360度视频数据可经映射至球面表示。
在704处,过程700包含将来自多个视频帧的视频帧分割成顶部区、中间区及底部区。顶部区包含球面表示的第一圆形区域。底部区包含球面表示的第二圆形区域,其在球面表示上与第一圆形区域相对。中间区包含球面表示中不包含于顶部区或底部区中的区域。可以高于球面表示的赤道的第一纬度及低于赤道的第二纬度来分割视频帧。第一纬度及第二纬度可与赤道等距。在一些实例中,纬度的角度与赤道成41.81度。在其它实例中,纬度的角度大于或小于41.81度。在一些实例中,中间区包含球面表示的区域的三分之二。
在706处,过程700包含使用圆柱等面积投影将中间区映射至输出视频帧的一或多个矩形区域。圆柱等面积投影可为例如兰伯特圆柱等面积投影。映射中间区可包含(例如)选择输出视频帧中的像素位置及确定球面表示上对应于所述像素位置的点。在此实例中,可使用将二维矩形转换为三维球体的映射(诸如等矩形投影)来确定球面表示上的点。映射中间区可进一步包含在球面表示上的点处对像素进行取样,及将经取样像素分配至视频帧中的像素位置。使用圆柱等面积投影来映射中间区会在中间区经映射至输出视频帧时保持中间区的区域。在保持区域时,可修改中间区的高宽比。对比来说,诸如等面积投影的投影保持中间区的高宽比,同时改变所述区域。保持中间区的区域可经由保持高宽比来改进译码效率。
在一些实例中,中间区包含可指定为左视图、正视图及右视图的部分。在这些实例中,指定为左视图的部分可在输出视频帧中邻近于指定为正视图的部分置放。此外,指定为右视图的部分邻近于正视图置放。在这些实例中,左视图、正视图及右视图可在输出视频帧中形成连续区域,其中连续意味着在球面表示中相邻的像素彼此邻接地置放于输出视频帧中。
在一些实例中,中间区包含可指定为后视图的部分。在这些实例中,底部区可在输出视频帧中邻近于指定为后视图的部分置放,且顶部区也可邻近于后视图置放。在这些实例中,底部区及顶部区可在输出视频帧中形成基本上连续的区域。
在一些实例中,过程700进一步包含将顶部区映射至输出视频帧中。顶部区可使用角向鱼眼投影及/或将圆形区域转换为正方形区域的投影映射。在这些实例中,过程700也包含将底部区映射至输出视频帧中。底部区可使用角向鱼眼投影及/或将圆形区域转换为正方形区域的投影映射。
在一些实例中,所述输出视频帧具有三乘二高宽比。三乘二高宽比可比其它高宽比更有效地进行编码。在一些实例中,输出视频帧可使用例如HEVC或AVC编码解码器(或另一编码解码器)编码以供存储及/或发射。
图8说明用于根据上文所论述的技术处理视频数据的过程800的实例。在802处,过程800包含获得包含多个视频帧的360度视频数据,来自所述多个视频帧的每一视频帧包含用于视频帧的视频数据的二维表示。在一些实例中,360度视频数据可从经编码位流获得。经编码位流可从存储位置读取,及/或可从发射接收。在这些实例中,位流可解码成矩形视频帧。
在804处,过程800包含识别来自多个视频帧中的视频帧的一或多个矩形区域。所述一或多个矩形区域可包含(例如)左视图、正视图、右视图及/或后视图。在一些实例中,所述一或多个矩形区域包含视频帧的区域的三分之二。
在806处,过程800包含使用圆柱等面积投影将一或多个矩形区域映射至视频数据的球面表示的中间区中,所述球面表示进一步包含顶部区及底部区,其中中间区位于顶部区与底部区之间。圆柱等面积投影可为例如兰伯特圆柱等面积投影。映射一或多个矩形区域可包含(例如)选择球面表示上的点及确定视频帧中对应于所述点的像素位置。可使用将三维球体转换为二维矩形的映射(诸如,等矩形投影、立方图投影或另一投影)来确定像素位置。映射一或多个额外矩形区域可进一步包含从像素位置对像素进行取样,及将经取样像素分配至球面表示上的点。
在一些实例中,过程800可进一步包含将视频帧的第一矩形区域映射至顶部区中,及将视频帧的第二矩形映射至底部区中。第一矩形区域及/或第二矩形区域可使用角向鱼眼投影及/或用于将正方形区域转换为圆形区域的投影来映射。
顶部区可包含(例如)球面表示中高于球面表示的第一纬度的表面。作为另一实例,底部区可包含球面表示中低于球面表示的第二纬度的表面。在此实例中,第一纬度及第二纬度可与球面表示的赤道等距。在一些实例中,纬度为与赤道成41.81度。在一些实例中,纬度为大于或小于41.81度的度数。
在一些实例中,视频帧具有三乘二高宽比。在这些实例中,视频帧可包含两列三个视图或面。
在一些实例中,一或多个矩形区域包含可指定为左视图、正视图及右视图的区域。在这些实例中,指定为左视图的区域可邻近于指定为正视图的区域定位,且指定为右视图的区域也可邻近于正视图定位。在这些实例中,左视图、正视图及右视图可在视频帧中形成连续区域。
在一些实例中,所述一或多个矩形区域包含可指定为后视图的区域。在这些实例中,第一矩形区域可邻近于指定为后视图的区域,且第二矩形区域也可邻近于后视图。在这些实例中,第一矩形区域、后视图及第二矩形区域可在视频帧中形成连续区域。
在一些实例中,过程700、800可由诸如视频译码装置的计算装置或设备执行。视频译码装置可包含(例如)视频编码***及/或视频解码***。在一些情况下,计算装置或设备可包含处理器、微处理器、微计算机或经配置以进行过程700、800的步骤的装置的其它组件。在一些实例中,计算装置或设备可包含经配置以捕捉包含视频帧的视频数据(例如,视频序列)的相机。举例来说,计算装置可包含相机装置(例如,IP相机或其它类型的相机装置),所述相机装置可包含视频编码解码器。在一些实例中,相机或捕捉视频数据的其它捕捉装置与计算装置分离,在此情况下,计算装置接收所捕捉视频数据。计算装置可进一步包含经配置以传达视频数据的网络接口。网络接口可经配置以传达基于因特网协议(IP)的数据。
过程700、800经绘示为逻辑流程图,其操作表示可以硬件、计算机指令或其组合实施的一系列操作。在计算机指令的背景脉络中,操作表示存储于一或多个计算机可读存储媒体上当通过一或多个处理器执行时执行所叙述的操作的计算机可执行指令。一般来说,计算机可执行指令包含执行特定功能或实施特定数据类型的例行程序、程序、物件、组件、数据结构及其类似者。描述操作的次序并不意在被理解为限制,且任何数目个经描述操作可按任何次序及/或与实施过程并行地组合。
另外,过程700、800可在经配置有可执行指令的一或多个计算机***的控制下执行且可经实施为通过硬件或其组合共同执行于一或多个处理器上的代码(例如,可执行指令、一或多个计算机程序或一或多个应用程序)。如上文所陈述,代码可存储于计算机可读或机器可读存储媒体上,例如,呈包括可由一或多个处理器执行的多个指令的计算机程序的形式。计算机可读或机器可读存储媒体可为非暂时性的。
包含编码***及/或解码***的视频译码***可用于编码及/或解码视频数据。实例视频编码及解码***包含源装置,其提供稍后待由一目的地装置解码的经编码视频数据。确切地说,源装置经由计算机可读媒体提供视频数据至目的地装置。源装置及目的地装置可包括广泛范围的装置中的任一者,包含台式计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(诸如所谓的“智能”电话)、所谓的“智能”平板、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式发射装置或类似者。在一些情况下,源装置及目的地装置可经装备以用于无线通信。
通过相机(例如,鱼眼相机或其它一或多种适合的相机)捕捉的视频数据可经译码以减少发射及存储所需的数据的量。译码技术可在实例视频编码及解码***中实施。在一些实例中,一***包含提供稍后待由一目的地装置解码的经编码视频数据的一源装置。确切地说,源装置经由一计算机可读媒体将视频数据提供至目的地装置。源装置及目的地装置可包括广泛范围的装置中的任一者,包含台式计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(诸如,所谓的“智能”电话)、所谓的“智能”平板、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式发射装置或其类似者。在一些情况下,源装置及目的地装置可经装备以用于无线通信。
目的地装置可经由计算机可读媒体接收待解码的经编码视频数据。计算机可读媒体可包括能够将经编码视频数据从源装置移动至目的地装置的任何类型的媒体或装置。在一个实例中,计算机可读媒体可包括通信媒体以使得源装置能够实时地将经编码视频数据直接发射至目的地装置。经编码视频数据可根据通信标准(诸如,无线通信协议)调变,且经发射至目的地装置。通信媒体可包括任何无线或有线通信媒体,诸如射频(RF)频谱或一或多个物理发射线。通信媒体可形成基于包的网络(诸如,局域网、广域网或诸如因特网的全球网)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置至目的地装置的通信的任何其它装备。
在一些实例中,经编码数据可从输出接口输出至存储装置。类似地,经编码数据可由输入接口从存储装置存取。存储装置可包含多种分散式或本地存取的数据存储媒体中的任一者,诸如,硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它适合的数字存储媒体。在另一实例中,存储装置可对应于文件服务器或可存储由源装置产生的经编码视频的另一中间存储装置。目的地装置可经由流式发射或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射至目的地装置的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络附加存储(NAS)装置或本地磁盘驱动器。目的地装置可经由任何标准数据连接(包含因特网连接)存取经编码视频数据。此可包含适用于存取存储于文件服务器上的经编码视频数据的无线通道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置的发射可为流式发射、下载发射或其组合。
本发明的技术不必限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一者的视频译码,所述多媒体应用诸如空中电视广播、有线电视发射、***发射、诸如HTTP动态自适应流式发射(DASH)的因特网流视频发射、经编码至数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码或其它应用。在一些实例中,***可经配置以支持单向或双向视频发射从而支持诸如视频流式发射、视频播放、视频广播及/或视频电话的应用。
在一个实例中,源装置包含视频源、视频编码器及输出接口。目的地装置可包含输入接口、视频解码器及显示装置。源装置的视频编码器可经配置以应用本文中所揭示的技术。在其它实例中,源装置及目的地装置可包含其它组件或布置。举例来说,源装置可从外部视频源(诸如,外部相机)接收视频数据。同样,目的地装置可与外部显示装置介接,而非包含集成式显示装置。
以上实例***仅为一个实例。用于并行处理视频数据的技术可由任何数字视频编码及/或解码装置来执行。尽管本发明的技术一般由视频编码装置执行,但所述技术也可由视频编码器/解码器(通常被称作“编码解码器”)执行。此外,本发明的技术也可由视频预处理器执行。源装置及目的地装置仅为源装置产生经译码视频数据以供发射至目的地装置的此类译码装置的实例。在一些实例中,源装置及目的地装置可以基本上对称的方式操作,使得所述装置中的每一者包含视频编码及解码组件。因此,实例***可支持视频装置之间的单向或双向视频发射,例如用于视频流式发射、视频播放、视频广播或视频电话。
视频源可包含视频捕捉装置,诸如视频相机、含有先前捕捉的视频的视频存档及/或用以从视频内容提供者接收视频的视频馈入接口。作为另一替代方案,视频源可产生基于计算机图形的数据作为源视频,或实况视频、存档视频及计算机产生的视频的组合。在一些情况下,如果视频源为视频相机,那么源装置及目的地装置可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明所描述的技术一般可适用于视频译码,且可适用于无线及/或有线应用。在每一情况下,可由视频编码器编码所捕捉、经预捕捉或计算机产生的视频。经编码视频信息接着可由输出接口输出至计算机可读媒体上。
如所提及,计算机可读媒体可包含暂态媒体,诸如无线广播或有线网络发射;或存储媒体(即,非暂时性存储媒体),诸如硬盘、闪存盘、光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(图中未展示)可从源装置接收经编码视频数据且例如经由网络发射将经编码视频数据提供至目的地装置。类似地,媒体生产设施(诸如,光盘冲压设施)的计算装置可从源装置接收经编码视频数据且生产含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体可理解为包含各种形式的一或多个计算机可读媒体。
一般技术人员将了解,在不脱离本说明书的范围的情况下,本文中所使用的小于(“<”)及大于(“>”)符号或术语可分别用小于或等于(“≤”)及大于或等于(“≥”)符号替换。
编码装置104及解码装置112的特定细节分别展示于图12及图13中。图12为说明可实施本发明中所描述的技术中的一或多者的实例编码装置104的框图。编码装置104可(例如)产生本文中所描述的语法结构(例如,VPS、SPS、PPS或其它语法元素的语法结构)。编码装置104可执行视频切片内的视频块的帧内预测及帧间预测译码。如先前所描述,帧内译码至少部分地依赖于空间预测以减少或移除给定视频帧或图片内的空间冗余。帧间译码至少部分地依赖于时间预测以减少或移除视频序列的相邻或周围帧内的时间冗余。帧内模式(I模式)可指若干基于空间的压缩模式中的任一者。帧间模式(诸如,单向预测(P模式)或双向预测(B模式))可指若干基于时间的压缩模式中的任一者。
编码装置104包含分割单元35、预测处理单元41、滤波器单元63、图片存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44及帧内预测处理单元46。对于视频块重构建,编码装置104也包含逆量化单元58、逆变换处理单元60及求和器62。滤波器单元63意在表示一或多个回路滤波器,诸如解块滤波器、自适应回路滤波器(ALF)及样本自适应偏移(SAO)滤波器。虽然滤波器单元63在图12中展示为回路滤波器,但在其它配置中,滤波器单元63可实施为后回路滤波器。后处理装置57可对由编码装置104产生的经编码视频数据执行额外处理。本发明的技术可在一些情况下由编码装置104实施。然而,在其它情况下,本发明的技术中的一或多者可由后处理装置57实施。
如图12中所展示,编码装置104接收视频数据,且分割单元35将数据分割成视频块。分割也可包含分割成切片、切片片段、图案块或其它较大单元以及(例如)根据LCU及CU的四分树结构的视频块分割。编码装置104一般说明编码待编码的视频切片内的视频块的组件。切片可划分成多个视频块(且可能划分成被称作图案块的视频块集合)。预测处理单元41可基于误差结果(例如,译码速率及失真等级,或其类似者)选择多个可能译码模式中的一者(诸如,多个帧内预测译码模式中的一者或多个帧间预测译码模式中的一者)以用于当前视频块。预测处理单元41可将所得经帧内或帧间译码块提供至求和器50以产生残余块数据且提供至求和器62以重构建经编码块以用作参考图片。
预测处理单元41内的帧内预测处理单元46可执行当前视频块相对于与待译码的当前块在相同的帧或切片中的一或多个邻近块的帧内预测译码,以提供空间压缩。预测处理单元41内的运动估计单元42及运动补偿单元44执行当前视频块相对于一或多个参考图片中的一或多个预测性块的帧间预测性译码,以提供时间压缩。
运动估计单元42可经配置以根据视频序列的预定图案来确定用于视频切片的帧间预测模式。预定图案可将序列中的视频切片指定为P切片、B切片或GPB切片。运动估计单元42及运动补偿单元44可高度集成,但出于概念目的而单独说明。由运动估计单元42执行的运动估计为产生运动向量的过程,所述运动向量估计视频块的运动。运动向量(例如)可指示当前视频帧或图片内的视频块的预测单元(PU)相对于参考图片内的预测性块的移位。
预测性块为就像素差来说被发现紧密地匹配待译码的视频块的PU的块,所述像素差可由绝对差和(SAD)、平方差和(SSD)或其它差度量确定。在一些实例中,编码装置104可计算存储于图片存储器64中的参考图片的次整数像素位置的值。举例来说,编码装置104可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可执行关于全像素位置及分数像素位置的运动搜索且输出具有分数像素精确度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置而计算经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),所述列表中的每一者识别存储于参考图片存储器64中的一或多个参考图片。运动估计单元42将所计算的运动向量发送至熵编码单元56及运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计(可能执行内插至子像素精确度)确定的运动向量而提取或产生预测性块。在接收到当前视频块的PU的运动向量之后,运动补偿单元44可在参考图片列表中定位运动向量所指向的预测性块。编码装置104通过从正经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块。像素差形成用于块的残余数据,且可包含亮度及色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44也可产生与视频块及视频切片相关联的语法元素,以供解码装置112用于解码视频切片的视频块。
如上文所描述,作为由运动估计单元42及运动补偿单元44所执行的帧间预测的替代,帧内预测处理单元46可对当前块进行帧内预测。确切地说,帧内预测处理单元46可确定帧内预测模式以用以编码当前块。在一些实例中,帧内预测处理单元46可例如在单独编码遍次期间使用各种帧内预测模式来编码当前块,且帧内预测处理单元46(或一些实例中的模式选择单元40)可从所测试模式中选择适当帧内预测模式来使用。举例来说,帧内预测处理单元46可使用对各种所测试帧内预测模式的速率-失真分析来计算速率-失真值,且可在所测试模式间选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析大体上确定经编码块与原始未经编码块(其经编码以产生经编码块)之间的失真(或误差)量,以及用以产生经编码块的位速率(即,位的数目)。帧内预测处理单元46可根据各种经编码块的失真及速率计算比率以确定哪一帧内预测模式展现所述块的最佳速率-失真值。
在任何情况下,在选择用于块的帧内预测模式后,帧内预测处理单元46可将指示用于块的所选帧内预测模式的信息提供至熵编码单元56。熵编码单元56可编码指示所选帧内预测模式的信息。编码装置104可将各种块的编码上下文的定义以及待用于上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及经修改帧内预测模式索引表的指示包含于经发射位流配置数据中。位流配置数据可包含多个帧内预测模式索引表及多个经修改帧内预测模式索引表(也被称作码字映射表)。
在预测处理单元41经由帧间预测或帧内预测产生用于当前视频块的预测性块之后,编码装置104通过从当前视频块减去预测性块而形成残余视频块。残余块中的残余视频数据可包含于一或多个TU中且被应用于变换处理单元52。变换处理单元52使用诸如离散余弦变换(DCT)或概念上类似变换的变换将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素域转换至变换域(诸如,频域)。
变换处理单元52可将所得变换系数发送至量化单元54。量化单元54量化变换系数以进一步减少位率。量化过程可减小与系数中的一些或所有相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可接着执行对包含经量化变换系数的矩阵的扫描。替代地,熵编码单元56可执行扫描。
在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应性二进制算术译码(SBAC)、机率区间分割熵(PIPE)译码或另一熵编码技术。在由熵编码单元56进行熵编码之后,经编码位流可发射至解码装置112,或经存档以供稍后由解码装置112发射或捕捉。熵编码单元56也可对正经译码的当前视频切片的运动向量及其它语法元素进行熵编码。
逆量化单元58及逆变换处理单元60分别应用逆量化及逆变换以重构建像素域中的残余块以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块添加至参考图片列表内的参考图片中的一者的预测性块来计算参考块。运动补偿单元44也可将一或多个内插滤波器应用于经重构建残余块以计算次整数像素值以用于运动估计。求和器62将经重构建残余块添加至由运动补偿单元44产生的经运动补偿的预测块以产生用于存储于图片存储器64中的参考块。参考块可由运动估计单元42及运动补偿单元44用作参考块以对后续视频帧或图片中的块进行帧间预测。
以此方式,图12的编码装置104表示经配置以产生经编码视频位流的语法的视频编码器的实例。编码装置104可(例如)产生如上文所描述的VPS、SPS及PPS参数集。编码装置104可执行本文中所描述的技术中的任一者,包含上文所描述的过程。本发明的技术已大体上关于编码装置104加以描述,但如上文所提及,本发明的技术中的一些也可通过后处理装置57实施。
图13为说明实例解码装置112的框图。解码装置112包含熵解码单元80、预测处理单元81、逆量化单元86、逆变换处理单元88、求和器90、滤波器单元91及图片存储器92。预测处理单元81包含运动补偿单元82及帧内预测处理单元84。在一些实例中,解码装置112可执行大体上与关于来自图12的编码装置104描述的编码遍次互逆的解码遍次。
在解码过程期间,解码装置112接收表示由编码装置104发送的经编码视频切片的视频块及相关联语法元素的经编码视频位流。在一些实施例中,解码装置112可从编码装置104接收经编码视频位流。在一些实施例中,解码装置112可从网络实体79(诸如,服务器、媒体感知网络元件(MANE)、视频编辑器/编接器或经配置以实施上文所描述的技术中的一或多者的其它此类装置)接收经编码视频位流。网络实体79可或可不包编码装置104。在网络实体79将经编码视频位流发射至解码装置112之前,本发明中所描述的技术中的一些可由网络实体79实施。在一些视频解码***中,网络实体79及解码装置112可为独立装置的部分,而在其它情况下,关于网络实体79描述的功能性可由包括解码装置112的同一装置执行。
解码装置112的熵解码单元80对位流进行熵解码以产生经量化系数、运动向量及其它语法元素。熵解码单元80将运动向量及其它语法元素转寄至预测处理单元81。解码装置112可以视频切片级别及/或视频块级别接收语法元素。熵解码单元80可处理并剖析诸如VPS、SPS及PPS的一或多个参数集中的固定长度语法元素及可变长度语法元素两者。
当视频切片经译码为经帧内译码(I)切片时,预测处理单元81的帧内预测处理单元84可基于用信号表示的帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生用于当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即,B、P或GPB)切片时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动向量及其它语法元素而产生用于当前视频切片的视频块的预测性块。预测性块可从参考图片列表内的参考图片中的一者产生。解码装置112可基于存储于图片存储器92中的参考图片使用默认构建技术来构建参考帧列表(列表0及列表1)。
运动补偿单元82通过剖析运动向量及其它语法元素来确定用于当前视频切片的视频块的预测信息,并使用所述预测信息产生正经解码的当前视频块的预测性块。举例来说,运动补偿单元82可使用参数集中的一或多个语法元素来确定用以对视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、切片的一或多个参考图片列表的构建信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态,及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元82也可执行基于内插滤波器的内插。运动补偿单元82可使用如在视频块的编码期间由编码装置104使用的内插滤波器来计算参考块的次整数像素的内插值。在此情况下,运动补偿单元82可从所接收语法元素确定由编码装置104使用的内插滤波器,且可使用内插滤波器来产生预测性块。
逆量化单元86逆量化或解量化位流中所提供且由熵解码单元80解码的经量化变换系数。逆量化过程可包含使用由编码装置104针对视频切片中的每一视频块计算的量化参数来确定量化程度及同样应所述应用的逆量化程度。逆变换处理单元88将逆变换(例如,逆DCT或其它适合的逆变换)、逆整数变换或概念上类似的逆变换过程应用于变换系数以便在像素域中产生残余块。
在运动补偿单元82基于运动向量及其它语法元素而产生当前视频块的预测性块之后,解码装置112通过将来自逆变换处理单元88的残余块与由运动补偿单元82产生的对应预测性块求和而形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。如果需要,也可使用回路滤波器(在译码回路中或在译码回路后)以使像素转变平滑,或以其它方式改进视频质量。滤波器单元91意在表示一或多个回路滤波器,诸如,解块滤波器、自适应回路滤波器(ALF)及样本自适应偏移(SAO)滤波器。虽然滤波器单元91在图13中展示为回路滤波器,但在其它配置中,滤波器单元91可实施为后回路滤波器。给定帧或图片中的经解码视频块随后存储于图片存储器92中,图片存储器92存储用于后续运动补偿的参考图片。图片存储器92也存储经解码视频以便稍后呈现于显示装置上。
在前述描述中,参考申请案的特定实施例描述申请案的方面,但本领域的技术人员将认识到本发明不限于此。因此,尽管本文中已详细描述申请案的说明性实施例,但应理解,本发明概念可以其它方式不同地体现并使用,且所附权利要求书意在解释为包含除先前技术所限制外的这些变化。上文所描述的发明的各种特征及方面可单独地或联合地使用。另外,实施例可用于超出本文所描述的那些环境及应用的任何数目个环境及应用,而不脱离本说明书的更广精神及范围。因此,本说明书及图式被视为说明性而非限定性的。出于说明的目的,以特定次序描述方法。应了解,在替代实施例中,可以与所描述的次序不同的次序来执行所述方法。
在组件被描述为“经配置以”执行某些操作的情况下,可(例如)通过设计电子电路或其它硬件以执行操作、通过编程可编程电子电路(例如,微处理器或其它适合的电子电路)以执行操作或其任何组合来实现此配置。
结合本文所揭示的实施例而描述的各种说明性逻辑块、模块、电路及算法步骤可被实施为电子硬件、计算机软件、固件或其组合。为了清楚地说明硬件与软件的此可互换性,各种说明性组件、块、模块、电路及步骤已在上文大体按其功能性加以描述。此功能性实施为硬件还是软件取决于特定应用及强加于整个***的设计约束。本领域的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但不应将这些实施决策解释为导致脱离本发明的范围。
本文中所描述的技术也可以电子硬件、计算机软件、固件或其任何组合来实施。这些技术可实施于多种装置中的任一者中,诸如,通用计算机、无线通信装置手持机或具有多种用途(包含在无线通信装置手持机及其它装置中的应用)的集成电路装置。可将描述为模块或组件的任何特征共同实施于集成式逻辑装置中或分开实施为离散但可互操作的逻辑装置。如果以软件予以实施,则所述技术可至少部分地由包括程序代码的计算机可读数据存储媒体实现,所述程序代码包含在执行时执行上文所描述的方法中的一或多者的指令。计算机可读数据存储媒体可形成计算机程序产品的部分,所述计算机程序产品可包含封装材料。计算机可读媒体可包括存储器或数据存储媒体,诸如,随机存取存储器(RAM),诸如,同步动态随机存取存储器(SDRAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体及其类似者。另外或替代地,所述技术可至少部分地由计算机可读通信媒体实现,所述计算机可读通信媒体载送或传达呈指令或数据结构的形式且可由计算机存取、读取及/或执行的程序代码,诸如,传播的信号或波。
程序代码可由可包含一或多个处理器的处理器执行,诸如,一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。此处理器可经配置以执行本发明中所描述的技术中的任一者。通用处理器可为微处理器;但在替代例中,处理器可为任何常规处理器、控制器、微控制器或状态机。处理器也可经实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器或任何其它此类配置。因此,如本文中所使用的术语“处理器”可指前述结构中的任一者、前述结构的任何组合或适合于实施本文中所描述的技术的任何其它结构或设备。此外,在一些方面中,本文中描述的功能性可提供于经配置用于编码及解码的专用软件模块或硬件模块内,或并入于组合的视频编码器-解码器(编码解码器)中。

Claims (22)

1.一种用于处理视频数据的方法,其包括:
获得包含多个视频帧的360度视频数据,所述多个视频帧中的每一视频帧包含用于所述视频帧的视频数据的球面表示;
将来自所述多个视频帧的视频帧分割成顶部区、中间区及底部区,所述顶部区包含所述球面表示的第一圆形区域,所述底部区包含所述球面表示的第二圆形区域,其在所述球面表示上与所述第一圆形区域相对,其中所述中间区包含所述球面表示中不包含于所述顶部区或所述底部区中的区域;及
使用圆柱等面积投影将所述中间区映射至输出视频帧的一或多个矩形区域。
2.根据权利要求1所述的方法,其中在高于所述球面表示的赤道的第一纬度及低于所述赤道的第二纬度处分割所述视频帧,其中所述第一纬度及所述第二纬度与所述赤道等距,其中所述顶部区高于所述第一纬度,且其中所述底部区低于所述第二纬度。
3.根据权利要求1所述的方法,其中所述中间区包含所述球面表示的所述区域的三分之二。
4.根据权利要求1所述的方法,其中映射所述中间区包含:
选择所述输出视频帧中的像素位置;
确定所述球面表示上对应于所述像素位置的点,其中使用用于将二维矩形转换为三维球体的映射来确定所述球面表示上的所述点;
在所述球面表示上的所述点处对像素进行取样;及
将所述经取样像素分配至所述像素位置。
5.根据权利要求1所述的方法,其中所述中间区包含左视图、正视图及右视图,其中所述左视图在所述输出视频帧中邻近于所述正视图置放,且其中所述右视图邻近于所述正视图置放。
6.根据权利要求1所述的方法,其中所述中间区包含后视图,其中所述底部区在所述输出视频帧中邻近于所述后视图置放,且其中所述顶部区邻近于所述后视图置放。
7.根据权利要求1所述的方法,其进一步包括:
将所述顶部区映射至所述输出视频帧中;及
将所述底部区映射至所述输出视频帧中。
8.根据权利要求1所述的方法,其中所述输出视频帧具有三乘二高宽比。
9.一种视频译码装置,其包括:
存储器,其经配置以存储包含多个视频帧的360度视频数据,所述多个视频帧中的每一视频帧包含用于所述视频帧的视频数据的球面表示;及
处理器,其经配置以:
将来自所述多个视频帧的视频帧分割成顶部区、中间区及底部区,所述顶部区包含所述球面表示的第一圆形区域,所述底部区包含所述球面表示的第二圆形区域,其在所述球面表示上与所述第一圆形区域相对,其中所述中间区包含所述球面表示中不包含于所述顶部区或所述底部区中的区域;及
使用圆柱等面积投影将所述中间区映射至输出视频帧的一或多个矩形区域。
10.一种在上面存储有指令的非暂时性计算机可读媒体,所述指令在由一或多个处理器执行时致使所述一或多个处理器执行包含以下的操作:
获得包含多个视频帧的360度视频数据,所述多个视频帧中的每一视频帧包含用于所述视频帧的视频数据的球面表示;
将来自所述多个视频帧的视频帧分割成顶部区、中间区及底部区,所述顶部区包含所述球面表示的第一圆形区域,所述底部区包含所述球面表示的第二圆形区域,其在所述球面表示上与所述第一圆形区域相对,其中所述中间区包含所述球面表示中不包含于所述顶部区或所述底部区中的区域;及
使用圆柱等面积投影将所述中间区映射至输出视频帧的一或多个矩形区域。
11.一种设备,其包括:
用于获得包含多个视频帧的360度视频数据的装置,所述多个视频帧中的每一视频帧包含用于所述视频帧的视频数据的球面表示;
用于将来自所述多个视频帧的视频帧分割成顶部区、中间区及底部区的装置,所述顶部区包含所述球面表示的第一圆形区域,所述底部区包含所述球面表示的第二圆形区域,其在所述球面表示上与所述第一圆形区域相对,其中所述中间区包含所述球面表示中不包含于所述顶部区或所述底部区中的区域;及
用于使用圆柱等面积投影将所述中间区映射至输出视频帧的一或多个矩形区域的装置。
12.一种用于处理视频数据的方法,其包括:
获得包含多个视频帧的360度视频数据,来自所述多个视频帧的每一视频帧包含用于所述视频帧的视频数据的二维表示;
识别来自所述多个视频帧的视频帧的一或多个矩形区域;及
使用圆柱等面积投影将所述一或多个矩形区域映射至所述视频数据的球面表示的中间区中,所述球面表示进一步包含顶部区及底部区,其中所述中间区位于所述顶部区与所述底部区之间。
13.根据权利要求12所述的方法,其中所述顶部区包含所述球面表示中高于所述球面表示的第一纬度的表面,其中所述底部区包含所述球面表示中低于所述球面表示的第二纬度的表面,其中所述第一纬度及所述第二纬度与所述球面表示的赤道等距。
14.根据权利要求12所述的方法,其中所述一或多个矩形区域包含所述视频帧的区域的三分之二。
15.根据权利要求12所述的方法,其中映射所述一或多个矩形区域包含:
选择球面表示上的点;
确定所述视频帧中对应于所述点的像素位置,其中使用用于将三维球体转换为二维矩形的映射来确定所述像素位置;
从所述像素位置对像素进行取样;及
将所述经取样像素分配至所述点。
16.根据权利要求12所述的方法,其中所述一或多个矩形区域包含左视图、正视图及右视图,其中所述左视图邻近于所述正视图定位,且其中所述右视图邻近于所述正视图。
17.根据权利要求12所述的方法,其中所述一或多个矩形区域包含后视图,其中包含底视图的第一矩形区域邻近于所述后视图,且其中包含顶视图的第二矩形区域邻近于所述后视图。
18.根据权利要求12所述的方法,其进一步包括:
将所述视频帧的第一矩形区域映射至所述顶部区中;及
将所述视频帧的第二矩形区域映射至所述底部区中。
19.根据权利要求12所述的方法,其中所述视频帧具有三乘二高宽比。
20.一种视频译码装置,其包括:
存储器,其经配置以存储包含多个视频帧的360度视频数据,来自所述多个视频帧的每一视频帧包含用于所述视频帧的视频数据的二维表示;及
处理器,其经配置以:
识别来自所述多个视频帧的视频帧的一或多个矩形区域;及
使用圆柱等面积投影将所述一或多个矩形区域映射至所述视频数据的球面表示的中间区中,所述球面表示进一步包含顶部区及底部区,其中所述中间区位于所述顶部区与所述底部区之间。
21.一种在上面存储有指令的非暂时性计算机可读媒体,所述指令在由一或多个处理器执行时致使所述一或多个处理器执行包含以下的操作:
获得包含多个视频帧的360度视频数据,来自所述多个视频帧的每一视频帧包含用于所述视频帧的视频数据的二维表示;
识别来自所述多个视频帧的视频帧的一或多个矩形区域;及
使用圆柱等面积投影将所述一或多个矩形区域映射至所述视频数据的球面表示的中间区中,所述球面表示进一步包含顶部区及底部区,其中所述中间区位于所述顶部区与所述底部区之间。
22.一种设备,其包括:
用于获得包含多个视频帧的360度视频数据的装置,来自所述多个视频帧的每一视频帧包含用于所述视频帧的视频数据的二维表示;
用于识别来自所述多个视频帧的视频帧的一或多个矩形区域的装置;及
用于使用圆柱等面积投影将所述一或多个矩形区域映射至所述视频数据的球面表示的中间区中的装置,所述球面表示进一步包含顶部区及底部区,其中所述中间区位于所述顶部区与所述底部区之间。
CN201880015514.0A 2017-03-22 2018-03-21 用于360度视频的有效压缩的球体赤道投影 Active CN110383843B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762475103P 2017-03-22 2017-03-22
US62/475,103 2017-03-22
US15/926,732 US10839480B2 (en) 2017-03-22 2018-03-20 Sphere equator projection for efficient compression of 360-degree video
US15/926,732 2018-03-20
PCT/US2018/023601 WO2018175611A1 (en) 2017-03-22 2018-03-21 Sphere equator projection for efficient compression of 360-degree video

Publications (2)

Publication Number Publication Date
CN110383843A true CN110383843A (zh) 2019-10-25
CN110383843B CN110383843B (zh) 2023-06-06

Family

ID=63582713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880015514.0A Active CN110383843B (zh) 2017-03-22 2018-03-21 用于360度视频的有效压缩的球体赤道投影

Country Status (9)

Country Link
US (1) US10839480B2 (zh)
EP (1) EP3603073A1 (zh)
KR (1) KR20190128211A (zh)
CN (1) CN110383843B (zh)
AU (1) AU2018239448A1 (zh)
BR (1) BR112019019163A2 (zh)
SG (1) SG11201907264UA (zh)
TW (1) TW201903710A (zh)
WO (1) WO2018175611A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933395A (zh) * 2019-12-23 2020-03-27 中科院微电子研究所昆山分所 一种720度全景立体环境映射方法及相关装置
CN110958444A (zh) * 2019-12-23 2020-04-03 中科院微电子研究所昆山分所 一种720度视场环境态势感知方法及态势感知***
WO2022011817A1 (zh) * 2020-07-17 2022-01-20 中国科学院空天信息创新研究院 一种面向三维球体可视化***
WO2022111349A1 (zh) * 2020-11-25 2022-06-02 腾讯科技(深圳)有限公司 图像处理方法、设备、存储介质及计算机程序产品

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US10839480B2 (en) * 2017-03-22 2020-11-17 Qualcomm Incorporated Sphere equator projection for efficient compression of 360-degree video
US10593012B2 (en) * 2017-03-22 2020-03-17 Mediatek Inc. Method and apparatus for generating and encoding projection-based frame with 360-degree content represented in projection faces packed in segmented sphere projection layout
US10506255B2 (en) 2017-04-01 2019-12-10 Intel Corporation MV/mode prediction, ROI-based transmit, metadata capture, and format detection for 360 video
US20180288436A1 (en) * 2017-04-03 2018-10-04 Gopro, Inc. Methods and apparatus for providing in-loop padding techniques for rotated sphere projections
US10579898B2 (en) * 2017-04-16 2020-03-03 Facebook, Inc. Systems and methods for provisioning content using barrel projection representation
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US20190005709A1 (en) * 2017-06-30 2019-01-03 Apple Inc. Techniques for Correction of Visual Artifacts in Multi-View Images
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
EP3518087A1 (en) * 2018-01-29 2019-07-31 Thomson Licensing Method and network equipment for tiling a sphere representing a spherical multimedia content
US11212438B2 (en) 2018-02-14 2021-12-28 Qualcomm Incorporated Loop filter padding for 360-degree video coding
US11069026B2 (en) 2018-03-02 2021-07-20 Mediatek Inc. Method for processing projection-based frame that includes projection faces packed in cube-based projection layout with padding
US10922783B2 (en) * 2018-03-02 2021-02-16 Mediatek Inc. Cube-based projection method that applies different mapping functions to different square projection faces, different axes, and/or different locations of axis
US10715832B2 (en) * 2018-03-16 2020-07-14 Mediatek Inc. Method and apparatus of block partition for VR360 video coding
CN110349226B (zh) * 2018-04-01 2021-06-01 浙江大学 一种全景图像处理方法及装置
CN109934764A (zh) * 2019-01-31 2019-06-25 北京奇艺世纪科技有限公司 全景视频文件的处理方法、装置、终端、服务器及存储介质
US12020395B2 (en) * 2019-03-15 2024-06-25 STX Financing, LLC Systems and methods for compressing and decompressing a sequence of images
US11816757B1 (en) * 2019-12-11 2023-11-14 Meta Platforms Technologies, Llc Device-side capture of data representative of an artificial reality environment
US11622100B2 (en) * 2021-02-17 2023-04-04 flexxCOACH VR 360-degree virtual-reality system for dynamic events

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003038752A1 (fr) * 2001-10-29 2003-05-08 Sony Corporation Appareil de traitement d'images non planes, technique de traitement d'images et programme informatique
CN104333675A (zh) * 2014-10-20 2015-02-04 长春理工大学 一种基于球面投影的全景电子稳像方法
US20160112713A1 (en) * 2014-10-20 2016-04-21 Google Inc. Mapping spherical image to 2d representations
US20160142697A1 (en) * 2014-11-14 2016-05-19 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6331869B1 (en) * 1998-08-07 2001-12-18 Be Here Corporation Method and apparatus for electronically distributing motion panoramic images
US6466254B1 (en) * 1997-05-08 2002-10-15 Be Here Corporation Method and apparatus for electronically distributing motion panoramic images
KR100882011B1 (ko) * 2007-07-29 2009-02-04 주식회사 나노포토닉스 회전 대칭형의 광각 렌즈를 이용하여 전방위 영상을 얻는 방법 및 장치
US7961980B2 (en) * 2007-08-06 2011-06-14 Imay Software Co., Ltd. Method for providing output image in either cylindrical mode or perspective mode
US10068373B2 (en) * 2014-07-01 2018-09-04 Samsung Electronics Co., Ltd. Electronic device for providing map information
CN107409233B (zh) * 2015-03-05 2020-04-14 索尼公司 图像处理装置和图像处理方法
JP6687015B2 (ja) * 2015-03-05 2020-04-22 ソニー株式会社 画像処理装置および画像処理方法
US9723206B1 (en) * 2015-03-11 2017-08-01 Vsn Technologies, Inc. Enabling a true surround view of a 360 panorama via a dynamic cylindrical projection of the panorama
US20170302714A1 (en) * 2016-04-15 2017-10-19 Diplloid Inc. Methods and systems for conversion, playback and tagging and streaming of spherical images and video
US20190141311A1 (en) * 2016-04-26 2019-05-09 Lg Electronics Inc. Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, apparatus for receiving 360-degree video
JP6977720B2 (ja) * 2016-05-13 2021-12-08 ソニーグループ株式会社 生成装置および生成方法、並びに、再生装置および再生方法
WO2017204491A1 (ko) * 2016-05-26 2017-11-30 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
US20180054613A1 (en) * 2016-08-22 2018-02-22 Mediatek Inc. Video encoding method and apparatus with in-loop filtering process not applied to reconstructed blocks located at image content discontinuity edge and associated video decoding method and apparatus
GB2555788A (en) * 2016-11-08 2018-05-16 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
US20180192074A1 (en) * 2017-01-03 2018-07-05 Mediatek Inc. Video processing method for processing projection-based frame with 360-degree content represented by projection faces packed in 360-degree virtual reality projection layout
US10863198B2 (en) * 2017-01-03 2020-12-08 Lg Electronics Inc. Intra-prediction method and device in image coding system for 360-degree video
US10742999B2 (en) * 2017-01-06 2020-08-11 Mediatek Inc. Methods and apparatus for signaling viewports and regions of interest
CN108282449B (zh) * 2017-01-06 2020-10-09 华为技术有限公司 一种应用于虚拟现实技术的流媒体的传输方法和客户端
US10560682B2 (en) * 2017-01-13 2020-02-11 Gopro, Inc. Methods and apparatus for providing a frame packing arrangement for panoramic content
CN108537721B (zh) * 2017-03-02 2021-09-07 株式会社理光 全景图像的处理方法、装置及电子设备
US20180253820A1 (en) * 2017-03-03 2018-09-06 Immersive Enterprises, LLC Systems, methods, and devices for generating virtual reality content from two-dimensional images
US10915986B2 (en) * 2017-03-20 2021-02-09 Qualcomm Incorporated Adaptive perturbed cube map projection
US10957044B2 (en) * 2017-03-22 2021-03-23 Qualcomm Incorporated Sphere pole projections for efficient compression of 360-degree video
US10593012B2 (en) * 2017-03-22 2020-03-17 Mediatek Inc. Method and apparatus for generating and encoding projection-based frame with 360-degree content represented in projection faces packed in segmented sphere projection layout
US10839480B2 (en) * 2017-03-22 2020-11-17 Qualcomm Incorporated Sphere equator projection for efficient compression of 360-degree video
US10614609B2 (en) * 2017-07-19 2020-04-07 Mediatek Inc. Method and apparatus for reduction of artifacts at discontinuous boundaries in coded virtual-reality images
US10817980B2 (en) * 2018-02-07 2020-10-27 Ricoh Company, Ltd. Information processing apparatus, information processing system, data generation method, and recording medium storing program code
US10764605B2 (en) * 2018-02-14 2020-09-01 Qualcomm Incorporated Intra prediction for 360-degree video
US10779006B2 (en) * 2018-02-14 2020-09-15 Qualcomm Incorporated Signaling 360-degree video information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003038752A1 (fr) * 2001-10-29 2003-05-08 Sony Corporation Appareil de traitement d'images non planes, technique de traitement d'images et programme informatique
CN104333675A (zh) * 2014-10-20 2015-02-04 长春理工大学 一种基于球面投影的全景电子稳像方法
US20160112713A1 (en) * 2014-10-20 2016-04-21 Google Inc. Mapping spherical image to 2d representations
US20160142697A1 (en) * 2014-11-14 2016-05-19 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUWEN HE: ""AHG8: Algorithm description of projection format conversion in 360Lib"", 《JOINT VIDEO EXPLORATION TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 5TH MEETING: GENEVA, CH, 12–20 JANUARY 2017,JVET-E0084》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933395A (zh) * 2019-12-23 2020-03-27 中科院微电子研究所昆山分所 一种720度全景立体环境映射方法及相关装置
CN110958444A (zh) * 2019-12-23 2020-04-03 中科院微电子研究所昆山分所 一种720度视场环境态势感知方法及态势感知***
WO2022011817A1 (zh) * 2020-07-17 2022-01-20 中国科学院空天信息创新研究院 一种面向三维球体可视化***
WO2022111349A1 (zh) * 2020-11-25 2022-06-02 腾讯科技(深圳)有限公司 图像处理方法、设备、存储介质及计算机程序产品

Also Published As

Publication number Publication date
EP3603073A1 (en) 2020-02-05
CN110383843B (zh) 2023-06-06
KR20190128211A (ko) 2019-11-15
SG11201907264UA (en) 2019-10-30
TW201903710A (zh) 2019-01-16
BR112019019163A2 (pt) 2020-04-14
AU2018239448A1 (en) 2019-08-29
US20180276789A1 (en) 2018-09-27
WO2018175611A1 (en) 2018-09-27
US10839480B2 (en) 2020-11-17

Similar Documents

Publication Publication Date Title
CN110383843A (zh) 用于360度视频的有效压缩的球体赤道投影
CN110463205A (zh) 用于360度视频的有效压缩的球极投影
US10915986B2 (en) Adaptive perturbed cube map projection
US10620441B2 (en) Viewport-aware quality metric for 360-degree video
CN110024400B (zh) 感兴趣区的信号发送的***和方法
US10904531B2 (en) Adaptive parameters for coding of 360-degree video
US10313664B2 (en) Adjusting field of view of truncated square pyramid projection for 360-degree video
US20170280126A1 (en) Truncated square pyramid geometry and frame packing structure for representing virtual reality video content
CN109155056A (zh) 具有用于360度视频的透镜失真校正的鱼眼呈现
CN111819855B (zh) 视频码流中的取消标志指示
RU2776664C2 (ru) Способы и устройства для кодирования и декодирования многовидовой видеопоследовательности всенаправленного видео

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40009612

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant