CN114342366A - 用于递送体积视频内容的方法和装置 - Google Patents

用于递送体积视频内容的方法和装置 Download PDF

Info

Publication number
CN114342366A
CN114342366A CN202080061613.XA CN202080061613A CN114342366A CN 114342366 A CN114342366 A CN 114342366A CN 202080061613 A CN202080061613 A CN 202080061613A CN 114342366 A CN114342366 A CN 114342366A
Authority
CN
China
Prior art keywords
data
representative
data representative
curved path
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080061613.XA
Other languages
English (en)
Inventor
B.丘波
G.布里安德
R.多尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
InterDigital VC Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital VC Holdings Inc filed Critical InterDigital VC Holdings Inc
Publication of CN114342366A publication Critical patent/CN114342366A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

提供了用于用信号通知和解码代表体积视频中导航的限制的信息的方法、设备和数据流。数据流包括与代表体积视频的视频数据相关联的元数据。元数据包括代表观看边界框的数据、代表所述体积视频的3D空间中的曲线路径的数据;以及代表与曲线路径上的点相关联的至少一个观看方向范围的数据。

Description

用于递送体积视频内容的方法和装置
技术领域
本原理一般而言涉及三维(3D)场景和立体视频内容的领域。本文档还可以在代表3D场景的纹理和几何形状的数据的编码、格式化和解码的上下文中理解,用于在最终用户设备(诸如移动设备或头戴式显示器(HMD))上渲染立体内容。特别地,本原理涉及用信号通知和解码代表体积视频中导航的限制的信息。
背景技术
本部分旨在向读者介绍本领域的各个方面,这些方面可以与以下描述和/或要求保护的本原理的各个方面相关。相信该讨论有助于向读者提供背景信息,以促进更好地理解本原理的各个方面。因而,应当理解的是,应从这种角度来阅读这些陈述,而不是作为对现有技术的承认。
最近,可用的大视场内容(高达360°)有所增长。用户在诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能电话等沉浸式显示设备上观看内容时,可能无法完全看到此类内容。这意味着在给定时刻,用户可能只能观看内容的一部分。但是,用户通常可以通过各种手段在内容内导航,诸如头部移动、鼠标移动、触摸屏、语音等。通常期望编码和解码这种内容。
沉浸式视频,也称为360°平面视频,允许用户通过其头部围绕静止视点的旋转来观看其自己周围的一切。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以满足第一全向视频体验,例如使用头戴式显示设备(HMD),但对于预期获得更多自由度的观看者来说,3DoF视频可能很快变得令人沮丧,例如由于体验视差。此外,3DoF还会诱发头晕,因为用户从来不会仅旋转头部,而是还会在三个方向上平移头部,而这种平移在3DoF视频体验中是无法再现的。
除其它以外,大视场内容尤其可以是三维计算机图形影像场景(3D CGI场景)、点云或沉浸式视频等。许多术语可以被用于设计此类沉浸式视频:例如,虚拟现实(VR)、360、全景、4π立体、沉浸式、全向或大视场。
体积视频(也称为6自由度(6DoF)视频)是3DoF视频的替代方案。在观看6DoF视频时,除了旋转之外,用户还可以在观看的内容中平移其头部以及甚至其身体,并体验视差甚至体积。此类视频通过在头部平移期间提供一致的视觉反馈而大大增加了沉浸感和对场景深度的感知,并防止头晕。内容是借助于专用传感器创建的,从而允许同时记录感兴趣场景的颜色和深度。使用与摄影测量技术相结合的彩色相机的装配装备(rig)是执行这种记录的一种方式,即使仍然存在技术困难。
虽然3DoF视频包括由纹理图像(例如,根据纬度/经度投影映射或等距柱状投影映射编码的球形图像)的未映射产生的图像序列,但6DoF视频帧嵌入了来自几个视点的信息。它们可以被视为由三维捕获产生的点云的时间系列。根据观看条件,可以考虑两种体积视频。第一种(即,完整的6DoF)允许在视频内容中完全自由导航,而第二种(又称3DoF+)将用户观看空间限制到称为观看边界框的有限体积内,从而允许有限的头部平移和视差体验。这第二个上下文是自由导航和就座观众的被动观看条件之间的宝贵权衡。在3DoF+和6DoF体验之间,有可能将4DoF+情况定义为3DoF+和6DoF之间的中间情况,其中用户的位移被限制到沿着3D场景内的曲线(1D)路径,每个路径样本周围具有受限的水平、垂直和深度平移。用户可以在保证良好视觉质量的情况下沿着路径在一种隧道(tunnel)内移动。如果用户将他的虚拟相机移到隧道外,那么对于重构良好质量的3D场景,数据将可能丢失。
在给定体积视频内容的导航期间,用户的虚拟相机的允许位置的范围和观看朝向可能必然受到限制。否则,当请求由于缺乏可用的视觉数据而无法被完全渲染的视口时,用户可以“离开”3D场景。因此,需要一种解决方案,用于在消费给定的体积视频内容时向最终用户设备通知合适的、优选的和/或允许的观看者(虚拟)位置和观看朝向。
发明内容
以下给出了本原理的简化发明内容,以提供对本原理某些方面的基本理解。本发明内容不是本原理的广泛概述。它并不旨在识别本原理的关键或重要元素。以下发明内容仅以简化形式给出了本原理的一些方面,作为下面提供的更详细描述的序言。
本原理涉及用于用信号通知代表体积视频中导航的限制的信息的方法和设备。该方法包括将元数据编码到数据流中,该数据流包括代表所述体积视频的视频数据。元数据包括:
-代表观看边界框的数据;
-代表所述体积视频的3D空间中的曲线路径的数据;以及
-代表与所述曲线路径上的点相关联的至少一个观看方向范围的数据。
根据另一方面,提供了用于解码代表体积视频中导航的限制的信息的第二方法和第二设备。第二方法包括从包括代表体积视频的视频数据的数据流中解码元数据。元数据包括:
-代表观看边界框的数据;
-代表所述体积视频的3D空间中的曲线路径的数据;以及
-代表与所述曲线路径上的点相关联的至少一个观看方向范围的数据;
根据至少一个实施例的另一个一般方面,提供了一种数据流,该数据流包括根据任何所描述的编码实施例或变体生成的视频数据和相关联的元数据。
根据至少一个实施例的另一个一般方面,提供了一种包含根据任何所描述的编码实施例或变体生成的数据内容的非暂时性计算机可读介质。
根据至少一个实施例的另一个一般方面,提供了一种包括指令的计算机程序产品,指令在由计算机执行时使计算机执行任何所描述的解码实施例或变体。
附图说明
通过阅读以下描述,将更好地理解本公开,并且将出现其它具体特征和优点,本描述参考附图,其中:
-图1示出了根据本原理的非限制性实施例的物体的三维(3D)模型和与该3D模型对应的点云的点;
-图2示出了根据本原理的非限制性实施例的代表3D场景序列的数据的编码、传输和解码的非限制性示例;
-图3示出了根据本原理的非限制性实施例的设备的示例体系架构,该设备可以被配置为实现关于图7和8描述的方法;
-图4示出了根据本原理的非限制性实施例的当数据通过基于分组的传输协议被传输时流的语法的实施例的示例;
-图5示意性地图示了根据本原理的非限制性实施例的通过描绘一条曲线路径并且在沿着这条路径的给定位置处描绘球形边界框和观看朝向范围的虚拟3D场景内的受限导航的概念;
图5b图示了根据本原理的非限制性实施例的具有放置在圆弧上的五个会聚相机的获取相机装配装备的示例,具有从获取相机的位置和方向推断的管状观看空间;
图6图示了根据本原理的非限制性实施例的在中心位置处具有感兴趣对象的3D场景周围导航的圆形路径的特定情况;
图7图解图示了根据本原理的非限制性实施例的用于用信号通知代表体积视频中导航的限制的信息的方法70;
图8图解图示了根据本原理的非限制性实施例的用于解码代表体积视频中导航的限制的信息的方法80。
具体实施方式
在下文中将参考附图更全面地描述本原理,在附图中示出了本原理的示例。但是,本原理可以以许多替代形式来实施,并且不应当被解释为限于本文阐述的示例。因而,虽然本原理易于有各种修改和替代形式,但是其具体示例通过附图中的示例示出,并且将在本文中进行详细描述。但是,应当理解的是,无意将本发明原理限于所公开的特定形式,相反,本发明将覆盖落入如权利要求定义的本发明原理的精神和范围内的所有修改、等同形式和替代形式。
本文使用的术语仅出于描述特定示例的目的,而无意于限制本原理。如本文所使用的,单数形式“一”、“一个”和“该”也意图包括复数形式,除非上下文另外明确指出。将进一步理解的是,当在本说明书中使用时,术语“包括”和/或“包含”指定所述特征、整数、步骤、操作、元素和/或组件的存在。但不排除一个或多个其它特征、整数、步骤、操作、元素、组件和/或其组的存在或添加。而且,当元件被称为“响应于”或“连接到”另一个元件时,它可以直接响应于或连接到另一个元件,或者可以存在中间元件。相反,当元件被称为“直接响应于”或“直接连接到”其它元件时,不存在中间元件。如本文所使用的,术语“和/或”包括相关联的所列项目中的一个或多个的任何和所有组合,并且可以缩写为“/”。
将理解的是,虽然本文可以使用术语第一、第二等来描述各种元素,但是这些元素不应受到这些术语的限制。这些术语仅用于区分一个元素与另一个元素。例如,在不脱离本原理的教导的情况下,第一元素可以被称为第二元素,并且类似地,第二元素可以被称为第一元素。
虽然一些图在通信路径上包括箭头以示出通信的主要方向,但是应该理解的是,通信可以在与所描绘的箭头相反的方向上发生。
关于框图和操作流程图描述了一些示例,其中每个方框表示电路元件、模块或代码的部分,其包括用于实现(一个或多个)指定的逻辑功能的一个或多个可执行指令。还应当注意的是,在其它实施方式中,在方框中指出的(一个或多个)功能可以不按指出的次序发生。例如,取决于所涉及的功能,连续示出的两个方框实际上可以基本上并发地执行,或者有时可以以相反的次序执行。
本文中对“根据示例”或“在示例中”的引用是指结合示例描述的特定特征、结构或特点可以包括在本原理的至少一个实施方式中。在说明书中各个地方出现的短语“根据示例”或“示例”不一定全部是指同一个示例,也不是必须与其它示例相互排斥的单独或替代示例。
出现在权利要求中的附图标记仅仅是说明性的,并且对权利要求的范围没有限制作用。虽然没有明确描述,但是可以以任何组合或子组合来采用本示例和变体。
图1示出了物体的三维(3D)模型10和与该3D模型10对应的点云11的点。3D模型10和点云11可以例如与包括其它物体的3D场景的物体的可能的3D表示对应。模型10可以是3D网表示,并且点云11的点可以是网的顶点。点云11的点也可以是散布在网的面的表面上的点。模型10也可以表示为点云11的拼贴版本,模型10的表面是通过拼贴点云11的点创建的。模型10可以用许多不同的表示(诸如体素或样条)来表示。图1图示了一个事实,即,可以用3D物体的表面表示定义点云,并且可以从云的点生成3D物体的表面表示。如本文所使用的,将3D物体的点(通过3D场景的扩展点)投影到图像上等同于投影这个3D物体的任何表示,例如点云、网、样条模型或体素模型。
点云可以在存储器中表示,例如,作为基于向量的结构,其中每个点在视点的参考系(例如,三维坐标XYZ)中具有其自己的坐标,或立体角和与视点的距离(也称为深度)和一个或多个属性,也称为分量。分量的示例是可以在各种颜色空间中表达的颜色分量,例如RGB(红、绿和蓝)或YUV(Y是亮度分量,UV是两个色度分量)。点云是包括物体的3D场景的表示。可以从给定的视点或视点范围看到3D场景。点云可以通过许多方式获得,例如:
·从由相机的装配装备拍摄的真实物体的捕获,可选地辅以深度有源感测设备;
·从由建模工具中的虚拟相机的装配装备拍摄的虚拟/合成物体的捕获;
·从真实和虚拟物体的混合。
图2示出了代表3D场景序列的数据的编码、传输和解码的非限制性示例。例如并且同时编码格式可以对于3DoF、3DoF+和6DoF解码兼容。
获得3D场景序列20。由于图片序列是2D视频,因此3D场景序列是3D(也称为体积)视频。可以向体积视频渲染设备提供3D场景序列以进行3DoF、3DoF+或6DoF渲染和显示。
3D场景序列20被提供给编码器21。编码器21将一个3D场景或3D场景序列作为输入并提供代表该输入的位流。位流可以存储在存储器22中和/或电子数据介质上并且可以通过网络22传输。代表3D场景序列的位流可以由解码器23从存储器22读取和/或从网络22接收。解码器23由所述位流输入并提供3D场景序列,例如以点云格式。
编码器21可以包括实现若干步骤的若干电路。在第一步中,编码器21将每个3D场景投影到至少一个2D图片上。3D投影是将三维点映射到二维平面的任何方法。由于用于显示图形数据的大多数当前方法基于平面(来自若干位平面的像素信息)二维媒体,因此这种类型的投影的使用非常广泛,尤其是在计算机图形学、工程设计和绘图中。投影电路211为序列20的3D场景提供至少一个二维帧2111。帧2111包括代表投影到帧2111上的3D场景的颜色信息和深度信息。在变体中,颜色信息和深度信息被编码在两个分离的帧2111和2112中。
元数据212由投影电路211使用和更新。元数据212包括关于投影操作的信息(例如,投影参数)以及关于颜色和深度信息在帧2111和2112内被组织的方式的信息,如关于图5至7所描述的。
视频编码电路213将帧2111和2112的序列编码为视频。3D场景的图片2111和2112(或3D场景的图片序列)由视频编码器213编码在流中。然后视频数据和元数据212被数据封装电路214封装在数据流中。
编码器213例如符合诸如以下的编码器:
-JPEG,规范ISO/CEI 10918-1UIT-T建议T.81,https://www.itu.int/rec/T-REC-T.81/en;
-AVC,也称为MPEG-4AVC或h264。在UIT-T H.264和ISO/CEI MPEG-4第10部分(ISO/CEI 14496-10)中指定,http://www.itu.int/rec/T-REC-H.264/en、HEVC(其规范可在ITU网站上找到,T建议,H系列,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en);
-3D-HEVC(HEVC的扩展,其规范在ITU网站、T推荐、H系列、h265、http://www.itu.int/rec/T-REC-H.265-201612-I/en附录G和I中找到);
-谷歌开发的VP9;或者
-由开放媒体联盟开发的AV1(AOMedia Video 1)。
数据流存储在可由解码器23例如通过网络22访问的存储器中。解码器23包括实现不同解码步骤的不同电路。解码器23采用由编码器21生成的数据流作为输入并提供要由体积视频显示设备(如头戴式设备(HMD))渲染和显示的3D场景序列24。解码器23从源22获得流。例如,源22属于集合,包括:
-本地存储器,例如视频存储器或RAM(或随机存取存储器)、闪存、ROM(或只读存储器)、硬盘;
-存储接口,例如与大容量存储装置、RAM、闪存、ROM、光碟或磁性载体的接口;
-通信接口,例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或
Figure BDA0003527782540000071
接口);以及
-用户接口,诸如使用户能够输入数据的图形用户界面。
解码器23包括用于提取在数据流中编码的数据的电路234。电路234将数据流作为输入并提供与编码在流中的元数据212和二维视频对应的元数据232。视频由提供帧序列的视频解码器233解码。解码的帧包括颜色和深度信息。在变体中,视频解码器233提供两个帧序列,一个包括颜色信息,另一个包括深度信息。电路231使用元数据232从解码的帧中去投影颜色和深度信息以提供3D场景24的序列。3D场景序列24与3D场景序列20对应,具有与编码为2D视频和视频压缩相关的精度的可能损失。
图3示出了设备30的示例体系架构,其可以被配置为实现关于图7和8描述的方法。图2的编码器21和/或解码器23可以实现这个体系架构。可替代地,编码器21和/或解码器23的每个电路可以是根据图3的体系架构的设备,例如经由它们的总线31和/或经由I/O接口36链接在一起。
设备30包括以下元件,这些元件通过数据和地址总线31链接在一起:
-微处理器32(或CPU),例如,DSP(或数字信号处理器);
-ROM(或只读存储器)33;
-RAM(或随机存取存储器)34;
-存储接口35;
-I/O接口36,用于接收来自应用的要传输的数据;以及
-电源,例如电池。
根据示例,电源在设备外部。在每个提到的存储器中,说明书中使用的词“寄存器”可以与容量小的区域(几位)或者与非常大的区域(例如整个程序或大量接收或解码的数据)对应。ROM 33包括至少程序和参数。ROM 33可以存储算法和指令以执行根据本原理的技术。在接通电源后,CPU 32将程序上传到RAM中并执行对应的指令。
RAM 34在寄存器中包括由CPU 32执行并在设备30接通电源后上传的程序、寄存器中的输入数据、寄存器中处于方法的不同状态的中间数据以及寄存器中其它用于执行方法的变量。
本文描述的实施方式可以例如以方法或处理、装置、计算机程序产品、数据流或信号来实现。即使仅在单一形式的实施方式的上下文中进行讨论(例如,仅作为方法或设备进行讨论),所讨论的特征的实施方式也可以以其它形式(例如程序)实现。装置可以例如以适当的硬件、软件和固件来实现。该方法可以在例如装置中实现,诸如例如处理器,其是指处理设备,一般而言包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、蜂窝电话、便携式/个人数字助理(“PDA”)和其它促进最终用户之间的信息通信的设备。
根据示例,设备30被配置为实现关于图7和8描述的方法,并且属于包括以下的集合:
-移动设备;
-通信设备;
-游戏设备;
-平板电脑(或平板计算机);
-膝上型计算机;
-静止图片相机;
-摄像机;
-编码芯片;
-服务器(例如,广播服务器、视频点播服务器或web服务器)。
图4示出了当通过基于分组的传输协议传输数据时流的语法的实施例的示例。图4示出了体积视频流的示例结构4。该结构包含在容器中,该容器以独立的语法元素组织流。该结构可以包括头部部分41,其是流的每个语法元素共有的数据的集合。例如,头部部分包括关于语法元素的元数据中的一些,描述每个元素的性质和作用。头部部分还可以包括图2的元数据212的一部分,例如用于将3D场景的点投影到帧2111和2112上的中心视点的坐标。该结构包括有效载荷,其包括语法的元素42和语法的至少一个元素43。语法元素42包括代表颜色和深度帧的数据。图像可以已根据视频压缩方法进行了压缩。
语法的元素43是数据流的有效载荷的一部分并且可以包括关于如何对语法的元素42的帧进行编码的元数据,例如用于将3D场景的点投影和打包到帧上的参数。此类元数据可以与视频的每一帧或帧的组(在视频压缩标准中也称为图片组(GoP))相关联。
图5示意性地图示了通过描绘一条曲线路径并且在沿着这条路径的给定位置处描绘球形边界框和观看朝向范围的虚拟3D场景内的受限导航的概念。导航限制是在内容创建阶段按内容确定的,附加的益处是有可能向3D几何目标约束添加主观(例如,艺术)约束。
根据本原理,明确描述与代表3D场景50的给定体积视频内容相关联的观看位置和朝向的子集的高级语法元素的布置。用信号通知的信息包括以下元素:
-3D空间中的曲线路径51(或曲线路径的集合),
-基本边界框体积52,
-观看朝向范围的集合53,由沿着(一条或多条)曲线路径的位置建索引
这些元素的组合描述沿着(一条或多条)路径的虚拟位移,这些位移是合适的、优选的和/或允许高质量的3D场景重构。在沿着(一条或多条)路径的每个位置处,边界框内的小平移是可能的并且观看朝向被限制在给定的角度范围内。这可以被描述为4DoF+虚拟导航“隧道”。
根据第一实施例,曲线导航路径的集合由3D点的集合定义,具有以下语法和语义:
Figure BDA0003527782540000101
Figure BDA0003527782540000102
Figure BDA0003527782540000111
num_paths指定为导航内容而定义的曲线导航路径的数量。值0指示可以导航整个3D空间。
num_points指定沿着曲线导航路径采样的3D点的数量。
X[n][i]、Y[n][i]、Z[n][i]是固定点值(例如,16.16值),定义在3D场景的全局坐标系中第i个样本沿着第n条路径的3D坐标。这些点根据沿着路径的曲线横坐标进行排序。因此,第n条路径定义在两个3D端点(X[n][0],Y[n][0],Z[n][0])和(X[n][num_points[n]-1],Y[n][num_points[n]-1],Z[n][num_points[n]-1])之间。例如,曲线路径可以是到列表中的连续点之间以及从列表的最后一个点到第一个点的直线路径的分段路径。在变体中,曲线路径可以通过使用三个或四个连续点通过使用二次或三次贝塞尔曲线来确定。
phi_min[n][i]、phi_max[n][i]和theta_min[n][i]、theta_max[n][i]是方位角和仰角的最小值和最大值,它们在沿着第n条路径的第i个点处界定观看朝向,以216度为单位。例如,方位角值在-180*216到180*216-1的范围内,包括端点。例如,仰角值在-90*216到90*216的范围内,包括端点。方位角和仰角值可以用不同的测量单位表述,例如用弧度表示。
shape_type指定观看边界框的形状,允许用户在其中沿着导航路径在给定位置轻微移动。shape_type等于0指示球体,其半径由first_dimension指定。该语法允许定义更复杂的椭圆体或长方体3D体积形状。
根据另一个实施例,通过从与体积内容相关联的获取相机的参数推断导航路径51来获得轻量级观看空间54规范。对导航路径进行采样的3D点是获取相机的3D位置。每个样本位置处的观看方向(中心方位角和仰角)是那个位置处的获取相机观看方向。由于获取外部相机参数已经是与体积视频内容相关联的元数据的一部分,因此要传输以指定观看空间的附加元数据减少到每个样本位置处观看框的形状和迟迟,以及观看方向周围的方位角和仰角范围。语法和相关联的语义的示例如下:
Figure BDA0003527782540000121
num_cams[n]是用于对第n条导航路径进行采样的获取相机的子集的尺寸。cam_idx[n][i]是第i个相机沿着第n条导航路径的索引(在所有获取相机的列表当中)。phi_range[n][i]和theta_range[n][i]是沿着在第cam_idx[n][i]个获取相机的方位角和仰角周围第n条路径的第i个位置处的方位角和仰角偏差的范围。
这种观看空间规范特别适用于使用沿着圆弧定位的相机的装配装备捕获的体积内容。图5b图示了与从这种装配装备捕获的3D内容相关联的观看空间54的示例:十个相机布置成五对会聚相机55捕获3D场景;通过在每隔一个相机位置采样5个球体来指定管状观看空间54。
图6图示了在3D场景周围导航的圆形路径的特定情况,感兴趣的对象位于中心位置处。在这个用例中,用户被允许在全局坐标系中的给定高度值处的水平面内的圆形路径61上在3D场景50周围走动,具有向内视场63。与第一实施例中一样,允许边界框52内的位移。
语法和语义的示例可以如下:
Figure BDA0003527782540000122
Figure BDA0003527782540000131
center_x、center_y、center_z是固定点值(例如,16.16值),用于定义圆形路径的中心的3D坐标。
radius是固定点值,用于定义圆形路径的半径。
phi_range是在圆形路径上的任何点(相对于径向方向)处界定方位角观看朝向的角度范围,以216度为单位。delta_phi值应在0到360*216-1的范围内,包括端点。
theta_min、theta_max是圆形路径上的任何点处观看仰角的最小值和最大值,以216度为单位。仰角值应在-90*216到90*216的范围内,包括端点。
更一般地,曲线导航路径可以由参数化3D曲线定义:X=f(s),Y=g(s),Z=h(s),s是标量值。根据本原理,多种这样的功能参数化是合适的。这种通用方法特别适用于典型的4DoF+体验,如渲染体育赛事或音乐会活动的体积视频。对于此类4DoF+视频,合适的、优选的和/或允许的路径具有可以使用少量参数被参数化的简单形状,例如体育场看台上的椭圆或舞台或体育场的场地周围的矩形。
图7图解地图示了用于用信号通知代表体积视频中导航的限制的信息的方法70。在步骤71处,获得体积视频数据。同时获得代表曲线路径和曲线路径的点的观看方向范围的数据。与观看边界框相关联的曲线路径代表在包括体积视频的3D场景的3D空间中导航的限制。根据本原理的实施例,这些数据可以通过如关于图5和6描述的不同数据结构来表示。在步骤72处,将体积视频数据编码在与元数据相关联的数据流中,该元数据包括在步骤71处获得的导航的限制。在步骤73处,在步骤72处编码的数据流可以存储在非暂时性介质中或传输到客户端设备。
根据实施例,所提出的受限导航路径消息在视频流内被编码在专用SEI消息(补充增强信息)中。根据另一个实施例,所提出的受限导航路径消息在容器级别使用ISO基础媒体文件格式进行编码。在体积视频流的元数据中添加这种导航路径消息允许在渲染器侧将虚拟导航限制到与编码的3D场景内容一致的观看位置和朝向,从而确保沉浸式体验的质量。
图8图解地图示了用于解码代表体积视频中导航的限制的信息的方法80。在步骤81处,从源获得包括体积视频的视频数据的数据流。数据流还包括与体积视频相关联的元数据和包括体积视频的3D场景的3D空间中导航的限制的表示。在步骤82处,解码视频数据和元数据。元数据包括代表观看边界框的数据、代表体积视频的3D空间中的曲线路径的数据以及代表与曲线路径上的点相关联的至少一个观看方向范围的数据。这些数据可以由根据本原理的实施例的不同数据结构来表示,如关于图5和6所示。在步骤83处,通过使用解码的元数据来检索代表3D场景的3D空间中导航的限制的信息,并且这个信息被渲染器使用。例如,当用户试图离开保证良好渲染质量的隧道时,渲染器可以警告用户。当用户移动到合适的路径之外时,渲染器还可以防止虚拟相机移动到描述体积之外或修改渲染(例如,通过淡化图像)。
本文描述的实施方式可以在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单一实现形式的上下文中进行讨论(例如,仅作为方法或设备进行讨论),所讨论的特征的实施方式也可以以其它形式(例如,程序)来实现。装置可以在例如适当的硬件、软件和固件中实现。方法可以在例如诸如处理器之类的装置中实现,处理器泛指处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)以及促进最终用户之间信息通信的其它设备。
本文描述的各种过程和特征的实施方式可以实施在各种不同的装备或应用中,特别是例如与数据编码、数据解码、视图生成、纹理处理以及图像和相关纹理信息和/或深度信息的其它处理相关联的装备或应用。此类装备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型计算机、个人计算机、电话、PDA和其它通信设备。如应当清楚的,装备可以是移动的,并且甚至可以安装在移动车辆中。
此外,方法可以通过由处理器执行的指令来实现,并且此类指令(和/或由实施方式产生的数据值)可以存储在处理器可读介质上,例如,集成电路、软件载体或其它存储设备(诸如例如硬盘、压缩盘(“CD”)、光碟(诸如例如DVD,常常称为数字多功能碟或数字视频碟)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成有形地实施在处理器可读介质上的应用。指令可以是例如硬件、固件、软件或其组合。指令可以在例如操作***、单独的应用或两者的组合中找到。因此,处理器的特征可以在于例如被配置为执行处理的设备和包括具有用于执行处理的指令的处理器可读介质(诸如存储设备)的设备。另外,除了或替换指令,处理器可读介质还可以存储由实施方式产生的数据值。
对于本领域技术人员将显而易见的是,实施方式可以产生各种信号,这些信号被格式化以携带例如可以被存储或传输的信息。信息可以包括例如用于执行方法的指令或由所描述的实施方式之一产生的数据。例如,信号可以被格式化为携带用于写入或读取所述实施例的语法的规则作为数据,或者携带由所述实施例写入的实际语法值作为数据。这种信号可以被格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可以包括例如对数据流进行编码并且利用编码的数据流来调制载波。信号携带的信息可以是例如模拟或数字信息。如已知的,信号可以通过各种不同的有线或无线链路传输。信号可以存储在处理器可读介质上。
已经描述了许多实施方式。不过,将理解的是,可以进行各种修改。例如,不同实施方式的元素可以被组合、补充、修改或移除以产生其它实施方式。此外,本领域普通技术人员将理解的是,可以用其它结构和处理替换所公开的结构和处理,并且结果产生的实施方式将以至少基本上相同的(一种或多种)方式执行至少基本上相同的(一个或多个)功能,以实现至少与所公开的实施方式基本上相同的(一个或多个)结果。因而,本申请考虑这些和其它实施方式。

Claims (28)

1.一种用于用信号通知代表体积视频中导航的限制的信息的方法,所述方法包括将元数据编码到数据流中,所述数据流包括代表所述体积视频的视频数据,所述元数据包括:
-代表观看边界框的数据;
-代表所述体积视频的3D空间中的曲线路径的数据;以及
-代表与所述曲线路径上的点相关联的至少一个观看方向范围的数据。
2.如权利要求1所述的方法,其中代表曲线路径的所述数据包括3D点的列表,并且其中所述列表的点与至少一个观看方向范围相关联。
3.如权利要求1所述的方法,其中代表曲线路径的所述数据包括代表参数化3D曲线的参数,并且其中代表至少一个观看方向范围的数据与所述曲线路径的一个原点相关联。
4.如权利要求1至3中的一项所述的方法,其中所述元数据包括代表所述体积视频的3D空间中的至少两条曲线路径的数据。
5.如权利要求1所述的方法,其中代表曲线路径的所述数据包括对与至少一个观看方向范围相关联的相机参数的引用的列表。
6.一种用于用信号通知代表体积视频中导航的限制的信息的设备,所述设备包括被配置用于将元数据编码到数据流中的处理器,所述数据流包括代表所述体积视频的视频数据,所述元数据包括:
-代表观看边界框的数据;
-代表所述体积视频的3D空间中的曲线路径的数据;以及
-代表与所述曲线路径上的点相关联的至少一个观看方向范围的数据。
7.如权利要求6所述的设备,其中代表曲线路径的所述数据包括3D点的列表,并且其中所述列表的点与至少一个观看方向范围相关联。
8.如权利要求6所述的设备,其中代表曲线路径的所述数据包括代表参数化3D曲线的参数,并且其中代表至少一个观看方向范围的数据与所述曲线路径的一个原点相关联。
9.如权利要求6至8中的一项所述的设备,其中所述元数据包括代表所述体积视频的3D空间中的至少两条曲线路径的数据。
10.如权利要求6所述的方法,其中代表曲线路径的所述数据包括对与至少一个观看方向范围相关联的相机参数的引用的列表。
11.一种用于解码代表体积视频中导航的限制的信息的方法,所述方法包括从包括代表所述体积视频的视频数据的数据流中解码元数据,所述元数据包括:
-代表观看边界框的数据;
-代表所述体积视频的3D空间中的曲线路径的数据;以及
-代表与所述曲线路径上的点相关联的至少一个观看方向范围的数据;
12.如权利要求11所述的方法,其中代表曲线路径的所述数据包括3D点的列表,并且其中所述列表的点与至少一个观看方向范围相关联。
13.如权利要求11所述的方法,其中代表曲线路径的所述数据包括代表参数化3D曲线的参数,并且其中代表至少一个观看方向范围的数据与所述曲线路径的一个原点相关联。
14.如权利要求11至13中的一项所述的方法,其中所述元数据包括代表所述体积视频的3D空间中的至少两条曲线路径的数据。
15.如权利要求11所述的方法,其中代表曲线路径的所述数据包括对与至少一个观看方向范围相关联的相机参数的引用的列表。
16.一种用于解码代表体积视频中导航的限制的信息的设备,该设备包括被配置用于解码数据流中的元数据的处理器,所述数据流包括代表所述体积视频的视频数据,所述元数据包括:
-代表观看边界框的数据;
-代表所述体积视频的3D空间中的曲线路径的数据;以及
-代表与所述曲线路径上的点相关联的至少一个观看方向范围的数据;以及
17.如权利要求16所述的设备,其中代表曲线路径的所述数据包括3D点的列表,并且其中所述列表的点与至少一个观看方向范围相关联。
18.如权利要求16所述的设备,其中代表曲线路径的所述数据包括代表参数化3D曲线的参数,并且其中代表至少一个观看方向范围的数据与所述曲线路径的一个原点相关联。
19.如权利要求16至18中的一项所述的设备,其中所述元数据包括代表所述体积视频的3D空间中的至少两条曲线路径的数据。
20.如权利要求16所述的设备,其中代表曲线路径的所述数据包括对与至少一个观看方向范围相关联的相机参数的引用的列表。
21.一种数据流,包括代表所述体积视频的视频数据和代表所述体积视频中导航的限制的元数据,所述元数据包括:
-代表观看边界框的数据;
-代表所述体积视频的3D空间中的曲线路径的数据;以及
-代表与所述曲线路径上的点相关联的至少一个观看方向范围的数据。
22.如权利要求21所述的数据流,其中代表曲线路径的所述数据包括3D点的列表,并且其中所述列表的点与至少一个观看方向范围相关联。
23.如权利要求21所述的数据流,其中代表曲线路径的所述数据包括代表参数化3D曲线的参数,并且其中代表至少一个观看方向范围的数据与所述曲线路径的一个原点相关联。
24.如权利要求21至23中的一项所述的数据流,其中所述元数据包括代表所述体积视频的3D空间中的至少两条曲线路径的数据。
25.如权利要求21所述的方法,其中代表曲线路径的所述数据包括对与至少一个观看方向范围相关联的相机参数的引用的列表。
26.一种非暂时性计算机可读介质,包含根据权利要求1至5中任一项所述的方法或由权利要求6至10中任一项所述的装置生成的用于使用处理器回放的数据内容。
27.一种计算机程序产品,包括指令,所述指令在由计算机执行时使所述计算机执行如权利要求1至5中的任一项所述的方法。
28.一种包括指令的计算机程序产品,所述指令在由计算机执行时使所述计算机执行如权利要求11至15中的任一项所述的方法。
CN202080061613.XA 2019-07-22 2020-07-14 用于递送体积视频内容的方法和装置 Pending CN114342366A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP19305968.0 2019-07-22
EP19305968 2019-07-22
EP19306721 2019-12-20
EP19306721.2 2019-12-20
PCT/US2020/041878 WO2021015982A1 (en) 2019-07-22 2020-07-14 A method and apparatus for delivering a volumetric video content

Publications (1)

Publication Number Publication Date
CN114342366A true CN114342366A (zh) 2022-04-12

Family

ID=71899975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080061613.XA Pending CN114342366A (zh) 2019-07-22 2020-07-14 用于递送体积视频内容的方法和装置

Country Status (9)

Country Link
US (1) US20220256134A1 (zh)
EP (1) EP4005202B1 (zh)
JP (1) JP2022541908A (zh)
KR (1) KR20220035229A (zh)
CN (1) CN114342366A (zh)
FI (1) FI4005202T3 (zh)
IL (1) IL289942A (zh)
TW (1) TW202106000A (zh)
WO (1) WO2021015982A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200404241A1 (en) * 2019-06-20 2020-12-24 At&T Intellectual Property I, L.P. Processing system for streaming volumetric video to a client device
CN112423108B (zh) * 2019-08-20 2023-06-30 中兴通讯股份有限公司 码流的处理方法、装置、第一终端、第二终端及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556206B1 (en) * 1999-12-09 2003-04-29 Siemens Corporate Research, Inc. Automated viewpoint selection for 3D scenes
US20120127169A1 (en) * 2010-11-24 2012-05-24 Google Inc. Guided Navigation Through Geo-Located Panoramas
CN105165008A (zh) * 2013-05-10 2015-12-16 皇家飞利浦有限公司 对与多视图再现设备一起使用的视频数据信号进行编码的方法
US20180103242A1 (en) * 2016-10-10 2018-04-12 Samsung Electronics Co., Ltd. System and method to prevent boundary artifacts
EP3329976A1 (en) * 2016-11-30 2018-06-06 Thomson Licensing 3d immersive method and device for a user in a virtual 3d scene
WO2018127123A1 (en) * 2017-01-06 2018-07-12 Mediatek Inc. Methods and apparatus for signaling viewports and regions of interest
CN108370455A (zh) * 2015-11-09 2018-08-03 汤姆逊许可公司 用于使从基本流解码的视频内容适应到显示特性的方法和设备
EP3457688A1 (en) * 2017-09-15 2019-03-20 Thomson Licensing Methods and devices for encoding and decoding three degrees of freedom and volumetric compatible video stream
CN109792563A (zh) * 2016-10-12 2019-05-21 皇家Kpn公司 基于感兴趣区域处理球面视频数据
EP3489900A1 (en) * 2017-11-23 2019-05-29 Thomson Licensing Method, apparatus and stream for encoding/decoding volumetric video
WO2019118617A1 (en) * 2017-12-15 2019-06-20 Pcms Holdings, Inc. A method for using viewing paths in navigation of 360° videos

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9189884B2 (en) * 2012-11-13 2015-11-17 Google Inc. Using video to encode assets for swivel/360-degree spinners
CN109076255B (zh) * 2016-04-26 2021-10-08 Lg电子株式会社 发送、接收360度视频的方法及设备
US20170316806A1 (en) * 2016-05-02 2017-11-02 Facebook, Inc. Systems and methods for presenting content
US10841557B2 (en) * 2016-05-12 2020-11-17 Samsung Electronics Co., Ltd. Content navigation
WO2017203098A1 (en) * 2016-05-24 2017-11-30 Nokia Technologies Oy Method and an apparatus and a computer program for encoding media content
CN109691094B (zh) * 2016-08-25 2021-10-22 Lg电子株式会社 发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置
CN107888987B (zh) * 2016-09-29 2019-12-06 华为技术有限公司 一种全景视频播放方法及装置
KR101810671B1 (ko) * 2017-03-07 2018-01-25 링크플로우 주식회사 전방향 영상의 방향 정보를 생성하는 방법 및 이러한 방법을 수행하는 장치
US10313651B2 (en) * 2017-05-22 2019-06-04 Fyusion, Inc. Snapshots at predefined intervals or angles
TWI687087B (zh) * 2017-07-13 2020-03-01 新加坡商聯發科技(新加坡)私人有限公司 呈現超出全方位媒體的vr媒體的方法和裝置
US10559126B2 (en) * 2017-10-13 2020-02-11 Samsung Electronics Co., Ltd. 6DoF media consumption architecture using 2D video decoder
GB2570708A (en) * 2018-02-05 2019-08-07 Nokia Technologies Oy Switching between multidirectional and limited viewport video content
WO2019190203A1 (ko) * 2018-03-27 2019-10-03 주식회사 케이티 비디오 신호 처리 방법 및 장치
US11200700B2 (en) * 2019-01-10 2021-12-14 Mediatek Singapore Pte. Ltd. Methods and apparatus for signaling viewports and regions of interest for point cloud multimedia data
US11245926B2 (en) * 2019-03-19 2022-02-08 Mediatek Singapore Pte. Ltd. Methods and apparatus for track derivation for immersive media data tracks
EP4002277A4 (en) * 2019-08-14 2023-02-22 LG Electronics Inc. POINT CLOUD DATA TRANSMITTING DEVICE, POINT CLOUD DATA TRANSMITTING METHOD, POINT CLOUD DATA RECEIVING DEVICE AND POINT CLOUD DATA RECEIVING METHOD
US11729243B2 (en) * 2019-09-20 2023-08-15 Intel Corporation Dash-based streaming of point cloud content based on recommended viewports

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556206B1 (en) * 1999-12-09 2003-04-29 Siemens Corporate Research, Inc. Automated viewpoint selection for 3D scenes
US20120127169A1 (en) * 2010-11-24 2012-05-24 Google Inc. Guided Navigation Through Geo-Located Panoramas
CN105165008A (zh) * 2013-05-10 2015-12-16 皇家飞利浦有限公司 对与多视图再现设备一起使用的视频数据信号进行编码的方法
CN108370455A (zh) * 2015-11-09 2018-08-03 汤姆逊许可公司 用于使从基本流解码的视频内容适应到显示特性的方法和设备
US20180103242A1 (en) * 2016-10-10 2018-04-12 Samsung Electronics Co., Ltd. System and method to prevent boundary artifacts
CN109792563A (zh) * 2016-10-12 2019-05-21 皇家Kpn公司 基于感兴趣区域处理球面视频数据
EP3329976A1 (en) * 2016-11-30 2018-06-06 Thomson Licensing 3d immersive method and device for a user in a virtual 3d scene
WO2018127123A1 (en) * 2017-01-06 2018-07-12 Mediatek Inc. Methods and apparatus for signaling viewports and regions of interest
EP3457688A1 (en) * 2017-09-15 2019-03-20 Thomson Licensing Methods and devices for encoding and decoding three degrees of freedom and volumetric compatible video stream
EP3489900A1 (en) * 2017-11-23 2019-05-29 Thomson Licensing Method, apparatus and stream for encoding/decoding volumetric video
WO2019118617A1 (en) * 2017-12-15 2019-06-20 Pcms Holdings, Inc. A method for using viewing paths in navigation of 360° videos

Also Published As

Publication number Publication date
KR20220035229A (ko) 2022-03-21
IL289942A (en) 2022-03-01
TW202106000A (zh) 2021-02-01
EP4005202B1 (en) 2023-11-15
WO2021015982A1 (en) 2021-01-28
JP2022541908A (ja) 2022-09-28
US20220256134A1 (en) 2022-08-11
FI4005202T3 (fi) 2023-12-28
EP4005202A1 (en) 2022-06-01

Similar Documents

Publication Publication Date Title
US20210195162A1 (en) Method, apparatus and stream for volumetric video format
US11178383B2 (en) Method, apparatus and stream for volumetric video format
EP3562159A1 (en) Method, apparatus and stream for volumetric video format
US20230024615A1 (en) A method and apparatus for encoding and decoding of multiple-viewpoint 3dof+ content
KR20220069086A (ko) 볼류메트릭 비디오를 인코딩, 송신 및 디코딩하기 위한 방법 및 장치
CN113906761A (zh) 利用修补补片对3d场景进行编码和渲染的方法和装置
EP4005202B1 (en) A method and apparatus for delivering a volumetric video content
CN114270863A (zh) 一种编码和解码立体视频的方法和装置
EP4128765A1 (en) A method and apparatus for encoding and decoding volumetric video
CN114945946A (zh) 具有辅助性分块的体积视频
US20230224501A1 (en) Different atlas packings for volumetric video
WO2020185529A1 (en) A method and apparatus for encoding and decoding volumetric video
EP4038880A1 (en) A method and apparatus for encoding, transmitting and decoding volumetric video
CN113785591A (zh) 用于深度编码和解码的方法和装置
US20230032599A1 (en) Methods and apparatuses for encoding, decoding and rendering 6dof content from 3dof+ composed elements
US20230239451A1 (en) A method and apparatus for encoding and decoding volumetric content in and from a data stream
WO2023202897A1 (en) A method and apparatus for encoding/decoding a 3d scene
CN115885513A (zh) 用于对体积视频进行编码和解码的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination