CN114945946A - 具有辅助性分块的体积视频 - Google Patents
具有辅助性分块的体积视频 Download PDFInfo
- Publication number
- CN114945946A CN114945946A CN202080090836.9A CN202080090836A CN114945946A CN 114945946 A CN114945946 A CN 114945946A CN 202080090836 A CN202080090836 A CN 202080090836A CN 114945946 A CN114945946 A CN 114945946A
- Authority
- CN
- China
- Prior art keywords
- tile
- atlas
- mvd
- scene
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000009877 rendering Methods 0.000 claims abstract description 22
- 238000012805 post-processing Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000005192 partition Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 14
- 238000012856 packing Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000013138 pruning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 229920001690 polydopamine Polymers 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000014616 translation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000002173 dizziness Diseases 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000004544 sputter deposition Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/08—Volume rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/23439—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2662—Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Filling Or Discharging Of Gas Storage Vessels (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Processing Or Creating Images (AREA)
Abstract
公开了用于对表示3D场景的数据进行编码和解码的方法和设备。依据从3D场景的第一区域获取的第一MVD内容生成一组第一分块。分块是MVD内容的视图中的一个视图的一部分。依据从3D场景的第二区域获取的第二MVD内容生成一组第二分块。生成打包第一分块和第二分块的图集并且该图集与元数据相关联,该元数据针对图集的分块指示分块在解码侧处是第一分块还是第二分块,第一分块用于渲染视口图像,并且第二分块用于预处理或后处理视口图像。
Description
1.技术领域
本发明原理总体涉及三维(3D)场景和体积视频内容的域。还在编码、格式化和解码表示3D场景的纹理和几何结构的数据的上下文中理解本文档,以在诸如移动设备或头戴式显示器(HMD)的最终用户设备上渲染体积内容。
2.背景技术
本部分旨在向读者介绍本领域的各个方面,这些方面可能与下文描述和/或要求保护的本发明原理的各个方面有关。据信该讨论有助于为读者提供背景信息,以促进更好地理解本发明原理的各个方面。因此,应当理解,这些陈述应当从这个角度来解读,而不是承认现有技术。
最近,可用的大视场内容(高达360°)有所增长。观看沉浸式显示设备(诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能电话等)上的内容的用户可能无法完全看到此类内容。这意味着在给定的时刻,用户只能观看一部分内容。然而,用户通常可通过例如头部移动、鼠标移动、触摸屏、语音以及类似物的各种手段在内容内导航。通常希望对该内容进行编码和解码。
沉浸式视频(也称为360°平面视频)允许用户通过围绕静止视点旋转其头部来观看自己周围的一切。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以满足第一次全向视频体验(例如,使用头戴式显示器(HMD设备))的要求,但3DoF视频对于期望更多自由(例如,通过体验视差)的观看者可能很快变得令人沮丧。此外,3DoF还可能导致眩晕,因为用户永远不会只旋转其头部,而是还向三个方向平移头部,这些平移不会在3DoF视频体验中再现。
其中,大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频。许多术语可用于设计此类沉浸式视频:例如,虚拟现实(VR)、360、全景、4π球面度、沉浸式、全向或大视场。
体积视频(也称为6自由度(6DoF)视频)是3DoF视频的替代方案。在观看6DoF视频时,除了旋转之外,用户还可以在观看的内容中平移其头部,甚至其身体,并且体验视差甚至体积。这种视频显著增加了沉浸感和对场景深度的感知,并通过在头部平移期间提供一致的视觉反馈来防止眩晕。内容是通过专用传感器创建的,允许同时记录感兴趣场景的颜色和深度。即使仍然存在技术困难,使用结合摄影测量技术的彩色相机装备也是执行这种记录的一种方式。
虽然3DoF视频包括由纹理图像的解映射产生的图像序列(例如,根据纬度/经度投影映射或等角投影映射编码的球面图像),但6DoF视频帧嵌入了来自多个视点的信息。它们可被视为由三维捕获产生的点云的时间序列。根据观看条件可以考虑两种体积视频。第一种(即完整的6DoF)允许在视频内容内完全自由导航,而第二种(又名3DoF+)将用户观看空间限制到称为观看边界框的有限体积,从而允许有限的头部平移和视差体验。该第二种情况是在自由导航和就座观众的被动观看条件之间的有价值的折衷。
在3DoF+场景中,一种方法包括仅发送从观看边界框的任何点观察3D场景所需的信息。另一种方法考虑发送附加几何结构信息和/或颜色信息,从观看边界框不可见,但用于在解码器侧执行其它过程,如重新照明、碰撞检测或触觉交互。这种附加信息可采用与可见点相同的格式输送。然而,需要一种用于向解码器指示信息的一部分将用于渲染并且信息的另一部分将用于其他处理的格式和方法。
3.发明内容
以下呈现本发明原理的简化概述,以便提供对本发明原理的一些方面的基本理解。本发明内容不是本发明原理的广泛概述。不旨在识别本发明原理的关键或重要元素。以下发明内容仅以简化形式呈现本发明原理的一些方面,作为下面提供的更详细描述的前言。
本发明原理涉及一种用于在数据流中对表示3D场景的数据进行编码的方法。该方法包括:
-依据为渲染3D场景而获取的第一多视图加深度(MVD)内容生成一组第一分块。从3D场景的第一区域获取第一MVD。分块是MVD内容的视图中的一个视图的一部分。
-依据为了预处理或后处理用途而获取的第二MVD内容生成一组第二分块;从3D场景的第二区域获取第二MVD。第二区域可与第一区域重叠或隔开。
-使用第一分块和第二分块生成图集。图集是根据图集布局的图像打包分块并且与元数据相关联,该元数据针对图集的分块指示该分块是第一分块还是第二分块;以及
-将所述图集编码在所述数据流中。
本发明原理还涉及一种用于从数据流解码表示3D场景的数据的方法。
该方法包括:
-解码数据流以检索图集和相关联的元数据。图集是根据图集布局打包分块的图像。分块是从3D场景的区域获取的MVD内容的一个视图的一部分。元数据包括针对图集的分块指示该分块是第一分块还是第二分块的数据;第一分块是从3D场景的第一区域获取的MVD内容的一部分,并且第二分块是从3D场景的第二区域获取的MVD的一部分。第一区域和第二区域可重叠或隔开。
-通过使用在元数据中被指示为第一分块的分块,从3D场景内的视点渲染视口图像;以及
-使用在元数据中被指示为第二分块的分块对所述视口图像进行预处理和/或后处理。
本发明原理还涉及一种包括被配置为实现上述编码方法的处理器的设备,以及涉及一种包括被配置为实现上述解码方法的处理器的设备。
本发明原理还涉及数据流和/或携带表示3D场景的数据的非暂时性介质。数据流或非暂时性介质包括:
-根据图集布局打包第一分块和第二分块的图集图像,第一分块是为渲染3D场景而获取的MVD内容的一个视图的一部分,第二分块是为了预处理或后处理用途而获取的MVD内容的一个视图的一部分,以及
-与所述图集相关联的元数据,该元数据包括针对图集的分块指示该分块是第一分块还是第二分块的数据。
4.附图说明
将更好地理解本公开,并且在阅读以下描述、参考附图的描述之后,将出现其他特定特征和优点,其中:
-图1示出了根据本发明原理的非限制性实施方案的对象的三维(3D)模型和对应于该3D模型的点云的点;
-图2示出了根据本发明原理的非限制性实施方案的对表示3D场景序列的数据进行编码、传输和解码的非限制性示例;
-图3示出了根据本发明原理的非限制性实施方案的可被配置为实现关于图8和图9描述的方法的设备的示例性架构;
-图4示出了根据本发明原理的非限制性实施方案的当通过基于分组的传输协议传输数据时流的语法的实施方案的示例;
-图5示出了根据本发明原理的非限制性实施方案的来自中心视点的球面投影;
-图6示出了根据本发明原理的非限制性实施方案的由编码器生成图集60和图集61的示例
-图7示出了根据本发明原理的非限制性实施方案的3DoF+渲染的视图以及辅助性分块的附加视图的获取
-图8示出了根据本发明原理的非限制性实施方案的用于对包括辅助性信息的体积视频内容进行编码的方法80;
-图9示出了根据本发明原理的非限制性实施方案的用于对包括辅助性信息的体积视频内容进行解码的方法90。
5.具体实施方式
下文将参考附图更全面地描述本发明原理,在该附图中示出了本发明原理的示例。然而,本发明原理可以许多替代形式体现,并且不应被解释为限制于本文阐述的示例。因此,虽然本发明原理易受各种修改和替代形式的影响,但是其具体示例通过附图中的示例示出,并且本文将详细描述。然而,应当理解,不存在将本发明原理限制为所公开的特定形式的意图,但是相反,本公开用于涵盖落入由权利要求书限定的本发明原理的实质和范围内的所有修改、等同物和替代方案。
本文使用的术语仅出于描述特定示例的目的,并且不旨在限制本发明原理。如本文所用,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确说明。将会进一步理解,当用于本说明书时,术语“包括”和/或“包含”指定存在所述特征、整数、步骤、操作、元件和/或分量,但不排除一个或多个其他特征、整数、步骤、操作、元件、分量和/或其组的存在或添加。此外,当元件被称为“响应”或“连接”到另一元件时,它可以直接响应或连接到另一元件,或者可以存在中间元件。相反,当元件被称为“直接响应”或“直接连接”到其他元件时,不存在中间元件。如本文所用,术语“和/或”包括列出的相关联项中的一者或多者的任何和所有组合,并且可以缩写为“/”。
应当理解,尽管在本文中可使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如,在不脱离本发明原理的教导内容的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件。
尽管一些图示包括通信路径上的箭头以显示主通信方向,但是应理解,通信可以在与所描绘箭头相反的方向上发生。
关于其中每个框表示电路元件、模块或代码部分的框图和操作流程图描述了一些示例,该代码部分包括用于实现指定逻辑功能的一个或多个可执行指令。还应当指出的是,在其他具体实施中,框中标注的功能可能不按标注的顺序出现。例如,连续显示的两个框实际上可基本上同时执行,或者这些框有时可根据所涉及的功能以相反的顺序执行。
本文中的“根据一个示例”或“在一个示例中”的参考意味着结合示例描述的特定特征、结构或特性可以包括在本发明原理的至少一个具体实施中。说明书中各个地方的“根据一个示例”或“在一个示例中”的短语的出现不一定全部参考同一示例,也不一定是与其他示例相互排斥的单独的或替代的示例。
在权利要求书中出现的附图标号仅通过说明的方式,并且对权利要求书的范围没有限制作用。虽然未明确描述,但本示例和变体可以任何组合或子组合采用。
图1示出了对象的三维(3D)模型10和对应于3D模型10的点云11的点。3D模型10和点云11可例如对应于包括其他对象的3D场景的对象的可能3D表示。模型10可以是3D网格表示,并且点云11的点可以是网格的顶点。点云11的点也可以是分布在网格面的表面上的点。模型10也可表示为点云11的喷溅版本,模型10的表面是通过喷溅点云11的点而创建的。模型10可由诸如体素或样条的许多不同表示来表示。图1示出了可用3D对象的表面表示来定义点云以及可从云点生成3D对象的表面表示的事实。如本文所用,将3D对象的点(引申为3D场景的点)投影到图像上等效于投影该3D对象的任何表示,例如点云、网格、样条模型或体素模型。
点云可在存储器中表示为例如基于矢量的结构,其中每个点在视点的参照系中都有自己的坐标(例如三维坐标XYZ,或立体角和从/到视点的距离(也称为深度))和一个或多个属性,也称为分量。分量的一个示例是可在各种色彩空间中表示的颜色分量,例如RGB(红、绿和蓝)或YUV(Y是亮度分量并且UV是两个色度分量)。点云是包括对象的3D场景的表示。可从给定视点或视点范围看到3D场景。点云可通过多种方式获得,例如:
·从由相机装备拍摄的真实对象的捕获,任选地辅以深度主动感测设备;
·从由建模工具中的虚拟相机装备拍摄的虚拟/合成对象的捕获;
·从真实对象和虚拟对象两者的混合。
图2示出了对表示3D场景序列的数据进行编码、传输和解码的非限制性示例。编码格式可例如同时兼容3DoF、3DoF+和6DoF解码。
获得3D场景序列20。如同画面序列是2D视频,3D场景序列是3D(也称为体积)视频。可将3D场景序列提供给体积视频渲染设备以进行3DoF、3Dof+或6DoF渲染和显示。
可将3D场景序列20提供给编码器21。编码器21将一个3D场景或3D场景序列作为输入,并提供表示该输入的比特流。比特流可存储在存储器22中和/或电子数据介质上,并且可通过网络22传输。表示3D场景序列的比特流可由解码器23从存储器22读取和/或从网络22接收。解码器23由比特流输入并提供例如点云格式的3D场景序列。
编码器21可包括实现若干步骤的若干电路。在第一步骤中,编码器21将每个3D场景投影到至少一个2D画面上。3D投影是将三维点映射到二维平面的任何方法。由于用于显示图形数据的大多数当前方法都基于平面(来自几个位平面的像素信息)二维介质,因此这种类型的投影的用途是广泛的,在计算机图形、工程和制图方面尤为如此。投影电路211为3D场景20序列提供至少一个二维帧2111。帧2111包括表示投影到帧2111上的3D场景的颜色信息和深度信息。在变体中,颜色信息和深度信息被编码在两个单独的帧2111和2112中。
元数据212由投影电路211使用和更新。元数据212包括关于投影操作的信息(例如投影参数)以及关于颜色和深度信息在帧2111和2112内的组织方式的信息,如结合图5至图7所述。
视频编码电路213将帧2111和2112序列编码为视频。3D场景的画面2111和2112(或3D场景的画面序列)由视频编码器213编码在流中。然后,视频数据和元数据212由数据封装电路214封装在数据流中。
编码器213例如与诸如以下的编码器兼容:
-JPEG,规范ISO/CEI 10918-1UIT-T Recommendation T.81,https://www.itu.int/rec/T-REC-T.81/en;
-AVC,也称为MPEG-4AVC或h264。在UIT-T H.264和ISO/CEI MPEG-4第10部分(ISO/CEI 14496-10)两者中规定,http://www.itu.int/rec/T-REC-H.264/en,HEVC(其规范见于ITU网站,T recommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en);
-3D-HEVC(HEVC的扩展,其规范见于ITU网站,T recommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I);
-Google开发的VP9;或者
-由Alliance for Open Media开发的AV1(AOMedia Video 1)。
数据流被存储在可由解码器23例如通过网络22访问的存储器中。解码器23包括实现不同的解码步骤的不同电路。解码器23将由编码器21生成的数据流作为输入,并提供待由如头戴式设备(HMD)的体积视频显示设备渲染和显示的3D场景序列24。解码器23从源22获得流。例如,源22属于一组,该组包括:
-本地存储器,例如视频存储器或RAM(或随机存取存储器)、闪存存储器、ROM(或只读存储器)、硬盘;
-存储接口,例如具有大容量存储装置、RAM、闪存存储器、ROM、光盘或磁性载体的接口;
-使用户能够输入数据的用户界面,诸如图形用户界面。
解码器23包括用于提取在数据流中编码的数据的电路234。电路234将数据流作为输入,并提供对应于在流中编码的元数据212的元数据232和二维视频。视频由提供帧序列的视频解码器233解码。解码帧包括颜色和深度信息。在变体中,视频解码器233提供两个帧序列,一个包含颜色信息,另一个包含深度信息。电路231使用元数据232对来自解码帧的颜色和深度信息进行去投影,以提供3D场景序列24。3D场景序列24对应于3D场景序列20,可能损失与作为2D视频的编码和视频压缩相关的精度。
例如,在通过电路231的非投影步骤之前或在非投影之后的后处理步骤中,可添加其它电路和功能。例如,可添加电路,以从位于场景中的任何位置处的另一个灯对场景进行重新照明。可对深度合成进行碰撞检测,例如,以一致的真实方式或者用于路径规划将新的对象添加到3DoF+场景中。此类电路可能需要有关3D场景的不用于3DoF+渲染本身的几何结构信息和/或颜色信息。不同种类的信息的语义必须通过表示3DoF+场景的比特流指示。
图3示出了可被配置为实现关于图8和图9描述的方法的设备30的示例性架构。图2的编码器21和/或解码器23可实现该架构。或者,编码器21和/或解码器23中的每个电路可以是根据图3的架构的设备,其例如经由其总线31和/或经由I/O接口36链接在一起。
设备30包括通过数据和地址总线31连接在一起的以下元件:
-微处理器32(或CPU),该微处理器是例如DSP(或数字信号处理器);
-ROM(或只读存储器)33;
-RAM(或随机存取存储器)34;
-存储接口35;
-I/O接口36,该I/O接口用于从应用程序接收要传输的数据;以及
-电源,例如电池。
根据一个示例,电源在设备外部。在每个提到的存储器中,说明书中使用的词语“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如,整个程序或大量接收或解码的数据)。ROM 33至少包括程序和参数。ROM 33可以根据本发明原理存储用于执行技术的算法和指令。当接通时,CPU 32上载RAM中的程序并执行对应指令。
RAM 34包括寄存器中的由CPU 32执行并在设备30的接通之后上载的程序、寄存器中的输入数据、寄存器中的方法的不同状态中的中间数据以及用于在寄存器中执行方法的其他变量。
本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法或设备讨论),讨论的特征的具体实施也可以其他形式(例如,程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如,例如处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。
根据示例,设备30被配置为实现关于图8和图9描述的方法,并且属于包括以下项的集合:
-移动设备;
-通信设备;
-游戏设备;
-平板电脑(或平板计算机);
-膝上型电脑;
-静态图片相机;
-摄像机;
-编码芯片;
-服务器(例如广播服务器、视频点播服务器或web服务器)。
图4示出了当通过基于分组的传输协议传输数据时流的语法的实施方案的示例。图4示出了体积视频流的示例性结构4。该结构包含在以语法的独立元素组织流的容器中。该结构可包括标头部分41,它是流的每个语法元素所共有的一组数据。例如,标头部分包括关于语法元素的一些元数据,描述它们中每一个的性质和角色。标头部分还可包括图2的元数据212的一部分,例如用于将3D场景的点投影到帧2111和2112上的中心视点的坐标。该结构包括有效载荷,该有效载荷包括语法元素42和至少一个语法元素43。语法元素42包括表示颜色和深度帧的数据。图像可能已根据视频压缩方法进行了压缩。
语法元素43是数据流的有效载荷的一部分,并且可包括关于如何对语法元素42的帧进行编码的元数据,例如用于将3D场景的点投影和打包到帧上的参数。此类元数据可与视频的每个帧或帧组(在视频压缩标准中也称为画面组(GoP))相关联。
图5示出了以4个投影中心为例的分块图集方法。3D场景50包括人物。例如,投影中心51是透视相机,并且相机53是正射相机。相机还可以是具有例如球面映射(例如等矩形映射)或立方体映射的全向相机。根据在元数据的投影数据中描述的投影操作,3D场景的3D点被投影到与位于投影中心处的虚拟相机相关联的2D平面上。在图5的示例中,根据透视映射将由相机51捕获的点的投影映射到分块52上,并且根据正射映射将由相机53捕获的点的投影映射到分块54上。
投影像素的群集产生多个2D分块,其被打包在矩形图集55中。图集内分块的组织限定了图集布局。在实施方案中,具有相同布局的两个图集:一个用于纹理(即颜色)信息,并且一个用于深度信息。由同一相机或由两个不同相机捕获的两个分块可包括表示3D场景的相同部分的信息,如例如分块54和56。
打包操作为每个生成的分块产生分块数据。分块数据包括对投影数据的引用(例如,投影数据表中的索引或指向投影数据的指针(即,存储器中或数据流中的地址))和描述图集内分块的位置和尺寸的信息(例如,左上角坐标、尺寸和以像素为单位的宽度)。将分块数据项添加到元数据,以与一个或两个图集的压缩数据相关联地封装在数据流中。
图6示出了由编码器生成图集60和图集61的示例。根据本发明原理的非限制性实施方案,图集60和61包括3D场景的点的纹理信息(例如,RGB数据或YUV数据)。如关于图5所述,图集是打包分块的图像。例如,在图6的示例中,编码器将包括三个视图62、63和64的多视图加深度视频作为输入。编码器去除视图间冗余(修剪步骤),并且将所选择的纹理和深度分块打包到一个或多个图集中。因此,比特流由携带纹理分块和深度分块的图集的多个视频流(例如HEVC视频流)组成,随附元数据,该元数据描述输入视图的相机参数和图集布局。
分块图集由纹理和深度图集分量对组成,针对纹理和深度具有相同的图片尺寸和相同的布局(相同的包装)。在一种方法中,图集仅携带从观看边界框内的任何点对场景进行3DoF+渲染所需的信息。在另一种方法中,图集可携带用于其他处理(如场景重新照明或碰撞检测)的附加几何结构信息和/或颜色信息。例如,这种附加信息可以是3D场景的对象的背面的几何结构。此类分块被称为辅助性分块。这些分块并不意在被解码器渲染,而是由解码器的预处理电路或后处理电路使用。
图7示出3DoF+渲染的视图以及辅助性分块的附加视图的获取。在编码器侧,可通过不同的方法执行辅助性分块的生成。例如,为了获取场景70,可放置指向场景70的前部的第一组71实际相机或虚拟相机。放置第二组72实际相机或虚拟相机以查看体积场景的背面和侧面。在实施方案中,相机72捕获的视图的分辨率比相机71更低。相机72获得对象的隐藏部分的几何结构和/或颜色。从由相机71捕获的视图获得的分块是用于3DoF+渲染的分块,而从由相机72捕获的视图获得的分块是用于完成预处理或后处理用途的几何结构信息和/或颜色信息的描述的辅助性分块。与图集的分块相关联的元数据可被格式化以发信号通知每个分块的语义。在解码器侧,视口渲染器必须跳过对渲染无效的分块。元数据还指示解码器的哪些模块可使用这些渲染无效分块。例如,重新照明器电路将会使用该辅助性信息,以从灯的视点更新其几何结构图并且相应地更改整个场景的照明纹理以生成适当的阴影。
将生成与相机72相关联的、通常以较低分辨率从背面和侧面拍摄的、描述对象的背面部分的几何结构的辅助性分块的方法添加到编码器中。首先,必须获得背面和侧面的附加深度视图,这可以以各种方式完成。在合成生成的对象的情况下,从3D模型直接获得与放置在任何位置处的虚拟相机相关联的深度图像。对于天然3D捕获,可在拍摄阶段添加附加颜色和/或活动深度相机:深度相机直接提供深度视图,而摄影测量算法则依据颜色视图估计深度。当3D模型和附加捕获均不可用时,可使用凸面形状完成算法依据从前相机恢复的开放形式几何结构生成貌似真实的闭合形状。然后,以相似于对相机71的视图执行的方式,通过修剪去除视图间冗余。在实施方案中,对两组视图独立地执行修剪。因此,不会去除规则分块和额外分块之间的可能冗余。所得的辅助性深度分块与深度分块图集内的规则分块打包在一起。
在另一个实施方案中,如果仅针对深度限定辅助性分块,则如果针对纹理图集和深度图集使用相同的布局,则图集上的纹理部分将会保持空白。即使应该以更低的分辨率限定这些辅助性分块,但是这将会导致纹理图集中的空间的损失。在此类实施方案中,不同布局可用于深度图集和纹理图集,这种差异在与图集相关联的元数据中指示。
描述图集的元数据的可能语法可包括被称为‘entity_id’的高级概念:该entity_id允许将分块组附接到用于高级语义处理(诸如对象过滤或合成)的索引。下表中示出了用于图集参数元数据的可能的语法a。
根据本发明原理的实施方案,辅助性分块被识别为特定实体,称为辅助性实体。然后,实体的数量和它们的功能(即,它们是否是辅助性实体)在元数据中的描述如下表所示:
auxiliary_flag等于1表示每个实体结构都存在辅助性说明。
auxiliary_entity_flag[e]等于1表示与实体e相关的分块不用于视口渲染。
根据本发明原理的另一个实施方案,通过修改如下表所示的图集参数语法,以分块级别发信号通知辅助性分块:
auxiliary_flag等于1表示每个分块结构都存在辅助性说明。
auxiliary_patch_flag[a][p]等于1表示图集的分块p不用于视口渲染。
在另一个实施方案中,分块信息数据语法定义辅助性分块标记,如下表所示:
在解码侧,使用auxiliary_patch_flag确定分块是否包括用于渲染的信息和/或另一模块的信息。
图8示出了根据本发明原理的非限制性实施方案的用于对包括辅助性信息的体积视频内容进行编码的方法80。在步骤81中,例如通过从由第一组相机获取的多视图加深度内容中修剪冗余信息来生成意在用于3DoF+渲染的分块。在步骤82中,从拍摄不意在被渲染的场景部分的相机捕获的视图生成辅助性分块。可并行执行或逐步执行步骤81和步骤82。用于生成辅助性分块的视图由例如位于3D场景的背面和侧面的第二组相机捕获。例如,通过修剪包括在由第一组相机和第二组相机捕获的视图中的冗余信息,生成辅助性分块。在另一个实施方案中,例如,通过修剪包括在仅由第二组相机捕获的视图中的冗余信息,生成辅助性分块。在本实施方案中,在3DoF+分块和辅助性分块之间可能存在冗余。在步骤83中,通过将3DoF+分块和辅助性分块打包在同一图像中,生成图集。在实施方案中,对于图集的深度分量和颜色分量,打包布局是不同的。根据上表中所述的语法生成描述图集参数和分块参数的元数据。元数据包括信息,该信息针对每个分块指示该分块是意在被渲染的3DoF+分块,还是意在用于预处理和/或后处理的辅助性分块。在步骤84中,生成的图集和相关联的元数据被编码在数据流中。
图9示出了根据本发明原理的非限制性实施方案的用于对包括辅助性信息的体积视频内容进行解码的方法90。在步骤91处,从流中获得表示体积内容的数据流。对数据流进行解码,以检索图集和相关联的元数据。图集是根据打包布局打包至少一个分块的图像。分块是包括表示3D场景的一部分的深度信息和/或颜色信息的图片。元数据包括用于反投影分块和检索3D场景的信息。在步骤92处,将分块从图集中解包,并且根据包括在元数据中的信息将性质归属于每个分块。分块可以是意在步骤93处用于对视口图像进行渲染的3DoF+分块,或意在步骤94处用于进行预处理或后处理操作的辅助性分块。可并行执行或逐步执行步骤93和步骤94。
本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法或设备讨论),讨论的特征的具体实施也可以其他形式(例如,程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如,例如处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如,智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)以及有利于最终用户之间信息的通信的其他设备。
本文描述的各种过程和特征的具体实施可以体现于各种不同的设备或应用程序中,特别是例如与数据编码、数据解码、视图生成、纹理处理和图像以及相关纹理信息和/或深度信息的其他处理相关联的设备或应用程序。此类设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA和其他通信设备。应当清楚的是,设备可以是移动的,甚至安装在移动车辆中。
另外,方法可以由处理器执行的指令来实现,并且此类指令(和/或由具体实施产生的数据值)可以存储在处理器可读介质上,诸如例如集成电路、软件载体或其他存储设备,诸如例如硬盘、紧凑型磁盘(“CD”)、光盘(诸如例如,DVD,通常称为数字通用光盘或数字视频光盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成在处理器可读介质上有形地体现的应用程序。指令可以是例如硬件、固件、软件或组合。指令可以在例如操作***、单独应用程序或两者的组合中发现。因此,处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(诸如存储设备)的设备。此外,除了或代替指令,处理器可读介质可以存储由具体实施产生的数据值。
对于本领域的技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,信号可以被格式化为作为数据携带用于写入或阅读所描述的实施方案的语法的规则,或作为数据携带由所描述的实施方案写入的实际语法值的数据。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的,信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。
已描述了多个具体实施。但应理解的是,可以作出许多修改。例如,可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外,普通技术人员将理解,其他结构和过程可以被替换为所公开的那些,并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能,以实现与所公开的具体实施至少基本相同的结果。因此,本申请考虑了这些和其他具体实施。
Claims (12)
1.一种用于在数据流中对3D场景进行编码的方法,所述方法包括:
-依据为了渲染所述3D场景而获取的第一多视图加深度(MVD)内容生成一组第一分块,分块是所述MVD内容的所述视图中的一个视图的一部分;
-依据为了预处理或后处理用途而获取的第二MVD内容生成一组第二分块;
-生成所述第一分块和第二分块的图集,图集是根据图集布局打包分块的图像并且与元数据相关联,所述元数据针对所述图集的分块指示所述分块是第一分块还是第二分块;以及
-将所述图集编码在所述数据流中。
2.根据权利要求1所述的方法,其中,以低于所述第一MVD的分辨率的分辨率获取所述第二MVD。
3.根据权利要求1或2所述的方法,其中,分块是通过去除所述MVD的视图之间的信息冗余而获得的MVD的一个视图的一部分。
4.一种用于从数据流解码3D场景的方法,所述方法包括:
-解码所述数据流以检索图集和相关联的元数据,图集是根据图集布局打包分块的图像,分块是从所述3D场景的区域获取的MVD内容的一个视图的一部分,并且所述元数据包括针对所述图集的分块指示所述分块是第一分块还是第二分块的数据;
-通过使用在所述元数据中被指示为第一分块的分块,从所述3D场景内的视点渲染视口图像;以及
-使用在所述元数据中被指示为第二分块的分块对所述视口图像进行预处理和/或后处理。
5.根据权利要求4所述的方法,其中,所述第二MVD的分辨率低于所述第一MVD的分辨率。
6.一种用于在数据流中对3D场景进行编码的设备,所述设备包括与处理器相关联的存储器,所述处理器被配置用于:
-依据为了渲染所述3D场景而获取的第一多视图加深度(MVD)内容生成一组第一分块,分块是所述MVD内容的所述视图中的一个视图的一部分;
-依据为了预处理或后处理用途而获取的第二MVD内容生成一组第二分块;
-生成所述第一分块和第二分块的图集,图集是根据图集布局打包分块的图像并且与元数据相关联,所述元数据针对所述图集的分块指示所述分块是第一分块还是第二分块;以及
-将所述图集编码在所述数据流中。
7.根据权利要求6所述的设备,其中,以低于所述第一MVD的分辨率的分辨率获取所述第二MVD。
8.根据权利要求6或7所述的设备,其中,分块是通过去除所述MVD的视图之间的信息冗余而获得的MVD的一个视图的一部分。
9.一种用于从数据流中解码3D场景的设备,所述设备包括处理器,所述处理器被配置用于:
-解码所述数据流以检索图集和相关联的元数据,图集是根据图集布局打包分块的图像,分块是从所述3D场景的区域获取的MVD内容的一个视图的一部分,并且所述元数据包括针对所述图集的分块指示所述分块是第一分块还是第二分块的数据;
-通过使用在所述元数据中被指示为第一分块的分块,从所述3D场景内的视点渲染视口图像;以及
-使用在所述元数据中被指示为第二分块的分块对所述视口图像进行预处理和/或后处理。
10.根据权利要求9所述的设备,其中,所述第二MVD的分辨率低于所述第一MVD的分辨率。
11.一种表示3D场景的数据流,所述数据流包括:
-根据图集布局打包第一分块和第二分块的图集图像,第一分块是为渲染所述3D场景而获取的MVD内容的一个视图的一部分,第二分块是为了预处理或后处理用途而获取的MVD内容的一个视图的一部分,以及
-与所述图集相关联的元数据,所述元数据包括针对所述图集的分块指示所述分块是第一分块还是第二分块的数据。
12.根据权利要求11所述的数据流,其中,所述第二MVD的分辨率低于所述第一MVD的分辨率。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19306697.4 | 2019-12-19 | ||
EP19306697 | 2019-12-19 | ||
PCT/EP2020/086623 WO2021122881A1 (en) | 2019-12-19 | 2020-12-17 | Volumetric video with auxiliary patches |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114945946A true CN114945946A (zh) | 2022-08-26 |
Family
ID=69185206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080090836.9A Pending CN114945946A (zh) | 2019-12-19 | 2020-12-17 | 具有辅助性分块的体积视频 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20230042874A1 (zh) |
EP (1) | EP4078531A1 (zh) |
JP (1) | JP2023506832A (zh) |
KR (1) | KR20220127246A (zh) |
CN (1) | CN114945946A (zh) |
AU (1) | AU2020409674A1 (zh) |
MX (1) | MX2022007297A (zh) |
TW (1) | TW202126036A (zh) |
WO (1) | WO2021122881A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021186103A1 (en) * | 2020-03-19 | 2021-09-23 | Nokia Technologies Oy | A method, an apparatus and a computer program product for volumetric video encoding and video decoding |
WO2023208808A1 (en) * | 2022-04-27 | 2023-11-02 | Interdigital Ce Patent Holdings, Sas | Providing segmentation information for immersive video |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3349182A1 (en) * | 2017-01-13 | 2018-07-18 | Thomson Licensing | Method, apparatus and stream for immersive video format |
EP3474562A1 (en) * | 2017-10-20 | 2019-04-24 | Thomson Licensing | Method, apparatus and stream for volumetric video format |
GB2572996A (en) * | 2018-04-19 | 2019-10-23 | Nokia Technologies Oy | Processing video patches for three-dimensional content |
US10638151B2 (en) * | 2018-05-31 | 2020-04-28 | Verizon Patent And Licensing Inc. | Video encoding methods and systems for color and depth data representative of a virtual reality scene |
US20210211723A1 (en) * | 2020-01-08 | 2021-07-08 | Mediatek Singapore Pte. Ltd. | Methods and apparatus for signaling 2d and 3d regions in immersive media |
WO2021191500A1 (en) * | 2020-03-26 | 2021-09-30 | Nokia Technologies Oy | An apparatus, a method and a computer program for volumetric video |
-
2020
- 2020-12-17 MX MX2022007297A patent/MX2022007297A/es unknown
- 2020-12-17 WO PCT/EP2020/086623 patent/WO2021122881A1/en unknown
- 2020-12-17 CN CN202080090836.9A patent/CN114945946A/zh active Pending
- 2020-12-17 JP JP2022536635A patent/JP2023506832A/ja active Pending
- 2020-12-17 KR KR1020227023499A patent/KR20220127246A/ko unknown
- 2020-12-17 EP EP20824268.5A patent/EP4078531A1/en active Pending
- 2020-12-17 US US17/786,005 patent/US20230042874A1/en active Pending
- 2020-12-17 AU AU2020409674A patent/AU2020409674A1/en active Pending
- 2020-12-18 TW TW109144819A patent/TW202126036A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
JP2023506832A (ja) | 2023-02-20 |
WO2021122881A1 (en) | 2021-06-24 |
AU2020409674A1 (en) | 2022-06-30 |
MX2022007297A (es) | 2022-08-25 |
TW202126036A (zh) | 2021-07-01 |
EP4078531A1 (en) | 2022-10-26 |
US20230042874A1 (en) | 2023-02-09 |
KR20220127246A (ko) | 2022-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11375235B2 (en) | Method and apparatus for encoding and decoding three-dimensional scenes in and from a data stream | |
US11968349B2 (en) | Method and apparatus for encoding and decoding of multiple-viewpoint 3DoF+ content | |
CN113906761A (zh) | 利用修补补片对3d场景进行编码和渲染的方法和装置 | |
WO2021063887A1 (en) | A method and apparatus for encoding, transmitting and decoding volumetric video | |
CN114945946A (zh) | 具有辅助性分块的体积视频 | |
CN115443654A (zh) | 用于对体积视频进行编码和解码的方法和装置 | |
US20220377302A1 (en) | A method and apparatus for coding and decoding volumetric video with view-driven specularity | |
EP4038880A1 (en) | A method and apparatus for encoding, transmitting and decoding volumetric video | |
WO2020185529A1 (en) | A method and apparatus for encoding and decoding volumetric video | |
CN114503554A (zh) | 用于传送体积视频内容的方法和装置 | |
US20220343546A1 (en) | Haptic atlas coding and decoding format | |
US20230224501A1 (en) | Different atlas packings for volumetric video | |
US20230239451A1 (en) | A method and apparatus for encoding and decoding volumetric content in and from a data stream | |
CN115885513A (zh) | 用于对体积视频进行编码和解码的方法和装置 | |
CN114731424A (zh) | 用于对体积视频进行编码、传输和解码的方法和装置 | |
CN117121059A (zh) | 支持光效果的体积视频 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231023 Address after: Paris France Applicant after: Interactive digital CE patent holdings Ltd. Address before: French Sesong Sevigne Applicant before: Interactive digital VC holding France |
|
TA01 | Transfer of patent application right |