CN114503552B - 用于处理图像内容的方法和装置 - Google Patents

用于处理图像内容的方法和装置 Download PDF

Info

Publication number
CN114503552B
CN114503552B CN202080068250.2A CN202080068250A CN114503552B CN 114503552 B CN114503552 B CN 114503552B CN 202080068250 A CN202080068250 A CN 202080068250A CN 114503552 B CN114503552 B CN 114503552B
Authority
CN
China
Prior art keywords
image
content
distortion
camera
distorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080068250.2A
Other languages
English (en)
Other versions
CN114503552A (zh
Inventor
D·杜瓦扬
F·加尔平
G·博伊松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
InterDigital CE Patent Holdings SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital CE Patent Holdings SAS filed Critical InterDigital CE Patent Holdings SAS
Publication of CN114503552A publication Critical patent/CN114503552A/zh
Application granted granted Critical
Publication of CN114503552B publication Critical patent/CN114503552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • G06T7/596Depth or shape recovery from multiple images from stereo images from three or more stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种用于处理图像内容的方法和***。该方法包括接收关于至少由一个相机捕获的内容图像的信息。内容包括图像的多视图表示,该图像的多视图表示包括畸变的区域和未畸变的区域两者。然后获得相机参数和图像参数并将其用于确定在该图像中哪些区域是未畸变的以及哪些区域是畸变的。这用于使用所确定的未畸变的信息和畸变的信息来计算该图像的深度图。然后对使用该畸变的区域和该未畸变的区域以及对深度图的计算的最终立体图像进行渲染。

Description

用于处理图像内容的方法和装置
技术领域
本实施方案整体涉及图像处理,并且更具体地涉及使用传输的相机参数来在捕获的图像中使用深度图。
背景技术
常规相机捕获来自对可见光敏感的二维传感器设备上的三维场景的光。此类成像设备中使用的光敏技术通常基于能够将光子转换为电子的半导体技术,诸如例如,电耦装置(CCD)或互补金属氧化物技术(CMOS)。例如,数字图像光传感器通常包括感光单元的阵列,每个单元被配置为捕获入射光。从对图像传感器设备的每个感光单元所捕获的光的总量的测量,获得提供空间信息的2D图像。虽然2D图像可以提供关于光传感器的空间点处的光的强度和光的颜色的信息,但是没有提供关于入射光的方向的信息。
由捕获的2D图像生成3D渲染或4D渲染是复杂的,因为必须在事后创建视觉感知。创建准确视觉感知的两个重要考虑因素与视差估计和深度图计算有关。深度图是包含与场景对象的表面与视点之间的距离相关的信息的图像或图像通道。换句话讲,深度图是特殊图像,其中每个像素记录在该位置处所观察的对象相对于相机的距离(或距离的倒数或作为距离的函数的任何信息)。例如,可以使用观察相同视场的若干相机并以视图之间的视差的变化来推导深度,从而计算深度图。在实施过程中,估计的深度图示出假像素。许多原因使深度图难以估计。这些困难中的一些困难可包括:对象从一个相机到另一个相机被部分地遮盖;来自在不同位置处观察到的对象的反射光的变化;没有纹理或几乎没有纹理的表面使视差难以估计;以及相机之间的灵敏度变化。
视差估计与概念在视觉感知中很重要,并且可以被定义为沿着两条不同视线观察的对象的视位置的位移或差异,并且通过这两条线之间的倾角来测量视差。人的每只眼睛具有略微不同的视线,这两条视线既不同又重叠。该概念允许实现深度感知。视差也影响从略微不同的角度查看对象的光学仪器。
在视频和流媒体内容中,提供立体视觉感知甚至变得更加复杂。有时提供以不同角度捕获的相同场景图像的多个视图以形成适当的视差和深度图。然而,存储和处理变得具有挑战性,因为相关数据非常广泛。例如,为了提供运动视差,需要与多视图内容相关的数据。与内容相关的信息必须足够密集以在具有不同视角的情况下提供视图之间的足够的重叠,以允许提供效果。这是任何压缩算法都必须利用和设法解决的一个要素,以便减少要传输的数据的量(这也需要考虑到相应的相机参数)。遗憾的是,在本领域中,现有技术当前未提供简易和实用的技术。因此,希望提供需要更少的数据被捕获并用来提供三维视觉透视图和四维视觉透视图的技术。
发明内容
提供了一种用于处理图像内容的方法和***。该方法包括接收关于至少由一个相机捕获的内容图像的信息。内容包括图像的多视图表示,该图像的多视图表示包括畸变的区域和未畸变的区域两者。然后获得相机参数和图像参数并将其用于确定在所述图像中哪些区域是未畸变的以及哪些区域是畸变的。这用于使用所确定的未畸变的信息和畸变的信息来计算图像的深度图。然后对使用畸变的区域和未畸变的区域以及对深度图的计算的最终立体图像进行渲染。
附图说明
现在将仅以举例的方式并参考以下附图来描述本发明的不同的实施方案,在附图中:
图1是根据实施方案的提供多视图相机的示意图;
图2a和图2b是根据一个实施方案的具有其相关深度图的场景的图示;
图3是根据一个实施方案的图示,其中一个视图的一个像素是相关联的相机位置;
图4示出了根据一个实施方案的相机坐标系;
图5是畸变的内容和相关联的畸变的映射的图示
图6是根据一个或多个实施方案的编码和解码***的示意图;
图7是根据一个实施方案的方法的流程图。
图8是提供多视图采集信息的表的图示
图9是根据一个实施方案的具有二乘二相机参数的科学计算的表的图示;并且
图10是以科学表示来表示矩阵的表的图示。
图11提供了根据一个实施方案的具有科学表示格式的畸变参数的表;
图12是含有畸变参数的表的另一图示
图13是根据一个实施方案的提供与二乘二相机参数组合的未畸变扭曲映射的另一个表;
图14是具有针对具有二乘二相机阵列的实施方案的未畸变扭曲映射参数的又一个表的图示;并且
图15提供了根据一个实施方案的具有两个扭曲映射的表。
具体实施方式
大多数图像捕获提供二维图像。为了形成这些图像的三维渲染或四维渲染,可以使用不同的技术。例如,场景的两个或更多个视图可以用于通过以下方法来重建该场景:使用校准的相机或未校准的相机的立体像对;或使用单个相机获得多个图像;或以不同角度捕获相同的图像,诸如当使用光场/全光相机时。
为了使得能够再形成多维视觉感知,传输的多视图内容需要包括深度信息等相关信息才有效。当使用多于一个相机或角度时,需要针对每个相机的具有明确定义的MVD或多视图和深度格式的深度图。该信息通常以某种格式作为输入进行传输,该输入用于诸如用于视频压缩/解压缩的高效率视频编码(HEVC)标准中的技术的扩展。
如所讨论,为了提供运动视差,多视图内容必须足够密集以在不同视角的情况下提供视图之间的足够的重叠,以实现效果,但是因为这需要大量捕获的信息,所以压缩算法在减少要传输的数据的量方面变得重要。在HEVC编解码器的先前的3D-HEVC和MV-HEVC扩展中,引入了视图间预测。当时,多视图相机***主要被视为仅水平***,并且预测机制仅利用水平方向。因此,视图间差异被定义为水平视差。使用该视差来计算另一视图中的对应像素是可能的。当前相机阵列不再是仅水平的,而是更多地以2D或甚至3D的方式布置。计算相邻视图中的对应像素需要更复杂的处理,该处理必须考虑相应的相机参数。为了克服这些问题和缺点,应提供表征相机的附加信息,诸如畸变信息。在一个实施方案中,可以引入成对相机模式来表示系数矩阵以计算相应视图中的像素位置。
针对内容(诸如6DoF内容)的递送的MPEG-I程序可以允许终端用户在内容内移动并感知视差。客户端侧的渲染内容应实时适应观察者的头部移动。为了形成该视差,不仅应递送通常的2D内容,而且还应提供与以初始角度查看不到,但在观看者移动头部时可从不同角度查看到的内容相对应的内容。该内容通常可由相机阵列捕获,每个相机从略微不同的角度和不同的位置看到场景。相机之间的距离大致给出了***将能够提供的视差的量。在此类情况下,用以传输多视图内容的数据的量可以是详尽的。此外,为了能够合成中间视图以正确地渲染任何观察位置,必须传输与纹理相关联的一些深度图。MVD格式在过去已经被用于提供此类内容。例如,MVD格式已经用作用于HEVC的3D-HEVC扩展的输入格式。在该标准中,相机参数被传输为要在解码器侧使用的SEI消息。
在一些情况下,尤其是当渲染是体积详尽的时,相机参数是强制性的,以便精确地计算空间中的给定点在输入视图中的任何输入视图中的对应位置。例如,在3D-HEVC中,多视图内容仅由水平对齐的相机提供,并且然后该多视图内容可以稍后被矫正。这意味着对不同视图进行预处理以便使其相应的相机主点位于同一网格上。这也意味着对于空间中的给定点,在其对应于两个不同相机的两个不同视图中的位置之间的距离是仅在水平方向上表达的差异。
当使用没有水平对齐、也没有在不考虑任何预处理(诸如畸变校正)的情况下矫正的多个相机时。一些类型的校准可能是期望的,并且相机参数变得重要。所需的相机参数包括:
外部参数,
内部参数,和
畸变参数
内部参数处理相机的内部特性,例如相机的焦距、偏斜、畸变和图像中心。另一方面,外部参数描述该相机在世界中的位置和取向。了解内部参数对于3D计算机视觉是必要的第一步骤,因为其允许您在欧几里得空间中估计场景结构并消除降低精度的透镜畸变。在几何光学器件中,畸变是相对于直线投影的偏差,该直线投影是其中场景中的直线在图像中保持笔直的投影。畸变是光学像差的一种形式。
图6示意性地示出了根据一个或多个实施方案的编码和解码***的一般概述。图6的***被配置为执行一个或多个功能。可以提供预处理模块30以准备用于由编码设备40进行编码的内容。预处理模块30可以执行多图像采集,将采集的多个图像合并在公共空间中。根据采集的视频数据表示,预处理模块30可以执行映射空间变化。在被编码之后,数据(可以是编码的沉浸式视频数据或3D CGI)通常可实现在任何网络接口中,例如存在于网关中。然后,通过通信网络(诸如互联网)来传输数据,但是可以预见任何其他网络。然后,在适当的情况下,经由网络接口60来接收数据。可以在网关、电视、机顶盒、头戴式显示设备、沉浸式(投影式)壁或任何沉浸式视频渲染设备中实现网络接口60。接收后,将数据发送到解码设备700。然后由部件80(可以是播放器)来处理解码的数据。然后为渲染设备90准备数据。
在解码器侧,从流中提取相机参数,并且执行计算,以计算不同视图中的对应像素位置(例如,用于解码过程中的视图预测)。这些计算包括矩阵积和逆矩阵计算,这可能需要大量的计算。为了降低解码器复杂性,从解码器的角度来看,可以在编码器侧预先计算这些相机参数,并且可以以改进的方式在比特流中传输这些相机参数。
图1提供了多视图相机100的示例性视图。在此示例中,提供了16相机阵列110(如110所示,以4相机乘以4相机为基础),该相机阵列可以与一个或多个深度图相关联。在一个实施方案中,深度图可以使用深度的8位表示,但这不是强制性的,并且在另选实施方案中可以变化。然而,此外,图1仅作为示例提供,并且在另选实施方案中可提供带有具有更多或更少相机构件的阵列的其他阵列布置。在包括特定相机阵列的图1的示例中,捕获的视图之间的重叠是重要的,这需要重要的压缩步骤。在图2a和图2b中,为了便于理解,图2a中示出了图像的视图并且在图2b中示出了图像的相关联的深度图(参考210和220处)。
图8示出了提供多视图采集信息的图示的相关联的表(表1)。该表提供HEVC中的SEI消息语法。SEI消息描述了相机的内部参数和外部参数。当前,解码器需要参数以精确地计算空间中的给定点在各视图中的任何视图中的对应位置。此外,先前的描述不包括与每个相机相关联的任何畸变参数。在HEVC的SEI消息中描述的相机的型号仅考虑未畸变的相机。重要的是,提供描述畸变参数的机会以便考虑可能未畸变或畸变的任何种类的内容。
现有技术所呈现的另一个限制在于描述相机参数的方式(HEVC标准中的G.14.2.6章节)是相机参数需要使用的计算的量。每个旋转矩阵或平移矩阵的每个值以科学记号给出。其对应于符号(1位)、指数(6位)和尾数(v位)。也使用相同的记号来描述内部参数(焦点和偏斜点以及主点)。在用于解码器侧之前,该符号需要一些计算。在另选的实施方案中,可以并行地发送这些参数的32位定点版本以简化解码器侧处的计算。
在一个实施方案中,可以简化解码器侧处的计算以移除要在操纵相机参数时完成的计算的一部分。在一个实施方案中,如稍后所论述,可以以非常精确的方式执行此整个计算,该计算相应地提供空间中的给定点从一个视图到另一个视图的位置。这允许提取信息以将对应于一个相机的一个位置转换为对应于另一个相机的另一个位置。在一个实施方案中,可提供预先计算的矩阵以便简化所需的计算的量,特别是在解码器侧上。
在另一个实施方案中,当相机参数已与每个视图的采集相关联时,可以使用允许传输相机参数的技术,该技术:
·集成相机的畸变参数以确保使用任何种类的内容(未畸变的或畸变的)
·通过提议预先计算的矩阵积来解决来自一组两个相机的像素的投影和去投影,从而简化解码器的计算负载;以及
·通过提议预先计算的扭曲映射和未扭曲映射来简化解码器侧的畸变的计算。
此外,为了便于理解提出的概念,以用于编码器的输入格式来呈现多视图和深度格式。(多视图+深度意味着,对于每个视图,RGB内容都与同一像素分辨率下的深度图相关联。可以通过如本领域技术人员所已知的任何方法(计算、测量等)来生成该深度图。在一个实施方案中,为了正确地利用来自多个相机的此类内容,需要校准阶段来确定相机的相对位置(外部参数)和各个相机参数(内部参数),诸如焦距或主点位置。
在一个实施方案中,使用特定测试模式和相关联的软件在拍摄之前完成该校准阶段。为了理解结合本文使用的实施方案中的一些实施方案来开发和使用的技术,需要探究关于多视图和深度内容信息的压缩的一些背景材料。为此,探究以下示例是有用的:该示例使用空间中的不同点的各种视图并针对空间中的这些点中的至少一个点计算不同视图中的对应像素位置。在一个实施方案中,如图3所示,对于一个视图的一个像素,可以计算相关联的相机位置以便确定如由另一个相机针对该点采集的对应位置。在该示例中,该点的位置是相机c中的P(u,v)(参考310),该位置也对应于如由相机c'采集的位置P’(u',v')(参考320)。
在该实施方案中,内部参数和外部参数用于允许计算P’(给定信息与P相关)。将校准的相机视为普通针孔。令为其内部矩阵:
·f代表从出射光瞳到传感器的距离,以像素表示,并且在文献中通常被滥用为“焦距”;
·代表所谓的“主点”的像素坐标,即针孔到传感器上的正交投影;
·α和γ分别代表像素的纵横比和传感器的偏斜系数。
在一个实施方案中,如果为相机的坐标系(CS)中给定点的坐标,则该给定点的图像投影的坐标/>通过以下式给出(以像素为单位):
其中符号≡代表齐次向量之间的等价关系:
代表相机的姿势矩阵,其中/>和/>分别代表相机在参考坐标系(CS)中的取向和位置。相机的外部矩阵由下式定义:
如果和/>分别代表同一点在相机CS和参考CS中的坐标,则/>并且/>这可以通过查看图4来进一步理解。在图4中,在过渡矩阵(420)期间使用过渡矩阵来示出相机坐标系(410)。
对于给定相机和当前视图,令#c为其索引。令为当前像素,并且z为其假定深度。参考视图#c′中的对应匹配为:
鉴于这些参数和公式(1),可以在进行每个相机的传输的同时,针对空间中的一个点计算不同视图中的对应像素位置:
-矩阵K(内部参数)
-矩阵R和矩阵T(旋转矩阵和平移矩阵)
应在解码器侧计算K-1和R-1以执行公式(1)。这是本领域最先进的,K、R和T是作为SEI消息传输的数据(如在本领域技术人员已知的HEVC标准的G.14.2.6章节中所描述)。
实施方案1a:2乘2相机参数,数据的科学表示
为了预先计算一个像素到另一个视图上的投影,而不是传输内部矩阵和外部矩阵,可以针对每组两个相机传输对应于公式(1)的所需的矩阵积。将P替换为P=(RT)并将Q替换为Q=(R-1-R-1.T)
计算公式的右侧部分
然后最终如错误!未找到引用源所示。
因此在存储方面,二乘二相机参数方法每个相机对仅需要3×3矩阵A′cc和3×1向量B′cc
其中
理论上,可以传输相机对的任何组合,这意味着针对n个相机的n2个信息集。然而,在一个实施方案中,不需要预测所有组合中的要(使用已解码的视图)解码的视图。按照编码的视图之间通常的依赖关系,仅需要给定数量的相机对。要传输的对的数量更可能是2*n上的阶,而不是n2“number_of_camera_pairs”。
图9提供了根据一个实施方案的具有二乘二相机参数示例的表(表2)。该表提供了科学表示计算和数。应当指出的是,如所讨论的公式(2)还需要隐式地除以z,以获得这些齐次坐标。为了简化在解码器侧进行的计算,可以通过给定数量的位的偏移(引入给定舍入误差)来逼近该除法。在该示例中,a/z被替换为a/(floor(log2(z)))。
实施方案1b:二乘二相机参数,数据的定点表示法
在该实施方案中(其也在图10的表(表3)中示出,而不是以科学表示来表示Acc'矩阵和Bcc’矩阵两者的任何值),可以呈现关于定点表示法的此类信息。这样,在该表中出现的分量被修改为示出该表中提供的条目。然而,应当指出的是,对于文档的其余部分,对于剩余实施方案中的任何实施方案,参数以科学记号进行描述,可以考虑这些参数中的每个参数的定点表示法的规格。然后可以提议类似的实施方案来处理相同的但采用定点表示法的参数。
呈现光学畸变的多视图内容。
先前的描述基于未畸变的内容,这意味着已经修改了来自相机的初始内容以便消除光学***带来的畸变。现在在不校正该畸变的情况下考虑内容。针孔模型未能提供准确的对应关系,因为实际光学***中出现几何畸变。首先,令代表内部矩阵的前两条线。还令/>代表逆内部矩阵的前两条线。令/>为给定相机的CS的3D点。考虑对应的齐次向量
考虑光学畸变,图像投影公式变成为:
W:R2→R2代表由畸变诱导产生的向前扭曲运算符。W通常是多项式,并且因此由浮点格式的一组系数定义:
{ak}k≤n
文献中存在多种畸变模型。例如,Zhang仅考虑了径向畸变的前两个项(Z.Zhang,“灵活的相机校准新技术(A flexible new technique for camera calibration)”,《IEEETrans.Pattern Analysis&Machine Intelligence》,第22卷,第11期,第1330-1334页,2000年11月):
其中dr=a1.r2+a2.r4代表投影的半径。
另一方面,在其流行的Matlab工具箱中(http://www.vision.caltech.edu/bouguetj/calib_doc/),Bouguet使用更复杂的5系数模型,该模型也考虑了切向畸变和更高阶的径向畸变:
其中
反转此类多项式模型将得到有理分数,这将引起无意义的计算复杂性。通过相同次数的多项式来逼近未畸变1扭曲是非常简单的。
现在可以探究畸变的内容的若干实施方案。第一个实施方案需要多项式计算,但将元数据限制为其最紧凑的形式。后续的实施方案改善循环性能,但需要预先计算未畸变扭曲映射。
实施方案2:具有多项式计算特征的畸变参数
在该实施方案中,基于已应用的模型,要由畸变描述的参数的数量可以是变化的。要传输的第一信息是应用的模型(在已知模型的列表中)。
从模型推导参数的数量。发送畸变信息和未畸变信息两者以避免计算解码侧处的未畸变系数。在语法方面,图11(表4)中反映此类信息的传输。
实施方案3:具有多项式计算特征的与二乘二相机参数表示结合的畸变参数
当考虑畸变时,公式(1)变为:
其中
并且-回顾旋转矩阵和平移向量:
其可以改写为:
其中
还应当指出的是,由于畸变,无法将数学运算作为单个线性代数运算来执行。此外,除了每对相机存储3×3矩阵A′cc和3×1向量B′cc之外,该实施方案还需要每个相机存储两个多项式Wc以及两个2×3矩阵(Kc)和/>
这在图12中示出,参考表5(实施方案3,与二乘二相机对参数结合的畸变参数,采用科学表示)。
实施方案4:使用未畸变扭曲映射的与二乘二相机参数表示结合的畸变的内容
图5是畸变的内容和相关联的畸变的映射的图示。在先前的公式集中,可以通过使用未畸变扭曲映射来避免多项式计算/>由以下公式定义:
公式(5)变为:
或相当于:
其可以改写为:
其中
在存储方面,该实施方案每个相机需要一个多项式Wc、一个未畸变映射和一个2×3矩阵(Kc)(而不是两个多项式和两个2×3矩阵),而且每对相机需要3×3矩阵A′cc和3×1向量B′cc
还应当指出的是,预先计算未畸变扭曲映射允许保存多项式数学运算的一半。扭曲映射可以呈现比输入图像更低的分辨率。在那种情况下,从预先计算的节点内推扭曲的位置。可以在水平方向和竖直方向两者上应用子采样因子,以便减少要传输的信息的量。这在图13中进一步所述,如表6所示。
在另一个实施方案中,不是定义未扭曲映射的子采样因子(Subsampling_factor_X和Subsampling_factor_Y),而是直接地传输未畸变映射的水平大小和竖直大小。然后,如图14所示修改图13的表6,如表7所示。还应当指出的是,通过将子采样因子替换为映射的大小(对于未畸变映射和畸变映射两者),可以针对实施方案5提议类似的实施方案。
实施方案5:使用畸变扭曲映射和未畸变扭曲映射的与二乘二相机参数表示结合 的畸变的内容
扭曲映射也可以用来通过如下定义以避免剩余多项式数学运算:
在这种情况下,公式(4)变为:
其中
或相当于:
其可以改写为:
其中
/>
在传输方面,除了每对相机需要3×3矩阵A′cc和1×3向量B′cc之外,该实施方案每个相机还需要两个扭曲映射和/>这在图15的表8中捕获。
图7是一个实施方案的流程图图示。在图7中,在步骤700处,诸如从处理器接收关于至少由一个相机捕获的内容的信息。可以使用多个相机,并且内容可以包含多个图像或来自多个角度的同一个图像。在一个实施方案中,所接收的信息包括用于内容的未畸变的渲染和畸变的渲染的相机参数,如710中所示。然后在步骤720中计算针对相机的矩阵。在步骤730中,获得畸变参数以处理畸变的内容。在步骤740中,对针对相机对的包括畸变参数的矩阵进行计算。在步骤750中,计算扭曲映射以简化对畸变补偿的计算,然后在步骤760中渲染最终图像。

Claims (20)

1.一种方法,包括:
接收关于至少由至少一对相机捕获的内容图像的信息;
所述内容图像包括图像的多视图表示,所述图像的多视图表示包括畸变的内容和未畸变的内容两者;
获得相机参数和图像参数中的至少一者;
使用所述至少一个图像和相机参数来获得畸变信息,所述畸变信息指示在所述多视图表示中哪些内容是未畸变的以及哪些内容是畸变的;以及
使用所述畸变信息来计算所述图像的深度图;以及
对使用所述畸变信息和所述深度图的最终立体图像进行渲染。
2.根据权利要求1所述的方法,其中所述参数用于提供针对相机对的矩阵。
3.根据权利要求1至2中任一项所述的方法,其中提供所述畸变信息以获得畸变的内容。
4.根据权利要求3所述的方法,其中提供所述畸变信息以获得针对畸变的内容的地址。
5.根据权利要求2所述的方法,其中针对相机对的所述矩阵包括畸变参数。
6.根据权利要求5所述的方法,其中所述畸变信息用于提供畸变补偿值以计算扭曲映射。
7.根据权利要求5所述的方法,其中与所述相机对相关联的所述矩阵用于确定扭曲映射。
8.根据权利要求7所述的方法,其中所述扭曲映射被进一步定义为运动向量的优化。
9.根据权利要求8所述的方法,其中所述扭曲映射与预测模式(mvd)相关联。
10.一种装置,包括:
一个或多个处理器,所述一个或多个处理器被配置用于:
接收关于至少由至少一对相机捕获的内容图像的信息,所述内容图像包括图像的多视图表示,所述图像的多视图表示包括畸变的区域和未畸变的区域两者;
获得相机参数和图像参数中的至少一者;
使用所述至少一个图像和相机参数来获得畸变信息,所述畸变信息指示在所述多视图表示中哪些内容是未畸变的以及哪些内容是畸变的;以及使用所述畸变信息来提供所述图像的深度图;以及
对使用所述畸变的区域和所述未畸变的区域以及对深度图的计算的最终立体图像进行渲染。
11.根据权利要求10所述的装置,其中所述参数用于提供针对相机对的矩阵。
12.根据权利要求10至11中任一项所述的装置,其中提供所述畸变信息以获得畸变的内容。
13.根据权利要求12所述的装置,其中提供所述畸变信息以获得针对畸变的内容的地址。
14.根据权利要求11所述的装置,其中针对相机对的所述矩阵也包括畸变参数。
15.根据权利要求14所述的装置,其中所述畸变信息用于提供畸变补偿值以计算扭曲映射。
16.根据权利要求14所述的装置,其中与所述相机对相关联的所述矩阵用于确定扭曲映射。
17.根据权利要求16所述的装置,其中所述扭曲映射被进一步定义为运动向量的优化。
18.根据权利要求17所述的装置,其中所述扭曲映射与预测模式(mvd)相关联。
19.一种非暂态处理器可读介质,所述非暂态处理器可读介质具有存储在其中的指令,所述指令用于使处理器执行根据权利要求1至10中任一项所述的方法。
20.一种非暂态存储介质,所述非暂态存储介质携带用于执行根据权利要求1至10中任一项所述的方法的程序代码的指令。
CN202080068250.2A 2019-09-30 2020-09-29 用于处理图像内容的方法和装置 Active CN114503552B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19306245.2 2019-09-30
EP19306245 2019-09-30
PCT/EP2020/077179 WO2021063919A1 (en) 2019-09-30 2020-09-29 Method and apparatus for processing image content

Publications (2)

Publication Number Publication Date
CN114503552A CN114503552A (zh) 2022-05-13
CN114503552B true CN114503552B (zh) 2024-06-25

Family

ID=68289896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080068250.2A Active CN114503552B (zh) 2019-09-30 2020-09-29 用于处理图像内容的方法和装置

Country Status (5)

Country Link
US (1) US11962745B2 (zh)
EP (1) EP4038574A1 (zh)
JP (1) JP2022550168A (zh)
CN (1) CN114503552B (zh)
WO (1) WO2021063919A1 (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101166271A (zh) * 2006-10-16 2008-04-23 华为技术有限公司 一种多视点视频编码中的视点差估计/补偿方法
CN101276060A (zh) * 2007-03-29 2008-10-01 三星电子株式会社 控制立体视图或多视图序列图像的动态深度的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2306515A1 (en) * 2000-04-25 2001-10-25 Inspeck Inc. Internet stereo vision, 3d digitizing, and motion capture camera
KR101468267B1 (ko) * 2008-10-02 2014-12-15 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 중간 뷰 합성 및 멀티-뷰 데이터 신호 추출
KR20110124473A (ko) * 2010-05-11 2011-11-17 삼성전자주식회사 다중시점 영상을 위한 3차원 영상 생성 장치 및 방법
WO2020184174A1 (ja) * 2019-03-11 2020-09-17 ソニー株式会社 画像処理装置および画像処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101166271A (zh) * 2006-10-16 2008-04-23 华为技术有限公司 一种多视点视频编码中的视点差估计/补偿方法
CN101276060A (zh) * 2007-03-29 2008-10-01 三星电子株式会社 控制立体视图或多视图序列图像的动态深度的方法和装置

Also Published As

Publication number Publication date
WO2021063919A1 (en) 2021-04-08
CN114503552A (zh) 2022-05-13
US20220311986A1 (en) 2022-09-29
JP2022550168A (ja) 2022-11-30
US11962745B2 (en) 2024-04-16
EP4038574A1 (en) 2022-08-10

Similar Documents

Publication Publication Date Title
EP2761878B1 (en) Representation and coding of multi-view images using tapestry encoding
US20200051269A1 (en) Hybrid depth sensing pipeline
JP5763184B2 (ja) 3次元画像に対する視差の算出
US20110298898A1 (en) Three dimensional image generating system and method accomodating multi-view imaging
KR100770019B1 (ko) 스테레오 카메라의 영상왜곡 보정 장치 및 그 방법
US20120139906A1 (en) Hybrid reality for 3d human-machine interface
US20100231689A1 (en) Efficient encoding of multiple views
US20100134599A1 (en) Arrangement and method for the recording and display of images of a scene and/or an object
JP4939639B2 (ja) 画像処理装置、画像処理方法、プログラム及び記録媒体
TW201703518A (zh) 用於使用深度資訊之全視差壓縮光場合成之方法
JP2014056466A (ja) 画像処理装置及び方法
US10349040B2 (en) Storing data retrieved from different sensors for generating a 3-D image
KR100897542B1 (ko) 임의 시점 영상 합성 시 영상 보정 방법 및 장치
Knorr et al. An image-based rendering (ibr) approach for realistic stereo view synthesis of tv broadcast based on structure from motion
JP2013223008A (ja) 画像処理装置及び方法
JP7171169B2 (ja) ライトフィールド・コンテンツを表す信号を符号化する方法および装置
JP5931062B2 (ja) 立体画像処理装置、立体画像処理方法、及びプログラム
CN114503552B (zh) 用于处理图像内容的方法和装置
Knorr et al. From 2D-to stereo-to multi-view video
TW201605241A (zh) 用於嵌入立體影像的系統、方法及其軟體產品
CN115104121A (zh) 用于处理图像内容的方法和设备
CN117880480A (zh) 一种图像生成方法和电子设备
CN116051916A (zh) 训练数据获取方法、模型训练方法以及视差图像获取方法
Kang et al. Efficient disparity map generation for moving multi-camera system using TOF depth sensor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231009

Address after: Paris France

Applicant after: Interactive digital CE patent holdings Ltd.

Address before: French Sesong Sevigne

Applicant before: Interactive digital VC holdings France Ltd.

TA01 Transfer of patent application right
GR01 Patent grant