KR20220054430A - 볼류메트릭 비디오 콘텐츠를 전달하기 위한 방법 및 장치들 - Google Patents

볼류메트릭 비디오 콘텐츠를 전달하기 위한 방법 및 장치들 Download PDF

Info

Publication number
KR20220054430A
KR20220054430A KR1020227011319A KR20227011319A KR20220054430A KR 20220054430 A KR20220054430 A KR 20220054430A KR 1020227011319 A KR1020227011319 A KR 1020227011319A KR 20227011319 A KR20227011319 A KR 20227011319A KR 20220054430 A KR20220054430 A KR 20220054430A
Authority
KR
South Korea
Prior art keywords
tile
border
tiles
center
list
Prior art date
Application number
KR1020227011319A
Other languages
English (en)
Inventor
베르트랑 쉬뽀
제라르 브리앙
티에리 타피
Original Assignee
인터디지털 브이씨 홀딩스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터디지털 브이씨 홀딩스 인코포레이티드 filed Critical 인터디지털 브이씨 홀딩스 인코포레이티드
Publication of KR20220054430A publication Critical patent/KR20220054430A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/388Volumetric displays, i.e. systems where the image is built up from picture elements distributed through a volume
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Information Transfer Between Computers (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

타일형 볼류메트릭 비디오를 송신하기 위한, 그리고 수신기 측에서, 레거시 디코더와 호환가능한 아틀라스 이미지를 생성하기 위한 방법들, 장치들 및 스트림들이 개시된다. 서버 측에서, 뷰포트 정보가 획득되고, 중심 타일들의 제1 목록 및 경계 타일들의 제2 목록이 선택된다. 중심 타일은 중심 시점에 따라 3D 장면을 이미지 평면 상에 투영함으로써 획득된 이미지의 일부이다. 경계 타일은 교합제거 패치들을 포함하는 이미지이다. 경계 타일들의 크기들 및 형상들은 중심 타일들의 크기 및 형상의 함수이다. 클라이언트 측에서, 타일들은 경계 타일들의 개수, 크기들 및 형상들에 따라 레이아웃들의 세트에서 선택된 레이아웃에 따라 배열된다.

Description

볼류메트릭 비디오 콘텐츠를 전달하기 위한 방법 및 장치들
본 발명의 원리들은 대체적으로 3차원(3D) 장면 및 볼류메트릭 비디오 콘텐츠의 분야에 관한 것이다. 본 문서는 또한, 모바일 디바이스들 또는 헤드 마운트 디스플레이(Head-Mounted Display, HMD)들과 같은 최종 사용자 디바이스들 상의 볼류메트릭 콘텐츠의 렌더링을 위해 3D 장면의 텍스처 및 기하구조를 나타내는 데이터의 인코딩, 포맷팅, 및 디코딩의 맥락에서 이해된다. 특히, 본 발명의 원리들은 뷰포트(viewport) 크기 및 위치에 따라 선택된 타일들의 세트로서 볼류메트릭 비디오 콘텐츠를 전달하는 것에 관한 것이다.
본 섹션은 독자에게 하기에서 기술되고/되거나 청구되는 본 발명의 원리들의 다양한 태양들과 관련될 수 있는 기술의 다양한 태양들을 소개하도록 의도된다. 이러한 논의는 본 발명의 원리들의 다양한 태양들의 더 양호한 이해를 용이하게 하기 위해 독자에게 배경 정보를 제공하는 것에 도움이 되는 것으로 여겨진다. 따라서, 이들 진술들은 이러한 관점에서 읽혀야 하고, 선행 기술의 인정들로서 읽혀서는 안 된다는 것이 이해되어야 한다.
최근, 이용가능한 넓은 시야 콘텐츠(최대 360°)가 성장해 왔다. 그러한 콘텐츠는 헤드 마운트 디스플레이, 스마트글래스, PC 스크린, 태블릿, 스마트폰 등과 같은 몰입형 디스플레이 디바이스들 상의 콘텐츠를 주시하는 사용자에게 완전히 가시적이지 않을 수 있다. 이는, 주어진 순간에, 사용자가 콘텐츠의 일부만을 보는 중일 수 있음을 의미한다. 그러나, 사용자는 전형적으로, 머리 움직임, 마우스 움직임, 터치 스크린, 음성 등과 같은 다양한 수단에 의해 콘텐츠 내에서 내비게이팅할 수 있다. 전형적으로, 이러한 콘텐츠를 인코딩하고 디코딩하는 것이 바람직하다.
360° 플랫 비디오로도 불리는 몰입형 비디오는 사용자가 정지 시점을 중심으로 하는 자신의 머리의 회전을 통해 그 자신 주변의 전부를 주시할 수 있게 한다. 회전은 3 자유도(3 Degrees of Freedom, 3DoF) 경험만을 허용한다. 3DoF 비디오가, 예를 들어 헤드 마운트 디스플레이 디바이스(HMD)를 사용한, 전방향 비디오의 첫 경험에 충분하더라도, 3DoF 비디오는, 예를 들어 시차를 경험함으로써, 더 큰 자유도를 예상하는 뷰어에게 빠르게 실망감을 주게 될 수 있다. 덧붙여, 3DoF는 또한, 사용자가 자신의 머리를 회전시킬 뿐만 아니라 그의 머리를 3개 방향들로도 변환하기 때문에 어지러움을 유발할 수 있는데, 이러한 변환들은 3DoF 비디오 경험들에서 재현되지 않는다.
넓은 시야 콘텐츠는, 특히, 3차원 컴퓨터 그래픽 이미지 장면(3D CGI 장면), 포인트 클라우드 또는 몰입형 비디오일 수 있다. 그러한 몰입형 비디오들을 설계하기 위해 많은 용어들이 사용될 수 있다: 예를 들어, 가상 현실(Virtual Reality, VR), 360, 파노라마, 4π 스테라디안, 몰입형, 전방향 또는 넓은 시야.
볼류메트릭 비디오(6 자유도(6DoF) 비디오로도 알려짐)는 3DoF 비디오에 대한 대안이다. 6DoF 비디오를 주시할 때, 회전들에 더하여, 사용자는 또한, 주시된 콘텐츠 내에서 자신의 머리, 및 심지어 자신의 신체를 변환할 수 있고, 시차(parallax) 및 심지어 볼륨들을 경험할 수 있다. 그러한 비디오들은 몰입감 및 장면 깊이의 인지를 현저히 증가시키고, 머리 변환들 동안 일관된 시각적 피드백을 제공함으로써 어지러움을 방지한다. 콘텐츠는 관심 장면의 색상 및 깊이의 동시 기록을 허용하는 전용 센서들의 수단에 의해 생성된다. 사진측량 기법들과 조합된 컬러 카메라의 리그(rig)의 사용은, 기술적 어려움들이 남아 있더라도, 그러한 기록을 수행하는 방식이다.
3DoF 비디오들이 텍스처 이미지들(예컨대, 위도/경도 투영 맵핑 또는 정방형 투영 맵핑에 따라 인코딩된 구형 이미지들)의 비-맵핑으로부터 기인하는 이미지들의 시퀀스를 포함하지만, 6DoF 비디오 프레임들은 여러 시점들로부터의 정보를 임베드한다. 그들은 3차원 캡처로부터 기인한 일시적인 일련의 포인트 클라우드들로서 보일 수 있다. 뷰잉 조건들에 따라 2개 종류들의 볼류메트릭 비디오들이 고려될 수 있다. 제1 종류(즉, 완전한 6DoF)는 비디오 콘텐츠 내에서 완전한 자유 내비게이션을 허용하는 반면, 제2 종류(3DoF+로도 알려짐)는 사용자 뷰잉 공간을 뷰잉 구속 상자(viewing bounding box)로 불리는 제한적 볼륨으로 한정하여, 머리 및 시차 경험의 제한적 변환을 허용한다. 이러한 제2 맥락은 자리에 앉은 청중 구성원의 자유 내비게이션 조건과 수동 뷰잉 조건 사이의 유용한 절충안이다.
볼류메트릭 비디오는 다량의 데이터가 인코딩될 것을 요구한다. 스트리밍 맥락에서, 그리고 뷰어가 전체 콘텐츠를 살펴보지 않기 때문에, 사용자가 실제로 살펴보고 있는 콘텐츠의 일부만을 송신하고 디코딩하기 위해 타일링(tiling) 접근법이 사용될 수 있다. HEVC 타일링에 기초한 패치 기반 3DoF+ 콘텐츠의 뷰포트 적응적 스트리밍을 위한 솔루션은 하기 3개의 스트림들을 송신하는 것에 있다:
- 텍스처(즉, 색상) 중심 뷰포인트(viewpoint)를 전달하는 360°(3DoF) 비디오 스트림;
- 중심 뷰포인트 및 교합제거(dis-occluded) 부분들의 3D 장면 기하구조를 설명하는 깊이 패치 아틀라스(atlas)를 전달하는 제2 비디오 스트림; 및
- 교합제거 부분들을 묘사하는 텍스처 패치 아틀라스를 전달하는 제3 비디오 스트림
표준형 HEVC 타일링이 제1 비디오 스트림에 적용되는 한편, 더 미세한 타일링 그리드가 2개의 패치 아틀라스들에 사용된다. 인코딩 측에서, 생성된 깊이 및 텍스처 패치들은 중심 비디오의 타일들에 대응하는 클러스터들로 조직되고, 각각의 클러스터는 여러 패치 타일들에 분배된다. 패치 아틀라스 타일들은 상이한 패치 클러스터들에 동적으로 할당되고, 중심 뷰포인트 비디오의 각각의 타일과 그 주어진 시야각 섹터에서의 모션 시차를 위해 요구되는 패치 타일들의 추가적인 목록 사이의 관련성(linking)이 기억된다. 따라서, 3DoF+ 콘텐츠의 뷰포트 적응적 스트리밍이 인에이블되며, 이때 요구되는 텍스처 및 기하구조 데이터만이 주어진 순간에 송신되고 디코딩된다.
하기는 본 발명의 원리들의 일부 태양들에 대한 기본적인 이해를 제공하기 위해 본 발명의 원리들의 단순화된 요약을 제시한다. 이러한 발명의 내용은 본 발명의 원리들의 광범위한 개요가 아니다. 그것은 본 발명의 원리들의 핵심 또는 중요한 요소들을 식별하려고 의도되지 않는다. 하기의 발명의 내용은, 본 발명의 원리들의 일부 태양들을 하기에 제공되는 더 상세한 설명에 대한 서두로서 단순화된 형태로 제시할 뿐이다.
본 발명의 원리들은 하기를 포함하는 방법과 관련된다:
- 3D 장면의 일부의 디스플레이를 위한 뷰포트의 크기 및 위치를 결정하는 단계;
- 뷰포트 정보에 따라 타일 이미지들의 세트를 획득하는 단계 - 세트는 중심 타일들의 제1 목록 및 경계 타일들의 제2 목록을 포함하고, 중심 타일은 중심 시점에 따라 3D 장면을 이미지 평면 상에 투영함으로써 획득된 이미지의 일부이고, 경계 타일은, 일반적으로 패치들로 불리는, 중심 시점과는 상이한 시점에 따라 픽처 평면 상으로의 3D 장면의 일부의 투영을 나타내는 픽처들을 포함하는 이미지이고, 경계 타일은 중심 시점에서 가시적이지 않은 포인트들의 투영들을 포함하고, 모든 중심 타일은 동일한 크기를 갖고, 경계 타일은 중심 타일의 폭 및/또는 높이를 가짐 -; 및
- 레이아웃들의 세트에서 선택된 레이아웃에 따라 배열된 타일 이미지들의 세트를 포함하는 아틀라스 이미지를 생성하는 단계 - 레이아웃은 획득된 중심 및 경계 타일들의 개수에 따라 그리고 경계 타일들의 크기에 따라 선택됨 -.
본 발명의 원리들은 또한, 이러한 방법을 구현하는 디바이스 및 이러한 방법에 의해 그리고 3D 장면을 인코딩함으로써 생성된 스트림에 관한 것이다.
본 발명의 원리들은 또한, 하기를 포함하는 방법과 관련된다:
- 3D 장면의 일부의 디스플레이를 위한 뷰포트의 크기 및 위치를 획득하는 단계;
- 이러한 뷰포트 정보에 따라 중심 타일들의 제1 목록을 선택하는 단계 - 중심 타일은 이미지의 일부이고, 상기 이미지는 중심 시점에 따라 3D 장면을 이미지 평면 상에 투영함으로써 획득되고 중심 이미지로 불림 -;
- 뷰포트 정보에 따라 경계 타일들의 제2 목록을 선택하는 단계 - 경계 타일은, 패치로도 불리는, 중심 시점과는 상이한 시점에 따라 픽처 평면 상으로의 3D 장면의 일부의 투영을 나타내는 픽처들을 포함하는 이미지이고; 따라서, 경계 타일은 중심 시점에서 가시적이지 않은 포인트들의 투영들을 포함하고;
모든 중심 타일은 동일한 크기를 갖고, 경계 타일은 중심 타일의 폭 및/또는 높이를 가짐 -; 및
- 제1 목록 및 제2 목록을 포함하는 타일 이미지들의 세트를 송신하는 단계.
본 발명의 원리들은 또한, 이러한 방법을 구현하는 디바이스 및 이러한 방법에 의해 그리고 3D 장면을 인코딩함으로써 생성된 스트림에 관한 것이다.
첨부 도면을 참조하는 하기의 설명을 읽을 시에, 본 발명이 더 잘 이해될 것이고, 다른 특정 특징들 및 이점들이 드러날 것이다.
- 도 1은 본 발명의 원리들의 비제한적인 실시예에 따른, 객체의 3차원(3D) 모델 및 3D 모델에 대응하는 포인트 클라우드의 포인트들을 도시한다.
- 도 2는 본 발명의 원리들의 비제한적인 실시예에 따른, 3D 장면들의 시퀀스를 나타내는 데이터의 인코딩, 송신, 및 디코딩의 비제한적인 예를 도시한다.
- 도 3은 본 발명의 원리들의 비제한적인 실시예에 따른, 도 10 및 도 11과 관련하여 기술된 방법을 구현하도록 구성될 수 있는 디바이스의 예시적인 아키텍처를 도시한다.
- 도 4는 본 발명의 원리들의 비제한적인 실시예에 따른, 데이터가 패킷 기반 송신 프로토콜을 통해 송신될 때의 스트림의 신택스(syntax)의 일 실시예의 일례를 도시한다.
- 도 5는 본 발명의 원리들의 비제한적인 실시예에 따른, 4개의 투영 중심들의 일례를 갖는 패치 아틀라스 접근법을 도시한다.
- 도 6은 본 발명의 원리들의 비제한적인 실시예에 따른, 3D 장면의 포인트들의 텍스처 정보를 포함하는 아틀라스의 일례를 도시한다.
- 도 7은 본 발명의 원리들의 비제한적인 실시예에 따른, 도 6의 3D 장면의 포인트들의 깊이 정보를 포함하는 아틀라스의 일례를 도시한다.
- 도 8은 본 발명의 원리들에 따른, 서버 측에서의, 도 6 및 도 7에 대응하는 레이아웃을 갖는 아틀라스의 예시적인 타일링의 결과를 도시한다.
- 도 9a 및 도 9b는 본 발명의 원리들의 비제한적인 실시예에 따른, 도 8과 관련하여 기술된 제1 실시예에 따라 선택된 타일들을 도시한다.
- 도 10은 본 발명의 원리들의 비제한적인 실시예에 따른, 중심 및 경계 타일들로부터 아틀라스를 생성하기 위한 방법을 도시한다.
- 도 11은 본 발명의 원리들의 비제한적인 실시예에 따른, 뷰포트의 크기 및 위치의 함수로서 중심 및 경계 타일들을 포함하는 타일 이미지들의 세트를 송신하기 위한 방법을 도시한다.
본 발명의 원리들은 첨부 도면들을 참조하여 이하에서 더욱 완전히 기술될 것이며, 도면들에는 본 발명의 원리들의 예들이 도시되어 있다. 그러나, 본 발명의 원리들은 많은 대안적인 형태들로 구현될 수 있고, 본 명세서에 제시된 예들로 제한되는 것으로 해석되어서는 안 된다. 따라서, 본 발명의 원리들이 다양한 수정들 및 대안적인 형태들을 허용하지만, 이들의 특정 예들은 도면에서 예들로서 도시되어 있고, 본 명세서에서 상세히 기술될 것이다. 그러나, 본 발명의 원리들을 개시된 특정 형태들로 제한하려는 의도는 없지만, 반대로, 본 발명은 청구범위에 의해 정의된 바와 같은 본 발명의 원리들의 사상 및 범주 내에 속하는 모든 수정들, 등가물들 및 대안들을 포괄할 것이라는 것이 이해되어야 한다.
본 명세서에 사용된 용어는 단지 특정 예들을 설명하는 목적을 위한 것이고, 본 발명의 원리들을 제한하는 것으로 의도되지 않는다. 본 명세서에 사용되는 바와 같이, 단수 형태들("a", "an" 및 "the")은, 문맥상 명백히 달리 나타내지 않는 한, 복수의 형태들도 또한 포함하도록 의도된다. 본 명세서에서 사용될 때, 용어들 "포함하다(comprises)", "포함하는(comprising)", "포함하다(includes)" 및/또는 "포함하는(including)"은 언급된 특징부, 정수, 단계, 동작, 요소, 및/또는 컴포넌트의 존재를 명시하지만, 하나 이상의 다른 특징부, 정수, 단계, 동작, 요소, 컴포넌트 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는다는 것이 추가로 이해될 것이다. 게다가, 한 요소가 다른 요소에 "응답"하거나 "접속"되는 것으로 언급될 때, 그것은 또 다른 요소에 직접 응답하거나 접속될 수 있거나, 또는 개재 요소들이 존재할 수 있다. 대조적으로, 한 요소가 다른 요소에 "직접 응답"하거나 "직접 접속"되는 것으로 언급될 때, 어떠한 개재 요소들도 존재하지 않는다. 본 명세서에 사용된 바와 같이, 용어 "및/또는"은 연관된 열거된 항목들 중 하나 이상의 항목들 중 임의의 것 및 그의 모든 조합들을 포함하고, "/"로 약칭될 수 있다.
다양한 요소들을 기술하기 위해 용어들 "제1", "제2" 등이 본 명세서에 사용될 수 있지만, 이들 요소들은 이들 용어들에 의해 제한되어서는 안 된다는 것이 이해될 것이다. 이러한 용어들은 하나의 요소를 다른 요소와 구별하는 데에만 사용된다. 예를 들어, 본 발명의 원리들의 교시로부터 벗어나지 않고서, 제1 요소는 제2 요소로 칭해질 수 있고, 유사하게, 제2 요소는 제1 요소로 칭해질 수 있다.
주요 통신 방향을 보여주기 위해 도면들 중 일부가 통신 경로들 상에 화살표들을 포함하지만, 통신은 묘사된 화살표들과는 반대 방향으로 발생할 수 있다는 것이 이해되어야 한다.
일부 예들은, 각각의 블록이 회로 요소, 모듈, 또는 특정 로직 기능(들)을 구현하기 위한 하나 이상의 실행가능 명령어들을 포함하는 코드의 일부분을 표현하는 블록도들 및 동작 흐름도들과 관련하여 기술된다. 또한, 다른 구현예들에서, 블록들에서 언급된 기능(들)은 언급된 순서를 벗어나 발생할 수 있다는 것에 유의해야 한다. 예를 들어, 연속으로 도시된 2개의 블록들은 실제로, 실질적으로 동시에 실행될 수 있거나, 또는 블록들은 때때로, 관여된 기능에 따라 역순으로 실행될 수 있다.
본 명세서에서 "일례에 따른" 또는 "일례에서"라는 언급은, 그 예와 관련하여 기술되는 특정 특징부, 구조물, 또는 특성이 본 발명의 원리들의 적어도 하나의 구현예에 포함될 수 있음을 의미한다. 본 명세서 내의 다양한 곳들에서 문구 "일례에 따른" 또는 "일례에서"의 출현은 반드시 모두 동일한 예를 지칭하는 것은 아니며, 또는 다른 예들과 반드시 상호 배타적인 별개의 또는 대안적인 예들을 지칭하는 것도 아니다.
청구범위에 나타나는 참조 번호들은 단지 예시를 위한 것이고, 청구범위의 범주에 대해 제한하는 효과를 갖지 않을 것이다. 명시적으로 기술되어 있지 않지만, 본 예들 및 변형예들은 임의의 조합 또는 하위조합에서 채용될 수 있다.
도 1은 객체의 3차원(3D) 모델(10) 및 3D 모델(10)에 대응하는 포인트 클라우드(11)의 포인트들을 도시한다. 3D 모델(10) 및 포인트 클라우드(11)는, 예를 들어, 다른 객체들을 포함하는 3D 장면의 객체의 가능한 3D 표현에 대응할 수 있다. 모델(10)은 3D 메시 표현일 수 있고, 포인트 클라우드(11)의 포인트들은 메시의 정점들일 수 있다. 포인트 클라우드(11)의 포인트들은 또한, 메시의 면들의 표면 상에 펼쳐진 포인트들일 수 있다. 모델(10)은 또한, 포인트 클라우드(11)의 스플랫 버전(splatted version)으로서 표현될 수 있으며, 모델(10)의 표면은 포인트 클라우드(11)의 포인트들을 스플랫함으로써 생성된다. 모델(10)은 복셀(voxel)들 또는 스플라인(spline)들과 같은 많은 상이한 표현들에 의해 표현될 수 있다. 도 1은, 포인트 클라우드가 3D 객체의 표면 표현으로 정의될 수 있고 3D 객체의 표면 표현이 클라우드의 포인트로부터 생성될 수 있다는 사실을 도시한다. 본 명세서에 사용된 바와 같이, 이미지 상에 (3D 장면의 확장 포인트들에 의한) 3D 객체의 포인트들을 투영하는 것은 이러한 3D 객체의 임의의 표현, 예를 들어 포인트 클라우드, 메시, 스플라인 모델 또는 복셀 모델을 투영하는 것과 동등하다.
포인트 클라우드는 메모리에, 예를 들어 벡터 기반 구조로서 표현될 수 있으며, 여기서 각각의 포인트는 뷰포인트의 기준의 프레임 내의 그 자신의 좌표들(예컨대, 3차원 좌표들 XYZ, 또는 뷰포인트로부터의/으로의 입체각(solid angle) 및 거리(깊이로도 불림)) 및 구성요소로도 불리는 하나 이상의 속성들을 갖는다. 구성요소의 일례는 다양한 색 공간들에서 표현될 수 있는 색상 구성요소, 예를 들어 RGB(적색, 녹색, 청색) 또는 YUV(Y는 루마 구성요소이고 UV는 2개의 색차 구성요소들임)이다. 포인트 클라우드는 객체들을 포함하는 3D 장면의 표현이다. 3D 장면은 주어진 뷰포인트 또는 뷰포인트들의 범위로부터 보일 수 있다. 포인트 클라우드는 다수의 방식들에 의해, 예컨대:
Figure pct00001
깊이 활성 감지 디바이스에 의해 선택적으로 보완되는, 카메라들의 리그에 의한 실제 객체 샷의 캡처로부터;
Figure pct00002
모델링 툴에서 가상 카메라들의 리그에 의한 가상/합성 객체 샷의 캡처로부터;
Figure pct00003
실제 객체 및 가상 객체 둘 모두의 혼합으로부터 획득될 수 있다.
도 2는 3D 장면들의 시퀀스를 나타내는 데이터의 인코딩, 송신, 및 디코딩의 비제한적인 예를 도시한다. 인코딩 포맷은, 예를 들어 그리고 동시에, 3DoF, 3DoF+ 및 6DoF 디코딩에 호환가능할 수 있다.
3D 장면들(20)의 시퀀스가 획득된다. 픽처들의 시퀀스가 2D 비디오이므로, 3D 장면들의 시퀀스는 3D(볼류메트릭으로도 불림) 비디오이다. 3D 장면들의 시퀀스는 3DoF, 3DoF+ 또는 6DoF 렌더링 및 디스플레이를 위한 볼류메트릭 비디오 렌더링 디바이스에 제공될 수 있다.
3D 장면들(20)의 시퀀스가 인코더(21)에 제공된다. 인코더(21)는 입력으로서 하나의 3D 장면들 또는 3D 장면들의 시퀀스를 취하고, 입력을 나타내는 비트 스트림을 제공한다. 비트 스트림은 메모리(22) 내에 그리고/또는 전자 데이터 매체 상에 저장될 수 있고, 네트워크(22)를 통해 송신될 수 있다. 3D 장면들의 시퀀스를 나타내는 비트 스트림은 메모리(22)로부터 판독될 수 있고/있거나 디코더(23)에 의해 네트워크(22)로부터 수신될 수 있다. 디코더(23)는 상기 비트 스트림에 의해 입력되고, 예를 들어 포인트 클라우드 포맷으로, 3D 장면들의 시퀀스를 제공한다.
인코더(21)는 여러 단계들을 구현하는 여러 회로들을 포함할 수 있다. 제1 단계에서, 인코더(21)는 각각의 3D 장면을 적어도 하나의 2D 픽처 상에 투영한다. 3D 투영은 3차원 포인트들을 2차원 평면에 맵핑하는 임의의 방법이다. 그래픽 데이터를 디스플레이하기 위한 대부분의 현재 방법들은 평면(여러 비트 평면들로부터의 픽셀 정보) 2차원 매체들에 기초하므로, 이러한 유형의 투영의 사용은, 특히 컴퓨터 그래픽, 엔지니어링 및 드래프팅에서 광범위하다. 투영 회로(211)는 시퀀스(20)의 3D 장면에 대한 적어도 하나의 2차원 프레임(2111)을 제공한다. 프레임(2111)은 프레임(2111) 상에 투영된 3D 장면을 나타내는 색상 정보 및 깊이 정보를 포함한다. 변형예에서, 색상 정보 및 깊이 정보는 2개의 별개의 프레임들(2111, 2112)에 인코딩된다.
메타데이터(212)는 투영 회로(211)에 의해 사용되고 업데이트된다. 메타데이터(212)는 투영 동작에 관한, 그리고 도 5 내지 도 7과 관련하여 기술된 바와 같이 색상 및 깊이 정보가 프레임들(2111, 2112) 내에 조직되는 방식에 관한 정보(예컨대, 투영 파라미터들)를 포함한다.
비디오 인코딩 회로(213)는 프레임들(2111, 2112)의 시퀀스를 비디오로서 인코딩한다. 3D 장면(2111, 2112)의 픽처들(또는 3D 장면의 픽처들의 시퀀스)은 비디오 인코더(213)에 의해 스트림에 인코딩된다. 이어서, 비디오 데이터 및 메타데이터(212)는 데이터 캡슐화 회로(214)에 의해 데이터 스트림에 캡슐화된다.
인코더(213)는, 예를 들어, 하기와 같은 인코더와 호환된다:
- JPEG, 규격 ISO/CEI 10918-1 UIT-T Recommendation T.81, https://www.itu.int/rec/T-REC-T.81/en;
- MPEG-4 AVC 또는 h264로도 명명된 AVC. UIT-T H.264 및 ISO/CEI MPEG-4 파트 10(ISO/CEI 14496-10) 둘 모두에 명시됨, http://www.itu.int/rec/T-REC-H.264/en, HEVC(그의 규격은 ITU website, T recommendation, H series, h265, http://www.itu.int/rec/T-REC-H.265-201612-I/en에 기반함);
- 3D-HEVC(규격이 ITU website, T recommendation, H series, h265, http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I에 기반하는 HEVC의 확장판);
- Google에 의해 개발된 VP9; 또는
- Alliance for Open Media에 의해 개발된 AV1(AOMedia Video 1).
데이터 스트림은 디코더(23)에 의해, 예를 들어 네트워크(22)를 통해 액세스가능한 메모리에 저장된다. 디코더(23)는 디코딩의 상이한 단계들을 구현하는 상이한 회로들을 포함한다. 디코더(23)는 입력으로서 인코더(21)에 의해 생성된 데이터 스트림을 취하고, 헤드 마운트 디바이스(HMD)와 같은 볼류메트릭 비디오 디스플레이 디바이스에 의해 렌더링되고 디스플레이될 3D 장면들(24)의 시퀀스를 제공한다. 디코더(23)는 소스(22)로부터 스트림을 획득한다. 예를 들어, 소스(22)는 하기를 포함하는 세트에 속한다:
- 로컬 메모리, 예컨대, 비디오 메모리 또는 RAM(또는 랜덤 액세스 메모리), 플래시 메모리, ROM(또는 판독 전용 메모리), 하드 디스크;
- 저장소 인터페이스, 예컨대, 대용량 저장소, RAM, 플래시 메모리, ROM, 광학 디스크 또는 자기 지지체를 갖는 인터페이스;
- 통신 인터페이스, 예컨대, 유선 인터페이스(예를 들어, 버스 인터페이스, 광역 네트워크 인터페이스, 근거리 통신망 인터페이스) 또는 무선 인터페이스(예컨대, IEEE 802.11 인터페이스 또는 Bluetooth® 인터페이스); 및
- 사용자가 데이터를 입력할 수 있게 하는 그래픽 사용자 인터페이스와 같은 사용자 인터페이스.
디코더(23)는 데이터 스트림에 인코딩된 데이터를 추출하기 위한 회로(234)를 포함한다. 회로(234)는 입력으로서 데이터 스트림을 취하고, 스트림에 인코딩된 메타데이터(212)에 대응하는 메타데이터(232)와 2차원 비디오를 제공한다. 비디오는 프레임들의 시퀀스를 제공하는 비디오 디코더(233)에 의해 디코딩된다. 디코딩된 프레임들은 색상 및 깊이 정보를 포함한다. 변형예에서, 비디오 디코더(233)는 프레임들의 2개의 시퀀스들을 제공하는데, 하나의 시퀀스는 색상 정보를 포함하고, 다른 시퀀스는 깊이 정보를 포함한다. 회로(231)는 메타데이터(232)를 사용하여, 3D 장면들(24)의 시퀀스를 제공하기 위해 디코딩된 프레임들로부터의 색상 및 깊이 정보를 투영하지 않도록 한다. 3D 장면들(24)의 시퀀스는 3D 장면들(20)의 시퀀스에 대응하며, 이때 정밀도의 가능한 손실은 2D 비디오로서의 인코딩 및 비디오 압축과 관련된다.
비디오 렌더링 디바이스(23)는 제어기, 예를 들어, HMD의 관성 측정 유닛(Inertial Measurement Unit, IMU) 또는 TV 스크린과 연관된 조이스틱에 의해 결정된 시점에 따라 그의 뷰포트에 수신된 3D 장면의 일부를 디스플레이한다. 따라서, 비디오 렌더링 디바이스(23)는 이러한 시점을 나타내는 뷰포트 데이터를 데이터 전달 디바이스로 전송할 수 있다. 이러한 뷰포트 데이터는 이렇게, 또한, 뷰포트에 디스플레이될 3D 장면의 일부를 디코딩하는 데 필요한 볼류메트릭 이미지의 일부를 나타낸다. 뷰포트 데이터는 뷰포트의 크기 및 볼류메트릭 비디오 콘텐츠 내의 그의 위치에 관한 정보를 포함할 수 있다. 데이터 전달 디바이스(예컨대, 인코더(21) 또는 비디오 서버)의 회로(214)는 수신된 뷰포트 데이터를 사용하여, 뷰포트에 대한 볼류메트릭 이미지의 필요한 부분만을 캡슐화할 수 있다.
도 3은 도 10 및 도 11과 관련하여 기술된 방법을 구현하도록 구성될 수 있는 디바이스(30)의 예시적인 아키텍처를 도시한다. 도 2의 인코더(21) 및/또는 디코더(23)는 이러한 아키텍처를 구현할 수 있다. 대안적으로, 인코더(21) 및/또는 디코더(23)의 각각의 회로는, 예를 들어, 그들의 버스(31)를 통해 그리고/또는 I/O 인터페이스(36)를 통해 함께 연결된, 도 3의 아키텍처에 따른 디바이스일 수 있다.
디바이스(30)는 데이터 및 어드레스 버스(31)에 의해 함께 연결되는 하기의 요소들을 포함한다:
- 예를 들어, DSP(또는 디지털 신호 프로세서)인 마이크로프로세서(32)(또는 CPU);
- ROM(또는 판독 전용 메모리)(33);
- RAM(또는 랜덤 액세스 메모리)(34);
- 저장소 인터페이스(35);
- 애플리케이션으로부터의, 송신할 데이터의 수신을 위한 I/O 인터페이스(36); 및
- 전력 공급부, 예컨대 배터리.
일례에 따르면, 전력 공급부는 디바이스의 외부에 있다. 언급된 메모리 각각에서, 본 명세서에서 사용되는 단어 ≪레지스터≫는 작은 용량(약간의 비트들)의 영역 또는 매우 큰 영역(예컨대, 전체 프로그램 또는 다량의 수신되거나 디코딩된 데이터)에 대응할 수 있다. ROM(33)은 적어도 프로그램 및 파라미터들을 포함한다. ROM(33)은 본 발명의 원리들에 따른 기법들을 수행하기 위한 알고리즘들 및 명령어들을 저장할 수 있다. 스위치-온될 때, CPU(32)는 RAM에 프로그램을 업로드하고, 대응하는 명령어들을 실행한다.
RAM(34)은, 레지스터 내의, CPU(32)에 의해 실행되고 디바이스(30)의 스위치-온 후에 업로드된 프로그램, 레지스터 내의 입력 데이터, 레지스터 내의 방법의 상이한 상태들의 중간 데이터, 및 레지스터 내의 방법의 실행을 위해 사용되는 다른 변수들을 포함한다.
본 명세서에 기술된 구현예들은, 예를 들어, 방법 또는 프로세스, 장치, 컴퓨터 프로그램 제품, 데이터 스트림, 또는 신호로 구현될 수 있다. 단일 형태의 구현예의 맥락에서만 논의되더라도(예를 들어, 방법 또는 디바이스로서만 논의됨), 논의된 특징들의 구현예는 또한 다른 형태들(예를 들어, 프로그램)로 구현될 수 있다. 장치는, 예를 들어, 적절한 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어, 예컨대 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그래밍가능 로직 디바이스를 포함하는, 대체적으로 프로세싱 디바이스들로 지칭되는, 예를 들어, 프로세서와 같은 장치에서 구현될 수 있다. 프로세서들은 또한, 예를 들어, 컴퓨터, 셀룰러폰, 휴대용/개인 디지털 어시스턴트("PDA"), 및 최종 사용자들 사이의 정보의 통신을 용이하게 하는 다른 디바이스와 같은 통신 디바이스들을 포함한다.
예들에 따르면, 디바이스(30)는 도 10 및 도 11과 관련하여 기술된 방법을 구현하도록 구성되고, 하기를 포함하는 세트에 속한다:
- 모바일 디바이스;
- 통신 디바이스;
- 게임 디바이스;
- 태블릿(또는 태블릿 컴퓨터);
- 랩톱;
- 정지 픽처 카메라;
- 비디오 카메라;
- 인코딩 칩;
- 서버(예컨대, 브로드캐스트 서버, 주문형 비디오 서버 또는 웹 서버).
도 4는 데이터가 패킷 기반 송신 프로토콜을 통해 송신될 때의 스트림의 신택스의 일 실시예의 일례를 도시한다. 도 4는 볼류메트릭 비디오 스트림의 예시적인 구조물(4)을 도시한다. 구조물은 신택스의 독립적인 요소들로 스트림을 조직하는 컨테이너에 있다. 구조물은 스트림의 모든 신택스 요소들에 공통인 데이터의 세트인 헤더 부분(41)을 포함할 수 있다. 예를 들어, 헤더 부분은 신택스 요소들에 관한 메타데이터의 일부를 포함하며, 이는 그들 각각의 특성 및 역할을 설명한다. 헤더 부분은 또한, 도 2의 메타데이터(212)의 일부, 예를 들어, 프레임들(2111, 2112) 상으로 3D 장면의 포인트들을 투영하기 위해 사용되는 중심 시점의 좌표들을 포함할 수 있다. 구조물은 신택스의 요소(42) 및 신택스의 적어도 하나의 요소(43)를 포함하는 페이로드를 포함한다. 신택스 요소(42)는 색상 및 깊이 프레임들을 나타내는 데이터를 포함한다. 이미지들은 비디오 압축 방법에 따라 압축되었을 수 있다.
신택스의 요소(43)는 데이터 스트림의 페이로드의 일부이고, 신택스의 요소(42)의 프레임들이 어떻게 인코딩되는지에 관한 메타데이터, 예를 들어 프레임들 상에 3D 장면의 포인트들을 투영하고 패킹하기 위해 사용되는 파라미터들을 포함할 수 있다. 그러한 메타데이터는 비디오의 각각의 프레임과 또는 프레임들의 그룹(비디오 압축 표준에서 픽처들의 그룹(Group of Pictures, GoP)으로도 알려짐)에 연관될 수 있다.
도 5는 4개의 투영 중심들의 일례를 갖는 패치 아틀라스 접근법을 도시한다. 3D 장면(50)은 캐릭터를 포함한다. 예를 들어, 투영의 중심(51)은 투시 카메라(perspective camera)이고, 카메라(53)는 정사영 카메라(orthographic camera)이다. 카메라는 또한, 예를 들어, 구형 맵핑(예컨대, 정방형 맵핑) 또는 큐브 맵핑을 갖는 전방향 카메라일 수 있다. 3D 장면의 3D 포인트들은 메타데이터의 투영 데이터에 설명된 투영 동작에 따라, 투영 중심들에 위치된 가상 카메라들과 연관된 2D 평면들 상에 투영된다. 도 5의 예에서, 카메라(51)에 의해 캡처된 포인트들의 투영은 원근 맵핑(perspective mapping)에 따라 패치(52) 상에 맵핑되고, 카메라(53)에 의해 캡처된 포인트들의 투영은 정사영 맵핑에 따라 패치(54) 상에 맵핑된다.
투영된 픽셀들의 클러스터링은 직사각형 아틀라스(55)에 패킹된 다수의 2D 패치들을 산출한다. 아틀라스 내의 패치들의 조직은 아틀라스 레이아웃을 정의한다. 일 실시예에서, 동일한 레이아웃을 갖는 2개의 아틀라스들: 텍스처(즉, 색상) 정보에 대한 하나의 아틀라스 및 깊이 정보에 대한 하나의 아틀라스. 동일한 카메라에 의해 또는 2개의 별개의 카메라들에 의해 캡처된 2개의 패치들은, 예를 들어 패치들(54, 56)과 같은 3D 장면의 동일한 부분을 나타내는 정보를 포함할 수 있다.
패킹 동작은 각각의 생성된 패치에 대한 패치 데이터를 생성한다. 패치 데이터는 투영 데이터에 대한 참조(예를 들어, 투영 데이터에 대한 포인터(즉, 데이터 스트림 내의 또는 메모리 내의 어드레스) 또는 투영 데이터의 테이블 내의 인덱스) 및 아틀라스 내의 패치의 크기 및 위치를 설명하는 정보(예컨대, 상단 좌측 코너 좌표들, 픽셀들의 크기 및 폭)를 포함한다. 하나 또는 2개의 아틀라스들의 압축 데이터와 연관되어 데이터 스트림에 캡슐화될 메타데이터에 패치 데이터 항목들이 추가된다.
도 6은 본 발명의 원리들의 비제한적인 실시예에 따른, 3D 장면의 포인트들의 텍스처 정보(예컨대, RGB 데이터 또는 YUV 데이터)를 포함하는 아틀라스(60)의 일례를 도시한다. 도 5와 관련하여 설명된 바와 같이, 아틀라스는 이미지 패킹 패치들이고, 패치는 3D 장면의 포인트들의 일부를 투영함으로써 획득된 픽처이다.
도 6의 예에서, 아틀라스(60)는 시점에서 가시적인 3D 장면의 포인트들의 텍스처 정보를 포함하는, 중심 텍스처 이미지라고도 불리는 제1 부분(61) 및 하나 이상의 제2 부분들(62)을 포함한다. 제1 부분(61)의 텍스처 정보는, 예를 들어, 등장방형 투영 맵핑에 따라 획득될 수 있고, 등장방형 투영 맵핑은 구형 투영 맵핑의 일례이다. 도 6의 예에서, 제2 부분들(62)은 제1 부분(61)의 경계들에 배열되지만, 제2 부분들은 상이하게 배열될 수 있다. 제2 부분들(62)은 시점에서 가시적인 부분에 상보적인 3D 장면의 부분들의 텍스처 정보를 포함한다. 제2 부분들은 3D 장면으로부터 제1 뷰포인트에서 가시적인 포인트들(이들의 텍스처는 제1 부분에 저장됨)을 제거함으로써, 그리고 동일한 시점에 따라 나머지 포인트들을 투영함으로써 획득될 수 있다. 후자의 프로세스는 3D 장면의 은닉 부분들을 매번 획득하기 위해 반복적으로 반복될 수 있다. 일 변형예에 따르면, 제2 부분들은 3D 장면으로부터 시점, 예를 들어 중심 시점에서 가시적인 포인트들(이들의 텍스처는 제1 부분에 저장됨)을 제거함으로써, 그리고 제1 시점과는 상이한 시점에 따라, 예를 들어 중심 시점 상에 중심을 둔 뷰 공간(예컨대, 3DoF 렌더링의 뷰잉 공간)의 하나 이상의 제2 시점으로부터 나머지 포인트들을 투영함으로써 획득될 수 있다.
제1 부분(61)은 제1 대형 텍스처 패치(3D 장면의 제1 부분에 대응함)로 보일 수 있고, 제2 부분들(62)은 더 작은 텍스처 패치들(제1 부분에 상보적인 3D 장면의 제2 부분들에 대응함)을 포함한다. 그러한 아틀라스는 (제1 부분(61)만을 렌더링할 때) 3DoF 렌더링과 동시에 그리고 3DoF+ / 6DoF 렌더링과 동시에 호환가능하다는 이점을 갖는다.
도 7은 본 발명의 원리들의 비제한적인 실시예에 따른, 도 6의 3D 장면의 포인트들의 깊이 정보를 포함하는 아틀라스(70)의 일례를 도시한다. 아틀라스(70)는 도 6의 텍스처 이미지(60)에 대응하는 깊이 이미지로 보일 수 있다. 도 7의 예에서, 투영의 중심으로부터의 포인트가 가까울수록, 그의 투영의 픽셀은 더 어둡다.
아틀라스(70)는 중심 시점에서 가시적인 3D 장면의 포인트들의 깊이 정보를 포함하는, 중심 깊이 이미지라고도 불리는 제1 부분(71) 및 하나 이상의 제2 부분들(72)을 포함한다. 아틀라스(70)는 아틀라스(60)와 동일한 방식으로 획득될 수 있지만, 텍스처 정보 대신에 3D 장면의 포인트들과 연관된 깊이 정보를 포함한다.
3D 장면의 3DoF 렌더링을 위해, 하나의 시점만이, 전형적으로는 중심 시점이 고려된다. 사용자는 3D 장면의 다양한 부분들을 주시하기 위해 제1 시점을 중심으로 그의 머리를 3개의 자유도로 회전시킬 수 있지만, 사용자는 이러한 고유 시점을 이동시킬 수 없다. 인코딩될 장면의 포인트들은 이러한 고유 시점에서 가시적인 포인트들이고, 텍스처 정보만이 3DoF 렌더링을 위해 인코딩/디코딩될 필요가 있다. 3DoF 렌더링을 위해 이러한 고유 시점에서 가시적이지 않은 장면의 포인트들을 인코딩할 필요가 없는데, 이는 사용자가 그들에 액세스할 수 없기 때문이다.
6DoF 렌더링과 관련하여, 사용자는 장면 내의 모든 곳에서 뷰포인트를 이동시킬 수 있다. 이러한 경우, 비트스트림 내의 장면의 모든 포인트(깊이 및 텍스처)를 인코딩하는 것이 요구되는데, 이는 모든 포인트가 자신의 시점을 이동시킬 수 있는 사용자에 의해 잠재적으로 액세스가능하기 때문이다. 인코딩 스테이지에서, 사용자가 어느 시점으로부터 3D 장면을 관찰할 것인지를 선험적으로 알기 위한 어떠한 수단도 없다.
3DoF+ 렌더링과 관련하여, 사용자는 중심 시점을 중심으로 하는 제한적 공간 내에서 시점을 이동시킬 수 있다. 이는 시차를 경험할 수 있게 한다. 중심 시점(즉, 제1 부분들(61, 71))에 따라 가시적인 3D 장면을 나타내는 데이터를 포함한, 뷰의 공간의 임의의 포인트에서 가시적인 장면의 부분을 나타내는 데이터가 스트림 내에 인코딩될 것이다. 뷰의 공간의 크기 및 형상은, 예를 들어, 인코딩 단계에서 결정 및 판정될 수 있고, 비트스트림에 인코딩될 수 있다. 디코더는 비트스트림으로부터 이러한 정보를 획득할 수 있고, 렌더러(renderer)는 뷰의 공간을 획득된 정보에 의해 결정된 공간으로 제한한다. 다른 예에 따르면, 렌더러는, 예를 들어 사용자의 움직임들을 검출하는 센서(들)의 능력들과 관련하여, 하드웨어 제약들에 따라 뷰의 공간을 결정한다. 그러한 경우, 인코딩 페이즈에서, 렌더러의 뷰의 공간 내의 포인트에서 가시적인 포인트가 비트스트림에 인코딩되지 않은 경우, 이러한 포인트는 렌더링되지 않을 것이다. 추가 예에 따르면, 3D 장면의 모든 포인트를 나타내는 데이터(예컨대, 텍스처 및/또는 기하구조)는 뷰의 렌더링 공간을 고려하지 않고서 스트림에 인코딩된다. 스트림의 크기를 최적화하기 위해, 장면의 포인트들의 서브세트, 예를 들어, 뷰의 렌더링 공간에 따라 보일 수 있는 포인트들의 서브세트만이 인코딩될 수 있다.
도 8은 본 발명의 원리들에 따른, 서버 측에서의, 도 6 및 도 7에 대응하는 레이아웃을 갖는 아틀라스의 예시적인 타일링의 결과를 도시한다. 서버/인코더는 도 6 및 도 7의 예에 따른 아틀라스에 대응하는 이미지를 획득한다. 본 발명의 원리들에 따르면, 중심 이미지(텍스처 및 깊이)는 중심 타일들(81)의 세트로 분할된다. 일 실시예에서, 중심 이미지는 규칙적인 직사각형 그리드를 따라 분할되고, 모든 중심 타일(81)은 동일한 크기(폭 및 높이)를 갖는다. 이러한 실시예에서, 서버/인코더는, 예를 들어, 도 6 및 도 7에 도시된 바와 같이, 중심 이미지의 주변부 또는 경계들에서 교합제거(dis-occluding) 패치들을 포함하는 아틀라스를 수신한다. 일 실시예에서, 교합제거 패치들은 경계 타일들(82 또는 83) 내에 수집된다. 예를 들어, 경계 타일들은 수평 경계 타일들(82) 및/또는 수직 경계 타일들(83)이다. 수평 경계 타일들은 중심 타일들의 폭을 갖고, 수직 경계 타일들은 중심 타일들의 높이를 갖는다. 다른 실시예에서, 수평 경계 타일들의 높이 및 수직 경계 타일들의 폭을 갖는 코너 경계 타일들(84)을 생성하기 위해 코너들이 사용된다. 주어진 크기의 타일들을 구축하는 이점은, 그들이 도 9b와 관련하여 예시된 바와 같이 미리결정된 재구성 레이아웃들에 피팅되도록 적응되게 하는 것이다. 도 8과 관련하여 예시된 실시예들에 따라 타일들을 제조하는 다른 이점은, 그들이 레거시 3DoF+ 프레임워크(3DoF 렌더링과 호환가능함)에서 생성된 아틀라스에 기초하여 구축된다는 것이다. 도 8에서, 파선 직사각형(85)은, 예를 들어, 디코더 클라이언트로부터 획득되고 중심 이미지에 적용된 렌더링 뷰포트 프레임을 나타낸다. 뷰포트 프레임(85)에 의해 오버레이된 중심 타일들은 디코더 클라이언트들로 송신되어야 한다. 다른 중심 타일들은 타일들에 의해 전달하는 원리에 따라 송신되지 않는다. 경계 타일들은 패치들, 즉 중심 뷰의 교합제거 부분들을 파일링을 위해 필요한 3D 장면의 부분들의 투영을 포함한다.
제1 실시예에서, 경계 타일들의 미리결정된 세트, 예를 들어 모든 경계 타일은 뷰포트에 대응하는 중심 타일들과 함께 전달된다. 다른 실시예에서, 예를 들어 제1 레벨의 렌더링에 대한 교합제거 데이터를 수집하도록 준비된 경계 타일들의 주어진 세트는 제1 목록에서 선택된 중심 타일들과 체계적으로 연관된다. 그러한 실시예에서, 디코더는 모든 패치를 수신하고, 따라서, 교합제거 데이터가 필수적으로 획득된다.
제2 실시예에서, 중심 타일들은 경계 타일들의 서브세트와 연관된다. 주어진 중심 타일과 연관된 경계 타일들은, 뷰포트에 대응하는 시점으로부터의 홀(hole)들을 파일링하기 위해 잠재적으로 요구되는 교합제거 데이터를 포함하는 패치들을 포함한다. 이러한 실시예는 경계 타일들 내의 패치들의 조직화를 요구하고, 따라서, 중심 타일은 제한된 개수의 경계 타일들과 연관된다. 뷰포트 데이터를 포함하는 요청이 클라이언트로부터 수신될 때, 뷰포트 데이터에 대응하는 중심 타일들이 선택되고, 이들 선택된 중심 타일들과 연관된 경계 타일들만이 데이터 스트림에 인코딩된다. 이러한 실시예에서, 경계 타일들의 서브세트만이 데이터 스트림에 인코딩되고, 뷰포트에 대응하는 시점으로부터 3D 장면을 재구성하기 위해 필요한 모든 데이터가 디코더에 의해 획득되는 동안 송신된다.
제3 실시예에서, 중심 타일들은 동일한 원리들에 따라 경계 타일들의 서브세트와 연관되고, 중요도 점수가 각각의 경계 타일에 귀속(attributed)된다. 요청이 클라이언트로부터 수신될 때, 수신된 뷰포트 데이터에 대응하는 중심 타일들이 데이터 스트림에 인코딩되고, 선택된 중심 타일들과 연관된 주어진 수의 경계 타일들만이 데이터 스트림에 인코딩된다. 선택된 경계 타일들은, 예를 들어, 더 높은 중요한 점수를 갖는 것들이다. 이러한 실시예에서, 디코더 측에서의 주어진 뷰포인트에 대해, 교합제거 부분들을 재구성하기 위해 요구되는 모든 정보가 이용가능하다는 보장은 없다. 그러나, 전달된 콘텐츠의 크기는 디코더가 선험적으로 알고 있고, 사용될 레이아웃은 미리결정된다. 변형예에서, 특히 수직 및 수평 경계 타일들이 (회전 후) 동일한 크기를 갖지 않는 경우, 도 9a 및 도 9b와 관련하여 예시된 바와 같이 미리결정된 레이아웃을 피팅하도록 주어진 개수의 각각의 유형의 경계 타일들이 선택될 수 있다.
도 9a는 도 8과 관련하여 기술된 제1 실시예에 따라 선택된 타일들을 도시한다. 렌더러의 현재 시점에 대응하는 (그리고 뷰포트 데이터에서 설명되는) 중심 타일들이 선택되었고, 인코딩되었고, 전달되었고, 디코딩되었다. 제1 실시예에서, 모든 경계 타일들이 선택되고, 인코딩되고, 전달되고, 디코딩된다. 따라서, 타일들의 개수, 형상 및 크기는 디코더가 선험적으로 알고 있다. 3DoF+ 디코더는 타일들의 세트가 아닌 아틀라스를 기대하고 있다. 따라서, 도 9b에 예시된 바와 같이, 타일들의 획득된 세트로부터 아틀라스가 재구성되어야 한다. 이러한 실시예에서, 교합제거 패치들은, 그들이 연관되는 중심 타일에 상관없이, 패킹 효율을 유일한 기준으로 하여 경계 타일들 내에 패킹된다. 이러한 솔루션은, 뷰포트가 어떤 것이든, 모든 경계 타일들이 디코딩 측에서 이용가능할 것을 요구한다. 도 9a에 예시된 바와 같이, 모든 경계 타일들은, 뷰포트가 어떤 것이든, 디코더에 전달된다. 도 8의 예에서, 경계 타일들은 중심 타일들과 정렬되고, 따라서, 모든 타일 트랙들을 고정 프레임 크기의 단일 HEVC 컴플라이언트(compliant) 비트스트림으로 재조합하는 것이 항상 가능하다. 그러한 집합(aggregation)은 추출기 트랙들("초기 결합")로 또는 클라이언트 측에서의 비트스트림 재기록("후기 결합")에 의해 수행되고, 단일 비디오 디코더에 HEVC 컴플라이언트 비트스트림을 공급할 수 있게 한다. 2개의 디코더들을 갖는 대안예는 별개의 비트스트림 내의 모든 경계 타일들을 재조합하는 것이다.
제2 실시예에 따르면, 각각의 중심 타일(또는 중심 타일들의 서브세트)은 경계 타일(또는 경계 타일들의 서브세트)과 맵핑된다. 이는, 교합제거 패치들이 먼저, 중심 타일들과 연관된 패치 세트들로 클러스터링되고, 이어서, 그들의 미리정의된 경계 타일들 내에 패킹될 것을 요구한다. 선택된 중심 타일과 맵핑된 경계 타일들만이 주어진 뷰포트에 대해 송신된다. 타일 대응성은 고정되고, 따라서, 디코더로 송신될 필요가 없다. 이러한 제2 실시예는 제1 실시예보다 패킹의 관점에서 덜 효율적이지만, 비트레이트의 관점에서는 더 효율적이다. 예를 들어, 도 8의 7*3개 중심 타일들의 각각의 중심 타일은 도 8의 24개의 경계 타일들 중 하나의 경계 타일과 연관된다. 예를 들어, 상부 행의 타일들은 상부 스트립의 하나의 경계 타일과 연관되고; 하부 행의 타일들은 하부 스트립의 하나의 경계 타일과 맵핑되고; 중간 행의 타일들은 좌측 또는 우측 스트립의 하나의 경계 타일과 연관된다. 그러한 맵핑은, 고정 크기 프레임의 픽셀들의 사용을 최대화하는 주어진 레이아웃에 따라 8개의 연관된 경계 타일들과 함께, 렌더링할 뷰포트를 커버하는, 예를 들어 8개의 중심 타일들을 고정 프레임 크기의 단일 비트스트림 내에 재조합할 수 있게 한다.
제3 실시예에서, 각각의 중심 타일과 연관된 경계 타일(들)은 선험적으로 결정되지 않지만, 콘텐츠 의존적이고, 주어진 아틀라스에 대해 패킹할 교합제거 패치들의 세트의 분석에 의존한다. 패치들은, 예를 들어, 시각적 중요도가 감소되는 순서대로 분류되고, 가장 중요한 것으로 시작하여, 차례로 패킹되며; 그들은 그들이 연관되는 중심 타일에 따라 별개의 경계 타일들에 여전히 할당되지만, 패킹할 교합제거 패치들의 개수에 의존하여, 가변 개수의 경계 타일들이 중심 타일에 부착된다. 프로세스는 모든 패치들이 패킹될 때, 또는 최대 개수의 이용가능한 경계 타일들이 사용될 때 중지된다.
주어진 뷰포트 포지션에 대해, 이제, 모든 경계 타일들이 고정 크기 프레임 내에서 재조합될 수 있다는 어떠한 보장도 없다. 예를 들어, 도 8(우측 부분)의 예에서, 8개의 중심 타일들과 연관된 8개 초과의 경계 타일들이 있을 수 있다. 이를 해결하기 위해, 모든 뷰포트 포지션들을 커버하는 데 필요한 타일들의 모든 가능한 조합들(도 8의 예에 대해서는 14개 조합들)이 차례로 검사된다: 각각의 조합에 대해, 경계 타일들은 시각적 중요도 기준(패킹된 패치들의 시각적 중요도로부터, 예를 들어 그들의 평균 값 내에서 추론됨)에 따라 분류되고, 필요한 경우, 덜 중요한 경계 타일들은 폐기된다.
전술된 맵핑은 교육적 예이다. 타일 기반 뷰포트 의존적 스트리밍 스킴의 파라미터들- 그리드의 행들 및 열들의 개수, 뷰포트의 공간적 커버리지 - 및 디코더 프레임 크기에 따라, 여러 타일 맵핑 변형들이 정의될 수 있다.
상기의 모든 실시예에서, 타일이 데이터 스트림에 인코딩될 때, 연관된 메타데이터가 또한 데이터 스트림에 인코딩된다.
도 10은 본 발명의 원리들의 비제한적인 실시예에 따른, 중심 및 경계 타일들로부터 아틀라스를 생성하기 위한 방법(100)을 도시한다. 단계(101)에서, 3D 장면의 디스플레이를 위한 뷰포트의 위치 및 크기가 결정된다. 뷰포트는 뷰어 주위의 3D 공간의 윈도우이다. 뷰포트는, 예를 들어, 사용자에 의해 착용된 헤드 마운트 디스플레이(HMD) 디바이스의 포즈(즉, 위치 및 배향)에 따라 결정된다. 이러한 포즈 정보는 로컬 또는 원격일 수 있는 회로로 송신된다. 도 11의 방법에 예시된 바와 같이, 회로는 타일 이미지들의 세트를 선택하고, 이들을 본 방법을 구현하는 회로로 송신한다. 단계(102)에서, 타일 이미지들의 이러한 세트가 획득된다. 그 세트는 상이한 특성들의 타일들의 2개의 목록들을 포함한다. 제1 목록은 중심 타일들을 포함한다. 중심 타일은 도 8, 도 9a 및 도 9b에 묘사된 바와 같이 중심 시점에 따라 3D 장면을 이미지 평면 상에 투영함으로써 획득된 이미지의 일부이다. 모든 중심 타일은 동일한 크기를 갖는다. 제2 목록은 경계 타일들을 포함한다. 경계 타일은 도 8, 도 9a 및 도 9b에 묘사된 바와 같이 픽처 평면 상으로의 3D 장면의 일부의 투영을 나타내는 픽처들을 포함하는 이미지이다. 경계 타일은 중심 타일의 폭 및/또는 높이를 갖는다. 중심 타일의 폭을 갖는 경계 타일은 수평 경계 타일로 불리고; 중심 타일의 높이를 갖는 경계 타일은 수직 경계 타일로 불리고; 경계 타일들의 제3 카테고리가 식별될 수 있는데: 수직 수평 타일의 폭과 수평 경계 타일의 높이를 갖는 것들은 코너 경계 타일들로 불린다. 경계 타일들의 이들 상이한 크기들 및 형상들이 도 8에 도시되어 있다. 단계(103)에서, 미리결정된 레이아웃들의 세트에서 일정 레이아웃이 선택된다. 레이아웃은 도 5 내지 도 8과 관련하여 묘사된 바와 같이 아틀라스 이미지에 공지된 크기들 및 형상들의 주어진 개수의 중심 및 경계 타일들을 배열하기 위한 조직이다. 레이아웃들의 예들이 도 9a 및 도 9b에 제공된다. 경계 타일들의 크기 및 형상은 미리결정되고 선험적으로 알려져 있다. 경계 타일들의 크기 및 형상이 중심 타일들의 크기 및 형상의 함수이므로, 아틀라스 이미지를 생성하기 위한 가장 효율적인 레이아웃의 선택은 단계(102)에서 획득된 세트 내의 중심 및 경계 타일들의 개수와 제2 목록 내의 경계 타일들의 크기 및 형상들의 함수이다. 아틀라스 이미지는 미리결정된 크기를 갖고, 레이아웃의 선택은 획득된 타일들이 아틀라스 이미지의 프레임에 피팅하게 한다. 경계 타일들에 포함된 패치들과 관련된 메타데이터는 레이아웃에 의해 동작되는 변환들을 법(法)으로 한(modulo) 아틀라스 이미지와 연관된다. 일 실시예에서, 제2 목록에 포함된 경계 타일들의 개수, 크기 및 형상들은 미리결정된다. 이어서, 선택된 레이아웃은 중심 타일들의 개수만의 함수이다. 다른 실시예에서, 경계 타일들의 개수는 단계(101)에서 결정된 뷰포트에 따라 변한다. 이러한 실시예에서, 레이아웃들의 세트는 타일들의 획득된 세트를 배열하기 위한 상이한 가능성들을 포함한다. 변형예에서, 제2 목록의 경계 타일들은 단계(101)에서 결정된 포즈에 따라 교합제거 영역들을 채우기 위한 패치들의 사용에 대응하는 중요도 점수를 나타내는 값과 연관된다. 어떠한 레이아웃도 획득된 세트의 제2 목록의 모든 경계 타일의 배열을 허용하지 않는 경우, 레이아웃의 선택은 경계 타일들의 중요도 점수, 크기 및 형상의 함수이다. 선택된 레이아웃은 생성된 아틀라스 이미지 내의 중요한 경계 타일들의 배열을 최대화하는 것이다.
도 11은 본 발명의 원리들의 비제한적인 실시예에 따른, 뷰포트의 크기 및 위치의 함수로서 중심 및 경계 타일들을 포함하는 타일 이미지들의 세트를 송신하기 위한 방법(200)을 도시한다. 단계(201)에서, 중심 타일들, 및 경계 타일들에 배열된 패치들의 세트로 분할된 중심 이미지가 획득된다. 도 8에 묘사된 바와 같이, 중심 이미지는 중심 시점에 따라 3D 장면을 이미지 평면 상에 투영함으로써 획득된다. 중심 타일은 중심 이미지의 일부이다. 모든 중심 타일은 동일한 크기를 갖는다. 경계 타일은 픽처 평면 상으로의 3D 장면의 일부의 투영을 나타내는 픽처들인 패치들을 포함하는 이미지이다. 경계 타일은 중심 타일의 폭 및/또는 높이를 갖는다. 중심 타일의 폭을 갖는 경계 타일은 수평 경계 타일로 불리고; 중심 타일의 높이를 갖는 경계 타일은 수직 경계 타일로 불리고; 경계 타일들의 제3 카테고리가 식별될 수 있는데: 수직 수평 타일의 폭과 수평 경계 타일의 높이를 갖는 것들은 코너 경계 타일들로 불린다. 경계 타일들의 이러한 상이한 크기들 및 형상들이 도 8에 도시되어 있다. 단계(202)에서, 뷰포트 정보가 클라이언트 회로로부터 수신된다. 클라이언트 회로는 로컬 또는 원격일 수 있다. 뷰포트 정보는 3D 장면에서 사용자의 뷰를 렌더링하고 디스플레이하기 위해 사용되는 가상 카메라의 포즈(즉, 3D 장면의 3D 공간 내에서의 위치 및 배향)에 대응한다. 단계(203)에서, 중심 타일들의 제1 목록이 이러한 뷰포트 정보의 함수로서 선택된다. 선택된 중심 타일들은 가상 카메라의 포즈에 대한 3D 장면을 렌더링하는 데 필요한 색상 및 깊이 정보를 포함하는 것이다. 가상 카메라의 위치가 중심 이미지를 획득하기 위해 사용된 중심 투영 포인트와 상이할 수 있기 때문에, 일부 패치들은 3D 장면의 렌더링에서 교합제거 영역들을 채우기 위해 선택되어야 한다. 일 실시예에서, 경계 타일들의 제2 목록은 미리결정된다. 예를 들어, 모든 경계 타일이 선택될 수 있다. 다른 실시예에서, 중심 타일들은 제1 목록 내의 이러한 중심 타일의 선택으로 이어지는 상이한 뷰포트들에 대한 교합제거 영역들을 채우기 위해 요구되는 패치들을 포함하는 경계 타일들의 서브세트와 연관된다. 이러한 실시예에서, 제2 목록은 제1 목록에서 선택된 중심 타일들과 연관된 경계 타일들을 포함한다. 따라서, 제2 목록 내의 경계 타일들의 개수, 크기 및 형상은 뷰포트 정보에 전이적으로 의존한다. 다른 실시예에서, 중요도 점수를 나타내는 값은 중심 타일들과 경계 타일들 사이의 모든 연관성에 귀속된다. 점수는 이러한 경계 타일들의 상이한 선택들에 대한 중요도 점수의 함수(예컨대, 최대치)로서 선택된 경계 타일들에 귀속될 수 있다(실제로, 동일한 경계 타일은 여러 중심 타일들과 연관될 수 있음). 변형예에서, 제2 목록의 경계 타일들은 그들의 크기 및 형상과 그들의 상이한 연관성들의 중요도 점수의 함수로서 선택된다. 이러한 변형예에서, (예를 들어, 주어진 레이아웃에 피팅하기 위한 개수, 크기 및 형상 면에서) 중요한 경계 타일들만이 선택되고 송신된다. 단계(204)에서, 제1 및 제2 목록들은, 상이한 타일들을 역투영하기 위해 요구되고 단계(202)에서 뷰포트 정보를 제공한 클라이언트 회로로 송신되는 메타데이터와 연관하여, 타일들의 세트에 수집된다.
본 명세서에 기술된 구현예들은, 예를 들어, 방법 또는 프로세스, 장치, 컴퓨터 프로그램 제품, 데이터 스트림, 또는 신호로 구현될 수 있다. 단일 형태의 구현예의 맥락에서만 논의되더라도(예를 들어, 방법 또는 디바이스로서만 논의됨), 논의된 특징들의 구현예는 또한 다른 형태들(예를 들어, 프로그램)로 구현될 수 있다. 장치는, 예를 들어, 적절한 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어, 예컨대 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그래밍가능 로직 디바이스를 포함하는, 대체적으로 프로세싱 디바이스들로 지칭되는, 예를 들어, 프로세서와 같은 장치에서 구현될 수 있다. 프로세서들은 또한, 예를 들어, 스마트폰, 태블릿, 컴퓨터, 모바일 폰, 휴대용/개인 디지털 어시스턴트("PDA"), 및 최종 사용자들 사이의 정보의 통신을 용이하게 하는 다른 디바이스와 같은 통신 디바이스들을 포함한다.
본 명세서에 기술된 다양한 프로세스들 및 특징들의 구현예들은 여러 가지 상이한 장비 또는 애플리케이션들, 특히, 예를 들어, 데이터 인코딩, 데이터 디코딩, 뷰 생성, 텍스처 프로세싱, 및 이미지들 및 관련 텍스처 정보 및/또는 깊이 정보의 다른 프로세싱과 연관된 장비 또는 애플리케이션들에서 구현될 수 있다. 그러한 장비의 예들은, 인코더, 디코더, 디코더로부터의 출력을 프로세싱하는 후처리-프로세서, 인코더에 입력을 제공하는 전처리-프로세서, 비디오 코더, 비디오 디코더, 비디오 코덱, 웹 서버, 셋톱 박스, 랩톱, 개인용 컴퓨터, 휴대폰, PDA, 및 다른 통신 디바이스를 포함한다. 분명히 알 수 있는 바와 같이, 장비는 모바일일 수 있고, 심지어 모바일 차량에 설치될 수 있다.
추가적으로, 방법들은 프로세서에 의해 수행되는 명령어들에 의해 구현될 수 있고, 그러한 명령어들(및/또는 구현에 의해 생성된 데이터 값들)은, 예를 들어 집적 회로, 소프트웨어 캐리어, 또는 예를 들어, 하드 디스크, 컴팩트 디스켓("CD"), (예를 들어, 종종 디지털 범용 디스크 또는 디지털 비디오 디스크로 지칭되는 DVD와 같은) 광학 디스크, 랜덤 액세스 메모리("RAM"), 또는 판독 전용 메모리("ROM")와 같은 다른 저장 디바이스와 같은 프로세서 판독가능 매체 상에 저장될 수 있다. 명령어들은 프로세서 판독가능 매체 상에 유형적으로 구현된 애플리케이션 프로그램을 형성할 수 있다. 명령어들은, 예를 들어, 하드웨어, 펌웨어, 소프트웨어, 또는 조합으로 있을 수 있다. 명령어들은, 예를 들어, 운영 체제, 별도의 애플리케이션, 또는 그 둘의 조합에서 찾을 수 있다. 따라서, 프로세서는, 예를 들어, 프로세스를 수행하도록 구성된 디바이스, 및 프로세스를 수행하기 위한 명령어들을 갖는 프로세서 판독가능 매체(예컨대, 저장 디바이스)를 포함하는 디바이스 둘 모두로서 특징지어질 수 있다. 또한, 프로세서 판독가능 매체는 구현에 의해 생성된 데이터 값들을, 명령어들에 더하여 또는 이들 대신에, 저장할 수 있다.
당업자에게 명백한 바와 같이, 구현예들은, 예를 들어 저장되거나 송신될 수 있는 정보를 전달하도록 포맷화된 다양한 신호들을 생성할 수 있다. 정보는, 예를 들어, 방법을 수행하기 위한 명령어들, 또는 기술된 구현예들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호는 기술된 실시예의 신택스를 기록하거나 판독하기 위한 규칙들을 데이터로서 전달하기 위해, 또는 기술된 실시예에 의해 기록된 실제 신택스 값들을 데이터로서 전달하기 위해 포맷화될 수 있다. 그러한 신호는, 예를 들어, 전자기파로서(예를 들어, 스펙트럼의 무선 주파수 부분을 사용함) 또는 기저대역 신호로서 포맷화될 수 있다. 포맷화는, 예를 들어, 데이터 스트림을 인코딩하는 것, 및 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수 있다. 신호가 전달하는 정보는, 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 신호는, 알려진 바와 같이, 다양한 상이한 유선 또는 무선 링크들을 통해 송신될 수 있다. 신호는 프로세서 판독가능 매체 상에 저장될 수 있다.
다수의 구현예들이 기술되었다. 그럼에도 불구하고, 다양한 수정들이 이루어질 수 있음이 이해될 것이다. 예를 들어, 다른 구현예들을 생성하기 위해 상이한 구현예들의 요소들이 조합되거나, 보충되거나, 수정되거나, 또는 제거될 수 있다. 추가적으로, 당업자는, 다른 구조들 및 프로세스들이 개시된 것들을 대체할 수 있고, 생성된 구현예들이, 개시된 구현예들과 적어도 실질적으로 동일한 결과(들)를 달성하기 위해, 적어도 실질적으로 동일한 기능(들)을 적어도 실질적으로 동일한 방식(들)으로 수행할 것임을 이해할 것이다. 따라서, 이들 및 다른 구현예들이 본 출원에 의해 고려된다.

Claims (24)

  1. 아틀라스(atlas) 이미지를 생성하기 위한 방법으로서,
    - 3D 장면의 일부의 디스플레이를 위한 뷰포트의 크기 및 위치를 결정하는 단계;
    - 상기 크기 및 위치에 따라 타일 이미지들의 세트를 획득하는 단계 - 상기 세트는 중심 타일들의 제1 목록 및 경계 타일들의 제2 목록을 포함하고, 중심 타일은 중심 시점에 따라 3D 장면을 이미지 평면 상에 투영함으로써 획득된 이미지의 일부이고; 경계 타일은 중심 시점과는 상이한 시점에 따라 픽처 평면 상으로의 3D 장면의 일부의 투영을 나타내는 픽처들을 포함하는 이미지이고, 모든 중심 타일은 동일한 크기를 갖고, 경계 타일은 중심 타일의 폭 및/또는 높이를 가짐 -; 및
    - 레이아웃들의 세트에서 선택된 레이아웃에 따라 배열된 상기 타일 이미지들의 세트를 포함하는 아틀라스 이미지를 생성하는 단계 - 상기 레이아웃은 획득된 중심 및 경계 타일들의 개수에 따라 그리고 경계 타일들의 크기에 따라 선택됨 - 를 포함하는, 방법.
  2. 제1항에 있어서, 경계 타일은 중심 타일의 폭을 갖는 수평 경계 타일, 또는 중심 타일의 높이를 갖는 수직 경계 타일, 또는 수직 수평 타일의 폭과 수평 경계 타일의 높이를 갖는 코너 경계 타일인, 방법.
  3. 제1항 또는 제2항에 있어서, 획득된 경계 타일들의 개수 및 크기는 미리결정되는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 경계 타일은 메타데이터와 연관되고, 상기 메타데이터는 상기 아틀라스 이미지를 생성하기 위해 사용되는, 방법.
  5. 프로세서를 포함하는 아틀라스 이미지를 생성하기 위한 장치로서, 프로세서는,
    - 3D 장면의 일부의 디스플레이를 위한 뷰포트의 크기 및 위치를 결정하고;
    - 상기 크기 및 위치에 따라 타일 이미지들의 세트를 획득하고 - 상기 세트는 중심 타일들의 제1 목록 및 경계 타일들의 제2 목록을 포함하고, 중심 타일은 중심 시점에 따라 3D 장면을 이미지 평면 상에 투영함으로써 획득된 이미지의 일부이고; 경계 타일은 중심 시점과는 상이한 시점에 따라 픽처 평면 상으로의 3D 장면의 일부의 투영을 나타내는 픽처들을 포함하는 이미지이고, 모든 중심 타일은 동일한 크기를 갖고, 경계 타일은 중심 타일의 폭 및/또는 높이를 가짐 -; 그리고
    - 레이아웃들의 세트에서 선택된 레이아웃에 따라 배열된 상기 타일 이미지들의 세트를 포함하는 아틀라스 이미지를 생성하도록 구성되는 - 상기 레이아웃은 획득된 중심 및 경계 타일들의 개수에 따라 그리고 경계 타일들의 크기에 따라 선택됨 -, 장치.
  6. 제5항에 있어서, 경계 타일은 중심 타일의 폭을 갖는 수평 경계 타일, 또는 중심 타일의 높이를 갖는 수직 경계 타일, 또는 수직 수평 타일의 폭과 수평 경계 타일의 높이를 갖는 코너 경계 타일인, 장치.
  7. 제5항 또는 제6항에 있어서, 획득된 경계 타일들의 개수 및 크기는 미리결정되는, 장치.
  8. 제5항 내지 제7항 중 어느 한 항에 있어서, 경계 타일은 메타데이터와 연관되고, 상기 메타데이터는 상기 아틀라스 이미지를 생성하기 위해 사용되는, 장치.
  9. 타일형 볼류메트릭 비디오를 송신하기 위한 방법으로서,
    - 3D 장면의 일부의 디스플레이를 위한 뷰포트의 크기 및 위치를 획득하는 단계;
    - 상기 크기 및 위치에 따라 중심 타일들의 제1 목록을 선택하는 단계 - 중심 타일은 중심 시점에 따라 3D 장면을 이미지 평면 상에 투영함으로써 획득된 이미지의 일부임 -;
    - 상기 크기 및 위치에 따라 경계 타일들의 제2 목록을 선택하는 단계 - 경계 타일은 중심 시점과는 상이한 시점에 따라 픽처 평면 상으로의 3D 장면의 일부의 투영을 나타내는 픽처들을 포함하는 이미지이고, 모든 중심 타일은 동일한 크기를 갖고, 경계 타일은 중심 타일의 폭 및/또는 높이를 가짐 -; 및
    - 상기 제1 목록 및 제2 목록을 포함하는 타일 이미지들의 세트를 송신하는 단계를 포함하는, 방법.
  10. 제9항에 있어서, 경계 타일은 중심 타일의 폭을 갖는 수평 경계 타일, 또는 중심 타일의 높이를 갖는 수직 경계 타일, 또는 수직 수평 타일의 폭과 수평 경계 타일의 높이를 갖는 코너 경계 타일인, 방법.
  11. 제9항 또는 제10항에 있어서, 획득된 경계 타일들의 개수 및 크기는 미리결정되는, 방법.
  12. 제9항 또는 제10항에 있어서, 중심 타일은 경계 타일들의 집합과 연관되고, 상기 제2 목록은 상기 제1 목록의 중심 타일들과 연관된 경계 타일들을 포함하는, 방법.
  13. 제12항에 있어서, 중심 타일과 경계 타일 사이의 연관성은 점수를 갖고, 상기 제2 목록은 상기 제1 목록에서 선택된 중심 타일들과 연관된 경계 타일들의 크기와 상기 연관성의 점수의 함수로서 선택되는, 방법.
  14. 제9항 내지 제13항 중 어느 한 항에 있어서, 경계 타일은 메타데이터와 연관되고, 상기 메타데이터는 상기 아틀라스 이미지를 생성하기 위해 사용되는, 방법.
  15. 프로세서를 포함하는 타일형 볼류메트릭 비디오를 송신하기 위한 장치로서, 프로세서는,
    - 3D 장면의 일부의 디스플레이를 위한 뷰포트의 크기 및 위치를 획득하고;
    - 상기 크기 및 위치에 따라 중심 타일들의 제1 목록을 선택하고 - 중심 타일은 중심 시점에 따라 3D 장면을 이미지 평면 상에 투영함으로써 획득된 이미지의 일부임 -;
    - 상기 크기 및 위치에 따라 경계 타일들의 제2 목록을 선택하고 - 경계 타일은 중심 시점과는 상이한 시점에 따라 픽처 평면 상으로의 3D 장면의 일부의 투영을 나타내는 픽처들을 포함하는 이미지이고, 모든 중심 타일은 동일한 크기를 갖고, 경계 타일은 중심 타일의 폭 및/또는 높이를 가짐 -; 그리고
    - 상기 제1 목록 및 제2 목록을 포함하는 타일 이미지들의 세트를 송신도록 구성되는, 장치.
  16. 제15항에 있어서, 경계 타일은 중심 타일의 폭을 갖는 수평 경계 타일, 또는 중심 타일의 높이를 갖는 수직 경계 타일, 또는 수직 수평 타일의 폭과 수평 경계 타일의 높이를 갖는 코너 경계 타일인, 장치.
  17. 제15항 또는 제16항에 있어서, 획득된 경계 타일들의 개수 및 크기는 미리결정되는, 장치.
  18. 제15항 또는 제16항에 있어서, 중심 타일은 경계 타일들의 집합과 연관되고, 상기 제2 목록은 상기 제1 목록의 중심 타일들과 연관된 경계 타일들을 포함하는, 방법.
  19. 제18항에 있어서, 중심 타일과 경계 타일 사이의 연관성은 점수를 갖고, 상기 제2 목록은 상기 제1 목록에서 선택된 중심 타일들과 연관된 경계 타일들의 크기와 상기 연관성의 점수의 함수로서 선택되는, 방법.
  20. 제15항 내지 제19항 중 어느 한 항에 있어서, 경계 타일은 메타데이터와 연관되고, 상기 메타데이터는 상기 아틀라스 이미지를 생성하기 위해 사용되는, 방법.
  21. 3D 장면의 일부의 디스플레이를 위한 뷰포트의 크기 및 위치에 따른 타일 이미지들의 세트를 포함하는 데이터 스트림으로서, 상기 세트는,
    - 중심 타일들의 제1 목록 - 중심 타일은 중심 시점에 따라 3D 장면을 이미지 평면 상에 투영함으로써 획득된 이미지의 일부임 -; 및
    - 경계 타일들의 제2 목록 - 경계 타일은 중심 시점과는 상이한 시점에 따라 픽처 평면 상으로의 3D 장면의 일부의 투영을 나타내는 픽처들을 포함하는 이미지이고, 모든 중심 타일은 동일한 크기를 갖고, 경계 타일은 중심 타일의 폭 및/또는 높이를 가짐 - 을 포함하는, 데이터 스트림.
  22. 제21항에 있어서, 경계 타일은 중심 타일의 폭을 갖는 수평 경계 타일, 또는 중심 타일의 높이를 갖는 수직 경계 타일, 또는 수직 수평 타일의 폭과 수평 경계 타일의 높이를 갖는 코너 경계 타일인, 데이터 스트림.
  23. 제21항 또는 제22항에 있어서, 획득된 경계 타일들의 개수 및 크기는 미리결정되는, 데이터 스트림.
  24. 제21항 내지 제23항 중 어느 한 항에 있어서, 경계 타일은 메타데이터와 연관되고, 상기 메타데이터는 상기 아틀라스 이미지를 생성하기 위해 사용되는, 데이터 스트림.
KR1020227011319A 2019-09-10 2020-09-02 볼류메트릭 비디오 콘텐츠를 전달하기 위한 방법 및 장치들 KR20220054430A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19306090.2 2019-09-10
EP19306090.2A EP3793199A1 (en) 2019-09-10 2019-09-10 A method and apparatus for delivering a volumetric video content
PCT/US2020/049022 WO2021050336A1 (en) 2019-09-10 2020-09-02 A method and apparatuses for delivering a volumetric video content

Publications (1)

Publication Number Publication Date
KR20220054430A true KR20220054430A (ko) 2022-05-02

Family

ID=68062877

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227011319A KR20220054430A (ko) 2019-09-10 2020-09-02 볼류메트릭 비디오 콘텐츠를 전달하기 위한 방법 및 장치들

Country Status (6)

Country Link
US (1) US20230217006A1 (ko)
EP (2) EP3793199A1 (ko)
KR (1) KR20220054430A (ko)
CN (1) CN114503554A (ko)
BR (1) BR112022004382A2 (ko)
WO (1) WO2021050336A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021249812A1 (en) * 2020-06-09 2021-12-16 Interdigital Ce Patent Holdings, Sas A method and apparatus for encoding and decoding volumetric video

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8385669B2 (en) * 2009-03-04 2013-02-26 Microsoft Corporation Scalable mutable tiled multi-resolution texture atlases
US9024959B2 (en) * 2009-12-21 2015-05-05 Intel Corporation Demand-paged textures
GB201302174D0 (en) * 2013-02-07 2013-03-27 Cardiff Metropolitan University Improvements in and relating to image making
US10469873B2 (en) * 2015-04-15 2019-11-05 Google Llc Encoding and decoding virtual reality video
US10200659B2 (en) * 2016-02-29 2019-02-05 Microsoft Technology Licensing, Llc Collaborative camera viewpoint control for interactive telepresence
EP3526974B1 (en) * 2016-10-12 2021-06-30 Koninklijke KPN N.V. Processing spherical video data on the basis of a region of interest
EP3322186A1 (en) * 2016-11-14 2018-05-16 Thomson Licensing Method and device for transmitting data representative of an image
US10313664B2 (en) * 2017-01-11 2019-06-04 Qualcomm Incorporated Adjusting field of view of truncated square pyramid projection for 360-degree video
WO2019055389A1 (en) * 2017-09-15 2019-03-21 Interdigital Vc Holdings, Inc. METHODS AND DEVICES FOR ENCODING AND DECODING THREE DEGREES OF FREEDOM AND VOLATILE COMPATIBLE VIDEO STREAM
EP3474562A1 (en) * 2017-10-20 2019-04-24 Thomson Licensing Method, apparatus and stream for volumetric video format
EP3496388A1 (en) * 2017-12-05 2019-06-12 Thomson Licensing A method and apparatus for encoding a point cloud representing three-dimensional objects

Also Published As

Publication number Publication date
WO2021050336A1 (en) 2021-03-18
US20230217006A1 (en) 2023-07-06
EP3793199A1 (en) 2021-03-17
CN114503554A (zh) 2022-05-13
EP4029268A1 (en) 2022-07-20
BR112022004382A2 (pt) 2022-05-31

Similar Documents

Publication Publication Date Title
KR102594003B1 (ko) 볼류메트릭 비디오를 인코딩/디코딩하기 위한 방법, 장치 및 스트림
CN112425177B (zh) 用于体积视频传输的方法和装置
US11647177B2 (en) Method, apparatus and stream for volumetric video format
JP2021502033A (ja) ボリュメトリックビデオを符号化/復号する方法、装置、およびストリーム
EP3562159A1 (en) Method, apparatus and stream for volumetric video format
US11968349B2 (en) Method and apparatus for encoding and decoding of multiple-viewpoint 3DoF+ content
KR20220069086A (ko) 볼류메트릭 비디오를 인코딩, 송신 및 디코딩하기 위한 방법 및 장치
CN114930812B (zh) 用于解码3d视频的方法和装置
EP4128765A1 (en) A method and apparatus for encoding and decoding volumetric video
KR20220127246A (ko) 보조 패치들을 갖는 볼류메트릭 비디오
CN114270863A (zh) 一种编码和解码立体视频的方法和装置
KR20220054430A (ko) 볼류메트릭 비디오 콘텐츠를 전달하기 위한 방법 및 장치들
KR20220127258A (ko) 뷰-유도 스펙큘러리티를 갖는 볼류메트릭 비디오를 코딩 및 디코딩하기 위한 방법 및 장치
KR20220066328A (ko) 볼류메트릭 비디오를 인코딩, 송신 및 디코딩하기 위한 방법 및 장치
WO2020185529A1 (en) A method and apparatus for encoding and decoding volumetric video
US20230215080A1 (en) A method and apparatus for encoding and decoding volumetric video
US20220343546A1 (en) Haptic atlas coding and decoding format
US20230032599A1 (en) Methods and apparatuses for encoding, decoding and rendering 6dof content from 3dof+ composed elements
KR20220069040A (ko) 볼류메트릭 비디오를 인코딩, 송신 및 디코딩하기 위한 방법 및 장치