KR20220133207A

KR20220133207A - 볼류메트릭 시각 매체 처리 방법 및 장치

Info

Publication number: KR20220133207A
Application number: KR1020227026479A
Authority: KR
Inventors: 쳉 후앙; 야시안 바이
Original assignee: 지티이 코포레이션
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2022-10-04
Also published as: CN115039404A; WO2021109412A1; EP4085618A4; US20220360819A1; JP2023518337A; EP4085618A1

Abstract

볼류메트릭 시각 데이터의 처리를 위한 방법들 및 장치들이 설명된다. 하나의 예시적인 방법은 디코더에 의해, 하나 이상의 아틀라스 서브 비트스트림 및 하나 이상의 인코딩된 비디오 서브 비트스트림으로서 표현되는 3차원 장면에 대한 볼류메트릭 시각 정보를 포함하는 비트스트림을 디코딩하는 단계, 하나 이상의 아틀라스 서브 비트스트림을 디코딩한 결과 및 하나 이상의 인코딩된 비디오 서브 비트스트림을 디코딩한 결과를 사용하여, 3차원 장면을 재구성하는 단계, 및 원하는 뷰잉 위치 및/또는 원하는 뷰잉 배향에 기초하여 3차원 장면의 타겟 뷰를 렌더링하는 단계를 포함한다.

Description

볼류메트릭 시각 매체 처리 방법 및 장치

본 특허 명세서는 볼류메트릭 시각 매체 처리 및 송신 기술들에 관한 것이다.

비디오 인코딩은 압축 툴들을 사용하여, 2차원 비디오 프레임들을, 네트워크를 통해 저장 또는 전송하기에 보다 효율적인 압축된 비트스트림 표현으로 인코딩한다. 인코딩에 2차원 비디오 프레임들을 사용하는 전통적인 비디오 코딩 기술들은 때때로 3차원 시각 장면의 시각 정보의 표현에 비효율적이다.

본 특허 명세서는 특히, 볼류메트릭 시각 매체와 관련된 시각 정보를 반송(carry)하는 디지털 비디오를 인코딩 및 디코딩하기 위한 기술들을 설명한다.

하나의 예시적인 양태에서, 볼류메트릭 시각 데이터 처리 방법이 개시된다. 본 방법은 디코더에 의해, 하나 이상의 아틀라스(atlas) 서브 비트스트림 및 하나 이상의 인코딩된 비디오 서브 비트스트림으로서 표현되는 3차원 장면에 대한 볼류메트릭 시각 정보를 포함하는 비트스트림을 디코딩하는 단계, 하나 이상의 아틀라스 서브 비트스트림을 디코딩한 결과 및 하나 이상의 인코딩된 비디오 서브 비트스트림을 디코딩한 결과를 사용하여, 3차원 장면을 재구성하는 단계, 및 원하는 뷰잉 위치 및/또는 원하는 뷰잉 배향에 기초하여 3차원 장면의 타겟 뷰를 렌더링하는 단계를 포함한다.

다른 예시적인 양태에서, 볼류메트릭 시각 데이터를 포함하는 비트스트림을 생성하기 위한 방법이 개시된다. 본 방법은 인코더에 의해, 하나 이상의 아틀라스 서브 비트스트림 및 하나 이상의 인코딩된 비디오 서브 비트스트림을 사용하여 3차원 장면에 대한 볼류메트릭 시각 정보를 포함하는 비트스트림을 표현함으로써 생성하는 단계, 및 비트스트림에, 원하는 뷰잉 위치 및/또는 원하는 뷰잉 배향에 기초하여 3차원 장면의 타겟 뷰의 렌더링을 가능하게 하는 정보를 포함시키는 단계를 포함한다.

다른 예시적인 양태에서, 상술된 방법들 중 하나 이상을 구현하기 위한 장치가 개시된다. 본 장치는 설명된 인코딩 또는 디코딩 방법들을 구현하도록 구성된 프로세서를 포함할 수 있다.

또 다른 예시적인 양태에서, 컴퓨터 프로그램 저장 매체가 개시된다. 컴퓨터 프로그램 저장 매체는 컴퓨터 프로그램 저장 매체 상에 저장된 코드를 포함한다. 코드는 프로세서에 의해 실행될 때, 프로세서로 하여금 설명된 방법을 구현하게 한다.

이들 양태들 및 다른 양태들은 본 명세서에서 설명된다.

도 1은 아틀라스 생성을 위한 그룹 기반 인코딩의 예시적인 프로세스 흐름을 도시한다.
도 2는 아틀라스 그룹들을 갖는 V-PCC 비트스트림의 멀티 트랙 캡슐화의 예를 도시한다.
도 3은 다수의 아틀라스들을 갖는 V-PCC 비트스트림의 멀티 트랙 캡슐화의 예를 도시한다.
도 4는 예시적인 볼류메트릭 시각 매체 처리 방법의 흐름도이다.
도 5는 예시적인 볼류메트릭 시각 매체 처리 방법의 흐름도이다.
도 6은 본 기술에 따른 볼류메트릭 시각 매체 데이터 인코딩 장치의 예의 블록도이다.
도 7은 본 기술에 따른 볼류메트릭 시각 매체 처리 장치의 예의 블록도이다.
도 8은 본원에서 설명된 볼류메트릭 시각 매체 처리 방법을 구현하기 위한 하드웨어 플랫폼의 블록도이다.

섹션 표제들은 본 명세서에서 단지 가독성을 개선하기 위해 사용되고, 각 섹션에서 개시된 실시예들 및 기술들의 범위를 단지 그 섹션으로 제한하지 않는다. 특정 특징들은 H.264/AVC 및 H.265/HEVC, MPEG 및 MPEG-DASH 표준들의 예를 사용하여 설명된다. 그러나, 개시된 기술들의 적용가능성은 이들 표준들로만 제한되지 않는다.

본 명세서에서, 포인트 클라우드(point cloud) 데이터 처리를 위한 다양한 신택스(syntax) 요소들이 상이한 섹션들에서 개시된다. 그러나, 달리 언급되지 않는 한, 동일한 명칭을 갖는 신택스 요소는 상이한 섹션들에서 사용되는 포맷 및 신택스와 동일한 포맷 및 신택스를 가질 것으로 이해된다. 또한, 상이한 섹션 표제들 하에서 설명되는 상이한 신택스 요소들 및 구조들은 다양한 실시예들에서 함께 조합될 수 있다. 또한, 특정 구조들이 구현예들로서 설명되지만, 본 명세서에서 달리 언급되지 않는 한, 신택스 구조들의 다양한 엔트리들의 순서는 변경될 수 있는 것으로 이해될 것이다.

1. 간단한 논의

전통적으로, 이미지 및 비디오와 같은 디지털 시각 매체의 캡처, 처리, 저장 및 제시는 시각 장면의 2차원 프레임 기반 캡처를 사용한다. 지난 몇 년간, 사용자 경험을 3차원으로 확장하려는 관심이 증가하고 있다. 다양한 산업 표준들은 3D 시각 장면들의 캡처, 반송, 및 제시와 관련된 이슈들을 해결하기 시작했다. 특히, 일군의 기술들은 전통적인 프레임 기반 (2D) 비디오 인코딩 툴들을 사용하여, 3D 정보를 2D 평면들 상에 투영함으로써 3D 시각 정보를 인코딩한다.

두 가지 주목할 만한 기술들은 비디오 기반 포인트 클라우드 압축(video-based point cloud compression, V-PCC) 및 동영상 전문가 그룹(Moving Pictures Experts Group, MPEG) 몰입형 비디오(Immersive Video, MIV) 발의안의 사용을 포함한다.

1.1 비디오 기반 포인트 클라우드 압축(V-PCC)

비디오 기반 포인트 클라우드 압축(V-PCC)은 포인트 클라우드 시각 정보의 볼류메트릭 인코딩을 나타내고, AVC, HEVC, 및 VVC와 같은 MPEG 비디오 코덱들을 이용함으로써 포인트 클라우드 데이터의 효율적인 캡처, 압축, 재구성, 및 렌더링을 가능하게 한다. 코딩된 포인트 클라우드 시퀀스(coded point cloud sequence, CPCS)를 포함하는 V-PCC 비트스트림은 시퀀스 파라미터 세트(sequence parameter set, SPS) 데이터, 아틀라스 정보 비트스트림, 2D 비디오 인코딩된 점유 맵(occupancy map) 비트스트림, 2D 비디오 인코딩된 기하구조(geometry) 비트스트림, 및 0개 이상의 2D 비디오 인코딩된 속성 비트스트림을 반송하는 VPCC 유닛들로 구성된다. 각 V-PCC 유닛은 V-PCC 유닛의 유형을 기술하는 V-PCC 유닛 헤더, 및 V-PCC 유닛 페이로드를 갖는다. 점유, 기하구조, 및 속성 V-PCC 유닛들의 페이로드는 대응하는 점유, 기하구조, 및 속성 파라미터 세트 V-PCC 유닛에서 특정된 비디오 디코더에 의해 디코딩될 수 있는 비디오 데이터 유닛들(예를 들어, HEVC NAL 유닛들)에 대응한다.

1.2 ISOBMFF의 V-PCC 반송

V-PCC 기본 스트림(elementary stream) 내의 V-PCC 유닛들은 자신들의 유형들에 기초하여 ISOBMFF 파일 내의 개별 트랙들에 맵핑된다. 멀티 트랙 ISOBMFF V-PCC 컨테이너에는 두 가지 유형들의 트랙들, 즉 V-PCC 트랙 및 V-PCC 컴포넌트 트랙이 존재한다. ISOBMFF는 디지털 비디오 및 오디오 정보의 다수의 트랙들의 표현을 위한 대중적인 파일 포맷이다.

V-PCC 트랙은 시퀀스 파라미터 세트들 및 패치 정보 서브 비트스트림을 포함하는, 볼류메트릭 시각 정보를 V-PCC 비트스트림으로 반송하는 트랙이다. V-PCC 컴포넌트 트랙들은 V-PCC 비트스트림의 점유 맵, 기하구조, 및 속성 서브 비트스트림들에 대한 2D 비디오 인코딩된 데이터를 반송하는 제한된 비디오 스킴 트랙들이다. 이러한 레이아웃에 기초하여, V-PCC ISOBMFF 컨테이너는 다음을 포함할 것이다:

시퀀스 파라미터 세트들(샘플 엔트리 내), 및 시퀀스 파라미터 세트 V-PCC 유닛(유닛 유형 VPCC_VPS) 및 아틀라스 V-PCC 유닛들(유닛 유형 VPCC_AD)의 페이로드들을 반송하는 샘플들을 포함하는 V-PCC 트랙. 이 트랙은 또한 비디오 압축된 V-PCC 유닛들(즉, 유닛 유형들 VPCC_OVD, VPCC_GVD, 및 VPCC_AVD)의 페이로드들을 반송하는 다른 트랙들에 대한 트랙 레퍼런스들을 포함한다.

샘플들이 점유 맵 데이터(즉, 유형 VPCC_OVD의 V-PCC 유닛들의 페이로드들)에 대한 비디오 코딩된 기본 스트림의 액세스 유닛들을 포함하는 제한된 비디오 스킴 트랙.

샘플들이 기하구조 데이터(즉, 유형 VPCC_GVD의 V-PCC 유닛들의 페이로드들)에 대한 비디오 코딩된 기본 스트림들의 액세스 유닛들을 포함하는 하나 이상의 제한된 비디오 스킴 트랙들.

샘플들이 속성 데이터(즉, 유형 VPCC_AVD의 V-PCC 유닛들의 페이로드들)에 대한 비디오 코딩된 기본 스트림들의 액세스 유닛들을 포함하는 0개 이상의 제한된 비디오 스킴 트랙.

1.3 MPEG 몰입형 비디오(MIV)

MPEG는 몰입형 비디오 컨텐츠의 압축을 지원하기 위해 국제 표준(ISO/IEC 23090-12), 즉 MPEG 몰입형 비디오(MIV)를 개발하고 있으며, 여기서 실제 또는 가상 3D 장면은 다수의 실제 또는 가상 카메라들에 의해 캡처된다. MIV 컨텐츠는 6 자유도(6DoF)로, 제한된 뷰잉 위치 및 배향 범위 내 3차원(3D) 장면의 재생을 위한 지원을 제공한다.

MIV 및 V-PCC 기술들은 3D 장면들 및 객체들을 볼 수 있는 유사한 최종 사용자 경험을 제공하는 것을 목표로 하지만, 이들 솔루션들에 의해 취해지는 접근법들에는 여러 차이점들이 존재한다. 예를 들어, MIV는 3D 볼류메트릭 시각 데이터에 대한 뷰 기반 액세스를 제공할 것으로 예상되는 한편, V-PCC는 3차원 볼류메트릭 시각 데이터에 대한 투영 기반 액세스를 제공한다. 이에 따라, MIV는 뷰어에게 보다 더 현실적이고, 사용자 제어되며, 훨씬 더 높은 몰입형 경험을 제공할 사용자 경험을 제공할 것으로 예상된다. 그러나, MIV의 신속하고 호환가능한 채택을 보장하기 위해 V-PCC에서 이용가능한 기존의 비트스트림 신택스 및 파일 포맷 정보의 일부를 사용하는 것이 여전히 바람직할 것이다.

2. 인코더측에서 고려되는 예시적인 이슈들

MIV의 인코더측에서, 뷰 표현은 적어도 심도/점유 컴포넌트의 2D 샘플 어레이들이고, 뷰 파라미터들을 사용하여 표면 상으로의 3D 장면의 투영을 표현하는 임의적인 텍스처 및 엔티티 성분들을 갖는다. 뷰 파라미터들은 내부(intrinsic) 및 외부(extrinsic) 파라미터들을 포함하여, 3D 장면으로부터 뷰 표현을 생성하기 위해 사용되는 투영을 정의한다. 이러한 맥락에서, 소스 뷰는 뷰 표현의 포맷에 대응하는 인코딩 전의 소스 비디오 자료를 나타내며, 이는 소스 카메라 파라미터들을 사용하여 실제 카메라에 의한 3D 장면의 캡처에 의해 또는 가상 카메라에 의한 표면 상으로의 투영에 의해 획득되었을 수 있다.

2.1 그룹 기반 인코더

그룹 기반 인코더는 뷰들을 다수의 뷰 그룹들로 분할하고, 다수의 단일 그룹 인코더들을 사용하여 뷰 그룹들 각각을 독립적으로 인코딩하는 MIV 최상위 인코더이다. 소스 뷰들은 다수의 단일 그룹 인코더들 ― 각각 소스 뷰들을 기초 뷰들 또는 추가 뷰들로서 라벨링하는 뷰 최적화기, 및 기초 및 추가 뷰들을 이들의 파라미터들 및 출력 아틀라스들 및 연관된 파라미터들과 함께 입력으로서 취하는 아틀라스 구성자를 가짐 ― 에 분산된다.

아틀라스들의 텍스처 및 심도를 인코딩하기 위해 HEVC(High Efficiency Video Coding) 인코더와 같은 MPEG 비디오 코덱들이 사용될 것이다. 결과적인 속성 및 기하구조 비디오 스트림들은 MIV 메타데이터와 함께 멀티플렉싱되어 최종 MIV 비트스트림을 형성할 것이다.

3. 디코더측에서 고려되는 예시적인 이슈들

MIV 디코더는 MIV 비트스트림의 파싱 및 디코딩을 핸들링하여, 디코딩된 기하구조 화상들, 텍스처 속성 화상들 및 MIV 메타데이터를 프레임별로 출력한다.

MIV 디코더의 렌더링 부분에 대해, MIV 렌더링 엔진은 공칭 아틀라스 해상도에서 기하구조 프레임을 재구성한 다음, 공칭 아틀라스 해상도에서 업스케일링된 디코딩된 기하구조 프레임의 샘플을 미터 단위의 부동 소수점 심도 값으로 변환한다. MIV 디코더의 출력은 원하는 뷰잉 포즈에 따른 원근 뷰포트 또는 전방향 뷰로서, 제한된 공간 내의 움직임 시차 단서들을 가능하게 한다. 이를 위해, MIV 렌더링 엔진은 재구성된 뷰들의 재구성 및 재구성된 뷰의 뷰포트로의 픽셀 투영을 이행한다.

3D 장면들의 V-PCC 기반 표현에서, 3D 시각 매체의 고정된 수의 투영이 비트스트림으로 표현된다. 예를 들어, 경계 박스의 6면에 대응하는 6 투영이 2D 시각 이미지로 변환되고, 전통적인 비디오 코덱 기술을 사용하여 인코딩될 수 있다. 그러나, V-PCC는 사용자가 3D 장면들의 유한한 수의 투영을 시청하기 보다는, 상이한 뷰포인트들로부터 3D 장면을 시청하고자 하는 사용자 경험을 지원할 수 없다. 이에 따라, 볼류메트릭 비디오 데이터의 이러한 뷰포인트 기반 렌더링에서, 디코더에서의 렌더러가 비트스트림을 통해 파싱하고 사용자에 대한 원하는 뷰포인트에 기초하여 매체 데이터를 리트리브(retrieve)할 수 있는 방식으로, 인코더로 하여금 3D 볼류메트릭 데이터를 나타내는 비트스트림을 구축할 수 있게 하는 비트스트림 레벨(예를 들어, 실제 장면을 나타내는 비트들), 또는 파일 레벨(예를 들어, 매체 데이터를 논리적 파일 그룹들로 조직화), 또는 시스템 레벨(예를 들어, 전송 및 메타데이터 레벨)에서 이러한 시각 데이터를 어떻게 나타내는지 현재 알려져 있지 않다.

또한, V-PCC 트랙들의 현재 조직이 MIV에서의 다수의 뷰들의 사용을 수용하도록 어떻게 확장될 수 있는지 알려져 있지 않다. 예를 들어, 3D 장면을 렌더링하기 위해 원하는 뷰들과, V-PCC 트랙들 사이의 맵핑을 어떻게 수행하는지 알려져 있지 않다. 예를 들어, MIV 구현은 비트스트림으로 인코딩될 수 있는 10개 또는 40개 또는 심지어 100개의 상이한 뷰들을 사용할 수 있다. 디코더 또는 렌더러가 원하는 비디오 또는 이미지 트랙의 위치를 찾고 뷰어의 원하는 위치 또는 뷰포인트에 대한 뷰를 렌더링하기 위해 비트스트림의 시스템 계층을 파싱할 수 있도록 트랙 구조를 사용하여 상이한 뷰들을 어떻게 시그널링하는지 현재 알려져 있지 않다.

상기한 문제, 및 다른 문제들을 해결하기 위한 다양한 실시예들이 본 명세서에서 개시된다. 예를 들어, 본 명세서 전체에 걸쳐 추가로 설명되는 바와 같이, 뷰 그룹들 내의 다수의 뷰들의 인코딩 및 디코딩 및 아틀라스들에 대한 하나 이상의 서브 스트림의 사용을 가능하게 하는 솔루션들이 제공된다.

3.1 그룹 기반 렌더러

그룹 기반 렌더러는 각 아틀라스 그룹 내의 로컬 패치들로부터 개별적으로 렌더링할 수 있다. 렌더러의 프로세스는 그룹 선택 스테이지, 상이한 아틀라스 세트로 합성기를 각각 실행하고 합성된 중간 뷰를 출력하는 다수의 패스들, 및 모든 합성된 중간 뷰들을 원하는 최종 뷰포트, 예를 들어, 원하는 뷰잉 위치 및 배향에서 원근 뷰포트 또는 전방향 뷰 중 어느 하나를 나타내는 타겟 뷰로 병합하는 병합 스테이지로 구성된다.

3.2 다수의 아틀라스들을 갖는 V-PCC 데이터의 반송

의도된 응용의 차이에도 불구하고, 입력 데이터 포맷 및 렌더링, 비디오 기반 포인트 클라우드 압축(V-PCC) 및 MPEG 몰입형 비디오(MIV)는 인코딩된 도메인에서의 정보, 즉 3D 공간 데이터가 2D 패치 맵들로 분할되고 2D 아틀라스 프레임들로서 인코딩된 정보를 나타내기 위한 동일한 코어 툴들을 공유한다. 이에 따라, V-PCC 기본 비트스트림은 MIV 컨텐츠를 반송하기 위한 하나보다 많은 아틀라스들을 포함할 수 있다.

6DOF 환경에서 ISO/IEC 23090-12에서 정의된 MPEG 몰입형 비디오로서 압축된 볼류메트릭 시각 매체의 효율적인 액세스, 전달 및 렌더링을 지원하기 위해, 다수의 아틀라스들을 갖는 V-PCC 비트스트림의 저장 포맷을 특정할 필요가 있다.

3.3 예시적인 파일 포맷들

일반적으로, 개시된 기술에 기초한 실시예들은 비디오 데이터 처리에 사용될 수 있다. 일부 실시예들에서, 전방향 비디오 데이터는 ISO(International Organization for Standardization) 기본 매체 파일 포맷에 기초한 파일에 저장된다. 이 중, 제한된 스킴 정보 박스, 트랙 레퍼런스 박스, 및 트랙 그룹 박스와 같은 ISO 기본 매체 파일 포맷은 ISO/IEC JTC1/SC29/WG11 동영상 전문가 그룹(MPEG) MPEG-4 Part 12 ISO Base Media File Format을 참조하여 작동할 수 있다.

ISO 기본 파일 포맷의 모든 데이터는 박스에 설치된다. MP4 파일로 표현되는 ISO 기본 파일 포맷은 수 개의 박스들로 구성되며, 이들 각각은 유형 및 길이를 갖고, 데이터 객체로서 간주될 수 있다. 박스는 컨테이너 박스라고 불리는 다른 박스를 포함할 수 있다. MP4 파일은 먼저 파일 포맷의 마크업으로서 단지 하나의 "ftyp" 유형의 박스를 갖고, 파일에 관한 일부 정보를 포함할 것이다. 서브 박스가 매체에 대한 메타데이터 정보를 포함하는 컨테이너 박스인 단지 하나의 "MOOV" 유형의 박스(Movie Box)가 존재할 것이다. MP4 파일의 매체 데이터는 또한 (매체 데이터가 다른 파일들을 참조할 때) 이용가능할 수 있거나 이용가능하지 않을 수 있는 컨테이너 박스인 "mdat" 유형의 매체 박스(Media Data Box)에 포함되며, 매체 데이터의 구조는 메타데이터로 구성된다.

시한(timed) 메타데이터 트랙은 특정 샘플과 연관된 시한 메타데이터를 확립하는 ISO Base Media File Format(ISOBMFF)의의 메커니즘이다. 시한 메타데이터는 매체 데이터와는 덜 결부되고, 일반적으로 "기술적(descriptive)"이다.

각 볼류메트릭 시각 장면은 고유 볼류메트릭 시각 트랙에 의해 표현될 수 있다. ISOBMFF 파일은 다수의 장면들을 포함할 수 있고, 이에 따라 다수의 볼류메트릭 시각 트랙들이 파일에 존재할 수 있다.

전술된 바와 같이, 본 명세서에서, MPEG의 V-PCC 데이터와 같은 포인트 클라우드 데이터의 3D 또는 공간 영역을 MP4 또는 ISOBMFF 포맷과 같은 전통적인 2D 비디오 포맷들과 호환 가능한 포맷으로 표현할 수 있게 하기 위해 몇몇 기술적 솔루션들이 제공된다. 제안된 솔루션들의 하나의 바람직한 양태는 새로운 기능의 구현에 전통적인 2D 비디오 기술들 및 신택스를 재사용할 수 있는 것이다.

4. 솔루션 1

일부 실시예들에서, 뷰 그룹 정보 구조(View Group Information Structure)라고 불리는 새로운 신택스 구조가 인코더들에 의해 비트스트림으로 인코딩될 수 있고, 이에 대응하여 2D 장면의 원하는 뷰를 디스플레이에 렌더링하기 위해 디코더들에 의해 디코딩될 수 있다. 신택스 구조들 및 연관된 인코딩 및 디코딩 기술들의 일부 예시적인 구현예들이 본원에서 설명된다.

4.1 예시적인 실시예 1

예시적인 뷰 그룹 정보 구조(View group information structure)

정의

ViewGroupInfoStruct는 적어도: 뷰 그룹 식별자, 뷰 그룹 설명, 뷰들의 수, 뷰 식별자 및 각 뷰에 대한 카메라 파라미터들을 포함하여, 인코딩 스테이지에서 캡처되고 처리되는 MIV 컨텐츠와 같은 볼류메트릭 시각 매체의 뷰 그룹 정보를 제공한다.

신택스

시맨틱스

view_group_id는 뷰 그룹에 대한 식별자를 제공한다.

view_group_descritption은 뷰 그룹에 대한 텍스트 설명을 제공하는 널 종결(null-terminated) UTF-8 스트링이다.

num_views는 뷰 그룹 내의 뷰들의 수를 특정한다.

view_id는 뷰 그룹 내의 소정의 뷰에 대한 식별자를 제공한다.

1과 같은 basic_view_flag는 연관된 뷰가 기초 뷰로서 선택되는 것을 특정한다. 0과 같은 basic_view_flag는 연관된 뷰가 기초 뷰로서 선택되지 않는 것을 특정한다.

1과 같은 camera_parameters_included_flag는 CameraParametersStruct가 존재한다는 것을 나타낸다. 0과 같은 camera_parameters_included_flag는 CameraParametersStruct가 존재하지 않는다는 것을 나타낸다.

카메라 파라미터 구조(Camera parameters structure)

정의

CameraParametersStruct는 실제 또는 가상 카메라 위치 및 배향 정보를 제공하며, 이는 V-PCC 또는 MIV 컨텐츠를 원하는 뷰잉 위치 및 배향에서 원근 뷰포트 또는 전방향 뷰 중 어느 하나로서 렌더링하기 위해 사용될 수 있다.

디코딩 스테이지에서, 그룹 기반 렌더러는 합성되고 있는 원하는 포즈에 대한 뷰 그룹 거리를 계산하기 위해 이 정보를 사용할 수 있다. 뷰 가중 합성기는 뷰 위치와 타겟 뷰포트 위치 사이의 거리를 계산하기 위해 이 정보를 사용할 수 있다.

신택스

camera_id는 소정의 실제 또는 가상 카메라에 대한 식별자를 제공한다.

1과 같은 camera_pos_present는 카메라 위치 파라미터들이 존재한다는 것을 나타낸다. 0과 같은 camera_pos_present는 카메라 위치 파라미터들이 존재하지 않는다는 것을 나타낸다.

1과 같은 camera_ori_present는 카메라 배향 파라미터들이 존재한다는 것을 나타낸다. 0과 같은 camera_ori_present는 카메라 배향 파라미터들이 존재하지 않는다는 것을 나타낸다.

1과 같은 camera_fov_present는 카메라 시야 파라미터들이 존재한다는 것을 나타낸다. 0과 같은 camera_fov_present는 카메라 시야 파라미터들이 존재하지 않는다는 것을 나타낸다.

1과 같은 camera_depth_present는 카메라 심도 파라미터들이 존재한다는 것을 나타낸다. 0과 같은 camera_depth_present는 카메라 심도 파라미터들이 존재하지 않는다는 것을 나타낸다.

camera_pos_x, camera_pos_y 및 camera_pos_z는 각각 글로벌 레퍼런스 좌표계에서 카메라 위치의 x, y 및 z 좌표들(미터 단위)을 나타낸다. 값은 2^-16 미터 단위일 것이다.

camera_quat_x, camera_quat_y 및 camera_quat_z는 각각 사원수 표현을 사용하여 카메라 배향의 x, y 및 z 성분들을 나타낸다. 값들은 -1 내지 1의 포괄적 범위 내의 부동 소수점 값일 것이다. 이들 값들은 사원수 표현을 사용하여 글로벌 좌표 축들을 카메라의 로컬 좌표 축들로 변환하기 위해 적용되는 회전들에 대한 x, y 및 z 성분들, 즉 qX, qY 및 qZ를 특정한다. 사원수 qW의 제4 성분은 다음과 같이 계산된다:

qW　=　sqrt(1　-　(　qX²　+　qY²　+　qZ²　)　)

점(w, x, y, z)은 벡터(x, y, z)가 향하는 축 주위의 회전을 각도 2*cos ^{-1}(w)=2*sin ^{-1}(sqrt(x^{2}+y^{2}+z^{2}))에 의해 나타낸다.

camera_hor_range는 카메라와 연관된 뷰잉 프러스텀의 수평 시야(라디안 단위)를 나타낸다. 값은 0 내지 2π의 범위 내일 것이다.

camera_ver_range는 카메라와 연관된 뷰잉 프러스텀의 수직 시야(라디안 단위)를 나타낸다. 값은 0 내지 π의 범위 내일 것이다.

camera_far_depth 및 camera_near_depth는 카메라와 연관된 뷰잉 프러스텀의 원근 평면들에 기초한 원근 심도들(또는 거리들)을 나타낸다. 값은 2^-16 미터 단위일 것이다.

V-PCC 파라미터 트랙의 예

V-PCC 파라미터 트랙 샘플 엔트리

샘플 엔트리 유형: 'vpcp'

컨테이너: SampleDescriptionBox

필수: 예

수량: 1개 이상의 샘플 엔트리가 존재할 수 있다.

V-PCC 파라미터 트랙은 'vpcp'의 샘플 엔트리 유형으로 VolumetricVisualSampleEntry를 확장하는 VPCCParametersSampleEntry를 사용할 것이다.

VPCC 파라미터 트랙 샘플 엔트리는 VPCCConfigurationBox, 및 VPCCUnitHeaderBox를 포함할 것이다.

신택스

시맨틱스

VPCCConfigurationBox는 멀티 아틀라스 V-PCC 비트스트림의 V-PCC 파라미터 세트들, 즉 VPCC_VPS와 같은 vuh_unit_type을 갖는 V-PCC 유닛들을 포함할 것이다.

VPCCConfigurationBox는 존재할 때, NAL_ASPS, NAL_AAPS, NAL_PREFIX_SEI, 또는 NAL_SUFFIX_SEI NAL 유닛들뿐만 아니라, EOB 및 EOS NAL 유닛들을 포함하지만 이에 제한되지 않는 멀티 아틀라스 V-PCC 데이터의 모든 V-PCC 트랙들에 대해 공통인 비-ACL NAL 유닛들만을 포함할 것이다.

VPCCConfigurationBox는 상이한 V-PCC 트랙 그룹에 대한 NAL_AAPS 아틀라스 NAL 유닛의 상이한 값들을 포함할 수 있다.

V-PCC 트랙 그룹화

MIV의 그룹 기반 인코더는 소스 뷰들을 다수의 그룹들로 분할할 수 있으며, 이는 각 그룹에 포함될 뷰들의 리스트를 출력하기 위한 프리세트로서 그룹들의 수와 함께 입력으로서 소스 카메라 파라미터들을 취한다.

그룹화는 아틀라스 구성자가 아틀라스들에서 (예를 들어, 전경 객체들 또는 폐색 영역들에 속하는) 중요한 영역들의 로컬 코히어런트 투영을 출력하게 하여, 특히 자연적 컨텐츠에 대해 또는 높은 비트레이트 레벨들에서 주관적이고 객관적 결과들을 개선한다.

도 1은 아틀라스 생성을 위한 그룹 기반 인코딩의 프로세스 흐름의 예를 도시한다.

도 1에 도시된 바와 같이, 그룹의 인코딩 스테이지에서, 각 단일 그룹 인코더는 그 자신의 인덱싱된 아틀라스들 또는 뷰들을 갖는 메타데이터를 생성한다. 고유 그룹 ID가 그룹마다 부여되고, 관련 그룹의 아틀라스 파라미터들에 첨부된다. 렌더러가 메타데이터를 적절하게 해석하고 모든 뷰들에 걸쳐 패치들을 정확하게 맵핑할 수 있게 하기 위해, 병합자는 패치마다 아틀라스 및 뷰 ID들을 리넘버링하고, 프루닝(pruning) 그래프들을 병합한다. 각 기초 뷰는 아틀라스에서 단일의 완전 점유 패치(아틀라스 크기가 기초 뷰 크기와 같거나 크다고 가정)로서 반송되거나 또는 다수의 아틀라스들(그렇지 않은 경우)로 반송된다. 추가 뷰들은 기초 뷰의 패치와 함께 동일한 아틀라스에서(아틀라스가 더 큰 크기를 갖는 경우), 또는 별개의 아틀라스(들)에서 반송될 수 있는 다수의 패치들로 프루닝된다.

도 1에 도시된 바와 같이, 아틀라스 구성자에 의해 동일한 뷰 그룹으로부터 생성된 모든 아틀라스들은 아틀라스 그룹으로서 함께 그룹화되어야 한다. 그룹 기반 렌더링을 위해, 디코더는 볼류메트릭 시각 데이터(예를 들어, MIV 컨텐츠)의 하나 이상의 뷰가 타겟 뷰 렌더링을 위해 선택된 하나 이상의 뷰 그룹에 대응하는 하나 이상의 아틀라스 그룹 내의 패치들을 디코딩할 필요가 있다.

디코더는 예시적인 뷰 그룹 정보 구조에서 설명된 바와 같은, 하나 이상의 뷰 그룹 정보 ― 각 뷰 그룹 정보는 하나 이상의 뷰를 기술하고, 각 뷰 그룹 정보는 하나 이상의 뷰에 대한 카메라 파라미터를 포함함 ― 에 기초하여 타겟 뷰에 대한 볼류메트릭 시각 데이터의 하나 이상의 뷰를 선택할 수 있다.

도 2는 아틀라스 그룹들을 갖는 V-PCC 비트스트림의 멀티 트랙 캡슐화의 예를 도시한다.

도 2에 도시된 바와 같이, 아틀라스 그룹을 디코딩하기 전에, 파일 파서(parser)가 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙의 신택스 요소(예를 들어, V-PCC 파라미터 트랙의 VPCCViewGroupsBox)에 기초하여 아틀라스 그룹에 대응하는 볼류메트릭 시각 트랙 그룹(예를 들어, V-PCC 트랙 그룹)을 결정하고 역캡슐화(decapsulate)할 필요가 있으며, 여기서 볼류메트릭 시각 트랙 그룹 및 볼류메트릭 시각 파라미터 트랙은 아틀라스 그룹에 대한 모든 아틀라스 데이터를 반송한다.

파일 파서는 특정 샘플 엔트리 유형에 따라 볼류메트릭 시각 파라미터 트랙을 식별할 수 있다. V-PCC 파라미터 트랙의 경우, 샘플 엔트리 유형 'vpcp'가 V-PCC 파라미터 트랙을 식별하기 위해 사용되어야 하고, V-PCC 파라미터 트랙이 특정 트랙 레퍼런스를 갖는 모든 참조된 V-PCC 트랙들에 대한 일정한 파라미터 세트들 및 공통 아틀라스 데이터를 특정한다.

다수의 아틀라스들을 갖는 V-PCC 비트스트림의 저장에 대해, 동일한 아틀라스 그룹으로부터의 모든 아트라스들에 대응하는 모든 V-PCC 트랙들은 유형 'vptg'의 트랙 그룹으로 표시되어야 한다.

정의

track_group_type이 'vptg'와 같은 TrackGroupTypeBox는 이 V-PCC 트랙이 아틀라스 그룹에 대응하는 V-PCC 트랙 그룹에 속함을 나타낸다.

동일한 아틀라스 그룹에 속하는 V-PCC 트랙들은 track_group_type 'vptg'에 대한 동일한 track_group_id의 값을 갖고, 하나의 아틀라스 그룹으로부터의 트랙들의 track_group_id는 임의의 다른 아틀라스 그룹으로부터의 트랙들의 track_group_id와 상이하다.

신택스

시맨틱스

track_group_type이 'vptg'와 같은 TrackGroupTypeBox 내의 동일한 track_group_id의 값을 갖는 V-PCC 트랙들은 동일한 아틀라스 그룹에 속한다. 이에 따라, track_group_type이 'vptg'와 같은 TrackGroupTypeBox 내의 track_group_id가 아틀라스 그룹의 식별자로서 사용된다.

정적 뷰 그룹 정보 박스(Static view group information box)

정의

MIV 컨텐츠와 같은 볼류메트릭 시각 매체에 대한 정적 뷰 그룹들, 및 이들의 연관된 각 V-PCC 트랙 그룹들은 VPCCViewGroupsBox에서 시그널링될 것이다.

신택스

박스 유형들: 'vpvg'

컨테이너: VPCCParametersSampleEntry ('vpcp')

필수: 아니오

수량: 0 또는 1

시맨틱스

num_view_groups는 MIV 컨텐츠에 대한 뷰 그룹들의 수를 나타낸다.

vpcc_track_group_id는 MIV 컨텐츠와 같은 볼류메트릭 시각 매체의 연관된 뷰 그룹에 대한 모든 아틀라스 데이터를 반송하는 V-PCC 트랙들에 대한 그룹을 식별한다.

동적 뷰 그룹 정보

V-PCC 파라미터 트랙이 샘플 엔트리 유형이 'dyvg'인 연관된 시한 메타데이터 트랙을 갖는 경우, V-PCC 파라미터 트랙에 의해 반송되는 MIV 스트림에 대해 정의된 소스 뷰 그룹들은 동적 뷰 그룹들로서 고려된다(즉, 뷰 그룹 정보가 시간에 따라 동적으로 변할 수 있다).

연관된 시한 메타데이터 트랙은 아틀라스 스트림을 반송하는 V-PCC 파라미터 트랙에 대한 'cdsc' 트랙 레퍼런스를 포함할 것이다.

샘플 엔트리

샘플 포맷

신택스

시맨틱스

num_view_groups는 샘플에서 시그널링된 뷰 그룹들의 수를 나타낸다. 이는 이용가능한 뷰 그룹들의 총 수와 반드시 동일하지는 않을 수 있다. 샘플에는 소스 뷰들이 업데이트되고 있는 뷰 그룹들만 존재한다.

ViewGroupInfoStruct()는 실시예 1의 이전 섹션에서 정의된다. camera_parameters_included_flag가 0으로 설정되는 경우, 이는 뷰 그룹의 카메라 파라미터들이 이전 샘플 또는 샘플 엔트리 중 어느 하나에, 동일한 view_group_id를 갖는 ViewGroupInfoStruct의 이전 인스턴스에서 이전에 시그널링되었다는 것을 의미한다.

4.2 예시적인 실시예 2

MPEG-DASH의 캡슐화 및 시그널링

각 V-PCC 컴포넌트 트랙은 DASH 매니페스트(MPD) 파일에서 개별 V-PCC 컴포넌트 AdaptationSet로서 표현될 것이다. 각 V-PCC 트랙은 개별 V-PCC 아틀라스 AdaptationSet로서 표현될 것이다. 공통 아틀라스 정보에 대한 추가적인 AdaptationSet는 V-PCC 컨텐츠에 대한 메인 AdaptationSet로서의 역할을 한다. V-PCC 컴포넌트가 다수의 계층들을 갖는 경우, 각 계층은 개별 AdapatationSet를 사용하여 시그널링될 수 있다.

컴포넌트를 인코딩하는 데 사용되는 각 코덱에 기초하여 V-PCC 컴포넌트들 AdaptationSets에 대한 @codecs 속성, 또는 Representations(AdaptationSet 요소에 대해 @codecs가 시그널링되지 않는 경우)이 설정되면서, 메인 AdaptationSet는 'vpcp'로 설정된 @codecs 속성을 가질 것이고, 아틀라스 AdaptationSet는 'vpc1'로 설정된 @codecs 속성들을 가질 것이다.

메인 AdaptationSet는 적응 세트 레벨에서 단일 초기화 세그먼트를 포함할 것이다. 초기화 세그먼트는 멀티 아틀라스 V-PCC 비트스트림의 V-PCC 파라미터 세트들, 및 NAL_ASPS, NAL_AAPS, NAL_PREFIX_SEI, 또는 NAL_SUFFIX_SEI NAL 유닛들뿐만 아니라, EOB 및 EOS NAL 유닛들을 포함하여, V-PCC 디코더를 초기화하는 데 필요한 모든 시퀀스 파라미터 세트들 및 모든 V-PCC 트랙들에 대한 공통인 비-ACL NAL 유닛들을 포함할 것이다.

아틀라스 AdaptationSet는 적응 세트 레벨에서 단일 초기화 세그먼트를 포함할 것이다. 초기화 세그먼트는 V-PCC 아틀라스 시퀀스 파라미터 세트들뿐만 아니라 컴포넌트 서브 스트림들에 대한 다른 파라미터 세트들을 포함하여, V-PCC 트랙을 디코딩하는 데 필요한 모든 시퀀스 파라미터 세트들을 포함할 것이다.

메인 AdaptationSet의 Representation에 대한 매체 세그먼트들은 V-PCC 파라미터 트랙의 하나 이상의 트랙 프래그먼트를 포함할 것이다. 아틀라스 AdaptationSet의 Representation에 대한 매체 세그먼트들은 V-PCC 트랙의 하나 이상의 트랙 프래그먼트를 포함할 것이다. 컴포넌트 AdaptationSets의 Representations에 대한 매체 세그먼트들은 파일 포맷 레벨에서 대응하는 컴포넌트 트랙의 하나 이상의 트랙 프래그먼트를 포함할 것이다.

V-PCC 사전 선택

V-PCC 사전 선택은 포인트 클라우드에 대한 메인 AdaptationSet의 id에 이어서 포인트 클라우드 컴포넌트들에 대응하는 AdaptationSets의 id들을 포함하는 @preselectionComponents 속성에 대한 id 리스트와 함께, MPEG-DASH(ISO/IEC 23009-1)에서 정의된 바와 같은 PreSelection 요소를 사용하여 MPD에서 시그널링된다. PreSelection에 대한 @codecs 속성은 'vpcp'로 설정되어야 하며, 이는 PreSelection 매체가 비디오 기반 포인트 클라우드임을 나타낸다. PreSelection은 적응 세트 레벨에서 사전 선택 기술자 또는 Period 요소 내의 PreSelection 요소를 사용하여 시그널링될 수 있다.

V-PCC 기술자

@schemeIdUri 속성이 "urn:mpeg:mpegI:vpcc:2019:vpc"와 같은 EssentialProperty 요소가 VPCC 기술자로서 지칭된다. 최대 하나의 VPCC 기술자가 포인트 클라우드의 메인 AdaptationSet에 대한 적응 세트 레벨에 존재할 수 있다.

VPCCViewGroups 기술자

V-PCC 컨텐츠에 대한 메인 AdaptationSet 내의 정적 뷰 그룹들 및 이들의 연관된 각 V-PCC 트랙 그룹을 식별하기 위해, VPCCViewGroups 기술자가 사용될 것이다. VPCCViewGroups는 @schemeIdUri 속성이 "urn:mpeg:mpegI:vpcc:2020:vpvg"와 같은 EssentialProperty 또는 SupplementalProperty 기술자이다.

최대 하나의 단일 VPCCViewGroups 기술자가 포인트 클라우드 컨텐츠에 대한 사전 선택 레벨에 또는 메인 AdaptationSet에서의 적응 세트 레벨 또는 표현 레벨에 존재할 것이다.

VPCCViewGroups 기술자의 @value 속성은 존재하지 않을 것이다. VPCCViewGroups 기술자는 표 2에 특정된 바와 같은 요소들 및 속성들을 포함할 것이다.

동적 뷰 그룹들

뷰 그룹들이 동적일 때, 제시 타임라인에서 각 뷰 그룹의 뷰 정보를 시그널링하기 위한 시한 메타데이터 트랙은 단일 표현을 갖는 개별 AdaptationSet에서 반송될 것이고, 대응하는 AdaptationSet 또는 Representation에 대한 4CC 'vpcm'을 포함하는 @associationType 값과 함께, ISO/IEC 23009-1 [MPEG-DASH]에서 정의된 @associationId 속성을 사용하여 메인 V-PCC 트랙과 연관(링크)될 것이다.

5. 솔루션 2

5.1 예시적인 실시예 3

예시적인 뷰 정보 구조(View information structure)

정의

ViewInfoStruct는 적어도: 뷰 식별자, 뷰가 속하는 뷰 그룹의 식별자, 뷰 설명, 및 뷰의 카메라 파라미터들을 포함하여, 인코딩 스테이지에서 캡처되고 처리되는 MIV 컨텐츠의 뷰 정보를 제공한다.

신택스

시맨틱스

view_id는 뷰에 대한 식별자를 제공한다.

view_group_id는 뷰가 속하는 뷰 그룹에 대한 식별자를 제공한다.

view_descritption은 뷰에 대한 텍스트 설명을 제공하는 널 종결 UTF-8 스트링이다.

CameraParametersStruct()는 실시예 1의 이전 섹션에서 정의된다.

정적 뷰 정보 박스

도 3은 다수의 아틀라스들을 갖는 V-PCC 비트스트림의 멀티 트랙 캡슐화의 예를 도시한다.

타겟 뷰 렌더링을 위해, 디코더는 타겟 뷰 렌더링을 위해 선택된 볼류메트릭 시각 데이터(예를 들어, MIV 컨텐츠)의 하나 이상의 뷰에 대응하는 하나 이상의 아틀라스 내의 패치들을 디코딩할 필요가 있다.

디코더는 예시적인 뷰 그룹 정보 구조에서 설명된 바와 같은, 하나 이상의 뷰에 대한 뷰 정보 ― 각 뷰 정보가 대응하는 뷰의 카메라 파라미터들을 기술함 ― 에 기초하여 타겟 뷰에 대한 볼류메트릭 시각 데이터의 하나 이상의 뷰를 선택할 수 있다.

도 3에 도시된 바와 같이, 하나 이상의 아틀라스를 디코딩하기 전에, 파일 파서가 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙의 신택스 요소(예를 들어, V-PCC 파라미터 트랙의 VPCCViewsBox)에 기초하여 하나 이상의 아틀라스에 대응하는 하나 이상의 볼류메트릭 시각 트랙(예를 들어, V-PCC 트랙)을 결정하고 역캡슐화할 필요가 있으며, 여기서 볼류메트릭 하나 이상의 시각 트랙 및 볼류메트릭 시각 파라미터 트랙은 아틀라스들에 대한 모든 아틀라스 데이터를 반송한다.

정의

MIV 컨텐츠의 소스 뷰 및 이의 연관된 각 아틀라스들이 VPCCViewsBox에서 시그널링될 것이다.

신택스

박스 유형들: 'vpvw'

컨테이너: VPCCParametersSampleEntry ('vpcp')

필수: 아니오

수량: 0 또는 1

시맨틱스

num_views는 MIV 컨텐츠 내의 소스 뷰들의 수를 나타낸다.

num_vpcc_tracks는 소스 뷰와 연관된 V-PCC 트랙들의 수를 나타낸다.

vpcc_track_id는 연관된 소스 뷰에 대한 아틀라스 데이터를 반송하는 V-PCC 트랙을 식별한다.

동적 뷰 정보

V-PCC 파라미터 트랙이 샘플 엔트리 유형이 'dyvw'인 연관된 시한 메타데이터 트랙을 갖는 경우, V-PCC 파라미터 트랙에 의해 반송되는 MIV 스트림에 대해 정의된 소스 뷰들은 동적 뷰들로서 고려된다(즉, 뷰 정보가 시간에 따라 동적으로 변할 수 있다).

샘플 엔트리

샘플 포맷

신택스

시맨틱스

num_views는 샘플에서 시그널링된 뷰들의 수를 나타낸다. 이는 이용가능한 뷰들의 총 수와 반드시 동일하지는 않을 수 있다. 샘플에는 뷰 정보가 업데이트되고 있는 뷰들만 존재한다.

ViewInfoStruct()는 실시예 2의 이전 섹션에서 정의된다. camera_parameters_included_flag가 0으로 설정되는 경우, 이는 뷰 그룹의 카메라 파라미터들이 이전 샘플 또는 샘플 엔트리 중 어느 하나에, 동일한 view_id를 갖는 ViewInfoStruct의 이전 인스턴스에서 이전에 시그널링되었다는 것을 의미한다.

5.2 예시적인 실시예 4

MPEG-DASH의 캡슐화 및 시그널링의 예들

V-PCC 기술자

VPCCViews 기술자

V-PCC 컨텐츠에 대한 메인 AdaptationSet 내의 정적 뷰들 및 이들의 연관된 각 V-PCC 트랙들을 식별하기 위해, VPCCViews 기술자가 사용될 것이다. VPCCViews는 @schemeIdUri 속성이 "urn:mpeg:mpegI:vpcc:2020:vpvw"와 같은 EssentialProperty 또는 SupplementalProperty 기술자이다.

최대 하나의 단일 VPCCViews 기술자가 포인트 클라우드 컨텐츠에 대한 사전 선택 레벨에 또는 메인 AdaptationSet에서의 적응 세트 레벨 또는 표현 레벨에 존재할 것이다.

VPCCViews 기술자의 @value 속성은 존재하지 않을 것이다. VPCCViews 기술자는 표 4에 특정된 바와 같은 요소들 및 속성들을 포함할 것이다.

동적 뷰들

뷰들이 동적일 때, 제시 타임라인에서 각 뷰 정보를 시그널링하기 위한 시한 메타데이터 트랙은 단일 표현을 갖는 개별 AdaptationSet에서 반송될 것이고, 대응하는 AdaptationSet 또는 Representation에 대한 4CC 'vpcm'을 포함하는 @associationType 값과 함께, ISO/IEC 23009-1 [MPEG-DASH]에서 정의된 @associationId 속성을 사용하여 메인 V-PCC 트랙과 연관(링크)될 것이다.

도 4는 볼류메트릭 시각 매체 데이터를 처리하는 예시적인 방법(400)에 대한 흐름도이다. 본 명세서 전체에 걸쳐 논의된 바와 같이, 일부 실시예들에서, 볼류메트릭 시각 매체 데이터는 포인트 클라우드 데이터를 포함할 수 있다. 일부 실시예들에서, 볼류메트릭 시각 매체 데이터는 3D 객체들을 나타낼 수 있다. 3D 객체들은 2D 표면들로 투영되고, 비디오 프레임들로 배열될 수 있다. 일부 실시예들에서, 볼류메트릭 시각 데이터는 멀티 뷰 비디오 데이터 등을 나타낼 수 있다.

방법(400)은 본 명세서에서 추가로 설명되는 바와 같은, 인코더 장치에 의해 구현될 수 있다. 방법(400)은 402에서, 인코더에 의해, 하나 이상의 아틀라스 서브 비트스트림 및 하나 이상의 인코딩된 비디오 서브 비트스트림을 사용하여 3차원 장면에 대한 볼류메트릭 시각 정보를 포함하는 비트스트림을 표현함으로써 생성하는 단계를 포함한다. 방법(400)은 404에서, 비트스트림에, 원하는 뷰잉 위치 및/또는 원하는 뷰잉 배향에 기초하여 3차원 장면의 타겟 뷰의 렌더링을 가능하게 하는 정보를 추가하는 단계를 포함한다.

일부 실시예들에서, 생성하는 단계(402)는 인코더 의해, 타겟 뷰의 렌더링을 위해 볼류메트릭 시각 데이터의 하나 이상의 뷰가 선택가능한 뷰 그룹에 대응하는 아틀라스 그룹을 인코딩하는 단계를 포함할 수 있다. 예를 들어, 아틀라스 그룹은 비트스트림 내의 아틀라스 서브 스트림들의 그룹인 아틀라스들의 그룹을 지칭할 수 있다.

일부 실시예들에서, 생성하는 단계(402)는 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙의 신택스 요소에 기초하여 아틀라스 그룹에 대응하는 볼류메트릭 시각 트랙 그룹을 캡슐화하는 단계를 포함한다. 일부 실시예들에서, 볼류메트릭 시각 트랙들의 그룹 및 볼류메트릭 시각 파라미터 트랙은 (대응하는 아틀라스 서브 스트림들을 사용하여) 아틀라스 그룹에 대한 모든 아틀라스 데이터를 반송하도록 구성될 수 있다. 일부 예들에서, 신택스 요소는 (정적 또는 동적인) 뷰 그룹 정보 박스를 사용하여 구현될 수 있다. 예를 들어, 섹션 4.1, 또는 섹션 5.1에서 설명된 바와 같은 정적 뷰 그룹이 이러한 실시예들에 사용될 수 있다.

일부 실시예들에서, 생성하는 단계(402)는 아틀라스 그룹을 인코딩하기 위해, 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함하는 시한 메타데이터 트랙의 신택스 요소에 기초하여 아틀라스 그룹에 대응하는 볼류메트릭 시각 트랙 그룹을 캡슐화하는 단계를 포함한다. 여기서, 볼류메트릭 시각 트랙들의 그룹 및 볼류메트릭 시각 파라미터 트랙은 아틀라스 그룹에 대한 모든 아틀라스 데이터를 반송할 수 있다. 특정 트랙 레퍼런스는 본원에서 추가로 설명되는 바와 같은 파싱/렌더링 동작 동안 디코더에 의해 사용될 수 있다. 이 생성 동작은 본 명세서(예를 들어, 섹션 4.1 또는 섹션 5.1)에서 설명된 동적 뷰 그룹을 사용할 수 있다.

일부 실시예들에서, 방법(400)은 비트스트림에, 특정 트랙 그룹 유형 및 특정 트랙 그룹 아이덴티티에 따라 볼류메트릭 시각 트랙 그룹을 식별하는 정보를 추가하는 단계를 더 포함하며, 볼류메트릭 시각 트랙 그룹 내의 볼류메트릭 시각 트랙들 각각은 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함한다.

일부 실시예들에서, 방법(400)은 인코더에 의해, 하나 이상의 뷰 그룹 정보에 기초하여 타겟 뷰에 대한 볼류메트릭 시각 데이터의 하나 이상의 뷰를 인코딩하는 단계를 더 포함하며, 각 뷰 그룹 정보는 하나 이상의 뷰를 기술한다. 일부 실시예들에서, 각 뷰 그룹 정보는 하나 이상의 뷰에 대한 카메라 파라미터들을 더 포함한다.

일부 실시예들에서, 방법(400)은 디코더에 의해, 타겟 뷰에 대해 선택된 볼류메트릭 시각 데이터의 하나 이상의 뷰에 대응하는 하나 이상의 아틀라스를 인코딩하는 단계를 포함한다.

일부 실시예들에서, 하나 이상의 아틀라스 서브스트림으로부터의 정보는 비트스트림의 파일 스토리지 신택스 구조에서의 볼류메트릭 시각 파라미터 트랙의 신택스 요소(예를 들어, 뷰 정보 박스 신택스 구조 - 정적 또는 동적임)에 기초하여 하나 이상의 아틀라스에 대응하는 하나 이상의 볼류메트릭 시각 트랙을 캡슐화함으로써 인코딩되며, 하나 이상의 볼류메트릭 시각 트랙 및 볼류메트릭 시각 파라미터 트랙은 하나 이상의 아틀라스에 대한 모든 아틀라스 데이터를 반송한다.

일부 실시예들에서, 하나 이상의 아틀라스 서브스트림으로부터의 정보는 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함하는 시한 메타데이터 트랙의 신택스 요소(예를 들어, 뷰 정보 박스 신택스 구조 - 정적 또는 동적임)에 기초하여 하나 이상의 아틀라스에 대응하는 하나 이상의 볼류메트릭 시각 트랙을 캡슐화함으로써 인코딩되며, 하나 이상의 볼류메트릭 시각 트랙 및 볼류메트릭 시각 파라미터 트랙은 하나 이상의 아틀라스에 대한 모든 아틀라스 데이터를 반송한다.

일부 실시예들에서, 방법(400)은 하나 이상의 뷰에 대한 뷰 정보에 기초하여 타겟 뷰의 렌더링을 위해 볼류메트릭 시각 데이터의 하나 이상의 뷰를 식별하는 정보를 비트스트림에 추가하는 단계를 포함하며, 각 뷰 정보는 대응하는 뷰의 카메라 파라미터들을 기술한다.

일부 실시예들에서, 방법(400)은 비트스트림에, 특정 샘플 엔트리 유형에 따라 볼류메트릭 시각 파라미터 트랙을 식별하는 정보를 포함시키는 단계를 포함하며, 볼류메트릭 시각 파라미터 트랙은 특정 트랙 레퍼런스를 갖는 하나 이상의 볼류메트릭 시각 트랙에 대응하고, 볼류메트릭 시각 파라미터 트랙은 특정 트랙 레퍼런스를 갖는 모든 참조된 볼류메트릭 시각 트랙에 대한 일정한 파라미터 세트들 및 공통 아틀라스 데이터를 특정한다.

일부 실시예들에서, 방법(400)은 비트스트림에, 타겟 뷰 렌더링을 위해 선택된 볼류메트릭 시각 데이터의 하나 이상의 뷰가 동적임을 나타내는 특정 샘플 엔트리 유형에 따라 시한 메타데이터 트랙을 식별하기 위한 정보를 추가하는 단계를 포함한다.

인코딩된 비디오 서브 스트림들은: 기하구조 데이터에 대한 하나 이상의 비디오 코딩된 기본 스트림, 및 점유 맵 데이터에 대한 0 또는 1개의 비디오 코딩된 기본 스트림, 및 속성 데이터에 대한 0개 이상의 비디오 코딩된 기본 스트림을 포함할 수 있으며, 기하학적 구조 데이터, 점유 맵 데이터 및 속성 데이터는 3차원 장면을 기술한다.

도 5는 볼류메트릭 시각 매체 데이터를 처리하는 예시적인 방법(500)에 대한 흐름도이다. 방법(500)은 디코더에 의해 구현될 수 있다. 방법(500)에서 신택스 요소들을 기술하는 데 사용되는 다양한 용어들은 인코더측 방법(400)을 기술한 신택스 요소들에 대해 위에서 사용된 용어들과 유사하다.

방법(500)은 502에서, 디코더에 의해, 하나 이상의 아틀라스 서브 비트스트림 및 하나 이상의 인코딩된 비디오 서브 비트스트림으로서 표현되는 3차원 장면에 대한 볼류메트릭 시각 정보를 포함하는 비트스트림을 디코딩하는 단계를 포함한다. 방법(500)은 504에서, 하나 이상의 아틀라스 서브 비트스트림을 디코딩한 결과 및 하나 이상의 인코딩된 비디오 서브 비트스트림을 디코딩한 결과를 사용하여, 3차원 장면을 재구성하는 단계를 포함한다.

방법(500)은 506에서, 원하는 뷰잉 위치 및/또는 원하는 뷰잉 배향에 기초하여 3차원 장면의 타겟 뷰를 렌더링하는 단계를 포함한다. 일부 실시예들에서, 디코딩하는 단계 및 재구성하는 단계는 제1 하드웨어 플랫폼에 의해 수행될 수 있는 한편, 렌더링하는 단계는 디코딩 하드웨어 플랫폼과 함께 동작하는 다른 하드웨어 플랫폼에 의해 수행될 수 있다. 즉, 제1 하드웨어 플랫폼은 3차원 장면의 재구성 방법을 구현하기 위한 상술된 바와 같은 단계들(502 및 504)만을 수행할 수 있다. 일부 실시예들에서, 디코더는 x-y-z 또는 극좌표계에서 뷰어의 원하는 뷰잉 위치 또는 원하는 뷰잉 배향을 수신할 수 있다. 이 정보로부터, 디코더는 타겟 뷰를 생성하기 위해 사용되는 뷰 그룹에 대응하는 아틀라스의 디코딩된 서브 비트스트림들을 사용하여 비디오 정보를 포함하는 디코딩된 서브 비트스트림들로부터 뷰어의 위치/배향과 정렬되는 타겟 뷰를 생성할 수 있다.

일부 실시예들에서, 재구성하는 단계는: 디코더에 의해, 타겟 뷰의 렌더링을 위해 볼류메트릭 시각 데이터의 하나 이상의 뷰가 선택된 뷰 그룹에 대응하는 아틀라스 그룹을 디코딩하는 단계를 포함한다.

일부 실시예들에서, 디코딩하는 단계는 아틀라스 그룹을 디코딩하기 전에:

파일 파서에 의해, 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙의 신택스 요소에 기초하여 아틀라스 그룹에 대응하는 볼류메트릭 시각 트랙 그룹을 역캡슐화하는 단계를 포함하며, 볼류메트릭 시각 트랙 그룹 및 볼류메트릭 시각 파라미터 트랙은 아틀라스 그룹에 대한 모든 아틀라스 데이터를 반송하는 것인, 볼류메트릭 시각 데이터 처리 방법.

일부 실시예들에서, 디코딩하는 단계는 아틀라스 그룹을 디코딩하기 전에: 파일 파서에 의해, 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함하는 시한 메타데이터 트랙의 신택스 요소에 기초하여 아틀라스 그룹에 대응하는 볼류메트릭 시각 트랙 그룹을 역캡슐화하는 단계를 포함하며, 볼류메트릭 시각 트랙 그룹 및 볼류메트릭 시각 파라미터 트랙은 아틀라스 그룹에 대한 모든 아틀라스 데이터를 반송한다. 예를 들어, 본 명세서에서 설명된 DynamicViewGroup 구조가 이 동작 동안 사용될 수 있다.

일부 실시예들에서, 방법(500)은 특정 트랙 그룹 유형 및 특정 트랙 그룹 아이덴티티에 따라 볼류메트릭 시각 트랙 그룹을 식별하는 단계를 더 포함하며, 볼류메트릭 시각 트랙 그룹 내의 볼류메트릭 시각 트랙들 각각은 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함한다.

일부 실시예들에서, 방법(500)은 디코더에 의해, 하나 이상의 뷰 그룹 정보에 기초하여 타겟 뷰에 대한 볼류메트릭 시각 데이터의 하나 이상의 뷰를 선택하는 단계를 더 포함하며, 각 뷰 그룹 정보는 하나 이상의 뷰를 기술한다.

일부 실시예들에서, 각 뷰 그룹 정보는 하나 이상의 뷰에 대한 카메라 파라미터들을 더 포함한다.

일부 실시예들에서, 본 방법은 디코더에 의해, 타겟 뷰에 대해 선택된 볼류메트릭 시각 데이터의 하나 이상의 뷰에 대응하는 하나 이상의 아틀라스를 디코딩하는 단계를 포함한다.

일부 실시예들에서, 하나 이상의 아틀라스 서브스트림으로부터의 정보는 비트스트림의 파일 스토리지 신택스 구조에서의 볼류메트릭 시각 파라미터 트랙의 신택스 요소(예를 들어, ViewInfoBox 요소)에 기초하여 하나 이상의 아틀라스에 대응하는 하나 이상의 볼류메트릭 시각 트랙을 역캡슐화함으로써 디코딩되며, 하나 이상의 볼류메트릭 시각 트랙 및 볼류메트릭 시각 파라미터 트랙은 하나 이상의 아틀라스에 대한 모든 아틀라스 데이터를 반송한다.

일부 실시예들에서, 하나 이상의 아틀라스 서브스트림으로부터의 정보는 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함하는 시한 메타데이터 트랙의 신택스 요소에 기초하여 하나 이상의 아틀라스에 대응하는 하나 이상의 볼류메트릭 시각 트랙을 역캡슐화함으로써 디코딩되며, 하나 이상의 볼류메트릭 시각 트랙 및 볼류메트릭 시각 파라미터 트랙은 하나 이상의 아틀라스에 대한 모든 아틀라스 데이터를 반송한다.

일부 실시예들에서, 본 방법은 디코더에 의해, 하나 이상의 뷰에 대한 뷰 정보에 기초하여 타겟 뷰의 렌더링을 위해 볼류메트릭 시각 데이터의 하나 이상의 뷰를 선택하는 단계를 더 포함하며, 각 뷰 정보는 대응하는 뷰의 카메라 파라미터들을 기술한다.

일부 실시예들에서, 방법(500)은 특정 샘플 엔트리 유형에 따라 볼류메트릭 시각 파라미터 트랙을 식별하는 단계를 더 포함하며, 볼류메트릭 시각 파라미터 트랙은 특정 트랙 레퍼런스를 갖는 하나 이상의 볼류메트릭 시각 트랙에 대응하고, 볼류메트릭 시각 파라미터 트랙은 특정 트랙 레퍼런스를 갖는 모든 참조된 볼류메트릭 시각 트랙에 대한 일정한 파라미터 세트들 및 공통 아틀라스 데이터를 특정한다.

일부 실시예들에서, 방법(500)은 타겟 뷰 렌더링을 위해 선택된 볼류메트릭 시각 데이터의 하나 이상의 뷰가 동적임을 나타내는 특정 샘플 엔트리 유형에 따라 시한 메타데이터 트랙을 식별하는 단계를 더 포함한다.

일부 실시예들에서, 하나 이상의 인코딩된 비디오 서브 비트스트림은: 기하구조 데이터에 대한 하나 이상의 비디오 코딩된 기본 스트림, 및 점유 맵 데이터에 대한 0 또는 1개의 비디오 코딩된 기본 스트림, 및 속성 데이터에 대한 0개 이상의 비디오 코딩된 기본 스트림을 포함하며, 기하학적 구조 데이터, 점유 맵 데이터 및 속성 데이터는 3차원 장면을 기술한다.

도 4 및 도 5를 참조하면, 일부 실시예들에서, 아틀라스 그룹은 아틀라스 서브 스트림들의 그룹을 지칭할 수 있다. 일부 실시예들에서, 상술된 방법들에 의해 사용되는 볼류메트릭 시각 트랙들의 그룹은 볼류메트릭 시각 트랙 그룹을 나타낼 수 있다.

일부 실시예들에서, 방법(400 또는 500)에서, 볼류메트릭 시각 파라미터 트랙의 신택스 요소는 본 명세서에서 설명된 ViewGroupInfoBox 신택스 구조일 수 있다.

도 6은 본 기술에 따른 볼류메트릭 매체 데이터의 인코더일 수 있는 장치(600)의 예의 블록도이다. 장치(600)는 3차원 장면들 및 볼류메트릭 시각 매체 정보를 포인트 클라우드 데이터 또는 멀티 뷰 비디오 데이터, 또는 다면 투영 등의 형태로 수집하도록 구성된 획득 모듈(601)을 포함한다. 이 모듈은 메모리 또는 카메라 프레임 버퍼로부터의 비디오 데이터를 판독하기 위한 입력-출력 제어기 회로부를 포함할 수 있다. 이 모듈은 볼류메트릭 데이터를 판독하기 위한 프로세서 실행가능 명령어들을 포함할 수 있다. 장치(600)는 본원에서 설명된 다양한 기술들(예를 들어, 방법(400))에 따라 볼류메트릭 시각 정보의 인코딩된 표현인 비트스트림을 생성하도록 구성된 비트스트림 생성기 모듈(602)을 포함한다. 이 모듈은 프로세서 실행가능 소프트웨어 코드로서 구현될 수 있다. 장치(600)는 또한 비트스트림에 대한 후속 처리(예를 들어, 메타데이터 삽입, 암호화 등)을 수행하도록 구성된 모듈(603)을 포함한다. 본 장치는 비디오 인코딩된 데이터 또는 매체 데이터에 대해 저장 또는 네트워크 송신 계층 코딩을 수행하도록 구성된 저장/송신 모듈(604)을 더 포함한다. 모듈(604)은 예를 들어, 디지털 통신 네트워크를 통해 데이터를 스트리밍하거나 DASH 호환 포맷으로 비트스트림을 저장하기 위해 본 명세서에서 설명된 MPEG-DASH 기술들을 구현할 수 있다.

상술된 모듈들(601~604)은 전용 하드웨어를 사용하여 또는 적절한 소프트웨어와 조합하여 처리를 수행할 수 있는 하드웨어를 사용하여 구현될 수 있다. 이러한 하드웨어 또는 특수 목적 하드웨어는 주문형 집적 회로(ASIC)들, 다양한 다른 회로들, 다양한 프로세서들 등을 포함할 수 있다. 프로세서에 의해 구현될 때, 기능은 단일 전용 프로세서, 단일 공유 프로세서, 또는 일부가 공유될 수 있는 다수의 독립 프로세서들에 의해 제공될 수 있다. 또한, 프로세서는 소프트웨어를 실행할 수 있는 하드웨어를 지칭하는 것으로 이해되어서는 안 되며, 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM)뿐만 아니라, 비휘발성 저장 디바이스들을 제한 없이 암시적으로 포함할 수 있다.

도 6에 도시된 바와 같은 장치(600)는 모바일 폰, 컴퓨터, 서버, 셋톱 박스, 휴대용 모바일 단말, 디지털 비디오 카메라, 텔레비전 방송 시스템 디바이스 등과 같은 비디오 응용 분야에서의 디바이스일 수 있다.

도 7은 본 기술에 따른 장치(700)의 예의 블록도이다. 장치(700)는 저장 디바이스로부터 판독함으로써 또는 네트워크로부터 비트스트림을 획득하도록 구성된 획득 모듈(701)을 포함한다. 예를 들어, 모듈(701)은 본 명세서에서 설명된 MPEG-DASH 기술들을 사용하여 코딩된 매체 파일의 파싱 및 추출을 구현하고, 볼류메트릭 시각 매체 데이터를 포함하는 네트워크 송신 계층 데이터로부터 디코딩을 수행할 수 있다. 시스템 및 파일 파서 모듈(702) 은 수신된 비트스트림으로부터 다양한 시스템 계층 및 파일 계층 신택스 요소들(예를 들어, 아틀라스 서브 비트스트림들, 그룹 정보 등)을 추출할 수 있다. 비디오 디코더(703)는 3차원 장면에 대한 매체 데이터, 또는 포인트 클라우드 데이터 또는 멀티 뷰 비디오 데이터 등과 같은 볼류메트릭 매체 데이터를 포함하는 인코딩된 비디오 서브 비트스트림들을 디코딩하도록 구성된다. 렌더러 모듈(704)은 사용자 인터페이스 제어를 통해 사용자로부터 수신할 수 있는 원하는 뷰잉 위치 또는 원하는 뷰잉 배향에 기초하여 3차원 장면의 타겟 뷰를 렌더링하도록 구성된다.

상술된 모듈들(701~704)은 전용 하드웨어를 사용하여 또는 적절한 소프트웨어와 조합하여 처리를 수행할 수 있는 하드웨어를 사용하여 실현될 수 있다. 이러한 하드웨어 또는 특수 목적 하드웨어는 주문형 집적 회로(ASIC)들, 다양한 다른 회로들, 다양한 프로세서들 등을 포함할 수 있다. 프로세서에 의해 구현될 때, 기능은 단일 전용 프로세서, 단일 공유 프로세서, 또는 일부가 공유될 수 있는 다수의 독립 프로세서들에 의해 제공될 수 있다. 또한, 프로세서는 소프트웨어를 실행할 수 있는 하드웨어를 지칭하는 것으로 이해되어서는 안 되며, 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM)뿐만 아니라, 비휘발성 저장 디바이스들을 제한 없이 암시적으로 포함할 수 있다.

도 7에 도시된 바와 같은 디바이스는 모바일 폰, 컴퓨터, 서버, 셋톱 박스, 휴대용 모바일 단말, 디지털 비디오 카메라, 텔레비전 방송 시스템 디바이스 등과 같은 비디오 응용 분야에서의 디바이스일 수 있다.

도 8은 도 6 및 도 7에서 설명된 인코더/디코더 구현예들을 포함하여, 본원에서 설명된 다양한 인코딩 및/또는 디코딩 기능들을 구현하기 위한 하드웨어 플랫폼으로서 사용될 수 있는 장치(800)의 예의 블록도이다. 장치(800)는 본 명세서에서 설명된 방법을 구현하도록 프로그래밍된 프로세서(802)를 포함한다. 장치(800)는 비트스트림 인코딩 또는 디코딩과 같은 특정 기능들을 수행하기 위한 전용 하드웨어 회로부를 더 포함할 수 있다. 장치(800)는 또한 프로세서에 대한 실행가능한 코드 및/또는 볼류메트릭 데이터 및 본 명세서에서 설명된 다양한 신택스 요소들에 따르는 데이터를 포함하는 다른 데이터를 저장하는 메모리를 포함할 수 있다.

일부 실시예들에서, 3D 포인트 클라우드 데이터 인코더는 본 명세서에서 설명된 바와 같은 신택스 및 시맨틱스를 사용하여 3D 공간 정보를 인코딩함으로써 3차원 포인트 클라우드의 비트스트림 표현을 생성하도록 구현될 수 있다.

볼류메트릭 시각 매체 데이터 인코딩 또는 디코딩 장치는 컴퓨터, 랩톱과 같은 사용자 디바이스, 태블릿 또는 게이밍 디바이스의 일부로서 구현될 수 있다.

본 문헌에서 설명된 개시된 실시예들 및 다른 실시예들, 모듈들 및 기능 동작들은 본 문헌에서 개시된 구조들 및 이것들의 구조적 등가물들을 포함하여, 디지털 전자 회로부로, 또는 컴퓨터 소프트웨어, 펌웨어, 또는 하드웨어, 또는 이들 중 하나 이상의 조합들로 구현될 수 있다. 개시된 실시예들 및 다른 실시예들은 하나 이상의 컴퓨터 프로그램 제품, 즉 데이터 처리 장치에 의한 실행을 위해, 또는 데이터 처리 장치의 동작을 제어하기 위해 컴퓨터 판독 가능한 매체 상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 판독 가능한 매체는 기계 판독 가능한 저장 디바이스, 기계 판독 가능한 저장 기판, 메모리 디바이스, 기계 판독 가능한 전파 신호를 초래하는 물질의 구성물, 또는 이들 중 하나 이상의 조합일 수 있다. "데이터 처리 장치"라는 용어는 예로서 프로그램 가능한 프로세서, 컴퓨터, 또는 다수의 프로세서들 또는 컴퓨터들을 포함하여, 데이터를 처리하기 위한 모든 장치들, 디바이스들, 및 기계들을 망라한다. 장치는 하드웨어 외에, 당해 컴퓨터 프로그램에 대한 실행 환경을 조성하는 코드, 예를 들어, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 전파되는 신호는 적합한 수신기 장치로의 송신할 정보를 인코딩하기 위해 생성되는 인위적으로 생성된 신호, 예를 들어, 기계 생성 전기, 광학 또는 전자기 신호이다.

컴퓨터 프로그램(또한 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드라고도 알려짐)은 컴파일된 또는 해석된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 이는 임의의 형태로, 이를테면 독립형 프로그램으로서 또는 모듈, 컴포넌트, 서브루틴, 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛으로서 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템에서의 파일에 반드시 대응하는 것은 아니다. 프로그램은 다른 프로그램들 또는 데이터(예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하는 파일의 일부에, 당해 프로그램에 전용인 단일 파일에, 또는 다수의 조정되는 파일들(예를 들어, 하나 이상의 모듈, 서브 프로그램, 또는 코드의 부분들을 저장하는 파일들)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 상에서, 또는 다수의 컴퓨터들 ― 하나의 사이트에 위치되거나, 또는 다수의 사이트들에 걸쳐 분산되고 통신 네트워크에 의해 상호연결됨 ― 상에서 실행되도록 전개될 수 있다.

본 문헌에서 설명된 프로세스들 및 논리 흐름들은 입력 데이터에 대해 동작하고 출력을 생성함으로써 기능들을 수행하도록 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능한 프로세서에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 또한 특수 목적 논리 회로부, 예를 들어, FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(주문형 반도체)에 의해 수행될 수 있고, 이러한 것으로서 장치가 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 프로세서들은 예로서, 범용 및 특수 목적 마이크로 프로세서들 양자, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서를 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리, 또는 양자로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소들은 명령어들을 수행하기 위한 프로세서, 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한, 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들어, 자기, 광자기 디스크들, 또는 광 디스크들을 포함하거나, 또는 이들로부터 데이터를 수신하거나 이들에 데이터를 송신하거나, 또는 양자를 위해 작동 가능하게 결합될 것이다. 그러나, 컴퓨터는 이러한 디바이스들을 가질 필요는 없다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예로서, 반도체 메모리 디바이스들, 예를 들어, EPROM, EEPROM, 및 플래시 메모리 디바이스들; 자기 디스크들, 예를 들어, 내부 하드 디스크들 또는 착탈식 디스크들; 광자기 디스크들 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로부에 의해 보완될 수 있거나, 특수 목적 논리 회로부 내에 포함될 수 있다.

본 특허 문서가 많은 세부 사항들을 포함하고 있지만, 이것들은 임의의 발명 또는 청구될 수 있는 것의 범위에 대한 제한으로서 해석되어서는 안 되고, 특정 발명들의 특정 실시예들에 특유할 수 있는 특징들에 대한 설명인 것으로서 해석되어야 한다. 본 특허 문서에서 별개의 실시예들의 상황에서 설명된 특정한 특징들은 또한 단일의 실시예로 조합하여 구현될 수도 있다. 반대로, 단일 실시예의 맥락에서 설명된 다양한 특징은 또한 다수의 실시예들에서 별개로 또는 임의의 적절한 하위 조합으로 구현될 수 있다. 더욱이, 특징들이 특정 조합들로 작용하는 것으로 상술될 수 있고 심지어 처음에 그렇게 주장될 수도 있지만, 청구된 조합으로부터의 하나 이상의 특징은 경우에 따라 조합으로부터 절제될 수 있고, 청구된 조합은 하위 조합 또는 하위 조합의 변형에 관할 수 있다.

유사하게, 동작들이 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 결과들을 달성하기 위해 그러한 동작들이 도시된 특정 순서 또는 순차적 순서로 수행되거나 모든 예시된 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안 된다. 더욱이, 본 특허 문헌에 설명된 실시예들에서 다양한 시스템 컴포넌트들의 분리는 모든 실시예들에서 그러한 분리를 요구하는 것으로 이해되어서는 안 된다.

단지 몇 가지 구현예들 및 예들이 설명되고 다른 구현, 향상 및 변형이 본 특허 명세서에 설명되고 예시된 것에 기초하여 이루어질 수 있다.

Claims

볼류메트릭 시각 데이터 처리 방법으로서,
디코더에 의해, 하나 이상의 아틀라스 서브 비트스트림 및 하나 이상의 인코딩된 비디오 서브 비트스트림으로서 표현되는 3차원 장면에 대한 볼류메트릭 시각 정보를 포함하는 비트스트림을 디코딩하는 단계;
상기 하나 이상의 아틀라스 서브 비트스트림을 디코딩한 결과 및 상기 하나 이상의 인코딩된 비디오 서브 비트스트림을 디코딩한 결과를 사용하여, 상기 3차원 장면을 재구성하는 단계; 및
원하는 뷰잉 위치 및/또는 원하는 뷰잉 배향에 기초하여 상기 3차원 장면의 타겟 뷰를 렌더링하는 단계를 포함하는, 볼류메트릭 시각 데이터 처리 방법.
제1항에 있어서, 상기 재구성하는 단계는:
상기 디코더에 의해, 상기 타겟 뷰의 렌더링을 위해 상기 볼류메트릭 시각 데이터의 하나 이상의 뷰가 선택된 뷰 그룹에 대응하는 아틀라스 그룹을 디코딩하는 단계를 포함하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제1항 또는 제2항에 있어서, 상기 디코딩하는 단계는 상기 아틀라스 그룹을 디코딩하기 전에:
파일 파서(parser)에 의해, 상기 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙의 신택스(syntax) 요소에 기초하여 상기 아틀라스 그룹에 대응하는 볼류메트릭 시각 트랙 그룹을 역캡슐화(decapsulate)하는 단계를 포함하며, 상기 볼류메트릭 시각 트랙 그룹 및 상기 볼류메트릭 시각 파라미터 트랙은 상기 아틀라스 그룹에 대한 모든 아틀라스 데이터를 반송(carry)하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제1항 또는 제2항에 있어서, 상기 디코딩하는 단계는 상기 아틀라스 그룹을 디코딩하기 전에:
파일 파서에 의해, 상기 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함하는 시한(timed) 메타데이터 트랙의 신택스 요소에 기초하여 상기 아틀라스 그룹에 대응하는 볼류메트릭 시각 트랙 그룹을 역캡슐화하는 단계를 포함하며, 상기 볼류메트릭 시각 트랙 그룹 및 상기 볼류메트릭 시각 파라미터 트랙은 상기 아틀라스 그룹에 대한 모든 아틀라스 데이터를 반송하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제3항 및 제4항에 있어서,
특정 트랙 그룹 유형 및 특정 트랙 그룹 아이덴티티에 따라 상기 볼류메트릭 시각 트랙 그룹을 식별하는 단계를 포함하며, 상기 볼류메트릭 시각 트랙 그룹 내의 볼류메트릭 시각 트랙들 각각이 상기 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제2항에 있어서,
상기 디코더에 의해, 하나 이상의 뷰 그룹 정보 ― 각 뷰 그룹 정보가 하나 이상의 뷰를 기술함 ― 에 기초하여 상기 타겟 뷰에 대한 볼류메트릭 시각 데이터의 상기 하나 이상의 뷰를 선택하는 단계를 포함하는, 볼류메트릭 시각 데이터 처리 방법.
제6항에 있어서, 각 뷰 그룹 정보는 상기 하나 이상의 뷰에 대한 카메라 파라미터들을 더 포함하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제1항에 있어서,
상기 디코더에 의해, 상기 타겟 뷰에 대해 선택된 볼류메트릭 시각 데이터의 하나 이상의 뷰에 대응하는 하나 이상의 아틀라스를 디코딩하는 단계를 포함하는, 볼류메트릭 시각 데이터 처리 방법.
제1항 또는 제8항에 있어서, 상기 하나 이상의 아틀라스 서브 스트림으로부터의 정보는:
상기 비트스트림의 파일 스토리지 신택스 구조에서의 볼류메트릭 시각 파라미터 트랙의 신택스 요소에 기초하여 상기 하나 이상의 아틀라스에 대응하는 하나 이상의 볼류메트릭 시각 트랙을 역캡슐화함으로써 디코딩되며, 상기 하나 이상의 볼류메트릭 시각 트랙 및 상기 볼류메트릭 시각 파라미터 트랙은 상기 하나 이상의 아틀라스에 대한 모든 아틀라스 데이터를 반송하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제1항 또는 제8항에 있어서, 상기 하나 이상의 아틀라스 서브 스트림으로부터의 정보는:
상기 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함하는 시한 메타데이터 트랙의 신택스 요소에 기초하여 상기 하나 이상의 아틀라스에 대응하는 하나 이상의 볼류메트릭 시각 트랙을 역캡슐화함으로써 디코딩되며, 상기 하나 이상의 볼류메트릭 시각 트랙 및 상기 볼류메트릭 시각 파라미터 트랙은 상기 하나 이상의 아틀라스에 대한 모든 아틀라스 데이터를 반송하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제8항에 있어서,
상기 디코더에 의해, 상기 하나 이상의 뷰에 대한 뷰 정보 ― 각 뷰 정보가 대응하는 뷰의 카메라 파라미터들을 기술함 ― 에 기초하여 상기 타겟 뷰의 렌더링을 위해 상기 볼류메트릭 시각 데이터의 상기 하나 이상의 뷰를 선택하는 단계를 포함하는, 볼류메트릭 시각 데이터 처리 방법.
제3항 또는 제9항에 있어서,
특정 샘플 엔트리 유형에 따라 상기 볼류메트릭 시각 파라미터 트랙을 식별하는 단계를 포함하며,
상기 볼류메트릭 시각 파라미터 트랙은 특정 트랙 레퍼런스를 갖는 하나 이상의 볼류메트릭 시각 트랙에 대응하고,
상기 볼류메트릭 시각 파라미터 트랙은 상기 특정 트랙 레퍼런스를 갖는 모든 참조된 볼류메트릭 시각 트랙에 대한 일정한 파라미터 세트들 및 공통 아틀라스 데이터를 특정하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제4항 또는 제10항에 있어서,
상기 타겟 뷰 렌더링을 위해 선택된 볼류메트릭 시각 데이터의 하나 이상의 뷰가 동적임을 나타내는 특정 샘플 엔트리 유형에 따라 상기 시한 메타데이터 트랙을 식별하는 단계를 포함하는, 볼류메트릭 시각 데이터 처리 방법.
제1항에 있어서, 상기 하나 이상의 인코딩된 비디오 서브 비트스트림은:
기하구조 데이터에 대한 하나 이상의 비디오 코딩된 기본 스트림(elementary stream), 및
점유 맵 데이터에 대한 0 또는 1개의 비디오 코딩된 기본 스트림, 및
속성 데이터에 대한 0개 이상의 비디오 코딩된 기본 스트림을 포함하며,
상기 기하학적 구조 데이터, 상기 점유 맵 데이터 및 상기 속성 데이터는 상기 3차원 장면을 기술하는 것인, 볼류메트릭 시각 데이터 처리 방법.
볼류메트릭 시각 데이터 처리 방법으로서,
인코더에 의해, 하나 이상의 아틀라스 서브 비트스트림 및 하나 이상의 인코딩된 비디오 서브 비트스트림을 사용하여 3차원 장면에 대한 볼류메트릭 시각 정보를 포함하는 비트스트림을 표현함으로써 생성하는 단계, 및
상기 비트스트림에, 원하는 뷰잉 위치 및/또는 원하는 뷰잉 배향에 기초하여 상기 3차원 장면의 타겟 뷰의 렌더링을 가능하게 하는 정보를 포함시키는 단계를 포함하는, 볼류메트릭 시각 데이터 처리 방법.
제15항에 있어서, 상기 생성하는 단계는:
상기 인코더 의해, 상기 타겟 뷰의 렌더링을 위해 상기 볼류메트릭 시각 데이터의 하나 이상의 뷰가 선택가능한 뷰 그룹에 대응하는 아틀라스 그룹을 인코딩하는 단계를 포함하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제15항 또는 제16항에 있어서, 상기 생성하는 단계는, 아틀라스 그룹을 인코딩하기 위해:
상기 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙의 신택스 요소에 기초하여 상기 아틀라스 그룹에 대응하는 볼류메트릭 시각 트랙 그룹을 캡슐화(encapsulate)하는 단계를 포함하며, 상기 볼류메트릭 시각 트랙 그룹 및 상기 볼류메트릭 시각 파라미터 트랙은 상기 아틀라스 그룹에 대한 모든 아틀라스 데이터를 반송하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제15항 또는 제16항에 있어서, 상기 생성하는 단계는, 아틀라스 그룹을 인코딩하기 위해:
상기 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함하는 시한 메타데이터 트랙의 신택스 요소에 기초하여 상기 아틀라스 그룹에 대응하는 볼류메트릭 시각 트랙 그룹을 캡슐화하는 단계를 포함하며, 상기 볼류메트릭 시각 트랙 그룹 및 상기 볼류메트릭 시각 파라미터 트랙은 상기 아틀라스 그룹에 대한 모든 아틀라스 데이터를 반송하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제17항 및 제18항에 있어서,
상기 비트스트림에, 특정 트랙 그룹 유형 및 특정 트랙 그룹 아이덴티티에 따라 상기 볼류메트릭 시각 트랙 그룹을 식별하는 정보를 포함시키는 단계를 포함하며, 상기 볼류메트릭 시각 트랙 그룹 내의 볼류메트릭 시각 트랙들 각각이 상기 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제16항에 있어서,
상기 인코더 의해, 하나 이상의 뷰 그룹 정보 ― 각 뷰 그룹 정보가 하나 이상의 뷰를 기술함 ― 에 기초하여 상기 타겟 뷰에 대한 볼류메트릭 시각 데이터의 상기 하나 이상의 뷰를 인코딩하는 단계를 포함하는, 볼류메트릭 시각 데이터 처리 방법.
제20항에 있어서, 각 뷰 그룹 정보는 상기 하나 이상의 뷰에 대한 카메라 파라미터들을 더 포함하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제15항에 있어서,
상기 디코더에 의해, 상기 타겟 뷰에 대해 선택된 볼류메트릭 시각 데이터의 하나 이상의 뷰에 대응하는 하나 이상의 아틀라스를 인코딩하는 단계를 포함하는, 볼류메트릭 시각 데이터 처리 방법.
제15항 또는 제22항에 있어서, 상기 하나 이상의 아틀라스 서브 스트림으로부터의 정보는:
상기 비트스트림의 파일 스토리지 신택스 구조에서의 볼류메트릭 시각 파라미터 트랙의 신택스 요소에 기초하여 상기 하나 이상의 아틀라스에 대응하는 하나 이상의 볼류메트릭 시각 트랙을 캡슐화함으로써 인코딩되며, 상기 하나 이상의 볼류메트릭 시각 트랙 및 상기 볼류메트릭 시각 파라미터 트랙은 상기 하나 이상의 아틀라스에 대한 모든 아틀라스 데이터를 반송하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제15항 또는 제22항에 있어서, 상기 하나 이상의 아틀라스 서브 스트림으로부터의 정보는:
상기 비트스트림의 파일 스토리지 내 볼류메트릭 시각 파라미터 트랙에 대한 특정 트랙 레퍼런스를 포함하는 시한 메타데이터 트랙의 신택스 요소에 기초하여 상기 하나 이상의 아틀라스에 대응하는 하나 이상의 볼류메트릭 시각 트랙을 캡슐화함으로써 인코딩되며, 상기 하나 이상의 볼류메트릭 시각 트랙 및 상기 볼류메트릭 시각 파라미터 트랙은 상기 하나 이상의 아틀라스에 대한 모든 아틀라스 데이터를 반송하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제22항에 있어서,
상기 하나 이상의 뷰에 대한 뷰 정보 ― 각 뷰 정보가 대응하는 뷰의 카메라 파라미터들을 기술함 ― 에 기초하여 상기 타겟 뷰의 렌더링을 위해 상기 볼류메트릭 시각 데이터의 상기 하나 이상의 뷰를 식별하는 정보를 포함시키는 단계를 포함하는, 볼류메트릭 시각 데이터 처리 방법.
제17항 또는 제23항에 있어서,
상기 비트스트림에, 특정 샘플 엔트리 유형에 따라 상기 볼류메트릭 시각 파라미터 트랙을 식별하기 위한 정보를 포함시키는 단계를 포함하며,
상기 볼류메트릭 시각 파라미터 트랙은 특정 트랙 레퍼런스를 갖는 하나 이상의 볼류메트릭 시각 트랙에 대응하고,
상기 볼류메트릭 시각 파라미터 트랙은 상기 특정 트랙 레퍼런스를 갖는 모든 참조된 볼류메트릭 시각 트랙에 대한 일정한 파라미터 세트들 및 공통 아틀라스 데이터를 특정하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제18항 또는 제24항에 있어서,
상기 비트스트림에, 상기 타겟 뷰 렌더링을 위해 선택된 볼류메트릭 시각 데이터의 하나 이상의 뷰가 동적임을 나타내는 특정 샘플 엔트리 유형에 따라 상기 시한 메타데이터 트랙을 식별하기 위한 정보를 포함시키는 단계를 포함하는, 볼류메트릭 시각 데이터 처리 방법.
제15항에 있어서, 상기 하나 이상의 인코딩된 비디오 서브 비트스트림은:
기하구조 데이터에 대한 하나 이상의 비디오 코딩된 기본 스트림(elementary stream), 및
점유 맵 데이터에 대한 0 또는 1개의 비디오 코딩된 기본 스트림, 및
속성 데이터에 대한 0개 이상의 비디오 코딩된 기본 스트림을 포함하며,
상기 기하학적 구조 데이터, 상기 점유 맵 데이터 및 상기 속성 데이터는 상기 3차원 장면을 기술하는 것인, 볼류메트릭 시각 데이터 처리 방법.
제1항 내지 제28항 중 어느 한 항에서 기술된 방법을 구현하도록 구성된 프로세서를 포함하는 비디오 처리 장치.
코드가 저장된 컴퓨터 판독가능 매체로서, 상기 코드는 프로세서로 하여금 제1항 내지 제28항 중 어느 한 항에서 기술된 방법을 구현하게 하기 위한 명령어들을 인코딩한 것인, 컴퓨터 판독가능 매체.