KR20220010907A

KR20220010907A - 3d(ar) 미디어 랜덤 액세스를 위한 방법 및 장치

Info

Publication number: KR20220010907A
Application number: KR1020200089629A
Authority: KR
Inventors: 에릭 입; 양현구; 송재연
Original assignee: 삼성전자주식회사
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2022-01-27
Also published as: WO2022019552A1; EP4140124A1; US11457255B2; EP4140124A4; US20220021913A1

Abstract

시점 기반 랜덤 액세스에 기초한 3D 미디어 컨텐츠 액세스 방법이 제공된다. 이 방법은 미디어 컨텐츠 및 메타데이터를 수신하는 단계 - 메타데이터는 시점에 관한 제 1 정보 및 3D 객체가 투영되는 적어도 하나의 면에 관한 제 2 정보를 포함하고, 적어도 하나의 면은 시점과 연관되어 있음 -, 및 제 1 정보 및 제 2 정보에 기초하여 미디어 컨텐츠에 대한 시점 기반 랜덤 액세스를 수행하는 단계를 포함한다.

Description

3D(AR) 미디어 랜덤 액세스를 위한 방법 및 장치{METHOD AND APPARATUS FOR RANDOM ACCESS OF 3D(AR) MEDIA}

본 발명은 포인트 클라우드(point cloud) 및 메시(mesh)로 표현되는 3D 미디어를 포함하는, 혼합 현실 및 증강 현실 컨텐츠의 멀티미디어 컨텐츠 제작, 처리, 전달, 디코딩 및 렌더링에 관한 것으로, 특히 3D 미디어의 시점(perspective) 기반 랜덤 액세스 방법 및 장치에 관한 것이다.

전통적인 2D 비디오는 인트라-프레임 코딩 및 인터-프레임 코딩과 같은 기술을 사용하여 인코딩된다. 인터-프레임 코딩은 다른 프레임들(이전에 수신된 프레임 또는 미래의 프레임)로부터의 데이터를 참조하는 프레임들을 생성함으로써 코딩 효율(비디오 압축)을 달성한다. 이러한 인터-프레임 코딩은 GoP(group of pictures)가 (적어도) 하나의 인트라-프레임을 포함하는 프레임 타입들의 구조를 정의하는 GoP 개념을 발생시킨다. 인트라-코딩 화상들(I-프레임들)은 그 프레임 내에서의 디코딩에 필요한 모든 데이터를 포함하며, 독립적으로 디코딩 가능하다. 예측 화상들(P-프레임들)은 이전 프레임으로부터의 이미지 변경 사항만을 포함한다. 양방향 예측 화상들(B-프레임들)은 현재 프레임과 이전 및 다음 프레임 사이의 차이를 사용하여 그것의 내용을 지정함으로써 더욱더 많은 압축을 달성한다.

비디오 압축 결과로서 정의되는 GoP 결과물은 모든 프레임들이 독립적으로 디코딩 가능한 것은 아님을 의미한다. 따라서, 사용자가 트릭 모드에서 2D 비디오를 탐색할 경우(예를 들어, 영화 프레젠테이션 시간 10 초에서 영화 프레젠테이션 시간 45 초로 스크롤링), 랜덤 액세스 포인트들은, 가장 가까운 독립적으로 디코딩 가능한 프레임(I-프레임)이 재생을 위해 발견, 파싱 및 사용되도록(직접 렌더링되거나 종속 프레임의 디코딩 및 렌더링에 사용) 정의된다.

3D 미디어(포인트 클라우드 및 메시)는 사용자가 다수의(무제한의) 상이한 뷰잉 방향들(시점들(perspectives))에서 3D 미디어를 자유롭게 볼 수 있다는 점에서 전통적인 2D 비디오 미디어와 다르다. 그러나, 3D 미디어의 처리(즉, 디코딩 및 렌더링)는 계산 집약적이며 높은 처리 능력(예를 들어, MPEG V-PCC 디코딩)을 요구한다. 이러한 복잡성은 3D 미디어에 많은 포인트들이 포함되어 있을 경우에 증폭된다. 기존의 기술들은 3D 미디어를 사용하기 위해, 사용자의 시점이나 위치에 관계없이, 전체 3D 미디어의 전송, 디코딩, 3D 미디어 재구성 및 렌더링을 필요로 한다.

본 발명의 일 실시 예에 따르면, 컨텐츠 제공자의 장치에 의해서, 시점(perspective) 기반 랜덤 액세스를 위한 3D 객체를 포함하는 미디어 컨텐츠를 제공하는 방법은 미디어 컨텐츠에 대한 메타데이터를 생성하는 단계 - 메타데이터는 시점에 관한 제 1 정보 및 3D 객체가 투영되는 적어도 하나의 면(face)에 관한 제 2 정보를 포함하며, 적어도 하나의 면은 시점과 연관되어 있음 -, 및 미디어 컨텐츠 및 메타데이터를 송신하는 단계를 포함한다.

본 발명의 다른 실시 예에 따르면, 사용자의 장치에 의해서, 시점 기반 랜덤 액세스에 기초하여 3D 객체를 포함하는 미디어 컨텐츠에 액세스하는 방법은 미디어 컨텐츠 및 메타데이터를 수신하는 단계 - 메타데이터는 시점에 관한 제 1 정보 및 3D 객체가 투영되는 적어도 하나의 면에 관한 제 2 정보를 포함하고, 적어도 하나의 면은 시점과 연관되어 있음 -, 및 제 1 정보 및 제 2 정보에 기초하여 미디어 컨텐츠에 대한 시점 기반 랜덤 액세스를 수행하는 단계를 포함한다.

본 발명의 일 실시 예에 따르면, 시점 기반 랜덤 액세스를 위한 3D 객체를 포함하는 미디어 컨텐츠를 제공하기 위한 컨텐츠 제공자의 장치가 송수신기 및 적어도 하나의 프로세서를 포함하며, 이 적어도 하나의 프로세서는 미디어 컨텐츠에 대한 메타데이터를 생성하고 - 메타데이터는 시점에 관한 제 1 정보 및 3D 객체가 투영되는 적어도 하나의 면에 관한 제 2 정보를 포함하며, 적어도 하나의 면은 시점과 연관되어 있음 -, 또한 미디어 컨텐츠 및 메타데이터를 송신하도록 구성된다.

본 발명의 일 실시 예에 따르면, 시점 기반 랜덤 액세스에 기초하여 3D 객체를 포함하는 미디어 컨텐츠에 액세스하기 위한 사용자의 장치가 송수신기 및 적어도 하나의 프로세서를 포함하며, 이 적어도 하나의 프로세서는,

미디어 컨텐츠 및 메타데이터를 수신하고 - 메타데이터는 시점에 관한 제 1 정보 및 3D 객체가 투영되는 적어도 하나의 면에 관한 제 2 정보를 포함하고, 적어도 하나의 면은 시점과 연관되어 있음 -, 또한 제 1 정보 및 상기 제 2 정보에 기초하여 미디어 컨텐츠에 대한 시점 기반 랜덤 액세스를 수행하도록 구성된다.

랜덤 액세스 시점들을 정의하면 다음과 같은 특징들이 가능하게 된다:

1. 정의된 랜덤 액세스 시점들에 따른 사용자 시점 "점프"(머리 움직임이 아님)

2. 랜덤 액세스 시점들에 기반하는 고속 디코딩 및 렌더링

3. 트릭 모드에서 3D(AR) 미디어를 탐색할 때 뷰어에 대한 시점 안내

또한 랜덤 액세스 시점들에 의할 경우 특정 서비스 응용을 위해 전체 3D 미디어를 전달, 디코딩 및/또는 렌더링할 필요가 없게 된다.

도 1은 본 발명의 일 실시 예에 따른 서로 다른 단계들 각각 동안에, 3D 미디어를 표현하기 위해 엔드 투 엔드(end to end) 시스템에서 사용되는 좌표 시스템들을 도시한 것이다.
도 2는 본 발명의 일 실시 예에 따른 3D 미디어에 대한 추가 디멘전(dimension)의 시점을 도시한 것이다.
도 3a 및 도 3b는 본 발명의 일 실시 예에 따른 (컨텐츠 제공자 및/또는 서비스 제공자에 의한) 컨텐츠 제작 절차 동작들을 나타내는 흐름도를 도시한 것이다.
도 4는 본 발명의 일 실시 예에 따른, 최소 포인트-면(point-face) 거리에 기초한 포인트 투 면(point to face) 할당/투영 동작을 도시한 것이다.
도 5는 면 할당/투영 동작을 위한, 단일 평면에서만 45도만큼 회전된 큐브 지오메트리(geometry)의 예를 보여준다.
도 6은 면 할당/투영 동작을 위한 육각형 지오메트리의 예를 보여준다.
도 7은 면 할당/투영 동작을 위한 오각형 지오메트리의 예를 보여준다.
도 8은 본 발명의 일 실시 예에 따른 단일 시간 랜덤 액세스 포인트에서의 시점 랜덤 액세스를 위한 플레이어 동작들을 나타내는 흐름도를 포함한다.
도 9는 본 발명의 일 실시 예에 따른 AR 3D 미디어의 트릭 모드 재생을 위한 플레이어 동작들을 나타내는 흐름도를 포함한다.
도 10은 도 5의 사용 케이스 지오메트리에 따른 face_id 및 perspective_id syntax 및 semantics의 표현들을 보여준다.
도 11은 본 발명의 일 실시 예에 따른, 인코딩된 3D 미디어 코딩된 유닛들과 정의된 면들(faces) 및 시점들(perspectives) 사이의 연관의 예를 도시한 것이다.
도 12는 본 발명의 일 실시 예에 따른 컨텐츠 제공자 장치의 블록도를 도시한 것이다.
도 13은 본 발명의 일 실시 예에 따른 사용자 장치의 블록도를 도시한 것이다.

당업자는 본 도면의 요소가 단순성 및 명료성을 위해 도시되어 있으며 반드시 축척대로 그려진 것은 아니라는 것을 이해할 것이다. 예를 들어, 도면에서 일부 요소의 치수 및/또는 상대적 위치는 본 발명의 다양한 실시 예의 이해 개선을 돕기 위해 다른 요소에 비해 과장될 수 있다. 또한, 상업적으로 실행 가능한 실시 예에서 유용하거나 필요한 일반적이지만 잘 이해되는 요소는 본 발명의 이러한 다양한 실시 예의 덜 가려진 관측을 용이하게 하기 위해 종종 도시되지 않는다. 특정 동작 및/또는 단계가 특정 발생 순서로 설명되거나 도시될 수 있지만, 당업자는 그 시퀀스에 대한 이러한 특이성이 실제로는 요구되지는 않는다는 것을 또한 이해할 것이다. 본 명세서에서 사용되는 용어 및 표현은 본 명세서에서 상이한 특정 의미들이 달리 기술된 경우를 제외하고는, 전술한 기술 분야의 당업자에 의한 그러한 용어 및 표현에 따른 일반적인 기술적 의미를 갖는 것으로 이해될 것이다.

증강 현실(AR)에서의 3D 미디어 특성은 뷰어가 동시에 여러 다른 시점들에서 3D 미디어를 볼 수 있는 경우는 거의 없다는 점이다(예를 들어, 뷰어는 의자에 놓인, 3D 미디어로 표현되는 인형의 전방 및 후방을 볼 수 없으며, 현실적으로 그렇게 하는 것은 물리적으로 불가능하다). 따라서 이러한 특성을 이용함으로써(예를 들어, 2D 비디오 코덱에서의 슬라이스(Slice) 및 타일(Tile) 기반 영상 분할 기술을 이용), 본 발명은 3D 미디어에 대한 시점 기반 랜덤 액세스 개념을 정의한다.

컨텐츠 제작 단계(컨텐츠 제공자 또는 서비스 제공자에 의해)에서 3D 미디어 컨텐츠에 대한 랜덤 액세스 시점들을 정의함으로써, 3D 미디어의 디코딩 및 렌더링을 위한 처리 요구 사항들이 감소될 수 있다. 이것은 사용자에 의해 선택되거나 또는 미디어 데이터 내에 메타데이터로서 미리 정의된 바와 같은 정의된 랜덤 액세스 시점들만을 디코딩 및 렌더링함으로써 달성되며, 이에 따라 디코딩 및 렌더링에 필요한 포인트들(points)/메시 표면들(mesh surfaces)의 수를 감소시킨다.

전통적인 2D 비디오 시간 랜덤 액세스와 3D 미디어 시점 랜덤 액세스의 비교:

2D 비디오:

프레임 간 상관관계 사용 -> 비디오 코딩 효율성 -> 시간 랜덤 액세스(time random access) 필요

3D AR 미디어:

3D 미디어와 시점 간 상관관계 사용 -> 3D 미디어 코딩, 디코딩, 렌더링 효율성 -> 시점 랜덤 액세스(perspective random access) 필요

2. 랜덤 액세스 시점들에 기반하는 고속 디코딩 및 렌더링

3. 뷰어에 대한 시점 안내(특히 트릭 모드에서 3D(AR) 미디어를 탐색할 때)

AR 글래스 타입 장치를 사용하는 증강 현실 서비스의 경우, AR에서의 사용자 움직임은 주로 머리 움직임 또는 한정된 몸 움직임으로 제한되며; 따라서, 랜덤 액세스 시점이 그러한 작은 움직임을 커버할 수 있는 3D 미디어 데이터를 포함하는 경우에는, 추가적인 페칭/디코딩/렌더링이 필요하지 않게 된다.

랜덤 액세스 시점들을 정의하고 지원하기 위한 본 발명의 주요 내용은 다음과 같다:

1. (컨텐츠에 고유한) 3D 미디어에 대한 랜덤 액세스 시점들을 할당, 정의 및 생성하기 위한 컨텐츠 제작(컨텐츠 제공자 및/또는 서비스 제공자) 동작들

2. 1에서 생성 및 제작된 미디어의 시점 기반 랜덤 액세스 시점 전환 및 트릭 모드 재생을 위한 재생(클라이언트) 장치 동작들

3. 1에서 생성되어 3D 미디어 자체(함께 또는 별도로)에 의해서 클라이언트에 전달되고, 2에서 지정된 바와 같이 재생(클라이언트) 장치들에 의해 소비되는 3D 미디어에 대한 랜덤 액세스 시점들을 가능하게 하는 메타데이터의 syntax 및 semantics

본 발명의 다양한 실시 예에 따르면, 컨텐츠 제작을 위한 동작들은 3D 컨텐츠를 제공 또는 전달하는 컨텐츠 제공자 및/또는 서비스 제공자의 장치에 의해 수행될 수 있으며, 시점 기반 랜덤 액세스(시점 랜덤 액세스라고도 함)를 위한 동작들은 3D 컨텐츠를 재생하는 사용자(또한, 클라이언트 또는 플레이어)의 장치에 의해 수행될 수 있다.

최근에, 3 세대(3G) 무선 통신은 4G 무선 통신으로도 지칭되는 LTE(Long term Evolution) 셀룰러 통신 표준으로 진화하였다. 3G 및 4G 기술들은 모두 3GPP™(Third Generation Partnership Project) 표준을 준수한다. 4G 네트워크 및 전화는 비디오 스트리밍 및 게임과 같은 액티비티들을 위한 모바일 인터넷 및 더 높은 속도를 지원하도록 설계되었다. 3GPP™ 표준은 이제 5 세대 모바일 무선 통신을 개발하고 있으며, 이러한 통신은 비즈니스 강화, 가정 내 통신 개선 및 무인 자동차 등의 선진적 발전과 같은 더 나은 통신 제공에서의 단계 변화를 시작하도록 설정되었다.

본 발명의 다양한 실시 예들에 따르면, 이러한 메타데이터를 포함하는 3D 컨텐츠(3D 미디어)는 예컨대, 3GPP™, 특히 5G의 모바일 무선 통신에 기초하여 사용자의 장치로 전송될 수 있다.

도 1은 각기 다른 단계들 동안에, 3D 미디어를 나타내기 위해 엔드-투-엔드(end-to-end) 시스템에서 사용되는 좌표 시스템을 보여준다. 캡처 단계 이후, 로우 데이터(raw data)가 3D 모델링 단계 동안에 처리된다. 이 단계에서 사용되는 좌표 시스템은 PLY 포맷과 같은, 미디어 표현 포맷에 의존한다. PLY 파일에서 사용되는 좌표 시스템의 일 예는 x, y, z 축 방향 각각에 대해 10 비트로 표현되는 1024x1024x1024 큐브이다. 이 PLY 파일은 그 후에 MPEG V-PCC와 같은 기술을 사용하여 코딩(압축)된 후, 동일한 모델링 좌표 시스템에서 원본 미디어를 출력하도록 전달 및 디코딩된다. 컨텐츠 제작 단계 동안에, 3D 미디어 모델링 좌표 시스템은 보다 효율적인 디코딩 및 렌더링(예를 들어, 시점 기반 랜덤 액세스)을 가능하게 하기 위해 1) 렌더링 프로세스 및 2) 코딩 프로세스 모두에 사용되는 렌더링 좌표 시스템에 매핑된다.

본 발명은 시점 기반 랜덤 액세스가 가능한, 렌더링 좌표 시스템에 대한 상이한 논리적 형상들(지오메트리들)에 대하여 설명한다. 3D 모델링 좌표 시스템과 렌더링 좌표 시스템 사이의 매핑은 구현 및 3D 미디어 포맷에 따라 다르며, 일 예는 모델링 좌표 시스템의 디폴트 포인트를 3D 렌더링 좌표 시스템의 다른 디폴트 포인트에 매핑하는 것이다. 본 발명에서 기술되는 시점들은 렌더링 좌표 시스템과 관련하여 정의되며, 컨텐츠 제작 단계를 통해 결정된다(컨텐츠 제작자 또는 서비스 제공자에 의해).

도 2는 3D 미디어에 대한 추가 디멘전인 "시점"을 보여준다. 각 시간(라인) 랜덤 액세스 포인트에 대해, 하나 이상의 랜덤 액세스 시점들이 정의될 수 있다. 임의의 주어진 시간(라인) 랜덤 액세스 포인트에 대해, 랜덤 액세스 시점들에 대해 정의된 데이터가 보다 쉽게 식별(발견), 파싱, 디코딩 및 렌더링될 수 있다. 주어진 시간(라인) 랜덤 액세스 포인트에 정의된 하나보다 많은 랜덤 액세스 시점이 존재할 경우, 예를 들어, 디폴트 시점이 사용자 상호 작용없이 선택되도록 디폴트 랜덤 액세스 시점이 정의될 수 있다. 랜덤 액세스 시점 기반 사용 케이스들에 대한 플레이어 동작들이 아래의 도 8 및 도 9에 설명되어 있다.

도 3a 및 도 3b는 3D 미디어 컨텐츠(3D 미디어 또는 3D 컨텐츠라고도 함)에 대한 랜덤 액세스 시점들을 할당, 정의 및 생성하기 위한 (컨텐츠 제공자 및/또는 서비스 제공자의 장치에 의한) 컨텐츠 제작 절차 동작들을 도시한 흐름도를 포함한다. 도 3a는 프로세스들의 논리적 흐름을 나타내고 있으며, 도 3b는 아래 표 1에 정의된(syntax에 대한 예시적인 논리 값들은 아래의 표 2에 나와 있음) 메타데이터의 일 예로서 특정 엔트리 값들을 할당하여, 3D 미디어 컨텐츠에 대한 랜덤 액세스 시점 메타데이터를 실제 생성하는 것을 나타낸다.

랜덤 액세스 시점들이 컨텐츠 속성들 및 특성들에 기초하여 컨텐츠 제작자/서비스 제공자에 의해서 정의된다(301). 정의된 랜덤 액세스 시점들에 따라, 다음과 같은 관련 메타데이터(351)에 대하여 값들이 할당된다:

ㆍ rand_perspectives: 주어진 타임 스탬프에서 컨텐츠에 대한 총 랜덤 액세스 시점 수

ㆍ perspective_id: 각각의 랜덤 액세스 시점에 대한 식별자

ㆍ perspective_orientation: 지정된 시점의 3D 배향, 오리엔테이션 쿼터니언(orientation quaternion) 또는 직교 좌표에 있어서의 두 개의 회전 각도로 정의됨

원하는 랜덤 액세스 시점들이 지정되고 나면, 3D 미디어 컨텐츠를 둘러싸도록 적합한 3D 지오메트리가 선택된다(303). 선택된 지오메트리가 default_shapes에 의해 정의된 semantics의 일부로 나열되는 사전 정의된 리스트 중 하나일 수 있으며(353), 이 경우 해당 값이 default_shape syntax에 할당된다(357). 선택된 지오메트리가 default_shapes에 의해 정의된 리스트에 존재하지 않는 경우, 그러한 형상을 정의하는 유연한 syntax 세트를 사용하여 (표면, 모서리, 모서리 각도 등을 나타냄으로써) 커스터마이징된 형상이 나타내질 수 있다(355).

지오메트리를 선택한 후, 3D 미디어 모델링 좌표 시스템의 디폴트 "전방(front)"에 대한(도 1 참조), 지오메트리의 디폴트 배향(orientation)이, 각각의 랜덤 액세스 시점에 대한 누락된 뷰 포인트로부터(지오메트리의 잠재적 면들에 대한 각각의 시점의 포인트들의 투영과 함께) 허용 가능한지 여부에 관하여 평가될 수 있다(305). 디폴트 배향이 허용되지 않는 것으로 간주되면, 적절한 3D 회전이 지오메트리에 적용된다(307). 이러한 회전의 적용은 관련 값들을 shape_rotation syntax에 할당하는 것에 의해 표현되거나(359), 회전 쿼터니언 또는 직교 좌표의 두 개의 각도에 의해 표현된다. 회전이 사용되지 않는 경우, shape_rotation의 값들은 0이 된다.

지오메트리 및 이것의 배향이 정의된 이후에, 지오메트리의 면들이 식별되고(309), 각각의 면에는 syntax face_id에 의해 표현되는 식별자가 할당된다(361).

랜덤 액세스 시점들 및 면들이 정의되고 나면, 각각의 랜덤 액세스 시점에는 그 시점에 대응하도록 정의된 하나 이상의 지오메트리 면들이 할당된다(311). 하나의 면에 둘 이상의 시점이 할당될 수도 있다. 각각의 시점의 경우, 그것과 연관된 면들의 개수는 syntax perspective_faces의 값에 의해 반영되고(363), 시점과 그것의 면들 사이의 연관은 연관된 면들의 face_id에 의해 표현된다(363)(예를 들면, 표 1의 마지막 for () 루프).

3D 미디어 컨텐츠의 각 포인트가 도 4에서 설명되는 바와 같은 최소 포인트-면(point-face) 거리에 따라 적어도 하나의 지오메트리 면에 할당되는데, 예컨대 단일 지오메트리 면에 할당될 수 있다(313).

3D 미디어 컨텐츠의 모든 포인트들이 면들에 할당되고 나면, 3D 미디어 컨텐츠 데이터가 이러한 연관에 독립적인 면들에 따라 선언, 디코딩 및 렌더링 가능한 코딩된 유닛들로 인코딩된다(315).

전술한 흐름들과 관련된 syntax 메타데이터가 도 3b의 단계들에서 정의되는 바와 같이 생성된다(317).

적절한 3D 지오메트리의 선택 및 회전은, 3D 미디어 컨텐츠에 대해 정의된 원하는 시점들에 대한 누락된 포인트들(렌더링되는 경우)과 디코딩/렌더링 데이터 수량/복잡성 간의 최적화 문제이다.

도 4는 최소 포인트-면 거리에 따른 포인트 투 면(point to face) 할당/투영 동작을 보여준다. 이 도면에서는, 포인트 클라우드에 의해 표현되는 3D 미디어(사람)가 큐브 지오메트리(여기서는 탑 다운 뷰(top down view)로 도시됨)를 사용하여 둘러싸여 있다. 예컨대, 포인트 클라우드에서의 각 포인트는 포인트-면 거리가 최소화되는 지오메트리의 면으로 투영될 수 있다. 도시된 바와 같은 포인트의 경우, 상단 면(top face)까지의 거리(단지 일 예로서 2D로 도시됨)가 다른 면까지의 거리보다 짧기 때문에, 포인트가 상단 면에 할당(투영)된다. "전방" 시점은 시점의 정의를 시맨틱적으로 이해하기 위해 도시되어 있다(지오메트리의 좌표 시스템에 대한 이것의 배향 및 이것의 ID에 의해 정의됨).

도시된 큐브 지오메트리에 대한 "전방" 시점은 연관을 위한 하나의 면을 가질 수 있다. 큐브 지오메트리는 도시된 예시적 3D 컨텐츠(사람)에 대해 다음과 같은 속성들을 갖는다:

큐브: 전방 - 단일의 면 패치 투영/할당:

ㆍ 측방 면들에 가장 가까운 포인트들은 전방 면에 포함되지 않음

ㆍ 전방 시점 디코딩 및 렌더링은 전방 시점과 관련된 면들(본 경우에는 큐브에 대하여 단 하나의 면)에 투영되는 패치들만 사용하며, 이것은 예를 들어 3D 미디어에 의해 표현되는 사람의 어깨와 같은 다수의 누락 포인트들을 가지게 됨

도 5는 단일 평면에서만 45도만큼 회전되어 위에서 볼 때 다이아몬드와 같은 모양으로 된 큐브 지오메트리의 예를 도시한 것이다. 이러한 예에서는 도시된 예시적 3D 컨텐츠(사람)에 대한 다음과 같은 속성들을 갖는다:

다이아몬드: 전방 - 2개의 면 패치 투영/할당:

ㆍ 2개의 면이 전방 시점을 표현함

ㆍ 전방 시점의 디코딩/렌더링 복잡성이 절반으로 감소됨

도 6은 육각형 지오메트리의 예를 도시한 것이며, 이것은 측방 면들만을(회전되지 않은 경우) 보여주고 있다. (도시되지 않은) 3D 미디어의 머리 위의 면들이 이에 맞게 할당될 수 있다(예를 들어, 하나의 육각형 모양의 평평한 면 천장 또는 지붕과 같은 패턴을 생성하는 평평하지 않은 면들의 그룹으로서). 이 예에서는 다음과 같은 속성들을 갖게 된다:

육각형: 전방 - 2개의 면 패치 투영/할당:

ㆍ 2개의 면이 전방 시점을 표현함

ㆍ 측방 면들로 투영되는 포인트들이 없을 수 있지만, 큐브 단일 면보다는 나을 수 있음

ㆍ 멀리 떨어진 물체들 또는 좁은 폭의 물체들(앞에서 볼 때)에 적합함

도 7은 오각형 지오메트리의 예를 도시한 것이며, 이것은 측방 면들만을(회전되지 않은 경우) 보여주고 있다. (도시되지 않은) 3D 미디어의 머리 위의 면들이 이에 맞게 할당될 수 있다(예를 들어, 하나의 오각형 모양의 평평한 면 천장 또는 지붕과 같은 패턴을 생성하는 평평하지 않은 면들의 그룹으로서). 이 예에서는 다음과 같은 속성들을 갖게 된다:

오각형: 전방 - 도시된 예시적 3D 컨텐츠(사람)에 대한 2개의 면 패치 투영/할당:

ㆍ 2개의 면이 전방 시점을 표현함

ㆍ 전방 시점에 대한 누락 포인트들의 관점에서 육각형보다 나을 수 있지만, 다이아몬드보다는 낫지 않음

도 8은 단일의 시간 랜덤 액세스 포인트에서의 시점 랜덤 액세스(예를 들어, 시점 기반 랜덤 액세스 시점 전환)에 대한 플레이어 동작(사용자, 클라이언트 또는 플레이어의 장치에 의한)을 도시한 흐름도를 포함한다.

시점 기반 랜덤 액세스를 위해, 클라이언트(플레이어)(예를 들어, 장치)는 이것을 인에이블하는 메타데이터와 함께 3D 미디어 컨텐츠를 수신한다(801). 표 1에 의해 주어진 예시적인 syntax에서, 시점 기반 랜덤 액세스를 인에이블하는 syntax 구조 (SAPPerspective)가 3D 미디어 컨텐츠와 함께 클라이언트에 의해 수신된다.

주어진 단일 시간 포인트에 대해, 플레이어는 주어진 프레젠테이션 시간에 정의된 랜덤 액세스 시점의 리스트를 파싱한다(803) 랜덤 액세스 시점의 수는 rand_perspectives에 의해 제공된다.

이 리스트가 식별되고 나면, 랜덤 액세스 시점의 사용자 선택이 인에이블되는지 여부에 따라(805), 사용자가 선택한 시점에 대한 식별자(perspective_id)를 플레이어가 식별하거나(809), 또는 디폴트 랜덤 액세스 시점(perspective_id with default_perspective = 1)이 선택된다(807).

perspective_id에 의해 식별되는 선택되어진 시점에 대하여, 그것과 연관된 지오메트리 면들의 리스트가 파싱되고; 표 1에 주어진 syntax 구조에 따라, for(perspective_faces) 루프가 파싱되고(여기서 perspective_faces는 주어진 시점과 연관된 지오메트리 면의 수를 정의함), 연관된 면들에 대한 식별자들(face_id)이 식별된다(811).

연관된 면들의 face_id들이 식별되면, 플레이어는 지오메트리 면들과 연관된 미디어 데이터 코딩된 유닛들을 페칭한다(813). 미디어 데이터 코딩된 유닛들의 연관은 구현에 따라, 지오메트리 면들로 선언되거나 또는 정의된 랜덤 액세스 시점들로 직접 선언될 수 있다.

페칭된 미디어 데이터가 디코딩 및 렌더링된다(815).

이 동작들을 위한 메타데이터 사용법이 아래의 표 1에 정의되어 있다.

도 9는 AR 3D 미디어의 트릭 모드 재생을 위한 플레이어 동작들(사용자, 클라이언트 또는 플레이어의 장치에 의한)을 나타내는 흐름도를 포함한다. 도 8에서와 같은 동작들을 진행하기 전에 가장 가까운 시간 랜덤 액세스 포인트(SAP)가 먼저 탐지된다.

사용자가 트릭 모드 재생을 통해 특정 프레젠테이션 시간을 선택함에 따라, 가장 가까운 SAP(stream access point) 시간 랜덤 액세스 포인트가 탐지된다(901). 단계 903, 905, 907, 909, 911, 913, 915는 각각 단계 803, 805, 807, 809, 811, 813, 815와 동일하다.

구현에 따라, 플레이어(예를 들어, 장치)는 사용자가 선택한 프레젠테이션 시간에 따라 가장 가까운 SAP 및 랜덤 액세스 시점으로서 식별되는 미디어를 디코딩 및 렌더링하도록 선택할 수 있거나, 또는 플레이어는 렌더링 없이 미디어만을 디코딩하는 것으로 선택함으로써, 디코딩된 데이터를 사용하여 정확하게 사용자가 선택한 프레젠테이션 시간(가장 가까운 SAP 및 랜덤 액세스 시점에 의존 함)에서 미디어를 디코딩하도록 할 수 있다.

syntax

class SAPPerspective
unsigned int() shape;
unsigned int() shape_rotation;
unsigned int() num_faces;
unsigned int() rand_perspectives;
for(i=0; i<rand_perspectives; i++){
unsigned int() perspective_id;
unsigned int() perspective_orientation;
unsigned int() perspective_faces;
unsigned int() default_perspective;
for(i=0; i< perspective_faces; i++){
unsigned int() face_id;
}
}

semantics
shape specifies the shape of the geometry used to surround the 3D media (point cloud) for perspective based random access. This semantics of this syntax can be either 1) a predefined list of shapes, or 2) a set of sub-syntax which defines an exact specific arbitrary shape.

shape_rotation specifies the 3D rotation of geometry's defined coordinate system (with unique origin and default orientation), as described in Table 2, relative to the 3D media point cloud inside the geometry. The 3D rotation can be specified either as a 3D rotation quaternion, or as two angles in a Cartesian coordinate system. When this value is 0, the origin and default orientation of the 3D media point cloud (as defined by its ply coordinates) are matched to that of the geometry's coordinate system origin and default orientation.

num_faces specifies the number of faces on the geometry shape. It can be optional when regular polygons are used as the geometry surrounding the 3D media.

rand_perspectives specifies the number of random access perspectives defined for the 3D media.

perspective_id specifies a unique identifier for the random access perspective.

perspective_orientation specifies the orientaton of the random access perspective as either a 3D orientation quaternion, or as two angles in a Cartesian coordinate system, relative to the geometry's defined coordinate system (with unique origin and default orientation).

perspective_faces specifies the number of geometry faces associated with the random access perspective.

default_perspective specifies, when equal to 1, that the random access perspective is a default random access perspective. When default_perspective is equal to 0, the random access perspective is not a default random access perspective.

face_id specifies a unique identifier for the geometry face as predefined according to the the geometry shape given by shape.
(shape는 시점 기반 랜덤 액세스를 위해 3D 미디어(포인트 클라우드)를 둘러싸는데 사용되는 지오메트리의 형상을 지정한다. 이러한 syntax의 semantics는 1) 사전 정의된 형상 리스트이거나 또는 2) 정확한 구체적 임의 형상을 정의하는 일련의 서브-syntax일 수 있다.
shape_rotation은 지오메트리 내부의 3D 미디어 포인트 클라우드에 대한, 표 2에 설명된 바와 같은, 지오메트리에 정의된 좌표 시스템(고유한 원점 및 디폴트 배향)의 3D 회전을 지정한다. 3D 회전은 3D 회전 쿼터니언 또는 직교 좌표 시스템에서의 두 개의 각도로 지정될 수 있다. 이 값이 0이면, 3D 미디어 포인트 클라우드의 원점 및 디폴트 배향(PLY 파일의 좌표 시스템으로 정의됨)이 지오메트리의 좌표 시스템 원점 및 디폴트 배향과 매칭된다.
num_faces는 지오메트리 형상의 면 개수를 지정한다. 일반적인 다각형들이 3D 미디어를 둘러싸는 지오메트리로서 사용되는 경우, 이것은 선택 사항이 될 수 있다.
rand_perspectives는 3D 미디어에 대해 정의된 랜덤 액세스 시점 개수를 지정한다.
perspective_id는 랜덤 액세스 시점의 고유 식별자를 지정한다.
perspective_orientation은 랜덤 액세스 시점의 배향을, (고유의 원점 및 디폴트 배향을 갖는) 지오메트리의 정의된 좌표 시스템에 대한, 3D 오리엔테이션 쿼터니언 또는 직교 좌표 시스템에서의 두 각도로 지정한다.
perspective_faces는 랜덤 액세스 시점과 연관된 지오메트리 면의 개수를 지정한다.
default_perspective는 그것이 1일 경우, 랜덤 액세스 시점이 디폴트 랜덤 액세스 시점인 것으로 지정한다. default_perspective가 0일 경우에는, 랜덤 액세스 시점이 디폴트 랜덤 액세스 시점이 아닐 수 있다.
face_id는 형상으로 주어지는 지오메트리 형상에 따라 사전 정의된 지오메트리 면의 고유 식별자를 지정한다.)

표 1은 랜덤 액세스 시점들에 대한 syntax 및 semantics를 보여주며, 이들은,1. 컨텐츠 제공자 및/또는 서비스 제공자에 의해, 도 3a 및 도 3b에 도시된 컨텐츠 제작 절차를 통해 생성되고

2. 그것이 나타내는 3D 미디어와 함께 또는 별도로, 미디어 서버(컨텐츠 제공자의 장치)와 미디어 클라이언트(미디어 플레이어, 사용자의 장치) 사이에서의 메타데이터로서 전달되며,

3. 시점 기반 랜덤 액세스를 가능하게 하기 위해 미디어 클라이언트에 의해 수신 및 파싱된다(본 발명에 기술된 모든 사용 케이스들/동작들에 대해).

도 10은 도 5의 사용 케이스 지오메트리에 따른 face_id 및 perspective_id syntax 및 semantics의 표현을 보여준다. 각각의 지오메트리는 형상 회전(3D에서), 시점 배향(3D에서), 및 지오메트리 내부(또는 지오메트리 내 미디어와 관련하여, 외부)에서 정확한 표현을 필요로 하는 기타 처리의 기준으로서 사용되는 고유한 원점 및 디폴트 배향을 가진 정의된 좌표 시스템을 갖는다.

syntax

class SAPPerspective
unsigned int() shape(diamond);
unsigned int() shape_rotation(0°);
unsigned int() num_faces(4);
unsigned int() rand_perspectives(2);
for(i=0; i<rand_perspectives; i++){
unsigned int() perspective_id[1,2];
unsigned int() perspective_orientation[0°,180°];
unsigned int() perspective_faces[2,2];
unsigned int() default_perspective[1,0];
for(i=0; i< perspective_faces; i++){
unsigned int() face_id([1,2],[3,4]);
}
}

표 2는 도 10에 도시된 사용 케이스 지오메트리에 대한, 표 1에 정의된 syntax의 논리 값들의 예를 보여준다. 도 10에 도시된 바와 같이, 여기에서의 면의 수가 4로 표시되어 있지만, 3D 지오메트리이므로 실제 값에는 천장 면 및 바닥 면도 포함되어야 한다(즉, 6개 이상의 면). 형상 회전 및 시점 배향들에 대한 논리 값들이 단지 일 예로서 2D 회전으로 제공되어 있으며, 실제 값들은 3D에서 제공된다.도 11은 인코딩된 3D 미디어 코딩 유닛들(MPEG V-PCC를 포인트 클라우드 코덱으로서 사용하는 경우와 같이, 여기서는 2D 코딩된 비디오 데이터로 표시됨)과, 시점 기반 랜덤 액세스를 위해 정의된 면들 및 시점들 간의 연관의 예를 보여준다. 코딩된 데이터 유닛 연관은 지오메트리 면들에 직접 선언되거나, 또는 시점들에만 선언된 다음 지오메트리 면들과 추가로 연관될 수 있다(2-단계 체인 연관 및 선언으로).

도 12는 본 발명의 일 실시 예에 따른 컨텐츠 제공자의 장치의 블록도를 도시한 것이다.

도 12를 참조하면, 컨텐츠 제공자의 장치는 송수신기(1220), 적어도 하나의 프로세서(1210) 및 저장 유닛(1230)을 포함할 수 있다.

송수신기(1220)는 적어도 하나의 프로세서(1210)의 제어 하에 신호들을 송수신할 수 있다.

적어도 하나의 프로세서(1210)는 도 3a 및 도 3b에서 설명된 바와 같은, 본 개시의 다양한 실시 예들에 따른 컨텐츠 제공자의 동작을 제어할 수 있다.

본 발명의 일 실시 예에 따르면, 적어도 하나의 프로세서(1210)는 미디어 컨텐츠에 대한 메타데이터를 생성할 수 있다. 메타데이터는 시점에 대한 제 1 정보(예를 들면, perspective_id) 및 3D 객체가 투영되는 적어도 하나의 면에 대한 제 2 정보(face_id)를 포함하며, 적어도 하나의 면은 시점과 연관되어 있다(perspective_faces).

적어도 하나의 프로세서(1210)는 미디어 컨텐츠 및 메타데이터를 사용자의 장치로 송신할 수 있다.

상기 메타데이터는, 시점의 수(rand_perspectives) 및/또는 시점의 3D 배향(perspective_orientation) 및/또는 시점 기반 랜덤 액세스에 대한 각 시점과 연관된 면의 수(perspective_faces)에 관한 정보, 및 면들로 구성된 기하학적 형상(default_shape 및/또는 shape_rotation)에 대한 정보, 그리고 표 1 및 표 2에서 설명된 그 밖의 파라미터들 중 적어도 하나를 더 포함할 수 있다.

저장 유닛(1230)은 장치의 운영 체제 및 적어도 하나의 프로세서(1210)에 의해 사용되는 명령어들 중 적어도 하나를 저장할 수 있다.

도 13은 본 발명의 일 실시 예에 따른 사용자 장치의 블록도를 도시한 것이다.

도 13을 참조하면, 사용자(플레이어 또는 클라이언트)의 장치는 송수신기(1320), 적어도 하나의 프로세서(1310) 및 저장 유닛(1330)을 포함할 수 있다.

송수신기(1320)는 적어도 하나의 프로세서(1310)의 제어 하에 신호들을 송수신할 수 있다.

적어도 하나의 프로세서(1310)는 도 8 및 도 9에서 설명된 바와 같은, 본 발명의 다양한 실시 예들에 따른 사용자의 동작을 제어할 수 있다.

본 발명의 일 실시 예에 따르면, 적어도 하나의 프로세서(1310)는 미디어 컨텐츠 및 메타데이터를 수신할 수 있다. 메타데이터는 시점에 대한 제 1 정보(예를 들면, perspective_id) 및 3D 객체가 투영되는 적어도 하나의 면에 대한 제 2 정보(face_id)를 포함하며, 적어도 하나의 면은 시점과 연관되어 있다(perspective_faces).

적어도 하나의 프로세서(1310)는 메타데이터에 기초하여 미디어 컨텐츠에 대한 시점 기반 랜덤 액세스를 수행하도록 구성된다.

상기 메타데이터는 시점의 수(rand_perspectives) 및/또는 시점의 3D 배향(perspective_orientation) 및/또는 시점 기반 랜덤 액세스에 대한 각 시점과 연관된 면의 수(perspective_faces)에 관한 정보, 및 면들로 구성된 기하학적 형상(default_shape 및/또는 shape_rotation)에 대한 정보, 그리고 표 1 및 표 2에서 설명된 그 밖의 파라미터들 중 적어도 하나를 더 포함할 수 있다.

상기 메타데이터는 미디어 데이터에 포함되거나 별도의 데이터 구조로 전송될 수 있다. 일 예로 미디어 데이터는 인코더의 출력에 해당하는 비트 스트림과 상기 비트 스트림을 처리하기 위한 메타데이터를 함께 포함하는 파일의 형태로 저장 및 전송 될 수 있다. 이 때 상기 데이터는 상기 비트 스트림에 메시지 형태로 포함되거나, 파일 메타 데이터의 일부로 전송 되거나, 비트스트림과 파일 메타데이터에 모두 포함되어 전송 될 수 있다. 또한 하나 이상의 상기 파일을 포함하는 서비스 레벨의 메타 데이터로 포함되어 전송 될 수도 있으며, 그 구체적인 전송 방식은 AR 서비스의 구현에 따라 달라질 수 있다.

저장 유닛(1330)은 장치의 운영 체제 및 적어도 하나의 프로세서(1310)에 의해 사용되는 명령어들 중 적어도 하나를 저장할 수 있다.

본 개시가 다양한 실시 예들을 참조하여 도시되고 설명되었지만, 당업자는 첨부된 청구 범위 및 그 등가물에 의해 정의되는 본 개시의 사상 및 범위를 벗어나지 않으면서 형태 및 세부 사항에 대한 다양한 변경이 이루어질 수 있음을 이해할 것이다.

Claims

컨텐츠 제공자의 장치에 의해서, 시점(perspective) 기반 랜덤 액세스를 위한 3D 객체를 포함하는 미디어 컨텐츠를 제공하기 위한 방법으로서,
상기 미디어 컨텐츠에 대한 메타데이터를 생성하는 단계 - 상기 메타데이터는 시점에 관한 제 1 정보 및 상기 3D 객체가 투영되는 적어도 하나의 면에 관한 제 2 정보를 포함하며, 상기 적어도 하나의 면은 상기 시점과 연관되어 있음; 및
상기 미디어 컨텐츠 및 상기 메타데이터를 송신하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 메타데이터는 상기 시점 기반 랜덤 액세스에 대한 시점의 수에 관한 제 3 정보 및 면들로 구성된 기하학적 형상에 관한 제 4 정보를 더 포함하는, 방법.
사용자의 장치에 의해서, 시점 기반 랜덤 액세스에 기초하여 3D 객체를 포함하는 미디어 컨텐츠에 액세스하기 위한 방법으로서,
상기 미디어 컨텐츠 및 메타데이터를 수신하는 단계 - 상기 메타데이터는 시점에 관한 제 1 정보 및 상기 3D 객체가 투영되는 적어도 하나의 면에 관한 제 2 정보를 포함하고, 상기 적어도 하나의 면은 상기 시점과 연관되어 있음; 및
상기 제 1 정보 및 상기 제 2 정보에 기초하여 상기 미디어 컨텐츠에 대한 상기 시점 기반 랜덤 액세스를 수행하는 단계
를 포함하는, 방법.
제 3 항에 있어서,
상기 메타데이터는 상기 시점 기반 랜덤 액세스에 대한 시점의 수에 관한 제 3 정보 및 면들로 구성된 기하학적 형상에 관한 제 4 정보를 더 포함하는, 방법.
시점 기반 랜덤 액세스를 위한 3D 객체를 포함하는 미디어 컨텐츠를 제공하기 위한 컨텐츠 제공자의 장치로서,
송수신기; 및
적어도 하나의 프로세서를 포함하며, 상기 적어도 하나의 프로세서는,
상기 미디어 컨텐츠에 대한 메타데이터를 생성하고 - 상기 메타데이터는 시점에 관한 제 1 정보 및 상기 3D 객체가 투영되는 적어도 하나의 면에 관한 제 2 정보를 포함하며, 상기 적어도 하나의 면은 상기 시점과 연관되어 있음; 또한
상기 미디어 컨텐츠 및 상기 메타데이터를 송신하도록 구성되는, 장치.
제 5 항에 있어서,
상기 메타데이터는 상기 시점 기반 랜덤 액세스에 대한 시점의 수에 관한 제 3 정보 및 면들로 구성된 기하학적 형상에 관한 제 4 정보를 더 포함하는, 장치.
시점 기반 랜덤 액세스에 기초하여 3D 객체를 포함하는 미디어 컨텐츠에 액세스하기 위한 사용자의 장치로서,
송수신기; 및
적어도 하나의 프로세서를 포함하며, 상기 적어도 하나의 프로세서는,
상기 미디어 컨텐츠 및 메타데이터를 수신하고 - 상기 메타데이터는 시점에 관한 제 1 정보 및 상기 3D 객체가 투영되는 적어도 하나의 면에 관한 제 2 정보를 포함하고, 상기 적어도 하나의 면은 상기 시점과 연관되어 있음; 또한
상기 제 1 정보 및 상기 제 2 정보에 기초하여 상기 미디어 컨텐츠에 대한 상기 시점 기반 랜덤 액세스를 수행하도록 구성되는, 장치.
제 7 항에 있어서,
상기 메타데이터는 상기 시점 기반 랜덤 액세스에 대한 시점의 수에 관한 제 3 정보 및 면들로 구성된 기하학적 형상에 관한 제 4 정보를 더 포함하는, 장치.