WO2015012605A1

WO2015012605A1 - 3차원 콘텐츠의 부호화 방법 및 장치

Info

Publication number: WO2015012605A1
Application number: PCT/KR2014/006728
Authority: WO
Inventors: 이진영; 허남호
Original assignee: 한국전자통신연구원
Priority date: 2013-07-24
Filing date: 2014-07-24
Publication date: 2015-01-29
Also published as: US10375373B2; US20200162717A1; US20160165210A1; US9973740B2; EP3026916A4; EP3026916A1; US20180262746A1; KR20150012206A

Abstract

3차원 콘텐츠의 부호화 방법이 개시된다. 일 실시 예에 의한 3차원 콘텐츠의 부호화 방법은, 상기 3차원 콘텐츠의 텍스처 정보 및 깊이 정보 사이의 의존성(dependency)을 설정하는 단계 및 상기 의존성을 포함하는 비트스트림을 생성하는 단계를 포함할 수 있다.

Description

3차원 콘텐츠의 부호화 방법 및 장치

본 발명의 기술 분야는 스트리밍 콘텐츠 제공 기술에 관한 것으로, 특히, 3차원 콘텐츠의 제공 기술에 관한 것이다.

스트리밍(streaming)은 소리 및 동영상 등의 멀티미디어 콘텐츠를 전송 및 재생하기 위한 방식 중 하나이다. 클라이언트는 스트리밍을 통해 콘텐츠를 수신하는 동시에 상기의 콘텐츠를 재생할 수 있다.

적응적 스트리밍 서비스는, 클라이언트의 요청 및 상기의 요청에 대한 서버의 응답으로 구성되는 통신 방식을 통해 스트리밍 서비스를 제공하는 것을 의미한다.

클라이언트는 적응적 스트리밍 서비스를 통해 자신의 환경(예컨대, 자신의 전송 채널)에 적합한 미디어 시퀀스를 요청할 수 있으며, 서버는 자신이 갖고 있는 다양한 퀄리티의 미디어 시퀀스들 중 클라이언트의 요청에 부합하는 미디어 시퀀스를 제공할 수 있다.

적응적 스트리밍 서비스는 다양한 프로토콜에 기반하여 제공될 수 있다. HTTP 적응적 스트리밍 서비스는 HTTP 프로토콜에 기반하여 제공되는 적응적 스트리밍 서비스를 의미한다. HTTP 적응적 스트리밍 서비스의 클라이언트는 HTTP 프로토콜을 사용하여 서버로부터 콘텐츠를 제공받을 수 있으며, 스트리밍 서비스와 관련된 요청을 서버에게 전송할 수 있다.

미디어 전송의 실질적인 요구 사항을 충족시키고자, MPEG DASH 표준이 개발되었다. 뿐만 아니라, 근자에 들어서는, 3차원을 표현하는 콘텐츠 개발이 활성화되고 있다. MPEG DASH 표준 또한 3차원 콘텐츠의 개발, 전송을 위하여 MVC, SVC와 같은 포맷을 지원하였다.

최근의 MPEG DASH는 HEVC와 3DV 등의 새로운 포맷을 지원하도록 개발 중이며, 향후 3차원 콘텐츠를 보다 효율적으로 전송할 수 있는 기술의 개발이 요청되는 실정이다.

본 개시는 상술한 기술 개발 요청에 응답하여 안출된 것으로, 3차원 콘텐츠의 유연한 화면 형성을 지원하는 방법 및 장치를 제공한다.

일 실시 예에 의한 3차원 콘텐츠의 부호화 방법은, 상기 3차원 콘텐츠의 텍스처 정보 및 깊이 정보 사이의 의존성(dependency)을 설정하는 단계 및 상기 의존성을 포함하는 비트스트림을 생성하는 단계를 포함할 수 있다.

3차원 콘텐츠의 부호화 방법은, 상기 깊이 정보가 상기 텍스처 정보로부터 분리되는 경우, 해당 뷰와 깊이 정보와의 관계 및 깊이 정보와 텍스처와의 의존성을 설정하는 단계를 더 포함할 수 도 있다.

또는 3차원 콘텐츠의 부호화 방법은, 각 뷰의 텍스처와 깊이 정보를 위한 하나 또는 이상의 레프리젠테이션(representation)을 설정하는 단계를 더 포함할 수도 있다.

상기 레프리젠테이션은 텍스처 정보를 포함하거나 또는 깊이 정보를 포함하거나 또는 텍스처 정보 및 깊이 정보 모두를 포함할 수 있다.

이 경우, 3차원 콘텐츠의 부호화 방법은 상기 레프리젠테이션이 포함하는 정보를 지시하는 식별자 파라미터를 설정하는 단계를 더 포함할 수도 있다.

상기 식별자가 'ti'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 텍스처 정보를 포함하며, 상기 식별자가 'di'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 깊이 정보를 포함하며, 상기 식별자가 'vi'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 텍스처 정보 및 깊이 정보를 포함할 수 있다.

또는, 3차원 콘텐츠의 부호화 방법은 현재의 적응형 세트와 연동되는 뷰 및 텍스처 및 깊이 정보 사이의 관계를 지시하는 의존성 파라미터를 설정하는 단계를 더 포함할 수도 있다.

상기 식별자 파라미터 또는 상기 의존성 파라미터는 MPEG DASH 표준의 롤 엘리먼트(role element)의 다시점 설계에 추가될 수 있다.

상기 의존성은 레프리젠테이션 레벨 또는 적응 세트 레벨에서 설정될 수 있다.

다른 실시 예에 의한 3차원 콘텐츠의 부호화 방법은, 텍스처 정보 및 깊이 정보 중 적어도 하나를 포함하는 레프리젠테이션(representation)을 설정하는 단계 및 상기 레프리젠테이션에 대응하는 비트스트림을 생성하는 단계를 포함할 수 있다.

상술한 바에 따라서, 3차원 콘텐츠의 유연한 화면 형성을 지원하는 방법 및 장치가 제공될 수 있다.

특히, 텍스쳐와 깊이 사이의 의존성을 설정함에 따라 보다 유연한 화면 형성을 지원할 수 있다.

아울러, 기존의 MPEG DASH에 부합하는 방법을 제공함에 따라서, 기존의 기술과의 호환성도 보장될 수 있다.

도 1은 DASH의 고-레벨 데이터 모델을 나타낸다.

도 2는 일 실시 예에 따른 3차원 포맷의 부호화기 및 복호화기의 블록도이다.

도 3은 다양한 실시 예에 따른 레프리젠테이션의 개념도이다.

도 4는 일 실시 예에 의한 부호화기 및 복호화기의 개념도이다.

이하에서, 본 발명의 일 실시예를, 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

하기에서, "명세한다"는 "나타낸다" 또는 "의미한다"와 동일한 의미로 사용될 수 있다. 용어 "유일 자원 지시기(Uniform Resource Locator; URL)" 및 "통합 자원 식별자(Uniform Resource Identifier; URI)"는 동일한 의미로 사용되며, 상호 대체될 수 있다.

특정한 요소의 인덱스가 1 내지 N 또는 0 내지 N인 경우, 상기의 요소는 하나 이상일 수 있다. N은 0 이상의 정수를 나타낼 수 있다.

하기에서, 실시예들에서 사용되는 용어의 일 예가 설명된다.

- HTTP 상의 동적 적응적 스트리밍(Dynamic Adaptive Streaming over HTTP; DASH)는 1) 표준(standard) HTTP 서버로부터 HTTP 클라이언트로의 미디어 콘텐츠의 전달을 가능하게 하고, 2) 표준 HTTP 캐쉬(cache)들에 의한 콘텐츠의 캐슁(caching)을 가능하게 하는 포맷(format)들을 명세(specifie)할 수 있다. 상기의 포멧은 XML 포멧 또는 이진(binary) 포멧일 수 있다.

- 미디어 콘텐츠는 하나의 미디어 콘텐츠 주기(period) 또는 미디어 콘텐츠 주기들의 계속되는(contiguous) 시퀀스(sequence)일 수 있다. 하기에서, 미디어 콘텐츠, 미디어 및 콘텐츠는 서로간에 동일한 의미로 사용될 수 있다. 미디어 콘텐츠는, 예컨대 비디오, 오디오 및 자막과 같은, 공통(common) 타임라인(timeline)을 갖는 미디어 콘텐츠 컴포넌트들의 집합일 수 있다. 또한, 미디어 컴포넌트들은 프로그램 또는 영화로서 어떻게(예를 들면, 개별적으로(individually), 결합하여(jointly) 또는 상호 배타적(mutually exclusive)으로 미디어 컴포넌트들이 상연(present)될 지에 대한 관계(relationships)를 가질 수 있다. 미디어 콘텐츠는 요청(demand)에 따른 콘텐츠 또는 라이브(live) 콘텐츠일 수 있다.

콘텐츠는 하나 이상의 인터벌(interval)들로 나뉘어질 수 있다. 즉, 콘텐츠는 하나 이상의 인터벌들을 포함할 수 있다. 이하, 인터벌 및 주기(period)는 동일한 의미로 사용될 수 있다. 특히, 주기는 3GPP(Generation Partnership Project) 적응적 HTTP 스트리밍에서 사용되는 용어일 수 있다. 주기는 미디어 프리젠테이션의 인터벌일 수 있다. 모든 주기들의 연속적인 시퀀스는 미디어 프리젠테이션을 구성할 수 있다.

하나 이상의 인터벌들은 기본적인 유닛일 수 있다. 하나 이상의 인터벌들은 메타데이터를 시그널링함에 의해 설명될 수 있다. 즉, 메타데이터는 하나 이상의 인터벌들 각각을 설명할 수 있다. 상기의 메타데이터는 후술될 MPD일 수 있다.

- 미디어 콘텐츠 컴포넌트는 할당된(assigned) 미디어 컴포넌트 타입(type)을 갖는 미디어 콘텐츠의 계속되는 컴포넌트일 수 있다. 미디어 콘텐츠 컴포넌트는 개별적인 미디어 스트림으로 인코드될 수 있다. 미디어 컴포넌트(media component)는, 예컨대 대역폭(bandwidth), 언어(language) 또는 해상도(resolution)와 같은, 특정한 속성(attribute)들을 갖는 오디오(audio), 비디오(video) 또는 자막(timed text)과 같은 개별(individual) 미디어 타입(type)들의 인코드된(encoded) 버전(version)일 수 있다..

- 미디어 스트림은 미디어 콘텐츠 컴포넌트의 인코드된 버전일 수 있다.

- 미디어 컴포넌트 타입은 오디오(audio), 비디오(video) 또는 텍스트(text)와 같은 미디어 콘텐츠의 단일한 타입일 수 있다.

- 미디어 프리젠테이션은 미디어 콘텐츠의 바운드되거나(bounded) 바운드되지 않은(unbounded) 프리젠테이션을 설립(establish)하는 데이터의 컬렉션일 수 있다. 미디어 프리젠테이선은 사용자에게 스트리밍 서비스를 제공하기 위해 DASH의 클라이언트가 접근 가능한 데이터의 컬렉션일 수 있다.

- 미디어 프리젠테이션 설명(Media Presentation Description; MPD)은 스트리밍 서비스를 제공하기 위한 미디어 프리젠테이션의 양식화된(formalize) 설명일 수 있다. MPD는, 세그먼트에 접근하기 위한 적합한 HTTP-URL을 구성하고, 사용자에게 스트리밍 서비스를 제공하기 위해, DASH의 클라이언트가 요구하는 메타데이터를 포함하는 문서일 수 있다. 미디어 프리젠테이션은, MPD의 가능한 업데이트들(possible updates)을 포함할 있고, MPD에 의해 설명될 수 있다.

MPD는 1) 세그먼트들을 접근하고, 2) 사용자에게 스트리밍 서비스를 제공하기 위해 적합한(appropriate) HTTP-URL들을 구성하기 위해 DASH 클라이언트에게 요구되는 메타데이터를 포함하는 문서일 수 있다. HTTP-URL들은 절대적이거나 상대적일 수 있다. MPD는 XML-문서일 수 있다.

MPD는 세그먼트를 위한 자원 식별자들을 알리기 위한 포맷을 정의할 수 있다. MPD는 미디어 프리젠테이션 내에서의 식별된 자원들에 대한 컨텍스트(context)를 제공할 수 있다. 자원 식별자들은 HTTP-URL일 수 있다. URL들은 바이트 범위(byte range) 속성에 의해 제한될 수 있다.

- 주기(period)는 미디어 프리젠테이션의 인터벌(interval)일 수 있다. 모든 주기들의 계속되는 시퀀스는 미디어 프리젠테이션을 구성할 수 있다. 즉, 미디어 프리젠테이션은 하나 이상의 주기들을 포함할 수 있다. 또는, 미디어 프리젠테이션은 하나 이상의 주기들의 시퀀스로 구성될 수 있다.

- 레프리젠테이션(representation)은 전달 포멧(delivery format)으로 된 하나 이상의 미디어 스트림들 컬렉션 및 캡슐화(encapsulation)일 수 있으며, 설명적인(descriptive) 메타데이터와 연관될 수 있다. 레프리젠테이션은 하나의 주기 내의 하나 이상의 미디어 콘텐츠 컴포넌트들의 구조화된(structured) 컬렉션일 수 있다. 즉, 레프리젠테이션은 정의된 주기 동안의 미디어 콘텐츠를 구성하는 미디어 콘텐츠 컴포넌트들의 완전한 집합 또는 부분 집합의 대안적인 선택사항들(alternative choices) 중 하나일 수 있다. 레프리젠테이션은 하나 이상의 미디어 스트림들을 포함할 수 있다..

레프리젠테이션은 주기(즉, 자신을 포함하는 주기)의 시작점에서 시작할 수 있고, 상기의 주기의 종료점까지 지속할 수 있다.

레프리젠테이션은, 비트레이트(bitrate), 해상도(resolution), 언어(language) 및 코덱(codec) 등과 같은 인코딩(encoding) 선택(choice)이 상이한, 미디어 콘텐츠 또는 미디어 콘텐츠의 부분집합의 대안적인(alternative) 선택(choice)들 중 하나일 수 있다.

MPD(또는, MPD 요소)는 클라이언트가 하나 이상의 레프리젠테이션을 선택하는 것을 가능하게 하는 설명적인 정보를 제공할 수 있다.

하기에서, 레프리젠테이션 및 미디어 레프리젠테이션은 동일한 의미로 사용될 수 있다.

하나의 인터벌에 대응하는 2 개 이상의 세그먼트들의 집합들이 존재할 수 있으며, 상기의 집합이 레프리젠테이션 또는 대안(alternative)으로 명명될 수 있다.

- 세그먼트(segment)는 정의된 포멧을 갖는 MPD 내의 최소 접근가능한 유닛일 수 있다. 하기에서, 세그먼트 및 미디어 세그먼트는 동일한 의미로 사용될 수 있다.

각 인터벌은 세그먼트(segment)들로 나뉘어질 수 있다. 하기에서, 세그먼트 및 프래그먼트(fragment)는 동일한 의미로 사용될 수 있다. 세그먼트는 3GPP(Generation Partnership Project) 적응적 HTTP 스트리밍의 용어일 수 있다.

세그먼트는, 예컨대 RFC 2616에서 정의된, HTTP-URL에 대한 HTTP/1.1 GET 요청(또는, 바이트 범위(range)에 의해 가리켜진(indicated) 일부에 대한 GET 요청)에 대한 응답(response)의 객체(entity) 바디(body)를 의미할 수 있다.

단말은, 수신된 바이트들(즉, 세그먼트)을 사용하여 미디어 콘텐츠를 재생할 수 있다.

- 서브-세그먼트는 세그먼트 레벨에서의 세그먼트 인덱스(index)에 의해 인덱스될 수 있는 세그먼트들 내의 가장 작은(smallest) 유닛(unit)을 의미할 수 있다.

- 서브-레프리젠테이션(sub-representation)은 전체 주기에서 상연된 MPD 내에서 설명된 레프리젠테이션의 일부일 수 있다.

- 임의 접근 포인트(Random Access Point; RAP)는 미디어 세그먼트 내의 특정한 위치이다. RAP는 단지 미디어 세그먼트 내에 포함된 정보만을 사용하여 RAP의 위치로부터 계속하여 재생(playback)을 시작할 수 있는 위치인 것으로 식별된다.

HTTP 상의 동적 적응적 스트리밍(Dynamic Adaptive Streaming over HTTP; DASH)는 미디어 콘텐츠의 전달을 위한 미디어-스트리밍 모델을 제공할 수 있다. 클라이언트는 상기의 전달의 세션을 독점적으로 제어할 수 있다. 클라이언트는 HTTP 프로토콜을 사용하여 DASH-특유의 기능들을 갖지 않는 표준의 웹 서버에게 데이터를 요청할 수 있다. 따라서, DASH 표준은 DASH 미디어 프리젠테이션을 제공하기 위해 사용되는 데이터 포멧에 초점이 맞춰질 수 있다.

미디어 콘텐츠의 인코드되고 전달가능한 버전들의 컬렉션 및 이러한 버전들에 대한 적절한 설명은 미디어 프리젠테이션을 형성할 수 있다. 미디어 콘텐츠는 시간에 따라 계속되는 하나 이상의 미디어 콘텐츠 주기들로 구성될 수 있다. 각 미디어 콘텐츠 주기는 하나 이상의 미디어 콘텐츠 컴포넌트들로 구성될 수 있다. 예컨대, 다양한 언어로 된 오디오 컴포넌트들 및 비디오 컴포넌트가 하나 이상의 미디어 콘텐츠 컴포넌트들의 예가 될 수 있다. 각 미디어 콘텐츠 컴포넌트에게는 미디어 콘텐츠 컴포넌트 타입이 할당될 수 있다. 미디어 콘텐츠 컴포넌트 타입의 예로 오디오 또는 비디오가 있을 수 있다.

각 미디어 콘텐츠 컴포넌트는 하나 이상의 인코드된 버전을 가질 수 있다. 미디어 콘텐츠 컴포넌트의 인코드된 버전은 미디어 스트림으로 명명될 수 있다. 각 미디어 스트림은 미디어 콘텐츠, 미디어 콘텐츠 주기 또는 미디어 스트림의 인코딩을 위해 사용된 미디어 콘텐츠의 속성을 상속받을 수 있다. 또한, 미디어 스트림은, 예컨대 서브-샘플링, 코덱 파라미터(parameter), 인코딩 비트레이트 등과 같은 인코딩 프로세스의 속성을 할당 받을 수 있다. 따라서, 메타데이터는 미디어 콘텐츠 컴포넌트들 및 미디어 스트림들에 대한 정적 또는 동적인 선택에 따라 변경될 수 있다.

도 1은 DASH의 고-레벨 데이터 모델을 나타낸다.

DASH는 도 1에서 도시된 것과 같은 계층적인 데이터 모델에 기반할 수 있다.

DASH 미디어 프리젠테이션은 MPD 문서에 의해 설명될 수 있다. MPD는 시간에 따른 주기들의 시퀀스를 설명할 수 있다. 주기들의 시퀀스는 미디어 프리젠테이션을 만들 수 있다. 주기는 일반적으로 미디어 콘텐츠의 인코드된 버전들의 일관된(consistent) 집합이 가용한 동안의 미디어 콘텐츠 주기를 나타낼 수 있다. 즉, 하나의 주기 동안에는 비트레이트(bitrate)들, 언어(language), 캡션(caption) 및 서브타이틀(subtitle) 등이 변경되지 않을 수 있다.

주기는 하나 이상의 어댑테이션 세트(Adapatation Set)들을 포함할 수 있다. 어댑테이션 세트는 하나 이상의 미디어 콘텐츠 컴포넌트들의 교체가능한 인코드된 버전들의 집합을 나타낼 수 있다. 예컨대, 주 비디오 컴포넌트에 대한 하나의 어댑테이션 세트가 있을 수 있고, 주 오디오 컴포넌트에 대한 분리된 하나의 어댑테이션 세트가 있을 수 있다. 예컨대, 캡션 및 오디오 설명과 같은, 다른 가용한 재료(material)가 있다면, 상기의 다른 가용한 재료는 분리된 어댑테이션 세트를 가질 수 있다.

어댑테이션 세트는 하나 이상의 레프리젠테이션들을 포함할 수 있다. 레프리젠테이션은 하나 이상의 미디어 콘텐츠 컴포넌트들의 전달가능한 인코드된 버전을 설명할 수 있다. 레프리젠테이션은 하나 이상의 미디어 스트림들을 포함할 수 있다. 어댑테이션 세트 내의 임의의 단일한 레프리젠테이션은 포함된 미디어 콘텐츠 컴포넌트들을 렌더(render)하기에 충분할 수 있다. 일반적으로 클라이언트는 하나의 주기 내에서, 네트워크 상태(condition) 또는 다른 팩터(factor)들에 적응(adapt)하기 위해, 하나의 레프리젠테이션으로부터 다른 레프리젠테이션으로 스위치할 수 있다. 클라이언트는 클라이언트 자신이 지원하지 않거나, 다른 이유에 의해 적합하지 않은 코덱(codec) 또는 다른 렌더링(rendering) 기술들에 의존하는 레프리젠테이션을 묵살(ignore)할 수 있다.

레프리젠테이션 내에서, 콘텐츠는 시간에 따라 세그먼트들로 분리될 수 있다. 즉, 레프리젠테이션은 하나 이상의 세그먼트들을 포함할 수 있다. 세그먼트는, MPD에서 나타나는, 데이터의 기본 유닛일 수 있다. 각 세그먼트의 URL이 제공될 수 있다. 세그먼트의 URL이 제공된다는 것은, 세그먼트가 단일한 HTTP 요청에 의해 추출(retrieve)될 수 있는 데이터의 최대 유닛이라는 것을 의미할 수 있다. 한편, MPD는 URL과 함께 상기의 URL의 바이트 범위(byte range)를 포함할 수 있다. 따라서, 세그먼트는 다른 더 큰 자원의 바이트 범위 내에 포함될 수도 있다.

하기에서, 전술된 데이터 모델의 구성 요소들 간의 관계가 설명된다.

- MPD는 하나 이상의 주기들의 연쇄를 포함할 수 있다.

- 각 주기들은 하나 이상의 어댑테이션 세트들을 포함할 수 있다. 어댑테이션 세트가 하나 이상의 미디어 콘텐츠 컴포넌트들을 포함하면, 각 미디어 콘텐츠 컴포넌트는 개별적으로 정의될 수 있다.

- 각 어댑테이션 세트는 하나 이상의 레프리젠테이션들을 포함할 수 있다.

- 각 레프리젠테이션은 하나 이상의 서브-레프리젠테이션들을 포함할 수 있다.

- 각 레프리젠테이션은 하나 이상의 세그먼트들을 포함할 수 있다.

- 세그먼트는 미디어 데이터 및/또는 세그먼트를 포함하는 미디어 콘텐츠를 접근, 디코드 및 상연하기 위한 메타데이터를 포함할 수 있다.

- 어댑테이션 세트, 레프리젠테이션 및 서브-레프리젠테이션은 공통 속성 및 요소를 공유할 수 있다.

- 각 세그먼트는 하나 이상의 서브세그먼트들을 포함할 수 있다.

MPD를 나타내는 MPD 문서는 MPD 요소를 포함할 수 있다.

어댑테이션 세트는 하나 이상의 미디어 콘텐츠 컴포넌트들을 포함할 수 있다. 각 미디어 콘텐츠 컴포넌트의 프로퍼티들은 ContentComponet 요소에 의해 설명될 수 있으며, 어댑테이션 세트 내에 하나의 미디어 콘텐츠 컴포넌트가 존재하면 AdaptationSet 요소에 의해 직접적으로 설명될 수 있다.

하기에서 ContentComponent 요소의 시맨틱이 설명된다.

1) ContentComponent 요소는 하기와 같은 속성을 가질 수 있다.

- id 속성은 미디어 컴포넌트의 식별자를 명세할 수 있다. id 속성은 어댑테이션 세트의 범위 내에서 고유할 수 있다.

- lang 속성은 미디어 콘텐츠 컴포넌트의 언어 코드(들)을 선언할 수 있다. IETF RFC 5646에 따른 신택스 및 시맨틱이 사용될 수 있다.

- contentType 속성은 미디어 콘텐츠 컴포넌트의 타입을 명세할 수 있다. 최고-레벨 콘텐츠-타입인 "type"의 값은 RFC1521에서 정의될 수 있다.

- par 속성은 사진 길이 비율을 명세할 수 있다. par 속성은 2 개의 정수들을 포함할 수 있다. par 속성이 존재할 경우, 레프리젠테이션들의 width 속성 및 height 속성도 존재할 수 있다.

2) ContentComponent 요소는 하기와 같은 요소를 가질 수 있다.

- Accessbility 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 접근성 스킴에 대한 정보를 명세할 수 있다.

- Role 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 롤 주석(annotation) 스킴에 대한 정보를 명세할 수 있다.

- Rating 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 등급(rating) 스킴에 대한 정보를 명세할 수 있다.

- Viewpoint 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 뷰포인트 주석 스킴에 대한 정보를 명세할 수 있다.

한편, 3차원 콘텐츠는 AVC 기반, MVC 기반, HEVC 기반 포맷에 기초하여 기술될 수 있다. 3차원 콘텐츠는 3차원 영상 표현을 위하여 깊이 정보를 포함할 수 있다.

각 주기는 하니 이상의 어댑테이션 세트들을 포함할 수 있다. 어댑테이션 세트는 Period 요소 내에 포함된 AdaptationSet 요소에 의해 설명될 수 있다.

어댑테이션 세트는 하나 이상의 미디어 컴포넌트들의 대안적인 인코딩들을 포함할 수 있다. 각 대안적인 인코딩은 레프리젠테이션 내에 포함될 수 있다. 하나의 어댑테이션 세트 내에 포함된 하나 이상의 레프리젠테이션들은 동일한 미디어 콘텐츠 컴포넌트를 나타낼 수 있으며, 지각적으로(perceptually) 동일한 것으로 간주되는 하나 이상의 미디어 스트림들을 포함할 수 있다.

하나 이상의 레프리젠테이션들은 상기의 하나 이상의 레프리젠테이션 내에서 상연된 미디어 콘텐츠 컴포넌트 프로퍼티(property)들에 따라 어댑테이션 세트 내에서 배열될 수 있다. 미디어 콘텐츠 컴포넌트 프로퍼티는, 1) lang 속성에 의해 설명되는 언어, 2) contentType 속성에 의해 설명되는 미디어 콘텐츠 타입, 3) par 속성에 의해 설명되는 사진 길이 비율(picture aspect ratio), 4) Role 요소에 의해 설명되는 롤(role) 프로퍼티, 5) Accessibility 요소에 의해 설명되는 접근성 프로퍼티, 6) ViewPoint 요소에 의해 설명되는 뷰포인트 프로퍼티 및 7) Rating 요소에 의해 설명되는 등급 속성 등을 포함할 수 있다.

AdaptationSet 요소는 어댑테이션 세트가 포함하는 하나 이상의 레프리젠테이션들에 연관된 요소들 및 속성들의 기본 값들을 포함할 수 있다. AdaptationSet 요소 및 Representation 요소에 공통적으로 가능한 상연(present) 요소들 및 속성들의 목록(list)이 하기에서 설명된다.

Adaptation 요소는 어댑테이션 세트가 포함하는 하나 이상의 레프리젠테이션들에 연관된 bandwidth 속성, width 속성, height 속성 및 framerate 속성에 대한 범위의 설명을 지원할 수 있다. 상기의 설명은 어댑테이션 세트가 포함하는 하나 이상의 레프리젠테이션들 모두에 대한 모든 값들의 요약(summary)을 제공할 수 있다. 어댑테이션 세트가 포함하는 하나 이상의 레프리젠테이션들은 어댑테이션 세트 내에서 정의된 범위 밖의 값을 갖지 못할 수 있다.

어댑테이션 세트는 group 속성을 사용함으로써 그룹들로 분류될 수 있다.

하기에서 AdaptationSet 요소의 시맨틱이 설명된다.

1) AdaptationSet 요소는 하기와 같은 속성을 가질 수 있다.

- xlink:href 속성은 외부의 AdaptationSet 요소로의 참조를 명세할 수 있다.

- xlink:actuate 속성은 프로세싱 명령들을 명세할 수 있다. link:actuate 속성의 값은 "onload" 또는 "onRequest"일 수 있다.

- id 속성은 주기의 범위 내에서 어댑테이션 세트의 식별자를 명세할 수 있다. id 속성은 주기를 포함하는 내의 범위 내에서 고유한 식별자일 수 있다. id 속성은 원격 요소 내에서는 부재일 수 있다.

- group 속성은 주기의 범위 내에서 고유한, 그룹에 대한 식별자일 수 있다.

- lang 속성은 어댑테이션 세트의 언어 코드(들)을 선언할 수 있다. IETF RFC 5646에 따른 신택스 및 시맨틱이 사용될 수 있다.

- contentType 속성은 어댑테이션 세트의 미디어 콘텐츠 컴포넌트 타입을 명세할 수 있다. 최고-레벨 콘텐츠-타입인 "type"의 값은 RFC1521에서 정의될 수 있다.

- minBandWidth 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최소 bandwidth 속성 값을 명세할 수 있다.

- maxBandWidth 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최대 bandwidth 속성 값을 명세할 수 있다.

- minWidth 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최소 width 속성 값을 명세할 수 있다.

- maxWidth 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최대 width 속성 값을 명세할 수 있다.

- minHeight 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최소 height 속성 값을 명세할 수 있다.

- maxHeight 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최대 height 속성 값을 명세할 수 있다.

- minFrameRate 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최소 frameRate 속성 값을 명세할 수 있다.

- maxFrameRate 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최대 frameRate 속성 값을 명세할 수 있다.

2) AdaptationSet 요소는 하기와 같은 요소를 가질 수 있다.

- ContentComponent 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 어댑테이션 세트가 포함하는 미디어 콘텐츠 컴포넌트의 프로퍼티들을 명세할 수 있다.

- BaseURL 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 참조 해 및 대안적인 URL 선택을 위해 사용될 수 있다.

- Representation 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 레프리젠테이션을 명세할 수 있다. 각 어댑테이션 세트 내에는 적어도 하나의 레프리젠테이션 요소가 있을 수 있다. Representation 요소는 원격 요소의 일부일 수 있다.

도 2에 도시된 바와 같이, 부호화기(100)는 3차원 콘텐츠를 부호화하여 이를 복호화기(100)로 송신할 수 있다. 부호화기(100)는 부호화를 수행하여 비트스트림(bitstream)을 생성하여 송신할 수 있다.

복호화기(100)는 수신된 부호화된 콘텐츠를 복호화할 수 있다. 복호화기(100)에 의하여 복호화된 콘텐츠는 재생될 수 있다.

일 실시 예에 의한 부호화기(100)는 텍스처(texture) 및 깊이(depth) 사이의 의존성(dependency)를 설정할 수 있다. 여기에서, 텍스처 및 깊이 사이의 의존성은 설정(configuration) 및 계층(layer)에 의하여 조절될 수 있다. 설정은 3차원 하이(3D high) 설정 또는 3차원 익스텐디드 하이(3D extended high) 설정 등을 포함할 수 있다. 계층은 기저 뷰(base view) 또는 인핸스드 뷰(enhanced view) 등을 포함할 수 있다.

부호화기(100)는 싱글 뷰(single view)의 비트스트림을 부호화할 수 있다. 또는 부호화기(100)는 멀티 뷰(multi view)의 비트스트림을 부호화할 수 있다.

한편, 부호화기(100)는 텍스처 및 깊이 사이의 의존성을 설정할 수 있다. 부호화기(100)는 싱글 뷰에 대한 텍스처 및 깊이 사이의 의존성을 설정할 수 있으며, 또는 멀티 뷰에 대한 텍스처 및 깊이 사이의 의존성을 설정할 수도 있다.

부호화기(100)는 텍스처 및 깊이의 품질(quality)을 조정함으로써 3DV 표준을 위한 적응성(adaptivity)을 지원할 수도 있다.

한편, 깊이 정보가 텍스처로부터 분리되는 경우에는, 부호화기(100)는 해당 뷰(given view)와 깊이 데이터의 관계(association) 및 텍스처의 스트림과 깊이 데이터 사이의 의존성을 기술할 수 있다.

깊이 데이터 및 일 시점의 텍스처가 레프리젠테이션 내에서 결합된 경우라도, 이러한 깊이 데이터 및 텍스처 데이터의 다른 뷰(other view)의 데이터와의 의존성을 기술할 것이 요구된다.

부호화기(100)에 의하여 부호화된 비트스트림 또는 레프리젠테이션은 하기와 같은 특징을 가질 수 있다.

- 각각의 뷰의 텍스처 데이터 및 깊이 데이터에 대하여 하나 또는 이상의 레프리젠테이션이 존재할 수 있다.

- 레프리젠테이션은 텍스처 데이터만을 가지는 레프리젠테이션 또는 깊이 데이터만을 가지는 레프리젠테이션 또는 텍스처 데이터 및 깊이 데이터를 모두 가지는 레프리젠테이션일 수 있다.

- 하나의 적응 세트 안의 레프리젠테이션들은 동일한 요소(component)를 가진다. 즉, 하나의 적응 세트 안의 레프리젠테이션들은 텍스처 데이터만을 가지거나 또는 깊이 데이터만을 가지거나 또는 텍스처 데이터 및 깊이 데이터 모두를 가지는 형태로 동일할 수 있다.

- 텍스처, 깊이 및 뷰의 의존성은 레프리젠테이션 레벨 뿐만 아니라 적응 세트 레벨에서도 기술될 수 있다.

특히, "urn:mpeg:dash:stereoid2013"을 DASH의 롤 엘리먼트(role element)의 다시점 설계에 추가될 수 있다. 다시점 설계의 현존하는 변수에 표 1의 추가 변수가 추가될 수 있다.

표 1

파라미터(parameter)	내용(description)
식별자(id)(optional)	1)파라미터가 'ti' 형식을 가지는 경우는 이는 뷰 i의 텍스처를 나타냄.i는 음수가 아닌 십진수 정수임. 이 형식의 파라미터는 뷰와 연동된 텍스처 정보만을 레프리젠테이션에 포함함.2)파라미터가 'di' 형식을 가지는 경우는 이는 뷰 i의 깊이를 나타냄.i는 음수가 아닌 십진수 정수임. 이 형식의 파라미터는 뷰와 연동된 깊이 정보만을 레프리젠테이션에 포함함.3)파라미터가 'vi' 형식을 가지는 경우는 이는 뷰 i의 뷰를 나타냄.i는 음수가 아닌 십진수 정수임. 이 형식의 파라미터는 뷰와 연동된 텍스처 정보 및 깊이 정보를 레프리젠테이션에 포함함.
depend(optional)	이 파라미터는 현재의 적응형 세트와 연동되는 시점 및 텍스처 및/또는 깊이 정보를 ('vk', ;ti' and/or 'dj') 형식으로 띄어쓰기 없이 나열한다. 여기에서 vk,ti,dj는 음수가 아닌 십진수 정수임.

상술한 바와 같이, 부호화기(100)는 식별자(id) 파라미터 및 의존성(depend) 파라미터 중 적어도 하나를 설정함으로써, 텍스처 정보만을 포함하는 레프리젠테이션, 깊이 정보만을 포함하는 레프리젠테이션 또는 텍스처 정보 및 깊이 정보를 모두 포함하는 레프리젠테이션을 생성할 수 있으며, 이는 도 3과 같으며, 제 1 레프리젠테이션은 텍스처 정보만을 포함하며, 제 2 레프리젠테이션은 깊이 정보만을 포함하며, 제 3 레프리젠테이션은 텍스처 정보 및 깊이 정보를 모두 포함할 수 있다. 제 1 내지 제 3 레프리젠테이션은 하나의 적응적 세트에 포함될 수 있다.

복호화기(150)는 비트스트림의 싱글 뷰 또는 멀티 뷰 여부를 판단할 수 있으며, 각각에 대한 복호화를 수행할 수 있다.

복호화기(150)는 레프리젠테이션이 텍스처 정보만을 포함하는지, 깊이 정보만을 포함하는지 또는 텍스처 정보 및 깊이 정보를 모두 포함하는지를 판단할 수 있다. 예를 들어, 복호화기(150)는 롤 엘리먼트의 id 파라미터에 기초하여 레프리젠테이션이 포함하는 정보를 확인할 수 있다.

복호화기(150)는 싱글 뷰/멀티 뷰 여부와 레프리젠테이션이 텍스처 정보만을 포함하는지, 깊이 정보만을 포함하는지 또는 텍스처 정보 및 깊이 정보를 모두 포함하는지 여부에 따라서 적응적인 복호화를 수행할 수 있다.

복호화기(150)는 또한 비트스트림 내의 텍스터와 깊이 및 뷰 중 적어도 하나 사이의 의존성에 기초하여 복호화를 수행할 수도 있다. 이 경우, 복호화기(150)는 레프리젠테이션 레벨 또는 적응 세트 레벨에서 의존성을 확인하여 복호화를 수행할 수 있다.

부호화기(100)는 텍스처 부호화기(110) 및 깊이 부호화기(120)를 포함할 수 있다. 아울러, 부호화기(100)는 제 1 스위치(131) 및 제 2 스위치(132)를 포함할 수 있다.

텍스처 부호화기(110)는 텍스처 데이터를 수신하여 부호화를 수행할 수 있으며, 깊이 부호화기(120)는 깊이 정보를 수신하여 부호화를 수행할 수 있다. 제 1 스위치(131) 및 제 2 스위치(132)는 설정이 3차원 하이(3D high) 설정 또는 3차원 익스텐디드 하이(3D extended high) 등의 설정 여부에 따라 온 또는 오프 상태로 제어될 수 있다. 예를 들어, 3차원 하이(3D high) 설정인 경우에는, 제 1 스위치(131) 및 제 2 스위치(132)가 오프될 수 있다. 아울러, 3차원 익스텐디드 하이(3D extended high) 설정인 경우에는, 제 1 스위치(131) 및 제 2 스위치(132)가 온될 수 있다.

한편, 복호화기(150)는 텍스처 복호화기(151) 및 깊이 복호화기(152)를 포함할 수 있다. 상술한 바와 같이, 복호화기(150)는 비트스트림의 싱글 뷰 또는 멀티 뷰 여부를 판단할 수 있으며, 각각에 대한 복호화를 수행할 수 있다.

복호화기(150)는 또한 비트스트림 내의 텍스터와 깊이 및 뷰 중 적어도 하나 사이의 의존성에 기초하여 복호화를 수행할 수도 있다. 이 경우, 복호화기(150)는 레프리젠테이션 레벨 또는 적응 세트 레벨에서 의존성을 확인하여 복호화를 수행할 수 있다. 복호화기(150)는 상술한 다양한 판단 결과에 따라, 텍스처 복호화기(151) 및 깊이 복호화기(152) 중 적어도 하나를 구동하여 복호화를 수행할 수 있다.

하기에서는, 깊이 정보를 포함하는 3DV의 변경된 다양한 실시 예를 설명하도록 한다.

<제 1 실시 예>

제 1 실시 예는 단일 뷰와 깊이 정보를 각각의 적응형 세트에 기술하는 실시 예이다. 각각의 미디어 요소, 즉 텍스처 및 깊이는 두 개의 레프리젠테이션을 가질 수 있다. 하기는 제 1 실시 예에 대한 예시적인 기술이다.

<MPD>

</SegmentList>

</SegmentList>

</Representation>

</SegmentList>

</Representation>

</AdaptationSet>

<!-And below is the depth data associated with the above view texture -->

</SegmentList>

</Representation>

</SegmentList>

</Representation>

</MPD>

<제 2 실시 예>

제 2 실시 예는 두 개의 뷰를 지원한다. 제 1 뷰의 텍스처(tj)는 뷰 0의 텍스처에 (t0) 의존한다. 뷰의 깊이 정보는 동일 뷰의 텍스처 정보에 의존한다. 또한 각 시점의 깊이 정보는 두 개의 레프리젠테이션에 포함된다. 하기는 제 2 실시 예에 대한 예시적인 기술이다.

<MPD>

</SegmentList>

</SegmentList>

</Representation>

</AdaptationSet>

</SegmentList>

</Representation>

</AdaptationSet>

<!-And below are the depth data associated with the above view textures -->

</SegmentList>

</Representation>

</SegmentList>

</Representation>

</AdaptationSet>

</SegmentList>

</Representation>

</SegmentList>

</Representation>

</AdaptationSet>

</Period>

</MPD>

일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims

3차원 콘텐츠의 부호화 방법에 있어서,

상기 3차원 콘텐츠의 텍스처 정보 및 깊이 정보 사이의 의존성(dependency)을 설정하는 단계;

상기 의존성을 포함하는 비트스트림을 생성하는 단계

를 포함하는 3차원 콘텐츠의 부호화 방법.
제 1 항에 있어서,

상기 깊이 정보가 상기 텍스처 정보로부터 분리되는 경우, 해당 뷰와 깊이 정보와의 관계 및 깊이 정보와 텍스처와의 의존성을 설정하는 단계

를 더 포함하는 3차원 콘텐츠의 부호화 방법.
제 1 항에 있어서,

각 뷰의 텍스처와 깊이 정보를 위한 하나 또는 이상의 레프리젠테이션(representation)을 설정하는 단계

를 더 포함하는 3차원 콘텐츠의 부호화 방법.
제 3 항에 있어서,

상기 레프리젠테이션은 텍스처 정보를 포함하거나 또는 깊이 정보를 포함하거나 또는 텍스처 정보 및 깊이 정보 모두를 포함하는 3차원 콘텐츠의 부호화 방법.
제 4 항에 있어서,

상기 레프리젠테이션이 포함하는 정보를 지시하는 식별자 파라미터를 설정하는 단계

를 더 포함하는 3차원 콘텐츠의 부호화 방법.
제 5 항에 있어서,

상기 식별자가 'ti'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 텍스처 정보를 포함하며,

상기 식별자가 'di'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 깊이 정보를 포함하며,

상기 식별자가 'vi'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 텍스처 정보 및 깊이 정보를 포함하는 3차원 콘텐츠의 부호화 방법.
제 4 항에 있어서,

현재의 적응형 세트와 연동되는 뷰 및 텍스처 및 깊이 정보 사이의 관계를 지시하는 의존성 파라미터를 설정하는 단계

를 더 포함하는 3차원 콘텐츠의 부호화 방법.
제 5 항 또는 제 7 항에 있어서,

상기 식별자 파라미터 또는 상기 의존성 파라미터는 MPEG DASH 표준의 롤 엘리먼트(role element)의 다시점 설계에 추가되는 3차원 콘텐츠의 부호화 방법.
제 1 항에 있어서,

상기 의존성은 레프리젠테이션 레벨 또는 적응 세트 레벨에서 설정되는 3차원 콘텐츠의 부호화 방법.
3차원 콘텐츠의 부호화 방법에 있어서,

텍스처 정보 및 깊이 정보 중 적어도 하나를 포함하는 레프리젠테이션(representation)을 설정하는 단계;

상기 레프리젠테이션에 대응하는 비트스트림을 생성하는 단계

를 포함하는 3차원 콘텐츠의 부호화 방법.