KR102329061B1 - 3차원 이미지에 대한 메타데이터를 생성하기 위한 방법 및 장치 - Google Patents

3차원 이미지에 대한 메타데이터를 생성하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR102329061B1
KR102329061B1 KR1020170106887A KR20170106887A KR102329061B1 KR 102329061 B1 KR102329061 B1 KR 102329061B1 KR 1020170106887 A KR1020170106887 A KR 1020170106887A KR 20170106887 A KR20170106887 A KR 20170106887A KR 102329061 B1 KR102329061 B1 KR 102329061B1
Authority
KR
South Korea
Prior art keywords
image
region
metadata
roi
center
Prior art date
Application number
KR1020170106887A
Other languages
English (en)
Other versions
KR20180082296A (ko
Inventor
에릭 입
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to CN201780082297.2A priority Critical patent/CN110169057B/zh
Priority to EP17891896.7A priority patent/EP3566437B1/en
Priority to PCT/KR2017/014999 priority patent/WO2018131813A1/en
Priority to US15/867,064 priority patent/US11223813B2/en
Publication of KR20180082296A publication Critical patent/KR20180082296A/ko
Application granted granted Critical
Publication of KR102329061B1 publication Critical patent/KR102329061B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Computer Graphics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

3차원(3D) 이미지에 대한 메타데이터를 생성하기 위한 방법이 개시된다. 상기 방법은 구의 형상으로 렌더링된 이미지에 대한 메타데이터를 생성하는 과정, 및 상기 생성된 메타데이터를 전송하는 과정을 포함하고, 상기 메타데이터는 상기 이미지의 영역을 표시하는 정보를 포함한다.

Description

3차원 이미지에 대한 메타데이터를 생성하기 위한 방법 및 장치{METHOD AND APPARATUS FOR GENERATING METADATA FOR 3 DIMENSIONAL IMAGE}
본 발명은 3차원 이미지에 대한 메타데이터를 생성하기 위한 방법 및 장치에 관한 것이다.
인터넷은 인간이 정보를 생성하고 소비하는 인간 중심의 연결 망에서, 사물 등 분산된 구성 요소들 간에 정보를 주고 받아 처리하는 사물인터넷 (Internet of Things, IoT) 망으로 진화하고 있다. IoE (Internet of Everything) 기술은 클라우드 서버 등과의 연결을 통한 빅데이터 (Big data) 처리 기술 등이 IoT 기술에 결합된 하나의 예가 될 수 있다.
IoT를 구현하기 위해서, 센싱 기술, 유무선 통신 및 네트워크 인프라, 서비스 인터페이스 기술, 및 보안 기술 등과 같은 기술 요소 들이 요구되어, 최근에는 사물간의 연결을 위한 센서 네트워크 (sensor network), 사물 통신 (Machine to Machine, M2M), MTC (Machine Type Communication) 등의 기술이 연구되고 있다.
IoT 환경에서는 연결된 사물들에서 생성된 데이터를 수집, 분석하여 인간의 삶에 새로운 가치를 창출하는 지능형 IT (Internet Technology) 서비스가 제공될 수 있다. IoT는 기존의 IT 기술과 다양한 산업 간의 융합 및 복합을 통하여 스마트홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드 카, 스마트 그리드, 헬스 케어, 스마트 가전, 첨단의료서비스 등의 분야에 응용될 수 있다.한편, IoT을 구현을 위한 콘텐트들 역시 진화하고 있다. 즉, 흑백 컨텐트에서 컬러 컨텐트, 고선명(High Definition : HD), 초고선명(Ultra High Definition Television : UHD), 최근의 HDR(high dynamic range) 컨텐트의 표준화 및 배포로 계속 진화해 감에 따라, 오큘러스(Oculus), 삼성 기어 VR(virtual reality) 등과 같은 VR 장치들에서 재생될 수 있는 가상 현실(VR) 콘텐트에 대한 연구가 진행 중이다. VR 시스템은 사용자를 모니터링하여, 사용자가 어떤 종류의 제어기를 사용하여 콘텐트 디스플레이 장치나 프로세싱 유닛으로 피드백 입력을 제공할 수 있게 하면 그 장치나 유닛이 해당 입력을 처리하여 콘텐트를 그에 맞춰 조정함으로써 인터랙션을 가능하게 하는 시스템이다.
VR 에코시스템 안의 기본 구성들은 예를 들어, HMD(head mounted display), 무선, 모바일 VR, TV들, CA VE(cave automatic virtual environment)들, 주변기기 및 햅틱스[VR에 입력을 제공하기 위한 다른 제어기들], 콘텐트 캡처[카메라, 비디오 스티칭], 콘텐트 스튜디오[게임, 라이브, 영화, 뉴스 및 다큐멘터리], 산업적 응용[교육, 건강관리, 부동산, 건설, 여행], 생산 도구 및 서비스[3D 엔진, 프로세싱 파워], 앱 스토어[VR 미디어 컨텐트용] 등을 포함하여 구성될 수 있다.
VR 디바이스에서 재생되는 3 차원(3 dimensional: 3D) 이미지는 구형 또는 원통형과 같은 입체적인 이미지일 수 있다. VR 디바이스는 사용자의 시선 방향 등을 고려하여 3D 이미지의 특정한 영역을 디스플레이할 수 있다
3D 이미지와 함께 또는 독립적으로, 3D 이미지에 관한 메타데이터(metadata)가 전송될 수 있다. 메타데이터는 3D 이미지에 관한 다양한 정보들을 포함할 수 있다. 3D 이미지 상의 특정한 영역을 디스플레이 하도록 VR 디바이스에 지시하기 위하여, 특정한 영역을 식별하기 위한 정보가 VR 디바이스로 전송될 필요가 있으며, 특정한 영역을 식별하기 위한 정보는 메타데이터에 포함되어 전송될 수 있다.
이에 본 발명이 해결하고자 하는 과제는 효과적으로 3D 이미지의 영역을 특정할 수 있는 메타데이터를 생성하기 위한 방법을 제공하고자 하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 효과적으로 3D 이미지의 영역을 특정할 수 있는 메타데이터를 생성하기 위한 장치를 제공하고자 하는 것이다.
본 발명의 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 3차원(3D) 이미지에 대한 메타데이터를 생성하기 위한 방법은 구의 형상으로 렌더링된 이미지에 대한 메타데이터를 생성하는 과정, 및 상기 생성된 메타데이터를 전송하는 과정을 포함하고, 상기 메타데이터는 상기 이미지의 영역을 표시하는 정보를 포함한다.
본 발명의 다른 실시예에 따른 3차원(3D) 이미지에 대한 메타데이터를 생성하기 위한 장치는, 통신 인터페이스, 및 상기 통신 인터페이스에 연결된 프로세서를 포함하고, 상기 프로세서는, 구의 형상으로 렌더링된 이미지에 대한 메타데이터를 생성하고, 그리고 상기 생성된 메타데이터를 전송하도록 구성되고, 상기 메타데이터는 상기 이미지의 영역을 표시하는 정보를 포함한다.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.
즉, 메타데이터에 의해 3D 이미지의 부분 영역을 효과적으로 특정할 수 있다.
또, 3D 이미지의 부분 영역에 대응하는 ERP 이미지 상에서의 영역의 이미지의 왜곡과 열화화를 감소시킬 수 있고, 해당 영역의 크기를 감소시켜, 요구되는 데이터의 양을 감소시킬 수 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.
도 1은 본 발명의 일 실시예에 따른 3D 이미지에 관한 데이터의 송신 및 수신을 위한 시스템을 나타낸 블록도이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 3D 이미지의 부분 영역을 나타내는 방법을 나타낸다.
도 4 및 도 5는 본 발명의 다른 실시예에 따른 3D 이미지의 부분 영역을 나타내는 방법을 나타낸다.
도 6은 본 발명의 또 다른 실시예에 따른 3D 이미지의 부분 영역을 나나태는 방법을 나타낸다.
도 7은 본 발명의 또 다른 실시예에 따른 3D 이미지의 부분 영역을 나타내는 방법을 나타낸다.
도 8은 본 발명의 또 다른 실시예에 따른 3D 이미지의 부분 영역을 나타내는 방법을 나타낸다.
도 9는 본 발명의 또 다른 실시예에 따른 3D 이미지의 부분 영역을 나타내는 방법을 나타낸다.
도 10은 본 발명의 일 실시예에 따른 메타데이터를 생성하고 그리고 전송하기 위한 방법을 나타내는 순서도이다.
도 11은 본 발명의 일 실시예에 따른 송신기를 나타낸 블록도이다.
도 12는 본 발명의 일 실시예에 따른 수신기를 나타내는 블록도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
비록 제 1, 제 2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제 1 구성요소는 본 발명의 기술적 사상 내에서 제 2 구성요소일 수도 있음은 물론이다.
도 1은 본 발명의 일 실시예에 따른 3D 이미지에 관한 데이터의 송신 및 수신을 위한 시스템을 나타낸 블록도이다. 도 1의 시스템은 송신기(110) 및 수신기(120)를 포함할 수 있다.
송신기(110)는 3D 이미지와 관련된 서비스를 제공하기 위한 서버일 수 있다. 송신기(110)는 3D 이미지(111)를 2D 이미지(112)로 변환할 수 있다. 3D 이미지(111)는 정적인 이미지 또는 동적인 이미지(즉, 동영상)일 수 있다. 3D 이미지라는 용어는 전방향(omnidirectional) 이미지를 의미하거나, 또는 전방향 이미지로 대체될 수 있다. 3D 이미지(또는 전방향 이미지)를 포함하는 컨텐트는 3D 미디어 또는 전방향 미디어로 지칭될 수 있다. 송신기(110)는 3D 이미지(111)를 2D 이미지(112)로 변환하기 위해 정방형 도법(ERP: Equirectangular projection)을 이용할 수 있으나, 반드시 이에 한정되는 것은 아니며, 예를 들어, 8면체 도법(octahedron projection)등과 같은 다양한 알려진 기법들이 사용될 수 있다. 3D 이미지(111)가 동적인 이미지인 경우, 송신기(110)는 3D 이미지(111)의 매 프레임을 2D 프레임으로 변환하여, 동적인 이미지인 2D 이미지(112)를 생성할 수 있다. 생성된 2D 이미지(112)는 MPEG(Moving Picture Experts Group)에서 정의된 바와 같은 2D 이미지를 전송하기 위한 알려진 프로토콜에 따라 수신기(120)로 전송될 수 있다.
송신기(110)는 3D 이미지(111)에 대한 메타데이터(113)를 생성하여 수신기(120)로 전송할 수 있다. 메타데이터(113)는 3D 이미지(111)에 관련된 다양한 정보를 포함할 수 있다. 메타데이터(113)는 수신기(120)에서 3D 이미지를 재생(play)하기 위해 사용될 수 있다. 송신기(110)는 3D 이미지(111)의 데이터(즉, 변환된 2D 이미지(112)의 데이터)를 전송하는 것과는 개별적으로 메타데이터(113)를 전송할 수 있다. 몇몇 실시예들에 의하면, 3D 이미지의 데이터를 전송하는 엔티티(entity)와 메타데이터를 전송하는 엔티티는 상이할 수 있다.
메타데이터(113)는 3D 이미지(111)의 특정 영역을 나타내는 정보를 포함할 수 있다. 메타 데이터(113)에 포함된 정보에 의해 표시되는 특정 영역은 수신기(120)에서 3D 이미지(111)를 디스플레이 할 때의 뷰포트(viewport)에 대응되는 영역이거나, 뷰포트 및 추가적인 가드 영역을 포함하는 영역일 수 있으나, 반드시 이에 한정되는 것은 아니며, 특정 영역은 다양한 필요에 따라 설정될 수 있다. 상기 특정 영역은 관심 영역(ROI: region of interest)으로서 지칭될 수 있다.
수신기(120)는 VR 컨텐트를 제공하기 위한 VR 디바이스(예를 들어, HMD 타입의 VR 디바이스)일 수 있다. 수신기(120)는 변환된 2D 이미지(112) 및 메타데이터(113)를 수신할 수 있다. 수신기(120)는 수신된 변환된 2D 이미지(112)로부터 3D 이미지를 복원하여 메타데이터(113)에 기초하여 재생할 수 있다. 몇몇 실시예에 의하면, 수신기(120)는 3D 이미지(110)의 특정 영역을 나타내는 정보를 포함하는 메타데이터(113)를 수신한 이후, 3D 이미지(110)의 전체 영역이 아니라, 특정 영역에 대응하는 데이터만을 송신기(110)로부터 리트리브(retrieve)할 수 있다.
이하, 메타데이터에 포함된 정보에 의해 3D 이미지의 영역을 특정하기 위한 방법에 대하여 설명하도록 한다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 3D 이미지의 부분(partial) 영역을 나타내는 방법을 나타낸다. 도 2 및 도 3을 참조하면, 3D 이미지(210)는 구(sphere)의 형상을 가질 수 있다. 구의 형상을 갖는 3D 이미지(210)는 구의 형상으로 렌더링된 3D 이미지를 지칭할 수 있다. 영역(이하, ROI로 지칭함)(220)은 3D(210)의 이미지 상의 부분적인 영역일 수 있다. ROI(220)는 뷰포트에 대응될 수 있으며, 3D 이미지를 재생하기 위한 직사각형의 디스플레이에 의해 표시될 수 있는 영역일 수 있다. 이러한 경우, ROI(220)는 네 개의 대원(great circle)들의 일부로 이루어진 4개의 변들로 그 경계가 정의될 수 있다. ROI(220)는 ROI(220)의 중심(RC)의 좌표, 상변의 중심(PT)의 좌표, 하변의 중심(PB)의 좌표, 좌변의 중심(PL)의 좌표 및 우변의 중심의 좌표(PR)에 의해 특정될 수 있다. 구형의 3D 이미지 상의 좌표는 구의 중심을 원점으로 하는 구형 좌표계(sphere coordinate system)의 요우(yaw) 및 피치(pitch) 값에 의해 나타내어질 수 있다.
ROI(220)의 상변의 중심(PT)의 좌표, 및 하변의 중심(PB)의 좌표는 ROI(220)의 중심(RC)의 좌표, ROI(220)의 배향(orientation) 각(RA)를 나타내는 ROI(220)의 중심(RC)에서의 롤(roll)(RA) 값, 및 상변의 중심(PT)과 하변의 중심(PB)의 구의 중심(CS)을 정점(apex)으로 한 각 범위를 나타내는 ROI(220)의 수직 각 범위(VAR)로부터 도출될 수 있다. 상변의 중심(PT)과 하변의 중심(PB)을 연결한 호는 구의 대원(great circle)의 일부이다. 따라서, 3D 이미지(210) 상에서의 상변의 중심(PT)와 하변의 중심(PB)간의 거리는 구의 반지름과 수직 각 범위(VAR)의 곱으로 나타내어 질 수 있다.
마찬가지로, ROI(220)의 좌변의 중심(PL)의 좌표 및 우변의 중심의 좌표(PR)는 ROI(220)의 중심(RC)의 좌표, ROI(220)의 중심(RC)에서의 롤(RA) 값, 및 좌변의 중심(PL)과 우변의 중심(PR)의 구의 중심(CS)을 정점으로 한 각 범위를 나타내는 ROI(220)의 수평 각 범위(HAR)로부터 도출될 수 있다. 좌변의 중심(PL)과 우변의 중심(PR)을 연결한 호는 구의 대원(great circle)의 일부일 수 있다. 따라서, 3D 이미지(210) 상에서의 좌변의 중심(PL)과 우변의 중심(PR) 간의 거리는 구의 반지름과 수평 각 범위(HAR)의 곱으로 나타내어 질 수 있다.
따라서, 송신기(110)는 특정 영역을 나타내기 위한 정보로서 ROI(220)의 중심(RC)의 요우, 피치, 및 롤 값들, 수평 각 범위(HAR) 및 수직 각 범위(VAR)를 포함하는 메타데이터를 전송함으로써, ROI(220)를 특정할 수 있다. 이러한 경우, 수신기(120)는 ROI가 4개의 대원(great circle)들로 정의된다는 것을 알고 있을 필요가 있다. 수신기(120)는 ROI가 4개의 대원(great circle)들로 정의된다는 것을 묵시적으로 또는 송신기(110)로부터의 명시적인 시그널링을 통해 알 수 있다.
앞서 언급한 바와 같이 ROI(220)는 뷰포트에 대응되므로, 도 2 및 도 3에서의 실시예는 3D 이미지상의 특정한 영역을 뷰포트로서 지정하기 위해 유용할 수 있다.
도 4 및 도 5는 본 발명의 다른 실시예에 따른 3D 이미지의 부분 영역을 나타내는 방법을 나타낸다. 도 4 및 도 5를 참고하면, ROI(410)는 3D 이미지(400)의 구(400)의 z 축에 수직인 두 개의 소원(small circle)들 및, z 축을 지나는 두 개의 대원들(GC1, GC2)에 의해 둘러싸인 영역으로서 정의될 수 있다. z 축에 수직인 두 개의 소원들(SC1, SC2)은 요우 원들(yaw circles)로 지칭될 수 있으며, z 축을 지나는 두 개의 대원(GC1, GC2)들은 피치 원들(pitch circles)로 지칭될 수 있다. ROI(410)의 좌변의 중심(PL1)과 우변의 중심(PR1)의 구의 중심을 정점으로 하는 각은 ROI(410)의 수평 각 범위로 지칭될 수 있다. 수평 각 범위는 z 축을 지나는 두 개의 대원들(GC1, GC2) 각각이 포함된 두 개의 평면들이 교차하며 형성하는 각일 수 있다. ROI(410)의 상변의 중심(PT1)과 하변의 중심(PB1)의 구의 중심을 정점으로 하는 각은 ROI(410)의 수직 각 범위로 지칭될 수 있다. 수직 각 범위는 두 개의 소원들(SC1, SC2)의 위도(latitude)의 차이일 수 있다.
송신기(110)는 ROI(410)의 중심(RC1)의 좌표(즉, 중심(RC1)의 요우 및 피치), 수직 각 범위 및 수평 각 범위를 영역을 특정하기 위한 정보로서 포함하는 메타데이터를 통하여 ROI(410)를 특정할 수 있다. 이러한 경우, 수신기(120)는 ROI(410)가 z 축에 수직인 두 개의 소원들(SC1, SC2) 및, z 축을 지나는 두 개의 대원들(GC1, GC2)에 의해 둘러싸인 영역으로서 정의된다는 것을 알고 있을 필요가 있다. 수신기(120)는 ROI(410)가 z 축에 수직인 두 개의 소원들(SC1, SC2) 및, z 축을 지나는 두 개의 대원들(GC1, GC2)에 의해 둘러싸인 영역으로서 정의된다는 것을 묵시적으로 또는 송신기(110)로부터의 명시적인 시그널링을 통해 알 수 있다.
ROI(410)는 ERP에 의해 2D 이미지로 변환되는 경우 2D 이미지 상의 직사각형 영역에 대응할 수 있다. 따라서, 도 4 및 도 5에서의 실시예는 메타데이터에 포함된 정보에 의해 특정된 영역에 대응되는 2D 이미지 상에서의 영역을 용이하게 특정할 수 있으므로, 특정된 영역에 관한 이미지 데이터만을 전송할 때 유용할 수 있다.
도 6은 본 발명의 또 다른 실시예에 따른 3D 이미지의 부분 영역을 나나태는 방법을 나타낸다. 메타데이터는 구형의 3D 이미지 상의 제 1 ROI(520) 나타내는 정보 및 제 2 ROI(530)을 나타내는 정보를 모두 포함할 수 있다. 제 1 ROI(520)는 도 2 및 도 3에서 설명된 바와 같이 4개의 대원들로 정의될 수 있는 영역이다. 따라서, 제 1 ROI(520)를 나타내는 정보는 제 1 ROI(520)의 중심(RC2)의 요우, 피치, 및 롤 값들, 제 1 ROI(520)의 수평 각 범위 및 수직 각 범위를 포함할 수 있다. 제 2 ROI(530)은 도 4 및 도 5에서 설명된 바와 같이 두개의 z 축에 수직인 소원들과 두개의 z 축을 지나는 대원들로 정의될 수 있다. 따라서, 제 2 ROI(530)을 나타내는 정보는 제 2 ROI(530)의 중심(RC2)의 좌표(즉, 중심(RC2)의 요우 및 피치), 제 2 ROI의(530) 수직 각 범위 및 수평 각 범위를 포함할 수 있다. 도 6에서는 제 1 ROI(520)와 제 2 ROI(530)의 중심들(RC2)이 동일한 것으로 표시되어 있으나, 이는 예시적인 것에 불과하며 반드시 동일할 필요는 없다.
제 1 ROI(520)는 뷰포트에 대응할 수 있다. 제 2 ROI(530)는 뷰포트를 커버하며 뷰포트 이외의 가드 영역을 포함할 수 있다. 제 1 ROI(520) 및 제 2 ROI(530)를 나타내는 정보를 포함하는 메타데이터를 수신한 수신기(120)는 제 2 ROI(530)에 대응하는 이미지 정보를 송신기(110) 또는 이외의 서버로부터 리트리브하여 제 1 ROI(520)에 대응하는 영역을 재생할 수 있다.
도 7은 본 발명의 또 다른 실시예에 따른 3D 이미지의 부분 영역을 나타내는 방법을 나타낸다. 구 형상의 3D 이미지(710)는 복수의 타일들(즉, 영역들)로 분할될 수 있다. 3D 이미지(710)의 복수의 타일들은 동일한 위도 상의 각 범위 및 동일한 경도 상의 각 범위를 갖도록 분할될 수 있다. 복수의 타일들 각각에 대하여는 인덱스가 부여될 수 있다.
3D 이미지(710)에 ERP를 통하여 생성된 ERP 2D 이미지(720)는 3D 이미지(710)의 복수의 타일들에 대응되는 ERP 2D 이미지(720)의 복수의 타일들로 구분될 수 있다. ERP 2D 이미지(720)의 복수의 타일들은 동일한 크기를 가질 수 있다. 3D 이미지(720)의 특정 타일들(715)은 ERP 2D 이미지(720)의 특정 타일들(725)에 대응될 수 있다.
3D 이미지(710)를 2D 이미지로 변환하기 위해 ERP 이외에도 8면체 프로젝션(Octahedron Projection)이 사용될 수도 있다. 8면체 프로젝션을 통한 2D 이미지(730) 또한 3D 이미지(710)의 복수의 타일들에 대응하는 복수의 타일들로 분할될 수 있다. 8면체 프로젝션을 통한 2D 이미지(730)의 복수의 타일들의 좌우폭은 이미지(730)의 중앙으로부터 상측 및 하측 방향으로 갈수록 점점 좁아지고, 복수의 타일들의 상하폭은 일정할 수 있다. 3D 이미지(720)의 특정 타일들(715)은 8면체 프로젝션 2D 이미지(730)의 특정 타일들(735)에 대응될 수 있다.
도 7의 실시예의 경우, 3D 이미지(710)의 복수의 타일들 중 특정하고자 이상의 타일의 인덱스를 메타데이터에 포함시킴으로써, 송신기(110)는 ROI를 특정할 수 있다. ROI는 하나의 타일로 특정될 수도 있지만, 복수의 타일들로 특정될 수 있으며, 이러한 경우 메타데이터는 복수의 타일들에 대응하는 복수의 인덱스들을 포함할 수 있다. 이러한 경우, 수신기(120)는 3D 이미지(710)를 복수의 타일들로 분할하는 방법 및 각각의 타일에 대응하는 인덱스 번호를 알고 있어야 한다. 복수의 타일들로 분할하는 방법 및 각각의 타일에 대응하는 인덱스 번호는 명시적으로 송신기(110)로부터 수신기(120)로 전달되거나, 또는 묵시적으로 사전에 약속된 방식으로서 수신기(120)에 알려져 있을 수 있다.
도 7의 실시예에서, 메타데이터 내에 포함된 하나 이상의 인덱스 넘버에 대응하는 하나 이상의 타일에 의해 특정되는 ROI는 뷰포트 및 추가적인 가드 영역에 대응할 수 있다.
도 8은 본 발명의 또 다른 실시예에 따른 3D 이미지의 부분 영역을 나타내는 방법을 나타낸다. 도 8에서 3D 이미지(810)의 제 3 ROI(820) 및 제 4 ROI(830)가 메타데이터 내에 포함된 정보를 통해 특정될 수 있다. 제 3 ROI(820)는 도 2 및 도 3에서의 실시예와 같이 4 개의 대원들로 특정될 수 있는 영역이다. 따라서, 제 3 ROI(820)를 나타내는 정보는 제 3 ROI(820)의 중심(RC3)의 요우, 피치, 및 롤 값들, 제 3 ROI(820)의 수평 각 범위 및 수직 각 범위를 포함할 수 있다. 제 4 ROI(830)은 도 7에서의 실시예와 같이, 3D 이미지(810)를 분할하는 복수의 타일들 중 하나 이상의 타일의 하나 이상의 인덱스를 통하여 특정될 수 있다. 따라서, 제 4 ROI(830)를 나타내는 정보는 제 4 ROI(830)에 대응하는 타일(들)의 인덱스(들)를 포함할 수 있다.
제 3 ROI(820)는 뷰포트에 대응할 수 있다. 제 4 ROI(830)는 뷰포트를 커버하며 뷰포트 이외의 가드 영역을 포함할 수 있다. 제 3 ROI(820) 및 제 4 ROI(830)를 나타내는 정보를 포함하는 메타데이터를 수신한 수신기(120)는 제 4 ROI(830)에 대응하는 이미지 정보를 송신기(110) 또는 이외의 서버로부터 리트리브하여 제 3 ROI(820)에 대응하는 영역을 재생할 수 있다.
앞서 설명한 실시예들에서, ROI를 특정하기 위한 메타데이터 내의 정보의 예시적인 포맷은 다음과 같을 수 있다.
aligned(8) class 3DROICoordinatesSampleEntry
extends MetadataSampleEntry ('roic') {
bit(7) reserved = 0;
unsigned int(1) sphere_tiles_flag;
if( sphere_tiles_flag ) {
unsigned int(16) num_sphere_tile_columns;
unsigned int(16) num_sphere_tile_rows;
bit(7) reserved = 0;
unsigned int(1) uniform_spacing_flag;
if( !uniform_spacing_flag ){
for(i=0; i< num_sphere_tile_columns; i++) {
unsigned int(16) column_width_angle;
} for(j=0; j< num_sphere_tile_rows; j++) {
unsigned int(16) row_height_angle;
}
}
}
}
aligned(8) class 3DROICoordinatesSample(){
unsigned int(16) center_yaw;
unsigned int(16) center_pitch;
bit(7) reserved = 0;
unsigned int(1) exact_viewport_flag;
if( rendering_viewport_flag) {
unsigned int(16) center_roll;
unsigned int(16) width_great_angle;
unsigned int(16) height_great_angle;
}
bit(6) reserved = 0;
unsigned int(2) guard_region_type;
if( guard_region_type == 1){
unsigned int(16) delta_theta;
unsigned int(16) delta_phi;
} else if( guard_region_type == 2){
unsigned in(16) num_sphere_tiles;
for(i=0; i< num_sphere_tiles; i++) {
unsigned int(16) sphere_tile_column_index;
unsigned int(16) sphere_tile_row_index;
{
}
}
상기 포맷에서 사용된 용어들의 정의는 다음과 같다.
sphere_tiles_flag: 구(sphere) 타일들이 다른 파라미터들에 따라 가드 영역들 또는 ROI를 인덱싱하기 위해 구 표면상에서 정의되는지 여부를 특정함.
num_sphere_tile_columns: 비디오 데이터를 포함하는 구 표면이 (위도에 따라) 분할되는 구 타일 열(column)들의 수를 특정함.
num_sphere_tile_rows: 비디오 데이터를 포함하는 구 표면이 (경도에 따라) 분할되는 구 타일 행(row)들의 수를 특정함.
uniform_spacing_flag: 1인 경우, 구 타일들의 열 경계들 및 행 경계들이 비디오 데이터를 포함하는 구 표면의 영역들에 걸쳐 균일하게(uniformly) 분산됨. 0인 경우 타일 경계들이 column_width_angle 및 row_height_angle에 의해 특정됨.
column_width_angle: 구 표면 상의 구 타일 열에 대응하는 폭을, 경도(θ)에 의해 정의되는 배향된 각 방향에서, 도(degrees)의 단위로 특정함.
row_height_angle: 구 표면 상의 구 타일 행에 대응하는 높이을, 위도(φ)에 의해 정의되는 배향된 각 방향에서, 도(degrees)의 단위로 특정함.
center_yaw: θ에 의해 정의되는 방향에서, 각도로서, 렌더링 뷰포트 ROI의 중심의 수평 좌표를 특정함.
center_pitch: φ 에 의해 정의되는 방향에서, 각도로서, 렌더링 뷰포트 ROI의 중심의 수직 좌표를 특정함.
exact_viewport_flag: 1인 경우, 렌더링 뷰포트 ROI 영역의 배향을 포함하는, 정확한 렌더링 뷰포트 ROI 영역이 center_roll, width_great_angle 및 height_great_angle에 의해 시그널링됨을 특정함. 0인 경우, 단지 점(point)이 렌더링 뷰포트 ROI로서 특정됨.
center_roll: 각도로서 구 표면 상의 렌더링 뷰포트 ROI의 배향을 특정함 (0은 직선의(rectilinear) ROI 영역의 폭에 대한 수평 배향과 동일함).
width_great_angle: 3D 구의 중심에 관련된 직선의 ROI 영역의 폭에 대응하는 (대원 내에 존재하는) 중심 각(central angle)을 특정함 (이 각은 ROI 중심 점 및 구의 중심에 의해 정의되는 대원의 평면 내에 존재하며, 이 각의 폭은 ROI의 중심 점을 통과함).
height_great_angle: 3D 구의 중심에 관련된 ROI 영역의 높이에 대응하는 (대원 내에 존재하는) 중심 각(central angle)을 특정함 (이 각은 ROI 중심 점 및 구의 중심에 의해 정의되는 대원의 평면 내에 존재하며, 이 각의 높이는 ROI의 중심 점을 통과함).
guard_region_type: 시그널링되는 가드 영역(또는 ROI)의 타입을 특정함. 0인 경우, 가드 영역이 특정되지 않음 (즉, 도 2 및 3에서와 같이 뷰포트만이 표시됨). 1인 경우, delta_theta 및 delta_phi 배향된 각들로서 주어지는 ERP 관련 가드 영역이 특정됨 (즉, 도 4 및 5에서와 같이 ERP 2D 이미지 상에서 직사각형으로 포함된 가드 영역을 포함하는 영역이 표시됨). 2인 경우, 가드 영역에 대응하는 구 타일 인덱스들을 시그널링하는 것에 의해 주어지는 구 타일 가드 영역이 특정됨 (도 7의 실시예에 대응함). 3인 경우, 360 비디오의 전체의 활성(active) 영역이 가드 영역이며, 통상적으로 저 해상도 비디오로서 표현됨.
guard_region_type의 값에 따른 의미를 정리하면 다음의 표 1과 같다.
Value guard_region_type
0 Not specified
1 ERP associated guard region
2 Sphere tile guard region
3 Whole background guard region
delta_theta: ERP 관련 가드 영역의 폭 속성들(properties)을 정의하는 배향된 각 θ의 델타를 특정함.
delta_phi: ERP 관련 가드 영역의 높이 속성들을 정의하는 배향된 각 φ 의 델타를 특정함.
num_sphere_tiles: 구 타일 가드 영역을 구성하는 구 타일들의 수를 특정함.
sphere_tile_column_index: (비디오 데이터를 포함하는) 구 포면 상의 특정한 구 타일의 구 타일 열 인덱스를 식별함.
sphere_tile_row_index: (비디오 데이터를 포함하는) 구 포면 상의 특정한 구 타일의 구 타일 행 인덱스를 식별함.
HMD를 통해 디스플레이되는 뷰포트-의존적인(viewport-dependent) 비디오 전송이 서비스되는 경우, 빠른 머리의 움직임은 현재의 시점(view-point)이 이전의 또는 현재의 가드 영역의 외부에 위치하는 것을 초래할 수 있다. 가드 영역의 외부에 위치하는 이미지/비디오 데이터가 성공적으로 전달되고 디코딩되는 것은 보장될 수 없다. 가드 영역 외부의 가비지(garbage) 데이터가 디스플레이되는 것을 회피하기 위해, 두 가지 방법들이 제안된다.
첫 번째 방법은, 프레임 당 또는 픽처(picture)의 그룹 당 머리 위치의 최대의 회전 각도(요우, 피치)를 표시하는 것이다. 이러한 정보는 세션 협상 단계에서, 클라이언트의 재생 환경 또는 능력을 표시하기 위해, 클라이언트 디바이스로부터 서버로 전달될 필요가 있다. 이후, 서버는 클라이언트의 능력에 의존하여 실제 가드 영역을 결정하고, 최대 회전 각들(요우, 피치)은 머리 회전 또는 시점 변경의 한계들을 통지하기 위해 스트리밍 파일 내에서 가드 영역과 함께 시그널링된다. 또한, 미리 디코딩된(pre-decoded) VR 스트림들의 특성들을 통지하기 위해, 최대 회전 각들은 서버로부터 클라이언트로 전달될 수 있다. 최대 회전 각들은 다음의 파라미터들을 통해 정의될 수 있다.
maximum_yaw_rotation_angle_frame : 프레임 당 최대로 허용되는 요우에서의 각
maximum_pitch_rotation_angle_frame : 프레임 당 최대로 허용되는 피치에서의 각
maximum_yaw_rotation_angle_gop : 픽처들의 그룹 당 최대로 허용되는 요우에서의 각
maximum_pitch_rotation_angle_gop : 픽처들의 그룹 당 최대로 허용되는 피치에서의 각
픽처들의 그룹(GOP)은 랜덤 액세스 구간을 나타낸다.
뷰포트-의존적 전달을 위한 신뢰할수 있는 디스플레이를 유지하기 위한 두 번째 방법은, 가이드에 의해 블랭크(blank) 영역을 채우는 것이다. blank_region_filling_type 파라미터는 블랭크 영역들 또는 컨텐트 제작자의 의도에 따라 이용할 수 없는 비디오 데이터를 어떻게 채울지를 나타낸다.
blank_region_filling_type: 디코딩된 이미지/비디오 데이터가 존재하지 않는 블랭크 영역들을 채우기 위한 텍스처 데이터의 타입. 다음의 표 2와 같이 나타내어질 수 있다.
Value blank_region_filling_type
0x00 Reserved
0x01 Black
0x02 Color
0x03 Static image (pre-shared)
0x04 Previous available frame
0x05 IRAP frame
0x06 Other track video
0x07-0xFF Reserved
만약 blank_region_filling_type이 2인 경우 컬러 컴포넌트 값들(즉, R, G, B)이 시그널링된다.
Black: 검은 배경이 디스플레이된다.
Color: 특정한 RGB 컬러를 갖는 배경이 디스플레이된다.
Static image: 사전에 공유된 정적인 이미지 또는 그래픽이 배경으로서 렌더링된다.
Previous available frame: 최근에 디코딩된 프레임이 배경으로서 사용된다.
IRAP(Intra Random Access Picture): 가장 최근에 버퍼링된 IRAP-프레임이 배경으로서 사용된다.
Other track video: 메인 비디오 트랙 이외의 다른 트랙으로부터의 비디오가 배경으로서 사용된다.
뷰포트-의존적 코딩, 전달 및 렌더링에서, 현재의 FOV(field of view) 또는 뷰포트의 디스플레이를 위한 충분한 정보를 제공하기 위해 전체 인코딩된 비디오 영역의 부분만을 디코딩하는 것을 가능하게 하는 것이 중요하다. 비디오 픽처들은 TIP(temporal inter prediction)을 이용하여 단일-계층 비트스트림으로서 인코딩된다. 전체 코딩된 비트스트림은 서버에 저장되며, 필요한 경우 수신기 측으로 전송되어, 디코더에 의해 전부 디코딩된다. 현재의 뷰포트에 대응하는 디코딩된 픽처의 영역은 사용자에게 렌더링된다. 이러한 방법은 단순한 타일 기반 부분적 디코딩으로 지칭된다.
널리 사용되는 360 비디오 프로젝션은 EPR이다. 그러나, ERP는 각각의 프로젝트된 영역에 대하여 비균등하며 그리고 비대칭적인 시각적 품질을 제공한다. 기하학적 구조(geometry)를 회전시킴으로써, 프로젝트된 프레임을 인코딩하는 코딩 효율이 향상될 수 있다. 추가적으로, 각각의 뷰포트에 대응하는 프로젝트된 영역의 크기는 시점(viewpoint)의 위치에 따라 상이할 수 있다.
360 이미지(3D 이미지)의 적도 근처의 프로젝트된 영역의 크기는 최소화될 수 있는 반면, 극 부근의 프로젝트된 영역의 크기는 ERP 이미지 내에서 최대화된다. 현재의 뷰포트가 적도 부근에 위치하는 경우, 프로젝트된 영역의 크기는 최소화되며 현재의 뷰포트에 대응하는 영역의 인코딩된 데이터의 비트 크기는 최소화된다. 프로젝션 과정에 의해 발생하는 시각적 열화(degration) 또한 적도 부근에서 최소화된다.
프로젝션 이전에 현재의 뷰포트 영역을 적도 상 또는 적도 근처로 재위치시키기(relocate) 위해 구 이미지의 기하학적 구조를 회전하는 것은 뷰포트-의존 코딩 및 전달을 위하여 매우 효율적이다. 기하학적 구조를 회전시킴으로써, 현재의 뷰포트 영역은 항상 ERP 프로젝트된 프레임의 중앙 영역에 위치될 수 있다. 이에 대하여 도 9를 참조하여, 보다 자세히 설명하도록 한다.
도 9는 본 발명의 또 다른 실시예에 따른 3D 이미지의 부분 영역을 나타내는 방법을 나타낸다. 구 형상의 3D 이미지(910) 상의 제 1 영역(911)은 뷰포트에 대응할 수 있다. 구 형상의 3D 이미지(910) 상의 제 1 영역(911)은 구 형상의 3D 이미지(910) 상의 제 1 영역(911)은 ERP 프로젝트된 2D 이미지(930)의 영역(931)에 해당할 수 있다. 3D 이미지(910) 상의 제 1 영역(911)을 적도 상 또는 적도 근처에 위치시키기 위하여 3D 이미지(910)를 회전시켜 회전된 3D 이미지(920)를 생성할 수 있다. 3D 이미지(910) 상의 제 1 영역(911)에 대응하는 회전된 3D 이미지 상(920)의 제 2 영역(921)에 대응할 수 있다. 회전된 3D 이미지 상(920)의 제 2 영역(921)은 3D 이미지(910) 상의 제 1 영역(911)보다 적도에 인접하여 위치할 수 있다. 회전된 3D 이미지 상(920)의 제 2 영역(921)은 회전된 3D 이미지(920)를 ERP 프로젝트하여 생성된 2D 이미지(940)의 영역(941)에 대응할 수 있다. 영역(941)은 영역(931)보다 작은 크기를 가지며, 이미지의 왜곡 및 열화에 있어 양호한 품질을 가진다. 뷰포트에 대응하는 영역(911) 뿐만 아니라, 가드 영역을 포함하는 영역(912)에 대하여도 회전을 통해 보다 적도에 가까이 위치한 영역(921)으로 변환하는 방법이 적용 가능하다.
실시간으로 비트스트림을 회전시키고 인코딩하는 것이 어려운 경우, 클라이언트로부터의 피드백 정보에 포함된 현재의 뷰포트에 따라, 서버는 상이한 회전 값들로 사전에 인코딩된 다수의 비트스트림들 중 최적의 비트스트림을, 동적인 비트스트림 스위칭과 마찬가지로, 선택하고 그리고 전달할 수 있다.
뷰포트-의존적 코딩 및 전달을 위한 기존의 타일-기반 방법과의 주요한 차이점은 제안된 방법은 현재의 뷰포트를 프로젝트된 프레임의 중앙에 고정시키기 위해 동적으로 최적의 회전을 선택하는 반면, 기존의 방법은 프로젝트된 프레임 내에서 프로젝트된 영역을 선택한다는 것이다. 제안된 방법은 뷰포트에 대응하는 프로젝트된 영역의 크기를 50%까지 감소시킬 수 있다. 따라서 총 비트레이트 또한 극적으로 감소될 수 있다. 기하학적 회전은 랜덤 액세스 포인트에서나 또는 매 프레임에서 인에이블될 수 있다. 이러한 3D 이미지의 회전을 나타내기 위한 메타데이터 내의 정보의 포맷은 다음과 같을 수 있다.
aligned(8) class GeometryRotationParameter
extends MetadataSampleEntry ('gerp') {
bit(7) reserved = 0;
unsigned int(1) geometry_rotation_flag;
if( geometry_rotation_flag ) {
bit(7) reserved = 0;
unsigned int(1) center_viewport_region_flag;
if( center_viewport_region_flag ) {
center_viewport_region_width;
center_viewport_region_height;
}
geometry_rotation_yaw;
geometry_rotation_pitch;
geometry_rotation_roll;
}
}
geometry_rotation_flag: 기하학적 구조가 회전되었는지(1) 아니면 회전되지 않았는지(0) 여부를 특정한다.
center_viewport_region_flag: 현재의 뷰포트가 프로젝트된 프레임의 중앙 포인트에 위치하는지 여부를 특정한다.
center_viewport_region_width: 프로젝트된 프레임의 중앙 뷰포트 영역의 폭을 특정한다.
center_viewport_region_height: 프로젝트된 프레임의 중앙 뷰포트 영역의 높이를 특정한다.
geometry_rotation_yaw: 반시계 방향으로 Z-축을 따른 기하학적 회전을 특정한다.
geometry_rotation_pitch: 반시계 방향으로 Y-축을 따른 기하학적 회전을 특정한다.
geometry_rotation_roll: 반시계 방향으로 X-축을 따른 기하학적 회전을 특정한다.
도 10은 본 발명의 일 실시예에 따른 메타데이터를 생성하고 그리고 전송하기 위한 방법을 나타내는 순서도이다. 단계(1010)에서, 송신기는 3D 이미지의 영역을 나타내는 메타데이터를 생성할 수 있다. 생성된 메타데이터는 앞서 실시예들을 통하여 설명된 3D 이미지의 부분 영역을 특정하기 위한 정보를 포함할 수 있다. 메타데이터는 추가적으로 3D의 이미지의 회전을 나타내는 정보를 포함할 수도 있다. 단계(1020)에서, 송신기는 생성된 메타데이터를 전송할 수 있다.
도 11은 본 발명의 일 실시예에 따른 송신기를 나타낸 블록도이다. 송신기(1100)는 서버로도 지칭될 수 있다. 송신기(1100)는 메모리(1110), 통신 인터페이스(1120) 및 프로세서(1130)를 포함할 수 있다. 송신기(1100)는 앞서 실시예들을 통해 설명된 송신기(1100)의 동작을 수행하도록 구성될 수 있다. 프로세서(1130)는 메모리(1110) 및 통신 인터페이스(1120)에 통신 가능하게, 그리고 전기적으로 연결될 수 있다. 통신 인터페이스(1120)를 통해 송신기(1100)는 데이터를 송신하고 그리고 수신할 수 있다. 메모리(1110)에는 송신기(1100)의 동작을 위한 정보들이 저장될 수 있다. 프로세서(1130)를 제어하기 위한 명령들 또는 코드들이 메모리(1110)에 저장될 수 있다. 추가적으로, 프로세서(1130)의 연산을 위해 필요한 일시적 또는 지속적 데이터들이 메모리(1110)에 저장될 수 있다. 프로세서(1130)는 송신기(1100)의 동작을 제어하도록 구성될 수 있다. 앞서 설명된 송신기(1100)의 동작들은 실질적으로 프로세서(1130)에 의해 처리되고 실행될 수 있다. 비록 데이터를 송신하고 수신하는 것이 통신 인테페이스(1120)를 통해 이루어지고, 데이터 및 명령들을 저장하는 것이 메모리(1110)에 의해 수행되더라도, 통신 인터페이스(1120) 및 메모리(1110)의 동작들은 프로세서(1130)에 의해 제어될 수 있으므로, 데이터를 송신 및 수신하는 것 및 명령들을 저장하는 것 또한 프로세서(1130)에 의해 수행되는 것으로 간주될 수 있다.
도 12는 본 발명의 일 실시예에 따른 수신기를 나타내는 블록도이다. 수신기(1200)는 HMD 디바이스와 같은 VR 디바이스일 수 있다. 수신기(1200)는 3D 이미지에 관한 데이터(2D로 프로젝션된 이미지에 관한 데이터)를 수신하고, 메타데이터에 포함된 정보에 기초하여 3D 이미지를 디스플레이할 수 있다. 수신기(1200)는 메모리(1210), 통신 인터페이스(1220), 프로세서(1230) 및 디스플레이(1240)를 포함할 수 있다. 메모리(1210), 통신 인터페이스(1220), 및 프로세서(1230)에 관한 설명은 송신기(1100)의 메모리(1110), 통신 인터페이스(1120), 및 프로세서(1130)에 대한 설명과 실질적으로 동일하다. 디스플레이(1240)는 3D 이미지의 일부 영역(즉, 뷰포트)를 재생할 수 있다. 디스플레이(1240)의 동작 또한 프로세서(1230)에 의해 제어될 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (16)

  1. 3차원(3D) 이미지에 대한 메타데이터를 생성하기 위한 방법으로서,
    구의 형상의 이미지와 관련된 메타데이터를 생성하는 과정; 및
    상기 생성된 메타데이터를 전송하는 과정을 포함하고,
    상기 메타데이터는: 상기 이미지의 영역을 특정하는 제1 정보, 및 상기 영역이 4 개의 대원(great circle)들에 의해 특정되는지 아니면 2 개의 요우 원들(yaw circles)과 2 개의 피치 원들(pitch circles)에 의해 특정되는지 여부를 나타내는 제2 정보를 포함하고,
    상기 영역을 특정하는 상기 제1 정보는 상기 영역의 수평 각 범위를 특정하기 위한 정보, 및 상기 영역의 수직 각 범위를 특정하기 위한 정보를 포함하는,
    3D 이미지에 대한 메타데이터를 생성하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 수평 각 범위 및 상기 수직 각 범위는 상기 영역의 중심을 통과하여 측정되는,
    3D 이미지에 대한 메타데이터를 생성하기 위한 방법.
  3. 제 2 항에 있어서,
    상기 영역을 특정하는 상기 제1 정보는 상기 영역의 중심을 특정하기 위한 정보를 더 포함하는,
    3D 이미지에 대한 메타데이터를 생성하기 위한 방법.
  4. 제 1 항에 있어서,
    상기 영역이 상기 이미지가 디스플레이 될 때의 뷰포트(viewport)에 대응하는 경우, 상기 영역은 4 개의 대원들에 의해 특정되는,
    3D 이미지에 대한 메타데이터를 생성하기 위한 방법.
  5. 3차원(3D) 이미지에 대한 메타데이터를 생성하기 위한 장치로서,
    통신 인터페이스; 및
    상기 통신 인터페이스에 연결된 프로세서를 포함하고,
    상기 프로세서는:
    구의 형상의 이미지와 관련된 메타데이터를 생성하고; 그리고
    상기 생성된 메타데이터를 전송하도록 구성되고,
    상기 메타데이터는 상기 이미지의 영역을 특정하는 제1 정보, 및 상기 영역이 4 개의 대원(great circle)들에 의해 특정되는지 아니면 2 개의 요우 원들(yaw circles)과 2 개의 피치 원들(pitch circles)에 의해 특정되는지 여부를 나타내는 제2 정보를 포함하고,
    상기 영역을 특정하는 상기 제1 정보는 상기 영역의 수평 각 범위를 특정하기 위한 정보, 및 상기 영역의 수직 각 범위를 특정하기 위한 정보를 포함하는,
    3D 이미지에 대한 메타데이터를 생성하기 위한 장치.
  6. 제 5 항에 있어서,
    상기 수평 각 범위 및 상기 수직 각 범위는 상기 영역의 중심을 통과하여 측정되는,
    3D 이미지에 대한 메타데이터를 생성하기 위한 장치.
  7. 제 6 항에 있어서,
    상기 영역을 특정하는 상기 제1 정보는 상기 영역의 중심을 특정하기 위한 정보를 더 포함하는,
    3D 이미지에 대한 메타데이터를 생성하기 위한 장치.
  8. 제 5 항에 있어서,
    상기 영역이 상기 이미지가 디스플레이 될 때의 뷰포트(viewport)에 대응하는 경우, 상기 영역은 4개의 대원들에 의해 특정되는,
    3D 이미지에 대한 메타데이터를 생성하기 위한 장치.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
KR1020170106887A 2017-01-10 2017-08-23 3차원 이미지에 대한 메타데이터를 생성하기 위한 방법 및 장치 KR102329061B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201780082297.2A CN110169057B (zh) 2017-01-10 2017-12-19 用于生成3d图像的元数据的方法和装置
EP17891896.7A EP3566437B1 (en) 2017-01-10 2017-12-19 Method and apparatus for generating metadata for 3d images
PCT/KR2017/014999 WO2018131813A1 (en) 2017-01-10 2017-12-19 Method and apparatus for generating metadata for 3d images
US15/867,064 US11223813B2 (en) 2017-01-10 2018-01-10 Method and apparatus for generating metadata for 3D images

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762444413P 2017-01-10 2017-01-10
US62/444,413 2017-01-10

Publications (2)

Publication Number Publication Date
KR20180082296A KR20180082296A (ko) 2018-07-18
KR102329061B1 true KR102329061B1 (ko) 2021-11-19

Family

ID=63048904

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170106887A KR102329061B1 (ko) 2017-01-10 2017-08-23 3차원 이미지에 대한 메타데이터를 생성하기 위한 방법 및 장치

Country Status (3)

Country Link
EP (1) EP3566437B1 (ko)
KR (1) KR102329061B1 (ko)
CN (1) CN110169057B (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015156523A (ja) * 2012-06-06 2015-08-27 ソニー株式会社 画像処理装置、画像処理方法、プログラム
JP2016532178A (ja) * 2013-06-08 2016-10-13 株式会社ソニー・インタラクティブエンタテインメント ヘッドマウントディスプレイにおいて、透過モードと非透過モードとの間を移行するシステム及び方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010095081A1 (en) * 2009-02-18 2010-08-26 Koninklijke Philips Electronics N.V. Transferring of 3d viewer metadata
US20120092348A1 (en) * 2010-10-14 2012-04-19 Immersive Media Company Semi-automatic navigation with an immersive image
KR101811157B1 (ko) * 2013-12-19 2018-01-25 인텔 코포레이션 사발형 영상 시스템
GB2523555B (en) * 2014-02-26 2020-03-25 Sony Interactive Entertainment Europe Ltd Image encoding and display
JP6440747B2 (ja) * 2014-06-27 2018-12-19 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ Hevcでタイル化されたビデオ・ストリームに基づく関心領域の決定

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015156523A (ja) * 2012-06-06 2015-08-27 ソニー株式会社 画像処理装置、画像処理方法、プログラム
JP2016532178A (ja) * 2013-06-08 2016-10-13 株式会社ソニー・インタラクティブエンタテインメント ヘッドマウントディスプレイにおいて、透過モードと非透過モードとの間を移行するシステム及び方法

Also Published As

Publication number Publication date
EP3566437A1 (en) 2019-11-13
EP3566437B1 (en) 2023-05-10
CN110169057A (zh) 2019-08-23
EP3566437A4 (en) 2020-01-01
KR20180082296A (ko) 2018-07-18
CN110169057B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
US11223813B2 (en) Method and apparatus for generating metadata for 3D images
KR102594003B1 (ko) 볼류메트릭 비디오를 인코딩/디코딩하기 위한 방법, 장치 및 스트림
EP3497940B1 (en) Method and apparatus for transmitting and reproducing content in virtual reality system
KR102352933B1 (ko) 3차원 이미지를 프로세싱하기 위한 방법 및 장치
JP7241018B2 (ja) 没入型ビデオフォーマットのための方法、装置、及びストリーム
EP3466083B1 (en) Spatially tiled omnidirectional video streaming
CN109644279B (zh) 用于用信号通知360度视频信息的方法和***
CN110463196B (zh) 用于传输立体视频内容的方法和装置
US11457231B2 (en) Methods and apparatus for signaling spatial relationships for point cloud multimedia data tracks
EP3451675A1 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, apparatus for receiving 360-degree video
CN109891465B (zh) 用于处理虚拟现实图像的方法和装置
JP2021502033A (ja) ボリュメトリックビデオを符号化/復号する方法、装置、およびストリーム
KR20190101422A (ko) 정보 처리 방법 및 장치
US11113870B2 (en) Method and apparatus for accessing and transferring point cloud content in 360-degree video environment
KR20200133387A (ko) 복수의 뷰포인트들을 포함하는 3차원 컨텐트에 대한 정보를 전송하기 위한 방법 및 장치
CN115883882A (zh) 图像处理方法、装置、***、网络设备、终端及存储介质
JP7271672B2 (ja) 没入型ビデオビットストリーム処理
KR102329061B1 (ko) 3차원 이미지에 대한 메타데이터를 생성하기 위한 방법 및 장치
US20230388542A1 (en) A method and apparatus for adapting a volumetric video to client devices
CN110114759A (zh) 信息处理装置、其控制方法和计算机程序
US20230217006A1 (en) A method and apparatuses for delivering a volumetric video content
JP2020516133A (ja) 仮想現実アプリケーションに対して最も関心のある領域に関連付けられた情報をシグナリングするためのシステム及び方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant