KR102621434B1 - 미디어 리소스 재생 및 텍스트 렌더링 방법, 장치, 기기 및 저장 매체 - Google Patents

미디어 리소스 재생 및 텍스트 렌더링 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR102621434B1
KR102621434B1 KR1020227014038A KR20227014038A KR102621434B1 KR 102621434 B1 KR102621434 B1 KR 102621434B1 KR 1020227014038 A KR1020227014038 A KR 1020227014038A KR 20227014038 A KR20227014038 A KR 20227014038A KR 102621434 B1 KR102621434 B1 KR 102621434B1
Authority
KR
South Korea
Prior art keywords
interest
region
text
area
timed text
Prior art date
Application number
KR1020227014038A
Other languages
English (en)
Other versions
KR20220071240A (ko
Inventor
야씨엔 바이
청 황
Original Assignee
지티이 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지티이 코포레이션 filed Critical 지티이 코포레이션
Publication of KR20220071240A publication Critical patent/KR20220071240A/ko
Application granted granted Critical
Publication of KR102621434B1 publication Critical patent/KR102621434B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4353Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving decryption of additional data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4886Data services, e.g. news ticker for displaying a ticker, e.g. scrolling banner for news, stock exchange, weather data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

본 출원은 미디어 리소스 재생 및 텍스트 렌더링 방법, 장치, 기기 및 저장 매체를 제공하며, 상기 방법은 제1 박스 유형(box type) 또는 제1 샘플 그룹 유형(group type)에 의해 전방향성 비디오(Omnidirectional video)의 관심 영역(Region of interest) 및 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스(media resource)를 결정하는 단계; 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 재생하는 단계를 포함한다.

Description

미디어 리소스 재생 및 텍스트 렌더링 방법, 장치, 기기 및 저장 매체
본 출원은 몰입 미디어(immersion media) 기술 분야에 관한 것이며, 예를 들어 미디어 리소스 재생 및 텍스트 렌더링 방법, 장치, 기기 및 저장 매체에 관한 것이다.
삭제
파노라마 비디오는 360°파노라마 비디오 또는 몰입형 비디오라고도 한다. 이는 수평 360° 및 수직 180°을 커버하며 일반적으로 서로 다른 방향을 향하는 복수의 카메라로 촬영하여 틸링해서 형성된다. 3차원 다이나믹 파노라마 비디오와 사용자 실제 행위의 융합을 통해 사용자의 시청 효과를 대폭 상승시켜 가상 세계를 체험하는 효과에 도달할 수 있다. 이러한 기술은 가상 현실 (Virtual Reality, VR) 기술이라고도 한다.
사용자가 VR 시나리오를 체험하는 경우, 스스로 뷰포트를 제어하게 되므로 사용자는 비디오를 시청하는 과정에 360°시나리오까지 고려할 수 없어 일부 지정 방향의 하이라이트를 놓칠수 밖에 없다. 클라이언트는 관심 영역(Region of interest, ROI)과 연관되는 프롬프트를 제공할 때, ROI와 연관되는 디스크립션 정보가 필요하나 ROI 디스크립션 정보를 일괄적으로 표현하는 방법이 부족하다.
본 출원은 미디어 리소스 재생 및 텍스트 렌더링 방법, 장치, 기기 및 저장 매체를 제공한다.
본 출원의 실시예는 미디어 리소스 재생 방법을 제공하며, 상기 방법은,
제1 박스 유형(box type) 또는 제1 그룹 샘플 유형(sample group type)에 의해 전방향성 비디오(Omnidirectional video)의 관심 영역(Region of interest) 및 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스(media resource)를 결정하는 단계;
상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 재생하는 단계를 포함한다.
본 출원의 실시예는 타임드 텍스트 렌더링 방법을 제공하며, 상기 방법은,
타임드 텍스트(timed text)의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하고, 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역의 깊이 정보를 렌더링하는 단계;
상기 전방향성 비디오의 관심 영역에 대하여 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역을 렌더링하는 단계를 포함한다.
본 출원의 실시예는 미디어 리소스 재생 장치를 제공하며, 상기 장치는,
제1 박스 유형(box type) 또는 제1 샘플 그룹 유형(sample group type)에 의해 전방향성 비디오(omnidirectional video)의 관심 영역(Region of interest) 및 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스(midia resource)를 결정하도록 구성되는 영역 및 리소스 결정 모듈;
상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 재생하도록 구성되는 미디어 리소스 재생 모듈을 포함한다.
본 출원의 실시예는 타임드 텍스트 렌더링 장치를 제공하며, 상기 장치는,
타임드 텍스트(timed text)의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오(omnidirectional text)의 관심 영역(Region of interest)을 결정하고, 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역의 깊이 정보를 렌더링하도록 구성되는 영역 및 깊이 정보 결정 모듈;
상기 전방향성 비디오의 관심 영역에 대하여 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역을 렌더링하도록 구성되는 타임드 텍스트의 렌더링 모듈을 포함한다.
본 출원의 실시예는 기기를 제공하며, 상기 기기는,
적어도 하나 이상의 프로세서;
적어도 하나 이상의 프로그램을 저장하도록 구성되는 메모리; 를 포함하고,
상기 적어도 하나 이상의 프로그램이 상기 적어도 하나 이상의 프로세서에 의해 실행될 때, 상기 적어도 하나 이상의 프로세서가 본 출원의 실시예에 따른 어느 한 방법을 구현하도록 한다.
본 출원의 실시예는 저장 매체를 제공하며, 상기 저장 매체는 컴퓨터 프로그램을 저장하며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때 본 출원의 실시예에 따른 어느 한 방법을 구현한다.
본 출원의 상기 실시예와 기타 측면 및 그에 따른 구현 방식은, 도면의 간간한 설명, 발명을 실시하기 위한 구체적인 내용 및 특허청구범위에서 더 구체적으로 설명할 것이다.
도 1은 본 출원의 실시예에 따른 미디어 리소스 재생 방법의 플로우 차트이다.
도 2는 본 출원의 실시예에 따른 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스의 개략도이다.
도 3은 본 출원의 실시예에 따른 관심 영역과 사용자 뷰포트의 겹합방법을 나타낸 플로우 차트이다.
도 4는 본 출원의 실시예에 따른 타임드 텍스트 렌더링 방법의 플로우 차트이다.
도 5는 본 출원의 실시예에 따른 파노라마 비디오 트랙(panoramic video track) 중 박스의 분포 개략도이다.
도 6은 본 출원의 실시예에 따른 파노라마 비디오 트랙 중 다른 일 박스의 분포 개략도이다.
도 7은 본 출원의 실시예에 따른 자막 데이터의 조정 프로세스를 나타낸 개략도이다.
도 8은 본 출원의 실시예에 따른 미디어 리소스 재생 장치의 개략적인 구성도이다.
도 9는 본 출원의 실시예에 따른 타임드 텍스트 렌더링 장치의 개략적인 구성도이다.
도 10은 본 출원의 실시예에 따른 전자 기기의 개략적인 구성도이다.
이하, 첨부된 도면을 결합하여 본 출원의 실시예를 설명한다. 첨부된 도면의 플로우 차트에 도시된 단계는 한 세트의 실행 가능한 컴퓨터 명령과 같은 컴퓨터 시스템에서 실행할 수 있으며, 플로우 차트에서 논리적 순서를 도시하였으나 일부 상황에서 이와 다른 순서로 도시 또는 설명된 단계를 실행할 수 있다.
VR 기술의 가장 독특한 점은 360°시나리오 서라운드에 있으나 사람이 시야의 한계때문에 한 시점에 한 시청 각도에서 전체 화면을 시청할 수 없으며, 지정된 영역에 주의력이 집중된다. ROI는 VR 비디오 컨텐츠의 한 영역으로서 예를 들어, 감독 추천 시각, 또는 많은 사용자 행위 분석을 통해 최적화된 시청 방향, 하이라이트 영역, 하이라이트 부분 등과 같은 사전 정의를 통해 얻을 수 있다. ROI는 미디어 컨텐츠 자체와 밀접하게 연관되는데, 이는 비디오 고유의 속성에 속한다. 사용자 현재 시각의 뷰포트(Viewport)는 사용자의 시청 방향과 단말 기기에서 정의된 파라미터에 의해 공동으로 결정한 한 블록의 시야 영역으로서, 마참가지로 VR 비디오 컨텐츠의 일부에 속한다. 그러나 뷰포트 영역 위치는 사용자의 동작에 따라 변한다. ROI와 Viewport의 속성은 서로 독립적이다. 하지만 사용자가 VR 시나리오를 체험할 때, 스스로 뷰포트를 제어하게 되므로 사용자는 비디오를 시청하는 과정에 360°시나리오까지 고려할 수 없어 일부 지정 방향의 하이라이트를 놓칠수 밖에 없다. 클라이언트는 관심 영역(Region of interest, ROI)과 연관되는 프롬프트를 제공할 때 ROI와 연관되는 디스크립션 정보가 필요하지만, ROI 디스크립션 정보를 일괄적으로 표현하는 방법이 부족한 현실이다. ISO/IEC JTC1(The First Joint Technology Council of International Electrotechnical Commission)/SC29(Twenty-ninth Sub-technical Committee)/WG11(Eleventh Work Group) MPEG에서 제정한 MPEG-I Part 2의 OMAF(Omnidirectional Media Format, 전방향성 미디어 포맷)에도 아직 ROI와 관련된 시그널링이 존재하지 않는다. 이 문제에 대하여 아직 효과적인 해결방안을 찾지 못하고 있다.
본 출원의 실시예에 따른 구현 방식은 ISO(International Organization for Standardization)의 기본 미디어 파일 포맷에 의해 파노라마 비디오(panoramic video) 중의 관심 영역 공간 위치 정보를 미디어 파일에 저장하는 것이다. 기본 미디어 파일 포맷은 ISO/IEC JTC1/SC29/WG11 MPEG(Moving Picture Experts Group)에서 제정한 MPEG-4 제12부분인 ISO 기본 미디어 파일 포맷(MPEG-4 Part 12 ISO Base Media File Format)을 참조하여 조작할 수 있다. 전방향성 비디오의 투영, 패키징 단계 및 그 기본 포맷은 ISO/IEC JTC1/SC29/WG11 MPEG에서 제정한 MPEG-I Part 2 OMAF(Omnidirectional Media Format, 전방향성 미디어 포맷)을 참조하여 조작할 수 있다.
도 1은 본 출원의 실시예에 따른 미디어 리소스 재생 방법의 플로우 차트이다. 본 실시예에 따른 미디어 리소스 재생 방법은 주로 VR 시나리오의 관심 영역에서 하나 또는 복수의 미디어 리소스를 재생하는 경우에 적용된다. 상기 미디어 리소스 재생 방법은 미디어 리소스 재생 장치에 의해 실행되며, 상기 미디어 리소스 재생 장치는 하드웨어 및/또는 소프트웨어 방법으로 구현될 수 있다.
도 1에 도시된 바와 같이, 본 출원의 실시예에 따른 미디어 리소스 재생 방법은 주로 단계S11 및 단계S12를 포함한다.
S11: 제1 박스 유형(box type) 또는 제1 샘플 그룹 유형(sample group type)에 의해 전방향성 비디오(omnidirectional video)의 관심 영역 및 상기 관심 영역(Region of Interests)과 연관되는 하나 또는 복수의 미디어 리소스를 결정한다.
S12: 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 재생한다.
일 예시적 구현 방식에서, 모든 비디오 샘플에 적용되는 관심 영역인 경우, 제1 박스 유형에 의해 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 멀티미디어 리소스를 결정하는 단계는, 상기 제1 박스 유형에 의해 비디오 샘플 엔트리(video sample entry) 또는 전방향성 비디오 제한 샘플 엔트리 중의 관심 영역 디스크립션 박스를 식별하는 단계; 상기 관심 영역 디스크립션 박스 중의 요소에 의해 상기 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 결정하는 단계를 포함한다.
일 예시적 구현 방식에서, 비디오 샘플 그룹에 적용되는 관심 영역인 경우, 제1 샘플 그룹 유형에 의해 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 멀티미디어 리소스를 결정하는 단계는, 상기 제1 샘플 그룹 유형에 의해 전방향성 비디오 트랙 중의 관심 영역 샘플 그룹 엔트리를 식별하는 단계; 상기 관심 영역 샘플 그룹 엔트리 중의 요소에 의해 상기 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 결정하는 단계를 포함한다.
일 예시적 구현 방식에서, 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 재생하는 단계는, 사용자 현재 뷰포트에서 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 재생하는 단계; 또는 상기 관심 영역에서 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 재생하는 단계를 포함한다.
일 예시적 구현 방식에서, 상기 관심 영역은, 관심 영역의 개수; 관심 영역의 식별 부호; 관심 영역의 공간 영역; 관심 영역의 유형; 관심 영역의 디스크립션 중 하나 또는 복수의 정보에 의해 디스크립션된다.
일 예시적 구현 방식에서, 상기 관심 영역의 유형은, 크리에이터 추천 유형; 화면 향상 유형; 실시간 이슈 유형; 방위 표시 유형; 멀티 스크린 상호 작용 유형 중 하나 또는 복수의 정보를 포함한다.
일 예시적 구현 방식에서, 상기 관심 영역의 공간 영역은, 구면 영역의 중심점; 구면 영역의 방위각 범위 및 피치각 범위 중 하나 또는 복수의 정보를 포함한다. 상기 구면 영역의 중심점은 중심점의 방위각, 중심점의 피치각 및 중심점의 경사각에 의해 결정된다.
일 예시적 구현 방식에서, 상기 미디어 리소스는 오디오, 비디오, 이미지, 타임드 텍스트 중의 하나 또는 복수를 포함한다.
도 2는 본 출원의 실시예에 따른 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스의 개략도이다. 비디오 데이터는 360°공간 영역을 커버하며, 관심 영역(ROI)을 포함하고, 비디오 데이터와 관심 영역의 위치 정보는 모두 비디오 트랙에서 디스크립션된다. 관심 영역은 예들 들어 오디오, 타임드 텍스트 등과 같은 하나 또는 복수의 미디어 리소스와 연관 관계가 있다. 여기서, 연관 관계는 미디어 리소스 자체의 트랙에서 각각 디스크립션된다. 파노라마 비디오의 관심 영역에는, 시간 변화에 따라 변하는 공간 위치 정보를 포함하고, 상기 공간 위치는 파노라마 비디오 화면 컨텐츠와 강한 연관성이 있다. 따라서 본 실시예는 관심 영역 정보를 비디오 데이터 정보의 일부로 삼고, 비디오 미디어 트랙의 메타 데이터 구역에 저장한다. 관심 영역이 시간에 따라 변하는 시나리오에서, 흔히 다음 몇 가지 경우가 있다.
첫번째: 파노라마 비디오 재생 전과정에서 ROI의 공간 위치가 변하지 않고 유지된다.
두번째: ROI 공간 위치는 비디오 재생, 시간의 경과에 따라 변하고, 극한 경우에, 각 비디오 미디어 샘플은 각각 다른 ROI 공간 위치와 대응한다.
세번째: ROI 공간 위치는 비디오 재생, 시간의 경과에 따라 변하지만, 일부 시간 구간에서는 변하지 않고 유지된다.
네번째: 동일 시각에 서로 다른 유형의 ROI가 존재한다.
일 어플리케이션 실예에서, 본 출원의 실시예는 파노라마 비디오 중의 관심 영역과 사용자 뷰포트의 결합 방법을 제공한다. 이는 주로 서버와 클라이언트 사이의 전송, 서버와 클라이언트의 디코딩, 렌더링에 적용된다. 도 3은 본 출원의 실시예에 따른 관심 영역과 사용자 뷰포트의 결합방법을 나타낸 플로우 차트이다. 도 3에 도시된 바와 같이, 파노라마 비디오 중의 관심 영역과 사용자 뷰포트의 결합 방법은 주로 다음 단계를 포함한다.
S31: 클라이언트가 사용자 행위 데이터를 서버에 피드백한다.
S32: 서버가 사용자의 시청 행위를 통계 분석하고, 관심 영역의 공간 위치 정보를 식별하여 파노라마 비디오 중의 관심 영역을 표기하고, MPEG-I Part 2 OMAF 및 ISOBMFF에 기반하여 비디오 트랙에 관심 영역 디스크립션 정보를 추가하고, ROI 화면 컨텐츠와 지정된 관계가 있는 자막, 오디오, 오버레이 비디오 등과 같은 미디어 오브젝트에 대해, ROI 연관 디스크립션 정보를 추가한다.
S33: 클라이언트가 재생 요청을 서버에 발송한다.
S34: 서버는 상기 재생 요청에 의해 미디어 파일을 클라이언트에 발송한다.
S35: 클라이언트가 파노라마 비디오 미디어 파일을 디코딩하여 현재 뷰포트 파라미터를 획득하고, 현재 뷰포트 또는 뷰포트 중의 오브젝트와 관심 영역 간의 연관 관계에 의해, 렌더링 화면 또는 뷰포트 중의 오브젝트의 공간 위치를 조정한다.
S36: 클라이언트가 현재 뷰포트 화면을 렌더링하고, 사용자는 디스플레이 장치를 통해 뷰포트에서 시청한다.
관심 영역은 다양한 소스로부터 제공되며, 대체로 두 유형으로 나눈다. 제1 유형: 컨텐츠 제작 업체에서 관심 영역을 미리 제공하며, 예를 들어 예술적 지도 수요에 의해 감독 추천 시각을 제공하거나 또는 요청된 컨텐츠에 대해 초기 뷰포트 등을 제공한다. 제2 유형: 사용자 행위에 대한 사전 판단 또는 클라이언트의 전송 시그널링에 의해 파노라마 비디오 중의 관심 영역 위치를 판단하여 연관되는 디스크립션 정보를 추가한다.
S35의 공간 위치를 조정하는 단계는 오브젝트의 유형, 클라이언트의 행위 중 어느 하나 또는 복수의 정보에 의해 결정될 수 있다.
어플리케이션 시나리오는 다음과 같은 다양한 형식일 수 있다.
첫번째: 오디오와 관심 영역 사이에 연관 관계가 존재한 경우, 사운드가 고유의 위치 결정 특성이 있으므로 클라이언트는 스테레오, 서라운드 사운드(surround sound) 등과 같은 기술을 결합하여 오디오의 방위를 통해 관심 영역의 위치 정보를 사용자에게 프롬프팅하므로 사용자가 하이라이트를 즉각 포착하도록 안내할 수 있다.
두번째: 타임드 텍스트와 관심 영역 사이에 연관 관계가 존재한 경우, 클라이언트는 필요에 따라 타임드 텍스트를 디스플레이하는 영역을 조정한다. 타임드 텍스트는 해설, 대화 텍스트 프롬프트로 사용할 수 있으며, 또한 비디오 화면 중의 일부 장면(scene)에 주석을 달 수 있으며, 특히 청각 장애인의 VR 체험을 효율적으로 향상시킬 수 있다.
세번째: 사용자가 파노라마 비디오 전체 화면을 시청하고자 하는 동시에 일부 특정 영역을 주목하고자 할 경우, 예를 들어 스포츠 경기에서, 기경 전체를 시청하는 동시에 특정한 운동 선수를 주목하고자 할 경우, 클라이언트는 비디오 오버레이의 방식을 통해, 관심 영역을 "PIP(Picture In Picture)" 형식으로 사용자 뷰포트에 디스플레이할 수 있다.
본 출원의 실시예에 따른 연관 관계 및 조정 방식은 예시적으로 설명을 하기 위한 것일 뿐, 한정하기 위한 것이 아니다. 최종 출력 효과는 클라이언트와 미디어 데이터에 의해 공통으로 결정된다.
ISOBMFF(ISO Base Media File Format) 미디어 파일 중의 모든 데이터는 박스(box)에 담겨 있으며, 박스 헤드부에 유형 및 크기가 디스크립션된다. 한 box가 네스팅을 지원하면, 즉, 한 box에 다른 한 box가 포함되면, 상기 box를 네스팅 지원 박스(container box)라고 한다.
"trak"은 하나의 데이터 트랙을 표시하고, 그 서브 box는 상기 track의 미디어 데이터 레퍼런스 및 디스크립션을 포함한다. Trak는 미디어 박스(media box, mdia)를 포함할 수 있으며, trak 및 mdia의 관계는 trak->mdia로 표시할 수 있다. 여기서, mdia는 미디어 데이터 정보를 포함하고, 미디어 유형 및 샘플 (sample) 데이터를 정의하며, 샘플 정보를 디스크립션할 수 있다. 상기 미디어 데이터는 비디오, 오디오, 자막 등 다양한 유형을 포함할 수 있다. Mdia는 하나의 container box로서, 하나의 미디어 헤더 박스(media header box, mdhd), 하나의 핸들러 레퍼런스 박스(handler reference box, hdlr) 및 하나의 미디어 정보 박스(media information box, minf)를 포함할 수 있다. Trak, mdia 및 minf의 관계는 trak->mdia->minf로 표시할 수 있다.
본 출원의 실시예는 minf 중의 샘플 테이블 박스(sample table box, stbl)를 이용하여 관심 영역 정보를 저장하므로 다양한 시나리오에서 관심 영역 디스크립션의 수요를 만족시킬 수 있다.
본 출원의 실시예에 따른 미디어 리소스 재생 방법은 파노라마 비디오 처리 방법에 주로 사용되며, ISOBMFF를 이용하여 미디어 비디오 컨텐츠 중에 몰입된 관심 영역을 디스크립션하고, 뷰포트와 관심 영역 사이의 연관성을 제공하여 사용자가 시청 방향을 스스로 제어하는 동시에 파노라마 비디오 중 ROI 분포의 관련 정보를 파악할 수 있다.
본 출원의 실시예에서, 파노라마 미디어 파일에 관심 영역 표기를 추가한 후, 사용자 뷰포트 중의 비디오 화면 또는 기타 유형의 오브젝트(예컨대, 자막, 비디오 오버레이, 오디오 등)는 뷰포트 또는 오브젝트와 관심 영역 간의 연관 정보 디스크립션을 더 추가할 수 있으므로 현재 뷰포트에서 비디오 화면 또는 미디어 오브젝트를 상응하게 조정하여 사용자가 ROI 영역의 관련 정보를 획득하도록 한다. 상기 연관 관계를 통해, 사용자가 뷰포트를 스스로 제어하는 수요를 만족할 뿐만 아니라, 사용자 권한이 영향 받지 않은 조건 하에서 ROI 지시를 제공하고, 사용자의 시청 과정을 도와주므로 사용자의 VR 체험을 효율적으로 향상시킬 수도 있다.
도 4는 본 출원의 실시예에 따른 타임드 텍스트 렌더링 방법의 플로우 차트이다. 본 실시예에 따른 타임드 텍스트 렌더링 방법은 VR 시나리오에서 관심 영역의 텍스트를 렌더링하는 경우에 주로 적용된다. 상기 타임드 텍스트 렌더링 방법은 타임드 텍스트 렌더링 장치에 의해 실행되며, 상기 타임드 텍스트 렌더링 장치는 하드웨어 및/또는 소프트웨어 방법으로 구현될 수 있다.
도 4에 도시된 바와 같이, 본 출원의 실시예에 따른 타임드 텍스트 렌더링 방법은 주로 단계S41 및 단계S42를 포함한다.
S41: 타임드 텍스트의 하나 또는 복수의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하고, 상기 타임드 텍스트의 하나 또는 복수의 텍스트 영역의 깊이 정보를 렌더링한다.
S42: 상기 전방향성 비디오의 관심 영역에 대하여 상기 타임드 텍스트의 하나 또는 복수의 텍스트 영역을 렌더링한다.
일 예시적 구현 방식에서, 타임드 텍스트의 하나 또는 복수의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하는 단계는, 모든 타임드 텍스트 샘플에 적용되는 관심 영역에 대해, 제2 박스 유형에 의해 타임드 텍스트 트랙 샘플 엔트리(timed text track smaple entry) 중의 타임드 텍스트 구성 박스(timed text configure box)를 식별하는 단계; 상기 타임드 텍스트 구성 박스 중의 요소에 의해 타임드 텍스트의 하나 또는 복수의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하는 단계를 포함한다.
일 예시적 실시예에서, 타임드 텍스트의 하나 또는 복수의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하는 단계는, 타임드 텍스트 샘플 그룹에 적용되는 관심 영역에 대해, 상기 제2 샘플 그룹 유형에 의해 타임드 텍스트 트랙 중의 타임드 텍스트 샘플 그룹 엔트리(timed text sample group entry)를 식별하는 단계; 상기 타임드 텍스트 샘플 그룹 엔트리 중의 요소에 의해 타임드 텍스트의 하나 또는 복수의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하는 단계를 포함한다.
일 예시적 실시예에서, 상기 전방향성 비디오의 관심 영역에 대하여 상기 타임드 텍스트의 하나 또는 복수의 텍스트 영역을 렌더링하는 단계는, 단위 구체에 대한 3차원 평면을 구축하되, 상기 전방향성 비디오의 관심 영역에 따라 상기 3차원 평면과 대응하는 구면 영역 위치를 결정하고, 깊이 정보에 따라 상기 3차원 평면과 상기 단위 구체 구심과의 거리를 결정하는 단계; 상기 3차원 평면에 상기 타임드 텍스트의 하나 또는 복수의 텍스트 영역을 렌더링 하는 단계를 포함한다.
일 예시적 실시예에서, 상기 깊이 정보는 상기 전방향성 비디오의 관심 영역에 상기 타임드 텍스트의 하나 또는 복수의 텍스트 영역을 렌더링하는 깊이 값이다.
일 예시적 실시예에서, 상기 전방향성 비디오의 관심 영역은, 관심 영역의 개수; 관심 영역의 식별 부호; 관심 영역의 공간 영역; 관심 영역의 유형; 관심 영역의 디스크립션 중 적어도 하나 이상의 정보에 의해 디스크립션된다.
일 예시적 구현 방식에서, 상기 관심 영역의 유형은, 크리에이터 추천 유형; 화면 향상 유형; 실시간 이슈 유형; 방위 표시 유형; 멀티 스크린 상호 작용 유형 중 하나 또는 복수의 정보를 포함한다.
일 예시적 실시예에서, 관심 영역의 공간 영역은 구면 영역의 중심점; 구면 영역의 방위각 범위 및 피치각 중 하나 또는 복수의 정보를 포함한다. 여기서 상기 구면 영역의 중심점은 중심점의 방위각, 중심점의 피치각 및 중심점의 경사각에 의해 결정된다.
일 어플리케이션 실예에서, 본 출원의 실시예는 파노라마 비디오 중의 관심 영역 위치가 처음부터 끝까지 변하지 않을 경우, 미디어 파일에서의 ROI 공간 위치 정보의 디스크립션 방법을 제공한다. 도 5는 본 출원의 실시예에 따른 파노라마 비디오 트랙 중 박스의 분포 개략도이다.
본 실시예의 시나리오에서, ROI 공간 위치는 미디어 비디오 데이터의 고유 속성으로 볼 수 있다. 이러한 시나리오인 경우, ROI의 위치 정보는 stbl box 중의 Sample Entry를 이용하여 디스크립션된다. 도 5에 도시된 바와 같이, stbl는 하나의 container box이고, 그 서브 box는 샘플 디스크립션 박스(sample description box, stsd)을 포함하며, 이는 미디어 데이터 디코딩에 필요한 초기화 파라미터 등 연관된 디코더 정보를 디스크립션한다. Trak, mdia, minf, stbl 및 stsd의 관계는 trak->mdia->minf->stbl->stsd로 표시할 수 있다. Stsd는 복수의 샘플 엔트리(Sample Entry)를 포함할 수 있으며, 하나의 미디어 데이터 트랙에는 여러 부의 디스크립션 정보가 존재할 수 있으며, 비디오 데이터의 샘플 엔트리 유형은 비주얼 샘플 엔트리(Visual Sample Entry)로 고정된다. 파노라마 미디어 데이터인 경우, 비디오 데이터의 공간 위치 정보, 투영 방식, 틸링(tiling) 방식 등의 디스크립션 정보는 일반 디코더를 이용하여 해석할 수 없다. 따라서, 상기 디스크립션 정보는 스킴 정보 박스(scheme information box)에서 디스크립션된다.
본 실시예에서, 일반 비디오 데이터인 경우, 관심 영역 정보는 Visual Sample Entry에서 디스크립션되고, 파노라마 비디오인 경우, scheme information box에서 디스크립션된다. 관심 영역 디스크립션 박스(Region Of Interest Description Box, roid)을 추가하되, 상기 roid는 상기 비디오 데이터 트랙 중 관심 영역의 공간 위치 및 위치의 변화 상황을 디스크립션하는 목적으로 사용되며, 정의하면 다음과 같다.
Region Of Interest Description Box
Box Type: 'roid'
Container: Visual Sample Entry or Scheme Information Box
Mandatory: No
Quantity: Zero or one
문법은 다음과 같다.
class Region Of Interest Description Box extends FullBox('roid',0,0) {
unsigned int(8) roi_count;
for (i=0;i<roi_count;i++) {
ROI RegionStruct();
unsigned int(8) track_count;
for (i=0;i<track_count;i++) {
unsigned int(8) track_id;
}
}
}
aligned(8) ROIRegionStruct() {
unsigned int(8) roi_shape_type;
unsigned int(8) roi_id;
unsigned int(8) roi_type;
string roi_description;
SphereRegionStruct(1);
}
문법 정의는 다음과 같다.
roi_count는 관심 영역의 개수를 표시하고, ROIRegionStruct()는 공간 위치, 관심 영역 식별 부호, 연관 정보 등을 포함하는 관심 영역 관련 정보를 표시한다.
track_count는 관심 영역과 연관되는 미디어 트랙의 개수를 표시하고, track_id는 관심 영역과 연관되는 미디어 트랙 식별 부호를 표시하고, 트랙 식별 부호를 통해 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 결정할 수 있다.
ROIRegionStruct()의 문법 정의는 다음과 같다.
roi_shape_type는 관심 영역의 공간 영역의 형상 유형을 표시하고, roi_id는 관심 영역의 식별 부호로서, 현재 트랙에서 유일하며, roi_type는 관심 영역의 유형을 표시한다.
관심 영역의 소스, 유형은 표 1에 나타낸 바와 같다.
설명
0 크리에이터의 의도에 따라 사용자에게 시청 방향을 추천하는 크리에이터 추천 유형
1 하이라이트 부분 근접 촬영, 고화질 화면 제공 등과 같은 화면 향상 유형
2 현재 비디오에서 최다 관심이 집중되는 영역의 정보를 제공하는 실시간 이슈 유형
3 방위 표시 유형
4 다 방향 비디오 화면을 동시에 제공하는 멀티 스크린 상호 작용 유형
5-255 사용자 정의 유형
roi_description는 널 종료 UTF-8(8-bit Unicode Transformation Format) 문자열을 통해 관심 영역의 디스크립션을 제공한다. SphereRegionStruct()는 관심 영역의 공간 영역을 표시하며, 글로벌 좌표계(global coordinate system)에 대하여 관심 영역의 형상 유형 값(shape_type)은 roi_shape_type로 표시하고, SphereRegionStruct(1) 중의 보간 값(interpolate)은 0이어야 한다.
본 실시예는 파노라마 비디오 중의 관심 영역의 위치가 비디오 재생, 시간의 경과에 따라 변하지만 일부 시간 구간에서 변하지 않을 경우, 미디어 파일에서의 ROI 공간 위치 정보의 디스크립션 방법을 설명한다. 도 6은 본 출원의 실시예에 따른 파노라마 비디오 트랙(panoramic video track) 중 다른 일 박스의 분포 개략도이다.
본 실시예의 시나리오에서, 관심 영역의 위치 정보는 비디오 트랙 중 일부 샘플의 공통 속성으로 이해할 수 있으므로 ISOBMFF 중 샘플 그룹(Sample Group) 구조를 이용하여 관심 영역의 공간 정보를 디스크립션한다. 도 6에 도시된 바와 같이, 샘플 그룹은 미디어 트랙 중 일부 샘플의 속성을 표시하는 메커니즘이며, 샘플 그룹은 두 개의 구조인 샘플 그룹 박스(Sample To Group box, sbgp) 및 그룹 디스크립션 박스(Sample Group Description box, sgpd)로 구성된다. 관심 영역이 일부 시간 구간에서 변하지 않을 경우, 즉, 비디오 트랙 중 일부 샘플에 대응되는 관심 영역이 동일한 경우 ROI 공간 위치는 샘플 그룹을 이용하여 디스크립션할 수 있다.
grouping_type는 샘플 그룹의 유형을 표기하는 바, 샘플 그룹의 조건을 형성하여 이를 그룹 디스크립션 중 동일 유형 값을 갖는 그룹에 링크하도록 한다. 하나의 미디어 트랙인 경우, 동일한 grouping_type은 한번만 나타난다. 본 실시예에서, 관심 영역의 공간 정보 그룹 유형은 "rigp"로 정의하고, 비디오 트랙 중의 샘플을 관심 영역에 따라 복수의 그룹으로 나누어 sgpd box와 대응시킨다.
각 sgpd box는 하나의 sbgp box와 대응하고, 관심 영역의 공간 위치 정보는 sgpd box에서 디스크립션되며, grouping_type는 앞서 설명한 것과 동일하게 "roig"로 정의한다. sgpd box 중의 샘플 그룹 엔트리는 관심 영역에 대해 상응한 확장인 관심 영역 그룹 엔트리(ROI Sample Group Entry)를 추가한다.
문법 정의는 다음과 같다.
class ROISampleGroupEntry() extends SampleGroupDescriptionEntry ('roig') {
unsigned int(8) ROI_count;
for (i=0;i<ROI_count;i++) {
ROIRegionStruct();
unsigned int(8) track_count;
for (i=0;i<track_count;i++) {
unsigned int(8) track_id;
}
}
}
문법 정의는 다음과 같다.
roi_count는 관심 영역의 개수를 표시하고, OIRegionStruct()는 공간 위치, 관심 영역 식별 부호, 연관 정보 등을 포함하는 관심 영역 관련 정보를 표시한다.
track_count는 관심 영역과 연관되는 미디어 트랙 개수를 표시하고, track_id는 관심 영역과 연관되는 미디어 트랙 식별 부호를 표시하고, 트랙 식별 부호를 통해 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 결정할 수 있다. ROIRegionStruct()의 문법 정의는 앞서 설명한 바와 같으므로 본 실시예에서는 더 이상 중복 설명하지 않는다.
일 어플리케이션 실예에서, 본 실시예는 파노라마 미디어 파일에서 미디어 데이터와 공간 영역 간에 연관 관계가 존재하고 모든 샘플이 하나의 공간 영역에 대응하는 경우의 상기 연관 관계의 디스크립션 방법을 설명한다. 여기서 공간 영역은 비디오 트랙 중의 관심 영역에 의해 정의된다.
관심 영역과 연관될 수 있는 미디어 유형은 다양하며, 예를 들어 오디오, 텍스트, 부분 비디오 영역 등이 존재하고, 이들이 나타내는 효과도 클라이언트의 조작과 관련이 있다. 본 실시예는 타임드 텍스트를 일 예로서, 그 중 하나의 연관 방식에 대하여 설명한다. 타임드 텍스트는 VR 자막을 의미하며, 본 실시예에서, 타임드 텍스트 렌더링 위치는 타임드 텍스트 트랙에서 정의한 2차원 영역 정보와 관련이 있고, 또한 비디오 중의 관심 영역과도 관련이 있다. 이러한 시나리오에서, VR 자막의 재생, 렌더링 과정은 다음과 같다.
1) 비디오 소스 카메라 위치를 중심점으로 하고 구형 공간 영역을 구축하여 가상 현실 시나리오 기하학적 구조를 마련한다.
2) 파노라마 재생 장치는, t 시점에 대한 타임드 텍스트 깊이 정보 또는 두눈의 시차, 관심 영역의 연관 관계, 2차원 영역 정보를 읽는다.
3) 파노라마 재생 장치는 관심 영역과의 연관 관계에 의해 상응한 비디오 트랙에서 관심 영역의 공간 위치 정보를 읽는다.
4) 자막의 출력 방식이 항상 디스플레이 스크린에 나타내는 경우, 단계1 내지 단계3의 파라미터 및 두눈의 시차 값에 의해 좌우눈 디스플레이 스크린 각각에 출력되는 타임드 텍스트의 위치를 계산하고 좌우눈 디스플레이 스크린 각각에 타임드 텍스트를 렌더링한다.
5) 자막의 출력 방식이 관심 영역에 고정적으로 나타내는 경우, 단계1 내지 단계3의 파라미터 및 깊이 값에 의해 3차원 평면을 구축하고, 3차원 평면에서 타임드 텍스트를 렌더링한다.
본 실시예에서, 파노라마 미디어 중의 타임드 텍스트 공간 파라미터, 관심 영역의 연관 관계는 전방향성 타임드 텍스트 구성 박스(Omaf Timed Text Config box, otcf)에 의해 디스크립션되며, 본 실시예는 두가지 선택가능한 구현 방식을 제공하며, 각각 두가지 문법 구조와 대응한다.
제1 종류의 선택적 구현 방식에서, 타임드 텍스트 구성 박스의 정의 및 문법은 다음과 같다.
Box Type: 'otcf'
Container: XMLSubtitleSampleEntry or WVTTSampleEntry
Mandatory: Yes
Quantity: One
class OmafTimedTextConfigBox extends FullBox('otcf', 0, 0) {
unsigned int(1) relative_to_roi_flag;
unsigned int(1) relative_disparity_flag;
unsigned int(1) depth_included_flag;
unsigned int(1) roi_included_flag;
bit(5) reserved = 0;
unsigned int(8) region_count;
for (i=0;i<region_count;i++) {
string region_id;
if (relative_disparity_flag)
signed int(16) disparity_in_percent;
else
signed int(16) disparity_in_pixels;
if (depth_included_flag)
unsigned int(16) region_depth;
if(roi _included_flag){
unsigned int(8) roi_id;
unsigned int(8) track_id;
}
}
}
relative_to_roi_fla는 타임드 텍스트의 렌더링 방식을 표시하고, 1는 타임드 텍스트가 항상 디스플레이 스크린에 출력되는 것을 표시하고, 0는 타임드 텍스트가 공간 상의 관심 영역에 출력되고, 사용자가 관심 영역 방향에서 시청할 경우에만 보일 수 있음을 표시한다.
설명
0 타임드 텍스트가 항상 디스플레이 스크린에 출력
1 타임드 텍스트가 관심 영역에 출력
relative_disparity_flag는 시차 단위를 표시하고, 0은 화소이며, 1은 백분율이고; roi_included_flag는 관심 영역이 otcf box에서 제공되는지 여부를 표시하고, 0는 미 제공, 1는 제공을 표시한다. disparity_in_percent/pixels는 시차 크기를 표시하고, 네거티브 값일 수 있다. roi_id는 타임드 텍스트와 연관되는 관심 영역을 표시하며, 비디오 트랙 중의 관심 영역과 대응한다.
track_id는 선택 사항이고, 타임드 텍스트와 연관되는 비디오 트랙 식별 부호를 표시하며, 타임드 텍스트 트랙과 비디오 트랙은 트랙 레퍼런스 박스(Track Reference Box, tref)을 통해 서로 연관된 경우, 상기 식별 부호를 제공하지 않을 수 있다.
제2 종류의 구현 방식에서, 타임드 텍스트 구성 박스의 정의 및 문법은 다음과 같다.
Box Type: 'otcf'
Container: XMLSubtitleSampleEntry or WVTTSampleEntry
Mandatory: Yes
Quantity: One
class TTConfigBox extends FullBox('otcf', 0, 0) {
unsigned int(1) relative_to_viewport_flag;
unsigned int(1) relative_disparity_flag;
unsigned int(1) depth_included_flag;
bit(5) reserved = 0;
unsigned int(8) num_regions;
for (i=0;i< num_regions; i++) {
string region_id;
if(relative_to_viewport_flag == 1) {
if (relative_disparity_flag)
signed int(16) disparity_in_percent;
else
signed int(16) disparity_in_pixels;
} else if(relative_to_viewport_flag == 0) {
SphereRegionStruct(0);
if (depth_included_flag)
unsigned int(16) region_depth;
} else if(relative_to_viewport_flag == 2) {
if (depth_included_flag)
unsigned int(16) region_depth;
unsigned int(8) roi_id;
unsigned int(8) track_id;
}
}
}
relative_to_viewport_flag는 타임드 텍스트의 렌더링 방식을 표시한다. 값 1은 타임드 텍스트가 항상 디스플레이 스크린에 디스플레이됨을 표시하고, 값 0은 타임드 텍스트가 구체 상의 하나의 고정된 공간 위치에 렌더링하는 것을 표시한다. 즉, 사용자가 텍스트 프롬프트가 렌더링된 방향에서 검색할 경우에만, 상기 텍스트 프폼프트가 보인다. 값 2는 타임드 텍스트가 구체(sphere)의 관심 영역에 렌더링됨을 표시하고, 사용자가 관심 영역 방향에서 시청할 경우, 텍스트 프롬프트가 보인다.
roi_id는 타임드 텍스트와 연관되는 관심 영역을 표시하며, 비디오 트랙 중의 관심 영역과 대응한다.
track_id는 선택 사항이고, 타임드 텍스트와 연관되는 비디오 트랙 식별 부호를 표시하며, 타임드 텍스트 트랙과 비디오 트랙이 트랙 레퍼런스 박스(Track Reference Box, tref)을 통해 서로 연관된 경우, 상기 식별 부호를 제공하지 않을 수 있다.
일 어플리케이션 실예에서, 본 실시예는 파노라마 미디어 파일에서 미디어 데이터와 공간 영역이 연관 관계가 있고 서로 다른 샘플이 서로 다른 공간 영역에 대응하는 경우의 상기 연관 관계의 디스크립션 방법을 설명한다.
본 실시예는 마찬가지로 타임드 텍스트를 일 예로 하여 샘플 그룹 구조를 이용하여 설명한다. 본 실시예는 두가지 선택적 구현 방식을 제공한다. 즉, 타임드 텍스트 샘플과 대응하는 공간 영역은 비디오 트랙 중의 관심 영역에 의해 정의할 수도 있고, 하나의 공간 영역을 지정할 수도 있으며, 두가지 문법 구조에 각각 대응한다.
본 실시예에서, VR 자막의 재생, 렌더링 과정은 상기 실시예와 대체로 같으나, 연관 관계는 타임드 텍스트 샘플 그룹에 의해 획득된다.
제1 종류의 구현 방식인 경우, 본 구현 방식에서 관심 영역의 공간 정보 그룹 유형은 "rcgp"로 정의하고, 타임드 텍스트 트랙 중의 샘플은 그 연관되는 관심 영역에 따라 복수의 그룹으로 구분한다. 각 sgpd box는 하나의 sbgp box에 대응하고, 동일한 그룹에서 샘플과 연관되는 관심 영역 유형은 sgpd box에서 디스크립션된다. grouping_type는 앞서 설명한 바와 같이 "rcgp"로 정의한다. sgpd box 중의 샘플 그룹 엔트리는 관심 영역의 연관 관계에 대해 상응한 확장인 관심 영역 연관 관계 그룹 엔트리(ROICorrelationSampleGroupEntry)를 추가한다.
문법 정의는 다음과 같다.
class ROICorrelationSampleGroupEntry()
extends SampleGroupDescriptionEntry ('rcgp') {
unsigned int(1) relative_disparity_flag;
unsigned int(1) depth_included_flag;
unsigned int(1) roi_included_flag;
if (relative_disparity_flag)
signed int(16) disparity_in_percent;
else
signed int(16) disparity_in_pixels;
if (depth_included_flag)
unsigned int(16) region_depth;
if(roi_included_flag){
unsigned int(8) roi_id;
unsigned int(8) track_id;
}
}
relative_disparity_flag는 시차 단위를 표시하고, 0는 화소이고, 1은 백분율이다. roi_included_flag는 관심 영역이 otcf box에서 제공되는지 여부를 표시하고, 0는 미 제공, 1은 제공을 표시한다. disparity_in_percent/pixels는 시차 크기를 표시하고, 네거티브 값일 수 있다. roi_id는 타임드 텍스트와 연관되는 관심 영역을 표시하며, 비디오 트랙 중의 관심 영역과 대응한다.
track_id는 선택 사항이고, 타임드 텍스트와 연관되는 비디오 트랙 식별 부호를 표시하며, 타임드 텍스트 트랙과 비디오 트랙이 트랙 레퍼런스 박스(Track Reference Box, tref)을 통해 서로 연관된 경우, 상기 식별 부호를 제공하지 않을 수 있다.
제2 종류의 구현 방식인 경우, 본 실시예에서, 관심 영역의 공간 정보 그룹 유형은 "otgp"로 정의하고, 타임드 텍스트 트랙 중의 샘플은 그 연관되는 공간 영역에 따라 복수의 그룹으로 구분한다. 각각의 sgpd box는 하나의 sbgp box에 대응하고, 동일한 그룹 중 샘플과 연관되는 관심 영역 유형은 sgpd box에서 디스크립션된다. grouping_type는 앞서 설명한 바와 같이 "otgp"로 정의한다. sgpd box 중의 샘플 그룹 엔트리는 관심 영역의 연관 관계에 대하여 상응한 확장인 관심 영역 연관 관계 그룹 엔트리(OmafTimedTextConfigEntry)를 추가한다.
문법 정의는 다음과 같다.
class OmafTimedTextConfigEntry() extends SampleGroupDescriptionEntry ('otgp') {
unsigned int(1) relative_disparity_flag;
unsigned int(1) depth_included_flag;
if (relative_disparity_flag)
signed int(16) disparity_in_percent;
else
signed int(16) disparity_in_pixels;
if (depth_included_flag)
unsigned int(16) region_depth;
SphereRegionStruct(0);
}
relative_disparity_flag는 시차 단위를 표시하고, 0는 화소이며, 1은 백분율이다. disparity_in_percent/pixels는 시차 크기를 표시하며, 네거티브 값일 수 있다. SphereRegionStruct()는 하나의 구체 위치를 표시하며, 상기 위치는 기타 정보와 함께 3차원 공간에서의 타임드 텍스트의 배치 및 디스플레이 위치를 결정하는데 사용된다.
본 실시예는 타임드 텍스트를 예로 하며, 도 7은 본 출원의 실시예에 따른 자막 데이터의 조정 프로세스의 개략도이다. 도 7에 도시된 바와 같이, 파노라마 비디오에 한 유형의 관심 영역이 존재하는 경우의 타임드 텍스트의 렌더링 과정을 설명하고 있다.
단계1: 재생 장치가 어느 한 시점(t)에 대한 타임드 텍스트 데이터를 획득한다. 상기 타임드 텍스트 데이터는 텍스트, 이미지 등 미디어 데이터, 및 색상, 투명도, 크기, 공간 위치 등 정보를 포함한다.
단계2: otcf box에서 타임드 텍스트 구성 정보를 읽는다. 본 실시예에서, relative_to_viewport_flag는 2이고, roi_included_flag는 1이고, 타임드 텍스트는 관심 영역에 따라 변하며, 하나의 유형만 존재하고, 관심 영역 유형(roi_id)을 읽는다.
단계3: otcf box 중의 roi_id에 의해 비디오 트랙에서 동일한 roi_id가 표시한 공간 위치 정보(Posroi)를 획득한다.
단계4: 현재 뷰포트 중심점(PosViewport)과 관심 영역 중심점(Posroi) 사이의 공간 최단 경로를 획득한다.
단계5: 타임드 텍스트의 디스플레이 영역 좌표를 계산하고, 타임드 텍스트의 디스플레이 영역 중심점이 단계4의 최단 경로에 위치하는 것과 디스플레이 영역이 현재 뷰포트 범위를 벗어나지 않은 조건을 만족해야 한다.
단계6: 좌우 뷰포트의 시차에 의해 좌우 뷰포트 중 타임드 텍스트의 영역 좌표를 상응하게 조정한다.
단계7: 좌우 뷰포트에서 타임드 텍스트를 각각 렌더링한다.
본 실시예는 파노라마 미디어 파일 중 미디어 데이터와 관심 영역이 연관되는 어플리케이션의 일 예이다. 미디어 오브젝트를 파노라마 비디오 화면 중의 영역과 연관시키고자 하는 그 어떠한 시나리오든 본 출원의 방안을 사용할 수 있다.
도 8은 본 출원의 실시예에 따른 미디어 리소스 재생 장치의 개략적인 구성도이다. 본 실시예에 따른 미디어 리소스 재생 장치는 VR 시나리오의 관심 영역에서 하나 또는 복수의 미디어 리소스를 재생하는 경우에 주로 적용된다. 상기 미디어 리소스 재생 장치는 하드웨어 및/또는 소프트웨어 방법으로 구현될 수 있다.
도 1에 도시된 바와 같이, 본 출원의 실시예에 따른 미디어 리소스 재생 장치는 영역 및 리소스 결정 모듈(81) 및 미디어 리소스 재생 모듈(82)을 주로 포함한다.
영역 및 리소스 결정 모듈(81)은 제1 박스 유형 또는 제1 샘플 그룹 유형에 의해 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 결정하도록 구성된다. 미디어 리소스 재생 모듈(82)은 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 재생하도록 구성된다.
일 예시적 구현 방식에서, 영역 및 리소스 결정 모듈(81)은 모든 비디오 샘플에 적용되는 관심 영역에 대하여 제1 박스 유형에 의해 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 멀티미디어 리소스를 결정하도록 구성된다.
영역 및 리소스 결정 모듈(81)은 상기 제1 박스 유형에 의해 비디오 트랙 시각 샘플, 전방향성 비디오 트랙 제한 샘플 중의 하나 또는 복수를 포함하는 비디오 트랙 샘플의 엔트리 중 관심 영역 디스크립션 박스를 식별하고; 상기 관심 영역 디스크립션 박스 중의 요소에 의해 상기 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 결정하도록 구성된다.
일 예시적 구현 방식에서, 영역 및 리소스 결정 모듈(81)은 비디오 샘플 그룹에 적용되는 관심 영역에 대하여 제1 샘플 그룹 유형에 의해 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 멀티미디어 리소스를 결정하도록 구성된다.
영역 및 리소스 결정 모듈(81)은 상기 제1 샘플 그룹 유형에 의해 전방향성 비디오 트랙 중의 관심 영역 샘플 그룹 엔트리를 식별하고; 상기 관심 영역 샘플 그룹 엔트리 중의 요소에 의해 상기 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 결정하도록 구성된다.
일 예시적 구현 방식에서, 미디어 리소스 재생 모듈(82)은 사용자의 현재 뷰포트에서 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 재생하거나 또는 상기 관심 영역에서 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 재생하도록 구성된다.
일 예시적 구현 방식에서, 상기 관심 영역은 관심 영역의 개수; 관심 영역의 식별 부호; 관심 영역의 공간 영역; 관심 영역의 유형; 관심 영역의 디스크립션 중 적어도 하나 이상의 정보에 의해 디스크립션된다.
일 예시적 구현 방식에서, 상기 관심 영역의 유형은, 크리에이터 추천 유형; 화면 향상 유형; 실시간 이슈 유형; 방위 표시 유형; 멀티 스크린 상호 작용 유형 중 적어도 하나 이상의 정보를 포함한다.
일 예시적 구현 방식에서, 상기 관심 영역의 공간 영역은, 구면 영역의 중심점; 구면 영역의 방위각 범위 및 피치각 범위 중 하나 또는 복수의 정보를 포함한다. 여기서, 상기 구면 영역의 중심점은 중심점의 방위각, 중심점의 피치각 및 중심점의 경사각에 의해 결정된다.
일 예시적 구현 방식에서, 상기 미디어 리소스는 오디오, 비디오, 이미지, 타임드 텍스트 중 하나 또는 복수를 포함한다.
도 9는 본 출원의 실시예에 따른 타임드 텍스트 렌더링 장치의 개략적인 구성도이다. 본 실시예에 따른 타임드 텍스트 렌더링 장치는 VR 시나리오에서 관심 영역 중의 텍스트를 렌더링하는 경우에 주로 적용된다. 상기 타임드 텍스트 렌더링 장치는 하드웨어 및/또는 소프트웨어 방법으로 구현될 수 있다.
도 9에 도시된 바와 같이, 본 출원의 실시예에 따른 타임드 텍스트 렌더링 장치는 영역 및 깊이 정보 결정 모듈(91) 및 타임드 텍스트 렌더링 모듈(92)을 주로 포함한다.
영역 및 깊이 정보 결정 모듈(91)은 타임드 텍스트의 하나 또는 복수의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하고, 상기 타임드 텍스트의 하나 또는 복수의 텍스트 영역의 깊이 정보를 렌더링하도록 구성된다. 타임드 텍스트의 렌더링 모듈(92)은 상기 전방향성 비디오의 관심 영역에 대하여 상기 타임드 텍스트의 하나 또는 복수의 텍스트 영역을 렌더링하도록 구성된다.
일 예시적 구현 방식에서, 영역 및 깊이 정보 결정 모듈(91)은 모든 타임드 텍스트 샘플에 적용되는 관심 영역에 대하여, 제2 박스 유형에 의해 타임드 텍스트 트랙 샘플 엔트리 중의 타임드 텍스트 구성 박스를 식벽하고; 상기 타임드 텍스트 구성 박스 중의 요소에 의해 타임드 텍스트의 하나 또는 복수의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하도록 구성된다.
일 예시적 실시예에서, 영역 및 깊이 정보 결정 모듈(91)은 타임드 텍스트 샘플 그룹에 적용되는 관심 영역에 대하여, 상기 제2 샘플 그룹 유형에 의해 타임드 텍스트 트랙 중의 타임드 텍스트 샘플 그룹 엔트리를 식별하고; 상기 타임드 텍스트 샘플 그룹 엔트리 중의 요소에 의해 타임드 텍스트의 하나 또는 복수의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하도록 구성된다.
일 예시적 실시예에서, 타임드 텍스트의 렌더링 모듈(92)은 단위 구체에 대한 3차원 평면을 구축하되, 상기 전방향성 비디오의 관심 영역에 의해 상기 3차원 평면과 대응하는 구면 영역 위치를 결정하고, 상기 깊이 정보에 의해 상기 3차원 평면과 상기 단위 구체 구심(centre of sphere) 사이의 거리를 결정하고; 상기 3차원 평면에서 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역을 렌더링하도록 구성된다.
일 예시적 실시예에서, 상기 깊이 정보는 상기 전방향성 비디오의 관심 영역에 상기 타임드 텍스트의 하나 또는 복수의 텍스트 영역을 렌더링하는 깊이 값이다.
일 예시적 실시예에서, 상기 전방향성 비디오의 관심 영역은, 관심 영역의 개수; 관심 영역의 식별 부호; 관심 영역의 공간 영역 좌표; 관심 영역의 유형; 관심 영역의 디스크립션 중 적어도 하나 이상의 정보에 의해 디스크립션된다.
일 예시적 구현 방식에서, 상기 관심 영역의 유형은, 크리에이터 추천 유형; 화면 향상 유형; 실시간 이슈 유형; 방위 표시 유형; 멀티 스크린 상호 작용 유형 중 적어도 하나 이상의 정보를 포함한다.
일 예시적 실시예에서, 상기 관심 영역의 공간 영역은 구면 영역의 중심점; 구면 영역의 방위각 범위 및 피치각 범위 중 하나 또는 복수의 정보를 포함한다. 여기서, 상기 구면 영역의 중심점은 중심점의 방위각, 중심점의 피치각 및 중심점의 경사각을 포함한다.
상기 실시예를 기반하여, 본 출원의 실시예는 전자 기기를 더 제공한다. 도 10은 본 출원의 실시예에 따른 전자 기기의 개략적인 구성도이다. 도 10에 도시된 바와 같이, 상기 전자 기기는 프로세서(100), 메모리(101), 입력 장치(102) 및 출력장치(103)를 포함한다. 전자 기기 중의 프로세서(100)는 하나 또는 복수가 될 수 있다. 도 10은 프로세서(100)가 하나인 경우를 예로 한다. 전자 기기 중의 프로세서(100), 메모리(101), 입력장치(102) 및 출력장치(103)는 버스 또는 기타 방식으로 연결될 수 있으나 도 10은 버스를 통해 연결되는 경우를 예시한다.
메모리(101)는 컴퓨터 판독 가능한 저장 매체로서, 소프트웨어 프로그램, 컴퓨터 실행 가능한 프로그램 및 모듈을 저장할 수 있다. 예를 들어 본 출원의 실시예에 따른 미디어 리소스 재생 방법에 대응되는 프로그램 명령/모듈(예를 들어, 미디어 리소스 재생 장치 중의 영역 및 리소스 결정 모듈(81), 미디어 리소스 재생 모듈(82)); 예를 들어 본 출원의 실시예에 따른 타임드 텍스트 렌더링 방법에 대응되는 프로그램 명령/모듈(예를 들어, 타임드 텍스트 렌더링 장치 중의 영역 및 깊이 정보 결정 모듈(91), 타임드 텍스트의 렌더링 모듈(92))을 포함한다.
프로세서(100)는 메모리(101)에 저장된 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 전자 기기의 다양한 기능 어플리케이션 및 데이터 처리를 수행하여 본 출원의 실시예에 따른 어느 한 방법을 구현한다.
메모리(101)는 프로그램 저장 구역 및 데이터 저장 구역을 주로 포함하며, 프로그램 저장 구역은 OS, 적어도 하나 이상의 기능에 필요한 어플리케이션 프로그램을 저장하고, 데이터 저장 구역은 단말기의 사용에 의해 생성된 데이터 등을 저장할 수 있다. 한편, 메모리(101)는 고속 랜덤 액세스 메모리를 포함할 뿐만 아니라 하나 이상의 자기 저장 디바이스, 플래시 메모리 또는 다른 비-휘발성 고체-상태 메모리와 같은 비-휘발성 메모리를 더 포함할 수 있다. 일부 실시예 들에서, 메모리(101)는 프로세서(100)에 대해 원격으로 배치된 메모리를 더 포함할 수 있다. 이러한 원격 메모리는 네트워크를 통해 전자 기기에 연결될 수 있다. 상기 네트워크의 예들은 인터넷, 회사 인트라넷, 근거리 통신망, 이동 통신 네트워크, 및 이들의 조합을 포함하지만, 이들로 제한되는 것은 아니다.
입력장치(102)는 입력되는 숫자 또는 문자 정보를 수신하고, 또한 전자 기기의 사용자 설정 및 기능 제어와 연관되는 키 신호 입력을 생성할 수 있다. 출력장치(103)는 디스플레이 스크린 등 디스플레이 장치를 포함할 수 있다.
상기 실시예의 기초상에, 본 출원의 실시예는 컴퓨터 실행 가능한 명령을 포함하는 저장 매체를 더 제공한다. 상기 컴퓨터 실행 가능한 명령은 컴퓨터 프로세서에 의해 실행될 때 본 출원의 실시예에 따른 어느 한 방법을 수행할 수 있다.
예를 들어, 본 출원의 실시예에 따른 미디어 리소스 재생 방법을 수행하는 경우, 상기 방법은,
제1 박스 유형 또는 제1 샘플 그룹 유형에 의해 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 결정하는 단계; 상기 관심 영역과 연관되는 하나 또는 복수의 미디어 리소스를 재생하는 단계를 포함한다.
예를 들어, 본 출원의 실시예에 따른 타임드 텍스트 렌더링 방법을 수행하는 경우, 상기 방법은 타임드 텍스트의 하나 또는 복수의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하고, 상기 타임드 텍스트의 하나 또는 복수의 텍스트 영역의 깊이 정보를 렌더링하는 단계; 상기 전방향성 비디오의 관심 영역에 대하여 상기 타임드 텍스트의 하나 또는 복수의 텍스트 영역을 렌더링하는 단계를 포함한다.
본 출원의 실시예에 따른 컴퓨터 실행 가능한 명령을 포함하는 저장 매체는, 상기 컴퓨터 실행 가능한 명령은 상기 설명한 방법 조작에 제한되는 것이 아니며, 본 출원의 어느 한 실시예에 따른 임의의 방법 중의 관련 조작을 수행할 수도 있다.
이상의 구현 방식에 대한 설명을 통해, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 소프트웨어 및 범용 하드웨어로 구현되거나 하드웨어로 구현될 수 있음을 명확히 이해할 수 있을 것이다. 이러한 이해를 기반으로, 본 발명의 기술적 방안은 소프트웨어 제품의 형식으로 구현될 수 있고, 이러한 컴퓨터 소프트웨어 제품은 컴퓨터 판독 가능한 저장 매체, 예컨대 컴퓨터의 플로피 디스켓, 판독 전용 기억 장치(Read-Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 플래시 메모리(FLASH), 하드 디스크 또는 컴팩트 디스크 등에 저장될 수 있으며, 하나의 컴퓨터 기기(개인 컴퓨터, 서버 또는 네트워크 기기 등일 수 있음)가 본 발명에 따른 각 실시예의 상기 방법을 실행할 수 있도록 복수개의 명령을 포함한다.
상기 미디어 리소스 재생 장치 및 타임드 텍스트 렌더링 장치의 실시예에서, 포함된 각 유닛 및 모듈은 기능적 논리에 의해 구분되었으나, 상기 구분에 한정되지 않으며, 상응한 기능을 구현할 수만 있다면 모두 사용 가능하다. 한편, 각 기능 유닛의 명칭은 서로를 쉽게 구분하기 위해 사용될 뿐, 본 출원의 보호범위를 제한하기 위하여 사용되는 것은 아니다.
이상은 본 출원의 예시적 실시예에 불과하며, 본 출원의 보호범위를 한정하기 위한 것은 아니다.
"사용자 단말"이라는 용어는 예를 들어 휴대폰, 휴대용 데이터 처리 장치, 휴대용 웹 브라우저 또는 차량 탑재 이동국과 같은 임의의 적합한 유형의 무선 사용자 장치를 포함한다는 것을 당업자는 이해해야 한다.
일반적으로, 본 출원의 실시예들은 하드웨어, 전용 회로, 소프트웨어, 로직, 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어, 일부 양태는 하드웨어로 구현될 수 있는 반면, 다른 양상은 컨트롤러, 마이크로프로세서, 또는 다른 컴퓨팅 장치에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있지만, 본 출원은 이에 제한되지 않는다.
본 출원의 실시예는 이동 장치의 데이터 프로세서를 통해 컴퓨터 프로그램 명령어를 수행하는 것에 의해 구현될 수 있으며, 예를 들어 프로세서 엔티티에서, 하드웨어에 의해 구현되거나, 소프트웨어와 하드웨어의 조합에 의해 구현될 수 있다. 컴퓨터 프로그램 명령어는 어셈블리 명령어, ISA(Instruction-Set Architecture) 명령어, 기계 명령어, 기계 관련 명령어, 마이크로코드, 펌웨어 명령어, 상태 설정 데이터 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 또는 객체 코드일 수 있다.
본 출원의 도면에서의 임의의 논리 흐름의 블록도는 프로그램 단계를 나타내거나 서로 연결된 논리 회로, 모듈 및 기능을 나타내거나 프로그램 단계와 논리 회로, 모듈 및 기능의 조합을 나타낼 수 있다. 컴퓨터 프로그램은 메모리에 저장될 수 있다. 메모리는 로컬 기술 환경에 적합한 임의의 유형일 수 있고, 임의의 데이터 저장 기술에 의해 구현될 수 있으며, 예를 들어, 롬(ROM), 램(RAM), 광학 저장 장치 및 시스템(디지털 비디오 디스크(Digital Video Disc, DVD) 또는 컴팩트 디스크(Compact Disc, CD) 등을 포함할 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능한 매체는 비일시적 저장 매체를 포함할 수 있다. 데이터 프로세서는 로컬 기술 환경에 적합한 임의의 유형일 수 있고, 예를 들어, 범용 컴퓨터, 전용 컴퓨터, 마이크로 프로세서, 디지털 신호 프로세서(Digital Signal Processing, DSP), 애플리케이션별 집적 회로(Application Specific Integrated Circuit, ASIC), 프로그래밍 가능한 게이트 어레이(Field-Programmable Gate Array, FGPA) 및 멀티 코어 프로세서 아키텍처에 기반하는 프로세서일 수 있지만 이에 한정되지 않는다.

Claims (19)

  1. 제1 박스 유형(box type) 또는 제1 샘플 그룹 유형(group type)에 의해 전방향성 비디오(Omnidirectional video)의 관심 영역(Region of interest) 및 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스(media resource)를 결정하는 단계; 및
    상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 재생하는 단계를 포함하되,
    제1 박스 유형에 의해 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 적어도 하나 이상의 멀티미디어 리소스를 결정하는 단계는,
    상기 제1 박스 유형에 의해 비디오 샘플 엔트리(video sample entry) 또는 전방향성 비디오 제한 샘플 엔트리 중의 관심 영역 디스크립션 박스(Region Of Interest Description Box)를 식별하는 단계; 및
    상기 관심 영역 디스크립션 박스 중의 요소에 의해 상기 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 결정하는 단계를 포함하고,
    제1 샘플 그룹 유형에 의해 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 적어도 하나 이상의 멀티미디어 리소스를 결정하는 단계는,
    상기 제1 샘플 그룹 유형에 의해 전방향성 비디오 트랙 중의 관심 영역 샘플 그룹 엔트리(sample group entry)를 식별하는 단계; 및
    상기 관심 영역 샘플 그룹 엔트리 중의 요소에 의해 상기 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 결정하는 단계를 포함하는 미디어 리소스 재생 방법.
  2. 청구항 1에 있어서,
    상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 재생하는 단계는,
    현재 뷰포트(Viewport)에서 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 재생하는 단계; 또는
    상기 관심 영역에서 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 재생하는 단계를 포함하는 미디어 리소스 재생 방법.
  3. 청구항 1 내지 청구항 2 중 어느 한 항에 있어서,
    상기 관심 영역은,
    관심 영역의 개수; 관심 영역의 식별 부호; 관심 영역의 공간 영역; 관심 영역의 유형; 관심 영역의 디스크립션 중 적어도 하나 이상의 정보에 이해 디스크립션되는 미디어 리소스 재생 방법.
  4. 청구항 3에 있어서,
    상기 관심 영역의 유형은,
    크리에이터 추천 유형; 화면 향상 유형; 실시간 이슈 유형; 방위 표시 유형; 멀티 스크린 상호 작용 유형 중 적어도 하나 이상의 정보를 포함하는 미디어 리소스 재생 방법.
  5. 청구항 3에 있어서,
    상기 관심 영역의 공간 영역은,
    구면 영역의 중심점;
    구면 영역의 방위각 범위 및 피치각; 중 적어도 하나 이상의 정보를 포함하고,
    상기 구면 영역의 중심점은 중심점의 방위각, 중심점의 피치각 및 중심점의 경사각에 의해 결정되는 미디어 리소스 재생 방법.
  6. 청구항 1 내지 청구항 2 중 어느 한 항에 있어서,
    상기 미디어 리소스는, 오디오, 비디오, 이미지, 타임드 텍스트(timed text) 중 적어도 하나를 포함하는 미디어 리소스 재생 방법.
  7. 타임드 텍스트(timed text)의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하고, 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역의 깊이 정보를 렌더링하는 단계; 및
    상기 전방향성 비디오의 관심 영역에 대하여 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역을 렌더링하는 단계를 포함하되,
    타임드 텍스트의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하는 단계는,
    제2 박스 유형에 의해 타임드 텍스트 트랙 샘플 엔트리(timed text track sample entry) 중의 타임드 텍스트 구성 박스를 식별하는 단계; 및
    상기 타임드 텍스트 구성 박스 중의 요소에 의해 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하는 단계를 포함하고,
    타임드 텍스트의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하는 단계는,
    제2 샘플 그룹 유형에 의해 타임드 텍스트 트랙 중의 타임드 텍스트 샘플 그룹 엔트리(timed text configure sample group entry)를 식별하는 단계; 및
    상기 타임드 텍스트 샘플 그룹 엔트리 중의 요소에 의해 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하는 단계를 포함하는 타임드 텍스트의 렌더링 방법.
  8. 청구항 7에 있어서,
    상기 전방향성 비디오의 관심 영역에 대하여 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역을 렌더링하는 단계는,
    단위 구체에 대한 3차원 평면을 구축하되, 상기 전방향성 비디오의 관심 영역에 의해 상기 3차원 평면과 대응하는 구면 영역 위치를 결정하고, 상기 깊이 정보에 의해 상기 3차원 평면과 상기 단위 구체 구심(centre of sphere) 사이의 거리를 결정하는 단계;
    상기 3차원 평면에서 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역을 렌더링하는 단계를 포함하는 타임드 텍스트의 렌더링 방법.
  9. 청구항 7 내지 청구항 8 중 어느 한 항에 있어서,
    상기 전방향성 비디오의 관심 영역은,
    관심 영역의 개수; 관심 영역의 식별 부호; 관심 영역의 공간 영역; 관심 영역의 유형; 관심 영역의 디스크립션 중 적어도 하나 이상의 정보에 의해 디스크립션되는 타임드 텍스트의 렌더링 방법.
  10. 청구항 9에 있어서,
    상기 관심 영역의 유형은,
    크리에이터 추천 유형; 화면 향상 유형; 실시간 이슈 유형; 방위 표시 유형; 멀티 스크린 상호 작용 유형 중 적어도 하나 이상의 정보를 포함하는 타임드 텍스트의 렌더링 방법.
  11. 청구항 9에 있어서,
    상기 관심 영역의 공간 영역은,
    구면 영역의 중심점;
    구면 영역의 방위각 범위 및 피치각 범위; 중 적어도 하나 이상의 정보를 포함하고,
    상기 구면 영역의 중심점은 중심점의 방위각, 중심점의 피치각 및 중심점의 경사각에 의해 결정되는 타임드 텍스트의 렌더링 방법.
  12. 제1 박스 유형(box type) 또는 제1 샘플 그룹 유형(group type)에 의해 전방향성 비디오(omnidirectional video)의 관심 영역(Region of interest) 및 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스(media resource)를 결정하도록 구성되는 영역 및 리소스 결정 모듈; 및
    상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 재생하도록 구성되는 미디어 리소스 재생 모듈을 포함하되,
    상기 영역 및 리소스 결정 모듈은,
    제2 박스 유형에 의해 타임드 텍스트 트랙 샘플 엔트리(timed text track sample entry) 중의 타임드 텍스트 구성 박스를 식별하고, 상기 타임드 텍스트 구성 박스 중의 요소에 의해 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하고; 또는
    상기 제1 샘플 그룹 유형에 의해 전방향성 비디오 트랙 중의 관심 영역 샘플 그룹 엔트리(sample group entry)를 식별하고, 상기 관심 영역 샘플 그룹 엔트리 중의 요소에 의해 상기 전방향성 비디오의 관심 영역 및 상기 관심 영역과 연관되는 적어도 하나 이상의 미디어 리소스를 결정하도록 구성되는 미디어 리소스 재생 장치.
  13. 타임드 텍스트(timed text)의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오(omnidirectional text)의 관심 영역(Region of interest)을 결정하고, 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역의 깊이 정보를 렌더링하도록 구성되는 영역 및 깊이 정보 결정 모듈; 및
    상기 전방향성 비디오의 관심 영역에 대하여 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역을 렌더링하도록 구성되는 타임드 텍스트의 렌더링 모듈을 포함하되,
    상기 영역 및 깊이 정보 결정 모듈은,
    제2 박스 유형에 의해 타임드 텍스트 트랙 샘플 엔트리(timed text track sample entry) 중의 타임드 텍스트 구성 박스를 식별하고, 상기 타임드 텍스트 구성 박스 중의 요소에 의해 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하고; 또는
    제2 샘플 그룹 유형에 의해 타임드 텍스트 트랙 중의 타임드 텍스트 샘플 그룹 엔트리(timed text configure sample group entry)를 식별하고, 상기 타임드 텍스트 샘플 그룹 엔트리 중의 요소에 의해 상기 타임드 텍스트의 적어도 하나 이상의 텍스트 영역과 연관되는 전방향성 비디오의 관심 영역을 결정하도록 구성되는 타임드 텍스트의 렌더링 장치.
  14. 적어도 하나 이상의 프로세서;
    적어도 하나 이상의 프로그램을 저장하도록 구성되는 메모리; 를 포함하고,
    상기 적어도 하나 이상의 프로그램이 상기 적어도 하나 이상의 프로세서에 의해 실행될 때, 상기 적어도 하나 이상의 프로세서가 청구항 1에 따른 방법을 구현하도록 하는 기기.
  15. 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 청구항 1에 따른 방법을 구현하는 저장 매체.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
KR1020227014038A 2019-12-03 2020-11-12 미디어 리소스 재생 및 텍스트 렌더링 방법, 장치, 기기 및 저장 매체 KR102621434B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911223329.3 2019-12-03
CN201911223329.3A CN112511866B (zh) 2019-12-03 2019-12-03 媒体资源播放方法、装置、设备和存储介质
PCT/CN2020/128276 WO2021109822A1 (zh) 2019-12-03 2020-11-12 媒体资源播放及文本渲染方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
KR20220071240A KR20220071240A (ko) 2022-05-31
KR102621434B1 true KR102621434B1 (ko) 2024-01-05

Family

ID=74923664

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227014038A KR102621434B1 (ko) 2019-12-03 2020-11-12 미디어 리소스 재생 및 텍스트 렌더링 방법, 장치, 기기 및 저장 매체

Country Status (6)

Country Link
US (1) US11838594B2 (ko)
EP (1) EP4072149A4 (ko)
JP (1) JP7395725B2 (ko)
KR (1) KR102621434B1 (ko)
CN (1) CN112511866B (ko)
WO (1) WO2021109822A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018106548A1 (en) * 2016-12-07 2018-06-14 Qualcomm Incorporated Systems and methods of signaling of regions of interest
WO2018182321A1 (en) * 2017-03-31 2018-10-04 Samsung Electronics Co., Ltd. Method and apparatus for rendering timed text and graphics in virtual reality video
WO2019198883A1 (ko) 2018-04-11 2019-10-17 엘지전자 주식회사 핫스팟 및 roi 관련 메타데이터를 이용한 360도 비디오를 송수신하는 방법 및 그 장치

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106233745B (zh) * 2013-07-29 2021-01-15 皇家Kpn公司 向客户端提供瓦片视频流
EP2894852A1 (en) 2014-01-14 2015-07-15 Alcatel Lucent Process for increasing the quality of experience for users that watch on their terminals a high definition video stream
US9984505B2 (en) 2014-09-30 2018-05-29 Sony Interactive Entertainment Inc. Display of text information on a head-mounted display
US9928297B2 (en) * 2015-02-11 2018-03-27 Qualcomm Incorporated Sample grouping signaling in file formats
EP3360330B1 (en) * 2015-10-08 2021-03-24 Koninklijke KPN N.V. Enhancing a region of interest in video frames of a video stream
CN108702528B (zh) * 2016-02-17 2021-06-01 Lg电子株式会社 发送360视频的方法、接收360视频的方法、发送360视频的设备和接收360视频的设备
US10565463B2 (en) * 2016-05-24 2020-02-18 Qualcomm Incorporated Advanced signaling of a most-interested region in an image
US11503314B2 (en) * 2016-07-08 2022-11-15 Interdigital Madison Patent Holdings, Sas Systems and methods for region-of-interest tone remapping
CN109691094B (zh) 2016-08-25 2021-10-22 Lg电子株式会社 发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置
US11172005B2 (en) 2016-09-09 2021-11-09 Nokia Technologies Oy Method and apparatus for controlled observation point and orientation selection audiovisual content
US10742999B2 (en) * 2017-01-06 2020-08-11 Mediatek Inc. Methods and apparatus for signaling viewports and regions of interest
KR102133849B1 (ko) * 2017-01-10 2020-07-14 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
WO2018177373A1 (en) * 2017-03-30 2018-10-04 Mediatek Inc. Method and apparatus for signaling spherical region information in isobmff
CN108810600B (zh) * 2017-04-28 2020-12-22 华为技术有限公司 一种视频场景的切换方法、客户端及服务器
US10375375B2 (en) 2017-05-15 2019-08-06 Lg Electronics Inc. Method of providing fixed region information or offset region information for subtitle in virtual reality system and device for controlling the same
US11025919B2 (en) * 2017-10-03 2021-06-01 Koninklijke Kpn N.V. Client-based adaptive streaming of nonlinear media
WO2019192509A1 (en) * 2018-04-03 2019-10-10 Huawei Technologies Co., Ltd. Media data processing method and apparatus
CN110351492B (zh) * 2018-04-06 2021-11-19 中兴通讯股份有限公司 一种视频数据处理方法、装置及介质
JP2021526756A (ja) * 2018-06-04 2021-10-07 シャープ株式会社 全方位ビデオに関連付けられたオーバーレイ情報を決定する方法、装置、および記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018106548A1 (en) * 2016-12-07 2018-06-14 Qualcomm Incorporated Systems and methods of signaling of regions of interest
WO2018182321A1 (en) * 2017-03-31 2018-10-04 Samsung Electronics Co., Ltd. Method and apparatus for rendering timed text and graphics in virtual reality video
WO2019198883A1 (ko) 2018-04-11 2019-10-17 엘지전자 주식회사 핫스팟 및 roi 관련 메타데이터를 이용한 360도 비디오를 송수신하는 방법 및 그 장치

Also Published As

Publication number Publication date
JP7395725B2 (ja) 2023-12-11
KR20220071240A (ko) 2022-05-31
WO2021109822A1 (zh) 2021-06-10
CN112511866B (zh) 2024-02-23
US20220368991A1 (en) 2022-11-17
EP4072149A1 (en) 2022-10-12
EP4072149A4 (en) 2024-02-28
CN112511866A (zh) 2021-03-16
JP2022552853A (ja) 2022-12-20
US11838594B2 (en) 2023-12-05

Similar Documents

Publication Publication Date Title
US11651752B2 (en) Method and apparatus for signaling user interactions on overlay and grouping overlays to background for omnidirectional content
KR102545195B1 (ko) 가상 현실 시스템에서 컨텐트 전송 및 재생 방법 및 장치
KR102258448B1 (ko) 핫스팟 및 roi 관련 메타데이터를 이용한 360도 비디오를 송수신하는 방법 및 그 장치
JP2019519149A (ja) 仮想現実メディアコンテンツを適応ストリーミングする方法、デバイス及びコンピュータプログラム
JP2015187797A (ja) 画像データ生成装置および画像データ再生装置
US11587200B2 (en) Method and apparatus for enabling multiple timeline support for omnidirectional content playback
JP2015114716A (ja) 画像データ再生装置および画像データ生成装置
JP7035401B2 (ja) 画像処理装置およびファイル生成装置
CN110933461B (zh) 图像处理方法、装置、***、网络设备、终端及存储介质
TW201921918A (zh) 影像處理裝置及檔案生成裝置
US11677978B2 (en) Omnidirectional video processing method and device, related apparatuses and storage medium
US11044456B2 (en) Image processing method and image player using thereof
KR102621434B1 (ko) 미디어 리소스 재생 및 텍스트 렌더링 방법, 장치, 기기 및 저장 매체
KR102413098B1 (ko) 영상 처리 방법 및 이를 이용한 영상 재생 장치
WO2019004073A1 (ja) 画像配置決定装置、表示制御装置、画像配置決定方法、表示制御方法及びプログラム
JP7356579B2 (ja) コードストリームの処理方法、装置、第1端末、第2端末及び記憶媒体
JP7239029B2 (ja) 画像処理装置およびファイル生成装置
KR102612605B1 (ko) 다수 전방위 영상 기반 프로젝션 다중화 영상 생성 및 재현을 위한 방법 및 그 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant