KR20180067527A

KR20180067527A - 송신 장치, 송신 방법, 수신 장치 및 수신 방법

Info

Publication number: KR20180067527A
Application number: KR1020187009417A
Authority: KR
Inventors: 이쿠오 츠카고시
Original assignee: 소니 주식회사
Priority date: 2015-10-13
Filing date: 2016-10-11
Publication date: 2018-06-20
Also published as: US20210281889A1; WO2017065128A1; CA3001290A1; JPWO2017065128A1; US20190116386A1; US11115689B2; US11606586B2; CA3001290C; KR102537853B1; JP6848873B2

Abstract

하이 프레임 레이트로 초고해상도의 화상 데이터를 수신측에 있어서 하위 호환을 양호하게 실현 가능하게 전송한다. 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터와, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터와, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터를 얻는다. 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 제1, 제2, 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 생성한다. 기본 스트림 및 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신한다.

Description

송신 장치, 송신 방법, 수신 장치 및 수신 방법

본 기술은, 송신 장치, 송신 방법, 수신 장치 및 수신 방법에 관한 것으로서, 상세하게는, 하이 프레임 레이트로 초고해상도의 화상 데이터를 송신하는 송신 장치 등에 관한 것이다.

고정 수신기와 모바일 수신기가 동일한 전송 대역을 공유하는 수신 환경에 있어서, 전송 비트 레이트의 효율적인 이용을 행하기 위해서, 해상도가 높게 된 고정 수신기용 화상 서비스(영상 서비스)와 중 정도의 해상도로 된 모바일 수신기용 화상 서비스가 스트림을 공유함으로써, 고정 수신기용 서비스와 모바일 수신기용 서비스를 별도로 행하는, 소위 사이멀캐스트 서비스에 비하여, 전체의 비트 레이트를 저감할 수 있다고 되어 있다. 예를 들어, 특허문헌 1에는, 미디어 부호화를 스케일러블로 행하고, 저해상도의 화상 서비스를 위한 기본 레이어의 스트림과, 고해상도의 화상 서비스를 위한 확장 레이어의 스트림을 생성하여, 이들을 포함하는 방송 신호를 송신하는 것이 기재되어 있다.

한편, 스포츠 씬 등 움직임의 원활함이나 선명함이 요구되는 경우, 셔터 속도를 고속으로 하여 프레임 레이트를 높게 하는, 소위 하이 프레임 레이트의 영상 서비스가 요구된다. 하이 프레임 레이트의 서비스를 행하는 경우, 고속 프레임 셔터로 카메라 촬상된 동화상을, 그것보다도 저주파수의 동화상 시퀀스로 변환하여 송신하는 것이 생각된다. 고속 프레임 셔터의 화상은, 움직임 흐려짐을 개선하여 첨예도가 높은 화질을 실현하는 효과가 있는 한편, 종래의 노멀 프레임 레이트의 수신기와의 호환성을 취하는 경우에는, 하이 프레임 레이트의 영상 전체를 표시하지 않고 일부만을 표시하는 것에 의한 스트로빙(strobing) 효과의 문제가 있다. 본 출원인은, 먼저, 고속 프레임 셔터로 촬영된 화상에 의한 소재를 변환하여, 노멀 프레임 레이트의 디코드를 행하는 종래의 수신기에서 일정 이상의 화품질로 표시시키는 기술을 제안했다(특허문헌 2 참조).

일본 특허 공표 제2008-543142호 공보 국제 공개 제2015/076277호

본 기술의 목적은, 하이 프레임 레이트로 초고해상도의 화상 데이터를 수신측에 있어서 하위 호환을 양호하게 실현 가능하게 전송하는 데 있다.

본 기술의 개념은,

하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터와, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터와, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터를 얻는 화상 처리부와,

상기 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 상기 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 생성하는 화상 부호화부와,

상기 기본 스트림 및 상기 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신부를 구비하고,

상기 화상 처리부는,

상기 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 기본 프레임 레이트의 화상 데이터인 제1 화상 데이터를 얻음과 함께, 상기 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하여 하이 프레임 레이트의 확장 프레임의 화상 데이터인 제2 화상 데이터를 얻고,

상기 제1 화상 데이터에 다운 스케일 처리를 실시하여 상기 기본 포맷의 화상 데이터를 얻음과 함께, 그 기본 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제3 화상 데이터와 상기 제1 화상 데이터 간의 차분을 취하여 상기 제2 확장 포맷의 화상 데이터를 얻고,

상기 제2 화상 데이터에 다운 스케일 처리를 실시하여 상기 제1 확장 포맷의 화상 데이터를 얻음과 함께, 그 제1 확장 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제4 화상 데이터와 상기 제2 화상 데이터 간의 차분을 취하여 상기 제3 확장 포맷의 화상 데이터를 얻는

송신 장치에 있다.

본 기술에 있어서, 화상 처리부에 의해, 하이 프레임 레이트 및 초고해상도의 화상 데이터가 처리되어서, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터와, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터와, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터가 얻어진다.

여기서, 기본 포맷의 화상 데이터는, 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 제1 화상 데이터에 다운 스케일 처리를 실시함으로써 얻을 수 있다. 제2 확장 포맷의 화상 데이터는, 기본 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제3 화상 데이터와 상기 제1 화상 데이터 간의 차분을 취함으로써 얻어진다. 제1 확장 포맷의 화상 데이터는, 상기 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하여 얻어진 제2 화상 데이터에 다운 스케일 처리를 실시함으로써 얻을 수 있다. 제3 확장 포맷의 화상 데이터는, 제1 확장 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제4 화상 데이터와 상기 제2 화상 데이터 간의 차분을 취함으로써 얻어진다.

화상 부호화부에 의해, 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림이 생성된다. 예를 들어, 화상 부호화부는, 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 각각 포함하는 3개의 확장 비디오 스트림 또는 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터의 모두를 포함하는 하나의 확장 비디오 스트림을 생성하도록 되어도 된다. 그리고, 송신부에 의해, 기본 스트림 및 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너가 송신된다.

이렇게 본 기술에 있어서는, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림이 송신된다. 그로 인해, 하이 프레임 레이트로 초고해상도의 화상 데이터를 수신측에 있어서 하위 호환을 양호하게 실현 가능하게 전송된다.

예를 들어, 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 표시가 가능하게 된다. 또한, 예를 들어, 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 스트림의 양쪽을 처리하여 하이 프레임 레이트로 고해상도의 화상 표시가 가능하게 된다. 또한, 예를 들어, 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 스트림의 양쪽을 처리하여 기본 프레임 레이트로 초고해상도의 화상 표시가 가능하게 된다. 또한, 예를 들어, 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 스트림의 양쪽을 처리하여 하이 프레임 레이트로 초고해상도의 화상 표시가 가능하게 된다.

또한, 본 기술에 있어서는, 기본 포맷의 화상 데이터는, 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 제1 화상 데이터에 다운 스케일 처리를 실시함으로써 얻어진 것이다. 그로 인해, 수신측에서 기본 비디오 스트림만을 처리하여 표시되는 기본 프레임 레이트로 고해상도의 화상은 스트로빙 효과가 억제된 매끄러운 화상이 된다.

또한, 본 기술에 있어서, 예를 들어, 제1 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는 이 부호화 화상 데이터에 대응한 컨테이너 위치에, 시간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 제2 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는 이 부호화 화상 데이터에 대응한 컨테이너 위치에, 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는 이 부호화 화상 데이터에 대응한 컨테이너 위치에, 시간 스케일러블 및 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하는 정보 삽입부를 더 구비하도록 되어도 된다. 이 식별 정보의 삽입에 의해, 수신측에서는, 각 확장 포맷의 화상 데이터가 공간 스케일러블에 관한 것관한 것 스케일러블에 관한 것인지를 용이하게 파악 가능하게 된다.

이 경우, 예를 들어, 정보 삽입부는, 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는 이 부호화 화상 데이터에 대응한 컨테이너 위치에, 공간 스케일러블의 비율을 나타내는 정보를 더 삽입하도록 되어도 된다. 수신측에서는, 이 공간 스케일러블의 비율을 나타내는 정보를 사용함으로써 공간 스케일러블의 처리를 적절하게 행하는 것이 가능하게 되어, 초고해상도의 화상 데이터를 양호하게 얻는 것이 가능하게 된다.

또한, 이 경우, 정보 삽입부는, 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는 이 부호화 화상 데이터에 대응한 컨테이너 위치에, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보를 더 삽입하도록 되어도 된다. 이 식별 정보의 삽입에 의해, 수신측에서는, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 용이하게 파악 가능하게 된다.

또한, 이 경우, 정보 삽입부는, 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는 이 부호화 화상 데이터에 대응한 컨테이너 위치에, 혼합 처리에 있어서의 비율 정보(제1 비율의 정보 및 제2 비율의 정보)를 추가로 삽입하도록 되어도 된다. 수신측에서는, 이 혼합 처리에 있어서의 비율 정보를 사용함으로써 시간 스케일러블의 처리를 적절하게 행하는 것이 가능하게 되어, 하이 프레임 레이트의 화상 데이터를 양호하게 얻는 것이 가능하게 된다.

또한, 본 기술에 있어서, 예를 들어, 기본 비디오 스트림과 소정수의 확장 비디오 스트림을 수신 장치로 취득시키기 위한 메타 정보를 갖는 메타파일을 송신하는 송신부를 더 구비하고, 이 메타파일에는 스케일러빌리티의 대응을 나타내는 정보가 삽입되도록 되어도 된다. 수신측에서는, 이렇게 메타파일에 삽입되는 스케일러빌리티의 대응을 나타내는 정보로부터, 스케일러빌리티의 대응을 용이하게 인식할 수 있어, 필요한 스트림 또는 부호화 화상 데이터만을 취득하여 효율적으로 처리하는 것이 가능하게 된다.

또한, 본 기술의 다른 개념은,

기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 갖는 기본 비디오 스트림과, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신부를 구비하고,

상기 기본 포맷의 화상 데이터는, 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 제1 화상 데이터에 다운 스케일 처리를 실시하여 얻어진 것이며,

상기 제2 확장 포맷의 화상 데이터는, 상기 기본 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제3 화상 데이터와 상기 제1 화상 데이터 간의 차분을 취하여 얻어진 것이며,

상기 제1 확장 포맷의 화상 데이터는, 상기 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하여 얻어진 제2 화상 데이터에 다운 스케일 처리를 실시하여 얻어진 것이며,

상기 제3 확장 포맷의 화상 데이터는, 상기 제1 확장 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제4 화상 데이터와 상기 제2 화상 데이터 간의 차분을 취하여 얻어진 것이며,

상기 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 데이터를 얻거나, 또는 상기 소정수의 확장 비디오 스트림의 일부 또는 전부의 스트림을 처리하여 하이 프레임 레이트로 고해상 후의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 처리부를 더 구비하는

수신 장치에 있다.

본 기술에 있어서, 수신부에 의해, 기본 비디오 스트림과 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너가 수신된다. 기본 비디오 스트림은, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 갖고 있다. 소정수의 확장 비디오 스트림은, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 갖고 있다.

여기서, 기본 포맷의 화상 데이터는, 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 제1 화상 데이터에 다운 스케일 처리를 실시함으로써 얻어진 것이다. 제2 확장 포맷의 화상 데이터는, 기본 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제3 화상 데이터와 상기 제1 화상 데이터 간의 차분을 취함으로써 얻어진 것이다. 제1 확장 포맷의 화상 데이터는, 상기 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하여 얻어진 제2 화상 데이터에 다운 스케일 처리를 실시함으로써 얻어진 것이다. 제3 확장 포맷의 화상 데이터는, 제1 확장 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제4 화상 데이터와 상기 제2 화상 데이터 간의 차분을 취함으로써 얻어진 것이다.

처리부에 의해, 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 데이터를 얻거나, 또는 소정수의 확장 비디오 스트림의 일부 또는 전부의 스트림을 처리하여 하이 프레임 레이트로 고해상 후의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 하이 프레임 레이트로 초고해상도의 화상 데이터가 얻어진다.

이렇게 본 기술에 있어서는, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 데이터를 얻을 수 있다. 즉, 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 표시가 가능하게 되어, 하위 호환을 실현할 수 있다.

여기서, 기본 포맷의 화상 데이터는, 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 제1 화상 데이터에 다운 스케일 처리를 실시함으로써 얻어진 것이다. 그로 인해, 기본 비디오 스트림만을 처리하여 표시되는 기본 프레임 레이트로 고해상도의 화상은 스트로빙 효과가 억제된 매끄러운 화상이 된다.

또한, 기본 비디오 스트림과 소정수의 확장 비디오 스트림의 일부 또는 전부의 스트림을 처리하여, 하이 프레임 레이트로 고해상도의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻을 수 있다. 즉, 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 스트림의 양쪽을 처리하여 하이 프레임 레이트로 고해상도의 화상 표시가 가능하게 된다.

또한, 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 스트림의 양쪽을 처리하여 기본 프레임 레이트로 초고해상도의 화상 표시가 가능하게 된다. 또한, 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 스트림의 양쪽을 처리하여 하이 프레임 레이트로 초고해상도의 화상 표시가 가능하게 된다.

또한, 본 기술에 있어서, 예를 들어, 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는, 이 부호화 화상 데이터에 대응한 컨테이너 위치에, 공간 스케일러블의 비율을 나타내는 정보가 삽입되어 있고, 처리부는, 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 경우, 이 삽입되어 있는 공간 스케일러블의 비율을 나타내는 정보를 사용하도록 되어도 된다. 이 경우, 공간 스케일러블의 처리를 적절하게 행하는 것이 가능하게 되어, 초고해상도의 화상 데이터를 양호하게 얻는 것이 가능하게 된다.

또한, 본 기술에 있어서, 예를 들어, 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는, 이 부호화 화상 데이터에 대응한 컨테이너 위치에, 제1 비율의 정보 및 제2 비율의 정보가 삽입되어 있고, 처리부는, 하이 프레임 레이트로 고해상 후의 화상 데이터 또는 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 경우, 이 삽입되어 있는 제1 비율의 정보 및 제2 비율의 정보를 사용하도록 되어도 된다. 이 경우, 시간 스케일러블의 처리를 적절하게 행하는 것이 가능하게 되고, 하이 프레임 레이트의 화상 데이터를 양호하게 얻는 것이 가능하게 된다.

본 기술에 의하면, 하이 프레임 레이트로 초고해상도의 화상 데이터를 수신측에 있어서 하위 호환을 양호하게 실현 가능하게 전송할 수 있다. 또한, 본 명세서에 기재된 효과는 어디까지나 예시이며 한정되는 것은 아니며, 또한 부가적인 효과가 있어도 된다.

도 1은 MPEG-DASH 베이스의 스트림 배신 시스템의 구성예를 도시하는 블록도이다.
도 2는 MPD 파일에 계층적으로 배치되어 있는 각 구조체의 관계의 일례를 도시하는 도면이다.
도 3은 실시 형태로서의 송수신 시스템의 구성예를 도시하는 블록도이다.
도 4는 혼합비에 따라 변화하는 셔터 개구율을 설명하기 위한 도면이다.
도 5는 서비스 송신 시스템 및 서비스 수신기의 처리의 개요를 도시하는 도면이다.
도 6은 기본 비디오 스트림 STb와 확장 스트림 STe1, STe2, STe3에 4스트림 구성의 전송의 경우에 있어서의 스트림 구성예를 도시하는 도면이다.
도 7은 4스트림 구성의 전송의 경우에 있어서의 DASH/MP4의 트랙 구성을 도시하는 도면이다.
도 8은 트랙 B, 트랙 E1, 트랙 E2, 트랙 E3의 각 트랙의 데이터를 포함하는 MP4 스트림(파일)의 구성예를 도시하는 도면이다.
도 9는 SPS(VPS)의 요소의 일례를 도시하는 도면이다.
도 10은 기본 비디오 스트림 STb, 확장 비디오 스트림 STe1, STe2, STe3의 구성예를 도시하는 도면이다.
도 11은 비디오 스케일러빌리티 SEI의 구조예를 도시하는 도면이다.
도 12는 비디오 스케일러빌리티 SEI의 구조예에 있어서의 주요한 정보의 내용을 도시하는 도면이다.
도 13은 비디오 스케일러빌리티 인포메이션 디스크립터의 구조예를 도시하는 도면이다.
도 14는 4스트림 구성의 전송의 경우에 있어서의 MPD 파일의 기술예를 도시하는 도면이다.
도 15는 기본 비디오 스트림 STb와 확장 스트림 STe의 2스트림 구성의 전송의 경우에 있어서의 스트림 구성예를 도시하는 도면이다.
도 16은 2스트림 구성의 전송의 경우에 있어서의 DASH/MP4의 트랙 구성을 도시하는 도면이다.
도 17은 트랙 B, 트랙 EH의 각 트랙의 데이터를 포함하는 MP4 스트림(파일)의 구성예를 도시하는 도면이다.
도 18은 2스트림 구성의 전송의 경우에 있어서의 MPD 파일의 기술예를 도시하는 도면이다.
도 19는 서비스 송신 시스템의 구성예를 도시하는 블록도이다.
도 20은 비디오 인코더의 구성을 개략적으로 도시하는 도면이다.
도 21은 비디오 인코더에 있어서의 프로세스 1, 2, 3의 처리를 행하는 각 신호 처리부의 부분을 도시하는 도면이다.
도 22는 프로세스 1의 처리를 행하는 신호 처리부의 구성예를 도시하는 블록도이다.
도 23은 프로세스 1의 처리를 행하는 신호 처리부에 있어서의 입력 데이터(화상 데이터 Va)와 출력 데이터(화상 데이터 Vb, Vc)의 관계의 일례를 모식적으로 도시하는 도면이다.
도 24는 프로세스 2, 3의 처리를 행하는 신호 처리부의 구성예를 도시하는 블록도이다.
도 25는 하이 프레임 레이트로 초고해상도의 동화상 데이터를 처리 가능한 서비스 수신기의 구성예를 도시하는 블록도이다.
도 26은 비디오 디코더의 구성을 개략적으로 도시하는 도면이다.
도 27은 비디오 디코더에 있어서의 인버스 프로세스　1, 2, 3의 처리를 행하는 각 신호 처리부의 부분을 도시하는 도면이다.
도 28은 인버스 프로세스　2, 3의 처리를 행하는 신호 처리부의 구성예를 도시하는 블록도이다.
도 29는 인버스 프로세스　1의 처리를 행하는 신호 처리부의 구성예를 도시하는 블록도이다.
도 30은 하이 프레임 레이트로 고해상도의 동화상 데이터를 처리 가능한 서비스 수신기의 구성예를 도시하는 블록도이다.
도 31은 기본 프레임 레이트로 초고해상도의 동화상 데이터를 처리 가능한 서비스 수신기의 구성예를 도시하는 블록도이다.
도 32는 기본 프레임 레이트로 고해상도의 동화상 데이터를 처리 가능한 서비스 수신기의 구성예를 도시하는 블록도이다.
도 33은 4스트림 구성의 전송의 경우에 있어서의 트랜스포트 스트림의 구성예를 도시하는 도면이다.
도 34는 2스트림 구성의 전송의 경우에 있어서의 트랜스포트 스트림의 구성예를 도시하는 도면이다.
도 35는 4스트림 구성의 전송의 경우에 있어서의 MMT 스트림의 구성예를 도시하는 도면이다.
도 36은 2스트림 구성의 전송의 경우에 있어서의 MMT 스트림의 구성예를 도시하는 도면이다.

이하, 발명을 실시하기 위한 구체적인 내용(이하, 「실시 형태」로 한다)에 대하여 설명한다. 또한, 설명을 이하의 순서로 행한다.

1. 실시 형태

2. 변형예

<1. 실시 형태>

[MPEG-DASH 베이스의 스트림 배신 시스템의 개요]

최초에, 본 기술을 적용할 수 있는 MPEG-DASH 베이스의 스트림 배신 시스템의 개요를 설명한다.

도 1의 (a)는 MPEG-DASH 베이스의 스트림 배신 시스템(30A)의 구성예를 도시하고 있다. 이 구성예에서는, 미디어 스트림과 MPD 파일이, 통신 네트워크 전송로(통신 전송로)를 통하여 송신된다. 이 스트림 배신 시스템(30A)은 DASH 스트림 파일 서버(31) 및 DASH MPD 서버(32)에, N개의 서비스 수신기(33-1, 33-2, …, 33-N)가, CDN(Content Delivery Network)(34)을 통하여, 접속된 구성으로 되어 있다.

DASH 스트림 파일 서버(31)는 소정의 콘텐츠의 미디어 데이터(비디오 데이터, 오디오 데이터, 자막 데이터 등)에 기초하여, DASH 사양의 스트림 세그먼트(이하, 적절히, 「DASH 세그먼트」라고 한다)를 생성하고, 서비스 수신기로부터의 HTTP 요구에 따라서 세그먼트를 송출한다. 이 DASH 스트림 파일 서버(31)는 스트리밍 전용의 서버여도 되고, 또한, 웹(Web) 서버에서 겸용되는 경우도 있다.

또한, DASH 스트림 파일 서버(31)는 서비스 수신기(33)(33-1, 33-2, …, 33-N)로부터 CDN(34)을 통하여 보내져 오는 소정 스트림의 세그먼트의 요구에 대응하여, 그 스트림의 세그먼트를, CDN(34)을 통하여, 요구원의 수신기로 송신한다. 이 경우, 서비스 수신기(33)는 MPD(Media Presentation Description) 파일에 기재되어 있는 레이트의 값을 참조하여, 클라이언트가 놓여 있는 네트워크 환경의 상태에 따라, 최적의 레이트의 스트림을 선택하여 요구를 행한다.

DASH MPD 서버(32)는 DASH 스트림 파일 서버(31)에 있어서 생성되는 DASH 세그먼트를 취득하기 위한 MPD 파일을 생성하는 서버이다. 콘텐츠 매니지먼트 서버(도시하지 않음)로부터의 콘텐츠 메타 데이터와, DASH 스트림 파일 서버(31)에 있어서 생성된 세그먼트의 어드레스(url)를 바탕으로, MPD 파일을 생성한다. 또한, DASH 스트림 파일 서버(31)와 DASH MPD 서버(32)는 물리적으로 동일한 것이어도 된다.

MPD의 포맷에서는, 비디오나 오디오 등의 각각의 스트림마다 리프리젠테이션(Representation)이라는 요소를 이용하여, 각각의 속성이 기술된다. 예를 들어, MPD 파일에는, 레이트가 상이한 복수의 비디오 데이터 스트림마다, 리프리젠테이션을 나누어서 각각의 레이트가 기술된다. 서비스 수신기(33)에서는, 그 레이트의 값을 참고로 해서, 상술한 바와 같이, 서비스 수신기(33)가 놓여 있는 네트워크 환경의 상태에 따라, 최적의 스트림을 선택할 수 있다.

도 1의 (b)는 MPEG-DASH 베이스의 스트림 배신 시스템(30B)의 구성예를 도시하고 있다. 이 구성예에서는, 미디어 스트림과 MPD 파일이, RF 전송로(방송 전송로)를 통하여 송신된다. 이 스트림 배신 시스템(30B)은 DASH 스트림 파일 서버(31) 및 DASH MPD 서버(32)가 접속된 방송 송출 시스템(36)과, M개의 서비스 수신기(35-1, 35-2, …, 35-M)로 구성되어 있다.

이 스트림 배신 시스템(30B)의 경우, 방송 송출 시스템(36)은 DASH 스트림 파일 서버(31)로 생성되는 DASH 사양의 스트림 세그먼트(DASH 세그먼트) 및 DASH MPD 서버(32)로 생성되는 MPD 파일을, 방송파에 실어서 송신한다.

도 2는, MPD 파일에 계층적으로 배치되어 있는 각 구조체의 관계의 일례를 도시하고 있다. 도 2의 (a)에 도시하는 바와 같이, MPD 파일 전체로서의 미디어 프리젠테이션(Media Presentation)에는, 시간 간격으로 구획된 복수의 피리어드(Period)가 존재한다. 예를 들어, 최초의 피리어드는 스타트가 0초부터, 다음 피리어드는 스타트가 100초부터, 등으로 되어 있다.

도 2의 (b)에 도시하는 바와 같이, 피리어드에는, 복수의 어댑테이션 세트(AdaptationSet)가 존재한다. 각 어댑테이션 세트는 비디오나 오디오 등의 미디어 타입의 차이나, 동일한 미디어 타입에서도 언어의 차이, 시점의 차이 등에 의존한다. 도 2의 (c)에 도시하는 바와 같이, 어댑테이션 세트에는 복수의 리프리젠테이션(Representation)이 존재한다. 각 리프리젠테이션은 스트림 속성, 예를 들어 레이트의 차이 등에 의존한다.

도 2의 (d)에 도시하는 바와 같이, 리프리젠테이션에는, 세그먼트 인포(SegmentInfo)가 포함되어 있다. 이 세그먼트 인포에는, 도 2의 (e)에 도시하는 바와 같이, 이니셜라이제이션 세그먼트(Initialization Segment)와, 피리어드를 더욱 미세하게 구획한 세그먼트(Segment)마다의 정보가 기술되는 복수의 미디어 세그먼트(Media Segment)가 존재한다. 미디어 세그먼트에는, 비디오나 오디오 등의 세그먼트 데이터를 실제로 취득하기 위한 어드레스(url)의 정보 등이 존재한다.

또한, 어댑테이션 세트에 포함되는 복수의 리프리젠테이션의 사이에는, 스트림의 스위칭을 자유롭게 행할 수 있다. 이에 의해, 수신측의 네트워크 환경의 상태에 따라, 최적의 레이트의 스트림을 선택할 수 있고, 도중에서 끊김이 없는 비디오 배신이 가능하게 된다.

[송수신 시스템의 구성예]

도 3은, 실시 형태로서의 송수신 시스템(10)의 구성예를 도시하고 있다. 이 송수신 시스템(10)은 서비스 송신 시스템(100)과 서비스 수신기(200)에 의해 구성되어 있다. 이 송수신 시스템(10)에 있어서, 서비스 송신 시스템(100)은 상술한 도 1의 (a)에 도시하는 스트림 배신 시스템(30A)의 DASH 스트림 파일 서버(31) 및 DASH MPD 서버(32)에 대응한다. 또한, 이 송수신 시스템(10)에 있어서, 서비스 송신 시스템(100)은 상술한 도 1의 (b)에 도시하는 스트림 배신 시스템(30B)의 DASH 스트림 파일 서버(31), DASH MPD 서버(32) 및 방송 송출 시스템(36)에 대응한다.

또한, 이 송수신 시스템(10)에 있어서, 서비스 수신기(200)는 상술한 도 1의 (a)에 도시하는 스트림 배신 시스템(30A)의 서비스 수신기(33)(33-1, 33-2, …, 33-N)에 대응한다. 또한, 이 송수신 시스템(10)에 있어서, 서비스 수신기(200)는 상술한 도 1의 (b)에 도시하는 스트림 배신 시스템(30B)의 서비스 수신기(35)(35-1, 35-2, …, 35-M)에 대응한다.

서비스 송신 시스템(100)은 DASH/MP4, 즉 메타파일로서의 MPD 파일과, 비디오나 오디오 등의 미디어 스트림(미디어 세그먼트)이 포함되는 MP4를, 통신 네트워크 전송로(도 1의 (a) 참조) 또는 RF 전송로(도 1의 (b) 참조)를 통해서, 송신한다.

이 실시 형태에 있어서, 미디어 스트림은, 하이 프레임 레이트(HFR: High Frame Rate)로 초고해상도(UHD: Ultra High Definition)의 화상 데이터(동화상 데이터)가 처리되어서 얻어진, 기본 비디오 스트림과, 소정수, 예를 들어 3개 또는 1개의 확장 비디오 스트림이다. 하이 프레임 레이트로 초고해상도의 화상 데이터는, 예를 들어, 120fps로 4K/8K의 화상 데이터이다.

기본 비디오 스트림은, 기본 프레임 레이트(노멀 프레임 레이트)로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 갖고 있다. 소정수의 확장 비디오 스트림은, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터의 부호화 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터의 부호화 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 갖고 있다.

여기서, 기본 포맷의 화상 데이터는, 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 제1 화상 데이터에 다운 스케일 처리를 실시함으로써 얻어진 것이다. 제2 확장 포맷의 화상 데이터는, 기본 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제3 화상 데이터와 상기 제1 화상 데이터 간의 차분을 취함으로써 얻어진 것이다.

또한, 제1 확장 포맷의 화상 데이터는, 상기 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하여 얻어진 제2 화상 데이터에 다운 스케일 처리를 실시함으로써 얻어진 것이다. 제3 확장 포맷의 화상 데이터는, 제1 확장 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제4 화상 데이터와 상기 제2 화상 데이터 간의 차분을 취함으로써 얻어진 것이다.

여기서, 하이 프레임 레이트의 화상 데이터는, 도 4의 (a)에 도시하는 바와 같이, 오리지널 화상 시퀀스(고속 셔터 화상 시퀀스)인 것으로 한다. 도면에 있어서, "A", "B"는, 각각, 시간적으로 연속되는 2개의 픽처 단위로 1번째의 픽처의 화상 데이터, 2번째의 픽처의 화상 데이터를 나타내고 있다. 이 오리지널 화상 시퀀스의 셔터 개구율은 1(100％)이다. 도시는 하지 않지만, 이 하이 프레임 레이트의 화상 데이터로부터 간단히 추출되는 "A" 또는 "B"의 화상 시퀀스의 셔터 개구율은 1/2(50％)이다.

이에 반해, 도 4의 (b) 내지 (d)에 도시하는 바와 같이, 시간적으로 연속되는 2개의 픽처 단위로 혼합 처리를 실시하여 얻어진 혼합 화상 시퀀스의 셔터 개구율은, 1/2(50％)부터 1(100％)까지의 사이가 된다. 도면에 있어서, "C"는, 2개의 픽처 단위로 제1 비율로 혼합 처리를 하여 얻어지는 기본 프레임 레이트의 화상 데이터를 나타내고, "D"는, 2개의 픽처 단위로 제2 비율로 혼합 처리를 하여 얻어지는 하이 프레임 레이트의 확장 프레임의 화상 데이터를 나타내고 있다. 여기에서는, "C"의 혼합 화상 시퀀스에 착안하고 있다.

예를 들어, 도 4의 (b)에 도시하는 바와 같이, 1번째의 픽처의 계수 α가 1이고, 2번째의 픽처의 계수 β가 0일 때, 혼합 화상 시퀀스의 셔터 개구율은 1/2(50％)이다. 또한, 예를 들어, 도 4의 (c)에 도시하는 바와 같이, 1번째의 픽처의 계수 α가 3/4이고, 2번째의 픽처의 계수 β가 1/4일 때, 혼합 화상 시퀀스의 셔터 개구율은 3/4(75％)이다. 또한, 예를 들어, 도 4의 (d)에 도시하는 바와 같이, 1번째의 픽처의 계수 α가 1/2이고, 2번째의 픽처의 계수 β가 1/2일 때, 혼합 화상 시퀀스의 셔터 개구율은 1(100％)이다.

제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터와 이 부호화 화상 데이터에 대응한 컨테이너 위치의 한쪽 또는 양쪽에, 이 실시 형태에서는 양쪽에, 공간 스케일러블인 것을 나타내는 식별 정보, 또한 그 공간 스케일러블의 비율을 나타내는 정보가 삽입된다. 이 실시 형태에 있어서, 이들 정보를 갖는 SEI NAL 유닛이 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터(액세스 유닛)에 삽입되고, 또한, 이들 정보를 갖는 디스크립터가 MP4의 제2 및 제3 확장 포맷의 화상 데이터에 대응한 "moof"의 박스에 삽입된다. 수신측에서는, 이들 정보에 의해, 제2 및 제3 확장 포맷의 화상 데이터가 공간 스케일러블에 관한 화상 데이터인 것, 또한, 그 공간 스케일러블의 비율을 용이하게 인식 가능하게 된다.

제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터와 이 부호화 화상 데이터에 대응한 컨테이너 위치의 한쪽 또는 양쪽에, 이 실시 형태에서는 양쪽에, 시간 스케일러블인 것을 나타내는 식별 정보, 또한, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보가 삽입된다.

이 실시 형태에 있어서, 이들 정보를 갖는 SEI NAL 유닛이 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터(액세스 유닛)에 삽입되고, 또한, 이들 정보를 갖는 디스크립터가 MP4의 제2 확장 포맷의 화상 데이터에 대응한 "moof"의 박스에 삽입된다. 수신측에서는, 이들 정보에 의해, 제1 및 제3 확장 포맷의 화상 데이터가 시간 스케일러블에 관한 화상 데이터인 것, 또한, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것, 혼합 비율(제1, 제2 비율)을 용이하게 인식 가능하게 된다.

또한, 이 실시 형태에 있어서, MPD 파일에, 스케일러빌리티의 대응을 나타내는 정보가 삽입된다. 즉, 기본 포맷의 화상 데이터 상에 제1 확장 포맷의 화상 데이터를 사용한 확장에 의해 하이 프레임 레이트로 고해상도의 화상 데이터가 얻어지는 것이 나타난다. 또한, 기본 포맷의 화상 데이터 상에 제2 확장 포맷의 화상 데이터를 사용한 확장에 의해 기본 프레임 레이트로 초고해상도의 화상 데이터가 얻어지는 것이 나타난다. 또한, 기본 포맷의 화상 데이터 상에 제1, 제2, 제3 확장 포맷의 화상 데이터를 사용한 확장에 의해 하이 프레임 레이트로 초고해상도의 화상 데이터가 얻어지는 것이 나타난다. 수신측에서는, 이 정보에 의해, 스케일러빌리티의 대응을 용이하게 인식할 수 있어, 필요한 스트림 또는 부호화 화상 데이터만을 취득하여 효율적으로 처리하는 것이 가능하게 된다.

서비스 수신기(200)는 서비스 송신 시스템(100)으로부터 통신 네트워크 전송로(도 1의 (a) 참조) 또는 RF 전송로(도 1의 (b) 참조)를 통하여 보내져 오는 상술한 MP4를 수신한다. 서비스 수신기(200)는 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림만을 처리하여, 기본 프레임 레이트로 고해상도의 화상 데이터를 얻어, 화상 재생을 행한다. 또한, 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 비디오 스트림(제1 확장 포맷의 화상 데이터)의 양쪽을 처리하여, 하이 프레임 레이트로 고해상도의 화상 데이터를 얻어, 화상 재생을 행한다.

또한, 서비스 수신기(200)는 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 비디오 스트림(제2 확장 포맷의 화상 데이터)의 양쪽을 처리하여, 기본 프레임 레이트로 초고해상도의 화상 데이터를 얻어, 화상 재생을 행한다. 또한, 서비스 수신기(200)는 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 비디오 스트림(제1, 제2, 제3 확장 포맷의 화상 데이터)의 양쪽을 처리하여, 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻어, 화상 재생을 행한다.

서비스 수신기(200)는 제2, 제3 확장 포맷의 화상 데이터를 사용한 공간 스케일러블의 처리를 행하는 경우, 제2, 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터나 그 부호화 화상 데이터에 대응한 컨테이너 위치에 삽입되어 있는 공간 스케일러블의 비율을 나타내는 정보를 사용한다. 이에 의해, 서비스 수신기(200)는 공간 스케일러블의 처리를 적절하게 행하는 것이 가능하게 된다.

또한, 서비스 수신기(200)는 제1, 제3 확장 포맷의 화상 데이터를 사용한 시간 스케일러블의 처리를 행하는 경우, 제1, 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터나 이 부호화 화상 데이터에 대응한 컨테이너 위치에 삽입되어 있는 혼합 비율(제1, 제2 비율)의 정보를 사용한다. 이에 의해, 서비스 수신기(200)는 시간 스케일러블의 처리를 적절하게 행하는 것이 가능하게 된다.

도 5는, 서비스 송신 시스템(100) 및 서비스 수신기(200)의 처리의 개요를 도시하고 있다. 서비스 송신 시스템(100)에는, 하이 프레임 레이트(HFR)로 초고해상도(UHD)의 화상 데이터 「HFR/UHD video」가 입력된다. 이 서비스 송신 시스템(100)에서는, 비디오 인코더(102)로 화상 데이터 「HFR/UHD video」가 처리되어서, 기본 비디오 스트림 STb와, 3개의 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와, 하나의 확장 비디오 스트림 STe가 얻어지고, 송신된다.

여기서, 기본 비디오 스트림 STb는, 기본 프레임 레이트(LFR)로 고해상도(HD)의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 갖고 있다. 확장 비디오 스트림 STe1은, 하이 프레임 레이트(HFR)로 고해상도(HD)의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터의 부호화 화상 데이터를 갖고 있다. 확장 비디오 스트림 STe2는, 기본 프레임 레이트(LFR)로 초고해상도(UHD)의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터의 부호화 화상 데이터를 갖고 있다. 확장 비디오 스트림 STe3은, 하이 프레임 레이트(HFR)로 초고해상도(UHD)의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 갖고 있다. 확장 비디오 스트림 STe는, 제1, 제2, 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 갖고 있다.

하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 서비스 수신기(200A)에서는, 비디오 디코더(203A)에 있어서, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe가 처리되어서, 하이 프레임 레이트로 초고해상도의 화상 데이터 「HFR/UHD video」가 얻어지고, 화상 재생된다.

또한, 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 서비스 수신기(200B)에서는, 비디오 디코더(203B)에 있어서, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe가 처리되어서, 하이 프레임 레이트로 고해상도의 화상 데이터 「HFR/HD video」가 얻어지고, 화상 재생된다.

또한, 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 서비스 수신기(200C)에서는, 비디오 디코더(203C)에 있어서, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe2, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe가 처리되어서, 기본 프레임 레이트로 초고해상도의 화상 데이터 「LFR/UHD video」가 얻어지고, 화상 재생된다.

또한, 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 서비스 수신기(200D)에서는, 비디오 디코더(203D)에 있어서, 기본 비디오 스트림 STb가 처리되어서, 기본 프레임 레이트로 고해상도의 화상 데이터 「LFR/HD video」가 얻어지고, 화상 재생된다.

도 6은, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3에 4스트림 구성의 전송의 경우에 있어서의 스트림 구성예를 도시하고 있다. 도시된 예에서는, 하이 프레임 레이트가 120Hz인 경우를 나타내고 있다. 횡축은 표시순(POC: picture order of composition)을 나타내고, 좌측은 표시 시각이 전이고, 우측은 표시 시각이 후로 된다. 직사각형 프레임 각각이 픽처를 나타내고, 화살표는, 예측 부호화 처리에 있어서의 픽처의 참조 관계의 일례를 도시하고 있다. 레이어 간, 레이어 내의 양쪽 모두 예측은 블록마다 대상 픽처가 바뀌고, 또한, 예측의 방향, 참조수는 도시된 예에 한정되는 것은 아니다.

최하단에, 레이어 링 ID(layering_id)가 "0"인 기본 비디오 스트림 STb에 포함되는 기본 포맷의 화상 데이터 「HD 60Hz Base」의 시퀀스가 존재하고 있다. 이 화상 데이터 「HD 60Hz Base」의 레이어 ID(Layer_id)는 "0"이다.

그 상단에, 레이어 링 ID(layering_id)가 "1"인 확장 비디오 스트림 STe1에 포함되는 제1 확장 포맷의 화상 데이터 「HD HFR Enhanced1」의 시퀀스가 존재하고 있다. 이 「HD HFR Enhanced1」은, 화상 데이터 「HD 60Hz Base」에 대한 시간 방향의 스케일러빌리티이다. 이 화상 데이터 「HD HFR Enhanced1」의 레이어 ID(Layer_id)는 "0"이다.

그 상단에, 레이어 링 ID(layering_id)가 "2"인 확장 비디오 스트림 STe2에 포함되는 제2 확장 포맷의 화상 데이터 「UHD 60Hz Enhanced2」의 시퀀스가 존재하고 있다. 이 「UHD 60Hz Enhanced2」은, 화상 데이터 「HD 60Hz Base」에 대한 공간 방향의 스케일러빌리티이다. 이 화상 데이터 「UHD 60Hz Enhanced2」의 레이어 ID(Layer_id)는 "1"이다.

그 상단에, 레이어 링 ID(layering_id)가 "3"인 확장 비디오 스트림 STe3에 포함되는 제3 확장 포맷의 화상 데이터 「UHD HFR Enhanced3」의 시퀀스가 존재하고 있다. 이 「UHD HFR Enhanced3」은, 화상 데이터 「UHD 60Hz Enhanced2」에 대한 시간 방향의 스케일러빌리티인 동시에, 화상 데이터 「HD HFR Enhanced1」에 대한 공간 방향의 스케일러빌리티이다. 이 화상 데이터 「UHD HFR Enhanced3」의 레이어 ID(Layer_id)는 "1"이다.

기본 포맷의 화상 데이터 「HD 60Hz Base」에 기초하여, 기본 프레임 레이트로 고해상도(HD)의 화상(60Hz HD 화상)의 재생이 가능하다. 또한, 기본 포맷의 화상 데이터 「HD 60Hz Base」 및 제1 확장 포맷의 화상 데이터 「HD HFR Enhanced1」에 기초하여, 하이 프레임 레이트로 고해상도(HD)의 화상(120Hz HD 화상)의 재생이 가능하다.

또한, 기본 포맷의 화상 데이터 「HD 60Hz Base」 및 제2 확장 포맷의 화상 데이터 「UHD 60Hz Enhanced2」에 기초하여, 기본 프레임 레이트로 초고해상도(UHD)의 화상(60Hz UHD 화상)의 재생이 가능하다. 또한, 기본 포맷의 화상 데이터 「HD 60Hz Base」, 제1 확장 포맷의 화상 데이터 「HD HFR Enhanced1」, 제2 확장 포맷의 화상 데이터 「UHD 60Hz Enhanced2」 및 제3 확장 포맷의 화상 데이터 「UHD HFR Enhanced3」에 기초하여, 하이 프레임 레이트로 초고해상도(UHD)의 화상(120Hz UHD 화상)의 재생이 가능하다.

도 7은, 4스트림 구성의 전송의 경우에 있어서의 DASH/MP4의 트랙 구성을 도시하고 있다. 이 경우, 기본 비디오 스트림 STb(Base stream)에 대응한 트랙 B(Track B)와, 확장 비디오 스트림 STe1(Enhanced1 stream)에 대응한 트랙 E1(Track E1)과, 확장 비디오 스트림 STe2(Enhanced2 stream)에 대응한 트랙 E2(Track E2)와, 확장 비디오 스트림 STe3(Enhanced3 stream)에 대응한 트랙 E3(Track E3)이 존재한다.

직사각형 프레임 각각이 픽처를 나타내고, 화살표는, 스케일러빌리티의 대응을 나타내고 있다. 즉, 트랙 B에 포함되는 기본 포맷의 화상 데이터 상에 트랙 E1에 포함되는 제1 확장 포맷의 화상 데이터를 사용한 시간 스케일러블의 확장에 의해, 하이 프레임 레이트로 고해상도(HD)의 화상, 즉 120Hz HD 화상의 화상 데이터가 얻어진다. 또한, 트랙 B에 포함되는 기본 포맷의 화상 데이터 상에 트랙 E2에 포함되는 제2 확장 포맷의 화상 데이터를 사용한 공간 스케일러블의 확장에 의해, 기본 프레임 레이트로 초고해상도(UHD)의 화상, 즉 60Hz UHD 화상의 화상 데이터가 얻어진다.

또한, 트랙 B에 포함되는 기본 포맷의 화상 데이터 상에 트랙 E1에 포함되는 제1 확장 포맷의 화상 데이터, 트랙 E2에 포함되는 제2 확장 포맷의 화상 데이터 및 트랙 E3에 포함되는 제3 확장 포맷의 화상 데이터를 사용한 공간 스케일러블, 시간 스케일러블의 확장에 의해, 하이 프레임 레이트로 초고해상도(UHD)의 화상, 즉 120Hz UHD 화상의 화상 데이터가 얻어진다.

도 8은, 트랙 B, 트랙 E1, 트랙 E2, 트랙 E3의 각 트랙의 데이터를 포함하는 MP4 스트림(파일)의 구성예를 도시하고 있다. 도시된 예는, 프레그멘티드 MP4(Fragmented MP4)의 경우의 예이다. MP4 스트림에는, 제어 정보가 들어가는 "moof" 박스와 미디어 데이터 본체가 들어가는 "mdat" 박스로 구성되는 무비 프래그먼트(Movie Fragment)가 소정 개수 배치된다. "mdat" 박스에는, 트랙 데이터가 단편화되어서 얻어진 단편이 들어가므로, "moof" 박스에 들어가는 제어 정보는 그 단편에 관한 제어 정보로 된다. 또한, 상세 설명은 생략하지만, 트랙 간에 걸치는 예측 참조 관계는, 익스트랙터(extractor)라 하는 NAL 타입(NAL type)의 패킷을 액세스 유닛마다 트랙에 배치함으로써 정의된다.

트랙 B에 대응한 MP4 스트림 「video-basesubbitstream」에 있어서, 각 무비 프래그먼트의 "mdat" 박스에는, 기본 포맷의 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수분, 예를 들어 1GOP분만 배치된다. 여기서, 각 액세스 유닛은, 「VPS」, 「SPS」, 「PPS」, 「PSEI」, 「SLICE」, 「SSEI」 등의 NAL 유닛에 의해 구성된다. 또한, 「VPS」, 「SPS」는, 예를 들어, GOP의 선두 픽처에 삽입된다.

도 9는, SPS(VPS)의 요소의 일례를 도시하고 있다. 이 예는, 기본 비디오 스트림 STb, 확장 비디오 스트림 STe1, STe2, STe3이, 도 10에 도시하는 구성으로 되어 있는 경우의 예이다. 「general_level_idc」의 값은 "156"으로 되고, 확장 비디오 스트림 STe3, STe2, STe1, 기본 비디오 스트림 STb의 스트림 전체의 레벨(스케일러블의 부호화 화소 레이트의 복잡차)이 "level 5.2"인 것이 나타난다. 또한, 「general_profile_idc」의 값은 "7"로 되고, 이 스트림 전체의 프로파일(스케일러블의 부호화 타입)이 "Scalable Main 10 Profile"인 것이 나타난다.

또한, 「sublayer_level_present_flag[j-1]」은 "1"로 되고, 「sublayer_level_idc[j-1]」의 값은 "153"으로 되고, 「sublayer_profile_idc[j-1]」은 "7"로 된다. 이에 의해, 확장 비디오 스트림 STe2, STe1, 기본 비디오 스트림 STb의 스트림 전체의 레벨이 "level 5.1"인 것이 나타나고, 그 프로파일이 "Scalable Main 10 Profile"인 것이 나타난다.

또한, 「sublayer_level_present_flag[j-2]」는 "1"로 되고, 「sublayer_level_idc[j-2]」의 값은 "126"으로 되고, 「sublayer_profile_idc[j-2]」는 "2"로 된다. 이에 의해, 확장 비디오 스트림 STe1, 기본 비디오 스트림 STb의 스트림 전체의 레벨이 "level 4.2"인 것이 나타나고, 그 프로파일이 "Main 10 Profile"인 것이 나타난다.

또한, 「sublayer_level_present_flag[j-3]」은 "1"로 되고, 「sublayer_level_idc[j-3]」의 값은 "123"으로 되고, 「sublayer_profile_idc[j-3]」은 "2"로 된다. 이에 의해, 기본 비디오 스트림 STb의 레벨이 "level 4.1"인 것이 나타나고, 그 프로파일이 "Main 10 Profile"인 것이 나타난다.

도 8로 돌아가서, 트랙 B에 대응한 MP4 스트림 「video-basesubbitstream」에 있어서, 각 무비 프래그먼트의 "moof" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof" 박스의 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"이라는 기재가 있다.

또한, "moof" 박스 내에 "tfdt" 박스가 존재하고, 그 내에 "sgpd" 박스가 존재하고, 또한, 그 내에 "tscl" 박스가 존재한다. 이 "tscl" 박스에, 「temporalLayerId」, 「tllevel_idc」, 「Tlprofile」, 「tlConstantFrameRate」라는 4개의 파라미터의 기재가 있다. 「temporalLayerId」는, 템포럴 ID(temporal_id)를 나타낸다. 「tlConstantFrameRate」는 "1"로 됨으로써, 프레임 레이트가 일정한 것을 나타낸다.

「tllevel_idc」는, 기본 비디오 스트림 STb의 레벨을 나타내고, 상술한 SPS(또는 VPS)의 요소의 「sublayer_level_idc[j-3]」과 일치시킨다. 여기에서는, 「tllevel_idc」는 "123"으로 된다. 「Tlprofile」는, 기본 비디오 스트림 STb의 프로파일을 나타내고, 상술한 SPS(또는 VPS)의 요소의 「sublayer_profile_idc[j-3]」과 일치시킨다. 여기에서는, 「Tlprofile」는 "2"로 된다.

트랙 E1에 대응한 MP4 스트림 「video-enhanced1subset」에 있어서, 각 무비 프래그먼트의 "mdat" 박스에는, 제1 확장 포맷의 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수분, 예를 들어 1GOP분만 배치된다. 여기서, 각 액세스 유닛은, 「PPS」, 「PSEI」, 「SLICE」, 「SSEI」 등의 NAL 유닛에 의해 구성된다.

트랙 E1에 대응한 MP4 스트림 「video-enhanced1subset」에 있어서, 각 무비 프래그먼트의 "moof" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof" 박스의 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"이라는 기재가 있다.

「tllevel_idc」는, 확장 비디오 스트림 STe1, 기본 비디오 스트림 STb의 스트림 전체의 레벨을 나타내고, 상술한 SPS(또는 VPS)의 요소의 「sublayer_level_idc[j-2]」와 일치시킨다. 여기에서는, 「tllevel_idc」는 "126"으로 된다. 「Tlprofile」는, 확장 비디오 스트림 STe1, 기본 비디오 스트림 STb의 스트림 전체의 프로파일을 나타내고, 상술한 SPS(또는 VPS)의 요소의 「sublayer_profile_idc[j-2]」와 일치시킨다. 여기에서는, 「Tlprofile」는 "2"로 된다.

트랙 E2에 대응한 MP4 스트림 「video-enhanced2subset」에 있어서, 각 무비 프래그먼트의 "mdat" 박스에는, 제2 확장 포맷의 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수분, 예를 들어 1GOP분만 배치된다. 여기서, 각 액세스 유닛은, 「PPS」, 「PSEI」, 「SLICE」, 「SSEI」 등의 NAL 유닛에 의해 구성된다.

트랙 E2에 대응한 MP4 스트림 「video-enhanced2subset」에 있어서, 각 무비 프래그먼트의 "moof" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof" 박스의 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"이라는 기재가 있다.

「tllevel_idc」는, 확장 비디오 스트림 STe2, STe1, 기본 비디오 스트림 STb의 스트림 전체의 레벨을 나타내고, 상술한 SPS(또는 VPS)의 요소의 「sublayer_level_idc[j-1」과 일치시킨다. 여기에서는, 「tllevel_idc」는 "153"으로 된다. 「Tlprofile」는, 확장 비디오 스트림 STe2, STe1, 기본 비디오 스트림 STb의 스트림 전체의 프로파일을 나타내고, 상술한 SPS(또는 VPS)의 요소의 「sublayer_profile_idc[j-1]」과 일치시킨다. 여기에서는, 「Tlprofile」는 "7"로 된다.

트랙 E3에 대응한 MP4 스트림 「video-enhanced3subset」에 있어서, 각 무비 프래그먼트의 "mdat" 박스에는, 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수분, 예를 들어 1GOP분만 배치된다. 여기서, 각 액세스 유닛은, 「PPS」, 「PSEI」, 「SLICE」, 「SSEI」 등의 NAL 유닛에 의해 구성된다.

트랙 E3에 대응한 MP4 스트림 「video-enhanced3subset」에 있어서, 각 무비 프래그먼트의 "moof" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof" 박스의 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"이라는 기재가 있다.

「tllevel_idc」는, 확장 비디오 스트림 STe3, STe2, STe1, 기본 비디오 스트림 STb의 스트림 전체의 레벨을 나타내고, 상술한 SPS(또는 VPS)의 요소의 「general_level_idc」와 일치시킨다. 여기에서는, 「tllevel_idc」는 "156"으로 된다. 「Tlprofile」는, 확장 비디오 스트림 STe3, STe2, STe1, 기본 비디오 스트림 STb의 스트림 전체의 프로파일을 나타내고, 상술한 SPS(또는 VPS)의 요소의 「general_profile_idc」와 일치시킨다. 여기에서는, 「Tlprofile」는 "7"로 된다.

트랙 E1에 대응한 MP4 스트림 「video-enhanced1subset」에 있어서, 각 무비 프래그먼트의 "mdat" 박스에는, 상술한 바와 같이 제1 확장 포맷의 화상 데이터의 액세스 유닛이 소정 픽처수분만 배치된다. 각 액세스 유닛에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보를 갖는 SEI NAL 유닛이 삽입된다. 이 실시 형태에 있어서는, 액세스 유닛(AU)의 "SEIs"의 부분에, 신규 정의하는, 비디오 스케일러빌리티 SEI(video_scalability_SEI)가 삽입된다.

트랙 E2에 대응한 MP4 스트림 「video-enhanced2subset」에 있어서, 각 무비 프래그먼트의 "mdat" 박스에는, 상술한 바와 같이 제2 확장 포맷의 화상 데이터의 액세스 유닛이 소정 픽처수분만 배치된다. 각 액세스 유닛에, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보를 갖는 SEI NAL 유닛이 삽입된다. 이 실시 형태에 있어서는, 액세스 유닛(AU)의 "SEIs"의 부분에, 신규 정의하는, 비디오 스케일러빌리티 SEI(video_scalability_SEI)가 삽입된다.

또한, 트랙 E3에 대응한 MP4 스트림 「video-enhanced3subset」에 있어서, 각 무비 프래그먼트의 "mdat" 박스에는, 상술한 바와 같이 제3 확장 포맷의 화상 데이터의 액세스 유닛이 소정 픽처수분만 배치된다. 각 액세스 유닛에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보와 함께, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보를 갖는 SEI NAL 유닛이 삽입된다. 이 실시 형태에 있어서는, 액세스 유닛(AU)의 "SEIs"의 부분에, 신규 정의하는, 비디오 스케일러빌리티 SEI(video_scalability_SEI)가 삽입된다.

도 11은, 비디오 스케일러빌리티 SEI의 구조예(Syntax)를 도시하고, 도 12는, 그 구조예에 있어서의 주요한 정보의 내용(Semantics)을 도시하고 있다. 「temporal_scalable_flag」의 1비트 필드는, 시간 스케일러블의 스트림인지를 나타낸다. 예를 들어, "1"은 시간 스케일러블인 것을 나타내고, "0"은 시간 스케일러블이 아닌 것을 나타낸다.

제1 확장 포맷의 화상 데이터의 액세스 유닛에 삽입되는 비디오 스케일러빌리티 SEI에 있어서는, 「temporal_scalable_flag」은 "1"로 설정되어, 시간 스케일러블의 스트림인 것이 나타난다. 제2 확장 포맷의 화상 데이터의 액세스 유닛에 삽입되는 비디오 스케일러빌리티 SEI에 있어서는, 「temporal_scalable_flag」은 "0"으로 설정되어, 시간 스케일러블의 스트림이 아닌 것이 나타난다. 또한, 제3 확장 포맷의 화상 데이터의 액세스 유닛에 삽입되는 비디오 스케일러빌리티 SEI에 있어서는, 「temporal_scalable_flag」은 "1"로 설정되어, 시간 스케일러블의 스트림인 것이 나타난다.

「spatial_scalable_flag」의 1비트 필드는, 공간 스케일러블의 스트림인지를 나타낸다. 예를 들어, "1"은 공간 스케일러블인 것을 나타내고, "0"은 공간 스케일러블이 아닌 것을 나타낸다.

제1 확장 포맷의 화상 데이터의 액세스 유닛에 삽입되는 비디오 스케일러빌리티 SEI에 있어서는, 「spatial_scalable_flag」은 "0"으로 설정되어, 공간 스케일러블의 스트림이 아닌 것이 나타난다. 제2 확장 포맷의 화상 데이터의 액세스 유닛에 삽입되는 비디오 스케일러빌리티 SEI에 있어서는, 「spatial_scalable_flag」은 "1"로 설정되어, 공간 스케일러블의 스트림인 것이 나타난다. 또한, 제3 확장 포맷의 화상 데이터의 액세스 유닛에 삽입되는 비디오 스케일러빌리티 SEI에 있어서는, 「spatial_scalable_flag」은 "1"로 설정되어, 공간 스케일러블의 스트림인 것이 나타난다.

「spatial_scalable_flag」이 "1"인 때, 「scaling_ratio」의 3비트 필드가 존재한다. 이 필드는, 공간 스케일러블의 비율, 즉 기본과 확장의 1차원 방향의 확대 비율을 나타낸다. 예를 들어, "001"은 2배를 나타내고, "010"은 3배를 나타내고, "011"은 4배를 나타낸다. 예를 들어, 초고해상도(UHD)가 4K 해상도일 때, 「scaling_ratio」는 "001"로 설정되고, 초고해상도(UHD)가 8K 해상도일 때, 「scaling_ratio」는 "011"로 설정된다.

「temporal_scalable_flag」이 "1"인 때, 「picture_blending_flag」의 1비트 필드가 존재한다. 이 필드는, 기본 스트림(기본 포맷의 화상 데이터)에 픽처의 혼합 처리가 이루어져 있는지를 나타낸다. 예를 들어, "1"은 혼합 처리가 이루어져 있는 것을 나타내고, "0"은 혼합 처리가 이루어져 있지 않은 것을 나타낸다.

「picture_blending_flag」이 "1"인 때, 혼합 비율(제1, 제2 비율)을 나타내는 필드, 즉, 「blend_coef_alpha_alternate_picture」, 「blend_coef_beta_alternate_picture」, 「blend_coef_alpha_current_picture」, 「blend_coef_beta_current_picture」의 각 3비트 필드가 존재한다.

「blend_coef_alpha_alternate_picture」라는 필드는, 기본 레이어의 픽처에 곱하는 계수(후술하는 계수 p에 대응)이다. 「blend_coef_beta_alternate_picture」라는 필드는, 현재의 픽처(확장 스트림 중)에 곱하는 계수(후술하는 계수 r에 대응)이다. 「blend_coef_alpha_current_picture」라는 필드는, 확장 레이어의 픽처에 곱하는 계수(후술하는 계수 q에 대응)이다. 「blend_coef_beta_current_picture」라는 필드는, 현재의 픽처(확장 스트림 중)에 곱하는 계수(후술하는 계수 s에 대응)이다.

도 8로 돌아가서, 트랙 E1에 대응한 MP4 스트림 「video-enhanced1subset」에 있어서, 각 무비 프래그먼트의 "moof" 박스에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보가 삽입된다. 이 실시 형태에 있어서는, "moof" 박스 하에, "udta" 또는 "lays"의 박스가 설치되고, 신규 정의하는, 비디오 스케일러빌리티 인포메이션 디스크립터(video_scalability_information_descriptor)의 신택스(Syntax)가 전송된다.

트랙 E2에 대응한 MP4 스트림 「video-enhanced2subset」에 있어서, 각 무비 프래그먼트의 "moof" 박스에, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다. 이 실시 형태에 있어서는, "moof" 박스 하에, "udta" 또는 "lays"의 박스가 설치되고, 신규 정의하는, 비디오 스케일러빌리티 인포메이션 디스크립터(video_scalability_information_descriptor)의 신택스(Syntax)가 전송된다.

또한, 트랙 E3에 대응한 MP4 스트림 「video-enhanced3subset」에 있어서, 각 무비 프래그먼트의 "moof" 박스에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보와 함께, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다. 이 실시 형태에 있어서는, "moof" 박스 하에, "udta" 또는 "lays"의 박스가 설치되고, 신규 정의하는, 비디오 스케일러빌리티 인포메이션 디스크립터(video_scalability_ information_descriptor)의 신택스(Syntax)가 전송된다.

도 13은, 비디오 스케일러빌리티 인포메이션 디스크립터의 구조예(Syntax)를 도시하고 있다. 또한, 이 구조예에 있어서의 주요한 정보의 내용(Semantics)은 상술한 비디오 스케일러빌리티 SEI와 마찬가지이므로, 그 설명은 생략한다.

도 14는, 4스트림 구성의 전송의 경우(도 6 참조)에 있어서의 MPD 파일의 기술예를 도시하고 있다. 이 MPD 파일에는, 기본 비디오 스트림 STb(Base stream), 확장 비디오 스트림 STe1(Enhanced1 stream), 확장 비디오 스트림 STe2(Enhanced2 stream) 및 확장 비디오 스트림 STe3(Enhanced3 stream)에 각각 대응한 리프리젠테이션(Representation)이 존재한다.

기본 비디오 스트림 STb(HD Base stream)에 관련한 리프리젠테이션에 있어서, 「framerate ="60"」, 「codecs ="hev1.A.L123, xx"」, 「id ="tag0"」이라는 기술이 존재한다. 「framerate="60" & L123 with no dependencyid」는, 2K 60P의 기본 스트림을 나타내고, 「"A"」는 「Main 10 Profile」을 나타내는, 2의 값인 것을 나타낸다. 레벨 및 프로파일의 정보는, 상술한 SPS(VPS)의 요소의 「sublayer_level_idc[j-3]」, 「sublayer_profile_idc[j-3]」과 일치하고 있다. 이와 관련하여, 「sublayer_profile_idc[j-3]」=「Main 10 Profile」이며, 「sublayer_level_idc[j-3]」="level 4.1"="123"이다. 또한, 「<BaseURL>video-basesubbitstream.mp4 </BaseURL>」라는 기술에 의해, 기본 비디오 스트림 STb(Base stream)의 로케이션처가, 「video-basesubbitstream.mp4」로서 나타나 있다.

확장 비디오 스트림 STe1(Enhanced1 stream)에 관련한 리프리젠테이션에 있어서, 「framerate ="120"」, 「codecs ="hev1.B.L126, xx"」, 「id ="tag1"」이라는 기술이 존재한다. 「framerate="120" & L126 with dependencyid tagged tag0」은, 2K 120P의 스트림을 실현하는 것을 나타내고, 「"B"」는 「Main 10 Profile」을 나타내는, 2의 값인 것을 나타낸다. 레벨 및 프로파일의 정보는, 상술한 SPS(또는 VPS)의 요소의 「sublayer_level_idc[j-2]」, 「sublayer_profile_idc[j-2]」와 일치하고 있다. 이와 관련하여, 「sublayer_profile_idc[j-2]」=「Main 10 Profile」이며, 「sublayer_level_idc[j-2]」="level 4.2"="126"이다. 또한, 「<BaseURL>video-enhanced1subset.mp4 </BaseURL>」라는 기술에 의해, 확장 비디오 스트림 STe1(Enhanced1 stream)의 로케이션처가, 「video-enhanced1subset.mp4」로서 나타나 있다.

확장 비디오 스트림 STe2(Enhanced2 stream)에 관련한 리프리젠테이션에 있어서, 「framerate="60"」, 「codecs="hev1.C.L153, xx"」, 「id ="tag2"」, 「dependencyid ="tag0"」이라는 기술이 존재한다. 「Framerate="60" & L153 with dependencyid tagged tag0」은, 기본 스트림 상에 확장에 의해 4K 60P의 스트림을 실현하는 것을 나타내고, 「"C"」는 「Scalable Main 10 Profile」을 나타내는, 7의 값인 것을 나타낸다. 레벨 및 프로파일의 정보는, 상술한 SPS(VPS)의 요소의 「sublayer_level_idc[j-1]」, 「sublayer_profile_idc[j-1]」과 일치하고 있다. 이와 관련하여, 「sublayer_profile_idc[j-1]」=「Scalable Main 10 Profile」이며, 「sublayer_level_idc[j-1]」="level 5.1"="153"이다. 또한, 「<BaseURL>video-enhanced2subset.mp4 </BaseURL>」라는 기술에 의해, 확장 비디오 스트림 STe2(Enhanced2 stream)의 로케이션처가, 「video-enhanced2subset.mp4」로서 나타나 있다.

확장 비디오 스트림 STe3(Enhanced3 stream)에 관련한 리프리젠테이션에 있어서, 「framerate="120"」, 「codecs="hev1.D.L156, xx"」, 「id ="tag3」, 「dependencyid ="tag0, tag1, tag2"」라는 기술이 존재한다. 「framerate="120" & L156 with dependencyid tagged tag0, tag1, tag2」는, 기본 스트림 상에 2K 120P로 확장하고, 또한 그 위에 확장 성분을 첨가해서 4K 120P의 스트림을 실현하는 것을 나타내고, 「"D"」는 「Scalable Main 10 Profile」을 나타내는, 7의 값인 것을 나타낸다. 레벨 및 프로파일의 정보는, 상술한 SPS(VPS)의 요소의 「general_level_idc」, 「general_profile_idc」와 일치하고 있다. 이와 관련하여, 「general_level_idc」=「Scalable Main 10 Profile」이며, 「general_level_idc」="level 5.2"="156"이다. 또한, 「<BaseURL>video-enhanced3subset.mp4 </BaseURL>」라는 기술에 의해, 확장 비디오 스트림 STe3(Enhanced3 stream)의 로케이션처가, 「video-enhanced3subset.mp4」로서 나타나 있다.

이렇게 MPD 파일에는, 스케일러빌리티의 대응을 나타내는 정보가 삽입되어 있고, 공간 스케일러빌리티, 그리고 시간 스케일러빌리티를 동시에 실현하는 것이 나타나 있다.

도 15는, 기본 비디오 스트림 STb와 확장 스트림 STe의 2스트림 구성의 전송의 경우에 있어서의 스트림 구성예를 도시하고 있다. 도시된 예에서는, 하이 프레임 레이트가 120Hz인 경우를 나타내고 있다. 횡축은 표시순(POC: picture order of composition)을 나타내고, 좌측은 표시 시각이 전이며, 우측은 표시 시각이 후로 된다. 직사각형 프레임 각각이 픽처를 나타내고, 화살표는, 예측 부호화 처리에 있어서의 픽처의 참조 관계의 일례를 도시하고 있다. 레이어 간, 레이어 내의 양쪽 모두 예측은 블록마다 대상 픽처가 바뀌고, 또한, 예측의 방향, 참조수는 도시된 예에 한정되는 것은 아니다.

그 상단에, 확장 비디오 스트림 STe에 포함되는, 레이어 링 ID(layering_id)가 "1"인 제1 확장 포맷의 화상 데이터 「HD HFR Enhanced1」의 시퀀스가 존재하고 있다. 이 「HD HFR Enhanced1」은, 화상 데이터 「HD 60Hz Base」에 대한 시간 방향의 스케일러빌리티이다. 이 화상 데이터 「HD HFR Enhanced1」의 레이어 ID(Layer_id)는 "0"이다.

그 상단에, 확장 비디오 스트림 STe에 포함되는, 레이어 링 ID(layering_id)가 "2"인 제2 확장 포맷의 화상 데이터 「UHD 60Hz Enhanced2」의 시퀀스가 존재하고 있다. 이 「UHD 60Hz Enhanced2」은, 화상 데이터 「HD 60Hz Base」에 대한 공간 방향의 스케일러빌리티이다. 이 화상 데이터 「UHD 60Hz Enhanced2」의 레이어 ID(Layer_id)는 "1"이다. 또한, 이 화상 데이터 「UHD 60Hz Enhanced2」의 템포럴 ID(Temporal_id)는 소정의 역치 TH 이하로 된다.

그 상단에, 확장 비디오 스트림 STe에 포함되는, 레이어 링 ID(layering_id)가 "3"인 제3 확장 포맷의 화상 데이터 「UHD HFR Enhanced3」의 시퀀스가 존재하고 있다. 이 「UHD HFR Enhanced3」은, 화상 데이터 「UHD 60Hz Enhanced2」에 대한 시간 방향의 스케일러빌리티인 동시에, 화상 데이터 「HD HFR Enhanced1」에 대한 공간 방향의 스케일러빌리티이다. 이 화상 데이터 「UHD HFR Enhanced3」의 레이어 ID(Layer_id)는 "1"이다. 또한, 이 화상 데이터 「UHD HFR Enhanced3」의 템포럴 ID(Temporal_id)는 소정의 역치 TH보다 크게 된다.

상술한 바와 같이, 화상 데이터 「UHD 60Hz Enhanced2」의 템포럴 ID는 역치 TH 이하로 되고, 한편, 화상 데이터 「UHD HFR Enhanced3」의 템포럴 ID는 역치 TH보다 크게 된다. 이에 의해, 템포럴 ID가 역치 TH 이하인지 여부로, 화상 데이터 「UHD 60Hz Enhanced2」와 화상 데이터 「UHD HFR Enhanced3」의 구별을 하는 것이 가능하게 된다.

도 16은, 2스트림 구성의 전송의 경우에 있어서의 DASH/MP4의 트랙 구성을 도시하고 있다. 이 경우, 기본 비디오 스트림 STb(Base stream)에 대응한 트랙 B(Track B)와, 확장 비디오 스트림(Enhanced stream)에 대응한 트랙 EH(Track EH)가 존재한다.

직사각형 프레임 각각이 픽처를 나타내고, 화살표는, 스케일러빌리티의 대응을 나타내고 있다. 즉, 트랙 B에 포함되는 기본 포맷의 화상 데이터 상에 트랙 EH에 포함되는 제1 확장 포맷의 화상 데이터를 사용한 시간 스케일러블의 확장에 의해, 하이 프레임 레이트로 고해상도(HD)의 화상, 즉 120Hz HD 화상의 화상 데이터가 얻어진다. 또한, 트랙 B에 포함되는 기본 포맷의 화상 데이터 상에 트랙 EH에 포함되는 제2 확장 포맷의 화상 데이터를 사용한 공간 스케일러블의 확장에 의해, 기본 프레임 레이트로 초고해상도(UHD)의 화상, 즉 60Hz UHD 화상의 화상 데이터가 얻어진다.

또한, 트랙 B에 포함되는 기본 포맷의 화상 데이터 상에 트랙 EH에 포함되는 제1, 제2 및 제3 확장 포맷의 화상 데이터를 사용한 공간 스케일러블, 시간 스케일러블의 확장에 의해, 하이 프레임 레이트로 초고해상도(UHD)의 화상, 즉 120Hz UHD 화상의 화상 데이터가 얻어진다.

도 17은, 트랙 B, 트랙 EH의 각 트랙의 데이터를 포함하는 MP4 스트림(파일)의 구성예를 도시하고 있다. 도시된 예는, 프레그멘티드 MP4(Fragmented MP4)의 경우의 예이다. MP4 스트림에는, 제어 정보가 들어가는 "moof" 박스와 미디어 데이터 본체가 들어가는 "mdat" 박스로 구성되는 무비 프래그먼트(Movie Fragment)가 소정 개수 배치된다. "mdat" 박스에는, 트랙 데이터가 단편화되어서 얻어진 단편이 들어가므로, "moof" 박스에 들어가는 제어 정보는 그 단편에 관한 제어 정보가 된다. 또한, 상세 설명은 생략하지만, 트랙 간에 걸치는 예측 참조 관계는, 익스트랙터(extractor)라 하는 NAL 타입(NAL type)의 패킷을 액세스 유닛마다 트랙에 배치함으로써 정의된다.

트랙 B에 대응한 MP4 스트림 「video-basesubbitstream」에 있어서, 각 무비 프래그먼트의 "moof" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof" 박스의 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"이라는 기재가 있다.

「tllevel_idc」는, 기본 비디오 스트림 STb의 레벨을 나타내고, 상술한 SPS(VPS)의 요소의 「sublayer_level_idc[j-3]」과 일치시킨다. 여기에서는, 「tllevel_idc」는 "123"으로 된다. 「Tlprofile」는, 기본 비디오 스트림 STb의 프로파일을 나타내고, 상술한 SPS(VPS)의 요소의 「sublayer_profile_idc[j-3]」과 일치시킨다. 여기에서는, 「Tlprofile」는 "2"로 된다.

트랙 EH에 대응한 MP4 스트림 「video-enhancedsubset」에 있어서, 각 무비 프래그먼트의 "mdat" 박스에는, 제1 확장 포맷의 화상 데이터의 부호화 화상 데이터(액세스 유닛), 제2 확장 포맷의 화상 데이터의 부호화 화상 데이터(액세스 유닛) 또는, 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수분, 예를 들어 1GOP분만 배치된다. 여기서, 각 액세스 유닛은, 「PPS」, 「PSEI」, 「SLICE」, 「SSEI」 등의 NAL 유닛에 의해 구성된다.

트랙 EH에 대응한 MP4 스트림 「video-enhancedsubset」에 있어서, 각 무비 프래그먼트의 "moof" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof" 박스의 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"이라는 기재가 있다.

제1 확장 포맷의 화상 데이터에 대응한 각 무비 프래그먼트의 "moof" 박스에 있어서, 「tllevel_idc」는, 제1 확장 비디오 스트림(제1 확장 포맷의 화상 데이터의 액세스 유닛으로 구성된다), 기본 비디오 스트림 STb의 스트림 전체의 레벨을 나타내고, SPS(VPS)의 요소의 「sublayer_level_idc[j-2]」와 일치시킨다. 여기에서는, 「tllevel_idc」는 "126"으로 된다. 「Tlprofile」는, 제1 확장 비디오 스트림, 기본 비디오 스트림 STb의 스트림 전체의 프로파일을 나타내고, SPS(VPS)의 요소의 「sublayer_profile_idc[j-2]」와 일치시킨다. 여기에서는, 「Tlprofile」는 "2"로 된다.

제2 확장 포맷의 화상 데이터에 대응한 각 무비 프래그먼트의 "moof" 박스에 있어서, 「tllevel_idc」는, 제2 확장 비디오 스트림(제2 확장 포맷의 화상 데이터의 액세스 유닛으로 구성된다), 제1 확장 비디오 스트림(제1 확장 포맷의 화상 데이터의 액세스 유닛으로 구성된다), 기본 비디오 스트림 STb의 스트림 전체의 레벨을 나타내고, SPS(VPS)의 요소의 「sublayer_level_idc[j-1]」과 일치시킨다. 여기에서는, 「tllevel_idc」는 "153"으로 된다. 「Tlprofile」는, 제2 확장 비디오 스트림, 제1 확장 비디오 스트림, 기본 비디오 스트림 STb의 스트림 전체의 프로파일을 나타내고, SPS(VPS)의 요소의 「sublayer_profile_idc[j-1]」과 일치시킨다. 여기에서는, 「Tlprofile」는 "7"로 된다.

또한, 제3 확장 포맷의 화상 데이터에 대응한 각 무비 프래그먼트의 "moof" 박스에 있어서, 「tllevel_idc」는, 확장 비디오 스트림 STe, 기본 비디오 스트림 STb의 스트림 전체의 레벨을 나타내고, SPS(VPS)의 요소의 「general_level_idc」와 일치시킨다. 여기에서는, 「tllevel_idc」는 "156"으로 된다. 「Tlprofile」는, 확장 비디오 스트림 STe, 기본 비디오 스트림 STb의 스트림 전체의 프로파일을 나타내고, SPS(VPS)의 요소의 「general_profile_idc」와 일치시킨다. 여기에서는, 「Tlprofile」는 "7"로 된다.

트랙 EH에 대응한 MP4 스트림 「video-enhancedsubset」에 있어서, 각 무비 프래그먼트의 "mdat" 박스에는, 상술한 바와 같이 제1 확장 포맷의 화상 데이터의 액세스 유닛, 제2 확장 포맷의 화상 데이터의 액세스 유닛, 또는 제3 확장 포맷의 화상 데이터의 액세스 유닛이 소정 픽처수분만 배치된다.

제1 확장 포맷의 화상 데이터의 각 액세스 유닛에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보를 갖는 SEI NAL 유닛이 삽입된다. 또한, 제2 확장 포맷의 화상 데이터의 각 액세스 유닛에, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보를 갖는 SEI NAL 유닛이 삽입된다.

또한, 제3 확장 포맷의 화상 데이터의 각 액세스 유닛에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보와 함께, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보를 갖는 SEI NAL 유닛이 삽입된다.

이 실시 형태에 있어서는, 액세스 유닛(AU)의 "SEIs"의 부분에, 신규 정의하는, 비디오 스케일러빌리티 SEI(도 11 참조)가 삽입된다.

트랙 EH에 대응한 MP4 스트림 「video-enhancedsubset」에 있어서, 제1 확장 포맷의 화상 데이터의 액세스 유닛을 갖는 "mdat"에 대응한 "moof" 박스에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보가 삽입된다.

또한, 트랙 EH에 대응한 MP4 스트림 「video-enhancedsubset」에 있어서, 제2 확장 포맷의 화상 데이터의 액세스 유닛을 갖는 "mdat"에 대응한 "moof" 박스에, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다.

또한, 트랙 EH에 대응한 MP4 스트림 「video-enhancedsubset」에 있어서, 제3 확장 포맷의 화상 데이터의 액세스 유닛을 갖는 "mdat"에 대응한 "moof" 박스에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보와 함께, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다.

이 실시 형태에 있어서는, "moof" 박스 하에, "udta" 또는 "lays"의 박스가 설치되고, 신규 정의하는, 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)의 신택스가 전송된다.

도 18은, 2스트림 구성의 전송의 경우(도 15 참조)에 있어서의 MPD 파일의 기술예를 도시하고 있다. 이 MPD 파일에는, 기본 비디오 스트림 STb(Base stream), 확장 비디오 스트림 STe(Enhanced stream)에 각각 대응한 리프리젠테이션(Representation)이 존재한다. 또한, 확장 비디오 스트림 STe의 리프리젠테이션 중에, 제1, 제2, 제3 확장 비디오 스트림(제1, 제2, 제3 확장 포맷의 화상 데이터의 액세스 유닛으로 구성된다)에 각각 대응한 서브 리프리젠테이션(Subrepresentation)이 존재한다.

기본 비디오 스트림 STb(HD Base stream)에 관련한 리프리젠테이션에 있어서, 「framerate ="60"」, 「codecs ="hev1.A.L123, xx"」, 「id ="tag0"」이라는 기술이 존재한다. 「framerate="60" & L123 with no dependencyid」는, 2K 60P의 기본 스트림을 나타내고, 「"A"」는 「Main 10 Profile」을 나타내는, 2의 값인 것을 나타낸다. 레벨 및 프로파일의 정보는, 상술한 SPS(VPS)의 요소의 「sublayer_level_idc[j-3]」, 「sublayer_profile_idc[j-3]」과 일치하고 있다. 이와 관련하여, 「sublayer_profile_idc[j-3]」=「Main 10 Profile」이며, 「sublayer_level_idc[j-3]」="level 4.1"="123"이다. 또한, 「<BaseURL>video-basesubbitstream.mp4 </BaseURL>」라는 기술에 의해, 기본 비디오 스트림 STb(HD Base stream)의 로케이션처가, 「video-basesubbitstream.mp4」로서 나타나 있다.

제1 확장 비디오 스트림에 관련한 서브 리프리젠테이션에 있어서, 「framerate ="120"」, 「codecs ="hev1.B.L126, xx"」, 「id ="tag1"」이라는 기술이 존재한다. 「framerate="120" & L126 with dependencyid tagged tag0」은, 2K 120P의 스트림을 실현하는 것을 나타내고, 「"B"」는 「Main 10 Profile」을 나타내는, 2의 값인 것을 나타낸다. 레벨 및 프로파일의 정보는, 상술한 SPS(VPS)의 요소의 「sublayer_level_idc[j-2]」, 「sublayer_profile_idc[j-2]」와 일치하고 있다. 이와 관련하여, 「sublayer_profile_idc[j-2]」=「Main 10 Profile」이며, 「sublayer_level_idc[j-2]」="level 4.2"="126"이다.

제2 확장 비디오 스트림에 관련한 서브 리프리젠테이션에 있어서, 「framerate="60"」, 「codecs="hev1.C.L153, xx"」, 「id ="tag2"」, 「dependencyid ="tag0"」이라는 기술이 존재한다. 「Framerate="60" & L153 with dependencyid tagged tag0」은, 기본 스트림 상에 확장에 의해 4K 60P의 스트림을 실현하는 것을 나타내고, 「"C"」는 「Scalable Main 10 Profile」을 나타내는, 7의 값인 것을 나타낸다. 레벨 및 프로파일의 정보는, 상술한 SPS(VPS)의 요소의 「sublayer_level_idc[j-1]」, 「sublayer_profile_idc[j-1]」과 일치하고 있다. 이와 관련하여, 「sublayer_profile_idc[j-1]」=「Scalable Main 10 Profile」이며, 「sublayer_level_idc[j-1]」="leve 5.1"="153"이다.

제3 확장 비디오 스트림에 관련한 서브 리프리젠테이션에 있어서, 「framerate="120"」, 「codecs="hev1.D.L156, xx"」, 「id ="tag3」, 「dependencyid ="tag0, tag1, tag2"」라는 기술이 존재한다. 「framerate="120" & L156 with dependencyid tagged tag0, tag1, tag2」은, 기본 스트림 상에 기본 스트림 상에 2K 120P로 확장하고, 또한 그 위에 확장 성분을 첨가해서 4K 120P의 스트림을 실현하는 것을 나타내고, 「"D"」는 「Scalable Main 10 Profile」을 나타내는, 7의 값인 것을 나타낸다. 레벨 및 프로파일의 정보는, 상술한 SPS(VPS)의 요소의 「general_level_idc」, 「general_profile_idc」와 일치하고 있다. 이와 관련하여, 「general_level_idc」=「Scalable Main 10 Profile」이며, 「general_level_idc」="level 5.2"="156"이다.

또한, 확장 비디오 스트림 STe(UHD EH stream)에 관련한 리프리젠테이션에 있어서, 「<BaseURL>video-enhancedsubset.mp4 </BaseURL>」라는 기술에 의해, 확장 비디오 스트림 STe(UHD EH stream)의 로케이션처가, 「video-enhancedsubset.mp4」로서 나타나 있다.

「서비스 송신 시스템의 구성예」

도 19는, 서비스 송신 시스템(100)의 구성예를 도시하고 있다. 이 서비스 송신 시스템(100)은 제어부(101)와, 비디오 인코더(102)와, 컨테이너 인코더(103)와, 송신부(104)를 갖고 있다.

제어부(101)는 CPU(Central Processing Unit)를 구비하여 구성되고, 제어 프로그램에 기초하여, 서비스 송신 시스템(100)의 각 부의 동작을 제어한다. 비디오 인코더(102)는 하이 프레임 레이트(HFR)로 초고해상도(UHD)의 화상 데이터 Va를 입력하고, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe를 출력한다.

도 20은, 비디오 인코더(102)의 구성을 개략적으로 도시하고 있다. 비디오 인코더(102)는 프로세스 1(Process 1)의 처리를 행하는 신호 처리부(102a)와, 프로세스 2(Process 2)의 처리를 행하는 신호 처리부(102b)와, 프로세스 3(Process 3)의 처리를 행하는 신호 처리부(102c)와, 일반적인 부호화 처리를 행하는 부호화 처리부(102d)를 포함하고 있다.

도 21은, 비디오 인코더(102)에 있어서의 신호 처리부(102a), 신호 처리부(102b) 및 신호 처리부(102c)의 부분을 도시하고 있다. 도시된 예에서는, 하이 프레임 레이트가 120Hz인 경우를 나타내고 있다. 신호 처리부(102a)는 하이 프레임 레이트로 초고해상도의 화상 데이터 Va(120Hz UHD)를 처리하여, 기본 프레임 레이트의 화상 데이터인 제1 화상 데이터 Vb(UHD 60Hz Base)와, 하이 프레임 레이트의 확장 프레임의 화상 데이터인 제2 화상 데이터 Vc(UHD HFR Enhanced)를 얻는다.

신호 처리부(102b)는 제1 화상 데이터 Vb(UHD 60Hz Base)를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터 BS가 되는 화상 데이터 Vd(HD 60Hz Base)를 얻음과 함께, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 ES2가 되는 화상 데이터 Ve(UHD 60Hz Enhanced2)를 얻는다. 신호 처리부(102c)는 제2 화상 데이터 Vc(UHD HFR Enhanced)를 처리하여, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터 ES1이 되는 화상 데이터 Vf(HD HFR Enhanced1)를 얻음과 함께, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터 ES3이 되는 화상 데이터 Vg(UHD HFR Enhanced3)를 얻는다.

도 22의 (a)는 신호 처리부(102a)의 구성예를 도시하고 있다. 이 신호 처리부(102a)는 120fps의 1프레임분 지연시키는 지연 회로(111)와, 연산 회로(112)와, 60Hz의 래치 펄스로 래치하는 래치 회로(113)를 갖고 있다. 또한, 연산 회로(112)는 계수 승산부(112a, 112b, 112c, 112d)와, 가산부(112e, 112f)를 갖고 있다.

계수 승산부(112a, 112b) 및 가산부(112e)는 상기 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하기 위하여 사용된다. 계수 승산부(112a)에서는 계수 p가 승산되고, 계수 승산부(112b)에서는 계수 q가 승산된다. 또한, p=0 내지 1이며, q=1-p이다. 또한, 계수 승산부(112c, 112d) 및 가산부(112f)는 상기 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하기 위하여 사용된다. 계수 승산부(112c)에서는 계수 r이 승산되고, 계수 승산부(112d)에서는 계수 s가 승산된다. 또한, r=0 내지 1이며, s=1-r이다.

하이 프레임 레이트로 초고해상도의 화상 데이터 Va(120Hz UHD)는 지연 회로(111)로 1프레임 지연된 후, 연산 회로(112)를 구성하는 계수 승산부(112a, 112c)에 입력된다. 또한, 이 화상 데이터 Va는, 그대로 연산 회로(112)를 구성하는 계수 승산부(112b, 112d)에 입력된다. 계수 승산부(112a, 112b)의 출력은 가산부(112e)에 입력되어서 가산된다. 또한, 계수 승산부(112c, 112d)의 출력은 가산부(112f)에 입력되어서 가산된다.

여기서, 화상 데이터 P의 시간적으로 연속되는 2개의 픽처의 화상 데이터를 A, B로 할 때, 지연 회로(111)의 출력이 A가 되는 타이밍에, 가산부(112e)의 출력으로서 C(=p*A+q*B)의 혼합 출력이 얻어짐과 함께, 가산부(112f)의 출력으로서 D(=r*A+s*B)의 혼합 출력이 얻어진다. 도 22의 (b)는 연산 회로(112)에 있어서의 혼합 처리를 위한 연산을 수식으로 나타낸 것이다.

연산 회로(112)의 가산부(112e, 112f)의 출력은, 래치 회로(113)에 입력된다. 래치 회로(113)에서는, 연산 회로(112)의 가산부(112e, 112f)의 출력이, 60Hz의 래치 펄스로 래치되어, 제1 화상 데이터 Vb(UHD 60Hz Base)와, 제2 화상 데이터 Vc(UHD HFR Enhanced)가 얻어진다.

여기서, 제1 화상 데이터 Vb는, 화상 데이터 Va에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 것이다. 또한, 제2 화상 데이터 Vc는, 화상 데이터 Va에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하여 얻어진 것이다.

도 23은, 신호 처리부(102a)의 입력 데이터(화상 데이터 Va)와, 이 신호 처리부(102a)의 출력 데이터(화상 데이터 Vb, Vc)의 관계의 일례를 모식적으로 도시하고 있다. 도 23의 (a)는 화상 데이터 Va를 나타내고, 도 23의 (b)는 화상 데이터 Vb를 나타내고, 도 23의 (c)는 화상 데이터 Vc를 나타내고 있다. 120fps의 화상 데이터 Va의 각 픽처의 화상 데이터 F1, F2, F3, F4, F5, F6, F7, F8, …에 대응하여, 60fps의 화상 데이터 Vb의 각 픽처의 화상 데이터 F1', F3', F5', …과, 60fps의 화상 데이터 Vc의 각 픽처의 화상 데이터 F2', F4', F6', …이 얻어진다.

도 24의 (a)는 신호 처리부(102b)의 구성예를 도시하고 있다. 이 신호 처리부(102b)는 다운 스케일 회로(121)와, 업스케일 회로(122)와, 연산 회로(123)를 갖고 있다. 제1 화상 데이터 Vb(UHD 60Hz Base)는 다운 스케일 회로(121)에 입력된다. 이 다운 스케일 회로(121)에서는, 제1 화상 데이터 Vb에 대하여 초고해상도로부터 고해상도로의 다운 스케일 처리가 실시되어, 기본 포맷의 화상 데이터 BS가 되는 화상 데이터 Vd(HD 60Hz Base)가 얻어진다.

또한, 다운 스케일 회로(121)로 얻어진 화상 데이터 Vd는, 업스케일 회로(122)에 입력된다. 이 업스케일 회로(122)에서는, 화상 데이터 Vd에 대하여 고해상도로부터 초고해상도로의 업스케일 처리가 실시되어서 제3 화상 데이터가 얻어진다. 이 제3 화상 데이터는, 제1 화상 데이터 Vb와 동일한 해상도로 되지만, 제1 화상 데이터 Vb에 대하여 다운 스케일 처리가 실시되고, 다시 업스케일 처리가 실시되어서 얻어진 것이며, 다운 스케일 처리에서 상실된 정보는 재현되어 있지 않다.

제1 화상 데이터 Vb와 업스케일 회로(122)로 얻어진 제3 화상 데이터는, 연산 회로(123)에 입력된다. 연산 회로(123)에서는, 2개의 화상 데이터 간의 차분이 취해져, 제2 확장 포맷의 화상 데이터 ES2가 되는 화상 데이터 Ve(UHD 60Hz Enhanced2)가 얻어진다.

도 24의 (b)는 신호 처리부(102c)의 구성예를 도시하고 있다. 이 신호 처리부(102c)는 다운 스케일 회로(131)와, 업스케일 회로(132)와, 연산 회로(133)를 갖고 있다. 제2 화상 데이터 Vc(UHD HFR Enhanced)는 다운 스케일 회로(131)에 입력된다. 이 다운 스케일 회로(131)에서는, 제2 화상 데이터 Vc에 대하여 초고해상도로부터 고해상도로의 다운 스케일 처리가 실시되어, 제1 확장 포맷의 화상 데이터 ES1이 되는 화상 데이터 Vf(HD HFR Enhanced1)가 얻어진다.

또한, 다운 스케일 회로(131)로 얻어진 화상 데이터 Vf는, 업스케일 회로(132)에 입력된다. 이 업스케일 회로(132)에서는, 화상 데이터 Vf에 대하여 고해상도로부터 초고해상도로의 업스케일 처리가 실시되어서 제4 화상 데이터가 얻어진다. 이 제4 화상 데이터는, 제2 화상 데이터 Vc와 동일한 해상도로 되지만, 제2 화상 데이터 Vc에 대하여 다운 스케일 처리가 실시되고, 다시 업스케일 처리가 실시되어서 얻어진 것이며, 다운 스케일 처리에서 상실된 정보는 재현되어 있지 않다.

제2 화상 데이터 Vc와 업스케일 회로(132)로 얻어진 제4 화상 데이터는, 연산 회로(133)에 입력된다. 연산 회로(133)에서는, 2개의 화상 데이터 간의 차분이 취해져, 제3 확장 포맷의 화상 데이터 ES3이 되는 화상 데이터 Vg(UHD HFR Enhanced3)가 얻어진다.

도 19로 돌아가서, 비디오 인코더(102)는 제1, 제2, 제3 확장 포맷의 화상 데이터 ES1, ES2, ES3의 액세스 유닛(AU)의 "SEIs"의 부분에, 신규 정의하는, 상술한 비디오 스케일러빌리티 SEI(도 11 참조)를 삽입한다.

이에 의해, 제1 확장 포맷의 화상 데이터 ES1의 각 액세스 유닛에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보가 삽입된다. 또한, 제2 확장 포맷의 화상 데이터 ES2의 각 액세스 유닛에, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다.

또한, 제3 확장 포맷의 화상 데이터 ES3의 각 액세스 유닛에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보와 함께, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다.

컨테이너 인코더(103)는 비디오 인코더(102)로 얻어진 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe를 포함하는 컨테이너, 여기에서는 MP4(도 8, 도 17 참조)를 배신 스트림 STM으로서 생성한다.

이때, 컨테이너 인코더(103)는 확장 비디오 스트림 STe1, STe2, STe3, 또는 확장 비디오 스트림 STe에 대응한 MP4 스트림에 있어서, "moof" 박스 하에, "udta" 또는 "lays"의 박스를 설치하고, 상술한 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)를 삽입한다.

이에 의해, 제1 확장 포맷의 화상 데이터 ES1의 액세스 유닛을 갖는 "mdat" 박스에 대응한 "moof" 박스에는, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보가 삽입된다. 또한, 제2 확장 포맷의 화상 데이터 ES2의 액세스 유닛을 갖는 "mdat" 박스에 대응한 "moof" 박스에는, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다.

또한, 제3 확장 포맷의 화상 데이터 ES3의 액세스 유닛을 갖는 "mdat" 박스에 대응한 "moof" 박스에는, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보와 함께, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다.

송신부(104)는 컨테이너 인코더(103)로 얻어진 MP4의 배신 스트림 STM을, 방송파 또는 네트의 패킷에 얹어, 서비스 수신기(200)로 송신한다.

도 19에 도시하는 서비스 송신 시스템(100)의 동작을 간단하게 설명한다. 하이 프레임 레이트(HFR)로 초고해상도(UHD)의 화상 데이터 Va가 비디오 인코더(102)에 입력된다. 비디오 인코더(102)에서는, 이 화상 데이터 Va가 처리되어서, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe가 얻어진다.

여기서, 기본 비디오 스트림 STb에는, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터 BS의 액세스 유닛이 포함된다. 확장 비디오 스트림 STe1에는, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 ES2의 액세스 유닛이 포함된다.

확장 비디오 스트림 STe2에는, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 ES2의 액세스 유닛이 포함된다. 확장 비디오 스트림 STe3에는, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터 ES3의 액세스 유닛이 포함된다. 또한, 확장 비디오 스트림 STe에는, 제1, 제2, 제3 확장 포맷의 화상 데이터 ES1, ES2, ES3의 액세스 유닛이 포함된다.

비디오 인코더(102)에서는, 제1, 제2, 제3 확장 포맷의 화상 데이터 ES1, ES2, SE3의 액세스 유닛(AU)의 "SEIs"의 부분에, 비디오 스케일러빌리티 SEI(도 11 참조)가 삽입된다. 이에 의해, 화상 데이터 ES1의 각 액세스 유닛에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보가 삽입된다.

또한, 화상 데이터 ES2의 각 액세스 유닛에, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다. 또한, 화상 데이터 ES3의 각 액세스 유닛에, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보와 함께, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다.

비디오 인코더(102)로 얻어진 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe는, 컨테이너 인코더(103)에 공급된다. 컨테이너 인코더(103)에서는, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 스트림 STe를 포함하는 MP4(도 8, 도 17 참조)가 배신 스트림 STM으로서 생성된다.

이때, 컨테이너 인코더(103)에서는, 확장 비디오 스트림 STe1, STe2, STe3, 또는 확장 비디오 스트림 STe에 대응한 MP4 스트림에 있어서, "moof" 박스 하에, "udta" 또는 "lays"의 박스가 설치되고, 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)가 삽입된다.

이에 의해, 화상 데이터 ES1의 액세스 유닛을 갖는 "mdat" 박스에 대응한 "moof" 박스에는, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보가 삽입된다. 또한, 화상 데이터 ES2의 액세스 유닛을 갖는 "mdat" 박스에 대응한 "moof" 박스에는, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다.

또한, 화상 데이터 ES3의 액세스 유닛을 갖는 "mdat" 박스에 대응한 "moof" 박스에는, 시간 스케일러블인 것을 나타내는 식별 정보, 기본 포맷의 화상 데이터가 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보, 혼합 비율(제1, 제2 비율)의 정보와 함께, 공간 스케일러블인 것을 나타내는 식별 정보, 공간 스케일러블의 비율을 나타내는 정보가 삽입된다.

컨테이너 인코더(103)로 생성된 배신 스트림 STM은 송신부(104)에 공급된다. 송신부(104)에서는, MP4의 배신 스트림 STM을 방송파 또는 네트의 패킷에 싣고, 서비스 수신기(200)로 송신하는 것이 행하여진다.

「서비스 수신기의 구성예」

도 25는, 하이 프레임 레이트로 초고해상도의 동화상 데이터를 처리 가능한 서비스 수신기(200A)의 구성예를 도시하고 있다. 이 서비스 수신기(200A)는 제어부(201)와, 수신부(202)와, 컨테이너 디코더(203)와, 비디오 디코더(204)를 갖고 있다.

제어부(201)는 CPU(Central Processing Unit)를 구비하여 구성되고, 제어 프로그램에 기초하여, 서비스 수신기(200A)의 각 부의 동작을 제어한다. 수신부(202)는 서비스 송신 시스템(100)으로부터 방송파 또는 네트의 패킷에 실어서 보내져 오는 MP4의 배신 스트림 STM을 수신한다.

컨테이너 디코더(103)는 MP4로부터, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe를 추출한다. 상술한 바와 같이, 기본 비디오 스트림 STb에는, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터 BS의 액세스 유닛이 포함되어 있다. 또한, 확장 비디오 스트림 STe1에는, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터 ES1의 액세스 유닛이 포함되어 있다.

또한, 확장 비디오 스트림 STe2에는, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 ES2의 액세스 유닛이 포함되어 있다. 확장 비디오 스트림 STe3에는, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터 ES3의 액세스 유닛이 포함되어 있다. 또한, 확장 비디오 스트림 STe에는, 제1, 제2, 제3 확장 포맷의 화상 데이터 ES1, ES2, ES3의 액세스 유닛이 포함되어 있다.

또한, 컨테이너 디코더(203)는 MP4로부터 메타 정보를 추출하고, 제어부(201)에 보낸다. 이 메타 정보에는, 확장 비디오 스트림 STe1, STe2, STe3, 또는 확장 비디오 스트림 STe에 대응한 MP4 스트림에 있어서, "moof" 박스 하에 설치된 "udta" 또는 "lays"의 박스에 삽입되어 있는 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)도 포함된다.

제어부(201)는 이 비디오 스케일러빌리티 인포메이션 디스크립터로부터, 제1 확장 포맷의 화상 데이터 ES1에 의한 확장이 시간 스케일러블인 것, 기본 포맷의 화상 데이터 BS가 혼합 처리를 실시하여 얻어진 화상 데이터인 것, 혼합 비율(제1, 제2 비율) 등을 인식한다. 또한, 제어부(201)는 이 비디오 스케일러빌리티 인포메이션 디스크립터로부터, 제2 확장 포맷의 화상 데이터 ES2에 의한 확장이 공간 스케일러블인 것, 공간 스케일러블의 비율 등을 인식한다.

또한, 제어부(201)는 이 비디오 스케일러빌리티 인포메이션 디스크립터로부터, 제3 확장 포맷의 화상 데이터 ES3에 의한 확장이 시간 스케일러블 및 공간 스케일러블인 것, 기본 포맷의 화상 데이터 BS가 혼합 처리를 실시하여 얻어진 화상 데이터인 것, 혼합 비율(제1, 제2 비율), 공간 스케일러블의 비율 등을 인식한다.

비디오 디코더(204)는 컨테이너 디코더(203)로 추출된 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe를 처리하여, 하이 프레임 레이트(HFR)로 초고해상도(UHD)의 화상 데이터 Va'를 얻는다. 여기서, 화상 데이터 Va'의 대시 「'」는, 부호화, 복호화의 처리를 거침으로써, 상술한 비디오 인코더(102)(도 19 참조)에 입력되는 화상 데이터 Va와는 완전히 동일값은 되지 않을 가능성이 있는 것을 의미하고 있다. 이하의 다른 화상 데이터에 대해서도 마찬가지이다.

여기서, 비디오 디코더(204)는 각 비디오 스트림을 구성하는 액세스 유닛에 삽입되어 있는 파라미터 세트나 SEI를 추출하고, 제어부(201)에 보낸다. 이 SEI에는, 제1, 제2, 제3 확장 포맷의 화상 데이터 ES1, ES2, ES3의 액세스 유닛(AU)에 삽입되어 있는 비디오 스케일러빌리티 SEI(도 11 참조)도 포함된다.

제어부(201)는 이 비디오 스케일러빌리티 SEI로부터, 제1 확장 포맷의 화상 데이터 ES1에 의한 확장이 시간 스케일러블인 것, 기본 포맷의 화상 데이터 BS가 혼합 처리를 실시하여 얻어진 화상 데이터인 것, 혼합 비율(제1, 제2 비율) 등을 인식한다. 또한, 제어부(201)는 이 비디오 스케일러빌리티 SEI로부터, 제2 확장 포맷의 화상 데이터 ES2에 의한 확장이 공간 스케일러블인 것, 또한 공간 스케일러블의 비율 등을 인식한다.

또한, 제어부(201)는 이 비디오 스케일러빌리티 SEI로부터, 제3 확장 포맷의 화상 데이터 ES3에 의한 확장이 시간 스케일러블 및 공간 스케일러블인 것, 또한, 기본 포맷의 화상 데이터 BS가 혼합 처리를 실시하여 얻어진 화상 데이터인 것, 혼합 비율(제1, 제2 비율), 공간 스케일러블의 비율 등을 인식한다.

도 26은, 비디오 디코더(204)의 구성을 개략적으로 도시하고 있다. 비디오 디코더(204)는 인버스 프로세스　1(Inverse Process 1)의 처리를 행하는 신호 처리부(204a)와, 인버스 프로세스　2(Inverse Process 2)의 처리를 행하는 신호 처리부(204b)와, 인버스 프로세스　3(Inverse Process 3)의 처리를 행하는 신호 처리부(204c)와, 일반적인 복호화 처리를 행하는 복호화 처리부(204d)를 포함하고 있다.

여기서, 인버스 프로세스　1의 처리는, 상술한 비디오 인코더(102)의 신호 처리부(102a)로 행하여지는 프로세스 1의 처리의 역처리가 된다. 마찬가지로, 인버스 프로세스　2의 처리는, 상술한 비디오 인코더(102)의 신호 처리부(102b)로 행하여지는 프로세스(2)의 처리의 역처리가 된다. 또한, 마찬가지로, 인버스 프로세스　3의 처리는, 상술한 비디오 인코더(102)의 신호 처리부(102c)로 행하여지는 프로세스(3)의 처리의 역처리가 된다.

도 27은, 비디오 디코더(204)에 있어서의 신호 처리부(204a), 신호 처리부(204b) 및 신호 처리부(204c)의 부분을 도시하고 있다. 도시된 예에서는, 하이 프레임 레이트가 120Hz인 경우를 나타내고 있다. 신호 처리부(204b)는 기본 포맷의 화상 데이터 BS'인 화상 데이터 Vd'(HD 60Hz Base)와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 ES2'인 화상 데이터 Ve'(UHD 60Hz Enhanced2)를 처리하여, 기본 프레임 레이트의 화상 데이터인 제1 화상 데이터 Vb'(UHD 60Hz Base)를 얻는다.

신호 처리부(204c)는 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터 ES1'인 화상 데이터 Vf'(HD HFR Enhanced1)와, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터 ES3'인 화상 데이터 Vg'(UHD HFR Enhanced3)를 처리하여, 하이 프레임 레이트의 확장 프레임의 화상 데이터인 제2 화상 데이터 Vc'(UHD HFR Enhanced)를 얻는다. 신호 처리부(204a)는 제1 화상 데이터 Vb'(UHD 60Hz Base)와, 제2 화상 데이터 Vc'(UHD HFR Enhanced)를 처리하여, 하이 프레임 레이트로 초고해상도의 화상 데이터 Va'(120Hz UHD)를 얻는다.

도 28의 (a)는 신호 처리부(204b)의 구성예를 도시하고 있다. 이 신호 처리부(204b)는 업스케일 회로(211)와, 연산 회로(212)를 갖고 있다. 기본 포맷의 화상 데이터 BS'인 화상 데이터 Vd'(HD 60Hz Base)는 업스케일 회로(211)에 입력된다. 이 업스케일 회로(211)에서는, 화상 데이터 Vd'에 대하여 고해상도로부터 초고해상도로의 업스케일 처리가 실시되어서 제3 화상 데이터가 얻어진다. 여기서, 업스케일 회로(211)에서는, 상술한 바와 같이 비디오 스케일러빌리티 SEI(도 11 참조) 또는 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)에 삽입되어 있는 공간 스케일러블의 비율을 나타내는 정보가 사용되고, 적절한 업스케일 처리가 실시된다.

제2 확장 포맷의 화상 데이터 ES2'인 화상 데이터 Ve'(UHD 60Hz Enhanced2)와, 업스케일 회로(211)로 얻어진 제3 화상 데이터는, 연산 회로(212)에 입력된다. 연산 회로(212)에서는, 2개의 화상 데이터가 가산되어, 기본 프레임 레이트의 화상 데이터인 제1 화상 데이터 Vb'(UHD 60Hz Base)가 얻어진다.

도 28의 (b)는 신호 처리부(204c)의 구성예를 도시하고 있다. 이 신호 처리부(204c)는 업스케일 회로(221)와, 연산 회로(222)를 갖고 있다. 제1 확장 포맷의 화상 데이터 ES1'인 화상 데이터 Vf'(HD HFR Enhanced1)는 업스케일 회로(221)에 입력된다. 이 업스케일 회로(221)에서는, 화상 데이터 Vf'에 대하여 고해상도로부터 초고해상도로의 업스케일 처리가 실시되어서 제4 화상 데이터가 얻어진다. 여기서, 업스케일 회로(221)에서는, 상술한 바와 같이 비디오 스케일러빌리티 SEI(도 11 참조) 또는 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)에 삽입되어 있는 공간 스케일러블의 비율을 나타내는 정보가 사용되고, 적절한 업스케일 처리가 실시된다.

제3 확장 포맷의 화상 데이터 ES3'인 화상 데이터 Vg'(UHD 60Hz Enhanced2)와, 업스케일 회로(221)로 얻어진 제4 화상 데이터는, 연산 회로(222)에 입력된다. 연산 회로(222)에서는, 2개의 화상 데이터가 가산되어, 하이 프레임 레이트의 확장 프레임의 화상 데이터인 제2 화상 데이터 Vc'(UHD HFR Enhanced)가 얻어진다.

도 29의 (a)는 신호 처리부(204a)의 구성예를 도시하고 있다. 이 신호 처리부(204a)는 연산 회로(241)와, 스위치 회로(242)를 갖고 있다. 또한, 연산 회로(241)는 계수 승산부(241a, 241b, 241c, 241d)와, 가산부(241e, 241f)를 갖고 있다. 연산 회로(241)는 도 22의 (a)의 신호 처리부(102a)에 있어서의 연산 회로(112)에 있어서의 혼합 처리와는 역의 처리(역혼합 처리)를 한다.

계수 승산부(241a, 241b) 및 가산부(241e)는 제1 화상 데이터 Vb' 및 제2 화상 데이터 Vc'로부터, 상기 시간적으로 연속되는 2개의 픽처 단위로 1번째의 픽처의 화상 데이터를 얻기 위하여 사용된다. 계수 승산부(241a)에서는 계수 u가 승산되고, 계수 승산부(241b)에서는 계수 v가 승산된다. 또한, 계수 승산부(241c, 241d) 및 가산부(241f)는 제1 화상 데이터 Vb' 및 제2 화상 데이터 Vc'로부터, 상기 시간적으로 연속되는 2개의 픽처 단위로 2번째의 픽처의 화상 데이터를 얻기 위하여 사용된다. 계수 승산부(241c)에서는 계수 w가 승산되고, 계수 승산부(241d)에서는 계수 z가 승산된다.

제1 화상 데이터 Vb'(UHD 60Hz Base)는 연산 회로(241)를 구성하는 계수 승산부(241a, 241c)에 입력된다. 또한, 제2 화상 데이터 Vc'(UHD HFR Enhanced)는 연산 회로(241)를 구성하는 계수 승산부(241b, 241d)에 입력된다. 계수 승산부(241a, 241b)의 출력은 가산부(241e)에 입력되어서 가산된다. 또한, 계수 승산부(241c, 241d)의 출력은 가산부(241f)에 입력되어서 가산된다.

이 경우, 가산부(241e)의 출력으로서 상기 시간적으로 연속되는 2개의 픽처 단위로 1번째의 픽처의 화상 데이터 A가 얻어짐과 함께, 가산부(241f)의 출력으로서 상기 시간적으로 연속되는 2개의 픽처 단위로 2번째의 픽처의 화상 데이터 B가 얻어진다. 도 29의 (b)는 연산 회로(241)에 있어서의 역혼합 처리를 위한 연산을 수식으로 나타낸 것이다. 또한, 도 29의 (c)는 계수 u, v, w, z와 계수 p, q, r, s의 대응 관계를 행렬식으로 나타내고 있다.

연산 회로(241)의 가산부(241e, 241f)의 출력은, 각각, 스위치 회로(242)의 a측, b측의 고정 단자에 입력된다. 스위치 회로(242)는 120Hz의 주기로, a측, b측에 교대로 전환된다. 이 스위치 회로(242)로부터는, 화상 데이터 A, B가 합성된, 하이 프레임 레이트로 초고해상도의 화상 데이터 Va'(120Hz UHD)가 얻어진다.

여기서, 연산 회로(241)에서는, 상술한 바와 같이 비디오 스케일러빌리티 SEI(도 11 참조) 또는 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)에 삽입되어 있는 혼합 비율(제1, 제2 비율)의 정보, 즉 p, q, r, s의 정보가 사용되고, 적절한 역혼합 처리가 실시된다.

도 25에 도시하는 서비스 수신기(200A)의 동작을 간단하게 설명한다. 수신부(202)에서는, 서비스 송신 시스템(100)으로부터 방송파 또는 네트의 패킷에 실어서 보내져 오는 MP4의 배신 스트림 STM이 수신된다. 이 배신 스트림 STM은, 컨테이너 디코더(203)에 공급된다. 컨테이너 디코더(203)에서는, MP4로부터 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe가 추출된다.

기본 비디오 스트림 STb에는, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터 BS의 액세스 유닛이 포함되어 있다. 또한, 확장 비디오 스트림 STe1에는, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터 ES1의 액세스 유닛이 포함되어 있다. 또한, 확장 비디오 스트림 STe2에는, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 ES2의 액세스 유닛이 포함되어 있다. 또한, 확장 비디오 스트림 STe3에는, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터 ES3의 액세스 유닛이 포함되어 있다. 또한, 확장 비디오 스트림 STe에는, 제1, 제2, 제3 확장 포맷의 화상 데이터 ES1, ES2, ES3의 액세스 유닛이 포함되어 있다.

또한, 컨테이너 디코더(203)에서는, MP4로부터 메타 정보가 추출되어, 제어부(201)에 보내진다. 이 메타 정보에는, 확장 비디오 스트림 STe1, STe2, STe3, 또는 확장 비디오 스트림 STe에 대응한 MP4 스트림에 있어서, "moof" 박스 하에 설치된 "udta" 또는 "lays"의 박스에 삽입되어 있는 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)도 포함된다.

제어부(201)에서는, 이 비디오 스케일러빌리티 인포메이션 디스크립터로부터, 제1 확장 포맷의 화상 데이터 ES1에 의한 확장이 시간 스케일러블인 것, 기본 포맷의 화상 데이터 BS가 혼합 처리를 실시하여 얻어진 화상 데이터인 것, 혼합 비율(제1, 제2 비율) 등이 인식된다. 또한, 제어부(201)에서는, 이 비디오 스케일러빌리티 인포메이션 디스크립터로부터, 제2 확장 포맷의 화상 데이터 ES2에 의한 확장이 공간 스케일러블인 것, 공간 스케일러블의 비율 등이 인식된다.

또한, 제어부(201)에서는, 이 비디오 스케일러빌리티 인포메이션 디스크립터로부터, 제3 확장 포맷의 화상 데이터 ES3에 의한 확장이 시간 스케일러블 및 공간 스케일러블인 것, 기본 포맷의 화상 데이터 BS가 혼합 처리를 실시하여 얻어진 화상 데이터인 것, 혼합 비율(제1, 제2 비율), 공간 스케일러블의 비율 등이 인식된다.

컨테이너 디코더(203)로 추출된 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe는, 비디오 디코더(204)에 공급된다. 비디오 디코더(204)에서는, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe가 처리되어서, 하이 프레임 레이트(HFR)로 초고해상도(UHD)의 화상 데이터 Va'가 얻어진다.

여기서, 비디오 디코더(204)에서는, 각 비디오 스트림을 구성하는 액세스 유닛에 삽입되어 있는 파라미터 세트나 SEI가 추출되어, 제어부(201)에 보내진다. 이 SEI에는, 제1, 제2 확장 포맷의 화상 데이터 ES1, ES2의 액세스 유닛(AU)에 삽입되어 있는 비디오 스케일러빌리티 SEI(도 11 참조)도 포함된다.

제어부(201)에서는, 이 비디오 스케일러빌리티 SEI로부터, 제1 확장 포맷의 화상 데이터 ES1에 의한 확장이 시간 스케일러블인 것, 기본 포맷의 화상 데이터 BS가 혼합 처리를 실시하여 얻어진 화상 데이터인 것, 혼합 비율(제1, 제2 비율) 등이 인식된다. 또한, 제어부(201)에서는, 이 비디오 스케일러빌리티 인포메이션 디스크립터로부터, 제2 확장 포맷의 화상 데이터 ES2에 의한 확장이 공간 스케일러블인 것, 공간 스케일러블의 비율 등을 인식할 수 있다.

도 30은, 하이 프레임 레이트로 고해상도의 동화상 데이터를 처리 가능한 서비스 수신기(200B)의 구성예를 도시하고 있다. 이 도 30에 있어서, 도 25와 대응하는 부분에는 동일 부호, 또는 「B」를 첨부한 부호를 붙이고, 적절히, 그 상세 설명을 생략한다. 이 서비스 수신기(200B)는 수신부(201)와, 컨테이너 디코더(203B)와, 비디오 디코더(204B)를 갖고 있다.

수신부(201)에서는, 서비스 송신 시스템(100)으로부터 방송파 또는 네트의 패킷에 실어서 보내져 오는 MP4의 배신 스트림 STM이 수신된다. 이 배신 스트림 STM은, 컨테이너 디코더(203B)에 공급된다. 컨테이너 디코더(203B)에서는, MP4로부터 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe가 추출된다.

컨테이너 디코더(203B)로 추출된 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe는, 비디오 디코더(204B)에 공급된다. 비디오 디코더(204B)에서는, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe가 처리되어서, 하이 프레임 레이트로 고해상도의 화상 데이터 Vh'가 얻어진다.

이 경우, 비디오 디코더(204B)에서는, 기본 포맷의 화상 데이터 BS'인 화상 데이터 Vd'(HD 60Hz Base)와, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터 ES1'인 화상 데이터 Vf'(HD HFR Enhanced1)가 상술한 신호 처리부(204a)(도 27, 도 29 참조)와 동일한 신호 처리부에 입력되어, 그 출력으로서 하이 프레임 레이트로 고해상도의 화상 데이터 Vh'가 얻어진다.

도 31은, 기본 프레임 레이트로 초고해상도의 동화상 데이터를 처리 가능한 서비스 수신기(200C)의 구성예를 도시하고 있다. 이 도 31에 있어서, 도 25와 대응하는 부분에는 동일 부호, 또는 「C」를 첨부한 부호를 붙이고, 적절히, 그 상세 설명을 생략한다. 이 서비스 수신기(200C)는 수신부(201)와, 컨테이너 디코더(203C)와, 비디오 디코더(204C)를 갖고 있다.

수신부(201)에서는, 서비스 송신 시스템(100)으로부터 방송파 또는 네트의 패킷에 실어서 보내져 오는 MP4의 배신 스트림 STM이 수신된다. 이 배신 스트림 STM은, 컨테이너 디코더(203B)에 공급된다. 컨테이너 디코더(203B)에서는, MP4로부터 기본 비디오 스트림 STb와 확장 비디오 스트림 STe2, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe가 추출된다.

컨테이너 디코더(203C)로 추출된 기본 비디오 스트림 STb와 확장 비디오 스트림 STe2, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe는, 비디오 디코더(204C)에 공급된다. 비디오 디코더(204C)에서는, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe2, 또는 기본 비디오 스트림 STb와 확장 비디오 스트림 STe가 처리되어서, 기본 프레임 레이트로 초고해상도의 화상 데이터 Vb'가 얻어진다.

이 경우, 비디오 디코더(204C)에서는, 기본 포맷의 화상 데이터 BS'인 화상 데이터 Vd'(HD 60Hz Base)와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 ES2'인 화상 데이터 Ve'(UHD 60Hz Enhanced2)가 상술한 신호 처리부(204b)(도 27, 도 28의 (a) 참조)와 동일한 신호 처리부에 입력되어, 그 출력으로서 기본 프레임 레이트로 초고해상도의 화상 데이터 Vb'가 얻어진다.

도 32는, 기본 프레임 레이트로 고해상도의 동화상 데이터를 처리 가능한 서비스 수신기(200D)의 구성예를 도시하고 있다. 이 도 32에 있어서, 도 25와 대응하는 부분에는 동일 부호, 또는 「D」를 첨부한 부호를 붙이고, 적절히, 그 상세 설명을 생략한다. 이 서비스 수신기(200D)는 수신부(201)와, 컨테이너 디코더(203D)와, 비디오 디코더(204D)를 갖고 있다.

수신부(201)에서는, 서비스 송신 시스템(100)으로부터 방송파 또는 네트의 패킷에 실어서 보내져 오는 MP4의 배신 스트림 STM이 수신된다. 이 배신 스트림 STM은, 컨테이너 디코더(203D)에 공급된다. 컨테이너 디코더(203D)에서는, MP4로부터 기본 비디오 스트림 STb만이 추출된다.

컨테이너 디코더(203D)로 추출된 기본 비디오 스트림 STb는, 비디오 디코더(204D)에 공급된다. 비디오 디코더(204D)에서는, 기본 비디오 스트림 STb만이 처리되어서, 기본 프레임 레이트로 고해상도의 화상 데이터 Vd'가 얻어진다. 이 경우, 비디오 디코더(204D)에는, 상술한 비디오 디코더(205)가 갖는 각 신호 처리부(도 26 참조)는 불필요하다.

상술한 바와 같이, 도 3에 도시하는 송수신 시스템(10)에 있어서는, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림이 송신된다. 그로 인해, 하이 프레임 레이트로 초고해상도의 화상 데이터를 수신측에 있어서 하위 호환을 양호하게 실현 가능하게 전송된다.

예를 들어, 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 표시가 가능하게 된다. 또한, 예를 들어, 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 스트림의 양쪽을 처리하여 하이 프레임 레이트로 고해상도의 화상 표시가 가능하게 된다.

또한, 예를 들어, 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 스트림의 양쪽을 처리하여 기본 프레임 레이트로 초고해상도의 화상 표시가 가능하게 된다. 또한, 예를 들어, 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기의 경우, 기본 비디오 스트림 및 확장 스트림의 양쪽을 처리하여 하이 프레임 레이트로 초고해상도의 화상 표시가 가능하게 된다.

또한, 도 3에 도시하는 송수신 시스템(10)에 있어서는, 기본 포맷의 화상 데이터는, 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 제1 화상 데이터에 다운 스케일 처리를 실시함으로써 얻어진 것이다. 그로 인해, 수신측에서 기본 비디오 스트림만을 처리하여 표시되는 기본 프레임 레이트로 고해상도의 화상은 스트로빙 효과가 억제된 매끄러운 화상이 된다.

<2. 변형예>

또한, 상술 실시 형태에 있어서는, 컨테이너가 MP4(ISOBMFF)인 예를 나타냈다. 그러나, 본 기술은, 컨테이너가 MP4에 한정되는 것은 아니며, MPEG-2 TS나 MMT 등의 다른 포맷의 컨테이너여도 마찬가지로 적용할 수 있다.

예를 들어, MPEG-2 TS의 경우에는, 도 19에 도시하는 서비스 송신 시스템(100)의 컨테이너 인코더(103)에서는, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 스트림 STe를 포함하는 트랜스포트 스트림(Transport Stream)이 생성된다.

이때, 컨테이너 인코더(103)에서는, 프로그램 맵 테이블(PMT: Program Map Table)의 관리 하의 확장 비디오 스트림에 대응한 비디오 엘리멘터리 스트림 루프에, 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)가 삽입된다.

도 33은, 4스트림 구성의 전송의 경우에 있어서의 트랜스포트 스트림의 구성예를 도시하고 있다. 이 구성예에서는, PID1로 식별되는 비디오 스트림의 PES 패킷 「video PES1」과, PID2로 식별되는 비디오 스트림의 PES 패킷 「video PES2」와, PID3으로 식별되는 비디오 스트림의 PES 패킷 「video PES3」과, PID4로 식별되는 비디오 스트림의 PES 패킷 「video PES4」이 존재한다.

PES 패킷 「video PES1」의 페이로드에는, 기본 비디오 스트림 STb의 액세스 유닛(부호화 화상 데이터)이 포함된다. PES 패킷 「video PES2」의 페이로드에는, 확장 비디오 스트림 STe1의 액세스 유닛(부호화 화상 데이터)이 포함된다. PES 패킷 「video PES3」의 페이로드에는, 확장 비디오 스트림 STe2의 액세스 유닛(부호화 화상 데이터)이 포함된다. PES 패킷 「video PES4」의 페이로드에는, 확장 비디오 스트림 STe3의 액세스 유닛(부호화 화상 데이터)이 포함된다. PES 패킷 「video PES2」, PES 패킷 「video PES3」 및 PES 패킷 「video PES4」로 컨테이너되는 각 픽처의 액세스 유닛(부호화 화상 데이터)에는, 비디오 스케일러빌리티 SEI(도 11 참조)가 삽입된다.

또한, 트랜스포트 스트림에는, PSI(Program Specific Information)로서, PMT(Program Map Table)가 포함되어 있다. PSI는, 트랜스포트 스트림에 포함되는 각 엘리멘터리 스트림이 어느 프로그램에 속해 있을지를 기재한 정보이다.

PMT에는, 각 비디오 스트림에 대응한 비디오 엘리멘터리 스트림 루프(video ES loop)가 존재한다. 비디오 엘리멘터리 스트림 루프(video ES loop)에는, 비디오 스트림에 대응하고, 스트림 타입, PID(패킷 식별자) 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다.

「video ES1 loop」에는, 기본 비디오 스트림(video PES1)에 대응하고, 스트림 타입, 패킷 식별자(PID) 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다. 이 스트림 타입은, 기본 비디오 스트림을 나타내는 "0x24"로 된다.

또한, 「video ES2 loop」, 「video ES3 loop」, 「video ES4 loop」에는, 각각, 확장 비디오 스트림(video PES2), 확장 비디오 스트림(video PES3), 확장 비디오 스트림(video PES4)에 대응하고, 스트림 타입, 패킷 식별자(PID) 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다. 이 스트림 타입은, 확장 비디오 스트림을 나타내는 "0x2x"로 된다. 또한, 디스크립터의 하나로서, 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)가 삽입된다.

도 34는, 2스트림 구성의 전송의 경우에 있어서의 트랜스포트 스트림의 구성예를 도시하고 있다. 이 구성예에서는, PID1로 식별되는 비디오 스트림의 PES 패킷 「video PES1」과, PID2로 식별되는 비디오 스트림의 PES 패킷 「video PES2」이 존재한다.

PES 패킷 「video PES1」의 페이로드에는, 기본 비디오 스트림 STb의 액세스 유닛(부호화 화상 데이터)이 포함된다. PES 패킷 「video PES2」의 페이로드에는, 확장 비디오 스트림 STe의 액세스 유닛(부호화 화상 데이터)이 포함된다. PES 패킷 「video PES2」로 컨테이너되는 각 픽처의 액세스 유닛(부호화 화상 데이터)에는, 비디오 스케일러빌리티 SEI(도 11 참조)가 삽입된다.

또한, PMT의 관리 하에, 기본 비디오 스트림 「video PES1」과, 확장 비디오 스트림 「video PES2」에 대응한 비디오 엘리멘터리 스트림 루프(video ES loop)가 존재한다. 비디오 엘리멘터리 스트림 루프(video ES loop)에는, 비디오 스트림에 대응하고, 스트림 타입, PID(패킷 식별자) 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다.

또한, 「video ES2 loop」에는, 확장 비디오 스트림(video PES2)에 대응하고, 스트림 타입, 패킷 식별자(PID) 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다. 이 스트림 타입은, 확장 비디오 스트림을 나타내는 "0x2x"로 된다. 또한, 디스크립터의 하나로서, 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)가 삽입된다.

또한, 예를 들어, MMT의 경우에는, 도 19에 도시하는 서비스 송신 시스템(100)의 컨테이너 인코더(103)에서는, 기본 비디오 스트림 STb와 확장 비디오 스트림 STe1, STe2, STe3, 또는 기본 비디오 스트림 STb와 확장 스트림 STe를 포함하는 MMT 스트림(MMT Stream)이 생성된다.

이때, 컨테이너 인코더(103)에서는, MMT·패키지·테이블(MPT: MMT Package Table)의 관리 하의 확장 비디오 스트림에 대응한 비디오 애셋 루프에, 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)가 삽입된다.

도 35는, 4스트림 구성의 전송의 경우에 있어서의 MMT 스트림의 구성예를 도시하고 있다. 이 구성예에서는, 패킷 타입이 MPU이며, ID1로 식별되는 비디오 스트림의 MPU 패킷 「video MPU1」과, 패킷 타입이 MPU이며, ID2로 식별되는 비디오 스트림의 MPU 패킷 「video MPU2」와, 패킷 타입이 MPU이며, ID3으로 식별되는 비디오 스트림의 MPU 패킷 「video MPU3」과, 패킷 타입이 MPU이며, ID4로 식별되는 비디오 스트림의 MPU 패킷 「video MPU4」이 존재한다.

MPU 패킷 「video MPU1」의 페이로드에는, 기본 비디오 스트림 STb의 액세스 유닛(부호화 화상 데이터)이 포함된다. MPU 패킷 「video MPU2」의 페이로드에는, 확장 비디오 스트림 STe1의 액세스 유닛(부호화 화상 데이터)이 포함된다. MPU 패킷 「video MPU3」의 페이로드에는, 확장 비디오 스트림 STe2의 액세스 유닛(부호화 화상 데이터)이 포함된다. MPU 패킷 「video MPU4」의 페이로드에는, 확장 비디오 스트림 STe3의 액세스 유닛(부호화 화상 데이터)이 포함된다. MPU 패킷 「video MPU2」, MPU 패킷 「video MPU3」 및 MPU 패킷 「video MPU4」로 컨테이너되는 각 픽처의 액세스 유닛(부호화 화상 데이터)에는, 비디오 스케일러빌리티 SEI(도 11 참조)가 삽입된다.

또한, MMT 스트림에는, 패킷 타입이 message일 경우, 여러가지 메시지 패킷이 배치되는데, 그 중 하나로서 PA(Packet Access) 메시지 패킷이 있다. PA 메시지 패킷에는, MPT 등의 테이블이 포함되어 있다. MPT에는, 각 애셋(비디오 스트림)에 대응한 비디오 애셋 루프(video asset loop)가 존재한다. 비디오 애셋 루프(video asset loop)에는, 애셋(비디오 스트림)에 대응하고, 애셋 타입(Asset_type), 패킷 ID(Packet_id) 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다.

「video asset1 loop」에는, 기본 비디오 스트림(video MPU1)에 대응하고, 애셋 타입, 애셋 ID 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다. 이 애셋 타입은, 기본 비디오 스트림을 나타내는 "0x24"로 된다.

또한, 「video asset2 loop」, 「video asset3 loop」, 「video asset4 loop」에는, 각각, 확장 비디오 스트림(video MPU2), 확장 비디오 스트림(video MPU3), 확장 비디오 스트림(video MPU4)에 대응하고, 애셋 타입, 애셋 ID 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다. 이 애셋 타입은, 확장 비디오 스트림을 나타내는 "0x2x"로 된다. 또한, 디스크립터의 하나로서, 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)가 삽입된다.

도 36은, 2스트림 구성의 전송의 경우에 있어서의 MMT 스트림의 구성예를 도시하고 있다. 이 구성예에서는, ID1로 식별되는 비디오 스트림의 MPU 패킷 「video MPU1」과, ID2로 식별되는 비디오 스트림의 MPU 패킷 「video MPU2」이 존재한다.

MPU 패킷 「video MPU1」의 페이로드에는, 기본 비디오 스트림 STb의 액세스 유닛(부호화 화상 데이터)이 포함된다. MPU 패킷 「video MPU2」의 페이로드에는, 확장 비디오 스트림 STe의 액세스 유닛(부호화 화상 데이터)이 포함된다. MPU 패킷 「video PES2」로 컨테이너되는 각 픽처의 액세스 유닛(부호화 화상 데이터)에는, 비디오 스케일러빌리티 SEI(도 11 참조)가 삽입된다.

또한, MPT의 관리 하에, 기본 비디오 스트림 「video MPU1」과, 확장 비디오 스트림 「video MPU2」에 대응한 비디오 애셋 루프(video asset loop)가 존재한다. 비디오 애셋 루프(video asset loop)에는, 비디오 스트림에 대응하고, 애셋 타입, 애셋 ID 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다.

「video asset1 loop」에는, 기본 비디오 스트림(video MPU1)에 대응하고, 스트림 타입, 패킷 식별자(PID) 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다. 이 애셋 타입은, 기본 비디오 스트림을 나타내는 "0x24"로 된다.

또한, 「video ES2 loop」에는, 확장 비디오 스트림(video PES2)에 대응하고, 애셋 타입, 애셋 ID 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련되는 정보를 기술하는 디스크립터도 배치된다. 이 애셋 타입은, 확장 비디오 스트림을 나타내는 "0x2x"로 된다. 또한, 디스크립터의 하나로서, 비디오 스케일러빌리티 인포메이션 디스크립터(도 13 참조)가 삽입된다.

또한, 상술 실시 형태에 있어서는, 확장 비디오 스트림이 3개 또는 하나인 예를 나타냈다. 그러나, 확장 비디오 스트림이 2개인 예도 생각된다. 그 경우, 예를 들어, 확장 비디오 스트림 STe1에는, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터 ES1의 액세스 유닛이 포함된다. 그리고, 확장 비디오 스트림 STe2에는, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 ES2의 액세스 유닛과, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터 ES3의 액세스 유닛이 포함된다.

또한, 본 기술은, 이하와 같은 구성을 취할 수도 있다.

(1) 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터와, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터와, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터를 얻는 화상 처리부와,

상기 화상 처리부는,

송신 장치.

(2) 상기 화상 부호화부는,

상기 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 상기 기본 비디오 스트림과, 상기 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 각각 포함하는 3개의 확장 비디오 스트림 또는 상기 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터의 모두를 포함하는 하나의 확장 비디오 스트림을 생성하는

상기 (1)에 기재된 송신 장치.

(3) 상기 제1 확장 포맷의 화상 데이터의 부호화 화상 데이터에 시간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 상기 제2 확장 포맷의 화상 데이터의 부호화 화상 데이터에 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 상기 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에 시간 스케일러블 및 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하는 정보 삽입부를 더 구비하는

상기 (1) 또는 (2)에 기재된 송신 장치.

(4) 상기 정보 삽입부는,

상기 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 공간 스케일러블의 비율을 나타내는 정보를 더 삽입하는

상기 (3)에 기재된 송신 장치.

(5) 상기 정보 삽입부는,

상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 상기 기본 포맷의 화상 데이터가 상기 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보를 더 삽입하는

상기 (3) 또는 (4)에 기재된 송신 장치.

(6) 상기 정보 삽입부는,

상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 상기 제1 비율의 정보 및 상기 제2 비율의 정보를 더 삽입하는

상기 (3) 내지 (5) 중 어느 하나에 기재된 송신 장치.

(7) 상기 컨테이너의 레이어에, 상기 제1 확장 포맷의 화상 데이터의 부호화 화상 데이터에 대응하여 시간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 상기 제2 확장 포맷의 화상 데이터의 부호화 화상 데이터에 대응하여 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 상기 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에 대응하여 시간 스케일러블 및 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하는 정보 삽입부를 더 구비하는

상기 (1) 내지 (6) 중 어느 하나에 기재된 송신 장치.

(8) 상기 정보 삽입부는,

상기 컨테이너의 레이어에, 상기 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터 각각에 대응하여, 공간 스케일러블의 비율을 나타내는 정보를 더 삽입하는

상기 (7)에 기재된 송신 장치.

(9) 상기 정보 삽입부는,

상기 컨테이너의 레이어에, 상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터 각각에 대응하여, 상기 기본 포맷의 화상 데이터가 상기 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보를 더 삽입하는

상기 (7) 또는 (8)에 기재된 송신 장치.

(10) 상기 정보 삽입부는,

상기 컨테이너의 레이어에, 상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에 각각 대응하여, 상기 제1 비율의 정보 및 상기 제2 비율의 정보를 더 삽입하는

상기 (7) 내지 (9) 중 어느 하나에 기재된 송신 장치.

(11) 상기 기본 비디오 스트림과 상기 소정수의 확장 비디오 스트림을 수신 장치로 취득시키기 위한 메타 정보를 갖는 메타파일을 송신하는 송신부를 더 구비하고,

상기 메타파일에는 스케일러빌리티의 대응을 나타내는 정보가 삽입되는

상기 (1) 내지 (10) 중 어느 하나에 기재된 송신 장치.

(12) 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터와, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터와, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터를 얻는 화상 처리 스텝과,

상기 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 상기 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 생성하는 화상 부호화 스텝과,

송신부에 의해, 상기 기본 스트림 및 상기 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신 스텝을 갖고,

상기 화상 처리 스텝에서는,

송신 방법.

(13) 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 갖는 기본 비디오 스트림과, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신부를 구비하고,

수신 장치.

(14) 상기 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는, 그 부호화 화상 데이터에 대응한 컨테이너 위치에, 공간 스케일러블의 비율을 나타내는 정보가 삽입되어 있고,

상기 처리부는, 상기 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 상기 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 경우, 상기 삽입되어 있는 공간 스케일러블의 비율을 나타내는 정보를 사용하는

상기 (13)에 기재된 수신 장치.

(15) 상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는, 그 부호화 화상 데이터에 대응한 컨테이너 위치에, 상기 제1 비율의 정보 및 상기 제2 비율의 정보가 삽입되어 있고,

상기 처리부는, 상기 하이 프레임 레이트로 고해상 후의 화상 데이터 또는 상기 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 경우, 상기 삽입되어 있는 제1 비율의 정보 및 제2 비율의 정보를 사용하는

상기 (13) 또는 (14)에 기재된 수신 장치.

(16) 수신부에 의해, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 갖는 기본 비디오 스트림과, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신 스텝을 갖고,

상기 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 데이터를 얻거나, 또는 상기 소정수의 확장 비디오 스트림의 일부 또는 전부의 스트림을 처리하여 하이 프레임 레이트로 고해상 후의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 처리 스텝을 더 갖는

수신 방법.

(17) 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터와, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터와, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터를 얻는 화상 처리부와,

상기 기본 스트림 및 상기 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신부를 구비하는

송신 장치.

(18) 상기 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는, 그 부호화 화상 데이터에 대응한 컨테이너 위치에, 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는, 그 부호화 화상 데이터에 대응한 컨테이너 위치에, 시간 스케일러블인 것을 나타내는 식별 정보를 삽입하는 정보 삽입부를 더 구비하는

상기 (17)에 기재된 송신 장치.

(19) 상기 기본 비디오 스트림과 상기 소정수의 확장 비디오 스트림을 수신 장치로 취득시키기 위한 메타 정보를 갖는 메타파일을 송신하는 송신부를 더 구비하고,

상기 (17) 또는 (18)에 기재된 송신 장치.

(20) 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 갖는 기본 비디오 스트림과, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신부와,

상기 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 데이터를 얻거나, 또는 상기 소정수의 확장 비디오 스트림의 일부 또는 전부의 스트림을 처리하여 하이 프레임 레이트로 고해상 후의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 처리부를 구비하는

수신 장치.

본 기술의 주된 특징은, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 송신함으로써, 하이 프레임 레이트로 초고해상도의 화상 데이터를 수신측에 있어서 하위 호환을 양호하게 실현 가능하게 한 것이다(도 5, 도 6, 도 15 참조).

또한, 본 기술의 주된 특징은, 기본 포맷의 화상 데이터를, 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 제1 화상 데이터에 다운 스케일 처리를 실시하여 얻음으로써, 기본 비디오 스트림만을 처리하여 표시되는 기본 프레임 레이트로 고해상도의 화상을 스트로빙 효과가 억제된 매끄러운 화상으로 하는 것을 가능하게 한 것이다(도 21, 도 22 참조).

10: 송수신 시스템
30A, 30B: MPEG-DASH 베이스의 스트림 배신 시스템
31: DASH 스트림 파일 서버
32: DASH MPD 서버
33, 33-1 내지 33-N: 서비스 수신기
34: CDN
35, 35-1 내지 35-M: 서비스 수신기
36: 방송 송출 시스템
100: 서비스 송신 시스템
101: 제어부
102: 비디오 인코더
102a, 102b, 102c: 신호 처리부
102d: 부호화 처리부
103: 컨테이너 인코더
104: 송신부
111: 지연 회로
112: 연산 회로
112a, 112b, 112c, 112d: 계수 승산부
112e, 112f: 가산부
113: 래치 회로
121, 131: 다운 스케일 회로
122, 132: 업스케일 회로
123, 133: 연산 회로
200, 200A, 200B, 200C, 200D: 서비스 수신기
201: 제어부
202: 수신부
203, 203B, 203C, 203D: 컨테이너 디코더
204, 204B, 204C, 204D: 비디오 디코더
204a, 204b, 204c: 신호 처리부
204d: 복호화 처리부
211, 221: 업스케일 회로
212, 222: 연산 회로
241: 연산 회로
241a, 241b, 241c, 241d: 계수 승산부
241e, 241f: 가산부
242: 스위치 회로

Claims

하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터와, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터와, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터를 얻는 화상 처리부와,
상기 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 상기 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 생성하는 화상 부호화부와,
상기 기본 스트림 및 상기 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신부를 구비하고,
상기 화상 처리부는,
상기 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 기본 프레임 레이트의 화상 데이터인 제1 화상 데이터를 얻음과 함께, 상기 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하여 하이 프레임 레이트의 확장 프레임의 화상 데이터인 제2 화상 데이터를 얻고,
상기 제1 화상 데이터에 다운 스케일 처리를 실시하여 상기 기본 포맷의 화상 데이터를 얻음과 함께, 그 기본 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제3 화상 데이터와 상기 제1 화상 데이터 간의 차분을 취하여 상기 제2 확장 포맷의 화상 데이터를 얻고,
상기 제2 화상 데이터에 다운 스케일 처리를 실시하여 상기 제1 확장 포맷의 화상 데이터를 얻음과 함께, 그 제1 확장 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제4 화상 데이터와 상기 제2 화상 데이터 간의 차분을 취하여 상기 제3 확장 포맷의 화상 데이터를 얻는
송신 장치.
제1항에 있어서, 상기 화상 부호화부는,
상기 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 상기 기본 비디오 스트림과, 상기 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 각각 포함하는 3개의 확장 비디오 스트림 또는 상기 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터의 모두를 포함하는 하나의 확장 비디오 스트림을 생성하는
송신 장치.
제1항에 있어서, 상기 제1 확장 포맷의 화상 데이터의 부호화 화상 데이터에 시간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 상기 제2 확장 포맷의 화상 데이터의 부호화 화상 데이터에 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 상기 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에 시간 스케일러블 및 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하는 정보 삽입부를 더 구비하는
송신 장치.
제3항에 있어서, 상기 정보 삽입부는,
상기 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 공간 스케일러블의 비율을 나타내는 정보를 더 삽입하는
송신 장치.
제3항에 있어서, 상기 정보 삽입부는,
상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 상기 기본 포맷의 화상 데이터가 상기 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보를 더 삽입하는
송신 장치.
제3항에 있어서, 상기 정보 삽입부는,
상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 상기 제1 비율의 정보 및 상기 제2 비율의 정보를 더 삽입하는
송신 장치.
제1항에 있어서, 상기 컨테이너의 레이어에, 상기 제1 확장 포맷의 화상 데이터의 부호화 화상 데이터에 대응하여 시간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 상기 제2 확장 포맷의 화상 데이터의 부호화 화상 데이터에 대응하여 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 상기 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에 대응하여 시간 스케일러블 및 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하는 정보 삽입부를 더 구비하는
송신 장치.
제7항에 있어서, 상기 정보 삽입부는,
상기 컨테이너의 레이어에, 상기 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터 각각에 대응하여, 공간 스케일러블의 비율을 나타내는 정보를 더 삽입하는
송신 장치.
제7항에 있어서, 상기 정보 삽입부는,
상기 컨테이너의 레이어에, 상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터 각각에 대응하여, 상기 기본 포맷의 화상 데이터가 상기 혼합 처리를 실시하여 얻어진 화상 데이터인 것을 나타내는 식별 정보를 더 삽입하는
송신 장치.
제7항에 있어서, 상기 정보 삽입부는,
상기 컨테이너의 레이어에, 상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에 각각 대응하여, 상기 제1 비율의 정보 및 상기 제2 비율의 정보를 더 삽입하는
송신 장치.
제1항에 있어서, 상기 기본 비디오 스트림과 상기 소정수의 확장 비디오 스트림을 수신 장치로 취득시키기 위한 메타 정보를 갖는 메타파일을 송신하는 송신부를 더 구비하고,
상기 메타파일에는 스케일러빌리티의 대응을 나타내는 정보가 삽입되는
송신 장치.
하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터와, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터와, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터를 얻는 화상 처리 스텝과,
상기 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 상기 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 생성하는 화상 부호화 스텝과,
송신부에 의해, 상기 기본 스트림 및 상기 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신 스텝을 갖고,
상기 화상 처리 스텝에서는,
상기 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 기본 프레임 레이트의 화상 데이터인 제1 화상 데이터를 얻음과 함께, 상기 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하여 하이 프레임 레이트의 확장 프레임의 화상 데이터인 제2 화상 데이터를 얻고,
상기 제1 화상 데이터에 다운 스케일 처리를 실시하여 상기 기본 포맷의 화상 데이터를 얻음과 함께, 그 기본 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제3 화상 데이터와 상기 제1 화상 데이터 간의 차분을 취하여 상기 제2 확장 포맷의 화상 데이터를 얻고,
상기 제2 화상 데이터에 다운 스케일 처리를 실시하여 상기 제1 확장 포맷의 화상 데이터를 얻음과 함께, 그 제1 확장 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제4 화상 데이터와 상기 제2 화상 데이터 간의 차분을 취하여 상기 제3 확장 포맷의 화상 데이터를 얻는
송신 방법.
기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 갖는 기본 비디오 스트림과, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신부를 구비하고,
상기 기본 포맷의 화상 데이터는, 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 제1 화상 데이터에 다운 스케일 처리를 실시하여 얻어진 것이며,
상기 제2 확장 포맷의 화상 데이터는, 상기 기본 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제3 화상 데이터와 상기 제1 화상 데이터 간의 차분을 취하여 얻어진 것이며,
상기 제1 확장 포맷의 화상 데이터는, 상기 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하여 얻어진 제2 화상 데이터에 다운 스케일 처리를 실시하여 얻어진 것이며,
상기 제3 확장 포맷의 화상 데이터는, 상기 제1 확장 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제4 화상 데이터와 상기 제2 화상 데이터 간의 차분을 취하여 얻어진 것이며,
상기 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 데이터를 얻거나, 또는 상기 소정수의 확장 비디오 스트림의 일부 또는 전부의 스트림을 처리하여 하이 프레임 레이트로 고해상 후의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 처리부를 더 구비하는
수신 장치.
제13항에 있어서, 상기 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는, 그 부호화 화상 데이터에 대응한 컨테이너 위치에, 공간 스케일러블의 비율을 나타내는 정보가 삽입되어 있고,
상기 처리부는, 상기 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 상기 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 경우, 상기 삽입되어 있는 공간 스케일러블의 비율을 나타내는 정보를 사용하는
수신 장치.
제13항에 있어서, 상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는, 그 부호화 화상 데이터에 대응한 컨테이너 위치에, 상기 제1 비율의 정보 및 상기 제2 비율의 정보가 삽입되어 있고,
상기 처리부는, 상기 하이 프레임 레이트로 고해상 후의 화상 데이터 또는 상기 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 경우, 상기 삽입되어 있는 제1 비율의 정보 및 제2 비율의 정보를 사용하는
수신 장치.
수신부에 의해, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 갖는 기본 비디오 스트림과, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신 스텝을 갖고,
상기 기본 포맷의 화상 데이터는, 하이 프레임 레이트로 초고해상도의 화상 데이터에 있어서 시간적으로 연속되는 2개의 픽처 단위로 제1 비율의 혼합 처리를 실시하여 얻어진 제1 화상 데이터에 다운 스케일 처리를 실시하여 얻어진 것이며,
상기 제2 확장 포맷의 화상 데이터는, 상기 기본 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제3 화상 데이터와 상기 제1 화상 데이터 간의 차분을 취하여 얻어진 것이며,
상기 제1 확장 포맷의 화상 데이터는, 상기 시간적으로 연속되는 2개의 픽처 단위로 제2 비율의 혼합 처리를 실시하여 얻어진 제2 화상 데이터에 다운 스케일 처리를 실시하여 얻어진 것이며,
상기 제3 확장 포맷의 화상 데이터는, 상기 제1 확장 포맷의 화상 데이터에 업스케일 처리를 실시하여 얻어진 제4 화상 데이터와 상기 제2 화상 데이터 간의 차분을 취하여 얻어진 것이며,
상기 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 데이터를 얻거나, 또는 상기 소정수의 확장 비디오 스트림의 일부 또는 전부의 스트림을 처리하여 하이 프레임 레이트로 고해상 후의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 처리 스텝을 더 갖는
수신 방법.
하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터와, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터와, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터와, 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터를 얻는 화상 처리부와,
상기 기본 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 기본 비디오 스트림과, 상기 제1 내지 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 생성하는 화상 부호화부와,
상기 기본 스트림 및 상기 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신부를 구비하는
송신 장치.
제17항에 있어서, 상기 제2 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는, 그 부호화 화상 데이터에 대응한 컨테이너 위치에, 공간 스케일러블인 것을 나타내는 식별 정보를 삽입하고, 상기 제1 및 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터에, 및/또는, 그 부호화 화상 데이터에 대응한 컨테이너 위치에, 시간 스케일러블인 것을 나타내는 식별 정보를 삽입하는 정보 삽입부를 더 구비하는
송신 장치.
제17항에 있어서, 상기 기본 비디오 스트림과 상기 소정수의 확장 비디오 스트림을 수신 장치로 취득시키기 위한 메타 정보를 갖는 메타파일을 송신하는 송신부를 더 구비하고,
상기 메타파일에는 스케일러빌리티의 대응을 나타내는 정보가 삽입되는
송신 장치.
기본 프레임 레이트로 고해상도의 화상을 얻기 위한 기본 포맷의 화상 데이터의 부호화 화상 데이터를 갖는 기본 비디오 스트림과, 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 확장 포맷의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제2 확장 포맷의 화상 데이터 및 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 확장 포맷의 화상 데이터의 부호화 화상 데이터를 포함하는 소정수의 확장 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신부와,
상기 기본 비디오 스트림만을 처리하여 기본 프레임 레이트로 고해상도의 화상 데이터를 얻거나, 또는 상기 소정수의 확장 비디오 스트림의 일부 또는 전부의 스트림을 처리하여 하이 프레임 레이트로 고해상 후의 화상 데이터, 기본 프레임 레이트로 초고해상도의 화상 데이터 또는 하이 프레임 레이트로 초고해상도의 화상 데이터를 얻는 처리부를 구비하는
수신 장치.