KR20160070771A

KR20160070771A - 비디오 및 영상 코딩 및 디코딩에 대한 기본 색상 인덱스 맵 모드의 특징

Info

Publication number: KR20160070771A
Application number: KR1020167010998A
Authority: KR
Inventors: 빈 리; 펑 우; 지젱 수
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2013-10-14
Filing date: 2013-10-14
Publication date: 2016-06-20
Also published as: EP3058740A4; WO2015054812A1; MX368934B; US20160277760A1; AU2013403225B2; US20200228834A1; RU2666635C2; CA2925183C; US20200084472A1; JP6336058B2; KR20210083403A; EP3720132A1; CA2925183A1; JP2016541144A; US11252437B2; CN105659606B; CN105659606A; MX2016004707A; US10506254B2; US20220132163A1

Abstract

인코딩 및/또는 디코딩 동안 기본 색상 인덱스 맵(BCIM) 모드의 사용에서의 혁신들은 BCIM 모드를 지원하기 위해 그리고/또는 BCIM 모드의 코딩 효율을 향상시키기 위해 행해지는 수정들의 수를 감소시키는 것에 의해 구현을 단순화시킨다. 예를 들어, 혁신들 중 일부는 변환 계수들에 대해 구성되어 있는 구문 구조를 그 대신에 BCIM 모드에서 인덱스 맵의 요소들에 대한 데이터를 신호하는 데 재사용하는 것을 포함한다. 다른 혁신들은 BCIM 모드에서의 인덱스 값들의 매핑 또는 BCIM 모드에서의 인덱스 맵의 요소들의 예측에 관한 것이다. 또 다른 혁신들은 BCIM 모드에서의 예외 값들의 처리에 관한 것이다.

Description

비디오 및 영상 코딩 및 디코딩에 대한 기본 색상 인덱스 맵 모드의 특징{FEATURES OF BASE COLOR INDEX MAP MODE FOR VIDEO AND IMAGE CODING AND DECODING}

엔지니어들은 디지털 비디오의 비트 레이트(bit rate)를 감소시키기 위해 압축(compression)(소스 코딩(source coding) 또는 소스 인코딩(source encoding)이라고도 함)을 사용한다. 압축은 비디오 정보를 보다 낮은 비트 레이트 형태로 변환하는 것에 의해 비디오 정보를 저장하고 전송하는 비용을 감소시킨다. 압축 해제(decompression)(디코딩(decoding)이라고도 함)는 압축된 형태로부터 원래 정보(original information)의 버전을 재구성한다. "코덱"은 인코더/디코더 시스템이다.

지난 20년에 걸쳐, ITU-T H.261, H.262(MPEG-2 또는 ISO/IEC 13818-2), H.263 및 H.264(MPEG-4 AVC 또는 ISO/IEC 14496-10) 표준들, MPEG-1(ISO/IEC 11172-2) 및 MPEG-4 Visual(ISO/IEC 14496-2) 표준들, 및 SMPTE 421M 표준을 비롯한, 다양한 비디오 코덱 표준들이 채택되었다. 보다 최근에, HEVC 표준(ITU-T H.265 또는 ISO/IEC 23008-2)이 승인되었다. (예컨대, 스케일러블 비디오 코딩/디코딩에 대한, 샘플 비트 심도(sample bit depth) 또는 크로마 샘플링 레이트(chroma sampling rate)의 면에서 보다 높은 충실도(fidelity)를 갖는 비디오의 코딩/디코딩에 대한, 또는 멀티뷰 코딩/디코딩에 대한) HEVC 표준에 대한 확장들이 현재 개발 중이다. 비디오 코덱 표준은 전형적으로, 특정의 특징들이 인코딩 및 디코딩에서 사용될 때 비트스트림의 파라미터들을 상세히 기술하는, 인코딩된 비디오 비트스트림의 구문에 대한 옵션들을 정의한다. 많은 경우들에서, 비디오 코덱 표준은 또한 디코더가 디코딩에서 부합하는 결과들을 달성하기 위해 수행해야만 하는 디코딩 동작들에 관한 상세들을 제공한다. 코덱 표준들 이외에, 다양한 독점적 코덱 포맷들은 인코딩된 비디오 비트스트림의 구문에 대한 다른 옵션들 및 대응하는 디코딩 동작들을 정의한다.

BCIM(base color index map: 기본 색상 인덱스 맵) 모드에서, 비디오 인코더는 기본 색상들을 나타내는 인덱스 값들을 사용하여 샘플 값들을 인코딩한다. 인덱스 값들 각각은 샘플 값들 중의 상이한 값("기본 색상")과 연관되어 있다. 예를 들어, 8x8 블록이 블록의 64 개 샘플 값들 중 4 개의 상이한 값들을 가지는 경우, 인코더는 그 4 개의 기본 색상들에 대해 4 개의 상이한 인덱스 값들을 할당한다. 인코딩 동안, 샘플 값들이 대응하는 인덱스 값들로 대체된다. 인코더는 인덱스 값들과 기본 색상들 간의 매핑("기본 색상 테이블(base color table)")은 물론 샘플 값들을 나타내는 인덱스 값들의 배열에 대한 데이터("인덱스 맵(index map)")를 인코딩하고 신호한다. 디코더는 인덱스 값들과 기본 색상들 간의 매핑을 수신하고 디코딩한다. 그 매핑을 사용하여, 디코더는 인덱스 맵에서의 인덱스 값들을 원래의 샘플 값들에 대한 기본 색상들로 대체한다.

BCIM 모드는 화면 포착 콘텐츠와 같은 특정의 "인위적으로" 생성된 비디오 콘텐츠를 인코딩할 때 도움이 될 수 있다. 화면 포착 콘텐츠는 전형적으로, 자연스런 비디오와 비교하여, 독특한 샘플 값들을 거의 사용하지 않는 반복된 구조들(예컨대, 그래픽, 텍스트 문자)을 포함한다. 이것은 BCIM이 성능을 향상시킬 기회들을 제공한다.

HEVC 표준에 대한 일부 참조 소프트웨어(reference software)에서의 HEVC 표준 및 구현에 대한 BCIM 모드의 현재 설계는 몇 가지 문제점들을 가지고 있다. 예를 들어, BCIM은 기본 색상 매핑 및 인덱스 맵을 위한 많은 새로운 구문 요소(syntax element)들 및 구문 구조(syntax structure)들을 필요로 하고, 이는 구현을 복잡하게 한다. 또한, 기본 색상 매핑 및 인덱스 맵을 인코딩/디코딩하는 접근법은 HEVC 표준에 이미 포함된 것들과 다른 도구들을 사용하고, 이는 또다시 구현을 복잡하게 한다. 또한, 기본 색상 테이블 및 인덱스 맵의 인코딩이 비효율적이다.

요약하면, 발명을 실시하기 위한 구체적인 내용은 BCIM(base color index map) 모드에서의 혁신들을 제공한다. 예를 들어, 혁신들 중 일부는 비BCIM 모드(non-BCIM mode)에서 변환 계수(transform coefficient)들에 대해 그리고 BCIM 모드에서의 인덱스 맵의 요소들에 대해 구문 구조를 재사용하는 것에 관한 것이다. 이것은 BCIM 모드를 지원하기 위해 행해지는 수정들의 수를 감소시킬 수 있다. 다른 혁신들은 BCIM 모드의 코딩 효율을 향상시킬 수 있는, 인덱스 값들의 매핑 또는 인덱스 맵의 요소들의 예측에 대한 전략들에 관한 것이다. 또 다른 혁신들은 BCIM 모드에서의 예외 값들의 처리에 관한 것이다.

기본 색상 인덱스 맵 모드에 대한 혁신들은 방법의 일부로서, 방법을 수행하도록 구성된 컴퓨팅 디바이스의 일부로서, 또는 컴퓨팅 디바이스로 하여금 방법을 수행하게 하기 위한 컴퓨터 실행 가능 명령어들을 저장하는 유형적 컴퓨터 판독 가능 매체의 일부로서 구현될 수 있다. 다양한 혁신들이 결합하여 또는 개별적으로 사용될 수 있다.

본 발명의 앞서 말한 목적들, 특징들 및 장점들 그리고 다른 목적들, 특징들 및 장점들이 첨부 도면들을 참조하여 계속되는 이하의 발명을 실시하기 위한 구체적인 내용으로부터 보다 명백하게 될 것이다.

도 1은 일부 기술된 실시예들이 구현될 수 있는 예시적인 컴퓨팅 시스템을 나타낸 도면.
도 2a 및 도 2b는 일부 기술된 실시예들이 구현될 수 있는 예시적인 네트워크 환경들을 나타낸 도면.
도 3은 일부 기술된 실시예들이 구현될 수 있는 예시적인 인코더 시스템을 나타낸 도면.
도 4는 일부 기술된 실시예들이 구현될 수 있는 예시적인 디코더 시스템을 나타낸 도면.
도 5a 및 도 5b는 일부 기술된 실시예들이 구현될 수 있는 예시적인 비디오 인코더를 나타낸 도면.
도 6은 일부 기술된 실시예들이 구현될 수 있는 예시적인 비디오 디코더를 나타낸 도면.
도 7은 픽처의 블록에 대한 기본 색상 인덱스 맵 모드를 나타낸 차트.
도 8 및 도 9는 동일한 계수 코딩 구문 구조가 인덱스 맵의 요소들 또는 변환 계수들을 신호하는 데 사용될 수 있을 때, 각각, 인코딩 및 디코딩 동안의 예시적인 프로세스 흐름을 나타낸 도면.
도 10 및 도 11은 인덱스 맵의 요소들 또는 변환 계수들을 선택적으로 표현하는 계수 코딩 구문 구조를 사용하는, 각각, 인코딩 및 디코딩을 위한 일반화된 기법들을 나타낸 플로우차트.
도 12는 인덱스 맵의 요소들 또는 변환 계수들을 선택적으로 표현하는 계수 코딩 구문 구조를 사용하는 디코딩을 위한 예시적인 기법의 플로우차트.
도 13은 인덱스 값들을 패킹된 인덱스 값들에 매핑하는 것 및 패킹된 인덱스 값들을 다시 인덱스 값들에 매핑하는 것을 나타낸 차트.
도 14 및 도 15는, 각각, 인코딩 및 디코딩 동안 기본 색상들에 대한 인덱스 값들의 매핑을 위한 일반화된 기법들을 나타낸 플로우차트.
도 16 및 도 17은 인코딩 동안 뺄셈 연산을 그리고 디코딩 동안 덧셈 연산을 사용하는 인덱스 맵의 요소들의 예측을 나타낸 차트.
도 18은 인코딩 동안 XOR 연산을 사용하는 인덱스 맵의 요소의 예측, 및 디코딩 동안 XOR 연산을 사용하는 요소의 대응하는 재구성을 나타낸 차트.
도 19 및 도 20은, 각각, 인코딩 및 디코딩 동안 인덱스 맵의 요소들의 예측을 위한 일반화된 기법들을 나타낸 플로우차트.
도 21a 및 도 21b는, 각각, 인코딩 및 디코딩 동안 BCIM 모드에 대한 예외 값들 및 인덱스 값들의 처리를 나타낸 차트.
도 22 및 도 23은 BCIM 모드에서 인덱스 값들 및 예외 값들을 사용하는, 각각, 인코딩 및 디코딩을 위한 일반화된 기법들을 나타낸 플로우차트.
도 24는 BCIM 모드에서 인덱스 값들 및 예외 값들을 사용하기 위한 예시적인 기법을 나타낸 플로우차트.

발명을 실시하기 위한 구체적인 내용은 인코딩 및/또는 디코딩 동안 기본 색상 인덱스 맵(BCIM) 모드의 사용에서의 혁신들을 제시한다. 상세하게는, 발명을 실시하기 위한 구체적인 내용은 BCIM 모드에서 인덱스 맵의 요소들에 대한 데이터를 신호하고, BCIM 모드에서 인덱스 값들의 매핑, 인덱스 맵의 요소들의 예측 및 BCIM 모드에서 예외 값들의 처리를 위해 변환 계수들을 위해 구성되어 있는 구문 구조를 재사용하는 혁신들을 제시한다. 이 혁신들 중 일부는 BCIM 모드를 지원하기 위해 행해지는 수정들의 수를 감소시킴으로써 구현을 단순화시킨다. 다른 혁신들은 BCIM 모드의 코딩 효율을 개선시킨다.

본 명세서에 기술되는 동작들이 곳곳에서 비디오 인코더 또는 비디오 디코더에 의해 수행되는 것으로 기술되어 있지만, 많은 경우들에서, 동작들은 다른 유형의 미디어 처리 도구(예컨대, 영상 인코더, 영상 디코더)에 의해 수행될 수 있다.

본 명세서에 기술되는 혁신들 중 일부는 HEVC 표준에 특유한 구문 요소들 및 동작들을 참조하여 설명된다. 예를 들어, HEVC 표준의 초안 버전 JCTVC-N1005 - "High Efficiency Video Coding (HEVC) Range Extensions Text Specification: Draft 4," JCTVC-N1005, July 2013이 참조된다. 본 명세서에 기술되는 혁신들은 또한 다른 표준들 또는 포맷들에 대해 구현될 수 있다.

보다 일반적으로, 본 명세서에 기술되는 예들에 대한 다양한 대안들이 가능하다. 예를 들어, 본 명세서에 기술되는 방법들 중 일부가 기술된 방법 동작들의 순서를 변경하는 것에 의해, 특정의 방법 동작들을 분할, 반복 또는 생략하는 것에 의해, 기타에 의해 변경될 수 있다. 개시되는 기술의 다양한 양태들이 결합하여 또는 개별적으로 사용될 수 있다. 상이한 실시예들이 기술되는 혁신들 중 하나 이상을 사용한다. 본 명세서에 기술되는 혁신들 중 일부는 배경 기술에서 살펴본 문제점들 중 하나 이상을 해결한다. 전형적으로, 주어진 기법/도구가 이러한 문제점들 모두를 해결하지는 않는다.

I. 예시적인 컴퓨팅 시스템

도 1은 기술되는 혁신들 중 몇몇이 구현될 수 있는 적당한 컴퓨팅 시스템(100)의 일반화된 예를 나타낸 것이다. 혁신들이 다양한 범용 또는 특수 목적 컴퓨팅 시스템들에서 구현될 수 있기 때문에, 컴퓨팅 시스템(100)은 용도 또는 기능의 범주에 관한 어떤 제한을 암시하기 위한 것이 아니다.

도 1을 참조하면, 컴퓨팅 시스템(100)은 하나 이상의 처리 유닛들(110, 115) 및 메모리(120, 125)를 포함한다. 처리 유닛들(110, 115)은 컴퓨터 실행 가능 명령어들을 실행한다. 처리 유닛은 범용 CPU(central processing unit), ASIC(application-specific integrated circuit) 내의 프로세서, 또는 임의의 다른 유형의 프로세서일 수 있다. 다중 처리 시스템(multi-processing system)에서는, 처리 능력을 증가시키기 위해 다수의 처리 유닛들이 컴퓨터 실행 가능 명령어들을 실행한다. 예를 들어, 도 1은 중앙 처리 유닛(central processing unit)(110)은 물론, 그래픽 처리 유닛 또는 코프로세싱 유닛(coprocessing unit)(115)을 나타내고 있다. 유형적 메모리(tangible memory)(120, 125)는 처리 유닛(들)에 의해 액세스 가능한, 휘발성 메모리(예컨대, 레지스터, 캐시, RAM), 비휘발성 메모리(예컨대, ROM, EEPROM, 플래시 메모리 등), 또는 이 둘의 어떤 조합일 수 있다. 메모리(120, 125)는 BCIM 모드에 대한 하나 이상의 혁신들을 구현하는, 처리 유닛(들)에 의한 실행에 적당한 컴퓨터 실행 가능 명령어들의 형태로 된 소프트웨어(180)를 저장한다.

컴퓨팅 시스템은 부가의 특징들을 가질 수 있다. 예를 들어, 컴퓨팅 시스템(100)은 저장소(140), 하나 이상의 입력 디바이스들(150), 하나 이상의 출력 디바이스들(160), 및 하나 이상의 통신 연결들(170)을 포함한다. 버스, 제어기 또는 네트워크와 같은 상호연결 메커니즘(도시 생략)은 컴퓨팅 시스템(100)의 구성요소들을 상호연결시킨다. 전형적으로, 운영 체제 소프트웨어(도시 생략)는 컴퓨팅 시스템(100)에서 실행 중인 다른 소프트웨어에 대한 운영 환경을 제공하고, 컴퓨팅 시스템(100)의 구성요소들의 활동들을 조정한다.

유형적 저장소(140)는 이동식 또는 비이동식일 수 있고, 정보를 저장하는 데 사용될 수 있고 컴퓨팅 시스템(100) 내에서 액세스될 수 있는, 자기 디스크, 자기 테이프 또는 카세트, CD-ROM, DVD, 또는 임의의 다른 매체를 포함한다. 저장소(140)는 BCIM 모드에 대한 하나 이상의 혁신들을 구현하는 소프트웨어(180)에 대한 명령어들을 저장한다.

입력 디바이스(들)(150)는 컴퓨팅 시스템(100)에 입력을 제공하는 키보드, 마우스, 펜, 또는 트랙볼과 같은 터치 입력 디바이스, 음성 입력 디바이스, 스캐닝 디바이스, 또는 다른 디바이스일 수 있다. 비디오의 경우, 입력 디바이스(들)(150)는 아날로그 또는 디지털 형태로 비디오 입력을 받아들이는 카메라, 비디오 카드, TV 튜너 카드, 또는 유사한 디바이스, 또는 비디오 샘플들을 컴퓨팅 시스템(100) 내로 읽어들이는 CD-ROM 또는 CD-RW일 수 있다. 출력 디바이스(들)(160)는 컴퓨팅 시스템(100)으로부터의 출력을 제공하는 디스플레이, 프린터, 스피커, CD 라이터(CD-writer), 또는 다른 디바이스일 수 있다.

통신 연결(들)(170)은 통신 매체를 통한 다른 컴퓨팅 엔터티와의 통신을 가능하게 해준다. 통신 매체는 컴퓨터 실행 가능 명령어들, 오디오 또는 비디오 입력 또는 출력, 또는 다른 데이터와 같은 정보를 피변조 데이터 신호(modulated data signal)로 전달한다. 피변조 데이터 신호는 신호의 특성들 중 하나 이상이 정보를 그 신호에 인코딩하는 방식으로 설정되거나 변경된 신호이다. 제한이 아닌 예로서, 통신 매체는 전기, 광, RF, 또는 다른 반송파를 사용할 수 있다.

혁신들이 일반적으로 컴퓨터 판독 가능 매체와 관련하여 기술되어 있을 수 있다. 컴퓨터 판독 가능 매체는 컴퓨팅 환경 내에서 액세스될 수 있는 임의의 이용 가능한 유형적 매체이다. 제한이 아닌 예로서, 컴퓨팅 시스템(100)에서, 컴퓨터 판독 가능 매체는 메모리(120, 125), 저장소(140), 및 상기한 것들 중 임의의 것의 조합들을 포함한다.

혁신들이 일반적으로 컴퓨팅 시스템에서 실제 또는 가상의 대상 프로세서 상에서 실행되는, 프로그램 모듈들에 포함된 것과 같은, 컴퓨터 실행 가능 명령어들과 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈들은 특정의 작업들을 수행하거나 특정의 추상 데이터 형식들을 구현하는 루틴들, 프로그램들, 라이브러리들, 객체들, 클래스들, 구성요소들, 데이터 구조들 등을 포함한다. 프로그램 모듈들의 기능이 다양한 실시예들에서 원하는 바에 따라 프로그램 모듈들 간에 결합되거나 분할되어 있을 수 있다. 프로그램 모듈들에 대한 컴퓨터 실행 가능 명령어들은 로컬 또는 분산 컴퓨팅 시스템 내에서 실행될 수 있다.

"시스템" 및 "디바이스"라는 용어들은 본 명세서에서 서로 바꾸어 사용될 수 있다. 문맥이 명백히 달리 나타내지 않는 한, 어느 용어도 컴퓨팅 시스템 또는 컴퓨팅 디바이스의 유형에 대한 어떤 제한을 암시하지 않는다. 일반적으로, 컴퓨팅 시스템 또는 컴퓨팅 디바이스는 로컬이거나 분산되어 있을 수 있고, 본 명세서에 기술되는 기능을 구현하는 소프트웨어를 갖는 특수 목적 하드웨어 및/또는 범용 하드웨어의 임의의 조합을 포함할 수 있다.

개시되는 방법들이 또한 개시되는 방법들 중 임의의 것을 수행하도록 구성된 특수 컴퓨팅 하드웨어를 사용하여 구현될 수 있다. 예를 들어, 개시되는 방법들은 개시되는 방법들 중 임의의 것을 구현하도록 특수 설계되거나 구성된 집적 회로(예컨대, ASIC DSP(digital signal process unit)와 같은 ASIC, GPU(graphics processing unit), 또는 FPGA(field programmable gate array)와 같은 PLD(programmable logic device))에 의해 구현될 수 있다.

제시를 위해, 발명을 실시하기 위한 구체적인 내용은 컴퓨팅 시스템에서의 컴퓨터 동작들을 기술하기 위해 "결정한다" 및 "사용한다"와 같은 용어들을 사용한다. 이 용어들은 컴퓨터에 의해 수행되는 동작들에 대한 상위 레벨 추상화들이고, 사람에 의해 수행되는 동작들과 혼동되어서는 안 된다. 이 용어들에 대응하는 실제 컴퓨터 동작들은 구현에 따라 다르다.

II. 예시적인 네트워크 환경

도 2a 및 도 2b는 비디오 인코더들(220) 및 비디오 디코더들(270)을 포함하는 예시적인 네트워크 환경들(201, 202)을 나타낸 것이다. 인코더들(220) 및 디코더들(270)은 적절한 통신 프로토콜을 사용하여 네트워크(250)를 통해 연결된다. 네트워크(250)는 인터넷 또는 다른 컴퓨터 네트워크를 포함할 수 있다.

도 2a에 도시된 네트워크 환경(201)에서, 각각의 RTC(real-time communication: 실시간 통신) 도구(210)는 양방향 통신을 위해 인코더(220) 및 디코더(270) 둘 다를 포함한다. 주어진 인코더(220)는 HEVC 표준, SMPTE 421M 표준, ISO-IEC 14496-10 표준(H.264 또는 AVC라고도 알려져 있음), 다른 표준, 또는 독점적 포맷의 변형 또는 확장과 호환되는 출력을 생성할 수 있고, 대응하는 디코더(270)는 인코더(220)부터 인코딩된 데이터를 받는다. 양방향 통신은 화상 회의, 화상 전화 통화, 또는 다른 양자간 통신 시나리오의 일부일 수 있다. 도 2a에서의 네트워크 환경(201)이 2 개의 실시간 통신 도구들(210)을 포함하지만, 네트워크 환경(201)은 그 대신에 다자간 통신에 참여하는 3 개 이상의 실시간 통신 도구들(210)을 포함할 수 있다.

실시간 통신 도구(210)는 인코더(220)에 의한 인코딩을 관리한다. 도 3은 실시간 통신 도구(210)에 포함될 수 있는 예시적인 인코더 시스템(300)을 나타낸 것이다. 대안적으로, 실시간 통신 도구(210)는 다른 인코더 시스템을 사용한다. 실시간 통신 도구(210)는 디코더(270)에 의한 디코딩도 관리한다. 도 4는 실시간 통신 도구(210)에 포함될 수 있는 예시적인 디코더 시스템(400)을 나타낸 것이다. 대안적으로, 실시간 통신 도구(210)는 다른 디코더 시스템을 사용한다.

도 2b에 도시된 네트워크 환경(202)에서, 인코딩 도구(212)는 디코더들(270)을 포함하는 다수의 재생 도구들(214)로 전달하기 위한 비디오를 인코딩하는 인코더(220)를 포함한다. 비디오가 인코딩되어 하나의 장소로부터 하나 이상의 다른 장소들로 송신되는 비디오 감시 시스템, 웹 카메라 모니터링 시스템, 원격 데스크톱 회의 프레젠테이션 또는 다른 시나리오를 위해 단방향 통신이 제공될 수 있다. 도 2b에서의 네트워크 환경(202)이 2 개의 재생 도구들(214)을 포함하지만, 네트워크 환경(202)은 더 많거나 더 적은 수의 재생 도구들(214)을 포함할 수 있다. 일반적으로, 재생 도구(214)는 재생 도구(214)가 수신할 비디오 스트림을 결정하기 위해 인코딩 도구(212)와 통신한다. 재생 도구(214)는 스트림을 수신하고, 수신된 인코딩된 데이터를 적절한 기간 동안 버퍼링하며, 디코딩 및 재생을 시작한다.

도 3은 인코딩 도구(212)에 포함될 수 있는 예시적인 인코더 시스템(300)을 나타낸 것이다. 대안적으로, 인코딩 도구(212)는 다른 인코더 시스템을 사용한다. 인코딩 도구(212)는 또한 하나 이상의 재생 도구들(214)과의 연결들을 관리하기 위한 서버측 제어기 로직을 포함할 수 있다. 도 4는 재생 도구(214)에 포함될 수 있는 예시적인 디코더 시스템(400)을 나타낸 것이다. 대안적으로, 재생 도구(214)는 다른 디코더 시스템을 사용한다. 재생 도구(214)는 또한 인코딩 도구(212)와의 연결들을 관리하기 위한 클라이언트측 제어기 로직을 포함할 수 있다.

III. 예시적인 인코더 시스템

도 3은 일부 기술된 실시예들이 구현될 수 있는 예시적인 인코더 시스템(300)의 블록도이다. 인코더 시스템(300)은 실시간 통신을 위한 저 대기 시간(low-latency) 인코딩 모드, 트랜스코딩 모드, 및 파일 또는 스트림으로부터 미디어 재생을 위한 정규 인코딩 모드(regular encoding mode)와 같은 다수의 인코딩 모드들 중 임의의 것에서 동작할 수 있는 범용 인코딩 도구일 수 있거나, 하나의 이러한 인코딩 모드를 위해 구성된 특수 목적 인코딩 도구일 수 있다. 인코더 시스템(300)은 운영 체제 모듈로서, 애플리케이션 라이브러리의 일부로서 또는 독립형 애플리케이션으로서 구현될 수 있다. 일반적으로, 인코더 시스템(300)은 비디오 소스(310)로부터 소스 비디오 프레임들(311)의 시퀀스를 수신하고 인코딩된 데이터를 채널(390)로의 출력으로서 생성한다. 채널로 출력되는 인코딩된 데이터는 BCIM 모드를 사용하여 인코딩된 콘텐츠를 포함할 수 있다.

비디오 소스(310)는 카메라, 튜너 카드, 저장 매체, 또는 다른 디지털 비디오 소스일 수 있다. 비디오 소스(310)는, 예를 들어, 초당 30 프레임의 프레임 레이트(frame rate)로 비디오 프레임들의 시퀀스를 생성한다. 본 명세서에서 사용되는 바와 같이, "프레임"이라는 용어는 일반적으로 소스, 코딩된 또는 재구성된 영상 데이터를 지칭한다. 프로그레시브 비디오(progressive video)의 경우, 프레임은 프로그레시브 비디오 프레임(progressive video frame)이다. 인터레이스 비디오(interlaced video)의 경우, 예시적인 실시예들에서, 인터레이스 비디오 프레임(interlaced video frame)은 인코딩 이전에 디인터레이스(de-interlace)된다. 대안적으로, 2 개의 상보적인 인터레이스 비디오 필드들이 인터레이스 비디오 프레임 또는 개별적인 필드들로서 인코딩된다. 프로그레시브 비디오 프레임을 나타내는 것 이외에, "프레임" 또는 "픽처"라는 용어는 단일의 쌍이 아닌 비디오 필드(single non-paired video field), 상보적인 비디오 필드들의 쌍, 주어진 때의 비디오 객체를 표현하는 비디오 객체 평면(video object plane), 또는 보다 큰 영상에서의 관심 영역을 나타낼 수 있다. 비디오 객체 평면 또는 영역은 장면의 다수의 객체들 또는 영역들을 포함하는 보다 큰 영상의 일부일 수 있다.

도착하는 소스 프레임(311)은 다수의 프레임 버퍼 저장 구역들(321, 322, ..., 32n)을 포함하는 소스 프레임 임시 메모리 저장 구역(320)에 저장된다. 프레임 버퍼(321, 322 등)는 소스 프레임 저장 구역(320)에 하나의 소스 프레임을 보유한다. 소스 프레임들(311) 중 하나 이상이 프레임 버퍼들(321, 322 등)에 저장된 후에, 프레임 선택기(frame selector)(330)는 소스 프레임 저장 구역(320)으로부터 개개의 소스 프레임을 주기적으로 선택한다. 프레임들이 인코더(340)에 입력하기 위해 프레임 선택기(330)에 의해 선택되는 순서는 프레임들이 비디오 소스(310)에 의해 생성되는 순서와 상이할 수 있다(예컨대, 시간상 역방향 예측(temporally backward prediction)을 용이하게 하기 위해, 프레임이 순서가 앞서 있을 수 있다). 인코더(340)보다 앞에, 인코더 시스템(300)은 인코딩 이전에 선택된 프레임(331)의 전처리(예컨대, 필터링)를 수행하는 전처리기(pre-processor)(도시 생략)를 포함할 수 있다. 전처리는 또한 인코딩을 위한 주 및 보조 성분들로의 색 공간 변환(color space conversion)을 포함할 수 있다. 전형적으로, 인코딩 이전에, 비디오는 YUV와 같은 색 공간으로 변환되었고, 여기서 루마(luma)(Y) 성분의 샘플 값들은 밝기 또는 휘도 값들을 나타내고, 크로마(chroma)(U, V) 성분들의 샘플 값들은 색차 값(color-difference value)들을 나타낸다. 크로마 샘플 값들은 (예컨대, YUV 4:2:0 포맷에 대해) 보다 낮은 크로마 샘플링 레이트로 서브샘플링될 수 있거나, 크로마 샘플 값들은 (예컨대, YUV 4:4:4 포맷에 대해) 루마 샘플 값들과 동일한 해상도를 가질 수 있다. 또는, 비디오가 다른 포맷(예컨대, RGB 4:4:4 포맷)으로 인코딩될 수 있다.

인코더(340)는, 코딩된 프레임(341)을 생성하기 위해, 선택된 프레임(331)을 인코딩하고, 또한 MMCO(memory management control operation: 메모리 관리 제어 동작) 신호들(342) 또는 RPS(reference picture set: 참조 픽처 세트) 정보를 생성한다. 현재 프레임이 인코딩된 첫 번째 프레임이 아닌 경우, 그의 인코딩 프로세스를 수행할 때, 인코더(340)는 디코딩된 프레임 임시 메모리 저장 구역(360)에 저장된 하나 이상의 이전에 인코딩된/디코딩된 프레임들(369)을 사용할 수 있다. 이러한 저장된 디코딩된 프레임들(369)은 현재 소스 프레임(331)의 콘텐츠의 인터 프레임 예측(inter-frame prediction)을 위한 참조 프레임(reference frame)들로서 사용된다. 일반적으로, 인코더(340)는 타일들로 분할하는 것, 인트라 예측 추정 및 예측, 움직임 추정 및 보상, 주파수 변환, 양자화 및 엔트로피 코딩과 같은 인코딩 작업들을 수행하는 다수의 인코딩 모듈들을 포함한다. 인코더(340)에 의해 수행되는 정확한 동작들은 압축 포맷(compression format)에 따라 변할 수 있다. 출력되는 인코딩된 데이터의 포맷은 HEVC 포맷, WMV(Windows Media Video) 포맷, VC-1 포맷, MPEG-x 포맷(예컨대, MPEG-1, MPEG-2, 또는 MPEG-4), H.26x 포맷(예컨대, H.261, H.262, H.263, H.264), 또는 다른 포맷의 변형 또는 확장일 수 있다.

인코더(340)는 프레임을 동일한 크기 또는 상이한 크기들의 다수의 타일들로 분할할 수 있다. 예를 들어, 인코더(340)는 프레임을, 프레임 경계들과 함께, 프레임 내의 타일들의 수평 및 수직 경계들을 정의하는 타일 행들 및 타일 열들을 따라 분할하고, 여기서 각각의 타일은 직사각형 영역이다. 타일들은 종종 병렬 처리를 위한 옵션들을 개선시키기 위해 사용된다. 프레임은 또한 하나 이상의 슬라이스들로서 구성될 수 있고, 여기서 슬라이스는 프레임 전체 또는 프레임의 영역일 수 있다. 슬라이스는 프레임 내의 다른 슬라이스들과 독립적으로 디코딩될 수 있고, 이는 오류 내성(error resilience)을 개선시킨다. 슬라이스 또는 타일의 내용이 인코딩 및 디코딩의 목적들을 위해 블록들 또는 다른 샘플 세트들로 추가로 분할된다.

hEVC 표준에 따른 구문에 대해, 인코더는 프레임(또는 슬라이스 또는 타일)의 내용을 코딩 트리 단위(coding tree unit)들로 분할한다. 코딩 트리 단위(CTU)는 루마 코딩 트리 블록(coding tree block, CTB) 으로서 구성되는 루마 샘플 값들 및 2 개의 크로마 CTB들로서 구성되는 대응하는 크로마 샘플 값들을 포함한다. CTU(및 그의 CTB들)의 크기는 인코더에 의해 선택되고, 예를 들어, 64x64, 32x32 또는 16x16 샘플 값들일 수 있다. CTU는 하나 이상의 코딩 단위들을 포함한다. 코딩 단위(CU)는 루마 코딩 블록(coding block, CB) 및 2 개의 대응하는 크로마 CB들을 가진다. 예를 들어, 하나의 64x64 루마 CTB 및 2 개의 64x64 크로마 CTB들을 갖는 CTU(YUV 4:4:4 포맷)는 4 개의 CU들로 분할될 수 있고, 각각의 CU는 하나의 32x32 루마 CB 및 2 개의 32x32 크로마 CB들을 포함하고, 각각의 CU는 어쩌면 보다 작은 CU들로 추가로 분할된다. 또는, 다른 예로서, 하나의 64x64 루마 CTB 및 2 개의 32x32 크로마 CTB들을 갖는 CTU(YUV 4:2:0 포맷)는 4 개의 CU들로 분할될 수 있고, 각각의 CU는 하나의 32x32 루마 CB 및 2 개의 16x16 크로마 CB들을 포함하고, 각각의 CU는 어쩌면 보다 작은 CU들로 추가로 분할된다. CU의 가장 작은 허용 가능 크기(예컨대, 8x8, 16x16)는 비트스트림에서 신호될 수 있다.

일반적으로, CU는 인터(inter) 또는 인트라(intra)와 같은 예측 모드를 갖는다. CU는 예측 정보(예측 모드 상세, 기타 등등)를 신호하기 위한 그리고/또는 예측 처리를 위한 하나 이상의 예측 단위들을 포함한다. 예측 단위(prediction unit, PU)는 루마 예측 블록(prediction block, PB) 및 2 개의 크로마 PB들을 가진다. 인트라 예측된 CU에 대해, PU는, CU가 가장 작은 크기(예컨대, 8x8)를 갖지 않는 한, CU와 동일한 크기를 갖는다. 그 경우에, CU에 대한 구문 요소에 의해 나타내는 바와 같이, CU는 4 개의 보다 작은 PU들(예컨대, 가장 작은 CU 크기가 8x8인 경우 각각이 4x4임)로 분할될 수 있거나, PU가 가장 작은 CU 크기를 가질 수 있다. CU는 또한 잔차 코딩/디코딩을 위한 하나 이상의 변환 단위(transform unit)들을 가지며, 여기서 변환 단위(TU)는 하나의 변환 블록(transform block, TB) 및 2 개의 크로마 TB들을 갖는다. 인트라 예측된 CU에서의 PU는 단일의 TU(크기가 PU와 같음) 또는 다수의 TU들을 포함할 수 있다. 본 명세서에서 사용되는 바와 같이, "블록"이라는 용어는, 문맥에 따라, CB, PB, TB 또는 다른 샘플 값 세트를 나타낼 수 있다. 인코더는 비디오를 CTU들, CU들, PU들, TU들, 기타로 어떻게 분할할지를 결정한다.

도 3으로 돌아가서, 인코더는 소스 프레임(331) 내의 다른 이전에 재구성된 샘플 값들로부터의 예측의 면에서 소스 프레임(331)의 인트라 코딩된 블록을 표현한다. 블록에 대한 인트라 공간 예측(intra spatial prediction)에 대해, 인트라 픽처 추정기(intra-picture estimator)는 이웃하는 재구성된 샘플 값들의 블록 내로의 외삽(extrapolation)을 추정한다. 인트라 예측 추정기(intra-prediction estimator)는 (인트라 공간 예측을 위한 예측 모드(방향)와 같은) 예측 정보를 출력하고, 이 예측 정보는 엔트로피 코딩된다. 인트라 예측 예측기(intra-prediction predictor)는 인트라 예측 값들을 결정하기 위해 예측 정보를 적용한다. BCIM 모드에 대해, 인코더는, 인덱스 값들에 대한 기본 색상 테이블을 사용하여 그리고 인덱스 맵의 요소들을 사용하여, 블록의 샘플 값들 중의 기본 색상들에 대한 인덱스 값들을 사용해 인트라 코딩된 블록을 표현한다. 인코더는 또한 인덱스 값들을 사용함이 없이 BCIM 모드 블록 내의 예외 값들을 표현할 수 있고, 이에 대해서는 이하에서 기술한다.

인코더(340)는 참조 프레임들로부터의 예측의 면에서 소스 프레임(331)의 인터 코딩된, 예측된 블록을 나타낸다. 움직임 추정기(motion estimator)는 하나 이상의 참조 프레임들(369)에 대한 블록의 움직임을 추정한다. 다수의 참조 프레임들이 사용될 때, 다수의 참조 프레임들은 상이한 시간 방향들 또는 동일한 시간 방향으로부터의 것일 수 있다. 움직임 보상된 예측 참조 영역(motion-compensated prediction reference region)은 현재 프레임의 샘플들의 블록에 대한 움직임 보상된 예측 값들을 생성하는 데 사용되는 참조 프레임(들) 내의 샘플들의 영역이다. 움직임 추정기는 엔트로피 코딩되어 있는, 움직임 벡터 정보와 같은, 움직임 정보를 출력한다. 움직임 보상기(motion compensator)는 움직임 보상된 예측 값들을 결정하기 위해 참조 프레임들(369)에 움직임 벡터들을 적용한다.

비BCIM 모드들에서, 인코더는 블록의 예측 값들(인트라 또는 인터)과 대응하는 원래 값들 사이의 차이(있는 경우)를 결정한다. 이 예측 잔차 값(prediction residual value)들은 주파수 변환, 양자화 및 엔트로피 인코딩을 사용하여 추가로 인코딩된다. 예를 들어, 인코더(340)는 비디오의 픽처, 타일, 슬라이스 및/또는 다른 부분에 대해 QP(quantization parameter, 양자화 파라미터)에 대한 값들을 설정하고, 그에 따라 변환 계수들을 양자화한다. BCIM 모드에서, 인코더는, 예외 값들을 처리할 때의 특정 양자화 동작들을 제외한, 변환 및 양자화 동작들을 건너뛴다.

인코더(340)의 엔트로피 코더(entropy coder)는 양자화된 변환 계수 값들은 물론, 특정의 보조 정보(side information)(예컨대, 움직임 벡터 정보, QP 값, 모드 결정, 파라미터 선택)를 압축한다. 상세하게는, 엔트로피 코더는 계수 코딩 구문 구조를 사용하여 인덱스 맵의 요소들에 대한 데이터를 압축할 수 있다. 전형적인 엔트로피 코딩 기법들은 지수 골롬 코딩(Exp-Golomb coding), 산술 코딩(arithmetic coding), 차분 코딩(differential coding), 허프만 코딩(Huffman coding), 런 길이 코딩(run length coding), V2V(variable-length-to-variable-length) 코딩, V2F(variable-length-to-fixed-length) 코딩, LZ 코딩, 사전 코딩(dictionary coding), PIPE(probability interval partitioning entropy coding), 및 이들의 조합들을 포함한다. 엔트로피 코더는 상이한 종류의 정보에 대해 상이한 코딩 기법들을 사용할 수 있고, 특정의 코딩 기법 내에서 다수의 코드 테이블들 중에서 선택할 수 있다.

코딩된 프레임들(341) 및 MMCO/RPS 정보(342)는 디코딩 프로세스 에뮬레이터(350)에 의해 처리된다. 디코딩 프로세스 에뮬레이터(350)는 디코더의 기능 중 일부(예를 들어,참조 프레임들을 재구성하는 디코딩 작업들)를 구현한다. 디코딩 프로세스 에뮬레이터(350)는 주어진 코딩된 프레임(342)이 재구성되어 인코딩될 후속 프레임들의 인터 프레임 예측에서 참조 프레임으로서 사용하기 위해 저장될 필요가 있는지를 결정하기 위해 MMCO/RPS 정보(342)를 사용한다. MMCO/RPS 정보(342)가 코딩된 프레임(341)이 저장될 필요가 있다는 것을 나타내는 경우, 디코딩 프로세스 에뮬레이터(350)는 코딩된 프레임(341)을 수신하고 대응하는 디코딩된 프레임(351)을 생성하는 디코더에 의해 수행될 디코딩 프로세스를 모델링한다. 그렇게 함에 있어서, 인코더(340)가 디코딩된 프레임 저장 구역(360)에 저장된 디코딩된 프레임(들)(369)을 사용할 때, 디코딩 프로세스 에뮬레이터(350)는 또한 디코딩 프로세스의 일부로서 저장 구역(360)으로부터의 디코딩된 프레임(들)(369)을 사용한다.

디코딩된 프레임 임시 메모리 저장 구역(360)은 다수의 프레임 버퍼 저장 구역들(361, 362, ..., 36n)을 포함한다. 디코딩 프로세스 에뮬레이터(350)는 참조 프레임들로서 사용하기 위해 인코더(340)에 의해 더 이상 필요로 하지 않는 프레임들을 갖는 임의의 프레임 버퍼들(361, 362 등)을 식별하기 위해 저장 구역(360)의 콘텐츠를 관리하는 데 MMCO/RPS 정보(342)를 사용한다. 디코딩 프로세스를 모델링한 후에, 디코딩 프로세스 에뮬레이터(350)는 새로 디코딩된 프레임(351)을 이러한 방식으로 식별된 프레임 버퍼(361, 362 등)에 저장한다.

코딩된 프레임(341) 및 MMCO/RPS 정보(342)는 임시 코딩된 데이터 구역(temporary coded data area)(370)에 버퍼링된다. 코딩된 데이터 구역(370)에 집계되어 있는 코딩된 데이터는, 기본 코딩된 비디오 비트스트림(elementary coded video bitstream)의 구문의 일부로서, 하나 이상의 픽처들에 대한 인코딩된 데이터를 포함한다. 코딩된 데이터 구역(370)에 집계되어 있는 코딩된 데이터는 또한 (예컨대, 하나 이상의 SEI(supplemental enhancement information) 메시지들 또는 VUI(video usability information) 메시지들에서의 하나 이상의 파라미터들로서) 코딩된 비디오 데이터에 관한 미디어 메타데이터를 포함할 수 있다.

임시 코딩된 데이터 구역(370)으로부터의 집계된 데이터(371)는 채널 인코더(channel encoder)(380)에 의해 처리된다. 채널 인코더(380)는 (예컨대, ISO/IEC 13818-1와 같은 미디어 스트림 다중화 포맷(media stream multiplexing format)에 따라) 미디어 스트림으로서 전송하기 위해 집계된 데이터를 패킷화(packetize)할 수 있고, 이 경우에 채널 인코더(380)는 미디어 전송 스트림의 구문의 일부로서 구문 요소들을 추가할 수 있다. 또는, 채널 인코더(380)는 (예컨대, ISO/IEC 14496-12와 같은 미디어 컨테이너 포맷(media container format)에 따라) 파일로서 저장하기 위해 집계된 데이터를 구성(organize)할 수 있고, 이 경우에 채널 인코더(380)는 미디어 저장 파일의 구문의 일부로서 구문 요소들을 추가할 수 있다. 또는, 보다 일반적으로, 채널 인코더(380)는 하나 이상의 미디어 시스템 다중화 프로토콜들 또는 전송 프로토콜들을 구현할 수 있고, 이 경우에 채널 인코더(380)는 프로토콜(들)의 구문의 일부로서 구문 요소들을 추가할 수 있다. 채널 인코더(380)는 출력에 대한 저장소, 통신 연결, 또는 다른 채널을 나타내는 채널(390)에 출력을 제공한다.

IV. 예시적인 디코더 시스템

도 4는 일부 기술된 실시예들이 구현될 수 있는 예시적인 디코더 시스템(400)의 블록도이다. 디코더 시스템(400)은 실시간 통신을 위한 저 대기 시간 디코딩 모드 및 파일 또는 스트림으로부터 미디어 재생을 위한 정규 디코딩 모드(regular decoding mode)와 같은 다수의 디코딩 모드들 중 임의의 것에서 동작할 수 있는 범용 디코딩 도구일 수 있거나, 하나의 이러한 디코딩 모드를 위해 구성된 특수 목적 디코딩 도구일 수 있다. 디코더 시스템(400)은 운영 체제 모듈로서, 애플리케이션 라이브러리의 일부로서 또는 독립형 애플리케이션으로서 구현될 수 있다. 일반적으로, 디코더 시스템(400)은 채널(410)로부터 코딩된 데이터를 수신하고 출력 목적지(490)에 대한 출력으로서 재구성된 프레임들을 생성한다. 코딩된 데이터는 BCIM 모드를 사용하여 인코딩된 콘텐츠를 포함할 수 있다.

디코더 시스템(400)은 입력으로서의 코딩된 데이터에 대한 저장소, 통신 연결, 또는 다른 채널을 나타낼 수 있는 채널(410)을 포함한다. 채널(410)은 채널 코딩되어 있는 코딩된 데이터를 생성한다. 채널 디코더(420)는 코딩된 데이터를 처리할 수 있다. 예를 들어, 채널 디코더(420)는 (예컨대, ISO/IEC 13818-1와 같은 미디어 스트림 다중화 포맷에 따라) 미디어 스트림으로서 전송하기 위해 집계된 데이터를 역패킷화(de-packetize)하고, 이 경우에 채널 디코더(420)는 미디어 전송 스트림의 구문의 일부로서 추가된 구문 요소들을 파싱할 수 있다. 또는, 채널 디코더(420)는 (예컨대, ISO/IEC 14496-12와 같은 미디어 컨테이너 포맷에 따라) 파일로서 저장하기 위해 집계되어 있는 코딩된 비디오 데이터를 분리시키고, 이 경우에 채널 디코더(420)는 미디어 저장 파일의 구문의 일부로서 추가된 구문 요소들을 파싱할 수 있다. 또는, 보다 일반적으로, 채널 디코더(420)는 하나 이상의 미디어 시스템 역다중화 프로토콜들 또는 전송 프로토콜들을 구현할 수 있고, 이 경우에 채널 디코더(420)는 프로토콜(들)의 구문의 일부로서 추가된 구문 요소들을 파싱할 수 있다.

채널 디코더(420)로부터 출력되는 코딩된 데이터(421)는, 충분한 양의 이러한 데이터가 수신될 때까지, 임시 코딩된 데이터 구역(430)에 저장된다. 코딩된 데이터(421)는 코딩된 프레임(431) 및 MMCO/RPS 정보(432)를 포함한다. 코딩된 데이터 구역(430) 내의 코딩된 데이터(421)는, 기본 코딩된 비디오 비트스트림의 구문의 일부로서, 하나 이상의 픽처들에 대한 코딩된 데이터를 포함한다. 코딩된 데이터 구역(430) 내의 코딩된 데이터(421)는 또한 (예컨대, 하나 이상의 SEI 메시지들 또는 VUI 메시지들에서의 하나 이상의 파라미터들로서) 인코딩된 비디오 데이터에 관련된 미디어 메타데이터를 포함할 수 있다.

일반적으로, 코딩된 데이터 구역(430)은 코딩된 데이터(421)가 디코더(450)에 의해 사용될 때까지 이러한 코딩된 데이터(421)를 일시적으로 저장한다. 그 시점에서, 코딩된 프레임(431) 및 MMCO/RPS 정보(432)에 대한 코딩된 데이터가 코딩된 데이터 구역(430)으로부터 디코더(450)로 전송된다. 디코딩이 계속됨에 따라, 새로운 코딩된 데이터가 코딩된 데이터 구역(430)에 추가되고, 코딩된 데이터 구역(430)에 남아 있는 가장 오래된 코딩된 데이터가 디코더(450)로 전송된다.

디코더(450)는 코딩된 프레임(431)을 주기적으로 디코딩하여 대응하는 디코딩된 프레임(451)을 생성한다. 적절한 경우, 그의 디코딩 프로세스를 수행할 때, 디코더(450)는 하나 이상의 이전에 디코딩된 프레임들(469)을 인터 프레임 예측을 위한 참조 프레임들로서 사용할 수 있다. 디코더(450)는 디코딩된 프레임 임시 메모리 저장 구역(460)으로부터 이러한 이전에 디코딩된 프레임들(469)을 읽는다. 일반적으로, 디코더(450)는, 엔트로피 디코딩, 역양자화, 역 주파수 변환, 인트라 예측, 움직임 보상 및 타일들의 병합과 같은, 디코딩 작업들을 수행하는 다수의 디코딩 모듈들을 포함한다. 디코더(450)에 의해 수행되는 정확한 동작들은 압축 포맷에 따라 변할 수 있다.

예를 들어, 디코더(450)는 압축된 프레임 또는 프레임들의 시퀀스에 대한 인코딩된 데이터를 수신하고, 디코딩된 프레임(451)을 포함하는 출력을 생성한다. 디코더(450)에서, 버퍼는 압축된 프레임에 대한 인코딩된 데이터를 수신하고, 적절한 때에, 수신된 인코딩된 데이터를 엔트로피 디코더가 이용 가능하게 만든다. 엔트로피 디코더는, 전형적으로 인코더에서 수행된 엔트로피 인코딩의 역을 적용하여, 엔트로피 코딩된 양자화된 데이터는 물론 엔트로피 코딩된 보조 정보를 엔트로피 디코딩한다. 움직임 보상기는 재구성되는 프레임의 인터 코딩된 블록들의 움직임 보상된 예측 값들을 형성하기 위해 움직임 정보를 하나 이상의 참조 프레임들에 적용한다. 인트라 예측 모듈(intra prediction module)은 이웃하는 이전에 재구성된 샘플 값들로부터 현재 블록의 샘플 값들을 공간적으로 예측할 수 있다. BCIM 모드에 대해, 디코더는, 인덱스 값들에 대한 기본 색상 테이블을 사용하여 그리고 인덱스 맵의 요소들을 사용하여, 블록의 샘플 값들 중의 기본 색상들에 대한 인덱스 값들을 사용해 인트라 코딩된 블록을 재구성한다.

비BCIM 모드에서, 디코더(450)는 또한 예측 잔차들을 재구성한다. 역양자화기는 엔트로피 디코딩된 데이터를 역양자화한다. 예를 들어, 디코더(450)는 비디오의 픽처, 타일, 슬라이스 및/또는 다른 부분에 대해 QP에 대한 값들을 비트스트림에서의 구문 요소들에 기초하여 설정하고, 그에 따라 변환 계수들을 역양자화한다. 역 주파수 변환기는 양자화된 주파수 영역 데이터를 공간 영역 정보로 변환한다. BCIM 모드에서, 디코더는, 예외 값들을 디코딩할 때의 특정 역양자화 동작들을 제외한, 역양자화 및 역 주파수 변환 동작들을 건너뛴다. 인터 예측된 블록에 대해, 디코더(450)는 재구성된 예측 잔차들을 움직임 보상된 예측들과 결합시킨다. 디코더(450)는 이와 유사하게 예측 잔차들을 인트라 예측으로부터의 예측들과 결합시킬 수 있다. 비디오 디코더(450)에서의 움직임 보상 루프는 디코딩된 프레임(451)에서의 블록 경계 행들 및/또는 열들에 걸친 불연속들을 평활화하기 위해 적응적 블록화 제거 필터(adaptive de-blocking filter)를 포함한다.

디코딩된 프레임 임시 메모리 저장 구역(460)은 다수의 프레임 버퍼 저장 구역들(461, 462, ..., 46n)을 포함한다. 디코딩된 프레임 저장 구역(460)은 디코딩된 픽처 버퍼(decoded picture buffer)의 일 예이다. 디코더(450)는 디코딩된 프레임(451)을 저장할 수 있는 프레임 버퍼(461, 462 등)를 식별하기 위해 MMCO/RPS 정보(432)를 사용한다. 디코더(450)는 디코딩된 프레임(451)을 그 프레임 버퍼에 저장한다.

출력 시퀀서(output sequencer)(480)는 MMCO/RPS 정보(432)를 사용하여, 출력 순서에서 생성될 다음 프레임이 디코딩된 프레임 저장 구역(460)에서 이용가능할 때를 식별한다. 출력 순서에서 생성될 다음 프레임(481)이 디코딩된 프레임 저장 구역(460)에서 이용가능할 때, 그것이 출력 시퀀서(480)에 의해 읽혀지고 출력 목적지(490)(예컨대, 디스플레이)로 출력된다. 일반적으로, 프레임들이 디코딩된 프레임 저장 구역(460)으로부터 출력 시퀀서(480)에 의해 출력되는 순서는 프레임들이 디코더(450)에 의해 디코딩되는 순서와 상이할 수 있다.

V. 예시적인 비디오 인코더

도 5a 및 도 5b는 일부 기술된 실시예들이 구현될 수 있는 일반화된 비디오 인코더(500)의 블록도이다. 인코더(500)는 현재 프레임(505)을 포함하는 비디오 픽처들의 시퀀스를 입력 비디오 신호(505)로서 수신하고, 코딩된 비디오 비트스트림(595)에서의 인코딩된 데이터를 출력으로서 생성한다.

인코더(500)는 블록 기반(block-based)이고, 구현에 의존하는 블록 포맷을 사용한다. 블록들이 상이한 스테이지들에서, 예컨대, 예측, 주파수 변환 및/또는 엔트로피 인코딩 스테이지들에서, 추가로 세분화될 수 있다. 예를 들어, 픽처가 64x64 블록들, 32x32 블록들 또는 16x16 블록들로 나누어질 수 있고, 이들이 차례로 코딩 및 디코딩을 위해 보다 작은 샘플 값 블록들로 나누어질 수 있다. HEVC 표준에 대한 인코딩의 구현들에서, 인코더는 픽처를 CTU들(CTB들), CU들(CB들), PU들(PB들) 및 TU(TB들)로 분할한다.

인코더(500)는 인트라 픽처 코딩(intra-picture coding) 및/또는 인터 픽처 코딩(inter-picture coding)을 사용하여 픽처들을 압축한다. 인코더(500)의 구성요소들 중 다수는 인트라 픽처 코딩 및 인터 픽처 코딩 둘 다를 위해 사용된다. 그 구성요소들에 의해 수행되는 정확한 동작들은 압축되는 정보의 유형에 따라 달라질 수 있다.

타일화 모듈(tiling module)(510)은, 선택적으로, 픽처를 동일한 크기 또는 상이한 크기들의 다수의 타일들로 분할한다. 예를 들어, 타일화 모듈(510)은 픽처를, 픽처 경계들과 함께, 픽처 내의 타일들의 수평 및 수직 경계들을 정의하는 타일 행들 및 타일 열들을 따라 분할하고, 여기서 각각의 타일은 직사각형 영역이다. 타일화 모듈(510)은 이어서 타일들을 하나 이상의 타일 세트들로 그룹화할 수 있고, 여기서 타일 세트는 타일들 중 하나 이상의 타일들의 그룹이다.

일반 인코딩 제어(520)는 입력 비디오 신호(505)에 대한 픽처들은 물론 인코더(500)의 다양한 모듈들로부터의 피드백(도시 생략)을 수신한다. 전체적으로, 일반 인코딩 제어(520)는, 인코딩 동안 코딩 파라미터들을 설정하고 변경하기 위해, 제어 신호들(도시 생략)을 다른 모듈들[타일화 모듈(510), 변환기/스케일러/양자화기(530), 스케일러/역변환기(535), 인트라 픽처 추정기(540), 움직임 추정기(550) 및 인트라/인터 스위치(intra/inter switch) 등]에 제공한다. 상세하게는, 일반 인코딩 제어(520)는 인코딩 동안 BCIM 모드를 사용할지 여부 및 어떻게 사용할지를 결정할 수 있다. 일반 인코딩 제어(520)는 또한 인코딩 동안 중간 결과들을 평가할 수 있다(예컨대, 레이트 왜곡 분석(rate-distortion analysis)을 수행함). 일반 인코딩 제어(520)는, 대응하는 디코더가 일관성 있는 결정들을 할 수 있도록, 인코딩 동안 행해진 결정들을 나타내는 일반 제어 데이터(522)를 생성한다. 일반 제어 데이터(522)는 헤더 포맷터/엔트로피 코더(header formatter/entropy coder)(590)에 제공된다.

현재 픽처가 인터 픽처 예측을 사용하여 예측되는 경우, 움직임 추정기(550)는 하나 이상의 참조 픽처들에 대한 입력 비디오 신호(505)의 현재 픽처의 샘플 값들의 블록들의 움직임을 추정한다. 디코딩된 픽처 버퍼(570)는 참조 픽처들로서 사용하기 위해 하나 이상의 재구성된 이전에 코딩된 픽처(reconstructed previously coded picture)들을 버퍼링한다. 다수의 참조 픽처들이 사용될 때, 다수의 참조 픽처들은 상이한 시간 방향들 또는 동일한 시간 방향으로부터의 것일 수 있다. 움직임 추정기(550)는 보조 정보로서 참조 픽처 선택 데이터 및 움직임 벡터 데이터와 같은 움직임 데이터(552)를 생성한다. 움직임 데이터(552)는 헤더 포맷터/엔트로피 코더(590)에는 물론 움직임 보상기(555)에 제공된다.

움직임 보상기(555)는 디코딩된 픽처 버퍼(570)로부터의 재구성된 참조 픽처(들)에 움직임 벡터들을 적용한다. 움직임 보상기(555)는 현재 픽처에 대한 움직임 보상된 예측들을 생성한다.

인코더(500) 내의 별도의 경로에서, 인트라 픽처 추정기(540)는 입력 비디오 신호(505)의 현재 픽처의 샘플 값들의 블록들에 대한 인트라 픽처 예측을 어떻게 수행할지를 결정한다. 현재 픽처는 전체 또는 일부가 인트라 픽처 코딩을 사용하여 코딩될 수 있다. 현재 픽처의 재구성(538)의 값들을 사용하여, 인트라 공간 예측에 대해, 인트라 픽처 추정기(540)는 현재 픽처의 이웃하는 이전에 재구성된 샘플 값들로부터 현재 픽처의 현재 블록의 샘플 값들을 어떻게 공간적으로 예측할지를 결정한다.

BCIM 모드에 대해, 인코더(500)는, 인덱스 값들에 대한 인덱스 맵을 사용하여 그리고 인덱스 맵의 요소들을 사용하여, 블록의 샘플 값들 중의 기본 색상들에 대한 인덱스 값들을 사용해 인트라 코딩된 블록을 표현한다.

인트라 예측 추정기(540)는, 인트라 예측이 공간 예측 또는 BCIM 모드를 사용하는지(예컨대, 인트라 블록마다 또는 특정 예측 모드 방향들의 인트라 블록마다의 플래그 값), (인트라 공간 예측에 대한) 예측 모드 방향을 나타내는 정보와 같은, 인트라 예측 데이터(542)를 보조 정보로서 생성한다. 인트라 예측 데이터(542)는 헤더 포맷터/엔트로피 코더(590)에는 물론 인트라 픽처 예측기(545)에 제공된다. 인트라 예측 데이터(542)에 따라, 인트라 픽처 예측기(545)는 현재 픽처의 이웃하는 이전에 재구성된 샘플 값들로부터 현재 픽처의 현재 블록의 샘플 값들을 공간적으로 예측하거나, BCM 모드 블록들의 샘플 값들을 재구성한다.

비BCM 모드들에서, 인트라/인터 스위치는 주어진 블록에 대한 예측(558)으로서 사용하기 위해 움직임 보상된 예측 또는 인트라 픽처 예측의 값들을 선택한다. 비BCIM 모드들에서, 예측(558)의 블록과 입력 비디오 신호(505)의 원래의 현재 픽처의 대응하는 부분 사이의 차이(있는 경우)는 잔차(518)의 값들을 제공한다. 현재 픽처의 재구성 동안, 재구성된 잔차 값들은 예측(558)과 결합되어, 비디오 신호(505)로부터의 원래 콘텐츠의 재구성(538)을 생성한다. 그렇지만, 손실 압축에서, 어떤 정보가 여전히 비디오 신호(505)로부터 손실되어 있다.

변환기/스케일러/양자화기(530)에서, 비BCIM 모드들에 대해, 주파수 변환기는 공간 영역 비디오 정보를 주파수 영역(즉, 스펙트럼, 변환) 데이터로 변환시킨다. 블록 기반 비디오 코딩의 경우, 주파수 변환기는 예측 잔차 데이터(또는 예측(558)이 널(null)인 경우, 샘플 값 데이터)의 블록들에 이산 코사인 변환(DCT), 그의 정수 근사화(integer approximation), 또는 다른 유형의 순방향 블록 변환(forward block transform)을 적용하여, 주파수 변환 계수들의 블록들을 생성한다. 인코더(500)는 또한 이러한 변환 단계가 생략된다는 것을 나타낼 수 있다. 스케일러/양자화기는 변환 계수들을 스케일링하고 양자화한다. 예를 들어, 양자화기는 프레임마다, 타일마다, 슬라이스마다, 블록마다 또는 다른 기준으로 변하는 계단 크기(step size)로 불균일 스칼라 양자화(non-uniform, scalar quantization)를 주파수 영역 데이터에 적용한다. 양자화된 변환 계수 데이터(532)는 헤더 포맷터/엔트로피 코더(590)에 제공된다.

스케일러/역변환기(535)에서, 비BCIM 모드들에 대해, 스케일러/역양자화기는 양자화된 변환 계수들에 대해 역스케일링 및 역양자화를 수행한다. 역 주파수 변환기는 역 주파수 변환을 수행하여, 재구성된 예측 잔차들 또는 샘플 값들의 블록들을 생성한다. 인코더(500)는 재구성된 잔차들을 예측(558)의 값들(예컨대, 움직임 보상된 예측 값들, 인트라 픽처 예측 값들)과 결합하여 재구성(538)을 형성한다.

인트라 픽처 예측의 경우, 재구성(538)의 값들은 인트라 픽처 추정기(540) 및 인트라 픽처 예측기(545)에 피드백될 수 있다. 또한, 재구성(538)의 값들이 후속 픽처들의 움직임 보상된 예측을 위해 사용될 수 있다. 재구성(538)의 값들이 추가로 필터링될 수 있다. 필터링 제어(560)는, 비디오 신호(505)의 주어진 픽처에 대해, 재구성(538)의 값들에 대해 블록화 제거 필터링 및 SAO(sample adaptive offset) 필터링을 어떻게 수행할지를 결정한다. 필터링 제어(560)는 헤더 포맷터/엔트로피 코더(590) 및 병합기/필터(들)(565)에 제공되는 필터 제어 데이터(562)를 생성한다.

병합기/필터(들)(565)에서, 인코더(500)는 상이한 타일들로부터의 콘텐츠를 픽처의 재구성된 버전으로 병합한다. 인코더(500)는, 프레임들에서의 경계들에 걸쳐 불연속들을 적응적으로 평활화하기 위해, 필터 제어 데이터(562)에 따라 블록화 제거 필터링 및 SAO 필터링을 선택적으로 수행한다. 인코더(500)의 설정에 따라, 타일 경계들이 선택적으로 필터링되거나 전혀 필터링되지 않을 수 있고, 인코더(500)는 이러한 필터링이 적용되었는지 여부를 나타내는 구문을 코딩된 비트스트림 내에 제공할 수 있다. 디코딩된 픽처 버퍼(570)는 후속하는 움직임 보상된 예측에서 사용하기 위해 재구성된 현재 픽처를 버퍼링한다.

헤더 포맷터/엔트로피 코더(590)는 일반 제어 데이터(522), 양자화된 변환 계수 데이터(532), 인트라 예측 데이터(542) 및 패킹된 인덱스 값들, 움직임 데이터(552) 및 필터 제어 데이터(562)를 포맷팅하고 그리고/또는 엔트로피 코딩한다. 예를 들어, 헤더 포맷터/엔트로피 코더(590)는 계수 코딩 구문 구조의 다양한 구문 요소들의 엔트로피 코딩을 위해 컨텍스트 적응적 이진 산술 코딩(context-adaptive binary arithmetic coding, CABAC)을 사용한다.

헤더 포맷터/엔트로피 코더(590)는 인코딩된 데이터를 코딩된 비디오 비트스트림(595)으로 제공한다. 코딩된 비디오 비트스트림(595)의 포맷은 HEVC 포맷, WMV(Windows Media Video) 포맷, VC-1 포맷, MPEG-x 포맷(예컨대, MPEG-1, MPEG-2, 또는 MPEG-4), H.26x 포맷(예컨대, H.261, H.262, H.263, H.264), 또는 다른 포맷의 변형 또는 확장일 수 있다.

구현 및 원하는 압축 유형에 따라, 인코더의 모듈들이 추가되고, 생략되며, 다수의 모듈들로 분할되고, 다른 모듈들과 결합되며, 그리고/또는 유사한 모듈들로 대체될 수 있다. 대안의 실시예들에서, 상이한 모듈들 및/또는 모듈들의 다른 구성들을 갖는 인코더들은 기술되는 기법들 중 하나 이상을 수행한다. 인코더의 구체적인 실시예들은 전형적으로 인코더(500)의 변형 또는 보완된 버전을 사용한다. 인코더(500) 내의 모듈들 간의 도시된 관계들은 인코더에서의 정보의 일반적인 흐름들을 나타내고; 간단함을 위해, 다른 관계들은 도시되어 있지 않다.

VI. 예시적인 비디오 디코더

도 6은 일부 기술된 실시예들이 구현될 수 있는 일반화된 디코더(600)의 블록도이다. 디코더(600)는 인코딩된 데이터를 코딩된 비디오 비트스트림(605)으로 수신하고, 재구성된 비디오(695)에 대한 픽처들을 포함하는 출력을 생성한다. 코딩된 비디오 비트스트림(605)의 포맷은 HEVC 포맷, WMV(Windows Media Video) 포맷, VC-1 포맷, MPEG-x 포맷(예컨대, MPEG-1, MPEG-2, 또는 MPEG-4), H.26x 포맷(예컨대, H.261, H.262, H.263, H.264), 또는 다른 포맷의 변형 또는 확장일 수 있다.

디코더(600)는 블록 기반이고, 구현에 의존하는 블록 포맷을 사용한다. 블록들이 상이한 스테이지들에서 추가로 세분될 수 있다. 예를 들어, 픽처가 64x64 블록들, 32x32 블록들 또는 16x16 블록들로 나누어질 수 있고, 이들이 차례로 보다 작은 샘플 값 블록들로 나누어질 수 있다. HEVC 표준에 대한 디코딩의 구현들에서, 픽처가 CTU들(CTB들), CU들(CB들), PU들(PB들) 및 TU(TB들)로 분할된다.

디코더(600)는 인트라 픽처 디코딩(intra-picture decoding) 및/또는 인터 픽처 디코딩(inter-picture decoding)을 사용하여 픽처들을 압축 해제한다. 디코더(600)의 구성요소들 중 다수는 인트라 픽처 디코딩 및 인터 픽처 디코딩 둘 다를 위해 사용된다. 그 구성요소들에 의해 수행되는 정확한 동작들은 압축 해제되는 정보의 유형에 따라 달라질 수 있다.

버퍼는 인코딩된 데이터를 코딩된 비디오 비트스트림(605)으로 수신하고 수신된 인코딩된 데이터를 파서/엔트로피 디코더(610)가 이용 가능하게 만든다. 파서/엔트로피 디코더(610)는, 전형적으로 인코더(500)에서 수행된 엔트로피 코딩의 역(예컨대, 컨텍스트 적응적 이진 산술 디코딩)을 적용하여, 엔트로피 코딩된 데이터를 엔트로피 디코딩한다. 예를 들어, 파서/엔트로피 디코더(610)는 계수 코딩 구문 구조의 다양한 구문 요소들의 엔트로피 디코딩을 위해 컨텍스트 적응적 이진 산술 디코딩(context-adaptive binary arithmetic decoding)을 사용한다. 파싱 및 엔트로피 디코딩의 결과로서, 파서/엔트로피 디코더(610)는 일반 제어 데이터(622), 양자화된 변환 계수 데이터(632), 인트라 예측 데이터(642) 및 패킹된 인덱스 값들, 움직임 데이터(652) 및 필터 제어 데이터(662)를 생성한다.

일반 디코딩 제어(620)는, 디코딩 동안 디코딩 파라미터들을 설정하고 변경하기 위해, 일반 제어 데이터(622)를 수신하고 제어 신호들을 다른 모듈들(도시 생략)[스케일러/역변환기(635), 인트라 픽처 예측기(645), 움직임 보상기(655) 및 인트라/인터 스위치 등]에 제공한다.

현재 픽처가 인터 픽처 예측을 사용하여 예측되는 경우, 움직임 보상기(655)는, 참조 픽처 선택 데이터 및 움직임 벡터 데이터와 같은, 움직임 데이터(652)를 수신한다. 움직임 보상기(655)는 디코딩된 픽처 버퍼(670)로부터의 재구성된 참조 픽처(들)에 움직임 벡터들을 적용한다. 움직임 보상기(655)는 현재 픽처의 인터 코딩된 블록들에 대한 움직임 보상된 예측들을 생성한다. 디코딩된 픽처 버퍼(670)는 참조 픽처들로서 사용하기 위해 하나 이상의 이전에 재구성된 픽처들을 저장한다.

디코더(600) 내의 별도의 경로에서, 인트라 예측 예측기(645)는, 인트라 예측이 공간 예측 또는 BCIM 모드를 사용하는지(예컨대, 인트라 블록마다 또는 특정 예측 모드 방향들의 인트라 블록마다의 플래그 값), (인트라 공간 예측에 대한) 예측 모드 방향을 나타내는 정보와 같은, 인트라 예측 데이터(642)를 수신한다. 인트라 공간 예측의 경우, 현재 픽처의 재구성(638)의 값들을 사용하여, 예측 모드 데이터에 따라, 인트라 픽처 예측기(645)는 현재 픽처의 이웃하는 이전에 재구성된 샘플 값들로부터 현재 픽처의 현재 블록의 샘플 값들을 공간적으로 예측한다. BCIM 모드에 대해, 디코더는, 인덱스 값들에 대한 기본 색상 테이블을 사용하여 그리고 인덱스 맵의 요소들을 사용하여, 블록의 샘플 값들 중의 기본 색상들에 대한 인덱스 값들을 사용해 인트라 코딩된 블록을 재구성한다.

비BCIM 모드들에서, 인트라/인터 스위치는 주어진 블록에 대한 예측(658)으로서 사용하기 위해 움직임 보상된 예측 또는 인트라 픽처 예측의 값들을 선택한다. 예를 들어, HEVC 구문을 따를 때, 인트라/인터 스위치는 인트라 예측된 CU들 및 인터 예측된 CU들을 포함할 수 있는 픽처의 CU에 대해 인코딩된 구문 요소에 기초하여 제어될 수 있다. 디코더(600)는 예측(658)을 재구성된 잔차 값들과 결합시켜 비디오 신호로부터의 콘텐츠의 재구성(638)을 생성한다.

잔차를 재구성하기 위해, 비BCIM 모드들에 대해, 스케일러/역변환기(635)는 양자화된 변환 계수 데이터(632)를 수신하고 처리한다. 스케일러/역변환기(635)에서, 스케일러/역양자화기는 양자화된 변환 계수들에 대해 역스케일링 및 역양자화를 수행한다. 역 주파수 변환기는 역 주파수 변환을 수행하여, 재구성된 예측 잔차들 또는 샘플 값들의 블록들을 생성한다. 예를 들어, 역 주파수 변환기는 주파수 변환 계수들에 역 블록 변환을 적용하여, 샘플 값 데이터 또는 예측 잔차 데이터를 생성한다. 역 주파수 변환은 역 DCT, 그의 정수 근사화, 또는 다른 유형의 역 주파수 변환일 수 있다.

인트라 픽처 예측의 경우, 재구성(638)의 값들은 인트라 픽처 예측기(645)에 피드백될 수 있다. 인터 픽처 예측의 경우, 재구성(638)의 값들이 추가로 필터링될 수 있다. 병합기/필터(들)(665)에서, 디코더(600)는 상이한 타일들로부터의 콘텐츠를 픽처의 재구성된 버전으로 병합한다. 디코더(600)는, 프레임들에서의 경계들에 걸쳐 불연속들을 적응적으로 평활화하기 위해, 필터 제어 데이터(662) 및 필터 적응에 대한 규칙들에 따라 블록화 제거 필터링 및 SAO 필터링을 선택적으로 수행한다. 디코더(600)의 설정 또는 인코딩된 비트스트림 내의 구문 표시에 따라, 타일 경계들이 선택적으로 필터링되거나 전혀 필터링되지 않을 수 있다. 디코딩된 픽처 버퍼(670)는 차후의 움직임 보상된 예측에서 사용하기 위해 재구성된 현재 픽처를 버퍼링한다.

디코더(600)는 또한 후처리 블록화 제거 필터(post-processing deblock filter)를 포함한다. 후처리 블록화 제거 필터는, 선택적으로, 재구성된 픽처들에서의 불연속들을 평활화한다. 다른 필터링[링잉 제거 필터링(de-ring filtering) 등]이 또한 후처리 필터링의 일부로서 적용될 수 있다.

구현 및 원하는 압축 해제 유형에 따라, 디코더의 모듈들이 추가되고, 생략되며, 다수의 모듈들로 분할되고, 다른 모듈들과 결합되며, 그리고/또는 유사한 모듈들로 대체될 수 있다. 대안의 실시예들에서, 상이한 모듈들 및/또는 모듈들의 다른 구성들을 갖는 디코더들은 기술된 기법들 중 하나 이상을 수행한다. 디코더의 구체적인 실시예들은 전형적으로 디코더(600)의 변형 또는 보완된 버전을 사용한다. 디코더(600) 내의 모듈들 간의 도시된 관계들은 디코더에서의 정보의 일반적인 흐름을 나타내고; 간단함을 위해, 다른 관계들은 도시되어 있지 않다.

VII. 기본 색상 인덱스 맵 모드에 대한 혁신

이 섹션은 기본 색상 인덱스 맵(BCIM) 모드에 대한 다양한 혁신들을 제시한다. 혁신들 중 일부는 BCIM 모드에서 변환 계수들 또는 인덱스 맵 데이터 중 어느 하나에 대한 계수 코딩 구문 구조의 재사용에 관한 것인 반면, 다른 혁신들은 BCIM 모드에서 인덱스 값들의 매핑 또는 예측에 관한 것이다. 또 다른 혁신들은 BCIM 모드에서의 예외 값들의 처리에 관한 것이다. 이 혁신들은 인코딩 및 디코딩의 레이트 왜곡 성능 및/또는 계산 효율의 면에서 보다 효과적인 BCIM 모드를 용이하게 할 수 있다. 상세하게는, BCIM 모드를 사용하는 것은 화면 포착 콘텐츠와 같은 특정의 "인위적으로" 생성된 비디오 콘텐츠를 인코딩할 때 레이트 왜곡 성능을 향상시킬 수 있다. 화면 포착 콘텐츠는 전형적으로 반복된 구조들(예컨대, 그래픽, 텍스트 문자)을 포함하며, 이는 인트라 BC 예측(intra BC prediction)이 성능을 향상시킬 기회들을 제공한다. 화면 포착 콘텐츠는 보통 높은 크로마 샘플링 분해능을 갖는 포맷(예컨대, YUV 4:4:4 또는 RGB 4:4:4)으로 인코딩되지만, 보다 낮은 크로마 샘플링 분해능을 갖는 포맷(예컨대, YUV 4:2:0)으로도 인코딩될 수 있다.

A. 기본 색상 인덱스 맵 모드 - 서론.

BCIM 모드에서, 비디오 인코더 또는 영상 인코더는 기본 색상들을 나타내는 인덱스 값들을 사용하여 샘플 값들을 인코딩한다. 인덱스 값들 각각은 샘플 값들 중의 상이한 값("기본 색상")과 연관되어 있다. 인코딩 동안, 샘플 값들이 대응하는 인덱스 값들로 대체된다. 인코더는 인덱스 값들 및 대응하는 기본 색상들의 테이블("기본 색상 테이블")은 물론 샘플 값들을 나타내는 인덱스 값들의 배열("인덱스 맵")을 인코딩하고 신호한다. 비디오 디코더 또는 영상 디코더는 인덱스 값들 및 기본 색상들의 테이블을 수신하고 디코딩한다. 그 기본 색상 테이블을 사용하여, 디코더는 인덱스 맵의 인덱스 값들을 원래의 샘플 값들에 대한 기본 색상들로 대체한다.

도 7은 샘플 값들(s)의 블록(710)을 차원 i, j(단, 0 ≤ i ≤ 7이고 0 ≤j ≤ 7임)를 갖는 2차원 배열로 나타내고 있다. 도 7에서, 샘플 값들(s)은 화면 포착 콘텐츠에 대한 세기 또는 밝기 값들을 나타낸다. 샘플 값들(s)은 균일한 값들 및 강한 패턴들의 섹션들을 포함한다. 블록(710)은 샘플 값들(26, 85, 41, 127, 168 및 200)을 포함한다.

인코더는 인덱스 값들을 대응하는 기본 색상들에 할당하는 기본 색상 테이블(720)을 생성한다. 도 7의 예에서, 인덱스 값 0은 샘플 값 200에 할당되고, 인덱스 값 1은 샘플 값 168에 할당되며, 기타 등등이다. 인코더는, 보다 흔한 샘플 값들은 보다 낮은 인덱스 값들을 갖고 덜 흔한 샘플 값들은 보다 높은 인덱스 값들을 갖도록, 픽처에서의 발생 가능성(likelihood of occurrence)에 따라 인덱스 값들을 기본 색상들에 할당할 수 있고, 이 결과 보다 낮은 인덱스 값들이 보다 적은 비트들로 표현된다면 보다 효율적인 코딩으로 되는 경향이 있다. 대안적으로, 인코더는, 인덱스 맵의 인덱스 값들 간의 중복성(redundancy)을 이용하기 위해 예측과 같은 나중의 프로세스들에 의존하여, 블록이 스캔될 때 출현의 순서에 따라 인덱스 값들을 기본 색상들에 할당할 수 있다. 기본 색상 테이블(720)은 룩업 테이블(look-up table) 또는 다른 데이터 구조로서 구현될 수 있다.

도 7은 샘플 값들(s)이 대응하는 인덱스 값들(n)로 대체되는 블록(730)을 나타내고 있다. 샘플 값들을 인덱스 값들로 대체하는 프로세스는 무손실(lossless)이다. 대안적으로, 손실 압축 변형에서는, 정확하게 일치하는 것이 없는 경우, 샘플 값이 샘플 값에 가장 가까운 기본 색상을 나타내는 인덱스 값으로 대체될 수 있다. 이것은 기본 색상 테이블(720)의 크기를 감소시킬 수 있지만, 또한 지각 가능한 왜곡을 유입시킬 수 있다. 인덱스 값들로 표현되지 않는 샘플 값들(소위 예외 값들)을 처리하는 다른 접근법이 이하에서 기술된다.

인코더는 기본 색상 테이블(720)은 물론, 인덱스 값들(n)의 블록(730)을 나타내는 요소들을 갖는 인덱스 맵을 인코딩하여 출력한다. 예를 들어, 인코더는, 이하에서 기술되는 바와 같이, 블록(730)의 요소들을 표현하는 계수 코딩 구문 구조를 사용한다. 인코딩의 일부로서, 블록(730)에 대한 인덱스 값들(n)이 추가의 매핑 동작들 및/또는 예측에 의해 처리될 수 있다.

디코딩 동안, 디코더는 기본 색상 테이블(720) 및 인덱스 맵에 대한 데이터를 수신하여 디코딩한다. 예를 들어, 디코더는, 이하에서 기술되는 바와 같이, 계수 코딩 구문 구조로부터 블록(730)의 요소들을 디코딩한다. 디코딩의 일부로서, 블록(730)에 대한 인덱스 값들(n)이 추가의 매핑 동작들 및/또는 예측에 의해 처리될 수 있다. 디코더는 이어서, 도 7에 예시된 바와 같이, 기본 색상 테이블(720)을 사용하여 매핑 프로세스의 역을 행한다.

도 7의 예에서, 인코더는 8x8 블록의 샘플 값들에 대한 기본 색상 테이블(720)을 생성한다. 대안적으로, 그 블록이 다른 크기(예컨대, 4x4, 16x16, 32x32 또는 64x64)를 갖는다. 보다 일반적으로, 그 블록이 m x n 블록이고, 여기서 m 및 n은 동일한 값을 갖거나 상이한 값들을 가질 수 있다. 또는, 인코더는 슬라이스, 타일, 픽처 전체, 일군의 픽처들, 또는 비디오 시퀀스의 샘플 값들에 대한 기본 색상 매핑을 생성할 수 있다.

B. 계수 코딩 구문 구조의 재사용.

일부 예시적인 구현들에서, 비디오 인코더 또는 영상 인코더는 변환 계수 정보를 신호하기 위해 통상적으로 사용되는 구문 구조를, 그 대신에 BCIM 모드 데이터를 신호하기 위해, 사용한다. 상세하게는, 인코더는 BCIM 모드에서 인덱스 맵 정보를 신호하기 위해 계수 코딩 구문 구조를 재사용한다.

도 8은 인코딩 동안 이 접근법의 프로세스 흐름(800)을 나타낸 것이다. 인코더는 공간 영역 값들의 블록(810)을 수신한다. 공간 영역 값들(810)은 샘플 값들일 수 있다. 또는, 공간 영역 값들(810)은 인터 픽처 예측 또는 인트라 픽처 예측 후의 예측 잔차들일 수 있다. 인코더는 BCIM 모드에서 인코딩 동작들을 적용하거나 비BCIM 모드에서 동작들을 적용할 수 있다(양 모드에서 동일한 계수 코딩 구문 구조를 사용함).

BCIM 모드의 경우, 인코더는 공간 영역 값들(810)(예컨대, 샘플 값들)을 인덱스 값들(830)에 매핑(812)하여, 공간 영역 값들(810)을 대응하는 인덱스 값들(830)로 대체한다. 인코더는 또한, 예를 들어, 다음 섹션에서 기술되는 바와 같이, 인덱스 값들을 인덱스 맵에 대한 패킹된 인덱스 값들(840)에 매핑(832)한다. BCIM 모드에서의 매핑 동작들(812, 832)은 (일부 구현들에서, 예외 값들의 인코딩을 제외하고) 양자화 또는 변환 동작들을 포함하지 않는다. 인코더는, 인덱스 맵의 패킹된 인덱스 값들(840)을 신호하는 데 계수 코딩 구문 구조(890)를 사용하여, 기본 색상 테이블 및 인덱스 맵의 요소들을 인코딩(842)한다.

비BCIM 모드의 경우, 인코더는 공간 영역 값들(810)(예컨대, 잔차 값들)에 주파수 변환을 적용(814)하여, 변환 계수들(860)을 생성하고, 인코더는 변환 계수들(860)을 양자화(862)한다. 대안적으로, 변환 및/또는 양자화가 생략된다. 양자화된 변환 계수들(870)은 이어서 계수 코딩 구문 구조(890)를 사용하여 인코딩된다.

HEVC 구문을 따르는 일부 예시적인 구현들에서, 계수 코딩 구문 구조는 residual_coding 구문 구조이다. 예컨대, JCTVC-N1005의 섹션 7.3.8.11 및 섹션 7.4.9.11을 참조하기 바란다. BCIM 모드에서, 인코더는 인덱스 맵의 요소들(예컨대, 이하에서 기술되는 바와 같은, 인덱스 값들, 패킹된 인덱스 값들, 인덱스 잔차 값들, 또는 패킹된 인덱스 잔차 값들)을, 이들이 양자화된 변환 계수들인 것처럼, 처리한다. 구체적으로는, 인코더는, 4 블록, 8x8 블록, 16x16 블록 또는 32x32 블록일 수 있는, 블록에서의 마지막 영이 아닌 계수의 위치를 신호한다. 블록 내의 각각의 4x4 값 그룹에 대해, 인코더는 4x4 그룹이 적어도 하나의 영이 아닌 계수를 갖는지를 나타내는 플래그를 신호한다. 적어도 하나의 영이 아닌 계수를 가지는 4x4 그룹에 대해, 인코더는 어느 계수들이 영이 아닌 값들을 갖는지를 나타내는 플래그들을 신호하고, 이어서 영이 아닌 값들을 갖는 계수들에 대한 레벨 정보 및 (대부분의 경우에) 부호 정보를 신호한다. 인코더는 잔차 코딩 구문 구조의 다양한 요소들을 인코딩하기 위해 CABAC를 사용한다. 대안적으로, 다른 계수 코딩 구문 구조가 사용된다. 예를 들어, H.264 표준, VC-1 표준 또는 다른 표준 또는 독점적 포맷의 구문을 따르는 계수 코딩 구문 구조가 사용될 수 있다.

도 9는 디코딩 동안 이 접근법의 프로세스 흐름(900)을 나타낸 것이다. 디코더는 계수 코딩 구문 구조(990)를 수신한다. 디코더는 BCIM 모드에서 동작들을 적용하거나 비BCIM 모드에서 동작들을 적용할 수 있다(양 모드에서 동일한 계수 코딩 구문 구조를 사용함).

BCIM 모드의 경우, 디코더는 기본 색상 테이블을 디코딩(942)하고, 계수 코딩 구문 구조(990)를 사용하여, 또한 인덱스 맵의 요소들을 디코딩(942)한다. 이것은 인덱스 맵에 대한 패킹된 인덱스 값들(940)을 생성한다. 디코더는, 예를 들어, 다음 섹션에서 기술되는 바와 같이, 패킹된 인덱스 값들(940)을 인덱스 맵에 대한 인덱스 값들(930)에 매핑(932)한다. 인코더는 이어서 인덱스 값들(930)을 블록에 대한 공간 영역 값들(910)(예컨대, 샘플 값들)에 매핑(912)한다. BCIM 모드에서의 매핑 동작들(912, 932)은 (일부 구현들에서, 예외 값들의 디코딩을 제외하고) 역양자화 또는 역변환 동작들을 포함하지 않는다.

비BCIM 모드의 경우, 디코더는 계수 코딩 구문 구조(990)를 사용하여 신호된, 양자화된 변환 계수들(970)을 디코딩(972)한다. 디코더는 양자화된 변환 계수들을 역양자화(962)하고, 이어서 공간 영역 값들(910)(예컨대, 예측 잔차들)을 재구성하기 위해 역 주파수 변환을 적용(914)할 수 있다. 대안적으로, 역양자화 및/또는 역변환이 생략된다. 디코더는 이어서 인터 픽처 예측 또는 인트라 픽처 예측(도시 생략)을 수행하고 재구성된 잔차 값들을 예측된 값들(도시 생략)과 결합시킬 수 있다.

도 10은 인덱스 맵의 요소들 또는 변환 계수들을 선택적으로 표현하는 계수 코딩 구문 구조를 사용하는 인코딩을 위한 일반화된 기법(1000)을 나타낸 것이다. 기법(1000)은 도 3 또는 도 5a 및 도 5b를 참조하여 기술된 바와 같은 인코더에 의해 또는 다른 인코더에 의해 수행될 수 있다.

인코더는, 블록에 대한 인덱스 맵의 요소들 또는 블록에 대한 변환 계수들을 선택적으로 표현하는 블록에 대한 계수 코딩 구문 구조를 사용하여, 데이터를 인코딩(1010)한다. 예를 들어, 계수 코딩 구조가 비BCIM 모드에서 변환 계수들에 대해 사용되는 경우, 인코더는 (a) 블록에 대한 잔차 값들을 계산하고, (b) 변환 계수들을 생성하기 위해 잔차 값들에 대해 주파수 변환을 수행하며, (c) 변환 계수들을 양자화하며, (d) 얻어진 값들을 계수 코딩 구문 구조로 인코딩한다. 또는, 계수 코딩 구조가 BCIM 모드에서 인덱스 맵에 대해 사용되는 경우, 인코더는 (a) 블록에 대한 샘플 값들을 인덱스 값들에 매핑하고 - 인덱스 값들 각각은 기본 색상을 나타냄 -, (b) 인덱스 값들을 패킹된 인덱스 값들 또는 패킹된 인덱스 잔차 값들에 매핑하며, (c) 얻어진 값들을 계수 코딩 구문 구조로 인코딩한다.

BCIM 모드의 경우, 인덱스 맵은 블록에 대한 패킹된 인덱스 값들을 포함할 수 있고, 여기서 패킹된 인덱스 값들 각각은 기본 색상을 나타내는 인덱스 값이고 계수 코딩 구문 구조 내에 패킹된다. 또는 인덱스 맵은 블록에 대한 패킹된 인덱스 잔차 값들을 포함할 수 있고, 여기서 패킹된 인덱스 잔차 값들 각각은 기본 색상을 나타내고 계수 코딩 구문 구조 내에 패킹된다. 패킹된 인덱스 잔차 값은 인덱스 값과 예측된 인덱스 값 사이의 차이에 기초한 인덱스 잔차 값일 수 있거나, 패킹된 인덱스 잔차 값은 패킹된 인덱스 값과 예측된 패킹된 인덱스 값 사이의 차이에 기초할 수 있다. 인덱스 맵은 또한 이하에서 기술되는 바와 같이 처리될 수 있는, 어떤 기본 색상도 나타내지 않는 하나 이상의 예외 값들을 포함할 수 있다.

인코더는 인코딩된 데이터를 출력(1020)한다. 예를 들어, HEVC 구문을 따르는 구현들에 대해, 인코딩된 데이터는 인덱스 맵의 요소들 또는 변환 계수들에 대한 잔차 코딩 구문 구조를 포함할 수 있다. 대안적으로, 인코딩된 데이터가 어떤 다른 방식으로 포맷팅된다. 인코더는 다른 블록에 대해 기법(1000)을 반복할 수 있다.

도 11은 인덱스 맵의 요소들 또는 변환 계수들을 선택적으로 표현하는 계수 코딩 구문 구조를 사용하는 디코딩을 위한 일반화된 기법(1100)을 나타낸 것이다. 기법(1100)은 도 4 또는 도 6을 참조하여 기술된 바와 같은 디코더에 의해 또는 다른 디코더에 의해 수행될 수 있다.

디코더는 인코딩된 데이터를 수신(1110)한다. 예를 들어, HEVC 구문을 따르는 구현들에 대해, 인코딩된 데이터는 인덱스 맵의 요소들 또는 변환 계수들에 대한 잔차 코딩 구문 구조를 포함할 수 있다. 대안적으로, 인코딩된 데이터가 어떤 다른 방식으로 포맷팅된다.

디코더는, 블록에 대한 인덱스 맵의 요소들 또는 블록에 대한 변환 계수들을 선택적으로 표현하는 블록에 대한 계수 코딩 구문 구조를 사용하여, 인코딩된 데이터를 디코딩(1120)한다. 예를 들어, 계수 코딩 구조가 비BCIM 모드에서 계수들을 변환하는 데 사용되는 경우, 디코더는 (a) 계수 코딩 구문 구조로부터 변환 계수들에 대한 값들을 디코딩하고, (b) 변환 계수들을 역양자화하며, (c) 블록에 대한 잔차 값들을 생성하기 위해 변환 계수들에 대해 역 주파수 변환을 수행하고, (d) 블록에 대한 샘플 값들을 재구성하기 위해 잔차 값들을 예측 값들과 결합시킨다. 또는, 계수 코딩 구조가 BCIM 모드에서 인덱스 맵에 대해 사용되는 경우, 디코더는 (a) 계수 코딩 구문 구조로부터 인덱스 맵에 대한 값들을 디코딩하고, (a) 패킹된 인덱스 값들 또는 패킹된 인덱스 잔차 값들을 인덱스 값들에 매핑하며 - 인덱스 값들 각각은 기본 색상을 나타냄 -, (b) 인덱스 값들을 블록에 대한 샘플 값들에 매핑한다.

디코더는 다른 블록에 대해 기법(1100)을 반복할 수 있다.

도 12는 인덱스 맵의 요소들 또는 변환 계수들을 선택적으로 표현하는 계수 코딩 구문 구조를 사용하는 디코딩을 위한 보다 구체적인 예시적인 기법(1200)을 나타낸 것이다. 기법(1200)은 도 4 또는 도 6을 참조하여 기술된 바와 같은 디코더에 의해 또는 다른 디코더에 의해 수행될 수 있다.

디코더는 블록에 대한 계수 코딩 구문 구조를 수신(1210)한다. 예를 들어, HEVC 구문을 따르는 구현들에 대해, 계수 코딩 구문 구조는 residual_coding 구문 구조이다. 대안적으로, 계수 코딩 구문 구조가 어떤 다른 방식으로 구성된다.

디코더는 블록의 모드가 BCIM인지를 검사(1220)한다. 예를 들어, 디코더는 블록에 대한 하나 이상의 구문 요소들의 값을 검사한다. HEVC 구문을 따르는 구현들에 대해, PU에 대해 블록이 BCIM 모드 블록인지를 나타내는 구문 요소(들)가 신호될 수 있다. 대안적으로, CU, CB, PB, TU 또는 TB에 대해 구문 요소(들)이 신호된다.

블록이 BCIM 블록이면, 디코더는 블록에 대한 계수 코딩 구조로부터 인덱스 맵의 요소들을 디코딩(1240)한다. 그렇지 않은 경우, 디코더는 블록에 대한 계수 코딩 구문 구조로부터 변환 계수들을 디코딩(1230)한다. 예를 들어, 디코더는 도 9 또는 도 11을 참조하여 기술되는 바와 같은 동작들을 수행한다.

디코더는 다음 블록을 계속할지 여부를 검사(1250)한다. 예인 경우, 디코더는 다음 블록에 대한 계수 코딩 구문 구조를 수신(1210)한다.

C. 인덱스 값들과 패킹된 인덱스 값들 간의 매핑.

인덱스 값들을 마치 변환 계수들인 것처럼 신호하기 위해, 인코더는 인덱스 값들(n)을 패킹된 인덱스 값들(n_packed)에 매핑한다. 디코딩 동안, 디코더는 패킹된 인덱스 값들(n_packed)을 다시 인덱스 값들(n)에 매핑한다. 인코더 및 디코더는 인덱스 값들(n)과 패킹된 인덱스 값들(n_packed) 간에 매핑할 때 다양한 전략들을 따를 수 있다.

예를 들어, 인코더는 단순히 인덱스 값을 패킹된 인덱스 값으로서 사용할 수 있다. 즉, 인코딩 동안 n_packed = n이고, 디코딩 동안 n = n_packed이다. 그의 간단함 이외에, 이 접근법의 하나의 장점은, 패킹된 인덱스 값들(n_packed)이 항상 음이 아니기 때문에, 패킹된 인덱스 값들에 대한 부호 값들이 신호되는 인코딩된 데이터로부터 생략될 수 있다는 것이다.

제2 예시적인 접근법으로서, 인코더는 다음과 같이 인덱스 값(n)을 패킹된 인덱스 값(n_packed)에 매핑할 수 있다.

n%2이 0인 경우, n_packed = -(n/2)이고;

그렇지 않은 경우, n_packed = (n+1)/2이다.

여기서 %는 MOD 연산자를 나타내며 따라서 x%y는 x를 y로 나눌 때 나머지이고, /는 결과를 0 쪽으로 잘라내기하는 나눗셈을 나타낸다. 디코더는, 다음과 같이, 패킹된 인덱스 값(n_packed)을 다시 인덱스 값(n)에 매핑할 수 있다.

n_packed이 0 이하인 경우, n =-2*n_packed이고;

그렇지 않은 경우, n = 2*n_packed-1이다.

도 13은, 이 접근법에 따른, 인덱스 값들을 패킹된 인덱스 값들에 매핑하는 것 및 패킹된 인덱스 값들을 다시 인덱스 값들에 매핑하는 것을 나타낸 것이다. 블록(1310)에서의 인덱스 값들(n)이 인코딩 동안 블록(1330)에서의 패킹된 인덱스 값들(n_packed)에 매핑되고, 디코딩 동안 블록(1310)에서의 인덱스 값들(n)에 다시 매핑된다. 0부터 5까지의 범위에 있는 인덱스 값들이 -2부터 3까지의 범위에 있는 패킹된 인덱스 값들에 매핑되고, 그리고 그 반대로 매핑된다.

제2 예시적인 접근법의 변형에서, 인코더는 짝수 인덱스 값들을 음이 아닌 숫자들에 매핑하고, 홀수 숫자들을 음의 값들에 매핑할 수 있으며, 디코더는 그 매핑을 반대로 한다. 인코딩 동안의 매핑에 대해:

n%2이 0인 경우, n_packed = (n/2)이고;

그렇지 않은 경우, n_packed = -(n+1)/2이다.

디코딩에서:

n_packed이 0 이상인 경우, n =2*n_packed이고;

그렇지 않은 경우, n = -2*n_packed-1이다.

제3 예시적인 접근법으로서, 상이한 컬러 성분들(예컨대, YUV 4:4:4 포맷에서 비디오에 대한 루마 및 크로마 성분들)에 대한 인덱스 값들이 픽셀에 대한 단일의 패킹된 인덱스 값에 매핑될 수 있다. 예를 들어, 루마 샘플은 루마 인덱스 값(n_y)에 매핑되고, 2 개의 대응하는 크로마 샘플들은 2 개의 크로마 인덱스 값들(n_u 및 n_v)에 매핑된다. 인덱스 값들(n_y, n_u 및 n_v)은 이어서 단일의 패킹된 인덱스 값에 매핑된다. 인덱스 값들(n_y, n_u 및 n_v) 각각을 표현하는 데 사용되는 비트 수가 n_bits인 경우, 단일의 패킹된 인덱스 값(n_{packed,combined})(3* n_bits 비트를 가짐)이 다음과 같이 결정될 수 있다.

n_{packed,combined} = n_y << (2*n_bits) + n_u << n_bits + n_v.

여기서 <<는 왼쪽 비트 시프트 연산(left bit shift operation)을 나타낸다. 디코딩의 경우, 인덱스 값들(n_y, n_u 및 n_v)은, 다음과 같이, 패킹된 인덱스 값(n_{packed,combined})의 해당 비트들의 값들을 식별하기 위해 비트 마스크 연산들 및 비트 시프트 연산들을 사용하여 재구성될 수 있다.

n_y = n_{packed,combined} >> (2*n_bits)

n_u = (n_{packed,combined} >> n_bits) & ((1 << n_bits) - 1)

n_v = n_{packed,combined} & ((1 << n_bits) - 1)

여기서 >>는 오른쪽 비트 시프트 연산(right bit shift operation)을 나타내고, &는 비트 단위 AND 연산(bitwise AND operation)을 나타낸다. 인덱스 값들(n_y, n_u 및 n_v)의 순서가 인코딩 동안의 매핑 동작에서 변화될 수 있고, 디코딩 동안의 매핑 동작에 대해 그에 대응하는 변경들이 있을 수 있다. 또한, 인덱스 값들(n_y, n_u 및 n_v)은 상이한 비트 수를 가질 수 있고, 인코딩 및 디코딩 동안의 매핑 동작들에 대해 대응하는 변경들이 있을 수 있다.

대안적으로, Y 성분에 대해 count_y 개의 기본 색상들이 있고, U 성분에 대해 count_u 개의 기본 색상들이 있으며, V 성분에 대해 count_v 개의 기본 색상들이 있는 경우, 다음과 같이 단일의 패킹된 인덱스 값이 결정될 수 있다.

n_{packed,combined} = n_v * (count_y * count_u) + n_u * count_y + n_y.

디코딩의 경우, 인덱스 값들(n_y, n_u 및 n_v)은 다음과 같이 재구성될 수 있다.

n_y = n_{packed,combined} % count_y

n_u= (n_{packed,combined} / count_y) % count_u

n_v = n_{packed,combined} / (count_y * count_u)

여기서 /는 결과를 0 쪽으로 잘라내기하는 나눗셈을 나타낸다. 다시 말하지만, 인덱스 값들(n_y, n_u 및 n_v)의 순서가 변화될 수 있고, 어느 count 변수들이 사용되는지에 대해 대응하는 변경들이 있을 수 있다.

대안적으로, 인코더 및 디코더는 인덱스 값들(n)과 패킹된 인덱스 값들(n_packed) 간에 매핑할 때 상이한 접근법을 사용한다.

도 14는 인코딩 동안의 기본 색상들에 대한 인덱스 값들의 매핑을 위한 기법(1400)을 나타낸 것이다. 기법(1400)은 도 3 또는 도 5a 및 도 5b를 참조하여 기술된 바와 같은 인코더에 의해 또는 다른 인코더에 의해 수행될 수 있다.

인코더는 샘플 값을 기본 색상에 대한 인덱스 값에 매핑(1410)한다. 예를 들어, 인코더는 루마 또는 크로마 샘플 값을 인덱스 값에 매핑하기 위해 앞서 기술된 바와 같은 기본 색상 테이블을 사용한다.

인코더는 이어서 인덱스 값을 계수 코딩 구문 구조에 대한 패킹된 인덱스 값의 적어도 일부에 매핑(1420)한다. 예를 들어, 인코더는, 예컨대, 앞서 기술된 제1 매핑 접근법에서와 같이, 패킹된 인덱스 값을 인덱스 값에 기초하여 설정한다. 또는, 다른 예로서, 인덱스 값이 짝수이면, 인코더는 패킹된 인덱스 값을 인덱스 값을 2로 나눈 것에 기초하여 설정하지만, 그렇지 않은 경우, 인코더는 (예컨대, 앞서 기술된 제2 매핑 접근법에서와 같이) 패킹된 인덱스 값을 인덱스 값에 1을 더하고 이어서 2로 나눈 것에 기초하여 설정한다. 또는, 다른 예로서, 인코더는, 예컨대, 앞서 기술된 제3 매핑 접근법에서와 같이, 패킹된 인덱스 값의 일부를 인덱스 값을 사용하여 설정하고, 여기서 패킹된 인덱스 값이 하나의 루마 인덱스 값 및 다수의 크로마 인덱스 값들에 기초하여 설정된다.

인코더는 이어서, 이하에서 기술되는 바와 같이, 패킹된 인덱스 잔차 값을 패킹된 인덱스 값 및 예측된 패킹된 인덱스 값에 기초하여 결정할 수 있다. 또는, 패킹된 인덱스 잔차 값들에 매핑되는 인덱스 값들이 인덱스 잔차 값들일 수 있다.

인코더는 다음 샘플 값을 계속할지 여부를 검사(1430)한다. 예인 경우, 인코더는 다음 샘플 값들을 다음 인덱스 값에 매핑(1410)한다. 인코더는 블록의 샘플 값들을 통해 래스터 스캔 패턴(raster scan pattern)으로 진행할 수 있다. 또는, 제3 접근법의 경우, 인코더는 루마 블록 및 크로마 블록들에서의 대응하는 위치들의 샘플 값들을 인덱스 값들에 매핑하고, 이어서 그 인덱스 값들을 패킹된 인덱스 값에 매핑할 수 있다.

도 15는 디코딩 동안 기본 색상들에 대한 인덱스 값들의 매핑을 위한 기법(1500)을 나타낸 것이다. 기법(1500)은 도 4 또는 도 6을 참조하여 기술된 바와 같은 디코더에 의해 또는 다른 디코더에 의해 수행될 수 있다.

디코더는 계수 코딩 구문 구조에 대한 패킹된 인덱스 값의 적어도 일부를 기본 색상에 대한 인덱스 값에 매핑(1510)한다. 예를 들어, 디코더는, 예컨대, 앞서 기술된 제1 매핑 접근법에서와 같이, 인덱스 값을 패킹된 인덱스 값에 기초하여 설정한다. 또는, 다른 예로서, 패킹된 인덱스 값이 0과 주어진 관계를 가지면, 디코더는 인덱스 값을 패킹된 인덱스 값 x 2에 기초하여 설정하지만, 그렇지 않은 경우, 디코더는 (예컨대, 앞서 기술된 제2 매핑 접근법에서와 같이) 인덱스 값을 패킹된 인덱스 값 x 2 -1에 기초하여 설정한다. 또는, 다른 예로서, 디코더는, 예컨대, 앞서 기술된 제3 매핑 접근법에서와 같이, 인덱스 값을 패킹된 인덱스 값의 일부를 사용하여 설정하고, 여기서 하나의 루마 인덱스 값 및 다수의 크로마 인덱스 값들이 패킹된 인덱스 값에 기초하여 설정된다.

디코더는 인덱스 값을 샘플 값에 매핑(1520)한다. 예를 들어, 디코더는 루마 또는 크로마 인덱스 값을 샘플 값에 매핑하기 위해 앞서 기술된 바와 같은 기본 색상 테이블을 사용한다.

매핑 동작들 이전에, 디코더는 주어진 패킹된 인덱스 값을 예측하고, 이어서 패킹된 인덱스 잔차 값을 예측된 패킹된 인덱스 값과 결합시켜 패킹된 인덱스 값을 재구성할 수 있다. 또는, 재구성되는 인덱스 값들이 인덱스 잔차 값들일 수 있다.

디코더는 다음 인덱스 값을 계속할지 여부를 검사(1530)한다. 예인 경우, 디코더는 계수 코딩 구문 구조에 대한 패킹된 인덱스 값의 적어도 일부를 기본 색상에 대한 다음 인덱스 값에 매핑(1510)한다. 디코더는 블록에 대한 인덱스 값들을 통해 래스터 스캔 패턴으로 진행할 수 있다. 또는, 제3 접근법의 경우, 디코더는 패킹된 인덱스 값을 루마 블록 및 크로마 블록들에서의 대응하는 위치들에 대한 다수의 인덱스 값들에 매핑하고, 이어서 그 인덱스 값들을 샘플 값들에 매핑할 수 있다.

D. 인덱스 맵의 요소들의 예측.

인코더 및 디코더는 또한 인덱스 맵의 요소들의 예측을 사용할 수 있다. 예측이 잘 동작할 때, 인덱스 잔차 값들(또는 패킹된 인덱스 잔차 값들) 중 다수가 0의 값을 갖는다. 0에 보다 가까운 값들이 보다 적은 비트들을 사용해 인코딩되기 때문에, 예측은 전형적인 엔트로피 코딩 방식들에서 코딩 효율을 향상시킨다.

도 16은 차원 i, j(단, 0 ≤ i ≤ 7이고 0 ≤ j ≤ 7임)를 갖는 인덱스 값들(n)의 블록(1610)을 나타내고 있다. 대안적으로, 예측이 다른 크기(예컨대, 4x4, 16x16 또는 32x32)의 블록에 적용된다. 인코딩 동안, 인코더는, 인덱스 값별로, 하나 이상의 이웃하는 인덱스 값들로부터 주어진 인덱스 값(n(i,j))을 예측한다. 예측의 방향이 수평, 수직, 오른쪽 아래 방향으로의 대각, 또는 어떤 다른 방향일 수 있다. 도 16에서, 예를 들어, 예측의 방향은 수직이고, 인덱스 잔차 값들(n_resid)의 블록(1630)을 생성한다. 인덱스 값(n(i,j))은 동일한 열에 있는 이전의 인덱스 값(n(i,j-1))을 사용하여 예측된다. 인덱스 잔차 값은 단순히 2 개의 값들 사이의 차이이다. n_resid(i,j) = n(i,j) - n(i,j-1)이다. 이와 유사하게, 수평 예측의 경우, 인덱스 잔차 값은 인덱스 값과 예측된 인덱스 값인 그의 왼쪽의 이웃하는 인덱스 값 사이의 차이이다: n_resid(i,j) = n(i,j) - n(i-1,j). 45도 아래쪽 각도에서의 대각 예측의 경우, 인덱스 잔차 값이 n_resid(i,j) = n(i,j) - (n(i,j-1)+ n(i-1,j)) >> 1로서 계산될 수 있거나, n_resid(i,j) = n(i,j) - n(i-1,j-1)로서 계산될 수 있다. 다른 대각 방향들에서의 예측은 이와 유사하게, 예측의 각도에 따라, 이웃하는 인덱스 값들을 블렌딩(blend)할 수 있다. 블록의 에지에서의 예측의 경우(예컨대, i < 0 및/또는 j < 0), 이웃하는 인덱스 값은 0의 값을 갖거나 기본 값(예컨대, 인덱스 값들의 개수를 2로 나눈 것)을 부여받을 수 있다. 디코딩 동안, 디코더는 (예측의 방향에 따라) 동일한 예측된 인덱스 값을 결정하고 예측된 인덱스 값을 인덱스 잔차 값과 결합시킨다. 수직 예측의 경우, n(i,j) = n_resid(i,j) + n(i,j-1)이다. 수평 예측의 경우, n(i,j) = n_resid(i,j) + n(i-1,j)이다. 45도 아래쪽 각도에서의 대각 예측의 경우, n(i,j) = n_resid(i,j) + (n(i,j-1)+ n(i-1,j)) >> 1이거나, n(i,j) = n_resid(i,j) + n(i-1,j-1)이다. 다른 대각 방향들에서의 예측은 이와 유사하게, 예측의 각도에 따라, 이웃하는 인덱스 값들을 블렌딩할 수 있다.

도 16에서, 인덱스 값들이 패킹된 인덱스 값들에 매핑되기 전에 예측이 적용된다. 대안적으로, 인덱스 값들이 패킹된 인덱스 값들에 매핑된 후에 예측이 적용된다.

도 17은 차원 i, j(단, 0 ≤ i ≤ 7이고 0 ≤ j ≤ 7임)를 갖는 패킹된 인덱스 값들(n_packed)의 블록(1710)을 나타내고 있다. 대안적으로, 예측이 다른 크기(예컨대, 4x4, 16x16 또는 32x32)의 블록에 적용된다. 인코딩 동안, 인코더는, 패킹된 인덱스 값별로, 하나 이상의 이웃하는 패킹된 인덱스 값들로부터 주어진 패킹된 인덱스 값(n_packed(i,j))을 예측한다. 예측의 방향이 수평, 수직, 오른쪽 아래 방향으로의 대각, 또는 어떤 다른 방향일 수 있다. 도 17에서, 예를 들어, 예측의 방향은 수직이고, 패킹된 인덱스 잔차 값들(n_packed,resid)의 블록(1730)을 생성한다. 패킹된 인덱스 값(n_packed(i,j))은 동일한 열에 있는 이전의 패킹된 인덱스 값(n_packed(i,j-1))을 사용하여 예측된다. 패킹된 인덱스 잔차 값은 단순히 2 개의 값들 사이의 차이이다. n_packed,resid(i,j) = n_packed(i,j) - n_packed(i,j-1)이다. 이와 유사하게, 수평 예측의 경우, 패킹된 인덱스 잔차 값은 패킹된 인덱스 값과 예측된 인덱스 값인 그의 왼쪽의 이웃하는 패킹된 인덱스 값 사이의 차이이다: n_packed,resid(i,j) = n_packed(i,j) - n_packed(i-1,j). 45도 아래쪽 각도에서의 대각 예측의 경우, 패킹된 인덱스 잔차 값이 n_packed,resid(i,j) = n_packed(i,j) - (n_packed(i, j-1)+ n_packed(i-1,j)) >>1로서 계산될 수 있거나, n_packed,resid(i,j) = n_packed(i,j) - n_packed(i-1,j-1)로서 계산될 수 있다. 다른 대각 방향들에서의 예측은 이와 유사하게, 예측의 각도에 따라, 이웃하는 패킹된 인덱스 값들을 블렌딩할 수 있다. 블록의 에지에서의 예측의 경우(예컨대, i < 0 및/또는 j < 0), 이웃하는 패킹된 인덱스 값은 0의 값을 갖거나 기본 값을 부여받을 수 있다. 디코딩 동안, 디코더는 (예측의 방향에 따라) 동일한 예측된 패킹된 인덱스 값을 결정하고 예측된 패킹된 인덱스 값을 패킹된 인덱스 잔차 값과 결합시킨다. 수직 예측의 경우, n_packed(i,j) = n_packed,resid(i,j) + n_packed(i,j-1)이다. 수평 예측의 경우, n_packed(i,j) = n_packed,resid(i,j) + n_packed(i-1,j)이다. 45도 아래쪽 각도에서의 대각 예측의 경우, n_packed(i,j) = n_packed,resid(i,j) + (n_packed(i,j-1) + n_packed(i-1,j)) >> 1이거나, n_packed(i,j) = n_packed,resid(i,j) + n_packed(i-l,j-1)이다. 다른 대각 방향들에서의 예측은 이와 유사하게, 예측의 각도에 따라, 이웃하는 패킹된 인덱스 값들을 블렌딩할 수 있다.

예측의 선행 예들에서, 인코딩 동안에는 뺄셈 연산들이 사용되고, 디코딩 동안에는 덧셈 연산들이 사용된다. 대안적으로, 인코더 및 디코더가 예측에서 비트 단위 배타적 OR(XOR) 연산들을 사용할 수 있다.

패킹된 인덱스 값들이 예측될 때, 인코더는 패킹된 인덱스 잔차 값을 패킹된 인덱스 값 XOR 그의 예측된 패킹된 인덱스 값으로서 결정한다. 인덱스 값들이 예측될 때, 인코더는 인덱스 잔차 값을 인덱스 값 XOR 그의 예측된 인덱스 값으로서 결정한다. 잔차 값이 디코더로 신호된다. 예측된 값은 예측의 방향(예컨대, 수평, 수직, 대각)에 의존할 수 있다.

패킹된 인덱스 값들이 예측될 때, 디코더는 패킹된 인덱스 값을 그의 패킹된 인덱스 잔차 값 XOR 예측된 패킹된 인덱스 값으로서 결정한다. 인덱스 값들이 예측될 때, 디코더는 인덱스 값을 그의 인덱스 잔차 값 XOR 그의 예측된 인덱스 값으로서 결정한다. 다시 말하지만, 예측된 값은 예측의 방향(예컨대, 수평, 수직, 대각)에 의존할 수 있다.

도 18은 인코딩 및 디코딩 동안 XOR 연산들을 사용하는 예측을 나타내고 있다. 패킹된 인덱스 값은 7이고, 예측된 패킹된 인덱스 값(하나 이상의 이웃하는 패킹된 인덱스 값들에 기초함)은 6이다. 인코딩 동안, 인코더는 패킹된 인덱스 잔차가 1인 것으로 결정한다: 00000001 = 00000111 XOR 00000110. 디코딩 동안, 디코더는 패킹된 인덱스 잔차 값 및 예측된 패킹된 인덱스 값으로부터 패킹된 인덱스 값 7을 재구성한다: 00000111 = 00000001 XOR 00000110.

값, 예측된 값 및 잔차 값의 모든 비트들에 적용되는 대신에, 예측 동작들(뺄셈, XOR 또는 기타 어느 것이든 관계 없음)이 비트들의 서브셋에 적용될 수 있다. 예를 들어, XOR 연산이 인덱스 값 및 그의 예측된 인덱스 값의 최하위 p 개의 비트들에 적용될 수 있다. p_mask 가 (1<<p)-1라고 가정한다. 인코더는 인덱스 잔차 값 n_resid(i,j) = (n(i,j)>>p<<p) + (n_predicted(i,j) & p_mask) XOR (n(i,j) & p_mask)을 결정하고, 여기서 n_predicted(i,j)는, 예측의 방향에 따라, n(i,j-1), 또는 n(i-1,j) 또는 어떤 다른 예측된 값일 수 있다. 잔차 값이 디코더로 신호된다. 디코더는 인덱스 값 n(i,j) = (n_resid(i,j)>>p<<p) + (n_resid(i,j) & p_mask) XOR (n_predicted(i,j) & p_mask)를 결정한다. 동일한 동작들이 예측된 패킹된 인덱스 값들에 적용될 수 있다. 부분 비트들에 대한 동작들이 값들의 최하위 비트들, 최상위 비트들 또는 중간 비트들에 적용될 수 있다. 예측 동작들의 적용을 받는 비트들은 연속적이거나 연속적이지 않을 수 있다.

HEVC 구문을 따르는 구현들에서, 인코더 및 디코더는 잔차 값들을 예측하기 위해 통상적으로 사용되는 코딩 도구를 그 대신에 인덱스 맵의 요소들을 예측하는 데 재사용할 수 있다. 상세하게는, 잔차 값들에 어떤 변환도 적용되지 않을 때(그러나 양자화가 적용될 수 있거나 그렇지 않을 수 있을 때), 인코더 및 디코더는 이웃하는 잔차 값들로부터 잔차 값들을 예측하기 위해 그 도구를 사용할 수 있다. 코딩 도구 및 그의 사용을 신호하기 위한 구문이 또한 인덱스 맵의 요소들에 적용될 수 있다.

도 19는 인코딩 동안의 인덱스 맵의 요소들의 예측을 위한 기법(1900)을 나타낸 것이다. 기법(1900)은 도 3 또는 도 5a 및 도 5b를 참조하여 기술된 바와 같은 인코더에 의해 또는 다른 인코더에 의해 수행될 수 있다.

인코더는 데이터를 인코딩(1910)하고, 상세하게는, 예측을 사용하여 블록에 대한 인덱스 맵의 요소들을 인코딩한다. 예를 들어, 인덱스 맵이 인덱스 잔차 값들을 포함할 때, 인코더는 기본 색상을 나타내는 인덱스 값을 예측하고, 이어서 인덱스 잔차 값을 인덱스 값 및 예측된 인덱스 값에 기초하여 결정한다. 또는, 인덱스 맵이 패킹된 인덱스 잔차 값들을 포함할 때, 인코더는 패킹된 인덱스 값을 예측하고(여기서 패킹된 인덱스 값은 기본 색상을 나타내는 인덱스 값이고 계수 코딩 구문 구조에 패킹됨), 이어서 패킹된 인덱스 잔차 값을 패킹된 인덱스 값 및 예측된 패킹된 인덱스 값에 기초하여 결정한다. 예측을 사용한 인코딩은 값들의 모든 비트들에 대한 또는 값들의 부분 비트들에 대한 뺄셈 연산, XOR 연산 또는 다른 연산들을 포함할 수 있다.

인코더는 인코딩된 데이터를 출력(1920)한다. 인코더는 다음 블록을 계속할지 여부를 검사(1930)한다. 예인 경우, 인코더는 계속하여 다음 블록에 대한 인덱스 맵의 요소들을 인코딩(1910)한다.

도 20은 디코딩 동안의 인덱스 맵의 요소들의 예측을 위한 기법(2000)을 나타낸 것이다. 기법(2000)은 도 4 또는 도 6을 참조하여 기술된 바와 같은 디코더에 의해 또는 다른 디코더에 의해 수행될 수 있다.

디코더는 인코딩된 데이터를 수신(2010)하고 인코딩된 데이터를 디코딩(2020)한다. 상세하게는, 디코더는 예측을 사용하여 블록에 대한 인덱스 맵의 요소들을 디코딩한다. 예를 들어, 인덱스 맵이 인덱스 잔차 값들을 포함할 때, 디코더는 기본 색상을 나타내는 인덱스 값을 예측하고, 이어서 인덱스 잔차 값과 예측된 인덱스 값을 결합시킨다. 또는, 인덱스 맵이 패킹된 인덱스 잔차 값들을 포함할 때, 디코더는 패킹된 인덱스 값을 예측하고(여기서 패킹된 인덱스 값은 기본 색상을 나타내는 인덱스 값이고 계수 코딩 구문 구조에 패킹됨), 이어서 패킹된 인덱스 잔차 값과 예측된 패킹된 인덱스 값을 결합시킨다. 예측을 사용한 디코딩은 값들의 모든 비트들에 대한 또는 값들의 부분 비트들에 대한 덧셈 연산, XOR 연산 또는 다른 연산들을 포함할 수 있다.

디코더는 다음 블록을 계속할지 여부를 검사(2030)한다. 예인 경우, 디코더는 계속하여 다음 블록에 대한 인코딩된 데이터를 수신(2010)한다.

E. 예외 값들의 처리.

BCIM 모드가 사용될 때, 기본 색상 테이블에서, 인코더 및 디코더는 인덱스 값들을 블록에서 사용되는 모든 상이한 샘플 값에 할당할 수 있다. 어떤 경우에, 이 결과, 신호하는 데 비효율적 기본 색상 테이블이 얻어질 수 있고, 일부 인덱스 값들이 아주 가끔 사용될 때 특히 그렇다. 특정의 기본 색상이 블록에서 드물게 나타날 때, 인덱스 값을 그 기본 색상에 할당할 가치가 없을 수 있다.

일부 예시적인 구현들에서, 인코더 및 디코더는 블록에서 드물게 나타나는 기본 색상들을 처리하기 위해 몇 가지 접근법들 중 임의의 것을 사용할 수 있다. 이 드문 기본 색상들 중 하나를 갖는 "예외" 값은 인덱스 값을 사용하여 인코딩 또는 디코딩되지 않는다.

하나의 접근법에서, 인코더가 예외 값을 식별할 때, 인코더는 기본 색상 테이블 내의 인덱스 값으로 표현되는 가장 가까운 기본 색상을 결정한다. 인코더는 예외 값을 표현하기 위해 가장 가까운 기본 색상에 대한 인덱스 값을 사용한다. 디코더는 기본 색상 테이블 내의 인덱스 값과 연관된 샘플 값으로서 예외 값을 재구성한다. 이 접근법은 일종의 손실 압축이고, 어떤 경우에, 상당한 왜곡을 야기할 수 있다.

다른 접근법에서, 인코더는 예외 값들을 샘플 값들로서 직접 신호하고, 샘플 값들이 양자화될 수 있다. 예를 들어, 인코더는, 매핑을 위해 사용되는 접근법에 의존하는, 기본 색상 테이블에 대해 가능한 가장 높은 패킹된 인덱스 값(h)을 결정한다. n_packed = n일 때, 값 h는 n_packed의 가장 높은 값이다. n의 홀수 값들이 n_packed = (n+1)/2에 따라 매핑될 때, 값 h는 또다시 n_packed의 가장 높은 값이다.

인코더는 예외 값을 e = s/q+h+1로서 표현하고, 여기서 q는 양자화 파라미터이고, /는 0 쪽으로 잘라내기하는 나눗셈을 나타낸다. 양자화가 적용되지 않는 경우, q=1이고, 나눗셈 연산이 생략될 수 있다. 디코더측에서, 패킹된 인덱스 값(n_packed)이 h 이하인 경우, 디코더는, 앞서 기술된 바와 같이, 매핑 동작들 및 기본 색상 테이블을 사용하여 패킹된 인덱스 값(n_packed)으로부터 샘플 값(s)을 디코딩한다. 그렇지만, 패킹된 인덱스 값이 h 초과인 경우, 패킹된 인덱스 값이 실제로 예외 값(e)이고, 샘플 값이 s" = (e-h-1)*q로서 재구성된다.

도 21a 및 도 21b는, 각각, 인코딩 및 디코딩 동안 BCIM 모드에 대한 예외 값들 및 인덱스 값들의 처리(2100)를 나타낸 것이다. 도 21a에서, 샘플 값들(s)의 블록(2110)은 기본 색상들(85, 41, 200, 168, 127, 26)에 대한 인덱스 값들로 표현되는 어떤 샘플 값들을 포함한다. 이 값들은 도 21a에 도시된 기본 색상 테이블을 사용하여 BCIM 모드에서 인코딩된다.

블록(2110)은 또한 블록에서 가끔 나오는 2 개의 샘플 값들을 포함하고, 따라서 기본 색상들에 대한 인덱스 값들로 표현되지 않는다. 이 2 개의 예외 값들(179 및 29)은 양자화 파라미터(q)(도 21a 및 도 21b에서 q = 4임) 및 가장 높은 패킹된 인덱스 값(h)(도 21a 및 도 21b에서 h = 3임)을 사용하여 인코딩된다. h의 값은 인덱스 값들의 범위에 의존한다. q의 값은 블록마다, 슬라이스마다, 타일마다, 픽처마다, 기타로 변할 수 있다. 패킹된 인덱스 값들 및 예외 값들(e)의 블록(2130)에 나타낸 바와 같이, 샘플 값 179는 예외 값 49 = (181/4) + 3 + 1으로서 인코딩되고, 샘플 값 29는 예외 값 11 = (29/4) + 3 + 1로서 인코딩된다.

도 21b에 도시된 바와 같이, 디코딩 동안, 3 초과의 임의의 패킹된 인덱스 값은 예외 값으로서 처리된다. 예외 값 49는 샘플 값 180 = (49 - 3 - 1)*4로서 재구성되고, 예외 값 11은 샘플 값 28 = (11 - 3 - 1)*4로서 재구성된다. 블록(2150)에서의 대부분의 값들은 도 21b에 도시된 매핑 동작들 및 기본 색상 테이블을 사용하여 BCIM 모드에서 디코딩된다.

도 22는 BCIM 모드에서 인덱스 값들 및 예외 값들을 사용하여 인코딩하기 위한 일반화된 기법(2200)을 나타낸 것이다. 기법(2200)은 도 3 또는 도 5a 및 도 5b를 참조하여 기술된 바와 같은 인코더에 의해 또는 다른 인코더에 의해 수행될 수 있다.

인코더는 각각이 기본 색상을 나타내는 하나 이상의 인덱스 값들 및 어떤 기본 색상도 나타내지 않는 하나 이상의 예외 값들을 사용하여 블록에 대한 데이터를 인코딩(2210)한다. 예를 들어, 인코더는, 앞서 기술된 바와 같이, 패킹된 인덱스 값들 또는 패킹된 인덱스 잔차 값들을 사용하여 블록의 샘플 값들 중 일부를 인코딩한다. 인코더는 또한 샘플 값들 중 일부를 예외 값들로서 인코딩한다. 예를 들어, 인코더는 양자화 파라미터 및 가장 높은 패킹된 인덱스 값을 사용하여 샘플 값을 예외 값으로 대체한다.

인코더는 인코딩된 데이터를 출력(2220)한다. 인코더는 다음 블록을 계속할지 여부를 검사(2230)한다. 예인 경우, 인코더는 계속하여 다음 블록에 대한 데이터를 인코딩(2210)한다.

도 23은 BCIM 모드에서 인덱스 값들 및 예외 값들을 사용하여 디코딩하기 위한 기법(2300)을 나타낸 것이다. 기법(2300)은 도 4 또는 도 6을 참조하여 기술된 바와 같은 디코더에 의해 또는 다른 디코더에 의해 수행될 수 있다.

디코더는 인코딩된 데이터를 수신(2310)하고 인코딩된 데이터를 디코딩(2320)한다. 상세하게는, 디코더는 각각이 기본 색상을 나타내는 하나 이상의 인덱스 값들을 디코딩한다. 하나 이상의 인덱스 값들은 패킹된 인덱스 값들 또는 패킹된 인덱스 잔차 값들일 수 있다. 디코더는 또한 어떤 기본 색상도 나타내지 않는 하나 이상의 예외 값들을 디코딩한다. 예를 들어, 예외 값들 중 하나에 대해, 디코더는 예외 값, 양자화 파라미터 및 가장 높은 패킹된 인덱스 값을 사용하여 샘플 값을 재구성한다.

디코더는 다음 블록을 계속할지 여부를 검사(2330)한다. 예인 경우, 디코더는 계속하여 다음 블록에 대한 인코딩된 데이터를 수신(2310)한다.

도 24는 BCIM 모드 블록의 디코딩 동안 인덱스 값들 및 예외 값들을 사용하기 위한 보다 구체적인 기법(2400)을 나타낸 것이다. 기법(2400)은 도 4 또는 도 6을 참조하여 기술된 바와 같은 디코더에 의해 또는 다른 디코더에 의해 수행될 수 있다.

블록의 패킹된 인덱스 값에 대해, 디코더는 그 값이 문턱값을 초과하는지 여부를 검사(2520)한다. 예를 들어, 문턱값은 패킹된 인덱스 값에 대한 가능한 가장 높은 값이다. 패킹된 인덱스 값이 문턱값을 초과하는 경우, 디코더는 그 값을 예외 값으로서 처리(2540)한다. 그렇지 않은 경우, 디코더는 매핑 동작들 및 기본 색상 테이블을 사용하여 그 값을 처리(2530)한다. 디코더는 이어서 블록 내의 다른 값을 계속할지 여부를 검사(2550)한다. 예인 경우, 디코더는 다음 값을 어떻게 디코딩할지를 검사(2520)한다.

전술한 예들에서, 문턱값은 가장 높은 패킹된 인덱스 잔차에 기초한다. 대안적으로, 패킹된 인덱스 잔차 값들이 사용될 때, 문턱값은, 패킹된 인덱스 값과 그의 예측된 패킹된 인덱스 값 사이의 가능한 가장 큰 차이에 의존하는, 가능한 가장 높은 패킹된 인덱스 잔차 값에 기초한다.

개시된 발명의 원리들이 적용될 수 있는 많은 가능한 실시예들을 바탕으로, 예시된 실시예들이 본 발명의 바람직한 예들에 불과하고 본 발명의 범주를 제한하는 것으로서 해석되어서는 안 된다는 것을 잘 알 것이다. 오히려, 본 발명의 범주는 이하의 청구범위에 의해 한정된다. 따라서, 이 청구범위의 범주 및 사상 내에 속하는 모든 것을 본 발명으로서 청구한다.

Claims

비디오 인코더 또는 영상 인코더를 갖는 컴퓨팅 디바이스에서, 방법에 있어서,
블록에 대한 인덱스 맵(index map)의 요소들 또는 상기 블록에 대한 변환 계수들을 선택적으로 표현하는 상기 블록에 대한 계수 코딩 구문 구조(coefficient coding syntax structure)를 사용하는 것을 포함하는, 픽처(picture)에 대한 데이터를 인코딩하는 단계; 및
상기 픽처에 대한 상기 인코딩된 데이터를 출력하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 계수 코딩 구조가 상기 인덱스 맵에 대해 사용되는 경우, 상기 인코딩하는 단계는 (a) 상기 블록에 대한 샘플 값들을 인덱스 값들에 매핑하는 단계 - 상기 인덱스 값들 각각은 기본 색상(base color)을 나타냄 -, 및 (b) 상기 인덱스 값들을 패킹된 인덱스 값(packed index value)들 또는 패킹된 인덱스 잔차 값(packed index residual value)들에 매핑하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 계수 코딩 구조가 상기 변환 계수들에 대해 사용되는 경우, 상기 인코딩하는 단계는 (a) 상기 블록에 대한 잔차 값들을 계산하는 단계, (b) 상기 변환 계수들을 생성하기 위해 상기 잔차 값들에 대해 주파수 변환을 수행하는 단계, 및 (c) 상기 변환 계수들을 양자화하는 단계를 포함하는, 방법.
비디오 디코더 또는 영상 디코더를 갖는 컴퓨팅 디바이스에서, 방법에 있어서,
픽처에 대한 인코딩된 데이터를 수신하는 단계; 및
블록에 대한 인덱스 맵의 요소들 또는 상기 블록에 대한 변환 계수들을 선택적으로 표현하는 상기 블록에 대한 계수 코딩 구문 구조를 사용하는 것을 포함하는, 상기 인코딩된 데이터를 디코딩하는 단계를 포함하는, 방법.
제4항에 있어서, 상기 계수 코딩 구조가 상기 인덱스 맵에 대해 사용되는 경우, 상기 디코딩하는 단계는 (a) 패킹된 인덱스 값들 또는 패킹된 인덱스 잔차 값들을 인덱스 값들에 매핑하는 단계 - 상기 인덱스 값들 각각은 기본 색상을 나타냄 -, 및 (b) 상기 인덱스 값들을 상기 블록에 대한 샘플 값들에 매핑하는 단계를 포함하는, 방법.
제4항에 있어서, 상기 계수 코딩 구조가 상기 변환 계수들에 대해 사용되는 경우, 상기 디코딩하는 단계는 (a) 변환 계수들을 역양자화하는 단계, (b) 상기 블록에 대한 잔차 값들을 생성하기 위해 상기 변환 계수들에 대해 역 주파수 변환을 수행하는 단계, 및 (c) 상기 블록에 대한 샘플 값들을 재구성하기 위해 상기 잔차 값들을 예측 값들과 결합시키는 단계를 포함하는, 방법.
제1항 또는 제4항에 있어서, 상기 인덱스 맵은 상기 블록에 대한 패킹된 인덱스 값들을 포함하고, 상기 패킹된 인덱스 값들 각각은 기본 색상을 나타내는 인덱스 값이고 상기 계수 코딩 구문 구조 내에 패킹되는, 방법.
제7항에 있어서, 상기 인덱스 맵은 어떤 기본 색상도 나타내지 않는 하나 이상의 예외 값들을 추가로 포함하는, 방법.
제1항 또는 제4항에 있어서, 상기 인덱스 맵은 상기 블록에 대한 패킹된 인덱스 잔차 값들을 포함하고, 상기 패킹된 인덱스 잔차 값들 각각은 기본 색상을 나타내고 상기 계수 코딩 구문 구조 내에 패킹되는, 방법.
제9항에 있어서, 상기 패킹된 인덱스 잔차 값은 인덱스 값과 예측된 인덱스 값 사이의 차이에 기초한 인덱스 잔차 값인, 방법.
제9항에 있어서, 상기 패킹된 인덱스 잔차 값은 패킹된 인덱스 값과 예측된 패킹된 인덱스 값 사이의 차이에 기초하는, 방법.
제9항에 있어서, 상기 인덱스 맵은 어떤 기본 색상도 나타내지 않는 하나 이상의 예외 값들을 추가로 포함하는, 방법.
비디오 인코더 또는 영상 인코더를 갖는 컴퓨팅 디바이스에서, 방법에 있어서,
샘플 값들을 기본 색상들에 대한 인덱스 값들에 매핑하는 단계; 및
상기 인덱스 값들을 계수 코딩 구문 구조에 대한 패킹된 인덱스 값들에 매핑하는 단계를 포함하는, 방법.
제13항에 있어서, 상기 인덱스 값들을 상기 패킹된 인덱스 값들에 매핑하는 단계는 주어진 패킹된 인덱스 값을 주어진 인덱스 값에 기초하여 설정하는 단계를 포함하는, 방법.
제13항에 있어서, 상기 인덱스 값들을 상기 패킹된 인덱스 값들에 매핑하는 단계는,
주어진 인덱스 값이 짝수이면, 주어진 패킹된 인덱스 값을 상기 주어진 인덱스 값을 2로 나눈 것에 기초하여 설정하는 단계; 및
상기 주어진 인덱스 값이 홀수이면, 상기 주어진 패킹된 인덱스 값을 상기 주어진 인덱스 값에 1을 더하고 이어서 2로 나눈 것에 기초하여 설정하는 단계를 포함하는, 방법.
제13항에 있어서, 상기 인덱스 값들을 상기 패킹된 인덱스 값들에 매핑하는 단계는,
주어진 패킹된 인덱스 값을 하나의 루마 인덱스 값(luma index value) 및 다수의 크로마 인덱스 값(chroma index value)들에 기초하여 설정하는 단계를 포함하는, 방법.
제13항에 있어서,
주어진 패킹된 인덱스 값을 예측하는 단계; 및
패킹된 인덱스 잔차 값을 상기 주어진 패킹된 인덱스 값 및 상기 예측된 패킹된 인덱스 값에 기초하여 결정하는 단계를 추가로 포함하는, 방법.
비디오 디코더 또는 영상 디코더를 갖는 컴퓨팅 디바이스에서, 방법에 있어서,
계수 코딩 구문 구조에 대한 패킹된 인덱스 값들을 기본 색상들에 대한 인덱스 값들에 매핑하는 단계; 및
상기 인덱스 값들을 샘플 값들에 매핑하는 단계를 포함하는, 방법.
제18항에 있어서, 상기 패킹된 인덱스 값들을 상기 인덱스 값들에 매핑하는 단계는 주어진 인덱스 값을 주어진 패킹된 인덱스 값에 기초하여 설정하는 단계를 포함하는, 방법.
제18항에 있어서, 상기 패킹된 인덱스 값들을 상기 인덱스 값들에 매핑하는 단계는,
주어진 패킹된 인덱스 값이 0과 주어진 관계를 가지면, 주어진 인덱스 값을 상기 주어진 패킹된 인덱스 값 x 2에 기초하여 설정하는 단계; 및
그렇지 않은 경우, 주어진 인덱스 값을 상기 주어진 패킹된 인덱스 값 x 2 - 1에 기초하여 설정하는 단계를 포함하는, 방법.
제18항에 있어서, 상기 패킹된 인덱스 값들을 상기 인덱스 값들에 매핑하는 단계는,
하나의 루마 인덱스 값 및 다수의 크로마 인덱스 값들을 주어진 패킹된 인덱스 값에 기초하여 설정하는 단계를 포함하는, 방법.
제18항에 있어서,
주어진 패킹된 인덱스 값을 예측하는 단계; 및
상기 주어진 패킹된 인덱스 값을 결정하기 위해 패킹된 인덱스 잔차 값을 상기 예측된 패킹된 인덱스 값과 결합시키는 단계를 추가로 포함하는, 방법.
비디오 인코더 또는 영상 인코더를 갖는 컴퓨팅 디바이스에서, 방법에 있어서,
예측을 사용하여 블록에 대한 인덱스 맵의 요소들을 인코딩하는 것을 포함하는, 픽처에 대한 데이터를 인코딩하는 단계; 및
상기 픽처에 대한 상기 인코딩된 데이터를 출력하는 단계를 포함하는, 방법.
제23항에 있어서, 상기 인덱스 맵의 상기 요소들을 인코딩하는 단계는,
기본 색상을 나타내는 인덱스 값을 예측하는 단계; 및
인덱스 잔차 값을 상기 인덱스 값 및 상기 예측된 인덱스 값에 기초하여 결정하는 단계를 포함하고, 상기 인덱스 맵은 상기 인덱스 잔차 값을 포함하는, 방법.
제23항에 있어서, 상기 인덱스 맵의 상기 요소들을 인코딩하는 단계는,
패킹된 인덱스 값을 예측하는 단계 - 상기 패킹된 인덱스 값은 기본 색상을 나타내는 인덱스 값이고 계수 코딩 구문 구조 내에 패킹됨 -; 및
패킹된 인덱스 잔차 값을 상기 패킹된 인덱스 값 및 상기 예측된 패킹된 인덱스 값에 기초하여 결정하는 단계를 포함하고, 상기 인덱스 맵은 상기 패킹된 인덱스 잔차 값을 포함하는, 방법.
제23항에 있어서, 상기 인덱스 맵의 상기 요소들을 인코딩하는 단계는 예측된 인덱스 값을 초기 인덱스 값으로부터 감산하는 단계 또는 예측된 패킹된 인덱스 값을 초기 패킹된 인덱스 값으로부터 감산하는 단계를 포함하는, 방법.
제23항에 있어서, 상기 인덱스 맵의 상기 요소들을 인코딩하는 단계는 예측된 인덱스 값 및 초기 인덱스 값의 적어도 일부 비트들의 XOR을 결정하는 단계 또는 예측된 패킹된 인덱스 값 및 초기 패킹된 인덱스 값의 적어도 일부 비트들의 XOR을 결정하는 단계를 포함하는, 방법.
제27항에 있어서, 상기 XOR은 상기 예측된 인덱스 값 및 상기 초기 인덱스 값의 모든 비트들에 대해 수행되거나, 상기 XOR은 상기 예측된 패킹된 인덱스 값 및 상기 초기 패킹된 인덱스 값의 모든 비트들에 대해 수행되는, 방법.
비디오 디코더 또는 영상 디코더를 갖는 컴퓨팅 디바이스에서, 방법에 있어서,
픽처에 대한 인코딩된 데이터를 수신하는 단계; 및
예측을 사용하여 블록에 대한 인덱스 맵의 요소들을 디코딩하는 것을 포함하는, 상기 인코딩된 데이터를 디코딩하는 단계를 포함하는, 방법.
제29항에 있어서, 상기 인덱스 맵의 상기 요소들을 디코딩하는 단계는,
기본 색상을 나타내는 인덱스 값을 예측하는 단계; 및
인덱스 잔차 값과 상기 예측된 인덱스 값을 결합시키는 단계를 포함하고, 상기 인덱스 맵은 상기 인덱스 잔차 값을 포함하는, 방법.
제29항에 있어서, 상기 인덱스 맵의 상기 요소들을 디코딩하는 단계는,
패킹된 인덱스 값을 예측하는 단계 - 상기 패킹된 인덱스 값은 기본 색상을 나타내는 인덱스 값이고 계수 코딩 구문 구조 내에 패킹됨 -; 및
패킹된 인덱스 잔차 값과 상기 예측된 패킹된 인덱스 값을 결합시키는 단계를 포함하고, 상기 인덱스 맵은 상기 패킹된 인덱스 잔차 값을 포함하는, 방법.
제29항에 있어서, 상기 인덱스 맵의 상기 요소들을 디코딩하는 단계는 예측된 인덱스 값과 인덱스 잔차 값을 결합시키는 단계 또는 예측된 패킹된 인덱스 값과 패킹된 인덱스 잔차 값을 결합시키는 단계를 포함하는, 방법.
제29항에 있어서, 상기 인덱스 맵의 상기 요소들을 디코딩하는 단계는 예측된 인덱스 값 및 인덱스 잔차 값의 적어도 일부 비트들의 XOR을 결정하는 단계 또는 예측된 패킹된 인덱스 값 및 패킹된 인덱스 잔차 값의 적어도 일부 비트들의 XOR을 결정하는 단계를 포함하는, 방법.
제33항에 있어서, 상기 XOR은 상기 예측된 인덱스 값 및 상기 인덱스 잔차 값의 모든 비트들에 대해 수행되거나, 상기 XOR은 상기 예측된 패킹된 인덱스 값 및 상기 패킹된 인덱스 잔차 값의 모든 비트들에 대해 수행되는, 방법.
비디오 인코더 또는 영상 인코더를 갖는 컴퓨팅 디바이스에서, 방법에 있어서,
각각이 기본 색상을 나타내는 하나 이상의 인덱스 값들 및 어떤 기본 색상도 나타내지 않는 하나 이상의 예외 값들을 사용하여 블록에 대한 데이터를 인코딩하는 단계; 및
상기 인코딩된 데이터를 출력하는 단계를 포함하는, 방법.
제35항에 있어서, 상기 인코딩하는 단계는, 상기 하나 이상의 예외 값들 중 하나에 대해,
양자화 파라미터 및 가장 높은 패킹된 인덱스 값을 사용하여 샘플 값을 상기 예외 값으로 대체하는 단계를 포함하는, 방법.
제35항에 있어서, 상기 인덱스 맵 내의 상기 하나 이상의 인덱스 값들은 패킹된 인덱스 값들 또는 패킹된 인덱스 잔차 값들인, 방법.
비디오 디코더 또는 영상 디코더를 갖는 컴퓨팅 디바이스에서, 방법에 있어서,
블록에 대한 인코딩된 데이터를 수신하는 단계; 및
각각이 기본 색상을 나타내는 하나 이상의 인덱스 값들 및 어떤 기본 색상도 나타내지 않는 하나 이상의 예외 값들을 디코딩하는 것을 포함하는, 상기 인코딩된 데이터를 디코딩하는 단계를 포함하는, 방법.
제38항에 있어서, 상기 디코딩하는 단계는, 상기 하나 이상의 예외 값들 중 하나에 대해,
상기 예외 값, 양자화 파라미터 및 가장 높은 패킹된 인덱스 값을 사용하여 샘플 값을 재구성하는 단계를 포함하는, 방법.
제38항에 있어서, 상기 하나 이상의 인덱스 값들은 패킹된 인덱스 값들 또는 패킹된 인덱스 잔차 값들인, 방법.
제1항 내지 제40항 중 어느 한 항의 방법을 수행하도록 구성된 컴퓨팅 디바이스.
제1항 내지 제40항 중 어느 한 항의 방법을 수행하도록 컴퓨팅 디바이스를 프로그램하기 위한 컴퓨터 실행 가능 명령어들을 저장하는 하나 이상의 컴퓨터 판독 가능 매체.