KR20210139336A

KR20210139336A - 이미지 및 비디오 코딩을 위한 선택적 인터-컴포넌트 변환

Info

Publication number: KR20210139336A
Application number: KR1020217032758A
Authority: KR
Inventors: 크리스티안 헴리히; 크리스티안 루닷; 퉁호앙 응우옌; 하이코 슈바르츠; 데틀레프 마르페; 토마스 비건드
Original assignee: 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date: 2019-03-12
Filing date: 2020-03-11
Publication date: 2021-11-22
Also published as: TW202038608A; TWI753377B; JP2024032017A; MX2021010909A; JP2022524440A; TW202243470A; BR112021018089A2; CN113678450A; TWI815259B; JP7390395B2; US20210409708A1; EP3939296A1; WO2020182907A1

Abstract

인코딩할 이미지 중 이미지 콘텐트 영역의 복수의 컴포넌트들을 인코딩하기 위한 인코더에 있어서, 상기 이미지 콘텐트 영역을 나타내는 상기 복수의 컴포넌트들을 획득하고; 인터-컴포넌트 변환들의 세트로부터 인터-컴포넌트 변환을 선택하고; 상기 선택된 인터-컴포넌트 변환을 이용하여 상기 복수의 컴포넌트들을 인코딩하여 인코딩된 컴포넌트들을 얻고; 및 상기 인코딩된 컴포넌트들을 제공하도록 구성되는 인코더가 개시된다.

Description

이미지 및 비디오 코딩을 위한 선택적 인터-컴포넌트 변환

본 발명은 이미지 및 비디오의 인코더 및 디코더에 관한 기술로서, 더욱 상세하게는, 이미지 및 비디오 코딩을 위한 인터-컴포넌트 변환 기술에 관한 것이다.

자연의 정지한 또는 움직이는 컬러 픽처들(이하, 간략히 이미지들 및 비디오들이라고 함)에서, 개개의 컬러 컴포넌트들 사이의 상당량의 신호 상관이 일반적으로 관측될 수 있다. 이것은 YUV 또는 YCbCr(루마(luma)-채도) 또는 RGB(적색-녹색-청색) 도메인에서 표현되는 컨텐트의 경우에 특히 그러하다. 이미지 또는 비디오 코딩에서 이러한 인터-컴포넌트 중복성(redundancy)을 효과적으로 설명하기 위하여, 몇몇 예측 기술들이 최근 제안되어 왔다. 이들 중, 가장 주목할 만한 것은 다음과 같다:

● cross-component linear-model (CCLM) 예측, 블록 레벨에서 또다른 디코딩된 컴포넌트들의 신호(일반적으로 루마)로부터 컴포넌트의 입력 신호를 예측하고, 오류 즉, 입력 및 예측 사이의 차이만을 인코딩하는 선형 예측 코딩(LPC) 방법;

● joint chroma coding (JCC), 두 채도 잔차 신호들(즉, 오직 하나의 다운믹스)의 차이만을 인코딩하고, 간단한 샘플-와이즈 업믹스 규칙인 YUV 또는 YCbCr 코딩에 대한 각각 "V = -U" or "Cr = -Cb"를 이용하여 상기 2개의 채도 신호들을 디코딩하는 접근법. 즉, JCC 업믹스는 JCC 다운믹스 프로세스 동안의 V Cr 각각에 대한 잔차 또는 연관된 에러의 코딩없이, U 또는 Cb로부터 V 또는 Cr의 각각의 예측을 나타낸다.

[1] 및 [2]에 각각 상세하게 설명되어 있는 CCLM 및 JCC 기술들은 신호 플래그를 이용하여 특정 코딩 블록에서의 그들의 활성화를 디코더에게 시그널링한다. 더욱이, 원칙적으로 두 스킴 모두 임의의 컴포넌트 쌍들 사이에 적용될 수 있다는 것은 주목할 만한 가치가 있다 : 즉,

● YUV 또는 YCbCr에서 2개의 채도 신호들 사이 또는 루마 및 채도 신호 사이

● RGB 코딩에서, R 및 G 신호 사이 또는 R 또는 B 신호 사이, 또는 마지막으로 G 및 B 신호 사이.

상기 리스트에서, "신호"라는 용어는 입력 이미지 또는 비디오의 특정 영역 또는 블록 내의 공간-도메인 입력 신호를 나타낼 수 있고, 또는 그것은 임의의 공간, 스펙트럼, 또는 시간 예측 코딩 기술 (예컨대, 다각 화면내 예측 또는 움직임 보상)에 의해 얻어지는 공간-도메인 예측 신호와 상기 공간-도메인 입력 신호 사이의 잔차(즉, 차이 또는 에러)를 나타낼 수 있다.

전술한 솔루션들이 최근의 이미지 또는 비디오 코덱에서 코딩 효율을 높이는데 성공하였지만, CCLM 및 JCC 접근법들과 연관되어 2가지의 단점이 지적될 수 있다:

● 2개의 채도-채널 신호들 사이에 CCLM 방법을 적용하기 위해서는, 인코더 및 디코더 모두에서, 고려하는 코딩 블록의 상위 및 좌측의 이웃하는 샘플들로부터 특정 예측 파라미터(CCLM 가중계수)를 유도할 것이 요구되는데, 이 유도는 계산적으로, 상대적으로 복잡하다.

● JCC 기술을 이용하는 것은 다운믹싱과 업믹싱에 대해서 오직 신호 차이만이 지원되기 때문에 상대적으로 유연하지 못한 것이 밝혀졌다. 평균적으로, 이 접근법은 YUV 또는 YCbCr 코딩된 컨텐트에 대해서 잘 동작하지만, 코딩 이득들은 RGB 코딩된 입력 및 주목할만한 색수차로부터 어려움을 겪는 카메라들로부터 기록된 자연의 이미지 또는 비디오들에 대해서 상대적으로 낮다는 것이 밝혀졌다.

그러므로, JCC 접근법의 낮은 복잡도를 갖는, 이미지들 및 비디오들의 조인트 컴포넌트 코딩을 위한 더 유연한 방법 및 장치를 제공하는 것이 바람직하다.

전술한 단점들을 다루기 위하여, 본 발명은 다음의 양태들을 포함하며, 여기에서 시그널링(signaling)이라는 용어는 인코더로부터 디코더로 코딩 정보의 전송을 나타낸다. 이들 양태들 각각은 개별 섹션에서 상세히 설명될 것이다.

1. (가능한한 엔트로피 코딩된) 온/오프 플래그 또는 택일적으로 비-이진(non-binary) 인덱스에 의해 상기 조인트 코딩/디코딩의 적용에 대한, 대응하는 블록 또는 픽처-관련 명시적 시그널링(explicit signaling)과 함께, 적어도 2개의 인터-컴포넌트 조인트 코딩/디코딩 방법들 중 하나의 블록 또는 픽처-선택적 적용(즉, 활성화); 2 이상의 인터-컴포넌트 방법들은 다음의 것들 중 어느 것을 표현할 수 있다:

● 2개의 컬러 채널들을 나타내는 단일의 다운믹스 채널의 코딩; 디코딩된 다운믹스 채널을 나타내는 C'이 이용되고, 디코딩된 컬러 채널들은 Cb'=a C' 및 Cr'=b C'에 의해 얻어지고, 여기에서 a 및 b는 특정 믹싱 인자(종종 a 또는 b 는 1로 설정된다);

● 2개의 믹싱 채널들의 코딩; 디코딩된 믹싱 채널들인 C₁' 및 C₂'을 이용; 디코딩된 믹싱 채널들 C₁' 및 C₂'에 크기 2의 직교(또는 거의 직교인) 변환을 적용함으로써 디코딩된 컬러 Cb' 및 Cr'가 얻어진다.

2. 조인트 코딩/디코딩이 적용(즉, 활성화)될 때, 기존 코딩된 블록 플래그 비트스트림 요소들에 의해, 적어도 2개의 인터-컴포넌트 방법들 중 적용된 하나에 대한 암시적 시그널링(implicit signaling)

3. 블록 또는 픽처에 적용된 모든 인터-컴포넌트 조인트 코딩/디코딩 방법들의 디코딩 파라미터들(예컨대, 업믹스 매트릭스, 역-변환 유형, 역-변환 계수(들), 회전각, 또는 선형 예측 인자(들))에 대한 블록 또는 픽처-관련 직접 또는 간접 시그널링

4. 적어도 2개의 인터-컴포넌트 조인트 코딩/디코딩 방법들 중 적용될 하나를 픽처 또는 블록 레벨에서 선택할 때 빠른 인코더-측의 결정들(소모적인 탐색들을 대신함)

본 발명은 복잡도가 낮고, 이미지들 및 비디오들의 조인트 컴포넌트 코딩을 위한 더 유연한 방법 및 장치를 제공할 수 있다.

도1은 변환-기반(transform-based) 잔차(residual) 코딩을 이용하여, 픽처를 데이터 스트림 안으로 예측적으로 코딩하기 위한 장치를 도시한다.
도2는 대응하는 디코더 즉, 변환-기반 잔차 디코딩을 또한 이용하여 데이터 스트림으로부터 픽처(12')를 예측적으로 디코딩하도록 구성된 장치를 도시한다.
도3은 예측 신호(26) 및 예측 잔차 신호(24'''')의 조합이 재구성된 신호(12')로 직접적으로 귀결된다는 것을 도시한다.
도4a 및 도4b는 각각의 인코더(60₁,60₂) 및 각각의 디코더(65₁,65₂)의 기능성을 각각 도시한다.

도면들의 아래 설명은 본 발명의 실시예들이 구현될 수 있는 예컨대, 코딩 프레임워크를 형성하기 위하여 비디오의 픽처들을 코딩하기 위한 블록-기반의 예측성 코덱(predictive codec)의 인코더 및 디코더의 설명의 제공과 함께 시작한다. 인코더 및 디코더 각각이 도1 내지 3을 중심으로 설명된다. 이하, 도4와 함께 설명된 실시예들이 또한 도1 및 2의 인코더 및 디코더의 기저가 되는 코딩 프레임워크에 따라 동작하지 않는 인코더들 및 디코더들을 형성하는데 사용될 수 있지만, 본 발명의 기술적 사상의 실시예들의 설명이 도1 및 도2 각각의 인코더 및 디코더에 그러한 기술적 사상이 어떻게 구현될 수 있는지에 대한 설명과 함께 제공된다.

동일하거나 균등한 구성요소 또는 동일하거나 균등한 기능성을 갖는 구성요소들은 이하 설명에서, 서로 다른 도면에서라도 동일 또는 균등한 참조 번호에 의해 표시된다.

아래 설명에서, 본 발명의 실시예들의 설명을 통해 더 많은 정보를 제공하기 위해 복수의 상세들이 개시된다. 그러나, 본 기술분야의 통상의 기술자는 본 발명의 실시예들이 이러한 구체적인 상세들이 없더라도 구현될 수 있다는 것을 이해할 수 있을 것이다. 다른 예들에서, 주지의 구조들 및 디바이스들이 본 발병의 실시예들의 실시예들을 모호하게 하는 것을 피하기 위하여, 상세하게 하기 보다는 블록 다이어그램 형태로 도시된다. 추가적으로, 이하 설명되는 상이한 실시예들의 특징들은 명확하게 달리 설명되지 않는 한 서로 결합될 수 있다.

도1은 예컨대, 변환-기반(transform-based) 잔차(residual) 코딩을 이용하여, 픽처(12)를 데이터 스트림(14) 안으로 예측적으로 코딩하기 위한 장치를 도시한다. 이 장치는, 또는 코더는, 참조 부호 10에 의해 표시된다. 도2는 대응하는 디코더(20) 즉, 변환-기반 잔차 디코딩을 또한 이용하여 데이터 스트림(14)으로부터 픽처(12')를 예측적으로 디코딩하도록 구성된 장치(20)를 도시하며, 여기에서 아포스트로피는 디코더(20)에 의해 재구성되는 픽처(12')가 예측 잔차 신호의 양자화에 의해 도입된 코딩 손실의 관점에서, 근원적으로 장치(10)에 의해 인코딩된 픽처(12)로부터 벗어난 것임을 나타내도록 사용되었다. 도1 및 도2는 예시적으로 변환 기반의 예측 잔차 코딩을 이용하지만, 본 발명의 실시예들이 이러한 종류의 예측 잔착 코딩에 제한되는 것은 아니다. 이것은 도1 및 도2에 관하여 설명된, 이하에서 개략 서술되는 상세들에 대해서는 해당한다.

인코더(10)는 예측 잔차 신호를 공간-스펙트럼 변환에 종속시키고 따라서 얻어진 예측 잔차 신호를 데이터 스트림(14) 내로 인코딩하도록 구성된다. 마찬가지로, 디코더(20)는 데이터 스트림(14)으로부터 예측 잔차 신호를 디코딩하고, 따라서 얻어진 예측 잔차 신호를 공간-스펙트럼 변환에 종속시키도록 구성된다.

내부적으로, 인코더(10)는 원래의 신호 즉, 픽처(12)로부터 예측 신호(26)의 편차를 측정하기 위하여 예측 잔차(24)를 생성하는 예측 잔차 신호 생성기(22)를 포함할 수 있다. 예측 잔차 신호 생성기(22)는 예컨대, 원래의 신호 즉, 픽처(12)에서 예측 신호를 감산하는 감산기일 수 있다. 인코더(10)는 또한 예측 잔차 신호(24)를 공간-스펙트럼 변환에 종속시키는 변환기(28)를 포함하여 스펙트럼-도메인 예측 잔차 신호(24')를 얻으며, 이는 인코더(10)에 의해 또한 포함되는 양자화기(32)에 의한 양자화에 종속된다. 따라서 양자화된 예측 잔차 신호(24'')는 비트스트림(14) 내로 코딩된다. 이를 위하여, 인코더(10)는 선택적으로 엔트로피 코더(34)를 포함할 수 있고, 이는 변환되고 양자화된 바의 예측 잔차 신호를 데이터 스트림(14) 내로 엔트로피 코딩한다. 예측 신호(26)는 데이터 스트림(14) 내로 인코딩되는, 또한 이로부터 디코딩될 수 있는, 예측 예측 신호(24'')에 기초하여 인코더(10)의 예측 단계(36)에 의해 생성된다. 예측 신호(26)는 데이터 스트림(14) 내로 인코딩되는, 또한 이로부터 디코딩될 수 있는, 예측 예측 신호(24'')에 기초하여 인코더(10)의 예측 단계(36)에 의해 생성된다. 이를 위하여, 예측 단계(36)는 내부적으로, 도1에 도시된 바와 같이, 예측 잔차 신호(24'')를 역-양자화하여, 양자화 손실을 제외하고 신호(24')에 대응하는 스펙트럼-도메인 예측 잔차 신호(24''')를 얻도록 하는 역-양자화기(38)를 포함할 수 있다. 이어, 역-변환 즉, 스펙트럼-공간 변환에 후자의 예측 잔차 신호(24''')를 종속시켜, 양자화 손실을 제외하고 원래의 예측 잔차 신호(24)에 대응하는 예측 잔차 신호(24'''')를 얻도록 하는 역-변환기(40)가 수반된다. 다음, 예측 단계(36)의 컴바이너(62)가 예측 신호(26) 및 예측 잔차 신호(24'''')를 예컨대, 덧셈에 의해 재결합시켜, 재구성된 신호(46) 즉, 원래의 신호(12)의 재구성을 얻도록 한다. 재구성된 신호(46)는 신호(12')에 대응할 수 있다. 예측 단계(36)의 예측 모듈(44)은 다음으로 예를 들어, 공간 예측 즉, 인트라-픽처 및/또는 시간 예측 즉, 인터-픽처 예측을 이용하여 신호(46)에 기초하여 예측 신호(26)를 생성한다.

유사하게, 도2에 도시된 바와 같이, 디코더(20)는 내부적으로, 예측 단계(36)에 대응하고 또한 이에 대응하는 방식으로 상호 연결되는 컴포넌트들로 구성될 수 있다. 특히, 디코더(20)의 엔트로피 디코더(50)는 데이터 스트림으로부터 양자화된 스펙트럼-도메인 예측 잔차 신호(24'')를 엔트로피 디코딩할 수 있다. 그래서, 예측 단계(36)의 모듈들에 대해 전술한 방식으로 상호 연결되고 함께 동작하는 역-양자화기(52), 역 변환기(54), 컴바이너(56) 및 예측 모듈(58)은 예측 잔차 신호(24'')에 기초하여 재구성된 신호를 복구하여, 도2에 도시된 바와 같이, 컴바이너(56)의 출력은 재구성된 신호로 즉, 픽처(12')로 귀결된다.

앞서 특정적으로 설명되지 않았지만, 인코더(10)는 예를 들어, 속도 및 왜곡과 연관된 기준 즉, 코딩 비용을 최적화하는 방식과 같은 어떤 최적화 스킴에 따라 예컨대, 예측 모드들, 모션 파라미터들 등을 포함하는 어떤 코딩 파라미터들을 설정할 수 있음을 용이하게 이해할 수 있다. 예를 들어, 인코더(10) 및 디코더(20) 및 이에 대응하는 모듈들(44, 58)은 각각 화면내-코딩 모드들 및 화면간-코딩 모드들과 같은 상이한 예측 모드들을 지원할 수 있다. 인코더 및 디코더가 이러한 예측 모드 유형들 사이에서 전환하는 작은 단위(granularity)는 픽처(12 및 12') 의 코딩 세그먼트들 또는 코딩 블록들로의 세분화된 부분에 대응할 수 있다. 예컨대, 이들 코딩 세그먼트들의 단위들에서, 픽처는 화면내-코딩된 블록 및 화면간-코딩된 블록들로 세분화될 수 있다. 화면내-코딩된 블록들은 이하에서 더욱 상세하게 서술되는 바와 같은 각각의 블록의 이미 코딩된/디코딩된 공간적인 이웃하는 것에 기초하여 예측된다. 수 개의 화면내-코딩 모드들이 있을 수 있고, 지향성 또는 다각의(angular) 화면내-코딩 모드들을 포함하여 각각의 화면내-코딩된 세그먼트에 대해서 수 개의 화면내-코딩 모드들이 선택될 수 있다. 이 모드들에 따라서, 각각의 지향성 화면내-코딩 모드에 대해 특정적인 특정 방향을 따라서 이웃하는 것들의 샘플 값들을 추론함으로써, 각각의 세그먼트들이 채워져 각각의 화면내-코딩된 세그먼트가 된다. 화면내-코딩 모드들은 또한, 예컨대, DC 코딩 모드, 및/또는 평면의 화면내-코딩 모드와 같은 하나 이상의 모드들을 더 포함할 수 있다. DC 코딩 코드에 따라서 각각의 화면내-코딩된 블록에 대한 예측은 DC 값을 각각의 화면내-코딩된 세그먼트 내의 모든 샘플들에 할당할 수 있다. 평면의 화면내-코딩 코드에 따라서, 각각의 블록의 예측은 추론 또는 결정되어 샘플 값들의 공간 분포가 되는데, 이 샘플 값들의 공간 분포는 이웃하는 샘플들에 기초하여 2차원 선형 함수에 의해 정의되는 평면의 오프셋 및 기울어짐을 일으키는, 각각의 화면내-코딩된 블록의 샘플 위치들에 걸친 2차원 선형 함수에 의해 묘사된다. 이에 비하여, 화면간-코딩된 블록들은 예컨대 시간적으로 예측될 수 있다. 화면간-코딩된 블록들에 대해서, 움직임 벡터들은 데이터 스트림 내에서 시그널링될 수 있고, 움직임 벡터는 각각의 화면간-코딩된 블록에 대한 예측 신호를 얻기 위하여 앞선 코딩된/디코딩된 픽처가 샘플링되고, 픽처(12)가 속하는 비디오의 앞선 코딩된 픽처의 일부의 공간적 변위를 나타낸다. 이것은, 양자화된 스페트럼-영역 예측 잔차 신호(24'')를 나타내는 엔트로피-코딩된 변환 계수 크기들과 같이 데이터 스트림(14)에 포함되는 잔차 신호 코딩에 더하여, 데이터 스트림(14)은 코딩 코드들을 다양한 블록들에 할당하기 위한 코딩 코드 파라미터들, 화면간-코딩된 세그먼트들에 대한 움직임 파라미터들과 같은 몇몇 블록들에 대한 예측 파라미터들, 및 픽처(12 및 12')의 세그먼트들로의 세분화를 제어 및 시그널링하기 위한 파라미터와 같은 선택적인 파라미터들을 그 안에 인코딩할 수 있음을 의미한다. 디코더(20)는 이 파라미터들을 이용하여, 인코더가 했던 동일한 방식으로 픽처를 세분화하고, 동일한 예측 모드들을 세그먼트들에 할당하고, 동일한 예측을 수행하여 동일한 예측 신호를 생성한다.

도3은 데이터 스트림(14) 내의 시그널링된 바와 같은 예측 잔차 신호(24'''')와 예측 신호(26)의 조합과, 재구성된 신호 즉, 재구성된 픽처(12') 사이의 관계를 도시한다. 전술한 바와 같이 위 조합은 덧셈일 수 있다. 해칭(hatching)을 이용하여 도해적으로 지시된 화면내-코딩된 블록들 및 비-해칭(not-hatched)으로 도해적으로 지시된 화면간-코딩된 블록들로 픽처 영역을 세분화하는 것으로서, 예측 신호(26)가 도3에 도시되어 있다. 이 세분화는 어떤 임의의 세분화일 수 있는데 예컨대, 픽처 영역을 사각 블록들 또는 비-사각 블록들의 행들 및 열들로의 일반적인 세분화, 또는 트리 루트 블록으로부터 가변하는 크기의 다수의 잎 블록들로의 픽처(12)의 멀티-트리 세분화 예컨대, 쿼드트리 세분화 등과 같은 것일 수 있다. 도3에는 픽처 영역이 우선 트리 루트 블록들의 행들 및 열들로 세분화되고, 그리고 하나 이상의 잎(leaf) 블록들로의 회귀적인 멀티-트리 세분화에 따라 더 세분화되는 상기 세분화 방식들의 혼합 방식이 도시되어 있다.

다시, 데이터 스트림(14)은 화면내-코딩된 블록들(80)을 위해 그 안에 코딩된 화면간-코딩 모드를 포함할 수 있고, 이는 수 개의 지원된 화면내-코딩 모드들 중 하나를 각각의 화면내-코딩된 블록(80)에 할당한다. 화면간-코딩된 블록들(82)을 위해, 데이터 스트림(14)은 그 안에 코딩된, 하나 이상의 움직임 파라미터들을 가질 수 있다. 일반적으로 말하자면, 화면간-코딩된 블록들(82)은 시간적으로 코딩되는 것으로 제한되지 않는다. 택일적으로, 화면간-코딩된 블록들(82)은 현재 픽처(12)를 넘어서 앞서 코딩된 부분들로부터 예측되는 어떠한 블록일 수 있는데, 예컨대, 픽처(12)가 속하는 비디오의 앞서 코딩된 픽처들 또는 인코더 및 디코더가 스케일러블 인코더들 및 디코더들인 경우 계층적으로 더 낮은 층의 또 다른 뷰의 픽처일 수 있다.

예측 잔차 신호(24'''')는 도3에서 또한 픽처 영역의 블록들(84)로의 세분화로서 또한 도시되어 있다. 이들 블록들은 코딩 블록들(80 및 82)와 구별하기 위하여 변환 블록들(transform blocks)이라고 부를 수 있다. 결과적으로, 도3은 인코더(10) 및 디코더(20)가 픽처(12) 및 픽처(12')의 블록들로의 상이한 세분화들을 즉, 코딩 블록들(80 및 82)로의 세분화 및 변환 블록들(84)로의 세분화를 각각 사용할 수 있음을 의미한다. 두 세분화들은 동일한 것일 수 있는데 즉, 각각의 코딩 블록들(80 및 82)는 또한 동시에 변환 블록(84)을 형성할 수 있지만, 그러나 도3은 예컨대, 변환 블록들(84)로의 세분화가 코딩 블록들(80,82)로의 세분화의 확장을 형성하는 경우를 도시한다. 이 경우는 블록들(80 및 82) 중 2개의 블록들 사이의 임의의 경계가 2개의 블록들(84)의 경계와 중첩되도록 또는 택일적으로 말하자면, 각각의 블록(80, 82)이 또한 변환 블록들(84) 중 하나와 만나도록(coincide) 또는 변환 블록들(84)의 클러스터와 만나도록 하기 위한 것이다. 그러나, 세분화들은 또한 서로 독립적으로 결정 또는 선택될 수 있어 변환 블록들(84)은 택일적으로 블록들(80,82) 사이의 블록 경계들과 교차할 수 있다. 변환 블록들(84)로의 세분화에 대해서 고려한다면, 블록들(80,82)로의 세분화에 대해서 앞서 설명된 것들과 비슷한 설명들이 또한 타당하다. 즉, 블록들(84)은 픽처 영역의 블록들로의 일반적인 세분화(행들 및 열들로의 배열을 이용 또는 불사용)의 결과, 픽처 영역에 대한 회귀적인 멀티-트리 세분화의 결과, 또는 그것들의 조합의 결과, 또 다른 종류의 블록화의 결과일 수 있다. 부가적으로, 블록들(80,82,84)은 2차 도형, 직사각 형태, 또는 다른 형태에 제한되는 것이 아님을 주의한다.

도3은 또한 예측 신호(26) 및 예측 잔차 신호(24'''')의 조합이 재구성된 신호(12')로 직접적으로 귀결된다는 것을 도시한다. 그러나, 다른 실시예들에 따르면, 하나 이상의 예측 신호(26)가 예측 잔차 신호(24'''')와 조합되어, 픽처(12')로 귀결될 수 있음에 주의해야 한다.

도3에서, 변환 블록들(84)은 다음과 같은 중요성을 가질 수 있다. 변환기(28) 및 역 변환기(54)는 이들 변환 블록들(84)의 유닛들에서 그들의 변환들을 수행한다. 예를 들어, 많은 코덱들이 모든 변환 블록들(84)에 대해서 몇몇 종류의 DST 또는 DCT를 이용한다. 어떤 코덱들은 변환을 생략하는 것을 허용하여, 변환 블록들(84) 중 몇몇에 대해서, 예측 잔차 신호가 공간 도메인에서 직접 코딩되도록 한다. 그러나, 이하에서 설명되는 실시예들에 따르면, 인코더(10) 및 디코더(20)는 그것들이 몇몇 변환들을 지원하는 방식으로 구성된다. 예를 들어, 인코더(10) 및 디코더(20)에 의해 지원되는 변환들은 다음을 포함할 수 있다:

o DCT-II (or DCT-III), 여기에서, DCT는 Discrete Cosine Transform.

o DST-IV, 여기에서, DST는 Discrete Sine Transform.

o DCT-IV

o DST-VII

o Identity Transformation (IT)

당연히, 변환기(28)가 이들 변환들 중 모든 포워드 변환 버전들을 지원할 수 있는 반면, 디코더(20) 또는 역 변환기(54)는 대응하는 그것들의 백워드 또는 역 버전들을 지원할 수 있다:

o Inverse DCT-II (or inverse DCT-III)

o Inverse DST-IV

o Inverse DCT-IV

o Inverse DST-VII

o Identity Transformation (IT)

변환들이 인코더(10) 및 디코더(20)에 의해 지원될 수 있다는 것에 관한 더욱 상세한 설명이 이하의 설명에서 제공된다. 어느 경우에서든, 지원되는 변환들의 세트는 하나의 스펙트럼--공간 또는 공간-스펙트럼 변환과 같은 단지 하나의 변환을 포함할 수 있음에 주의해야 한다.

이미 앞서 설명한 바와 같이, 본 응용에 따른 인코더들 및 디코더들에 대한 특정 예들을 형성하기 위하여, 이하에서 설명되는 본 발명의 사상이 구현되는 예로서 도1 내지 도3이 제공되었다. 그와 같이, 도1 및 도2의 인코더 및 디코더는 이하에서 설명되는 인코더들 및 디코더들의 가능한 구현들을 보여줄 수 있다. 그러나, 도1 및 도2는 단지 예시적인 것들이다. 본 발명의 실시예들에 따른 인코더는 이하에서 상세히 설명되는 개념을 이용하여 픽처(12)에 대한 블록-기반의 인코딩을 수행하고, 도1의 인코더와는 다른데, 예를 들어, 이것은 비디오 인코더가 아니라 정지 픽처 인코더라는 점에서, 또는 이것은 화면간-예측을 지원하지 않는다는 점에서, 또는 이것은 도3에서 예시된 것과는 다른 방식으로 블록들(80)로의 세분화를 수행한다는 점에서 다르다. 마찬가지로, 본 발명의 실시예들에 따른 디코더들은 이하에서 추가로 설명될 코딩 개념들을 이용하여 데이터 스트림(14)으로부터 픽처(12')에 대한 블록-기반의 디코딩을 수행할 수 있다. 그러나 이 디코더들은 도2의 디코더와 다를 수 있는데, 예컨대 이것은 비디오 디코더가 아니고 정지 픽처 디코더라는 점에서, 또는 이것은 화면내-예측을 지원하지 않는다는 점에서, 또는 이것은 도3을 중심으로 설명된 것과 다른 방식으로 픽쳐(12')를 블록들로 세분화하는 점에서, 및/또는 이것은 변환 도메인이 아닌 공간 도메인에서 데이터 스트림(14)으로부터 예측 잔차를 유도한다는 점에서 다를 수 있다.

본 발명의 실시예들은 각각의 인코더(60₁,60₂) 및 각각의 디코더(65₁,65₂)의 기능성을 각각 도시하는 도4a 및 도4b를 적어도 부분적으로 참조하여 설명될 것이다. 도4a 및 도4b의 구성들은 창의적으로 선택된 인터컴포넌트 변환(62₁ 또는 62₂), 역 버전(62₁' 또는 62₂')이 각각 적용되는 순서 관점에서 서로 다르다.

1. 명시적 애플리케이션 시그널링을 통한 ICT의 선택적 애플리케이션

이미지 또는 비디오 인코딩 동안, 조인트 잔차-샘플 코딩(joint residual-sample coding)을 위한 인터-컴포넌트 변환(inter-component transform, ICT)의 선택적 및 선별적 애플리케이션을 허용하는 것이 제안된다. 도 1에 나타낸 바와 같이, 이 ICT 설계는 코딩 중 기존 컴포넌트별(component-wise) 잔차 변환 전 또는 후에 순방향(forward) 조인트-컴포넌트 변환(downmix)을 적용하고, 디코딩 중 기존 컴포넌트별 역 잔차 변환 후 또는 전에 상응하는 역 조인트-컴포넌트 변환(upmix)를 적용한다. 그러나, 배경 기술의 선행 기술과 달리, 인코더는 코딩 중에 하나 이상의 ICT 방법 중에서 선택할 수 있는 가능성이 주어진다. 즉, ICT 코딩을 적용하지 않거나 또는 적어도 2가지 ICT 방법들의 세트 중에서 하나의 ICT 방법을 적용할 수 있다. 이는 섹션 3에 따른 본 발명의 양태와 결합되어, 선행기술 대비 더 큰 유연성을 제공한다.

최소 두 가지 ICT 방법들 중 특정 방법의 선택 및 애플리케이션(활성화라고도 함)은 각 이미지, 비디오, 프레임, 타일, 또는 슬라이스(또한 더 최신의 MPEG/ITU 코덱에서의 슬라이스/타일, 이하에서는 간단히 픽처라고 지칭함)에 대해서 전역적으로(globally) 수행될 수 있다. 그러나, 하이브리드 블록-기반 이미지 또는 비디오 코딩/디코딩에서는 그것은 바람직하게는 블록-적응 방식(block-adaptive way)으로 적용된다. 지원되는 여러 ICT 방법들 중 하나의 애플리케이션이 선택되는 블록은 다음 중 어느 하나를 나타낼 수 있다: 코딩 트리 유닛, 코딩 유닛, 예측 유닛, 변환 유닛, 또는 전술된 이미지, 비디오, 프레임, 또는 슬라이스 내의 임의의 다른 블록

여러 ICT 방법들 중 임의의 방법이 적용되는지 여부 및 이들 방법들 중 어떤 방법이 적용되는지는 픽처, 슬라이스, 타일 또는 블록 레벨(즉, ICT가 적용되는 동일한 입상도에서)에서 하나 이상의 신택스(syntax) 요소를 사용하여 비트스트림 내부에서 시그널링된다. 일 실시예 (섹션 2에서 추가로 설명됨)에서, 본 발명의 ICT 코딩이 적용되거나 또는 적용되지 않는다는 사실은 ICT 코딩이 적용될 수 있는 전술된 각 픽처들에 대하여 또는 각 블록에 대하여 (가능하게는 엔트로피 코딩된) 온/오프 플래그를 사용하여 시그널링된다. 다시 말하면, 본 발명의 ICT 방법(적어도 2개의)의 활성화는 각 픽처당 각 블록에 대하여 단일 비트 또는 빈(bin) (빈은 엔트로피 코딩된 비트로서, 적절한 코딩으로 1비트 미만의 평균 사이즈를 소비할 수 있는 비트를 나타냄)을 통하여 명시적으로 시그널링된다. 이 실시예의 바람직한 버전에서, ICT 방법의 애플리케이션은 바이너리 온/오프 플래그에 의하여 시그널링된다. 여러 ICT 방법들 중 어떤 방법이 적용되는지에 대한 정보는 추가로 전송되는 코딩된 블록 플래그의 조합을 통하여 시그널링된다(자세한 내용은 섹션 2를 따름). 다른 실시예에서, ICT 방법의 애플리케이션 및 사용된 ICT 방법은 논-바이너리(non-binary) 신택스 요소를 이용하여 시그널링된다.

두 실시예에 대하여, ICT 방법의 사용을 나타내는 바이너리 또는 논-바이너리 신택스 요소들은 하나 이상의 코딩된 블록 플래그(변환 블록이 0이 아닌 임의의 변환 계수를 가지는지 여부를 나타냄)가 1인 경우에만 (신택스에) 존재할 수 있다. 만약 ICT 관련 신택스 요소가 존재하지 않으면, 디코더는 ICT 방법이 사용되지 않는다고 추론한다.

또한, 상위 레벨 신택스는 블록-레벨 신택스 요소의 존재와 그 의미를 나타내는 신택스 요소들을 포함할 수 있다(섹션 3 참조). 한편, 이러한 상위 레벨 신택스 요소들은 현재 픽처, 슬라이스, 또는 타일에 대하여 임의의 ICT 방법이 사용가능한지 여부를 나타낼 수 있다. 한편, 상위 레벨 신택스는 ICT 방법들의 더 큰 세트의 어떤 서브세트가 현재의 픽처, 슬라이스, 또는 픽처의 타일에 대해서 사용 가능한지를 나타낼 수 있다.

이하에서는, 인터-컴포넌트 변환에 대한 특정 변형에 대하여 설명한다. 이러한 변형들은 전형적으로 사용되는 YCbCr 포맷의 이미지 및 비디오 신호에 대한 크로마 컴포넌트 Cb 및 Cr의 예에서 두 가지 특정 컬러 컴포넌트에 대하여 설명된다. 그럼에도 불구하고, 본 발명은 이러한 사용 케이스에 제한되지 않는다. 본 발명은 또한 임의의 다른 2가지 컬러 컴포넌트(예컨대, RGB 비디오에서 적색 및 청색 컴포넌트에 대하여)에 사용될 수도 있다. 또한, 본 발명은 2개 이상의 컬러 컴포넌트(예컨대, YCbCr 비디오의 3개 컴포넌트 Y, Cb, 및 Cr, 또는 RGB 비디오의 3개 컴포넌트 R, G, 및 B)의 코딩에도 적용될 수 있다.

ICT 클래스 1: 변환-기반 코딩

제1 ICT 변형에서, 2개의 컬러 채널(

및

)이 전송될 수 있다. 이 2개의 컬러 채널은 (적어도 거의) 직교 기저 함수를 통한 변환의 변환 컴포넌트를 나타낸다.

및

를 재구성된 컬러 채널로 표시하기로 한다. 디코더 측에서, 오리지널 컬러 컴포넌트에 대한 재구성 Cb', 및 Cr'은 직교 기저 함수를 통한 변환을 사용하여 도출되며, 이는 다음에 의하여 명시된다.

여기서, α는 신호 공간의 회전 각도를 나타내며,

및

는 0 이 아닌 가중치를 나타낸다. 대부분의 구성에서, 가중치는

또는

으로 선택된다. 이러한 변환의 장점은, 인코더에서, 2개의 전송된 컬러 채널(즉,

또는

) 중 하나의 분산이 최소화되는 반면 다른 컬러 채널의 분산은 최대화되는 방식으로 회전 각도 α가 선택될 수 있다는 것이다. 이는 결국, 코딩 효율이 증가되는 효과를 가져온다. 라운딩 효과로 인하여, 실제 적용된 변환은 위의 공식으로부터 약간 벗어날 수 있다. 가중치

및

는 변환이 단순화된 산술 연산을 사용하여 계산될 수 있는 방식으로 선택될 수 있다. 예컨대, 적용된 변환은 다음에 의하여 계산될 수 있다.

위의 공식에서, 우리는

및

를 선택하였다. 위 공식은 하나의 특정 구성을 나타내는 것이며, 유사한 단순 재구성 규칙을 산출하는 다른 구성도 가능함에 주목해야 한다. (일반적으로) 실수 인수 α를 사용한 곱셈은 정수 곱셈과 오른쪽으로의 비트 시프트를 통하여 실수 곱셈을 근사화함으로써 구현될 수 있다 (예컨대,

와 유사한 공식을 사용하여). 인코더 측에서, 오리지널 컬러 채널(Cb 및 Cr)을 실제 코딩된 컴포넌트(

및

)에 맵핑하는 순방향 변환은 재구성 변환의 역(해당 근사치를 포함)으로 계산될 수 있다. 다수의 지원되는 ICT 변환 중 하나 이상은 상이한 회전 각도 α (및 적절하게 선택된 가중치), 또는 대안적으로 상이한 스케일링 인자 α를 통한 이러한 직교 변환에 대응할 수 있다.

위에서 언급된 바와 같이, 변환-기반 ICT 방법은 2개 이상의 컬러 컴포넌트로 확장될 수 있으며, 이 경우, N>2개의 코딩된 컬러 채널이 N개의 재구성된 컬러 컴포넌트에 선형적으로 맵핑된다. 적용된 변환은 다수의 회전 각도, 또는, 보다 일반적으로는, NxN 변환 행렬 (적어도 거의 직교에 가까운 직교 기저 함수 포함)에 의하여 명시될 수 있다. N=2인 경우, 실제 적용된 변환은 정수 연산을 사용하여 선형 조합에 의하여 명시될 수 있다.

ICT 클래스2: 컬러 채널의 수를 감소한 다운-믹싱-기반 코딩

위에서 언급된 바와 같이, 전술된 변환-기반 ICT 변형의 주요 이점은 결과 컴포넌트 중 하나의 분산이 다른 컴포넌트의 분산에 비하여 작아진다는 것이다(특정 정도의 상관관계를 가지는 블록에 대해서). 종종, 이것은 컴포넌트 중 하나가 0으로 양자화되는 결과를 낳는다 (전체 블록에 대하여). 구현을 단순화하기 위하여, 컬러 변환은 결과 컴포넌트 (

또는

) 중 하나가 0으로 양자화되도록 강제되는 방식으로 구현될 수 있다. 이 경우, 오리지널 컬러 채널(Cb, 및 Cr)은 모두 단일 전송 컴포넌트 C에 의하여 표현된다. 그리고, C'로 표시된 컬러 컴포넌트의 재구성된 버전이 주어지면, 재구성된 컬러 채널(Cb' 및 Cr')은 다음에 따라 획득될 수 있다.

여기서, α는 회전 각도를 나타내고

는 스케일링 인자를 나타낸다. 위와 유사하게, 실제 구현은 단순화될 수 있다. 예컨대, 다음과 같이 단순화될 수 있다.

; 또는

다수의 지원되는 ICT 변환 중 하나 이상은 상이한 회전 각도 α, 또는 상이한 스케일링 인자 a, b를 통한 이러한 조인트 컴포넌트 코딩에 대응할 수 있다(컬러 컴포넌트 중 어느 것이 전송된 컴포넌트 C와 동일하게 설정되는지 결정과 결합하여). 인코더에서, 실제로 코딩된 컬러 컴포넌트 C는 소위 다운-믹싱에 의하여 획득될 수 있으며, 이는 선형 조합

으로 나타낼 수 있다. 여기서, 인자

및

는, 예컨대, 재구성된 컬러 컴포넌트(Cb' 및 Cr')의 왜곡이 최소화되는 방식으로 선택될 수 있다.

위의 변형 1과 유사하게, 이 제2 변형도 2개 이상의 컬러 컴포넌트로 일반화될 수 있다. 여기서, 다수의 구성이 가능하다. 제1 구성에서, N>2 개의 오리지널 컬러 채널은 단일 조인트 컬러 채널(M=1 결과 코딩 컴포넌트)에 의하여 표현된다. 다른 구성에서, N>2 개의 오리지널 컬러 채널은 M<N (M>1) 개의 결과 채널(예컨대, M=N-1 채널들)에 의하여 표현된다. 두 구성 모두에 대하여, 오리지널 컬러 채널의 재구성은 해당 믹싱 인자를 가지는 행렬(N행 및 M<N 열 포함)에 의하여 표현될 수 있다(정수 곱셈과 비트 시프트를 사용하여 구현될 수 있음).

하나 이상의 지원되는 ICT 방법은 변환-기반 방법의 0 개 이상의 변형(회전 각도 또는 스케일링 인자에 의하여 명시됨) 및 다운-믹싱-기반 방법의 0 개 이상의 변형(회전 각도 또는 스케일링 인자(전송된 컴포넌트와 동일하게 설정되는 컬러 컴포넌트를 명시하는 부가 플래그와 함께 가능)에 의하여 명시됨)을 포함할 수 있다. 이것은 (a) 모든 ICT 방법이 변환-기반 변형을 나타내는 케이스, (b) 모든 ICT 방법이 다운-믹싱-기반 변형을 나타내는 케이스, (C) 2가지 또는 그 이상의 ICT 방법이 변환-기반 및 다운-믹싱-기반 변형의 혼합을 나타내는 케이스를 포함한다. 이때, 회전 각도 또는 믹싱 인자는 블록 기반으로 전송되지 않는다는 것을 다시 한번 유의하여야 한다. 대신에, ICT 방법의 세트는 미리 정의되며, 인코더와 디코더 모두에 의하여 알려져 있다. 블록 기반에서, 하나 이상의 ICT 방법 중 하나를 식별하는 인덱스만 시그널링된다(바이너리 플래그 또는 논-바이너리 신텍스 요소를 사용하여). 미리 정의된 ICT 방법 세트의 서브세트는 시퀀스, 픽처, 타일, 또는 슬라이스 기반에서 선택될 수 있으며, 이 경우 블록 기반으로 코딩된 인덱스는 해당 서브세트 중에서 선택된 방법을 시그널링한다.

일 실시예에 따르면, 컬러 컴포넌트에 대한 샘플의 블록은, 샘플의 블록을 변환 계수의 블록에 맵핑하는 2D 변환, 변환 계수의 양자화, 및 결과 양자화 인덱스(변환 계수 레벨로도 지칭됨)의 엔트로피 코딩으로 구성되거나 적어도 포함하는 변환 코딩의 컨셉을 사용하여 전송된다. 디코더 측에서, 샘플의 블록은, 재구성된 변환 계수를 획득하기 위하여 먼저 엔트로피-디코딩된 변환 계수 레벨을 역양자화(de-quantizing)(역양자화는 일반적으로 양자화 스텝 사이즈와의 곱으로 구성됨)하고, 그 다음으로, 재구성된 샘플의 블록을 획득하기 위하여 변환 계수에 역변환을 적용함으로써 재구성된다. 더 나아가, 변환 코딩을 사용하여 전송되는 샘플의 블록은 대개, 오리지널 신호와 예측 신호 간의 차이를 명시하는 잔차 신호를 나타낸다. 이 경우, 이미지의 디코?壅? 블록은 예측 신호에 잔차 샘플의 재구성된 블록을 더함으로써 획득된다. 디코더 측에서, ICT 방법은 다음과 같이 적용될 수 있다:

● ICT 변환은 재구성된 변환 계수에 적용된다(역양자화 후에); 그런 다음 ICT 변환은 개별 컬러 컴포넌트에 대한 역 2D 변환, 및 만약 적용 가능한 경우, 예측 신호의 덧셈이 뒤따른다.

● ICT 변환은 재구성된 잔차 신호에 적용된다. 이는 코딩된 컬러 컴포넌트가 먼저 역양자화되고 2D 변환에 의하여 역변환됨을 의미한다. 잔차 샘플의 결과 블록/블록들은 ICT 변환을 사용하여 변환되고, ICT 변환은 예측 신호의 덧셈이 뒤따를 수 있다.

만약 ICT와 2D 변환 모두에 반올림이 포함되지 않는 경우, 이러한 구성들은 모두 동일한 결과를 산출하게 된다. 그러나 실시예에서, 모든 변환은 반올림을 포함하는 정수 산술로 특정될 수 있으므로, 2가지 구성은 서로 다른 결과를 산출한다. ICT 변환을 역양자화 이전 또는 예측 신호를 더한 후에 적용하는 것도 가능하다는 점에 유의해야 한다.

전술된 바와 같이, ICT 방법의 실제 구현은 유니터리 변환(unitary transform)에서 벗어날 수 있다(실제 구현을 단순화하는 스케일링 인자의 도입으로 인하여). 이러한 사실은, 양자화 스텝 사이즈를 적절하게 수정하는 것에 의하여 고려되어야 한다. 즉, 본 발명의 일 실시예에서, 특정 ICT 방법의 선택은 양자화 파라미터(따라서, 결과 양자화 스텝 사이즈)의 수정을 의미한다. 양자화 파라미터의 수정은, 표준 양자화 파라미터에 추가된 델타 양자화 파라미터에 의하여 실현될 수 있다. 델타 양자화 파라미터는 모든 ICT 방법에 대하여 동일할 수 있으며, 또는 서로 다른 ICT 방법에 대하여 상이한 델타 양자화 파라미터가 사용될 수도 있다. 하나 이상의 ICT 방법과 관련하여 사용되는 델타 양자화 파라미터는 하드코딩될 수 있으며, 또는, 델타 양자화 파라미터는 슬라이스, 픽처, 타일, 또는 코딩된 비디오 시퀀스에 대한 상위 레벨 신텍스의 부분으로서 시그널링될 수도 있다.

2. 적어도 두 가지 ICT 방법 중 하나가 적용된 암시적 시그널링(implicit signaling)

섹션 1에서 언급된 바와 같이, 본 발명의 적어도 2개의 ICT 방법 중 하나의 활성화는 디코딩시 역ICT(즉, ICT 프로세싱 매트릭스의 전치)를 적용하도록 디코더에 지시하기 위하여, 온/오프 플래그를 사용하여 인코더에서 디코더로 명시적으로 시그널링되는 것이 바람직하다. 그러나, ICT 코딩(즉, 순방향 ICT) 및 디코딩(즉, 역 ICT)이 활성화된 각 픽처 또는 블록에 대하여, 적어도 2개의 ICT 방법 중 어느 하나가, 처리되는 픽처 또는 블록에 적용되는지 디코더에 시그널링하는 것이 여전히 필요하다. 직관적으로, 특정 ICT 방법의 명시적 시그널링(각 픽처당 각 블록에 대하여 하나 이상의 비트 또는 빈을 사용하여)이 사용될 수 있음에도 불구하고, 암시적 시그널링 형태가 바람직하게 사용된다. 이는, 이 시그널링의 형태가 본 발명의 ICT 방식에 대한 사이드 정보 오버헤드를 최소화하는 것으로 밝혀졌기 때문이다.

적용된 ICT 방법의 암시적 시그널링을 위한 2가지 바람직한 실시예가 존재한다. 두 가지 모두 HEVC 및 VVC[3]와 같은 최신 코덱의 기존 "잔차 제로니스(residual zeroness)" 지표를 사용하며, 구체적으로, 각 변환 유닛의 각 컬러 컴포넌트와 연관된 코딩된 블록 플래그(coded block flag, CBF) 비트스트림 요소를 사용한다. 0(거짓)의 CBF 값은 잔차 블록이 코딩되지 않은 것(즉, 모든 잔차 샘플들이 0으로 양자화되므로, 양자화된 잔차 계수들이 비트스트림에서 전송될 필요가 없음)을 의미하며, 반면에, 1(참)의 CBF 값은 적어도 하나의 잔차 샘플(또는 변환 계수)이 주어진 블록에 대하여 0이 아닌 값으로 양자화되고, 따라서 상기 블록의 양자화된 잔차가 비트스트림에서 코딩됨을 의미한다.

2.1. 두 가지 ICT 방법 중 하나의 암시적 시그널링

두 컴포넌트 잔차 신호의 조인트 ICT 코딩을 위하여, 2개의 CBF 요소가 암시적 ICT 방법 시그널링에 사용 가능하다. 두 가지 ICT 다운믹스/업믹스 방법을 제공할 때, 선호되는 암시적 시그널링은 다음과 같다.

제1 컬러 컴포넌트의 CBF(예: Cb)	제2 컬러 컴포넌트의 CBF(예: Cr)	암시적으로 시그널링되는 적용 ICT 방법
0 (false)	0 (false)	없음
1 (true)	0 (false)	방법 1
0 (false)	1 (true)	방법 2
1 (true)	1 (true)	없음

2.2. 세 가지 ICT 방법 중 하나의 암시적 시그널링

하위섹션 2.1에서와 같이, 암시적 ICT 방법 시그널링에 대하여 2개의 CBF 요소가 사용 가능하지만, 애플리케이션을 위하여 2 개의 ICT 다운믹스/업믹스 방법 대신에 3개가 제공되는 경우에, 선호되는 암시적 시그널링은 다음과 같다:

제1 컬러 컴포넌트의 CBF(예: Cb)	제2 컬러 컴포넌트의 CBF(예: Cr)	암시적으로 시그널링되는 적용 ICT 방법
0 (false)	0 (false)	없음
1 (true)	0 (false)	방법 1
0 (false)	1 (true)	방법 2
1 (true)	1 (true)	방법 3

블록에서 두 컬러 컴포넌트에 대한 CBF가 모두 0이면, 각 컴포넌트에 대한 비트스트림에 0이 아닌 잔차 샘플이 코딩되지 않으며, 이는 적용되는 ICT 방법에 대한 정보를 전달하는 것을 불필요하게 만든다.

3. ICT 디코딩 파라미터의 선택적 직접 또는 간접 시그널링

이전 섹션은 픽처 또는 블록에서 ICT 방법의 활성화가 어떻게 명시적으로 시그널링되는지(온/오프 플래그를 사용하여) 및 영향을 받는 컬러 컴포넌트에 대하여 최소 두 가지 ICT 방법 중 하나의 실제 선택이 어떻게 암시적으로 시그널링되는지(기존 CBF "잔차 제로니스" 지표를 사용하여)에 대하여 설명하였다. 가능한 2개 이상의 ICT 방법의 세트는 사이즈-2 이산 코사인 변환(DCT) 또는 이산 사인 변환(DST) 또는 Walsh-Hadamard 변환(WHT) 또는 Karhunen-Loeve 변환(KLT, 주성분 분석(PCA)으로도 알려져 있는) 인스턴스, 또는 Givens 회전 또는 선형 예측 코딩 함수의 특정 미리 결정된(고정된) 또는 입력 종속적(적응적) 파라미터화를 포함할 수 있다. 이러한 모든 ICT 방법은, 2개의 입력 잔차 신호가 주어지면, 그들의 포워드 형태로 1개 또는 2개의 다운믹스 신호를 생성하고, 1개 또는 2개(가능하게는 양자화된)의 다운믹스 신호가 주어지면, 그들의 역 실현으로, 2개의 업믹스 신호를 생성한다.

고정된 파라미터화를 갖는 2개 이상의 ICT 방법의 세트는, 예컨대 사이즈-2 변환 또는 선형 예측자 함수의 회전 각도 또는 계수의 특정 사전 선택에 의하여 특정지어질 수 있다. 이 파라미터화는 인코더와 디코더 모두에 알려져 있으므로, 비트스트림에서 전송될 필요가 없다. 선행기술 [2]에서, 다운믹스 규칙 "C = (Cb-Cr)/2" 및 업믹스 규칙 "Cb' = C, Cr' = -C"을 산출하는 고정된 “-1" 파라미터화가 사용된다. 인코더에 의하여 1개 이상의 ICT 방법을 선택하는 것이 가능한 현재 접근 방식에서, 2개의 ICT 방법의 고정 세트(섹션 2.1 참고)는 다음과 같을 수 있다:

ICT 방법	다운믹스 규칙 (순방향 변환)	업믹스 규칙 (역변환)
1 (primary)	C = (Cb + Cr)/2	Cb' = C' Cr' = C'
2 (secondary)	C = (Cb-Cr)/2	Cb' = C' Cr' = -C'

반면에 두 개의 세트보다 선호될 수 있는 3개의 ICT 방법의 고정 세트(하위섹션 2.2 참고)는 다음과 같을 수 있다:

ICT 방법	다운믹스 규칙 (순방향 변환)	업믹스 규칙 (역변환)
1 (primary)	C = (Cb + Cr)/2	Cb' = C' Cr' = C'
2 (secondary)	C = (Cb-Cr)/2	Cb' = C' Cr' = -C'
3 (tertiary)	C₁ = (Cb + Cr)/2 C₂ = (Cb-Cr)/2	Cb' = C₁' + C₂' Cr' = C₁'-C₂'

이 고정된 3 세트 ICT 디자인은, 지각적 및 무손실 오디오 코딩[4,5] 모두에 공통적으로 적용되는 합-차(sum-difference) 코딩 기술과 유사하며, 상당한 코딩 이득을 제공한다. 그러나, 이 고정된 접근방식은 2개의 처리된 컴포넌트 신호에 걸쳐 상기 코딩 이득의 상대적으로 고르지 않은 분포를 산출하는 것으로 밝혀졌다. 이러한 문제를 보완하기 위하여, 주성분 분석(PCA)이라고도 알려진 사이즈-2 KLT를 사용하여 실현되는, 보다 일반적인 회전 기반 접근 방식이 추구될 수 있다. 이 경우, 다운믹스 규칙은 다음과 같이 주어질 수 있다.

이 경우, 2개 컴포넌트에 걸친 순방향 KLT를 나타내며, 각각의 업믹스 규칙은,

이에 따라 역 KLT를 나타낸다; [6] 참조. α= π/4의 회전 각도에 대하여, 위 공식에서 우편 표기는 위 3개의 ICT 방법의 고정된 세트에서 제3(셋째) ICT 방법의 직교 버전을 나타냄에 주목한다. KLT/PCA 접근방식을 사용하면, 위의 각각의 제1, 제2 및 선택적으로 제3 ICT 방법을 파라미터화하기 위하여 회전 각도 -π≤α≤π에 대하여 서로 다른 값들이 사용될 수 있다. 구체적으로, α₁ = -π/8, α₂ = π/8, 및 가능하게는, α₃ = -π/4와 같은 고정된 각도들이 3개 ICT 방법의 세트들에 대하여 정의될 수 있으며, α_1, α_2, α₃는 인코더와 디코더에 모두 알려진다. KLT/PCA 다운믹스 규칙에 대하여 단일-출력-컴포넌트 변형이 정의될 수 있다는 점은 주목할만한 가치가 있다. 여기서, C₁' = 0 또는 C₂' = 0이며, 이에 따라, 업믹스 규칙은 코딩된 C₁' 또는 코딩된 C₂' 신호(섹션 1 참조)로부터만 Cb' 및 Cr' 컴포넌트 신호를 재구성하도록 단순화된다. 이러한 방식으로, 완전히 유연하고 일반화된 2개 또는 그 이상의 ICT 방법의 세트가 구성되며, 이는, 위의 2개 세트 및 3개 세트 고정 ICT 파라미터화를 서브세트로서 포함할 수 있다. 이것으로 고정-파라미터화 양태를 끝낸다.

이미지 및 비디오 코딩의 영역의 경우, 일반적으로 비트스트림 신택스 및 디코딩 프로세스만이 명시됨을 주목해야 한다. 그 맥락에서, 설명된 다운-믹싱(순방향 ICT 변환)은 특정 업-믹싱 규칙에 대한 다운-믹스 채널을 획득하기 위한 특정 예로서 해석되어야 한다. 인코더에서의 실제 구현은 이러한 예들과 다를 수 있다.

일부 코딩 구성의 경우, 입력 종속적 적응 방식으로 회전 각도 α를 결정하는 것이 이득이다. 이러한 시나리오에서, α는 2개의 입력 컴포넌트 신호(여기서 Cb 및 Cr 잔차)로부터 KLT 다운믹스/업믹스 규칙(이전 페이지 참조)의 적용된 표기에 따라 다음과 같이 계산될 수 있다.

α를 도출하는 위의 방법은 상관관계 기반(즉, 최소 제곱) 접근방식을 기초로 한다. 대안적으로, 다음과 같이 특정 KLT 다운믹스/업믹스 표기에 따른 공식이 다시 사용될 수 있다.

이 계산은 강도 기반 주요-각도(principal-angle) 계산을 나타낸다. 상관관계 기반 및 강도 기반 유도 방법(자연 이미지 또는 비디오 콘텐츠에서 거의 동일한 결과를 산출함)은 모두 내적을 활용한다.

여기서, B는 처리되는 코딩 블록(또는 픽처)에 속하는 모든 샘플 위치의 세트와 같다. 아크 탄젠트 연산 tan^-1은 일반적으로 atan2 프로그래밍 함수를 사용하여 구현되어 올바른 부호(즉, 올바른 좌표 사분면에서) 를 가지는 α를 획득한다. 도출된 -π≤α≤π는 미리 정의된 수의 각도 중 하나로 양자화(즉, 맵핑)될 수 있으며, ICT 온/오프 플래그(들)와 함께 블록 또는 픽처 레벨에서 디코더로 전송될 수 있다. 구체적으로, 역 ICT 프로세싱 동안 적용할 특정 파라미터화에 관하여 디코더에 알리기 위하여 다음의 전송 옵션들이 사용될 수 있다:

● 제1 옵션: 각각의 코딩된 블록 및/또는 해당 코딩된 블록에서 사용된 각 ICT 방법에 대하여 해당 ICT 방법에 대한 양자화된/맵핑된 α를, 양자화된 각도 값으로서 직접적으로 전송하거나 또는 미리 정의된 각도의 룩업 테이블에 대한 인덱스로서 간접적으로 전송한다. 만약 블록에 오직 하나의 ICT 방법만 적용되고 양자화된/맵핑된 α가 각 블록에 대하여 전송되면, 오직 하나의 α만 전송된다. 만약 블록에서 ICT 코딩이 활성화되지 않은 경우, 효율성을 위하여 이 블록에 대하여 양자화된/맵핑된 α가 전송되지 않는다.

● 제2 옵션: 상기 픽처 또는 비디오에 적용되거나, 또는 적용 가능한 모든 ICT 방법에 대하여 픽처 또는 비디오(픽처의 세트)당 한 번씩 양자화된/맵핑된 α 값을 전송한다. 이것은 예컨대, 픽처 파라미터 세트 또는, 바람직하게는, HEVC 또는 VVC[3]의 슬라이스 헤더와 같은 픽처 또는 비디오의 시작 부분에서 수행될 수 있다. 만약, 픽처 또는 비디오에서 ICT 코딩이 활성화되지 않고 및/또는 크로마 코딩이 수행되지 않는 경우(예: 루마 전용 입력), 양자화된/맵핑된 α 값은 전송될 필요가 없다. 다시, 각 α 파라미터는 양자화된 각도 값으로서 직접적으로 전송되거나 또는 미리 정의된 각도 값의 룩업 데이블에 대한 인덱스로서 간접적으로 전송될 수 있다.

두 옵션을 병렬적으로 또는 순차적으로 결합할 수 있다.

적응적-파라미터화 양태의 논의를 결론짓기 위하여, 우리는 전술된 파라미터 전송 옵션으로부터 약간의 변형이 쉽게 구현가능하다는 것이 당업자에게 명백하다는 점에 주목한다. 예컨대, 인코더로부터 디코더로의 픽처 또는 블록 단위 ICT 파라미터 전송은, 코딩에 이용 가능한 2개 이상의 ICT 방법의 세트 중에서 선택된 ICT 방법에 대해서만 수행될 수 있다(예를 들어, 방법 1 및 2에 대해서만 또는 방법 3에 대해서만). 또한, 변환 사이즈 2(즉, 두 컬러 컴포넌트에 걸친 ICT)에 대해서, α= π/4 또는 α= -π/4 일 때 KLT는 DCT 또는 WHT와 동일하다는 것이 분명하다. 마지막으로, 다른 변환들 또는, 일반적으로 말하면, KLT 외 다른 다운믹스/업믹스 규칙이 ICT로서 사용될 수 있으며, 이들은 회전 각도 외 다른 파라미터화의 대상이 될 수 있다(가장 일반적인 경우, 실제 업믹스 가중치는 양자화/맵핑되어 전송될 수 있음)

4. 적용된 ICT 방법의 가속화된 인코더 측 선택

최신 이미지 및 비디오 인코더에서, 다수의 지원 코딩 모드 중 하나는 일반적으로 라그랑지언(Lagrangian) 비트 할당 기술에 기반하여 선택된다. 이는 각 지원 모드 m (또는 이의 서브세트)에 대해서, 결과 왜곡 D(m) 및 결과 비트 수 R(m)이 계산되고, 라그랜지(Lagrange) 함수 D(m)+λR(m) (λ는 고정된 라그랜지 승수임)를 최소화하는 모드가 선택됨을 의미한다. 왜곡 및 비율 텀(term) D(m) 및 R(m)의 결정은 일반적으로 모드 각각에 대하여 2d 순방향 변환, (상당히 복잡한) 양자화, 및 테스트 엔트로피 코딩을 요구하기 때문에, 인코더 복잡도는 지원되는 모드의 수와 함께 증가한다. 따라서, 블록 기반으로 지원되는 ICT 모드의 수에 따라 인코더 복잡도도 증가한다.

그러나, ICT 방법을 평가하기 위하여 인코더 복잡도를 줄일 수 있는 가능성이 존재한다. 이하에서, 우리는 세가지 예를 강조한다.

● 인코더에서, 블록의 컬러 컴포넌트에 대한 오리지널(잔차 샘플)을 기반으로 최적 회전 각도 α를 도출할 수 있다(예: 위에 명시된 방법들 중 하나에 의하여). 그리고, 도출된 각도가 주어지면, 이 각도에 가장 가까운 회전을 나타내는 ICT 방법만이 이 방법 m에 요구되는 실제 왜곡 D(m) 및 실제 비트 수 R(m)를 도출하는 것에 의하여 테스트된다.

● 만약 다운-믹싱 방법만 지원되는 경우(즉, N 컬러 컴포넌트가 M<N 전송 채널에 의하여 표현되는 방법), 다운-믹싱으로부터만 야기되는 왜곡이 평가될 수 있다. 그리고 나서, 최소 다운-믹싱 왜곡을 야기하는 방법 m만이 라그랑지언 접근방식을 사용하여 테스트된다(즉, 방법 m과 관련된 실제 왜곡 D(m) 및 실제 비트율 R(m)을 도출함으로써)

● 두 개의 믹싱 채널 C₁' 및 C₂'을 코딩할 때, 섹션 2.2의 방법 3의 경우와 같이 이들 두 채널 모두에 요구되는 0이 아닌 CBF인 경우, 인코더 속도 향상은, 제1 믹싱 채널(예: C₁')의 양자화 후에, 상기 제1 믹싱 채널의 양자화된 버전이 적어도 하나의 0이 아닌 양자화된 계수를 나타내는지 여부를 테스트함으로써 가능하다. 만약 그렇다면(즉, 그 CBF가 0이 아님), 제2 믹싱 채널(예: C₂')은 양자화될 수 있으며, 그리고 나서, 이 2개-채널 방법은 라그랑지언 접근방식을 사용하여 테스트된다. 그러나, 만약 제1 믹싱 채널의 양자화된 버전이 0-양자화된 계수만을 나타내면(즉, 그 CBF가 0임), 제2 믹싱 채널의 양자화는 생략될 수 있고, 2개-채널 방법의 라그랑지언 테스트는 중단될 수 있다. 이는, 주어진 양자화 파라미터(들)에 대하여, 2개-채널 방법은 암시적으로 시그널링될 수 없으므로 금지되기 때문이다.

5. ICT 플래그 및 모드에 대한 컨텍스트 모델링

ICT 사용의 시그널링은 CBF 정보와 결합될 수 있다. 두 CBF 플래그, 즉, 각 크로마 컴포넌트의 각 변환 블록(TB)에 대한 CBF가 0일 때, 시그널링은 필요하지 않다. 그 외에는, ICT 애플리케이션의 구성에 따라 ICT 플래그가 비트스트림에서 전송될 수 있다. 내부 및 외부 컨텍스트 모델링 간의 구별은 이 컨텍스트에서 유용하다. 즉, 내부 컨텍스트 모델링은 컨텍스트 모델 세트 내에서 컨텍스트 모델을 선택하는 반면에, 외부 컨텍스트 모델링은 컨텍스트 모델 세트를 선택한다. 내부 컨텍스트 모델링을 위한 구성은, 예컨대 위쪽 및 왼쪽 이웃을 사용하여 인접 TB를 평가하고 그들의 ICT 플래그 값을 확인하는 것이다. 컨텍스트 모델 세트 내에서 값으로부터 컨텍스트 인덱스로의 맵핑은 가산(즉, c_idx　=　L+B), 배타적 분리(즉, c_idx　=　(L≪1)+A), 또는 능동적 (즉, c_idx　=　min(1,　L+B))이 될 수 있다. 외부 컨텍스트 모델링을 위하여, ICT 플래그에 대한 CBF 조건이 사용될 수 있다. 예컨대, CBF 플래그의 조합에 의하여 구별되는 3개의 변환을 사용하는 구성의 경우, CBF 조합 각각에 대하여 별도의 컨텍스트 세트가 사용된다. 대안적으로, 상이한 컨텍스트 모델들 또는 상이한 컨텍스트 모델 세트들이 상이한 블록 사이즈에 대하여 사용되도록, 외부 및 내부 컨텍스트 모델링 모두 트리 깊이 및 블록 사이즈를 고려할 수 있다.

본 발명의 바람직한 실시예에서, 단일 컨텍스트 모델이 ICT 플래그에 대하여 사용된다. 즉, 컨텍스트 모델 세트 사이즈는 1과 같다.

본 발명의 다른 바람직한 실시예에서, 내부 컨텍스트 모델링은 인접하는 변환 블록을 평가하고 컨텍스트 모델 인덱스를 도출한다. 이 경우, 가산 평가(additive evaluation)를 사용할 때, 컨텍스트 모델 세트 사이즈는 3과 같다.

본 발명의 바람직한 실시예에서, 외부 컨텍스트 모델링은 각각의 CBF 플래그 조합에 대하여 상이한 컨텍스트 모델 세트를 사용함으로써, ICT가 각각의 CBF 조합이 상이한 ICT 변환을 야기하는 방식으로 구성될 때, 3개의 컨텍스트 모델 세트를 생성한다.

본 발명의 다른 바람직한 실시예에서, 외부 컨텍스트 모델링은 두 CBF 플래그가 1과 같은 경우에 대해서는 전용 컨텍스트 모델 세트를 사용하고, 반면 다른 경우에는 동일한 컨텍스트 모델 세트를 사용한다.

인코더의 특징을 참조하여 본 명세서에서 제공된 설명은, 인코더로부터, 예컨대 무선 또는 유선 네트워크와 같은 데이터 연결을 사용하여 직접적으로, 또는 휴대용 매체와 같은 기록 매체를 사용하거나 서버에 의하여 간접적으로 신호나 비트스트림을 수신하도록 구성된 각각의 디코더에도 아무런 제한 없이 적용된다. 이와 반대로, 디코더와 관련하여 설명된 특징은 일 실시예에 따른 인코더의 해당 특징으로서 아무런 제한 없이 구현될 수 있다. 이는, 다른 특징들 중에서, 정보를 직접적으로 및 명확하게 평가하는데 의존하는 디코더와 관련된 특징들이 각각의 정보를 생성 및/또는 전송하기 위한 인코더의 각각의 특징을 개시한다는 것을 포함한다. 특히, 인코더는 특히 선택된 인코딩을 테스트 및 평가하기 위하여 청구된 디코더에 대응하는 기능을 포함할 수 있다.

몇 개의 양태가 장치의 맥락에서 설명되었으나, 이러한 양태들은 이에 대응하는 방법의 설명 또한 나타내는 것임은 명백하다. 위 방법에서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 해당한다. 이와 유사하게, 방법 단계의 맥락에서 설명된 양태들은 또한 이에 대응되는 장치의 대응되는 블록 또는 아이템 또는 특징의 설명을 나타낸다.

본 발명의 인코딩된 이미지 또는 비디오 신호는 디지털 저장 매체에 저장될 수 있으며, 또는 인터넷을 비롯한 무선 전송 매체 또는 유선 전송 매체와 같은 전송 매체를 통하여 전송될 수 있다.

소정의 구현 요건에 기초하여, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있으며, 또는 적어도 부분적으로는 하드웨어로 또는 적어도 부분적으로는 소프트웨어로 구현될 수 있다. 구현은, 예컨대, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM, 또는 플래시 메모리와 같이 전자적으로 판독 가능한 제어 신호가 저장된 디지털 저장 매체를 사용하여 수행될 수 있다. 디지털 저장 매체는 각각의 방법이 수행되도록 프로그램 작동 가능한 컴퓨터 시스템과 협력(또는 협력 가능)한다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.

본 발명에 따른 일부 실시예들은 전자적으로 판독 가능한 제어 신호를 가지는 데이터 캐리어를 포함한다. 이 데이터 캐리어는 본 명세서에서 설명된 방법 중 하나가 수행되도록 프로그램 작동 가능한 컴퓨터 시스템과 협력할 수 있다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 가지는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 전술된 방법 중 하나를 수행하도록 동작한다. 프로그램 코드는 예컨대 기계 판독 가능 캐리어에 저장될 수 있다.

다른 실시예들은 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다. 컴퓨터 프로그램은 기계 판독 가능 캐리어에 저장된다.

즉, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터상에서 실행될 때, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 가지는 컴퓨터 프로그램이다.

본 발명의 방법들의 추가 실시예는, 따라서, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 기록하여 포함하고 있는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.

본 발명의 방법의 추가 실시예는, 따라서, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예컨대 데이터 통신 연결을 통하여, 예를 들어 인터넷을 통하여 전달되도록 구현될 수 있다.

추가적인 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위하여 구성되거나 또는 개조된, 예컨대 컴퓨터 또는 프로그램 작동 가능 로직 디바이스와 같은 프로세싱 수단을 포함한다.

추가 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

일부 실시예에서는, 프로그램 작동 가능 로직 디바이스(예를 들어 필드 프로그램 작동 가능 게이트 어레이)가 본 명세서에서 설명된 방법들의 일부 또는 모든 기능들을 수행하기 위하여 사용될 수 있다. 일부 실시예에서는, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위하여 필드 프로그램 작동 가능 게이트 어레이가 마이크로프로세서와 협력할 수 있다. 일반적으로, 위 방법들은 바람직하게는 임의의 하드웨어 장치에 의하여 수행된다.

전술된 실시예들은 단지 본 발명의 원리에 대한 예시일 뿐이다. 본 명세서에서 설명된 방식 및 세부사항들의 수정 및 변경은 해당 기술분야의 당업자에게 자명한 것으로 이해된다. 따라서, 본 명세서의 실시예에 대한 개시 및 설명을 통하여 제시된 구체적인 세부 사항이 아닌, 특허 청구항의 범위에 의해서만 한정되어야 한다.

참조문헌

[1] K. Zhang, J. Chen, L. Zhang, M. Karczewicz, "Enhanced cross-component linear model intra prediction," JVET-D0110, 2016, http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=2806

[2] J. Lainema, "CE7-rel.: Joint coding of chrominance residuals," JVET-M0305, Marrakech, Jan. 2019. http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=5112

[3] B. Bross, J. Chen, S. Liu, "Versatile Video Coding (Draft 4)," v.4, JVET-M1001, Marrakech, Feb. 2019. http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=5755

[4] J. D. Johnston, "Perceptual Transform Coding of Wideband Stereo Signals," in Proc. IEEE Int. Conf. Acoust. Speech Sig. Process. (ICASSP), Glasgow, vol. 3, pp. 1993-1996, May 1989.

[5] J. D. Johnston and A. J. S. Ferreira, "Sum-Difference Stereo Transform Coding," in Proc. IEEE Int. Conf. Acoust. Speech Sig. Process. (ICASSP), San Francisco, vol. 2, pp. 569-572, Mar. 1992.

[6] R. G. van der Waal and R. N. J. Veldhuis, "Subband Coding of Stereophonic Digital Audio Signals," in Proc. IEEE Int. Conf. Acoust. Speech Sig. Process. (ICASSP), Toronto, pp. 3601-3604, Apr. 1991. https://www.computer.org/csdl/proceedings/icassp/1991/0003/00/00151053.pdf

Claims

인코딩할 이미지 중 이미지 콘텐트 영역의 복수의 컴포넌트들을 인코딩하기 위한 인코더에 있어서,
상기 이미지 콘텐트 영역을 나타내는 상기 복수의 컴포넌트들을 획득하고;
인터-컴포넌트 변환들의 세트로부터 인터-컴포넌트 변환을 선택하고;
상기 선택된 인터-컴포넌트 변환을 이용하여 상기 복수의 컴포넌트들을 인코딩하여 인코딩된 컴포넌트들을 얻고; 및
상기 인코딩된 컴포넌트들을 제공하도록 구성되는 인코더.
청구항 1에 있어서,
상기 선택된 인터-컴포넌트 변환은 적어도 상기 복수의 컴포넌트들 중 제1 컴포넌트와 상기 복수의 컴포넌트들 중 제2 컴포넌트를 결합하도록 수행되는 인코더.
청구항 1 또는 청구항 2에 있어서,
상기 인코더는 비용 함수에 기초하여 상기 인터-컴포넌트 변환을 선택하도록 구성되고, 상기 인코더는 결과적인 디코딩 왜곡 및/또는 비트-할당(비트의 수)의 관점에서 최소 인코딩 비용을 갖는 상기 인터-컴포넌트 변환을 선택하도록 구성되는, 인코더.
청구항 3에 있어서,
상기 인코더는 적어도 하나의 인터-컴포넌트 변환들의 서브셋을 상기 컴포넌트들에 적용하여 상기 비용 함수를 평가하고, 미리 결정된 공차 범위를 갖는 컴포넌트들의 비트의 수 및/또는 디코딩 왜곡을 일으키는, 상기 인터-컴포넌트 변환들의 세트 중 인터-컴포넌트 변환들에 상기 인터-컴포넌트 변환들의 상기 서브셋을 제약하도록 구성되는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 복수의 컴포넌트들은 컬러 도메인 및/또는 휘도-색차 도메인 중 적어도 하나에 대응하는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인코더는 획득된 컴포넌트들의 개수에 비해 더 적은 수의 컴포넌트들을 갖도록 상기 복수의 컴포넌트들을 인코딩하도록 구성되는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인코더는 적어도 하나의 다운믹스 채널을 포함하도록 상기 인코딩된 컴포넌트들을 얻도록 구성되고, 상기 다운믹스 채널은 상기 복수의 컴포넌트들 중 제1 컴포넌트 및 상기 복수의 컴포넌트들 중 제2 컴포넌트의 결합적 인코딩을 나타내는, 인코더.
청구항 7에 있어서,
상기 다운믹스 채널은 제1 다운믹스 채널이고, 상기 인코더는 제2 다운믹스 채널을 포함하도록 상기 인코딩된 컴포넌트들을 획득하도록 및 상기 제1 다운믹스 채널 및 상기 제2 다운믹스 채널을 제공하는 것에 기초하여 상기 인코딩된 컴포넌트들을 제공하도록 구성되는, 인코더.
청구항 7 또는 청구항 8에 있어서,
상기 인코더는 적어도 2개의 다운믹스 채널들을 인코딩하도록 구성되고,
상기 인코더는 제1 믹싱 채널의 양자화 이후 상기 제1 믹싱 채널의 상기 양자화된 버전이 적어도 하나의 논-제로(non-zero) 양자화 계수를 나타내는지를 결정하도록 구성되고;
긍정적인 경우, 상기 인코더는 상기 제2 믹싱 채널을 양자화하고, 그 다음 라그랑지안(Lagrangian) 방식을 이용하여 상기 시행되는 2-채널 방법을 시험하도록 구성되고; 및
부정적인 경우, 상기 인코더는 상기 제2 믹싱 채널의 양자화를 건너뛰고, 상기 2-채널 방법의 라그랑지안 시험을 건너뛰거나 중단하도록 구성되는, 인코더.
청구항 7 내지 청구항 9 중 어느 한 항에 있어서,
상기 인터-컴포넌트 변환들의 세트는 컴포넌트들의 다운믹싱을 시행하는 복수의 인터-컴포넌트 변환들을 포함하고,
상기 인터-컴포넌트 변환의 선택은 상기 컴포넌트들 내에 생성되는 왜곡에 관해 상기 다운믹싱 변환들 각각을 평가하고; 최소 왜곡을 갖는 상기 다운믹싱 변환을 선택하고; 및 상기 최소 왜곡을 갖는 상기 다운믹싱 변환을 이용하여 라그랑지안 시험을 수행하는 것을 포함하는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인코더는 상기 인터-컴포넌트 변환들의 세트 중 하나의 인터-컴포넌트 변환을 이용할지 또는 상기 인터-컴포넌트 변환들의 세트 중 어느 것도 이용하지 않을지를 결정하도록 구성되는, 인코더.
청구항 11에 있어서,
상기 인코더는 각각의 이미지 콘텐트 영역에 대해서, 상기 인터-컴포넌트 변환들의 세트 중 하나의 인터-컴포넌트 변환을 이용할지 또는 상기 인터-컴포넌트 변환들의 세트 중 어느 것도 이용하지 않을지를 결정하도록 구성되는, 인코더.
청구항 12에 있어서,
상기 인코더는 상기 인터-컴포넌트 변환들의 세트 중 각각의 이용 비용 및 상기 인터-컴포넌트 변환들의 세트 중 어느 것도 이용하지 않는 경우의 비용을 결정하도록 및 상기 이용하지 않은 경우의 비용이 상기 인터-컴포넌트 변환들 각각의 이용 비용보다 더 낮은 경우 상기 인터-컴포넌트 변환들의 세트 중 어느 것도 이용하지 않는 것을 결정하도록 구성되는, 인코더.
앞선 청구항들 중 하나에 있어서,
다음 중 적어도 하나를 디코더에 시그널링하도록 구성되는, 인코더:
상기 인코더는 상기 선택된 인터-컴포넌트 변환; 및
상기 이미지 콘텐트 영역에 대한 인터-컴포넌트 변환의 이용 또는 비사용.
앞선 청구항들 중 하나에 있어서,
상기 복수의 인터-컴포넌트 변환들 중 제1 인터-컴포넌트 변환 및 상기 복수의 인터-컴포넌트 변환들 중 제2 인터-컴포넌트 변환은 상기 제1 및 제2 인터-컴포넌트 변환들 사이의 적어도 하나의 파라미터에 관해 차이가 있는 동일한 결정 규칙 구조에 기초하고,
상기 인코더는 상기 선택된 인터-컴포넌트 변환에 관련된 상기 파라미터를 디코더로 제공 또는 시그널링하도록 구성되는, 인코더.
청구항 16에 있어서,
상기 파라미터는 상기 인터-컴포넌트 변환의 양자화 스텝 크기에 관한 것인 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인코더는 블록-기반 이미지 또는 비디오 코딩하도록 구성되는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 이미지 콘텐트 영역은 비디오, 이미지, 프레임, 타일 또는 슬라이스 내의 블록, 비디오, 코딩 트리 유닛, 코딩 유닛, 또는 변환 유닛 중 하나인, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인코더는 제공된 비트스트림 내의 상기 이미지 콘텐트 영역에 상기 인터-컴포넌트 변환이 적용되는 레벨에 대응하는 상기 선택된 인터-컴포넌트 변환을 시그널링하도록 구성되는, 인코더.
청구항 19에 있어서,
상기 인코더는 상기 선택된 인터-컴포넌트 변환을 시그널링하도록 구성되는, 인코더.
청구항 20에 있어서,
상기 인코더는 각각의 인코딩된 컴포넌트에 대해서, 상기 각각의 컴포넌트의 잔차가 논-제로(nonzero) 값들을 포함하는지를 나타내는 제로니스(zeroness) 정보, 바람직하게는 코딩된 블록 플래그(CBF)를 전송하도록 구성되고,
상기 복수의 컴포넌트들에 대한 제로니스 정보의 조합은 상기 선택된 인터-컴포넌트 변환을 나타내는, 인코더.
청구항 20 또는 청구항 21에 있어서,
상기 복수의 인터-컴포넌트 변환들은 정확하게 2개의 인터-컴포넌트 변환들을 포함하고,
상기 인코더는 다음 규칙에 따라, 제1 컴포넌트와 연관된 제1 CBF를 이용하여 및 제2 컴포넌트와 연관된 제2 CBF를 이용하여 상기 선택된 인터-컴포넌트 변환(ICT)을 시그널링하도록 구성되는, 인코더:
청구항 20 또는 청구항 21에 있어서,
상기 복수의 인터-컴포넌트 변환들은 정확하게 3개의 인터-컴포넌트 변환들을 포함하고,
상기 인코더는 다음 규칙에 따라, 제1 컴포넌트와 연관된 제1 CBF를 이용하여 및 제2 컴포넌트와 연관된 제2 CBF를 이용하여 상기 선택된 인터-컴포넌트 변환(ICT)을 시그널링하도록 구성되는, 인코더:
앞선 청구항들 중 하나에 있어서,
상기 인코더는 상기 인터-컴포넌트 변환들의 세트 중 하나의 사용을 바람직하게는, 바이너리 플래그를 이용하여, 시그널링하도록 및 상기 선택된 인터-컴포넌트 변환을 시그널링하도록 구성되는, 인코더.
청구항 24에 있어서,
상기 인코더는 상기 선택된 인터-컴포넌트 전환에 관한 적어도 하나의 파라미터를 나타내는 정보를 제공함으로써, 상기 선택된 인터-컴포넌트 전환을 시그널링하도록 구성되고,
상기 적어도 하나의 파라미터는 양자화된 또는 양자화되지 않은 값인, 인코더.
청구항 24 또는 청구항 25에 있어서,
상기 인코더는 복수의 이미지 콘텐트 영역들에 대해서 공통으로 상기 인터-컴포넌트 변환의 상기 이용을 시그널링하도록 구성되는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 제1 컴포넌트 및/또는 상기 제2 컴포넌트는 컬러 컴포넌트이고, 또는 상기 제1 및 상기 제2 컴포넌트 중 하나는 컬러 컴포넌트이고, 다른 하나는 컬러 외의 다른 컴포넌트인, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인터-컴포넌트 변환들의 세트는 변환-기반의 코딩을 수행하는 적어도 하나의 변환을 포함하는, 인코더.
청구항 28에 있어서,
상기 인터-컴포넌트 변환들의 세트 중 적어도 하나의 제1 및 제2 인터-컴포넌트 변환이 다음의 상기 결정 규칙에 기초하는 변환-기반의 코딩에 기초하고:
C₁ = C_E1 cosα+ C_E2 sinα ; 및 C₂ = -C_E1sinα+ C_E2cosα; 또는
C₁ = C_E1sinα+ C_E2cosα ; 및 C₂ = C_E1cosα-C_E2sin α
C_E1 및 C_E2 는 상기 제1 및 제2 컴포넌트이고, C₁ 및 C₂ 는 상기 제1 및 제2 인터-컴포넌트 변환들의 결과들이고, 및 α 는 상기 인터-컴포넌트 변환에 적용된 회전각을 나타내고,
상기 제1 및 상기 제2 인터-컴포넌트 변환은 상기 회전각 α 의 관점에서 서로에 대해 차이가 나는, 인코더.
청구항 29에 있어서,
상기 인터-컴포넌트 변환들의 세트는 상기 동일한 결정 규칙에 기초하고 상기 회전각에 따라 변하는 적어도 하나의 제3 인터-컴포넌트 변환을 포함하는, 인코더.
청구항 29 또는 청구항 30에 있어서,
선택가능한 상기 회전각의 값들은 미리 결정되고 직교하는 인터-컴포넌트 변환들에 대해 제공되도록 시행되는, 인코더.
청구항 29 또는 청구항 30에 있어서,
상기 인코더는 적어도 제1 및 제2 컴포넌트에 기초하여, 바람직하게는 코릴레이션-기반의 또는 강도-기반의 접근방법을 이용하여, 적용될 상기 회전각을 결정함으로써, 상기 인터-컴포넌트 변환을 선택하도록 구성되는, 인코더.
청구항 32에 있어서,
상기 인코더는 상기 결정 규칙에 기초한 코릴레이션-기반의 접근 방법에 기초하여 상기 회전각을 결정하도록 구성되고:
α= 1/2·tan^-1(2·C _E1 C _E2 / (C _E1 ² - C _E2 ²)); 또는
α= 1/2·tan^-1(2·C _E1 C _E2 / (C _E2 ² - C _E1 ²)),
C_E1C_E2, C_E1 ²및 C_E2 ²는 상기 제1 및 제2 컴포넌트들 사이의 코릴레이션 행렬의 각각의 원소들인, 인코더.
청구항 37에 있어서,
상기 인코더는 다음 결정 규칙에 기초한 강도-기반의 접근 방법에 기초하여 상기 회전각을 결정하도록 구성되고:
α= sign(C _E1 C _E2 )·tan^-1(sqrt(C _E2 ²)/sqrt(C _E1 ²)); 또는
α= sign(C _E1 C _E2 )· tan^-1(sqrt(C _E1 ²)/sqrt(C _E2 ²)),
C_E1C_E2, C _E1 ² 및 C_E2²는 상기 제1 및 제2 컴포넌트들 사이의 코릴레이션 행렬의 각각의 원소들인, 인코더
청구항 31 내지 청구항 34 중 어느 한 항에 있어서,
상기 인코더는 상기 회전값 α 을 결정하도록 구성되고,
상기 인코더는 제1 인터-컴포넌트 변환에 대한 상기 결정된 회전값을 이용하도록, 및 반전된 회전각을 얻기 위하여 상기 회전값의 부호를 반전하도록, 및 제2 인터-컴포넌트 변환에 대한 상기 반전된 회전각을 이용하도록 구성되고, 또는
상기 인코더는 업라운디드(uprounded) 회전각을 얻기 위하여 상기 결정된 회전각을 라우딩 업(rounding up)하고 제1 인터-컴포넌트 변환에 대해 상기 업라운디드(uprounded) 회전각을 이용하도록 구성되고; 및 다운라운디드(downrounded) 회전각을 얻기 위하여 상기 결정된 회전각을 라운딩 다운(rounding down)하고 제2 인터-컴포넌트 변환에 대하여 상기 다운라운디드 회전각을 이용하도록 구성되는, 인버터.
청구항 29 내지 청구항 35 중 어느 한 항에 있어서,
상기 인코더는 상기 회전각을 나타내는 또는 그것의 양자화된 버전을 나타내는 정보 또는 상기 회전각을 시그널링하도록 구성되고,
상기 시그널링은 적어도 하나의 이미지 콘텐트 영역에 대해 유효한, 인코더.
청구항 36에 있어서,
상기 시그널링은 적어도 2개의 이미지 콘텐트 영역들에 대해서 유효한, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인터-컴포넌트 변환들의 세트는 상기 컴포넌트의 개수가 감소된 다운-믹싱-기초의 코딩을 시행하는 적어도 하나의 변환을 포함하는, 인코더.
청구항 38에 있어서,
제1 인터-컴포넌트 변환 및 제2 인터-컴포넌트 변환은 다음의 결정 규칙들에 기초하고:

C_E1 및 C_E2는 상기 제1 및 제2 컴포넌트들이고, C는 인터-컴포넌트 변환의 상기 결과이고, C'는 상기 디코더에서의 상기 인터-컴포넌트 결과의 상기 디코딩된 결과이고, 및 C_D1' 및 C_D2'는 상기 디코딩된 제1 및 제2 컴포넌트들인, 인코더.
청구항 38에 있어서,
제1 인터-컴포넌트 변환, 제2 인터-컴포넌트 변환 및 제3 인터-컴포넌트 변환은 다음의 다음 결정 규칙들에 기초하고:

C_E1 및 C_E2는 상기 제1 및 제2 컴포넌트들이고, C, C₁ 및 C₂는 인터-컴포넌트 변환의 상기 결과이고, C', C₁' 및 C₂' 상기 디코더에서의 상기 인터-컴포넌트 변환의 상기 디코딩된 결과이고, 및 C_D1' 및 C_D2'는 상기 디코딩된 제1 및 제2 컴포넌트들인, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 복수의 컴포넌트들 중 제1 컴포넌트 C_E1는 YCbCr 스킴 중 Cb 컴포넌트이고;
상기 복수의 컴포넌트들 중 제2 컴포넌트 C_E2는 상기 YCbCr 스킴 중 Cr 컴포넌트인, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인터-컴포넌트 변환들의 세트는 변환-기반의 코딩을 시행하는 적어도 하나의 변환을 포함하고; 및 상기 컴포넌트들의 개수의 감소를 갖는 다운-믹싱-기초의 코딩을 수행하는 적어도 하나의 변환을 포함하는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인터-컴포넌트 변환들의 세트는 이산 코사인 변환, 이산 사인 변환, 윌시-아다말(walsh-hadamard) 변환, 및 카루넨-뢰브(Karhunen-Loeve) 변환/주요 컴포넌트 분석 중 적어도 하나를 포함하는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인터-컴포넌트 변환들의 세트는, 상기 제1 컴포넌트 및 상기 제2 컴포넌트를 공통의 컴포넌트로 결합하여 상기 제1 컴포넌트 및 상기 제2 컴포넌트가 상기 공통의 컴포넌트에 의해 표현되도록 적응되는 적어도 하나의 변환을 포함하고,
상기 인코더는 상기 공통의 컴포넌트를 제공하도록 구성되는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인코더는 상기 선택된 인터-컴포넌트 변환을 식별하는 색인, 상기 이미지 콘텐트 영역에 기초하여 시그널링하도록 구성되는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인코더는 잔차 신호(residual signal)를 얻기 위하여 및 상기 인코딩된 컴포넌트들로서 상기 잔차 신호를 제공하기 위하여, 상기 선택된 인터-컴포넌트 변환을 상기 복수의 컴퍼넌트들에 적용하도록 구성되는, 인코더.
앞선 청구항들 중 하나에 있어서,
상기 인코더는 예측 신호를 부가하기에 전에 또는 이미지 콘텐트의 역-양자화 이전에 상기 복수의 컴포넌트들을 인코딩하도록 구성되는, 인코더.
수신된 이미지 중 이미지 콘텐트 영역의 인코딩된 컴포넌트들을 디코딩하도록 구성된 디코더에 있어서,
상기 인코딩된 컴포넌트들을 획득하고;
역 인터-컴포넌트 변환들의 세트로부터 역 인터-컴포넌트 변환을 선택하고; 및
상기 선택된 역 인터-컴포넌트 변환을 이용하여 상기 이미지 콘텐트 영역을 나타내는 복수의 컴포넌트들을 디코딩하도록 구성되는 디코더.
청구항 48에 있어서,
상기 디코더는 상기 수신된 이미지 콘텐트 영역에 관련된 적어도 하나의 디코딩된 다운믹스 채널을 업믹싱함으로써, 상기 복수의 컴포넌트들 중 제1 컴포넌트 및 제2 컴포넌트를 디코딩하도록 구성되고,
상기 디코딩된 다운믹스 채널은 상기 복수의 컴포넌트들 중 상기 제1 컴포넌트 및 상기 제2 컴포넌트의 결합적인 인코딩을 나타내는, 디코더.
청구항 49에 있어서,
상기 디코더는 다음 결정 규칙에 기초하여 상기 제1 컴포넌트 및 상기 제2 컴포넌트를 디코딩하도록 구성되고;

여기에서, Cb'는 상기 디코딩된 제1 컴포넌트, Cr'는 상기 디코딩된 제2 컴포넌트, a 및 b는 믹싱 인자들을 나타내고, C'는 상기 디코딩된 다운믹스 채널인, 디코더.
청구항 50에 있어서,
상기 믹싱 인자 a 또는 상기 믹싱 인자 b 는 1인, 디코더.
앞선 청구항들 중 하나에 있어서,
상기 역 인터-컴포넌트 변환들의 세트 중 적어도 제1 역 인터-컴포넌트 변환은 다음의 결정 규칙에 기초하고:

여기에서, 상기 결정 규칙은 2개의 역 인터-컴포넌트 변환들을 나타내고;

는 상기 신호 공간 내의 회전각을 나타내고,
및
는 넌-제로(non-zero) 가중 인자들을 나타내고,
및
는 인코딩된 컴포넌트들의 재구성된 버전들을 나타내고, 및 C_D1' 및 C_D2'는 디코더에서 직교 기초 함수들을 갖는 변환을 이용하여 유도되는 상기 컴포넌트들을 나타내는, 디코더.
청구항 52에 있어서,
상기 디코더는
또는
를 시행하도록 구성되는, 디코더.
청구항 52 또는 청구항 53에 있어서,
상기 인터-컴포넌트 변환들의 세트 중 적어도 제1 인터-컴포넌트 변환은 다음의 결정 규칙들에 기초하고:

및 a는
에 대응하는 파라미터를 나타내는, 디코더.
청구항 52 내지 청구항 54에 있어서,
상기 디코더는 근본적으로 직교 인터-컴포넌트 변환들을 획득하기 위해 상기 회전각을 선택하도록 구성되는, 디코더.
청구항 49 내지 청구항 55 중 어느 한 항에 있어서,
상기 디코딩된 다운믹스 채널은 제1 다운믹스 채널이고,
상기 디코더는 상기 동일한 수신된 이미지 콘텐트 영역과 관련된 제2 디코딩된 다운믹스 채널을 획득하도록 구성되고,
상기 디코더는 상기 제2 다운믹스 채널을 디코딩하는 것에 기초하여 적어도 제3 컴포넌트를 획득하도록 구성되는, 디코더.
청구항 56에 있어서,
상기 디코더는 상기 복수의 역 인터-컴포넌트 변환들로부터 제1 역 인터-컴포넌트 변환을 이용하여 상기 제1 다운믹스 채널을 디코딩하도록; 및 상기 복수의 역 인터-컴포넌트 변환들로부터 제2 역 인터-컴포넌트 변환을 이용하여 상기 제2 다운믹스 채널을 디코딩하도록 구성되고;
상기 디코더는 근본적으로 서로 직교하도록 상기 제1 및 상기 제2 역 인터-컴포넌트 변환을 선택하도록 구성되는, 디코더.
청구항 48 내지 57 중 어느 한 항에 있어서,
상기 디코더는 상기 역 인터-컴포넌트 변환들의 세트로부터 역 인터-컴포넌트 변환을 나타내는 정보를 수신하도록 및 상기 정보에 따라 상기 역 인터-컴포넌트 변환을 선택하도록 구성되는, 디코더.
청구항 58에 있어서,
상기 디코더는 각각의 인코딩된 컴포넌트에 대해서, 상기 각각의 컴포넌트의 잔차가 논-제로(nonzero) 값들을 포함하는지를 나타내는 제로니스(zeroness) 정보, 바람직하게는 코딩된 블록 플래그(CBF)를 수신하도록 구성되고,
상기 복수의 컴포넌트들에 대한 제로니스 정보의 조합은 상기 선택된 인터-컴포넌트 변환을 나타내는, 디코더.
청구항 58 또는 청구항 59에 있어서,
상기 복수의 역 인터-컴포넌트 변환들은 정확하게 2개의 역 인터-컴포넌트 변환들을 포함하고,
상기 디코더는 다음 규칙에 따라, 제1 컴포넌트와 연관된 제1 CBF를 이용하여 및 제2 컴포넌트와 연관된 제2 CBF를 이용하여 인코더에 의해 선택된 시그널링된 인터-컴포넌트 변환(ICT)을 디코딩하도록 구성되는, 디코더:
청구항 58 또는 청구항 59에 있어서,
상기 복수의 역 인터-컴포넌트 변환들은 정확하게 3개의 역 인터-컴포넌트 변환들을 포함하고,
상기 디코더는 다음 규칙에 따라, 제1 컴포넌트와 연관된 제1 CBF를 이용하여 및 제2 컴포넌트와 연관된 제2 CBF를 이용하여 인코더에 의해 선택된 시그널링된 인터-컴포넌트 변환(ICT)을 디코딩하도록 구성되는, 디코더:
청구항 48 내지 청구항 62 중 어느 한 항에 있어서,
상기 디코더는 제1 컴포넌트 및 제2 컴포넌트를 나타내는 디코딩된 공통 컴포넌트로서 상기 인코딩된 컴포넌트들을 포함하는 수신된 비트스트림으로부터 획득하도록 구성되고; 및 상기 디코더가 다음 결정 규칙에 기초하여 상기 제1 컴포넌트 및 상기 제2 컴포넌트를 결정하도록 하는 역 인터-컴포넌트 변환을 선택하도록 구성되고:

여기에서,
는 회전각을 나타내고,
는 스케일링 인자, C_D1' 및 C_D2' 는 상기 디코딩된 제1 및 제2 컴포넌트를 나타내고, C' 는 상기 디코딩된 공통 컴포넌트를 나태는, 디코더.
청구항 62에 있어서,
상기 디코더는 다음 결정 규칙에 기초하여 상기 제1 컴포넌트 및 상기 제2 컴포넌트를 결정하기 위하여 상기 역 인터-컴포넌트를 선택하도록 구성되고:

또는 다음 결정 규칙에 기초하고:

여기에서, a 및 b 는 스케일링 인자들을 나타내는, 디코더.
청구항 48 내지 청구항 63 중 어느 한 항에 있어서,
상기 디코더는 잔차 신호로서 상기 인코딩된 컴포넌트들을 수신하도록 구성되고;
상기 선택된 역 인터-컴포넌트 변환을 디코딩하는 것은 재구성된 이미지 콘텐트를 상기 인코딩된 컴포넌트들에 부가하는 것을 포함하는, 디코더.
청구항 48 내지 청구항 64 중 어느 한 항에 있어서,
상기 역 인터-컴포넌트 변환들의 세트 중 적어도 제1 및 제2 역 인터-컴포넌트 변환은 다음의 결정 규칙에 기초하는 변환-기반의 코딩에 기초하고:
C_D1' = C₁'·cosα-C₂'·sinα 및 C_D2' = C₁' ·sinα+ C₂'·cosα 또는
C_D1' = C₁'·sinα+ C₂'·cosα 및 C_D2' = C₁'·cosα-C₂' ·sinα
여기에서, C_D1 및 C_D2 는 상기 수신된 제1 및 제2 컴포넌트들이고, C₁' 및 C₂' 는 상기 제1 및 제2 역 인터-컴포넌트 변환들의 결과들이고, 는 상기 인터-컴포넌트 변환에 대해 적용되는 회전각 α 을 나타내고;
상기 제1 및 제2 역 인터-컴포넌트 변환은 상기 회전각 α 의 관점에서 서로에 대해 차이가 있는, 디코더.
청구항 48 내지 65 중 어느 한 항에 있어서,
상기 디코더는 맥락 모델 세트 중의 맥락 모델을 이용하여 상기 이미지 콘텐트 영역을 디코딩하도록 구성되고,
상기 맥락 모델은 이미지 중 이전에 디코딩된 이미지 콘텐트 영역들을 이용하고;
상기 맥락 모델 세트는 인터-컴포넌트 변환이 이용됨을 나타내는 인터-컴포넌트 변환 플래그와 연관되는, 디코더.
청구항 66에 있어서,
상기 디코더는 적어도 제1 및 제2 맥락 모델로부터 상기 맥락 모델을 선택하도록 또는 상기 맥락 모델의 사용 및 비사용 사이에 선택하도록 구성되는, 디코더.
청구항 67에 있어서,
상기 디코더는 적어도 하나의 맥락 모델을 포함하는 맥락 모델들의 세트로부터 상기 맥락 모델을 선택하도록 구성되는, 디코더.
청구항 67 또는 청구항 68에 있어서,
상기 맥락 모델 세트는 정확히 3개의 맥락 모델들을 포함하고,
상기 디코더는 상기 이미지 콘텐트 영역의 이웃하는 이미지 콘텐트 영역들을 평가하도록 및 상기 평가에 기초하여 상기 현재 이미지 콘텐트 영역에 대한 상기 맥락 모델을 선택하도록 구성되는, 디코더.
청구항 69에 있어서,
상기 디코더는 부가적인(즉, c_idx=L+A), 배타적 분리(exclusive disjoint)(즉, c_idx　=　(L《1)+A) 또는 능동적인(즉, c_idx　=　min(1,　L+A)) 상기 맥락 모델 세트 내의 맥락 색인에 기초하여 상기 이미지 콘텐트 영역의 이웃하는 이미지 콘텐트 영역들을 평가하도록 구성되고,
여기에서, indec c_idx 는 선택되는 상기 맥락 모델을 나타내고, L 및 A 는 이웃하는 예컨대, 좌측 및 상측 이웃하는 이미지 콘텐트 영역들을 나타내는, 디코더.
청구항 66 내지 70 중 어느 한 항에 있어서,
상기 디코더는 정확히 3개의 맥락 모델 세트들로부터 하나의 맥락 모델 세트를 선택하고, 상기 선택된 맥락 모델 세트에 포함된 상기 적어도 하나의 맥락 모델로부터 상기 맥락 모델을 선택하도록 구성되는, 디코더.
청구항 66 내지 71 중 어느 한 항에 있어서,
상기 맥락 모델을 선택하기 위하여, 상기 디코더는 이용된 인터-컴포넌트 변환을 나타내는 인터-컴포넌트 변환 플래그에 대한 코딩된 블록 정보(코딩된 블록 플래그 상태)를 이용하도록 구성되는, 디코더.
청구항 72에 있어서,
상기 코딩된 블록 정보는 적어도 제1 및 제2 컴포넌트에 대해 제1 코딩된 블록 플래그 및 제2 코딩된 블록 플래그를 포함하고,
상기 디코더는 상기 제1 및 제2 코딩된 블록 플래그들의 상이한 조합들을 갖는 상이한 맥락 모델 세트들을 연관시키도록 구성되는, 디코더.
청구항 73에 있어서,
상기 맥락 모델 세트는 상기 인터-컴포넌트 변환 플래그에 관련된 정확하게 하나의 맥락 모델을 포함하는, 디코더.
청구항 66 내지 청구항 74 중 어느 한 항에 있어서,
상기 디코더는 각각의 인코딩된 컴포넌트에 대해 확률을 나타내는 제로니스(zeroness) 확률 정보, 바람직하게는 상기 각각의 컴포넌트의 잔차(residual)가 영이 아닌 값을 포함하는지를 나타내는 코딩된 블록 플래그(CBF)를 수신하도록; 영이 아닌 잔차(residual)를 나타내는 정확히 하나의 제로니스(zeroness) 정보에 응답하는 적어도 하나의 맥락 모델을 포함하는 제1 맥락 모델 세트를 선택하도록; 및 각각의 영이 아닌 잔차를 나타내는 적어도 제1 및 제2 제로니스 정보에 응답하는 적어도 하나의 맥락 모델을 포함하는 상이한 제2 맥락 모델 세트를 선택하도록 구성되는, 디코더.
인코딩할 이미지 중 이미지 콘텐트 영역의 복수의 컴포넌트들을 인코딩하는 방법에 있어서,
상기 이미지 콘텐트 영역을 나타내는 상기 복수의 컴포넌트들을 획득하는 단계;
인터-컴포넌트 변환들의 세트로부터 인터-컴포넌트 변환을 선택하는 단계;
인코딩된 컴포넌트들을 얻기 위하여, 상기 선택된 인터-컴포넌트 변환을 이용하여 상기 복수의 컴포넌트들을 인코딩하는 단계; 및
상기 인코딩된 컴포넌트들을 제공하는 단계를 포함하는 방법.
수신된 이미지의 이미지 콘텐트 영역의 인코딩된 컴포넌트들을 디코딩하기 위한 방법에 있어서,
상기 인코딩된 컴포넌트들을 획득하는 단계;
역 인터-컴포넌트 변환들의 세트로부터 역 인터-컴포넌트 변환을 선택하는 단계; 및
상기 선택된 역 인터-컴포넌트 변환을 이용하여 상기 이미지 콘텐트 영역을 나타내는 복수의 컴포넌트들을 디코딩하는 단계를 포함하는 방법.
컴퓨터 상에서 동작할 때 청구항 76 또는 77의 방법을 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램을 저장한 컴퓨터 읽기가능한 디지털 저장 매체.
청구항 76 또는 77의 방법에 의해 획득되는 데이터 스트림.