KR20060113666A

KR20060113666A - 양자화 잡음 전파 효과의 감소를 위한 최적의 시공간 변환

Info

Publication number: KR20060113666A
Application number: KR1020067007504A
Authority: KR
Inventors: 딥팩 에스. 투라가; 로히트 푸리; 알리 타바타바이
Original assignee: 소니 일렉트로닉스 인코포레이티드
Priority date: 2003-10-24
Filing date: 2004-10-25
Publication date: 2006-11-02
Also published as: US20050117639A1; JP2007523512A; WO2005041112A3; CN1926860A; WO2005041112A2; EP1714483A2

Abstract

비디오 프레임을 인코딩하기 위한 방법과 장치가 설명된다. 일 실시예에서, 인코딩 방법은 적어도 1개의 기준 픽셀과 다수의 예측된 픽셀을 포함하는 유사한 픽셀의 세트를 식별하는 단계와, 직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 계수의 세트로 공동 변환하는 단계를 포함한다.

Description

양자화 잡음 전파 효과의 감소를 위한 최적의 시공간 변환{OPTIMAL SPATIO-TEMPORAL TRANSFORMATIONS FOR REDUCTION OF QUANTIZATION NOISE PROPAGATION EFFECTS}

본 출원은 본 명세서에서 참조로 통합되고, 2003년 10월 24일자로 출원된 미국 가출원 일련 번호 60/514,342, 2003년 10월 24일자로 출원된 미국 특허 제60/514,351, 2003년 11월 7일 출원된 미국 특허 제 60/518,135 및 2003년 11월 18일자로 출원된 미국 특허 제 60/523,411에 관한 우선권의 이득을 주장하는 것에 관한 것이다.

본 발명은 일반적으로 비디오 압축에 관한 것이다. 좀더 구체적으로 본 발명은 비디오 코딩에서의 시공간(spatio-temporal) 변환에 관한 것이다.

본 특허 서류의 개시물 일부는 저작권 보호를 받는 자료를 포함한다. 이 저작권 소유자는 임의의 개인에 의한 특허 및 상표청(Patent and Trademark Office) 특허 파일이나 기록에 나타나는 바와 같은 특허 서류나 특허 개시물의 팩스 재생에 이의를 제기하지 않지만, 그 외의 사항에 대해서는 모든 저작권 권리를 보유한다. 다음 주의 사항 즉, Copyright

다수의 현재 비디오 코딩 알고리즘은 움직임 보상된 예측 코딩 구조에 기초한다. 그러한 구조에서, 시간 리던던시(temporal redundancy)는 움직임 보상을 사용하여 감소되는데 반해, 공간 리던던시는 움직임 보상의 나머지를 변환 코딩함으로써 감소한다. 움직임 보상된 예측 코딩 구조의 1가지 구성 성분은 움직임 보상된 시간 필터링(MCTF)이고, 이는 시간 리던던시를 감소시키기 위해 실시된다.

MCTF는 통상 움직임 방향으로 프레임을 시간 필터링하는 것을 포함한다. MCTF는, 인코딩된 비트스트림을 만들기 위해 공간 변환{예를 들어, 소파동(wavelet)이나 이산 코사인 변환(DCT)}과 엔트로피 코딩과 결합될 수 있다.

시간 필터링 동안, 그 장면의 움직임 성질과 사물을 덮는 것과 드러내는 것(covering/uncovering)으로 인해, 일부 픽셀은 참조되지 않거나 여러 번 참조될 수 있다. 참조되지 않은 픽셀은 연결되지 않는 픽셀이라고 알려져 있고, 여러 번 참조된 픽셀은 다중 연결된 픽셀이라고 알려져 있다. 종래의 MCTF 알고리즘에 의한 연결되지 않은 픽셀의 처리는 통상 특별한 취급을 요구하는데, 이는 코딩 효율 감소를 초래한다. 다중 연결된 픽셀의 경우, 종래의 MCTF 알고리즘은 통상 국부 시간 변환이 연속하는 것으로서 전반적인 시간 변환을 달성하고, 이는 그 변환의 직교정규성을 파괴하며, 디코더에서의 양자화 잡음 전파 효과를 초래한다.

비디오 프레임을 인코딩하기 위한 방법 및 장치가 설명된다. 전형적인 인코딩 방법은, 적어도 1개의 기준 픽셀과 다수의 예측된 픽셀을 포함하는 유사한 픽셀의 세트를 식별하는 단계와, 직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 계수의 세트로 공동 변환하는 단계를 포함한다.

본 발명은 아래에 주어진 상세한 설명과, 본 발명의 다양한 실시예의 첨부 도면으로부터 좀더 완전히 이해되지만, 이러한 본 발명의 다양한 실시예는 특정 실시예에 본 발명을 제한하는 것으로 해석해서는 안 되고, 단지 설명과 이해를 위한 것이다.

도 1은 인코딩 시스템의 일 실시예의 블록도.

도 2는 전형적인 연결, 비연결 및 다중 연결된 픽셀을 예시하는 도면.

도 3은 다중 연결된 픽셀의 전형적인 시간 필터링을 예시하는 도면.

도 4는 전형적인 내부 예측 공정을 예시하는 도면.

도 5는 직교정규 변환이 사용될 수 있는 전형적인 내부 예측 전략을 예시하는 도면.

도 6은 본 발명의 일부 실시예에 따른 직교정규 변환을 이용하는 인코딩 공정의 흐름도.

도 7은 본 발명의 일부 실시예에 따른 리프팅 구조를 이용하는 인코딩 공정의 흐름도.

도 8은 전형적인 쌍방향 필터링을 예시하는 도면.

도 9는 본 발명의 일부 실시예에 따른 쌍방향 필터링을 위한 리프팅 구조를 이용하는 인코딩 공정의 흐름도.

도 10은 본 발명의 실시예를 실시하기에 적합한 컴퓨터 환경의 블록도.

다음에 오는 본 발명의 실시예의 상세한 설명에서, 첨부 도면에 대한 참조가 이루어지는데, 이 도면에서 동일한 참조 번호는 동일한 요소를 나타내고, 이러한 도면에서 예시를 통해 본 발명이 실시될 수 있는 특정 실시예가 도시된다.

이들 실시예는 당업자가 본 발명을 실시할 수 있도록 충분히 상세하게 설명되고, 다른 실시예가 이용될 수 있으며, 논리적, 기계적, 전기적, 기능적 및 다른 변경이 본 발명의 범주를 벗어나지 않으면서 이루어질 수 있음이 이해되어야 한다. 그러므로 다음에 오는 상세한 설명은 제한적인 의미로 취해지지 않고, 본 발명의 범주는 첨부된 청구항에 의해서만 한정된다.

본 발명의 동작의 개관으로 시작하면, 도 1은 인코딩 시스템(100)의 일 실시예를 예시한다. 이 인코딩 시스템(100)은 조인트 비디오 팀(JVT: Joint Video Team) 표준, 동영상 전문가 그룹(MPEG: Moving Picture Experts Group) 표준, H-26x 표준 등과 같은 비디오 코딩 표준에 따라 비디오 코딩을 수행한다. 인코딩 시스템(100)은 하드웨어, 소프트웨어 또는 이 둘이 결합된 것으로 구현될 수 있다. 소프트웨어 구현시, 인코딩 시스템(100)은 다양한 종래의 컴퓨터 판독 가능한 매체 상에서 저장되고 분포될 수 있다. 하드웨어 구현시에는, 인코딩 시스템(100)의 모듈이 디지털 로직(예를 들어, 집적 회로)으로 구현된다. 이들 기능 중 일부는 호스트 컴퓨터로부터의 처리 부담을 덜기 위해 컴퓨터 주변 기기에서의 특별한 목적의 디지털 로직 디바이스에서 최적화될 수 있다.

인코딩 시스템(100)은 신호 수신기(102), 움직임 보상된 시간 필터링(MCTF) 유닛(108), 공간 변환 유닛(110) 및 엔트로피 인코더(112)를 포함한다. 신호 수신기(102)는 다수의 프레임을 구비한 비디오 신호를 수신하고, 개별 프레임을 MCTF 유닛(108)으로 발송하는 역할을 한다. 일 실시예에서, 신호 수신기(102)는 입력 비디오를 화상의 그룹(GOP: group of pictures)으로 분할하고, 이러한 화상의 그룹은 유닛으로서 인코딩된다. GOP는 소정 개수의 프레임을 포함할 수 있거나, GOP에서의 프레임의 개수는 대역폭, 코딩 효율 및 비디오 콘텐츠와 같은 파라미터에 기초한 동작 중에 역동적으로 결정될 수 있다. 예를 들어, 비디오가 급격한 장면(scene) 변경과 높은 움직임으로 이루어진다면, 더 짧은 GOP를 가지는 것이 더 효율적인데 반해, 비디오가 대부분 움직이지 않는 사물로 이루어진다면, 더 긴 GOP를 가지는 것이 더 효율적이다.

MCTF 유닛(108)은 움직임 추정기(104)와 시간 필터링 유닛(106)을 포함한다. 움직임 추정기(104)는 수신된 프레임에 대한 움직임 추정을 수행하는 역할을 한다. 일 실시예에서, 움직임 추정기(104)는 픽셀의 그룹이나 그 GOP의 프레임 영역을 유사한 픽셀 그룹이나 동일한 GOP의 다른 프레임 영역과 매칭시킨다. 그러므로 GOP에서의 다른 프레임은 처리된 각 프레임에 관한 기준 프레임이다.

일 실시예에서, 움직임 추정기(104)는 역방향(backward) 예측을 수행한다. 예를 들어, 픽셀의 그룹이나 그 GOP의 하나 이상의 프레임 영역은 유사한 픽셀의 그룹이나 동일한 GOP의 하나 이상의 이전 프레임 영역에 매칭될 수 있다. 이 예에서, GOP에서의 이전 프레임은 처리된 각 프레임에 관한 기준 프레임이다.

또 다른 실시예에서, 움직임 추정기(104)는 순방향(forward) 예측을 수행한다. 예를 들어, 픽셀의 그룹이나 그 GOP의 하나 이상의 프레임 영역은 유사한 픽셀의 그룹이나 동일한 GOP의 하나 이상의 이전 프레임 영역에 매칭될 수 있다. 이 예에서, GOP에서의 진행 프레임은 처리된 각 프레임에 관한 기준 프레임이다.

또 다른 실시예에서, 움직임 추정기(104)는 쌍방향 예측을 수행한다. 예를 들어, 픽셀의 그룹이나 그 GOP의 하나 이상의 프레임 영역은 유사한 픽셀의 그룹이나 동일한 GOP의 이전 및 진행(proceeding) 프레임 양 영역에 매칭될 수 있다. 이 예에서, GOP에서의 이전 및 진행 프레임은 처리된 각 프레임에 관한 기준 프레임이다.

전술한 매칭의 결과, 움직임 추정기(104)는 움직임 벡터를 제공하고, 시간 필터링 유닛(106)과 연결된 유사한 픽셀이나 블록의 세트를 확인한다. 유사한 픽셀이나 블록의 세트는, 1개 이상의 기준 프레임으로부터의 1개 이상의 기준 픽셀이나 블록과, 예측되는 프레임에서의 하나 이상의 예측된 픽셀이나 블록을 포함한다.

일 실시예에서, 움직임 추정기(104)는 예측된 프레임에서의 일부 블록이나 픽셀에 관한 기준 프레임(들)에서의 양호한 예측기를 발견할 수 없다. 그러한 픽셀은 연결되지 않은 픽셀이라고 부른다. 연결, 비연결 및 다중 연결된 픽셀의 예가 도 2에 예시된다.

도 2를 참조하면, 프레임(A)은 기준 프레임이고, 프레임(B)은 예측되는 프레임이다. 픽셀(201, 202, 203)은 다중 연결된 픽셀이다. 픽셀(204, 205, 206)은 연결되지 않은 픽셀이다. 나머지 픽셀은 연결된 픽셀이다.

도 1로 되돌아가면, 일 실시예에서 움직임 추정기(104)는 기준 프레임에서의시간 필터링 유닛(106)과 연결되지 않은 픽셀을 식별하며, 이 유닛(106)은 이후 연결되지 않은 픽셀의 특별한 취급을 수행한다. 대안적으로, 움직임 추정기(104)는 공간 변환 유닛(110)과 연결되지 않은 픽셀을 식별하여 이 유닛(110)은 이후 그러한 연결되지 않은 픽셀을 아래에 논의되는 바와 같이 처리한다.

시간 필터링 유닛(106)은 움직임 벡터에 따른 프레임과 움직임 추정기(104)에 의해 제공된 유사한 픽셀이나 블록의 식별자 사이의 시간 리던던시(redundancy)를 제거하는 역할을 한다. 일 실시예에서, 시간 필터링 유닛(106)은 유사한 픽셀이나 블록의 세트에 관해 저역 계수와 고역 계수를 만든다. 일 실시예에서, 시간 필터링 유닛(106)은 다중 연결된 픽셀의 세트나 블록을 직교정규 변환(예를 들어 직교정규 변환 행렬)을 사용하여 공동으로 변환함으로써, 다중 연결된 픽셀이나 블록에 관한 저역 계수와 고역 계수를 만든다. 또 다른 실시예에서는, 다중 연결된 픽셀의 변환은 2개의 단계, 즉 예측 단계와 갱신 단계로 나누는데 리프팅 구조가 사용된다. 예를 들어, 예측 단계는 직교정규 변환을 사용하여 고역 계수로 다중 연결된 픽셀이나 블록의 세트를 공동으로 변환하는 것을 수반할 수 있고, 갱신 단계는 하나 이상의 기준 픽셀이나 블록으로부터의 하나 이상의 저역 계수와 예측 단계에서 만들어진 대응하는 고역 계수를 생성하는 것을 수반할 수 있다.

전술한 필터링 기술은 다중 연결된 픽셀이나 블록에 제한되지 않고, 쌍방향 연결된 픽셀, 다수의 기준 프레임의 픽셀 및 단방향 연결된 픽셀에 대해서도 마찬가지로 수행될 수 있다는 점이 이해되어야 한다.

공간 변환 유닛(110)은, 예를 들어 소파동 변환이나 이산 코사인 변환(DCT)을 사용하는 MCTF 유닛(108)에 의해 제공된 프레임에서 공간 리던던시를 감소시키는 역할을 한다. 예를 들어 공간 변환 유닛(110)은 MCTF 유닛(108)으로부터 수신된 프레임을 2차원 소파동 변환에 따른 소파동 계수로 변환할 수 있다.

일 실시예에서, 공간 변환 유닛(110)은 내부 예측(즉 프레임 내부의 픽셀로부터의 예측)을 수행하는 역할을 한다. 내부 예측은, 예를 들어 연결되지 않은 픽셀이나 블록, 프레임 내부와 프레임 외부 모두에서 예측기를 가지는 픽셀이나 블록 등에 관해 수행될 수 있다. 연결되지 않은 픽셀에 관해 내부 예측이 수행되는 일 실시예에서, 공간 변환 유닛(110)은 예측되는 프레임 내의 연결되지 않은 픽셀이나 블록의 예측기를 찾고, 연결되지 않은 픽셀이나 블록과 관련 예측기의 공동 변환을 수행한다. 일 실시예에서, 공간 변환 유닛(110)은 연결되지 않은 픽셀이나 블록의 나머지를 생성하기 위해 직교정규 변환(예를 들어, 직교정규 변환 행렬)을 사용한다.

엔트로피 인코더(112)는 공간 변환 유닛(110)으로부터 수신된 계수에 엔트로피 코딩 기술을 적용함으로써 출력 비트스트림을 만드는 역할을 한다. 엔트로피 인코딩 기술은 또한, 움직임 추정기(104)에 의해 제공된 움직인 벡터와 기준 프레임 개수에 적용될 수 있다. 이 정보는 디코딩을 가능하게 하기 위해 출력 비트스트림에 포함된다. 적합한 엔트로피 인코딩 기술의 예는 가변 길이 인코딩과 산술 인코딩을 포함한다.

이제 다중 연결된 픽셀의 시간 필터링이 도 3에 관련하여 좀더 상세히 논의 된다.

도 3을 참조하면, 기준 프레임에서의 픽셀(A)은 n개의 픽셀(B₁ 내지 B_n)에 연결된다. 기존의 시간 필터링 방법은 통상 저역 계수(L1)와 고역 계수(H1)를 얻기 위해 먼저 픽셀(A, B₁)의 쌍을 변환하도록 Haar 변환을 사용한다. 이후, 이 국부 변환은 A와, B₂ 내지 B_n의 픽셀 중 하나에 관해 반복되어, 저역 계수(L2 내지 Ln)와 고역 계수(H2 내지 Hn)를 만들고, 이를 통해 저역 계수(L2 내지 Ln)가 버려진다. 그 결과, 저역 계수(L1)와 고역 계수(H1, H2,...Hn)의 세트가 픽셀(A, B₁, B₂,...B_n)에 대해 만들어진다. 하지만 국부 변환의 이러한 순차 실행은 변환의 직교정규성을 파괴하고 그 결과 디코더에서의 양자화 잡음 전파 효과를 초래한다.

본 발명의 일 실시예는 다중 연결된 픽셀(예를 들어, 픽셀 A, B₁, B₂,...B_n)의 공동 변환을 실행함으로써, MTCF에서의 양자화 잡음 전파 효과를 감소시킨다. 이러한 공동 변환은 Gram-Schmit 직교정규화 공정, DCT 변환 등과 같은 직교정규화 공정의 적용에 기초하여 전개될 수 있는 직교정규 변환을 사용하여 실행된다. 변환의 직교정규 특성은, 양자화 잡음 전파 효과를 제거한다.

일 실시예에서, 직교정규 변환은 온라인으로 만들어진다. 대안적으로, 직교정규 변환은 오프라인으로 만들어지고 룩-업 테이블에 저장된다.

일 실시예에서, 직교정규 변환은 크기가 (n+1)x(n+1)인 변환 행렬이고, 여기서 n은 예측된 프레임에서의 예측된 픽셀의 개수이다. 직교정규 변환에 입력되는 것은 다중 연결된 픽셀(예를 들어, A, B₁, B₂,...B_n)이고, 그 출력은 저역 계수(L1)와, 고역 계수(H1, H2,...Hn)이다. 도 3에 도시된 다중 연결된 픽셀(A, B₁, B₂)에 대한 3 ×3 행렬을 이용하는 전형적인 단일(unitary) 변환은 다음과 같이 표현될 수 있다:

여기서, L₁ ^O는 저역 계수이고, H₁ ^O과 H₂ ^O는 각각 B₁과 B₂에 대응하는 고역 계수이다.

일부 픽셀이나 블록은 내부 예측을 사용하여 예측될 수 있다. 내부 예측은, 예를 들어 연결되지 않은 픽셀이나 블록과, 프레임 내부와 프레임 외부 모두에서 예측기를 가지는 픽셀이나 블록 등에 대해 실시될 수 있다. 예를 들어, 기준 프레임으로부터의 양호한 예측기가, MCTF{예를 들어, MCTF 유닛(108)에 의한} 동안 발견될 수 없는 블록은 내부 예측될 수 있다(즉, 프레임 내부의 픽셀로부터 예측). 도 4는, 예를 들어 공간 변환기(110)에 의해 실시될 수 있는 픽셀의 내부 예측을 예시한다.

도 4를 참조하면, 픽셀(A)은 픽셀(X₁, X₂, X₃, X₄)을 예측하기 위해 사용된 다. 이러한 예측은 픽셀의 세트(A, X₁, X₂, X₃, X₄)를 나머지(A, X₁-A, X₂-A, X₃-A, X₄-A)로 대체하는 것을 수반한다. 그러한 예측는 픽셀의 직교정규 변환에 대응하지 않고, 따라서 디코더에서의 양자화 잡음 전파 결과를 초래한다.

일 실시예에서, 픽셀의 세트(A, X₁, X₂, X₃, X₄)는 1개의 평균 픽셀 값과 4개의 나머지 값을 포함하는 값의 세트로 공동 변환된다. 이러한 공동 변환은 Gram-Schmit 직교정규화 공정, DCT 변환 등과 같은 직교정규화 공정의 적용에 기초하여 전개될 수 있는 직교정규 변환을 사용하여 실시된다. 변환의 직교정규 특성은 양자화 잡음 전파 효과를 제거한다.

일 실시예에서, 직교정규 변환은 온라인으로 만들어진다. 대안적으로 직교정규 변환은 오프라인으로 만들어지고 룩-업 테이블에 저장된다.

일 실시예에서, 직교정규 변환은 크기가 (n+1)x(n+1)인 변환 행렬이고, 여기서 n은 예측된 프레임에서의 예측된 픽셀의 개수이다. 직교정규 변환에 입력되는 것은, 예측기(A)와 예측된 픽셀(X₁, X₂...X_n)의 세트를 포함하고, 출력은 평균 픽셀(L)과 나머지의 세트(R1, R2...Rn)를 포함한다. 도 4에 도시된 예측된 픽셀(X₁ 내지 X₄)에 대한 5 ×5 행렬을 이용하는 전형적인 단일 변환은 다음과 같이 표현될 수 있다:

여기서, L은 평균 픽셀 값이고, R₁ 내지 R₄는 각각 픽셀 X₁ 내지 X₄의 나머지이다.

직교정규 변환은, 예를 들어 수직 예측, 수평 예측, 대각선 하방 좌측 예측, 대각선 하방 우측 예측, 수직 우측 예측, 수평 하방 예측, 수직 좌측 예측, 수평 상방 예측 등을 포함하는 다양한 내부 예측 전략에 관해 사용될 수 있다. 도 5는 직교정규 변환이 사용될 수 있는 전형적인 내부 예측 전략을 예시한다.

수학식 1과 수학식 2에서 사용된 행렬은 크기가 n인 일반적인 직교정규 변환 행렬로서 다시 쓰여질 수 있고, 여기서 n은 예측된 픽셀 개수에 1을 더한 것을 나타낸다. 크기가 n인 일반적인 직교정규 변환 행렬의 정수 버전은 다음과 같이 표현될 수 있다:

대응하는 입/출력 관계는 다음 식으로 제공될 수 있다:

여기서, P는 예측기(또한 본 명세서에서 기준 픽셀이라고도 하는)이고, 픽셀(Y1, Y2, Y3,...)은 P로부터 예측된 픽셀이고, L은 저역 데이터(예를 들어, 저역 계수이거나 평균 픽셀 값)이며, 값(H1, H2, H3,...)은 예측된 픽셀에 대응하는 고역 데이터(예를 들어, 고역 계수이거나 나머지 값)이다.

일 실시예에서, 현재 프레임에 있는 픽셀은 상이한 프레임으로부터의 예측기와 현재 프레임으로부터의 예측기 모두를 사용하여 예측될 수 있다. 이 실시예에서, 공간 예측과 시간 예측이 결합된 것이 사용되어 나머지(고역) 값을 만들고, 예측을 위해 사용된 모드가 디코더에 제공된다. 이러한 모드는 시간 예측, 공간 예측 또는 시간 예측과 공간 예측이 결합된 것을 지정할 수 있다. 현재 픽셀(C₀)에 관한 고역 나머지(H₀)는 다음과 같이 표현될 수 있다:

여기서, P₀는 상이한(기준) 프레임으로부터의 예측기이고, P₁는 동일한 프레 임으로부터의 예측기이며, α+β=1이고, 여기서 α=1은 시간 예측에 위한 것이고, β=1는 내부 예측만을 위한 것이다.

도 6은 본 발명의 일부 실시예에 따른 직교정규 변환을 이용하는 인코딩 공정(600)의 흐름도이다. 공정(600)은 도 1의 MCTF 유닛(108)이나 공간 변환 유닛(110)에 의해 실행될 수 있다. 공정(600)은 하드웨어(예를 들어, 회로, 전용 로직, 등), 소프트웨어(범용 컴퓨터 시스템이나 전용 기계 상에서 실행되는 것과 같은) 또는 이들이 결합된 것을 포함할 수 있는 처리 로직에 의해 실시될 수 있다.

소프트웨어 구현된 공정에 관해, 흐름도의 설명을 통해 당업자는 적합하게 구성된 컴퓨터(메모리를 포함하는 컴퓨터 판독 가능한 매체로부터의 명령어를 실행하는 컴퓨터의 프로세서) 상에서 그러한 공정을 수행하기 위한 명령어를 포함하는 그러한 프로그램을 개발할 수 있다. 컴퓨터 실행 가능한 명령어는 컴퓨터 프로그래밍 언어로 쓰여질 수 있거나 펌웨어(firmware) 로직으로 구현될 수 있다. 승인된 표준과 일치하는 프로그래밍 언어로 쓰여진다면, 그러한 명령어는 다양한 하드웨어 플랫폼 상에서 그리고 다양한 운영 시스템으로 인터페이스에 관해 실시될 수 있다. 또한, 본 발명의 실시예는 임의의 특별한 프로그래밍 언어를 참조하여 설명되지 않는다. 다양한 프로그래밍 언어가 본 명세서에 설명된 가르침을 구현하는데 사용될 수 있다. 게다가, 관련 분야에서 소프트웨어적으로 행동을 취하거나 결과를 일으키는 것으로 한가지 형태나 또 다른 형태(예를 들어, 프로그램, 절차, 공정, 응용, 모듈, 로직 등)로 소프트웨어에 대해 얘기하는 것이 흔히 있는 것이다. 그러한 표현은 단순히 컴퓨터의 프로세서가 행동을 실시하거나 결과를 만들게 하는 컴퓨터에 의한 소프트웨어의 실행을 얘기하는 다른 방식이다.

더 많거나 더 적은 개수의 동작이 본 발명의 범주로부터 벗어나지 않으면서 본 명세서에서 설명된 공정으로 통합될 수 있고, 본 명세서에서 도시되고 설명된 블록의 배열에 의해 어떠한 특별한 순서가 암시되어 있는 것이 아니라는 점이 이해될 것이다.

도 6을 참조하면, 처리 로직은 유사한 픽셀의 세트를 식별하는 것으로 시작한다(처리 블록 602). 이 세트에서의 픽셀은 유사한데, 이는 이들이 기준 픽셀과 이들 기준 픽셀로부터 예측될 수 있는 픽셀들로 이루어지기 때문이다. 일 실시예에서, 이러한 유사한 픽셀은 움직임 추정{예를 들어, 움직임 추정기(104)에 의해} 동안에 한정되고, 다중 연결된 픽셀을 포함하며, 이 경우 기준 픽셀은 제 1(기준) 프레임으로부터의 것이고, 예측된 픽셀은 제 2(예측된) 프레임으로부터의 것이다. 이 실시예에서, 공정(600)은 시간 예측 모드에서 수행된다.

또 다른 실시예에서, 유사한 픽셀이 공간 변환{예를 들어, 공간 변환 유닛(110)} 동안에 한정되고, 기준 픽셀과 동일한 프레임으로부터의 예측된 픽셀을 포함한다(예를 들어, 연결되지 않은 픽셀의 경우). 이러한 다른 실시예에서, 공정(600)은 공간 예측 모드에서 실시된다.

처리 블록(604)에서, 처리 로직은 유사한 픽셀의 세트를 직교정규 변환을 사용하여 계수로 공동 변환한다. 일 실시예에서, 직교정규 변환은 크기가 (n+1)x(n+1)인 변환 행렬이고, 이 경우 n은 예측된 픽셀의 개수이다. 일 실시예에서, 직교정규 변환은 Gram-Schmit 직교정규화 공정을 사용하여 전개된다.

일 실시예에서, 상기 공정(600)은 시간 예측 모드에서 수행되고, 처리 블록(604)에서 만들어진 계수는 저역 값과, 예측된 값에 대응하는 고역 값의 그룹을 포함한다.

공정(600)이 공간 예측 모드에서 수행되는 또 다른 실시예에서는, 처리 블록(604)에서 만들어진 계수가 평균 픽셀 값과, 예측된 값에 대응하는 나머지 값의 그룹을 포함한다.

공정(600)은 픽셀의 처리에 제한되지 않고, 대신 프레임 영역을 처리하는데 사용될 수 있다는 점이 이해되어야 한다(예를 들어, JVT와 같은 블록-기반의 코딩 구조).

일부 실시예에서, 직교정규 변환은 리프팅-구조를 사용하여 실시된다. 그러한 리프팅-기반의 구현은 2가지 단계, 즉 예측 단계와 갱신 단계로 저역 데이터와 고역 데이터를 생성하는 작업을 달성한다. 예측 단계에서는, 고역 데이터가 기준 픽셀로부터 생성된다. 갱신 단계에서는, 기준 픽셀과 고역 데이터를 사용하여 저역 데이터가 생성된다. 시간 예측 모드에서 사용될 때, 이러한 리프팅-기반의 구현은 인코더에서 입력에서 출력으로의 더 간단한 변환과, 디코더에서의 출력으로부터의 입력으로의 더 간단한 복구를 용이하게 한다.

일부 실시예에서, 리프팅-기반의 구현은 내부 예측을 위한 공간 예측 모드에서 사용된다. 이는 리프팅 구현이 대응하는 다수의 평균 픽셀 값과 나머지 값을 만들 수 있으므로, 예측기{예를 들어, 픽셀 한 세트(Y₁,...Y_n)에 관한 예측기 (P₁,...P_n)를 사용하는}로서 다수의 픽셀을 사용하는 것을 허용한다. 또한, 리프팅-기반의 구현은 프레임에 걸쳐 내부 예측 사용을 제공하는데, 이는 그것이 다른 블록에 관한 예측기로서 예측기 블록의 재사용을 가능하게 하기 때문이다. 그 후, 디코더에서, 대응하는 평균 픽셀 값은 디코딩된 예측기로부터 복구될 수 있고, 예측된 픽셀은 역 예측 단계를 사용하여 복구될 수 있다.

도 7은 본 발명의 일부 실시예에 따른 리프팅 구조를 이용하는 인코딩 공정(700)의 흐름도이다. 공정(700)은 도 1의 MCTF 유닛(108)이나 공간 변환 유닛(110)에 의해 실행될 수 있다. 공정(700)은 하드웨어(예를 들어, 회로, 전용 로직 등), 소프트웨어(범용 컴퓨터 시스템이나 전용 기계 상에서 실행되는 것과 같은) 또는 이들이 결합된 것을 포함할 수 있는 처리 로직에 의해 실시될 수 있다.

도 7을 참조하면, 처리 로직은 직교정규 변환(처리 블록 702)을 사용하여, 한 세트의 픽셀을 고역 데이터로 공동 변환하는 것으로 시작한다. 픽셀의 세트는 하나 이상의 기준 픽셀과 이 기준 픽셀로부터 예측될 수 있는 픽셀을 포함한다. 일 실시예에서, 픽셀의 세트는 움직임 추정{예를 들어, 움직임 추정기(104)에 의해} 동안에 한정되고, 다중 연결된 픽셀을 포함하며, 이 경우 기준 픽셀은 기준 프레임으로부터의 것이고, 예측 픽셀은 예측 프레임으로부터의 것이다. 이 실시예에서, 공정(700)은 시간 예측 모드에서 실시된다. 일 실시예에서, 움직임 추정은 서브-픽셀 보간 공정을 이용한다.

또 다른 실시예에서, 픽셀의 세트는 공간 변환{예를 들어, 공간 변환 유닛 (110)} 동안에 한정되고, 동일한 프레임으로부터의 기준과 예측된 픽셀을 포함한다(예를 들어, 연결되지 않은 픽셀의 경우에). 이러한 다른 실시예에서, 공정(700)은 공간 예측 모드에서 실시된다.

일 실시예에서, 직교정규 변환은 크기가 n ×n인 변환 행렬이고, 여기서 n=N+1이며, N은 예측된 픽셀의 개수이다. 전형적인 직교정규 변환은 제 1 수학식을 사용하기 않고 입/출력 행렬식(4)으로서 표현될 수 있다.

일 실시예에서, 공정(700)은 시간 예측 모드에서 실시되고, 처리 블록(702)에서 만들어진 고역 데이터는 예측된 값에 대응하는 고역 값의 그룹을 포함한다.

공정(700)이 공간 예측 모드에서 실시되는 또 다른 실시예에서, 처리 블록(604)에서 만들어진 고역 데이터는 예측된 값에 대응하는 나머지 값의 그룹을 포함한다.

처리 블록(704)에서, 처리 로직은 기준 픽셀(들)과 고역 데이터를 사용하여 저역 데이터를 생성한다. 저역 데이터를 생성하기 위한 전형적인 식은 다음과 같다:

L=nP+H₁

여기서, L은 저역 계수이고, 평균 픽셀 값(P)은 대응하는 예측기이며, H₁은 제 1 예측된 픽셀에 대응하는 고역 계수이거나 제 1 예측된 픽셀에 대응하는 나머지 값일 수 있다.

일 실시예에서, 시간 필터링의 리프팅-기반의 구현은 다수의 기준 프레임과, 쌍방향 필터링에 관해 사용된다. 도 8은 전형적인 쌍방향 필터링을 예시한다.

도 8을 참조하면, Y_b11내지 Y_b1N는 픽셀(X₀₁, X₂₁)에 쌍방향으로 연결된다(예를 들어, 이들은 X₀₁과 X₂₁의 가중치 부여된 결합에 최상으로 매칭된다). 또한 픽셀(Y_u11내지 Y_u1M)은 픽셀(X₀₁)에 단방향으로 연결된다. 일 실시예에서, 프레임(1)에서의 픽셀의 시간 필터링은 2개의 단계에서 실시된다.

도 9는 본 발명의 일부 실시예에 따른 쌍방향 필터링에 관한 리프팅 구조를 이용하는 인코딩 공정(900)의 흐름도이다. 공정(900)은 도 1의 MCTF 유닛(108)에 의해 실행될 수 있다. 공정(900)은 하드웨어(예를 들어, 회로, 전용 로직 등), 소프트웨어(범용 컴퓨터 시스템이나 전용 기계 상에서 실행되는 것과 같은) 또는 이들이 결합된 것을 포함할 수 있는 처리 로직에 의해 실시될 수 있다.

처리 블록(902)에서, 처리 로직은 전술한 바와 같은 예측 단계에서처럼, 고역 데이터를 만들기 위해 직교정규 변환을 사용하여 쌍방향 연결된 픽셀을 공동 변환한다. 예를 들어, 쌍방향 연결된 픽셀(Y_b11내지 Y_b1N)은 고역 계수(H_b11 내지 H_b1N)를 만들기 위해 공동 변환될 수 있다. 그러한 필터링에 관해 사용된 전형적인 식은 다음과 같이 될 수 있다:

여기서 α와 β는 픽셀(X₀₁, X₂₁)의 선형 결합에 관해 사용된 가중치이고, D_N ^-1/2A_N는 직교정규 변환 행렬{예를 들어, 수학식 3의 행렬(T)}을 나타내며, 이 경우 D_N ^-1/2은 행렬(A_N)의 행의 기준(norm)을 나타내는 엔트리를 구비한 대각선 행렬이다(직교정규성을 위한).

일 실시예에서, 결과 값(L)은 디코더에 송신되지 않고, 재구성된 픽셀(X₀₁, X₂₁)로부터 복구된다.

그 다음, 처리 로직은 대응하는 저역 데이터와 고역 데이터를 만들기 위해 직교정규 변환을 사용하는 단방향 연결된 픽셀을 공동 변환한다. 예를 들어, 단방향 연결된 픽셀(Y_u11 내지 Y_u1M)은 대응하는 저역 값(L₀₁)과 고역 값(H_u11내지 H_u1M)을 만들기 위해 기준 픽셀과 함께 공동 필터링될 수 있다. 그러한 필터링을 위해 사용된 전형적인 식은 다음과 같이 될 수 있다:

일 실시예에서, 디코더는 역 공정을 사용하는데, 먼저 단방향 연결된 픽셀에 대응하는 값(H_u11 내지 H_u1M)과 L₀₁이, X₀₁과 Y_u11 내지 Y_u1M을 복구하기 위해 역 필터링되고, 이후 쌍방향 연결된 픽셀(Y_b11 내지 Y_b1N)이 역 예측 단계를 사용하여 복구될 수 있다.

당업자라면 공정(900)이 쌍방향 필터링에 제한되지 않고, 일반적인 원칙을 유지하면서 다수의 기준 프레임을 위해 사용될 수 있다는 것을 이해할 것이다.

도 10의 다음 설명은 본 발명을 구현하기에 적합한 컴퓨터 하드웨어와 다른 동작 구성 성분의 개관(overview)을 제공하도록 의도되지만, 적용 가능한 환경을 제한하려고 의도된 것은 아니다. 도 10은 도 1의 인코딩 시스템(100) 또는 단지 MCTF 유닛(108) 또는 공간 변환 유닛(110)으로서 사용하기에 적합한 컴퓨터 시스템의 일 실시예를 예시한다.

컴퓨터 시스템(1040)은 프로세서(1050), 메모리(1055) 및 시스템 버스(1065)에 결합된 입/출력 기능부(capability)를 포함한다. 메모리(1055)는, 프로세서(1050)에 의해 실행될 때, 본 명세서에서 설명된 방법을 실시하는 명령어를 저장하도록 구성된다. 입/출력 기능부(1060)는 또한 프로세서(1050)에 의해 액세스 가능 한 임의의 유형의 저장 디바이스를 포함하는 다양한 유형의 컴퓨터 판독 가능한 매체를 포함한다. 당업자라면 "컴퓨터 판독 가능한 매체"라는 용어가 데이터 신호를 인코딩하는 반송파를 또한 포함하는 것으로 즉시 인지할 것이다. 또한 시스템(1040)은 메모리(1055)에서 실행하는 운영 시스템 소프트웨어에 의해 제어되는 것이 인식될 것이다. 입/출력 기능부 및 관련된 매체(1060)는 본 발명의 운영 시스템과 방법을 위한 컴퓨터 실행 가능한 명령어를 저장한다. 도 1에 도시된 MCTF 유닛(108)이나 공간 변환 유닛(110)은 프로세서(1050)에 결합된 분리 가능한 구성 성분이거나 프로세서(1050)에 의해 실행된 컴퓨터 실행 가능한 명령어로 구현될 수 있다. 일 실시예에서, 컴퓨터 시스템(1040)은 인터넷을 통해 이미지 데이터를 송신 또는 수신하기 위해 입/출력(1060)을 통한 ISP(Internet Service Provider)의 일부이거나 ISP에 결합될 수 있다. 본 발명은 인터넷 액세스와 인터넷 웹-기반의 사이트에 제한되지 않는데, 즉 직접 결합된 네트워크 및 구내망 또한 예상할 수 있음이 쉽사리 분명해진다.

컴퓨터 시스템(1040)은 상이한 아키텍처를 가지는 많은 가능한 컴퓨터 시스템의 일 예임이 인식될 것이다. 통상적인 컴퓨터 시스템은 보통 적어도 1개의 프로세서, 메모리 및 메모리를 프로세서에 결합하는 버스를 포함하게 된다. 당업자라면 본 발명이 멀티프로세서 시스템, 미니컴퓨터, 메인프레임 컴퓨터 등을 포함하는 다른 컴퓨터 시스템 구성으로 실시될 수 있음을 즉시 인식할 것이다. 본 발명은 또한 통신 네트워크를 통해 링크되는 원격 처리 디바이스에 의해 작업이 실시되는 분산 컴퓨팅 환경에서 실시될 수 있다.

최선의 스케일 인자를 선택하는 다양한 양상이 설명되었다. 비록 본 명세서에서는 특정 실시예가 예시되고 설명되었지만, 당업자라면 동일한 목적을 달성하기 위해 계산되는 임의의 배치가, 도시된 특정 실시예를 대체할 수 있음을 인식하게 될 것이다. 본 출원은 본 발명의 임의의 적응 또는 변형을 포함하는 것으로 의도된다.

전술한 바와 같이, 본 발명은 비디오 압축, 특히 비디오 코딩에서의 시공간 변환에 이용 가능하다.

Claims

컴퓨터화된 인코딩 방법으로서,

적어도 1개의 기준 픽셀과 복수의 예측된 픽셀을 포함하는 유사한 픽셀의 세트를 식별하는 단계와,

직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 복수의 계수로 공동 변환하는 단계를 포함하는, 컴퓨터화된 인코딩 방법.
제 1항에 있어서, 상기 유사한 픽셀 세트는 움직임 추정 공정에 의해 한정되는, 컴퓨터화된 인코딩 방법.
제 2항에 있어서, 상기 복수의 계수는 적어도 1개의 저역 계수와 고역 계수의 한 세트를 포함하는, 컴퓨터화된 인코딩 방법.
제 1항에 있어서, 상기 직교정규 변환은 변환 행렬인, 컴퓨터화된 인코딩 방법.
제 4항에 있어서, 상기 변환 행렬은 (n+1)x(n+1)의 크기를 가지고, 여기서 n은 복수의 예측된 픽셀의 개수인, 컴퓨터화된 인코딩 방법.
제 1항에 있어서, 상기 직교정규 변환은 Gram-Schmidt 직교정규화 공정을 사용하여 전개되는, 컴퓨터화된 인코딩 방법.
제 2항에 있어서, 상기 유사한 픽셀의 세트는 다중 연결된 픽셀을 포함하는, 컴퓨터화된 인코딩 방법.
제 2항에 있어서, 상기 적어도 1개의 기준 픽셀은 기준 프레임으로부터의 것이고, 상기 복수의 예측된 픽셀은 예측되는 프레임으로부터의 것인, 컴퓨터화된 인코딩 방법.
제 1항에 있어서, 상기 유사한 픽셀의 세트를 찾는 단계를 더 포함하는, 컴퓨터화된 인코딩 방법.
제 9항에 있어서, 상기 적어도 1개의 기준 픽셀과, 상기 복수의 예측된 픽셀은 예측되는 프레임으로부터의 것인, 컴퓨터화된 인코딩 방법.
제 9항에 있어서, 상기 복수의 계수는 평균 픽셀 값과 나머지 값의 한 세트를 포함하는, 컴퓨터화된 인코딩 방법.
컴퓨터 판독 가능한 매체로서, 프로세서 상에서 실행될 때 프로세서로 하여 금

적어도 1개의 기준 픽셀과 복수의 예측된 픽셀을 포함하는 유사한 픽셀 세트를 식별하는 단계와,

직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 복수의 계수로 공동 변환하는 단계를

포함하는 방법을 수행하게 하는 명령어를 제공하는, 컴퓨터 판독 가능한 매체.
제 12항에 있어서, 상기 복수의 계수는 적어도 1개의 저역 계수와 고역 계수의 한 세트를 포함하는, 컴퓨터 판독 가능한 매체.
제 12항에 있어서, 상기 직교정규 변환은 변환 행렬인, 컴퓨터 판독 가능한 매체.
제 12항에 있어서, 상기 유사한 픽셀의 세트는 다중 연결된 픽셀을 포함하는, 컴퓨터 판독 가능한 매체.
제 12항에 있어서, 상기 적어도 1개의 기준 픽셀과 상기 복수의 예측된 픽셀은 예측되는 프레임으로부터의 것인, 컴퓨터 판독 가능한 매체.
제 16항에 있어서, 상기 복수의 계수는 평균 픽셀 값과 나머지 값의 한 세트를 포함하는, 컴퓨터 판독 가능한 매체.
컴퓨터화된 시스템으로서,

메모리와,

상기 메모리에 결합된 적어도 1개의 프로세서를 포함하고, 상기 적어도 1개의 프로세서는 상기 적어도 1개의 프로세서로 하여금

적어도 1개의 기준 픽셀과 복수의 예측된 픽셀을 포함하는 유사한 픽셀의 세트를 식별하고,

직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 복수의 계수로 공동 변환하게 하는 명령어 세트를 실행하는, 컴퓨터화된 시스템.
제 18항에 있어서, 상기 복수의 계수는 적어도 1개의 저역 계수와 고역 계수의 한 세트를 포함하는, 컴퓨터화된 시스템.
제 18항에 있어서, 상기 직교정규 변환은 변환 행렬인, 컴퓨터화된 시스템.
제 18항에 있어서, 상기 유사한 픽셀의 세트는 다중 연결된 픽셀을 포함하는, 컴퓨터화된 시스템.
제 21항에 있어서, 상기 적어도 1개의 기준 픽셀은 기준 프레임으로부터의 것이고, 상기 복수의 예측된 픽셀은 예측되는 프레임으로부터의 것인, 컴퓨터화된 시스템.
제 18항에 있어서, 상기 적어도 1개의 기준 픽셀과 상기 복수의 예측된 픽셀은 예측되는 프레임으로부터의 것인, 컴퓨터화된 시스템.
제 23항에 있어서, 상기 복수의 계수는 평균 픽셀 값과 나머지 값의 한 세트를 포함하는, 컴퓨터화된 시스템.
인코딩 장치로서,

적어도 1개의 기준 픽셀과 복수의 예측된 픽셀을 포함하는 유사한 픽셀의 세트를 식별하기 위한 수단과,

직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 복수의 계수로 공동 변환하기 위한 수단을

포함하는, 인코딩 장치.