KR101703362B1

KR101703362B1 - 암시적 모션 예측을 이용한 예측 리파인먼트를 위한 방법들 및 장치들

Info

Publication number: KR101703362B1
Application number: KR1020117007805A
Authority: KR
Inventors: 윤페이 젱; 오스카 디보르라 에스코다; 펭 인; 요엘 솔레
Original assignee: 톰슨 라이센싱
Priority date: 2008-09-04
Filing date: 2009-09-01
Publication date: 2017-02-06
Also published as: JP5978329B2; US20110158320A1; JP2012502552A; WO2010027457A1; KR20110065503A; TWI530194B; TW201016020A; CN102204254A; EP2321970A1; BRPI0918478A2; JP2015084597A; CN102204254B

Abstract

암시적 모션 예측을 이용한 예측 리파인먼트를 위한 방법들 및 장치들이 제공된다. 장치는 이미지 블록(920)에 대한 코어스 예측을 생성하기 위하여 명시적 모션 예측을 이용하고 코어스 예측(925)을 리파인하기 위하여 암시적 모션 예측을 이용하여 이미지 블록을 인코딩하기 위한 인코더를 포함한다.

Description

암시적 모션 예측을 이용한 예측 리파인먼트를 위한 방법들 및 장치들{METHODS AND APPARATUS FOR PREDICTION REFINEMENT USING IMPLICIT MOTION PREDICTION}

관련 출원들에 대한 교차 참조

본 출원은 인용에 의해 그 전체가 여기에 포함되는 2008년 9월 4일자 출원된 미국 가특허출원 제61/094, 295호의 혜택을 주장한다.

본 발명은 일반적으로 비디오 인코딩 및 디코딩에 관한 것으로서, 구체적으로는, 암시적 모션 예측을 이용한 예측 리파인먼트를 위한 방법들 및 장치들에 관한 것이다.

대부분의 현존 비디오 코딩 표준들은 블록 기반 모션 보상에 의해 시간적 리던던시(temporal redundancy)의 존재를 이용한다. 이러한 표준의 일 예로서 ISO/IEC(International Organization for Standardization/International Electrotechnical Commission) MPEG-4(Moving Picture Experts Group-4) 파트 10 AVC(Advanced video Coding) 표준/ITU-T(International Telecommunication Union, Telecommunication Sector) H.264 권장(이후 "MPEG-4 AVC 표준"이라 함)가 있다.

시간적 리던던시의 존재를 이용하는 이러한 블록 기반 모션 보상은, 명시적으로 보조 정보(side information), 즉 모션 정보를 송신함으로써 예측 신호가 획득되는 순방향 모션 예측(forward motion prediction)의 한 종류로 생각될 수 있다. MC(motion compensation)의 장점보다 더 크지 않도록 오버헤드를 최소화하기 위해, 코어스 모션(coarse motion) 필드(블록 기반)가 종종 이용된다. 공지의 LSP(least-square Prediction)과 같은 역방향 모션 예측은 모션 벡터들을 송신할 필요를 방지할 수 있다. 그러나, 결과적인 예측 성능은 모델 파라미터 설정들(예를 들어, 트레이닝 윈도우 및 필터 서포트의 토폴로지)에 크게 의존한다. LSP 방법에서, 모델 파라미터들은 로컬 모션 특성들에 적응되도록 요망된다. 여기에서, "순방향 모션 예측"은 "명시적 모션 예측(explicit motion prediction)"과 동의어로(상호교환적으로) 사용된다. 유사하게, "역방향 모션 예측"은 "암시적 모션 예측"과 동의어로(상호교환적으로) 사용된다.

인터 예측( Inter - Prediction )

비디오 코딩에서, 타깃 프레임과 레퍼런스 프레임들 간의 시간적 리던던시를 감소시키기 위하여 인터 예측이 광범위하게 이용된다. 모션 추정/보상은 인터 예측에서 주요 컴포넌트이다. 일반적으로, 모션 모델들 및 이들의 대응하는 모션 추정 기술들을 두 개의 카테고리로 분류할 수 있다. 첫 번째 카테고리는 명시적 모션 표현(explicit motion representation)(모션 벡터)에 기초하는 순방향 예측이다. 이 접근법에서 모션 벡터는 명시적으로 송신될 것이다. 두 번째 카테고리는 모션 정보가 모션 벡터에 의해 명시적으로 표현되지 않는 대신 암시적 방식(implicit fashion)으로 이용되는 역방향 예측이다. 역방향 예측에서, 모션 벡터가 송신되지 않지만 대응하는 디코더에서 시간적 리던던시가 또한 이용될 수 있다.

도 1을 참조해보면, 블록 매칭을 포함하는 예시적인 순방향 모션 추정 스킴은 일반적으로 참조부호 100으로 표시된다. 순방향 모션 추정 스킴(100)은 검색 영역(101) 및 검색 영역(101) 내의 예측(102)을 갖는 재구성된 레퍼런스 프레임(110)을 포함한다. 순방향 모션 추정 스킴(100)은 또한 타깃 블록(151) 및 재구성된 영역(152)을 갖는 현재 프레임(150)을 포함한다. 타깃 블록(151)과 예측(102) 간의 모션을 나타내기 위해 모션 벡터 Mv가 이용된다.

순방향 예측 접근법(100)은 위에서 기술된 첫 번째 카테고리에 대응하고, 공지되어 있으며, 예를 들어, MPEG-4 AVC 표준과 같은 현재의 비디오 코딩 표준들에서 채택된다. 첫 번째 카테고리는 보통 두 단계로 수행된다. 타깃(현재) 블록(151)과 레퍼런스 프레임들(예를 들어, 110) 간의 모션 벡터들이 추정된다. 그리고 나서, 모션 벡터(모션 벡터 Mv)가 코딩되고 명시적으로 디코더에 송신된다. 디코더에서, 모션 정보가 디코딩되고 이전에 디코딩된 재구성된 레퍼런스 프레임들로부터 타깃 블록(151)을 예측하는 데에 이용된다.

두 번째 카테고리는 모션 정보를 비트스트림 내에 명시적으로 코딩하지 않는 예측 방법들의 클래스를 의미한다. 대신에, 인코더에서 수행되는 것과 같이 디코더에서 동일한 모션 정보 도출이 수행된다. 실제의 한 역방향 예측 스킴은 LSP(least-square prediction)가 적용되는 로컬라이즈된 공간-시간 자기회귀 모델(localized spatial-temporal auto-regressive model)의 한 종류를 이용하는 것이다. 다른 접근법은 템플릿 매칭 예측 스킴과 같은 패치 기반 접근법을 이용하는 것이다. 도 2를 참조해보면, TMP(template matching prediction)을 포함하는 예시적인 역방향 모션 추정 스킴은 일반적으로 참조부호 200으로 표시된다. 역방향 모션 추정 스킴(200)은 검색 영역(211), 검색 영역(211) 내의 예측(212), 및 예측(212)에 대한 네이버후드(neighborhood, 213)를 갖는 재구성된 레퍼런스 프레임(210)을 포함한다. 역방향 모션 추정 스킴(200)은 또한 타깃 블록(251), 타깃 블록(251)에 대한 템플릿(252), 및 재구성된 영역(253)을 갖는 현재 프레임(250)을 포함한다.

일반적으로, 순방향 예측의 성능은 송신된 오버헤드의 양 및 블록 사이즈를 예측하는 것에 크게 의존한다. 블록 사이즈가 감소되는 경우, 각각의 블록에 대한 오버헤드의 코스트(cost)가 증가되는데, 이것은 부드럽고 고정된(smooth and rigid) 모션을 예측하는 경우에만 순방향 예측이 양호하도록 제한한다. 역방향 예측에서, 오버헤드가 송신되지 않으므로, 블록 사이즈는 추가적인 오버헤드를 초래하지 않으면서 감소될 수 있다. 따라서, 역방향 예측은 변형 가능한 모션과 같은 복잡한 모션들에 대하여 더욱 적합하다.

MPEG -4 AVC 표준 인터 예측

MPEG-4 AVC 표준은 트리 구조의 계층적 매크로블록 파티션들을 이용한다. 인터코딩된(inter-coded) 16×16 픽셀 매크로블록들은 16×8, 8×16, 또는 8×8 사이즈들의 매크로블록 파티션들로 세분될 수 있다. 8×8 픽셀들의 매크로블록 파티션들은 또한 서브-매크로블록들로 공지되어 있다. 서브-매크로블록들은 또한 8×4, 4×8, 및 4×4 사이즈들의 서브-매크로블록 파티션들로 세분될 수 있다. 인코더는 압축 효율 및 주관적 퀄리티(subjective quality)를 최대화하기 위하여, 특정 매크로블록의 특성에 기초하여 특정 매크로 블록을 어떻게 파티션들 및 서브 매크로블록 파티션들로 분할할 것인지 선택할 수 있다.

복수의 레퍼런스 픽처들 중 어느 것이 이용되는 지를 나타내도록 코딩된 레퍼런스 픽처 인덱스와 함께, 복수의 레퍼런스 픽처들이 인터 예측을 위하여 이용될 수 있다. P 픽처들(또는 P 슬라이스들)에서, 오직 단일 방향 예측이 이용되며, 허용 가능한 레퍼런스 픽처들은 리스트 0 내에서 관리된다. B 픽처들(또는 B 슬라이스들)에서, 레퍼런스 픽처들의 두 개의 리스트, 즉 리스트 0 및 리스트 1이 관리된다. B 픽처들(또는 B 슬라이스들)에서, 리스트 0 또는 리스트 1을 이용하는 단일방향 예측이 허용되거나, 리스트 0 및 리스트 1 둘 다를 이용하는 양방향 예측이 허용된다. 양방향 예측이 이용되는 경우, 리스트 0 및 리스트 1 예측자들(predictors)은 함께 평균화되어 최종 예측자를 형성한다.

각각의 매크로블록 파티션은 독립 레퍼런스 픽처 인덱스, 예측 타입(리스트 0, 리스트 1, 또는 양방향 예측), 및 독립 모션 벡터를 가질 수 있다. 각각의 서브-매크로블록 파티션은 독립 모션 벡터들을 가질 수 있지만, 동일 서브-매크로블록 내의 모든 서브 매크로블록 파티션들은 동일한 레퍼런스 픽처 인덱스 및 예측 타입을 이용한다.

MPEG-4 AVC JM(Joint Model) 레퍼런스 소프트웨어에서, 모드 결정을 위하여 RDO(Rate-Distortion Optimization) 프레임워크가 이용된다. 인터 모드들에 대하여, 모션 추정은 모드 결정과 분리되어 고려된다. 인터 모드들의 모든 블록 타입들에 대하여 먼저 모션 추정이 수행되고, 그 후 각각의 인터 모드 및 인트라 모드의 코스트를 비교함으로써 모드 결정이 이루어진다. 최소 코스트를 갖는 모드가 최적 모드로서 선택된다.

P-프레임들에 대하여, 아래의 모드들이 선택될 수 있다:

B-프레임들에 대하여, 아래의 모드들이 선택될 수 있다:

그러나, 현재 블록 기반 표준들은 그러한 표준들의 압축 효율을 증가시키는 예측들을 제공하기는 하지만, 특히 변화하는 조건들 하에서, 압축 효율을 더 증가시키기 위하여 예측 리파인먼트(prediction refinement)가 요망된다.

발명의 개요

종래기술의 이러한 및 다른 결점들 및 단점들은 암시적 모션 예측을 이용하는 예측 리파인먼트를 위한 방법들 및 장치들에 관한 본 발명의 원리들에 의해 다루어진다.

본 발명의 일 양태에 따라, 장치가 제공된다. 이 장치는 이미지 블록에 대한 코어스 예측을 생성하기 위하여 명시적 모션 예측을 이용하고 코어스 예측을 리파인(refine)하기 위하여 암시적 모션 예측을 이용하여 이미지 블록을 인코딩하기 위한 인코더를 포함한다.

본 발명의 다른 양태에 따라, 이미지 블록을 인코딩하기 위한 인코더가 제공된다. 인코더는 명시적 모션 예측을 수행하여 이미지 블록에 대한 코어스 예측을 생성하기 위한 모션 추정기를 포함한다. 인코더는 또한 암시적 모션 예측을 수행하여 코어스 예측을 리파인하기 위한 예측 리파이너(refiner)를 포함한다.

본 발명의 또 다른 양태에 따라, 비디오 인코더에서 이미지 블록을 인코딩하기 위한 방법이 제공된다. 이 방법은 명시적 모션 예측을 이용하여 이미지 블록에 대한 코어스 예측을 생성하는 단계를 포함한다. 상기 방법은 또한 암시적 모션 예측을 이용하여 코어스 예측을 리파인하는 단계를 포함한다.

본 발명의 또 다른 양태에 따라, 장치가 제공된다. 이 장치는 명시적 모션 예측을 이용하여 생성된 이미지 블록에 대한 코어스 예측을 수신하고 암시적 모션 예측을 이용하여 코어스 예측을 리파인하는 것에 의해 이미지 블록을 디코딩하기 위한 디코더를 포함한다.

본 발명의 또 다른 양태에 따라, 이미지 블록을 디코딩하기 위한 디코더가 제공된다. 디코더는 명시적 모션 예측을 이용하여 생성된 이미지 블록에 대한 코어스 예측을 수신하고 암시적 모션 예측을 이용하여 코어스 예측을 리파인하기 위한 모션 보상기를 포함한다.

본 발명의 또 다른 양태에 따라, 비디오 디코더에서 이미지 블록을 디코딩하기 위한 방법이 제공된다. 이 방법은 명시적 모션 예측을 이용하여 생성된 이미지 블록에 대한 코어스 예측을 수신하는 단계를 포함한다. 상기 방법은 또한 암시적 모션 예측을 이용하여 코어스 예측을 리파인하는 단계를 포함한다.

본 발명의 이러한 및 다른 양태들, 특징들 및 장점들은 첨부도면들과 연계하여 설명될 이하의 예시적인 실시예들에 대한 상세한 설명으로부터 명확할 것이다.

본 발명은 이하의 예시적인 도면들에 따라 더 잘 이해될 수 있다.
도 1은 블록 매칭을 포함하는 예시적인 순방향 모션 추정 스킴을 도시하는 블록도이다.
도 2는 TMP(template matching prediction)를 포함하는 예시적인 역방향 모션 추정 스킴을 도시하는 블록도이다.
도 3은 LSP(least-square prediction)를 이용하는 예시적인 역방향 모션 추정 스킴을 도시하는 블록도이다.
도 4는 블록 기반 LSP의 일 예를 도시하는 블록도이다.
도 5는 본 발명의 일 실시예에 따라, 본 발명이 적용될 수 있는 예시적인 비디오 인코더를 도시하는 블록도이다.
도 6은 본 발명의 일 실시예에 따라, 본 발명이 적용될 수 있는 예시적인 비디오 디코더를 도시하는 블록도이다.
도 7a 및 도 7b는 본 발명의 일 실시예에 따른, 예측 리파인먼트에 대한 픽셀 기반 LSP의 일 예를 도시하는 블록도들이다.
도 8은 본 발명의 일 실시예에 따른, 예측 리파인먼트에 대한 블록 기반 LSP의 일 예를 도시하는 블록도이다.
도 9는 본 발명의 일 실시예에 따라, LSP를 이용하는 예측 리파인먼트를 이용하여 이미지 블록에 대한 비디오 데이터를 인코딩하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 10은 본 발명의 일 실시예에 따라, LSP를 이용하는 예측 리파인먼트를 이용하여 이미지 블록에 대한 비디오 데이터를 디코딩하기 위한 예시적인 방법을 도시하는 흐름도이다.

본 발명은 암시적 모션 예측을 이용하는 예측 리파인먼트를 위한 방법들 및 장치들에 관한 것이다.

본 설명은 본 발명을 예시한다. 따라서 당업자들은 여기에 명시적으로 설명되거나 도시되지 않더라도, 본 발명을 구현하고 그 취지 및 범주 내에 포함되는 다양한 구성들을 생각해낼 수 있는 것이 이해될 것이다.

여기에 기재된 모든 예시들 및 조건부 언어들은 본원의 발명자들이 기술을 발전시키는 데에 기여한 본 발명의 원리들 및 개념들을 독자가 이해하는 것을 돕기 위한 교육을 목적으로 하며, 이와 같이 구체적으로 기재된 예시들 및 조건들로 제한되지 않는 것으로 해석되어야 한다.

또한, 본 발명의 원리들, 양태들 및 실시예들뿐만 아니라 이들의 구체적인 예들을 기재하는 모든 표현들은 구조적 및 기능적 균등물들을 모두 포함하는 것이 의도된다. 또한, 이러한 균등물들은 현재 공지된 균등물들뿐만 아니라 장래에 개발되는 균등물들(즉, 구조에 상관없이 동일한 기능을 수행하도록 개발된 임의의 구성요소들)을 모두 포함하는 것이 의도된다.

따라서, 예를 들어, 여기에 제시된 블록도들은 본 발명을 구현하는 예시적인 회로의 개념적인 보기들을 나타내는 것을 당업자들은 이해할 것이다. 유사하게, 임의의 흐름 차트들, 흐름도들, 상태 전환도들, 의사코드(pseudocode) 등은 실질적으로 컴퓨터 판독 가능한 매체 내에서 표현되어 컴퓨터 또는 프로세서에 의해 실행될 수 있는(이러한 컴퓨터 또는 프로세서가 명시적으로 도시되어 있는지와 무관하게) 다양한 프로세스들을 나타내는 것이 이해될 것이다.

도면들에 도시된 다양한 구성요소들의 기능들은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 협력하여 소프트웨어를 실행할 수 있는 하드웨어를 이용하여 제공될 수 있다. 프로세서에 의해 제공되는 경우, 상기 기능들은 단일의 전용 프로세서, 단일의 공유된 프로세서, 또는 복수의 개별 프로세서들(이들 중 일부는 공유될 수 있음)에 의해 제공될 수 있다. 또한, "프로세서" 또는 "제어기"라는 용어의 명시적인 사용은 소프트웨어를 실행할 수 있는 하드웨어를 배타적으로 의미하는 것으로 해석되어서는 안되며, 제한 없이, DSP(digital signal processor) 하드웨어, 소프트웨어를 저장하기 위한 ROM(read-only memory), RAM(random access memory) 및 비휘발성 스토리지를 암시적으로 포함할 수 있다.

종래 및/또는 주문 제작된(conventional and/or custom) 다른 하드웨어가 또한 포함될 수 있다. 유사하게, 도면들에 도시된 임의의 스위치들은 단지 개념적인 것이다. 이들의 기능은 프로그램 로직의 동작을 통하거나, 전용 로직을 통하거나, 프로그램 제어 및 전용 로직의 상호작용을 통하거나, 또는 수동으로 수행될 수 있으며, 특정 기술이 기술의 맥락(context)으로부터 더욱 구체적으로 이해됨에 따라 구현자에 의해 선택 가능하다.

본원의 청구범위에서, 특정 기능을 수행하기 위한 수단으로서 표현된 임의의 구성요소는, 예를 들어, a) 그 기능을 수행하는 회로 구성요소들의 결합 또는 b) 그 기능을 수행하는 소프트웨어를 실행하기 위하여 적절한 회로와 결합된 펌웨어, 마이크로코드 등을 포함하는 임의의 형태의 소프트웨어를 포함하여, 그 기능을 수행하는 어떠한 방식도 포함하는 것이 의도된다. 이러한 청구범위에 의해 한정된 바와 같은 본 발명은 다양하게 기재된 수단에 의해 제공된 기능들이 청구범위가 요구하는 방식으로 서로 조합되고 결합된다는 사실에 있다. 따라서, 그러한 기능들을 제공할 수 있는 어떠한 수단도 여기에 도시된 수단들과 균등물인 것으로 간주된다.

명세서에서 본 발명의 "일 실시예" 또는 "실시예"를 언급하는 것, 및 이에 대한 다른 변형들은 실시예와 연관하여 기술된 특정한 특징, 구조, 특성 등이 본 발명의 적어도 하나의 실시예에 포함되는 것을 의미한다. 따라서, 명세서에 걸쳐 다양한 곳들에서 나타나는 어구 "일 실시예에서" 또는 "실시예에서", 및 임의의 다른 변형들의 출현은 반드시 모두가 동일한 실시예를 의미하는 것은 아니다.

예를 들어, "A/B", "A 및/또는 B" 및 "A 및 B 중 적어도 하나"의 경우들에서 "/", "및/또는", 및 "~ 중 적어도 하나" 중 어느 하나를 이용하는 것은 첫 번째 열거된 옵션(A)만의 선택, 두 번째 열거된 옵션(B)만의 선택, 또는 두 옵션들 모두(A 및 B)의 선택을 포함하는 것이 의도되는 것이 이해되어야 한다. 다른 예로서, "A, B, 및/또는 C" 및 "A, B, 및 C 중 적어도 하나"의 경우들에서, 이러한 문구는 첫 번째 열거된 옵션(A)만의 선택, 두 번째 열거된 옵션(B)만의 선택, 또는 세 번째 열거된 옵션(C)만의 선택, 또는 첫 번째 및 두 번째 열거된 옵션들(A 및 B)만의 선택, 첫 번째 및 세 번째 열거된 옵션들(A 및 C)의 선택, 또는 두 번째 및 세 번째 열거된 옵션들(B 및 C)만의 선택, 또는 모든 세 옵션들(A 및 B 및 C)의 선택을 포함하는 것이 의도된다. 이것은, 당업자에게 자명한 바와 같이, 많은 아이템들이 열거되는 경우에 확장될 수 있다.

여기에서 사용된 바와 같이, 문구 "이미지 블록"은 매크로블록, 매크로블록 파티션, 서브-매크로블록, 및 서브-매크로블록 파티션 중 어느 하나를 의미한다.

위에서 기술된 바와 같이, 본 발명은 암시적 모션 예측을 이용하는 예측 리파인먼트를 위한 방법들 및 장치들에 관한 것이다. 본 발명에 따라, 순방향(모션 보상) 및 역방향(예를 들어, LSP(least-square prediction)) 예측 접근들을 결합하여 명시적 및 암시적 모션 표현들 모두를 이용하는 비디오 예측 기술들이 제안된다.

따라서, LSP를 이용한 예측 리파인먼트의 설명에 이어서, LSP에 대한 설명이 후속될 것이다.

LSP( Least - square Prediction)

LSP는 타깃 블록 또는 픽셀을 예측하기 위한 역방향 기반 접근법으로서, 암시적 방식으로 모션 정보를 이용하며 또한 어떠한 모션 벡터들도 대응 디코더에 대한 오버헤드로서 송신할 필요가 없다.

더욱 상세하게는, LSP는 예측을 시공간적 자기회귀(spatio-temporal auto-regression) 문제(즉, 타깃 픽셀의 세기 값은 시공간 네이버들(neighbors)의 선형 결합에 의해 추정될 수 있음)로서 나타낸다. 로컬 모션 정보를 암시적으로 전달하는 회귀 계수들(regression coefficients)은 시공간 트레이닝 윈도우 내의 로컬라이즈된 학습에 의해 추정될 수 있다. 시공간 자기회귀 모델 및 로컬라이즈된 학습은 다음과 같이 동작한다.

이산 비디오 소스(discrete video source)를 나타내기 위해 X(x,y,t)를 이용하기로 하며, 여기에서

는 공간 좌표들이고

는 프레임 인덱스이다. 간단히 하기 위해, 시공간적 공간 내의 픽셀의 위치를 벡터

로 나타내고, 그것의 시공간적 네이버들의 위치를

(시공간적 네이버후드 N 내의 픽셀들의 수는 본 모델의 차수(order)임)으로 나타낸다.

● 시공간 자기회귀 모델(Spatio-Temporal Auto-Regression Model)

LSP에서, 타깃 픽셀의 세기 값은 그 인접 픽셀들의 선형 결합으로서 나타내어진다. 도 3을 참조해보면, LSP를 이용하는 예시적인 역방향 모션 추정 스킴은 일반적으로 참조부호 300으로 표시된다. 타깃 픽셀 X는 사선 해치 패턴(diagonal hatch pattern)을 갖는 타원형으로 표시된다. 역방향 모션 추정 스킴(300)은 K 프레임(310) 및 K-1 프레임(350)을 포함한다. 타깃 픽셀 X의 인접 픽셀들 Xi는 교차 해치 패턴(cross hatch pattern)을 갖는 타원형들로 표시된다. 트레이닝 데이터 Yi는 수평 해치 패턴을 갖는 타원형들 및 교차 해치 패턴을 갖는 타원형들로 표시된다. 도 3의 예에 관련된 자기회귀 모델은 다음과 같다:

여기에서

는 타깃 픽셀 X의 추정이고,

는 결합 계수들이다. 네이버의 토폴로지(필터 서포트)는 공간 및 시간적으로 재구성된 픽셀들 모두를 포함하도록 플렉시블하게 될 수 있다. 도 3은 9개의 (K-1 프레임 내의)시간적으로 콜로케이트된 픽셀들(temporal collocated pixels) 및 (K 프레임 내의)4개의 공간적 인과관계를 갖는 인접 픽셀들(4 spatial causal neighboring pixels)을 포함하는 네이버 데피니션(neighbor definition)의 한 유형에 대한 일 예를 도시한다.

● 시공간 로컬라이즈된 학습(Spatio-Temporal Localized Learning)

비디오 소스의 비정지성(non-stationary)에 기초하여,

는 모든 비디오 신호에 대하여 균일한 것으로 가정되는 것 대신에 시공간적 공간 내에서 적응적으로 업데이트되어야 하는 것을 주장한다.

를 적응시키는 한 방법은 아래와 같이 로컬 시공간 트레이닝 윈도우 M 내에서 MSE(mean square error)를 최소화시키는 위너(wiener)의 고전적 아이디어를 따르는 것이다:

트레이닝 윈도우에는 M개의 샘플들이 있는 것으로 가정한다. 모든 트레이닝 샘플들을 M×1 벡터

로 기입할 수 있다. 각각의 트레이닝 샘플에 대한 N개의 네이버들을 1×N 로우(row) 백터에 넣으면, 모든 트레이닝 샘플들은 M×N 사이즈의 데이터 행렬 C를 생성한다. 로컬 최적 필터 계수들

의 도출은 아래의 최소 자승 문제(least-square problem)로 나타내어진다:

트레이닝 윈도우 사이즈 M이 필터 서포트 사이즈 N보다 더 큰 경우, 상기 문제는 중복결정되어(overdetermined) 아래의 클로즈-형태 솔루션(close-form solution)을 인정한다.

상기 이론은 픽셀 기반이지만, LSP는 매우 용이하게 블록 기반 예측으로 확장될 수 있다. 예측될 타깃 블록을 나타내기 위해

를 이용하고,

는 도 4에 도시된 바와 같이 중첩된 인접 블록들이 되도록 한다. 도 4를 참조해보면, 블록 기반 LSP의 일 예가 일반적으로 참조부호 400에 의해 표시된다. 블록 기반 LSP(400)는 인접 블록들(401)을 갖는 레퍼런스 프레임(410) 및 트레이닝 블록들(451)을 갖는 현재 프레임(450)을 포함한다. 인접 블록들(401)은 또한 참조부호들 X₁ 내지 X₉로 표시된다. 타깃 블록은 참조부호 X0로 표시된다. 트레이닝 블록들(451)은 참조부호들 Y_i, Y₁ 및 Y₁₀으로 표시된다.

그 후, 블록 기반 회귀는 다음과 같이 될 것이다:

인접 블록들 및 트레이닝 블록들은 도 4에서와 같이 정의된다. 이런 경우, 수학식 4에서와 같이 계수들의 유사한 솔루션을 도출하는 것이 용이하다.

● 모션 적응

수학식 1 또는 수학식 5의 모델링 능력은 필터 서포트 및 트레이닝 윈도우의 선택에 크게 의존한다. 비디오의 모션 정보를 캡처링하는 경우, 필터 서포트 및 트레이닝 윈도우의 토폴로지는 공간 및 시간 모두의 모션 특성에 적응해야 한다. 비디오 신호 내의 모션 정보의 비정지성(non-stationary nature)으로 인해, 필터 서포트 및 트레이닝 윈도우의 적응적 선택이 바람직하다. 예를 들어, 느린 모션 영역에서, 도 3에 도시된 필터 서포트 및 트레이닝 윈도우로 충분하다. 그러나, 이런 유형의 토폴로지는 빠른 모션을 캡처링하는 데에는 적합하지 않은데, 그 이유는 콜로케이트된 트레이닝 윈도우(collocated training window) 내의 샘플들은 상이한 모션 특성들을 가질 수도 있었기 때문이며, 이는 로컬라이즈된 학습이 실패하게 만든다. 일반적으로 필터 서포트 및 트레이닝 윈도우는 모션 궤적 배향(motion trajectory orientation)과 정렬되어야 한다.

모션 적응을 실현하기 위하여 두 가지 솔루션들이 이용될 수 있다. 하나는 모션 분할(motion segmentation)에 기초하여 비디오 신호의 층을 이루는 표현(layered representation)을 획득하는 것이다. 각각의 층에서는, 한 층 내의 모든 샘플들은 동일한 모션 특성을 공유하므로, 필터 서포트 및 트레이닝 윈도우의 고정된 토폴로지가 이용될 수 있다. 그러나, 이러한 적응 전략(adaptation strategy)은 반드시 모션 분할을 포함하는데, 이것은 또 다른 힘든 문제이다.

다른 솔루션은 시공간 리샘플링(spatio-temporal resampling) 및 경험적 베이시언 융합 기술들(empirical Bayesian fusion techniques)을 이용하여 모션 적응을 실현하는 것이다. 리샘플링은 분포된 시공간 특성들을 갖는 비디오 신호들의 리던던트 표현을 생성하는데, 이는 많은 생성된 리샘플들을 포함한다. 각각의 리샘플에서, 상기 필터 서포트의 고정된 토폴로지 및 트레이닝 윈도우를 갖는 상기 LSP 모델을 적용하면 회귀 결과(regression result)를 획득할 수 있다. 최종 예측은 리샘플 세트로부터의 모든 회귀 결과들의 융합(fusion)이다. 이 접근법은 매우 양호한 예측 성능을 획득할 수 있다. 그러나, 코스트는 각각의 리샘플에 대하여 LSP를 적용함으로써 초래된 극히 높은 복잡도인데, 이는 실제 비디오 압축에 대하여 LSP를 적용하는 것을 제한한다.

도 5를 참조해보면, 본 발명이 적용될 수 있는 예시적인 비디오 인코더가 일반적으로 참조부호 500에 의해 표시된다. 비디오 인코더(500)는 결합기(combiner, 585)의 비반전 입력과 신호 통신하는 출력을 갖는 프레임 오더링 버퍼(510)를 포함한다. 결합기(585)의 출력은 변환기 및 양자화기(transformer and quantizer, 525)의 제1 입력과 신호 통신 연결된다. 변환기 및 양자화기(525)의 출력은 엔트로피 코더(545)의 제1 입력 및 역변환기 및 역양자화기(inverse transformer and inverse quantizer, 550)의 제1 입력과 신호 통신 연결된다. 엔트로피 코더(545)의 출력은 결합기(590)의 제1 비반전 입력과 신호 통신 연결된다. 결합기(590)의 출력은 출력 버퍼(535)의 제1 입력과 신호 통신 연결된다.

인코더 제어기(encoder controller, 505)의 제1 출력은 프레임 오더링 버퍼(510)의 제2 입력, 역변환기 및 역양자화기(550)의 제2 입력, 픽처-타입 결정 모듈(picture-type decision module, 515)의 입력, MB-타입(macroblock-type) 결정 모듈(520)의 입력, 인트라 예측 모듈(intra prediction module, 560)의 제2 입력, 디블로킹 필터(565)의 제2 입력, (LSP 리파인먼트를 갖는) 모션 보상기(570)의 제1 입력, 모션 추정기(575)의 제1 입력, 및 레퍼런스 픽처 버퍼(580)의 제2 입력과 신호 통신 연결된다. 인코더 제어기(505)의 제2 출력은 SEI(Supplemental Enhancement Information) 인서터(530)의 제1 입력, 변환기 및 양자화기(525)의 제2 입력, 엔트로피 코더(545)의 제2 입력, 출력 버퍼(535)의 제2 입력, 및 SPS(Sequence Parameter Set) 및 PPS(Picture Parameter Set) 인서터(540)의 입력과 신호 통신 연결된다. 인코더 제어기(505)의 제3 출력은 LSP 모듈(533)의 제1 입력과 신호 통신 연결된다.

픽처-타입 결정 모듈(515)의 제1 출력은 프레임 오더링 버퍼(510)의 제3 입력과 신호 통신 연결된다. 픽처-타입 결정 모듈(515)의 제2 출력은 매크로블록-타입 결정 모듈(520)의 제2 입력과 신호 통신 연결된다.

SPS(Sequence Parameter Set) 및 PPS(Picture Parameter Set) 인서터(540)의 출력은 결합기(590)의 제3 비반전 입력과 신호 통신 연결된다.

역양자화기 및 역변환기(550)의 출력은 결합기(519)의 제1 비반전 입력과 신호 통신 연결된다. 결합기(519)의 출력은 인트라 예측 모듈(560)의 제1 입력 및 디블로킹 필터(565)의 제1 입력과 신호 통신 연결된다. 디블로킹 필터(565)의 출력은 레퍼런스 픽처 버퍼(580)의 제1 입력과 신호 통신 연결된다. 레퍼런스 픽처 버퍼(580)의 출력은 모션 추정기(575)의 제2 입력, LSP 리파인먼트 모듈(533)의 제2 입력, 및 모션 보상기(570)의 제3 입력과 신호 통신 연결된다. 모션 추정기(575)의 제1 출력은 모션 보상기(570)의 제2 입력과 신호 통신 연결된다. 모션 추정기(575)의 제2 출력은 엔트로피 코더(545)의 제3 입력과 신호 통신 연결된다. 모션 추정기(575)의 제3 출력은 LSP 모듈(533)의 제3 입력과 신호 통신 연결된다. LSP 모듈(533)의 출력은 모션 보상기(570)의 제4 입력과 신호 통신 연결된다.

모션 보상기(570)의 출력은 스위치(597)의 제1 입력과 신호 통신 연결된다. 인트라 예측 모듈(560)의 출력은 스위치(597)의 제2 입력과 신호 통신 연결된다. 매크로블록-타입 결정 모듈(520)의 출력은 스위치(597)의 제3 입력과 신호 통신 연결된다. 스위치(597)의 제3 입력은 스위치의 "데이터"입력(제어 입력, 즉,제3 입력과 비교해서)이 모션 보상기(570)에 의해 제공되는지 또는 인트라 예측 모듈(560)에 의해 제공되는지 여부를 결정한다. 스위치(597)의 출력은 결합기(519)의 제2 비반전 입력 및 결합기(585)의 반전 입력과 신호 통신 연결된다.

입력 픽처를 수신하기 위하여, 프레임 오더링 버퍼(510) 및 인코더 제어기(505)의 입력들이 인코더(500)의 입력으로서 이용 가능하다. 또한, 메타데이터를 수신하기 위하여, SEI(Supplemental Enhancement Information) 인서터(530)의 입력이 인코더(500)의 입력으로서 이용 가능하다. 비트스트림을 출력하기 위하여, 출력 버퍼(535)의 출력은 인코더(500)의 출력으로서 이용 가능하다.

도 6을 참조해보면, 본 발명이 적용될 수 있는 예시적인 비디오 디코더는 일반적으로 레퍼런스 참조부호 600으로 표시된다.

비디오 디코더(600)는 엔트로피 디코더(645)의 제1 입력과 신호 통신 연결된 출력을 갖는 입력 버퍼(610)를 포함한다. 엔트로피 디코더(645)의 제1 출력은 역변환기 및 역양자화기(650)의 제1 입력과 신호 통신 연결된다. 역변환기 및 역양자화기(650)의 출력은 결합기(625)의 제2 비반전 입력과 신호 통신 연결된다. 결합기(625)의 출력은 디블로킹 필터(665)의 제2 입력 및 인트라 예측 모듈(660)의 제1 입력과 신호 통신 연결된다. 디블로킹 필터(665)의 제2 출력은 레퍼런스 픽처 버퍼(680)의 제1 입력과 신호 통신 연결된다. 레퍼런스 픽처 버퍼(680)의 출력은 모션 보상기 및 LSP 리파인먼트 예측기(670)의 제2 입력과 신호 통신 연결된다.

엔트로피 디코더(645)의 제2 출력은 모션 보상기 및 LSP 리파인먼트 예측기(670)의 제3 입력 및 디블로킹 필터(665)의 제1 입력과 신호 통신 연결된다. 엔트로피 디코더(645)의 제3 출력은 디코더 제어기(605)의 입력과 신호 통신 연결된다. 디코더 제어기(605)의 제1 출력은 엔트로피 디코더(645)의 제2 입력과 신호 통신 연결된다. 디코더 제어기(605)의 제2 출력은 역변환기 및 역양자화기(650)의 제2 입력과 신호 통신 연결된다. 디코더 제어기(605)의 제3 출력은 디블로킹 필터(665)의 제3 입력과 신호 통신 연결된다. 디코더 제어기(605)의 제4 출력은 인트라 예측 모듈(660)의 제2 입력, 모션 보상기 및 LSP 리파인먼트 예측기(670)의 제1 입력, 및 레퍼런스 픽처 버퍼(680)의 제2 입력과 신호 통신 연결된다.

모션 보상기 및 LSP 리파인먼트 예측기(670)의 출력은 스위치(697)의 제1 입력과 신호 통신 연결된다. 인트라 예측 모듈(660)의 출력은 스위치(697)의 제2 입력과 신호 통신 연결된다. 스위치(697)의 출력은 결합기(625)의 제1 비반전 입력과 신호 통신 연결된다.

입력 비트스트림을 수신하기 위하여, 입력 버퍼(610)의 입력이 디코더(600)의 입력으로서 이용 가능하다. 출력 픽처를 출력하기 위하여, 디블로킹 필터(665)의 제1 출력이 디코더(600)의 출력으로서 이용 가능하다.

위에서 기술된 바와 같이, 본 발명에 따라, 순방향(모션 보상) 및 역방향(LSP) 예측 접근법들을 결합하여 명시적 및 암시적 모션 표현들 모두를 이용하는 비디오 예측 기술들이 제안된다. 특히, 제안된 스킴들의 이용은 소정의 정보를 명시적으로 송신하여 코어스 모션을 캡처하고, 그 후 코어스 모션을 통해 모션 예측을 리파인하는 데에 LSP가 이용된다. 이것은 LSP를 갖는 역방향 예측과 순방향 모션 예측 간의 조인트 접근법으로서 보여질 수 있다. 본 발명의 장점들은 비트레이트 오버헤드를 감소시키고 순방향 모션에 대한 예측 퀄리티를 개선시키는 것뿐만 아니라, LSP의 정확도를 개선하는 것을 포함하여, 코딩 효율을 개선한다. 여기에서는 인트라 예측 컨텍스트에 관하여 개시되고 설명되었지만, 여기에 제시된 본 발명의 교시들이 주어지면, 당업자는 본 발명의 취지를 유지하면서, 본 발명을 인트라 예측으로 용이하게 확장할 수 있을 것이다.

LSP 를 갖는 예측 리파인먼트

LSP는 각각의 위치에서 모션 궤적을 캡처하는 것을 요구하는 모션 적응(motion adaptation)을 실현하기 위해 이용된다. 이 문제를 해결하기 위하여, 역방향 적응 비디오 코딩 방법에 대하여 LSP를 이용할 수 있지만, 이 접근 방법에 의해 초래된 복잡도는 실제 응용들에 대하여 부담이 크다. 소정의 합당한 복잡도 코스트과의 모션 적응을 달성하기 위해, LSP가 필터 서포트 및 트레이닝 윈도우를 셋업하는 것을 도울 수 있는 모션 궤적을 설명하는 보조 정보(side information)로서 모션 추정 결과를 이용한다.

일 실시예에서는, 먼저 모션 추정을 수행하고, 그 후 LSP를 수행한다. 필터 서포트 및 트레이닝 윈도우는 모션 추정의 출력 모션 벡터에 기초하여 셋업된다. 따라서, LSP는 원래의 순방향 모션 보상의 리파인먼트 단계로서 작용한다. 필터 서포트는 공간 및/또는 시간적으로 인접한 재구성된 픽셀들(spatial and/or temporal neighboring reconstructed pixels) 모두를 포함하도록 유연성을 가질 수 있다. 시간적 네이버들은 모션 벡터가 가리키는 레퍼런스 픽처 내에서 제한되는 것은 아니다. 동일한 모션 벡터 또는 레퍼런스 픽처와 현재 픽처 간의 거리에 기초하여 스케일링된 모션 벡터가 다른 레퍼런스 픽처들에 대하여 이용될 수 있다. 이 방식으로, 순방향 예측 및 역방향 LSP 모두를 이용하여 압축 효율을 개선한다.

도 7a 및 7b를 참조해보면, 예측 리파인먼트를 위한 픽셀 기반 LSP 예측의 일 예는 일반적으로 참조부호 700에 의해 표시된다. 예측 리파인먼트(700)를 위한 픽셀 기반 LSP는 K 프레임(710) 및 K-1 프레임(750)을 포함한다. 구체적으로, 도 7a 및 7b에 도시된 바와 같이, 타깃 블록(722)에 대한 모션 벡터(Mv)는, MPEG-4 AVC 표준에 관하여 수행되는 것과 같은 모션 벡터 예측기 또는 모션 추정으로부터 도출될 수 있다. 그 후 이 모션 벡터 Mv를 이용하여, 모션 벡터에 의해 지시되는 배향을 따라 LSP에 대한 필터 서포트 및 트레이닝 윈도우를 셋업한다. 예측 블록(711) 내에서 픽셀 또는 블록 기반 LSP를 행할 수 있다. MPEG-4 AVC 표준은 트리 구조 기반 계층적 매크로블록 파티션들을 서포트한다. 일 실시예에서, LSP 리파인먼트는 모든 파티션들에 적용된다. 다른 실시예에서, LSP 리파인먼트는 16×16과 같은, 더 큰 파티션들에만 적용된다. 블록 기반 LSP가 예측 블록에 대하여 수행되면, LSP의 블록 사이즈는 예측 블록의 경우와 동일하게 될 필요는 없다.

다음으로 본 발명의 원리들을 포함하는 예시적인 실시예를 설명한다. 이 실시예에서, 각각의 파티션에서 순방향 모션 추정이 먼저 행해지는 접근법을 시도한다. 그 후, 각각의 파티션에 대하여 LSP를 수행하여 예측 결과를 리파인한다. 알고리즘들을 설명하기 위한 레퍼런스로서 MPEG-4 AVC 표준을 사용할 것이지만, 당업자에게 자명한 바와 같이 본 발명의 교시는 다른 코딩 표준들, 권장들 등에 용이하게 적용될 수 있다.

실시예 : 명시적 모션 추정 및 LSP 리파인먼트

이 실시예에서, 예측 블록 또는 파티션에 대하여 명시적 모션 추정이 먼저 행해져 모션 벡터 Mv를 얻는다. 그 후, 픽셀 기반 LSP가 수행된다(여기에서는 간략화를 위하여 픽셀 기반 LSP를 이용하여 본원의 접근법을 설명하지만, 블록 기반 LSP로 확장하는 것은 용이함). 모션 벡터 Mv에 기초하여 각각의 픽셀에 대한 필터 서포트 및 트레이닝 윈도우를 정의한다. 도 8을 참조해보면, 예측 리파인먼트를 위한 블록 기반 LSP의 일 예는 일반적으로 참조부호 800으로 표시된다. 예측 리파인먼트를 위한 블록 기반 LSP(800)는 인접 블록들(801)을 갖는 레퍼런스 프레임(810), 및 트레이닝 블록들(851)을 갖는 현재 프레임(850)을 포함한다. 인접 블록들(401)은 또한 참조부호들 X₁ 내지 X₉로 표시된다. 타깃 블록은 참조부호 X0으로 표시한다. 트레이닝 블록들(451)은 참조부호들 Y_i, Y₁ 및 Y₁₀으로 표시된다. 도 7a, 7b 또는 도 8에 도시된 바와 같이, 모션 벡터 Mv의 방향을 따라 필터 서포트 및 트레이닝 윈도우를 정의할 수 있다. 필터 서포트 및 트레이닝 윈도우는 공간 및 시간적 픽셀들 모두를 커버할 수 있다. 예측 블록 내의 픽셀의 예측 값은 픽셀 단위로 리파인될 것이다. 예측 블록 내의 모든 픽셀들이 리파인된 후, RD(rate distortion) 코스트에 기초하여, LSP 리파인먼트를 갖는/갖지 않는 예측 후보들 또는 그들의 융합된 버전 중에서 최종 예측이 선택될 수 있다. 최종적으로, LSP 지시자

가 선택을 표시하도록 다음과 같이 설정한다:

가 0과 일치하면, LSP 리파인먼트 없는 예측을 선택한다.

가 1과 일치하면, LSP 리파인먼트 있는 예측을 선택한다.

가 2와 일치하면, LSP 리파인먼트가 있는 것과 없는 것의 융합된 예측 버전을 선택한다. 융합 스킴(fusion scheme)은 이전의 두 예측들의 임의의 선형 또는 비선형 결합일 수 있다. 최종 선택에 대하여 더 많은 오버헤드를 증가시키는 것을 피하기 위하여,

는 매크로블록 레벨에서 설계될 수 있다.

다른 코딩 블록들에 대한 영향

다른 코딩 블록들에 대한 영향에 관하여, 이제 본 발명의 다양한 실시예들에 따른 LSP에 대한 모션 벡터에 대한 설명이 주어질 것이다. MPEG-4 AVC 표준에서, 현재 블록에 대한 모션 벡터는 인접 블록으로부터 예측된다. 따라서, 현재 블록의 모션 벡터의 값은 장래의 인접 블록들에 영향을 미칠 것이다. 이것은 어떤 모션 벡터를 이용해야 하는 지에 관하여 LSP 리파인된 블록의 문제를 야기한다. 제1 실시예에서, 각각의 파티션 레벨에서 순방향 모션 추정이 행해지므로, LSP 리파인된 블록에 대한 모션 벡터를 검색할 수 있다. 제2 실시예에서, 매크로블록 내의 모든 LSP 리파인된 블록들에 대하여 매크로블록 레벨 모션 벡터를 이용할 수 있다.

다른 코딩 블록들에 대한 영향에 관하여, 이제 본 발명의 다양한 실시예들에 따라 디블로킹 필터를 이용하는 것에 대한 설명이 주어질 것이다. 디블로킹 필터에 대하여, 제1 실시예에서, 순방향 모션 추정 블록과 마찬가지로 LSP 리파인된 블록을 처리하고, 상기 LSP 리파인먼트에 대한 모션 벡터를 이용할 수 있다. 그 후, 디블로킹 프로세스는 변경되지 않는다. 제2 실시예에서, LSP 리파인먼트는 순방향 모션 추정 블록과는 상이한 특성을 가지므로, 경계 강도(boundary strength), 필터 타입 및 필터 길이를 조정할 수 있다.

표 1은 본 발명의 일 실시예에 따른 슬라이스 헤더 신택스(slice header syntax)를 도시한다.

표 1의 lsp_enable_flag 신택스 엘리먼트의 시맨틱스(semantics)는 다음과 같다:

lsp_enable_flag가 1과 일치하는 것은 슬라이스에 대하여 LSP 리파인먼트 예측이 가능한 것을 지정한다. lsp_enable_flag가 0과 일치하는 것은 슬라이스에 대하여 LSP 리파인먼트 예측이 가능하지 않은 것을 지정한다.

표 2는 본 발명의 일 실시예에 다른 매크로블록층 신택스를 도시한다.

표 2의 lsp_idc 신택스 엘리먼트의 시맨틱들은 다음과 같다:

lsp_idc가 0과 일치하는 것은 LSP 리파인먼트에 의해 예측이 리파인되지 않는 것을 지정한다. lsp_idc가 1과 일치하는 것은 예측이 LSP에 의해 리파인된 버전인 것을 지정한다. lsp_idc가 2와 일치하는 것은 예측이 LSP 리파인먼트가 있는 예측 후보들과 LSP 리파인먼트가 없는 예측 후보들의 결합인 것을 지정한다.

도 9를 참조해보면, LSP를 갖는 예측 리파인먼트를 이용하여 이미지 블록에 대한 비디오 데이터를 인코딩하기 위한 예시적인 방법이 일반적으로 참조부호 900으로 표시된다. 방법(900)은 결정 블록(910)에 제어를 전달하는 개시 블록(905)을 포함한다. 결정 블록(910)은 현재 모드가 LSP 모드인지 여부를 결정한다. 만일 그렇다면, 제어는 기능 블록(915)으로 전달된다. 그렇지 않으면, 제어는 기능 블록(970)으로 전달된다.

기능 블록(915)은 순방향 모션 추정을 수행하고 기능 블록(920) 및 기능 블록(925)에 제어를 전달한다. 기능 블록(920)은 모션 보상을 수행하여 예측 P_mc를 획득하고, 기능 블록(930) 및 기능 블록(960)에 제어를 전달한다. 기능 블록(925)은 LSP 리파인먼트를 수행하여 리파인된 예측 P_lsp를 생성하고, 기능 블록(930) 및 기능 블록(960)에 제어를 전달한다. 기능 블록(960)은 예측 P_mc 및 예측 P_lsp의 결합으로부터 결합된 예측 P_comb을 생성하고 제어를 기능 블록(930)에 전달한다. 기능 블록(930)은 P_mc, P_lsp, 및 P_comb 중에서 최적의 예측을 선택하고, 기능 블록(935)에 제어를 전달한다. 기능 블록(935)은

를 설정하고 기능 블록(940)에 제어를 전달한다. 기능 블록(940)은 RD(rate distortion) 코스트를 계산하고 기능 블록(945)에 제어를 전달한다. 기능 블록(945)은 이미지 블록에 대한 모드 결정을 수행하고, 기능 블록(950)에 제어를 전달한다. 기능 블록(950)은 이미지 블록에 대한 모션 벡터 및 다른 신택스를 인코딩하고, 제어를 기능 블록(955)으로 전달한다. 기능 블록(955)은 이미지 블록에 대한 레시듀(residue)를 인코딩하고, 종료 블록(999)에 제어를 전달한다. 기능 블록(970)은 다른 모드들(즉, LSP 모드 이외의)로 블록을 인코딩하고, 기능 블록(945)으로 제어를 전달한다.

도 10을 참조해보면, LSP를 갖는 예측 리파인먼트를 이용하여 이미지 블록에 대한 비디오 데이터를 디코딩하기 위한 예시적인 방법이 일반적으로 참조부호 1000으로 표시된다. 방법(1000)은 기능 블록(1010)에 제어를 전달하는 개시 블록(1005)을 포함한다. 기능 블록(1010)은 신택스를 파싱하고, 결정 블록(1015)에 제어를 전달한다. 결정 블록(1015)은

인지 여부를 결정한다. 만일 그렇다면, 제어는 기능 블록(1020)에 전달된다. 그렇지 않다면, 제어는 기능 블록(1060)에 전달된다. 기능 블록(1020)은

인지 여부를 결정한다. 만일 그렇다면, 제어는 기능 블록(1025)에 전달된다. 그렇지 않다면, 제어는 기능 블록(1030)에 전달된다. 기능 블록(1025)은 모션 벡터 Mv 및 레시듀를 디코딩하고, 제어를 기능 블록(1035) 및 기능 블록(1040)에 전달한다. 기능 블록(1035)은 모션 보상을 수행하여 예측 P_mc를 생성하고 제어를 기능 블록(1045)에 전달한다. 기능 블록(1040)은 LSP 리파인먼트를 수행하여 예측 P_lsp를 생성하고 제어를 기능 블록(1045)에 전달한다. 기능 블록(1045)은 예측 P_mc 및 예측 P_lsp의 결합으로부터 결합된 예측 P_comb을 생성하고 제어를 기능 블록(1055)에 전달한다. 기능 블록(1055)은 레시듀를 예측에 부가하고, 현재 블록에 대하여 보상하며, 제어를 종료 블록(1099)에 전달한다.

기능 블록(1060)은 비-LSP 모드로 이미지 블록을 디코딩하고, 제어를 종료 블록(1099)에 전달한다.

기능 블록(1030)은 모션 벡터(Mv) 및 레시듀를 디코딩하고, 기능 블록(1050)에 제어를 전달한다. 기능 블록(1050)은 LSP 리파인먼트에 의해 블록을 예측하고, 제어를 기능 블록(1055)에 전달한다.

일부가 위에서 기술된 본 발명에 수반되는 많은 장점들/특징들 중 일부에 대한 설명이 이제 주어질 것이다. 예를 들어, 한 장점/특징은 명시적 모션 예측을 이용하여 이미지 블록에 대한 코어스 예측을 생성하고 암시적 모션 예측을 이용하여 코어스 예측을 리파인하여 이미지 블록을 인코딩하기 위한 인코더를 갖는 장치이다.

다른 장점/특징은 코어스 예측이 인트라 예측 및 인터 예측 중 어느 하나인, 상기 기술된 인코더를 갖는 장치이다.

또 다른 장점/특징은 암시적 모션 예측은 LSP인, 상기 기술된 인코더를 갖는 장치이다.

또한, 다른 장점/특징은 암시적 모션 예측은 상기 기술된 LSP이고, LSP 필터 서포트 및 LSP 트레이닝 윈도우는 이미지 블록에 관련되는 공간적 및 시간적 픽셀들 모두를 커버하는, 인코더를 갖는 장치이다.

또한, 다른 장점/특징은 암시적 모션 예측은 상기 기술된 LSP이고, LSP는 픽셀 기반 또는 블록 기반일 수 있으며, 단일-가설(single-hypothesis) 모션 보상 예측 또는 다중-가설 모션 보상 예측에서 이용되는, 인코더를 갖는 장치이다.

또한, 다른 장점/특징은 LSP가 픽셀 기반 또는 블록 기반일 수 있고, 상기 기술된 바와 같이 단일-가설 모션 보상 예측 또는 다중-가설 모션 보상 예측에서 이용되며, LSP에 대한 LSP 파라미터들은 순방향 모션 추정에 기초하는, 인코더를 갖는 장치이다.

또한, 다른 장점/특징은 LSP에 대한 LSP 파라미터들은 상기 기술된 바와 같이 순방향 모션 추정에 기초하여 정의되고, LSP에 대한 시간적 필터 서포트는 하나 이상의 레퍼런스 픽처들에 관하여, 또는 하나 이상의 레퍼런스 픽처 리스트들에 관하여 수행될 수 있는, 인코더를 갖는 장치이다.

또한, 다른 장점/특징은 LSP가 픽셀 기반 또는 블록 기반일 수 있고 상기 기술된 바와 같이 단일-가설 모션 보상 예측 또는 다중-가설 모션 보상 예측에서 이용되며, 블록 기반 LSP의 크기는 순방향 모션 추정 블록 크기와는 상이한, 인코더를 갖는 장치이다.

또한, 다른 장점/특징은 LSP가 픽셀 기반 또는 블록 기반일 수 있고, 상기 기술된 바와 같이 단일-가설 모션 보상 예측 또는 다중-가설 모션 보상 예측에서 이용되며, LSP에 대한 모션 정보는 모션 벡터 예측자(motion vector predictor)에 의해 도출되거나 추정될 수 있는, 인코더를 갖는 장치이다.

본 발명의 이러한 및 다른 특징들 및 장점들은 여기에서의 교시에 기초하여 당업자에 의해 용이하게 확인될 수 있다. 본 발명의 교시는 하드웨어, 소프트웨어, 펌웨어, 전용 프로세서들, 또는 이들의 결합의 다양한 형태들로 구현될 수 있는 것이 이해되어야 한다.

가장 바람직하게는, 본 발명의 교시는 하드웨어 및 소프트웨어의 결합으로서 구현된다. 또한, 소프트웨어는 프로그램 저장 유닛 상에 구체적으로 구현된 응용 프로그램으로서 구현될 수 있다. 응용 프로그램은 임의의 적절한 아키텍처를 포함하는 머신에 업로드되고, 이 머신에 의해 실행될 수 있다. 바람직하게는, 머신은 하나 이상의 "CPU"(central processing units), "RAM"(random access memory), 및 "I/O"(input/output) 인터페이스들과 같은 하드웨어를 갖는 컴퓨터 플랫폼상에 구현된다. 컴퓨터 플랫폼은 또한 운영체제 및 마이크로인스트럭션(microinstruction) 코드를 포함할 수 있다. 여기에 기술된 각종 프로세스들 및 기능들은 CPU에 의해 실행될 수 있는 마이크로인스트럭션 코드의 일부이거나 응용 프로그램의 일부이거나, 또는 이들의 임의의 결합일 수 있다. 또한, 부가적인 데이터 저장 유닛 및 프린팅 유닛과 같은 다양한 다른 주변 유닛들이 컴퓨터 플랫폼에 연결될 수 있다.

또한, 첨부 도면들에 묘사된 구성 시스템 컴포넌트들의 일부는 소프트웨어로 구현되는 것이 바람직하기 때문에, 시스템 컴포넌트들 또는 프로세스 기능 블록들 간의 실제 연결들은 본 발명이 프로그래밍되는 방식에 의존하여 상이할 수 있는 것이 이해되어야 한다. 여기에서의 교시가 주어지면, 당업자는 본 발명의 이러한 및 유사한 구현들 또는 구성들을 생각할 수 있을 것이다.

여기에는 첨부 도면들과 관련하여 예시적인 실시예들이 기술되었지만, 본 발명은 정확히 그 실시예들로만 한정되는 것은 아니며, 본 발명의 범위 또는 취지로부터 벗어나지 않고 다양한 변경들 및 변형들이 실시될 수 있는 것을 당업자는 이해할 것이다. 모든 그러한 변경들 및 변형들은 첨부된 청구범위에 기재된 바대로 본 발명의 범위 내에 포함되는 것이 의도된다.

Claims

이미지 블록에 대한 코어스 예측(coarse prediction)을 생성하기 위해 명시적 모션 예측(explicit motion prediction)을 이용하고 또한 상기 코어스 예측을 리파인(refine)하기 위해 암시적 모션 예측(implicit motion prediction)을 이용하여 상기 이미지 블록을 인코딩하기 위한 인코더(500)
를 포함하며,
상기 암시적 모션 예측은 LSP(least-square prediction)(925)이고, 예측 블록에서의 픽셀 값은 한 번에 하나의 픽셀로 리파인되고, 최종 예측은 RD(rate distortion) 코스트에 기초하여 LSP를 갖는 예측, LSP를 갖지 않는 예측, LSP를 갖는 것과 LSP를 갖지 않는 것의 융합된 결합의 예측을 포함하는 예측 후보들 중에서 선택되며, 매크로블록 레벨에서 상기 선택을 표시하기 위한 지시자가 이용되는 장치.
제1항에 있어서,
상기 코어스 예측은 인트라 예측과 인터 예측 중 임의의 예측인 장치.
제1항에 있어서,
상기 암시적 모션 예측은 LSP(least-square prediction)인 장치.
제3항에 있어서,
LSP 필터 서포트 및 LSP 트레이닝 윈도우(training window)는 상기 이미지 블록에 관한 공간 및 시간 픽셀들 모두를 커버하는 장치.
제3항에 있어서,
상기 LSP는, 픽셀 기반이거나 또는 블록 기반일 수 있으며, 단일-가설 모션 보상 예측(single-hypothesis motion compensation prediction) 또는 다중-가설 모션 보상 예측에서 이용되는 장치.
제5항에 있어서,
상기 LSP를 위한 LSP 파라미터들은 순방향 모션 추정에 기초하여 정의되는 장치.
제6항에 있어서,
상기 LSP를 위한 시간적 필터 서포트는 하나 이상의 레퍼런스 픽처들에 대해 또는 하나 이상의 레퍼런스 픽처 리스트들에 대해 행해질 수 있는 장치.
제5항에 있어서,
상기 블록 기반 LSP의 크기는 순방향 모션 추정 블록 크기와 상이한 장치.
제5항에 있어서,
상기 LSP를 위한 모션 정보는 모션 벡터 예측기에 의해 도출되거나 또는 추정될 수 있는 장치.
이미지 블록을 인코딩하기 위한 인코더로서,
이미지 블록에 대한 코어스 예측을 생성하기 위해 명시적 모션 예측을 수행하는 모션 추정기(575); 및
상기 코어스 예측을 리파인하기 위해 암시적 모션 예측을 수행하는 예측 리파이너(533)
를 포함하며,
상기 암시적 모션 예측은 LSP(925)이고, 예측 블록에서의 픽셀 값은 한 번에 하나의 픽셀로 리파인되고, 최종 예측은 RD 코스트에 기초하여 LSP를 갖는 예측, LSP를 갖지 않는 예측, LSP를 갖는 것과 LSP를 갖지 않는 것의 융합된 결합의 예측을 포함하는 예측 후보들 중에서 선택되며, 매크로블록 레벨에서 상기 선택을 표시하기 위한 지시자가 이용되는 인코더.
제10항에 있어서,
상기 코어스 예측은 인트라 예측과 인터 예측 중 임의의 예측인 인코더.
제10항에 있어서,
상기 암시적 모션 예측은 LSP인 인코더.
비디오 인코더에서 이미지 블록을 인코딩하기 위한 방법으로서,
명시적 모션 예측을 이용하여 상기 이미지 블록에 대한 코어스 예측을 생성하는 단계(920); 및
암시적 모션 예측을 이용하여 상기 코어스 예측을 리파인하는 단계(925)
를 포함하며,
상기 암시적 모션 예측은 LSP(925)이고, 예측 블록에서의 픽셀 값은 한 번에 하나의 픽셀로 리파인되고, 최종 예측은 RD 코스트에 기초하여 LSP를 갖는 예측, LSP를 갖지 않는 예측, LSP를 갖는 것과 LSP를 갖지 않는 것의 융합된 결합의 예측을 포함하는 예측 후보들 중에서 선택되며, 매크로블록 레벨에서 상기 선택을 표시하기 위한 지시자가 이용되는 인코딩 방법.
제13항에 있어서,
상기 코어스 예측은 인트라 예측과 인터 예측 중 임의의 예측인 인코딩 방법.
제13항에 있어서,
상기 암시적 모션 예측은 LSP(925)인 인코딩 방법.
제15항에 있어서,
LSP 필터 서포트 및 LSP 트레이닝 윈도우는 상기 이미지 블록에 관한 공간적 및 시간적 픽셀들 모두를 커버하는 인코딩 방법.
제15항에 있어서,
상기 LSP는, 픽셀 기반이거나 또는 블록 기반일 수 있으며, 단일-가설 모션 보상 예측 또는 다중-가설 모션 보상 예측에서 이용되는 인코딩 방법.
제17항에 있어서,
상기 LSP를 위한 LSP 파라미터들은 순방향 모션 추정(915, 925)에 기반하여 정의되는 인코딩 방법.
제18항에 있어서,
상기 LSP를 위한 시간적 필터 서포트는 하나 이상의 레퍼런스 픽처들에 대해 또는 하나 이상의 레퍼런스 픽처 리스트들에 대해 행해질 수 있는 인코딩 방법.
제17항에 있어서,
상기 블록 기반 LSP의 크기는 순방향 모션 추정 블록 크기(915)와 상이한 인코딩 방법.
제17항에 있어서,
상기 LSP를 위한 모션 정보는 모션 벡터 예측기에 의해 도출되거나 또는 추정될 수 있는 인코딩 방법.
명시적 모션 예측을 이용하여 생성된 이미지 블록에 대한 코어스 예측을 수신하고 또한 암시적 모션 예측을 이용하여 상기 코어스 예측을 리파인함으로써 상기 이미지 블록을 디코딩하는 디코더(600)
를 포함하며,
상기 암시적 모션 예측은 LSP(925)이고, 예측 블록에서의 픽셀 값은 한 번에 하나의 픽셀로 리파인되고, 최종 예측은 RD 코스트에 기초하여 LSP를 갖는 예측, LSP를 갖지 않는 예측, LSP를 갖는 것과 LSP를 갖지 않는 것의 융합된 결합의 예측을 포함하는 예측 후보들 중에서 선택되며, 매크로블록 레벨에서 상기 선택을 표시하기 위한 지시자가 이용되는 장치.
제22항에 있어서,
상기 코어스 예측은 인트라 예측과 인터 예측 중 임의의 예측인 장치.
제22항에 있어서,
상기 암시적 모션 예측은 LSP인 장치.
제24항에 있어서,
LSP 필터 서포트 및 LSP 트레이닝 윈도우는 상기 이미지 블록에 관한 공간적 및 시간적 픽셀들 모두를 커버하는 장치.
제24항에 있어서,
상기 LSP는, 픽셀 기반이거나 또는 블록 기반일 수 있으며, 단일-가설 모션 보상 예측 또는 다중-가설 모션 보상 예측에서 이용되는 장치.
제26항에 있어서,
상기 LSP를 위한 LSP 파라미터들은 순방향 모션 추정에 기반하여 정의되는 장치.
제27항에 있어서,
상기 LSP를 위한 시간적 필터 서포트는 하나 이상의 레퍼런스 픽처들에 대해 또는 하나 이상의 레퍼런스 픽처 리스트들에 대해 행해질 수 있는 장치.
제26항에 있어서,
상기 블록 기반 LSP의 크기는 순방향 모션 추정 블록 크기와 상이한 장치.
제26항에 있어서,
상기 LSP를 위한 모션 정보는 모션 벡터 예측기에 의해 도출되거나 또는 추정될 수 있는 장치.
이미지 블록을 디코딩하기 위한 디코더로서,
명시적 모션 예측을 이용하여 생성된 이미지 블록에 대한 코어스 예측을 수신하고 또한 암시적 모션 예측을 이용하여 상기 코어스 예측을 리파인하기 위한 모션 보상기(670)
를 포함하며,
상기 암시적 모션 예측은 LSP(925)이고, 예측 블록에서의 픽셀 값은 한 번에 하나의 픽셀로 리파인되고, 최종 예측은 RD 코스트에 기초하여 LSP를 갖는 예측, LSP를 갖지 않는 예측, LSP를 갖는 것과 LSP를 갖지 않는 것의 융합된 결합의 예측을 포함하는 예측 후보들 중에서 선택되며, 매크로블록 레벨에서 상기 선택을 표시하기 위한 지시자가 이용되는 디코더.
제31항에 있어서,
상기 코어스 예측은 인트라 예측과 인터 예측 중 임의의 예측인 디코더.
제31항에 있어서,
상기 암시적 모션 예측은 LSP인 디코더.
비디오 디코더에서 이미지 블록을 디코딩하기 위한 방법으로서,
명시적 모션 예측을 이용하여 생성된 상기 이미지 블록에 대한 코어스 예측을 수신하는 단계(1035); 및
암시적 모션 예측을 이용하여 상기 코어스 예측을 리파인하는 단계(1040)
를 포함하며,
상기 암시적 모션 예측은 LSP(925)이고, 예측 블록에서의 픽셀 값은 한 번에 하나의 픽셀로 리파인되고, 최종 예측은 RD 코스트에 기초하여 LSP를 갖는 예측, LSP를 갖지 않는 예측, LSP를 갖는 것과 LSP를 갖지 않는 것의 융합된 결합의 예측을 포함하는 예측 후보들 중에서 선택되며, 매크로블록 레벨에서 상기 선택을 표시하기 위한 지시자가 이용되는 디코딩 방법.
제34항에 있어서,
상기 코어스 예측은 인트라 예측과 인터 예측 중 임의의 예측인 디코딩 방법.
제34항에 있어서,
상기 암시적 모션 예측은 LSP(1040)인 디코딩 방법.
제36항에 있어서,
LSP 필터 서포트 및 LSP 트레이닝 윈도우는 상기 이미지 블록에 관한 공간적 및 시간적 픽셀들 모두를 커버하는 디코딩 방법.
제36항에 있어서,
상기 LSP는, 픽셀 기반이거나 또는 블록 기반일 수 있으며, 단일-가설 모션 보상 예측 또는 다중-가설 모션 보상 예측에서 이용되는 디코딩 방법.
제38항에 있어서,
상기 LSP를 위한 LSP 파라미터들은 순방향 모션 추정에 기반하여 정의되는 디코딩 방법.
제39항에 있어서,
상기 LSP를 위한 시간적 필터 서포트는 하나 이상의 레퍼런스 픽처들에 대해 또는 하나 이상의 레퍼런스 픽처 리스트들에 대해 행해질 수 있는 디코딩 방법.
제38항에 있어서,
상기 블록 기반 LSP의 크기는 순방향 모션 추정 블록 크기와 상이한 디코딩 방법.
제38항에 있어서,
상기 LSP를 위한 모션 정보는 모션 벡터 예측기에 의해 도출되거나 또는 추정될 수 있는(1025) 디코딩 방법.