KR20080083030A

KR20080083030A - 비디오 부호화

Info

Publication number: KR20080083030A
Application number: KR1020087018587A
Authority: KR
Inventors: 미스카 한눅세라; 케렘 카글라르
Original assignee: 노키아 코포레이션
Priority date: 2000-05-15
Filing date: 2001-05-14
Publication date: 2008-09-12
Also published as: JP2003533950A; MXPA02011201A; GB0011606D0; CN1193622C; BR0110770A; EE200200642A; HUP0302055A3; CN100394802C; US20010040700A1; HU230597B1; US7711052B2; JP4362259B2; HUP0302055A2; EP2148513A2; CN1440623A; CA2409027A1; ZA200208744B; KR20030005348A; KR100929558B1; KR100892119B1

Abstract

화상들의 시퀀스를 나타내는 비디오 신호를 부호화하는 방법에 있어서, 부호화를 위해 현재 화상을 수신하는 단계; 상기 현재 화상에 대한 디폴트 참조 화상으로부터 상기 현재 화상의 시간적 예측을 형성하는 단계; 상기 디폴트 참조 화상을 적어도 하나의 추가 참조 화상과 비교하는 단계; 상기 디폴트 참조 화상 및 각 추가 참조 화상간의 유사도를 계산하는 단계; 및 상기 유사도가 소정의 기준을 충족하는 경우, 상기 추가 참조 화상을 식별하는 표시자를 출력하는 단계를 포함하는 것을 특징으로 하는 방법이 제공된다.

Description

비디오 부호화{Video coding}

본 발명은 비디오 부호화에 관한 것이다.

비디오 시퀀스는 일련의 정지 화상들 또는 프레임들로 구성된다. 비디오 압축 방법들은 비디오 시퀀스들의 중복되고 인식에 무관한 부분들을 줄이는데 기초를 둔다. 비디오 시퀀스들에 있어서 중복(redundancy)은 스펙트럼의(spectral), 공간적 및 시간적 중복으로 분류될 수 있다. 스펙트럼의 중복은 동일 화상의 상이한 컬러 성분들간의 유사성을 나타낸다. 공간적 중복은 화상내의 이웃하는 픽셀들간의 유사성에서 기인한다. 시간적 중복은 이전 이미지에서 나타나는 객체들이 현재 이미지에도 또한 나타날 것 같기 때문에 존재한다. 압축은 이러한 시간적 중복을 이용하고 앵커(anchor) 또는 참조 화상으로 지칭되는 다른 화상으로부터 현재 화상을 예측함으로써 달성될 수 있다. 추가 압축은 현재 화상 및 이전 화상간의 움직임을 기술하는 움직임 보상 데이터를 생성함으로써 달성된다.

그러나, 충분한 보상은 보통 시퀀스의 고유한 중복을 감소시키는 것만으로는 달성될 수 없다. 따라서, 비디오 부호화기들은 또한 본질적으로 덜 중요한 비디오 시퀀스의 부분들의 품질을 감소시키려고 한다. 더욱이, 부호화된 비트-스트림의 중 복은 압축 매개변수들 및 계수들의 효율적인 무손실 부호화에 의하여 감소된다. 주요한 기술은 가변 길이 부호들을 사용하는 것이다.

비디오 압축 방법들은 전형적으로 시간적 중복 감소를 이용하는 화상들 및 시간적 중복 감소를 이용하지 않는 화상들간을 구별한다. 시간적 중복 감소 방법들을 이용하지 않는 압축 화상들은 보통 인트라(INTRA) 또는 I-프레임들(I-frames) 또는 I-화상들(I-pictures)로 지칭된다. 시간적으로 예측되는 이미지들은 보통 현재 화상 이전에 발생하는 화상으로부터 순방향으로 예측되고 인터(INTER) 또는 P-프레임들로 지칭된다. 인터 프레임의 경우에 있어서, 예측된 움직임-보상된 화상은 좀처럼 충분히 정확하지 않고 따라서 공간적으로 압축된 예측 에러 프레임이 각 인터 프레임에 연관된다. 인터 화상들은 인트라-부호화된 영역들을 포함할 수 있다.

많은 비디오 압축 방식들이 또한 시간적으로 양방향으로 예측된 프레임들을 사용하는데, 이것은 보통 B-화상들 또는 B-프레임들로서 지칭된다. B-화상들은 I- 및/또는 P-프레임들의 앵커 화상 쌍들 사이에 삽입되고 이들 앵커 화상들 중에서 하나 또는 양자로부터 예측된다. B-화상들은 보통 순방향-예측된 화상들과 비교하여 증가된 압축을 제공한다. B-화상들은 앵커 화상들로서 사용되지 않는다. 즉, 다른 화상들은 B-화상들로부터 예측되지 않는다. 따라서 B-화상들은 미래 화상들의 화상 품질에 강한 영향을 주지 않으면서 (고의로 또는 무심코) 폐기될 수 있다. B-화상들이 P-화상들과 비교하여 압축 성능을 개선할 수 있지만, B-화상들을 생성하는 것은 계산이 더 복잡하고 메모리를 더 많이 사용할 것을 필요로 하고 추가 지연들을 도입한다. 이것은 비디오 스트리밍과 같은 비-실시간 응용들에서는 문제가 아 닐 수 있지만 화상-회의와 같은 실시간 응용들에서는 문제들을 야기할 수 있다.

압축된 비디오 클립(clip)은 전형적으로 일련의 화상들로 구성되고, 상기 화상들은 시간적으로 독립한 인트라 화상들 및 시간적으로 차이가 나게 부호화된 인터 화상들로 대략 분류될 수 있다. 인트라 화상들에서의 압축 효율이 보통 인터 화상들에서 보다 더 낮기 때문에, 인트라 화상들은 드물게, 특히 낮은 비트-율 응용들에서 사용된다.

비디오 시퀀스는 다수의 화면(scene)들 또는 샷(shot)들로 구성될 수 있다. 화상 내용들은 화면마다 매우 상이할 수 있고, 따라서 한 화면의 제1 화상은 전형적으로 인트라-부호화된다. 텔레비전 및 영화물에서는 잦은 화면 변화들이 있지만, 화상 회의에서는 화면 컷(cut)들이 비교적 드물다. 더욱이, 인트라 화상들은 전형적으로 재구성된 비디오 신호의 재전송 에러들의 시간적 전파를 정지시키고 비디오 비트-스트림에 랜덤 액세스 포인트들을 제공하기 위해 삽입된다.

압축된 비디오는 주로 2가지 이유로 전송 에러들에 의해 쉽게 손상된다. 첫째로, 시간적 예측 차분 부호화(인터 프레임들)의 이용으로 인하여, 공간적으로 그리고 시간적으로 에러가 전파된다. 실제로 이것은 일단 에러가 발생하는 경우, 에러는 인간의 눈에 비교적 긴 시간동안 쉽게 보여질 수 있다는 것을 의미한다. 특히 극히 소수의 인트라-부호화된 프레임들이 있는 경우 낮은 비트-율들로 전송이 가능하고, 따라서 시간적 에러 전파는 어떤 시간 동안 중지되지 않는다. 둘째로, 가변 길이 부호들의 사용은 에러들에 대한 가능성을 증가시킨다. 비트 에러가 부호워드를 변경시키는 경우, 복호기는 부호워드 동기를 잃을 것이고 또한 다음의 동기(또 는 시작) 부호까지 (몇 개의 비트들을 포함하는) 다음의 에러없는 부호워드들을 부정확하게 복호화할 것이다. 동기 부호는 다른 부호워드들의 어떤 법적 조합으로부터 발생될 수 없는 비트 패턴이고 그러한 부호들은 재동기화를 가능하게 하기 위한 간격들에서 비트 스트림에 추가된다. 더욱이, 전송동안 데이터가 손실되는 경우 에러들이 발생한다. 예를 들어, IP 네트워크들에서 신뢰할 수 없는 UDP 전송 프로토콜을 사용하는 비디오 응용들에서, 네트워크 요소들은 부호화된 비디오 비트-스트림의 부분들을 폐기할 수 있다.

수신기가 전송 경로에 도입된 손상을 어드레스하는 많은 방식들이 있다. 일반적으로, 신호의 수신시에, 먼저 전송 에러들이 검출되고 그 다음 수신기에 의해 정정되거나 은폐된다. 에러 정정은 처음부터 에러가 도입되지 않았던 것처럼 잘못된 데이터를 완전하게 복구하는 과정을 말한다. 에러 은폐는 전송 에러들이 재구성된 비디오 시퀀스에 거의 보이지 않도록 전송 에러들의 영향들을 은폐하는 과정을 말한다. 전형적으로 에러 검출, 정정 및 은폐를 돕기 위하여 어떤 양의 중복이 소스 또는 전송 부호화에 의해 추가된다.

다수의 공지된 은폐 알고리즘들이 있고, 그것들의 개요가 와이. 왕 및 큐. 에프. 추(Y. Wang and Q. -F. Zhu)에 의한 "비디오 통신용 에러 제어 및 은폐 : 개요(Error Control and Concealment for Video Communication : A Review)"(IEEE 회보, Vol. 86, No. 5, 1998년 5월, 974 - 997 페이지)에서 주어지고, 피. 살라마, 엔. 비. 쉬로프, 및 이. 제이. 델프(P. Salama, N. B. Shroff, and E. J. Delp)에 의한 "부호화된 비디오에서의 에러 은폐(Error Concealment in Encoded Video)"(통 신에서 선택된 영역들에 대한 IEEE 간행물에 제출된) 기사에서 주어진다.

현재 비디오 부호화 표준들은 자기-충분한(self-sufficient) 비디오 비트-스트림에 대한 구문(syntax)을 정의한다. 기록시에 가장 인기있는 표준들은 ITU-T 추천 H.263, "낮은 비트 율 통신을 위한 비디오 부호화(Video coding for low bit rate communication)", (1998년 2월); ISO/IEC 14496-2, "오디오-비주얼 객체들의 일반 부호화. 파트 2: 비주얼(Generic Coding of Audio-Visual Objects. Part 2: Visual)", (1999년)(MPEG-4로서 알려진); 및 ITU-T 추천 H.262(ISO/IEC 13818-2)(MPEG-2로서 알려진)이다. 이들 표준들은 비트-스트림들에 대한 계층 및 대응하여 이미지 시퀀스들 및 이미지들에 대한 계층을 정의한다.

H.263에서, 상기 계층은 4개의 층들을 갖는다: 화상, 화상 세그먼트, 매크로블록, 및 블록 층. 상기 화상 층 데이터는 상기 화상 데이터의 복호화 및 전체 화상 영역에 영향을 주는 매개변수들을 포함한다. 이 데이터의 대부분은 소위 화상 헤더에 배열된다.

화상 세그먼트 층은 일군의 블록 층 또는 슬라이스(slice) 층일 수 있다. 디폴트로, 각 화상은 블록들의 그룹들로 분할된다. 일군의 블록(GOB; group of blocks)은 전형적으로 16개의 연속 픽셀 라인들을 포함한다. 각 GOB에 대한 데이터는 매크로블록들에 대한 데이터에 의해 뒤따르는 옵션의 GOB 헤더로 구성된다. 옵션의 슬라이스 구조 모드가 사용되는 경우, 각 화상은 GOB들 대신에 슬라이스들로 분할된다. 하나의 슬라이스는 스캔-순서로 다수의 연속하는 매크로블록들을 포함한다. 각 슬라이스에 대한 데이터는 매크로블록들에 대한 데이터에 의해 뒤따르는 슬 라이스 헤더로 구성된다.

각 GOB 또는 슬라이스는 매크로블록들로 분할된다. 매크로블록은 16 x 16 픽셀들(또는 2 x 2 블록들)의 휘도 및 공간적으로 대응하는 8 x 8 픽셀들(또는 블록)의 크로미넌스(chrominance) 성분들에 관련된다. 하나의 블록은 8 x 8 픽셀들의 휘도 또는 크로미넌스에 관련된다.

블록 층 데이터는 지그재그 순서로 스캐닝되고, 런 길이 부호화기(run-length encoder)를 가지고 처리되며, 가변 길이 부호들을 가지고 부호화되는 균일 양자화 이산 코사인 변환 계수들로 구성된다. MPEG-2 및 MPEG-4 층 계층들은 H.263에서의 층 계층과 유사하다.

디폴트로, 이들 표준들은 시간적 예측에 대한 참조로서 시간적으로 이전 앵커(I, EI, P, 또는 EP) 화상을 사용한다. 이 부분의 정보는 전송되지 않는다. 즉, 비트-스트림은 참조 화상의 아이덴티티에 관한 정보를 포함하지 않는다. 따라서, 복호기들은 참조 화상이 손실되는지를 검출하기 위한 수단을 구비하지 않는다. 많은 전송 부호화기들이 비디오 데이터를 패킷화하고 시퀀스 번호를 상기 패킷들과 연관시킨다. 그러나 이러한 종류의 시퀀스 번호들은 비디오 비트-스트림에 관련되지 않는다. 예를 들어, 비디오 비트-스트림의 한 섹션이 P-화상 P1, B-화상 B2, P-화상 P3, 및 P-화상 P4에 대한 데이터를 포함할 수 있고, 이 순서로 캡쳐될 수 있다(그리고 디스플레이될 수 있다). 그러나, B2가 부호화되거나 복호화될 수 있기 전에 P1 및 P3 양자를 필요로 하기 때문에 상기 비디오 비트스트림의 이 섹션은 다음 순서로 압축되고, 전송되며, 복호화될 것이다: P1, P3, B2, P4. 하나의 화상마 다 하나의 패킷이 있고, 각 패킷은 시퀀스 번호를 포함한다고 가정하자. 추가로 B2를 운반하는 패킷이 손실되었다고 가정하자. 수신기는 패킷 시퀀스 번호들로부터 손실된 이 패킷을 검출할 수 있다. 그러나, 상기 수신기는 P4에 대한 움직임 보상 참조 화상을 손실했는지 또는 B-화상을 손실했는지를 검출하기 위한 수단을 구비하지 않고, 이 경우에 상기 수신기는 정상적으로 복호화를 계속할 수 있다.

복호기는 따라서 보통 송신기에 인트라 요청을 전송하고 디스플레이상의 화상을 정지시킨다. 그러나, 상기 송신기는 이 요청에 응답할 수 없을 수 있다. 예를 들어 비-실시간 비디오 스트리밍 응용에 있어서, 상기 송신기는 디코더로부터의 인트라 요청에 응답할 수 없다. 따라서, 상기 복호기는 다음 인트라 프레임이 수신될 때까지 상기 화상을 정지시킨다. 화상-회의와 같은 실시간 응용에 있어서, 송신기는 응답할 수 없을 수 있다. 예를 들어, 다중-당사자 회의에서, 부호화기는 개별적인 요청들에 응답할 수 없을 수 있다. 또 상기 복호기는 상기 송신기에 의해 인트라 프레임이 출력될 때까지 화상을 정지시킨다.

본 발명의 제1 태양에 따라, 일련의 화상들을 나타내는 비디오 신호를 부호화하는 방법에 있어서, 부호화를 위해 현재 화상을 수신하는 단계; 상기 현재 화상에 대한 디폴트 참조 화상으로부터 상기 현재 화상의 시간적 예측을 형성하는 단계; 상기 디폴트 참조 화상을 적어도 하나의 추가 참조 화상과 비교하는 단계; 상기 디폴트 참조 화상 및 각 추가 참조 화상간의 유사성 정도를 계산하는 단계; 상기 유사성 정도가 소정의 기준을 충족하는 경우, 상기 추가 참조 화상을 식별하는 표시자를 출력하는 단계; 및 상기 표시자를 상기 현재 프레임의 시간적 예측과 연관시키는 단계를 포함하는 것을 특징으로 하는 방법이 제공된다.

부호화기들은 실제 참조 화상이 전송중에 손실되는 경우 화상들 중의 어느 하나가 예비 참조 화상으로서 사용될 수 있도록 어느 화상들이 현재 움직임 보상 참조 화상과 유사한지를 복호기들에게 나타내기 위하여 이 표시자를 사용할 수 있다. 복호기는 실제 참조 화상이 부족하지만 예비 참조 화상을 액세스할 수 있는 경우, 바람직하기로는 상기 복호기는 인트라 화상 갱신을 위한 요청을 전송하지 않을 것이다. 상기 표시자는 어느 참조 화상(들)이 상기 디폴트 참조 화상과 유사한지를 복호기에 나타내기 때문에 상기 표시자는 예비 참조 화상 번호로 지칭될 수 있다. 상기 디폴트 참조 화상이 어떤 이유로 손실된 경우 이 "예비(spare)" 참조 화상은 복호기에 의해 현재 프레임을 복호화하는데 사용될 수 있다.

상기 예비 참조 화상 번호는 전체 화상 또는 한 화상의 부분에 관한 것일 수 있다. 전자의 경우에 있어서, 전형적으로 예비 참조 화상 번호는 화상 헤더에 포함된다. 후자의 경우에 있어서, 예비 참조 화상 번호는 화상의 매크로블록 헤더들 또는 화상 세그먼트 헤더들에 포함된다. 본 발명의 바람직한 구현에 있어서, 상기 비디오 신호는 H.263 표준에 따라 부호화되고 상기 표시자는 보충 증강 정보(Supplemental Enhancement Information)에 포함된다.

바람직하기로는, 상기 방법은 또한 상기 현재 화상에 대한 제1 디폴트 참조 화상 및 제2 디폴트 참조 화상으로부터 상기 현재 화상의 시간적 예측을 형성하는 단계로서, 상기 제1 디폴트 참조 화상은 시간적으로 상기 현재 화상 이전에 발생하고 상기 제2 디폴트 참조 화상은 시간적으로 상기 현재 화상 이후에 발생하는 단계; 상기 제1 디폴트 참조 화상을 시간적으로 상기 현재 화상 이전에 발생하는 적어도 하나의 추가 참조 화상과 비교하는 단계; 상기 제1 디폴트 참조 화상 및 각 추가 참조 화상간의 유사성 정도를 계산하는 단계; 및 상기 유사성 정도가 소정의 기준을 충족하는 경우, 상기 추가 참조 화상을 식별하는 표시자를 출력하는 단계를 포함한다.

따라서 표시자는 순방향 예측 프레임들에 대해 제공되지만 역방향 예측 프레임들에 대해서는 제공되지 않는다.

바람직하기로는, 디폴트 참조 화상은 복수의 추가 참조 화상들과 비교되고 소정의 기준을 충족하는 각 추가 참조 화상에 대한 표시자가 출력된다. 바람직하기로는, 소정의 기준을 충족하는 추가 참조 화상들이 유사성의 순서로 순서가 정해지고 표시자는 순서대로 현재 프레임의 시간적 예측과 연관되며, 디폴트 참조 화상에 가장 근접하게 유사함을 갖는 추가 참조 화상은 첫 번째 위치한다. 상기 비교는 한번에 한 화상의 부분들, 예를 들어 상기 화상들의 블록들 또는 다른 비-직사각형 영역들에 대해 수행될 수 있다.

본 발명의 제2 태양에 따라, 일련의 화상들을 나타내는 비디오 신호를 부호화하는 방법에 있어서, 부호화를 위해 현재 화상을 수신하는 단계; 상기 현재 화상에 대한 디폴트 참조 화상으로부터 상기 현재 화상의 적어도 부분의 예측을 형성하는 단계; 상기 디폴트 참조 화상 또는 상기 현재 화상의 상기 부분을 유사성 정도를 형성하기 위해 상기 일련의 화상들 중 적어도 하나의 추가 화상의 대응하는 부분과 비교하는 단계; 및 상기 유사성 정도가 소정의 기준을 충족하는 경우, 상기 현재 프레임의 상기 부분에 관하여 상기 일련의 화상들 중 추가 참조 화상을 식별하는 표시자를 출력하는 단계를 포함하는 것을 특징으로 하는 방법이 제공된다.

본 발명의 제3 태양에 따라, 일련의 화상들을 나타내는 부호화된 비디오 신호를 복호화하는 방법으로서, 상기 부호화된 신호는 현재 화상에 대한 디폴트 참조 화상으로부터 상기 현재 화상의 시간적 예측을 형성함으로써 부호화된 화상들을 포함하는 방법에 있어서, 현재 화상을 나타내는 부호화된 비디오 신호를 수신하는 단계; 상기 현재 화상의 적어도 화상 헤더를 복호화하는 단계; 복호기가 상기 현재 화상의 상기 디폴트 참조 화상을 복호화할 수 없는 경우, 추가 참조 화상을 식별하는 표시자를 검사하는 단계; 및 그러한 표시자가 상기 현재 화상과 연관되는 경우 상기 현재 화상을 상기 추가 참조 화상을 참조하여 복호화하는 단계를 포함하는 것을 특징으로 하는 방법이 제공된다.

본 발명의 제4 태양에 따라, 일련의 화상들을 나타내는 비디오 신호를 수신하기 위한 입력; 부호화를 위해 현재 화상을 수신하기 위한 입력; 상기 현재 화상에 대한 디폴트 참조 화상으로부터 상기 현재 화상의 시간적 예측을 형성하기 위한 예측 부호화기; 및 상기 디폴트 참조 화상 또는 상기 현재 화상을 적어도 하나의 추가 참조 화상과 비교하고 그 유사성 정도를 계산하며, 상기 유사성 정도가 소정의 기준을 충족하는 경우, 상기 추가 참조 화상을 식별하는 표시자를 출력하는 비교기를 포함하는 것을 특징으로 하는 비디오 부호화기가 제공된다.

본 발명의 제5 태양에 따라, 일련의 화상들을 나타내는 부호화된 비디오 신호를 수신하기 위한 입력으로서, 상기 부호화된 신호는 현재 화상에 대한 디폴트 참조 화상으로부터 상기 현재 화상의 시간적 예측을 형성함으로써 부호화된 화상들을 포함하는 입력을 포함하는 비디오 복호기에 있어서, 현재 화상을 나타내는 부호화된 비디오 신호를 수신하기 위한 입력; 및 상기 현재 화상의 적어도 화상 헤더를 복호화하기 위한 프로세서를 포함하고, 상기 복호기가 상기 현재 화상의 상기 디폴트 참조 화상을 복호화할 수 없는 경우, 추가 참조 화상을 식별하는 표시자를 검사하고 그러한 표시자가 상기 현재 화상과 연관되는 경우 상기 추가 화상을 참조하여 상기 현재 화상을 복호화하도록 정해지는 것을 특징으로 하는 비디오 복호기가 제공된다.

본 발명은 또한 기술되는 바와 같은 부호화기 및/또는 복호기를 포함하는 무선 원격통신 장치에 관련이 있다.

본 발명은 이하 첨부한 도면들을 참조하여 단지 예로써 기술될 것이다.

도 1은 전형적인 멀티미디어 이동 통신 시스템을 나타낸다. 제1 멀티미디어 이동 단말기(1)는 이동 통신 네트워크(4)로의 무선 링크(3)를 경유하여 제2 멀티미디어 이동 단말기(2)와 통신한다. 멀티미디어 데이터뿐만 아니라 제어 데이터도 상기 2개의 단말기(1, 2)간에 전송된다.

도 2는 단말기(1)의 전형적인 멀티미디어 구성요소들을 나타낸다. 상기 단말기는 비디오 코덱(10), 오디오 코덱(20), 데이터 프로토콜 관리자(30), 제어 관리자(40), 멀티플렉서/디멀티플렉서(50) 및 모뎀(60)(필요한 경우)을 포함한다. 상기 비디오 코덱(10)은 상기 단말기의 비디오 캡쳐 장치(미도시)(예를 들어 카메라)로부터의 부호화를 위한 신호들을 수신하고 단말기(1)에 의한 디스플레이(70)상에 디스플레이를 위한 원격 단말기(2)로부터의 복호화를 위한 신호들을 수신한다. 상기 오디오 코덱(20)은 상기 단말기(1)의 마이크로폰(미도시)으로부터의 부호화를 위한 신호들을 수신하고 상기 단말기(1)의 스피커(미도시)에 의한 재생을 위해 원격 단말기(2)로부터의 복호화를 위한 신호들을 수신한다. 상기 단말기는 무선 전화와 같은, 휴대용 무선 통신 장치일 수 있다.

상기 제어 관리자(40)는 상기 비디오 코덱(10), 상기 오디오 코덱(20) 및 상기 데이터 프로토콜 관리자(30)의 동작을 제어한다. 그러나, 본 발명은 상기 비디오 코덱(10)의 동작에 관련되기 때문에, 상기 오디오 코덱(20) 및 데이터 프로토콜 관리자(30)에 대한 추가 검토는 제공되지 않을 것이다.

도 3은 본 발명에 따른 비디오 코덱(10)의 예를 나타낸다. 상기 비디오 코덱 은 부호화기 부분(100) 및 복호기 부분(200)을 포함한다. 상기 부호화기 부분(100)은 상기 단말기(1)의 카메라 또는 비디오 소스(미도시)로부터 비디오 신호를 수신하기 위한 입력(101)을 포함한다. 스위치(102)는 부호화의 인트라-모드 및 인터-모드 사이에서 상기 부호화기를 스위칭한다. 비디오 코덱(10)의 부호화기 부분(100)은 DCT 변환기(103), 양자화기(104), 역 양자화기(108), 역 DCT 변환기(109), 가산기(110), 복수의 화상 저장부(107)(더 상세한 것을 위해 도 3a 참조), 예측 에러를 형성하기 위한 감산기(106), 스위치(113) 및 부호화 제어 관리자(105)를 포함한다.

비디오 코덱(10)의 복호화 부분(200)은 역 양자화기(120), 역 DCT 변환기(121), 움직임 보상기(122), 복수의 화상 저장부(123) 및 제어기(124)를 포함한다. 제어기(124)는 부호화된 멀티미디어 스트림으로부터 디멀티플렉서(50)에 의해 디멀티플렉싱되는 비디오 코덱 제어 신호들을 수신한다. 실제에 있어서, 부호화기의 제어기(105) 및 복호기의 제어기(124)는 동일한 프로세서일 수 있다.

본 발명에 따른 부호화기의 동작이 이제 기술될 것이다. 비디오 코덱(10)은 부호화되는 비디오 신호를 수신한다. 비디오 코덱의 부호화기(100)는 DCT 변환, 양자화 및 움직임 보상을 수행함으로써 비디오 신호를 부호화한다. 부호화된 비디오 데이터는 그 다음 멀티플렉서(50)에 출력된다. 멀티플렉서(50)는 비디오 코덱(10)으로부터의 비디오 데이터 및 제어기(40)로부터의 제어 데이터(뿐만 아니라 적합한 경우 다른 신호들)를 멀티미디어 신호로 멀티플렉싱한다. 상기 단말기(1)는 상기 모뎀(60)(필요한 경우)을 경유하여 수신 단말기(2)에 이 멀티미디어 신호를 출력한다.

인트라-모드(INTRA-mode)에 있어서, 상기 입력(101)으로부터의 비디오 신호는 DCT 변환기(103)에 의해 DCT 계수들로 변환된다. 상기 DCT 계수들은 그 다음 상기 계수들을 양자화하는 양자화기(104)에 전달된다. 상기 스위치(102) 및 상기 양자화기(104) 양자는 상기 비디오 코덱의 부호화 제어 관리자(105)에 의해 제어된다. 상기 부호화 제어 관리자(105)는 또한 상기 제어 관리자(40)에 의하여 상기 수신 단말기(2)로부터 피드백 제어를 수신한다. 복호화된 화상은 그 다음 상기 양자화기에 의해 출력된 데이터를 역 양자화기(108)를 통해 통과시키고 상기 역-양자화된 데이터에 역 DCT 변환(109)을 인가함으로써 형성된다. 그 결과 데이터는 그 다음 가산기(110)에 입력된다. 인트라 모드에 있어서, 스위치(113)는 스위치(113)로부터 가산기(110)로의 입력이 제로로 세팅되도록 세팅된다. 가산기(110)로의 2개의 입력들은 합해지고 그 결과 데이터는 상기 화상 저장부(107)에 입력된다.

인터-모드(INTER-mode)에 있어서, 상기 스위치(102)는 상기 입력(101)으로부터의 신호 및 화상 저장부(107)에 저장된 참조 화상간의 차이를 감산기(106)로부터 받아들이도록 동작된다. 상기 감산기(106)로부터 출력된 차이 데이터는 현재 화상 및 상기 화상 저장부(107)에 저장된 참조 화상간의 예측 에러를 나타낸다. 움직임 예측기(111)는 종래의 방식으로 상기 화상 저장부(107)내의 데이터를 참조하여 움직임 보상 데이터를 생성할 수 있다.

상기 부호화 제어 관리자(105)는 인트라 부호화를 적용할지 또는 인터 부호화를 적용할지를 결정하거나 수신 복호기로부터의 피드백 제어 데이터에 응답하여 또는 상기 감산기(106)의 출력을 기초로 하여 프레임을 부호화할지를 결정한다. 현 재 프레임 및 참조 프레임간의 유사성이 너무 높거나 상기 프레임을 부호화할 시간이 없는 경우 상기 부호화 제어 관리자는 수신된 프레임을 전혀 부호화하지 않도록 결정할 수 있다. 상기 부호화 제어 관리자는 그에 따라서 상기 스위치(102)를 동작한다.

피드백 제어 데이터에 응답하지 않는 경우, 상기 부호화기는 전형적으로 부호화의 시작시에만(다른 모든 프레임들이 P-프레임들이다) 또는 규칙적인 간격으로, 예를 들어 5초마다, 또는 상기 감산기의 출력이 임계값을 초과하는 경우, 즉 현재 화상 및 상기 화상 저장부(107)에 저장된 화상이 거의 유사하지 않다고 판단되는 경우 인트라-프레임으로서 프레임을 부호화한다. 상기 부호화기는 또한 특정 규칙 순서로, 예를 들어 I B B P B B P B B P B B P B B I B B P 등으로 프레임들을 부호화하도록 프로그래밍될 수 있다.

상기 비디오 코덱은 양자화된 DCT 계수들(112a), 양자화 인덱스(112b)(즉, 사용된 양자화의 상세), 수행되는 부호화의 모드를 나타내는 인트라/인터 플래그(112c)(I 또는 P/B), 부호화되는 프레임의 수를 나타내는 전송 플래그(112d) 및 (인터 모드에서) 부호화되는 화상을 위한 움직임 벡터들(112e)을 출력한다. 이들은 다른 멀티미디어 신호들과 함께 상기 멀티플렉서(50)에 의해 멀티플렉싱된다.

상기 부호화기(100)는 비디오 코덱의 부호화기(100)의 간략화된 도면을 나타내는 도 3a를 참조하여 더 기술될 것이다. 부호화기(100)는 복수의 화상 저장부들(107a-107g)을 포함한다. 비록 이 예에서 7개의 화상 저장부들이 도시되지만, 화상 저장부들의 수는 2개 이상일 수 있다.

I B B P B B P B B P B B P B B P B B P B B I 등의 형식을 갖는 입력 신호를 부호화하도록 정해지는 부호화기를 고려해보자. 간략화를 위해 우리는 부호화기가 입력 신호의 모든 프레임을 부호화할 것으로 가정할 것이다. 즉, 어떠한 프레임도 생략되지 않을 것이다. 이것은 도 4에 도시된다.

상술된 바와 같이, 프레임들은 비디오 캡쳐 장치로부터 0, 1, 2, 3, 4, 5, 6 등의 순서로 수신되고, 이 순서로 디스플레이된다. 즉, 복호화된 프레임들은 I0, B1, B2, P3, B4, B5, P6 등의 순서로 디스플레이된다. 그러나, 비디오 비트 스트림은 다음 순서 I0, P3, B1, B2, P6, B4, B5 등으로 압축되고 전송되며 복호화된다. 이것은 B-프레임이 부호화/복호화될 수 있기 전에 각 B-프레임은 이전 및 이후 참조 프레임들을 필요로 하기 때문이다. 즉, 프레임(B1)은 부호화/복호화될 수 있기 전에 프레임(I0 및 P3)이 부호화/복호화되는 것을 필요로 한다.

제1 프레임이 수신되는 경우, 모든 화상 저장부들(107)은 빈 것이 되고 입력 신호가 인트라 형식으로 부호화되도록 스위치(102)는 부호화 제어기(105)의 제어하에 인트라 모드에 위치된다. 입력 신호는 DCT 변환되고 양자화된다. 이것은 매크로블록 기준으로 매크로블록으로 수행된다. 그 결과 신호는 그 다음 역 양자화(108) 및 역 DCT(109)에 의해 복호화된다. 프레임이 인트라 부호화되기 때문에, 스위치(113)는 오픈된다. 가산기(110)의 출력은 제1 화상 저장부(107a)에 입력된다. 이 목적을 위해 스위치(114a)는 닫히지만 스위치들(114b-g)은 오픈된다. 따라서 프레임 저장부(107a)는 참조 화상(I0)의 복호화된 버전을 유지한다.

부호화되는 다음 화상은 프레임(3)이고, 이것은 I0으로부터 순방향 예측된 다. 따라서 프레임(3)이 입력(101)에 입력되는 경우, 스위치(102)는 인터 모드로 변경되고, 가장 최근 참조 화상 저장부의 출력 스위치(115)(즉 스위치(115a))가 닫히고 화상 저장부(107a)의 움직임 보상 내용들은 입력 신호들로부터 감산되는데, 여기서 움직임 보상 데이터는 종래의 방식으로 계산된 것이다. 이 예측 에러는 그 다음 DCT(103) 및 양자화기(104)에 의해 부호화되고 역 양자화기(108) 및 IDCT(109)에 의해 복호화된다. 그 다음 스위치(113)가 닫히고, 스위치(115a)가 닫히며 스위치(114b)가 닫힌다(다른 스위치들(114 및 115)은 오픈되어 있다). 따라서 가산기(110)는 복호화된 화상을 화상 저장부(107a)에 저장된 화상에 더하고 그 결과를 화상 저장부(107b)에 저장한다.

부호화되는 다음 프레임은 프레임(2)이고, 이것은 B-프레임으로서 부호화된다. 따라서 프레임 저장부들(107a 및 107b) 양자의 내용들은 종래의 방식으로 감산기(106)에 이용가능하다. B-프레임들은 어떤 다른 프레임에 대한 참조 화상을 형성하지 않기 때문에, 부호화된 B-프레임은 복호화되고 참조 화상 저장부에 저장되지 않는다.

따라서 상술된 경우에 있어서, 19 프레임들 다음에, 프레임 저장부들(107a 내지 107g) 각각은 프레임들(I0, P3, P6, P9, P12, P15 및 P18) 복호화된 버전들을 포함한다.

본 발명에 있어서, 부호화기가 예측 방식으로 프레임을 부호화하는 경우, 부호화 제어 관리자(105)는 예비 참조 화상 번호(SRPN; Spare Reference Picture Number)를 프레임과 연관시킬 수 있다. 예를 들어, SRPN은 비디오 신호의 P 및 B 프레임들과 연관될 수 있지만 I-프레임들과는 연관될 수 없다.

부호화기들은 어느 참조 화상 또는 화상들이 현재 참조 화상과 유사한지를 복호기들에 나타내기 위하여 이 메시지를 사용할 수 있고, 실제 참조 화상이 전송동안 손실되는 경우 상기 참조 화상들 중의 하나가 예비 참조 화상으로서 사용될 수 있다.

프레임 3은 프레임 0을 참조하여 부호화되는 경우, 다른 참조 프레임들은 참조 화상 저장부들(107a-g)에 저장되지 않는다. 따라서 어떠한 SRPN도 프레임 3과 연관되지 않는다. 유사하게, 프레임들 1 및 2가 프레임들 0 및 3을 참조하여 양방향으로 부호화되는 경우, 참조 화상 저장부들(107a-g)에 유지되는 다른 프레임들은 없다. 따라서 어떠한 SRPN도 이들 프레임들 중 어느 것과도 연관되지 않는다.

그러나, 프레임 6이 프레임 3으로부터 순방향으로 예측되는 경우(화상 저장부(107b)에 저장되는 복호화된 버전), 또한 프레임 I0의 복호화된 사본이 화상 저장부(107a)에 있다. 부호화기는 현재 프레임의 디폴트 참조 화상(즉, 프레임 6에 대한 프레임 3) 및 다른 화상 저장부들 즉 화상 저장부(107a)의 내용들간의 유사성을 계산한다. 2개의 참조 화상들이 충분히 유사한 경우(예를 들어 프레임 저장부(107a 및 107b)의 내용들간의 상관이 임계값 이상인 경우), 부호화기는 프레임 6에 대한 데이터와 SRPN을 연관시킨다. 상기 SRPN은 예비 참조 화상으로서 프레임 0을 식별한다. 그러나, 유사성이 충분하지 않은 경우, 프레임 6과 연관되는 SRPN은 없다.

유사성 정도가 생성되는 방법은 본 발명에 중요하지 않고 어떤 적절한 유사 성 정도가 사용될 수 있다. 예를 들어, 절대 차이들의 합(SAD; Sum of Absolute Differences)이 유사성의 정도로서 사용될 수 있다. 바람직하기로는, SAD 값은 현재 프레임에 대한 디폴트 참조 화상의 공간적으로 대응하는 픽셀들 및 다른 "잠재적인" 참조 프레임 즉, 화상 저장부들(107)중의 하나에 저장된 프레임간의 값의 차이를 취함으로써 계산된다. 각 차이의 절대값이 얻어지고 절대 차이 값들이 SAD를 형성하기 위해 축적된다. 이러한 방식으로, SAD는 디폴트 참조 프레임 및 다른 잠재적인 참조 프레임간의 유사성을 나타낸다. 그들간의 SAD가 임계값 아래인 경우 분명히 2개의 화상들은 충분히 유사한 것으로 생각될 수 있다. 대안으로, 디폴트 참조 프레임 및 현재 화상에 대한 다른 잠재적인 참조 프레임의 유사성은 화상 히스토그램들을 사용하여 결정될 수 있다. 화상 히스토그램은 주어진 이미지내의 픽셀 값들의 발생의 수의 정도이고, 2개의 화상들은 그들의 히스토그램들이 충분한 정도로 대응하는 경우 유사한 것으로 생각될 수 있다.

본 발명의 대안적인 실시예에 있어서, 현재 프레임에 대한 디폴트 참조 프레임 및 다른 잠재적인 참조 프레임간의 유사성을 결정하는 것 대신에, 부호화기는 화상 저장부들(107) 중의 어느 하나에 이용가능한 다른 잠재적인 참조 프레임 및 현재 프레임 자신간의 유사성을 검사한다. 본 발명의 이러한 대안적인 실시예에 있어서, 현재 프레임 및 잠재적인 참조 프레임간의 허용가능한 최대 차이를 정의하는 임계값이 세팅된다. 따라서 현재 프레임과 충분히 높은 유사성(작은 차이)을 나타내는 어떤 저장된 프레임은 현재 화상에 대한 예비 참조 화상으로서 사용될 수 있다. 다시, 절대 차이들의 합(SAD), 이미지 히스토그램, 또는 어떤 다른 적절한 방 법이 현재 프레임 및 다른 잠재적인 참조 프레임(들)간의 유사성 / 차이의 정도를 결정하는데 사용될 수 있다.

이해되는 바와 같이, 프레임 15가 부호화되는 경우(P-프레임으로서), 프레임들(0, 3, 6, 9 및 12)의 복호화된 버전들은 각각 화상 저장부들(114a-e)에 유지된다. 디폴트로, 프레임 15는 화상 저장부(107e)에 저장된 바와 같은 프레임 12를 참조하여 부호화된다. 부호화기는 또한 화상 저장부(107e)의 데이터 및 다른 화상 저장부들(107a-d)에 저장된 데이터간의 상관의 계산을 수행한다. 부호화기는 화상 저장부(107e)의 내용들 즉, 부호화되는 현재 프레임에 대한 디폴트 참조 화상과 가장 근접한 상관을 갖는 화상 저장부(및 그에 따른 참조 화상)를 식별한다. 부호화기는 그 다음 SRPN을 식별된 참조 화상을 나타내는 부호화된 데이터에 부가한다. 이 SRPN은 후술되는 바와 같은 참조 화상의 시간적 참조와 동일할 수 있다.

하나보다 많은 SRPN이 하나의 프레임과 연관될 수 있다. 이 경우에 있어서, SRPN은 유사성의 순서로 화상 헤더내에 순서가 정해지고 가장 유사한 참조 화상(디폴트 이외에)이 먼저 언급된다.

상기 부호화 제어 관리자(105)는 부호화된 프레임과 연관된 예비 참조 화상 번호를 나타내는 이 SRPN 부호워드를 출력(112f)상에 출력한다. 이것은 멀티플렉서에 의해 비디오 비트스트림으로 멀티플렉싱된다.

도 4는 부호화기의 제1 실시예의 동작을 나타낸다. 도 4의 제1 라인은 캡쳐 입력 장치로부터 수신되고 입력(101)상에 상기 비디오 부호화기에 입력된 데이터의 프레임들을 나타낸다. 도 4의 제2 라인은 부호화기가 부호화하기로 결정한 입력 신 호의 프레임들 및 각 프레임을 부호화하는데 사용되는 부호화 모드를 나타낸다. 상술된 바와 같이, 이 예에 있어서 부호화기는 모든 프레임을 부호화하고 IBBP 부호화 형식을 사용하도록 정해진다.

프레임 0은 인트라-모드로 부호화된다; 프레임 1은 프레임 0 및/또는 3을 참조하여 B-프레임으로서 부호화된다; 프레임 2는 프레임 0 및/또는 3을 참조하여 B-프레임으로서 부호화된다; 프레임 3은 프레임 0을 참조하여 P-프레임으로서 부호화된다; 프레임 4는 프레임 3 및/또는 6을 참조하여 B-프레임으로서 부호화된다; 프레임 5는 프레임 3 및/또는 6을 참조하여 B-프레임으로서 부호화된다; 프레임 6은 프레임 3을 참조하여 P-프레임으로서 부호화된다; 등.

도 4의 제3 라인은 부호화된 신호의 프레임들과 연관되는 SRPN 필드를 나타낸다. 이 실시예에 있어서, 도 4의 제3 라인에 도시된 바와 같이, SRPN은 P-프레임들 및 B-프레임들과 연관된다. 부호화된 프레임들의 P-프레임 및 B-프레임들은 시간적으로 예측 부호화되고 I-프레임은 그렇지 않다.

도 4의 제4 라인은 부호화된 프레임의 시간적 참조(TR; Temporal Reference)를 나타낸다. 이것은 H.263에 포함되는 필드이고, TR의 값은 시간적으로 이전 참조 화상 헤더의 값을 이전 전송된 참조 화상 이후로 생략된(skipped) 또는 비-참조(non-reference) 화상들의 수 더하기 1만큼 증가시킴으로써 형성된다. 따라서 도 4에 도시된 예에 있어서 각 프레임에 대해 표시된 TR은 입력(101)에 입력된 원래 신호의 프레임들의 원래 시간적 순서와 동일하다.

SRPN의 가능한 값들의 예들이 도시된다. 이들 값들은 상술된 바와 같이 부호 화기에 의해 식별된 바와 같은 예비 참조 프레임의 TR을 나타낸다. 비록 이 예가 각 예측 부호화된 화상에 대해 단 하나의 SRPN을 나타낸다 하더라도, 하나보다 많은 것이 상술된 바와 같이 각 예측 부호화된 화상과 연관될 수 있다.

도 5는 본 발명에 따른 부호화기의 제2 실시예의 동작을 나타낸다. 이 실시예에 있어서, 상기 부호화기는 규칙적인 순서 I B B P B B P B B P B B I B B P B B P에 따라 프레임들을 부호화하도록 정해진다. 그러나, 상기 실시예에 있어서, SRPN은 순방향으로 예측되는 프레임들(즉, P-프레임들)과만 연관된다.

도 5의 제1 라인은 입력 프레임들을 나타내고 제2 라인은 부호화된 프레임들 및 그들의 부호화 모드(I, P 또는 B)를 나타낸다.

도 5의 제3 라인은 P-프레임들과 연관되는 SRPN을 나타낸다. 이들은 도 3a를 참조하여 상술된 바와 같이 생성될 수 있다.

도 5의 제4 라인은 부호화된 프레임의 시간적 참조(TR)를 나타낸다. 도 4에 도시된 예에서와 같이, 각 프레임에 대해 표시된 TR은 입력(101)에 입력된 원래 신호의 프레임들의 원래 시간적 순서와 동일하다.

단말기(1)를 단말기(2)로부터 부호화된 비디오 데이터를 수신하는 것으로 고려하는 경우, 그 복호화 역할에 관련하여 비디오 코덱(10)의 동작이 이하 기술될 것이다. 단말기(1)는 전송 단말기(2)로부터 멀티미디어 신호를 수신한다. 디멀티플렉서(50)는 멀티미디어 신호를 디멀티플렉싱하고 비디오 데이터를 비디오 코덱(10)에 그리고 제어 데이터를 제어 관리자(40)에 전달한다. 상기 비디오 코덱의 복호기(200)는 부호화된 비디오 데이터를 역 양자화하고 역 DCT 변환하며 움직임 보상 함으로써 상기 부호화된 비디오 데이터를 복호화한다. 상기 복호기의 제어기(124)는 수신된 데이터의 완전성(integrity)을 체크하고, 에러가 검출되는 경우, 후술되는 방식으로 에러를 은폐하려고 시도한다. 복호화되고 정정되며 은폐된 비디오 데이터는 그 다음 화상 저장부들(123) 중의 어느 하나에 저장되고 수신 단말기(1)의 디스플레이(70)에 재생을 위해 출력된다.

비디오 데이터에서의 에러들은 화상 레벨로, GOB 레벨로 또는 매크로블록 레벨로 발생할 수 있다. 에러 체크는 이들 레벨들 중의 어느 하나 또는 각각으로 수행될 수 있다.

우선 도 4에 도시된 바와 같은 신호를 고려해보면, 본 발명에 따른 복호기가 이 신호를 수신하는 경우 상기 신호의 각 프레임은 종래의 방식으로 복호화되고 그 다음 디스플레이 수단에 디스플레이된다. 복호화된 프레임은 종래의 방식으로 에러가 정정될 수 있고 에러가 은폐될 수 있다. 하나의 프레임이 복호화될 때마다, 상기 복호기는 상기 프레임이 디스플레이 될 때를 결정하기 위하여 TR 필드를 검사한다.

도 4에 도시된 경우에 있어서 복호기는 프레임 0을 수신하고 그 화상 헤더로부터 상기 프레임이 인트라-부호화된 것으로 결정한다. 복호기는 어떤 다른 화상을 참조하지 않고 프레임 0을 복호화하고 화상 저장부(123a)에 저장한다. 그 다음 복호기는 프레임 3을 수신하고 그 화상 헤더로부터 상기 프레임이 P-프레임으로서 인터-부호화된 것으로 결정한다. 복호기는 따라서 이전 참조 프레임 0을 참조하여 프레임 3을 복호화하고 다음 화상 저장부(123b)에 저장한다. 그 다음 복호기는 프레 임들 0 및 3을 참조하여 프레임들 1 및 2를 복호화한다. 이들 프레임들은 화상 저장부들(123)에 저장되지 않는데, 이것은 B-화상들로서, 그들은 어떤 다른 프레임들에 대한 참조 프레임으로서 사용되지 않기 때문이다.

이제 복호기가 프레임 9를 복호화(및 따라서 재구성)할 수 없다고 가정해보자(이것은 프레임 9에 대한 데이터가 크게 손상되거나 완전히 손실된 것에 기인할 수 있다). 복호기에 의해 수신되는 다음 프레임은 프레임 7이고 TR=7, 및 SRPN=0을 갖는다. 프레임 9(프레임 7에 대한 디폴트 참조 프레임들 중의 하나)가 복호기에 의해 복호화되지 않았기 때문에, 복호기는 역방향 예측에 대해 수신된 프레임의 헤더에서 SRPN을 찾는다. 그러나, 프레임 7은 역방향으로 SRPN을 포함하지 않는다. 따라서 복호기는 프레임 7을 복호화할 수 없다. 이것은 또한 프레임 8에 대한 경우이다.

수신되는 다음 프레임은 프레임 12이고, 이것은 화상 9를 참조하여 부호화되었고 SRPN=6을 갖는다. 프레임 9가 복호화되지 않았기 때문에, 복호기는 프레임 12를 복호화하기 위해 SRPN에 의해 표시되는 참조 화상(즉, 화상 저장부(123c)에 저장된 프레임 6)을 사용한다. 그 다음 복호기는 프레임 10을 수신하고, 이것은 프레임들 9 및 12를 참조하여 부호화되었다. 프레임 9가 복호기에 의해 복호화되지 않았다. 그러나, 프레임 10은 SRPN=6을 갖는다. 따라서, 복호기는 프레임 7보다는, 순방향으로 프레임 10을 복호화하기 위해 화상 저장부(123c)에 저장된, 복호화된 참조 프레임 6을 사용한다. 이것은 또한 프레임 11에 대해서도 진실이다.

복호기는 수많은 방식으로 참조 프레임의 생략을 검출할 수 있다. 예를 들어 각 부호화된 프레임의 시간적 순서에 관한 정보가 검사될 수 있다. 대안으로, 부호화된 신호의 참조 프레임들은 동일자로 상기 출원인에 의해 출원된 영국 특허 출원에 기술된 바와 같은 순차적인 순서로 번호가 할당될 수 있다.

복호기가 전송 비디오 부호화기에 제어 피드백 데이터를 전송하는 기능을 구비하는 경우 상기 복호기는 전송 비디오 부호화기에 인트라-프레임으로서 프레임을 부호화하도록 하는 요청을 전송할 수 있고 따라서 프레임 6을 참조하여 복호화되는 프레임들 10 및 11로부터 기인하는 시간적 에러 전파를 중지시킬 수 있다. 상기 복호기는 계속해서 종래의 방식으로 신호를 복호화한다.

복호기가 인트라 프레임인 프레임 21을 수신하는 경우, 복호기는 어떤 다른 프레임을 참조하지 않고 프레임 21을 복호화하고 복호화된 프레임을 화상 저장부(123)에 저장한다. 그 다음 복호기는 프레임들 18 및 21을 참조하여 프레임들 19 및 20을 복호화한다. 비록 프레임 9 대신에 프레임 6을 참조하여 프레임 12를 복호화함으로써 프레임 18에 어떤 에러가 도입될 수 있다 하더라도, 그 결과 이미지는 허용 가능할 것이고 디스플레이되는 화상은 인트라 화상이 수신될 때까지 정지되어 있지 않는다. 이것은 시청자에게 보다 허용 가능할 수 있다.

이제 도 5에 도시된 바와 같은 신호를 고려해보면, 본 발명에 따른 복호기는 이 신호를 수신하는 경우 상기 신호의 각 프레임은 종래의 방식으로 복호화되고 그 다음 디스플레이 수단에 디스플레이된다. 복호화된 프레임은 종래의 방식으로 에러가 정정될 수 있고 에러가 은폐될 수 있다. 하나의 프레임이 복호화될 때마다, 상기 복호기는 상기 프레임이 디스플레이 될 때를 결정하기 위하여 TR 필드를 검사한 다.

복호기는 프레임 0을 수신한다. 이것은 인트라 프레임이고 그에 따라 상기 프레임을 복호화하고 화상 저장부(123a)에 저장한다. 이제 복호기가 프레임 3을 재구성할 수 없고(이것은 크게 손상되거나 완전히 손실된 데이터에 기인할 수 있다), 복호기에 의해 수신되고 복호화되는 다음 프레임은 프레임 1이라고 가정해보자. 프레임 1은 프레임 0 및 3을 참조하여 부호화된 양방향 프레임이다. 프레임 3이 손실되었기 때문에, 복호기는 프레임 1을 재구성할 수 없고 유사하게 프레임 2를 재구성할 수 없다. B-프레임들 1 및 2가 손실되었다는 사실은 복호기에는 중요하지 않은데, 이것은 B-프레임이 어떤 다른 프레임에 대한 참조 화상을 형성하지 않기 때문이고 따라서 그 손실은 어떤 시간적 에러 전파를 도입하지 않을 것이다. 복호기는 계속해서 종래의 방식으로 신호를 복호화한다.

복호기에 의해 수신되고 복호화되는 다음 프레임은 프레임 6이다. 복호기는 이전 참조 화상(P3)이 손실되었다는 것을 안다(복호기는 프레임 1 또는 2를 복호화할 수 없었기 때문에). 복호기는 따라서 SRPN을 위해 수신된 프레임의 헤더를 검사한다. 복호기는 프레임 6이 SRPN=0을 가지는 것으로 결정하고 따라서 프레임 6을 복호화하기 위하여 화상 저장부(123a)의 프레임 0을 이용한다.

복호기가 전송 비디오 부호화기에 제어 피드백 데이터를 전송하는 기능을 구비하는 경우 상기 복호기는 전송 비디오 부호화기에 인트라-프레임으로서 프레임을 부호화하도록 하는 요청을 전송할 수 있고 따라서 디폴트 프레임 3 대신에 프레임 0을 참조하여 복호화된 프레임 6을 참조하여 복호화되는 다음 프레임들로부터 기인 하는 시간적 에러 전파를 중지시킬 수 있다. 그러나 복호기는 복호화를 계속할 수 있고 인트라-부호화된 프레임을 기다리는 동안 디스플레이상에 화상을 정지하지 않는다.

이제 예비 참조 화상 번호가 부호화된 신호에 포함될 수 있는 방법이 H.263 비디오 부호화 표준을 참조하여 언급될 것이다.

도 6은 H.263에 따라 알려진 바와 같은 비트 스트림의 구문을 나타낸다. 다음 구현은 GOB 형식을 기술하지만 본 발명은 또한 슬라이스 형식으로 구현될 수 있다는 것이 당업자에게 명백할 것이다.

상술된 바와 같이, 비트 스트림은 4개의 층들을 구비한다: 화상 층, 화상 세그먼트 층, 매크로블록 층 및 블록 층. 상기 화상 층은 화상 헤더, 그 다음 블록들의 그룹에 대한 데이터, 마지막으로 그 다음 어떤 옵션의 시퀀스 끝(end-of-sequence) 부호 및 채워넣기(stuffing) 비트들을 포함한다.

선행기술 H.263 비트 스트림은 도 6에 도시된 바와 같은 형식을 갖는다. 각 부분에 대한 서술자(descriptor)는 이하 제공된다:

PSC 화상 시작 부호(PSC; picture start code)는 화상의 시작을 나타낸다.

TR 시간적 참조(TR; Temporal Reference)는 시간적으로 이전 참조 화상 헤더의 값을 이전에 전송된 것 이후에 생략되거나 비-참조된 화상들의 수 더하기 1만큼을 증가시킴으로써 형성된다.

PTYPE 다른 것들 중에서, PTYPE은 화상 부호화 유형의 상세, 즉 인트라 또는 인터를 포함한다.

PQUANT 어떤 다음의 양자화기 정보에 의해 갱신될 때까지 화상에 대해 사용되는 양자화기를 나타내는 부호워드.

CPM 옵션의 계속 존재 다중점 및 비디오 멀티플렉스(CPM) 모드의 사용을 신호하는 부호워드.

PSBI 화상 서브-비트 스트림 표시자 - CPM이 세팅되는 경우에만 존재

TR_B 프레임이 양방향으로 예측된 프레임인 경우에 존재(PB-프레임으로 알려진)

DBQUANT 양방향 프레임인 경우 존재

PEI 이것은 여분의 삽입 정보에 관한 것이고 다음의 옵션의 데이터 필드들(PSUPP 및 PEI)의 존재를 나타내기 위하여 "1"로 세팅된다. PSUPP 및 PEI는 함께 보충 증강 정보로 알려져 있고, 추가로 H.263의 부록 L에 정의된다.

GOBS 현재 화상에 대한 블록들의 그룹에 대한 데이터이다.

ESTF EOS 전에 바이트 정렬을 달성하기 위해 제공되는 채워넣기 부호워드.

EOS 화상의 데이터 시퀀스의 끝을 나타내는 부호워드.

PSTUF 다음 화상 시작 부호(PSC)의 바이트 정렬을 허용하기 위한 채워넣기 부호워드.

도 6에 도시된 구조는 옵션의 PLUSTYPE 데이터 필드를 포함하지 않는다. PSBI는 CPM에 의해 표시되는 경우에만 존재한다. TR_B 및 DBQUANT는 PTYPE이 소위 PB 프레임 모드의 사용을 나타내는 경우에만 존재한다(그렇지 않은 경우 PLUSTYPE 필 드가 존재하고 DBQUANT의 사용이 그 안에 표시된다). 이들 논점들은 H.263 사양에 더 상세하게 언급된다.

다음 단락들은 본 발명의 제1 태양에 따른 부호화기에 의한 비트-스트림 출력의 가능한 구현들을 약술한다.

예비 참조 화상 번호는 다음과 같이 H.263 비트 스트림에 포함될 수 있다. 도 7은 본 발명의 제1 구현에 따른 부호화기에 의해 출력되는 비트 스트림의 예를 나타낸다. 도 7에 도시된 바와 같이, 비트 스트림은 예비 참조 화상 번호를 나타내는 부호워드인 추가의 부호워드 SRPN을 포함한다. 이것은 상술된 바와 같이 본 발명에 따른 부호화기에 의해 삽입된다.

대안으로, 예비 참조 화상 번호(SRPN)는 보충 증강 정보(PSUPP)(H.263의 부록 L 및 도 4를 참조)에 포함될 수 있다. 상기 보충 정보는 비록 복호기가 상기 보충 정보를 사용하거나 또는 적합하게 해석하기 위한 증강된 능력을 제공할 수 없다 하더라도 비트 스트림에 존재할 수 있다. 필요한 능력을 제공하기 위한 요건이 외부 수단에 의해 협의되지 않은 경우에 복호기들에 의해 간단히 상기 보충 정보를 폐기하는 것이 허용 가능하다.

PEI가 "1"로 세팅되는 경우, 8비트의 데이터(PSUPP) 및 그 다음 추가 9비트들이 뒤따르는지를 나타내기 위한 다른 하나의 PEI 비트로 구성된 9비트들이 뒤따른다.

PSUPP 데이터는 4비트 기능 유형 표시(FTYPE), 그 다음 4비트 매개변수 데이터 크기 상세(DSIZE), 그 다음 기능 매개변수 데이터의 DSIZE 옥텟(octets), 옵션 으로 그 다음 다른 하나의 FTYPE 등으로 구성된다. 다음과 같은 다양한 경우들을 신호하기 위해 이 PSUPP 부호워드를 사용하는 것이 알려져 있다: 재크기조정(resizing)을 갖거나 갖지 않는 전체-화상 또는 부분-화상 정지 또는 정지-해제 요청을 나타내기 위하여; 외부 사용을 위한 비디오 스트림내의 특정 화상들 또는 연속된 화상들을 태그하기 위하여; 또는 비디오 합성을 위한 크로마(chroma) 키 정보를 운반하기 위하여.

보충 증강 정보를 사용하는 본 발명을 구현하기 위하여, 추가의 FTYPE이 예비 참조 화상 번호(Spare Reference Picture Number)로서 정의된다.

도 8은 매개변수(SRPN)가 화상 헤더의 SEI에 포함되는 경우의 예를 나타낸다. FTYPE은 SRPN으로서 정의된다. DSIZE는 매개변수의 크기를 명시하고 다음 옥텟은 매개변수 데이터, 즉 SRPN의 값이다. 이 값으로부터 수신 복호기는 주요한 참조 화상이 손실되었거나 손상된 경우 사용될 수 있는, 예비 참조 화상이 정해지는지를 결정할 수 있다.

대안으로, 상기 정보는 "신규 부록 W의 초안: 추가 보충 증강 정보 사양(Draft of new Annex W: Additional Supplementary Enhancement Information Specification)"(P. Ning and S. Wenger, ITU-T 스터디 그룹 16 논점(Question) 15 문서 Q15-I-58, 1999년 11월)에 명시된 바와 같은 추가 보충 증강 정보에 포함될 수 있다.

부록 W에 대한 이 초안 제안에 있어서, FTYPE 14는 "화상 메시지"로서 정의된다. 이 FTYPE이 세팅되는 경우, 화상 메시지 기능은 메시지 데이터를 나타내는 하나 이상의 옥텟들의 존재를 나타낸다. 상기 메시지 데이터의 제1 옥텟은 도 9에 도시된 구조를 갖는 메시지 헤더, 즉 CONT, EBIT 및 MTYPE이다. DSIZE는 제1 옥텟 메시지 헤더를 포함하는, 화상 메시지 기능에 대응하는 메시지 데이터 내의 옥텟들의 수와 동일하다.

계속 필드(CONT)가 1과 동일한 경우 화상 메시지와 연관된 메시지 데이터가 다음 화상 메시지 기능과 연관된 메시지 데이터와 같은 논리 메시지의 부분이라는 것을 나타낸다. 엔드 비트 위치 필드(EBIT; End Bit Position field)는 최종 메시지 옥텟에서 무시될 최하위 비트들의 수를 명시한다. 이들 필드들의 추가 상세는 부록 W에서 발견될 수 있다.

필드 MTYPE은 메시지 유형을 나타낸다. 다양한 유형들의 메시지가 부록 W의 초안에 제시된다. 본 발명에 따라 일 유형, 예를 들어 MTYPE 13은 예비 참조 화상들로서 정의된다. MTYPE 13의 값은 메시지 헤더를 따르는 옥텟에 정의된다. 메시지 데이터 바이트들은 우선순위 순서로 예비 참조 화상들의 화상 번호들을 포함한다(가장 우선되는 것이 첫 번째 나타난다). 화상 번호들은 부록 U 또는 부록 W 섹션 W.6.3.12에 따라 전송되는 값들을 참조한다. 부록 W에 따른 메시지 형식은 P, B, PB, 개선된 PB, 및 EP 화상 유형들에 대해 사용될 수 있다. 그러나, 부록 N 또는 부록 U가 사용중인 경우 그리고 화상이 다중 참조 화상들과 연관되는 경우, 부록 W에 따른 메시지 형식은 바람직하기로는 사용되지 않을 것이다. EP 화상들에 대해, 메시지는 바람직하기로는 순방향 예측에 대해서만 사용될 것이고, 반면 상위 예측은 항상 시간적으로 대응하는 참조 층 화상으로부터 수행될 수 있다. B, PB, 및 개 선된 PB 화상 유형들에 대해, 메시지는 순방향 움직임 예측 참조로서 사용하는 화상을 명시한다. 이 메시지는 화상이 I 또는 EI 화상인 경우 사용되지 않을 것이다.

하나의 예비 참조 화상이 표시되고 SRPN이 10 비트들로 표현되는 특별한 예에 있어서, 이 메시지는 하나의 데이터 바이트를 포함한다. 즉, DSIZE는 3이고, CONT는 0이며, EBIT는 6이다. DSIZE, CONT 및 EBIT의 값들은 표시되는 예비 참조 화상들의 수 및 상기 예비 참조 화상 번호들이 표현되는 정밀도(비트들의 수)에 따라 변경되는 것으로 이해되어질 것이다. 하나보다 많은 예비 참조 화상 번호가 표시되는 경우, 바람직하기로는 메시지 데이터 바이트들은 우선순위 순서(가장 우선되는 것이 첫 번째 나타난다)로 예비 참조 화상들의 예비 참조 화상 번호(들)를 포함한다.

상기 설명은 양방향으로 예측되는 화상들(B-화상들)이 부호화되는 부호화된 비디오 스트림들에 참조했다. 상술된 바와 같이, B-화상들은 결코 참조 화상들로서 사용되지 않는다. B-화상들은 미래 화상들의 화상 품질에 큰 영향을 주지 않고 폐기될 수 있기 때문에, 그들은 시간적인 스케일러빌리티(scalability)를 제공한다. 스케일러빌리티는 하나 보다 많은 품질 레벨에서 압축된 비디오 시퀀스의 복호화를 허용한다. 다시 말하면, 스케일러블 멀티미디어 클립은 상이한 데이터 율들을 갖는 채널상에서 스트리밍될 수 있고 또한 실시간으로 복호화되며 재생될 수 있도록 압축될 수 있다.

따라서 비디오 스트림은 상이한 복호기들에 의해 상이한 방식들로 복호화될 수 있다. 예를 들어, 복호기가 신호의 I- 및 P- 화상들만을 복호화하도록 결정할 수 있는데, 이것이 상기 복호기가 달성할 수 있는 복호화의 최대 율인 경우이다. 그러나, 복호기가 능력을 갖는 경우, B-화상들을 또한 복호화할 수 있고 따라서 화상 디스플레이 율을 증가시킬 수 있다. 따라서 디스플레이되는 화상의 인식되는 화상 품질은 I- 및 P-화상들만을 복호화하는 복호기보다 증강될 것이다.

스케일러블 멀티미디어는 전형적으로 데이터의 계층적 층들이 있도록 순서가 정해진다. 기저 층은 멀티미디어 클립의 기본 표현을 포함하고 반면 증강 층들은 하위 층들의 위에 세련(refinement) 데이터를 포함한다. 따라서, 증강 층들은 클립의 품질을 개선한다.

스케일러빌리티는 이종 및 에러가 있는 환경들에 대해 바람직한 특성이다. 이 특성은 비트 율, 디스플레이 해상도, 네트워크 처리율, 및 복호기 복잡도에 대한 제한과 같은 제한들에 대항하기 위해 바람직하다.

스케일러빌리티는 층을 갖는 부호화가 전송 우선순위와 결합되는 전송 시스템에서 에러 허용성을 개선하는데 사용될 수 있다. 여기서 전송 우선순위(transport prioritisation)라는 용어는 상이한 에러/손실 율들을 갖는 상이한 채널들을 제공하기 위하여, 균등하지 않은 에러 보호를 포함하는, 전송에서의 서비스의 상이한 품질들을 제공하는 다양한 메커니즘들을 지칭한다. 그 본성에 의존하여, 데이터는 상이하게 할당된다. 예를 들어, 기저 층은 높은 정도의 에러 보호를 갖는 채널을 통해 전달될 수 있고, 증강 층들은 보다 많은 에러가 있는 채널들을 통해 전송될 수 있다.

일반적으로, 스케일러블 멀티미디어 부호화는 비-스케일러블(non-scalable) 부호화보다 더 나쁜 압축 효율로 손해를 본다. 다시 말하면, 증강 층들을 갖는 스케일러블 멀티미디어 클립으로서 부호화되는 멀티미디어 클립은 동일한 품질을 갖는 비-스케일러블 단일-층 클립으로서 부호화되는 경우보다 더 큰 대역폭을 요구한다. 그러나, 이 일반적인 규칙에 예외들이 존재하는데, 예를 들어 비디오 압축에서 시간적인 스케일러블 B-프레임들이다.

본 발명은 다른 스케일러블 비디오 압축 시스템들에 적용될 수 있다. 예를 들어, H.263 부록 O에는, 2가지 다른 형태의 스케일러빌리티가 정의된다: 신호-대-잡음(SNR) 스케일러빌리티 및 공간 스케일러빌리티.

공간 스케일러빌리티 및 SNR 스케일러빌리티는 밀접하게 관련되고, 유일한 차이점은 증가된 공간 해상도는 공간 스케일러빌리티에 의해 제공된다는 것이다. SNR 스케일러블 화상들의 예는 도 10에 도시된다. SNR 스케일러빌리티는 멀티-율 비트 스트림들의 생성을 내포한다. 그것은 부호화 에러들, 또는 원래 화상 및 그 재구성간의 차이들의 복구를 허용한다. 이것은 증강 층에서의 상이한 화상들을 부호화하기 위해 더 좋은 양자화기를 사용함으로써 달성된다. 이 부가적인 정보는 전체 재구성된 화상의 SNR을 증가시킨다.

공간 스케일러빌리티는 다양한 디스플레이 요건들 및/또는 제한들을 충족시키기 위해 다중-해상도 비트 스트림들의 생성을 허용한다. 공간적인 스케일러빌리티 구조는 도 11에 도시된다. 이것은 본질적으로 공간적 증강 층이 재구성된 참조 층 화상의 업-샘플링된 버전 및 원래 화상의 상위 해상도 버전간의 부호화 손실을 복구하려고 시도한다는 것을 제외하고는 SNR 스케일러빌리티에서와 동일하다. 예를 들어, 참조 층이 4분의 1 공통 중간 형식(QCIF) 해상도를 갖고, 증강 층이 공통 중간 형식(CIF) 해상도를 갖는 경우, 참조 층 화상은 따라서 증강 층이 그것으로부터 예측될 수 있도록 스케일링되어야 한다. 상기 QCIF 표준은 단일 증강 층에 대해 수직 방향만, 수평 방향만, 또는 수직 및 수평 양방향으로 2의 팩터에 의해 해상도가 증가되도록 허용한다. 다중 강화 층들이 있을 수 있고, 그 각각은 이전 층의 것보다 화상 해상도를 증가시킨다. 참조 층 화상을 업-샘플링하는데 사용되는 보간 필터들은 H.263 표준에 명시적으로 정의된다. 증강 층에 참조로부터 업-샘플링 과정이외에, 공간적 스케일링된 화상의 처리 및 구문은 SNR 스케일링된 화상의 처리 및 구분과 동일하다.

SNR 또는 공간 스케일러빌리티 중 어느 하나에 있어서, 증강 층 화상들은 EI- 또는 EP-화상들로 지칭된다. 증강 층 화상이 참조 층의 화상보다 상위로 예측되는 경우, 증강 층 화상은 증강-I(EI; Enhancement-I) 화상으로 지칭된다. 이러한 유형의 스케일러빌리티에 있어서, 참조 층은 현재 증강 층 "아래(below)" 층을 의미한다. 몇몇 경우들에 있어서, 참조 층 화상들이 나쁘게 예측되는 경우, 화상의 정적 부분들의 과도-부호화는 불필요하게 과도한 비트 율을 야기하면서, 증강 층에서 발생할 수 있다. 이러한 문제를 피하기 위해, 순방향 예측이 증강 층에서 허용된다. 이전 증강 층 화상으로부터 순방향으로 예측되거나 대안으로 참조 층 화상으로부터 상위로 예측될 수 있는 화상은 증강-P(EP; Enhancement-P) 화상으로 지칭된다. 상위로 및 순방향으로 예측되는 화상들의 평균을 계산하는 것은 EP-화상들에 대한 양방향 예측을 제공할 수 있다는 것을 주목한다. EI- 및 EP-화상들에 대해, 참조 층 화상으로부터 상위 예측은 움직임 벡터들이 요구되지 않는다는 것을 내포한다. EP-화상들에 대한 순방향 예측의 경우에 있어서, 움직임 벡터들은 요구된다.

SRPN 필드는 P, PB, 개선된 PB, 및 증강 층(EP) 화상들과 연관될 수 있다. PB 및 개선된 PB 프레임들의 특징들은 각각 H.263 부록 G 및 부록 M에 기술되어 있다.

그러나, 부록 N 또는 부록 U가 사용중인 경우 그리고 화상이 다중 참조 화상들과 연관되는 경우, SRPN은 사용되지 않는다. PB 및 개선된 PB 화상들에 대해, 메시지는 전형적으로 P-부분에만 관여한다. EP 화상들에 대해, 메시지는 순방향 예측에 대해 사용되지만, 반면 상위 예측은 시간적으로 대응하는 참조 층 화상으로부터 수행된다. 이 메시지는 바람직하기로는 화상이 I, EI 또는 B 화상인 경우 사용되지 않는다.

부호화기가 다중-층 부호화를 할 수 있는 경우(예를 들어 H.263의 부록 O에 논의된 바와 같이) 각 층은 연속하는 예비 참조 화상 번호들을 갖는다. 이들은 현재 화상의 증강 층 번호(ELNUM)와 연관될 수 있다. 예비 참조 화상 번호는 동일 증강 층의 이전 부호화된 참조 화상의 대응하는 번호로부터 1만큼 증가된다. 그러나, 동일 증강 층의 인접 화상들이 동일한 시간적 참조를 갖는 경우, 그리고 H.263의 부록 N 또는 부록 U가 사용되는 경우, 복호기는 바람직하기로는 이것을 대략 동일한 화면 내용의 중복 사본들이 전송되었고, 이들 화상들 모두는 동일 화상 번호를 공유한다는 것을 나타내는 것으로서 여긴다.

또한 본 발명의 실시예에 따라 현재 화상의 명시된 직사각형 영역에 대한 SRPN을 나타내는 것이 가능하다는 것이 주의되어야 한다. 하나의 화상에 대한 다중 메시지들이 있을 수 있고 각각의 메시지는 현재 화상의 비-중첩 직사각형 영역들에 대해 SRPN들을 명시한다. 메시지들이 화상의 어떤 영역들에 대해 SRPN을 명시하지 않는 경우, 복호기는 예측되는 대응하는 참조 프레임(또는 그 영역)이 복호화될 수 없는 경우 상기 영역들에서 에러들을 은폐하기 위한 에러 은폐를 사용할 수 있다. 이 경우에, 복호기는 바람직하기로는 화상 유형에 대응하는 은폐 방법을 사용한다. 즉, 인트라 화상에 대해 인트라 에러 은폐 방법이 사용되고 인터 화상에 대해 인터 에러 은폐 방법이 사용된다.

SRPN 값들이 현재 화상의 상이한 영역들에 제공되는 상기 경우의 특정 예가 이제 제공될 것이다. 각 SRPN 메시지는 화상의 특정 직사각형 영역의 좌상 코너의 수평 및 수직 위치를 포함하는 4개의 PSUPP 옥텟들 및 SRPN을 포함하고, 상기 직사각형 영역의 폭 및 높이 각각은 8개의 비트들을 사용하고 16 픽셀 단위로 표시된다(휘도 화상의). 예를 들어 이 규정을 사용하여, 전체 QCIF 화상이 4개의 매개변수들(0, 0, 11, 9)에 의해 명시된다.

16에 의해 나누어지지 않는 폭 및 높이를 갖는 화상 형식들에 대해, 특정 영역은 16에 의해 나누어질 수 있는 다음의 더 큰 크기로 증강될 수 있다. 예를 들어, 160 x 120 픽셀들의 크기를 갖는 전체 이미지는 4개의 매개변수들(0, 0, 10, 8)에 의해 명시된다. 바람직하기로는, 명시된 영역은 화상 경계들을 교차하지 않고 동일 화상의 다른 특정 에러 은폐 영역들과 중첩하지 않는다.

본 발명은 다른 비디오 부호화 프로토콜들에서 구현될 수 있다. 예를 들어 MPEG-4는 소위 사용자 데이터를 정의하고, 상기 사용자 데이터는 어떤 이진 데이터를 포함할 수 있지만 반드시 화상과 연관되는 것은 아니다. 부가적인 필드가 이들 필드들에 부가될 수 있다.

본 발명은 상술된 비디오 부호화 프로토콜들에 제한되는 것으로 의도되지 않는다: 이들은 단지 예로서 의도된다. 본 발명은 시간적 예측을 사용하는 어떠한 비디오 부호화 프로토콜에 응용가능하다. 상술된 바와 같은 정보의 추가는 수신 복호기로 하여금 화상이 손실된 경우 동작의 가장 좋은 근거를 결정하도록 허용한다.

도 1은 멀티미디어 이동 통신 시스템을 나타낸다.

도 2는 멀티미디어 단말기의 멀티미디어 구성요소들의 예를 나타낸다.

도 3은 비디오 코덱의 예를 나타낸다.

도 3a는 본 발명에 따른 비디오 부호화기의 더 상세한 도면을 나타낸다.

도 4는 본 발명에 따른 비디오 부호화기의 제1 실시예의 동작을 나타낸다.

도 5는 본 발명에 따른 비디오 부호화기의 제2 구현의 동작을 나타낸다.

도 6은 H.263에 따라 알려진 비트 스트림의 구문을 나타낸다.

도 7은 본 발명에 따른 부호화기에 의해 출력되는 비트 스트림의 제1 예를 나타낸다.

도 8은 본 발명에 따른 부호화기에 의해 출력되는 비트 스트림의 제2 예를 나타낸다.

도 9는 본 발명에 따른 부호화기에 의해 출력되는 비트 스트림의 제3 예를 나타낸다.

도 10은 SNR 스케일러빌리티(scalability)에 대한 비디오 부호화에서 사용되는 증강 층들을 나타낸다.

도 11은 공간 스케일러빌리티에 대한 비디오 부호화에서 사용되는 증강 층들을 나타낸다.

Claims

부호화된 비디오 신호를 형성하기 위해 화상들의 시퀀스를 나타내는 비디오 신호를 부호화하는 방법에 있어서,

상기 시퀀스의 현재 화상에 대한 또는 현재 화상의 부분 각각에 대한 표시자를 생성하는 단계[여기서, 상기 표시자는 대응하는 복호화 과정에서 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는데 이용하기 위해 디폴트 참조 화상과 충분히 유사한 대체 참조 화상을 식별함]; 및

대응하는 복호화 과정에 사용하기 위해 상기 표시자를 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서,

상기 디폴트 참조 화상과 추가 참조 화상 간의 유사도를 계산하기 위해 양자를 비교하여 상기 현재 화상 또는 현재 화상의 상기 부분에 대한 대체 참조 화상을 식별하는 단계;

미리 결정된 기준과 상기 유사도를 비교하는 단계; 및

상기 비교에 기초하여 상기 표시자를 생성하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서,

제1 디폴트 참조 화상 및 제2 디폴트 참조 화상으로부터 상기 현재 화상의 적어도 부분의 예측을 형성하는 단계[여기서, 상기 제1 디폴트 참조 화상은 시간상으로 상기 현재 화상 이전에 발생하는 시퀀스의 화상에 대응하고, 상기 제2 디폴트 참조 화상은 시간상으로 상기 현재 화상 이후에 발생하는 시퀀스의 화상에 대응함];

상기 제1 디폴트 참조 화상을 시간상으로 상기 현재 화상 이전에 발생하는 시퀀스의 화상에 대응하는 추가 참조 화상과 비교하여 양자 간의 유사도를 계산하는 단계;

미리 결정된 기준과 상기 유사도를 비교하는 단계; 및

상기 비교에 기초하여 표시자를 생성하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서,

상기 디폴트 참조 화상을 다수의 추가 참조 화상과 비교하여 각 유사도를 계산하여 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 하나 이상의 대체 참조 화상을 식별하는 단계;

소정의 유사도 기준을 충족하는 각각의 추가 참조 화상에 대한 표시자를 제공하여 상기 현재 화상 또는 현재 화상의 상기 부분 각각에 대해 하나 이상의 표시자를 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제4항에 있어서,

상기 비교에 기초하여 상기 추가 참조 화상들의 순위를 정하고, 순위에 따라 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 상기 하나 이상의 표시자를 제공하는 단계[여기서, 상기 디폴트 참조 화상에 가장 가까운 유사도를 가지는 상기 추가 참조 화상과 연관되는 상기 표시자는 상기 순위에서 첫 번째 위치함];를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서, 상기 표시자를 상기 부호화된 비디오 신호의 화상 헤더에 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서, 상기 표시자가 현재 화상의 부분과 연관되는 경우, 상기 표시자를 상기 부호화된 비디오 신호의 매크로블록 헤더 또는 화상 세그먼트 헤더 중의 하나에 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서, 화상들의 상기 시퀀스를 H.263 비디오 압축 표준에 따라 부호화하고 상기 표시자를 H.263 비디오 압축 표준에 따른 보충 증강 정보(Supplemental Enhancement Information)에 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서, 대체 참조 화상의 시간적 참조 또는 대체 참조 화상의 화상 수 중의 하나를 나타내기 위한 상기 표시자를 생성하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서, B 화상들 및 P 화상들에 대한 대응하는 대체 참조 화상들을 나타내기 위한 각각의 표시자들을 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서, P 화상들만에 대한 대체 참조 화상들을 나타내기 위한 표시자들을 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제2항에 있어서,

상기 디폴트 참조 화상과 상기 추가 참조 화상 간의 픽셀 값들의 차이들을 이용하여 그 차이들의 절대값의 합으로 상기 유사도를 계산하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제2항에 있어서, 화상 히스토그램들을 이용하여 상기 디폴트 참조 화상과 상기 추가 참조 화상 간의 유사도를 계산하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서, 상기 비디오 신호를 스케일 가능하게 부호화하고, 상기 스케일 가능하게 부호화된 비디오 신호의 예측적으로 부호화된 증강 층 화상들에 대한 대응하는 대체 참조 화상들을 나타내기 위한 각각의 표시자들을 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제1항에 있어서, 상기 현재 화상에 관한 또는 현재 화상의 상기 부분 각각에 관한 표시자를 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
화상들의 시퀀스를 나타내는 부호화된 비디오 신호를 복호화하는 방법에 있어서,

현재 화상에 대하여 또는 현재 화상의 부분 각각에 대하여 제공되며, 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는데 이용하기 위한 대체 참조 화상을 식별하기 위한 표시자를 검사하는 단계; 및

상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 예측을 형성하는데 이용하기 위한 디폴트 참조 화상이 재구성될 수 없다는 결정에 응답하여, 상기 대체 참조 화상을 이용하여 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 복호화 방법.
제16항에 있어서,

상기 현재 화상에 대하여 또는 현재 화상의 상기 부분 각각에 대하여 제공되는 하나 이상의 표시자의 순위를 검사하는 단계;

상기 순위에 기초하여 표시자를 선택하는 단계; 및

상기 선택된 표시자에 의해 식별되는 상기 대체 참조 화상을 이용하여 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 복호화 방법.
제16항에 있어서, 상기 부호화된 비디오 신호의 화상 헤더로부터 상기 표시자를 얻는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 복호화 방법.
제16항에 있어서, 상기 부호화된 비디오 신호의 매크로블록 헤더 또는 화상 세그먼트 헤더 중의 하나로부터 상기 표시자를 얻는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 복호화 방법.
제16항에 있어서, H.263 비디오 압축 표준에 따라 부호화된 부호화된 비디오 신호의 보충 증강 정보(Supplemental Enhancement Information)로부터 상기 표시자를 얻는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 복호화 방법.
제16항에 있어서, 대체 참조 화상의 시간적 참조 또는 대체 참조 화상의 화 상 수 중의 하나를 식별하기 위한 상기 표시자를 이용하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 복호화 방법.
제16항에 있어서, B 화상들 및 P 화상들에 대한 대응하는 대체 참조 화상들을 식별하기 위한 각각의 표시자들을 이용하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 복호화 방법.
제16항에 있어서, 스케일 가능하게 부호화된 비디오 신호의 예측적으로 부호화된 증강 층 화상들에 대한 대응하는 대체 참조 화상들을 식별하기 위한 각각의 표시자들을 이용하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 복호화 방법.
부호화된 비디오 신호를 형성하기 위해 화상들의 시퀀스를 나타내는 비디오 신호를 부호화하는 부호화기에 있어서,

상기 부호화기는,

상기 시퀀스의 현재 화상에 대한 또는 현재 화상의 부분 각각에 대한 표시자를 생성하며[여기서, 상기 표시자는 대응하는 복호화 과정에서 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는데 이용하기 위해 디폴트 참조 화상과 충분히 유사한 대체 참조 화상을 식별함];

대응하는 복호화 과정에 사용하기 위해 상기 표시자를 제공;하도록 구성되는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는,

상기 디폴트 참조 화상과 추가 참조 화상 간의 유사도를 계산하기 위해 양자를 비교하여 상기 현재 화상 또는 현재 화상의 상기 부분에 대한 대체 참조 화상을 식별하고;

미리 결정된 기준과 상기 유사도를 비교하며;

상기 비교에 기초하여 상기 표시자를 생성;하도록 구성되는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는,

제1 디폴트 참조 화상 및 제2 디폴트 참조 화상으로부터 상기 현재 화상의 적어도 부분의 예측을 형성하고[여기서, 상기 제1 디폴트 참조 화상은 시간상으로 상기 현재 화상 이전에 발생하는 시퀀스의 화상에 대응하고, 상기 제2 디폴트 참조 화상은 시간상으로 상기 현재 화상 이후에 발생하는 시퀀스의 화상에 대응함];

상기 제1 디폴트 참조 화상을 시간상으로 상기 현재 화상 이전에 발생하는 시퀀스의 화상에 대응하는 추가 참조 화상과 비교하여 양자 간의 유사도를 계산하고;

미리 결정된 기준과 상기 유사도를 비교하며;

상기 비교에 기초하여 표시자를 생성;하도록 구성되는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는,

상기 디폴트 참조 화상을 다수의 추가 참조 화상과 비교하여 각 유사도를 계산하여 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 하나 이상의 대체 참조 화상을 식별하며;

소정의 유사도 기준을 충족하는 각각의 추가 참조 화상에 대한 표시자를 제공하여 상기 현재 화상 또는 현재 화상의 상기 부분 각각에 대해 하나 이상의 표시자를 제공;하도록 구성되는 것을 특징으로 하는 부호화기.
제27항에 있어서,

상기 부호화기는,

상기 비교에 기초하여 상기 추가 참조 화상들의 순위를 정하고, 순위에 따라 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 상기 하나 이상의 표시자를 제공하도록 구성되며,

상기 디폴트 참조 화상에 가장 가까운 유사도를 가지는 상기 추가 참조 화상과 연관되는 상기 표시자는 상기 순위에서 첫 번째 위치하는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는 상기 표시자를 상기 부호화된 비디오 신호의 화상 헤더에 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는, 상기 표시자가 현재 화상의 부분과 연관되는 경우, 상기 표시자를 상기 부호화된 비디오 신호의 매크로블록 헤더 또는 화상 세그먼트 헤더 중의 하나에 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는 상기 비디오 신호를 H.263 비디오 압축 표준에 따라 부호화하고 상기 표시자를 H.263 비디오 압축 표준에 따른 보충 증강 정보(Supplemental Enhancement Information)에 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는 대체 참조 화상의 시간적 참조 또는 대체 참조 화상의 화상 수 중의 하나를 나타내기 위한 상기 표시자를 생성하도록 구성되는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는 B 화상들 및 P 화상들에 대한 대응하는 대체 참조 화상들을 나타내기 위한 각각의 표시자들을 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는 P 화상들만에 대한 대체 참조 화상들을 나타내기 위한 표시자들을 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제25항에 있어서,

상기 부호화기는 상기 디폴트 참조 화상과 상기 추가 참조 화상 간의 픽셀 값들의 차이들을 이용하여 그 차이들의 절대값의 합으로 상기 유사도를 계산하도록 구성되는 것을 특징으로 하는 부호화기.
제25항에 있어서,

상기 부호화기는 화상 히스토그램들을 이용하여 상기 디폴트 참조 화상과 상기 추가 참조 화상 간의 유사도를 계산하도록 구성되는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는, 상기 비디오 신호를 스케일 가능한 비디오 시퀀스로 부호화하고, 상기 스케일 가능한 비디오 시퀀스의 예측적으로 부호화된 증강 층 화상들에 대한 대응하는 대체 참조 화상들을 나타내기 위한 각각의 표시자들을 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제24항에 있어서,

상기 부호화기는 상기 현재 화상에 관한 또는 현재 화상의 상기 부분 각각에 관한 표시자를 제공하도록 구성되는 것을 특징으로 하는 부호화기.
화상들의 시퀀스를 나타내는 부호화된 비디오 신호를 복호화하는 복호기에 있어서,

상기 복호기는,

현재 화상에 대하여 또는 현재 화상의 부분 각각에 대하여 제공되며, 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는데 이용하기 위한 대체 참조 화상을 식별하기 위한 표시자를 검사하며;

상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 예측을 형성하는데 이용하기 위한 디폴트 참조 화상이 재구성될 수 없다는 결정에 응답하여, 상기 대체 참조 화상을 이용하여 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성;하도록 구성되는 것을 특징으로 하는 복호기.
제39항에 있어서,

상기 복호기는,

상기 현재 화상에 대하여 또는 현재 화상의 상기 부분 각각에 대하여 제공되는 하나 이상의 표시자의 순위를 검사하고;

상기 순위에 기초하여 표시자를 선택하며;

상기 선택된 표시자에 의해 식별되는 상기 대체 참조 화상을 이용하여 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성;하도록 구성되는 것을 특징으로 하는 복호기.
제39항에 있어서,

상기 복호기는 상기 부호화된 비디오 신호의 화상 헤더로부터 상기 표시자를 얻도록 구성되는 것을 특징으로 하는 복호기.
제39항에 있어서,

상기 복호기는 상기 부호화된 비디오 신호의 매크로블록 헤더 또는 화상 세그먼트 헤더 중의 하나로부터 상기 표시자를 얻도록 구성되는 것을 특징으로 하는 복호기.
제39항에 있어서,

상기 복호기는 H.263 비디오 압축 표준에 따라 부호화된 부호화된 비디오 신호의 보충 증강 정보(Supplemental Enhancement Information)로부터 상기 표시자를 얻도록 구성되는 것을 특징으로 하는 복호기.
제39항에 있어서,

상기 복호기는 대체 참조 화상의 시간적 참조 또는 대체 참조 화상의 화상 수 중의 하나를 식별하기 위한 상기 표시자를 이용하도록 구성되는 것을 특징으로 하는 복호기.
제39항에 있어서,

상기 복호기는 B 화상들 및 P 화상들에 대한 대응하는 대체 참조 화상들을 식별하기 위한 각각의 표시자들을 이용하도록 구성되는 것을 특징으로 하는 복호기.
제39항에 있어서,

상기 복호기는 스케일 가능하게 부호화된 비디오 신호의 예측적으로 부호화된 증강 층 화상들에 대한 대응하는 대체 참조 화상들을 식별하기 위한 각각의 표시자들을 이용하도록 구성되는 것을 특징으로 하는 복호기.
제24항 내지 제38항 중 어느 한 항에 따른 부호화기를 포함하는 무선 통신 장치.
제39항 내지 제46항 중 어느 한 항에 따른 복호기를 포함하는 무선 통신 장치.
제24항 내지 제38항 중 어느 한 항에 따른 부호화기를 포함하는 멀티미디어 터미널 장치.
제39항 내지 제46항 중 어느 한 항에 따른 복호기를 포함하는 멀티미디어 터미널 장치.
부호화된 비디오 신호를 형성하기 위해 화상들의 시퀀스를 나타내는 비디오 신호를 부호화하는 방법에 있어서,

상기 시퀀스의 현재 화상에 대한 또는 현재 화상의 부분 각각에 대한 표시자를 생성하는 단계[여기서, 상기 표시자는 대응하는 복호화 과정에서 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는데 이용하기 위해 상기 현재 화상과 충분히 유사한 대체 참조 화상을 식별함]; 및

대응하는 복호화 과정에 사용하기 위해 상기 표시자를 제공하는 단계;를 포 함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제51항에 있어서,

상기 현재 화상과 추가 참조 화상 간의 유사도를 계산하기 위해 양자를 비교하여 상기 현재 화상 또는 현재 화상의 상기 부분에 대한 대체 참조 화상을 식별하는 단계;

미리 결정된 기준과 상기 유사도를 비교하는 단계; 및

상기 비교에 기초하여 상기 표시자를 생성하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제51항에 있어서,

제1 디폴트 참조 화상 및 제2 디폴트 참조 화상으로부터 상기 현재 화상의 적어도 부분의 예측을 형성하는 단계[여기서, 상기 제1 디폴트 참조 화상은 시간상으로 상기 현재 화상 이전에 발생하는 시퀀스의 화상에 대응하고, 상기 제2 디폴트 참조 화상은 시간상으로 상기 현재 화상 이후에 발생하는 시퀀스의 화상에 대응함];

상기 현재 화상을 시간상으로 상기 현재 화상 이전에 발생하는 시퀀스의 화상에 대응하는 추가 참조 화상과 비교하여 양자 간의 유사도를 계산하는 단계;

미리 결정된 기준과 상기 유사도를 비교하는 단계; 및

상기 비교에 기초하여 표시자를 생성하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제51항에 있어서,

상기 현재 화상을 다수의 추가 참조 화상과 비교하여 각 유사도를 계산하여 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 하나 이상의 대체 참조 화상을 식별하는 단계; 및

소정의 유사도 기준을 충족하는 각각의 추가 참조 화상에 대한 표시자를 제공하여 상기 현재 화상 또는 현재 화상의 상기 부분 각각에 대해 하나 이상의 표시자를 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제54항에 있어서,

상기 비교에 기초하여 상기 추가 참조 화상들의 순위를 정하고, 순위에 따라 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 상기 하나 이상의 표시자를 제공하는 단계[여기서, 상기 현재 화상에 가장 가까운 유사도를 가지는 상기 추가 참조 화상과 연관되는 상기 표시자는 상기 순위에서 첫 번째 위치함];를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제51항에 있어서,

상기 표시자를 상기 부호화된 비디오 신호의 화상 헤더에 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제51항에 있어서,

상기 표시자가 현재 화상의 부분과 연관되는 경우, 상기 표시자를 상기 부호화된 비디오 신호의 매크로블록 헤더 또는 화상 세그먼트 헤더 중의 하나에 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제51항에 있어서,

화상들의 상기 시퀀스를 H.263 비디오 압축 표준에 따라 부호화하고 상기 표시자를 H.263 비디오 압축 표준에 따른 보충 증강 정보(Supplemental Enhancement Information)에 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제51항에 있어서,

대체 참조 화상의 시간적 참조 또는 대체 참조 화상의 화상 수 중의 하나를 나타내기 위한 상기 표시자를 생성하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제51항에 있어서,

B 화상들 및 P 화상들에 대한 대응하는 대체 참조 화상들을 나타내기 위한 각각의 표시자들을 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부 호화 방법.
제51항에 있어서,

P 화상들만에 대한 대체 참조 화상들을 나타내기 위한 표시자들을 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제52항에 있어서,

상기 현재 화상과 상기 추가 참조 화상 간의 픽셀 값들의 차이들을 이용하여 그 차이들의 절대값의 합으로 상기 유사도를 계산하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제52항에 있어서,

화상 히스토그램들을 이용하여 상기 현재 화상과 상기 추가 참조 화상 간의 유사도를 계산하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제51항에 있어서,

상기 비디오 신호를 스케일 가능하게 부호화하고, 상기 스케일 가능하게 부호화된 비디오 신호의 예측적으로 부호화된 증강 층 화상들에 대한 대응하는 대체 참조 화상들을 나타내기 위한 각각의 표시자들을 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
제51항에 있어서,

상기 현재 화상에 관한 또는 현재 화상의 상기 부분 각각에 관한 표시자를 제공하는 단계;를 포함하는 것을 특징으로 하는 비디오 신호 부호화 방법.
부호화된 비디오 신호를 형성하기 위해 화상들의 시퀀스를 나타내는 비디오 신호를 부호화하는 부호화기에 있어서,

상기 부호화기는,

상기 시퀀스의 현재 화상에 대한 또는 현재 화상의 부분 각각에 대한 표시자를 생성하며[여기서, 상기 표시자는 대응하는 복호화 과정에서 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는데 이용하기 위해 상기 현재 화상과 충분히 유사한 대체 참조 화상을 식별함];

대응하는 복호화 과정에 사용하기 위해 상기 표시자를 제공;하도록 구성되는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는,

상기 현재 화상과 추가 참조 화상 간의 유사도를 계산하기 위해 양자를 비교하여 상기 현재 화상 또는 현재 화상의 상기 부분에 대한 대체 참조 화상을 식별하 고;

미리 결정된 기준과 상기 유사도를 비교하며;

상기 비교에 기초하여 상기 표시자를 생성;하도록 구성되는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는,

제1 디폴트 참조 화상 및 제2 디폴트 참조 화상으로부터 상기 현재 화상의 적어도 부분의 예측을 형성하고[여기서, 상기 제1 디폴트 참조 화상은 시간상으로 상기 현재 화상 이전에 발생하는 시퀀스의 화상에 대응하고, 상기 제2 디폴트 참조 화상은 시간상으로 상기 현재 화상 이후에 발생하는 시퀀스의 화상에 대응함];

상기 현재 화상을 시간상으로 상기 현재 화상 이전에 발생하는 시퀀스의 화상에 대응하는 추가 참조 화상과 비교하여 양자 간의 유사도를 계산하고;

미리 결정된 기준과 상기 유사도를 비교하며;

상기 비교에 기초하여 표시자를 생성;하도록 구성되는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는,

상기 현재 화상을 다수의 추가 참조 화상과 비교하여 각 유사도를 계산하여 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 하나 이상의 대체 참조 화상을 식별하며;

소정의 유사도 기준을 충족하는 각각의 추가 참조 화상에 대한 표시자를 제공하여 상기 현재 화상 또는 현재 화상의 상기 부분 각각에 대해 하나 이상의 표시자를 제공;하도록 구성되는 것을 특징으로 하는 부호화기.
제69항에 있어서,

상기 비교에 기초하여 상기 추가 참조 화상들의 순위를 정하고, 순위에 따라 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 상기 하나 이상의 표시자를 제공하도록 구성되며,

상기 현재 화상에 가장 가까운 유사도를 가지는 상기 추가 참조 화상과 연관되는 상기 표시자는 상기 순위에서 첫 번째 위치하는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는 상기 표시자를 상기 부호화된 비디오 신호의 화상 헤더에 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는, 상기 표시자가 현재 화상의 부분과 연관되는 경우, 상기 표시자를 상기 부호화된 비디오 신호의 매크로블록 헤더 또는 화상 세그먼트 헤더 중의 하나에 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는 상기 비디오 신호를 H.263 비디오 압축 표준에 따라 부호화하고 상기 표시자를 H.263 비디오 압축 표준에 따른 보충 증강 정보(Supplemental Enhancement Information)에 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는 대체 참조 화상의 시간적 참조 또는 대체 참조 화상의 화상 수 중의 하나를 나타내기 위한 상기 표시자를 생성하도록 구성되는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는 B 화상들 및 P 화상들에 대한 대응하는 대체 참조 화상들을 나타내기 위한 각각의 표시자들을 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는 P 화상들만에 대한 대체 참조 화상들을 나타내기 위한 표시 자들을 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제67항에 있어서,

상기 부호화기는 상기 현재 화상과 상기 추가 참조 화상 간의 픽셀 값들의 차이들을 이용하여 그 차이들의 절대값의 합으로 상기 유사도를 계산하도록 구성되는 것을 특징으로 하는 부호화기.
제67항에 있어서,

상기 부호화기는 화상 히스토그램들을 이용하여 상기 현재 화상과 상기 추가 참조 화상 간의 유사도를 계산하도록 구성되는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는, 상기 비디오 신호를 스케일 가능한 비디오 시퀀스로 부호화하고, 상기 스케일 가능한 비디오 시퀀스의 예측적으로 부호화된 증강 층 화상들에 대한 대응하는 대체 참조 화상들을 나타내기 위한 각각의 표시자들을 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제66항에 있어서,

상기 부호화기는 상기 현재 화상에 관한 또는 현재 화상의 상기 부분 각각에 관한 표시자를 제공하도록 구성되는 것을 특징으로 하는 부호화기.
제66항 내지 제80항 중 어느 한 항에 따른 부호화기를 포함하는 무선 통신 장치.
제66항 내지 제80항 중 어느 한 항에 따른 부호화기를 포함하는 멀티미디어 터미널 장치.
부호화된 비디오 신호를 형성하기 위해 화상들의 시퀀스를 나타내는 비디오 신호를 부호화하는 부호화기에 있어서,

상기 시퀀스의 현재 화상에 대한 또는 현재 화상의 부분 각각에 대한 표시자를 생성하도록 구성되는 예비 참조 화상 표시자 생성기(spare reference picture indicator generator)[여기서, 상기 표시자는 대응하는 복호화 과정에서 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는데 이용하기 위해 디폴트 참조 화상과 충분히 유사한 예비 참조 화상을 식별함]; 및

대응하는 복호화 과정에 사용하기 위해 상기 표시자를 제공하도록 구성되는 출력기;를 구비하는 것을 특징으로 하는 부호화기.
제83항에 있어서,

상기 예비 참조 화상 표시자 생성기는,

상기 디폴트 참조 화상과 추가 참조 화상 간의 유사도를 계산하기 위해 양자 를 비교하여 상기 현재 화상 또는 현재 화상의 상기 부분에 대한 예비 참조 화상을 식별하고;

미리 결정된 기준과 상기 유사도를 비교하며;

상기 비교에 기초하여 상기 표시자를 생성;하도록 구성되는 것을 특징으로 하는 부호화기.
부호화된 비디오 신호를 형성하기 위해 화상들의 시퀀스를 나타내는 비디오 신호를 부호화하는 부호화기에 있어서,

상기 시퀀스의 현재 화상에 대한 또는 현재 화상의 부분 각각에 대한 표시자를 생성하도록 구성되는 예비 참조 화상 표시자 생성기[여기서, 상기 표시자는 대응하는 복호화 과정에서 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는데 이용하기 위해 상기 현재 화상과 충분히 유사한 예비 참조 화상을 식별함]; 및

대응하는 복호화 과정에 사용하기 위해 상기 표시자를 제공하도록 구성되는 출력기;를 구비하는 것을 특징으로 하는 부호화기.
제85항에 있어서,

상기 예비 참조 화상 표시자 생성기는,

상기 현재 화상과 추가 참조 화상 간의 유사도를 계산하기 위해 양자를 비교하여 상기 현재 화상 또는 현재 화상의 상기 부분에 대한 예비 참조 화상을 식별하 고;

미리 결정된 기준과 상기 유사도를 비교하며;

상기 비교에 기초하여 상기 표시자를 생성;하도록 구성되는 것을 특징으로 하는 부호화기.
화상들의 시퀀스를 나타내는 부호화된 비디오 신호를 복호화하는 복호기에 있어서,

현재 화상에 대하여 또는 현재 화상의 부분 각각에 대하여 제공되며, 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하는데 이용하기 위한 예비 참조 화상을 식별하기 위한 표시자를 검사하도록 구성되는 예비 참조 화상 검사기; 및

현재 화상 또는 현재 화상의 부분에 대한 예측을 형성하는데 이용하기 위한 디폴트 참조 화상이 재구성될 수 없을 때에, 상기 예비 참조 화상을 이용하여 상기 현재 화상에 대한 또는 현재 화상의 상기 부분 각각에 대한 대체 예측을 형성하도록 구성되는 예측적 복호기(predictive decoder);를 구비하는 것을 특징으로 하는 복호기.