KR20050089868A

KR20050089868A - 비디오 코딩 및 디코딩 방법

Info

Publication number: KR20050089868A
Application number: KR1020057012440A
Authority: KR
Inventors: 세실 두포어; 그웨내일 마르큐안트; 스테판 바렌테
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-12-30
Filing date: 2003-12-22
Publication date: 2005-09-08
Also published as: AU2003285691A1; EP1582070A1; CN1732691A; US20060165296A1; JP2006512832A; WO2004059983A1

Abstract

본 발명은 연속적인 프레임들 또는 비디오 객체 플레인들(VOP들)이 그들의 텍스처 및 모션 성분들 및 부가적인 모양 성분들에 의해 규정된 하나 이상의 임의의 형상의 비디오 객체들(VO들)을 포함하는 원 비디오 시퀀스에 적용되는 비디오 코딩 방법에 관한 것이다. 본 발명에 따라, 상기 방법은 비디오 시퀀스의 소수의 프레임들에 적용되는 비객체-지향 코딩 단계, 소수의 프레임들에 후속하는 시퀀스의 모든 프레임들에 적용되는 객체-지향 코딩 단계, 소수의 프레임들에 대응하는 비객체 지향 코딩된 데이터와, 이어서 후속 프레임들에 대응하는 객체 지향 코딩된 데이터를 포함하는 코딩된 비트스트림을 발생하도록, 비객체-지향 및 객체-지향 코딩 단계들이 적절한 프레임들에 각각 적용되도록 제어하기 위해 제공된 시퀀싱 단계를 포함하다. 또한, 본 발명은 대응하는 비디오 디코딩 방법에 관한 것이다.

Description

비디오 코딩 및 디코딩 방법{Video coding and decoding method}

본 발명은 일반적으로, 비디오 압축 분야에 관한 것으로서, 특히 MPEG계열의 비디오 코딩 표준들 및 ITU-H.26X 계열의 비디오 코딩 권고들에 관한 것이다. 보다 정확하게는, 연속적인 프레임들 또는 비디오 객체 플레인들(video object planes; VOP들)이 각 VOP에서 텍스처(texture) 및 모션 성분들 및 부가적인 모양 성분들에 의해 정의된 하나 이상의 임의의 형상의 비디오 객체들(VO들)을 포함하는 원(orignal) 비디오 시퀀스에 적용되는 비디오 코딩 방법 및 대응하는 디코딩 방법에 관한 것이다.

첫번째 비디오 표준들 및 권고들(각각 MPEG-2 및 H.263)에서, 4각형이라 가정된 비디오는 3개의 별도의 채널들 즉; 휘도용 한 채널 및 크로미넌스용 두 채널(표현 체계에 기초한 이 3개의 채널들은 매쉬-기반 접근법과 유사한 다른 압축 체계들에도 사용된다)의 견지에서 기술된다. 그러나, 코딩 및 전송 또는 저장되어야 하는 장면(scene)은 독립적인 움직임들을 가진 몇몇의 객체들로 구성될 때, 특히, 공간-시간적 불연속성이 존재할 때마다, 아티팩트들(artifacts)이 나타난다. 그러면, 이들 영역들은 명확하게 처리(treat) 및 정제될 필요가 있다.

MPEG-4 표준에 있어서, 부가적인 채널 , 즉, MPEG-4 기술에서 "임의의 모양 채널"로서 또한 언급되는 알파 채널(alpha channel)이 도입된다. 이 알파 채널은 고려된 장면에 있는 각 비디오 객체(VO)의 윤곽(또는 모양)을 독립적으로 기술하는 것을 허용하여, 결과적으로 이들 객체들의 경계들에 따른 불연속성들을 피하면서 객체들을 별도로 인코딩하는 것을 가능하게 한다. 그러나, 이러한 기술의 단점은 이러한 모양 채널을 기술하기 위해 요구되는 오버헤드의 비용에서 직면하는 비트들의 낭비이다.

그러므로, 본 발명의 목적은 상기 결점들을 피하는 코딩 방법을 제안하는 것이다.

이를 위해, 본 발명은 본 기술의 도입 문단에서 정의한 바와 같은 비디오 코딩 방법에 관한 것이며, 상기 방법은,

(a) 비디오 시퀀스의 소수의 프레임들에 적용되는 비객체-지향 코딩 단계;

(b) 상기 소수의 프레임들에 후속하는 시퀀스의 모든 프레임들에 적용되는 객체-지향 코딩 단계;

(c) 상기 소수의 프레임들에 대응하는 비객체 지향 코딩된 데이터와, 이어서 상기 후속 프레임들에 대응하는 객체 지향 코딩된 데이터를 포함하는 코딩된 비트스트림을 발생하도록, 상기 비객체-지향 및 객체-지향 코딩 단계들이 적절한 프레임들에 각각 적용되도록 제어를 위해 제공된 시퀀싱 단계를 포함한다.

또한, 본 발명의 목적은 연속적인 프레임들 또는 비디오 객체 플레인들(VOP들)이 각 VOP에서 텍스처 및 모션 성분들 및 부가적인 모양 성분들에 의해 정의된 하나 이상의 임의의 형상의 비디오 객체들(VO들)을 포함하고,

(b) 소수의 프레임들에 후속하는 시퀀스의 모든 프레임들에 적용되는 객체-지향 코딩 단계;

(c) 소수의 프레임들에 대응하는 비객체 지향 코딩된 데이터와, 이어서 후속 프레임들에 대응하는 객체 지향 코딩된 데이터를 포함하는 코딩된 비트스트림을 발생하기 위해, 상기 비객체-지향 및 객체-지향 코딩 단계들이 적절한 프레임들에 각각 적용되도록 제어하기 위해 제공된 시퀀싱 단계를 포함하는 비디오 코딩 방법에 의해 코딩된 원 비디오 시퀀스에 대응하는 코딩된 비트스트림에 적용되는 비디오 디코딩 방법을 제안하며,

상기 디코딩 방법은,

(1) 원 비디오 시퀀스의 상기 소수의 프레임들에 대응하는 코딩된 비트스트림의 상기 비객체-지향 코딩된 데이터에 적용되는 제 1 디코딩 단계;

(2) 상기 소수의 프레임들에 대응하는 코딩된 비트스트림의 상기 비객체-지향 코딩된 데이터에 적용되고, 상기 VO들의 누락 모양 성분(missing shape component)을 재구성하도록 제공된 공간-시간 세그멘테이션 단계;

(3) 상기 후속 프레임들에 대응하는 코딩된 비트스트림들의 상기 객체-지향 코딩된 데이터에 적용되는 제 2 디코딩 단계;

(4) 상기 디코딩 및 세그멘테이션 단계들이 적절한 프레임들에 적용되도록 제어하기 위해 제공된 시퀀싱 단계를 포함한다.

많은 문서들, 및 예를 들어, 문서 US 6026195는 MPEG-4에 따른 객체-지향 비디오 인코딩 방법 및 디바이스를 기술한다. 상기 디바이스의 비디오 입력은 비디오 객체들(VO들)로 구성되고, 비디오 객체 플레인들(VOP들)과 같은 디지털 비디오 이미지들의 시퀀스 형태로 조직되며, 이들 각각은 각각이 3개의 성분; 모양(shape), 모션(motion) 및 텍스처에 의해 정의된다. 인코딩 디바이스는 각 객체의 모양의 특정 표현을 인코딩하는 모양 인코더, 각 VO의 텍스처의 표현을 인코딩하는 텍스처 인코더, 각 VO의 모션의 표현을 인코딩하는 모션 인코더를 포함한다.

그 후, 비디오의 인코딩된 모양, 텍스처 및 모션을 나타내는 신호들은 다중화된 데이터 스트림을 버퍼에 제공하는 다중화기에 보내진다. 그 후, 상기 버퍼의 출력은 수신된 인코딩된 데이터를 분리하는 역다중화기 및 디코딩 디바이스에 의해 차후에 수신되도록, 미래의 사용을 위해 데이터베이스와 같은 기록 매체에 저장되거나 채널을 통해 전송된다. 이어서, 상기 디코딩 디바이스는 모양 디코더, 텍스처 디코더 및 모션 디코더를 포함하며 이들의 출력들은 재구성 디바이스 예를 들어, 합성기(사용자의 집에 있는 개인용 컴퓨터와 같은)에 보내진다. 상기 재구성 디바이스에서, 수신된 VOP들은 처리되고, 이에 의해 재형성된 비디오 이미지의 시퀀스는 출력될 수 있다(예를 들어, 디스플레이되거나 비디오 라이브러리에 저장됨).

이런 공지된 시스템에 대해, 본 발명의 원리는 인코딩 및 디코딩측들에서 세크멘테이션을 고려된 입력 시퀀스 상에서 수행함으로써 인코딩 및 디코딩부들을 수정하는 것이다. 상기 원리의 구현의 관점에서, 시퀀싱 모듈은 다음의 동작들을 시행하도록 인코딩 디바이스에 부가된다.:

(a) 시퀀스의 프레임들(또는 이미지들)의 수가 작으며, 및 바람직하게는 단지 2개의 처음 이미지들에 대해, VOP들의 VO들의 모양 성분은 전송되지 않고: 객체-지향 코딩 모드는 2개의 처음 이미지들을 위해 선택되지 않고, 및 2개의 이미지들을 비객체-지향 모드 예를 들어, 마치 이들이 단일, 4각의 객체(이 모드는 여기서 "전통적인"이라 칭함)처럼, 블록 기반 모드 또는 웨이브렛 분해(wavelet decomposition)에 기초한 모드에 따라 코딩된다.

(b) 시퀀스의 후속 프레임들(즉, 2개의 프레임들만이 동작(a)에서 고려되었다면, 제 3 프레임, 제 4 프레임)은 객체-지향 코딩 모드를 사용하여 다시 코딩되지만, 어떤 모양 성분도 전송하지 않는다.

디코딩 디바이스에서, 시퀀싱 모듈은 다음의 동작들을 수행하도록 상응하게 제공된다:

(a) 두 개의 처음 이미지들에 대응하는 비객체-지향 코딩된 데이터는 제 1 디코딩 단계(즉, 상술한 바와 같이, 예를 들어, 블록-기반 모드 또는 웨이브렛 기반 모드에 따라)에 의해 "전통적으로" 디코딩된다;

(b) 공간-시간적 세그멘테이션(spatio-temporal segmentation) 단계가 이들 두 처음 이이지들에 기초하여 수행된다.

(c) 이른바 후속 이미지들(즉, 두 개의 처음 이미지들을 제외한 모든 이미지들)에 대응하는 객체-지향 코딩된 데이터는 제 2 디코딩 단계에 의해 객체-지향 디코딩 모드에 따라 디코딩되고, 각 VOP에 대한 모양 정보는 디코딩 디바이스에 제공된 공간-시간적 세그멘테이션 처리에 기인하여 얻어진다.

이런 기술적 솔루션으로, 객체-기반 처리는 모양 정보의 인코딩없이 달성될 수 있어서, 그에 따른 비트의 낭비를 피한다.

본 개시는 예시적인 것이고, 본 발명에 따른 방법은 상술한 구현으로 제한하지 않는다는 것에 주의해야 한다. 세크멘테이션 프로세스는 예를 들어, 관심의 영역들(즉, 각 VOP의 VO들)의 수에 대한 정보를 화상 레벨의 코딩된 비트스트림으로 전송함으로써 조금 개선될 수 있다. 이러한 방식으로, 디코딩 디바이스는 인코더측의 것과 동일한 세그멘테이션을 정확히 얻도록 세그멘테이션 단계를 조정할 수 있다.

Claims

연속적인 프레임들 또는 비디오 객체 플레인들(video object planes; VOP들)이 각 VOP에서 텍스처 및 모션 성분들 및 부가적인 모양 성분들에 의해 정의된 하나 이상의 임의의 형상의 비디오 객체들(VO들)을 포함하는 원 비디오 시퀀스(orignal video sequence)에 적용되는 비디오 코딩 방법으로서,

(a) 상기 비디오 시퀀스의 소수의 프레임들에 적용되는 비객체-지향 코딩 단계;

(b) 상기 소수의 프레임들에 후속하는 상기 시퀀스의 모든 프레임들에 적용되는 객체-지향 코딩 단계;

(c) 상기 소수의 프레임들에 대응하는 비객체 지향 코딩된 데이터와, 이어서 상기 후속 프레임들에 대응하는 객체 지향 코딩된 데이터를 포함하는 코딩된 비트스트림을 발생하도록, 상기 비객체-지향 및 객체-지향 코딩 단계들이 적절한 프레임들에 각각 적용되도록 제어하기 위해 제공된 시퀀싱 단계를 포함하는, 비디오 코딩 방법.
제 1 항에 있어서,

상기 프레임들의 수는 2인, 비디오 코딩 방법.
제 1 항 또는 제 2 항에 있어서,

상기 코딩된 비트스트림은 상기 원 비디오 시퀀스에서 관심(interest) 영역들의 수에 관한 정보를 또한 포함하는, 비디오 코딩 방법.
제 3 항에 있어서,

상기 관심 영역들의 수에 관한 상기 정보는 화상 레벨에서 주어지는, 비디오 코딩 방법.
연속적인 프레임들 또는 비디오 객체 플레인들(VOP들)이 각 VOP에서 텍스처 및 모션 성분들 및 부가적인 모양 성분들에 의해 정의된 하나 이상의 임의의 형상의 비디오 객체들(VO들)을 포함하고,

(a) 상기 비디오 시퀀스의 소수의 프레임들에 적용되는 비객체-지향 코딩 단계;

(b) 상기 소수의 프레임들에 후속하는 상기 시퀀스의 모든 프레임들에 적용되는 객체-지향 코딩 단계;

(c) 상기 소수의 프레임들에 대응하는 비객체 지향 코딩된 데이터와, 이어서 상기 후속 프레임들에 대응하는 객체 지향 코딩된 데이터를 포함하는 코딩된 비트스트림을 발생하기 위해, 상기 비객체-지향 및 객체-지향 코딩 단계들이 적절한 프레임들에 각각 적용되도록 제어하기 위해 제공된 시퀀싱 단계를 포함하는 비디오 코딩 방법에 의해 코딩된 원 비디오 시퀀스에 대응하는 코딩된 비트스트림에 적용되는 비디오 디코딩 방법으로서,

상기 디코딩 방법은,

(1) 상기 원 비디오 시퀀스의 상기 소수의 프레임들에 대응하는 상기 코딩된 비트스트림의 상기 비객체-지향 코딩된 데이터에 적용되는 제 1 디코딩 단계;

(2) 상기 소수의 프레임들에 대응하는 상기 코딩된 비트스트림의 상기 비객체-지향 코딩된 데이터에 적용되고, 상기 VO들의 누락 모양 성분(missing shape component)을 재구성하도록 제공된 공간-시간 세그멘테이션 단계;

(3) 상기 후속 프레임들에 대응하는 상기 코딩된 비트스트림들의 상기 객체-지향 코딩된 데이터에 적용되는 제 2 디코딩 단계;

(4) 상기 디코딩 및 세그멘테이션 단계들이 상기 적절한 프레임들에 적용되도록 제어하기 위해 제공된 시퀀싱 단계를 포함하는, 비디오 디코딩 방법.