KR20060113666A - 양자화 잡음 전파 효과의 감소를 위한 최적의 시공간 변환 - Google Patents

양자화 잡음 전파 효과의 감소를 위한 최적의 시공간 변환 Download PDF

Info

Publication number
KR20060113666A
KR20060113666A KR1020067007504A KR20067007504A KR20060113666A KR 20060113666 A KR20060113666 A KR 20060113666A KR 1020067007504 A KR1020067007504 A KR 1020067007504A KR 20067007504 A KR20067007504 A KR 20067007504A KR 20060113666 A KR20060113666 A KR 20060113666A
Authority
KR
South Korea
Prior art keywords
pixels
predicted
coefficients
transform
computerized
Prior art date
Application number
KR1020067007504A
Other languages
English (en)
Inventor
딥팩 에스. 투라가
로히트 푸리
알리 타바타바이
Original Assignee
소니 일렉트로닉스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 일렉트로닉스 인코포레이티드 filed Critical 소니 일렉트로닉스 인코포레이티드
Publication of KR20060113666A publication Critical patent/KR20060113666A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/129Scanning of coding units, e.g. zig-zag scan of transform coefficients or flexible macroblock ordering [FMO]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/543Motion estimation other than block-based using regions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • H04N19/635Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by filter definition or implementation details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

비디오 프레임을 인코딩하기 위한 방법과 장치가 설명된다. 일 실시예에서, 인코딩 방법은 적어도 1개의 기준 픽셀과 다수의 예측된 픽셀을 포함하는 유사한 픽셀의 세트를 식별하는 단계와, 직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 계수의 세트로 공동 변환하는 단계를 포함한다.

Description

양자화 잡음 전파 효과의 감소를 위한 최적의 시공간 변환{OPTIMAL SPATIO-TEMPORAL TRANSFORMATIONS FOR REDUCTION OF QUANTIZATION NOISE PROPAGATION EFFECTS}
본 출원은 본 명세서에서 참조로 통합되고, 2003년 10월 24일자로 출원된 미국 가출원 일련 번호 60/514,342, 2003년 10월 24일자로 출원된 미국 특허 제60/514,351, 2003년 11월 7일 출원된 미국 특허 제 60/518,135 및 2003년 11월 18일자로 출원된 미국 특허 제 60/523,411에 관한 우선권의 이득을 주장하는 것에 관한 것이다.
본 발명은 일반적으로 비디오 압축에 관한 것이다. 좀더 구체적으로 본 발명은 비디오 코딩에서의 시공간(spatio-temporal) 변환에 관한 것이다.
본 특허 서류의 개시물 일부는 저작권 보호를 받는 자료를 포함한다. 이 저작권 소유자는 임의의 개인에 의한 특허 및 상표청(Patent and Trademark Office) 특허 파일이나 기록에 나타나는 바와 같은 특허 서류나 특허 개시물의 팩스 재생에 이의를 제기하지 않지만, 그 외의 사항에 대해서는 모든 저작권 권리를 보유한다. 다음 주의 사항 즉, Copyright
Figure 112006027109313-PCT00001
2004, Sony Electronics, Inc., All Rights Reserved은 아래에서 설명하고 도면에 도시된 바와 같은 소프트웨어와 데이터에 적 용된다.
다수의 현재 비디오 코딩 알고리즘은 움직임 보상된 예측 코딩 구조에 기초한다. 그러한 구조에서, 시간 리던던시(temporal redundancy)는 움직임 보상을 사용하여 감소되는데 반해, 공간 리던던시는 움직임 보상의 나머지를 변환 코딩함으로써 감소한다. 움직임 보상된 예측 코딩 구조의 1가지 구성 성분은 움직임 보상된 시간 필터링(MCTF)이고, 이는 시간 리던던시를 감소시키기 위해 실시된다.
MCTF는 통상 움직임 방향으로 프레임을 시간 필터링하는 것을 포함한다. MCTF는, 인코딩된 비트스트림을 만들기 위해 공간 변환{예를 들어, 소파동(wavelet)이나 이산 코사인 변환(DCT)}과 엔트로피 코딩과 결합될 수 있다.
시간 필터링 동안, 그 장면의 움직임 성질과 사물을 덮는 것과 드러내는 것(covering/uncovering)으로 인해, 일부 픽셀은 참조되지 않거나 여러 번 참조될 수 있다. 참조되지 않은 픽셀은 연결되지 않는 픽셀이라고 알려져 있고, 여러 번 참조된 픽셀은 다중 연결된 픽셀이라고 알려져 있다. 종래의 MCTF 알고리즘에 의한 연결되지 않은 픽셀의 처리는 통상 특별한 취급을 요구하는데, 이는 코딩 효율 감소를 초래한다. 다중 연결된 픽셀의 경우, 종래의 MCTF 알고리즘은 통상 국부 시간 변환이 연속하는 것으로서 전반적인 시간 변환을 달성하고, 이는 그 변환의 직교정규성을 파괴하며, 디코더에서의 양자화 잡음 전파 효과를 초래한다.
비디오 프레임을 인코딩하기 위한 방법 및 장치가 설명된다. 전형적인 인코딩 방법은, 적어도 1개의 기준 픽셀과 다수의 예측된 픽셀을 포함하는 유사한 픽셀의 세트를 식별하는 단계와, 직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 계수의 세트로 공동 변환하는 단계를 포함한다.
본 발명은 아래에 주어진 상세한 설명과, 본 발명의 다양한 실시예의 첨부 도면으로부터 좀더 완전히 이해되지만, 이러한 본 발명의 다양한 실시예는 특정 실시예에 본 발명을 제한하는 것으로 해석해서는 안 되고, 단지 설명과 이해를 위한 것이다.
도 1은 인코딩 시스템의 일 실시예의 블록도.
도 2는 전형적인 연결, 비연결 및 다중 연결된 픽셀을 예시하는 도면.
도 3은 다중 연결된 픽셀의 전형적인 시간 필터링을 예시하는 도면.
도 4는 전형적인 내부 예측 공정을 예시하는 도면.
도 5는 직교정규 변환이 사용될 수 있는 전형적인 내부 예측 전략을 예시하는 도면.
도 6은 본 발명의 일부 실시예에 따른 직교정규 변환을 이용하는 인코딩 공정의 흐름도.
도 7은 본 발명의 일부 실시예에 따른 리프팅 구조를 이용하는 인코딩 공정의 흐름도.
도 8은 전형적인 쌍방향 필터링을 예시하는 도면.
도 9는 본 발명의 일부 실시예에 따른 쌍방향 필터링을 위한 리프팅 구조를 이용하는 인코딩 공정의 흐름도.
도 10은 본 발명의 실시예를 실시하기에 적합한 컴퓨터 환경의 블록도.
다음에 오는 본 발명의 실시예의 상세한 설명에서, 첨부 도면에 대한 참조가 이루어지는데, 이 도면에서 동일한 참조 번호는 동일한 요소를 나타내고, 이러한 도면에서 예시를 통해 본 발명이 실시될 수 있는 특정 실시예가 도시된다.
이들 실시예는 당업자가 본 발명을 실시할 수 있도록 충분히 상세하게 설명되고, 다른 실시예가 이용될 수 있으며, 논리적, 기계적, 전기적, 기능적 및 다른 변경이 본 발명의 범주를 벗어나지 않으면서 이루어질 수 있음이 이해되어야 한다. 그러므로 다음에 오는 상세한 설명은 제한적인 의미로 취해지지 않고, 본 발명의 범주는 첨부된 청구항에 의해서만 한정된다.
본 발명의 동작의 개관으로 시작하면, 도 1은 인코딩 시스템(100)의 일 실시예를 예시한다. 이 인코딩 시스템(100)은 조인트 비디오 팀(JVT: Joint Video Team) 표준, 동영상 전문가 그룹(MPEG: Moving Picture Experts Group) 표준, H-26x 표준 등과 같은 비디오 코딩 표준에 따라 비디오 코딩을 수행한다. 인코딩 시스템(100)은 하드웨어, 소프트웨어 또는 이 둘이 결합된 것으로 구현될 수 있다. 소프트웨어 구현시, 인코딩 시스템(100)은 다양한 종래의 컴퓨터 판독 가능한 매체 상에서 저장되고 분포될 수 있다. 하드웨어 구현시에는, 인코딩 시스템(100)의 모듈이 디지털 로직(예를 들어, 집적 회로)으로 구현된다. 이들 기능 중 일부는 호스트 컴퓨터로부터의 처리 부담을 덜기 위해 컴퓨터 주변 기기에서의 특별한 목적의 디지털 로직 디바이스에서 최적화될 수 있다.
인코딩 시스템(100)은 신호 수신기(102), 움직임 보상된 시간 필터링(MCTF) 유닛(108), 공간 변환 유닛(110) 및 엔트로피 인코더(112)를 포함한다. 신호 수신기(102)는 다수의 프레임을 구비한 비디오 신호를 수신하고, 개별 프레임을 MCTF 유닛(108)으로 발송하는 역할을 한다. 일 실시예에서, 신호 수신기(102)는 입력 비디오를 화상의 그룹(GOP: group of pictures)으로 분할하고, 이러한 화상의 그룹은 유닛으로서 인코딩된다. GOP는 소정 개수의 프레임을 포함할 수 있거나, GOP에서의 프레임의 개수는 대역폭, 코딩 효율 및 비디오 콘텐츠와 같은 파라미터에 기초한 동작 중에 역동적으로 결정될 수 있다. 예를 들어, 비디오가 급격한 장면(scene) 변경과 높은 움직임으로 이루어진다면, 더 짧은 GOP를 가지는 것이 더 효율적인데 반해, 비디오가 대부분 움직이지 않는 사물로 이루어진다면, 더 긴 GOP를 가지는 것이 더 효율적이다.
MCTF 유닛(108)은 움직임 추정기(104)와 시간 필터링 유닛(106)을 포함한다. 움직임 추정기(104)는 수신된 프레임에 대한 움직임 추정을 수행하는 역할을 한다. 일 실시예에서, 움직임 추정기(104)는 픽셀의 그룹이나 그 GOP의 프레임 영역을 유사한 픽셀 그룹이나 동일한 GOP의 다른 프레임 영역과 매칭시킨다. 그러므로 GOP에서의 다른 프레임은 처리된 각 프레임에 관한 기준 프레임이다.
일 실시예에서, 움직임 추정기(104)는 역방향(backward) 예측을 수행한다. 예를 들어, 픽셀의 그룹이나 그 GOP의 하나 이상의 프레임 영역은 유사한 픽셀의 그룹이나 동일한 GOP의 하나 이상의 이전 프레임 영역에 매칭될 수 있다. 이 예에서, GOP에서의 이전 프레임은 처리된 각 프레임에 관한 기준 프레임이다.
또 다른 실시예에서, 움직임 추정기(104)는 순방향(forward) 예측을 수행한다. 예를 들어, 픽셀의 그룹이나 그 GOP의 하나 이상의 프레임 영역은 유사한 픽셀의 그룹이나 동일한 GOP의 하나 이상의 이전 프레임 영역에 매칭될 수 있다. 이 예에서, GOP에서의 진행 프레임은 처리된 각 프레임에 관한 기준 프레임이다.
또 다른 실시예에서, 움직임 추정기(104)는 쌍방향 예측을 수행한다. 예를 들어, 픽셀의 그룹이나 그 GOP의 하나 이상의 프레임 영역은 유사한 픽셀의 그룹이나 동일한 GOP의 이전 및 진행(proceeding) 프레임 양 영역에 매칭될 수 있다. 이 예에서, GOP에서의 이전 및 진행 프레임은 처리된 각 프레임에 관한 기준 프레임이다.
전술한 매칭의 결과, 움직임 추정기(104)는 움직임 벡터를 제공하고, 시간 필터링 유닛(106)과 연결된 유사한 픽셀이나 블록의 세트를 확인한다. 유사한 픽셀이나 블록의 세트는, 1개 이상의 기준 프레임으로부터의 1개 이상의 기준 픽셀이나 블록과, 예측되는 프레임에서의 하나 이상의 예측된 픽셀이나 블록을 포함한다.
일 실시예에서, 움직임 추정기(104)는 예측된 프레임에서의 일부 블록이나 픽셀에 관한 기준 프레임(들)에서의 양호한 예측기를 발견할 수 없다. 그러한 픽셀은 연결되지 않은 픽셀이라고 부른다. 연결, 비연결 및 다중 연결된 픽셀의 예가 도 2에 예시된다.
도 2를 참조하면, 프레임(A)은 기준 프레임이고, 프레임(B)은 예측되는 프레임이다. 픽셀(201, 202, 203)은 다중 연결된 픽셀이다. 픽셀(204, 205, 206)은 연결되지 않은 픽셀이다. 나머지 픽셀은 연결된 픽셀이다.
도 1로 되돌아가면, 일 실시예에서 움직임 추정기(104)는 기준 프레임에서의시간 필터링 유닛(106)과 연결되지 않은 픽셀을 식별하며, 이 유닛(106)은 이후 연결되지 않은 픽셀의 특별한 취급을 수행한다. 대안적으로, 움직임 추정기(104)는 공간 변환 유닛(110)과 연결되지 않은 픽셀을 식별하여 이 유닛(110)은 이후 그러한 연결되지 않은 픽셀을 아래에 논의되는 바와 같이 처리한다.
시간 필터링 유닛(106)은 움직임 벡터에 따른 프레임과 움직임 추정기(104)에 의해 제공된 유사한 픽셀이나 블록의 식별자 사이의 시간 리던던시(redundancy)를 제거하는 역할을 한다. 일 실시예에서, 시간 필터링 유닛(106)은 유사한 픽셀이나 블록의 세트에 관해 저역 계수와 고역 계수를 만든다. 일 실시예에서, 시간 필터링 유닛(106)은 다중 연결된 픽셀의 세트나 블록을 직교정규 변환(예를 들어 직교정규 변환 행렬)을 사용하여 공동으로 변환함으로써, 다중 연결된 픽셀이나 블록에 관한 저역 계수와 고역 계수를 만든다. 또 다른 실시예에서는, 다중 연결된 픽셀의 변환은 2개의 단계, 즉 예측 단계와 갱신 단계로 나누는데 리프팅 구조가 사용된다. 예를 들어, 예측 단계는 직교정규 변환을 사용하여 고역 계수로 다중 연결된 픽셀이나 블록의 세트를 공동으로 변환하는 것을 수반할 수 있고, 갱신 단계는 하나 이상의 기준 픽셀이나 블록으로부터의 하나 이상의 저역 계수와 예측 단계에서 만들어진 대응하는 고역 계수를 생성하는 것을 수반할 수 있다.
전술한 필터링 기술은 다중 연결된 픽셀이나 블록에 제한되지 않고, 쌍방향 연결된 픽셀, 다수의 기준 프레임의 픽셀 및 단방향 연결된 픽셀에 대해서도 마찬가지로 수행될 수 있다는 점이 이해되어야 한다.
공간 변환 유닛(110)은, 예를 들어 소파동 변환이나 이산 코사인 변환(DCT)을 사용하는 MCTF 유닛(108)에 의해 제공된 프레임에서 공간 리던던시를 감소시키는 역할을 한다. 예를 들어 공간 변환 유닛(110)은 MCTF 유닛(108)으로부터 수신된 프레임을 2차원 소파동 변환에 따른 소파동 계수로 변환할 수 있다.
일 실시예에서, 공간 변환 유닛(110)은 내부 예측(즉 프레임 내부의 픽셀로부터의 예측)을 수행하는 역할을 한다. 내부 예측은, 예를 들어 연결되지 않은 픽셀이나 블록, 프레임 내부와 프레임 외부 모두에서 예측기를 가지는 픽셀이나 블록 등에 관해 수행될 수 있다. 연결되지 않은 픽셀에 관해 내부 예측이 수행되는 일 실시예에서, 공간 변환 유닛(110)은 예측되는 프레임 내의 연결되지 않은 픽셀이나 블록의 예측기를 찾고, 연결되지 않은 픽셀이나 블록과 관련 예측기의 공동 변환을 수행한다. 일 실시예에서, 공간 변환 유닛(110)은 연결되지 않은 픽셀이나 블록의 나머지를 생성하기 위해 직교정규 변환(예를 들어, 직교정규 변환 행렬)을 사용한다.
엔트로피 인코더(112)는 공간 변환 유닛(110)으로부터 수신된 계수에 엔트로피 코딩 기술을 적용함으로써 출력 비트스트림을 만드는 역할을 한다. 엔트로피 인코딩 기술은 또한, 움직임 추정기(104)에 의해 제공된 움직인 벡터와 기준 프레임 개수에 적용될 수 있다. 이 정보는 디코딩을 가능하게 하기 위해 출력 비트스트림에 포함된다. 적합한 엔트로피 인코딩 기술의 예는 가변 길이 인코딩과 산술 인코딩을 포함한다.
이제 다중 연결된 픽셀의 시간 필터링이 도 3에 관련하여 좀더 상세히 논의 된다.
도 3을 참조하면, 기준 프레임에서의 픽셀(A)은 n개의 픽셀(B1 내지 Bn)에 연결된다. 기존의 시간 필터링 방법은 통상 저역 계수(L1)와 고역 계수(H1)를 얻기 위해 먼저 픽셀(A, B1)의 쌍을 변환하도록 Haar 변환을 사용한다. 이후, 이 국부 변환은 A와, B2 내지 Bn의 픽셀 중 하나에 관해 반복되어, 저역 계수(L2 내지 Ln)와 고역 계수(H2 내지 Hn)를 만들고, 이를 통해 저역 계수(L2 내지 Ln)가 버려진다. 그 결과, 저역 계수(L1)와 고역 계수(H1, H2,...Hn)의 세트가 픽셀(A, B1, B2,...Bn)에 대해 만들어진다. 하지만 국부 변환의 이러한 순차 실행은 변환의 직교정규성을 파괴하고 그 결과 디코더에서의 양자화 잡음 전파 효과를 초래한다.
본 발명의 일 실시예는 다중 연결된 픽셀(예를 들어, 픽셀 A, B1, B2,...Bn)의 공동 변환을 실행함으로써, MTCF에서의 양자화 잡음 전파 효과를 감소시킨다. 이러한 공동 변환은 Gram-Schmit 직교정규화 공정, DCT 변환 등과 같은 직교정규화 공정의 적용에 기초하여 전개될 수 있는 직교정규 변환을 사용하여 실행된다. 변환의 직교정규 특성은, 양자화 잡음 전파 효과를 제거한다.
일 실시예에서, 직교정규 변환은 온라인으로 만들어진다. 대안적으로, 직교정규 변환은 오프라인으로 만들어지고 룩-업 테이블에 저장된다.
일 실시예에서, 직교정규 변환은 크기가 (n+1)x(n+1)인 변환 행렬이고, 여기서 n은 예측된 프레임에서의 예측된 픽셀의 개수이다. 직교정규 변환에 입력되는 것은 다중 연결된 픽셀(예를 들어, A, B1, B2,...Bn)이고, 그 출력은 저역 계수(L1)와, 고역 계수(H1, H2,...Hn)이다. 도 3에 도시된 다중 연결된 픽셀(A, B1, B2)에 대한 3 ×3 행렬을 이용하는 전형적인 단일(unitary) 변환은 다음과 같이 표현될 수 있다:
Figure 112006027109313-PCT00002
여기서, L1 O는 저역 계수이고, H1 O과 H2 O는 각각 B1과 B2에 대응하는 고역 계수이다.
일부 픽셀이나 블록은 내부 예측을 사용하여 예측될 수 있다. 내부 예측은, 예를 들어 연결되지 않은 픽셀이나 블록과, 프레임 내부와 프레임 외부 모두에서 예측기를 가지는 픽셀이나 블록 등에 대해 실시될 수 있다. 예를 들어, 기준 프레임으로부터의 양호한 예측기가, MCTF{예를 들어, MCTF 유닛(108)에 의한} 동안 발견될 수 없는 블록은 내부 예측될 수 있다(즉, 프레임 내부의 픽셀로부터 예측). 도 4는, 예를 들어 공간 변환기(110)에 의해 실시될 수 있는 픽셀의 내부 예측을 예시한다.
도 4를 참조하면, 픽셀(A)은 픽셀(X1, X2, X3, X4)을 예측하기 위해 사용된 다. 이러한 예측은 픽셀의 세트(A, X1, X2, X3, X4)를 나머지(A, X1-A, X2-A, X3-A, X4-A)로 대체하는 것을 수반한다. 그러한 예측는 픽셀의 직교정규 변환에 대응하지 않고, 따라서 디코더에서의 양자화 잡음 전파 결과를 초래한다.
일 실시예에서, 픽셀의 세트(A, X1, X2, X3, X4)는 1개의 평균 픽셀 값과 4개의 나머지 값을 포함하는 값의 세트로 공동 변환된다. 이러한 공동 변환은 Gram-Schmit 직교정규화 공정, DCT 변환 등과 같은 직교정규화 공정의 적용에 기초하여 전개될 수 있는 직교정규 변환을 사용하여 실시된다. 변환의 직교정규 특성은 양자화 잡음 전파 효과를 제거한다.
일 실시예에서, 직교정규 변환은 온라인으로 만들어진다. 대안적으로 직교정규 변환은 오프라인으로 만들어지고 룩-업 테이블에 저장된다.
일 실시예에서, 직교정규 변환은 크기가 (n+1)x(n+1)인 변환 행렬이고, 여기서 n은 예측된 프레임에서의 예측된 픽셀의 개수이다. 직교정규 변환에 입력되는 것은, 예측기(A)와 예측된 픽셀(X1, X2...Xn)의 세트를 포함하고, 출력은 평균 픽셀(L)과 나머지의 세트(R1, R2...Rn)를 포함한다. 도 4에 도시된 예측된 픽셀(X1 내지 X4)에 대한 5 ×5 행렬을 이용하는 전형적인 단일 변환은 다음과 같이 표현될 수 있다:
Figure 112006027109313-PCT00003
여기서, L은 평균 픽셀 값이고, R1 내지 R4는 각각 픽셀 X1 내지 X4의 나머지이다.
직교정규 변환은, 예를 들어 수직 예측, 수평 예측, 대각선 하방 좌측 예측, 대각선 하방 우측 예측, 수직 우측 예측, 수평 하방 예측, 수직 좌측 예측, 수평 상방 예측 등을 포함하는 다양한 내부 예측 전략에 관해 사용될 수 있다. 도 5는 직교정규 변환이 사용될 수 있는 전형적인 내부 예측 전략을 예시한다.
수학식 1과 수학식 2에서 사용된 행렬은 크기가 n인 일반적인 직교정규 변환 행렬로서 다시 쓰여질 수 있고, 여기서 n은 예측된 픽셀 개수에 1을 더한 것을 나타낸다. 크기가 n인 일반적인 직교정규 변환 행렬의 정수 버전은 다음과 같이 표현될 수 있다:
Figure 112006027109313-PCT00004
대응하는 입/출력 관계는 다음 식으로 제공될 수 있다:
Figure 112006027109313-PCT00005
여기서, P는 예측기(또한 본 명세서에서 기준 픽셀이라고도 하는)이고, 픽셀(Y1, Y2, Y3,...)은 P로부터 예측된 픽셀이고, L은 저역 데이터(예를 들어, 저역 계수이거나 평균 픽셀 값)이며, 값(H1, H2, H3,...)은 예측된 픽셀에 대응하는 고역 데이터(예를 들어, 고역 계수이거나 나머지 값)이다.
일 실시예에서, 현재 프레임에 있는 픽셀은 상이한 프레임으로부터의 예측기와 현재 프레임으로부터의 예측기 모두를 사용하여 예측될 수 있다. 이 실시예에서, 공간 예측과 시간 예측이 결합된 것이 사용되어 나머지(고역) 값을 만들고, 예측을 위해 사용된 모드가 디코더에 제공된다. 이러한 모드는 시간 예측, 공간 예측 또는 시간 예측과 공간 예측이 결합된 것을 지정할 수 있다. 현재 픽셀(C0)에 관한 고역 나머지(H0)는 다음과 같이 표현될 수 있다:
Figure 112006027109313-PCT00006
여기서, P0는 상이한(기준) 프레임으로부터의 예측기이고, P1는 동일한 프레 임으로부터의 예측기이며, α+β=1이고, 여기서 α=1은 시간 예측에 위한 것이고, β=1는 내부 예측만을 위한 것이다.
도 6은 본 발명의 일부 실시예에 따른 직교정규 변환을 이용하는 인코딩 공정(600)의 흐름도이다. 공정(600)은 도 1의 MCTF 유닛(108)이나 공간 변환 유닛(110)에 의해 실행될 수 있다. 공정(600)은 하드웨어(예를 들어, 회로, 전용 로직, 등), 소프트웨어(범용 컴퓨터 시스템이나 전용 기계 상에서 실행되는 것과 같은) 또는 이들이 결합된 것을 포함할 수 있는 처리 로직에 의해 실시될 수 있다.
소프트웨어 구현된 공정에 관해, 흐름도의 설명을 통해 당업자는 적합하게 구성된 컴퓨터(메모리를 포함하는 컴퓨터 판독 가능한 매체로부터의 명령어를 실행하는 컴퓨터의 프로세서) 상에서 그러한 공정을 수행하기 위한 명령어를 포함하는 그러한 프로그램을 개발할 수 있다. 컴퓨터 실행 가능한 명령어는 컴퓨터 프로그래밍 언어로 쓰여질 수 있거나 펌웨어(firmware) 로직으로 구현될 수 있다. 승인된 표준과 일치하는 프로그래밍 언어로 쓰여진다면, 그러한 명령어는 다양한 하드웨어 플랫폼 상에서 그리고 다양한 운영 시스템으로 인터페이스에 관해 실시될 수 있다. 또한, 본 발명의 실시예는 임의의 특별한 프로그래밍 언어를 참조하여 설명되지 않는다. 다양한 프로그래밍 언어가 본 명세서에 설명된 가르침을 구현하는데 사용될 수 있다. 게다가, 관련 분야에서 소프트웨어적으로 행동을 취하거나 결과를 일으키는 것으로 한가지 형태나 또 다른 형태(예를 들어, 프로그램, 절차, 공정, 응용, 모듈, 로직 등)로 소프트웨어에 대해 얘기하는 것이 흔히 있는 것이다. 그러한 표현은 단순히 컴퓨터의 프로세서가 행동을 실시하거나 결과를 만들게 하는 컴퓨터에 의한 소프트웨어의 실행을 얘기하는 다른 방식이다.
더 많거나 더 적은 개수의 동작이 본 발명의 범주로부터 벗어나지 않으면서 본 명세서에서 설명된 공정으로 통합될 수 있고, 본 명세서에서 도시되고 설명된 블록의 배열에 의해 어떠한 특별한 순서가 암시되어 있는 것이 아니라는 점이 이해될 것이다.
도 6을 참조하면, 처리 로직은 유사한 픽셀의 세트를 식별하는 것으로 시작한다(처리 블록 602). 이 세트에서의 픽셀은 유사한데, 이는 이들이 기준 픽셀과 이들 기준 픽셀로부터 예측될 수 있는 픽셀들로 이루어지기 때문이다. 일 실시예에서, 이러한 유사한 픽셀은 움직임 추정{예를 들어, 움직임 추정기(104)에 의해} 동안에 한정되고, 다중 연결된 픽셀을 포함하며, 이 경우 기준 픽셀은 제 1(기준) 프레임으로부터의 것이고, 예측된 픽셀은 제 2(예측된) 프레임으로부터의 것이다. 이 실시예에서, 공정(600)은 시간 예측 모드에서 수행된다.
또 다른 실시예에서, 유사한 픽셀이 공간 변환{예를 들어, 공간 변환 유닛(110)} 동안에 한정되고, 기준 픽셀과 동일한 프레임으로부터의 예측된 픽셀을 포함한다(예를 들어, 연결되지 않은 픽셀의 경우). 이러한 다른 실시예에서, 공정(600)은 공간 예측 모드에서 실시된다.
처리 블록(604)에서, 처리 로직은 유사한 픽셀의 세트를 직교정규 변환을 사용하여 계수로 공동 변환한다. 일 실시예에서, 직교정규 변환은 크기가 (n+1)x(n+1)인 변환 행렬이고, 이 경우 n은 예측된 픽셀의 개수이다. 일 실시예에서, 직교정규 변환은 Gram-Schmit 직교정규화 공정을 사용하여 전개된다.
일 실시예에서, 상기 공정(600)은 시간 예측 모드에서 수행되고, 처리 블록(604)에서 만들어진 계수는 저역 값과, 예측된 값에 대응하는 고역 값의 그룹을 포함한다.
공정(600)이 공간 예측 모드에서 수행되는 또 다른 실시예에서는, 처리 블록(604)에서 만들어진 계수가 평균 픽셀 값과, 예측된 값에 대응하는 나머지 값의 그룹을 포함한다.
공정(600)은 픽셀의 처리에 제한되지 않고, 대신 프레임 영역을 처리하는데 사용될 수 있다는 점이 이해되어야 한다(예를 들어, JVT와 같은 블록-기반의 코딩 구조).
일부 실시예에서, 직교정규 변환은 리프팅-구조를 사용하여 실시된다. 그러한 리프팅-기반의 구현은 2가지 단계, 즉 예측 단계와 갱신 단계로 저역 데이터와 고역 데이터를 생성하는 작업을 달성한다. 예측 단계에서는, 고역 데이터가 기준 픽셀로부터 생성된다. 갱신 단계에서는, 기준 픽셀과 고역 데이터를 사용하여 저역 데이터가 생성된다. 시간 예측 모드에서 사용될 때, 이러한 리프팅-기반의 구현은 인코더에서 입력에서 출력으로의 더 간단한 변환과, 디코더에서의 출력으로부터의 입력으로의 더 간단한 복구를 용이하게 한다.
일부 실시예에서, 리프팅-기반의 구현은 내부 예측을 위한 공간 예측 모드에서 사용된다. 이는 리프팅 구현이 대응하는 다수의 평균 픽셀 값과 나머지 값을 만들 수 있으므로, 예측기{예를 들어, 픽셀 한 세트(Y1,...Yn)에 관한 예측기 (P1,...Pn)를 사용하는}로서 다수의 픽셀을 사용하는 것을 허용한다. 또한, 리프팅-기반의 구현은 프레임에 걸쳐 내부 예측 사용을 제공하는데, 이는 그것이 다른 블록에 관한 예측기로서 예측기 블록의 재사용을 가능하게 하기 때문이다. 그 후, 디코더에서, 대응하는 평균 픽셀 값은 디코딩된 예측기로부터 복구될 수 있고, 예측된 픽셀은 역 예측 단계를 사용하여 복구될 수 있다.
도 7은 본 발명의 일부 실시예에 따른 리프팅 구조를 이용하는 인코딩 공정(700)의 흐름도이다. 공정(700)은 도 1의 MCTF 유닛(108)이나 공간 변환 유닛(110)에 의해 실행될 수 있다. 공정(700)은 하드웨어(예를 들어, 회로, 전용 로직 등), 소프트웨어(범용 컴퓨터 시스템이나 전용 기계 상에서 실행되는 것과 같은) 또는 이들이 결합된 것을 포함할 수 있는 처리 로직에 의해 실시될 수 있다.
도 7을 참조하면, 처리 로직은 직교정규 변환(처리 블록 702)을 사용하여, 한 세트의 픽셀을 고역 데이터로 공동 변환하는 것으로 시작한다. 픽셀의 세트는 하나 이상의 기준 픽셀과 이 기준 픽셀로부터 예측될 수 있는 픽셀을 포함한다. 일 실시예에서, 픽셀의 세트는 움직임 추정{예를 들어, 움직임 추정기(104)에 의해} 동안에 한정되고, 다중 연결된 픽셀을 포함하며, 이 경우 기준 픽셀은 기준 프레임으로부터의 것이고, 예측 픽셀은 예측 프레임으로부터의 것이다. 이 실시예에서, 공정(700)은 시간 예측 모드에서 실시된다. 일 실시예에서, 움직임 추정은 서브-픽셀 보간 공정을 이용한다.
또 다른 실시예에서, 픽셀의 세트는 공간 변환{예를 들어, 공간 변환 유닛 (110)} 동안에 한정되고, 동일한 프레임으로부터의 기준과 예측된 픽셀을 포함한다(예를 들어, 연결되지 않은 픽셀의 경우에). 이러한 다른 실시예에서, 공정(700)은 공간 예측 모드에서 실시된다.
일 실시예에서, 직교정규 변환은 크기가 n ×n인 변환 행렬이고, 여기서 n=N+1이며, N은 예측된 픽셀의 개수이다. 전형적인 직교정규 변환은 제 1 수학식을 사용하기 않고 입/출력 행렬식(4)으로서 표현될 수 있다.
일 실시예에서, 공정(700)은 시간 예측 모드에서 실시되고, 처리 블록(702)에서 만들어진 고역 데이터는 예측된 값에 대응하는 고역 값의 그룹을 포함한다.
공정(700)이 공간 예측 모드에서 실시되는 또 다른 실시예에서, 처리 블록(604)에서 만들어진 고역 데이터는 예측된 값에 대응하는 나머지 값의 그룹을 포함한다.
처리 블록(704)에서, 처리 로직은 기준 픽셀(들)과 고역 데이터를 사용하여 저역 데이터를 생성한다. 저역 데이터를 생성하기 위한 전형적인 식은 다음과 같다:
L=nP+H1
여기서, L은 저역 계수이고, 평균 픽셀 값(P)은 대응하는 예측기이며, H1은 제 1 예측된 픽셀에 대응하는 고역 계수이거나 제 1 예측된 픽셀에 대응하는 나머지 값일 수 있다.
일 실시예에서, 시간 필터링의 리프팅-기반의 구현은 다수의 기준 프레임과, 쌍방향 필터링에 관해 사용된다. 도 8은 전형적인 쌍방향 필터링을 예시한다.
도 8을 참조하면, Yb11내지 Yb1N는 픽셀(X01, X21)에 쌍방향으로 연결된다(예를 들어, 이들은 X01과 X21의 가중치 부여된 결합에 최상으로 매칭된다). 또한 픽셀(Yu11내지 Yu1M)은 픽셀(X01)에 단방향으로 연결된다. 일 실시예에서, 프레임(1)에서의 픽셀의 시간 필터링은 2개의 단계에서 실시된다.
도 9는 본 발명의 일부 실시예에 따른 쌍방향 필터링에 관한 리프팅 구조를 이용하는 인코딩 공정(900)의 흐름도이다. 공정(900)은 도 1의 MCTF 유닛(108)에 의해 실행될 수 있다. 공정(900)은 하드웨어(예를 들어, 회로, 전용 로직 등), 소프트웨어(범용 컴퓨터 시스템이나 전용 기계 상에서 실행되는 것과 같은) 또는 이들이 결합된 것을 포함할 수 있는 처리 로직에 의해 실시될 수 있다.
처리 블록(902)에서, 처리 로직은 전술한 바와 같은 예측 단계에서처럼, 고역 데이터를 만들기 위해 직교정규 변환을 사용하여 쌍방향 연결된 픽셀을 공동 변환한다. 예를 들어, 쌍방향 연결된 픽셀(Yb11내지 Yb1N)은 고역 계수(Hb11 내지 Hb1N)를 만들기 위해 공동 변환될 수 있다. 그러한 필터링에 관해 사용된 전형적인 식은 다음과 같이 될 수 있다:
Figure 112006027109313-PCT00007
여기서 α와 β는 픽셀(X01, X21)의 선형 결합에 관해 사용된 가중치이고, DN -1/2AN는 직교정규 변환 행렬{예를 들어, 수학식 3의 행렬(T)}을 나타내며, 이 경우 DN -1/2은 행렬(AN)의 행의 기준(norm)을 나타내는 엔트리를 구비한 대각선 행렬이다(직교정규성을 위한).
일 실시예에서, 결과 값(L)은 디코더에 송신되지 않고, 재구성된 픽셀(X01, X21)로부터 복구된다.
그 다음, 처리 로직은 대응하는 저역 데이터와 고역 데이터를 만들기 위해 직교정규 변환을 사용하는 단방향 연결된 픽셀을 공동 변환한다. 예를 들어, 단방향 연결된 픽셀(Yu11 내지 Yu1M)은 대응하는 저역 값(L01)과 고역 값(Hu11 내지 Hu1M)을 만들기 위해 기준 픽셀과 함께 공동 필터링될 수 있다. 그러한 필터링을 위해 사용된 전형적인 식은 다음과 같이 될 수 있다:
Figure 112006027109313-PCT00008
일 실시예에서, 디코더는 역 공정을 사용하는데, 먼저 단방향 연결된 픽셀에 대응하는 값(Hu11 내지 Hu1M)과 L01이, X01과 Yu11 내지 Yu1M을 복구하기 위해 역 필터링되고, 이후 쌍방향 연결된 픽셀(Yb11 내지 Yb1N)이 역 예측 단계를 사용하여 복구될 수 있다.
당업자라면 공정(900)이 쌍방향 필터링에 제한되지 않고, 일반적인 원칙을 유지하면서 다수의 기준 프레임을 위해 사용될 수 있다는 것을 이해할 것이다.
도 10의 다음 설명은 본 발명을 구현하기에 적합한 컴퓨터 하드웨어와 다른 동작 구성 성분의 개관(overview)을 제공하도록 의도되지만, 적용 가능한 환경을 제한하려고 의도된 것은 아니다. 도 10은 도 1의 인코딩 시스템(100) 또는 단지 MCTF 유닛(108) 또는 공간 변환 유닛(110)으로서 사용하기에 적합한 컴퓨터 시스템의 일 실시예를 예시한다.
컴퓨터 시스템(1040)은 프로세서(1050), 메모리(1055) 및 시스템 버스(1065)에 결합된 입/출력 기능부(capability)를 포함한다. 메모리(1055)는, 프로세서(1050)에 의해 실행될 때, 본 명세서에서 설명된 방법을 실시하는 명령어를 저장하도록 구성된다. 입/출력 기능부(1060)는 또한 프로세서(1050)에 의해 액세스 가능 한 임의의 유형의 저장 디바이스를 포함하는 다양한 유형의 컴퓨터 판독 가능한 매체를 포함한다. 당업자라면 "컴퓨터 판독 가능한 매체"라는 용어가 데이터 신호를 인코딩하는 반송파를 또한 포함하는 것으로 즉시 인지할 것이다. 또한 시스템(1040)은 메모리(1055)에서 실행하는 운영 시스템 소프트웨어에 의해 제어되는 것이 인식될 것이다. 입/출력 기능부 및 관련된 매체(1060)는 본 발명의 운영 시스템과 방법을 위한 컴퓨터 실행 가능한 명령어를 저장한다. 도 1에 도시된 MCTF 유닛(108)이나 공간 변환 유닛(110)은 프로세서(1050)에 결합된 분리 가능한 구성 성분이거나 프로세서(1050)에 의해 실행된 컴퓨터 실행 가능한 명령어로 구현될 수 있다. 일 실시예에서, 컴퓨터 시스템(1040)은 인터넷을 통해 이미지 데이터를 송신 또는 수신하기 위해 입/출력(1060)을 통한 ISP(Internet Service Provider)의 일부이거나 ISP에 결합될 수 있다. 본 발명은 인터넷 액세스와 인터넷 웹-기반의 사이트에 제한되지 않는데, 즉 직접 결합된 네트워크 및 구내망 또한 예상할 수 있음이 쉽사리 분명해진다.
컴퓨터 시스템(1040)은 상이한 아키텍처를 가지는 많은 가능한 컴퓨터 시스템의 일 예임이 인식될 것이다. 통상적인 컴퓨터 시스템은 보통 적어도 1개의 프로세서, 메모리 및 메모리를 프로세서에 결합하는 버스를 포함하게 된다. 당업자라면 본 발명이 멀티프로세서 시스템, 미니컴퓨터, 메인프레임 컴퓨터 등을 포함하는 다른 컴퓨터 시스템 구성으로 실시될 수 있음을 즉시 인식할 것이다. 본 발명은 또한 통신 네트워크를 통해 링크되는 원격 처리 디바이스에 의해 작업이 실시되는 분산 컴퓨팅 환경에서 실시될 수 있다.
최선의 스케일 인자를 선택하는 다양한 양상이 설명되었다. 비록 본 명세서에서는 특정 실시예가 예시되고 설명되었지만, 당업자라면 동일한 목적을 달성하기 위해 계산되는 임의의 배치가, 도시된 특정 실시예를 대체할 수 있음을 인식하게 될 것이다. 본 출원은 본 발명의 임의의 적응 또는 변형을 포함하는 것으로 의도된다.
전술한 바와 같이, 본 발명은 비디오 압축, 특히 비디오 코딩에서의 시공간 변환에 이용 가능하다.

Claims (25)

  1. 컴퓨터화된 인코딩 방법으로서,
    적어도 1개의 기준 픽셀과 복수의 예측된 픽셀을 포함하는 유사한 픽셀의 세트를 식별하는 단계와,
    직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 복수의 계수로 공동 변환하는 단계를 포함하는, 컴퓨터화된 인코딩 방법.
  2. 제 1항에 있어서, 상기 유사한 픽셀 세트는 움직임 추정 공정에 의해 한정되는, 컴퓨터화된 인코딩 방법.
  3. 제 2항에 있어서, 상기 복수의 계수는 적어도 1개의 저역 계수와 고역 계수의 한 세트를 포함하는, 컴퓨터화된 인코딩 방법.
  4. 제 1항에 있어서, 상기 직교정규 변환은 변환 행렬인, 컴퓨터화된 인코딩 방법.
  5. 제 4항에 있어서, 상기 변환 행렬은 (n+1)x(n+1)의 크기를 가지고, 여기서 n은 복수의 예측된 픽셀의 개수인, 컴퓨터화된 인코딩 방법.
  6. 제 1항에 있어서, 상기 직교정규 변환은 Gram-Schmidt 직교정규화 공정을 사용하여 전개되는, 컴퓨터화된 인코딩 방법.
  7. 제 2항에 있어서, 상기 유사한 픽셀의 세트는 다중 연결된 픽셀을 포함하는, 컴퓨터화된 인코딩 방법.
  8. 제 2항에 있어서, 상기 적어도 1개의 기준 픽셀은 기준 프레임으로부터의 것이고, 상기 복수의 예측된 픽셀은 예측되는 프레임으로부터의 것인, 컴퓨터화된 인코딩 방법.
  9. 제 1항에 있어서, 상기 유사한 픽셀의 세트를 찾는 단계를 더 포함하는, 컴퓨터화된 인코딩 방법.
  10. 제 9항에 있어서, 상기 적어도 1개의 기준 픽셀과, 상기 복수의 예측된 픽셀은 예측되는 프레임으로부터의 것인, 컴퓨터화된 인코딩 방법.
  11. 제 9항에 있어서, 상기 복수의 계수는 평균 픽셀 값과 나머지 값의 한 세트를 포함하는, 컴퓨터화된 인코딩 방법.
  12. 컴퓨터 판독 가능한 매체로서, 프로세서 상에서 실행될 때 프로세서로 하여 금
    적어도 1개의 기준 픽셀과 복수의 예측된 픽셀을 포함하는 유사한 픽셀 세트를 식별하는 단계와,
    직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 복수의 계수로 공동 변환하는 단계를
    포함하는 방법을 수행하게 하는 명령어를 제공하는, 컴퓨터 판독 가능한 매체.
  13. 제 12항에 있어서, 상기 복수의 계수는 적어도 1개의 저역 계수와 고역 계수의 한 세트를 포함하는, 컴퓨터 판독 가능한 매체.
  14. 제 12항에 있어서, 상기 직교정규 변환은 변환 행렬인, 컴퓨터 판독 가능한 매체.
  15. 제 12항에 있어서, 상기 유사한 픽셀의 세트는 다중 연결된 픽셀을 포함하는, 컴퓨터 판독 가능한 매체.
  16. 제 12항에 있어서, 상기 적어도 1개의 기준 픽셀과 상기 복수의 예측된 픽셀은 예측되는 프레임으로부터의 것인, 컴퓨터 판독 가능한 매체.
  17. 제 16항에 있어서, 상기 복수의 계수는 평균 픽셀 값과 나머지 값의 한 세트를 포함하는, 컴퓨터 판독 가능한 매체.
  18. 컴퓨터화된 시스템으로서,
    메모리와,
    상기 메모리에 결합된 적어도 1개의 프로세서를 포함하고, 상기 적어도 1개의 프로세서는 상기 적어도 1개의 프로세서로 하여금
    적어도 1개의 기준 픽셀과 복수의 예측된 픽셀을 포함하는 유사한 픽셀의 세트를 식별하고,
    직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 복수의 계수로 공동 변환하게 하는 명령어 세트를 실행하는, 컴퓨터화된 시스템.
  19. 제 18항에 있어서, 상기 복수의 계수는 적어도 1개의 저역 계수와 고역 계수의 한 세트를 포함하는, 컴퓨터화된 시스템.
  20. 제 18항에 있어서, 상기 직교정규 변환은 변환 행렬인, 컴퓨터화된 시스템.
  21. 제 18항에 있어서, 상기 유사한 픽셀의 세트는 다중 연결된 픽셀을 포함하는, 컴퓨터화된 시스템.
  22. 제 21항에 있어서, 상기 적어도 1개의 기준 픽셀은 기준 프레임으로부터의 것이고, 상기 복수의 예측된 픽셀은 예측되는 프레임으로부터의 것인, 컴퓨터화된 시스템.
  23. 제 18항에 있어서, 상기 적어도 1개의 기준 픽셀과 상기 복수의 예측된 픽셀은 예측되는 프레임으로부터의 것인, 컴퓨터화된 시스템.
  24. 제 23항에 있어서, 상기 복수의 계수는 평균 픽셀 값과 나머지 값의 한 세트를 포함하는, 컴퓨터화된 시스템.
  25. 인코딩 장치로서,
    적어도 1개의 기준 픽셀과 복수의 예측된 픽셀을 포함하는 유사한 픽셀의 세트를 식별하기 위한 수단과,
    직교정규 변환을 사용하여 상기 유사한 픽셀의 세트를 복수의 계수로 공동 변환하기 위한 수단을
    포함하는, 인코딩 장치.
KR1020067007504A 2003-10-24 2004-10-25 양자화 잡음 전파 효과의 감소를 위한 최적의 시공간 변환 KR20060113666A (ko)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US51435103P 2003-10-24 2003-10-24
US51434203P 2003-10-24 2003-10-24
US60/514,342 2003-10-24
US60/514,351 2003-10-24
US51813503P 2003-11-07 2003-11-07
US60/518,135 2003-11-07
US52341103P 2003-11-18 2003-11-18
US60/523,411 2003-11-18
US10/971,972 US20050117639A1 (en) 2003-10-24 2004-10-22 Optimal spatio-temporal transformations for reduction of quantization noise propagation effects
US10/971,972 2004-10-22

Publications (1)

Publication Number Publication Date
KR20060113666A true KR20060113666A (ko) 2006-11-02

Family

ID=34528381

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067007504A KR20060113666A (ko) 2003-10-24 2004-10-25 양자화 잡음 전파 효과의 감소를 위한 최적의 시공간 변환

Country Status (6)

Country Link
US (1) US20050117639A1 (ko)
EP (1) EP1714483A2 (ko)
JP (1) JP2007523512A (ko)
KR (1) KR20060113666A (ko)
CN (1) CN1926860A (ko)
WO (1) WO2005041112A2 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627037B2 (en) 2004-02-27 2009-12-01 Microsoft Corporation Barbell lifting for multi-layer wavelet coding
US7580461B2 (en) * 2004-02-27 2009-08-25 Microsoft Corporation Barbell lifting for wavelet coding
CA2655970A1 (en) 2006-07-07 2008-01-10 Telefonaktiebolaget L M Ericsson (Publ) Video data management
US9332274B2 (en) * 2006-07-07 2016-05-03 Microsoft Technology Licensing, Llc Spatially scalable video coding
JP5202558B2 (ja) * 2010-03-05 2013-06-05 日本放送協会 イントラ予測装置、符号化器、復号器及びプログラム
JP5174062B2 (ja) * 2010-03-05 2013-04-03 日本放送協会 イントラ予測装置、符号化器、復号器、及びプログラム
JP5509048B2 (ja) * 2010-11-30 2014-06-04 日本放送協会 イントラ予測装置、符号化器、復号器、及びプログラム
JP5542636B2 (ja) * 2010-11-30 2014-07-09 日本放送協会 イントラ予測装置、符号化器、復号器、及びプログラム
KR20200092315A (ko) * 2017-11-24 2020-08-03 소니 주식회사 화상 처리 장치 및 방법
RU2020115837A (ru) * 2017-11-24 2021-11-15 Сони Корпорейшн Устройство и способ обработки изображения

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5398078A (en) * 1991-10-31 1995-03-14 Kabushiki Kaisha Toshiba Method of detecting a motion vector in an image coding apparatus
CA2118118C (en) * 1993-03-24 2004-02-24 Motoki Kato Method for coding and decoding motion vectors and apparatus therefor
AU6381394A (en) * 1993-03-30 1994-10-24 Lewis, Adrian S. Data compression and decompression
JPH0738760A (ja) * 1993-06-28 1995-02-07 Nec Corp 直交変換基底生成方式
US5764814A (en) * 1996-03-22 1998-06-09 Microsoft Corporation Representation and encoding of general arbitrary shapes
US6310972B1 (en) * 1996-06-28 2001-10-30 Competitive Technologies Of Pa, Inc. Shape adaptive technique for image and video compression
CA2255900C (en) * 1997-03-14 2002-08-06 Cselt - Centro Studi E Laboratori Telecommunicazioni S.P.A. Circuit for motion estimation in digitised video sequence encoders
US6430317B1 (en) * 1997-12-31 2002-08-06 Sarnoff Corporation Method and apparatus for estimating motion using block features obtained from an M-ary pyramid
US6122017A (en) * 1998-01-22 2000-09-19 Hewlett-Packard Company Method for providing motion-compensated multi-field enhancement of still images from video
JP3606430B2 (ja) * 1998-04-14 2005-01-05 松下電器産業株式会社 画像整合性判定装置
US6418166B1 (en) * 1998-11-30 2002-07-09 Microsoft Corporation Motion estimation and block matching pattern
US6628714B1 (en) * 1998-12-18 2003-09-30 Zenith Electronics Corporation Down converting MPEG encoded high definition sequences to lower resolution with reduced memory in decoder loop
JP3732674B2 (ja) * 1999-04-30 2006-01-05 株式会社リコー カラー画像圧縮方法およびカラー画像圧縮装置
JP2003530789A (ja) * 2000-04-11 2003-10-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオ符号化及び復号方法

Also Published As

Publication number Publication date
US20050117639A1 (en) 2005-06-02
JP2007523512A (ja) 2007-08-16
WO2005041112A3 (en) 2006-09-08
CN1926860A (zh) 2007-03-07
WO2005041112A2 (en) 2005-05-06
EP1714483A2 (en) 2006-10-25

Similar Documents

Publication Publication Date Title
US6148027A (en) Method and apparatus for performing hierarchical motion estimation using nonlinear pyramid
JP5467141B2 (ja) 下層のフィルタリングを備えたスケーラブルビデオ符号化
CN107318026B (zh) 视频编码器以及视频编码方法
US8483277B2 (en) Method and apparatus for motion compensated temporal filtering using split update process
US20110255598A1 (en) Method for performing local motion vector derivation during video coding of a coding unit, and associated apparatus
US20100166074A1 (en) method and apparatus for encoding or decoding frames of different views in multiview video using global disparity
US8379717B2 (en) Lifting-based implementations of orthonormal spatio-temporal transformations
JPH08275160A (ja) 離散余弦変換方法
JPH0955945A (ja) 動きベクトル特定方法及び装置
JPS62203496A (ja) 動画像信号の高能率符号化方式
WO2008157457A2 (en) Joint spatio-temporal prediction for video coding
WO2016154928A1 (en) Residual transformation and inverse transformation in video coding systems and methods
EP1515561B1 (en) Method and apparatus for 3-D sub-band video coding
JP3703299B2 (ja) ピクチャ中央の画質を最適化するためのビデオ符号化方法、システムおよびコンピュータ・プログラム製品
KR20220162786A (ko) 비디오 코딩에서 심층 신경 네트워크 기반 인터프레임 예측을 위한 방법 및 장치
US8855198B2 (en) Moving picture encoding method, moving picture decoding method, moving picture encoding device, moving picture decoding device, and computer program
JPH08275149A (ja) データ符号化方法
KR20060113666A (ko) 양자화 잡음 전파 효과의 감소를 위한 최적의 시공간 변환
KR20070029849A (ko) 영상 부호화/복호화 장치 및 방법
JP2002314998A (ja) 同時的フォーマット縮小方法、及びエンコード・ビデオ信号のデコード方法
KR20040106418A (ko) 웨이브렛 부호화에 대한 다중 기준 프레임들에 기초한움직임 보상 시간 필터링
US8279918B2 (en) Method and apparatus for motion compensated temporal filtering using residual signal clipping
US20060181650A1 (en) Encoding method and device
JPH10150665A (ja) 予測画像の作成方法及び画像符号化方法及び画像符号化装置
KR100728032B1 (ko) 워핑 기반의 인트라 예측 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application