EP1285538A1

EP1285538A1 - Verfahren zur transformationscodierung von bewegtbildsequenzen

Info

Publication number: EP1285538A1
Application number: EP01921209A
Authority: EP
Inventors: Alexander Romanowski; Sven Bauer; Peter Siepen; Mathias Wien; Thomas Wedi
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2000-05-10
Filing date: 2001-03-16
Publication date: 2003-02-26
Also published as: DE10022331A1; WO2001086961A1; US7397857B2; US20040062309A1; JP2003533141A

Abstract

Bei einem Verfahren zur Transformationscodierung von Bewegtbildsequenzen werden blockweise Bewegungsvektoren geschätzt, mit denen eine Bewegungskompensation durchgeführt wird. Der Prädiktionsfehler wird transformationscodiert. Erfindungsgemäß wird die Blockgröße der Transformationscodierung an die für die Bewegungskompensation jeweils verwendete Blockgröße gekoppelt. Durch diese Maßnahme läßt sich eine Effizienz-Steigerung bei der Codierung des Prädiktionsfehlers in hybriden Codierverfahren, die verschiedene Blockgrößen verwenden, erzielen.

Description

Verfahren zur Transformationscodierung von Bewegtbildsequenzen

Stand der Technik

Die Erfindung geht aus von einem Verfahren zur

Transformationscodierung von Bewegtbildsequenzen, bei welchem zwischen einem Referenzbildsignal und einem aktuellen Bildsignal der Bildsequenz blockweise Bewegungsvektoren geschätzt werden, mit denen die Bewegungskompensation durchgeführt wird.

Bei hybriden Codierkonzepten zur Codierung von Bewegtbildsequenzen wird zwischen einem zuvor erstellten Bildsignal (Referenz-Frame) und einem aktuellen Frame einer Bildsequenz blockweise ein Bewegungsvektorfeld geschätzt und anschließend mit diesem Vektorfeld eine

Bewegungskompensation durchgeführt. Das Bewegungsvektorfeld und der verbleibende Pradiktionsfehler werden codiert und an den Empfänger übertragen. Zur Codierung des Pradiktionsfehlers werden meist Blocktransformationen eingesetzt, üblicherweise eine diskrete Cosinus Transformation (DCT) mit 8 8 Koeffizienten.

In den bisher standardisierten Verfahren zur Bewegtbildcodierung wird eine 8 x 8 DCT zur

Transformationscodierung eingesetzt [1, 2]. Bei der Bewegungskompensation kommen Blöcke der Größe 16 x 16 und 8 x 8 Pixel und bei MPEG-4 im Fall von Interlaced Codierung auch 16 x 8 Pixel [1] zum Einsatz. Die Größe der Blocktransformation ist mit 8 x 8 Koeffizienten konstant.

Im Testmodell zum neuen Videocodierstandard H26L [3] wird eine an die DCT angelehnte 4 x 4 Integer-Transformation vorgeschlagen. Diese hat gegenüber der DCT den Vorteil, daß die ganzzahlig vorliegenden Pixelwerte auf ganzzahlige Transformationskoeffizienten abgebildet werden. Dadurch wird zum einen die Möglichkeit zu perfekter Rekonstruktion gegeben, zum anderen entfallen die bei der bisher üblichen float-DCT möglichen Transformationsfehler, die auftreten, wenn die inverse DCT in Sender und Empfänger unterschiedlich implementiert sind, z.B. Verwendung der Datentypen float auf der einen und double auf der anderen Seite. In [4] wird eine Integer-Transformation vorgestellt, die die Transformationseigenschaften der DCT approximiert und anstelle der float-DCT verwendet werden kann.

Im Testmodell zu H.26L werden zur Bewegungskompensation Blockgrößen von 16 x 16 bis 4 x Pixel verwendet. Zur Transformationscodierung werden diese im Testmodell in 4 x 4 Blöcke zerlegt.

Vorteile der Erfindung

Mit den Maßnahmen des Anspruchs 1 und den Weiterbildungen der Unteransprüche läßt sich eine Effizienz-Steigerung bei der Codierung des Pradiktionsfehlers, insbesondere in hybriden Codierverfahren, erreichen, wenn verschiedene Blockgrößen bei der Bewegungskompensation eingesetzt werden.

Das Verfahren nach der Erfindung, nämlich die Kopplung der Blockgröße der Transformation für den Pradiktionsfehler an die bei der Bewegungskompensation verwendete Blockgröße, ist insbesondere dann vorteilhaft, wenn die zu transformierenden Blocke nicht nur auf quadratische Formen begrenzt sind, sondern auch rechteckige Blocke zulassen, z.B. 4 x 8 oder 16 x 8 Pixel.

Gegenüber den herkömmlichen Verfahren bieten die Verwendung von an die Bewegungskompensation gekoppelten Blockgroßen den Vorteil, maximal große Teile des Pradiktionsfehlers gemeinsam transformieren zu können, ohne daß darin enthaltene Blockgrenzen mit störenden hochfrequenten

Anteilen (Blocking-Artefakte) den Transformationsgewinn schmälern. Dadurch wird eine erhöhte Codiereffizienz erreicht. Die Transformation von großen Blocken (16 x 16) und Blocken mit nicht quadratischer Form, z.B. 8 x oder 16 x 8 Pixel, fuhrt gegenüber den bekannten Verfahren zu Codiergewinnen. Durch die Transformation wird die Energie des transformierten Signals auf wenige Koeffizienten konzentriert. Die Zahl von aufeinander folgenden Nullen innerhalb von Blocken wird durch die Verwendung größerer Blocke erhöht, was zu einer effektiveren Codierung verwendet werden kann (Lauflangen-Codierung) .

Da die Wahl der Blockgroßen bereits für die Bewegungskompensation im Bitstrom codiert ist, ist für die Verwendung der angepaßten Transformationen keine weitere Signalisierung notwendig.

Zeichnungen

Anhand der Zeichnungen werden Ausfuhrungsbeispiele der Erfindung naher erläutert. Es zeigen:

Figur 1 eine mögliche Teilung eines Macroblockes in Unterblocke,

Figur 2 eine adaptive Blockaufteilung eines Macroblockes, Beschreibung von Ausführungsbeispielen

In den standardisierten Codierverfahren und in H.26L erfolgt eine Teilung der Bildsequenz-Frames in Macroblöcke (MB) , die aus einem Block mit 16 x 16 Pixeln der Luminanzkomponente und zwei dazu korrespondierenden Chrominanz-Blöcken bestehen, häufig 8 x 8 Pixel, 4:2:0 YUV-Format [5]. Im folgenden wird nur die Luminanz-Komponente betrachtet und mit MB bezeichnet. In Figur 1 sind die für H.26L vorgeschlagenen möglichen Teilungen eines Macroblockes MB dargestellt. Der erste Block repräsentiert einen Macroblock mit 16 x 16 Pixeln, wohingegen der am feinsten unterteilte Macroblock 4 x 4 Unterblöcke aufweist.

Bei der Erfindung werden zwischen einem aktuellen Referenzbildsignal, insbesondere einem zeitlich zuvor übertragenen oder ermittelten Bildsignal, und einem aktuellen Bildsignal einer Bewegtbildssequenz blockweise die Bewegungsvektoren geschätzt, mit denen die

Bewegungskompensation durchgeführt wird. Es werden dabei unterschiedliche Blockgrößen eingesetzt. Der Pradiktionsfehler wird transformationscodiert. Die Blockgröße der Transformationscodierung wird an die bei der Bewegungskompensation verwendete Blockgröße gekoppelt, insbesondere wird die Blockgröße für die

Transformationscodierung des Pradiktionsfehlers gleich der Blockgröße gewählt, die für die Bewegungskompensation verwendet wurde. Dabei werden nicht nur quadratische sondern auch rechteckige Blöcke zugelassen, um maximal große Teile des Pradiktionsfehler gemeinsam transformieren zu können. Dies führt zu einer sehr effektiven Codierung, da die Blockgrößen für die Bewegungskompensation bereits im Übertragungsbitstrom zu codieren sind und so für die adaptive Transformationscodierung bezüglich deren

Blockgrößen keine weitere Signalisierung erforderlich ist. Die Zahl von aufeinanderfolgenden Nullen innerhalb der Blöcke kann zu einer effektiven Codierung, insbesondere einer Lauflängencodierung verwendet werden.

Figur 2 zeigt einige Macroblöcke MB mit 16 x 16 Bildpunkten in der linken oberen Ecke eines Frames. Die Macroblöcke MB sind hier mit kleinen Buchstaben für die Zeilen und großen Buchstaben für die Spalten gekennzeichnet. Beispiel: Der erste Macroblock MB in der zweiten Zeile wird mit MB (bA) referenziert .

Dargestellt ist die Aufteilung der Macroblöcke, die zur Bewegungskompensation ermittelt wurde. Das heißt, Macroblock MB(aA) ist in vier Unterblöcke geteilt, denen jeweils ein Bewegungsvektor zugeordnet ist. Jeder dieser Unterblöcke wird unabhängig von den anderen aus dem Referenz-Frame prädiziert. MB(aB) hat nur einen Bewegungsvektor, der Unterblock entspricht hier also hier dem gesamten Makroblock MB. Im Beispiel MB (bA) gibt es acht Unterblöcke, die mit eigenen Bewegungsvektoren unabhängig voneinander prädiziert werden. Der Pradiktionsfehler, der bei der Bewegungskompensation verbleibt, zeigt ebenfalls die dargestellte Blockstruktur.

Für die Transformationen mit adaptiver Blockgröße wird auf die von der Bewegungskompensation bekannte Information über die Unterblock-Aufteilung der Macroblöcke zurückgegriffen. Für jeden Macroblock MB wird jene Block-Transformation gewählt, die dieselbe Blockgröße wie die Unterblöcke besitzen. Also: im Macroblock MB(aA) wird jeder der vier Unterblöcke mit einer 8 x 8-Transformation transformiert. Makroblock MB(aB) bekommt eine 16 x 16-Transformation, Makroblock MB (aC) zwei 8 x 16-Transformationen u.s.w. Die Blockgröße der Transformationen entspricht also der Blockgröße der Bewegungskompensation (Größe der Unterblöcke) .

Quadratische Blöcke

Es werden separierbare Transformationen eingesetzt, d.h. die Transformationsmatrix wird in horizontaler und vertikaler Richtung angewendet, d.h. im quadratischen Fall

C = T x B x T

Hierbei bezeichnet B ein Block mit n x n Pixeln und C den transformierten Block, T ist die Transformationsmatrix der Größe n x n. Diese ist orthogonal, d.h.

T x T = T x T = konstant x I_n,

wobei I_n die n x n-Einheitsmatrix bezeichnet. Für orthonormale Transformationen gilt: T x T^τ = I, d.h. konstant = 1.

Rechteckige Blöcke

Im Fall von rechteckigen Blöcken der Größe n x m, mit n ≠ m, werden ebenfalls separierbare orthogonale Transformationen verwendet . Die Transformationsmatrixen für die Zeilen und Spalten haben unterschiedliche Größen, was durch die Indizierung in folgender Gleichung gekennzeichnet ist:

^cn,m = ^τv m,m ^Bn,m ^{x τ} h n,n-

Tft bezeichnet die Transformationsmatrix für die Zeilen, T_v diejenige für die Spalten.

Quantisierung Im folgenden wird von einer skalaren Quantisierung ausgegangen. Für andere Quantisierer sind die nachfolgenden Beziehungen entsprechend zu modifizieren.

Die Blöcke des Pradiktionsfehlers werden transformiert. Wenn orthonormale Transformationsmatrixen eingesetzt werden, d.h. T x T^τ = I, führt eine skalare Quantisierung mit konstanter Quantisierer-Schrittweite qp für alle Transformations- Blockgrößen zum selben Maß an Verzerrung.

Insbesondere wenn ganzzahlige, d.h. Integer- Transformationen, angewendet werden, ist von nicht normierten Transformationsmatrizen auszugehen. In diesem Fall kann keine allgemeingültige Quantisiererschrittweise angegeben werden. Da im allgemeinen eine gleichmäßige Verzerrung in allen Blöcken des codierten Frames wünschenswert ist, müssen Quantisierer-Tabellen erstellt werden, in denen einem zur Codierung vorgegebenen qp für jede auftretende Blockform ein korrespondierendes qp_j_ zugeordnet wird.

Seien c^ und c_v die Normierungskonstanten der Transformationsmatrizen in horizontaler und vertikaler Richtung

^τh ^x τT_h = c_h x I_n#

T_v x T _v = c_v x I_m;

wobei T^ eine n x n und T_v eine m x m Matrix sind. Dann kann die Quantisierer-Schrittweite für den n x m-Block B-j_ mit

bestimmt werden. Im Falle von ganzzahligen Transformationen - Integer-Transformationen - soll qp _j_ ganzzahlig sein. Dazu muß eine Zuordnungstabelle angelegt werden, die für jede Blockgröße das entsprechend angepaßte ganzzahlige qp-j_ enthält .

Typisch für die Erfindung ist, daß bei sehr grober Quantisierung in der rekonstruierten Frames Basisfunktionen oder Basisbilder der zugrundeliegenden Transformationen sichtbar werden. Bei der herkömmlichen Codierverfahren ist die Blockgröße dieser Basisfunktionen im gesamten Frame konstant; bei Verwendung der adaptiven Blockgrößen lassen sich Basisbilder in verschiedenen Größen und vor allem nicht-quadratische Formen, entsprechend den Blöcken der Bewegungskompensation, ausmachen.

Literatur

[1] ISO/IEC JTC1 IS 14496-2 (MPEG-4) . "Information technology - generic coding of audio-visual objects (final draft of international Standard)," Oct. 1998.

[2] Telecom. Standardization Sector of ITU, "Video coding for low bitrate communication (H.263 Version 2)," Sept. 1997.

[3] Telecom. Standardization Sector of ITU, "H26L test model long term 3," in Study Group 16, Question 15, Meeting J,

(Osaka, Japan), ITU, Mar. 2000

[4] T.D. Tran, "Fast ultilierless approximation of the DCT," in 99rd Annual Conference on Information Science and Systems, (Baltimore, MD, USA), Mar. 1999

[5] J.-R. Ohm, Digitale Bildcodierung. Berlin, Heidelberg, New York: Springer-Verlag, 1995

Claims

Ansprüche

1. Verfahren zur Transformationscodierung von

Bewegtbildsequenzen, bei welchem zwischen einem Referenzbildsignal und einem aktuellen Bildsignal der Bildsequenz blockweise Bewegungsvektoren geschätzt werden, mit denen eine Bewegungskompensation durchgeführt wird, wobei zur Bewegungskompensation unterschiedliche Blockgrößen eingesetzt werden und der verbleibende Pr diktionsfehler transformationscodiert wird mit folgender Maßnahme: - die Blockgröße der Transformationscodierung wird an die für die Bewegungskompensation jeweils verwendete Blockgröße gekoppelt.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei Unterteilung der einzelnen Frames der Bildsequenz in Macroblöcke neben quadratischen Unterblöcken auch rechteckige Unterblöcke für die Transformationscodierung des Pradiktionsfehlers zugelassen werden, wobei für jeden Macroblock diejenige Blocktransformation gewählt wird, die dieselbe Blockgröße wie die Unterblöcke für die Bewegungskompensation besitzt.

3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß für die Transformationscodierung separierbare Transformationen sowohl für quadratische als auch für rechteckige Blöcke eingesetzt werden.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß für die Transformationscodierung ganzzahlige Koeffizienten gewählt werden.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß für die Transformationscodierung orthonormale Transformationsmatrizen mit skalarer Quantisierung eingesetzt werden.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Quantisierungs-Schrittweite für die Transformationscodierung so festgelegt wird, daß in allen Transformationsblöcken das gleiche Maß an insbesondere durch die Quantisierung hervorgerufenen Verzerrungen auftritt.

7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, daß für die Transformationscodierung mit ganzzahligen Koeffizienten eine Zuordnung, insbesondere in Form einer Zuordnungstabelle, getroffen wird, die für jede Blockgröße die entsprechend angepaßte ganzzahlige Quantisierungsschrittweite (qpj_) vorgibt.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß für die Information über die jeweils verwendete Blockgröße bei der Transformationscodierung zwischen Encoder und Decoder keine separate Signalisierung vorgesehen wird, sondern auf die Codierung der Blockgrößen im Zusammenhang mit der Bewegungskompensation zurückgegriffen wird.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß zur Codierung eine Lauflängencodierung eingesetzt wird.