DE69834010T2 - Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür - Google Patents

Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür Download PDF

Info

Publication number
DE69834010T2
DE69834010T2 DE69834010T DE69834010T DE69834010T2 DE 69834010 T2 DE69834010 T2 DE 69834010T2 DE 69834010 T DE69834010 T DE 69834010T DE 69834010 T DE69834010 T DE 69834010T DE 69834010 T2 DE69834010 T2 DE 69834010T2
Authority
DE
Germany
Prior art keywords
data
coding
bit
encoding
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69834010T
Other languages
English (en)
Other versions
DE69834010D1 (de
Inventor
Sung-hee Seocho-gu Park
Yeon-bae Suwon-city Kim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of DE69834010D1 publication Critical patent/DE69834010D1/de
Application granted granted Critical
Publication of DE69834010T2 publication Critical patent/DE69834010T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Allgemeiner Stand der Technik
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft das Gebiet der Toncodierung und -decodierung und insbesondere ein skalierbares Stereotoncodierungs- und -decodierungsverfahren und eine Vorrichtung dafür, die eine arithmetische Bitslicing-Codierung verwenden.
  • 2. Beschreibung des Standes der Technik
  • Bei einer herkömmlichen skalierbaren Toncodierungs- und -decodierungsvorrichtung wurde die Skalierbarkeit eines 1-Kanal-Monosignals in Betracht gezogen [K. Brandenburg und Mitarbeiter, "First Ideas on Scalable Audio Coding", 97. AES-Tagung, Vorabdruck 3924, San Francisco, 1994] und [K. Brandenburg und Mitarbeiter, "A two- or Three-Stage Bit Rate Scalable Audio Coding System", 99. AES-Tagung, Vorabdruck 4132, New York, 1995]. Des Weiteren offenbaren S. H. Part und Mitarbeiter "Multi-layer Bit-sliced Bit Rate Scalable Audio Coding", 103. AES-Tagung, Vorabdruck, 1997. Jedoch stellen MPEG-Tonstandards [MPEG Committee ISO/IEC/JTCI/SC29/WG11, Information technology – Coding of moving pictures and associated Audio for data storage media to about 1.5 Mbit/s – Teil 3: Audio, ISO/IEC IS 11172-3, 1998] oder AC-2/AC-3-Verfahren [Dolby, "Dolby AC-3 Multi-Channel Audio Coding – Submission to the Grand Alliance Audio Specialist Group", Dolby Lab., August, 1993] eine Technologie zum Verarbeiten von Stereo- und Mehrkanalsignalen sowie Monosignalen bereit. In der Praxis bestehen die meisten Musiksignale aus Stereosignalen. Es ist darum notwendig, skalierbare Audio-Codecs zu verwenden, die auf Signale angewendet werden können, die aus Zwei- oder Mehrkanal-Bitströmen bestehen, wie im Internet oder einem Kommunikationsnetz.
  • Musiksignale sind im Allgemeinen Stereosignale. Die Stereosignale werden über eine Compact-Disk (CD), ein Kommunikationsnetz oder ein Rundfunknetz bereitgestellt und werden künftig im Rahmen von Multimedia-Umgebungen bereitgestellt. Jedoch haben die vorhandenen skalierbaren Audio-Codecs bisher zumeist Monosignale gehandhabt und haben noch keine Stereosignale verarbeitet. Um Stereosignale zu verarbeiten, muss die Signalübertragung so erfolgen, dass alle Signale für einen einzelnen Kanal übertragen werden und dann die Signale für einen anderen Kanal übertragen werden. Weil aber die Mengen an Bits, die in zwei Kanälen erzeugt werden, nicht immer die gleichen sind, ist in diesem Fall die Leistung des skalierbaren Audio-Codecs bei einer kleineren Bitrate für die Stereosignale deutlich geringer.
  • Kurzdarstellung der Erfindung
  • Um die oben beschriebenen Probleme zu lösen, ist es eine Aufgabe der vorliegenden Erfindung, ein skalierbares Verfahren und eine entsprechende Vorrichtung zum Codieren digitaler Stereotondaten und ein Aufzeichnungsmedium zum Aufzeichnen des Codierungsverfahrens bereitzustellen. Die Codierung erfolgt durch das Erzeugen von Bitströmen, die aus mehreren Erweiterungsschichten, die auf einer Basisschicht basieren, bestehen, unter Verwendung einer Technik der arithmetischen Bitslicing-Codierung (Bit-sliced Arithmetic Coding – BSAC).
  • Um die Aufgabe der vorliegenden Erfindung zu erfüllen, wird ein skalierbares Stereotoncodierungsverfahren zum Codieren von Tonsignalen in einen geschichteten Datenstrom mit einer Basisschicht und wenigstens zwei Erweiterungsschichten bereitgestellt, umfassend folgende Schritte: Signalverarbeitung von Eingangs-Tonsignalen und Quantisieren der Eingangs-Tonsignale für jedes vorgegebene Codierungsband; wobei das Verfahren des Weiteren folgende Schritte umfasst: Codieren der quantisierten Daten entsprechend der Basis schicht unter den quantisierten Daten; Codieren der quantisierten Daten entsprechend der nächsten Erweiterungsschicht der codierten Basisschicht und der übrigen quantisierten Daten, die aufgrund einer Schichtgrößenbegrenzung uncodiert sind und zu der codierten Schicht gehören; und sequenzielles Ausführen der Schichtcodierungsschritte für alle Erweiterungsschichten, um Bitströme zu bilden, wobei der Schritt der Basisschichtcodierung, der Schritt der Erweiterungsschichtcodierung und der Schritt der sequenziellen Codierung so ausgeführt werden, dass die Nebeninformationen und quantisierten Daten, die einer zu codierenden Schicht entsprechen, durch Ziffern der gleichen vorgegebenen Anzahl dargestellt werden und dann unter Verwendung eines vorgegebenen Wahrscheinlichkeitsmodells in der Reihenfolge, die von den MSB-Sequenzen zu den LSB-Sequenzen reicht, arithmetisch codiert werden; wobei das Verfahren dadurch gekennzeichnet ist, dass die einem Bitslicing unterzogenen Daten des linken Kanals und des rechten Kanals miteinander verschachtelt werden und wechselweise in Einheiten vorgegebener Vektoren codiert werden.
  • Die Nebeninformationen enthalten wenigstens Skalierungsfaktoren sowie Informationen über ein zur arithmetischen Codierung zu verwendendes Wahrscheinlichkeitsmodell. Bei den vorgegebenen Vektoren handelt es sich um vierdimensionale Vektoren, die durch Koppeln der einem Bitslicing unterzogenen vier Tonkanaldaten zu einem einzigen Vektor erzeugt werden. Die vierdimensionalen Vektoren werden in zwei Teilvektoren entsprechend Vorzuständen aufgeteilt, die anzeigen, ob einem Bitslicing unterzogene Frequenzkomponenten, die ungleich Null sind, codiert sind oder nicht, um die dann zu codieren.
  • Der Schritt des Codierens der Skalierungsfaktoren enthält des Weiteren folgende Schritte: Erhalten des maximalen Skalierungsfaktors; Erhalten der Differenz zwischen dem maximalen Skalierungsfaktor und den ersten Skalierungsfak toren und arithmetisches Codieren der Differenz; und Erhalten von Differenzen zwischen dem unmittelbar vorangegangenen arithmetisch codierten Skalierungsfaktor und den jeweiligen Skalierungsfaktoren, die auf den ersten Skalierungsfaktor folgen, Abbilden der Differenzen in einen vorgegebenen Wert und arithmetisches Codieren der abgebildeten Werte.
  • Der Schritt des Codierens der Skalierungsfaktoren enthält folgende Schritte: Erhalten des maximalen Skalierungsfaktors; und Erhalten von Differenzen zwischen dem maximalen Skalierungsfaktor und den jeweiligen Skalierungsfaktoren und arithmetisches Codieren der Differenzen.
  • Die Kopfinformationen, die gemeinsam für alle Bänder verwendet werden, werden codiert, und die Nebeninformationen und die quantisierten Frequenzen, die für die jeweilige Schicht erforderlich sind, werden durch einem Bitslicing unterzogene Informationen gebildet, die dann zu codieren sind, um eine Schichtstruktur zu erhalten.
  • Die Quantisierung wird durch folgende Schritte ausgeführt: Konvertieren der Eingangs-Tonsignale eines Zeitbereichs in Signale eines Frequenzbereichs; Koppeln der konvertierten Signale als Signale vorgegebener Skalierungsfaktorbänder mittels Zeit-Frequenz-Abbildung und Berechnen einer Maskierungsschwelle auf jedem Skalierungsfaktorband; Ausführen einer zeitlichen Rauschformung zum Steuern der zeitlichen Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters; Ausführen einer Intensitätsstereoverarbeitung, dergestalt, dass nur die quantisierten Informationen eines Skalierungsfaktorbandes für einen von zwei Kanälen codiert werden, wobei nur der Skalierungsfaktor für den anderen Kanal übermittelt wird; Vorhersagen von Frequenzkoeffizienten des augenblicklichen Rahmens; Durchführen einer Mitte-/Seite(M/S)-Stereoverarbeitung zum Konvertieren eines Signals des linken Kanals und eines Signals des rechten Kanals in ein additives Signal aus zwei Signalen und ein subtraktives Signal davon; und Quantisieren der Signale für jedes vorgegebene Codierungsband, dergestalt, dass Quantisierungsrauschen jedes Bandes kleiner ist als die Maskierungsschwelle.
  • Wenn die quantisierten Daten aus Vorzeichendaten und Größenordnungsdaten zusammengesetzt sind, so enthalten die Schritte des Codierens der Basisschicht und der Erweiterungsschichten und des Bildens von Bitströmen die folgenden Schritte: arithmetisches Codieren der signifikantesten Ziffernfolgen, die aus signifikantesten Ziffern der Größenordnungsdaten zusammengesetzt sind; Codieren von Vorzeichendaten, die Daten ungleich Null unter den codierten signifikantesten Ziffernfolgen entsprechen; Codieren der signifikantesten Ziffernfolgen unter uncodierten Größenordnungsdaten der digitalen Daten; Codieren uncodierter Vorzeichendaten unter den Vorzeichendaten, die Größenordnungsdaten ungleich Null unter codierten Ziffernfolgen entsprechen; und Ausführen des Größenordnungscodierungsschrittes und des Vorzeichencodierungsschrittes an den entsprechenden Ziffern der digitalen Daten, wobei die jeweiligen Schritte wechselweise an den Daten des linken Kanals und den Daten des rechten Kanals in Einheiten vorgegebener Vektoren ausgeführt werden.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine skalierbaren Stereotoncodierungsvorrichtung bereitgestellt, die Folgendes umfasst: einen Quantisierungsabschnitt 160 zur Signalverarbeitung von Eingangs-Tonsignalen und zum Quantisieren der Eingangs-Tonsignale für jedes Codierungsband; einen Abschnitt 170 zum arithmetischen Bitslicing-Codieren für das Codieren von Bitströmen für alle Schichten, so dass eine Schichtstruktur entsteht, durch Bandbegrenzung für eine Basisschicht, so dass sie skalierbar ist, zum Codieren von Nebeninformationen, die der Basisschicht entsprechen, zum Codieren der quantisier ten Informationen sequenziell von der signifikantesten Bitsequenz zu der geringst-signifikanten Bitsequenz und von Komponenten mit niedrigerer Frequenz zu Komponenten mit höherer Frequenz, und zum Codieren von Nebeninformationen, die der nächsten Erweiterungsschicht der Basisschicht und den quantisierten Daten entsprechen; und einen Bitstrombildungsabschnitt 180 zum Erfassen von Daten, die in dem Quantisierungsabschnitt und in dem Abschnitt zum arithmetischen Bitslicing-Codieren gebildet wurden, und zum Erzeugen von Bitströmen; wobei die Codierungsvorrichtung dadurch gekennzeichnet ist, dass der Abschnitt 170 zum arithmetischen Bitslicing-Codieren dafür konfiguriert ist, verschachtelte Daten des linken Kanals und Daten des rechten Kanals wechselweise in Einheiten vorgegebener Vektoren zu codieren.
  • Der Quantisierungsabschnitt enthält Folgendes: einen Zeit-Frequenz-Abbildungsabschnitt zum Konvertieren der Eingangs-Tonsignale eines Zeitbereichs in Signale eines Frequenzbereichs; einen psychoakustischen Abschnitt zum Koppeln der konvertierten Signale durch Signale vorgegebener Skalierungsfaktorbänder mittels Zeit-Frequenz-Abbildung und Berechnen einer Maskierungsschwelle auf jedem Skalierungsfaktorband unter Verwendung eines Maskierungsphänomens, das durch Interaktion der jeweiligen Signale erzeugt wird; und einen Quantisierungsabschnitt zum Quantisieren der Signale für jedes vorgegebene Codierungsband, während das Quantisierungsrauschen jedes Bandes mit der Maskierungsschwelle verglichen wird.
  • Des Weiteren enthält die Vorrichtung Folgendes: einen Abschnitt für zeitliche Rauschformung (ZRF) zum Ausführen einer zeitlichen Rauschformung zum Steuern der zeitlichen Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters; einen Intensitätsstereoverarbeitungsabschnitt zum Ausführen einer Intensitätsstereoverarbeitung, dergestalt, dass nur die quantisierten Informationen eines Skalierungsfaktorbandes für einen von zwei Kanälen codiert werden, wobei nur der Skalierungsfaktor für den anderen Kanal übermittelt wird; einen Vorhersageabschnitt zum Vorhersagen von Frequenzkoeffizienten des augenblicklichen Rahmens; und einen M/S-Stereoverarbeitungsabschnitt zum Durchführen einer M/S-Stereoverarbeitung zum Konvertieren eines Signals des linken Kanals und eines Signals des rechten Kanals in ein additives Signal aus zwei Signalen und ein subtraktives Signal davon.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein skalierbares Stereotondecodierungsverfahren zum Decodieren von Tonsignalen bereitgestellt, die so codiert sind, dass sie geschichtete Bitraten aufweisen, wobei das Verfahren folgende Schritte umfasst: Analysieren von Daten, die für die jeweiligen Module in den Bitströmen mit einer Schichtstruktur benötigt werden; Decodieren wenigstens von Skalierungsfaktoren und Indizes von Modellen für arithmetisches Codieren und quantisierten Daten in der Reihenfolge der Erzeugung der Schichten in Bitströmen mit einer Schichtstruktur, wobei die quantisierten Daten durch Analysieren der Signifikanz von Bits, aus denen die Bitströme bestehen, von höher-signifikanten Bits zu weniger-signifikanten Bits decodiert werden; Wiederherstellen der decodierten Skalierungsfaktoren und quantisierten Daten in Signale mit den ursprünglichen Größenordnungen; und Konvertieren von umgekehrt quantisierten Daten in Signale eines Zeitbereichs; wobei das Verfahren dadurch gekennzeichnet ist, dass die quantisierten Daten aus codierten verschachtelten linken und rechten Kanälen dergestalt decodiert werden, dass die quantisierten Daten wechselweise für die jeweiligen Kanäle decodiert werden.
  • Das skalierbare Stereotondecodierungsverfahren enthält des Weiteren folgende Schritte: Durchführen einer M/S-Stereoverarbeitung, um zu prüfen, ob in dem Bitstromcodierungsverfahren eine M/S-Stereoverarbeitung durchgeführt wurde oder nicht, und Konvertieren eines Signals des linken Kanals und eines Signals des rechten Kanals in ein additives Signal aus zwei Signalen und ein subtraktives Signal davon, wenn die M/S-Stereoverarbeitung durchgeführt wurde; Prüfen, ob in dem Bitstromcodierungsverfahren ein Vorhersageschritt durchgeführt wurde oder nicht, und Vorhersagen von Frequenzkoeffizienten des augenblicklichen Rahmens, wenn der Prüfschritt ausgeführt wurde; Prüfen, ob in dem Bitstromcodierungsverfahren ein Intensitätsstereoverarbeitungsschritt durchgeführt wurde oder nicht, und, wenn die Intensitätsstereoverarbeitung durchgeführt wurde, dann – weil nur die quantisierten Informationen des Skalierungsfaktorbandes für einen einzelnen Kanal (den linken Kanal) von zwei Kanälen codiert sind – Durchführen der Intensitätsstereoverarbeitung zum Wiederherstellen der quantisierten Informationen des anderen Kanals (des rechten Kanals) in einen Wert des linken Kanals; und Prüfen, ob in dem Bitstromcodierungsverfahren ein Schritt der zeitlichen Rauschformung (ZRF) durchgeführt wurde oder nicht, und wenn der ZRF-Schritt durchgeführt wurde, Ausführen einer zeitlichen Rauschformung zum Steuern der zeitlichen Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters.
  • Wenn die quantisierten Daten aus Vorzeichendaten und Größenordnungsdaten bestehen, so wird eine Wiederherstellung von quantisierten Frequenzkomponenten durch sequenzielles Decodieren der Größenordnungsdaten von Vorzeichenbits quantisierter Frequenzkomponenten und ein Koppeln der Größenordnungsdaten und der Vorzeichenbits vorgenommen.
  • Der Decodierungsschritt wird von den signifikantesten Bits zu den geringst-signifikanten Bits ausgeführt, und der Wiederherstellungsschritt wird durch Koppeln der decodierten, einem Bitslicing unterzogenen Daten und Wiederherstellen der gekoppelten Daten in Daten quantisierter Frequenzkomponenten ausgeführt.
  • Die Daten werden in dem Decodierungsschritt dergestalt decodiert, dass einem Bitslicing unterzogene Informationen von vier Abtastungen in Einheiten vierdimensionaler Vektoren decodiert werden.
  • Das Decodieren des vierdimensionalen Vektors erfolgt dergestalt, dass zwei Teilvektoren, die gemäß Vorzuständen codiert wurden, die anzeigen, ob einem Bitslicing unterzogene Frequenzkomponenten ungleich Null codiert sind oder nicht, arithmetisch codiert werden und die zwei Teilvektoren, die gemäß den Codierungszuständen der jeweiligen Abtastungen decodiert wurden, in vierdimensionale Vektoren wiederhergestellt werden.
  • Des Weiteren wird, während die einem Bitslicing unterzogenen Daten der jeweiligen Frequenzkomponenten aus den MSBs decodiert werden, das Decodieren übersprungen, wenn die einem Bitslicing unterzogenen Daten "0" sind, und Vorzeichendaten werden arithmetisch decodiert, wenn die einem Bitslicing unterzogenen Daten "1" zum ersten Mal erscheinen. Die Decodierung der Skalierungsfaktoren wird durch Decodieren des maximalen Skalierungsfaktors in dem Bitstrom, arithmetisches Decodieren von Differenzen zwischen dem maximalen Skalierungsfaktor und den jeweiligen Skalierungsfaktoren und Subtrahieren der Differenzen von dem maximalen Skalierungsfaktor ausgeführt. Des Weiteren enthält der Schritt des Decodierens der Skalierungsfaktoren folgende Schritte: Decodieren des maximalen Skalierungsfaktors aus den Bitströmen; Erhalten von Differenzen zwischen dem maximalen Skalierungsfaktor und zu decodierenden Skalierungsfaktoren durch Abbilden und arithmetisches Decodieren der Differenzen und umgekehrtes Abbilden der Differenzen aus den abgebildeten Werten; und Erhalten des ersten Skalierungsfaktors durch Subtrahieren der Differenzen von dem maximalen Skalierungsfaktor und Erhalten der Skalie rungsfaktoren für die übrigen Bänder durch Subtrahieren der Differenzen von den vorherigen Skalierungsfaktoren.
  • Das Decodieren der Indizes für arithmetisch codierte Modelle wird durch folgende Schritte ausgeführt: Decodieren des kleinsten Index' eines arithmetischen Modells in dem Bitstrom, Decodieren von Differenzen zwischen dem kleinsten Index und den jeweiligen Indizes in den Nebeninformationen der jeweiligen Schichten und Addieren des kleinsten Index' und der Differenzen.
  • Alternativ wird gemäß der vorliegenden Erfindung eine skalierbare Stereotondecodierungsvorrichtung zum Decodieren von Tondaten bereitgestellt, die so codiert sind, dass sie geschichtete Bitraten aufweisen, wobei die Vorrichtung Folgendes umfasst: einen Bitstromanalyseabschnitt 300 zum Analysieren von Daten, die für die jeweiligen Module in den Bitströmen mit einer Schichtstruktur benötigt werden; einen Decodierungsabschnitt 310 zum Decodieren wenigstens von Skalierungsfaktoren und Indizes von Modellen für arithmetisches Codieren und quantisierten Daten in der Reihenfolge der Erzeugung der Schichten in Bitströmen mit einer Schichtstruktur, wobei die quantisierten Daten durch Analysieren der Signifikanz von Bits, aus denen die Bitströme bestehen, von höher-signifikanten Bits zu weniger-signifikanten Bits decodiert werden; einen Wiederherstellungsabschnitt 320 zum Wiederherstellen der decodierten Skalierungsfaktoren und quantisierten Daten in Signale mit den ursprünglichen Größenordnungen; und einen Frequenz-Zeit-Abbildungsabschnitt 370 zum Konvertieren von umgekehrt quantisierten Signalen in Signale eines Zeitbereichs; wobei die Decodierungsvorrichtung dadurch gekennzeichnet ist, dass die quantisierten Daten aus codierten verschachtelten linken und rechten Kanälen dergestalt decodiert werden, dass die quantisierten Daten wechselweise für die jeweiligen Kanäle decodiert werden.
  • Die Vorrichtung enthält des Weiteren Folgendes: einen M/S-Stereoverarbeitungsabschnitt zum Durchführen einer M/S-Stereoverarbeitung, um zu prüfen, ob in dem Bitstromcodierungsverfahren eine M/S-Stereoverarbeitung durchgeführt wurde oder nicht, und Konvertieren eines Signals des linken Kanals und eines Signals des rechten Kanals in ein additives Signal aus zwei Signalen und ein subtraktives Signal davon, wenn die M/S-Stereoverarbeitung durchgeführt wurde; einen Vorhersageabschnitt zum Prüfen, ob in dem Bitstromcodierungsverfahren ein Vorhersageschritt durchgeführt wurde oder nicht, und Vorhersagen von Frequenzkoeffizienten des augenblicklichen Rahmens, wenn der Prüfschritt ausgeführt wurde; einen Intensitätsstereoverarbeitungsabschnitt zum Prüfen, ob in dem Bitstromcodierungsverfahren eine Intensitätsstereoverarbeitung durchgeführt wurde oder nicht, und, wenn die Intensitätsstereoverarbeitung durchgeführt wurde, dann – weil nur die quantisierten Informationen des Skalierungsfaktorbandes für einen einzelnen Kanal (den linken Kanal) von zwei Kanälen codiert sind – Durchführen der Intensitätsstereoverarbeitung zum Wiederherstellen der quantisierten Informationen des anderen Kanals (des rechten Kanals) in einen Wert des linken Kanals; und einen Abschnitt zur zeitlichen Rauschformung zum Prüfen, ob in dem Bitstromcodierungsverfahren ein Schritt der zeitlichen Rauschformung (ZRF) durchgeführt wurde oder nicht, und wenn der ZRF-Schritt durchgeführt wurde, Ausführen einer zeitlichen Rauschformung zum Steuern der zeitlichen Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters.
  • Kurze Beschreibung der Zeichnungen
  • Die oben genannten Aufgaben und Vorteile der vorliegenden Erfindung werden verständlicher, wenn wir uns einer eingehenden Beschreibung einer bevorzugten Ausführungsform zuwenden und dabei auf die begleitenden Zeichnungen Bezug nehmen.
  • 1 ist ein Blockschaubild einer Codierungsvorrichtung gemäß der vorliegenden Erfindung.
  • 2 zeigt den Aufbau eines Bitstromes gemäß der vorliegenden Erfindung.
  • 3 ist ein Blockschaubild einer Decodierungsvorrichtung gemäß der vorliegenden Erfindung.
  • 4 veranschaulicht die Anordnung von Frequenzkomponenten für einen langen Block (Fenstergröße = 2048).
  • 5 veranschaulicht die Anordnung von Frequenzkomponenten für einen kurzen Block (Fenstergröße = 2048).
  • Beschreibung der bevorzugten Ausführungsformen
  • Im Weiteren werden bevorzugte Ausführungsformen der vorliegenden Erfindung eingehender anhand der begleitenden Zeichnungen beschrieben.
  • Die vorliegende Erfindung dient dem Codieren und Decodieren skalierbarer digitaler Stereotondaten unter Verwendung einer Technik der arithmetischen Bitslicing-Codierung (Bit-sliced Arithmetic Coding – BSAC). Oder anders ausgedrückt: Bei der vorliegenden Erfindung wird nur ein verlustfreies Codierungsmodul durch die BSAC-Technik ersetzt, wobei alle anderen Module des herkömmlichen Codierers unverändert bleiben. Die vorliegende Erfindung erweitert die Anwendbarkeit des in dieser Weise aufgebauten skalierbaren Codierers/Decodierers. Das heißt, die vorliegende Erfindung kann auf ein Stereosignal angewendet werden.
  • 1 ist ein Blockschaubild einer skalierbaren Toncodierungsvorrichtung gemäß der vorliegenden Erfindung. Die skalierbare Toncodierungsvorrichtung enthält einen Zeit- Frequenz-Abbildungsabschnitt 100, einen psychoakustischen Abschnitt 110, einen Abschnitt für zeitliche Rauschformung 120, einen Intensitätsstereoverarbeitungsabschnitt 130, einen Vorhersageabschnitt 140, einen Mitte-/Seite(M/S)-Stereoverarbeitungsabschnitt 150, einen Quantisierungsabschnitt 160, einen Abschnitt 170 für arithmetische Bitslicing-Codierung und einen Bitstrombildungsabschnitt 180.
  • Die wichtigsten auf den Menschen bezogenen akustischen Eigenschaften bei der Codierung eines digitalen Tonsignals sind ein Maskierungseffekt und ein Frequenzgruppenmerkmal. Der Maskierungseffekt meint ein Phänomen, bei dem ein Tonsignal (ein Ton) aufgrund eines anderen Signals nicht hörbar ist. Wenn zum Beispiel ein Zug durch einen Bahnhof fährt, so kann eine Person während eines leisen Gesprächs wegen des durch den Zug verursachten Lärms nicht die Stimme ihres Gesprächspartners hören. Tonsignale werden für jedes Band innerhalb des vom Menschen hörbaren Frequenzbereichs unterschiedlich wahrgenommen. Des Weiteren werden im Hinblick auf die Frequenzgruppenmerkmale Geräusche mit der gleichen Amplitude unterschiedlich wahrgenommen, wenn das Geräuschsignal in einer Frequenzgruppe liegt oder wenn das Geräuschsignal außerhalb einer Frequenzgruppe liegt. In diesem Fall wird, wenn das Geräuschsignal die Frequenzgruppe übersteigt, das Geräusch deutlicher wahrgenommen.
  • Bei der Codierung human-akustischer Eigenschaften werden im Grunde diese zwei Eigenschaften dergestalt benutzt, dass der Geräuschbereich, der in einer Frequenzgruppe zugeordnet werden kann, berechnet wird, woraufhin Quantisierungsrauschen erzeugt wird, das dem berechneten Bereich entspricht, um den Informationsverlust infolge der Codierung zu minimieren.
  • Der Zeit-Frequenz-Abbildungsabschnitt 100 wandelt Eingangs-Tonsignale eines Zeitbereichs in Tonsignale eines Frequenzbereichs um.
  • Der psychoakustische Abschnitt 110 koppelt die durch den Zeit-Frequenz-Abbildungsabschnitt 100 konvertierten Signale mit Signalen vorgegebener Skalierungsfaktorbänder und berechnet eine Maskierungsschwelle auf jedem Skalierungsfaktorband unter Verwendung eines Maskierungsphänomens, das durch Interaktion mit den jeweiligen Signalen erzeugt wird.
  • Der Zeitbereichs-Rauschformungsabschnitt 120 steuert die zeitliche Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters. Das Rauschen kann durch das Filtern von Frequenzdaten zeitlich geformt werden. Dieses Modul wird optional in dem Codierer benutzt.
  • Der Intensitätsstereoverarbeitungsabschnitt 130 ist ein Modul, das für eine effizientere Verarbeitung eines Stereosignals verwendet wird, und codiert nur die quantisierten Informationen für das Skalierungsfaktorband eines von zwei Kanälen mit dem Skalierungsfaktorband der anderen gesendeten Kanals. Dieses Modul wird nicht unbedingt in dem Codierer benutzt, aber es werden verschiedene Dinge für jedes Skalierungsfaktorband berücksichtigt, um zu bestimmen, ob es verwendet werden soll oder nicht.
  • Der Vorhersageabschnitt 140 schätzt Frequenzkoeffizienten des augenblicklichen Rahmens. Die Differenz zwischen dem vorhergesagten Wert und der tatsächlichen Frequenzkomponente wird quantisiert und codiert, wodurch die Menge der erzeugten verwendbaren Bits verringert wird. Der Vorhersageabschnitt 140 wird optional in Rahmen-Einheiten verwendet. Oder anders ausgedrückt: Weil die Verwendung des Vorhersageabschnitts 140 die Komplexität beim Vorhersagen des nachfolgenden Frequenzkoeffizienten vergrößert, kann der Vorhersageabschnitt 140 auch weggelassen werden. Gele gentlich kann die Menge der tatsächlich erzeugten Bits durch Schätzung größer sein als die durch Nicht-Schätzung. In diesem Moment wird der Vorhersageabschnitt 140 nicht verwendet.
  • Der M/S-Stereoverarbeitungsabschnitt 150 zum effizienteren Verarbeiten von Stereosignalen wandelt ein Signal des linken Kanals und ein Signal des rechten Kanals in additive und subtraktive Signale aus jeweils zwei Signalen um, um sie dann zu verarbeiten. Dieses Modul wird nicht unbedingt in dem Codierer benutzt, aber es werden verschiedene Dinge für jedes Skalierungsfaktorband berücksichtigt, um zu bestimmen, ob es verwendet werden soll oder nicht.
  • Der Quantisierungsabschnitt 160 skalarquantisiert die Frequenzsignale jedes Bandes so, dass die Größenordnung des Quantisierungsrauschens jedes Bandes kleiner ist als die Maskierungsschwelle, so dass sie nicht mehr wahrnehmbar ist. Die Quantisierung erfolgt so, dass der RMV(Rauschen-zu-Maske-Verhältnis)-Wert, bei dem es sich um ein Verhältnis der Maskierungsschwelle, die durch den psychoakustischen Abschnitt 210 berechnet wurde, zu dem Rauschen, das auf jedem Band erzeugt wird, handelt, maximal 0 dB beträgt. Ein RMV-Wert von maximal 0 dB bedeutet, dass die Maskierungsschwelle höher ist als das Quantisierungsrauschen. Oder anders ausgedrückt: Das Quantisierungsrauschen ist nicht hörbar.
  • Der Abschnitt 170 für arithmetische Bitslicing-Codierung, ein Kernmodul der vorliegenden Erfindung, kann als eine Alternative zu einem verlustfreien Codierungsabschnitt der AAC-Technik verwendet werden, weil der vorhandene Audio-Codec, wie beispielsweise MPEG-2-AAC, keine Skalierbarkeit bieten kann. Um den skalierbaren Audio-Codec zu implementieren, werden die durch den Quantisierungsabschnitt 160 quantisierten Frequenzdaten durch Kombinieren der Nebeninformationen des entsprechenden Bandes mit den Quantisie rungsinformationen der Tondaten codiert. Des Weiteren können zusätzlich zur Skalierbarkeit Leistungen ähnlich denen beim AAC in einer obersten Schicht erreicht werden. Die Funktionen des Abschnitts 170 für arithmetische Bitslicing-Codierung werden eingehender beschrieben. Das Band ist auf eines beschränkt, das der Basisschicht entspricht, damit es skalierbar ist, und die Nebeninformationen für die Basisschicht werden codiert. Die Informationen für quantisierte Werte werden nacheinander in der Reihenfolge, die von den MSB-Sequenzen zu den LSB-Sequenzen und von den niederfrequenten Komponenten zu den höherfrequenten Komponenten reicht, codiert. Des Weiteren werden linke Kanäle und rechte Kanäle im Wechsel in Einheiten vorgegebener Vektoren codiert, um die Codierung der Basisschicht auszuführen. Nach Beendigung der Codierung der Basisschicht werden die Nebeninformationen für die nächste Erweiterungsschicht und die quantisierten Werte von Tondaten codiert, so dass die auf diese Weise gebildeten Bitströme einen geschichteten Aufbau haben.
  • Der Bitstrombildungsabschnitt 180 erzeugt Bitströme gemäß einer vorgegebenen Syntax, die für den skalierbaren Codec geeignet ist, durch Zusammentragen von Informationen, die in den jeweiligen Modulen der Codierungsvorrichtung gebildet wurden.
  • 2 zeigt den Aufbau eines Bitstromes gemäß der vorliegenden Erfindung. Wie in 2 gezeigt, haben die Bitströme einen geschichteten Aufbau, in dem die Bitströme von Schichten mit geringerer Bitrate in den Bitströmen von Schichten mit höherer Bitrate entsprechend den Bitraten enthalten sind. Herkömmlicherweise werden Nebeninformationen zuerst codiert, und dann werden die übrigen Informationen codiert, um Bitströme zu bilden. Jedoch werden bei der vorliegenden Erfindung, wie in 2 gezeigt, die Nebeninformationen für jede Erweiterungsschicht separat codiert. Des Weiteren werden, obgleich alle quantisierten Daten herkömmlicherweise nacheinander in Abtast-Einheiten codiert werden, bei der vorliegenden Erfindung quantisierte Daten durch binäre Daten dargestellt und werden aus der MSB-Sequenz der binären Daten codiert, um Bitströme innerhalb der zugewiesenen Bits zu bilden.
  • 3 ist ein Blockschaubild einer Decodierungsvorrichtung gemäß der vorliegenden Erfindung, die einen Bitstromanalyseabschnitt 300, einen Abschnitt 310 für arithmetische Bitslicing-Decodierung, einen Umkehrquantisierungsabschnitt 320, einen M/S-Stereoverarbeitungsabschnitt 330, einen Vorhersageabschnitt 340, einen Intensitätsstereoverarbeitungsabschnitt 350, einen Zeitbereichs-Rauschformungsabschnitt 360 und einen Frequenz-Zeit-Abbildungsabschnitt 370 enthält.
  • Der Bitstromanalyseabschnitt 300 trennt Kopfinformationen und codierte Daten in der Reihenfolge der Erzeugung der Eingangs-Bitströme und sendet diese an die jeweiligen Module.
  • Der Abschnitt 310 für arithmetische Bitslicing-Decodierung decodiert Nebeninformationen und einem Bitslicing unterzogene quantisierte Daten in der Reihenfolge der Erzeugung der Eingangs-Bitströme, die zu dem Umkehrquantisierungsabschnitt 320 zu übertragen sind.
  • Der M/S-Stereoverarbeitungsabschnitt 330, der nur an die Stereosignale angepasst ist, verarbeitet das Skalierungsfaktorband entsprechend der M/S-Stereoverarbeitung, die in der Codierungsvorrichtung vorgenommen wurde.
  • In dem Fall, wo eine Schätzung in der Codierungsvorrichtung vorgenommen wird, sucht der Vorhersageabschnitt 340 dieselben Werte wie die decodierten Daten in dem vorherigen Rahmen durch Schätzung in der gleichen Weise wie die Codierungsvorrichtung. Das vorhergesagte Signal wird einem Differenzsignal hinzugefügt, das durch den Bitstromanalyseabschnitt 300 decodiert wurde, wodurch die ursprünglichen Frequenzkomponenten wiederhergestellt werden.
  • Der Intensitätsstereoverarbeitungsabschnitt 350, der nur an die Stereosignale angepasst ist, verarbeitet das Skalierungsfaktorband entsprechend der Intensitätsstereoverarbeitung, die in der Codierungsvorrichtung vorgenommen wurde.
  • Der Zeitbereichs-Rauschformungsabschnitt 360, der zur Steuerung der zeitlichen Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters dient, nimmt eine entsprechende Verarbeitung vor.
  • Die decodierten Daten werden durch ein solches Verarbeitungsmodul wie ein herkömmlicher Audioalgorithmus, wie beispielsweise die AAC-Standards, als ein Signal einer zeitlichen Region wiederhergestellt. Zuerst stellt der Umkehrquantisierungsabschnitt 320 den decodierten Skalierungsfaktor und die quantisierten Daten in Signale mit den ursprünglichen Größenordnungen wieder her. Der Frequenz-Zeit-Abbildungsabschnitt 370 wandelt umkehrquantisierte Signale in Signale eines Zeitbereichs um, so dass sie reproduziert sind.
  • Es wird nun der Betrieb der Codierungsvorrichtung beschrieben.
  • Eingangs-Tonsignale werden in dem Zeit-Frequenz-Abbildungsabschnitt 100 mittels MDCT (Modified Discrete Cosine Transform = Modifizierte Diskrete Kosinustransformation) in Signale eines Frequenzbereichs konvertiert. Der psychoakustischen Abschnitt 110 koppelt die Frequenzsignale durch entsprechende Skalierungsfaktorbänder, um eine Maskierungsschwelle zu erhalten. Des Weiteren passieren die Tonsignale, die in Signale eines Frequenzbereichs konvertiert wurden, durch Module zum Verbessern der Codierungseffi zienz, das heißt, den ZRF-Abschnitt 120, den Intensitätsstereoverarbeitungsabschnitt 130, den Vorhersageabschnitt 140 und den M/S-Stereoverarbeitungsabschnitt 150, um dadurch effizienter komprimierte Signale zu werden.
  • Der Quantisierungsabschnitt 160 führt eine skalare Quantisierung aus, so dass die Größenordnung des Quantisierungsrauschens jedes Skalierungsfaktorbandes kleiner ist als die Maskierungsschwelle, die hörbar, aber innerhalb der zugewiesenen Bits nicht wahrnehmbar ist. Wenn eine Quantisierung, die diese Bedingungen erfüllt, ausgeführt wird, so werden Skalierungsfaktoren für die jeweiligen Skalierungsfaktorbänder und quantisierten Frequenzwerte erzeugt.
  • Allgemein können im Hinblick auf die menschliche Psychoakustik nahe beieinanderliegende Frequenzkomponenten bei einer niedrigeren Frequenz leichter wahrgenommen werden. Bei zunehmender Frequenz jedoch wird das Intervall der wahrnehmbaren Frequenzen breiter. Die Bandbreiten der Skalierungsfaktorbänder nehmen mit höher werdenden Frequenzbändern zu. Allerdings werden zur Vereinfachung der Codierung die Skalierungsfaktorbänder, deren Bandbreite nicht konstant ist, nicht zum Codieren verwendet, sondern statt dessen werden Codierungsbänder, deren Bandbreite konstant ist, verwendet. Die Codierungsbänder enthalten 32 quantisierte Frequenzkoeffizientenwerte.
  • Die herkömmliche Codierungs-/Decodierungsvorrichtung, bei der nur die Codierungseffizienz berücksichtigt wird, wie beispielsweise AAC, codiert bei der Verarbeitung von Stereosignalen zuerst die Informationen, die üblicherweise in dem linken und dem rechten Kanal verwendet werden, an einer Stelle im Kopf. Erst werden die Daten des linken Kanals codiert, und dann werden die Daten des rechten Kanals codiert. Das heißt, die Codierung schreitet in der Reihenfolge "Kopf", "linker Kanal" und "rechter Kanal" voran.
  • Wenn die Informationen für den linken und den rechten Kanal unabhängig von der Signifikanz auf diese Weise angeordnet und übertragen werden, nachdem der Kopf verarbeitet wurde, so verschwinden, wenn die Bitrate gesenkt wird, die Signale für den rechten Kanal, die am hinteren Ende angeordnet sind, zuerst. Das wahrnehmbare Absinken der Leistung wird somit schwerwiegend.
  • Die Stereotoncodierungsvorrichtung gemäß der vorliegenden Erfindung codiert hingegen Nebeninformationen für jeden Kanal. Oder anders ausgedrückt: Die Nebeninformationen für jeden Kanal werden durch den Abschnitt 170 für arithmetische Bitslicing-Codierung im Wechsel in der Reihenfolge des linken Kanals und des rechten Kanals codiert. Das Codierungsverfahren der Skalierungsfaktoren wird geringfügig modifiziert, um eine effizientere Komprimierung zu erreichen.
  • Zuerst wird Codierung der Skalierungsfaktoren beschrieben. Die Stereotoncodierungsvorrichtung gemäß der vorliegenden Erfindung codiert Skalierungsfaktoren unter Verwendung zweier Verfahren, die weiter unten beschrieben werden, für den Zweck der Verbesserung der Codierungseffizienz. Die Codierungsvorrichtung wählt ein Verfahren aus, das eine bessere Leistung aufweist, und übermittelt das ausgewählte Verfahren an die Decodierungsvorrichtung.
  • Um Skalierungsfaktoren zu komprimieren, ermittelt man zuerst den maximalen Skalierungsfaktor (max_scalefactor) aus den Skalierungsfaktoren. Dann werden Differenzen zwischen den jeweiligen Skalierungsfaktoren und dem maximalen Skalierungsfaktor ermittelt, woraufhin die Differenzen arithmetisch codiert werden. Bei der arithmetischen Codierung der Differenzen zwischen Skalierungsfaktoren kommen vier Modelle zum Einsatz. Die vier Modelle sind in den Tabellen 5.5 bis 5.8 gezeigt. Die Informationen für die Modelle sind in einem scalefactor_model gespeichert.
  • [Tabelle 5.5] Arithmetisches Skalierungsfaktor-Differentialmodell 1
    Figure 00210001
  • [Tabelle 5.6] Arithmetisches Skalierungsfaktor-Differentialmodell 2
    Figure 00210002
  • [Tabelle 5.7] Arithmetisches Skalierungsfaktor-Differentialmodell 3
    Figure 00210003
  • [Tabelle 5.8] Arithmetisches Skalierungsfaktor-Differentialmodell 4
    Figure 00210004
  • Als zweites wird, um Skalierungsfaktoren zu komprimieren, der maximale Skalierungsfaktor (max_scalefactor) aus den Skalierungsfaktoren ermittelt, wie in dem ersten Verfahren. Dann wird die Differenz zwischen den ersten Skalierungsfaktoren und dem maximalen Skalierungsfaktor ermittelt, woraufhin die Differenz arithmetisch codiert wird. Dann werden die Differenzen zwischen den übrigen Skalierungsfaktoren und den vorherigen Skalierungsfaktoren ermittelt, und die Differenzen werden arithmetisch codiert. In diesem Fall ist, weil die Modelle vorgeschrieben sind, der scalefactor_model-Wert ohne Bedeutung.
  • Als nächstes wird die Codierung von quantisierten Frequenzkomponenten für ein Stereosignal beschrieben. Die quantisierten Daten für jeden Kanal werden einem Bitslicing unterzogen. Wenn ein Monokanalsignal verarbeitet wird, so werden einem Bitslicing unterzogene Daten durch vierdimensionale Vektoren gekoppelt, und die vierdimensionalen Vektoren werden als eine Basiseinheit verwendet. Dies gilt auch für die Codierung eines Stereokanalsignals. Oder anders ausgedrückt: Die Codierung beginnt am MSB. Die vierdimensionalen Vektoren der einem Bitslicing unterzogenen Daten werden arithmetisch vom linken Kanal aus codiert. Als nächstes werden die vierdimensionalen Vektoren für den rechten Kanal auf der gleichen Frequenz arithmetisch codiert. Auf diese Weise werden der linke Kanal und der rechte Kanal verschachtelt, um codiert zu werden.
  • Im Fall eines einzelnen Kanals erfolgt die Codierung von den MSB zu den LSB hin. Die einem Bitslicing unterzogenen Daten mit der gleichen Signifikanz werden von den niederfrequenten Komponenten zu den höherfrequenten Komponenten hin codiert. Zu diesem Zeitpunkt ist es, wenn die den jeweiligen Vektoren zugewiesenen Bits signifikanter sind als jene, die augenblicklich codiert werden, nicht erforderlich, den betreffenden Vektor zu codieren, und seine Codierung wird übersprungen.
    XQ0, XQ1, XQ2, ..., XQk, ...
    wobei Xqk einem Bitslicing unterzogene Daten der quantisierten Frequenzkomponenten von 4·k bis 4·k + 3 sind.
  • Im Fall von zwei Kanälen erfolgt die Codierung von den MSB zu den LSB, wie im Fall eines einzelnen Kanals. Analog werden die einem Bitslicing unterzogenen Daten mit der gleichen Signifikanz von den niederfrequenten Komponenten zu den höherfrequenten Komponenten hin codiert. Jedoch wird unter Beachtung der Tatsache, dass es zwei Kanäle gibt, über die Codierungsreihenfolge entschieden. Es wird davon ausgegangen, dass die quantisierten Frequenzkomponenten im linken und im rechten Kanal folgende sind:
    Linker Kanal: XQL0, XQL1, XQL2, XQL3, XQL4, XQL5, ..., XQLk, ...
    Rechter Kanal: XQR0, XQR1, XQR2, XQL3, XQL4, XQL5, ..., XQRk, ...
    wobei XQLk und XQLRk einem Bitslicing unterzogene Daten der quantisierten Frequenzkomponenten von 4·k bis (4·k + 3) sind.
  • Auf diese Weise erfolgt im Fall von zwei Kanälen die Codierung von den niederfrequenten Komponenten hin zu den höherfrequenten Komponenten in einer ähnlichen Reihenfolge wie im Fall von einem einzelnen Kanal. Es wird jedoch eine Verschachtelung zwischen Kanalkomponenten vorgenommen, um signifikante Komponenten zuerst zu codieren. Oder anders ausgedrückt: Die jeweiligen Vektoren werden im Wechsel zwischen zwei Kanälen wie folgt codiert:
    XQL1, XQR1, XQL2, XQR2, ...
  • Da die auf diese Weise gebildeten Informationen nacheinander in der Reihenfolge der Signifikanz in beiden Kanälen codiert werden, wird trotz einer Verringerung der Bitrate bei einem skalierbaren Audio-Codec die Leistung nicht wesentlich beeinträchtigt.
  • Es wird nun eine bevorzugte Ausführungsform der vorliegenden Erfindung beschrieben. Die vorliegende Erfindung kann auf die Grundstruktur der AAC-Standards angewendet werden, einschließlich aller Module, wie beispielsweise zusätzlicher Module zum Verbessern der Codierungseffizienz, und implementiert einen skalierbaren digitalen Tondatencodierer. Oder anders ausgedrückt: Obgleich bei der vorliegenden Erfindung die Basismodule benutzt werden, die bei der Codierung/Decodierung gemäß dem AAC-Standard verwendet werden, werden nur die verlustfreien Codierungsmodule durch das Bitslicing-Codierungsverfahren ersetzt, um eine skalierbare Codierungsvorrichtung zu erhalten. Bei der vorliegenden Erfindung werden Informationen für nur eine einzige Bitrate nicht innerhalb eines einzelnen Bitstromes codiert, sondern es werden Informationen für die Bitraten verschiedener Erweiterungsschichten innerhalb eines Bitstromes mit einem geschichteten Aufbau, wie in 2 gezeigt, in der Reihenfolge, die von den wichtigeren Signalkomponenten zu den weniger wichtigen Signalkomponenten reicht, codiert.
  • Gemäß der Ausführungsform der vorliegenden Erfindung werden die gleichen Module wie bei den AAC-Standards bis zu dem Moment verwendet, wo die verlustfreie Codierung des skalierbaren BSAC-Codecs beginnt. Wenn also die quantisierten Frequenzdaten durch Decodierung der AAC-Bitströme gebildet werden, so können die decodierten Daten zu den skalierbaren BSAC-Bitströmen wiederhergestellt werden. Das bedeutet, dass eine verlustfreie Transcodierung zwischen den AAC-Bitströmen und den skalierbaren BSAC-Bitströmen möglich ist. Schließlich wird je nach den Umgebungen oder Umständen eine gegenseitige Umwandlung in ein entsprechendes Bitstromfor mat gestattet. Somit kann sowohl die Forderung nach Codierungseffizienz als auch nach Skalierbarkeit erfüllt werden, und beides ist komplementär zueinander, was den Unterschied zu anderen skalierbaren Codecs ausmacht.
  • Unter Verwendung der auf diese Weise gebildeten Bitströme können Bitströme mit einer geringen Bitrate gebildet werden, indem einfach die Bitströme mit geringer Bitrate, die im höchsten Bitstrom enthalten sind, durch Benutzeranforderung oder entsprechend dem Status der Übertragungskanäle umgeordnet werden. Oder anders ausgedrückt: Bitströme, die durch eine Codierungsvorrichtung in Echtzeit gebildet wurden, oder Bitströme, die auf einem Medium gespeichert sind, können durch Benutzeranforderung so umgeordnet werden, dass sie für eine gewünschte Bitrate geeignet sind, um dann gesendet zu werden. Wenn die Leistung der Hardware des Benutzers gering ist oder wenn der Benutzer die Komplexität des Decodierers verringern will, so brauchen überdies selbst bei geeigneten Bitströmen nur einige Bitströme wiederhergestellt zu werden, wodurch die Komplexität unter Kontrolle gehalten wird.
  • Zum Beispiel beträgt beim Bilden eines skalierbaren Bitstromes die Bitrate einer Basisschicht 16 Kbps, die einer obersten Schicht beträgt 64 Kbps, und die jeweiligen Erweiterungsschichten haben ein Bitratenintervall von 8 Kbps, das heißt, der Bitstrom hat 7 Schichten mit 16, 24, 32, 40, 48, 56 und 64 Kbps. Die jeweiligen Erweiterungsschichten sind so definiert, wie es in Tabelle 2.1 gezeigt ist. Da der durch die Codierungsvorrichtung gebildete Bitstrom einen geschichteten Aufbau hat, wie in 3 gezeigt, enthält der Bitstrom der obersten Schicht mit 64 Kbps die Bitströme der jeweiligen Erweiterungsschichten (16, 24, 32, 40, 48, 56 und 64 Kbps). Wenn ein Benutzer Daten für die oberste Schicht anfordert, so wird der Bitstrom für die oberste Schicht ohne jegliche Verarbeitung gesendet. Des Weiteren wird, wenn ein anderer Benutzer Daten für die Basisschicht anfordert (was 16 Kbps entspricht), so werden einfach nur die Anfangs-Bitströme gesendet.
  • [Tabelle 2.1] Bitrate für jede Schicht (8 kbps-Intervall)
    Figure 00260001
  • Alternativ können die Erweiterungsschichten auch in kleineren Intervallen aufgebaut sein. Die Bitrate einer Basisschicht ist 16 Kbps, die einer obersten Schicht ist 64 Kbps, und jede Erweiterungsschicht hat ein Bitraten-Intervall von 1 Kbps. Die jeweiligen Erweiterungsschichten sind so aufgebaut, wie in Tabelle 3.1 gezeigt. Dadurch kann eine Skalierbarkeit mit hoher Auflösung implementiert werden, das heißt, es werden skalierbare Bitströme mit einem Bitraten-Intervall von 1 kbps von 16 kbps bis 64 kbps gebildet.
  • [Tabelle 3.1] Bitrate für jede Schicht (1-kbps-Intervall)
    Figure 00260002
  • Figure 00270001
  • Die jeweiligen Schichten haben begrenzte Bandbreiten entsprechend den Bitraten. Wenn eine Skalierbarkeit mit 8 kbps-Intervallen beabsichtigt ist, so sind die Bandbreiten so begrenzt, wie es in den Tabellen 2.2 und 2.3 gezeigt ist. Im Fall eines 1-kbps-Intervalls sind die Bandbreiten so begrenzt, wie es in den Tabellen 3.2 und 3.3 gezeigt ist.
  • [Tabelle 2.2] Bandgrenze in jeder Schicht für kurze Fenster (8-kbps-Intervall)
    Figure 00270002
  • [Tabelle 2.3] Bandgrenze in jeder Schicht für lange Fenster (8-kbps-Intervall)
    Figure 00270003
  • [Tabelle 3.2] Bandgrenze in jeder Schicht für kurze Fenster (1-kbps-Intervall)
    Figure 00280001
  • [Tabelle 3.3] Bandgrenze in jeder Schicht für lange Fenster (1-kbps-Intervall)
    Figure 00280002
  • Figure 00290001
  • Die Eingangsdaten sind PCM-Daten mit einer Abtastrate von 48 KHz, und die Größenordnung eines einzelnen Rahmens ist 1024. Die Anzahl der Bits, die für einen einzelnen Rahmen für eine Bitrate von 64 Kbps verwendet werden kann, beträgt im Durchschnitt 1365,3333 (= 64000 Bits/s·(1024/48000)). Gleichermaßen kann die Größe der verfügbaren Bits für einen einzelnen Rahmen entsprechend den jeweiligen Bitraten berechnet werden. Die berechneten Anzahlen der verfügbaren Bits für einen einzelnen Rahmen sind in Tabelle 2.4 im Fall von 8 kbps gezeigt.
  • [Tabelle 2.4] Verfügbare Bits für jeden Kanal in jeder Schicht (8-kbps-Intervall)
    Figure 00290002
  • Es wird nun das Stereotonsignalcodierungs- und -decodierungsverfahren gemäß der vorliegenden Erfindung näher beschrieben.
  • 1. Codierungsverfahren
  • Das gesamte Codierungsverfahren ist das gleiche wie das, das in den internationalen MPEG-2-AAC-Standards beschrieben ist, und die Bitslicing-Codierung, die in der vorliegenden Erfindung vorgeschlagen wird, wird als eine verlustfreie Codierung angewendet.
  • 1.1. Psychoakustischer Abschnitt
  • Unter Verwendung eines psychoakustischen Modells werden zuerst der Blocktyp eines Rahmens, der momentan verarbeitet wird (lang, Start, kurz oder Stopp), die SMR-Werte der jeweiligen Verarbeitungsbänder, Gruppeninformationen eines kurzen Blocks und zeitlich verzögerte PCM-Daten für eine Zeit-Frequenzsynchronisation mit dem psychoakustischen Modell aus Eingangsdaten erzeugt und an einen Zeit-Frequenz-Abbildungsabschnitt übermittelt. Es wird das ISO/IEC 11172-3-Modell 2 zur Berechnung des psychoakustischen Modells verwendet [MPEG Committee ISO/IEC/JTC1/SC29/WG11, Information Technology, Coding of moving pictures and associated Audio for data storage media to about 1.5 Mbit/s, Teil 3: Audio, ISO/OEC IS 11172-3, 1993]. Dieses Modul muss unbedingt in dieser Ausführungsform verwendet werden, aber es können entsprechend den Benutzern verschiedene Modelle verwendet werden.
  • 1.2. Zeit-Frequenz-Abbildungsabschnitt
  • Es kommt eine Zeit-Frequenz-Abbildung zum Einsatz, wie sie in den internationalen MPEG-2-AAC-Standards definiert ist. Der Zeit-Frequenz-Abbildungsabschnitt konvertiert Daten eines Zeitbereichs in Daten eines Frequenzbereichs unter Verwendung von MDCT entsprechend dem Blocktyp-Ausgangssignal unter Verwendung des psychoakustischen Modells. Zu diesem Zeitpunkt betragen die Blockgrößen 2048 und 256 im Fall von langen/Start-/Stopp-Blöcken bzw. im Fall eines kurzen Blocks, und MDCT wird 8 Mal ausgeführt. Dann werden die Fenstertyp- und Fenstergruppierungsinformationen an den Bitstrombildungsabschnitt 180 übertragen. Bisher wurde das gleiche Verfahren verwendet wie das, das beim herkömmlichen MPEG-2-AAC verwendet wird [MPEG Committee ISO/IEC/JTC1/SC29/WG11, ISO/IEC MPEG-2 AAC IS 13818-7, 1997].
  • 1.3. Abschnitt für zeitliche Rauschformung (ZRF)
  • Es wird ein Abschnitt für zeitliche Rauschformung verwendet, wie er in den internationalen MPEG-2-AAC-Standards definiert ist. Der ZRF 120 ist eine optionales Modul und steuert die zeitliche Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters. Die zeitliche Rauschformung kann durch das Filtern von Frequenzdaten erfolgen. Der ZRF 120 sendet die ZRF-Informationen an den Bitstrombildungsabschnitt 180.
  • 1.4. Intensitätsstereoverarbeitungsabschnitt
  • Es wird ein Intensitätsstereoverarbeitungsabschnitt verwendet, wie er in den internationalen MPEG-2-AAC-Standards definiert ist. Der Intensitätsstereoverarbeitungsabschnitt 130 ist eines der Verfahren zum effizienteren Verarbeiten von Stereosignalen. Die Intensitätsstereoverarbeitung erfolgt so, dass nur die quantisierten Informationen eines Skalierungsfaktorbandes für einen von zwei Kanälen codiert werden und nur der Skalierungsfaktor für den anderen Kanal übertragen wird. Dieses Modul ist ein optionales Modul, und es wird unter Beachtung verschiedener Umstände festgelegt, ob dieses Modul für jedes Skalierungsfaktorband verwendet wird oder nicht. Das Intensitätsstereoverarbeitungsmodul 130 sendet Intensitätsstereomarkierungswerte an den Bitstrombildungsabschnitt 180.
  • 1.5. Vorhersageabschnitt
  • Es wird ein Vorhersageabschnitt verwendet, wie er in den internationalen MPEG-2-AAC-Standards definiert ist. Der Vorhersageabschnitt 140 ist ein optionales Modul und sagt Frequenzkoeffizienten des momentanen Rahmens vorher. Des Weiteren sendet der Vorhersageabschnitt 140 die Parameter, die mit Vorhersagen zusammenhängen, an den Bitstrombildungsabschnitt 180.
  • 1.6. Mitte-/Seite(M/S)-Stereoverarbeitungsabschnitt
  • Es wird ein M/S-Stereoverarbeitungsabschnitt verwendet, wie er in den internationalen MPEG-2-AAC-Standards definiert ist. Der M/S-Stereoverarbeitungsabschnitt 150 ist ein optionales Modul und ist eines der Verfahren zum effizienteren Verarbeiten von Stereosignalen. Die M/S-Stereoverarbeitung erfolgt zum Konvertieren eines Signals des linken Kanals und eines Signals des rechten Kanals in ein additives Signal aus zwei Signalen und eines subtraktiven Signals davon.
  • 1.7. Quantisierungsabschnitt
  • Die Daten, die zu denen eines Frequenzbereichs konvertiert wurden, werden mit zunehmenden Skalierungsfaktoren so quantisiert, dass der SNR-Wert des Skalierungsfaktorbandes, der in den Tabellen 1.1 und 1.2 gezeigt ist, kleiner ist als der SMR des Ausgangswertes des psychoakustischen Modells. Hier wird eine skalare Quantisierung vorgenommen, und das Basisskalierungsfaktorintervall ist 21/4. Die Quantisierung erfolgt so, dass das wahrnehmbar Rauschen minimiert wird. Das genaue Quantisierungsverfahren ist im MPEG-2-AAC beschrieben. Hier besteht das erhaltene Ausgangssignal aus quantisierten Daten und Skalierungsfaktoren für die jeweiligen Skalierungsfaktorbänder.
  • [Tabelle 1.1] Skalierungsfaktorband für lange Blöcke
    Figure 00320001
  • Figure 00330001
  • [Tabelle 1.2] Skalierungsfaktorband für kurze Blöcke
    Figure 00330002
  • 1.8. Bitverdichtung unter Verwendung arithmetischer Bitslicing-Codierung
  • Die Bitverdichtung erfolgt durch den Abschnitt 170 für arithmetische Bitslicing-Codierung und den Bitstrombildungsabschnitt 180. Für eine zweckmäßige Codierung werden Frequenzkomponenten umgeordnet. Die Umordnungsreihenfolge ist je nach Blocktypen unterschiedlich. Wenn ein langes Fenster in dem Blocktyp verwendet wird, so werden die Frequenzkomponenten in der Reihenfolge der Skalierungsfaktorbänder umgeordnet, wie in 4 gezeigt. Wenn ein kurzes Fenster in dem Blocktyp verwendet wird, so werden jeweils vier Frequenzkomponenten aus acht Blöcken wiederholt in ansteigender Reihenfolge umgeordnet, wie in 5 gezeigt.
  • Die umgeordneten quantisierten Daten und Skalierungsfaktoren werden als geschichtete Bitströme gebildet. Die Bitströme werden durch Syntaxen gebildet, wie in den Tabellen 7.1 bis 7.13 gezeigt. Die Anfangselemente eines Bitstromes sind Elemente, die üblicherweise beim herkömmlichen AAC verwendet werden können, und die Elemente, die durch die vorliegende Erfindung neu vorgeschlagen werden, werden speziell erläutert. Der prinzipielle Aufbau ähnelt jedoch dem der AAC-Standards.
  • [Tabelle 7.1] Syntax des bsac_1step_data_block ()
    Figure 00340001
  • [Tabelle 7.2] Syntax des bsac_lstep_stream ()
    Figure 00340002
  • Figure 00350001
  • [Tabelle 7.3] Syntax des bsac_raw_data_block ()
    Figure 00350002
  • [Tabelle 7.4] Syntax des bsac_main_stream ()
    Figure 00350003
  • Figure 00360001
  • [Tabelle 7.5] Syntax des bsac_single_main_stream ()
    Figure 00360002
  • [Tabelle 7.6] Syntax des bsac_pair_main_stream ()
    Figure 00360003
  • [Tabelle 7.7] Syntax des bsac_layer_stream ()
    Figure 00360004
  • Figure 00370001
  • [Tabelle 7.8] Syntax des bsac_channel_stream ()
    Figure 00370002
  • [Tabelle 7.9] Syntax des bsac_general_info ()
    Figure 00380001
  • [Tabelle 7.10] Syntax des bsac_side_info ()
    Figure 00390001
  • Figure 00400001
  • [Tabelle 7.11] Syntax der bsac_spectral_data ()
    Figure 00410001
  • Die Elemente, die durch die vorliegende Erfindung neu vorgeschlagen werden, werden speziell erläutert.
  • 1.8.1. Codierung des bsac_channel_stream
  • "common_window" stellt dar, ob zwei Kanäle den gleichen Formatblock verwenden. "ax_scalefactor[ch]" stellt den maximalen Wert der Skalierungsfaktoren dar, bei dem es sich um eine ganze Zahl handelt, zum Beispiel 8 Bits. Des Weiteren stellt "tns_data_present[ch]" dar, ob ZRF in der Codierungsvorrichtung verwendet wird oder nicht. "gain_control_data_present[ch]" stellt eine Markierung dar, die anzeigt, dass das Zeit-Frequenz-Abbildungsverfahren verwendet wird, um eine skalierbare Abtastrate (Scalable Sampling Rate – SSR) im AAC zu unterstützen. Des Weiteren stellt "stereo_mode" eine 2-Bit-Markierung dar, die ein Stereosignalverarbeitungsverfahren anzeigt, in dem "00" unabhängig bedeutet, "01" bedeutet, dass alle ms_used Einsen sind, "10" bedeutet, dass sich die 1 Bit-Maske von max_sfb-Bändern von ms_used im Nebeninformations-Teil der Schicht befindet, "11" bedeutet, dass sich die 2-Bit-Maske von max_sfb-Bändern von stereo_info im Nebeninformations-Teil der Schicht befindet.
  • 1.8.2. Codierung von bsac_data
  • "frame_length" stellt die Größe aller Bitströme für einen einzelnen Rahmen dar, die in Einheiten von Bytes ausgedrückt wird, zum Beispiel 9 Bits im Fall eines Monosignals (MS) und 10 Bits im Fall eines Stereosignals. Des Weiteren stellt "encoded_layer" die Codierung für die in dem Bitstrom codierte oberste Schicht dar, die im Fall eines 8-kbps-Intervalls 3 Bits ist und im Fall eines 1-kbps-Intervalls 6 Bits ist. Die Informationen für die Erweiterungsschichten sind in den Tabellen 2.1 und 3.1 gezeigt. Des Weiteren stellt "scalefactor-model [ch]" Informationen bezüglich Modellen dar, die zur arithmetischen Codierung von Differenzen in Skalierungsfaktoren zu verwenden sind. Diese Modelle sind in Tabelle 4.2 gezeigt.
  • [Tabelle 4.2] Arithmetisches Model des Differentialskalierungsfaktors
    Figure 00430001
  • "min_ArModel" stellt den kleinsten Wert der Indizes von Modellen zur arithmetischen Codierung dar. "ArModel_model" stellt Informationen bezüglich der Modelle dar, die zur arithmetischen Codierung des Differenzsignals zwischen ArModel und min_ArModel verwendet werden. Dieses Informationen sind in Tabelle 4.3 gezeigt.
  • [Tabelle 4.3] Arithmetisches Model des Differential-ArModel
    Figure 00430002
  • 1.8.3. Codierung von bsac_side_info
  • Zuerst werden die Informationen codiert, die für alle Schichten verwendet werden können, und dann werden die Nebeninformationen codiert, die üblicherweise für die jeweiligen Erweiterungsschichten werden. "acode_ms_used [g][sfb]" stellt ein Codewort dar, das durch arithmetische Codierung von ms_used erhalten wurde, d. h. eine 1-Bit-Markierung, die anzeigt, ob in der Fenstergruppe g und dem Skalierungsfaktorband scf eine M/S-Codierung erfolgt oder nicht, wobei ms_used folgendermaßen definiert ist:
    0: Independent
    1: ms_used.
  • "acode_ms_used [g][sfb]" stellt ein Codewort dar, das durch arithmetische Codierung von ms_used erhalten wurde, d. h. eine 1-Bit-Markierung, die anzeigt, ob in der Fenstergruppe g und dem Skalierungsfaktorband scf eine M/S-Codierung verwendet wird oder nicht, wobei ms_used folgendermaßen definiert ist:
    0: Independent; und
    1: ms_used.
  • "acode_stereo_info [g][sfb]" stellt ein Codewort dar, das durch arithmetische Codierung von ms_used erhalten wurde, d. h. eine 2-Bit-Markierung, die anzeigt, ob eine Intensitätsstereocodierung in der Fenstergruppe g und dem Skalierungsfaktorband scf verwendet wird oder nicht, wobei stereo_info folgendermaßen definiert ist:
    00: Independent;
    01: ms_used;
    10: Intensity_in_phase; und
    11: Intensity_out_of_phase.
  • "Acode_scf" stellt ein Codewort dar, das durch arithmetische Codierung des Skalierungsfaktors erhalten wurde, und "acode_ArModel" stellt ein Codewort dar, das durch arithmetische Codierung des ArModel erhalten wurde. Bei ArModel handelt es sich um Informationen, auf deren Grundlage eine Auswahl unter den Modellen, die in Tabelle 4.3 angeführt sind, getroffen wird.
  • 1.8.4. Codierung von bsac_spectral_data
  • Die Nebeninformationen, die üblicherweise für die jeweiligen Erweiterungsschichten verwendet werden, und die quantisierten Frequenzkomponenten werden unter Verwendung der BSAC-Technik einem Bitslicing unterzogen und dann arithmetisch codiert. "acode_vec0" stellt ein Codewort dar, das durch arithmetische Codierung des ersten Teilvektors (Teilvektor 0) unter Verwendung des arithmetischen Modells, das als der ArModel-Wert definiert ist, erhalten wird. "acode_vec1" stellt ein Codewort dar, das durch arithmetische Codierung des zweiten Teilvektors (Teilvektor 1) unter Verwendung des arithmetischen Modells, das als der ArModel-Wert definiert ist, erhalten wird. "acode_sign" stellt ein Codewort dar, das durch arithmetische Codierung des Vorzeichen-Bit unter Verwendung des arithmetischen Modell, das in Tabelle 5.15 definiert ist, erhalten wird.
  • [Tabelle 5.15] Arithmetisches Modell des Vorzeichens
    Figure 00450001
  • Während die Anzahl der Bits, die zum Codieren der jeweiligen Teilvektoren verwendet werden, berechnet und mit der Anzahl der verfügbaren Bits für die jeweiligen Erweiterungsschichten verglichen wird, wird – wenn die Zahl der verwendeten Bits mindestens so groß ist wie die Zahl der verfügbaren Bits – die Codierung der nächsten Erweiterungsschicht neu begonnen.
  • Im Fall eines langen Blocks ist die Bandbreite der Basisschicht bis zum 21. Skalierungsfaktorband begrenzt. Dann werden die Skalierungsfaktoren bis zum 21. Skalierungsfak torband und die Modelle für arithmetische Codierung der entsprechenden Codierungsbänder codiert. Die Bitzuweisungsinformationen werden anhand der Modelle für arithmetische Codierung ermittelt. Der maximale Wert der zugewiesenen Bits wird anhand der Bitinformationen ermittelt, die jedem Codierungsband zugewiesen sind, und die Codierung erfolgt anhand des maximalen Quantisierungsbitwertes mittels des oben erwähnten Codierungsverfahrens. Dann werden die nächsten quantisierten Bits nacheinander codiert. Wenn zugewiesene Bits eines bestimmten Band weniger sind als die des momentan codierten Bandes, so erfolgt keine Codierung. Wenn zugewiesene Bits eines bestimmten Bandes die gleichen sind wie die des momentan codierten Bandes, so wird das Band zum ersten Mal codiert. Da die Bitrate der Basisschicht 16 Kbps beträgt, beträgt die Gesamtbitzulässigkeit 336 Bits. Somit wird die Menge der insgesamt verwendeten Bits kontinuierlich berechnet, und die Codierung wird in dem Moment beendet, wo die Bit-Menge 336 übersteigt.
  • Nachdem alle Bitströme für die Basisschicht (16 Kbps) gebildet wurden, werden die Bitströme für die nächste Erweiterungsschicht gebildet. Da die begrenzten Bandbreiten für die höheren Schichten erweitert werden, erfolgt die Codierung von Skalierungsfaktoren und Modellen zur arithmetischen Codierung nur für die neu hinzugefügten Bänder zu den begrenzten Bändern für die Basisschicht. In der Basisschicht werden einem Bitslicing unterzogene uncodierte Daten für jedes Band und die einem Bitslicing unterzogenen Daten eines neu hinzugefügten Bandes aus den MSBs in der gleichen Weise wie in der Basisschicht codiert. Wenn die Menge der insgesamt verwendeten Bits größer ist als die verfügbare Bit-Menge, so wird die Codierung beendet, und es wird mit der Vorbereitung zum Bilden der nächsten Erweiterungsschicht-Bitströme begonnen. Auf diese Weise können Bitströme für die übrigen Schichten mit 32, 40, 48, 56 und 64 Kbps erzeugt werden.
  • 2. Decodierungsverfahren
  • 2.1. Analyse und Decodierung von Bitströmen
  • 2.1.1. Decodierung des bsac_channel_stream
  • Die Decodierung des bsac_channel_stream geschieht in der folgenden Reihenfolge: Zuerst wird der max_scalefactor ermittelt. Dann wird ics_info () ermittelt. Wenn ZRF-Daten vorliegen, werden ZRF-Daten ermittelt. Wenn es zwei Kanäle gibt, wird stereo_mode ermittelt, und dann werden BSAC-Daten ermittelt.
  • 2.1.2. Decodierung von bsac_data
  • Die Nebeninformationen, die zur Decodierung von frame_length, encoded_layer, Skalierungsfaktormodellen und arithmetischen Modellen benötigt werden, werden in dem Bitstrom decodiert.
  • 2.1.3. Decodierung des bsac_stream
  • Die BSAC-Ströme haben einen geschichteten Aufbau. Zuerst werden die Nebeninformationen für die Basisschicht von dem Bitstrom getrennt und dann arithmetisch decodiert. Dann werden die einem Bitslicing unterzogenen Informationen für die quantisierten Frequenzkomponenten von dem Bitstrom getrennt und dann arithmetisch decodiert. Dann werden die Nebeninformationen für die nächste Erweiterungsschicht decodiert, und die einem Bitslicing unterzogenen Informationen für die quantisierten Frequenzkomponenten werden arithmetisch decodiert.
  • Die Decodierung von Nebeninformationen für die jeweiligen Erweiterungsschichten und die Decodierung von einem Bitslicing unterzogenen Daten werden wiederholt ausgeführt, bis die Erweiterungsschicht größer ist als die codierte Schicht.
  • 2.1.4. Decodierung von stereo_info oder ms_used
  • Die Decodierung von stereo_info oder ms_used wird durch stereo_mode, das eine Stereo-Maske darstellt, beeinflusst. Wenn der stereo_mode 0 oder 1 ist, so ist die Decodierung von stereo_info oder ms_used nicht erforderlich.
  • Wenn der stereo_mode 1 ist, so sind alle ms_used gleich 1. Die Informationen für die ms_used werden zu dem M/S-Stereoverarbeitungsabschnitt übertragen, so dass eine M/S-Stereoverarbeitung erfolgt. Wenn der stereo_mode 2 ist, so wird der Wert der ms_used unter Verwendung des in Tabelle 5.13 gezeigten Modells arithmetisch decodiert. Des Weiteren werden die Informationen für die ms_used zu dem M/S-Stereoverarbeitungsabschnitt übertragen, so dass eine M/S-Stereoverarbeitung erfolgt.
  • [Tabelle 5.13] ms_used-Modell
    Figure 00480001
  • Wenn der stereo_mode 3 ist, so werden die stereo_info unter Verwendung des in Tabelle 5.14 gezeigten Modells arithmetisch decodiert. Die decodierten Daten werden zu dem M/S-Stereoverarbeitungsabschnitt oder den Intensitätsstereoverarbeitungsabschnitt übertragen, so dass eine M/S-Stereoverarbeitung oder eine Intensitätsstereoverarbeitung in Einheiten von Skalierungsfaktorbändern erfolgt, wie im AAC beschrieben.
  • [Tabelle 5.14] stereo_info-Modell
    Figure 00480002
  • Figure 00490001
  • 2.1.5. Decodierung der bsac_side_info
  • Die skalierbaren Bitströme, die in dem oben Dargelegten gebildet wurden, haben einen geschichteten Aufbau. Zuerst werden die Nebeninformationen für die Basisschicht von dem Bitstrom getrennt und dann decodiert. Dann werden die einem Bitslicing unterzogenen Informationen für die quantisierten Frequenzkomponenten, die in dem Bitstrom der Basisschicht enthalten sind, von dem Bitstrom getrennt und dann decodiert. Das gleiche Decodierungsverfahren wie das für die Basisschicht wird auch auf die anderen Erweiterungsschichten angewendet.
  • 2.1.5.1. Decodierung von Skalierungsfaktoren
  • Die Frequenzkomponenten werden in Skalierungsfaktorbänder mit Frequenzkoeffizienten, die Vielfache von 4 sind, unterteilt. Jedes Skalierungsfaktorband hat einen Skalierungsfaktor. Es gibt zwei Verfahren zur Decodierung von Skalierungsfaktoren. Das zu verwendende Verfahren ist aus dem scf_coding-Wert zu erkennen.
  • Zuerst wird der max_scalefactor zu einer ganzen 8-Bit-Zahl ohne Vorzeichen decodiert. Allgemein werden während der Codierung Werte, die durch das Abbilden von Differenzen erhalten werden, codiert. Somit werden für die jeweiligen Skalierungsfaktorbänder die abgebildeten Werte unter Verwendung von Modellen, die in Tabelle 5.2 gezeigt sind, arithmetisch decodiert. Zu diesem Zeitpunkt wird – wenn der arithmetisch decodierte Wert 54 beträgt, was bedeutet, dass der abgebildete Wert mindestens 54 beträgt, da die Differenz zwischen 54 und dem abgebildeten Wert erneut codiert wird – die codierte Differenz erneut decodiert, um zu einem Wert von mindestens 54 wiederhergestellt zu werden. Wenn die Decodierung der abgebildeten Werte vollendet ist, so werden die abgebildeten Werte durch ein Differenzsignal invers abgebildet. Das Abbilden und das inverse Abbilden erfolgen unter Verwendung von Abbildungstabellen, wie sie in den Tabellen 5.1 und 5.2 zu sehen sind. Der erste Skalierungsfaktor kann unter Verwendung des Differenzsignals zwischen max_scalefactor und sich selbst ermittelt werden.
  • [Tabelle 5.1] Differentialskalierungsfaktor-zu-Index-Übergangstabelle
    Figure 00500001
  • [Tabelle 5.2] Index-zu-Differentialskalierungsfaktor-Übergangstabelle
    Figure 00500002
  • Figure 00510001
  • Als zweites wird der max_scalefactor zu einer ganzen 8-Bit-Zahl ohne Vorzeichen decodiert. Für alle Skalierungsfaktoren werden die Differenzen zwischen einem Verschiebungswert, d. h. dem max_scalefactor und alle Skalierungsfaktoren, arithmetisch decodiert. Die Skalierungsfaktoren können durch Subtrahieren der Differenzsignale vom max_scalefactor ermittelt werden. Die arithmetischen Modelle, die zum Decodieren der Differenzen verwendet werden, sind eines der Elemente, welche die Bitströme bilden, und werden von den Bitströmen getrennt, die bereits decodiert wurden.
  • Der folgenden Pseudocode beschreibt das Decodierungsverfahren für die Skalierungsfaktoren in der Basisschicht und die anderen Erweiterungsschichten.
  • Figure 00510002
  • Figure 00520001
  • Hier ist layer_sfb[layer] ein Startskalierungsfaktorband zum Decodieren von Skalierungsfaktoren in den jeweiligen Erweiterungsschichten, und layer_sfb[layer+1] ist ein Endskalierungsfaktorband.
  • 2.1.5.2. Decodierung des Index' des arithmetischen Modells
  • Die Frequenzkomponenten werden in Codierungsbänder mit 32 Frequenzkoeffizienten unterteilt, um verlustfrei codiert zu werden. Das Codierungsband ist eine Basiseinheit, die bei der verlustfreien Codierung verwendet wird.
  • Bei dem Index von Modellen zur arithmetischen Codierung handelt es sich um Informationen zu den Modellen, die zum arithmetischen Codieren und Decodieren der einem Bitslicing unterzogenen Daten jedes Codierungsbandes verwendet werden und die anzeigen, welches von den in Tabelle 4.4 gezeigten Modellen in den arithmetischen Codierungs- und Decodierungsverfahren verwendet werden.
  • [Tabelle 4.4] Parameter des arithmetischen BSAC-Modells
    Figure 00530001
  • Es werden Differenzen zwischen einem Verschiebungswert und allen Indizes von Modellen zur arithmetischen Codierung berechnet, und dann werden Differenzsignale unter Verwendung der in Tabelle 4.3 gezeigten Modelle arithmetisch codiert. Hier ist unter vier in Tabelle 4.3 gezeigten Modellen das zu verwendende Modell durch den Wert von ArModel_model angegeben und wird in dem Bitstrom als 2 Bits gespeichert. Der Verschiebungswert ist ein 5-Bit-min_ArModel-Wert, der in dem Bitstrom gespeichert ist. Die Differenzsignale werden in der umgekehrten Reihenfolge des Codierungsverfahrens decodiert, und dann werden die Differenzsignale dem Verschiebungswert hinzugefügt, um die Indizes von Modellen zur arithmetischen Codierung wiederherzustellen.
  • Der folgende Pseudocode beschreibt das Decodierungsverfahren für die Indizes von Modellen zur arithmetischen Codierung und ArModel[cband] in den jeweiligen Erweiterungsschichten.
  • Figure 00540001
  • Hier ist layer_sfb[layer] ein Startskalierungsfaktorband zum Decodieren von Indizes von Modellen zur arithmetischen Codierung in den jeweiligen Erweiterungsschichten, und layer_sfb[layer+1] ist ein Endskalierungsfaktorband. decode_cband[ch][g][cband] ist eine Markierung, die anzeigt, ob ein arithmetisches Codierungsmodell decodiert wurde (1) oder nicht decodiert (0) wurde.
  • 2.1.6. Decodierung von einem Bitslicing unterzogenen Daten
  • Die quantisierten Sequenzen werden als einem Bitslicing unterzogene Sequenzen gebildet. Die jeweiligen vierdimensionalen Vektoren werden entsprechend ihrem Status in zwei Teilvektoren unterteilt. Für eine effektive Komprimierung werden die zwei Teilvektoren als eine verlustfreies Codierung arithmetisch codiert. Es wird über das Modell entschieden, das zur arithmetischen Codierung für jedes Codie rungsband verwendet werden soll. Diese Informationen werden im ArModel gespeichert.
  • Wie in den Tabellen 6.1 bis 6.31 gezeigt, setzen sich die jeweiligen arithmetischen Codierungsmodelle aus mehreren Modellen niederer Ordnung zusammen. Die Teilvektoren werden unter Verwendung eines der Modelle niederer Ordnung codiert. Die Modelle niederer Ordnung werden entsprechend der Dimension des zu codierenden Teilvektors, der Signifikanz eines Vektors oder den Codierungszuständen der jeweiligen Abtastungen klassifiziert. Die Signifikanz eines Vektors wird anhand der Bitposition des zu codierenden Vektors entschieden. Oder anders ausgedrückt: Je nachdem, ob die einem Bitslicing unterzogenen Informationen für das MSB, das nächste MSB oder das LSB gelten, unterscheidet sich die Signifikanz eines Vektor. Das MSB hat die höchste Signifikanz, und das LSB hat die geringste Signifikanz. Die Codierungsstatuswerte der jeweiligen Abtastungen werden in dem Maße erneuert, wie die Vektorcodierung vom MSB zum LSB voranschreitet. Zunächst wird der Codierungsstatuswert als Null initialisiert. Wenn dann ein Bit-Wert ungleich Null angetroffen wird, so ändert sich der Codierungsstatuswert zu 1.
  • [Tabelle 6.1] Arithmetisches BSAC-Modell 0
    • Zugewiesenes Bit = 0
    • Arithmetisches BSAC-Modell 1
    • Nicht verwendet
  • [Tabelle 6.2] Arithmetisches BSAC-Modell 2 Zugewiesenes Bit = 1
    Figure 00550001
  • [Tabelle 6.3] Arithmetisches BSAC-Modell 3 Zugewiesenes Bit = 1
    Figure 00560001
  • [Tabelle 6.4] Arithmetisches BSAC-Modell 4 Zugewiesene Bits = 2
    Figure 00560002
  • [Tabelle 6.5] Arithmetisches BSAC-Modell 5 Zugewiesene Bits = 2
    Figure 00560003
  • Figure 00570001
  • [Tabelle 6.6] Arithmetisches BSAC-Modell 6 Zugewiesene Bits = 3
    Figure 00570002
  • Figure 00580001
  • [Tabelle 6.7] Arithmetisches BSAC-Modell 7 Zugewiesene Bits = 3
    Figure 00580002
  • Figure 00590001
  • [Tabelle 6.8] Arithmetisches BSAC-Modell 8 Zugewiesene Bits = 4
    Figure 00590002
  • Figure 00600001
  • Figure 00610001
  • [Tabelle 6.9] Arithmetisches BSAC-Modell 9 Zugewiesene Bits = 4
    Figure 00610002
  • Figure 00620001
  • [Tabelle 6.10] Arithmetisches BSAC-Modell 10 Zugewiesene Bits (Abit) = 5
    Figure 00620002
  • Figure 00630001
  • Figure 00640001
  • [Tabelle 6.11] Arithmetisches BSAC-Modell 11 Zugewiesene Bits (Abit) = 5
    Figure 00640002
  • Figure 00650001
  • Figure 00660001
  • [Tabelle 6.12] Arithmetisches BSAC-Modell 12
    • Wie das arithmetische BSAC-Modell 10, aber Zugewiesene Bits = 6
  • [Tabelle 6.13] Arithmetisches BSAC-Modell 13
    • Wie das arithmetische BSAC-Modell 11, aber Zugewiesene Bits = 6
  • [Tabelle 6.14] Arithmetisches BSAC-Modell 14
    • Wie das arithmetische BSAC-Modell 10, aber Zugewiesene Bits = 7
  • [Tabelle 6.15] Arithmetisches BSAC-Modell 15
    • Wie das arithmetische BSAC-Modell 11, aber Zugewiesene Bits = 7
  • [Tabelle 6.16] Arithmetisches BSAC-Modell 16
    • Wie das arithmetische BSAC-Modell 10, aber Zugewiesene Bits = 8
  • [Tabelle 6.17] Arithmetisches BSAC-Modell 17
    • Wie das arithmetische BSAC-Modell 11, aber Zugewiesene Bits = 8
  • [Tabelle 6.18] Arithmetisches BSAC-Modell 18
    • Wie das arithmetische BSAC-Modell 10, aber Zugewiesene Bits = 9
  • [Tabelle 6.19] Arithmetisches BSAC-Modell 19
    • Wie das arithmetische BSAC-Modell 11, aber Zugewiesene Bits = 9
  • [Tabelle 6.20] Arithmetisches BSAC-Modell 20
    • Wie das arithmetische BSAC-Modell 10, aber Zugewiesene Bits = 10
  • [Tabelle 6.21] Arithmetisches BSAC-Modell 21
    • Wie das arithmetische BSAC-Modell 11, aber Zugewiesene Bits = 10
  • [Tabelle 6.22] Arithmetisches BSAC-Modell 22
    • Wie das arithmetische BSAC-Modell 10, aber Zugewiesene Bits = 11
  • [Tabelle 6.23] Arithmetisches BSAC-Modell 23
    • Wie das arithmetische BSAC-Modell 11, aber Zugewiesene Bits = 11
  • [Tabelle 6.24] Arithmetisches BSAC-Modell 24
    • Wie das arithmetische BSAC-Modell 10, aber Zugewiesene Bits = 12
  • [Tabelle 6.25] Arithmetisches BSAC-Modell 25
    • Wie das arithmetische BSAC-Modell 11, aber Zugewiesene Bits = 12
  • [Tabelle 6.26] Arithmetisches BSAC-Modell 26
    • Wie das arithmetische BSAC-Modell 10, aber Zugewiesene Bits = 13
  • [Tabelle 6.27] Arithmetisches BSAC-Modell 27
    • Wie das arithmetische BSAC-Modell 11, aber Zugewiesene Bits = 13
  • [Tabelle 6.28] Arithmetisches BSAC-Modell 28
    • Wie das arithmetische BSAC-Modell 10, aber Zugewiesene Bits = 14
  • [Tabelle 6.29] Arithmetisches BSAC-Modell 29
    • Wie das arithmetische BSAC-Modell 11, aber Zugewiesene Bits = 14
  • [Tabelle 6.30] Arithmetisches BSAC-Modell 30
    • Wie das arithmetische BSAC-Modell 10, aber Zugewiesene Bits = 15
  • [Tabelle 6.31] Arithmetisches BSAC-Modell 31
    • Wie das arithmetische BSAC-Modell 11, aber Zugewiesene Bits = 15
  • Die zwei Teilvektoren sind ein- bis vierdimensionale Vektoren. Die Teilvektoren werden von den MSB zu den LSB und von den niederfrequenten Komponenten zu den höherfrequenten Komponenten arithmetisch codiert. Die Indizes von Modellen zur arithmetischen Codierung, die bei der arithmetischen Codierung verwendet werden, werden zuvor in dem Bitstrom in den Reihenfolge von niedrigen Frequenzen zu hohen Frequenzen gespeichert, bevor die einem Bitslicing unterzogenen Daten zu jedem Codierungsband in Einheiten von Codierungsbändern übermittelt werden.
  • Die jeweiligen einem Bitslicing unterzogenen Daten werden arithmetisch codiert, um die Codewort-Indizes zu erhalten.
  • Diese Indizes werden zu den ursprünglichen quantisierten Daten durch Bitkopplung unter Verwendung des folgenden Pseudocodes wiederhergestellt.
  • "pre_state[]" ist ein Status, der anzeigt, ob der augenblicklich decodierte Wert 0 ist oder nicht. "snf" ist die Signifikanz eines decodierten Vektors. "Idx0" ist ein Codewortindex, dessen vorheriger Status 0 ist. "idx1" ist ein Codewortindex, dessen vorheriger Status 1 ist. "dec_sample[]" sind decodierte Daten. "start_i" ist eine Startfrequenzlinie aus decodierten Vektoren.
  • Figure 00690001
  • Während die einem Bitslicing unterzogenen Daten von quantisierten Frequenzkomponenten von den MSB zu den LSB codiert werden, werden die Vorzeichen-Bits von Frequenzkoeffizienten ungleich Null arithmetisch codiert. Ein Bit mit negativem (–) Vorzeichen wird durch eine 1 dargestellt, und ein Bit mit positivem (+) Vorzeichen wird durch eine 0 dargestellt.
  • Wenn die einem Bitslicing unterzogenen Daten in einem Decodierer arithmetisch decodiert werden und zuerst ein arithmetisch decodierter Bit-Wert ungleich Null angetroffen wird, folgen deshalb die Informationen des Vorzeichens in dem Bitstrom, d. h. acode_sign. Das sign_bit wird unter Verwendung dieser Informationen mit den in Tabelle 5.9 gezeigten Modellen arithmetisch decodiert. Wenn das sign_bit 1 ist, so werden die Vorzeichen-Informationen an die quantisierten Daten (y) übergeben, die durch Koppeln der getrennten Daten gebildet werden, und zwar wie folgt:
  • Figure 00700001
  • 2.2. M/S-Stereoverarbeitungsabschnitt (optionales Modul)
  • Anhand der Markierung, die im Bitstrom enthalten ist, und ms_used[] ist zu erkennen, ob ein M/S-Stereoverarbeitungsmodul für jedes Skalierungsfaktorband verwendet wird oder nicht. Wenn eins verwendet wird, so wird die M/S-Stereoverarbeitung unter Verwendung des gleichen Verfahrens ausgeführt, wie es in den AAC gezeigt ist.
  • 2.3. Vorhersageabschnitt (Optionales Modul)
  • Anhand der Markierung, die im Bitstrom enthalten ist, und prediction_present ist zu erkennen, ob ein Vorhersagemodul für jedes Skalierungsfaktorband verwendet wird oder nicht. Wenn eins verwendet wird, so wird die Vorhersage unter Verwendung des gleichen Verfahrens ausgeführt, wie es in den AAC gezeigt ist.
  • 2.4. Intensitätsstereoverarbeitungsabschnitt (optionales Modul)
  • Anhand der Markierung, die im Bitstrom enthalten ist, und stereo_info ist zu erkennen, ob ein Intensitätsstereoverarbeitungsmodul für jedes Skalierungsfaktorband verwendet wird oder nicht. Wenn eins verwendet wird, so wird die Intensitätsstereoverarbeitung unter Verwendung des gleichen Verfahrens ausgeführt, wie es in den AAC gezeigt ist.
  • 2.5. ZRF-Abschnitt (optionales Modul)
  • Anhand der Markierung, die im Bitstrom enthalten ist, und tns_present ist zu erkennen, ob ein ZRF-Modul verwendet wird oder nicht. Wenn eins verwendet wird, so wird die ZRF unter Verwendung des Verfahrens ausgeführt, wie es in den AAC gezeigt ist.
  • 2.6. Umkehrquantisierung
  • Der Umkehrquantisierungsabschnitt stellt die decodierten Skalierungsfaktoren und quantisierten Daten zu Signalen mit den ursprünglichen Größenordnungen wieder her. Das Umkehrquantisierungsverfahren ist in den AAC-Standards beschrieben.
  • 2.7. Frequenz-Zeit-Abbildung
  • Der Frequenz-Zeit-Abbildungsabschnitt führt eine Umkehrkonvertierung von Tonsignalen eines Frequenzbereichs in Signale eines Zeitbereichs durch, so dass sie durch einen Benutzer reproduziert werden. Die Formel für das Abbilden des Frequenzbereichssignals in das Zeitbereichssignal ist in den AAC-Standards definiert. Des Weiteren sind noch verschiedene Punkte, wie beispielsweise ein abbildungsbezogenes Fenster, in den AAC-Standards beschrieben.
  • Ausführungsformen der vorliegenden Erfindung ermöglichen ein ähnliche Leistung wie die eines herkömmlichen Codierers, bei dem nur die Komprimierung berücksichtigt wird, bei einer höheren Bitrate, so dass sowohl Monosignale als auch Stereosignale so verarbeitet werden, dass verschiedene Benutzervorgaben erfüllt werden, während flexible Bitströme gebildet werden. Oder anders ausgedrückt: Per Benutzervor gabe werden die Informationen für die Bitraten verschiedener Schichten ohne Überlappung mit einem einzigen Bitstrom kombiniert, wodurch Bitströme mit guter Tonqualität entstehen. Des Weiteren wird zwischen einem Sende-Endgerät und einem Empfangs-Endgerät kein Umsetzer benötigt. Außerdem können jeder beliebige Status von Sendekanälen und verschiedene Benutzervorgaben berücksichtigt werden.
  • Des Weiteren findet die Skalierbarkeit sowohl auf Stereosignalen als auch auf Monosignale Anwendung.
  • Ausführungsformen der vorliegenden Erfindung können in herkömmlichen Toncodierungs- und -decodierungsvorrichtungen Anwendung finden, die über Module zur Verbesserung der Codierungs-/Decodierungseffizienz verfügen, wodurch die Leistung bei verschiedenen Bitraten verbessert wird.
  • Obgleich bei Ausführungsformen der vorliegenden Erfindung die Basismodule, die bei einer Codierung oder Decodierung gemäß den AAC-Standards verwendet werden, wie beispielsweise Zeit-Frequenz-Abbildung oder Quantisierung, benutzt werden, wird nur das verlustfreie Codierungsmodul durch das Bitslicing-Codierungsverfahren ersetzt, um Skalierbarkeit zu ermöglichen.
  • Da die Bitströme skalierbar sind, kann ein einzelner Bitstrom mehrere Bitströme mit verschiedenen Bitraten enthalten. Im Gegensatz zu herkömmlichen Codierern hat der skalierbare Codierer gemäß Ausführungsformen der vorliegenden Erfindung feiner abgestufte Erweiterungsschichten, so dass der Anwendungsbereich erweitert wird.
  • Des Weiteren wird im Gegensatz zu anderen skalierbaren Audio-Codecs eine gute Tonqualität bei einer höheren Bitrate angeboten.
  • Wenn Ausführungsformen der vorliegenden Erfindung mit den AAC-Standards kombiniert werden, so kann fast die gleiche Tonqualität bei der Bitrate der obersten Schicht erreicht werden.
  • Obgleich bei Ausführungsformen der vorliegenden Erfindung der herkömmliche Audioalgorithmus, wie beispielsweise die MPEG-2-AAC-Standards, verwendet wird, unterscheidet sich nur der verlustfreie Codierungsabschnitt von dem herkömmlichen. Somit werden die quantisierten Signale eines Frequenzbereichs in dem AAC-Bitstrom decodiert, und die skalierbaren BSAC-Bitströme können auf der Grundlage der decodierten Signale gebildet werden. Oder anders ausgedrückt: Es ist eine verlustfreie Transcodierung möglich. Des Weiteren können AAC-Bitströme aus skalierbaren BSAC-Bitströmen in umgekehrter Reihenfolge gebildet werden. Dank dieser Funktionen werden verschiedene AAC-Bitströme, die nur zum Verbessern der Codierungseffizienz gebildet werden, entsprechend ihrer Umgebung konvertierbar verwendet. Somit ist, um Skalierbarkeit zu ermöglichen, eine zweifache oder dreifache Arbeit zum Bilden von Bitströmen zum Erreichen von Skalierbarkeit durch eine separate Codierungsvorrichtung nicht erforderlich.
  • Des Weiteren haben Ausführungsformen der vorliegenden Erfindung eine gute Codierungseffizienz, das heißt, die beste Leistung wird bei einer festen Bitrate wie bei den herkömmlichen Codierungstechniken erreicht, und betrifft ein Codierungs-/Decodierungsverfahren und eine entsprechende Vorrichtung, womit die Bitrate, die in geeigneter Weise für die bevorstehende Multimedia-Technologie codiert ist, wiederhergestellt wird. Des Weiteren können gemäß Ausführungsformen der vorliegenden Erfindung Daten für Bitraten für verschiedene Erweiterungsschichten innerhalb eines einzelnen Bitstromes dargestellt werden. Somit können entsprechend der Leistung der Decodierer und der Bandbreite oder der Besetztzustände von Sendekanälen von Benutzern oder durch Benutzervorgabe die Größen der Bitraten oder deren Komplexität gesteuert werden.

Claims (24)

  1. Skalierbares Stereotoncodierungsverfahren zum Codieren von Tonsignalen in einen geschichteten Datenstrom mit einer Basisschicht und wenigstens zwei Erweiterungsschichten, umfassend folgende Schritte: Signalverarbeitung von Eingangs-Tonsignalen und Quantisieren der Eingangs-Tonsignale für jedes vorgegebene Codierungsband; wobei das Verfahren des Weiteren folgende Schritte umfasst: Codieren der quantisierten Daten entsprechend der Basisschicht unter den quantisierten Daten; Codieren der quantisierten Daten entsprechend der nächsten Erweiterungsschicht der codierten Basisschicht und der übrigen quantisierten Daten, die aufgrund einer Schichtgrößenbegrenzung uncodiert sind und zu der codierten Schicht gehören; und sequenzielles Ausführen der Schichtcodierungsschritte für alle Erweiterungsschichten, um Bitströme zu bilden, wobei der Schritt der Basisschichtcodierung, der Schritt der Erweiterungsschichtcodierung und der Schritt der sequenziellen Codierung so ausgeführt werden, dass die Nebeninformationen und quantisierten Daten, die einer zu codierenden Schicht entsprechen, durch Ziffern der gleichen vorgegebenen Anzahl dargestellt werden und dann unter Verwendung eines vorgegebenen Wahrscheinlichkeitsmodells in der Reihenfolge, die von den MSB-Sequenzen zu den LSB-Sequenzen reicht, arithmetisch codiert werden; wobei das Verfahren dadurch gekennzeichnet ist, dass die einem Bitslicing unterzogenen Daten des linken Kanals und des rechten Kanals miteinander verschachtelt werden und wechsel weise in Einheiten vorgegebener Vektoren codiert werden.
  2. Skalierbares Stereotoncodierungsverfahren nach Anspruch 1, wobei die Nebeninformationen wenigstens Skalierungsfaktoren sowie Informationen über ein für die arithmetische Codierung zu verwendendes Wahrscheinlichkeitsmodell enthalten.
  3. Skalierbares Stereotoncodierungsverfahren nach Anspruch 1, wobei es sich bei den vorgegebenen Vektoren um vierdimensionale Vektoren handelt, die durch Koppeln der einem Bitslicing unterzogenen vier Tonkanaldaten in einem einzigen Vektor erzeugt werden.
  4. Skalierbares Stereotoncodierungsverfahren nach Anspruch 3, wobei die vierdimensionalen Vektoren in zwei Teilvektoren entsprechend Vorzuständen aufgeteilt werden, die anzeigen, ob einem Bitslicing unterzogene Frequenzkomponenten, die ungleich Null sind, codiert sind oder nicht, um die dann zu codieren.
  5. Skalierbares Stereotoncodierungsverfahren nach Anspruch 2, wobei der Schritt des Codierens der Skalierungsfaktoren folgende Schritte umfasst: Erhalten des maximalen Skalierungsfaktors; Erhalten der Differenz zwischen dem maximalen Skalierungsfaktor und den ersten Skalierungsfaktoren und arithmetisches Codieren der Differenz; und Erhalten von Differenzen zwischen dem unmittelbar vorangegangenen arithmetisch codierten Skalierungsfaktors und den jeweiligen Skalierungsfaktoren, die auf den ersten Skalierungsfaktor folgen, Abbilden der Dif ferenzen in einem vorgegebenen Wert und arithmetisches Codieren der abgebildeten Werte.
  6. Skalierbares Stereotoncodierungsverfahren nach Anspruch 2, wobei der Schritt des Codierens der Skalierungsfaktoren folgende Schritte umfasst: Erhalten des maximalen Skalierungsfaktors; und Erhalten von Differenzen zwischen dem maximalen Skalierungsfaktor und den jeweiligen Skalierungsfaktoren und arithmetisches Codieren der Differenzen.
  7. Skalierbares Stereotoncodierungsverfahren nach Anspruch 1, wobei die Kopfinformationen, die gemeinsam für alle Bänder verwendet werden, codiert werden und die Nebeninformationen und die quantisierten Frequenzen, die für die jeweilige Schicht erforderlich sind, durch einem Bitslicing unterzogene Informationen gebildet werden, die dann zu codieren sind, um eine Schichtstruktur zu erhalten.
  8. Skalierbares Stereotoncodierungsverfahren nach Anspruch 1, wobei die Quantisierung durch folgende Schritte ausgeführt wird: Konvertieren der Eingangs-Tonsignale eines Zeitbereichs in Signale eines Frequenzbereichs; Koppeln der konvertierten Signale als Signale vorgegebener Skalierungsfaktorbänder mittels Zeit-/Frequenzabbildung und Berechnen einer Maskierungsschwelle an jedem Skalierungsfaktorband; Ausführen einer zeitlichen Rauschformung zum Steuern der zeitlichen Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters; Ausführen einer Intensitätsstereoverarbeitung, dergestalt, dass nur die quantisierten Informationen eines Skalierungsfaktorbandes für einen von zwei Kanälen codiert wird, wobei nur der Skalierungsfaktor für den anderen Kanal übermittelt wird; Vorhersagen von Frequenzkoeffizienten des augenblicklichen Rahmens; Durchführen einer M/S-Stereoverarbeitung zum Konvertieren eines Signals des linken Kanals und eines Signals des rechten Kanals in ein additives Signal aus zwei Signalen und ein subtraktives Signal davon; und Quantisieren der Signale für jedes vorgegebene Codierungsband, dergestalt, dass Quantisierungsrauschen jedes Bandes kleiner ist als die Maskierungsschwelle.
  9. Skalierbares Stereotoncodierungsverfahren nach Anspruch 1, wobei, wenn die quantisierten Daten aus Vorzeichendaten und Größenordnungsdaten zusammengesetzt sind, die Schritte des Codierens der Basisschicht und der Erweiterungsschichten und des Bildens des Bitstromes die folgenden Schritte umfassen: arithmetisches Codieren der signifikantesten Ziffernfolgen, die aus signifikantesten Ziffern der Größenordnungsdaten zusammengesetzt sind; Codieren von Vorzeichendaten, die Daten ungleich Null unter den codierten signifikantesten Ziffernfolgen entsprechen; Codieren der signifikantesten Ziffernfolgen unter uncodierten Größenordnungsdaten der digitalen Daten; Codieren uncodierter Vorzeichendaten unter den Vorzeichendaten, die Größenordnungsdaten ungleich Null unter codierten Ziffernfolgen entsprechen; und Ausführen des Größenordnungscodierungsschrittes und des Vorzeichencodierungsschrittes an den entsprechenden Ziffern der digitalen Daten, wobei die jeweiligen Schritte wechselweise an den Daten des linken Kanals und den Daten des rechten Kanals in Einheiten vorgegebener Vektoren ausgeführt werden.
  10. Skalierbare Stereotoncodierungsvorrichtung, umfassend: einen Quantisierungsabschnitt (160) zur Signalverarbeitung von Eingangs-Tonsignalen und zum Quantisieren der Eingangs-Tonsignale für jedes Codierungsband; einen Abschnitt 170 zum arithmetischen Bitslicing-Codieren für das Codieren von Bitströmen für alle Schichten, so dass eine Schichtstruktur entsteht, durch Bandbegrenzung für eine Basisschicht, so dass sie skalierbar ist, zum Codieren von Nebeninformationen, die der Basisschicht entsprechen, zum Codieren der quantisierten Informationen sequenziell von der signifikantesten Bitsequenz zu der geringst-signifikanten Bitsequenz und von Komponenten mit niedrigerer Frequenz zu Komponenten mit höherer Frequenz, und zum Codieren von Nebeninformationen, die der nächsten Erweiterungsschicht der Basisschicht und den quantisierten Daten entsprechen; und einen Bitstrombildungsabschnitt 180 zum Erfassen von Daten, die in dem Quantisierungsabschnitt und in dem Abschnitt zum arithmetischen Bitslicing-Codieren gebildet wurden, und zum Erzeugen von Bitströmen; wobei die Codierungsvorrichtung dadurch gekennzeichnet ist, dass der Abschnitt 170 zum arithmetischen Bitslicing-Codieren dafür konfiguriert ist, verschachtelte Daten des linken Kanals und Daten des rechten Kanals wechselweise in Einheiten vorgegebener Vektoren zu codieren.
  11. Skalierbare Toncodierungsvorrichtung nach Anspruch 10, wobei der Quantisierungsabschnitt Folgendes umfasst: einen Zeit-/Frequenzabbildungsabschnitt 100 zum Konvertieren der Eingangs-Tonsignale eines Zeitbereichs in Signale eines Frequenzbereichs; einen psychoakustischen Abschnitt 110 zum Koppeln der konvertierten Signale durch Signale vorgegebener Skalierungsfaktorbänder mittels Zeit-/Frequenzabbildung und Berechnen einer Maskierungsschwelle an jedem Skalierungsfaktorband unter Verwendung eines Maskierungsphänomens, das durch Interaktion der jeweiligen Signale erzeugt wird; und einen Quantisierungsabschnitt 160 zum Quantisieren der Signale für jedes vorgegebene Codierungsband, während das Quantisierungsrauschen jedes Bandes mit der Maskierungsschwelle verglichen wird.
  12. Skalierbare Toncodierungsvorrichtung nach Anspruch 11, die des Weiteren Folgendes umfasst: einen Abschnitt (120) für zeitliche Rauschformung (ZRF) zum Ausführen einer zeitlichen Rauschformung zum Steuern der zeitlichen Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters; einen Intensitätsstereoverarbeitungsabschnitt (130) zum Ausführen einer Intensitätsstereoverarbeitung, dergestalt, dass nur die quantisierten Informationen eines Skalierungsfaktorbandes für einen von zwei Kanälen codiert wird, wobei nur der Skalierungsfaktor für den anderen Kanal übermittelt wird; einen Vorhersageabschnitt (140) zum Vorhersagen von Frequenzkoeffizienten des augenblicklichen Rahmens; und einen M/S-Stereoverarbeitungsabschnitt (150) zum Durchführen einer M/S-Stereoverarbeitung zum Konvertieren eines Signals des linken Kanals und eines Signals des rechten Kanals in ein additives Signal aus zwei Signalen und ein subtraktives Signal davon.
  13. Skalierbares Stereotondecodierungsverfahren zum Decodieren von Tonsignalen, die so codiert sind, dass sie geschichtete Bitraten aufweisen, wobei das Verfahren folgende Schritte umfasst: Analysieren von Daten, die für die jeweiligen Module in den Bitströmen mit einer Schichtstruktur benötigt werden; Decodieren wenigstens von Skalierungsfaktoren und Indizes von Modellen für arithmetisches Codieren und quantisierten Daten in der Reihenfolge der Erzeugung der Schichten in Bitströmen mit einer Schichtstruktur, wobei die quantisierten Daten durch Analysieren der Signifikanz von Bits, aus denen die Bitströme bestehen, von höher-signifikanten Bits zu weniger-signifikanten Bits decodiert werden; Wiederherstellen der decodierten Skalierungsfaktoren und quantisierten Daten in Signale mit den ursprünglichen Größenordnungen; und Konvertieren von umgekehrt quantisierten Daten in Signale eines Zeitbereichs; wobei das Verfahren dadurch gekennzeichnet ist, dass die quantisierten Daten aus codierten verschachtelten linken und rechten Kanälen dergestalt decodiert werden, dass die quantisierten Daten wechselweise für die jeweiligen Kanäle decodiert werden.
  14. Skalierbares Stereotondecodierungsverfahren nach Anspruch 13, das des Weiteren folgende Schritte umfasst: Durchführen einer M/S-Stereoverarbeitung, um zu prüfen, ob in dem Bitstromcodierungsverfahren eine M/S-Stereoverarbeitung durchgeführt wurde oder nicht, und Konvertieren eines Signals des linken Kanals und eines Signals des rechten Kanals in ein additives Signal aus zwei Signalen und ein subtraktives Signal davon, wenn die M/S-Stereoverarbeitung durchgeführt wurde; Prüfen, ob in dem Bitstromcodierungsverfahren ein Vorhersageschritt durchgeführt wurde oder nicht, und Vorhersagen von Frequenzkoeffizienten des augenblicklichen Rahmens, wenn der Prüfschritt ausgeführt wurde; Prüfen, ob in dem Bitstromcodierungsverfahren ein Intensitätsstereoverarbeitungsschritt durchgeführt wurde oder nicht, und, wenn die Intensitätsstereoverarbeitung durchgeführt wurde, dann – weil nur die quantisierten Informationen des Skalierungsfaktorbandes für einen einzelnen Kanal (den linken Kanal) von zwei Kanälen codiert sind – Durchführen der Intensitätsstereoverarbeitung zum Wiederherstellen der quantisierten Informationen des anderen Kanals (des rechten Kanals) in einen Wert des linken Kanals; und Prüfen, ob in dem Bitstromcodierungsverfahren ein Schritt der zeitlichen Rauschformung (ZRF) durchgeführt wurde oder nicht, und wenn der ZRF-Schritt durchgeführt wurde, Ausführen einer zeitlichen Rauschformung zum Steuern der zeitlichen Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters.
  15. Skalierbares Stereotondecodierungsverfahren nach Anspruch 13 oder 14, umfassend, wenn die quantisierten Daten aus Vorzeichendaten und Größenordnungsdaten bestehen, eine Wiederherstellung von quantisierten Frequenzkomponenten durch sequenzielles Decodieren der Größenordnungsdaten von Vorzeichenbits quantisierter Frequenzkomponenten und ein Koppeln der Größenordnungsdaten und der Vorzeichenbits.
  16. Skalierbares Stereotondecodierungsverfahren nach Anspruch 13, wobei der Decodierungsschritt von den signifikantesten Bits zu den geringst-signifikanten Bits ausgeführt wird und der Wiederherstellungsschritt durch Koppeln der decodierten, einem Bitslicing unterzogenen Daten und Wiederherstellen der gekoppelten Daten in Daten quantisierter Frequenzkomponenten ausgeführt wird.
  17. Skalierbares Stereotondecodierungsverfahren nach Anspruch 16, wobei die Daten in dem Decodierungsschritt dergestalt decodiert werden, dass einem Bitslicing unterzogene Informationen von vier Abtastungen in Einheiten vierdimensionaler Vektoren decodiert werden.
  18. Skalierbares Stereotondecodierungsverfahren nach Anspruch 17, wobei das Decodieren des vierdimensionalen Vektors dergestalt erfolgt, dass zwei Teilvektoren, die gemäß Vorzuständen codiert wurden, die anzeigen, ob einem Bitslicing unterzogene Frequenzkomponen ten ungleich Null codiert sind oder nicht, arithmetisch codiert werden und die zwei Teilvektoren, die gemäß den Codierungszuständen der jeweiligen Abtastungen decodiert wurden, in vierdimensionale Vektoren wiederhergestellt werden.
  19. Skalierbares Stereotondecodierungsverfahren nach Anspruch 15, wobei, während die einem Bitslicing unterzogenen Daten der jeweiligen Frequenzkomponenten aus den MSBs decodiert werden, das Decodieren übersprungen wird, wenn die einem Bitslicing unterzogenen Daten "0" sind, und Vorzeichendaten arithmetisch decodiert werden, wenn die einem Bitslicing unterzogenen Daten "1" zum ersten Mal erscheinen.
  20. Skalierbares Stereotondecodierungsverfahren nach Anspruch 13, wobei die Decodierung der Skalierungsfaktoren durch Decodieren des maximalen Skalierungsfaktors in dem Bitstrom, arithmetisches Decodieren von Differenzen zwischen dem maximalen Skalierungsfaktor und den jeweiligen Skalierungsfaktoren und Subtrahieren der Differenzen von dem maximalen Skalierungsfaktor ausgeführt wird.
  21. Skalierbares Stereotondecodierungsverfahren nach Anspruch 13, wobei der Schritt des Decodierens der Skalierungsfaktoren folgende Schritte umfasst: Decodieren des maximalen Skalierungsfaktors aus den Bitströmen; Erhalten von Differenzen zwischen dem maximalen Skalierungsfaktor und zu decodierenden Skalierungsfaktoren durch Abbilden und arithmetisches Decodieren der Differenzen und umgekehrtes Abbilden der Differenzen aus den abgebildeten Werten; und Erhalten des ersten Skalierungsfaktors durch Subtrahieren der Differenzen von dem maximalen Skalierungsfaktor und Erhalten der Skalierungsfaktoren für die übrigen Bänder durch Subtrahieren der Differenzen von den vorherigen Skalierungsfaktoren.
  22. Skalierbares Stereotondecodierungsverfahren nach Anspruch 13, wobei das Decodieren der Indizes für arithmetisch codierte Modelle durch folgende Schritte ausgeführt wird: Decodieren des kleinsten Index' eines arithmetischen Modells in dem Bitstrom, Decodieren von Differenzen zwischen dem kleinsten Index und den jeweiligen Indizes in den Nebeninformationen der jeweiligen Schichten und Addieren des kleinsten Index' und der Differenzen.
  23. Skalierbare Stereotondecodierungsvorrichtung zum Decodieren von Tondaten, die so codiert sind, dass sie geschichtete Bitraten aufweisen, wobei die Vorrichtung Folgendes umfasst: einen Bitstromanalyseabschnitt (300) zum Analysieren von Daten, die für die jeweiligen Module in den Bitströmen mit einer Schichtstruktur benötigt werden; einen Decodierungsabschnitt (310) zum Decodieren wenigstens von Skalierungsfaktoren und Indizes von Modellen für arithmetisches Codieren und quantisierten Daten in der Reihenfolge der Erzeugung der Schichten in Bitströmen mit einer Schichtstruktur, wobei die quantisierten Daten durch Analysieren der Signifikanz von Bits, aus denen die Bitströme bestehen, von höher-signifikanten Bits zu weniger-signifikanten Bits decodiert werden; einen Wiederherstellungsabschnitt (320) zum Wiederherstellen der decodierten Skalierungsfaktoren und quantisierten Daten in Signale mit den ursprünglichen Größenordnungen; und einen Frequenz-/Zeitabbildungsabschnitt (370) zum Konvertieren von umgekehrt quantisierten Signalen in Signale eines Zeitbereichs; wobei die Decodierungsvorrichtung dadurch gekennzeichnet ist, dass die quantisierten Daten aus codierten verschachtelten linken und rechten Kanälen dergestalt decodiert werden, dass die quantisierten Daten wechselweise für die jeweiligen Kanäle decodiert werden.
  24. Skalierbare Stereotondecodierungsvorrichtung nach Anspruch 23, die des Weiteren Folgendes umfasst: einen M/S-Stereoverarbeitungsabschnitt (330) zum Durchführen einer M/S-Stereoverarbeitung, um zu prüfen, ob in dem Bitstromcodierungsverfahren eine M/S-Stereoverarbeitung durchgeführt wurde oder nicht, und Konvertieren eines Signals des linken Kanals und eines Signals des rechten Kanals in ein additives Signal aus zwei Signalen und ein subtraktives Signal davon, wenn die M/S-Stereoverarbeitung durchgeführt wurde; einen Vorhersageabschnitt (340) zum Prüfen, ob in dem Bitstromcodierungsverfahren ein Vorhersageschritt durchgeführt wurde oder nicht, und Vorhersagen von Frequenzkoeffizienten des augenblicklichen Rahmens, wenn der Prüfschritt ausgeführt wurde; einen Intensitätsstereoverarbeitungsabschnitt (350) zum Prüfen, ob in dem Bitstromcodierungsverfahren eine Intensitätsstereoverarbeitung durchgeführt wurde oder nicht, und, wenn die Intensitätsstereoverarbeitung durchgeführt wurde, dann – weil nur die quantisierten Informationen des Skalierungsfaktorbandes für einen einzelnen Kanal (den linken Kanal) von zwei Kanälen codiert sind – Durchführen der Intensitätsstereoverarbeitung zum Wiederherstellen der quantisierten Informationen des anderen Kanals (des rechten Kanals) in einen Wert des linken Kanals; und einen Abschnitt (360) zur zeitlichen Rauschformung zum Prüfen, ob in dem Bitstromcodierungsverfahren ein Schritt der zeitlichen Rauschformung (ZRF) durchgeführt wurde oder nicht, und wenn der ZRF-Schritt durchgeführt wurde, Ausführen einer zeitlichen Rauschformung zum Steuern der zeitlichen Form des Quantisierungsrauschens innerhalb jedes Konvertierungsfensters.
DE69834010T 1997-11-20 1998-07-06 Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür Expired - Lifetime DE69834010T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1019970061605A KR100335611B1 (ko) 1997-11-20 1997-11-20 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
KR9761605 1997-11-20

Publications (2)

Publication Number Publication Date
DE69834010D1 DE69834010D1 (de) 2006-05-18
DE69834010T2 true DE69834010T2 (de) 2006-12-07

Family

ID=19525210

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69834010T Expired - Lifetime DE69834010T2 (de) 1997-11-20 1998-07-06 Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür

Country Status (11)

Country Link
US (1) US6529604B1 (de)
EP (1) EP0918407B1 (de)
JP (1) JP3412082B2 (de)
KR (1) KR100335611B1 (de)
CN (1) CN1126265C (de)
BR (1) BR9806404B1 (de)
DE (1) DE69834010T2 (de)
ID (1) ID21304A (de)
IL (1) IL125268A (de)
MY (1) MY120333A (de)
RU (1) RU2197776C2 (de)

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446037B1 (en) 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
KR100612003B1 (ko) * 2000-02-26 2006-08-11 삼성전자주식회사 통신망에서 비트 스트림 송수신 장치 및 그 방법
US6735561B1 (en) * 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US20020133246A1 (en) * 2001-03-02 2002-09-19 Hong-Kee Kim Method of editing audio data and recording medium thereof and digital audio player
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US8605911B2 (en) 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
WO2003046891A1 (en) 2001-11-29 2003-06-05 Coding Technologies Ab Methods for improving high frequency reconstruction
KR100908114B1 (ko) * 2002-03-09 2009-07-16 삼성전자주식회사 스케일러블 무손실 오디오 부호화/복호화 장치 및 그 방법
KR100462615B1 (ko) 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
DK3079261T3 (en) * 2002-09-20 2019-04-29 Ntt Docomo Inc METHOD AND APPARATUS FOR ARITHMETIC DECODATION
EP1414273A1 (de) 2002-10-22 2004-04-28 Koninklijke Philips Electronics N.V. Signalisierung von eingebetten Daten
KR100908116B1 (ko) * 2002-12-12 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
KR100923297B1 (ko) * 2002-12-14 2009-10-23 삼성전자주식회사 스테레오 오디오 부호화 방법, 그 장치, 복호화 방법 및그 장치
KR100908117B1 (ko) * 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
KR100528325B1 (ko) * 2002-12-18 2005-11-15 삼성전자주식회사 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치
EP2665294A2 (de) * 2003-03-04 2013-11-20 Core Wireless Licensing S.a.r.l. Träger einer Mehrkanal-Audioerweiterung
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
KR101015497B1 (ko) * 2003-03-22 2011-02-16 삼성전자주식회사 디지털 데이터의 부호화/복호화 방법 및 장치
WO2004097796A1 (ja) * 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
US20050010396A1 (en) * 2003-07-08 2005-01-13 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
US7620545B2 (en) 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US7426462B2 (en) * 2003-09-29 2008-09-16 Sony Corporation Fast codebook selection method in audio encoding
KR100571824B1 (ko) * 2003-11-26 2006-04-17 삼성전자주식회사 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치
KR100537517B1 (ko) * 2004-01-13 2005-12-19 삼성전자주식회사 오디오 데이타 변환 방법 및 장치
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
KR100561869B1 (ko) * 2004-03-10 2006-03-17 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
ATE510279T1 (de) * 2004-03-25 2011-06-15 Dts Inc Verlustloser mehrkanaliger audio-codec
US7536302B2 (en) * 2004-07-13 2009-05-19 Industrial Technology Research Institute Method, process and device for coding audio signals
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
PL1839297T3 (pl) * 2005-01-11 2019-05-31 Koninklijke Philips Nv Skalowalne kodowanie/dekodowanie sygnałów audio
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
EP1866911B1 (de) 2005-03-30 2010-06-09 Koninklijke Philips Electronics N.V. Skalierbare mehrkanal-audiokodierung
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
US9560349B2 (en) 2005-04-19 2017-01-31 Koninklijke Philips N.V. Embedded data signaling
JP4850827B2 (ja) * 2005-04-28 2012-01-11 パナソニック株式会社 音声符号化装置および音声符号化方法
JP4907522B2 (ja) * 2005-04-28 2012-03-28 パナソニック株式会社 音声符号化装置および音声符号化方法
US20060269057A1 (en) * 2005-05-26 2006-11-30 Groove Mobile, Inc. Systems and methods for high resolution signal analysis and chaotic data compression
PL1905006T3 (pl) * 2005-07-19 2014-02-28 Koninl Philips Electronics Nv Generowanie wielokanałowych sygnałów audio
WO2007026763A1 (ja) * 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
KR20070038699A (ko) * 2005-10-06 2007-04-11 삼성전자주식회사 스케일러블 오디오 데이터 산술복호화 방법 및 장치
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
CN101297353B (zh) * 2005-10-26 2013-03-13 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
KR100878766B1 (ko) 2006-01-11 2009-01-14 삼성전자주식회사 오디오 데이터 부호화 및 복호화 방법과 장치
KR100793287B1 (ko) 2006-01-26 2008-01-10 주식회사 코아로직 비트율 조절이 가능한 오디오 복호화 장치 및 그 방법
KR100654920B1 (ko) * 2006-05-17 2006-12-08 케이에스엠기술 주식회사 도로의 슬라이딩 스틸그레이팅이 안착되는 배수로 구조
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8571875B2 (en) 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
CN101170590B (zh) * 2006-10-27 2011-04-27 华为技术有限公司 一种背景噪声的编码码流传输的方法、***及装置
JP4275167B2 (ja) * 2006-11-24 2009-06-10 株式会社エヌ・ティ・ティ・ドコモ 送信機
KR101336553B1 (ko) * 2007-02-06 2013-12-03 한국전자통신연구원 계층적 부호화 장치 및 방법
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
WO2008144306A2 (en) * 2007-05-15 2008-11-27 Warner Bros. Entertainment Inc. Method and apparatus for providing additional functionality to a dvd player
US8594484B2 (en) * 2007-05-15 2013-11-26 Warner Bros. Entertainment Inc. DVD player with external connection for increased functionality
US8237776B2 (en) * 2007-10-19 2012-08-07 Warner Bros. Entertainment Inc. Method and apparatus for generating stereoscopic images from a DVD disc
US10182203B2 (en) 2007-05-15 2019-01-15 Warner Bros. Entertainment Inc. DVD player with external connection for increased functionality
US8788264B2 (en) * 2007-06-27 2014-07-22 Nec Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
WO2009010674A1 (fr) * 2007-07-06 2009-01-22 France Telecom Codage hierarchique de signaux audionumeriques
KR101425354B1 (ko) * 2007-08-28 2014-08-06 삼성전자주식회사 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
KR101162275B1 (ko) * 2007-12-31 2012-07-04 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
JP5340261B2 (ja) * 2008-03-19 2013-11-13 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
WO2009135532A1 (en) * 2008-05-09 2009-11-12 Nokia Corporation An apparatus
CN101635145B (zh) * 2008-07-24 2012-06-06 华为技术有限公司 编解码方法、装置和***
CN101640664B (zh) * 2008-07-31 2014-11-26 Tcl集团股份有限公司 一种互联网门户服务***及其管理方法
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
CA2750795C (en) * 2009-01-28 2015-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program
EP2406954A1 (de) * 2009-03-13 2012-01-18 Telefonaktiebolaget L M Ericsson (PUBL) Technik zum bringen von codierten datenposten in konformität mit einem skalierbaren codierungsprotokoll
CN102349102A (zh) * 2009-03-13 2012-02-08 松下电器产业株式会社 语音解码装置及语音解码方法
KR20100136890A (ko) * 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
PT2491553T (pt) * 2009-10-20 2017-01-20 Fraunhofer Ges Forschung Codificador de áudio, descodificador de áudio, método para codificar uma informação de áudio, método para descodificar uma informação de áudio e programa de computador que utiliza uma redução iterativa de tamanho de intervalo
MX2012008075A (es) 2010-01-12 2013-12-16 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodo para codificar e informacion de audio, metodo para decodificar una informacion de audio y programa de computacion utilizando una modificacion de una representacion de un numero de un valor de contexto numerico previo.
JP5833682B2 (ja) * 2011-03-10 2015-12-16 ヴィディオ・インコーポレーテッド スケーラブルなビデオ符号化のための依存性パラメータセット
WO2012150482A1 (en) * 2011-05-04 2012-11-08 Nokia Corporation Encoding of stereophonic signals
WO2013107516A1 (en) * 2012-01-20 2013-07-25 Phonak Ag Wireless sound transmission and method
WO2013145642A1 (ja) * 2012-03-28 2013-10-03 株式会社Jvcケンウッド 画像符号化装置、画像符号化方法、画像符号化プログラム、送信装置、送信方法及び送信プログラム、並びに画像復号装置、画像復号方法、画像復号プログラム、受信装置、受信方法及び受信プログラム
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
EP3561809B1 (de) 2013-09-12 2023-11-22 Dolby International AB Verfahren zum decodieren und decoder.
CN105745703B (zh) * 2013-09-16 2019-12-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
CN107077855B (zh) 2014-07-28 2020-09-22 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
EP3107096A1 (de) * 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verkleinerte decodierung
EP3503574B1 (de) * 2017-12-22 2021-10-27 FalCom A/S Gehörschutzvorrichtung mit multiband-begrenzer und zugehöriges verfahren
CN117476016A (zh) * 2022-07-27 2024-01-30 华为技术有限公司 音频编解码方法、装置、存储介质及计算机程序产品

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
JP2693893B2 (ja) * 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
US5291557A (en) * 1992-10-13 1994-03-01 Dolby Laboratories Licensing Corporation Adaptive rematrixing of matrixed audio signals
JPH0787033A (ja) * 1993-09-17 1995-03-31 Sharp Corp ステレオ音声信号符号化装置
KR100269213B1 (ko) * 1993-10-30 2000-10-16 윤종용 오디오신호의부호화방법
JPH07170193A (ja) * 1993-12-15 1995-07-04 Matsushita Electric Ind Co Ltd マルチチャネル・オーディオ符号化方法
KR960012475B1 (ko) * 1994-01-18 1996-09-20 대우전자 주식회사 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
US5694332A (en) * 1994-12-13 1997-12-02 Lsi Logic Corporation MPEG audio decoding system with subframe input buffering
US5621772A (en) * 1995-01-20 1997-04-15 Lsi Logic Corporation Hysteretic synchronization system for MPEG audio frame decoder
US5910995A (en) * 1995-11-22 1999-06-08 Sony Corporation Of Japan DSP decoder for decoding analog SR encoded audio signals
JP3948752B2 (ja) * 1996-04-10 2007-07-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 複数情報信号符号化用符号化装置
US6252965B1 (en) * 1996-09-19 2001-06-26 Terry D. Beard Multichannel spectral mapping audio apparatus and method
US5893066A (en) * 1996-10-15 1999-04-06 Samsung Electronics Co. Ltd. Fast requantization apparatus and method for MPEG audio decoding
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
US6108584A (en) * 1997-07-09 2000-08-22 Sony Corporation Multichannel digital audio decoding method and apparatus
US6016111A (en) * 1997-07-31 2000-01-18 Samsung Electronics Co., Ltd. Digital data coding/decoding method and apparatus
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
JP3352406B2 (ja) * 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置

Also Published As

Publication number Publication date
ID21304A (id) 1999-05-20
DE69834010D1 (de) 2006-05-18
IL125268A (en) 2002-12-01
BR9806404A (pt) 1999-11-16
EP0918407B1 (de) 2006-03-29
JP3412082B2 (ja) 2003-06-03
EP0918407A3 (de) 2000-09-13
CN1126265C (zh) 2003-10-29
KR100335611B1 (ko) 2002-10-09
IL125268A0 (en) 1999-03-12
BR9806404B1 (pt) 2014-09-16
MY120333A (en) 2005-10-31
RU2197776C2 (ru) 2003-01-27
KR19990041072A (ko) 1999-06-15
CN1218334A (zh) 1999-06-02
US6529604B1 (en) 2003-03-04
JPH11317672A (ja) 1999-11-16
EP0918407A2 (de) 1999-05-26

Similar Documents

Publication Publication Date Title
DE69834010T2 (de) Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
EP0931386B1 (de) Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals
DE602004013031T2 (de) Verfahren zum codieren eines digitalen signals in einen skalierbaren bitstrom, verfahren zum decodieren eines skalierbaren bitstroms
EP0667063B1 (de) Verfahren zur übertragung und/oder speicherung digitaler signale mehrerer kanäle
DE60012860T2 (de) Verfahren zur Verarbeitung mehrerer digitaler Audiodatenströme
DE69732761T2 (de) Verfahren und Vorrichtung zur kalkulierbaren Audiocodierung bzw.-decodie- rung
DE102006022346B4 (de) Informationssignalcodierung
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE3688980T2 (de) Verfahren zur Multigeschwindigkeitskodierung von Signalen und Einrichtung zur Durchführung dieses Verfahrens.
DE60214599T2 (de) Skalierbare audiokodierung
DE60110679T2 (de) Wahrnehmungs-Codierung von Audiosignalen unter Verwendung von getrennter Irrelevanzreduktion und Redundanzreduktion
DE69534140T2 (de) Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren
DE60225276T2 (de) Codierungsvorrichtung und -verfahren, decodierungsvorrichtung und -verfahren und programm
DE69024033T2 (de) Kodierungssystem mit variabler Bitrate.
DE69923555T2 (de) Verfahren und vorrichtung zur entropie-kodierung von quantisierten transformationskoeffizienten eines signals
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE69826529T2 (de) Schnelle datenrahmen-optimierung in einem audio-kodierer
DE19811039A1 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
CN1119376A (zh) 对来自多个信道的输入数字音频信号自适应编码的装置
IL158102A (en) A device and method for encrypting / decrypting audible coolants
DE69932861T2 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
DE69015105T2 (de) Kompressionseinrichtung für transformiertes, digitales Audiosignal mit adaptiver Quantisierung auf Grund eines psycho-akustischen Kriteriums.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition