DE60113602T2 - Audiokodierer mit psychoakustischer Bitzuweisung - Google Patents

Audiokodierer mit psychoakustischer Bitzuweisung Download PDF

Info

Publication number
DE60113602T2
DE60113602T2 DE60113602T DE60113602T DE60113602T2 DE 60113602 T2 DE60113602 T2 DE 60113602T2 DE 60113602 T DE60113602 T DE 60113602T DE 60113602 T DE60113602 T DE 60113602T DE 60113602 T2 DE60113602 T2 DE 60113602T2
Authority
DE
Germany
Prior art keywords
subband signals
coding
bit allocation
audio
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60113602T
Other languages
English (en)
Other versions
DE60113602D1 (de
Inventor
Satoshi Minato-ku Hasegawa
Yuichiro Minato-ku Takamizawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of DE60113602D1 publication Critical patent/DE60113602D1/de
Publication of DE60113602T2 publication Critical patent/DE60113602T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Die vorliegende Erfindung betrifft einen Audiocodierer und ein in Kombination mit dem Audiocodierer verwendbares psychoakustisches Analyseverfahren. Die vorliegende Erfindung betrifft insbesondere eine Audiocodierverarbeitung wie z.B. ein MPEG-Verfahren (MPEG: Moving Picture Experts Group) unter Verwendung menschlicher Psychoakustik.
  • Es ist bekannt, daß in Audiocodierverarbeitungen, z.B im MPEG-Verfahren, menschliche Psychoakustik verwendet wird. Die Audiocodierverarbeitung wird unter Verwendung einer Software implementiert, die unter der Steuerung einer Zentraleinheit (CPU) in einem Informationsprozessor, z.B. in einem Personalcomputer, läuft. Die auf der als psychoakustisches Modell bezeichneten menschlichen akustischen Wahrnehmung basierende Audiocodierverarbeitung ist jedoch in der praktischen Anwendung eingeschränkt. Beispielsweise nimmt die Verarbeitungslast während eines Maskierungseffektberechnungsschritts wesentlich zu.
  • In Abhängigkeit von der Leistungsfähigkeit eines Prozessors, insbesondere wenn eine Echtzeitcodierung ausgeführt wird, wird die Codierverarbeitung verzögert, so daß bei der Decodierung Tondiskontinuitäten auftreten.
  • 1 zeigt eine Konfiguration eines Audiocodierers, in dem ein MPEG-1/Audio-Layer-1-Verfahren für die vorstehende erwähnte Codierverarbeitung verwendet wird. In der Figur empfängt der Audiocodierer 2 Eingangs-Audiodaten als ein Eingangssignal und gibt codierte Audiodaten aus. Der Audiocodierer 2 weist eine Subbandteilungseinheit 21, eine Ska liereinheit 22, eine Bitzuweisungseinheit 23, eine Quantisierungseinheit 24, eine Bitstromerzeugungseinheit 25 und eine psychoakustische Analyseeinheit 26 auf, in der ein psychoakustisches Modell verwendet wird.
  • Die Subbandteilungseinheit 21 teilt das Eingangssignal in mehrere Frequenz- oder Subbänder und gibt die mehreren geteilten Subbänder aus. Die Skaliereinheit 22 berechnet Skalierungsfaktoren und stellt Dynamikbereiche gleichmäßig ein.
  • Die psychoakustische Analyseeinheit 26 bestimmt in jedem der Subbandsignale ein Verhältnis, mit dem ein Audiosignal maskiert wird. Gemäß dem in der psychoakustischen Analyseeinheit 26 bestimmten Verhältnis weist die Bitzuweisungseinheit 23 jedem der Subbandsignale Bits zu. Die Quantisierungseinheit 24 führt eine Quantisierungsberechnung für jedes der von der Bitzuweisungseinheit 23 ausgegebenen Signale aus. Die Bitstromerzeugungseinheit 25 erzeugt einen Bitstrom zusammen mit einem Header und Zusatzinformation und gibt ihn als codierte Audiodaten aus.
  • 2 zeigt eine Konfiguration der psychoakustischen Analyseeinheit 26. In der Figur empfängt die psychoakustische Analyseeinheit die Eingangs-Audiodaten als Eingangssignal und gibt Bitzuweisungsinformation aus. Die psychoakustische Analyseeinheit 36 weist ferner eine Fast-Fourier-Transformationseinheit (FFT-Einheit) 31, eine Spektrumerfassungseinheit 32, eine Maskierungsschwellenwertberechnungseinheit 33, eine Signal/Maske-Verhältnis-Berechnungseinheit (SMR-Berechnungseinheit) 34 und eine Schalldruckpegelberechnungseinheit 35 auf.
  • In der psychoakustischen Analyseeinheit 26 werden die Eingangs-Audiodaten durch die FFT-Einheit 31 spektral aufgelöst. In den aufgelösten Spektren erfaßt die Spektrumerfassungseinheit 32 nur ein als "Masker" verwendbares Spektrum.
  • Die Maskierungsschwellenwertberechnungseinheit 33 führt für die durch die Spektrumerfassungseinheit 32 erfaßten Spektren eine Verarbeitung aus, z.B. eine Verarbeitung für einen Vergleich mit einem minimalen Hörschwellenwert und eine Maskierungseffektanalyse, und berechnet dann einen Maskierungswert für jedes der Subbandsignale. Die Schalldruckpegelberechnungseinheit 35 berechnet den Schalldruckpegel für jedes der Subbandsignale.
  • Schließlich berechnet die SMR-Berechnungseinheit 34 für jedes der Subbandsignale ein Signal/Maske-Verhältnis (SMR) unter Verwendung des von der Schalldruckpegelberechnungseinheit 35 empfangenen Schalldruckpegels und des von der Maskierungsschwellenwertberechnungseinheit 33 empfangenen Maskierungswertes. Daraufhin gibt die SMR-Berechnungseinheit 34 das Rechenergebnis an die (in 1 dargestellte) Bitzuweisungseinheit 23 aus.
  • Nachstehend wird die Arbeitsweise der Bitzuweisungseinheit 23 unter Bezug auf 3 beschrieben.
  • Der Quantisierungsschrittwert jedes der Subbandsignale wird auf "0" initialisiert (Schritt S31). Anschließend wird das Maske/Rausch-Verhältnis (MNR) als Maskierungswert für jedes der Subbandsignale berechnet (Schritt S32).
  • Basierend auf den Rechenergebnissen wird der Quantisierungsschrittwert des Subbandsignals mit einem minimalen MNR-Verhältnis um einen Schritt inkrementiert (Schritt S33), um das MNR-Verhältnis zu aktualisieren (Schritt S34). Dann wird die Gesamtzahl von aktuell zugewiesenen Symbolen bestimmt (Schritt S35) und mit einer zulässigen Anzahl von Symbolen verglichen (Schritt S36).
  • Wenn die Gesamtzahl von Symbolen die zulässige Anzahl von Symbolen noch nicht erreicht hat, springt die Verarbeitung zu Schritt S31 zurück, und die Bitzuweisungsverarbeitung wird fortgesetzt. Wenn die Gesamtzahl von Symbolen die zulässige Anzahl von Symbolen erreicht hat, wird die Bitzuweisungsverarbeitung beendet.
  • Die vorstehend beschriebene herkömmliche Audiocodierverarbeitung gemäß der menschlichen akustischen Wahrnehmung, die allgemein als psychoakustisches Modell bezeichnet wird, ist jedoch hinsichtlich einer praktischen Anwendung eingeschränkt. Die Verarbeitungslast nimmt während des Maskierungseffektberechnungsschritts zu. Außerdem nimmt die Zahl von Schleifeniterationen zu, wodurch ein Problem hinsichtlich einer höheren Verarbeitungslast auftritt. Dies ist der Fall, weil in der Bitzuweisungsverarbeitung Bits nacheinander von denjenigen Subbändern zugewiesen werden, die eine hohe Bitzuordnungspriorität aufweisen.
  • Nachstehend werden andere bekannte Audiocodierverfahren beschrieben.
  • In der JP-A-10-304360 werden lastreduzierende Verfahren für eine Audiocodierverarbeitung beschrieben. In dieser Veröffentlichung sind drei Verfahren dargestellt, durch die eine Audiocodierverarbeitung implementiert wird, ohne daß eine psychoakustische Analyse ausgeführt wird, für die in der Audiocodierverarbeitung die höchste Verarbeitungslast erforderlich ist.
  • Gemäß einem ersten Verfahren werden einem Subbandsignal, das einen Ton mit einem hohen Wahrnehmungspegel des menschlichen Hörempfindens aufweist, Bits unabhängig von einzelnen Schalldruckpegeln bedingungslos zugewiesen. Im ersten Verfahren kann ein Fall auftreten, in dem Bits auch für ein Subbandsignal zugewiesen werden, das nahezu keinen Schalldruck aufweist.
  • Gemäß einem zweiten Verfahren wird der durch ein Subbandsignal dargestellte Ton gemäß einem Wahrnehmungspegel des menschlichen Hörempfindens gewichtet, und es wird ein jedem der Subbandsignale zuzuweisender Bitanteil gemäß dem Schalldruck jedes der Subbandsignale bestimmt. Dann werden entsprechend den auf die vorstehend erwähnte Weise bestimmten Anteilen den einzelnen Subbandsignalen Bits zugewiesen.
  • In einem dritten Verfahren wird der durch ein Subbandsignal dargestellte Ton gemäß einem Wahrnehmungspegel des menschlichen Hörempfindens gewichtet. Dann wird für jedes der Subbandsignale gemäß einem Skalierungsfaktor für das Subbandsignal eine (als Bitzuweisungsinformationskoeffizient bezeichnete) Bitzuweisungspriorität bestimmt. Daraufhin werden Bits in der Folge von Subbandsignalen zugewiesen, die eine hohen Bitzuweisungspriorität aufweisen.
  • In der JP-C-2558997 ist ein Verfahren dargestellt, durch das die Verarbeitungslast in der Audiocodierverarbeitung durch Ausführen von zwei Typen von Gewichtungsverarbeitungen für einzelne Subbandsignale reduziert wird. Der erste Typ einer Gewichtungsverarbeitung wird gemäß einem den Pegel jedes der Subbandsignale darstellenden Logarithmuswert ausgeführt. Der zweite Typ einer Gewichtungsverarbeitung ist für jedes der Subbandsignale vorbestimmt. Der erste Typ einer Gewichtungsverarbeitung wird als Ersatz für eine psychoakustische Analyseverarbeitung vorgeschlagen.
  • In der JP-A-11-330977 ist ein Verfahren dargestellt, das einzelne Subbandsignale gemäß Quantisierungsfehlern klassifiziert. In diesem Verfahren wird ein Subbandsignal, das einen großen Quantisierungsfehler erzeugt, nicht codiert, sondern es werden nur einem Subbandsignal, das einen kleinen Quantisierungsfehler erzeugt, Codierungsbits zugewiesen. Durch dieses Verfahren kann die Codierungseffizienz verbessert werden, während die Tonqualität beibehalten wird. Weil durch dieses Verfahren der Frequenzbereich des codierten Signals adaptiv verändert wird, wird das Verfahren als "adaptiv skalierbare Codierung" bezeichnet.
  • In der EP-A-0805564 ist ein Verfahren dargestellt, in dem Bits gemäß einem Rauschsignalformungsfaktor zugewiesen werden, der gemäß der Glattheit des Spektrums des Eingangssignals verändert wird, wobei die Empfindlichkeit des menschlichen Hörmechanismus berücksichtigt wird.
  • Wie vorstehend beschrieben wurde, wird durch diese Verfahren die Verarbeitungslast der Audiocodierverarbeitung vermindert. Allerdings wird durch keines der Verfahren eine psychoakustische Verarbeitung durch eine kleine Anzahl von Operationen implementiert, um die Verarbeitungslast der Audiocodierverarbeitung zu reduzieren.
  • Unter den vorstehend beschriebenen Umständen ist es eine Aufgabe der vorliegenden Erfindung, einen Audiocodierer bereitzustellen, der eine psychoakustische Analyseverarbeitung durch eine minimale Anzahl von Operationen in der Audiocodierverarbeitung implementiert und eine effiziente Audiocodierung mit einer minimalen Verarbeitungslast implementiert.
  • Es ist eine andere Aufgabe der vorliegenden Erfindung, ein in Kombination mit dem vorstehend erwähnten erfindungsgemäßen Audiocodierer verwendbares psychoakustisches Analyseverfahren bereitzustellen.
  • Ein erfindungsgemäßer Audiocodierer weist eine Subbandteilungseinheit zum Teilen eines Eingangssignals in mehrere Frequenzbänder und zum Ausgeben mehrerer Subbandsignale auf, und führt eine Kompressions-Codierverarbeitung für die einzelnen Subbandsignale aus. Der Audiocodierer weist ferner eine Bitzuweisungseinheit auf. Die Bitzuweisungseinheit führt eine Gewichtung gemäß einer Kurve gleicher Lautstärke aus, die Punkte, die Schalldruckwerte der gleichen Hörlautstärke darstellen, für jede Frequenz der einzelnen Subbandsignale verbindet. Außerdem führt die Bitzuweisungseinheit eine Bitzuweisung aus, um einen gewichteten Quantisierungsfehler in den einzelnen Subbandsignalen auszugleichen.
  • Das erfindungsgemäße psychoakustische Analyseverfahren wird auf einen Audiocodierer angewendet, der eine Subbandteilungseinheit zum Teilen eines Eingangssignals in mehrere Frequenzbänder und zum Ausgeben mehrerer geteilter Subbandsignale aufweist und eine Kompressions-Codierverarbeitung für die durch die Subbandteilungseinheit geteilten einzelnen Subbandsignale ausführt. Das psychoakustische Analyseverfahren weist die Schritte zum Ausführen einer Gewichtung gemäß einer Kurve gleicher Lautstärke aus, die Punkte, die Schalldruckwerte der gleichen Hörlautstärke darstellen, für jede Frequenz der einzelnen Subbandsignale verbindet. Außerdem weist das psychoakustische Analyseverfahren den Schritt zum Ausführen einer Bitzuweisung zum Ausgleichen eines gewichteten Quantisierungsfehler in den einzelnen Subbandsignalen aus.
  • Durch das erfindungsgemäße psychoakustische Analyseverfahren wird eine effiziente psychoakustische Analysetechnik bereitgestellt, die mit einer minimalen Rechenlast in einem Audiocodierverfahren, z.B. gemäß MPEG-Standards, implementierbar ist, das das menschliche Hörempfinden berücksichtigt.
  • Eine psychoakustische Analysetechnik gemäß dem MPEG-Standard berücksichtigt beispielsweise Grenzen von Verarbeitungen, in denen das menschliche Hörempfinden berücksichtigt wird, und Maskierungseffekte, um die Priorität der Bitzuweisung zu den einzelnen Subbandsignalen zu bestimmen. In den Spezifikationen der Standards wird das menschliche Hörempfinden als psychoakustisches Modell bezeichnet, und es wird eine Verarbeitung dafür spezifiziert. In der Verarbeitung werden Audiobändern mit einem höheren menschlichen Hörempfinden eine größere Anzahl von Bits zugewiesen. Daher können durch diese Technik codierte Audiodaten mit einer hohen Tonwiedergabequalität erhalten werden.
  • Die Verarbeitung gemäß den MPEG-Standards für das psychoakustische Modell beginnt jedoch mit einer FFT-Transformation (Fast-Fourier-Transformation) und beinhaltet andere komplizierte Verarbeitungen mit hoher Verarbeitungslast. Die Verarbeitung weist beispielsweise das Vergleichen von Daten von Signalen, die durch die FFT-Transformation an einer Grenze einer minimalen Hörempfindens erhalten werden, und eine Analyse von Maskierungseffekten auf.
  • Die Verarbeitungslast der Verarbeitung des psychoakustischen Modells nimmt insbesondere dann zu, wenn der Audiocodierer gemäß den MPEG-Standards unter Verwendung von Software implementiert wird, die durch eine CPU z.B. eines Personalcomputers gesteuert wird. Die Codierleistung wird daher durch die Leistungsfähigkeit eines Prozessors z.B. eines Personalcomputers, der die Codierverarbeitung ausführt, wesentlich beeinflußt und begrenzt. Wenn eine Echtzeitverarbeitung mit einem Audiocodierer mit einer niedrigen Leistungsfähigkeit ausgeführt wird, kann ein Fall auftreten, in dem die Decodierverarbeitung bei der Wiedergabe verzögert wird, wodurch Diskontinuitäten bei der Tonwiedergabe auftreten. Durch das erfindungsgemäße psychoakustische Analyseverfahren werden diese Probleme gelöst.
  • Im erfindungsgemäßen psychoakustischen Analyseverfahren wird für einzelne Subbandsignale ein Gewichtungskoeffizient gemäß einer Kurve gleicher Lautstärke gesetzt, und außerdem wird ein zulässiger Quantisierungsfehler-Anfangswert gesetzt. Anschließend wird für jedes der Subbandsignale, denen Bits zugewiesen werden können, die Anzahl von Quantisierungsschritten unter Verwendung des Skalierungsfaktors, des Gewichtungskoeffizients und des zulässigen Quantisierungsfehlers des entsprechenden Subbandsignals einzeln berechnet.
  • Daraufhin wird die Gesamtzahl zugewiesener Symbole berechnet. Wenn die berechnete Gesamtzahl von Symbolen größer ist als die zulässige Anzahl von Symbolen, wird ein neuer zulässiger Quantisierungsfehler gesetzt, und die Anzahl der Quantisierungsschritte wird für jedes der Subbandsignale neu berechnet. Andererseits wird, wenn die berechnete Gesamtzahl der Symbole kleiner oder gleich der zulässigen Anzahl von Symbolen ist, ein neuer zulässiger Quantisierungsfehler gesetzt, und dann wird bestimmt, ob der zulässige Quantisierungsfehler eine Ende- oder Abbruchbedingung für die Bitzuweisungsverarbeitung erfüllt. Wenn entschieden wird, daß die Abbruchbedingung nicht erfüllt ist, wird die Anzahl von Quantisierungsschritten für jedes der Subbandsignale neu berechnet. Wenn entschieden wird, daß die Abbruchbedingung erfüllt ist, wird die Hörsinnanalyse-Bitzuweisungsverarbeitung beendet.
  • Herkömmlich wird die Bitzuweisungsverarbeitung basierend auf dem Ergebnis einer unter Verwendung von Parametern des psychoakustischen Modells ausgeführten Berechnung ausgeführt. Weil im erfindungsgemäßen Verfahren jedoch die Bitzuweisung ausgeführt wird, um einen Quantisierungsfehler in den einzelnen Subbandsignalen auszugleichen, kann die Codierung ohne Verwendung eines psychoakustischen Modells ausgeführt werden.
  • Außerdem wird, wenn der Gewichtungskoeffizient für jedes der Subbandsignale gesetzt wird, die Codierungsbitrate, die gesetzt worden ist, verändert. Wenn festgestellt wird, daß die Codierungsbitrate niedriger ist als ein Referenzwert, wird der der Kurve gleicher Lautstärke entsprechende Gewichtungskoeffizient gemäß der Codierungsbitrate neu gewichtet. Daher kann durch das erfindungsgemäße Verfahren die der Codierungsbitrate entsprechende Tonqualität beibehalten, durch eine unzureichende Anzahl von Symbolen erzeugtes Co dierrauschen vermieden und der Codiervorgang entsprechend einem weiten Bereich von Codierungsbitraten implementiert werden.
  • 1 zeigt eine schematische Ansicht einer Konfiguration eines herkömmlichen MPEG-1/Audio-Layer-1-Codierers;
  • 2 zeigt eine schematische Ansicht einer Konfiguration einer in 1 dargestellten psychoakustischen Analyseeinheit;
  • 3 zeigt ein Ablaufdiagramm zum Darstellen einer Verarbeitung einer in 1 dargestellten Bitzuweisungseinheit;
  • 4 zeigt eine schematische Ansicht einer Konfiguration einer ersten Ausführungsform eines erfindungsgemäßen Audiocodierers;
  • 5 zeigt ein Ablaufdiagramm zum Darstellen einer Operation der in 4 dargestellten Hörsinnanalyse-Bitzuweisungseinheit;
  • 6 zeigt eine einer Kurve gleicher Lautstärke entsprechende Gewichtungstabelle in Subbandeinheiten in einer ersten Ausführungsform der vorliegenden Erfindung;
  • 7 zeigt eine Beziehung zwischen der Anzahl von Quantisierungsschritten und der Anzahl von Zuweisungsbits in einem MPEG-1/Audio-Layer-1-Codierverfahren;
  • 8 zeigt ein Ablaufdiagramm zum Darstellen eines Verfahrens zum Aktualisieren einer Gewichtungstabelle in eine Gewichtungstabelle in Subbandeinheiten, die Codierungsbitraten entsprechen, gemäß einer zweiten Ausführungsform der vorliegenden Erfindung;
  • 9 zeigt ein Beispiel einer Gewichtungstabelle in Subbandeinheiten, die Codierungsbitraten entsprechen, gemäß der zweiten Ausführungsform der vorliegenden Erfindung; und
  • 10 zeigt ein Ablaufdiagramm zum Darstellen einer Verarbeitung einer zweiten Ausführungsform einer Hörsinn- Bitzuweisungseinheit, wenn eine Codierungsbitrate niedriger ist als eine empfohlene Bitrate.
  • Nachstehend wird unter Bezug auf 4 eine erste Ausführungsform eines erfindungsgemäßen Audiocodierers beschrieben.
  • In 4 empfängt ein Audiocodierer 10 Eingangs-Audiodaten als ein Eingangssignal und gibt codierte Audiodaten aus. Der Audiocodierer 10 weist eine Subbandteilungseinheit 11, eine Skaliereinheit 12, eine Hörsinnanalyse-Bitzuweisungseinheit 13, eine Quantisierungseinheit 14 und eine Bitstromerzeugungseinheit 15 auf.
  • Die Subbandteilungseinheit 11 teilt das Eingangssignal in mehrere Frequenzbänder und gibt mehrere geteilte Subbandsignale aus. Die Skaliereinheit 12 berechnet einen Skalierungsfaktor bezüglich eines Referenzwertes für jedes der Subbandsignale und stellt deren Dynamikbereich gleichmäßig ein.
  • Die Hörsinnanalyse-Bitzuweisungseinheit 13 führt eine psychoakustische Analyse aus, die ein Merkmal der vorliegenden Erfindung darstellt. Die Quantisierungseinheit 14 führt Quantisierungsberechnungen aus. Die Bitstromerzeugungseinheit 15 erzeugt einen Bitstrom in Kombination mit einer Header-Information und Zusatzinformation.
  • Die Hörsinnanalyse-Bitzuweisungsweinheit 13 führt eine Gewichtung für jedes der von der Skalierungseinheit 12 ausgegebenen Subbandsignale gemäß einer Kurve gleicher Lautstärke aus. Dann berechnet die Hörsinnanalyse-Bitzuweisungseinheit 13 die zuzuweisende Bitmenge, durch die der gewichtete Quantisierungsfehler in den einzelnen Subbandsignalen ausgeglichen werden kann.
  • Außer der Gewichtung gemäß der Kurve gleicher Lautstärke kann die Hörsinnanalyse-Bitzuweisungsweinheit 13 auch Codierungsbitraten entsprechende Gewichte hinzufügen und die zuzuweisende Bitmenge berechnen, durch die der gewichtete Quantisierungsfehler in den einzelnen Subbandsignalen ausgeglichen werden kann.
  • Das menschliche Hörempfinden ist personenabhängig. Auch ein Ton, der durch ein Signal dargestellt wird, das einen Ton mit dem gleichen Schalldruckpegel darstellt, ändert sich in Abhängigkeit von der Frequenz des Signals in der Hörlautstärke. Eine Kurve, die Punkte verbindet, die gleiche Druckwerte von Tönen darstellen, die den gleichen Hörlautstärkepegel für eine einzelne Reintonfrequenz aufweisen, wird als Kurve gleicher Lautstärke oder Kurve gleicher Wahrnehmung bezeichnet. D.h., obwohl der durch die Signale dargestellte Ton unabhängig von seiner Frequenz den gleichen Schalldruckpegel aufweist, wird er in Abhängigkeit vom jeweiligen Hörempfinden oder Hörsinn verschieden wahrgenommen.
  • Gemäß der Kurve gleicher Lautstärke liegen die durch Menschen am besten wahrnehmbaren Frequenzen in der Nähe von 4 kHz, und eine Frequenz, die niedriger oder höher ist als 4 kHz ist für einen menschlichen Hörer nur schwer hörbar. Kurven gleicher Lautstärke sind in "Sound Oscillation Technology" (Nishiyama et al.; Corona Corp., Seite 23; April 1979) ausführlich beschrieben.
  • 5 zeigt ein Ablaufdiagramm zum Darstellen der Arbeitsweise der in 4 dargestellten Hörsinnanalyse-Bitzuweisungseinheit 13. 6 zeigt ein Beispiel einer einer Kurve gleicher Lautstärke entsprechenden Gewichtungstabelle in Subbandeinheiten gemäß einer ersten Ausführungsform der vorliegenden Erfindung. 7 zeigt die Beziehung zwischen der Anzahl von Quantisierungsschritten und der Anzahl von Zuweisungsbits in einem MPEG-1/Audio-Layer-1-Codierverfahren. Daten, die die in 6 dargestellte Gewichtungstabelle und die in 7 dargestellte entsprechende Beziehung darstellen, sind in einer Speichereinheit 13-1 der Hörsinnanalyse-Bitzuweisungseinheit 13 gespeichert.
  • Nachstehend wird unter Bezug auf die 4 bis 7 eine Ausführungsform eines erfindungsgemäßen psychoakustischen Analyseverfahrens anhand eines MPEG-1/Audio-Layer-1-Codierverfahrens als Beispiel beschrieben.
  • Ein Eingangssignal, das einer linearen 16-Bit-Digitalisierung unterzogen wird, wird durch die Subbandteilungseinheit 11 in Subbandsignale von 32 Bändern geteilt. Daraufhin wird eine Verarbeitung in Einheiten von 12 Abtastungen pro Subband, d.h. in Einheiten von insgesamt 384 Abtastungen, ausgeführt. Um die Dynamikbereiche der in 32 Frequenzbänder geteilten einzelnen Subbandsignale gleichmäßig einzustellen, normiert die Skalierungseinheit 12 die Bereiche derart, daß die maximale Amplitude auf 1,0 gesetzt wird, und berechnet einen Skalierungsfaktor in Einheiten des Subbandsignals.
  • Anschließend bestimmt die Hörsinnanalyse-Bitzuweisungseinheit 13 die Bitzuweisungsmenge für jedes der Subbandsignale. Zunächst wird ein Initialisierungsschritt ausgeführt (Schritt S51 in 5). Der Initialisierungsschritt beinhaltet die Bestimmung von Gewichtungskoeffizienten für die einzelnen Subbandsignale. Die Gewichtungskoeffizienten werden gemäß der vorstehend beschriebenen Kurve gleicher Lautstärke bestimmt. Die Gewichtungskoeffizienten werden daher derart bestimmt, daß einem Subbandsignal mit einem Frequenzband, das durch einen Menschen am besten wahrnehmbar ist, die größte Anzahl von Bits zugewiesen wird.
  • Gemäß der Kurve gleicher Lautstärke kann bestimmt werden, daß ein Frequenzband bei etwa 4 kHz für Menschen am besten wahrnehmbar ist. In dem Beispiel gilt: je größer der Koeffizient ist, desto niedriger ist die Bitzuweisungsprio rität für das Subbandsignal. Außerdem wird der Koeffizient für die höchste Bitzuweisungspriorität auf 1,0 gesetzt.
  • Nachstehend wird ein Basiskonzept des Verfahrens beschrieben.
  • Wenn der Skalierungsfaktor für jedes der Subbandsignale durch Sscale(sb) und die Anzahl der Quantisierungsschritte durch Qsteps(sb) dargestellt wird, ist ein Quantisierungsfehler Qerr(sb) durch folgende Gleichung gegeben: Qerr(sb) = Sscale(sb)/Qsteps(sb)(sb = 0, 1, 2, ..., 31).
  • Außerdem wird, wenn der Gewichtungskoeffizient für jedes der Subbandsignale durch Wweight(sb) dargestellt wird, ein Gewichtungsquantisierungsfehler Wqerr(sb) durch folgende Gleichung dargestellt: Wqerr(sb) = Qerr(sb) × Wweight(sb)(sb = 0, 1, 2, ..., 31).
  • Eine Bitzuweisung unter Verwendung der menschlichen Psychoakustik wird durch Steuern der Anzahl von Quantisierungsschritten Qsteps(sb) zum Ausgleichen des Quantisierungsfehlers Wqerr(sb) in den einzelnen Subbandsignalen implementiert, und gleichzeitig wird der Wert des Quantisierungsfehlers Wqerr(sb) auf einen Minimalwert einer zulässigen Anzahl von Symbolen reduziert.
  • Daraufhin wird der zulässige Quantisierungsfehler auf einen Anfangswert gesetzt. Der zulässige Quantisierungsfehler bezeichnet einen Wert, der durch Dividieren eines maximalen Skalierungsfaktors in jedem der Subbandsignale durch eine vorläufig festgelegte maximale Anzahl von Quantisierungsschritten erhalten wird, die jedem der Subbandsignale zugewiesen werden können.
  • Wenn der maximale Skalierungsfaktor durch Smax_scale bezeichnet wird, und die vorläufig festgelegte maximale Anzahl von Quantisierungsschritten "255" beträgt, wird der An fangswert eines zulässigen Quantisierungsfehlers Qerr_thr durch folgende Gleichung erhalten: Qerr_thr = Smax_scale/255
  • Die Anzahl der Quantisierungsschritte ist die Anzahl der Schritte, über mit der eine Quantisierung ausgeführt wird. Im MPEG-1/Audio-Layer-1-Codierverfahren wird jede Anzahl von Quantisierungsschritten durch einen Wert dargestellt, der um "1" niedriger ist als ein Exponent von "2", wobei der Maximalwert der Anzahl der Quantisierungsschritten "32767" und der Minimalwert "3" beträgt. Wenn keine Quantisierung ausgeführt wird, wird die Anzahl der Quantisierungsschritte auf "0" gesetzt.
  • Außerdem wird im MPEG-1/Audio-Layer-1-Codierverfahren "32767" als maximale Anzahl von Quantisierungsschritten gesetzt, die jedem der Subbandsignale praktisch zuweisbar sind. Daher kann, wenn dieser Wert gesetzt ist, eine Quantisierung mit dem kleinsten Fehler ausgeführt werden.
  • Wenn der Wert "3" als minimale Anzahl der Quantisierungsschritte gesetzt ist, wird durch die Quantisierung der größte Fehler erzeugt. Gemäß dem vorstehenden Sachverhalt werden ein Quantisierungsfehler Qerr_thr_min, der in einer Anfangsphase am kleinsten ist, und ein Quantisierungsfehler Qerr_thr_max, der in einer Anfangsphase am größten ist, durch folgende Ausdrücke dargestellt: Qerr_thr_min = Smax_scale/32767 Qerr_thr_max = Smax_scale/3.
  • Diese Ausdrücke werden verwendet, um zu bestimmen, ob der Quantisierungsfehler innerhalb vorgegebener Grenzen liegt, wenn die Gesamtanzahl von Symbolen berechnet wird.
  • Dadurch wird die Initialisierung abgeschlossen. Anschließend wird eine Verarbeitung zum Berechnen der Anzahl von Quantisierungsschritten für jedes der Subbandsignale ausgeführt (Schritt S52 in 5). Die Anzahl von Quanti sierungsschritten Qsteps(sb) für jedes der Subbandsignale wird durch den folgenden Ausdruck erhalten: Qsteps(sb) = Sscale(sb) × Wweight(sb)/Qerr_thr(sb = 0, 1, 2, ..., 31).
  • In diesem Fall muß die erhaltene Anzahl von Quantisierungsschritten Qsteps(sb) auf eine durch das MPEG-1/Audio-Layer-1-Codierverfahren definierte vorgegebene Anzahl von Quantisierungsschritten gerundet werden.
  • 7 zeigt die Beziehung zwischen der Anzahl der Quantisierungsbits und der dieser entsprechenden Anzahl von Quantisierungschritten. In der vorliegenden Ausführungsform wird die Anzahl der Quantisierungsschritte auf den nächsten Spezifikationswert gerundet.
  • Daraufhin wird basierend auf der den einzelnen Subbandsignalen zugewiesenen Anzahl von Quantisierungsschritten eine entsprechende Anzahl von Quantisierungsbits bestimmt. Außerdem werden die Anzahl von Bits für Seiteninformation, Header-Information und ähnliche Information hinzugefügt, die zum Erzeugen eines MPEG-1/Audio-Bitstroms erforderlich sind. Dadurch wird eine Gesamtzahl von Symbolen erhalten (Schritt S53 in 5).
  • Daraufhin wird die Gesamtzahl von Symbolen mit der zulässigen Anzahl von Symbolen verglichen, die gemäß der Codierungsbitrate bestimmt und praktisch zuweisbar ist (Schritt S54 in 5). Wenn die Gesamtzahl von Symbolen größer ist als die zulässige Anzahl von Symbolen, wird, weil festgestellt werden kann, daß der aktuelle zulässige Quantisierungsfehler Qerr_thr übermäßig klein ist, der zulässige Quantisierungsfehler Qerr_thr auf einen größeren Wert aktualisiert (Schritt S55 in 5).
  • Der zulässige Quantisierungsfehler Qerr_thr wird folgendermaßen aktualisiert. Zunächst wird der aktuelle zulässige Quantisierungsfehler Qerr_thr als neuer kleinster Quan tisierungsfehler Qerr_thr_min gespeichert. D.h., die Beziehung kann dargestellt werden durch: Qerr_thr_min = Qerr_thr.
  • Anschließend wird ein neuer zulässiger Quantisierungsfehler gemäß folgendem Ausdruck berechnet: Qerr_thr = (Qerr_thr + Qerr_thr_max)/2.
  • Nachdem der zulässige Quantisierungsfehler wie vorstehend beschrieben aktualisiert wurde, wird die Anzahl von Quantisierungsschritten für jedes der Subbandsignale neu berechnet (Schritt S52 in 5).
  • Wenn festgestellt wird, daß die Gesamtzahl von Symbolen kleiner oder gleich der zulässigen Anzahl von Symbolen ist, wird, weil festgestellt werden kann, daß der aktuelle zulässige Quantisierungsfehler übermäßig groß ist, der aktuelle zulässige Quantisierungsfehler auf einen kleineren Wert aktualisiert (Schritt S56 in 5).
  • Der zulässige Quantisierungsfehler Qerr_thr wird folgendermaßen aktualisiert. Zunächst wird der aktuelle zulässige Quantisierungsfehler Qerr_thr als neuer größter Quantisierungsfehler Qerr_thr_max gespeichert. D.h., die Beziehung kann folgendermaßen dargestellt werden: Qerr_thr_max = Qerr_thr.
  • Daraufhin wird der neue zulässige Quantisierungsfehler gemäß folgendem Ausdruck berechnet: Qerr_thr = (Qerr_thr + Qerr_thr_min)/2.
  • Dann wird festgestellt, ob die Bitzuweisung gemäß dem neuen zulässigen Quantisierungsfehler konvergiert hat. Wenn die durch den folgenden Ausdruck dargestellte Bedingung erfüllt ist, wird festgestellt, daß die Bitzuweisung konvergiert hat, so daß die Verarbeitung beendet wird (Schritt S57 in 5). Qerr_thr/Qerr_thr_max > 0,9.
  • Wenn die vorstehende Bedingung nicht erfüllt ist, wird festgestellt, daß die Bitzuweisungsverarbeitung nicht konvergiert hat. In diesem Fall wird die Anzahl der Quantisierungsschritte für jedes der Subbandsignale unter Verwendung des aktualisierten zulässigen Quantisierungsfehlers Qerr_thr neu berechnet (Schritt S52 in 5).
  • Daraufhin quantisiert oder digitalisiert die Quantisierungseinheit 14 jedes der Subbandsignale unter Verwendung einer linearen Quantisierungseinrichtung, die eine Nullsymmetrie-Darstellung verwendet. Dann erzeugt die Bitstromerzeugungseinheit 15 einen Bitstrom zusammen mit Header- und Seiteninformation. Dadurch wird die Codierungsverarbeitung abgeschlossen.
  • Gemäß dem Bitzuweisungsverfahren, in dem das in den MPEG-Standards spezifizierte psychoakustische Modell verwendet wird, werden komplizierte Berechnungen zum Analysieren von FFT-Daten, Maskierungseffekten und ähnliche Verarbeitungen mit einer hohen Verarbeitungslast ausgeführt. Wie vorstehend beschrieben wurde, sind im erfindungsgemäßen Bitzuweisungsverfahren keine. derartigen komplizierten Berechnungen erforderlich, so daß die Codierverarbeitungslast reduziert werden kann.
  • Die 8 bis 10 stehen mit einer zweiten Ausführungsform der vorliegenden Erfindung in Beziehung. 8 zeigt ein Ablaufdiagramm zum Darstellen eines Verfahrens zum Aktualisieren einer Gewichtungstabelle in eine Gewichtungstabelle in Subbandeinheiten, die einer Codierungsbitrate entsprechen. 9 zeigt ein Beispiel einer Gewichtungstabelle in Subbandeinheiten, die einer Codierungsbitrate entsprechen. 10 zeigt ein Ablaufdiagramm zum Darstellen der Arbeitsweise der (in 4 dargestellten) Hörsinnanalyse-Bitzuweisungseinheit 13, wenn eine Codierungsbitrate kleiner ist als eine empfohlene Bitrate. Die in 9 dar gestellte Gewichtungstabelle ist in der Speichereinheit 13-1 der in 4 dargestellten Hörsinnanalyse-Bitzuweisungseinheit 13 gespeichert.
  • Ein Audiocodierer dieser Ausführungsform hat mit Ausnahme der Verarbeitung der Hörsinnanalyse-Bitzuweisungseinheit 13 die gleiche Konfiguration wie der in 4 dargestellte Audiocodierer 10. Daher werden die gleichen Abschnitte nicht näher erläutert. Die vorliegende Ausführungsform wird nachstehend unter Bezug auf die 4, 8, 9 und 10 beschrieben.
  • In der vorstehend beschriebenen ersten Ausführungsform wird die der Kurve gleicher Lautstärke entsprechende Gewichtungstabelle erzeugt, und unter Verwendung der Tabelle werden unter einer Vorbedingung, daß allen Subbandsignalen Bits zugewiesen werden, Bits zugewiesen. In der ersten Ausführungsform kann jedoch, wenn die Codierungsbitrate niedrig ist, insbesondere wenn die Codierungsbitrate kleiner ist als die empfohlene Bitrate, die als Soll-Bitrate bezeichnet wird, und eine Gewichtung ausgeführt wird, wenn die Codierungsbitrate hoch ist, ein Mangel an Bits entstehen. Durch einen Mangel an Zuweisungsbits kann die Tonqualität abnehmen und Codierrauschen erzeugt werden.
  • Um die vorstehend erwähnten Probleme zu lösen, wird die Bitzuweisungspriorität für ein Subbandsignal auf der Seite eines hohen Audiobandes vermindert, und einem Frequenzband, das einen Ton darstellt, der durch einen menschlichen Hörer leicht wahrnehmbar ist, wird eine große Bitzahl zugewiesen. Dadurch kann die Tonqualität gemäß den Codierungsbitraten beibehalten und Codierrauschen verhindert werden. Nachstehend wird eine Verarbeitung beschrieben, die ausgeführt wird, wenn die Codierungsbitrate niedriger ist als die Soll-Bitrate.
  • Zunächst berechnet der Codierer einen Gewichtungskoeffizient für jedes der Subbandsignale (Schritt S101 in 10). Bei der Berechnung des Gewichtungskoeffizienten für jedes der Subbandsignale wird zunächst eine durch einen Benutzer gesetzte Codierungsbitrate verifiziert (Schritt S81 in 8). Bei der Verifizierung wird bestimmt, ob die Codierungsbitrate niedriger ist als eine Soll-Bitrate. Wenn festgestellt wird, daß die Codierungsbitrate größer oder gleich der Soll-Bitrate ist (Schritt S82 in 8), verwendet der Codierer die in 6 dargestellte, der Kurve gleicher Lautstärke entsprechende Gewichtungstabelle.
  • Wenn festgestellt wird, daß die Codierungsbitrate kleiner ist als die Soll-Bitrate (Schritt S82 in 8), verwendet der Codierer einen einer Bitrate entsprechenden Koeffizienten (9) und einen auf der Kurve gleicher Lautstärke basierenden Gewichtungskoeffizienten (6), um einen neuen Gewichtungskoeffizienten zu berechnen (Schritt S83 in 8).
  • Wenn der der Kurve gleicher Lautstärke entsprechende Gewichtungskoeffizient durch Wweight(sb) dargestellt wird, und der einer Bitrate entsprechende Koeffizient durch Wweight_br(sb) dargestellt wird, wird ein neuer Gewichtungskoeffizient Wweight_new(sb) durch folgenden Ausdruck erhalten: Wweight_new(sb) = Wweight(sb) × Wweight_br(sb)(sb = 0, 1, 2, ..., 31)
  • Anschließend wird eine Initialisierung vorgenommen, um die Bitzuweisungsverarbeitung zu starten (Schritt S102 in 10). Wenn die Codierungsbitrate größer oder gleich der Soll-Bitrate ist, wird Wweight(sb) als Gewichtungskoeffizient verwendet. Wenn die Codierungsbitrate kleiner ist als die Soll-Bitrate, wird Wweight_new(sb) als Gewichtungskoeffizient verwendet.
  • Für die Initialisierung wird die gleiche Verarbeitung wie in Schritt S51 der ersten Ausführungsform der vorliegenden Erfindung ausgeführt. Auch für die folgende Bitzuweiungsverarbeitung (Schritte S103 bis S108 in 10) wird die gleiche Verarbeitung wie in der ersten Ausführungsform (Schritte S52 bis S57 in 5) ausgeführt, und die Bitzuweisungsverarbeitung wird darauf beendet.
  • Auf diese Weise wird jedem der Subbandsignale das der Codierungsbitrate entsprechende Gewicht hinzugefügt. Dadurch kann die der Codierungsbitrate entsprechende Tonqualität beibehalten werden, und es kann ein Audiocodierverfahren ausgeführt werden, durch das Codierrauschen verhindert wird.
  • Wie vorstehend beschrieben wurde, ist im erfindungsgemäßen Verfahren im Unterschied zum herkömmlichen Verfahren, die Bitzuweisungsverarbeitung unter Verwendung des psychoakustischen Modells nicht erforderlich. Im erfindungsgemäßen Verfahren wird eine Gewichtung für jedes der Subbandsignale gemäß der Kurve gleicher Lautstärke ausgeführt und die Bitzuweisungsmenge berechnet, gemäß der ein gewichteter Quantisierungsfehler im einzelnen Subbandsignal zulässig ist. Dadurch kann die Tonqualität beibehalten werden, und außerdem kann die Codierverarbeitungslast in der Audiocodierverarbeitung reduziert werden, die die psychoakustische Verarbeitung beeinhaltet.
  • Außerdem wird eine der Kurve gleicher Lautstärke entsprechende Gewichtungskoeffizienttabelle für die einzelnen Subbandsignale bereitgestellt, und außerdem wird eine der Codierungsbitrate entsprechende Gewichtungstabelle dafür bereitgestellt. Auf die beiden Tabellen wird Bezug genommen, um eine der Codierungsbitrate entsprechende Bitzuweisung auszuführen. Dadurch kann in der Audiocodierverarbeitung, die die psychoakustische Verarbeitung beinhaltet, auch bei einer niedrigen Codierungsbitrate die Tonqualität mit der entsprechenden Bitrate beibehalten werden, und die Audiocodierung kann ausgeführt werden, während Codierungsrauschen verhindert wird, das aufgrund einer ungenügenden Anzahl von Symbolen verursacht wird.
  • Obwohl die einzelnen Ausführungsformen unter Bezug auf das MPEG-1/Audio-Layer-1-Codierverfahren beschrieben worden sind, ist die vorliegende Erfindung auch auf andere Audiocodierverfahren anwendbar, die jeweils eine Bitzuweisungseinrichtung aufweisen, die ein psychoakustisches Modell verwenden. Beispiele von Audiocodierverfahren, auf die die vorliegende Erfindung anwendbar ist, sind ein MPEG-1/Audio-Layer-2-Verfahren, ein MPEG-1/Audio-Layer-3-Verfahren und ein MPEG-2/Audio-AAC-Verfahren.
  • Außerdem kann die Konfiguration derart sein, daß die Speichereinheit 13-1 mehrere Gewichtungstabellen speichert, die Codierbitraten entsprechen, wie unter Bezug auf die zweite Ausführungsform beschrieben worden ist, wobei die Gewichtungstabellen geeignet ausgewählt werden.
  • Wie vorstehend beschrieben wurde, weist der erfindungsgemäße Audiocodierer die Subbandteilungseinheit (Subbandteilungseinrichtung) zum Teilen eines Eingangssignal in mehrere Frequenzbänder auf, und der Audiocodierer führt eine Kompressions-Codierverarbeitung für einzelne Subbandsignale aus, die durch die Subbandteilungseinrichtung geteilt wurden. Der erfindungsgemäße Audiocodierer führt eine Gewichtung gemäß der Kurve gleicher Lautstärke, die Punkte verbindet, die Schalldruckwerte darstellen, die den gleichen Hörlautstärkepegel aufweisen, für jede Reintonfrequenz der einzelnen Subbandsignale aus, und führt eine Bitzuweisung aus, um einen gewichteten Quantisierungsfehler in den einzelnen Subbandsignalen auszugleichen. Dadurch kann eine psychoakustische Analyse mit einer verminderten Anzahl von Verarbeitungsschritten in der Audiocodierverarbeitung ausgeführt werden, und kann eine effiziente Audiocodierumgebung realisiert werden, in der die Verarbeitungslast reduziert ist.
  • Außer daß die Gewichtung für die einzelnen Subbandsignale gemäß der Kurve gleicher Lautstärke ausgeführt wird, wird erfindungsgemäß die Gewichtung auch gemäß den Bitraten ausgeführt. Dadurch kann, auch wenn die Codierungsbitrate niedrig ist, die Tonqualität mit der entsprechenden Codierungsbitrate beibehalten werden, und die Audiocodierung kann ausgeführt werden, während Codierungsrauschen verhindert wird, das durch eine ungenügende Anzahl von Symbolen verursacht wird.

Claims (11)

  1. Audiocodierer (10) mit einer Teilungseinrichtung (11) zum Teilen eines Eingangssignals in mehrere Frequenzbänder und zum Ausgeben mehrerer Subbandsignale, und zum Ausführen einer Kompressions-Codierungsverarbeitung für die von der Teilungseinrichtung (11) ausgegebenen einzelnen Subbandsignale; wobei der Audiocodierer (10) ferner eine Bitzuweisungseinrichtung (13) aufweist; die Bitzuweisungseinrichtung (13) eine Gewichtung eines Quantisierungsfehlers gemäß einer Kurve gleicher Lautstärke ausführt, die Punkte verbindet, die Schalldruckwerte des gleichen Hörlautstärkepegels für jede Frequenz der einzelnen Subbandsignale darstellen, und eine Bitzuweisung zum Ausgleichen des gewichteten Quantisierungsfehlers in den einzelnen Subbandsignalen ausführt.
  2. Audiocodierer nach Anspruch 1, wobei die Bitzuweisungseinheit (13) eine Speichereinheit (13-1) aufweist; und die Speichereinheit (13-1) eine Tabelle speichert, die Gewichtungskoeffizienten spezifiziert, die der Kurve gleicher Lautstärke für die einzelnen Subbandsignale entspricht.
  3. Audiocodierer nach Anspruch 2, wobei die Speichereinheit (13-1) ferner eine Gewichtungstabelle speichert, die die Gewichtungskoeffizienten spezifiziert, die Codierbitraten zugewiesen sind; und die Bitzuweisungseinrichtung (13) eine Bitzuweisung ausführt, um einen gewichteten Quantisierungsfehler auszugleichen, der der Codierbitrate in den einzelnen Subbandsignalen entspricht.
  4. Audiocodierer nach Anspruch 3, wobei die Speichereinheit (13-1) mehrere Gewichtungstabellen speichert, die Gewichtungskoeffizienten spezifiziert, die den Codierungsbitraten zugewiesen sind; und die Bitzuweisungseinrichtung (13) eine geeignete der mehreren Gewichtungstabellen selektiv verwendet.
  5. Audiocodierer nach einem der Ansprüche 1 bis 4, der dazu geeignet ist, ein Audiocodierverfahren zu verwenden, in dem eine psychoakustische Analyse verwendet wird, in der eine Hörsinncharakteristik berücksichtigt wird, wie beispielsweise Grenzen des menschlichen Hörvermögens und Maskierungseffekte.
  6. Audiocodierer (10) nach Anspruch 1 mit: einer Skalierungseinheit (12) zum Berechnen von Skalierungsfaktoren für die einzelnen Subbandsignale, um ihre Dynamikbereiche gleichmäßig einzustellen, wobei die Skalierungsfaktoren eine Verstärkung bezüglich eines Bezugswertes darstellen; wobei der Audiocodierer ferner aufweist: eine Quantisierungseinheit (14) zum Ausführen von Quantisierungsberechnungen für die einzelnen Subbandsignale, denen Bits zugewiesen wurden; und eine mit der Quantisierungseinheit (14) verbundene Bitstromerzeugungseinheit (15) zum Erzeugen und Ausgeben eines Bitstroms als codierte Audiodaten zusammen mit Header- und Zusatzinformation.
  7. Psychoakustisches Analyseverfahren, das dazu geeignet ist, mit einem Audiocodierer (10) verwendet zu werden, der eine Subbandteilungseinrichtung (11) zum Teilen eines Eingangssignals in mehrere Frequenzbänder aufweist und mehrere geteilte Subbandsignale ausgibt und eine Kompressions-Codierungsverarbeitung für die durch die Subbandteilungseinrichtung (11) geteilten einzelnen Subbandsignale ausführt; mit den Schritten: Ausführen einer Gewichtung des Quantisierungsfehlers gemäß einer Kurve gleicher Lautstärke, die Punkte verbindet, die Schalldruckwerte des gleichen Hörlautstärkepegels für jede Frequenz der einzelnen Subbandsignale darstellen; und Ausführen einer Bitzuweisung zum Ausgleichen des gewichteten Quantisierungsfehlers in den einzelnen Subbandsignalen.
  8. Verfahren nach Anspruch 7, wobei im Bitzuweisungsschritt eine Bitzuweisung für die einzelnen Subbandsignale gemäß den Inhalten einer Tabelle ausgeführt wird, die Gewichtungskoeffizienten spezifiziert.
  9. Verfahren nach Anspruch 8, wobei im Bitzuweisungsschritt eine Bitzuweisung gemäß den Inhalten einer Ge wichtungstabelle, die Gewichtungskoeffizienten spezifiziert, die Codierungsbitraten zugewiesen sind, ausgeführt wird, um einen gewichteten Quantisierungsfehler auszugleichen, der der Codierungsbitrate in den einzelnen Subbandsignalen entspricht.
  10. Verfahren nach Anspruch 9, wobei mehrere Gewichtungstabellen bereitgestellt werden, die die Gewichtungskoeffizienten spezifizieren, die den Codierungsbitraten zugewiesen sind, und wobei eine geeignete der mehreren Gewichtungstabellen selektiv verwendet wird.
  11. Verfahren nach einem der Ansprüche 7 bis 10, wobei das psychoakustische Analyseverfahren auf ein Audiocodierverfahren angewendet wird, das die menschliche Hörsinncharakteristik berücksichtigt.
DE60113602T 2000-07-05 2001-07-04 Audiokodierer mit psychoakustischer Bitzuweisung Expired - Lifetime DE60113602T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000203157A JP4055336B2 (ja) 2000-07-05 2000-07-05 音声符号化装置及びそれに用いる音声符号化方法
JP2000203157 2000-07-05

Publications (2)

Publication Number Publication Date
DE60113602D1 DE60113602D1 (de) 2005-11-03
DE60113602T2 true DE60113602T2 (de) 2006-06-22

Family

ID=18700595

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60113602T Expired - Lifetime DE60113602T2 (de) 2000-07-05 2001-07-04 Audiokodierer mit psychoakustischer Bitzuweisung

Country Status (5)

Country Link
US (1) US20020004718A1 (de)
EP (1) EP1170727B1 (de)
JP (1) JP4055336B2 (de)
CA (1) CA2352416C (de)
DE (1) DE60113602T2 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333929B1 (en) 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US7376159B1 (en) 2002-01-03 2008-05-20 The Directv Group, Inc. Exploitation of null packets in packetized digital television systems
KR100462611B1 (ko) * 2002-06-27 2004-12-20 삼성전자주식회사 하모닉 성분을 이용한 오디오 코딩방법 및 장치
US7286473B1 (en) 2002-07-10 2007-10-23 The Directv Group, Inc. Null packet replacement with bi-level scheduling
US7650277B2 (en) * 2003-01-23 2010-01-19 Ittiam Systems (P) Ltd. System, method, and apparatus for fast quantization in perceptual audio coders
US7647221B2 (en) * 2003-04-30 2010-01-12 The Directv Group, Inc. Audio level control for compressed audio
US7912226B1 (en) 2003-09-12 2011-03-22 The Directv Group, Inc. Automatic measurement of audio presence and level by direct processing of an MPEG data stream
JP4222169B2 (ja) * 2003-09-22 2009-02-12 セイコーエプソン株式会社 超音波スピーカ及び超音波スピーカの信号音再生制御方法
WO2005069275A1 (en) * 2004-01-06 2005-07-28 Koninklijke Philips Electronics, N.V. Systems and methods for automatically equalizing audio signals
KR100668299B1 (ko) 2004-05-12 2007-01-12 삼성전자주식회사 구간별 선형양자화를 이용한 디지털 신호 부호화/복호화방법 및 장치
US7725313B2 (en) * 2004-09-13 2010-05-25 Ittiam Systems (P) Ltd. Method, system and apparatus for allocating bits in perceptual audio coders
DE102004049517B4 (de) * 2004-10-11 2009-07-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
DE102004049457B3 (de) * 2004-10-11 2006-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
JP4609097B2 (ja) * 2005-02-08 2011-01-12 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
JP4635709B2 (ja) * 2005-05-10 2011-02-23 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
KR100921869B1 (ko) 2006-10-24 2009-10-13 주식회사 대우일렉트로닉스 음원의 오류 검출 장치
GB2454208A (en) 2007-10-31 2009-05-06 Cambridge Silicon Radio Ltd Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data
CN105825859B (zh) 2011-05-13 2020-02-14 三星电子株式会社 比特分配、音频编码和解码
US9729120B1 (en) 2011-07-13 2017-08-08 The Directv Group, Inc. System and method to monitor audio loudness and provide audio automatic gain control
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0472909A (ja) * 1990-07-13 1992-03-06 Sony Corp オーディオ信号の量子化誤差低減装置
US5235671A (en) * 1990-10-15 1993-08-10 Gte Laboratories Incorporated Dynamic bit allocation subband excited transform coding method and apparatus
ES2164640T3 (es) * 1991-08-02 2002-03-01 Sony Corp Codificador digital con asignacion dinamica de bits de cuantificacion.
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
JP3104400B2 (ja) * 1992-04-27 2000-10-30 ソニー株式会社 オーディオ信号符号化装置及び方法
JP3278900B2 (ja) * 1992-05-07 2002-04-30 ソニー株式会社 データ符号化装置及び方法
JP3153933B2 (ja) * 1992-06-16 2001-04-09 ソニー株式会社 データ符号化装置及び方法並びにデータ復号化装置及び方法
US20010047256A1 (en) * 1993-12-07 2001-11-29 Katsuaki Tsurushima Multi-format recording medium
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置

Also Published As

Publication number Publication date
EP1170727A3 (de) 2003-05-07
EP1170727B1 (de) 2005-09-28
EP1170727A2 (de) 2002-01-09
JP4055336B2 (ja) 2008-03-05
CA2352416A1 (en) 2002-01-05
DE60113602D1 (de) 2005-11-03
CA2352416C (en) 2007-10-02
US20020004718A1 (en) 2002-01-10
JP2002023799A (ja) 2002-01-25

Similar Documents

Publication Publication Date Title
DE60113602T2 (de) Audiokodierer mit psychoakustischer Bitzuweisung
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
EP2022043B1 (de) Informationssignalcodierung
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69621393T2 (de) Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens
DE69924431T2 (de) Vorrichtung und Verfahren zur dynamischen Bitverteilung für Audiokodierung
DE69219718T2 (de) Digitales Datenkodierungs-und Dekodierungsgerät mit hoher Wirksamkeit
DE69620967T2 (de) Synthese von Sprachsignalen in Abwesenheit kodierter Parameter
DE69810361T2 (de) Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE69320872T2 (de) Kompression und Dehnung von digitalen Signalen
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE69529393T2 (de) Verfahren zur gewichteten Geräuschfilterung
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE19959156C2 (de) Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals
DE69938016T2 (de) Verfahren und Vorrichtung zur Maskierung des Quantisierungsrauschens von Audiosignalen
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
WO2000068934A1 (de) Verfahren und vorrichtung zum verschleiern eines fehlers in einem codierten audiosignal und verfahren und vorrichtung zum decodieren eines codierten audiosignals
DE602005001291T2 (de) Verfahren zum Kodieren digitaler Signale und Vorrichtung dazu unter Benutzung mehrerer Nachschlagetabellen
DE60131766T2 (de) Wahrnehmungsbezogen verbesserte codierung akustischer signale
DE60311619T2 (de) Datenreduktion in Audiokodierern unter Ausnutzung nichtharmonischer Effekte
DE69533259T2 (de) Nichtlineares quantisieren eines informationssignales
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms

Legal Events

Date Code Title Description
8364 No opposition during term of opposition