DE602004002390T2 - Audiocodierung - Google Patents

Audiocodierung Download PDF

Info

Publication number
DE602004002390T2
DE602004002390T2 DE602004002390T DE602004002390T DE602004002390T2 DE 602004002390 T2 DE602004002390 T2 DE 602004002390T2 DE 602004002390 T DE602004002390 T DE 602004002390T DE 602004002390 T DE602004002390 T DE 602004002390T DE 602004002390 T2 DE602004002390 T2 DE 602004002390T2
Authority
DE
Germany
Prior art keywords
signal
audio
encoded
mono
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE602004002390T
Other languages
English (en)
Other versions
DE602004002390D1 (de
Inventor
J. Dirk BREEBAART
W. Arnoldus OOMEN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=32865026&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE602004002390(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE602004002390D1 publication Critical patent/DE602004002390D1/de
Application granted granted Critical
Publication of DE602004002390T2 publication Critical patent/DE602004002390T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cereal-Derived Products (AREA)
  • Stereophonic System (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf Audiocodierung.
  • Parametrische Beschreibungen von Audiosignalen sind in den letzten Jahren interessant geworden, insbesondere im Bereich von Audiocodierung. Es hat sich herausgestellt, dass Übertragung von (quantisierten) Parametern, die Audiosignale beschreiben, nur eine geringe Übertragungskapazität erfordern um ein perzeptuell gleiches Signal am Empfänger-Ende zu resynthetisieren. In herkömmlichen auf Wellenform basierten Audiocodierungsschemen, wie MPEG-LII, mp3 und AAC (MPEG-2 Advanced Audio Coding), werden Stereo-Signale dadurch codiert, dass zwei Mono-Audiosignale zu einem einzigen Bitstrom codiert werden. Dies codiert jeden Kanal eindeutig, aber auf Kosten davon, dass zweimal soviel Daten erforderlich sind wie zum Codieren eines einzigen Kanals erforderlich sind.
  • In vielen Fällen ist der von den zwei Kanälen getragene Content vorwiegend mono. Deswegen kann durch Benutzung von Interkanalkorrelation und Irrelevanz mit Techniken, wie Mitte/Seite Stereocodierung und Intensitätscodierung an Bitrate gespart werden. Codierungsverfahren, auf die sich die vorliegende Erfindung bezieht, befassen sich mit der völligen Codierung eines einzigen Kanals, und mit der Codierung einer parametrischen Beschreibung davon, wie der andere Kanal von dem völlig codierten Kanal hergeleitet werden kann. Deswegen ist in dem Decoder üblicherweise ein einziges Audiosignal verfügbar, das zum Erhalten zweier verschiedener Ausgangskanäle modifiziert werden soll. Insbesondere können Parameter, die zum Beschreiben des zweiten Kanals verwendet werden, Interkanalzeitdifferenzen (ITDen), Interkanalphasendifferenzen (IPDen) und Interkanalpegeldifferenzen (ILDen) umfassen.
  • EP-A-1107232 beschreibt ein Verfahren zum Codieren eines Stereosignals, wobei das codierte Signal Information aufweist, hergeleitet von einem Linkskanal- oder Rechtskanaleingangssignal und parametrische Information, die es ermöglicht, dass das andere Eingangssignal wiederhergestellt wird.
  • WO-A-03/07656 beschreibt ein Verfahren zum Codieren eines Stereosignals, wobei ein Monosignal und Stereoparameter zum Darstellen de Stereosignals verwendet werden.
  • In den parametrischen Darstellung, wie diese in dem oben genannten Bezugsmaterial beschrieben worden sind, bezeichnen die ITDen die Differenz in der Phase oder in der Zeit zwischen den Eingangskanälen. Deswegen kann der Decoder den nicht codierten Kanal dadurch erzeugen, dass der Inhalt des codierten Kanals genommen wird und dass die durch die ITDen gegebene Phasendifferenz geschaffen wird. Dieser Prozess hat einen bestimmten Freiheitsgrad in sich. So kann beispielsweise nur ein einziger Ausgangskanal (sagen wir, der Kanal, der nicht codiert ist) mit der vorgeschriebenen Phasendifferenz modifiziert werden.
  • Auf alternative Weise könnte der codierte Kanal mit Minus der vorgeschriebenen Phasendifferenz modifiziert werden. Als drittes Beispiel könnte man die halbe vorgeschriebene Phasendifferenz dem einen Kanal zuführen und Minus die halbe vorgeschriebene Phasendifferenz dem anderen Kanal zuführen. Da nur die Phasendifferenz vorgeschrieben ist, liegt der Versatz (oder die Verteilung) in der Phasenverschiebung der beiden Kanäle nicht fest. Obschon dies für die räumliche Qualität des codierten Tons kein Problem ist, kann dies zu hörbaren Artefakten führen. Diese Artefakte treten auf, weil die gesamte Phasenverschiebung beliebig ist. Es kann sein, dass die Phasenmodifikation eines Kanals oder beider Kanäle zu jedem Codierungszeitframe nicht mit der Phasenmodifikation des vorhergehenden Frames kompatibel ist. Die Anmelderin hat gefunden, dass es sehr schwer ist, die genaue Gesamtphasenverschiebung in dem Decoder einwandfrei vorherzusagen und sie hat ein Verfahren zum Begrenzen von Phasenmodifikationen entsprechend den Phasenmodifikationen des vorhergehenden Frames beschrieben. Dies ist eine Lösung für das Problem, die gut funktioniert, dadurch wird aber nicht die Ursache des Problems weggenommen.
  • Wie oben beschrieben, hat es sich herausgestellt, dass es sehr schwer ist, zu ermitteln, wie die vorgeschriebene Phase- oder Zeitverschiebung auf Decoderpegel über die zwei Ausgangskanäle verteilt werden soll. Es wird nun vorausgesetzt, dass in dem Decoder der Monosignalanteil aus einer einfachen Sinuskurve besteht. Weiterhin nimmt der ITD Parameter für diese Sinuskurve linear über die Zeit zu (d.h. über Analysenframes). In diesem Beispiel werden wir und auf die IPD konzentrieren, dabei berücksichtigend dass die IPD gerade eine linear Transformation der ITD ist. Die IPD wird nur durch das Intervall [-π : π] definiert. 1 zeigt die IPD als eine Funktion der Zeit.
  • Obschon dies auf den ersten Blick ein sehr theoretisches Beispiel scheinen mag, tritt ein derartiges IPD Verhalten bei Audioaufzeichnungen oft auf (beispielsweise wenn die Frequenz der Töne in dem linken und rechten Kanal um einige Hz voneinander abweichen). Die Basisaufgabe des Decoders ist, zwei Ausgangssignale aus einem einzigen Eingangssignal zu erzeugen. Diese Ausgangssignale müssen dem IPD Parameter entsprechen. Dies kann durch Kopierung des einzigen Eingangssignals zu den zwei Ausgangssignalen und durch einzelne Modifikation der Phasen der Ausgangssignale erfolgen. Wenn nun eine symmetrische Verteilung der IPD über die Kanäle vorausgesetzt wird, bedeutet dies, dass der linke Ausgangskanal um +IPD/2 modifiziert wird, während der rechte Ausgangskanal um –IPD/2 in der Phase gedreht wird. Diese Annäherung führt aber zu deutlich hörbaren Artefakten, verursacht durch einen Phasensprung, der zu dem Zeitpunkt t auftritt. Dies kann anhand der 2 verstanden werden, wobei die Phasenänderung dargestellt ist, die an dem linken und rechten Kanal zu einem bestimmten Zeitpunkt t–, unmittelbar vor dem Auftritt des Phasensprungs, und zu dem Zeitpunkt t+, unmittelbar nach dem Phasensprung angegeben ist. Die Phasenänderungen in Bezug auf das Mono-Eingangssignal sind als komplexe Vektoren dargestellt (d.h. der Winkel zwischen dem Ausgangs- und dem Eingangssignal zeigt die Phasenänderung jedes Ausgangskanals).
  • Es ist ersichtlich, dass es zwischen den Ausgangssignalen eine große Phaseninkonsequenz gibt, und zwar gerade vor und nach dem Phasensprung zu dem Zeitpunkt t: der Vektor jedes Ausgangskanals wird um nahezu π rad gedreht. Wenn die nachfolgenden Frames der Ausgangssignale durch Überlappung/Hinzufügung kombiniert werden, gleichen sich die überlappenden Teile der Ausgangssignale gerade vor und nach dem Phasensprung aus. Dies führt zu klickartigen Artefakten in dem Ausgangssignal. Diese Artefakte entstehen, weil der IPD Parameter zyklisch ist mit einer Periode von 2π, aber wenn die IPD über Kanäle verteilt wird, wird die Phasenänderung jedes einzelnen Signals zyklisch mit einer Periode kleiner als 2π (wenn die IPD symmetrisch verteilt wird, wird die Phasenänderung zyklisch mit einer Periode π). Die wirkliche Periode der Phasenänderung in je Kanal ist auf diese Art und Weise von dem Verteilungsverfahren der IPD über Kanäle abhängig, ist aber kleiner als 2π, was zu Überlappung/Hinzufügungsproblemen in dem Decoder führt.
  • Obschon das oben stehende Beispiel ein relativ einfacher Fall ist, haben wir gefunden, dass es für komplexe Signale (mit mehr Frequenzanteilen innerhalb desselben Phasenmodifikationsfrequenzbandes, und mit komplexerem Verhalten des IPD Parameters über die Zeit) schwer ist, die richtige Verteilung über die Ausgangskanäle zu finden.
  • Bei dem Codierer ist Information verfügbar, die spezifiziert, wie die IPD über Kanäle verteilt werden soll. Deswegen ist es u. a. eine Aufgabe der vorliegenden Erfindung, diese Information in dem codierten Signal aufzubewahren, ohne dass die Größe des codierten Signals wesentlich zunimmt.
  • Dazu schafft die vorliegende Erfindung einen Codierer und relatierte Items, wie in den Hauptansprüchen der vorliegenden Patentanmeldung erwähnt.
  • Die Interkanaldifferenz (ITD), oder die Interphasendifferenz (IPD) wird auf Basis der relativen Zeitverschiebung zwischen den zwei Eingangskanälen geschätzt. Andererseits wird die gesamte Zeitverschiebung (OTD), oder die gesamte Phasenverschiebung (OPD) durch die am besten passende Verzögerung (oder Phase) zwischen dem völlig codierten Mono-Ausgangssignal und einem der Eingangssignale bestimmt. Deswegen ist es bequem, die OTD (OPD) auf dem Codierungspegel zu analysieren und diesen Wert dem Parameterbitstrom zuzufügen.
  • Ein Vorteil einer derartigen Zeitdifferenzcodierung ist, dass die OTP (OPD) in nur sehr wenig Bits codiert zu werden bracht, da das Hörsystem relativ unempfindlich ist für gesamte Phasenänderungen (obschon das binaurale Hörsystem sehr empfindlich ist für ITD-Änderungen).
  • Für das oben genannte Problem sollte die OPD das in 3 dargestellte Verhalten haben.
  • In dem Fall beschreibt die OPD im Grunde die Phasenänderung des linken Kanals in der Zeit, während die Phasenänderung des rechten Kanals durch OPD(t)–IPD(t) gegeben wird. Da die beiden Parameter (OPD und IPD) zyklisch sind mit einer Periode von 2π, werden die resultierenden Phasenänderungen der unabhängigen Ausgangskanäle auch zyklisch mit einer Periode von 2π. Auf diese Weise zeigen die resultierenden Phasenänderungen der beiden Ausgangskanäle in der Zeit keine Phasenunterbrechungen, die in dem Eingangssignal nicht vorhanden waren.
  • Es sei bemerkt, dass in diesem Beispiel die OPD die Phasenänderung des linken Kanals beschreibt, während der rechte Kanal daraufhin von dem linken Kanal hergeleitet wird, und zwar unter Anwendung der IPD. Andere lineare Kombinationen dieser Parameter können im Grunde zur Übertragung angewandt werden. Ein unbedeutendes Beispiel wäre, die Phasenänderung des rechten Ausgangskanals mit der OPD zu beschreiben und davon unter Anwendung von OPD und IPD die Phasenänderung des linken Kanals herzuleiten. Der entscheidende Punkt der vorliegenden Erfindung ist, ein Paar in der Zeit variierender Synthesefilter zu beschreiben, wobei die Phasendifferenz zwischen den Ausgangskanälen mit nur einem (aufwendigen) Parameter und mit einem Offset der Phasenänderungen mit einem anderen (viel günstigeren) Parameter beschrieben wird.
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 den Effekt der IPD, die in der Zeit linear zunimmt, und bereits beschrieben wurde,
  • 2 die Phasenänderung der Ausgangskanäle L und R gegenüber dem Eingangskanal unmittelbar vor (t–, linkes Bild) und unmittelbar nach (t+, rechtes Bild) dem Phasensprung in dem IPD Parameter, wie bereits beschrieben,
  • 3 den OPD Parameter für den Fall einer linear zunehmenden IPD, wie bereits beschrieben,
  • 4 ein Hardware-Blockschaltbild eines Codierers, die vorliegende Erfindung verkörpernd,
  • 5 ein Hardware-Blockschaltbild eines Decoders, die vorliegende Erfindung verkörpernd,
  • 6 Übergangsstellen, die in betreffende Subframes eines Monosignals codiert sind und die entsprechenden Frames einer Mehrkanalschicht.
  • Übersicht der Erfindung
  • Eine einen räumlichen Parameter erzeugende Stufe in einer Ausführungsform der vorliegenden Erfindung nimmt drei Signale als Eingangssignal. Die ersten zwei Signale dieser drei Stück, durch L und R bezeichnet, entsprechen dem linken bzw. rechten Kanal eines Stereopaares. Jeder der Kanäle wird in viele Zeitfrequenzkacheln aufgeteilt, und zwar unter Verwendung einer Filterbank oder einer Frequenztransformation, wie dies in diesem technischen Bereich üblich ist. Ein weiteres Eingangssignal zu dem Codierer ist ein Monosignal S, das die Summe der anderen Signale L, R ist. Dieses Signal S ist eine Monokombination der anderen Signale L und R und hat die gleiche Zeitfrequenztrennung wie die anderen Eingangssignale. Das Ausgangssignal des Codierers ist ein Bitstrom mit dem Mono-Audiosignal S zusammen mit räumlichen Parametern, die durch einen Decoder bei Decodieren des Bitstroms verwendet werden.
  • Danach berechnet der Codierer die Interkanalzeitdifferenz (ITD) durch Ermittlung der Zeitverzögerung zwischen dem L und dem R Eingangskanal. Die Zeitverzögerung entspricht dem Maximum in der Kreuzkorrelationsfunktion zwischen entsprechenden Zeit/Frequenzkacheln der Eingangssignale L(t, f) und R(t, f), so dass: ITD = arg(max(ρ(L, R))),wobei ρ(L, R) die Kreuzkorrelationsfunktion zwischen den Eingangssignalen L(t, f) und R(t, f) bezeichnet.
  • Die gesamte Zeitverschiebung (OTD) kann auf zwei verschiedene Weisen definiert werden: als eine Zeitdifferenz zwischen dem Summensignal S und dem linken Eingangssignal L, oder als eine Zeitdifferenz zwischen dem Summensignal S und dem rechten Eingangssignal R. Es ist bequem, die OTD in Bezug auf das stärkere (d.h. mit höherer Energie) Eingangssignal zu messen, was Folgendes ergibt:
    wenn |L| > |R|, OTD = arg(max(ρ(L, S)));sonst OTD = arg(max(ρ(R, S)));Ende.
  • Die OTD Werte können daraufhin quantisiert und dem Bitstrom hinzugefügt werden. Es hat sich herausgestellt, dass ein Quantisierungsfehler in der Größenordnung von π/8 rad akzeptabel ist. Dies ist ein relativ großer Quantisierungsfehler im vergleich zu dem Fehler, der für die ITD Werte akzeptabel ist. Folglich enthält der räumliche Parameterbitstrom eine ILD, eine ITD, eine OTD und einen Korrelationswert für einige oder für alle Frequenzbänder. Es sei bemerkt, dass nur für diejenigen Frequenzbänder, bei denen ein ITD Wert übertragen wird, eine OTD notwendig ist.
  • Der Decoder bestimmt die notwendige Phasenmodifikation der Ausgangskanäle auf Basis der ITD, der OTD und der ILD, was zu der Zeitverschiebung für den linken Kanal (TSL) und für den rechten Kanal (TSR):
    Wenn ILD > 0 (was bedeutet |L| > |R|), TSL = OTD; TSR = OTD – ITD;Sonst TSL = OTL + ITL; TSR = OTD;Ende.
  • Einzelheiten der Implementierung der Ausführungsform
  • Es dürfte einleuchten, dass ein kompletter Audiocodierer typischerweise als Eingang zwei analoge in der Zeit variierende Audiofrequenzsignale nimmt, diese Signale digitalisiert, ein Mono-Summensignal erzeugt und danach einen Ausgangsbitstrom erzeugt, der das codierte Monosignal und die räumlichen Parameter umfasst. (Auf alternative Weise kann das Eingangssignal von zwei bereits digitalisierten Signalen hergeleitet werden). Dem Fachmann dürfte es einleuchten, dass Vieles des Nachstehenden unter Anwendung bekannter Techniken einfach implementiert werden kann.
  • Analysenmethoden
  • Im Allgemeinen umfasst der Codierer 10 betreffende Transformationsmodule 20, die jedes eintreffende Signal (L, R) in Teilbandsignal 16 aufteilen (vorzugsweise mit einer Bandbreite, die mit der Frequenz zunimmt). In der bevorzugten Ausführungsform benutzen die Module 20 Zeitfensterung mit nachfolgender Transformation zum Durchführen von Zeit/Frequenz-Slicing, aber es könnten auch zeitkontinuierliche Methoden angewandt werden (beispielsweise Filterbanken).
  • Die nächsten Schritte zur Ermittlung des Summensignals 12 und zum Extrahieren der Parameter 14 werden innerhalb eines Analysenmoduls 18 durchgeführt und umfassen:
    • – das Herausfinden der Pegeldifferenz (ILD) entsprechender Teilbandsignals 16,
    • – das Herausfinden der Zeitdifferenz (ITD oder IPD) entsprechender Teilbandsignale 16, und
    • – das Beschreiben des Betrags an Ähnlichkeit oder Unähnlichkeit der Wellenformen, die durch ILDen oder ITDen nicht nachgewiesen werden können.
  • Analyse von ILDen
  • Die ILD wird durch die Pegeldifferenz der Signale zu einem bestimmten Zeitpunkt für ein bestimmtes Frequenzband ermittelt. Eine Methode zum Ermitteln der ILD ist, den rms-Wert des entsprechenden Frequenzbandes beider Eingangskanäle zu messen und das Verhältnis dieser rms-Werte (vorzugsweise in dB ausgedrückt) zu berechnen.
  • Analyse der ITDen
  • Die ITDen werden durch die Zeit- oder Phasenausrichtung ermittelt, was die beste Übereinstimmung zwischen den Wellenformen der beiden Kanäle ergibt. Eine Methode zum Erhalten der ITD ist, die Kreuzkorrelationsfunktion zwischen zwei entsprechenden Teilbandsignalen zu berechnen und nach dem Maximum zu suchen. Die Verzögerung, die diesem Maximum in der Kreuzkorrelationsfunktion entspricht, kann als ITD-Wert angewandt werden.
  • Eine zweite Methode ist, die analytischen Signale des linken und des rechten Teilbandes zu berechnen (d.h. die Phasen- und Umhüllendenwerte zu berechnen) und die Phasendifferenz zwischen den Kanälen als IPD-Parameter zu verwenden. In dem vorliegenden Fall wird eine komplexe Filterbank (beispielsweise ein FFT) verwendet und dadurch, dass auf einen bestimmten Behälter geachtet wird (Frequenzgebiet) kann eine Funktion in der Zeit hergeleitet werden. Dadurch, dass dies für den linken sowie rechten Kanal gemacht wird, kann die Phasendifferenz IPD (statt Kreuzkorrelation von zwei gefilterten Signalen) geschätzt werden.
  • Analyse der Korrelation
  • Die Korrelation wird dadurch erhalten, dass zunächst die ILD und die ITD gefunden wird, was die beste Übereinstimmung zwischen den entsprechenden Teilbandsignalen ergibt und dass daraufhin die Ähnlichkeit der Wellenformen nach Kompensation der ITD und/oder ILD gemessen wird. Auf diese Weise wird in diesem System die Korrelation als die Ähnlichkeit oder Unähnlichkeit entsprechender Teilbandsignale definiert, was den ILDen und/oder den ITDen nicht zugeschrieben werden kann. Ein geeignetes Maß für diesen Parameter ist die Kohärenz, die der maximale Wert der Kreuzkorrelationsfunktion über einen Satz von Verzögerungen ist. Aber andere Maße könnten auch angewandt werden, wie die relative Energie des Differenzsignals nach der ILD- und/oder ITD-Kompensation im Vergleich zu dem Summensignal der entsprechenden Teilbänder (vorzugsweise auch für ILDen und/oder ITden). Dieser Differenzparameter ist im Grunde eine lineare Information der (maximalen) Korrelation.
  • Parameterquantisierung
  • Ein wichtiges Thema in der Übertragung von Parametern ist die Genauigkeit der Parameterdarstellung (d.h. die Größe der Quantisierungsfehler), die unmittelbar mit der erforderlichen Übertragungskapazität und der Audioqualität im Zusammenhang steht. In diesem Abschnitt werden verschiedene Themen in Bezug auf die Quantisierung der räumlichen Parameter beschrieben. Die beste Idee ist, die Quantisierungsfehler auf sog. gerade noch wahrnehmbaren Differenzen (JNDen) der räumlichen Programmaufrufe zu basieren. Mit anderen Worten: der Quantisierungsfehler wird durch die Empfindlichkeit des menschlichen Hörsystems für Änderungen in den Parametern bestimmt. Da es durchaus bekannt ist, dass die Empfindlichkeit für Änderungen in den Parametern stark abhängig ist von den Werten der Parameter selber, werden die nachfolgenden Methoden zum Bestimmen der diskreten Quantisierungsschritte angewandt.
  • Quantisierung der ILDen
  • Aus psychoakustischen Forschungsarbeiten ist es bekannt, dass die Empfindlichkeit für Änderungen in der ILD von der ILD selber abhängig ist. Wenn die ILD in dB ausgedrückt wird, sind Abweichungen von etwa 1 dB von einem bezugswert von 0 dB detektierbar, während Änderungen in der Größenordnung von 3 dB erforderlich sind, wenn die Bezugspegeldifferenz 20 dB beträgt. Deswegen können Quantisierungsfehler größer sein, wenn die Signale des linken und rechten Kanals eine größere Pegeldifferenz haben. Dies kann beispielsweise dadurch angewandt werden, dass zunächst die Pegeldifferenz zwischen den Kanälen gemessen wird, wonach eine nicht lineare (kompressive) Transformation der erhaltenen Pegeldifferenz und daraufhin ein linearer Quantisierungsprozess stattfindet, oder dadurch, dass eine Nachschlagtabelle für die verfügbaren ILD Werte verwendet wird, die eine nicht lineare Verteilung haben. In der bevorzugten Ausführungsform werden ILDen (in dB) zu dem nächst liegenden Wert des nachfolgenden Satzes I quantisiert: I = [–19 –16 –13 –10 –8 –6 –4 –2 0 2 4 6 8 10 13 16 19]
  • Quantisierung der ITDen
  • Die Empfindlichkeit für Änderungen in den ITDen menschlicher Subjekte kann als konstante Phasenschwelle gekennzeichnet werden. Dies bedeutet, dass in Termen von Verzögerungszeiten die Quantisierungsschritte für die ITD mit der Frequenz abnehmen sollen. Auf alternative Weise sollen, wenn die ITD in Form von Phasendifferenzen dargestellt wird, die Quantisierungsschritte unabhängig von der Frequenz sein. Ein Verfahren um dies zu implementieren wäre, eine feste Phasendifferenz als Quantisierungsschritt zu nehmen und die entsprechende Zeitverzögerung für jedes Frequenzband zu ermitteln. Dieser ITD Wert wird dann als Quantisierungsschritt benutzt. In der bevorzugten Ausführungsform werden ITD Quantisierungsschritte durch eine konstante Phasendifferenz in jedem Teilband von 0,1 rad ermittelt. Auf diese Weise wird für jedes Teilband die Zeitdifferenz, die 0,1 rad des Teilbandmittenfrequenz entspricht, als Quantisierungsschritt verwendet.
  • Ein anderes Verfahren wäre, Phasendifferenzen zu übertragen, die einem frequenzunabhängigen Quantisierungsschema folgen. Es ist ebenfalls bekannt, dass über einer bestimmten Frequenz das menschliche Hörsystem nicht empfindlich ist für ITden in den fein strukturierten Wellenformen. Dieses Phänomen kann dadurch ausgenutzt werden, dass nur ITD Parameter bis zu einer bestimmten Frequenz (typischerweise 2 kHz) übertragen werden.
  • Ein drittes Verfahren der Bitstromreduktion ist, ITD Quantisierungsschritte zu reduzieren, die von der ILD und/oder den Korrelationsparametern desselben Teilbandes abhängig sind. Für große ILDen können die ITDen weniger genau codiert werden. Weiterhin ist es bekannt, wenn die Korrelation sehr niedrig ist, dass die menschliche Empfindlichkeit für Änderungen in der ITD reduziert wird. Folglich können größere ITD Quantisierungsfehler angewandt werden, wenn die Korrelation klein ist. Ein extremes Beispiel dieser Idee ist, überhaupt keine ITDen zu übertragen, wenn die Korrelation unterhalb einer bestimmten Schwelle liegt.
  • Quantisierung der Korrelation
  • Der Quantisierungsfehler der Korrelation ist abhängig von (1) dem Korrelationswert selber und möglicherweise (2) von der ILD. Korrelationswerte nahe bei +1 werden mit einer hohen Genauigkeit codiert (d.h. ein kleiner Quantisierungsschritt), während Korrelationswerte nahe bei 0 mit einer geringen Genauigkeit codiert werden (ein großer Quantisierungsschritt). In der bevorzugten Ausführungsform werden ein Satz nicht linear verteilter Korrelationswerte (r) zu dem nächst liegenden Wert des nachfolgenden Gebildes R quantisiert: R = [1 0,95 0,9 0,82 0,75 0,6 0,3 0]und dies kostet weitere 3 Bits je Korrelationswert.
  • Wenn der absolute Wert der (quantisierten) ILD des aktuellen Teilbandes 19 dB beträgt, werden werde eine ITD noch Korrelationswerte für dieses Teilband übertragen. Wenn der (quantisierte) Korrelationswert eines bestimmten Teilbandes Null beträgt, wird kein ITD Wert für dieses Teilband übertragen.
  • Auf diese Art und Weise erfordert jedes Frame ein Maximum von 233 Bits zum Übertragen der räumlichen Parameter. Mit einer Aktualisierungsframelänge von 1024 Abtastwerten und einer Abtastrate von 44,1 kHz beträgt die maximale Bitrate für Übertragung weniger als 10,25 kb/s [233·44100/1024 = 10,034 kb/s]. (Es sei bemerkt, dass durch Anwendung von Entropiecodierung oder Differentialcodierung diese Bitrate weiter reduziert werden kann).
  • Eine zweite Möglichkeit ist, Quantisierungsschritte für die Korrelation zu verwenden, die von der gemessenen ILD desselben Teilbandes abhängig sind: für große ILDs (d.h. nur ein Kanal ist in Termen von Energie dominant), die Quantisierungsfehler in der Korrelation werden größer. Ein extremes Beispiel dieses Prinzips wäre, überhaupt keine Korrelationswerte für ein bestimmtes Teilband zu übertragen, wenn der Absolutwert der ILD für dieses Teilband über einer bestimmten Schwelle liegt.
  • In Bezug auf 4 sind, detailliert, in den Modulen 20 das linke und das rechte eintreffende Signal in mehrere Zeitframes (2048 Abtastwerte bei einer Abtastrate von 44,1 kHz) aufgeteilt und mit einer Quadratwurzel Hanning-Fenster gefenstert. Daraufhin werden FFTen berechnet. Die negativen FFT Frequenzen werden abgelegt und die resultierenden FFTen werden in Gruppen oder Teilbänder 16 von FFT Bins aufgeteilt. Die Anzahl FFT Bins, die zu einem Teilband g kombiniert werden, ist von der Frequenz abhängig: bei höheren Frequenzen werden mehr Bins kombiniert als bei niedrigeren Frequenzen. In der vorliegenden Implementierung werden FFT Bins entsprechend etwa 1,8 ERBs gruppiert, was zu 20 Teilbändern führt, um den ganzen hörbaren Frequenzbereich darzustellen. Die resultierende Anzahl FFT Bins S[g] jedes nachfolgenden Teilbandes (startend bei der niedrigsten Frequenz) ist: S = [4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]
  • Auf diese Weise enthalten die ersten drei Teilbänder 4 FFT Bins, das vierte Teilband enthält 5 FFT Bins usw. Für jedes Teilband berechnet das Analysenmodul ent sprechende ILD, ITD und Korrelation (r). Die ITD und die Korrelation werden einfach dadurch berechnet, dass alle FFT Bins, die zu anderen Gruppen gehören, auf Null gesetzt werden, wobei die resultierenden (bandbegrenzten) FFTen von dem linken und dem rechten Kanal multipliziert werden, wonach eine invertierte FFT Transformation folgt. Die resultierende Kreuzkorrelationsfunktion wird für eine Spitze innerhalb einer Interkanalverzögerung zwischen –64 und +63 Abtastwerten abgetastet. Die interne Verzögerung entsprechend der Spitze wird als ITD Wert verwendet, und der Wert der Kreuzkorrelationsfunktion bei dieser Spitze wird als diese interaurale Korrelation des Teilbandes verwendet. Zum Schluss wird die ILD einfach dadurch berechnet, dass das Leistungsgewicht des linken und rechten Kanals für jedes Teilband genommen wird.
  • Erzeugung des Summensignals
  • Der Analysator 18 enthält einen Summensignalgenerator 17. Der Summensignalgenerator erzeugt ein Summensignal, das ein Mittelwert der Eingangssignale ist. (In anderen Ausführungsformen kann die zusätzliche Verarbeitung in der Erzeugung des Summensignals durchgeführt werden, einschließlich beispielsweise der Phasenkorrektur. Nötigenfalls kann das Summensignal in die Zeitdomäne umgewandelt werden, und zwar durch: (1) Einfügung komplexer Paarungen mit negativen Frequenzen, (2) invertierte FFT, (3) Fensterung und (4) Überlappung/Hinzufügung.
  • Wenn nun die Darstellung des Summensignals 12 in der Zeitdomäne und/oder in der Frequenzdomäne, wie oben beschrieben, gegeben wird, so kann das Signal in einer Monoschicht 40 eines Bitstroms 50 auf jede beliebige Art und Weise codiert werden. So kann beispielsweise ein mp3 Codierer verwendet werden zum Erzeugen der Monoschicht 40 des Bitstroms. Wenn ein derartiger Codierer schnelle Änderungen in einem Eingangssignal detektiert, kann er die Fensterlänge ändern, die er für diese bestimmte Zeitperiode verwendet um die Zeit- und oder die Frequenzlage zu verbessern, wenn dieser Teil des Eingangssignals codiert wird. Es wird dann ein Fensterumschaltmerker in den Bitstrom eingebettet um einem Decoder, der später das Signal synthetisiert, diesen Schalter anzukündigen.
  • In der bevorzugten Ausführungsform aber wird ein sinusförmiger Codierer 30 von dem in WO 01/69593-a1 beschriebenen Typ verwendet um die Monoschicht 40 zu erzeugen. Der Codierer 30 umfasst einen Übergangscodierer 11, einen sinusförmigen Co dierer 13 und einen Rauschcodierer 15. Der Übergangscodierer ist in dieser Ausfürungsform ein fakultatives Element.
  • Wenn das Signal 12 in den Übergangscodierer 11 eintrifft, schätzt der Codierer für jedes Aktualisierungsintervall, ob es einen Übergangssignalanteil gibt und die Lage desselben (gegenüber der Abtastgenauigkeit) innerhalb des Analysenfensters. Wenn die Lage eines Übergangssignalanteils ermittelt wird, versucht der Codierer 11 den Übergangssignalanteil (oder den Hauptteil davon) zu extrahieren. Er vergleicht eine Formfunktion mit einem Signalsegment, vorzugsweise startend aus einer geschätzten Startposition, und ermittelt Content unter der Formfunktion, indem beispielsweise eine (geringe) Anzahl sinusförmiger Anteile benutz werden und diese Information befindet sich in dem Übergangscode CT.
  • Das Summensignal 12 abzüglich des Übergangsanteils wird dem sinusförmigen Codierer 13 zugeführt, wo es zum Ermitteln der (deterministischen) sinusförmigen Anteile analysiert wird. Kurz gesagt, codiert der sinusförmige Codierer das Eingangssignal als Spuren von sinusförmigen Anteilen, die von dem einen Framesegment zu dem nächsten gekoppelt sind. Die Spuren werden zunächst durch eine Startfrequenz, eine Startamplitude und eine Startphase für einen sinusförmigen Anfang in einem bestimmten Segment – eine Geburt – dargestellt. Danach wird die Spur in aufeinander folgenden Segmenten durch Frequenzdifferenzen, Amplitudendifferenzen und, möglicherweise Phasendifferenzen (Fortsetzungen) dargestellt, bis an das Segment, in dem die Spur endet (Tod) und diese Information befindet sich in dem sinusförmigen Code CS.
  • Es wird vorausgesetzt, dass das Signal abzüglich des Übergangsanteils und des sinusförmigen Anteils vorwiegend Rauschwerte aufweist und der Rauschanalysator 15 der bevorzugten Ausführungsform erzeugt einen Rauschcode CN, der für dieses Rauschen repräsentativ ist. Auf herkömmliche Art und Weise, wie beispielsweise in WO 01/89086-A1 wird ein Spektrum des Rauschsignals durch den Rauschcodierer mit kombinierten AR (autoregressiven) MA (Bewegungsmittelwert) Filterparametern (pi, qi) entsprechend einer "Equivalent Rectangular Bandwith" (ERB) Skala modelliert. In einem Decoder werden die Filterparameter einem Rauschsynthesizer zugeführt, der hauptsächlich ein Filter ist mit einem Frequenzgang, der dem Spektrum des Rauschsignals nähert. Der Synthesizer erzeugt rekonstruierte Rauschsignale durch Filterung eines Weißrauschsignals mit den ARMA Fil terparametern (pi, qi) und fügt dies daraufhin den synthetisierten Übergangs- und Sinussignalen zu zum Erzeugen einer Schätzung des ursprünglichen Summensignals.
  • Der Multiplexer 41 erzeugt die Mono-Audioschicht 40, die in Frames 42 aufgeteilt wird, die Überlappungszeitsegmente mit einer Länge von 16 ms darstellen und die alle 8 ms aktualisiert werden, siehe 6. Jedes Frame umfasst betreffende Cndes CT, CS und CN und in einem Decoder werden die Codes für aufeinander folgende Frames in ihren Überlappungsgebieten gemischt, wenn das Monosummensignal synthetisiert wird. In der vorliegenden Ausführungsform wird vorausgesetzt, dass jedes Frame nur einen einzigen Übergangscode CT aufweisen darf und ein Beispiel eines derartigen Übergangs ist durch das Bezugszeichen 44 angegeben.
  • Der Analysator 18 umfasst weiterhin einen räumlichen Parameterschichtgenerator 19. Dieses Element führt die Quantisierung der räumlichen Parameter für jedes räumliche Parameterframe durch, wie oben beschrieben. Im Allgemeinen verteilt der Generator 19 jeden räumlichen Schichtkanal 14 in Frames 46, die überlappende Zeitsegmente mit einer Länge von 64 ms darstellen und die alle 32 ms aktualisiert werden, siehe 4. Jedes Frame umfasst eine ILD, eine ITD und eine OTD sowie einen Korrelationswert (r) und in dem Decoder werden die Werte für aufeinander folgende Frames in ihren Überlappungsgebieten gemischt zum Ermitteln der räumlichen Schichtparameter für jede beliebige gegebene Zeit, wenn das Signal synthetisiert wird.
  • In der bevorzugten Ausführungsform werden Übergangsstellen, die von dem Übergangscodierer 11 in der Monoschicht 40 (oder durch ein entsprechendes Analysatormodul in dem summierten Signal 12) detektiert sind, von dem Generator 19 verwendet um zu ermitteln, ob nicht einheitliche Zeitsegmentierung in der (den) räumlichen Parameterschicht(en) 14 erforderlich ist. Wenn der Codierer einen mp3 Codierer verwendet zum Erzeugen der Monoschicht, wird das Vorhandensein eines das Fenster schaltenden Merkers in dem Monostream von dem Generator als eine Schätzung einer Übergangsstelle benutzt.
  • Zum Schluss werden, wenn die Monoschicht 40 und die räumliche Darstellungsschicht 14 einmal erzeugt worden sind, diese Schichten ihrerseits durch einen Multiplexer 43 in einen Bitstrom 50 geschrieben. Dieser Audiostrom 50 wird seinerseits beispielsweise einem Datenbus, einem Antennensystem, einem Speichermedium usw. zugeführt.
  • In 5 umfasst ein Decoder 60 zur Verwendung in Kombination mit einem oben beschriebenen Codierer einen Demultiplexer 62, der einen eintreffenden Audiostrom 50 in die Monoschicht 40' und in diesem Fall eine einzige räumliche Darstellungsschicht 14' aufteilt. Die Monoschicht 40' wird von einem herkömmlichen Synthesizer 64 ausgelesen, und zwar entsprechend dem Codierer, der die Schicht erzeugte zum Schaffen einer Zeitdomänenschätzung des ursprünglichen summierten Signals 12'.
  • Räumliche Parameter 14', die von dem Demultiplexer 62 extrahiert wurden, werden danach von einem Nachbearbeitungsmodul 66 zu dem Summensignal 12 hinzugefügt, und zwar zum Erzeugen des linken und rechten Ausgangssignals. Das Nachbearbeitungsmodul der bevorzugten Ausführungsform liest auch die Information der Monoschicht 14' zum Orten der Positionen von Übergängen in diesem Signal und verarbeitet sie auf geeignet Art und Weise. Dies ist selbstverständlich nur dann der Fall, wenn derartige Übergänge in dem Signal codiert worden sind. (Auf alternative Weise könnte der Synthesizer 64 eine derartige Angabe dem Postprozessor zuführen, obschon dies aber eine gewisse Modifikation des sonst herkömmlichen Synthesizers 64 erfordern würde).
  • Innerhalb des Postprozessors 66 wird vorausgesetzt, dass eine Frequenzdomänendarstellung des Summensignals 12', wie in dem Analysenteil beschrieben, zur Verarbeitung verfügbar ist. Diese Darstellung kann durch Fensterung und durch FFT-Vorgänge der von dem Synthesizer 64 erzeugten Zeitdomänenwellenform erhalten werden. Danach wird das Summensignal in die linke und rechte Ausgangssignalstrecke hineinkopiert. Daraufhin wird die Korrelation zwischen dem linken und dem rechten Signal mit einem Dekorrelator 69', 69'' unter Verwendung des Parameters r modifiziert.
  • Danach wird in den betreffenden Stufen 70', 7'' jedes Teilband des linken Signals um den Wert TSL verzögert und das rechte Signal wird um TSR verzögert, wobei der (quantisierte) Wert von den Werten von OTD und ITD gegeben wird, extrahiert aus dem Bitstrom, entsprechend diesem Teilband. Die Werte von TSL und TSR werden entsprechend der oben gegebenen Formel berechnet. Zum Schluss werden das linke und das rechte Teilband entsprechend dem ILD für dieses Teilband in den betreffenden Stufen 71', 71'' skaliert. Die betreffenden Stufen 72', 72'' verwandeln danach die Ausgangssignale in die Zeitdomäne, indem die nachfolgenden Schritte durchgeführt werden: (1) das Einfügen komplexer Paarungen bei negativen Frequenzen, (2) invertierte FFT, (3) Fensterung, und (4) Überlappung-Hinzufügung.
  • Als eine Alternative zu dem oben stehenden Codierungsschema gibt es viele andere Möglichkeiten, die Phasendifferenz zu codieren. So können beispielsweise die Parameter eine ITD enthalten und einen bestimmten Verteilungsschlüssel, beispielsweise x. Danach könnte die Phasenänderung des linken Kanals als x·ITD codiert werden, während die Phasenänderung des rechten Kanals als (1 – x)·ITD codiert werden könnte. Es dürfte einleuchten, dass andere Codierungsschemen angewandt werden können zum Implementieren von Ausführungsformen der vorliegenden Erfindung, Es hat sich herausgestellt, dass die vorliegende Erfindung in spezieller Hardware, in Software, die in einem DSP ("Digital Signal Processor") oder in einem Allzweckcomputer läuft, implementiert werden kann. Die vorliegende Erfindung kann in einem fühlbaren Medium, wie einer CD-ROM oder einer DVD-ROM mit einem Computerprogramm zum Durchführen eines Codierungsverfahrens nach der vorliegenden Erfindung verkörpert werden kann. Die vorliegende Erfindung kann auch als ein Signal verkörpert sein, das über ein Datennetzwerk, wie das Internet, übertragen wird, oder als ein Signal, das von einer Senderanstalt übertragen wird. Die vorliegende Erfindung findet besondere Anwendung in dem Bereich von Internet-Herunterladung, Internetradio, "Solid State Audio" (SSA), Bandbreitenerweiterungsschemen, beispielsweise mp3 PRO, CT-aacPlus (siehe www.codingtechnologies.com) und in den meisten Audiocodierungschemen.
  • Text in der Zeichnung
  • 1
    • Zeit
  • 2
    • Decoderausgangssignal L
    • Decoderausgangssignal R
    • Decodereingangssignal
    • Decoderausgangssignal R
    • Decoderausgangssignal L
    • Decodereingangssignal
  • 3
    • Zeit

Claims (16)

  1. Verfahren zum Codieren eines Audiosignals, wobei das Verfahren Folgendes umfasst: – das Erzeugen eines Mono-Signals aus wenigstens zwei Audio-Eingangskanälen; – das Erzeugen eines codierten Signals, das das Mono-Signal und einen Satz aus Parametern aufweist um die Wiedergabe zweier Audio-Ausgangssignale zu ermöglichen, die je einem betreffenden Eingangskanal entsprechen; dadurch gekennzeichnet, dass – die Parameter eine Angabe einer Gesamtverschiebung umfassen, wobei dies ein Maß der Verzögerung zwischen dem codierten Mono-Ausgangssignal und einem der Eingangssignale ist.
  2. Verfahren nach Anspruch 1, wobei zur Übertragung eine lineare Kombination der Gesamtverschiebung und einer Zwischenkanalphase oder Zeitdifferenz verwendet wird.
  3. Verfahren nach Anspruch 1, wobei die Gesamtverschiebung eine Gesamtzeitverschiebung ist.
  4. Verfahren nach Anspruch 1, wie die Gesamtverschiebung eine Gesamtphasenverschiebung ist.
  5. Verfahren nach Anspruch 1, wobei die Gesamtverschiebung durch die am besten passende Verzögerung (oder Phase) zwischen dem völlig codierten Mono-Ausgangssignal und einem der Eingangssignale bestimmt wird.
  6. Verfahren nach Anspruch 5, wobei die am besten passende Verzögerung mit dem Maximum in der Kreuzkorrelationsfunktion zwischen entsprechenden Zeit/Frequenzstapeln der Eingangssignale übereinstimmt.
  7. Verfahren nach Anspruch 1, wobei die Gesamtverschiebung in Bezug auf das Eingangssignal größerer Amplitude berechnet wird.
  8. Verfahren nach Anspruch 1, wobei die Phasendifferenz mit einem kleineren Quantisierungsfehler als die Gesamtverschiebung codiert wird.
  9. Codierer zum Codieren eines Audiosignals, der Folgendes umfasst: – Mittel zum Erzeugen eines Mono-Signals aus wenigstens zwei Audio-Eingangssignalen; – Mittel zum Erzeugen eines codierten Signals, das das Mono-Signal und Parameter aufweist um eine Wiedergabe zweier Audiosignale zu ermöglichen, die je einem betreffenden Eingangskanal entsprechen; dadurch gekennzeichnet, dass – die Parameter umfassen eine Angabe einer Gesamtverschiebung, wobei dies ein Maß der Verzögerung zwischen dem codierten Mono-Ausgangssignal und einem der Eingangssignale ist.
  10. Gerät zum Liefern eines Audiosignals, wobei das Gerät Folgendes umfasst: – einen Eingang zum Empfangen eines Audiosignals, – einen Codierer nach Anspruch 9 zum Codieren des Audiosignal zum Erhalten eines codierten Audisignals, und – einen Ausgang zum Liefern des codierten Audiosignals.
  11. Codiertes Audiosignal, wobei das Signal Folgendes umfasst: – ein Mono-Signal, hergeleitet von wenigstens zwei Audio-Eingangskanälen; – ein codiertes Signal, das das Mono-Signal und Parameter umfasst um eine Wiedergabe zweier Audio-Ausgangssignale zu ermöglichen, die je einem betreffenden Eingangskanal entsprechen; dadurch gekennzeichnet, dass – die Parameter eine Angabe der Gesamtverschiebung umfassen, wobei dies ein Maß der Verzögerung zwischen dem codierten Mono-Ausgangssignal und einem der Eingangssignale ist.
  12. Codiertes Audiosignal nach Anspruch 11, wobei zur Übertragung eine lineare Kombination der Gesamtverschiebung und einer Zwischenkanalphase oder Zeitdifferenz verwendet wird.
  13. Verfahren zum Decodieren eines codierten Audiosignals, das wenigstens zwei Audiokanäle darstellt, wobei das codiere Audiosignal ein codiertes Mono-Signal und räumliche Parameter umfasst, dadurch gekennzeichnet, dass das codiere Signal Parameter umfasst, die für eine Gesamtverschiebung indikativ sind, die ein Maß der Verzögerung zwischen dem codierten Mono-Ausgangssignal und einem der Audiokanäle ist, und dass das Verfahren die Erzeugung eines Stereopaares von Ausgangs-Audiosignalen umfasst, die in der Zeit und in der Phase um ein Intervall versetzt sind, spezifiziert durch die Parameter.
  14. Decoder zum decodieren eines codierten Audiosignals, das wenigstens zwei Audiokanäle darstellt, wobei das codiere Audiosignal ein codiertes Mono-Signal und räumliche Parameter umfasst, dadurch gekennzeichnet, dass das codierte Audiosignal Parameter aufweist, die für eine Gesamtverschiebung indikativ sind, die ein Maß der Verzögerung zwischen dem codierten Mono-Signal und einem der Audiokanäle ist, und dass der Decoder Mittel aufweist zum Erzeugen eines Stereopaares von Ausgangs-Audiosignalen, die in der Zeit und in der Phase um ein Intervall versetzt sind, spezifiziert durch die Parameter.
  15. Decoder nach Anspruch 14, wobei eine lineare Kombination der Gesamtverschiebung und einer Zwischenkanal-Zeit- oder Phasendifferenz zur Übertragung verwendet wird.
  16. Gerät zum Liefern eines decodierten Audiosignals, wobei das Gerät Folgendes umfasst: – einen Eingang zum Empfangen eines codierten Audiosignals, – einen Decoder nach Anspruch 14 zum Decodieren des codierten Audiosignals zum Erhalten eines Mehrkanal-Ausgangssignals, – einen Ausgang zum Liefern oder Wiedergeben des Mehrkanal-Ausgangssignals.
DE602004002390T 2003-02-11 2004-02-09 Audiocodierung Expired - Lifetime DE602004002390T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03100278 2003-02-11
EP03100278 2003-02-11
PCT/IB2004/050085 WO2004072956A1 (en) 2003-02-11 2004-02-09 Audio coding

Publications (2)

Publication Number Publication Date
DE602004002390D1 DE602004002390D1 (de) 2006-10-26
DE602004002390T2 true DE602004002390T2 (de) 2007-09-06

Family

ID=32865026

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004002390T Expired - Lifetime DE602004002390T2 (de) 2003-02-11 2004-02-09 Audiocodierung

Country Status (9)

Country Link
US (2) US7181019B2 (de)
EP (1) EP1595247B1 (de)
JP (1) JP4431568B2 (de)
KR (1) KR101049751B1 (de)
CN (1) CN1748247B (de)
AT (1) ATE339759T1 (de)
DE (1) DE602004002390T2 (de)
ES (1) ES2273216T3 (de)
WO (1) WO2004072956A1 (de)

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
CN1669358A (zh) * 2002-07-16 2005-09-14 皇家飞利浦电子股份有限公司 音频编码
FR2852779B1 (fr) * 2003-03-20 2008-08-01 Procede pour traiter un signal electrique de son
BR122018007834B1 (pt) 2003-10-30 2019-03-19 Koninklijke Philips Electronics N.V. Codificador e decodificador de áudio avançado de estéreo paramétrico combinado e de replicação de banda espectral, método de codificação avançada de áudio de estéreo paramétrico combinado e de replicação de banda espectral, sinal de áudio avançado codificado de estéreo paramétrico combinado e de replicação de banda espectral, método de decodificação avançada de áudio de estéreo paramétrico combinado e de replicação de banda espectral, e, meio de armazenamento legível por computador
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US7646875B2 (en) * 2004-04-05 2010-01-12 Koninklijke Philips Electronics N.V. Stereo coding and decoding methods and apparatus thereof
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
WO2006008697A1 (en) * 2004-07-14 2006-01-26 Koninklijke Philips Electronics N.V. Audio channel conversion
DE102004042819A1 (de) 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
JP5017121B2 (ja) 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
KR101215868B1 (ko) * 2004-11-30 2012-12-31 에이저 시스템즈 엘엘시 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
EP1818911B1 (de) * 2004-12-27 2012-02-08 Panasonic Corporation Tonkodierungsvorrichtung und tonkodierungsmethode
WO2006070757A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
JP4887288B2 (ja) * 2005-03-25 2012-02-29 パナソニック株式会社 音声符号化装置および音声符号化方法
KR100878371B1 (ko) * 2005-04-19 2009-01-15 돌비 스웨덴 에이비 공간적 오디오 파라미터들의 효율적인 부호화를 위한에너지 종속 양자화
US8090586B2 (en) 2005-05-26 2012-01-03 Lg Electronics Inc. Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal
US8494667B2 (en) 2005-06-30 2013-07-23 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8185403B2 (en) 2005-06-30 2012-05-22 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
AU2006266655B2 (en) 2005-06-30 2009-08-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
WO2007004186A2 (en) * 2005-07-06 2007-01-11 Koninklijke Philips Electronics N.V. Parametric multi-channel decoding
US7991272B2 (en) 2005-07-11 2011-08-02 Lg Electronics Inc. Apparatus and method of processing an audio signal
JP5173811B2 (ja) 2005-08-30 2013-04-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
US7761303B2 (en) 2005-08-30 2010-07-20 Lg Electronics Inc. Slot position coding of TTT syntax of spatial audio coding application
US7788107B2 (en) 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
JP4859925B2 (ja) 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
WO2007026763A1 (ja) * 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
JP4921470B2 (ja) * 2005-09-13 2012-04-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置
KR100857106B1 (ko) 2005-09-14 2008-09-08 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
EP1764780A1 (de) * 2005-09-16 2007-03-21 Deutsche Thomson-Brandt Gmbh Blindes Wasserzeichen für Audio-Signale mittels Phasen-Änderungen
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US7761289B2 (en) 2005-10-24 2010-07-20 Lg Electronics Inc. Removing time delays in signal paths
ATE456261T1 (de) 2006-02-21 2010-02-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
KR101396140B1 (ko) * 2006-09-18 2014-05-20 코닌클리케 필립스 엔.브이. 오디오 객체들의 인코딩과 디코딩
JPWO2008090970A1 (ja) * 2007-01-26 2010-05-20 パナソニック株式会社 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
KR101080421B1 (ko) * 2007-03-16 2011-11-04 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치
US20100121633A1 (en) * 2007-04-20 2010-05-13 Panasonic Corporation Stereo audio encoding device and stereo audio encoding method
KR101425355B1 (ko) * 2007-09-05 2014-08-06 삼성전자주식회사 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법
KR101450940B1 (ko) 2007-09-19 2014-10-15 텔레폰악티에볼라겟엘엠에릭슨(펍) 멀티채널 오디오의 조인트 인핸스먼트
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
SI2043291T1 (sl) * 2007-09-28 2011-09-30 Lg Electronics Inc Aparat in postopek za oddajanje in sprejemanje ofdm signala
WO2009051421A2 (en) * 2007-10-18 2009-04-23 Lg Electronics Inc. Method and system for transmitting and receiving signals
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
CN101149925B (zh) * 2007-11-06 2011-02-16 武汉大学 一种用于参数立体声编码的空间参数选取方法
ATE543314T1 (de) * 2007-11-14 2012-02-15 Lg Electronics Inc Verfahren und system zum senden und empfangen von signalen
BRPI0820488A2 (pt) 2007-11-21 2017-05-23 Lg Electronics Inc método e equipamento para processar um sinal
WO2009078681A1 (en) * 2007-12-18 2009-06-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR101444102B1 (ko) * 2008-02-20 2014-09-26 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8355921B2 (en) 2008-06-13 2013-01-15 Nokia Corporation Method, apparatus and computer program product for providing improved audio processing
US8644526B2 (en) * 2008-06-27 2014-02-04 Panasonic Corporation Audio signal decoding device and balance adjustment method for audio signal decoding device
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
EP2313886B1 (de) * 2008-08-11 2019-02-27 Nokia Technologies Oy Mehrkanal-audiokodierer und -dekodierer
EP2345027B1 (de) 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energie-bewahrende mehrkanal-audiokodierung und -dekodierung
US8504378B2 (en) * 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
US9053701B2 (en) 2009-02-26 2015-06-09 Panasonic Intellectual Property Corporation Of America Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method
US8666752B2 (en) 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
CN101521013B (zh) * 2009-04-08 2011-08-17 武汉大学 空间音频参数双向帧间预测编解码装置
CN101533641B (zh) 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
EP2273493B1 (de) 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandbreitenerweiterungscodierung und -decodierung
US8250431B2 (en) * 2009-07-30 2012-08-21 Lsi Corporation Systems and methods for phase dependent data detection in iterative decoding
KR20110022252A (ko) * 2009-08-27 2011-03-07 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
TWI433137B (zh) * 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
US8848925B2 (en) * 2009-09-11 2014-09-30 Nokia Corporation Method, apparatus and computer program product for audio coding
WO2011039668A1 (en) 2009-09-29 2011-04-07 Koninklijke Philips Electronics N.V. Apparatus for mixing a digital audio
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
CN102157150B (zh) 2010-02-12 2012-08-08 华为技术有限公司 立体声解码方法及装置
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
WO2011119401A2 (en) * 2010-03-23 2011-09-29 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
EP3144932B1 (de) * 2010-08-25 2018-11-07 Fraunhofer Gesellschaft zur Förderung der Angewand Vorrichtung zur codierung eines tonsignals mit mehreren kanälen
CN103262158B (zh) * 2010-09-28 2015-07-29 华为技术有限公司 对解码的多声道音频信号或立体声信号进行后处理的装置和方法
KR101930907B1 (ko) * 2011-05-30 2019-03-12 삼성전자주식회사 오디오 신호 처리 방법, 그에 따른 오디오 장치, 및 그에 따른 전자기기
CN104050969A (zh) 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
WO2015038578A2 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation System aspects of an audio codec
CN106104684A (zh) * 2014-01-13 2016-11-09 诺基亚技术有限公司 多通道音频信号分类器
KR101500972B1 (ko) * 2014-03-05 2015-03-12 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
CN107358961B (zh) * 2016-05-10 2021-09-17 华为技术有限公司 多声道信号的编码方法和编码器
CN107358960B (zh) * 2016-05-10 2021-10-26 华为技术有限公司 多声道信号的编码方法和编码器
CN107742521B (zh) 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
CN108877815B (zh) * 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
EP3483878A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiodecoder mit auswahlfunktion für unterschiedliche verlustmaskierungswerkzeuge
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483883A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiokodierung und -dekodierung mit selektiver nachfilterung
EP3483880A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Zeitliche rauschformung
EP3483882A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Steuerung der bandbreite in codierern und/oder decodierern
EP3483884A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signalfiltrierung
EP3483886A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Auswahl einer grundfrequenz
EP3483879A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analyse-/synthese-fensterfunktion für modulierte geläppte transformation
JP7038921B2 (ja) * 2019-01-11 2022-03-18 ブームクラウド 360 インコーポレイテッド サウンドステージを保全するオーディオチャネルの加算

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1186396B (it) * 1985-11-26 1987-11-26 Sgs Microelettronica Spa Sistema per la creazione di un effetto pseudostereo nella riproduzione di suone monofonico
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
PL338988A1 (en) * 1997-09-05 2000-12-04 Lexicon Matrix-type 5-2-5 encoder and decoder system
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US6973184B1 (en) * 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications

Also Published As

Publication number Publication date
CN1748247B (zh) 2011-06-15
EP1595247A1 (de) 2005-11-16
ATE339759T1 (de) 2006-10-15
EP1595247B1 (de) 2006-09-13
JP2006518482A (ja) 2006-08-10
ES2273216T3 (es) 2007-05-01
US20070127729A1 (en) 2007-06-07
KR20050095896A (ko) 2005-10-04
JP4431568B2 (ja) 2010-03-17
KR101049751B1 (ko) 2011-07-19
CN1748247A (zh) 2006-03-15
WO2004072956A1 (en) 2004-08-26
US7181019B2 (en) 2007-02-20
DE602004002390D1 (de) 2006-10-26
US20060147048A1 (en) 2006-07-06
US8831759B2 (en) 2014-09-09

Similar Documents

Publication Publication Date Title
DE602004002390T2 (de) Audiocodierung
DE60318835T2 (de) Parametrische darstellung von raumklang
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
DE602004005846T2 (de) Audiosignalgenerierung
DE60206390T2 (de) Effiziente und skalierbare parametrische stereocodierung für anwendungen mit niedriger bitrate
DE60306512T2 (de) Parametrische beschreibung von mehrkanal-audio
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
EP1763870B1 (de) Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals
EP1864279B1 (de) Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung
DE602005006424T2 (de) Stereokompatible mehrkanal-audiokodierung
EP2005421B1 (de) Vorrichtung und verfahren zum erzeugen eines umgebungssignals
DE602005005640T2 (de) Mehrkanalige audiocodierung
DE60311794T2 (de) Signalsynthese
DE602006000239T2 (de) Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter
DE602004007945T2 (de) Codierung von audiosignalen
DE602004008613T2 (de) Treueoptimierte kodierung mit variabler rahmenlänge
DE602004004818T2 (de) Audiosignalcodierung oder -decodierung
EP0750811B1 (de) Verfahren zum codieren mehrerer audiosignale
DE602004004168T2 (de) Kompatible mehrkanal-codierung/-decodierung
DE602005002451T2 (de) Vorrichtung und verfahren zur erzeugung eines pegelparameters und vorrichtung und verfahren zur erzeugung einer mehrkanal-repräsentation
DE602005002833T2 (de) Kompensation von multikanal-audio energieverlusten
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
EP2206113B1 (de) Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE60303209T2 (de) Parametrische audiocodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
R082 Change of representative

Ref document number: 1595247

Country of ref document: EP

Representative=s name: EISENFUEHR, SPEISER & PARTNER, 20355 HAMBURG, DE