DE60311794T2

DE60311794T2 - Signalsynthese

Info

Publication number: DE60311794T2
Application number: DE60311794T
Authority: DE
Inventors: Dirk J. Breebaart
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-04-22
Filing date: 2003-04-22
Publication date: 2007-10-31
Anticipated expiration: 2023-04-23
Also published as: US20110166866A1; JP2005523624A; BR0304541A; DE60311794C5; KR101021076B1; AU2003216682A1; JP4401173B2; US7933415B2; US20050254446A1; EP1500082B1; KR20040101552A; DE60311794D1; US8798275B2; WO2003090206A1; ES2280736T3; CN1647157A; CN1312660C; EP1500082A1; ATE354161T1; BRPI0304541B1

Description

Die vorliegende Erfindung bezieht sich auf die Synthese eines ersten und eines zweiten Ausgangssignals von einem Eingangssignal.
Im Bereich der Audiocodierung sind parametrische Audiocodierer immer interessanter geworden, Es hat sich herausgestellt, dass Übertragung (Quantisierung) von Parametern, die Audiosignale beschreiben, nur wenig Übertragungskapazität erfordern und dass sie eine Decodierung an dem empfangenden Ende ermöglichen, was zu einem Audiosignal führt, das wahrnehmbar von dem ursprünglichen Signal nicht wesentlich abweicht. Folglich können Bitrateneinsparungen dadurch erhalten werden, dass nur ein einziger Audiokanal in Kombination mit einem Parameterbitstrom übertragen wird, der die räumlichen Eigenschaften des Stereosignals beschreibt, und, folglich es ermöglicht, dass ein Decoder die räumlichen Eigenschaften des Stereosignals reproduziert.
Der Artikel: "Efficient representation of spezial audio using perceptual parametrization" (Faller und Baumgarte, "IEEE Workshop on applications of signal processing to audio and acoustics", 21. Oktober 2001) beschreibt eine Darstellung räumlichen Audios, das ein monaurales Summensignal und die interaurale Pegeldifferenz und die interaurale Zeitdifferenz in jedem kritischen Band aufweist. Zum Synthetisieren des binauralen Signals werden die Pegeldifferenzen und die Zeitdifferenzen auf die Spektralkoeffizienten des monauralen Signals angewandt.
Einer der oben genannten räumlichen Parameter, der für die Codierung eines Stereosignals mit einem L-Kanal und einem R-Kanal von Bedeutung ist, ist die Interkanal-Kreuzkorrelation zwischen dem L-Kanal und dem R-Kanal. Folglich ist in vielen Systemen einer der Signalparameter, die von einem Codierer analysiert werden, die Interkanal-Kreuzkorrelation. Die ermittelte Kreuzkorrelation wird danach zusammen mit einem Monosignal von dem Codierer zu einem entsprechenden Decoder übertragen.
Beim Decoder werden zwei Ausgangssignale rekonstruiert, welche die gewünschte Kreuzkorrelation haben. Weiterhin ist es erwünscht, dass die Rekonstruktion nur geringe Artefakte gegenüber dem ursprünglichen Stereosignal einführt.
An sich sind mehrere Verfahren zum Dekorrelieren von Signalen bekannt. 1 zeigt einen sog. Lauridsen Dekorrelator. Der Lauridsen Dekorrelator umfasst ein Allpassfilter 101, beispielsweise eine Verzögerung, die eine verzögerte Version der Wel lenform des Eingangssignals x erzeugt und möglicherweise verstärkt. Das Ausgangssignal H⨂x des Filters 101 wird daraufhin zu dem Eingangssignal addiert (102), was zu dem Linkskanal L führt, und von dem Eingangssignal subtrahiert (103), was zu dem Rechtskanal R führt.
Der oben genannte bekannte Dekorrelator eignet sich durchaus solange die zwei Ausgangssignale einander im Pegel sehr ähnlich sind oder einander sogar im Pegel entsprechen. Parametrische Audiocodierer führen aber auch Pegeldifferenzen den Ausgangssignalen zu, das sog. "Amplituden-Panning". Der oben genannte Dekorrelator bringt das Problem mit sich, dass die wahrnehmbare Qualität der erzeugten Signale abnimmt, wenn die Pegeldifferenzen groß sind.
Das oben stehende und andere Probleme werden gelöst durch ein Verfahren zum Synthetisieren eines ersten und eines zweiten Audio-Ausgangssignals von einem Eingangssignal, wobei das Verfahren die nachfolgenden Verfahrensschritte umfasst:

– das Filtern des Eingangssignals zum Erzeugen eines gefilterten Signals,
– das Erhalten eines Korrelationsparameters, der indikativ ist für eine gewünschte Korrelation zwischen dem ersten und dem zweiten Ausgangssignal,
– das Erhalten eines Pegelparameters, der indikativ ist für eine gewünschte Pegeldifferenz zwischen dem ersten und dem zweiten Ausgangssignal,
– das Transformieren des Eingangssignals und des gefilterten Signals durch einen Matrixvorgang zu dem ersten und zweiten Ausgangssignal, wobei der Matrixvorgang von dem Korrelationsparameter und dem Pegelparameter abhängig ist.

Folglich wird durch Durchführung eines Matrixvorgangs, der von der gewünschten Korrelation und der gewünschten Pegeldifferenz abhängig ist, eine wesentliche Zunahme der wahrnehmbaren Qualität der Ausgangssignale eines parametrischen Decoders erreicht.
In einer bevorzugten Ausführungsform umfasst der Matrixvorgang eine übliche Rotation um einen vorbestimmten Winkel des ersten und zweiten Ausgangssignals in einem Raum, der von dem Eingangssignal und dem gefilterten Eingangssignal umfasst wird; und wobei der vorbestimmte Winkel von dem Pegelparameter abhängig ist.
Folglich kann durch Addierung einer zusätzlichen Rotation zu dem Mischvorgang der relative Pegel der Ausgangssignale gesteuert werden, ohne dass dadurch die Kreuzkorrelation zwischen den Ausgangssignalen beeinflusst wird.
Bei einer weiteren bevorzugten Ausführungsform wird der vorbestimmte Winkel derart gewählt, dass er einen gesamten Beitrag des Eingangssignals zu dem ersten und dem zweiten Ausgangssignal maximiert. Es wird verwirklicht, dass die wahrnehmbare Qualität des Signals gesteigert werden kann, wenn der Betrag des gefilterten Signals in den Ausgangssignalen minimiert wird, und folglich der Betrag des ursprünglichen Signals maximiert wird.
Wenn das Verfahren weiterhin die Skalierung des ersten sowie des zweiten Ausgangssignals zu der genannten gewünschten Pegeldifferenz zwischen dem ersten und dem zweiten Signal umfasst, wird gewährleistet, dass der relative Pegel der Ausgangssignale dem gewünschten Pegel entsprechend einem durch den Codierer bestimmten Pegelparameter entspricht.
Bei einer bevorzugten Ausführungsform umfasst die Filterung des Eingangssignals eine Allpassfilterung des Eingangssignals, beispielsweise ein Kammfilter. Der spektrale Raum eines Kammfilters ist über die Frequenz einheitlich verteilt. Damit man nun imstande ist, einen gewünschten Dichtenraum von Spitzen und Tälern bei niedrigen Frequenzen zu erhalten, soll die Verzögerung des Lauridsen-Dekorrelators sehr groß sein. Dies aber hat den Nachteil, dass bei hohen Frequenzen für Übergangseingangssignale Echos wahrgenommen werden können.
Dieses Problem kann gelöst werden, wenn das Allpassfilter eine frequenzabhängige Verzögerung aufweist. Bei hohen Frequenzen wird eine relativ geringe Verzögerung angewandt, was zu einer groben Frequenzauflösung führt. Bei niedrigen Frequenzen führt eine große Verzögerung zu einem Dichtenraum des Kammfilters.
Die Filterung kann über die volle Bandbreite des Signals durchgeführt werden. Auf alternative Weise kann die Filterung mit einem Bandbegrenzungsfilter kombiniert werden, wobei die Dekorrelation auf ein oder mehrere selektierte Frequenzbänder angewandt wird.
Der Ausdruck Matrixvorgang bezieht sich auf einen Vorgang, der ein Eingangssignal mit mehreren Kanälen in ein Ausgangssignal mit mehreren Kanälen transformiert, wobei die Anteile des Mehrkanal-Ausgangssignals lineare Kombinationen der Anteile des Mehrkanal-Eingangssignals sind.
Die vorliegende Erfindung kann verschiedenartig implementiert werden einschließlich des oben und nachfolgend beschriebenen Verfahrens, der Anordnungen zum Codieren und Decodieren, und weiterer Produktmittel, die je einen oder mehrere der Vorteile ergeben, die im Zusammenhang mit dem erstgenannten Verfahren beschrieben worden sind, und die je eine oder mehrere bevorzugte Ausführungsformen haben, die den bevorzugten Ausführungsformen entsprechen, die im Zusammenhang mit dem erstgenannten Verfahren beschrieben und in den Unteransprüchen definiert worden sind.
Es sei bemerkt, dass die Merkmale des oben und nachstehend beschriebenen Verfahrens in Software implementiert und in einem Datenverarbeitungssystem oder in anderen Verarbeitungsmitteln durchgeführt werden können, verursacht durch die Durchführung von mit dem Computer durchführbaren Instruktionen. Die Instruktionen können Programmcodemittel sein, die in einem Speicher geladen sind, wie in einem RAM, aus einem Speichermedium oder über ein Computernetzwerk aus einem anderen Computer. Auf alternative Weise können die beschriebenen Merkmale durch Hardware-Schaltungen statt durch Software oder in Kombination mit Software implementiert werden.
Die vorliegende Erfindung bezieht sich weiterhin auf eine Anordnung zum Synthetisieren eines ersten und eines zweiten Audio-Ausgangssignals von einem Eingangssignal, wobei diese Anordnung Folgendes umfasst:

– Filtermittel zum Filtern des Eingangssignals zum Erzeugen eines gefilterten Signals,
– Mittel zum Erhalten eines Korrelationsparameters, der indikativ ist für eine gewünschte Korrelation zwischen dem ersten und dem zweiten Ausgangssignal,
– Mittel zum Erhalten eines Pegelparameters, der indikativ ist für eine gewünschte Pegeldifferenz zwischen dem ersten und dem zweiten Ausgangssignal,
– Mittel zum Transformieren des Eingangssignals und des gefilterten Signals durch einen Matrixvorgang zu dem ersten und zweiten Ausgangssignal, wobei der Matrixvorgang von dem Korrelationsparameter und dem Pegelparameter abhängig ist.

Die vorliegende Erfindung bezieht sich weiterhin auf eine Anordnung zum Liefern eines decodierten Audiosignals, wobei diese Anordnung Folgendes umfasst:

– eine Eingangseinheit zum Empfangen eines codierten Audiosignals,
– einen Decoder zum Decodieren des codierten Audiosignals, wobei der Decoder eine Anordnung zum Synthetisieren eines ersten und eines zweiten Audiosignals nach Anspruch 7 aufweist; und
– eine Ausgangseinheit zum Liefern des decodierten ersten und zweiten Audiosignals.

Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
1 einen bekannten Lauridsen Dekorrelator,
2 einen Dekorrelator nach einer Ausführungsform der vorliegenden Erfindung,
3a-c die Signalerzeugung entsprechend einer Ausführungsform der vorliegenden Erfindung,
4 eine schematische Darstellung eines Systems zur räumlichen Audiocodierung, und
5 eine schematische Darstellung eines Systems zur Kommunikation von Merkanal-Audiosignalen.
2 zeigt einen Dekorrelator nach einer Ausführungsform der vorliegenden Erfindung. Der Dekorrelator umfasst ein Allpassfilter 201, das ein Eingangssignal x empfängt, beispielsweise von einem parametrischen Audiocodierer, der ein Mono-Audiosignal x und einen Satz mit Parametern P erzeugt, wobei dieser Satz eine Zwischenkanal-Kreuzkorrelation ρ und einen Parameter enthält, der für die Kanaldifferenz c indikativ ist. Vorzugsweise umfasst das Allpassfilter eine frequenzabhängige Verzögerung, die eine relativ kleinere Verzögerung bei hohen Frequenzen als bei niedrigen Frequenzen schafft. Dies kann dadurch erreicht werden, dass eine feste Verzögerung des Allpassfilters durch ein Allpassfilter mit einer Periode eines Schroeder-Phasenkomplexes ersetzt wird (siehe beispielsweise M.R. Schroeder, "Synthesis of low-peak-factor signals and binary sequences with low autocorrelation", IEEE Transact. Inf. Theor., 16:85-89, 1970). Der Dekorrelator umfasst weiterhin eine Analysenschaltung 202, welche die räumlichen Parameter von dem Decoder empfängt und die Zwischenkanal-Kreuzkorrelation ρ und die Kanaldifferenz c extrahiert. Die Schaltungsanordnung 202 ermittelt eine Mischmatrix M(α,β), wie im Zusammenhang mit den 3a-c beschrieben wird. Die Komponenten der Mischmatrix werden in eine Transformationsschaltung 203 eingegeben, die weiterhin das Eingangssignal x und das gefilterte Signal H⨂x empfängt. Die Schaltungsanordnung 203 Führt einen Mischvorgang durch, und zwar entsprechend:
was zu den Ausgangssignalen L und R führt.
3a-c zeigt die Signalerzeugung nach einer Ausführungsform der vorliegenden Erfindung. In 3a wird das Eingangssignal x durch die horizontale Achse dargestellt, während das gefilterte Signal H⨂x durch die vertikale Achse dargestellt wird. Da die zwei Signale nicht korreliert sind, können sie als orthogonale Vektoren dargestellt werden, die einen zweidimensionalen Raum überspannen.
Die Ausgangssignale L und R werden als Vektoren 301 bzw. 302 dargestellt. In dieser Darstellung wird die Korrelation zwischen den Signalen L und R durch den Winkel α zwischen den Vektoren 301 und 302 entsprechend ρ=cos(α) gegeben, d.h. durch den Winkelabstand α zwischen den Vektoren 301 und 302. Folglich hat jedes Vektorenpaar, das den richtigen Winkelabstand aufweist, die betreffende Korrelation.
Folglich kann eine Mischmatrix M, welche die Signale x und H⨂x in Signale L und R mit einer vorbestimmten Korrelation ρ transformiert, wie folgt ausgedrückt werden:
Auf diese Weise ist der Betrag des alpass-gefilterten Signals von der gewünschten Korrelation abhängig. Weiterhin ist die Energie des Allpass-Signalanteils in den beiden Ausgangskanälen die gleiche (aber mit einer 180° Phasenverschiebung).
Es sei bemerkt, dass der Lauridsen-Dekorrelator nach 1 dem Fall entspricht, in dem die Matrix M gegeben wird durch:
d.h. α = 90° entsprechend nicht korrelierten Ausgangssignalen (ρ=0).
Um ein Problem mit der Matrix der Gleichung (3) zu illustrieren wird eine Situation mit einer extremen Amplituden-Panning in Richtung des Linkskanals vorausgesetzt, d.h. ein Fall, in dem ein bestimmtes Signal nur in dem Linkskanal vorhanden ist. Es wird weiterhin vorausgesetzt, dass die gewünschte Korrelation zwischen den Ausgängen Null ist. In diesem Fall ergibt das Ausgangssignal des Linkskanals der Transformation der Gleichung (1) mit der Mischmatrix der Gleichung (3) L = 1/√2(x+H⨂x). Auf diese Weise besteht das Ausgangssignal aus dem ursprünglichen Signal x kombiniert mit der allpassgefilterten Version H⨂x.
Dies ist aber eine unerwünschte Situation, da das Allpassfilter meistens die wahrnehmbare Qualität des Signals verschlechtert. Weiterhin führt die Addierung des ursprünglichen Signals zu dem gefilterten Signal zu Kammfiltereffekten, wie wahrnahbare Verfärbung des Ausgangssignals. In diesem vorausgesetzten extremen Fall wäre die beste Lösung, dass das linke Ausgangssignal aus dem Eingangssignal besteht. Auf diese Weise wäre die Korrelation der zwei Ausgangssignale dennoch Null.
In Situationen mit mehr gemäßigten Pegeldifferenzen ist die bevorzugte Situation, dass der lautere Ausgangskanal relativ mehr von dem ursprünglichen Signal enthält und der leisere Ausgangskanal relativ mehr von dem gefilterten Signal enthält. Folglich wird im Allgemeinen bevorzugt, den Betrag des ursprünglichen Signals in den zwei Ausgangssignalen zusammen zu maximieren und den Betrag des gefilterten Signals zu minimieren.
Nach der vorliegenden Erfindung wird dies dadurch erreicht, dass eine andere Mischmatrix mit einer zusätzlichen gemeinsamen Drehung eingeführt wird:
Hier ist β eine zusätzliche Drehung, und C ist eine Skalierungsmatrix, die gewährleistet, dass die relative Pegeldifferenz zwischen den Ausgangssignalen dem Wert c entspricht, d.h.:
Das Einfügen der Matrix der Gleichung (4) in die Gleichung (1) ergibt die Ausgangssignale, die durch den Matrixvorgang nach der vorliegenden Erfindung erzeugt worden sind:
Diese Situation ist in 3b dargestellt. Die Ausgangssignale L und R haben dennoch eine Winkeldifferenz α, d.h. die Korrelation zwischen dem L-Signal und dem R-Signal wird durch die Skalierung der Signale L und R entsprechend der gewünschten Pegeldifferenz und die zusätzliche Drehung um den Winkel β des L-Signals und des R-Signals nicht beeinflusst.
Wie oben erwähnt soll vorzugsweise der Betrag des ursprünglichen Signals x in dem summierten Ausgang von L und R maximiert werden. Diese Bedingung kann angewandt werden um den Winkel β zu ermitteln, und zwar entsprechend:
was die nachfolgende Bedingung ergibt:
Diese Situation ist in 3c dargestellt, wobei die Summe des L- und R-Anteils an die Richtung von x angepasst ist.
4 zeigt schematisch ein System zur räumlichen Audiocodierung. Das System umfasst einen Codierer 401 und einen entsprechenden Decoder 405. Der Codierer 401 beschreibt die räumlichen Attribute eines Mehrkanal-Audiosignals durch Spezifikation einer interauralen Pegeldifferenz, einer interauralen Zeitdifferenz (oder Phasendifferenz), und einer maximalen Korrelation als eine Funktion der Zeit und der Frequenz, wie in WO-A1-03/090208 beschrieben. Der Codierer 401 empfängt den L- und den R-Anteil eines Stereosignals als Eingangssignal. Zunächst werden der R- und der L-Anteil von der Zeit/Frequenz-Slice-Schaltungen 402 bzw. 403 in verschiedene Zeit/Frequenzschlitze aufgeteilt, beispielsweise durch Zeitfensterung mit einer nachfolgenden Transformation.
In einer Ausführungsform werden das linke und das rechte eintreffende Signal in mehrere Zeitframes (beispielsweise 2048 Abtastwerte bei einer Abtastrate von 44,1 kHz) aufgeteilt und mit einem Quadratwurzel-Hammingfenster gefenstert. Daraufhin werden FFTen berechnet. Die negativen FFT-Frequenzen werden verworfen und die resultierenden FFTen werden in Gruppen von FFT-Bins (Teilbänder) aufgeteilt. Die Anzahl FFT-Bins, die zu einem Teilband kombiniert werden, ist von der Frequenz abhängig: bei höheren Frequenzen werden mehr Bins kombiniert als bei niedrigeren Frequenzen. So können beispielsweise FFT-Bins, die etwa 1,8 ERBen ("Equivalent Rectangular Bandwidth") entsprechen gruppiert werden, was zu beispielsweise 20 Teilbändern führt um den ganzen hörbaren Frequenzbereich darzustellen.
Daraufhin werden in der Analysenschaltung 404 für jeden Zeit/Frequenzschlitz die nachfolgenden Eigenschaften der eintreffenden Signale analysiert:
Die interaurale Pegeldifferenz, oder ILD, definiert durch die relativen Pegel der entsprechenden bandbegrenzten Signale, herrührend von den zwei Eingängen, Die interaurale Zeitdifferenz (oder Phasendifferenz) (ITD oder IPD), definiert durch die interaurale Verzögerung (oder Phasenverschiebung) entsprechend der Spitze in der interauralen Kreuzkorrelationsfunktion, und
Die Verschiedenheit/Gleichartigkeit der Wellenformen, die nicht durch ITDen oder ILDen nachgewiesen werden können, die durch den maximalen Wert der Kreuzkorrelationsfunktion parameterisiert werden können (d.h. den Wert der Kreuzkorrelationsfunktion an der Stelle der maximalen Spitze).
Die drei oben beschriebenen Parameter variieren in der Zeit; aber da es bekannt ist, dass das binaurale Hörsystem in der Verarbeitung sehr träge ist, ist die Aktualisierungsrate dieser Eigenschaften ziemlich niedrig (typischerweise einige zehn Millisekunden).
De Analysenschaltung 404 erzeugt weiterhin ein (dominantes) Summensignal S mit einer Kombination des linken und des rechten Signals. Folglich werden das L- und das R-Signal als das Summensignal S und ein Satz mit Parametern P als eine Funktion der Frequenz und der Zeit codiert, wobei die Parameter P die ILD, die ITD/IPD und den maximalen Wert der Kreuzkorrelationsfunktion enthalten.
Es sei bemerkt, dass die Parameter ILD in dieser Ausführungsform zu dem Kanaldifferenzparameter c in der Ausführungsform nach 2 durch ILD=k·log(c) in einem Verhältnis steht, wobei k eine Konstante ist, d.h. ILD ist proportional zu dem Logarithmus von c.
In einer Ausführungsform werden für jedes Teilband die entsprechende ILD, ITD und die Korrelation ρ berechnet. Die ITD und die Korrelation werden auf einfache Weise dadurch berechnet, dass alle FFT-Bins, die zu anderen Gruppen gehören, auf Null gesetzt werden, dass die resultierenden (bandbegrenzten) FFTen von dem linken und rechten Kanal multipliziert werden und wonach eine inverse FFT-Transformation folgt. Die resultierende Kreuzkorrelationsfunktion wird für eine Spitze innerhalb einer Zwischenkanalverzögerung zwischen –64 und +63 Abtastwerten abgetastet. Die interne Verzögerung entsprechend der Spitze wird als ITD-Wert verwendet und der Wert der Kreuzkorrelationsfunktion bei dieser Spitze wird als interaurale Korrelation dieses Teilbandes benutzt. Zum Schluss wird die ILD einfach dadurch berechnet, dass das Leistungsgewicht des linken und des rechten Signals für jedes Teilband genommen wird.
Das Summensignal S kann dadurch erzeugt werden, dass das linke und das rechte Teilband nach einer Phasenkorrektur (zeitliche Ausrichtung) summiert werden. Diese Phasenkorrektur folgt aus der berechneten ITD für dieses Teilband und besteht aus Verzögerung des Linkskanal-Teilbandes um ITD/2 und des Rechtskanal-Teilbandes um –ITD/2. Die Verzögerung erfolgt in der Frequenzdomäne durch eine geeignete Modifikation der Phasenwinkel jedes FFT-Bins. Daraufhin wird das Summensignal dadurch berechnet, dass die phasenmodifizierten Versionen des linken und des rechten Teilbandsignals addiert werden. Zum Schluss wird zum Kompensieren einer nicht korrelierten oder korrelierten Addierung, jedes Teilband des Summensignals mit sqrt(2/(1+ρ)) multipliziert, wobei ρ die Korrelation des entsprechenden Teilbandes ist. Nötigenfalls kann das Summensignal in die Zeitdomäne umgesetzt werden, und zwar durch (1) Einfügung komplexer Konjugationen bei negativen Frequenzen, (2) inverse FFT, (3) Fensterung, und (4) Überlappungsaddierung.
Vorzugsweise werden die räumlichen Parameter quantisiert zum reduzieren der erforderlichen Bitrate zwecks ihrer Übertragung.
Das Summensignal S und die Parameter P werden einem Decoder 405 zugeführt. Der Decoder 405 umfasst eine Dekorrelatorschaltung 406, welche die Korrelation zwischen dem linken und dem rechten Signal, wie im Zusammenhang mit 2 beschrieben wurde, modifiziert. Der Decoder umfasst weiterhin Verzögerungsschaltungen 407 und 408, die jedes Teilband des linken Signals um –ITD/2 und jedes Teilband des rechten Signals um ITD/2 verzögern, wobei die (quantisierte) ITD diesem Teilband entsprechend gegeben ist. Der Decoder umfasst ferner die Schaltungsanordnung 409, welche die Teilbänder entsprechend der IID für dieses Teilband skaliert und die Ausgangssignale in die Zeitdomäne umsetzt, beispielsweise dadurch, dass die nachfolgenden Schritte durchgeführt werden: (1) das Einfügen komplexer Konjugationen bei negativen Frequenzen, (2) eine inverse FFT, (3) Fensterung, und (4) Überlappungsaddierung.
5 zeigt eine schematische Darstellung eines Systems zum Übertragen von Stereo-Audiosignalen nach einer Ausführungsform der vorliegenden Erfindung. Das System umfasst eine Codieranordnung 501 zum Erzeugen eines codierten Audiosignals und eine Decodieranordnung 505 zum Decodieren eines empfangenen codierten Signals in ein Stereosignal. Die Codieranordnung 501 und die Decodieranordnung 505 können je jede beliebige elektronische Anlage oder ein teil einer derartigen Anlage sein.
Hier umfasst der Ausdruck elektronische Anlage Computer, wie ortsfeste oder tragbare PCs, ortsfeste oder tragbare Funkübertragungsanlagen und andere Handhelds oder tragbare Anordnungen, wie Mobiltelefone, Funkrufgeräte, Audiospieler, Multimediaspieler, Zeichengeber, d.h. elektronische Organizer, smart Telefone, PDAs, Handheld Computer oder dergleichen. Es sei bemerkt, dass die Codieranordnung 501 und die Decodieranordnung zu einer einzigen elektronischen Anordnung kombiniert werden können, wobei Audiosignale auf einem vom Computer auslesbaren Medium zur späteren Wiedergabe gespeichert werden.
Die Codieranordnung 501 umfasst eine Eingangseinheit 511 zum Empfangen eines Stereosignals, einen Codierer 502 zum Codieren eines Stereosignals mit einem Linkssignalanteil L und einem Rechtssignalanteil R. Der Codierer 502 empfängt die zwei Signalanteile über die Eingangseinheit 511 und erzeugt ein codiertes Signal T. Das Stereosignal kann von einem Satz von Mikrophonen herrühren, beispielsweise über eine weitere elektronische Anordnung, wie einer Mischanlage, usw. Die Signale können weiterhin als ein Ausgangssignal von einem anderen Audiospieler, durch die Luft als Funksignal, oder mit Hilfe eines anderen beliebigen geeigneten Mittels empfangen werden. Ein Beispiel eines derartigen Codierers wurde im Zusammenhang mit 4 beschrieben.
Nach einer Ausführungsform ist der Codierer 502 mit einem Sender 503 verbunden zum Übertragen des codierten Signals T über einen Kommunikationskanal 509 zu der Decodieranordnung 505. Der Sender 503 kann eine Schaltungsanordnung aufweisen, die geeignet ist, die Übertragung von Daten zu ermöglichen, beispielsweise über eine verdrahtete oder eine drahtlose Datenverbindung 509. Beispiele eines derartigen Senders umfassen eine Netzwerkschnittstelle, eine Netzwerkkarte, einen Funksender, einen Sender für andere geeignete elektromagnetische Signale, wie eine LED zum Übertragen von IR-Licht, beispielsweise über einen IR-DA-Port, funkbasierte Übertragungen, beispielsweise über einen Bluetooth-Transceiver, oder dergleichen. Weitere Beispiele geeigneter Sender umfassen ein Kabelmodem, ein Telefonmodem, einen ISDN-Adapter, einen DSL-Adapter, einen Satellitenempfänger, einen Ethernetadapter, oder dergleichen. Auf entsprechende Weise kann der Übertragungskanal 509 eine geeignete verdrahtete oder drahtlose Datenverbindung sein, beispielsweise ein paketbasiertes Übertragungsnetzwerk, wie das Internet, oder ein anderes TCP/Informationspaket-Netzwerk, eine Kurzbereich-Übertragungsverbindung, wie eine IR-Verbindung, eine Bluetooth-Verbindung oder eine andere funkbasierte Verbindung.
Weitere Beispiele des Kommunikationskanals umfassen Computernetzwerke und drahtlose Telekommunikationsnetzwerke, wie ein CDPD-Netzwerk, ein GSM-Netzwerk, ein CDMA-Netzwerk, ein TDMA-Netzwerk, ein GPRS-Netzwerk, ein Netzwerk dritter Generation, wie ein UMTS-Netzwerk, oder dergleichen.
Auf alternative Weise oder zusätzlich kann die Codieranordnung eine oder mehrere andere Schnittstellen 504 zum Übertragen des codierten Stereosignals T zu der Decodieranordnung 505 umfassen. Beispiele derartiger Schnittstellen umfassen ein Disk-Laufwerk zur Speicherung von Daten auf einem vom Computer auslesbaren Medium 510, beispielsweise einem Diskettenlaufwerk, einem CD-ROM-Laufwerk, einem DVD-Laufwerk usw. Andere Beispiele umfassen einen Speicherkartenschlitz, einen Magnetkartenleser/Schreiber, eine Schnittstelle zum Zugreifen auf eine Chipkarte, usw.
Auf entsprechende Weise umfasst die Decodieranordnung 505 einen entsprechenden Empfänger 508 zum Empfangen des von dem Sender übertragenen Signals und/oder eine andere Schnittstelle 506 zum Empfangen des codierten Stereosignals, das über die Schnittstelle 504 und das vom Computer auslesbaren Medium 510 übertragen worden ist. Die Decodieranordnung umfasst weiterhin einen Decoder 507, der das empfangene Signal T empfängt und dieses in entsprechende Anteile L' und R' eines decodierten Stereosignals decodiert. Eine bevorzugte Ausführungsform eines derartigen Decoders nach der vorliegenden Erfindung wurde im Zusammenhang mit 4 oben stehend beschrieben. Die Decodieranordnung umfasst weiterhin eine Ausgangseinheit 512 zum Ausliefern der decodierten Signale, die danach einem Audiospieler zur Wiedergabe über einen Satz mit Lautsprechern oder dergleichen zugeführt werden.
Es sei bemerkt, dass die oben genannten Anordnungen als programmierbare Allzweck- oder Spezial-Mikroprozessoren, als digitale Signalprozessoren (DSP), als ASIC-Schaltungen, als PLA-Anordnungen, als FPGA-Anordnungen, als elektronische Spezialschaltungen, usw. oder als eine Kombination davon implementiert werden können.
Es sei bemerkt, dass die oben genannten Ausführungsformen die vorliegende Erfindung illustrieren statt begrenzen, und dass der Fachmann imstande sein wird, im Rahmen der beiliegenden Patentansprüche viele alternative Ausführungsformen zu entwerfen.
So beschränkt sich beispielsweise die vorliegende Erfindung nicht auf Stereosignal, sondern sie kann auch auf andere Mehrkanal-Eingangssignale mit zwei oder mehr Eingangskanälen angewandt werden. Beispiele derartiger Mehrkanal-Signale umfassen Signale, die von DVD oder von einer Super-Audio-CD usw. empfangen werden.
In den Patentansprüchen sollen eingeklammerte Bezugszeichen nicht als den Anspruch begrenzend betrachtet werden. Das Wort "umfassen" schließt das Vorhandensein von Elementen oder Schritten anders als diejenigen, die in dem Anspruch genannt wurden, nicht aus. Das Wort "ein" vor einem Element schließt das Vorhandensein einer Anzahl derartiger Elemente nicht aus.
Die vorliegende Erfindung kann mit Hilfe von Hardware mit vielen einzelnen Elementen und mit Hilfe eines auf geeignete Art und Weise programmierten Computers implementiert werden. In dem Anordnungsanspruch, in dem verschiedene Mittel nummeriert sind, können viele dieser Mittel von ein und demselben Hardware-Item verkörpert werden. Die Tatsache dass bestimmte Maßnahmen in untereinander verschiedenen Unteransprüchen erwähnt worden sind, bedeutet nicht, dass eine Kombination dieser Maßnahmen nicht mit Vorteil angewandt werden könnte.

Claims

Verfahren zum Synthetisieren eines ersten und eines zweiten Ausgangssignals (L, R) von einem Eingangssignal (X), wobei das Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Filtern des Eingangssignals (X) zum Erzeugen eines gefilterten Signals, – das Erhalten eines Korrelationsparameters (τ), der indikativ ist für eine gewünschte Korrelation zwischen dem ersten und dem zweiten Ausgangssignal (L, R), – das Erhalten eines Pegelparameters (c), der indikativ ist für eine gewünschte Pegeldifferenz zwischen dem ersten und dem zweiten Ausgangssignal (L, R), – das Transformieren des Eingangssignals (X) und des gefilterten Signals durch einen Matrixvorgang zu dem ersten und zweiten Ausgangssignal (L, R), wobei der Matrixvorgang von dem Korrelationsparameter (τ) und dem Pegelparameter (c) abhängig ist.
Verfahren nach Anspruch 1, wobei der Matrixvorgang eine übliche Rotation um einen vorbestimmten Winkel des ersten und zweiten Ausgangssignals in einem Raum umfasst, der von dem Eingangssignal und dem gefilterten Eingangssignal umfasst wird; und wobei der vorbestimmte Winkel von dem Pegelparameter abhängig ist.
Verfahren nach Anspruch 2, wobei der vorbestimmte Winkel derart gewählt wird, dass er einen gesamten Beitrag des Eingangssignals zu dem ersten und dem zweiten Ausgangssignal maximiert.
Verfahren nach Anspruch 1, das weiterhin die Skalierung des ersten und des zweiten Ausgangssignals zu der genannten gewünschten Pegeldifferenz zwischen dem ersten und dem zweiten Ausgangssignal umfasst.
Verfahren nach Anspruch 1, wobei die Filterung des Eingangssignals eine Allpassfilterung des Eingangssignals umfasst.
Verfahren nach Anspruch 5, wobei das Allpassfilter eine frequenzabhängige Verzögerung umfasst.
Anordnung zum Synthetisieren eines ersten und eines zweiten Audio-Ausgangssignals (L, R) von einem Eingangssignal (X), wobei diese Anordnung Folgendes umfasst: – Filtermittel (201) zum Filtern des Eingangssignals (X) zum Erzeugen eines gefilterten Signals, – Mittel (202) zum Erhalten eines Korrelationsparameters (τ), der indikativ ist für eine gewünschte Korrelation zwischen dem ersten und dem zweiten Ausgangssignal (L, R), – Mittel (202) zum Erhalten eines Pegelparameters (c), der indikativ ist für eine gewünschte Pegeldifferenz zwischen dem ersten und dem zweiten Ausgangssignal (L, R), – Mittel (203) zum Transformieren des Eingangssignals (X) und des gefilterten Signals durch einen Matrixvorgang zu dem ersten und zweiten Ausgangssignal (L, R), wobei der Matrixvorgang von dem Korrelationsparameter (τ) und dem Pegelparameter (c) abhängig ist.
Anordnung zum Liefern eines decodierten Audiosignals, wobei diese Anordnung die nachfolgenden Elemente umfasst: – eine Eingangseinheit zum Empfangen eines codierten Audiosignals, – einen Decoder zum Decodieren des codierten Audiosignals, wobei der Decoder eine Anordnung zum Synthetisieren eines ersten und eines zweiten Audiosignals nach Anspruch 7 aufweist; und – eine Ausgangseinheit zum Liefern des decodierten ersten und zweiten Audiosignals.