DE60225806T2

DE60225806T2 - Audiokanalübersetzung

Info

Publication number: DE60225806T2
Application number: DE60225806T
Authority: DE
Inventors: Mark Franklin San Francisco DAVIS
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-02-07
Filing date: 2002-02-07
Publication date: 2009-04-30
Anticipated expiration: 2022-02-08
Also published as: AU2002251896A2; ATE390823T1; JP2004526355A; WO2002063925A2; CN1275498C; KR100904985B1; WO2002063925A8; HK1066966A1; CA2437764A1; WO2002063925A3; KR20030079980A; MXPA03007064A; DE60225806D1; EP1410686B1; AU2002251896B2; CA2437764C; EP1410686A2; CN1524399A

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf Audiosignalverarbeitung. Im Besonderen bezieht sich die Erfindung auf die Umsetzung von M Audioeingangskanälen, die ein Schallfeld darstellen, auf N Audioausgangskanäle, die dasselbe Schallfeld darstellen, wobei jeder Kanal ein einzelner Audiostrom ist, der aus einer Richtung ankommendes Audio darstellt, M und N positive ganze Zahlen sind und M mindestens 2 ist.
STAND DER TECHNIK
Obwohl Menschen nur zwei Ohren haben, hören wir Schall als ein dreidimensionales Gebilde, wobei wir uns auf eine Reihe von Hinweisen zur Ortsbestimmung wie kopfbezogene Übertragungsfunktionen (HRTFs) und Kopfbewegung stützen. Vollständig genaue Schallwiedergabe erfordert daher die Beibehaltung und Wiedergabe des gesamten 3D Schallfeldes oder zumindest der davon wahrgenommenen Informationen. Unglücklicherweise ist die Schallaufnahmetechnologie weder auf die Erfassung des 3D Schallfeldes noch auf die Erfassung einer 2D Schallebene und noch nicht einmal auf die Erfassung einer 1D Schalllinie ausgerichtet. Derzeitige Schallaufnahmetechnologie ist strikt auf die Erfassung, Bewahrung und Darstellung von nulldimensionalen, diskreten Audiokanälen ausgerichtet.
Der meiste Aufwand zur Verbesserung der Klangtreue seit Edison's ursprünglicher Erfindung der Schallaufnahme hat sich auf die Verbesserung der Mängel seiner ursprünglichen, analog rillenmodulierten Zylinder-/Scheibenmedien gerichtet. Diese Mängel umfassten beschränkten, ungleichmäßigen Frequenzgang, Rauschen, Verzerrung, Gleichlauf- und Tonhöhenschwankungen, Geschwindigkeitsgenauigkeit, Verschleiß, Verschmutzung und Verluste beim Kopiervorgang. Obwohl es unzählige unsystematische Versuche zu isolierten Verbesserungen gab, einschließlich elektronischer Verstärkung, Bandaufzeichnung, Rauschverringerung und Plattenspieler, die mehr als manche Autos kosten, wurden die traditionellen Probleme der Einzelkanalqualität wohl bis zur einzigartigen Entwicklung der digitalen Aufzeichnung im Allgemeinen und der Einführung der Audio-CD im Besonderen nicht endgültig gelöst. Seitdem haben sich, außer einigen Anstrengungen zur Ausweitung der Qualität des digitalen Aufzeichnens auf 24 bit/96 kHz Abtastung, die hauptsächlichen Anstrengungen in der Audiowiedergabeforschung auf die Verringerung der zur Beibehaltung der Einzelkanalqualität nötigen Datenmenge, meistens mittels gehörrichtiger Codierverfahren, und auf die Erhöhung der räumlichen Klangtreue konzentriert. Das letztere Problem ist Gegenstand dieses Dokuments.
Anstrengungen zur Verbesserung der räumlichen Klangtreue haben entlang zweier Fronten Fortschritte gemacht: beim Versuch, die wahrgenommenen Signale eines kompletten Schallfeldes zu übermitteln, und beim Versuch, eine Annäherung an das reale Originalschallfeld zu übermitteln. Beispiele von Systemen, die den erstgenannten Ansatz verwenden, schließen stereofones Aufzeichnen und auf zwei Lautsprechern basierende virtuelle Surroundsysteme ein. Derartige Systeme weisen etliche unerfreuliche Unvollkommenheiten auf, insbesondere in der zuverlässigen Lokalisierung von Geräuschen aus manchen Richtungen und der Notwendigkeit der Verwendung von Kopfhörern oder einer festen Position für den einzelnen Zuhörer.
Zur Darstellung von räumlichem Schall für mehrere Zuhörer, ob in einem Wohnzimmer oder einem kommerziellen Veranstaltungsort wie einem Kino, ist die einzige praktikable Alternative gewesen, zu versuchen, das reale Originalschallfeld anzunähern. In Anbetracht des Einzelkanalcharakters von Schallaufzeichnung ist es nicht überraschend, dass die meisten Anstrengungen bis heute einbezogen haben, was als zurückhaltende Steigerung der Zahl der Darstellungskanäle bezeichnet werden könnte. Typische Systeme schließen die 3-Lautsprecher-Filmtonspuren mit geschwenktem Mono der frühen 50er Jahre, üblichen Stereosound, quadrophone Systeme der 60er Jahre, 5-kanälige diskrete magnetische Tonspuren auf 70 mm Filmen, Dolby Surround, das eine Matrix verwendet, in den 70er Jahren, AC-3 5.1-Kanalsound der 90er Jahre und kürzlich Surround-EX 6.1-Kanalsound ein. „Dolby", „Pro-Logic" und „Surround EX" sind Warenzeichen der Dolby Laboratories Licensing Corporation. Bis zu einem gewissen Grad stellen diese Systeme eine verbesserte räumliche Wiedergabe im Vergleich zu monophonischer Darstellung zur Verfügung. Jedoch zieht die Mischung einer größeren Zahl von Kanälen größere Zeit- und Kostennachteile für die Produzenten der Inhalte nach sich, und die sich ergebende Wahrnehmung ist typischerweise die von ein paar verstreuten, diskreten Kanälen, anstatt eines zusammenhängenden Schallfeldes. Aspekte der Dolby Pro Logic Decodierung sind im US-Patent 4799260 beschrieben. Einzelheiten von AC-3 sind in „Digital Audio Compression Standard (AC-3)", Advanced Television Systems Committee (ATSC), Dokument A/52, 20. Dezember 1995 (verfügbar im World Wide Web des Internets unter www.atsc.org/Standards/A52/a_52.doc) dargelegt. Siehe auch das Errata-Sheet vom 22. Juli 1999 (verfügbar im World Wide Web des Internets unter www.dolby.com/tech/ATSC_err.pdf).
Erkenntnisse, die Aspekten der vorliegenden Erfindung zugrunde liegen
Die Grundlage für das Nachbilden einer beliebigen Verteilung in einem quellenfreien Wellenmedium ist durch ein Theorem von Gauss zur Verfügung gestellt, das festlegt, dass ein Wellenfeld innerhalb irgendeines Bereichs durch die Druckverteilung entlang der Grenze des Bereichs vollständig bestimmt ist. Dies bedeutet, dass die Nachbildung eines Schallfeldes in einem Konzertsaal innerhalb der Grenzen eines Wohnzimmers möglich ist, indem das Wohnzimmer konzeptionell mit schalldichten Wänden innerhalb des Konzertsaals angeordnet wird und dann die Wände akustisch transparent gemacht werden, indem die Außenseite der Wände mit einer unendlichen Zahl von unendlich kleinen Mikrophonen ausgestattet werden, von denen jedes mit passender Verstärkung an einen zugehörigen Lautsprecher gerade innerhalb der Mauer angeschlossen ist. Durch Einfügen eines geeigneten Aufzeichnungsmediums zwischen Mikrophonen und Lautsprechern wird ein vollständiges, wenn auch nicht umsetzbares System der genauen 3D Schallwiedergabe realisiert. Die einzig bleibende Entwurfsaufgabe ist, das System praktisch umsetzbar zu machen.
Ein erster Schritt zur Umsetzbarkeit kann vorgenommen werden, indem man beachtet, dass das interessierende Signal bei ungefähr 20 kHz bandbegrenzt ist, was die Anwendung des räumlichen Abtasttheorems erlaubt, einer Variante des geläufigeren zeitlichen Abtasttheorems. Das Letztere hält fest, dass es keinen Informationsverlust gibt, wenn eine kontinuierliche bandbegrenzte zeitliche Wellenform diskret mit einer Rate abgetastet wird, die mindestens das Doppelte der höchsten Frequenz der Quelle ist. Die erstgenannte Theorie ergibt sich aus denselben Betrachtungen, die festlegt, dass das räumliche Abtastintervall mindestens doppelt so dicht wie die kürzeste Wellenlänge sein muss, um Informationsverlust zu vermeiden. Da die Wellenlänge von 20 kHz in Luft etwa 3/8 Zoll ist, folgt daraus, dass ein genaues 3D Soundsystem mit einem Feld von Mikrophonen und Lautsprechern realisiert werden kann, die in Abständen von nicht mehr als 3/16 Zoll angeordnet sind. Über alle Oberflächen eines typischen 9 mal 12 Fuß Raums ausgebreitet, errechnen sich ungefähr 2,5 Millionen Kanäle, eine beträchtliche Verbesserung gegenüber einer unendlichen Zahl, aber nach wie vor zum heutigen Zeitpunkt nicht umsetzbar. Dennoch bildet es den grundlegenden Ansatz, ein Feld von Einzelkanälen als räumliche Abtastwerte zu verwenden, aus denen das Schallfeld durch Anwendung geeigneter Interpolation wiederhergestellt werden kann.
Sobald das Schallfeld beschrieben ist, ist es im Prinzip für einen Decoder möglich, die optimale Signaleinspeisung für jeden Ausgabelautsprecher abzuleiten. Die an einen solchen Decoder gelieferten Kanäle werden hierin wechselnd als „Hauptkanäle", „übertragene Kanäle" und „Eingangskanäle" bezeichnet werden, und jeder Ausgangskanal mit einer Position, die nicht der Position einer der Hauptkanäle entspricht, wird als ein „Zwischenkanal" bezeichnet werden. Ein Ausgabekanal kann auch eine Position haben, die mit der Position eines Haupteingangskanals übereinstimmt.
Es ist daher erstrebenswert, die Zahl der räumlichen Einzelkanal-Abtastwerte oder Hauptkanäle zu verringern. Eine mögliche Grundlage, um dies zu tun, ist die Tatsache, dass oberhalb 1500 Hz das Ohr nicht länger einzelnen Zyklen, sondern nur der Einhüllenden der Frequenzgruppe folgt. Dies könnte Kanalabstände entsprechend 1500 Hz oder ungefähr 3 Zoll erlauben. Dies würde die Gesamtzahl für den 9 mal 12 Fuß Raum auf ungefähr 6000 Kanäle verringern, eine nützliche Einsparung von ungefähr 2,49 Millionen Kanälen im Vergleich zur vorherigen Anordnung.
In jedem Fall ist eine weitere Verringerung der Zahl der räumlichen Abtastkanäle theoretisch durch Berufung auf psychoakustische Ortsbestimmungsgrenzen möglich. Die horizontale Grenze der Auflösung für mittigen Schall ist ungefähr 1 Winkelgrad. Die entsprechende Grenze der vertikalen Auflösung ist ungefähr 5 Grad. Falls diese Dichte ungefähr um eine Kugel herum ausgebreitet wird, wird das Ergebnis nach wie vor ein paar hundert bis zu ein paar tausend Kanäle sein.
Die EP 1 054 575A offenbart ein Verfahren für die Umsetzung von zwei Audioeingangskanälen, die ein Schallfeld darstellen, auf 8 Audioausgangskanäle, die dasselbe Schallfeld darstellen, wobei jeder Kanal ein einzelner Audiostrom ist, der aus einer Richtung ankommendes Audio darstellt. Eine Matrix erzeugt aus den zwei Eingangskanälen die acht Ausgangskanäle durch einen Prozess, der die Bestimmung eines Maßes der Korrelation der zwei Eingangskanäle und der Pegelzusammenhänge der zwei Eingangskanäle umfasst.
Die EP 1 001 549 offenbart ein Codier-/Decodiersystem, das auf der Codierseite eine Misch- und Matrixschaltung für die Umsetzung von sechs Audioeingangskanälen hat, die ein Schallfeld darstellen, wobei jeder Eingangskanal ein einzelner Audiostrom ist, der aus einer Richtung ankommendes Audio darstellt, auf sechs Zwischensignale. Jedes Zwischensignal ist mit zwei oder drei Eingangskanälen verknüpft. Auf der Decodierseite hat dieses bekannte System eine andere Misch- und Matrixschaltung für die Umsetzung der sechs Zwischensignale auf sechs Audioausgangskanäle, die jeweils den sechs Eingangskanälen entsprechen. Die Misch- und Matrixschaltung auf der Codierseite umfasst: einen Addierer, der einen ersten und einen zweiten der Eingangskanäle zu einem ersten Zwischensignal addiert, einen Subtrahierer, der den zweiten Eingangskanal vom ersten Eingangskanal subtrahiert, um ein zweites Zwischensignal zu erzeugen, eine Kombination aus einem Addierer, einem Dividierer durch 2 und einem Subtrahierer, die einen dritten Eingangskanal, einen vierten Eingangskanal und einen fünften Eingangskanal zu einem dritten Zwischensignal verarbeitet, einen anderen Addierer, der den vierten Eingangskanal und den fünften Eingangskanal zu einem vierten Zwischensignal addiert, einen Subtrahierer, der den fünften Eingangskanal vom vierten Eingangskanal subtrahiert, um ein fünftes Zwischensignal zu erzeugen, und eine Kombination aus einem Multiplizierer und einem Subtrahierer, die den dritten Eingangskanal und den sechsten Eingangskanal zu dem sechsten Zwischensignal verarbeitet.
Es ist eine Aufgabe der Erfindung, das Problem zu lösen, wie in einer praxisnahen Weise ein reales Originalschallfeld für die Darstellung für mehrere Zuhörer in einem Wohnzimmer oder einem kommerziellen Veranstaltungsort, wie einem Kino, angenähert wird.
OFFENBARUNG DER ERFINDUNG
Diese Aufgabe wird durch ein in Anspruch 1 beanspruchtes Verfahren und seine in Anspruch 2 beanspruchte bevorzugte Ausführungsform gelöst.
In Übereinstimmung mit der vorliegenden Erfindung setzt ein Verfahren M Audioeingangskanäle, die ein Schallfeld darstellen, in N Audioausgangskanäle, die dasselbe Schallfeld darstellen, um, wobei jeder Kanal ein einzelner Audiostrom ist, der aus einer Richtung ankommendes Audio darstellt, M und N positive ganze Zahlen sind, und M mindestens zwei ist. Eine oder mehr Gruppen von Ausgangskanälen werden erzeugt, wobei jede Gruppe einen oder mehr Ausgangskanäle hat. Jede Gruppe ist mit zwei oder mehr räumlich benachbarten Eingangskanälen verbunden, und jeder Ausgangskanal in einer Gruppe ist durch ein Verfahren erzeugt, das die Bestimmung eines Maßes der Korrelation der zwei oder mehr Eingangskanäle und der Pegelzusammenhänge der zwei oder mehr Eingangskanäle umfasst.
In einem Aspekt der vorliegenden Erfindung werden mehrere Gruppen von Ausgangskanälen mit mehr als zwei Eingangskanälen in Verbindung gebracht, und das Verfahren bestimmt die Korrela tion von Eingangskanälen, mit denen jede Gruppe von Ausgangskanälen in Verbindung ist, gemäß einer hierarchischen Ordnung, so dass jede Gruppe oder Gruppen nach der Anzahl der Eingangskanäle, mit der ihr Ausgangskanal oder ihre Ausgangskanäle verbunden ist, eingeordnet wird, wobei die größte Zahl von Eingangskanälen den höchsten Rang hat, und die Verarbeitung Gruppen in der Reihenfolge ihrer hierarchischen Ordnung abarbeitet. Weiterhin berücksichtigt gemäß einem Aspekt der vorliegenden Erfindung die Verarbeitung die Resultate der Verarbeitung von Gruppen höherer Ordnung.
Die Wiedergabe- oder Decodieraspekte der vorliegenden Erfindung nehmen an, dass jeder der M Audioeingangskanäle, der aus einer Richtung ankommendes Audio darstellt, durch eine auf nächste Nachbarn amplitudenschwenkende Passivmatrix-Codierung jeder Quellrichtung (das heißt, es wird angenommen, dass eine Quellrichtung hauptsächlich auf den nächsten Hauptkanal oder die nächsten Hauptkanäle abgebildet wird), ohne den Bedarf von zusätzlicher Information aus einer Seitenkette, erzeugt wurde (die Nutzung von Information aus einer Seitenkette oder von Hilfsinformation ist optional), was sie kompatibel mit bestehenden Mischtechniken, Konsolen und Formaten macht. Obwohl solche Quellsignale durch expliziten Einsatz einer passiven Codiermatrix erzeugt werden können, erzeugen die meisten üblichen Aufzeichnungstechniken schon an sich solche Quellsignale (die dadurch eine „gültige Codiermatrix" bilden). Die Wiedergabe- oder Decodieraspekte der vorliegenden Erfindung sind auch größtenteils kompatibel mit Quellsignalen aus naturgemäßer Aufnahme, wie sie mit fünf echten Richtmikrofonen gemacht werden könnten, da, unter Berücksichtigung von etwas möglicher Zeitverzögerung, aus Zwischenrichtungen ankommender Schall dazu tendiert, hauptsächlich auf die nächstgelegenen Mikrophone abgebildet zu werden (in einem horizontalen Feld speziell auf das nächstgelegene Mikrophonpaar).
Ein Decoder oder ein Decodierverfahren gemäß Aspekten der vorliegenden Erfindung kann als ein Netz von gekoppelten Verarbeitungsmodulen oder modularen Funktionen (nachstehend „Decodiermodule" genannt) realisiert werden, von denen jede verwendet wird, um einen oder mehr Ausgangskanäle (oder, alternativ, Steuersignale, die verwendbar sind, um einen oder mehr Ausgangskanäle zu erzeugen) aus den zwei oder mehr der räumlich am nächsten benachbarten, mit dem Decodiermodul verbundenen Hauptkanäle zu erzeugen. Die Ausgangskanäle stellen relative Anteile der Audiosignale in den räumlich am nächsten benachbarten Hauptkanälen dar, die mit dem jeweiligen Decodiermodul verbunden sind. Wie unten genauer erklärt, sind die Decodiermodule in dem Sinn lose miteinander verbunden, dass sich Module Knoten teilen und es eine Hierarchie von Decodiermodulen gibt. Module sind in der Hierarchie gemäß der Zahl der mit ihnen verbundenen Hauptkanäle eingeordnet (das Modul oder die Module mit der höchsten Zahl an verbundenen Hauptkanälen ist am höchsten eingeordnet). Eine kontrollierende, regelmäßig ablaufende Funktion verwaltet die Module, so dass Signale gemeinsamer Knoten angemessen gemeinsam benutzt werden und Decodermodule höherer Ordnung die Ausgabe von Modulen niedrigerer Ordnung beeinflussen können.
Jedes Decodermodul kann in Wirklichkeit ein Feld einschließen, so dass es direkt Ausgangssignale erzeugt, oder jedes Decodermodul kann Steuersignale erzeugen, die zusammen mit den von anderen Decodermodulen erzeugten Steuersignalen verwendet werden, um die Koeffizienten eines variablen Felds oder die Skalierungsfaktoren von Eingängen in oder Ausgängen aus einem festen Feld zu variieren, um die ganzen Ausgangssignale zu erzeugen.
Decodermodule bilden die Funktion des menschlichen Gehörs nach, um zu versuchen, eine wahrnehmungstransparente Wiedergabe bereitzustellen. Jedes Decodermodul kann entweder als eine Breitband- oder Multibandstruktur oder -funktion realisiert werden, im letzteren Fall mit entweder einer kontinuierlichen Filterbank oder einer Blockstruktur, beispielsweise einem transformationsbasierten Prozessor, der beispielsweise in jedem Band dieselbe grundlegende Verarbeitung verwendet.
Obwohl sich die Grunderfindung allgemein auf die räumliche Umsetzung von M Eingangskanälen auf N Ausgangskanäle bezieht, wobei M und N positive ganze Zahlen sind, und M mindestens zwei ist, ist ein anderer Aspekt der Erfindung, dass die Zahl der Lautsprecher, die die N Ausgangskanäle empfangen, auf eine praxisnahe Zahl verringert werden kann, indem man sich überlegt auf virtuelle Abbildung, das bedeutet, die Bildung von wahrgenommenen Hörbildern an anderen Positionen im Raum, als wo sich ein Lautsprecher befindet, stützt. Die gebräuchlichste Anwendung von virtueller Abbildung ist in der Stereowiedergabe eines Bildes an einem Teil der Strecke zwischen zwei Lautsprechern, indem ein Monosignal zwischen den Kanälen geschwenkt wird. Virtuelle Abbildung wird nicht als eine praktikable Technik für die Darstellung mit einer geringen Zahl von Kanälen vor einer Gruppe angesehen, da sie erfordert, dass der Zuhörer gleichweit oder beinahe gleichweit von den zwei Lautsprechern entfernt ist. In Kinos sind beispielsweise die linken und rechten Frontlautsprecher zu weit voneinander entfernt, um eine brauchbare Phantomabbildung eines mittigen Bildes für einen Großteil des Publikums zu erzielen, daher wird stattdessen angesichts der Wichtigkeit des Mittenkanals als Quelle des Großteils des Dialogs ein realer Mittenlautsprecher verwendet.
Jedoch wird, im Laufe der Vergrößerung der Dichte der Lautsprecher, ein Punkt erreicht werden, wo virtuelle Abbildung zwischen einem beliebigen Lautsprecherpaar für einen Großteil des Publikums, zumindest soweit Schwenks weich sind, praktikabel wird; mit genügend Lautsprechern werden die Abstände zwischen den Lautsprechern nicht länger als solche wahrgenommen. Solch ein Feld hat das Potenzial, nahezu ununterscheidbar von dem früher hergeleiteten Zweimillionen-Feld zu sein.
Um Aspekte der vorliegenden Erfindung zu testen, stellten wir ein horizontales Feld von 5 Lautsprechern an jede Wand, insgesamt 16 unter Berücksichtigung gemeinsamer Ecklautsprecher, zuzüglich eines Rings von 6 Lautsprechern oberhalb des Zuhörers in einem vertikalen Winkel von ungefähr 45 Grad, zuzüglich eines einzelnen Lautsprechers direkt oberhalb, zusammengezählt 23, zuzüglich eines Subwoofer-/LFE-Kanals, zusammengezählt 24, wobei alle von einem PC gespeist waren, der für 24-Kanal Wiedergabe eingerichtet war. Obwohl dieses System im momentanen Sprachgebrauch als 23.1-Kanal-System bezeichnet werden könnte, wird es hierin der Einfachheit halber als 24-Kanal-System bezeichnet.
1 ist eine Draufsicht, die schematisch eine idealisierte Decodieranordnung in der Art der eben beschriebenen Testanordnung zeigt. Fünf Weitbereichs-Horizontalhauptkanäle sind als Quadrate 1', 3', 5', 9' und 13' auf dem äußeren Kreis gezeigt. Ein vertikaler Kanal, der möglicherweise aus den fünf Weitbereichs-Hauptkanälen über Korrelation oder erzeugtem Hall abgeleitet wird, oder getrennt gespeist wird, wird als das unterbrochene Quadrat 23' im Zentrum gezeigt. Die dreiundzwanzig Weitbereichs-Ausgangskanäle sind als nummerierte ausgefüllte Kreise 1–23 gezeigt. Der äußere Kreis von sechzehn Ausgangskanälen ist auf einer horizontalen Ebene, der innere Kreis von sechs Ausgangskanälen ist fünfundvierzig Grad über der horizontalen Ebene. Ausgangskanal 23 ist direkt über einem oder mehr Zuhörern. Fünf Zwei-Eingangs-Decodiermodule, die zwischen jedem Paar von horizontalen Hauptkanälen verbunden sind, sind als Pfeile 24–28 um den äußeren Kreis herum veranschaulicht. Fünf zusätzliche vertikale Zwei-Eingangs-Decodiermodule sind als Pfeile 29–33 veranschaulicht, die den vertikalen Kanal mit jedem der horizontalen Hauptkanäle verbinden. Ausgangskanal 21, der erhöhte Zentralrückkanal, wird von einem Drei-Eingangs-Decodiermodul abgeleitet, das als Pfeile zwischen dem Ausgangskanal 21 und den Hauptkanälen 9, 13 und 23 veranschaulicht wird. Folglich ist jedes Modul mit einem entsprechenden Paar oder Trio von räumlich am nächsten benachbarten Hauptkanälen verbunden. Obwohl die in 1 dargestellten Decodiermodule drei, vier oder fünf Ausgangskanäle haben, kann ein Decodiermodul irgendeine sinnvolle Zahl von Ausgangskanälen haben. Ein Ausgangskanal kann zwischen einem oder mehreren Hauptkanälen oder an derselben Position wie ein Hauptkanal angeordnet werden. Daher ist in dem Beispiel von 1 jede der Hauptkanalpositionen auch ein Ausgangskanal. Jeder Eingangskanal wird von mehreren Decodiermodulen gemeinsam benutzt.
Wie erörtert werden wird, ist ein designiertes Ziel dieser Erfindung, dass der Wiedergabeprozessor konzeptionell in der Lage sein soll, mit einer beliebigen Anzahl und Anordnung von Lautsprechern zu arbeiten, daher wird das 24-Kanal-Feld als ein veranschaulichendes, aber nicht einziges Beispiel der Dichte und Anordnung verwendet, welche zur Erzielung eines überzeugenden, ununterbrochen wahrgenommenen Schallfeldes gemäß einem Aspekt der Erfindung benötigt wird.
Der Wunsch, in der Lage zu sein, eine große und eventuell durch den Nutzer wählbare Zahl von Darstellungskanälen zu verwenden, wirft die Frage der Zahl von diskreten Kanälen und/oder anderer Information auf, die dem Wiedergabeprozessor übermittelt werden müssen, damit er, zumindest als eine Option, die oben beschriebenen vierundzwanzig Kanäle ableiten kann. Offensichtlich ist ein möglicher Ansatz, einfach vierundzwanzig diskrete Kanäle zu übermitteln, aber abgesehen von der Tatsache, dass es für Produzenten von Inhalten wahrscheinlich schwer sein würde, so viele getrennte Kanäle zu mischen, und für ein Übertragungsmedium wahrscheinlich schwer sein würde, so viele Kanäle zu übermitteln, wird dies vorzugsweise nicht getan, da die 24-Kanal-Anordnung nur eine von vielen möglichen ist und es erwünscht ist, mehr oder weniger Darstellungskanäle aus einem gemeinsamen, übertragenen Signalfeld zu ermöglichen.
Ein Weg Ausgangskanäle wiederherzustellen ist, formale räumliche Interpolation zu verwenden, eine feste gewichtete Summe von übertragenen Kanälen für jeden Ausgang, wobei angenommen wird, dass die Dichte solcher Kanäle genügend groß ist, um dies zu ermöglichen. Jedoch würde dies, analog zu der Verwendung von FIR-Filtern mit mehreren hundert Taps zur Durchführung von Zeitinterpolation eines Einzelsignals, Tausende bis Millionen von übertragenen Kanälen erfordern.
Die Verringerung auf eine praxisnahe Zahl von übertragenen Kanälen erfordert die Anwendung psychoakustischer Regeln und aggressivere, dynamische Interpolation von weit weniger Kanälen, was nach wie vor die Frage unbeantwortet lässt, wie viele Kanäle gerade eben gebraucht werden, um die Empfindung eines lückenlosen Schallfeldes zu übermitteln.
Diese Frage wurde durch ein Experiment angegangen, das durch den jetzigen Erfinder vor einigen Jahren durchgeführt und kürzlich von einem anderen wiederholt wurde. Die Grundlage für zumindest das frühere Experiment war die Beobachtung, dass übliche 2-kanälige binaurale Aufzeichnung in der Lage ist, eine realistische links/rechts Bildverteilung wiederzugeben, aber eine unregelmäßige vorne/hinten Lokalisierung zur Folge hat, teilweise infolge der Unvollkommenheit jeder eingesetzten HRTF und des Fehlens von Informationen aus Kopfbewegungen. Um dieses Manko zu umgehen, wurde eine zweifach binaurale (4-kanälige) Aufzeichnung unter Verwendung von zwei Paaren von Richtmikrophonen durchgeführt, die entsprechend der Größe des menschlichen Kopfs angeordnet waren. Ein Paar war nach vorne gerichtet, das andere nach hinten. Die sich ergebende Aufzeichnung wurde über vier Lautsprecher abgespielt, die nahe am Kopf angeordnet waren, um akustische Querkopplungseffekte abzumildern. Diese Anordnung stellte realistische Zinks/rechts Zeitabläufe und Amplitudenlokalisierungsinformationen aus jedem Lautsprecherpaar sowie eindeutige vorn/hinten Information aus den entsprechenden diskreten Positionen der Mikrophone und Lautsprecher bereit. Das Ergebnis war eine einzigartig überzeugende Raumklangdarstellung, der nur eine brauchbare Darstellung der Höheninformation fehlte. Ein kürzlich durchgeführtes Experiment eines anderen fügte einen Frontmittenkanal und zwei Höhenkanäle hinzu, und wurde als ähnlich realitätsnah, vielleicht sogar durch die Hinzufügung der Höheninformation verbessert, beschrieben.
Daher scheint es, sowohl aus psychoakustischen Überlegungen als auch aufgrund empirischer Nachweise, dass die relevante Wahrnehmungsinformation in vielleicht 4 bis 5 „binauralähnlichen" Horizontalkanälen sowie vielleicht einem oder mehr Vertikalkanälen übermittelt werden kann. Jedoch macht die Signal-Crossfeed Charakteristik von binauralen Kanalpaaren sie für direkte Wiedergabe an eine Gruppe über Lautsprecher ungeeignet, da bei mittleren und niedrigen Frequenzen sehr geringe Trennung vorhanden ist. Daher ist es, anstatt den Crossfeed in den Coder einzubringen (wie es für ein binaurales Paar gemacht wird), nur um ihn im Decoder rückgängig zu machen, einfacher und direkter, die Kanäle isoliert zu halten und die Ausgangskanalsignale aus den nächstgelegenen übertragenen Kanälen zu mischen. Dies ermöglicht nicht nur, falls gewünscht, direkte Wiedergabe durch eine gleiche Zahl von Lautsprechern ohne einen Decoder, sowie optionalen Downmix auf weniger Kanäle mit einem Passivmatrix-Decoder, sondern es entspricht zumindest in der horizontalen Ebene im wesentlichen der vorhandenen Standardanordnung von 5.1 Kanälen. Es ist auch größtenteils kompatibel mit naturgemäßen Aufzeichnungen, wie sie zum Beispiel mit fünf echten Richtmikrophonen hergestellt werden könnten, da, unter Berücksichtigung von etwas möglicher Zeitverzögerung, aus Zwischenrichtungen ankommende Geräusche die Tendenz haben werden, vorwiegend auf die nächstgelegenen Mikrophone abgebildet zu werden (in einem horizontalen Feld speziell auf das nächstgelegene Mikrophonpaar).
Daher sollte es vom Standpunkt der Wahrnehmung aus für einen Kanalumsetzungs-Decoder möglich sein, ein standardmäßiges 5.1-Kanal-Programm zu akzeptieren und es überzeugend durch eine beliebige Zahl von horizontal angeordneten Lautsprechern, einschließlich der sechzehn horizontalen Lautsprecher des früher beschriebenen Vierundzwanzig-Kanal-Felds, darzustellen. Mit der Hinzufügung eines Vertikalkanals, wie es zum Beispiel manchmal für ein digitales Kinosystem vorgeschlagen wird, sollte es möglich sein, das gesamte Vierundzwanzig-Kanal-Feld mit einzeln abgeleiteten, bezüglich der Wahrnehmung gültigen Signalen zu speisen, die zusammen an den meisten Hörpositionen eine Empfindung eines kontinuierlichen Schallfeldes vermitteln. Natürlich könnte, wenn es Zugriff auf die feinkörnigen Quellenkanäle auf der Codierseite gibt, zusätzliche Information über sie verwendet werden, um aktiv zur Vorabkompensation von Decoderbeschränkungen die Codermatrix-Skalierungsfaktoren zu verändern, oder sie könnte einfach als zusätzliche Seitenketteninformation (Hilfsinformation) eingeschlossen werden, möglicherweise so ähnlich wie die in AC-3 (Dolby Digital) Mehrkanalcodierung verwendeten Koppelkoordinaten, aber bezüglich der Wahrnehmung sollte derartige Zusatzinformation nicht notwendig sein; und in der Praxis ist es unerwünscht, die Einbeziehung derartiger Information zu verlangen. Der beabsichtigte Einsatz des Kanalumsetzungs-Decoders ist nicht auf einen Einsatz mit 5.1-Kanal-Quellen beschränkt und kann weniger oder mehr Kanäle verwenden, aber es gibt zumindest einige Berechtigung zu der Annahme, dass aus 5.1-Kanal-Quellen zuverlässige Ergebnisse erzielt werden können.
Dies lässt noch die Frage unbeantwortet, wie eigentlich die Zwischenausgabekanäle aus einem dünnbesetzten Feld von übertragenen Kanälen extrahiert werden können. Die durch einen Aspekt der vorliegenden Erfindung vorgeschlagene Lösung ist, wieder den Gedanken der virtuellen Abbildung auszunutzen, aber in einer etwas verschiedenen Art und Weise. Es wurde vorher angemerkt, dass virtuelle Abbildung für die Darstellung vor einer Gruppe mit dünnbesetzten Lautsprecherfeldern nicht brauchbar ist, da sie erfordert, dass der Zuhörer nahezu gleichweit entfernt von jedem Lautsprecher ist. Aber sie wird so einigermaßen für einen Zuhörer funktionieren, der zufällig so platziert ist, dass die Empfindung von Zwischen-Phantomkanälen für Signale ermöglicht ist, die zwischen den nächstgelegenen echten Ausgangskanälen in der Amplitude geschwenkt wurden. Es wird deshalb in einem Aspekt der vorliegenden Erfindung vorgeschlagen, dass der Kanalumsetzungs-Decoder aus einer Reihe von modularen, interpolierenden Signalprozessoren besteht, wobei jeder eigentlich einen optimal platzierten Zuhörer emuliert, und jeder in gewisser Hinsicht analog zum menschlichen Hörsystem arbeitet, um zu extrahieren, was ansonsten virtuelle Bilder von amplitudengeschwenkten Signalen wären, und sie in reale Lautsprecher zu speisen; die Lautsprecher bevorzugterweise dicht genug angeordnet, dass naturgemäße virtuelle Abbildung die übrigbleibenden Lücken zwischen ihnen auffüllen kann.
Im allgemeinen leitet jedes Decodiermodul seine Eingaben von den nächstgelegenen übertragenen Hauptkanälen ab, die zum Beispiel für ein Schirmfeld (Überkopffeld) von Lautsprechern drei oder mehr Hauptkanäle sein können. Ein Weg zur Erzeugung von Ausgangskanälen, die mehr als zwei Hauptkanäle einbeziehen, könnte sein, eine Reihe von paarweisen Operationen einzusetzen, wobei zum Beispiel Ausgänge von einigen paarweisen Decodiermodulen die Eingänge anderer Module speisen. Jedoch hat dies zwei Nachteile. Einer ist, dass das Kaskadieren von Decodiermodulen mehrere kaskadierte Zeitkonstanten einbringt, was dazu führt, dass einige Ausgangskanäle schneller als andere ansprechen, was zu hörbaren Positionsartefakten führt. Der zweite Nachteil ist, dass paarweise Korrelation alleine nur entlang der Gerade zwischen dem Paar zwischenliegende oder abgeleitete Ausgangskanäle platzieren kann; die Verwendung von drei oder mehr Hauptkanälen beseitigt diese Einschränkung. Infolgedessen wurde eine Erweiterung zur gebräuchlichen paarweisen Korrelation entwickelt, um drei oder mehr Ausgangssignale zu korrelieren; diese Technik ist unten beschrieben.
Horizontale Lokalisierung im menschlichen Gehör basiert hauptsächlich auf zwei Lokalisierungsinformationen: interaurale Amplitudendifferenzen und interaurale Zeitdifferenzen. Die letztere Information ist nur für Signalpaare in annähernder Zeitausrichtung, etwa ±600 Mikrosekunden, gültig. Die praktische Auswirkung ist, dass Phantomzwischenbilder nur an Positionen auftreten werden, die einer bestimmten links/rechts Amplitudendifferenz entsprechen, wobei angenommen wird, dass der Signalinhalt in den zwei realen Kanälen korreliert oder annähernd korreliert ist. (Beachte: Zwei Signale können Kreuzkorrelationswerte haben, die sich von +1 bis –1 erstrecken. Völlig korrelierte Signale (Korrelation = 1) haben dieselbe Wellenform und Zeitausrichtung, aber können unterschiedliche Amplituden haben, die nicht-zentralen Bildpositionen entsprechen.) Wenn die Korrelation eines Signalpaars unter 1 abnimmt, wird das wahrgenommene Bild zur Ausdehnung tendieren, bis es, für zwei unkorrelierte Signale, kein Zwischenbild mehr gibt, sondern nur getrennte und ausgeprägte linke und rechte Bilder. Negative Korrelationen werden gewöhnlich durch das Gehör ähnlich wie unkorrelierte Signalpaare behandelt, obwohl die zwei Bilder weiter gespreizt erscheinen können. Die Korrelationen werden auf einer Frequenzgruppenbasis ausgeführt, und oberhalb von ungefähr 1500 Hz werden die Frequenzgruppen-Signaleinhüllenden anstatt der Signale selber verwendet, um menschliche Rechenanforderungen (MIPS) einzusparen.
Vertikale Lokalisierung ist etwas komplexer und beruht auf HRTF Ohrmuschelinformationen und dynamischer Modulation der Horizontalinformationen mit Kopfbewegung, aber die endgültige Auswirkung bezüglich geschwenkter Amplituden, Kreuzkorrelation und entsprechenden wahrgenommener Bildposition und -verschmelzung ist ähnlich zu horizontaler Lokalisierung. Die vertikale räumliche Auflösung ist jedoch weniger genau als die horizontale Auflösung und erfordert für angemessene Interpolationsleistungsfähigkeit nicht ein so dichtes Feld von Hauptkanälen.
Ein Vorteil der Nutzung von Richtungsprozessoren, die die Funktion des menschlichen Gehörs emulieren, ist, dass jegliche Unvollkommenheiten oder Beschränkungen der Signalverarbeitung durch gleiche Unvollkommenheiten und Beschränkungen des menschlichen Gehörs maskiert werden sollten, was die Möglichkeit zulässt, dass das System als nahezu ununterscheidbar von der originalen, völlig zusammenhängenden Darstellung wahrgenommen wird.
Obwohl die vorliegende Erfindung dafür vorgesehen ist, effektiv alle verfügbaren, viele oder wenige, Ausgangskanäle zu benutzen (einschließlich Wiedergabe ohne Decodierung über so viele Lautsprecher, wie es Eingangskanäle gibt, und passiven Downmix auf weniger Kanäle einschließlich Mono, Stereo und surroundkompatibles Lt/Rt), ist es bevorzugterweise beabsichtigt, eine große und einigermaßen beliebige, aber dennoch praktikable Anzahl von Darstellungskanälen/-lautsprechern einzusetzen, und als Quellenmaterial eine ähnliche oder kleinere Anzahl von codierten Kanälen zu verwenden, einschließlich vorhandener 5.1-Kanal-Surroundspuren und mögliche 11- oder 12-Kanal-Digitalkino-Tonspuren der nächsten Generation.
Realisierungen der vorliegenden Erfindung sollten wünschenswerterweise vier Prinzipien aufweisen: Fehlereingrenzung, Dominanteneingrenzung, gleichbleibende Leistung und synchronisierte Glättung.
Fehlereingrenzung bezieht sich auf den Gedanken, dass bei gegebener Wahrscheinlichkeit von Decodierfehlern die decodierte Position jeder Quelle in einigermaßen angemessenem Sinne nahe ihrer wahren, beabsichtigten Richtung sein sollte. Dies gebietet einen gewissen Grad an Konservatismus in der Decodierungsstrategie. Konfrontiert mit der Aussicht, dass aggressivere Decodierung mit möglicherweise größeren räumlichen Unterschieden im Fall von Fehlern einhergeht, ist es üblicherweise bevorzugt, weniger genaue Decodierung im Austausch für gesicherte räumliche Eingrenzung zu akzeptieren. Sogar in Situationen, in denen genauere Decodierung getrost angewendet werden kann, kann es unklug sein, dies zu tun, wenn es eine Wahrscheinlichkeit gibt, dass es die dynamischen Signalverhältnisse erfordern werden, dass der Decoder zwischen aggressiven und konservativen Modi schaltet, was zu hörbaren Artefakten führt.
Dominanteneingrenzung, eine eingeschränktere Variante von Fehlereingrenzung, ist die Anforderung, dass ein einzelnes, eindeutiges, dominierendes Signal durch den Decoder nur zu den nächsten Nachbarausgangskanälen geschwenkt werden sollte. Diese Bedingung ist notwendig, um eine Bildverschmelzung für dominante Signale beizubehalten und trägt zur wahrgenommenen Klarheit eines Matrixdecoders bei. Während ein Signal dominant ist, ist es von anderen Ausgangskanälen ausgeblendet, entweder indem es von den angeschlossenen Hauptkanälen subtrahiert wird oder indem direkt auf andere Ausgangskanäle Matrixkoeffizienten angewendet werden, die komplementär zu denen sind, die zur Herleitung des dominierenden Signals eingesetzt wurden („antidominierende Koeffizienten/antidominierendes Signal").
Decodierung mit gleichbleibender Leistung erfordert nicht nur, dass die gesamte Leistung des decodierten Ausgangs gleich der Eingangsleistung ist, sondern gleicht die Eingangs-/Ausgangsleistung jedes Kanals und gerichteten Signals aus, das in dem übertragenen Hauptkanalfeld codiert ist. Dies minimiert Artefakte durch Verstärkungspumpen.
Synchronisierte Glättung betrifft Systeme mit signalabhängigen Glättungszeitkonstanten und erfordert, dass, wenn irgendein Glättungsnetzwerk innerhalb eines Decodiermoduls auf einen Modus mit schneller Zeitkonstante geschaltet wird, alle anderen Glättungsnetzwerke innerhalb des Moduls ähnlich geschaltet werden. Hiermit wird vermieden, dass ein neu dominierendes gerichtetes Signal scheinbar langsam schwächer wird/aus der bisherigen dominierenden Richtung geschwenkt wird.
BESCHREIBUNG DER ZEICHNUNGEN
1 ist eine schematische Zeichnung, die eine Draufsicht einer idealisierten Decoderanordnung zeigt.
BESTE AUSFÜHRUNGSWEISE DER ERFINDUNG
Decodiermodul
Da davon ausgegangen wird, dass die Codierung jeder Quellenrichtung hauptsächlich auf die nächstgelegenen Hauptkanäle abgebildet wird, basiert die Kanalumsetzungsdecodierung auf einer Reihe von halbautonomen Decodiermodulen, die in einem allgemeinen Sinne die Ausgangskanäle, insbesondere Zwischenausgangskanäle, jeder von ihnen normalerweise aus einer Untermenge der übertragenen Kanäle, in einer Art und Weise ähnlich des menschlichen Gehörs wiederherstellen.
In einer Art und Weise analog zum menschlichen Gehör basiert die Funktion des Decodiermoduls auf einer Kombination aus Amplitudenverhältnissen, um die nominelle aktuelle Hauptrichtung zu bestimmen, und Kreuzkorrelation, um die relative Breite des Bildes zu bestimmen.
Unter Verwendung von aus den Amplitudenverhältnissen und der Kreuzkorrelation abgeleiteten Steuerinformation extrahiert der Prozessor dann Ausgangskanal-Audiosignale. Da dies am besten auf einer linearen Basis durchgeführt wird, um die Erzeugung von Verzerrungsprodukten zu vermeiden, bildet der Decoder gewichtete Summen von Hauptkanälen, die das interessierende Signal enthalten. (Wie oben erklärt, kann es auch wünschenswert sein, die Information über nichtbenachbarte Hauptkanäle in die Berechnung der gewichteten Summe einzubeziehen.) Diese begrenzte, aber dynamische Form von Interpolation wird häufiger als Matrizierung bezeichnet. Wenn in der Quelle das gewünschte Signal auf die nächstgelegenen M Hauptkanäle abgebildet (amplitudengeschwenkt) wird, dann ist das ein Problem der M:N Matrixdecodierung. In anderen Worten, die Ausgangskanäle stellen relative Anteile der Eingangskanäle dar.
Besonders im Fall von Zwei-Eingangs-Decodiermodulen ist das dem Problem sehr ähnlich, das durch aktive 2:N Matrixdecoder adressiert wird, wie zum Beispiel dem jetzt klassischen Dolby Pro Logic Matrixdecoder, wobei paarweise Decodiermoduleingänge den Lt/Rt codierten Signalen entsprechen.
Beachte: Die Ausgänge eines 2:N Matrixdecoders werden manchmal als Hauptkanäle bezeichnet. Dieses Dokument verwendet jedoch „Hauptkanal", um die Eingangskanäle des Kanalumsetzungsdecoders zu bezeichnen.
Es gibt jedoch zumindest einen bedeutenden Unterschied zwischen aktiven 2:N Decodern nach dem Stand der Technik und der Funktion eines Decodiermoduls gemäß der vorliegenden Erfindung. Während Erstgenannte zur Kennzeichnung der Links/Rechts Position Links/Rechts Amplituden verwendet, wie es ebenso für den Kanalumsetzungsdecoder gefordert wird, verwenden sie auch Zwischenkanalphasen zur Kennzeichnung der Vorn/Hinten Position, wobei sie sich besonders auf das Verhältnis von Summe/Differenz der Lt/Rt codierten Kanäle verlassen.
Es gibt zwei Probleme mit solchen aktiven 2:N Decoderanordnungen. Eines ist, dass vollständig korrelierte (frontale), aber nicht-zentrale Signale beispielsweise zu einem Summe/Differenz Verhältnis von kleiner als Unendlich führen, was fehlerhafterweise auf eine alles andere als vollfrontale Position hinweist (ähnlich für vollständig antikorrelierte, nicht-zentrale Signale von hinten). Das Ergebnis ist ein etwas verzerrter Decodierraum. Der zweite Nachteil ist, dass die Positionsabbildung mang-to-one ist, was inhärente Decodierfehler einbringt. Zum Beispiel wird in einem 4:2:4 Matrixsystem ein unkorreliertes Left-In und Right-In Signalpaar ohne Front-In oder Rear-In auf dasselbe reine, unkorrelierte Lt/Rt Paar abgebildet, wie ein unkorreliertes Front-In/Back-In Paar ohne Left-In/Right-In, oder für diesen Fall unkorrelierte Eingänge von allen vier Eingängen. Der Decoder, der mit einem unkorrelierten Lt/Rt Signalpaar konfrontiert wird, hat keine andere Wahl als „die Matrix zu lockern", das heißt, eine passive Matrix zu verwenden, die Schall an alle Ausgangskanäle verteilt. Er ist nicht in der Lage, an ein zeitgleiches ausschließliches Left-out/Right-Out oder ausschließliches Front-Out/Rear-Out Signalfeld zu decodieren.
Das zugrunde liegende Problem ist, dass die Verwendung von Zwischenkanalphasen zur Codierung der Vorn/Hinten Position in N:2:N Matrizierungssystemen der Funktion des menschlichen Gehörs zuwiderläuft, welches keine Phase zur Beurteilung der Vorn/Hinten Position verwendet. Die vorliegende Erfindung arbeitet am besten mit mindestens drei nicht kollinearen Hauptkanälen, so dass die Vorn/Hinten Position durch die vermuteten Richtungen der Hauptkanäle gekennzeichnet ist, ohne abhängig von ihren relativen Phasen oder Polaritäten verschiedene Richtungen zuzuweisen. Von daher decodiert ein Paar von unkorrelierten oder antikorrelierten Kanalumsetzungs-Hauptsignalen eindeutig zu isolierten Hauptausgangskanalsignalen, ohne ein Zwischensignal oder eine „nach hinten gerichtete" Richtung anzuzeigen. (Dies vermeidet übrigens den unerfreulichen „mittenanhäufenden" Effekt in aktiven 2:N Decodern, bei dem unkorrelierte Left-In und Right-In Signale mit verringerter Trennung dargestellt werden, da der Decoder Summe und Differenz dieser Signale an Mitten- und Surroundkanäle speist.) Natürlich ist es im Prinzip möglich, ein Lt/Rt Signalpaar durch Kaskadierung eines 2:N Decoders, N = 4 oder 5, mit einem N:M Kanalumsetzungssystem räumlich zu expandieren, aber in diesem Fall werden jedwede Beschränkungen des 2:N Decoders, wie zum Beispiel Mittenanhäufung, auf die vervielfachten Ausgänge des Kanals übertragen. Es ist auch möglich, diese Funktionen in einem Kanalumsetzungsdecoder zusammenzufassen, der konfiguriert ist, 2-kanälige Lt/Rt Signale anzunehmen, und in solchen Fällen sein Verhalten zu modifizieren, um negative Korrelationssignale so auszuwerten, dass sie eine nach hinten gerichtete Orientierung haben, wobei der Rest der Verarbeitung größtenteils unberührt gelassen wird. Jedoch würden sogar in diesem Fall die Decodiermehrdeutigkeiten bleiben, die daraus entstehen, dass man nur zwei übertragene Kanäle zur Verfügung hat.
Daher ähnelt jedes Decodiermodul, besonders diejenigen mit zwei Eingangskanälen, einem aktiven 2:N Decoder nach dem Stand der Technik, bei dem die Vorn/Hinten Erkennung abgeschaltet oder modifiziert ist und der eine beliebige Anzahl von Ausgangskanälen hat. Natürlich ist es mathematisch unmöglich, Matrizierung zu verwenden, um eine größere Anzahl von Kanälen aus einer kleineren Anzahl eindeutig zu gewinnen, da dies im Kern zu N linearen Gleichungen mit M Unbekannten führt, wobei M größer als N ist. Daher ist zu erwarten, dass das Decodiermodul bei Vorhandensein mehrerer aktiver Quellenrichtungssignale zeitweise eine nicht perfekte Kanal- Wiederherstellung aufweist. Jedoch wird das menschliche Hörsystem, das auf die Verwendung von nur zwei Ohren beschränkt ist, dazu neigen, denselben Beschränkungen zu unterliegen, was es ermöglicht, das System als diskret wahrzunehmen, sogar wenn alle Kanäle aktiv sind. Die isolierte Kanalqualität, wobei andere Kanäle stumm geschaltet sind, ist nach wie vor von Bedeutung, um Zuhörern Rechnung zu tragen, die sich in der Nähe eines Lautsprechers befinden.
Zwar arbeitet das Ohr auf einer frequenzabhängigen Basis, aber angesichts der Tatsache, dass die meisten Schallbilder bei allen Frequenzen ähnlich korreliert sein werden, in Verbindung mit der erfolgreichen empirischen Erfahrung mit Pro Logic Decodern als ein Breitbandsystem, ist anzunehmen, dass ein Breitbandkanal-Umsetzungssystem auch zu befriedigender Leistung bei einigen Anwendungen fähig sein kann. Multiband-Kanalumsetzungsdecodierung sollte auch möglich sein, wobei ähnliche Verarbeitung auf einer bandweisen Basis angewendet wird und in jedem Fall dasselbe codierte Signal verwendet wird, so dass die Anzahl und Bandbreite von Einzelbändern als ein freier Parameter für den Decoderrealisierer gelassen werden kann. Obwohl Multibandverarbeitung wahrscheinlich mehr MIPS als Breitbandverarbeitung erfordert, müssen die Berechnungsanforderungen nicht so viel höher sein, wenn die Eingangssignale in Datenblöcke aufgeteilt werden und das Verfahren auf einer Blockbasis durchgeführt wird.
Bevor ein Algorithmus beschrieben wird, der von den Decodiermodulen der vorliegenden Erfindung verwendet werden kann, wird zuerst das Problem der geteilten Knoten betrachtet.
Geteilte Knoten
Wenn die von den Decodiermodulen verwendeten Hauptkanalgruppen alle unabhängig wären, dann könnten die Decodiermodule selbst unabhängige, autonome Einheiten sein. Gewöhnlich ist das jedoch nicht der Fall. Ein gegebener übertragener Kanal wird sich im allgemeinen getrennte Ausgangssignale mit zwei oder mehr benachbarten Hauptkanälen teilen. Wenn unabhängige Decodiermodule zur Decodierung des Feldes verwendet werden, wird jedes durch Ausgangssignale von benachbarten Kanälen beeinflusst, was zu möglicherweise ernsten Decodierfehlern führt. Tatsächlich werden zwei Ausgangssignale von benachbarten Decodiermodulen wegen des erhöhten Pegels des gemeinsamen, beide Signale enthaltenden Hauptknotens zueinander „ziehen" oder sich gegenseitig anziehen. Wenn, was wahrscheinlich der Fall ist, die Signale dynamisch sind, so wird es auch das Ausmaß der Interaktion sein, was zu signalabhängigen dynamischen Positionsfehlern einer möglicherweise höchst störenden Art führt. Dieses Problem tritt nicht mit Pro Logic oder anderer aktiver 2:N Decodierung auf, da sie nur ein einzelnes, isoliertes Kanalpaar als Decodereingabe verwenden.
Daher ist es notwendig, den Effekt der „geteilten Knoten" zu kompensieren. Ein möglicher Weg hierfür wäre, ein wiederhergestelltes Signal vom gemeinsamen Knoten abzuziehen, bevor versucht wird, das Ausgangssignal eines benachbarten, den gemeinsamen Knoten teilenden Decodiermoduls wiederherzustellen. Dies ist oft nicht möglich, daher schätzt als eine Rückfalllösung jedes Decodiermodul das Ausmaß der an seinen Eingangskanälen vorhandenen gemeinsamen Ausgangssignalenergie, und eine Überwachungsroutine informiert dann jedes Modul über die Aus gangssignalenergieschätzungen seiner Nachbarn.
Paarweise Berechnung von gemeinsamer Energie
Man nehme zum Beispiel an, dass das Hauptkanalpaar A/B ein gemeinsames Signal X zusammen mit verschiedenen, unkorrelierten Signalen Y und Z enthält: A = 0,707X + Y B = 0,707X + Zwobei die Skalierungsfaktoren von 0,707 = √0,5 eine leistungserhaltende Abbildung auf die nächstgelegenen Nachbarhauptkanäle zur Verfügung stellen. RMSEnergy(A) = ∫A2∂t = A² = (0,707X + Y)² = (0,5X² + 0,707XY + Y²) = 0,5X² + 0,707XY + Y²
Da X und Y unkorreliert sind, XY = 0
Daher: A² = 0,5X² + Y² das heißt, da X und Y unkorreliert sind, ist die Gesamtenergie in Hauptkanal A die Summe der Energien der Signale X und Y.
Auf die gleiche Weise: B² = 0,5X² + Z²
Da X, Y und Z unkorreliert sind, ist das gemittelte Kreuzprodukt von A und B: AB = 0,5X²
Also ist in dem Fall eines Ausgangssignals, das von zwei benachbarten Hauptkanälen, die auch unabhängige, unkorrelierte Signale enthalten können, gleichmäßig verwendet wird, das gemittelte Kreuzprodukt der Signale gleich der Energie der gemeinsamen Signalkomponente in jedem Kanal. Wenn das gemeinsame Signal nicht gleichmäßig gemeinsam benutzt wird, zum Beispiel, wenn es zu einem der Hauptkanäle geschwenkt wird, wird das gemittelte Kreuzprodukt das geometrische Mittel zwischen der Energie der gemeinsamen Komponenten in A und B sein, von dem Schätzungen der gemeinsamen Energie der Einzelkanäle durch Normalisierung mit der Quadratwurzel des Verhältnisses der Kanalamplituden abgeleitet werden können. Aktuelle Zeitmittelwerte werden mit einem verlustbehafteten Integrator berechnet, der eine geeignete Dämpfungszeitkonstante hat, um permanenten Betrieb wiederzugeben. Die zeitkonstante Glättung kann mit nichtlinearen Einschwing- und Abfallzeitoptionen ausgearbeitet werden und kann in einem Multibandsystem mit der Frequenz skaliert werden.
Berechnung höherer Ordnung von gemeinsamer Energie
Um die gemeinsame Energie von Decodiermodulen mit drei oder mehr Eingängen abzuleiten, ist es notwendig, gemittelte Kreuzprodukte aller Eingangssignale zu bilden. Einfach paarweise Verarbeitung der Eingänge durchzuführen, wird es nicht schaffen, zwischen getrennten Ausgangssignalen zwischen jedem Eingangspaar und einem allen gemeinsamen Signal zu unterscheiden.
Man betrachte zum Beispiel drei Hauptkanäle A, B und C, die aus unkorrelierten Signalen W, Y, Z und einem gemeinsamen Signal X zusammengesetzt sind: A = X + W B = X + Y C = X + Z
Wenn das gemittelte Kreuzprodukt berechnet ist, werden, wie in der Berechnung zweiter Ordnung, alle, Kombinationen von W, Y und Z einschließenden Terme aufgehoben, was das Mittel von X³ übrig lässt: ABC = X³ Unglücklicherweise ist, wenn X, wie erwartet, ein Zeitsignal mit Mittel Null ist, das Mittel seiner dritten Potenz Null. Im Unterschied zur Mittelung von X², welches für Werte von X ungleich Null positiv ist, hat X³ dasselbe Vorzeichen wie X, daher werden die positiven und negativen Beiträge dazu tendieren, sich auszulöschen. Offensichtlich gilt dasselbe für jede ungerade Potenz von X, was einer ungeraden Anzahl von Moduleingängen entspricht, aber sogar Exponenten größer als 2 können auch zu fehlerhaften Ergebnissen führen; zum Beispiel werden vier Eingänge mit Komponenten (X, X, –X, –X) dasselbe Produkt/Mittel wie (X, X, X, X) haben.
Dieses Problem wurde überwunden, indem eine Variante der Methode der gemittelten Produkte angewendet wird. Bevor gemittelt wird, wird das Vorzeichen jedes Produkts gestrichen, indem der Absolutwert des Produkts verwendet wird. Die Vorzeichen jedes Terms des Produkts werden geprüft. Wenn sie alle gleich sind, wird der Absolutwert des Produkts an den Mittelwertbilder angelegt. Wenn irgendeines der Vorzeichen sich von den anderen unterscheidet, wird das Negative des Absolutwerts des Produkts gemittelt. Da die Anzahl der möglichen Kombinationen mit gleichem Vorzeichen nicht dieselbe sein kann, wie die Anzahl der möglichen Kombinationen mit unterschiedlichem Vorzeichen, wird zur Kompensation ein Gewichtungsfaktor, der aus dem Verhältnis der Anzahl von Kombinationen mit gleichem zu Kombinationen mit unterschiedlichem Vorzeichen besteht, auf die invertierten Absolutwertprodukte angewendet. Beispielsweise hat ein Drei-Eingangs-Modul zwei Zustände aus acht möglichen, bei denen die Vorzeichen gleich sind, was sechs mögliche Zustände übrig lässt, bei denen die Vorzeichen unterschiedlich sind, was zu einem Skalierungsfaktor von 2/6 = 1/3 führt. Diese Kompensation bewirkt, dass das integrierte oder aufsummierte Produkt dann und nur dann in eine positive Richtung wächst, wenn es eine allen Eingängen eines Decodiermoduls gemeinsame Komponente gibt.
Jedoch müssen, damit die Mittelwerte von Modulen verschiedener Ordnung vergleichbar sind, sie alle dieselbe Größenordnung haben. Eine übliche Korrelation zweiter Ordnung umfasst Mittelwerte von Multiplikationen mit zwei Eingängen und somit von Größen mit den Maßen von Energie oder Leistung. Daher müssen die Terme, die in Korrelationen höherer Ordnung gemittelt werden sollen, auch modifiziert werden, um die Maße von Leistung zu haben. Für eine Korrelation k-ter Ordnung müssen die einzelnen Produktabsolutwerte daher mit 2/k potenziert werden, bevor sie gemittelt werden.
Natürlich können unabhängig von der Ordnung die einzelnen Eingangsknoten-Energien eines Moduls, falls notwendig, als Mittelwert der Quadrate des zugehörigen Knotensignals berechnet werden, und müssen nicht zuerst mit k potenziert und dann auf eine Größe zweiter Ordnung heruntergesetzt werden.
Geteilte Knoten: Nachbarpegel
Indem gemittelte Quadrate und modifizierte Kreuzprodukte von Hauptkanalsignalen verwendet werden, kann die Höhe gemeinsamer Ausgangskanalsignalenergie geschätzt werden. Das obige Beispiel involviert einen einzelnen Interpolationsprozessor, aber wenn einer oder mehr der A/B(/C) Knoten einem anderen Modul mit seiner eigenen gemeinsamen Signalkomponente, die nicht mit irgendeinem anderen Signal korreliert ist, gemeinsam wäre, dann würde das oben berechnete gemittelte Kreuzprodukt nicht beeinflusst werden, was die Berechnung grundsätzlich frei von jeglichen Bildzieheffekten macht. (Beachte: wenn die zwei Ausgangssignale nicht unkorreliert sind, werden sie dazu neigen, die Decoder etwas zu ziehen, aber sollten einen ähnlichen Effekt auf das menschliche Gehör haben, so dass der Systembetrieb erneut gegenüber dem menschlichen Gehör klangtreu bleiben sollte.)
Sobald jedes Decodiermodul die geschätzte gemeinsame Ausgangskanalsignalenergie an jedem seiner Hauptknoten berechnet hat, kann die Überwachungsroutinefunktion benachbarte Module über die ihnen jeweils gemeinsame Energie informieren, wobei zu diesem Zeitpunkt die Extraktion der Ausgangskanalsignale wie unten beschrieben weitergehen kann. Die Berechnung der durch ein Modul an einem Knoten verwendeten gemeinsamen Energie muss die Hierarchie möglicherweise überlappender Module verschiedener Ordnung berücksichtigen, und die gemeinsame Energie eines Moduls höherer Ordnung von der geschätzten gemeinsamen Energie jedes Moduls niedrigerer Ordnung, das dieselben Knoten teilt, abziehen.
Man nehme zum Beispiel an, dass es zwei benachbarte Hauptkanäle A und B, die zwei Horizontalrichtungen darstellen, plus einem Hauptkanal C gibt, der eine Vertikalrichtung darstellt, und man nehme ferner die Existenz eines dazwischenliegenden oder abgeleiteten Ausgangskanals mit Signalenergie X² an, der eine innere Richtung darstellt (das heißt, eine innerhalb der Grenzen von A, B und C). Die gemeinsame Energie eines Drei-Eingangs-Moduls mit Eingängen (A, B, C) wird X² sein, aber das wird auch die gemeinsame Energie der Zwei-Eingangs-Module (A, B), (B, C) und (A, C) sein. Wenn die gemeinsame Energie der mit A verbundenen Module (A, B, C), (A, B) und (A, C) einfach addiert wird, ist das Ergebnis 3X² anstatt X². Damit die Berechnung von Energie gemeinsamer Knoten richtig ist, wird zuerst die gemeinsame Energie jedes Moduls höherer Ordnung von der Schätzung der gemeinsamen Energie jedes überlappenden Moduls niedrigerer Ordnung abgezogen, daher wird die gemeinsame Energie X² des Moduls höherer Ordnung (A, B, C) von den Schätzungen gemeinsamer Energie der Zwei-Eingangs-Module abgezogen, was in jedem Fall 0 ergibt und die bereinigte Schätzung der gemeinsamen Energie an Knoten A gleich X² + 0 + 0 = X² macht.
Ausgangskanalsignalextraktion
Wie erwähnt wurde, ist der Prozess der Wiederherstellung der ganzen Gruppe von Ausgangskanälen aus den übertragenen Kanälen in einer linearen Art und Weise im Grunde eine Matrizierung, die gewichtete Summen von Hauptkanälen bildet, um Ausgangskanalsignale herzuleiten. Die optimale Wahl der Matrixskalierungsfaktoren ist im allgemeinen signalabhängig. Zwar ist es, wenn die Anzahl der momentan aktiven Ausgangskanäle gleich der Anzahl übertragener Kanäle ist (aber unterschiedliche Richtungen darstellt), was das System exakt bestimmt macht, mathematisch möglich, eine exakte Inverse der aktuellen Codiermatrix zu berechnen und isolierte Versionen der Quellensignale wiederherzustellen. Sogar wenn die Anzahl aktiver Ausgangskanäle größer als die Anzahl von Hauptkanälen ist, kann es noch möglich sein, eine Pseudo-Inverse der Matrix zu berechnen.
Unglücklicherweise gibt es Probleme mit diesem Ansatz, von denen nicht das geringste ist, dass er besonders auf einer Multibandbasis rechenaufwendig ist und auf eine hochgenaue Gleitkommaimplementierung ausgerichtet ist. Auch wenn von Zwischensignalen angenommen wird, dass sie auf am nächsten benachbarte Hauptkanäle geschwenkt werden, wird eine mathematische Inverse oder Pseudo-Inverse der aktuellen Codiermatrix wegen des Knotenteilungseffektes im allgemeinen Beiträge aus allen Hauptkanälen an jeden Ausgangskanal beinhalten. Wenn es irgendwelche Unvollkommenheiten in der Decodierung gibt, wie es sie allerdings unvermeidbarerweise geben wird, kann ein Hauptkanalsignal von einem Ausgangskanal wiedergegeben werden, der räumlich weit verschoben ist, was höchst unerwünscht ist. Zusätzlich neigen Berechnungen der Pseudo-Inversen dazu, Lösungen mit minimaler RMS-Energie hervorzubringen, was den Schall maximal ringsherum verteilt, was minimale Separation bereitstellt; dies ist genau das Gegenteil der Intention.
Daher wird, um einen praxisnahen, fehlertoleranten Decoder zu realisieren, in dem räumliche Decodierfehler inhärent eingegrenzt werden, dieselbe modulare Struktur, die für die Signaldetektion verwendet wurde, für die Signalextraktion eingesetzt.
Es folgen Details des Extraktionsprozesses, durch den Ausgangssignale durch ein Decodiermodul wiederhergestellt werden. Beachte, dass angenommen wird, dass die tatsächliche Position jedes mit dem Modul verbundenen Ausgangskanals durch das Amplitudenverhältnis gekennzeichnet ist, das ansonsten benötigt würde, um ein Signal zu diesem physikalischen Ort zu schwenken, das heißt, das Verhältnis der aktuellen Matrixcodierkoeffizienten, die jener Richtung entsprechen. Um Probleme mit Division durch Null zu vermeiden, werden Verhältnisse üblicherweise als der Quotient eines Matrixkoeffizienten eines Kanals und der RMS-Summe aller Matrixkoeffizienten dieser Eingangskanäle (üblicherweise 1) berechnet. Zum Beispiel würde in einem Zwei-Eingangs-Modul mit Eingängen L und R das verwendete Energieverhältnis die Energie von L geteilt durch die Summe der Energien von L und R sein („L-Verhältnis"), das einen sich gut verhaltenden Bereich von 0 bis 1 hat. Wenn das Zwei-Eingangs-Decodiermodul fünf Ausgangskanäle mit aktuellen Matrixkoeffizientenpaaren von (1,0, 0), (0,89, 0,45), (0,71, 0,71), (0,45, 0,89) und (0, 1,0) hat, sind die zugehörigen L-Verhältnisse 1,0, 0,89, 0,71, 0,45 und 0, da jedes Skalierungsfaktorpaar eine RMS-Summe von 1,0 hat.
Von der Signalenergie jedes Eingangsknotens (Hauptkanal) des Decodiermoduls wird jede knotengemeinsame Signalenergie, die durch benachbarte Decodiermodule geltend gemacht wird, abgezogen, was zu normalisierten Eingangssignalleistungspegeln führt, die für den Rest der Berechnung verwendet werden.
Der Indikator für die dominierende Richtung wird als die Vektorsumme der Hauptrichtungen, gewichtet mit der relativen Energie, berechnet. Für ein Zwei-Eingangs-Modul vereinfacht sich dies zu dem L-Verhältnis der normalisierten Eingangssignalleistungspegel.
Die Ausgangskanäle, die die dominierende Richtung einklammern, werden durch Vergleich des L-Verhältnisses der dominierenden Richtung aus Schritt zwei mit den L-Verhältnissen der Ausgangskanäle bestimmt. Wenn zum Beispiel das L-Verhältnis der Eingänge des obigen Fünf-Ausgangs-Decodiermoduls 0,75 ist, klammern die zweiten und dritten Ausgangskanäle die dominierende Signalrichtung ein, da 0,89 > 0,75 > 0,71 ist.
Schwenkskalierungsfaktoren zur Abbildung des dominierenden Signals auf die nächsten einklammernden Kanäle werden aus dem Verhältnis der Pegel der antidominierenden Signale der Kanäle berechnet. Das mit einem bestimmten Kanal verbundene antidominierende Signal ist das Signal, das sich ergibt, wenn die Eingangssignale des zugehörigen Decodiermoduls mit den antidominierenden Matrixskalierungsfaktoren des Ausgangskanals matriziert werden. Antidominierende Matrixskalierungsfaktoren eines Ausgangskanals sind diejenigen Skalierungsfaktoren mit RMS- Summe = 1,0, die zu null Ausgabe führen, wenn ein einzelnes dominierendes Signal zu dem besagten Ausgangskanal geschwenkt wird. Wenn die Codiermatrixskalierungsfaktoren eines Ausgangskanals (A, B) sind, dann sind die antidominierenden Skalierungsfaktoren des Kanals einfach (B, –A).
Beweis
Wenn ein einzelnes dominierendes Signal zu einem Ausgangskanal mit Codierungsskalierungsfaktoren (A, B) geschwenkt wird, dann muss das Signal Amplituden (kA, kB) haben, wobei k die Gesamtamplitude des Signals ist. Dann ist das antidominierende Signal für diesen Kanal (kA·B – kB·A) = 0.
Daher wird, wenn ein dominierendes Signal aus Eingangssignalen (x(t), y(t)) eines Zwei-Eingangs-Moduls besteht, wobei die Eingangsamplituden auf RMS = 1 (X, V) normalisiert sind, das extrahierte, dominierende Signal dom(t) = Xx(t) + Yy(t) sein. Wenn die Position dieses Signals durch Ausgangskanäle eingeklammert wird, die Matrixskalierungsfaktoren von (A, B) beziehungsweise (C, D) haben, wird der Skalierungsfaktor des dominierenden Signals, der dom(t) für den ersteren Kanal skaliert, SF(A, B) = sqrt((DX – CY)/((DX – CY) + (BX – AY)))sein, während der Skalierungsfaktor des dominierenden Signals für den letzteren Kanal SF(C, D) = sqrt((BX – AY)/((DX – CY) + (BX – AY)))sein wird.
Während die dominierende Richtung von einem Ausgangskanal zum anderen geschwenkt wird, bewegen sich diese zwei Skalierungsfaktoren mit konstanter Leistungssumme in entgegengesetzte Richtungen zwischen Null und Eins.
Das antidominierende Signal wird berechnet und mit geeigneter Verstärkungsskalierung zu allen nicht dominierenden Kanälen geschwenkt. Das antidominierende Signal ist ein matriziertes Signal, das nichts des dominierenden Signals enthält. Wenn die Eingänge in ein Decodiermodul (x(t), y(t)) mit normalisierten Amplituden (X, Y) sind, ist das dominierende Signal Xx(t) + Yy(t) und das antidominierende Signal ist Yx(t) – Xy(t), unabhängig von den Positionen der nicht dominierenden Ausgangskanäle.
Zusätzlich zu der Verteilung der dominierenden/antidominierenden Signale wird eine zweite Signalverteilung berechnet, wobei die „passive" Matrix verwendet wird, die im wesentlichen aus den bereits behandelten Ausgangskanal-Matrixskalierungsfaktoren besteht, die zur Erhaltung der Leistung skaliert sind.
Die Kreuzkorrelation der Decodiermodul-Eingangssignale wird als das gemittelte Kreuzprodukt der Eingangssignale geteilt durch die Quadratwurzel des Produkts der normalisierten Eingangspegel berechnet.
Zu den Details des Extraktionsprozesses zurückkehrend werden die endgültigen Ausgangssignale als eine gewichtete Überblendsumme der Verteilungen der dominierenden und passiven Signale berechnet, wobei die Eingangssignalkreuzkorrelation des Decodiermoduls zur Herleitung des Überblendfaktors verwendet wird. Bei Korrelation = 1 wird ausschließlich die dominierend/antidominierend Verteilung verwendet. Während die Korrelation kleiner wird, wird das Ausgangssignalfeld durch Überblendung zur passiven Verteilung verbreitert, was bei einem niedrigen positiven Wert der Korrelation, typischerweise 0,2 bis 0,4, abhängig von der Anzahl der mit dem Decodiermodul verbundenen Ausgangskanäle, den Abschluss erreicht. Wenn die Korrelation weiter gegen Null abnimmt, wird die passive Amplitudenausgangsverteilung zunehmend nach außen gebogen, was die Ausgangskanalpegel verringert, was die Antwort des menschlichen Gehörs auf solche Signale nachbildet.
Vertikalverarbeitung
Das meiste der bisher beschriebenen Verarbeitung gilt für die Extraktion von Ausgangskanalsignalen aus benachbarten Hauptkanälen, unabhängig von der Richtung der Ausgangs- und Hauptkanäle. Jedoch neigt, wegen der horizontalen Ausrichtung der Ohren, die menschliche Gehörortsbestimmung dazu, weniger empfindlich auf Zwischenkanalkorrelation in vertikaler Richtung als horizontal zu reagieren. Um der Funktion des menschlichen Gehörs treu zu bleiben, kann es wünschenswert sein, die Korrelationsbeschränkung in Interpolationsprozessoren, die vertikal ausgerichtete Eingangskanäle verarbeiten, zu lockern, wie zum Beispiel die Verarbeitung des Korrelationssignals mit einer Verzerrungsfunktion, bevor es anderweitig verwendet wird. Jedoch kann es sein, dass die Anwendung derselben Verarbeitung wie für Horizontalkanäle keinerlei hörbare Nachteile mit sich bringt, was den Aufbau des gesamten Decoders vereinfachen wird.
Genau genommen schließt Vertikalinformation sowohl Schall von oben als auch von unten ein, und der beschriebene Decoderaufbau wird mit beiden gleich gut arbeiten, aber in der Praxis gibt es normalerweise wenig natürlichen Schall, der als von unten kommend wahrgenommen wird, also können derartige Verarbeitung und Kanäle wahrscheinlich weggelassen werden, ohne die wahrgenommene räumliche Wiedergabetreue des Systems ernsthaft zu beeinträchtigen.
Dieser Gedanke kann in der Anwendung von Kanalumsetzung auf vorhandenes 5.1-Kanal-Surround-Material, welches natürlich keinerlei Vertikalkanal enthält, praktische Bedeutung haben. Jedoch kann es Vertikalinformation enthalten, wie zum Beispiel Überflüge, die über viele oder alle Horizontalkanäle geschwenkt wird. Daher sollte es möglich sein, einen virtuellen Vertikalkanal aus derartigem Quellenmaterial zu extrahieren, indem nach Korrelationen zwischen nicht benachbarten Kanälen oder Gruppen von Kanälen gesucht wird. Wo derartige Korrelationen vorhanden sind, werden sie üblicherweise das Vorhandensein von Vertikalinformation von oberhalb und nicht unter halb des Zuhörers anzeigen. In einigen Fällen kann es auch möglich sein, virtuelle Vertikalinformation aus einem Nachhallgenerator abzuleiten, der vielleicht auf ein Modell der vorgesehenen Hörumgebung abgestimmt ist. Sobald der virtuelle Vertikalkanal aus der 5.1-Kanal-Quelle extrahiert oder abgeleitet ist, kann die Erweiterung auf größere Anzahlen von Kanälen, wie zum Beispiel der vorher beschriebenen 24-Kanal Anordnung, so weitergehen, als ob ein echter Vertikalkanal zugeführt worden wäre.
Richtungsgedächtnis
Ein Gesichtspunkt, in dem die Funktion der oben beschriebenen Decodiermodul-Steuerungsgenerierung ähnlich zu einem 2:N aktiven Decoder ist, wie zum Beispiel einem Pro Logic Decoder, ist, dass das einzige „Gedächtnis" in dem Prozess in den Glättungsnetzwerken ist, die die grundlegenden Steuersignale herleiten. Zu jedem Zeitpunkt gibt es nur eine dominierende Richtung und einen Wert von Eingangskorrelation; und die Signalextraktion geht direkt von diesen Signalen aus.
Jedoch weist das menschliche Gehör, insbesondere in komplexen akustischen Umgebungen (wie der archetypischen Cocktail-Party), einen gewissen Grad von Positionsgedächtnis oder Trägheit auf, insofern ein kurz dominierender Schall aus einer bestimmten Richtung, die eindeutig lokalisiert wurde, dazu führt, dass andere, weniger deutlich lokalisierbare Geräusche aus dieser allgemeinen Richtung als von derselben Quelle kommend wahrgenommen werden.
Es ist möglich, diesen Effekt in den Decodiermodulen nachzubilden (und tatsächlich ebenfalls in Pro Logic Decodierung), indem ein expliziter Mechanismus hinzugefügt wird, um kürzlich dominierende Richtungen aufzuzeichnen, und während Zeitspannen von richtungsmäßig unklaren Signalbedingungen, die Ausgangssignalverteilung hin zu kürzlich dominierenden Richtungen zu gewichten. Das kann die empfundene wiedergegebene Klarheit und Stabilität komplexer Signalfelder verbessern.
Modifizierte Korrelation und Mischung ausgewählter Kanäle
Wie beschrieben basiert die Ausbreitungsbestimmung jedes Decodiermoduls auf der gleichzeitigen Kreuzkorrelation seiner Eingangssignale. Dies kann den Betrag von Ausgangssignalinhalt unter manchen Bedingungen unterschätzen. Dies wird beispielsweise bei einem naturgemäß aufgezeichneten Signal auftreten, in dem nicht-zentrale Richtungen leicht unterschiedliche Ankunftszeiten zusammen mit ungleichen Amplituden haben, was zu einem verkleinerten Korrelationswert führt. Der Effekt kann überspitzt werden, wenn weit auseinanderliegende Mikrophone mit entsprechend verlängerten Interkanalverzögerungen verwendet werden. Zur Kompensation kann die Korrelationsberechnung ausgedehnt werden, um einen Bereich von Interkanal-Zeitverzögerungen auf Kosten etwas höherer MIPS-Anforderungen für die Verarbeitung abzudecken. Ferner können, da die Neuronen auf dem Hörnerv eine effektive Zeitkonstante von etwa 1 msec haben, realistischere Korrelationswerte erzielt werden, indem zuerst das korrigierte Audio mit einem Glätter, der eine Zeitkonstante von 1 msec hat, geglättet wird.
Zusätzlich kann, wenn ein Produzent von Inhalten ein vorhandenes 5.1-Kanal-Programm mit stark unkorrelierten Kanälen besitzt, die Gleichmäßigkeit der Verteilung erhöht werden, wenn es mit einem Kanalumsetzungsdecoder verarbeitet wird, indem benachbarte Kanäle geringfügig eingemischt werden, wodurch die Korrelation erhöht wird, was das Kanalumsetzungs-Decodiermodul veranlasst, eine gleichmäßigere Verteilung unter seinen Ausgangskanälen zu bilden. Derartige Mischung kann selektiv erfolgen, wobei zum Beispiel der Frontmittenkanal ungemischt belassen wird, um die Kompaktheit der Dialogspur zu erhalten.
Lautheitskompression/-expansion
Wenn der Codierprozess das Mischen einer größeren Anzahl von Kanälen auf eine kleinere Anzahl beinhaltet, gibt es die Möglichkeit, dass das codierte Signal gekappt wird, wenn nicht irgendeine Form der Verstärkungskompensation zur Verfügung gestellt wird. Dieses Problem existiert auch für herkömmliche Matrixcodierung, aber ist für Kanalumsetzung von möglicherweise größerer Bedeutung, da die Anzahl der zu einem gegebenen Ausgangskanal gemischten Kanäle größer ist. Um in solchen Fällen Clipping zu vermeiden, wird ein übergreifender Verstärkungsskalierungsfaktor durch den Coder abgeleitet und in dem codierten Bitstrom an den Decoder übermittelt. Normalerweise ist dieser Wert 0 dB, aber er kann durch den Coder zur Vermeidung von Clipping auf einen dämpfenden Wert ungleich Null gesetzt werden, wobei der Decoder ein entsprechendes Maß an Kompensationsverstärkung bereitstellt.
Wenn der Decoder verwendet wird, ein vorhandenes Multikanalprogramm zu verarbeiten, dem ein derartiger Skalierungsfaktor fehlt (zum Beispiel eine vorhandene 5.1-Kanal-Tonspur), kann er optional einen festen Skalierungsfaktor mit einem geschätzten Wert (wahrscheinlich 0 dB) verwenden oder eine Expansionsfunktion anwenden, die auf Signalpegel und/oder -dynamik basiert, oder möglicherweise vorhandene Metadaten, wie zum Beispiel einen Dialognormalisierungswert, zur Anpassung der Decoderverstärkung nutzen.
Die vorliegende Erfindung und ihre verschiedenen Aspekte können in Analogschaltungen oder wahrscheinlicher als in digitalen Signalverarbeitungsprozessoren, programmierten Universalcomputern und/oder Spezialdigitalcomputern ausgeführte Softwarefunktionen umgesetzt werden. Schnittstellen zwischen analogen und digitalen Signalströmen können in geeigneter Hardware und/oder als Funktionen in Software und/oder Firmware ausgeführt werden.

Claims

Verfahren zur Umsetzung von M Audioeingangskanälen (1', 3', 5', 9', 13'), die ein Schallfeld darstellen, auf N Audioausgangskanäle (1–23), die dasselbe Schallfeld darstellen, wobei jeder Kanal ein einzelner Audiostrom ist, der aus einer Richtung ankommendes Audio darstellt, M und N positive ganze Zahlen sind und M eine positive ganze Zahl gleich zwei oder mehr ist, dadurch gekennzeichnet, dass es enthält: eine Vielzahl von Decodiermodulen, von denen jedes mit zwei oder mehr räumlich benachbarten Eingangskanälen (1', 3', 5', 9', 13') verknüpft ist, wobei jeder Eingangskanal von mehreren Modulen gemeinsam benutzt wird, und jedes Modul entweder – eine Matrix einschließt, die aus den verknüpften zwei oder mehr Eingangskanälen (1', 3', 5', 9', 13') einen oder mehr Ausgangskanäle (1–23), von denen jeder eine Untergruppe der N Kanäle darstellt, durch ein Verfahren erzeugt, das die Bestimmung eines Maßes der Korrelation der zwei oder mehr Eingangskanäle (1', 3', 5', 9', 13') und der Pegelzusammenhänge der zwei oder mehr Eingangskanäle (1', 3', 5', 9', 13') einschließt, oder – aus den verknüpften zwei oder mehr Eingangskanälen (1', 3', 5', 9', 13') durch ein Verfahren, das die Bestimmung eines Maßes der Korrelation der zwei oder mehr Eingangskanäle (1', 3', 5', 9', 13') und der Pegelzusammenhänge der zwei oder mehr Eingangskanäle (1', 3', 5', 9', 13') einschließt, Steuersignale erzeugt, die zusammen mit von anderen Decodiermodulen erzeugten Steuersignalen benutzt werden, um die Koeffizienten einer variablen Matrix zu verändern, um die Gesamtheit der Ausgangskanäle (1–23) zu erzeugen, oder – aus den verknüpften zwei oder mehr Eingangskanälen (1', 3', 5', 9', 13') durch ein Verfahren, das die Bestimmung eines Maßes der Korrelation der zwei oder mehr Eingangskanäle (1', 3', 5', 9', 13') und der Pegelzusammenhänge der zwei oder mehr Eingangskanäle (1', 3', 5', 9', 13') einschließt, Steuersignale erzeugt, die zusammen mit von anderen Decodiermodulen erzeugten Steuersignalen benutzt werden, um die Skalierungsfaktoren der Eingaben in oder der Ausgaben aus einer festen Matrix zu verändern, um die Gesamtheit der Ausgangskanäle (1–23) zu erzeugen.
Verfahren nach Anspruch 1, bei welchem die Module hierarchisch nach ihrer Anzahl von Eingangskanälen (1', 3', 5', 9', 13') geordnet sind und eine Kontrollinstanz mit den Modulen kommuniziert, um die gemeinsame Benutzung von Eingangssignalen entsprechend ihrer hierarchischen Ordnung zu steuern.