WO2014072513A1

WO2014072513A1 - Nichtlineare inverse kodierung von multikanal-signalen

Info

Publication number: WO2014072513A1
Application number: PCT/EP2013/073526
Authority: WO
Inventors: Clemens Par
Original assignee: Stormingswiss Sàrl
Priority date: 2012-11-09
Filing date: 2013-11-11
Publication date: 2014-05-15
Also published as: SG11201504514WA; CN105229730A; US20150371644A1; RU2015121941A; AU2013343445A1; EP2917908A1; KR20150101999A; HK1220034A1; JP2016501456A

Abstract

Upmix-oder Kodiervorrichtungeines Audiosignals aufweisend: eine inverse Kodierungsvorrichtung zur Bestimmung eines ersten Kanals und eines zweiten Kanals durch lineare inverse Kodierung aus einem Eingangssignal; gekennzeichnet durch einen der inversen Kodierungsvorrichtung in dem ersten Kanal nachgeschalteten ersten Gain (50001); oder einen der inversen Kodierungsvorrichtung in dem ersten Kanal nachgeschalteten ersten Gain (60001) und einen der inversen Kodierungsvorrichtung in dem zweiten Kanal nachgeschalteten zweiten Gain (60002), der sich von dem ersten Gain (60001) unterscheidet.

Description

NICHTLINEARE INVERSE KODIERUNG VON MULTI KANAL- SIGNALEN

Die Gewinnung von Signalen höherer Ordnung (mit einer höheren Anzahl von Ausgangskanälen) aus Signalen niedrigerer Ordnung (mit einer geringeren Anzahl von Kanälen) stellt einen wichtigen Teil der Audiotechnik dar. Diese wird als „Upmixing" bezeichnet.

Ebenso stellt die effiziente Kodierung von Multikanal- Signalen mit naturgemäß hoher Bandbreite für zum Stand der Technik gehörende psychoakustische Kodierverfahren eine große Herausforderung dar. Insbesondere Formate wie das von japanischen Sender NHK entwickelte

dreidimensionale System Hamasaki 22.2 benötigen hohe permanente räumliche Bitraten („Spatial Bitrates") .

Sollen derartige dreidimensionale Systeme in bestehende Daten eingebettet werden, oder sind die Anforderungen an die Rechenleistung des dekodierenden Systems so gestaltet, dass nur wenig Kapazität für die Dekodierung und Wiedergabe von Audiodaten zur Verfügung stehen („Low Computational Complexity Systems") , versagen zum Stand der Technik gehörende psychoakustische

Kodierverfahren .

Die Patentanmeldungen und Publikationen zu

psychakustischen und insbesondere räumlichen

Kodierverfahren sind zahllos. Auf eine extensive

Darstellung muss demnach verzichtet werden. Ein

gemeinsames Merkmal stellen jedoch permanente Spatial Bitrates dar, die einem Decoder übermittelt werden müssen, um entsprechende Multikanal-Signale extrahieren zu können. Die vorliegende Erfindung gibt der Audiokodierung erweiterte Möglichkeiten an die Hand, räumliche

Audiosignale anhand von nur wenigen Parametern gültig zu definieren, die - im Gegensatz zu bekannten psychoakustischen und insbesondere räumlichen

Kodierverfahren - dem Datenstrom nicht ständig hinzugefügt werden müssen. Insbesondere arbeitet das System unabhängig von der Wahl eines passenden Codecs zur Kompression von

Audiodaten („Base Audio Coder"). Solche Codecs umschreiben beispielsweise gültige oder in Arbeit befindliche Standards, die als MP3, AAC, HE-AAC oder USAC bekannt geworden sind.

Unter „inverser Kodierung" wird im folgenden ein technischer Ablauf verstanden, der sich eines oder mehrerer Verfahren oder einer oder mehrerer

Vorrichtungen der Ansprüche der Anmeldungen EP1850629 oder WO2009138205 oder WO2011009649 oder WO2011009650 oder WO2012016992 oder WO2012032178 bedient. Die eben genannten Dokumente werden hiermit als Referenz eingeführt .

Insbesondere wird unter „inverser Kodierung" ein technischer Vorgang beschrieben, der räumliche

Audiosignale durch die spezifische Anwendung von funktional voneinander abhängigen Gains und Delays generiert.

Insbesondere bauen die in EP1850629 oder WO2009138205 oder WO2011009649 oder WO2011009650 oder WO2012016992 oder WO2012032178 beschriebenen Systeme auf dem Prinzip einheitlicher Energiedichte zur gültigen Erzeugung von Phantomschallquellen auf. Insbesondere werden in

EP1850629 oder WO2009138205 oder WO2011009649 oder WO2011009650 oder WO2012016992 oder WO2012032178 räumliche Audiosignale generiert, deren einzelne Kanäle keine unterschiedliche Aussteuerung aufweisen. Eine solche einheitliche Aussteuerung ist notwendig, um eine gleichmäßige Abbildung der Phantomschallquellen zu erreichen. Dies gilt, wie beispielsweise FIG. 6F, FIG. 7F und FIG. 8F von WO2012032178 für ein 5.1 Surround- Signal zeigen, auch für die inverse Kodierung von

Multikanal-Signalen . Beispielsweise aus ITU-R BS.775-1 sind sogenannte

Downmix-Verfahren bekannt (siehe Fig. 21). Hierbei handelt sich um ein Additionsschema zur Verringerung der Kanalanzahl, bei dem teilweise der Pegel

spezifischer Kanäle verringert wird, beispielweise um - 3dB (was einer Multiplikation des Signalpegels mit dem

Faktor 1/V2 oder gerundet 0.7071 entspricht) bzw. -6dB (was einer Multiplikation des Signalpegels mit dem Faktor 0.5000 entspricht) . Solche Additionsschemata können andere Pegel für spezifische Kanäle aufweisen, die auch in funktionaler Abhängigkeit von einer Signalanalyse - etwa der zum Stand der Technik gehörenden Karhunen-Loeve- Transformation (KLT) oder Principal Component Analysis (PCA) oder mittels algebraischer Invarianten gemäss EP1850629, W02009138205 , W02011009649 , W02011009650 , WO2012016992 und WO2012032178 - bestimmt bzw. optimiert werden können oder auch um weitere spezifische

technische Mittel bereichert sein können:

So schlugen etwa Faller und Schillebeeckx auf der 130^th AES Convention in London in P4-5 ("Improved ITU and

Matrix Surround Downmixing") die Verwendung von aus dem Stand der Technik bekannten 90°-Filtern vor.

Insgesamt stellen derartige Downmix-Verfahren die

Grundlage für die Wiedergabe von Signalen mit einer höheren Anzahl von Audiokanälen ("Signale höherer

Ordnung") auf Wiedergabesystem mit einer geringeren Anzahl von Audiokanälen ("Signale niedrigerer Ordnung") dar und liefern im weiteren die Voraussetzung für die Reduktion der Bandbreite von Audiosignalen, wie sie aus der Audiokodierung etwa für Standards wie MPEG Surround bekannt sind.

Derartige Downmix-Verfahren können adaptiv sein, indem die Pegel spezifischer Kanäle über den zeitlichen

Verlauf sich verändern („adaptiver Downmix") , oder dieselben Pegel spezifischer Kanäle bleiben über den zeitlichen Verlauf hinweg konstant und sind demzufolge nicht-adaptiv („automatischer Downmix").

Insbesondere können derartige Downmix-Verfahren für eine direkte akustische Wiedergabe des Downmix

optimiert sein, oder diese Downmix-Verfahren sind rein für eine Reduktion der Bandbreite von Audiosignalen bestimmt.

Aus der Literatur sind Lautsprecheranordnungen bekannt, die gegenüber marktüblichen Surround-Anordnungen wie 5.1 oder 7.1, bei denen sich die Lautsprecher in einer Ebene befinden, auch Lautsprecher ausserhalb dieser Ebene vorsehen. Diese stellen teilweise eigene

Standards dar, wie etwa das vom japanischen Sender NHK entwickelte dreidimensionale System Hamasaki 22.2, aus dem sich die meisten der heute bekannten

Multikanalverfahren ableiten lassen. Es handelt sich dabei insgesamt um hochkomplexe Systeme, bei denen sich die Bildung unzähliger Phantomschallquellen zwischen jeweils benachbarten Lautsprechern beobachten lässt.

Insgesamt führt die inverse Kodierung von Surround- Signalen wie 5.1 oder 7.1 oder auch von

dreidimensionalen Systemen unvermeidlich zu

Lautsprechersignalen, die in der Regel eine

einheitliche Aussteuerung und somit unnatürlich hohe Energiedichte aufweisen. Allerdings ist gemäss Stand der Technik eine solche Energiedichte notwendig, um entsprechende Phantomschallquellenbildung zu

ermöglichen. In der Folge bezeichnen wir ein solches Vorgehen deshalb als "lineare inverse Kodierung".

Insbesondere beschreibt WO2011009649 ein System, bei dem innerhalb einer Vorrichtung oder eines Verfahrens zur linearen inversen Kodierung zwei Panorama- Potentiometer einer MS-Matrix nachgeschaltet werden, wobei jeder Panorama-Potentiometer zwei

Sammelschienensignale bildet. Eine solche Anordnung gestattet die beliebige Erhöhung oder Erniedrigung des Korrelationsgrades und führt zu einer Erhöhung oder

Erniedrigung der Abbildungsbreite auf der Stereobasis zwischen zwei Lautsprechern. Allerdings wird das erste Ausgangssignal der MS-Matrix, sofern der erste Panorama-Potentiometer wirksam ist, in einem zuvor bestimmten Verhältnis den zwei Kanälen des ersten

Sammelschienensignals zugeführt. Ebenso wird das zweite Ausgangssignal der MS-Matrix, sofern der zweite

Panorama-Potentiometer wirksam ist, in einem zuvor bestimmten Verhältnis den zwei Kanälen des zweiten Sammelschienensignals zugeführt.

OFFENBARUNG DER ERFINDUNG

Erfindungsgemäss wurde jedoch unerwartet und entgegen bisheriger Erfahrung festgestellt, dass es zwar

einerseits möglich ist, aus Audiosignalen oder aus einem mit beliebigen technischen Mitteln erzeugten Downmix abgeleiteten Signalen ein Eingangssignal für eine linearen inversen Kodierung zu wählen, um

zusätzliche Kanäle, und somit gegenüber dem Grundsignal oder dem Downmix ein Signal höherer Ordnung, zu

erzeugen („Upmixing" oder „Kodierung"), andererseits die durch lineare inverse Kodierung erzeugten

Audiokanäle mit unterschiedlichen Pegeln wiederzugeben, wobei diese Pegel aus den Pegeln der verwendeten

Audiosignale oder den beim Downmix verwendeten Pegeln ganz oder teilweise abgeleitet sein können, oder auch ganz oder teilweise unabhängig von diesen bestimmt werden können. Alternativ kann die inverse Kodierung bereits anhand ihrer unterschiedlich ausgesteuerten Ausgangskanäle stattfinden. In beiden Fällen sprechen wir, sofern ein derartiger technischer Schritt

stattfindet, von einer "nichtlinearen inversen

Kodierung" . Die nichtlineare inverse Kodierung weist demnach keine einheitliche Energiedichte bei leicht veränderter

Phantomschallquellenbildung auf und widerspricht somit dem vordergründigen Postulat einer möglichst homogenen Stereobasis zwischen benachbarten Lautsprechern zur Erzeugung von Phantomschallquellen.

Allerdings trägt diese uneinheitliche Energiedichte zu einem natürlichen Höreindruck bei, der bei wachsender Anzahl von Eingangskanälen sich zunehmend der

Transparenz nähert. Das menschliche Gehör beurteilt die Transparenz bei wachsender Anzahl von Eingangskanälen demnach weniger hinsichtlich der absoluten Lage der Phantomschallquellen, sondern vielmehr hinsichtlich der Energiedichte des generierten Schallfeldes. Die

vorliegende Erfindung macht sich dieses Prinzip somit gezielt zunutze.

Insbesondere überwiegt bei zunehmender Anzahl der

Wiedergabekanäle die unmittelbare psychoakustische Lokalisation der Lautsprecher, also annähernd

punktförmiger Schallquellen, gegenüber der Wahrnehmung von Phantomschallquellen zwischen den Lautsprechern. Die nichtlineare inverse Kodierung sorgt somit dafür, dass auch für diesen Fall eine korrekte Verteilung bzw. Gewichtung dieser punktförmigen Schallquellen als auch der gebildeten Phantomschallquellen zwischen den

Lautsprechern erfolgt. Im weiteren lässt sich trotz Anwendung eines Downmix- Verfahrens die Wahrnehmung der Tiefenstaffelung von Phantomschallquellen erhalten, die bei

Phantomschallquellen-basierten Signalen im wesentlichen von der Lautheit eines Lautsprechersignals als auch von der wahrgenommenen Räumlichkeit abhängt. Diese

wahrgenommene Räumlichkeit lässt sich unmittelbar durch eine inverse Kodierung steuern, ohne dass zusätzliche technische Mittel wie beispielsweise eine künstliche Verhallung notwendig werden.

Insbesondere lässt sich durch geeignete Wahl der Pegel der Ausgangssignale einer inversen Kodierung eine nichtlineare inverse Kodierung die wahrgenommene

Räumlichkeit auch dann erhalten, wenn eine

Virtualisierung der Wiedergabekanäle über Kopfhörer mittels Head Related Transfer Functions (HRTFs) oder binauralen Raumimpulsen (Binaural Room Impulse

Responses , BRIRs) erfolgt, die mitunter mit

wesentlichen räumlichen Wahrnehmungsverlusten behaftet sein können.

Die Pegel der Ausgangssignale einer inversen Kodierung können zeitabhängig variieren, dies beispielsweise im Falle eines adaptiven Downmix-Verfahrens , oder auch im zeitlichen Verlauf konstant bleiben, dies

beispielsweise im Falle eines nicht-adaptiven Downmix- Verfahrens . Auch die umgekehrten Fälle, also das Nicht- Variieren der Pegel der Ausgangssignale einer inversen Kodierung im Falle eines adaptiven Downmix-Verfahrens oder das Variieren der Pegel der Ausgangssignale einer inversen Kodierung im Falle eines nicht-adaptiven

Downmix-Verfahrens sind bei diesen Beispielen

grundsätzlich möglich, um eine möglichst korrekte

Bildung der wahrgenommenen punktförmigen Schallquellen als auch der gebildeten Phantomschallquellen zwischen den Lautsprechern zu ermöglichen. Insbesondere beschreibt der Erfindungsgegenstand gegenüber WO2011009649 kein System, bei dem, sofern die Pegel anhand eines Verstärkungsfaktors ungleich 1 geregelt werden, zwangsläufig jeweils zwei

Sammelschienensignale gebildet werden. Vielmehr wirken diese Verstärkungsfaktoren ausschliesslich auf jenen Kanal, auf den sie angewandt werden. Die technische Wirkung ist somit nicht die beliebige Erhöhung oder Erniedrigung des Korrelationsgrades zweier gleich gewichteter Kanäle. Auch gehen bei der nichtlinearen inversen Kodierung, sofern ein Verstärkungsfaktor der abschliessenden Pegelkorrektur wenigstens eines

Ausgangssignals gegen 0 konvergiert, anders als bei WO2011009649, die Audioinformationen dieses Signals unweigerlich verloren, und es handelt sich somit nicht mehr um die verlustfreie Erhöhung oder Erniedrigung der Abbildungsbreite auf der Stereobasis zwischen zwei Lautsprechern, sondern um die, in ihrer Einfachheit zweckmässige, gezielte einheitliche Gewichtung von wahrgenommenen punktförmigen Schallquellen

(Lautsprechern) als auch der zwischen diesen

Lautsprechern gebildeten Phantomschallquellen. Vielmehr sind die zwei Panorama-Potentiometer, welche bei WO2011009649 einer MS-Matrix nachgeschaltet werden, wobei jeder Panorama-Potentiometer zwei

Sammelschienensignale bildet, als Teil einer linearen inversen Kodierung zu betrachten, auf deren

Ausgangssignale in wenigstem einen Fall zusätzlich ein Verstärkungsfaktor gemäss der nichtlinearen inversen Kodierung angewandt werden kann - und somit insgesamt eine Form der Gewichtung erzielt wird, die anhand dieser beiden Panorama-Potentiometer allein nicht möglich ist.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass entweder: ein Gain einem der beiden Ausgangssignale

nachgeschaltet wird; oder: jeweils ein Gain je einem der beiden Ausgangssignale nachgeschaltet wird, wobei diese beiden Gains unterschiedlich sind.

nachgeschaltet wird; oder: jeweils ein Gain je einem der beiden Ausgangssignale nachgeschaltet wird, wobei diese beiden Gains unterschiedlich sind. Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein

Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass entweder: ein Gain (50001) den Faktor 0.5 oder den Faktor

1/V2 aufweist; oder: mindestens einer der beiden Gains (60001, 60002) den Faktor 0.5 oder den Faktor

1/V2 aufweist .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass die nichtlineare inverse Kodierung anhand von Signalen eines Downmix erfolgt. Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass der Downmix anhand von einem Gain oder mehreren Gains gebildet wird, welche den Faktor 0.5 oder den Faktor

1/V2 aufweisen.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass der Downmix neben Mitteln zur Bildung von Summensignalen anhand weiterer technischer Mittel gebildet wird.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur unmittelbaren Wiedergabe des Downmix auf Lautsprechern verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Gewinnung weiterer Signale aus vorgängig vorhandenen oder gebildeten Signalen verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Summierung von Signalen verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Subtraktion von Signalen verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel für den Korrelationsvergleich von Signalen verwendet werden .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Normierung von Signalen anhand der Pegel vorgängig vorhandener oder gebildeter Signale verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Summierung von Signalen jeweils mit nichtbenachbarten Lautsprecherkanälen verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Bildung eines fiktiven Lautsprechers verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel für die Kodierung des Downmix mittels eines Base Audio Coder verwendet werden. Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Bildung von Signalen für eine Lautsprecheranordnung der Form Hamasaki 22.2 oder für eine Teilmenge einer solchen Lautsprecheranordnung verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Bestimmung der Lage von Phantomschallquellen verwendet werden .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel für eine Signalanalyse oder Mittel für die Bestimmung algebraischer Invarianten verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel für eine Karhunen-Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Optimierung der Bestimmung algebraischer Invarianten anhand einer Karhunen-Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) verwendet werden. Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass entweder: ein Gain der nichtlinearen inversen Kodierung denselben Faktor eines beim Downmix verwendeten Gain aufweist oder ein Vielfaches dieses Gain darstellt; oder:

mindestens einer der beiden Gains (60001, 60002) der nichtlinearen inversen Kodierung denselben Faktor eines beim Downmix verwendeten Gain aufweist oder ein

Vielfaches dieses Gain darstellt.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass zur

Optimierung eines oder mehrerer Parameter der

nichtlinearen inversen Kodierung Mittel zur Optimierung anhand der zugehörigen linearen inversen Kodierung verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur unmittelbaren Optimierung von ein oder mehreren

Parametern der nichtlinearen inversen Kodierung

verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Optimierung von ein oder mehreren Parametern der nichtlinearen oder zugehörigen linearen inversen

Kodierung anhand des Korrelationsgrades r verwendet werden . Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Optimierung von ein oder mehreren Parametern der nichtlinearen oder zugehörigen linearen inversen Kodierung anhand einer Zielkorrelation k verwendet werden .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Bestimmung der Beschaffenheit des Signals verwendet werden .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Bestimmung von Sprache oder vokalen Signalen oder Transienten verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Festlegung der Zielkorrelation k anhand der

Beschaffenheit des Signals verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel verwendet werden, um für eine nichtlineare inverse Kodierung entweder: bei Sprach- oder Vokalaufnahmen eine Zielkorrelation k > +0.51 festzulegen; oder:

bei Transienten eine Zielkorrelation k > +0.25

festzulegen; oder:

bei sonstigen Signalen eine Zielkorrelation k > 0.00 festzulegen .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel verwendet werden, um für die einer nichtlinearen zugehörige lineare inverse Kodierung entweder:

bei Sprach- oder Vokalaufnahmen eine Zielkorrelation k > +0.66 festzulegen; oder:

bei Transienten eine Zielkorrelation k > +0.40

festzulegen; oder:

bei sonstige Signale eine Zielkorrelation k > 0.00 festzulegen . Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein

Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass für eine nichtlineare oder zugehörige lineare inverse Kodierung Mittel zu deren Optimierung verwendet werden, die ihrerseits einen Signalabschnitt kleiner gleich 40ms verwenden .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass für eine nichtlineare oder zugehörige lineare inverse Kodierung Mittel zu deren Optimierung verwendet werden, die ihrerseits Mittel zur Gewichtung der fiktiven

Öffnungswinkel α bzw. ß verwenden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Optimierung von einem oder mehreren Parametern einer nichtlinearen oder zugehörigen linearen inversen

Kodierung anhand der Hauptreflexionen oder der

Hallfahne verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Pegelkorrektur von Signalen anhand der jeweiligen Lautsprecherpositionen verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass ein

Panorama-Potentiometer verwendet wird.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Variation des Gain (717) mit dem Faktor λ verwendet werden .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass

unterschiedliche Lautsprecherabstände durch wenigstens einen Gain und wenigstens einen Delay kompensiert werden .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass Mittel zur Speicherung oder Übertragung von einem oder mehreren Parametern einer nichtlinearen oder zugehörigen

linearen inversen Kodierung verwendet werden.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass diese gegenüber einem Mehrkanal-Signal weniger Ausgangskanäle aufweist .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass diese gegenüber einem Audiosignal mehr Ausgangskanäle

aufweist .

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass die

Signalwiedergabe nicht anhand einer

Lautsprecheranordnung erfolgt, welche dem Format des jeweiligen Signals entspricht.

Ein Ausführungsbeispiel zeigt eine Vorrichtung/ein Verfahren zur nichtlinearen inversen Kodierung eines Audiosignals, dadurch gekennzeichnet, dass entweder: Mittel zur Wellenfeldsynthese verwendet werden; oder: Mittel für Head Related Transfer Functions (HRTFs) oder Binaural Room Impulse Responses (BRIRs) verwendet werden .

BESCHREIBUNG DER ABBILDUNGEN

Verschiedene Ausführungsformen der vorliegenden

Erfindung werden im folgenden beispielhaft beschrieben, wobei auf folgende Zeichnungen Bezug genommen wird:

• FIG. 1 zeigt die Lautsprecheranordnung des Formats Hamasaki 22.2 des japanischen Sender NHK.

• FIG. 2 zeigt das Beispiel einer Downmix-Matrix für das Format Hamasaki 22.2.

• FIG. 3 zeigt eine Lautsprecheranordnung für ein

12.1 Signal, welche eine Teilmenge der

Lautsprecheranordnung für Hamasaki 22.2 darstellt.

• FIG. 4 zeigt das Beispiel einer Downmix-Matrix für ein 12.1 Signal. Dieses stellt wiederum eine

Teilmenge der Lautsprechersignale für Hamasaki

22.2 dar .

• FIG. 5 zeigt das Beispiel einer Schaltung für die nichtlineare inverse Kodierung eines Audiosignals.

• FIG. 6 zeigt ein weiteres Beispiel einer Schaltung für die nichtlineare inverse Kodierung eines

Audiosignals, wobei l₂.

• FIG. 7 stellt eine Matrix zur Extraktion von

Signalen mittels Korrelationsvergleiches anhand des in FIG. 2 dargestellten Downmix dar.

• FIG. 8 zeigt ein (auf FIG. 7 folgendes) weiteres Beispiel der Extraktion eines Signals mittels Korrelationsvergleiches . FIG. 9 zeigt eine (auf FIG. 8 folgende) Normierung von Signalen anhand bekannter Pegel des originalen Multikanal-Signals .

FIG. 10 zeigt eine (auf FIG. 9 folgende)

approximative Wiedergewinnung von Signalen anhand der Substraktion gewonnener benachbarter Signale, deren Pegel zuvor um -3dB korrigiert wurden.

FIG. 11 zeigt die (auf FIG. 10 folgende) Matrix zweier nichtlinearer inverser Kodierungen.

FIG. 12 zeigt die (auf FIG. 11 folgende)

abschliessende Normalisierung der anhand zweier nichtlinearer inverser Kodierungen gewonnenen Signale .

FIG. 13 zeigt den Dämpfungsverlauf eines zum Stand der Technik gehörigenden Panorama-Potentiometers. Dieser Dämpfungsverlauf kann in der Multikanal- Kodierung auch als Grundlage für die Berechung von Pegelkorrekturen herangezogen werden.

FIG. 14 zeigt das zweite Beispiel einer Matrix zur Extraktion von Signalen mittels

Korrelationsvergleiches anhand des in FIG. 4 dargestellten Downmix.

FIG. 15 zeigt eine Normierung von (in FIG. 14) gewonnenen Signalen anhand bekannter Pegel von Summensignalen .

FIG. 16 zeigt eine (auf FIG. 15 folgende)

approximative Wiedergewinnung von Signalen anhand der Substraktion näherungsweise gewonnener

Summensignale, deren Pegel zuvor um -3dB

korrigiert wurden.

FIG. 17 zeigt die (auf FIG. 16 folgende) Matrix zweier nichtlinearer inverser Kodierungen. • FIG. 18 zeigt die (auf FIG. 17 folgende)

abschliessende Normalisierung von je zwei anhand zweier nichtlinearer inverser Kodierungen

gewonnenen Signalen.

· FIG. 19 zeigt das Blockdiagramm einer Schaltung zur Optimierung linearer oder nichtlinearer inverser Kodierungen.

• FIG. 20 zeigt beispielhaft die Header-Information sowie den Downmix für ein - anhand einer

nichtlinearen inversen Kodierung - komprimiertes

12.1 Signal .

• FIG. 21 zeigt die Downmix-Matrix für den Downmix von 3/2-Quellmaterial gemäss ITU-R BS.775-1, Table 2.

DETAILLIERTE BESCHREIBUNG

Betrachtet wird in der Folge eine Anordnung, die

Hamasaki 22.2 oder einer Teilmenge dieser Anordnung entspricht (siehe FIG. 1) . Diese Anordnung ist

beispielhaft zu verstehen, da der Erfindungsgegenstand sich auf jedes beliebige Multikanalsystem mit drei oder mehr Lautsprechern in beliebiger Position anwenden lässt .

In einem ersten Schritt wird eine Downmix-Matrix definiert, die unterschiedlichste technische Mittel enthalten kann (so beispielsweise jene, welche Faller und Schlllebeeckx, siehe oben, beschreiben) und in funktionaler Abhängigkeit von einer Signalanalyse des jeweiligen Multikanal-Signals (beispielsweise etwa mittels der zum Stand der Technik gehörenden Karhunen- Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) oder mittels algebraischer Invarianten gemäss EP1850629, WO2009138205, WO2011009649,

WO2011009650, WO2012016992 und WO2012032178) bestimmt bzw. optimiert werden kann (wir sprechen in der Folge von einem „adaptiven Downmix") oder a priori

(beispielsweise analog zu Table 2 von ITU-R BS.775-1, siehe FIG. 21) festgelegt wird (wir sprechen in der Folge von einem „automatischen Downmix") .

Eine technische Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält, ist ebenfalls möglich. Aufgrund der Unzahl möglicher adaptiver oder

automatischer Downmix-Matrizen sowie technischer

Kombinationen von Elementen eines adaptiven Downmix und Elementen eines automatischen Downmix (für Hamasaki 22.2 beträgt diese - bei der reichlich theoretischen Betrachtung von einheitlichen Signalpegeln - für n Downmix-Kanäle beispielsweise bereits

22!

(22 - )\ ' wobei - bei zusätzlicher Betrachtung unterschiedlicher Pegel für die summierten Signale - bereits unendlich viele Möglichkeiten resultieren) , müssen wir uns mit FIG. 2 auf das Beispiel eines Downmixes für Hamasaki 22.2 beschränken, der aus insgesamt vier Stereosignalen mit folgender Lautsprecheranordnung besteht (siehe FIG. 1): FL' -FR', BL' -BR' , TpFL' -TpFR' , TpBL' -TpBR' . Die dargestellte Matrix ist in gleicher Weise wie die aus dem Stand der Technik bekannte Matrix der FIG. 21 zu lesen, wobei allerdings die Zeilen als Spalten und umgekehrt die Spalten als Zeilen zu lesen sind.

Insbesondere wird in vorliegendem Beispiel TpC mit um -6dB verringertem Pegel (was einer Multiplikation des Signalpegels mit dem Faktor 0.5 entspricht) jeweils TpFL' , TpFR' , TpBL' und TpBR' zugemischt, was bei

Wiedergabe des Downmix zum psychoakustischen Phänomen der Lokalisation eines solchen Lautsprechers TpC führt (im folgenden deshalb "fiktiver TpC" genannt) ; gleiches Wirkungsprinzip lässt sich, teilweise unter Verwendung anderer Pegelunterschiede, auch auf andere Lautsprecher anwenden (im folgenden deshalb "fiktive Lautsprecher" genannt, siehe auch unten) .

Für eine Extraktion mittels Korrelationsvergleiches, von der im folgenden des öfteren die Rede sein wird, werden beispielsweise die Kurzzeit-Kreuzkorrelation

für das Interval [-Γ,Γ] sowie die Signale x(t), y(t) betrachtet, und werden nur jene korrelierten

Signalanteile von x(t) und y(t) extrahiert, für welche r = +1 gilt .

Da nur benachbarte Lautsprecher Phantomschallquellen erzeugen, lassen sich mittels Korrelationsvergleich beispielsweise näherungsweise auch BtFL, BtFC und BtFR als BtFL^*, BtFC^* und BtFR^* extrahieren:

Hierzu wird zuerst BtFC mit um -3dB verringertem Pegel jeweils BtFL' und BtFR' zugemischt. BtFL' wird sodann mit um -3dB verringertem Pegel jeweils FL' und BR' zugemischt, und BtFR' sodann mit um -3dB verringertem Pegel jeweils FR' und BL' zugemischt. BtFL stellt dann näherungsweise den korrelierten Anteil von FL' und BR' , BtFR näherungsweise der korrelierte Anteil von FR' und BL' dar, und BtFC näherungsweise den korrelierten

Anteil der beiden zuletzt genannten korrelierten

Anteile . Problematisch stellen sich bei einem solchen Vorgehen nur jene korrelierten Anteile dar, die vor unserem Downmix in FL, BR sowie FR und BL bereits enthalten waren und somit mit extrahiert und ausschliesslich auf BtFL*, BtFR* sowie BtFC* verlagert würden.

Gleiches gilt übrigens für jedes mittels

Korrelationsvergleiches extrahierte Signal, was zum Grundproblem der grundsätzlichen Unmöglichkeit einer absoluten Rekonstruktion eines Signals höherer Ordnung aus einem Signal niedrigerer Ordnung ausschliesslich mittels Korrelationsvergleiches führt. Hier vermag die nichtlineare inverse Kodierung völlig neue Perspektiven zu eröffnen! Eine Milderung des Problems lässt sich herbeiführen, sofern beispielsweise die absoluten Pegel der vorgängig vorhandenen oder schrittweise gewonnenen Signale bekannt sind, und sich somit, da der Korrelationsgrad für die fraglichen Signalanteile in jedem Falle +1 beträgt, Rückschlüsse auf den jeweiligen Pegel der korrelierten Signalanteile in allen betroffenen Kanälen ziehen lassen:

So ermöglicht etwa der korrelierte Signalanteil mit absolutem Pegel p von BtFL, der jeweils FL' (mit bekanntem absoluten Pegel p₂) und BR' (mit bekanntem absoluten Pegel p₃) mit dem absoluten Pegel p — 3dB zugemischt wurde, seine näherungsweiser Extraktion mittels Korrelationsvergleiches, wobei nunmehr das resultierende Signal BtFL^* den absoluten Pegel p

aufweist und dessen Subtraktion mit dem absoluten Pegel -L— 3dB von FL' mit dem absoluten Pegel p₂ bzw. dessen Subtraktion mit dem absoluten Pegel p — 3dB von BR' mit dem absoluten Pegel p₃ den jeweilig resultierenden Kanälen - allerdings nur näherungsweise - die

ursprünglichen korrelierten Signalanteile erhält. Ebenso ermöglicht etwa der korrelierte Signalanteil mit absolutem Pegel p₄ von BtFR, der jeweils FR' (mit bekanntem absoluten Pegel p₅) und BIZ (mit bekanntem absoluten Pegel p₆) mit dem absoluten Pegel p₄— 3dB zugemischt wurde, seine näherungsweiser Extraktion mittels Korrelationsvergleiches, wobei nunmehr das resultierende Signal BtFR^* den absoluten Pegel p₄ aufweist und dessen Subtraktion mit dem absoluten Pegel p — 3dB von FR' mit dem absoluten Pegel p₅ bzw. dessen Subtraktion mit dem absoluten Pegel p₄— 3dB von BL' mit dem absoluten Pegel p₆ den jeweilig resultierenden Kanälen - allerdings nur näherungsweise - die

ursprünglichen korrelierten Signalanteile erhält. BtFC wird anschliessend durch den

Korrelationsvergleich von BtFL^* und BtFR^* extrahiert.

Insbesondere kann eine Downmix-Matrix dem Umstand

Rechnung tragen, dass der erzielte Downmix sich

unmittelbar als Signal niedrigerer Ordnung auf einer spezifischen Lautsprecheranordnung wiedergeben lässt:

Wird beispielsweise ein 12.1 Signal betrachtet, das eine Teilmenge der Lautsprecher für Hamasaki 22.2 darstellt (FL, FC, FR, LFE2, SiL, SiR, BL, BR, TpFL, TpFR, TpBL, TpBR, TpC; siehe FIG. 3), und dessen

Downmix ein 7.1 Surround-Signal sein soll, lässt sich in gleicher Weise wie in obigem Beispiel ein fiktiver TpC definieren.

Insbesondere werden TpFL und TpBL mit jeweils um -3dB verringertem Pegel summiert und die resultierende Summe mit jeweils um -3dB verringertem Pegel jeweils FL' und BL' zugemischt. In gleicher Weise werden TpFR und TpBR mit jeweils um -3dB verringertem Pegel summiert und die resultierende Summe mit jeweils um -3dB verringertem Pegel jeweils FR' und BR' zugemischt.

Die zugehörige Downmix-Matrix ist FIG. 4 zu entnehmen.

Während bei Surround 7.1 nunmehr üblicherweise die korrelierten Anteile von FL und BL bzw. von FR und BR auf SiL bzw. SiR zu liegen kommen, liegt bei der vorliegenden Downmix-Matrix nunmehr die Summe von je zwei Lautsprechern des Top Layer auf FL' und BL' bzw. FR' und BR' des Middle Layer, was insbesondere der psychoakustischen Tatsache optimiert Rechnung trägt, dass die Lautsprecher des Top Layer vorteilhaft

indirekten Schall wiedergeben, und der resultierende Downmix diesen nunmehr auf die sich bevorzugt dafür eignenden Lautsprecher verlagert - und sich somit ebenso vorteilhaft unmittelbar auf einem 7.1 Surround- System wiedergeben lässt.

Anderseits lässt sich die Summe von TpFL, TpBL und TpC bzw. die Summe von TpFR, TpBR und TpC unschwer mit oben beschriebenem Korrelationsvergleich von FL' und BL' bzw. FR' bzw. BR' näherungsweise extrahieren. Dies ist für die jeweilige inverse Kodierung dieser Summen

(siehe unten) und somit für die approximative

Rekonstruktion der Signale für TpFL^* und TpBL^* bzw.

TpFR^* und TpBR^* von ausschlaggebender Bedeutung.

Beide dargestellten Downmix-Matrizen stellen konkrete Beispiele dar, die sich an ITU-R BS.775-1 orientieren; andere Pegelkorrekturen als -3dB und -6dB sind, wie leicht einzusehen ist, jedoch unschwer möglich und im konkreten Fall wünschenswert.

Derartig veränderte Pegelkorrekturen können

beispielsweise auftreten, wenn asymmetrische Winkel - bei Multimedia-Anwendungen etwa aufgrund der

Berücksichtigung einer optimalen Stereobasis für FLc, FRc bei vergrössertem Bildschirm - für die jeweilige Lautsprecherkonfiguration auftreten, oder ein adaptiver Downmix (siehe oben) oder auch eine technische

Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält, angewandt werden. Dickreiter (Michael Dickreiter: Handbuch der

Tonstudiotechnik. Band I. - Saur: München 1987) zeigt auf Seite 375 den Dämpfungsverlauf eines zum Stand der Technik gehörigenden Panorama-Potentiometers (siehe FIG. 13) . Dieser Dämpfungsverlauf kann auch als

Grundlage für die Errechnung der oben erwähnten, veränderten Pegelkorrekturen herangezogen werden. Während beispielsweise bei einem Winkel von 30° zwischen FC und FLc, wobei der Winkel zwischen FL und FC 60° beträgt, FLc sowohl FC als auch FL mit jeweils -3dB zugemischt wird (Position 0°), wird beispielsweise bei einem vergrössterten Winkel von 45° zwischen FC und FLc, wobei der Winkel zwischen FL und FC wiederum 60° beträgt, FLc nunmehr FC mit -7dB zugemischt sowie FL mit -ldB zugemischt (Position 15° = 45° - 30°) .

Bei ausschliesslicher Wiedergabe der so gewonnenen Signale FC und FL' wird somit die Phantomschallquelle eines fiktiven FLc gebildet. Zugleich lässt sich durch Extraktion mittels Korrelationsvergleiches bei

bekannten Pegelkorrekturen vorgängig vorhandener oder schrittweise gewonnener Signale FLc wiederum unschwer näherungsweise errechen und FC sowie FL vor jeweiliger Zumischung von FLc wiederum näherungsweise herstellen. Dieses Prinzip lässt sich verallgemeinert auf eine beliebige Anzahl benachbarter Lautsprecher ausdehnen (siehe auch obige Ausführungen zum „fiktiven

Lautsprecher") . Im weiteren ermöglicht es,

Lautsprecherpositionen nachträglich zu verändern

(„Flexible Rendering") . Unter Verwendung der inversen Kodierung ist im übrigen ebenfalls ein solches Flexible Rendering möglich; in diesem Falle wird beispielsweise der Gain 717 der FIG. 5 bzw. 6 bei vergrössertem Lautsprecherabstand

proportional erhöht bzw. bei verringertem

Lautsprecherabstand proportional erniedrigt.

Unterschiedliche Lautsprecherabstände lassen sich zudem durch entsprechende Gains und Delays kompensieren, sodass unschwer einzusehen ist, dass Signale für beliebige Anordnungen von wenigstens drei Lautsprechern sich aus einem gegebenen beliebigen Signal beliebiger Ordnung ableiten lassen, dies unter Verwendung

folgender Prinzipien:

• die Summierung von Signalen,

• die Anwendung von Pegelkorrekturen für jeweils summierte Signale,

• die Extraktion von Signalen mittels

KorrelationsVergleiches ,

• die Anwendung von Pegelkorrekturen für vorgängig vorhandene oder schrittweise gewonnene Signale,

• die Normierung von gewonnenen Signalen anhand

bekannter Pegel vorgängig vorhandener oder schrittweise gewonnener Signale,

• die Gewinnung weiterer Signale anhand der

jeweiligen Subtraktion vorgängig vorhandener oder schrittweise gewonnener Signale jeweils mit oder ohne Pegelkorrekturen,

• die Gewinnung von Signalen anhand von inverser Kodierung, • die Anpassung des Pegels weiterer Kanäle an die Pegel vorgängig vorhandener oder schrittweise gewonnener Signale,

• gegebenenfalls die Korrektur unterschiedlicher

Lautsprecherabstände mittels Gains und Delays,

• die Gewinnung weiterer Signale aus vorgängig

vorhandenen oder schrittweise gewonnenen Signalen.

Nichtlineare inverse Kodierung

Ein wesentliches Merkmal der nichtlinearen inversen Kodierung beruht auf der unerwarteten, entgegen

bisheriger Erfahrung festgestellten Tatsache, dass es zwar einerseits möglich ist, einen mit beliebigen technischen Mitteln erzeugten Downmix einer linearen inversen Kodierung zu unterwerfen, um gegenüber dem Downmix ein Signal höherer Ordnung zu erzeugen,

andererseits die durch lineare inverse Kodierung erzeugten Audiokanäle in unterschiedlichen Pegeln wiederzugeben, wobei diese Pegel aus den beim

automatischen oder adaptiven Downmix verwandten Pegeln ganz oder teilweise abgeleitet sein können, oder auch ganz oder teilweise unabhängig von diesen bestimmt werden können. Alternativ dazu kann die Optimierung der nichtlinearen inversen Kodierung eines mit beliebigen technischen Mitteln erzeugten Downmix bereits anhand ihrer unterschiedlich ausgesteuerten Ausgangskanäle stattfinden .

In beiden Fällen lassen sich anhand eines automatischen oder adaptiven Downmix oder auch einer technischen Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält, neuerlich Signale höherer Ordnung errechnen, was einerseits die effiziente Einbettung von Signalen höherer Ordnung in Signale niedrigerer Ordnung

ermöglicht (die als Downmix idealerweise unmittelbar wiedergegeben werden können) , oder - sofern die

Anforderungen an die Rechenleistung des dekodierenden Systems sich so gestalten, dass nur wenig

Rechenkapazität für die Dekodierung und Wiedergabe von Audiodaten zur Verfügung steht - dennoch qualitativ hochwertige Multikanal-Signale wiedergegeben werden können .

Eine solche Wiedergabe kann über eine

Lautsprecheranordnung, die dem Wiedergabeformat des resultierenden Multikanal-Signals entspricht, über eine Lautsprecheranordnung, die ein solches Wiedergabeformat simuliert (beispielsweise mittels der zum Stand der Technik gehörenden - auf dem Prinzip von Huygens beruhenden - Wellenfeldsynthese) oder auch so über Kopfhörer oder Lautsprecher erfolgen, dass in diesem Falle die Lautsprecherpositionen mittels aus dem Stand der Technik bekannten Head Related Transfer Functions (HRTFs) oder binauralen Raumimpulsen (Binaural Room Impulse Responses , BRIRs) simuliert werden.

Das Beispiel einer erfindungsgemässen Grundschaltung zur nichtlinearen inversen Kodierung ist in FIG. 5 abgebildet, welche sich durch die Nachschaltung

wenigstens eines Gains (50001) im linken oder rechten

Ausgangskanal kennzeichnet. FIG. 6 zeigt dahingegen die Nachschaltung zweier unterschiedlicher Gains (60001, 60002), die sich beispielsweise für die nichtlineare inverse Kodierung von komplexen Multikanal-Signalen als äusserst vorteilhaft erweisen. Für die grundsätzliche Funktionsweise beider Schaltungen wird, abgesehen von eben genannten, in FIG. 5 und FIG. 6 dargestellten Gains (50001, 60001, 60002), auf EP1850629,

WO2009138205, WO2011009649, WO2011009650, WO2012016992 und WO2012032178 verwiesen.

Der Einfachheit halber verwenden wir im Folgenden für je einen Ausgangskanal einer nichtlinearen inversen Kodierung gemäss FIG. 5 bzw. FIG 6 die Bezeichnung

, wobei bei fehlendem Gain mit dem Faktor l_j im jeweiligen Ausgangskanal /_[(l) geschrieben wird.

Desgleichen bezeichnen wir jene Kanäle, anhand derer eine Extraktion mittels Korrelationsvergleiches

stattfindet, mit „k=+l". Wird das Ergebnis

abschliessend anhand bekannter Pegel vorgängig

vorhandener oder schrittweise gewonnener Signale normiert, bezeichnen wir diesen Vorgang mit „absl". Wird ein Kanal an ein derartig normiertes Signal so angeglichen, dass einerseits deren Pegelverhältnisse erhalten bleiben sollen, und anderseits der Gain l_j von in Bezug auf den nunmehrigen Pegel dieses Kanals für diesen wirksam sein soll, schreiben wir

Das Beispiel einer nichtlinearen inversen Kodierung, hier anhand der in FIG. 2 dargestellten Downmix-Matrix, stellen mit obigen Vorbemerkungen die in numerisch aufsteigender Reihenfolge sukzessive auszuführenden Matrizen der FIG. 7 bis FIG. 12 dar. Diese Matrizen sind analog zur in FIG. 2 dargestellten und oben erläuterten Downmix-Matrix zu lesen, dies unter

Einbindung der oben erläuterten Bezeichnungen /_[(//) bzw. „k=+l", „absl" sowie FIG. 7 veranschaulicht die Extraktion mittels

Korrelationsvergleiches von FL' und FR' , woraus FC resultiert, von FL' und BL' , woraus Sil/ resultiert, von FR' und BR' , woraus SiR' resultiert, von BL' und BR' , woraus BC resultiert, von TpFL' und TpFR' , woraus TpFC resultiert, von TpFL' und TpBL', woraus TpSiL' resultiert, von von TpFR' und TpBR' , woraus TpSiR' resultiert, von TpBL' und TpBR' , woraus TpBC

resultiert, von FL' und BR' , woraus BtFL' resultiert, und schliesslich von FR' und BL' , woraus BtFR'

resultiert.

FIG. 8 veranschaulicht den Korrelationsvergleich zwischen BtFL' und BtFR', woraus BtFC' resultiert. FC' , Sil/ , SiR' , BC' , TpFC , TpSiL' , TpSiR' , TpBC ,

BtFC werden in FIG. 9 abschliessend auf die bekannten Pegel der gleichnamigen Originalsignale normiert.

Diese normierten Signale FC^*, Sil/, SiR^*, BC^*, TpFC^*, TpSiL^*, TpSiR^*, TpBC^*, BtFC^* werden nunmehr mit wiederum um -3dB verringertem Pegel von den jeweilig

benachbarten Signalen desselben Layers subtrahiert, womit sich gemäss FIG. 10 FL'', FR'', BL^*, BR^*, TpFL^*, TpFR^*, TpBL^*, TpBR^*, BtFL^* und BtFR^* ergeben.

FIG. 11 veranschaulicht nunmehr die nichtlineare inverse Kodierung von FL' ' , womit sich FL' ' ' und FLc' ergeben. FLc' erscheint mittels eines Gain um den Faktor 0.7071 verstärkt. Ebenso findet eine

nichtlineare inverse Kodierung von FR' ' statt, womit sich FR''' und FRc' ergeben. FRc' erscheint ebenfalls mittels eines Gain um den Faktor 0.7071 verstärkt.

In FIG. 12 werden abschliessend FL''' und FR''' auf die bekannten Pegel der gleichnamigen Originalsignale normiert, womit sich abschliessend FL^* und FR^* ergeben. Die Kanäle FLc' und FRc' werden sodann an die derartig normierten Signale FL^* und FR^* so angeglichen, dass sämtliche Pegelverhältnisse der nichtlinearen inversen Kodierung erhalten bleiben (somit die Gains jeweils mit dem Faktor 0.7071 in Bezug auf den nunmehrigen Pegel dieser Kanäle für diese wirksam bleiben) , und ergeben nunmehr abschliessend FLc^* und FRc^*.

Die demnach für diese nichtlineare inverse Kodierung verwandten Mittel bzw. Methodiken umfassen wiederum:

• die Summierung von Signalen,

• die Anwendung von Pegelkorrekturen für jeweils summierte Signale,

• die Extraktion von Signalen mittels

KorrelationsVergleiches ,

• die Normierung von gewonnenen Signalen anhand

bekannter Pegel vorgängig vorhandener oder

schrittweise gewonnener Signale,

• die Gewinnung weiterer Signale anhand der

• die Gewinnung von Signalen anhand von inverser

Kodierung,

• die Anpassung des Pegels weiterer Kanäle an die Pegel vorgängig vorhandener oder schrittweise gewonnener Signale,

• gegebenenfalls die Korrektur unterschiedlicher

Lautsprecherabstände mittels Gains und Delays (siehe oben) ,

• die Gewinnung weiterer Signale aus vorgängig

vorhandenen oder schrittweise gewonnenen Signalen.

Aus FIG. 5 und FIG. 6 lässt sich im weiteren für das obige Beispiel eines dreidimensionalen Systems 12.1 (welches eine Teilmenge des Systems Hamasaki 22.2 darstellt) unschwer das Beispiel einer zugehörigen nichtlinearen inverse Dekodierung eines Downmix-Signals gemäss FIG. 4 ableiten, wobei wiederum mit obigen

Vorbemerkungen in numerisch aufsteigender Reihenfolge sukzessive die Matrizen der FIG. 14 bis FIG. 18

auszuführen sind. Diese Matrizen sind analog zur in FIG. 4 dargestellten und oben erläuterten Downmix- Matrix zu lesen, dies wiederum unter Einbindung der oben erläuterten Bezeichnungen bzw. /[(I), „k=+l",

„absl" sowie ^(Z)^*.

FIG. 14 stellt die näherungsweise Extraktion der oben beschriebenen Summe TpL' von TpFL, TpBL und TpC mittels Korrelationsvergleiches von FL' und BL' dar und ebenso die näherungsweise Extraktion der oben beschriebenen Summe TpR' von TpFR, TpBR und TpC mittels

Korrelationsvergleiches von FR' und BR' .

Gemäss FIG. 15 wird TpL' anschliessend am

ursprünglichen Pegel der Summe von TpFL, TpBL und TpC normiert und ergibt TpL' ' . Ebenso wird TpR' gleichfalls am ursprünglichen Pegel der Summe von TpFR, TpBR und TpC normiert und ergibt TpR' ' .

In FIG. 16 wird nunmehr TpL'' mit um -3dB verringertem Pegel jeweils von FL' und BL' subtrahiert, womit sich abschliessend FL^* und BL^* ergeben. Ebenso wird TpR'' mit um -3dB verringertem Pegel jeweils von FR' und BR' subtrahiert, womit sich abschliessend FR^* und BR^* ergeben .

FIG. 17 veranschaulicht nunmehr die nichtlineare inverse Kodierung von TpL' ' , womit sich TpFL' ' und TpBL'' ergeben. TpBL'' erscheint mittels eines Gain um den Faktor 0.7071 verstärkt. Ebenso findet eine

nichtlineare inverse Kodierung von TpR' ' statt, womit sich TpFR'' und TpBR'' ergeben. TpBR'' erscheint ebenfalls mittels eines Gain um den Faktor 0.7071 verstärkt .

In FIG. 18 werden abschliessend TpFL'' und TpFR'' auf die bekannten Pegel der gleichnamigen Originalsignale normiert, womit sich abschliessend TpFL^* und TpFR^* ergeben. Die Kanäle TpBL'' und TpBR'' werden sodann an die derartig normierten Signale TpFL^* und TpFR^* so angeglichen, dass sämtliche Pegelverhältnisse der nichtlinearen inversen Kodierung erhalten bleiben

(somit die Gains jeweils mit dem Faktor 0.7071 in Bezug auf den nunmehrigen Pegel dieser Kanäle für diese wirksam bleiben) , und ergeben nunmehr abschliessend TpBL^* und TpBR^* .

Insbesondere finden wiederum die oben beschriebenen Prinzipien eines fiktiven TpC Anwendung.

Insgesamt umfassen die für diese nichtlineare inverse Kodierung verwandten Mittel bzw. Methodiken wiederum:

• die Summierung von Signalen,

• die Anwendung von Pegelkorrekturen für jeweils summierte Signale,

• die Extraktion von Signalen mittels

KorrelationsVergleiches ,

• die Normierung von gewonnenen Signalen anhand

bekannter Pegel vorgängig vorhandener oder schrittweise gewonnener Signale,

• die Gewinnung weiterer Signale anhand der

• die Gewinnung von Signalen anhand von inverser Kodierung,

• gegebenenfalls die Korrektur unterschiedlicher Lautsprecherabstände mittels Gains und Delays (siehe oben) , • die Gewinnung weiterer Signale aus vorgängig vorhandenen oder schrittweise gewonnenen Signalen.

Approximation bestehender Multikanal-Signale mittels linearer oder nichtlinearer inverser Dekodierung

Es ist naheliegend, vor einer linearen oder

nichtlinearen inversen Dekodierung ausgehend, deren Parameter so zu bestimmen, dass eine möglichst hohe Approximation des resultierenden Signals an das

ursprüngliche Multikanal-Signal erreicht wird.

Derartige Signal-Approximationen anhand einer linearen inversen Kodierung sind bereits mit den referentiellen Dokumenten EP1850629, WO2009138205, WO2011009649,

WO2011009650, WO2012016992 und WO2012032178

ausführlichst behandelt worden.

Für sämtliche beschriebenen Approximationen oder

Optimierungen wird im folgenden für den Fall einer Approximation oder Optimierung anhand einer

nichtlinearen inversen Kodierung stillschweigend vorausgesetzt, dass neben den bekannten Parametern der zugehörigen linearen inversen Kodierung sich auch die Gains (50001, 60001, 60002) der FIG. 5 und FIG. 6 in diese Approximation oder Optimierung einbeziehen lassen. So sind beispielsweise in FIG. 1B von

WO2012016992 jeweils in L und R jeweils ein Gain (60001 und 60002) gemäss der FIG. 6 der vorliegenden Anmeldung zu setzen und anstelle von „new φ or f or α or ß"

vielmehr „new φ or f or α or ß or Ii or I₂" zu setzen. In einem ersten Schritt wird der automatische oder adaptive Downmix oder auch eine technische Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält, definiert, und werden anhand dieses Downmix oder dieser technischen Kombination jene Signale gebildet, welche die

Eingangssignale der jeweiligen nichtlinearen inversen Kodierung darstellen. In einem zweiten Schritt wird anhand der Kurzzeit- Kreuzkorrelation jeweils der Korrelationsgrad r jener originalen Signalpaare bestimmt, welche in der Folge durch nichtlineare inverse Kodierung approximiert werden sollen. Es sei hierzu auf WO2011009649, Seite 12 (Zeile 7) bis Seite 13 (Zeile 10), sowie auf

WO2011009650, Seite 17 (Zeile 16) bis Seite 19 (Zeile 8 ) , verwiesen .

Sofern es sich um diskrete Signale handelt, kann dieser Korrelationsgrad r negativ sein oder in einer Umgebung von 0 liegen. Dies würde bei einer inversen Kodierung, die von einem einkanaligen Eingangssignal ausgeht, zu einem zwar stark dekorrelierten Signal, jedoch bei Transienten, Stimm- oder Vokalaufnahmen zugleich zu starken Artefakten führen.

Es ist demnach in einem dritten Schritt zielführend, die in WO2011009650 (beispielsweise FIG. 1)

dargestellte Zielkorrelation k so nach oben zu

korrigieren, dass Artefakte möglichst vermieden werden.

Eine solche Korrektur ist von der Art des Signals abhängig. Als ein Richtwert für die artefaktfreie lineare inverse Kodierung beispielsweise von Sprache oder vokalen Darbietungen ist k > +0.66 anzunehmen, für die artefaktfreie lineare inverse Kodierung

beispielsweise von Musik oder Geräuschen mit starken Transienten k > +0.40 und für artefaktfreie lineare inverse Kodierung beispielsweise von Musik oder

Geräuschen ohne starke Transienten k > 0.00.

Die technische Bestimmung, zu welcher Kategorie ein invers zu kodierendes Audiosignal zu zählen ist, ist

Stand der Technik, und es wird deshalb nicht weiter auf diese eingegangen. In der Regel wird es genügen, die menschliche Stimme sowie starke Transienten zu

detektieren, und für Werte des jeweiligen

Korrelationsgrades r unterhalb der genannten

Untergrenzen ebendiese Untergrenze für die

Zielkorrelation k festzusetzen.

So wird in der linearen inversen Kodierung

beispielsweise für ein vokales Signal mit dem

Korrelationsgrad r = +0.45 die zugehörige

Zielkorrelation mit der genannten Untergrenze k = +0.66 festgesetzt, für ein Signal mit Transienten, welches den Korrelationsgrad r = +0.15 aufweist, die zugehörige Zielkorrelation mit der genannten Untergrenze k = 0.40, und für ein sonstiges Signal mit dem Korrelationsgrad r =—0.15 die zugehörige Zielkorrelation mit der

genannten Untergrenze fc = 0.00. Liegt der Korrelationsgrad r eines Signal bestimmter Beschaffenheit oberhalb der für es opportunen Untergrenze, gilt hingegen für die Zielkorrelation k = r.

Die genannten Untergrenzen gelten wie erwähnt

insbesondere für die lineare inverse Kodierung. In der nichtlinearen inversen Kodierung können bei Signalen etwa der Ordnung 7 (beispielsweise Surround 7.1, sofern der LFE-Kanal nicht mitgezählt wird) oder höher die genannten Untergrenzen für die spezifischen Signaltypen auch um einen Wert zwischen -0.10 bis -0.15

herabgesetzt werden, ohne dass genannte Artefakte schlussendlich auftreten.

Das linear oder nichtlinear invers kodierte Signal wird anschliessend so optimiert, dass sein anhand der

Kurzzeit-Kreuzkorrelation bestimmter Korrelationsgrad r mit der festgelegten Zielkorrelation k übereinstimmt.

Es sei hierzu nochmals auf WO2011009649, Seite 12

(Zeile 7) bis Seite 13 (Zeile 10), sowie auf

WO2011009650, Seite 17 (Zeile 16) bis Seite 19 (Zeile

8 ) , verwiesen .

In einem optionalen vierten Schritt wird die Lage der Phantomschallquellen beim originalen Signalpaar bzw. beim zu optimierenden, linear oder nichtlinear invers kodierten Signal etwa mit der zum Stand der Technik gehörenden Karhunen-Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) bestimmt - oder auch dessen algebraische Invarianten gemäss EP1850629, WO2009138205, WO2011009649, WO2011009650, WO2012016992 und WO2012032178. Eine Kombination der soeben genannten Verfahren ist ebenfalls möglich. So lässt sich etwa auf einem Signalabschnitt von beispielsweise 40ms des originalen Signalpaars zuerst eine Karhunen-Loeve-Transformation (KLT) ausführen, anhand derer dann gezielt die in WO2012016992 auf Seite 4 (Zeile 22) bis Seite 5 (Zeile 2) genannte Verknüpfung A(t) oder mehrere Verknüpfungen /i^A(t), ₂ ^A(t), ..., f_p ^A (t) von mindestens zwei Signalen 5₁(t), s₂(t), ···_/ ^sm( bzw. von deren Transferfunktionen t^s^t) , t₂(s₂(t)),

tm(^sm( ) oder auch die beliebig definierbare Abbildung #( oder die beliebig definierbaren Abbildungen /i#(t), 2#( ' · · ·/ / #( ^von einem Signal s#(t) oder mehreren Signalen s₁#(t), s₂#(t), s_/2#(t) - auf der komplexen

Zahlenebene betrachtet bzw. deren Projektion auf das Relief, das durch die Norm aller Punkte der komplexen Zahlenebene definiert ist (den Einheitskegel, dessen

Spitze im Ursprung der komplexen Zahlenebene liegt und dessen Symmetrieachse lotrecht zur komplexen

Zahlenebene liegt) - beispielsweise so mehrfach

definiert und anschliessend parallel zueinander betrachtet werden, dass jeweils eine der

Hauptkomponenten der Karhunen-Loeve-Transformation eine Teilmenge der in WO2012016992 auf Seite 7 (Zeilen 17 bis 22) bzw. auf Seite 10 (Zeilen 11 bis 20)

beschriebenen Ebene darstellt.

Anschliessend werden die algebraischen Invarianten des originalen Signalpaars bzw. zu optimierenden, linear oder nichtlinear invers kodierten Signals gemäss

WO2012016992, Seite 10 (Zeile 21) bis Seite 12 (Zeile 3) bestimmt und beispielsweise gemäss den Figuren zu WO2012016992, ausführlich beschrieben von Seite 19 (Zeile 1) bis Seite 78 (Zeile 15), optimiert. In WO2012016992 (FIG. 1B, FIG. 3A, FIG. 4A, FIG. 5A, FIG. 6A, FIG. 7A, FIG. 7B, FIG. 8A) lässt sich jeweils optional unmittelbar in L oder R ein Gain gemäss FIG. 5 oder FIG. 6 der vorliegenden Anmeldung einfügen und somit unmittelbar das bereits nichtlinear invers kodierte Signal optimieren.

Das jeweils betrachtete originale Signalpaar bzw. das zu optimierende, linear oder nichtlinear invers

kodierte Signal lässt sich in einem optionalen fünften Schritt hinsichtlich der Hauptreflexionen sowie der Hallfahne betrachten bzw. optimieren. Hierfür reicht im allgemeinen ein Signalausschnitt von 40ms aus, um die Latenz der gesamten Kodierung entsprechend niedrig zu halten und dennoch sämtliche wesentlichen Parameter zu erfassen .

Ab Seite 28 (Zeile 14) wird bis Seite 36 (Zeile 8) in WO2012032178 die technische Umsetzung einer solchen räumlichen Optimierung beschrieben, welche einem idealen Äquivalent des genannten fünften Schrittes entspricht . Ein Blockschaltbild genannter Optimierungsschritte zeigt FIG. 19.

Alle genannten Schritte lassen sich in veränderter Reihenfolge oder ganz oder teilweise in anders

kombinierten Teilschritten durchführen - oder können auch als solche ganz oder teilweise weggelassen werden. Neben der eben genannten Optimierung können zusätzlich oder alternativ auch eine oder mehrere der in EP1850629 oder WO2009138205 oder WO2011009649 oder WO2011009650 oder WO2012016992 oder WO2012032178 beschriebenen

Optimierungen angewendet werden.

So lässt sich beispielsweise zur Optimierung des vorerst linear invers kodierten Signals (sodass sein anhand der Kurzzeit-Kreuzkorrelation bestimmter

Korrelationsgrad r mit der festgelegten Zielkorrelation k übereinstimmt) vorteilhaft der in WO2012032178 von Seite 25 (Zeile 5) bis Seite 28 (Zeile 13) beschriebene Algorithmus zur Gewichtung der fiktiven Öffnungswinkel α und ß bei zuvor festgelegter Zielkorrelation k als zusätzlicher Bestandteil des dritten Schritts einfügen. Es ist dann nur noch das geeignete Gewicht p zu

bestimmen, bevor der vierte und fünfte Schritt

ausgeführt werden. In einer alternativen, vereinfachten technischen Lösung ersetzt derselbe Algorithmus zugleich ganz den vierten und fünften Schritt. In der Praxis lassen sich so bei einer abschliessenden nichtlinearen inversen Kodierung unter Beibehaltung der Parameter der linearen inversen Kodierung mit einer derartigen Anordnung bereits hervorragende Ergebnisse erzielen.

Interessanterweise liefert demnach die Optimierung anhand einer linearen inversen Kodierung ganz

erstklassige Ergebnisse, sofern bei der anschliessenden nichtlinearen inversen Kodierung die Parameter der linearen inversen Kodierung unter Hinzufügung eines Gain (50001) gemäss FIG. 5 oder unter Hinzufügung von Gains (60001, 60002) gemäss FIG. 6 beibehalten werden. Dies ist auf die Tatsache zurückzuführen, dass das menschliche Gehör bei wachsender Kanalanzahl die

Transparenz weniger hinsichtlich der absoluten Lage der Phantomschallquellen als vielmehr hinsichtlich der Energiedichte des Schallfeldes beurteilt, und

insbesondere bei zunehmender Anzahl der

punktförmiger Schallquellen, gegenüber der Wahrnehmung von Phantomschallquellen zwischen den Lautsprechern überwiegt, auf die eine veränderte Wahl der Parameter der inversen Kodierung, welche vielmehr die absolute Lage der Phantomschallquellen auf der Stereobasis zwischen zwei Lautsprechern definiert, selbst keinen wesentlichen Einfluss mehr ausübt.

Dieser Sachverhalt stellt eine deutliche Vereinfachung des Gesamtsystems dar, denn gegenüber einer

nichtlinearen inversen Kodierung weist die lineare inverse Kodierung insbesondere den Vorteil einer homogenen Stereobasis auf, die eine Optimierung - insbesondere hinsichtlich Korrelationsgrad, Lage der Phantomschallquellen und der Hauptreflexionen sowie der Hallfahne - wesentlich erleichtert.

Parameter der nichtlinearen inversen Kodierung eines Multikanal-Signals mit oder ohne Base Audio Coder

Aus dem automatischen oder adaptiven Downmix oder auch einer technischen Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält, sowie aus der oben geschilderten Approximation bestehender Multikanal-Signale mittels linearer oder nichtlinearer inverser Kodierung lässt sich ein - hinsichtlich der Bandbreite des originalen Multikanal-Signals - wesentlich reduziertes Datenformat für ebendieses Multikanal-Signal ableiten, welches neben dem - eventuell mit Base Audio Coders

komprimierten - Downmix im einzelnen folgende

Informationen enthalten kann:

• Struktur der Downmixmatrix (beispielsweise FIG.

4) ,

• Absolute Pegel der originalen als auch der

schrittweise im Downmix generierten Signale

(beispielsweise in FIG. 20 mit pi, p₂, ···, p_n bezeichnet) ;

• Form und Parameter der jeweils verwendeten

inversen Kodierungen (beispielsweise alle Gains und Delays gemäss FIG. 5, die mit jeder inversen Kodierung Ji, J₂ variieren können) ,

• Struktur des Decoders und Form der Dekodierung

(beispielsweise FIG. 14, FIG. 15, FIG. 16. FIG. 17, FIG. 18);

• Gegebenenfalls Art der verwendeten Base Audio

Coders (beispielsweise in FIG. 20 HE-AAC und

HE-AAC v2), die Form der Enkodierung sowie die jeweils zugehörigen Bitraten.

Es ist unschwer einzusehen, dass diese Daten, die in optimierter Darstellung äusserst geringe Bitraten aufweisen, anders als die aus dem Stand der Technik bekannten permanenten Spatial Bitrates ausschliesslich als Header-Information oder (zur erhöhten Sicherheit) auch als Datenpuls gespeichert oder übertragen werden können. Die Verstärkungsfaktoren, Pegel und/oder die anderen Parameter für die nichtlineare inverse

Kodierung können für jeden Signalabschnitt (z.B. jede Sekunde) einmal übertragen werden. (Die permanente Übertragung, beispielsweise auf ein Sample oder einen Frame oder dessen Abschnitte bezogen, obgleich

unpraktisch, ist selbstverständlich ebenfalls möglich, insbesondere, wenn sich die Pegel der Ausgangskanäle einer inversen Kodierung über den zeitlichen Verlauf hinweg, etwa aufgrund der Anwendung eines adaptiven Downmix, verändern sollen.)

Das konkrete Beispiel eines solchen möglichen

Datenformats zeigt FIG. 20.

Loudness-Korrektur eines anhand einer nichtlinearen inversen Kodierung gewonnenen Multikanal-Signals mit oder ohne Base Audio Coder und Dynamic Range Control (DRC)

Tatsächlich ist es wünschenswert, die Pegel der

Ausgangskanäle eines anhand einer nichtlinearen inversen Kodierung gewonnenen Multikanal-Signals um einen einheitlichen Wert anzuheben oder zu verringern, um denselben subjektiven Lautheitseindruck zu erzeugen wie beim ursprünglichen Multikanal-Signal vor der nichtlinearen inversen Kodierung. Diese Anhebung oder Verringerung des Gesamtpegels kann beispielsweise anhand der absoluten Pegel von originalen oder von schrittweise im Downmix generierten Signalen erfolgen oder anhand von Messungen oder Berechnungen der subjektiv wahrgenommenen Lautheit („Loudness"), beispielsweise anhand von Methodiken, wie sie ITU-R BS .1770-3 : 2012 beschreibt. Eine solche Anhebung oder Verringerung kann zeitlich konstant erfolgen oder im zeitlichen Ablauf stetig oder nicht-stetig angepasst werden.

Diese Anhebung oder Verringerung des Gesamtpegels kann insbesondere die Besonderheiten eines Base Audio Coder berücksichtigen, der auf den subjektiven

Lautheitseindruck eines Multikanal-Signals wesentlichen Einfluss ausüben kann.

Ebenso können auf ein Multikanal-Signal die Methodiken eines sogenannten Dynamic Range Control (DRC) angewandt werden, das unter einer Unzahl von Gesichtspunkten auf die Aussteuerung eines Multikanalsignals so Einfluss nimmt, dass der Zuhörer ein optimiertes Ergebnis wahrnimmt . Ableitung von beliebigen Signalen höherer oder

niedrigerer Ordnung aus einem Multikanal-Signal

Nach obigen Ausführungen ist leicht einzusehen, dass aus einem beliebiges Multikanal-Signal ein Signal höherer Ordnung mit beliebiger Lautsprecheranordnung abgeleitet werden kann, da nichtvorhandene Kanäle beispielsweise mittels linearer oder nichtlinearer inverser Kodierung sich anhand bestehender oder

generierter Lautsprechersignale ableiten lassen.

Ebenso ist leicht einzusehen, dass aus einem beliebigen Multikanal-Signal sich ein Signal niedrigerer Ordnung mit beliebiger Lautsprecheranordnung gewinnen lässt, da vorhandene Kanäle mittels eines automatischen oder adaptiven Downmix - oder einer technische Kombination, die sowohl Elemente eines adaptiven als auch Elemente eines automatischen Downmix enthält - reduziert werden können, und für die Bestimmung der jeweiligen

Signalpegel vorgängig vorhandener oder schrittweise gewonnener Signale der Dämpfungsverlauf eines zum Stand der Technik gehörigen Panorama-Potentiometers verwendet werden kann. Die Anwendung einer linearen oder

nichtlinearen inversen Kodierung zur Optimierung der jeweils abgebildeten Phantomschallquellen und der

Energiedichte des Schallfeldes ist dabei ebenfalls denkbar .

Zusammenfassend kann folgendes festgehalten werden. Unter „inverser Kodierung" und insbesondere „linearer inverser Kodierung" wird ein technischer Vorgang beschrieben, der räumliche Audiosignale durch die spezifische Anwendung von funktional voneinander abhängigen Gains und Delays generiert. Insbesondere kann eine solche „inverse Kodierung" oder „lineare inverse Kodierung" ein Summierungselement , eine MS- Matrix und einen diesem Summierungselement

nachgeschalteten Gain oder zwei, der MS-Matrix

nachgeschaltete Panorama-Potentiometer enthalten.

Eine „nichtlineare inverse Kodierung" kennzeichnet sich durch die vordergründig nicht zweckmässige zusätzliche Nachschaltung wenigstens eines Gain (50001) im linken oder auch im rechten Ausgangskanal einer Anordnung für eine „inverse Kodierung" oder „lineare inverse

Kodierung" . Die Erfindung ist nicht auf das beschriebene

Ausführungsbeispiel beschränkt, sondern alle im

Schutzbereich der Erfindung liegenden

Ausführungsbeispiele sind Teil der Erfindung.

Anstelle der nichtlinearen inversen Kodierung in der Upmixvorrichtung in Anspruch 31 kann alternativ auch eine lineare inverse Kodierung oder andere Verfahren der Pseudostereophonisierung verwendet werden.

Eine Verstärkung im Sinne der Ansprüche kann sowohl einen Verstärkungsfaktor grösser oder kleiner 1 bedeuten, d.h. eine Verstärkung im Sinne der Erfindung kann auch eine Abschwächung bedeuten.

Zwei Signale, die auf einem Multikanalsignal basieren, können sowohl direkt zwei Kanäle des Multikanalsignals sein oder eines (oder beide) der zwei Signale kann (können jeweils) auf der Kombination von zwei Kanälen des Multikanalsignals basieren. Das gleiche gilt für Signale, die auf einem Downmixsignal basieren.

Der Begriff der Kodierung beinhaltet den Begriff der Enkodierung als auch der Dekodierung.

Der Begriff des Upmix umschreibt die Bildung einer höheren Anzahl von Kanälen aus einer geringeren Anzahl von Kanälen. Der Begriff des Downmix umschreibt die Bildung einer geringeren Anzahl von Kanälen aus einer höheren Anzahl von Kanälen.

Claims

PATENTA S PRÜCHE

1. Upmix- oder Kodiervorrichtung eines Audiosignals aufweisend :

eine inverse Kodierungsvorrichtung zur

Bestimmung eines ersten Kanals und eines zweiten Kanals durch lineare inverse Kodierung aus einem

Eingangs signal ;

gekennzeichnet durch

einen der inversen Kodierungsvorrichtung in dem ersten Kanal nachgeschalteten ersten Gain (50001); oder einen der inversen Kodierungsvorrichtung in dem ersten Kanal nachgeschalteten ersten Gain (60001) und einen der inversen Kodierungsvorrichtung in dem zweiten Kanal nachgeschalteten zweiten Gain (60002), der sich von dem ersten Gain (60001) unterscheidet.

2. Upmix- oder Kodiervorrichtung nach Anspruch 1 ausgebildet, den mit dem ersten Gain (50001, 60001) verstärkten ersten Kanal ohne Kombination mit dem zweiten Kanal auszugeben oder weiterzuverarbeiten, und/oder den mit dem zweiten Gain (60002) verstärkten zweiten Kanal ohne Kombination mit dem ersten Kanal auszugeben oder weiterzuverarbeiten.

3. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 2, wobei der erste Gain (50001, 60001) und/oder der zweite Gain (60002) in Abhängigkeit zumindest eines Parameters eines Downmixes, welcher zur Erzeugung des Eingangskanals verwendet wurde, gewählt sind/ist .

4. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 2, aufweisend eine

Optimierungsvorrichtung ausgebildet, den Wert des ersten Gains (50001, 60001) und/oder des zweiten Gains (60002) in Abhängigkeit des ersten Kanals und/oder des zweiten Kanals einzustellen.

5. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 3, wobei der erste Gain (50001, 60001) und/oder der zweite Gain (60002) fest eingestellt ist.

6. Upmix- oder Kodiervorrichtung nach Anspruch 5, wobei der Wert des ersten Gains (50001, 60001) 0.5 oder

1/V2 entspricht.

7. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 6, aufweisend eine der inversen

Kodierungsvorrichtung und dem ersten Gain in dem ersten Kanal und dem zweiten Kanal nachgeschalteten

Pegelkorrekturvorrichtung, die ausgebildet ist, die Pegel des ersten Kanals und des zweiten Kanals in

Abhängigkeit zumindest eines Parameters eines

Downmixes, welcher zur Erzeugung des Eingangskanals verwendet wurde, oder in Abhängigkeit eines empfangenen Pegels anzupassen.

8. Upmix- oder Kodiervorrichtung nach Anspruch 3, 5, 6 oder 7,

wobei das Eingangssignal aus zwei Signalen, die auf einem Multikanalsignal basieren, durch gewichtete Addition erzeugt ist, und der zumindest eine Parameter des Downmixes der Gewichtung der zwei Signale oder der Ausgangssignale entspricht.

9. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1, 2, 3 oder 7, aufweisend eine

Empfangsvorrichtung zum Empfangen des Eingangssignals und eines ersten Werts und/oder eines zweiten Werts, wobei der erste Gain nach dem empfangenen ersten Wert und/oder der zweite Gain nach dem empfangenen zweiten Wert eingestellt werden/wird.

10. Upmix- oder Kodiervorrichtung nach einem der

Ansprüche 1 bis 9, wobei die inverse

Kodierungsvorrichtung ausgebildet ist, auf der Basis von mit dem Eingangssignal empfangenen Parametern den ersten Kanal und den zweiten Kanal zu bestimmen.

11. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 10, wobei die inverse

Kodierungsvorrichtung ausgebildet ist, auf der Basis eines Winkels zwischen einer Schallquelle und einer Hauptachse eines Mikrophons, eines fiktiven linken

Öffnungswinkels, eines fiktiven rechten Öffnungswinkels und einer Richtcharakteristik für das Eingangssignal zumindest einen ersten Gain der inversen

Kodiervorrichtung und zumindest einen Delay der

inversen Kodiervorrichtung zu bestimmen, und ein erstes Zwischensignal und ein zweites Zwischensignal auf der Basis des mindestens einen Delays und des zumindest einen Gain der inversen Kodiervorrichtung zu bestimmen, und den ersten Kanal und den zweiten Kanal auf der Basis des ersten Zwischensignals und des zweiten

Zwischensignals zu bestimmen.

12. Upmix- oder Kodiervorrichtung nach Anspruch 11, wobei die inverse Kodierungsvorrichtung ausgebildet ist, auf der Basis zumindest eines Gewichtungsfaktors den ersten Kanal und den zweite Kanal jeweils durch gewichtete Addition und/oder gewichtete Subtraktion des ersten und zweiten Zwischensignals zu erzeugen.

13. Upmix- oder Kodiervorrichtung nach Anspruch 11 oder 12, wobei die inverse Kodiervorrichtung

ausgebildet ist, zwei Delays auf der Basis des Winkels zwischen der Schallquelle und der Hauptachse des

Mikrophons, des linken Öffnungswinkels, des rechten Öffnungswinkels und der Richtcharakteristik zu

bestimmen und diese zwei Delays durch einen gemeinsamen Zeitfaktor (s) zu korrigieren.

14. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 11 bis 13, wobei der Winkel zwischen der Schallquelle und der Hauptachse des Mikrophons, der linke Öffnungswinkel, der rechte Öffnungswinkel

und/oder die Richtcharakteristik konstant sind.

15. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 14, aufweisend eine

Optimierungsvorrichtung zum Bestimmen eines geeigneten Werts für den ersten Gain (50001, 60001) und/oder für den zweiten Gain (60002) und/oder für Parameter der linearen inversen Kodierung.

16. Upmix- oder Kodiervorrichtung nach Anspruch 15, wobei die Optimierungsvorrichtung ausgebildet ist, den Korrelationsgrad der aus dem Downmix rekonstruierten zwei Kanäle oder der dem Downmix zugrundeliegenden zwei Signale zu bestimmen, und den Wert des ersten Gains (50001, 60001) und/oder des zweiten Gains (60002) und/oder der Parameter der linearen inversen Kodierung in Abhängigkeit des Korrelationsgrads zu bestimmen.

17. Upmix- oder Kodiervorrichtung nach Anspruch 16, wobei die Optimierungsvorrichtung ausgebildet ist, den Wert des ersten Gains (50001, 60001) und/oder des zweiten Gains (60002) und/oder der Parameter der linearen inversen Kodierung in Abhängigkeit eines

Zielkorrelationsgrads zu bestimmen.

18. Upmix- oder Kodiervorrichtung nach Anspruch 19, wobei die Optimierungsvorrichtung ausgebildet ist, den Zielkorrelationsgrad anhand der Beschaffenheit der zwei Kanäle, der Beschaffenheit des ersten Downmixkanals , der Beschaffenheit der dem ersten Downmixkanal

zugrundeliegenden zwei Signale und/oder anhand der Beschaffenheit der Kanäle des dem ersten Downmixkanals zugrundeliegenden Multikanalsignals zu bestimmen.

19. Upmix- oder Kodiervorrichtung nach Anspruch 18, wobei der Zielkorrelationsgrad

für Sprach- oder Vokalaufnahmen grösser gleich plus Nullkommafünfeins (>+0,51) ist, insbesondere grösser gleich plus Nullkommasechssechs (>+0,66), und/oder

für Transienten grösser gleich plus

Nullkommazweifünf (>0,25) ist, insbesondere grösser gleich plus Nullkommavier (>0,40) ist, und/oder

bei sonstigen Signalen grösser gleich minus Nullkommafünfzehn (>—0,15) ist, insbesondere grösser gleich Null (>0) .

20. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 15 bis 19, wobei die Optimierungsvorrichtung eine Vergleichsvorrichtung aufweist zum Vergleichen der zwei Kanäle mit den dem ersten Downmixkanal

zugrundeliegenden zwei Signale zum Bestimmen eines geeigneten Werts für den ersten Gain (50001, 60001) und/oder für den zweiten Gain (60002) und/oder für Parameter der linearen inversen Kodierung.

21. Upmix- oder Kodiervorrichtung nach einer der Ansprüche 1 bis 20, wobei Mittel zur Bestimmung der Lage von Phantomschallquellen verwendet werden.

22. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 21, wobei Mittel für eine Signalanalyse oder Mittel für die Bestimmung algebraischer

Invarianten verwendet werden.

23. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 22, wobei Mittel für eine Karhunen- Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) verwendet werden.

24. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 23, wobei Mittel zur Optimierung der Bestimmung algebraischer Invarianten anhand einer

Karhunen-Loeve-Transformation (KLT) oder Principal Component Analysis (PCA) verwendet werden.

25. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 24, wobei Mittel zur Optimierung von einem oder mehreren Parametern einer nichtlinearen oder zugehörigen linearen inversen Kodierung anhand einer der Hauptreflexionen oder der Hallfahne verwendet werden .

26. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 25, wobei Mittel zur Pegel- und

Zeitkorrektur von Signalen anhand der jeweiligen

Lautsprecherpositionen verwendet werden.

27. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 26, wobei entweder Mittel zur

Wellenfeldsynthese oder Mittel für Head Related

Transfer Functions (HRTFs) oder Mittel für Binaural Room Impulse Responses (BRIRs) verwendet werden.

28. Kodiervorrichtung eines Audiosignals

aufweisend :

einen Downmixer zum Erzeugen eines Downmixkanals durch gewichtete Addition zweier Signale, die auf einem Multikanalsignal basieren,

gekennzeichnet durch,

eine Optimierungsvorrichtung zum Bestimmen einer für eine Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 27 geeigneten Wert für den ersten Gain (50001, 60001) und/oder den zweiten Gain (60002) .

29. Kodiervorrichtung nach Anspruch 28, wobei die Optimierungsvorrichtung eine Upmix- oder

Kodiervorrichtung nach einem der Ansprüche 1 bis 27 zum Rekonstruieren der zwei Signale aus dem Downmixsignal zur Bestimmung des geeigneten Werts aufweist.

30. Kodiervorrichtung nach Anspruch 28 oder 29, wobei die Optimierungsvorrichtung ausgebildet ist, die Gewichtung der zwei Signale für den ersten Downmixkanal zu optimieren.

31. Speichermittel aufweisend ein Downmixsignal, basierend auf einem Multikanalsignal , gekennzeichnet durch einen Wert für einen ersten Gain für eine Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 27.

32. Speichermittel nach Anspruch 31, weiter

aufweisend Pegel von Kanälen des Multikanalsignals oder Pegel von Kanälen des Downmixsignals .

33. System aufweisend:

Kodiervorrichtung zum Erzeugen eines

Downmixkanals auf der Basis zweier Signale, die auf einem Multikanalsignal basieren,

gekennzeichnet durch

Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 27 ausgebildet zum Rekonstruieren der zwei Signale aus dem ersten Downmixkanal.

34. System nach Anspruch 33, wobei die

Kodierungsvorrichtung eine Kodierungsvorrichtung nach einem der Ansprüche 28 bis 30 ist.

35. Verfahren zum Upmixen oder Kodieren eines Audiosignals aufweisend die Schritte: Bestimmung eines ersten Kanals und eines zweiten Kanals durch lineare inverse Kodierung aus einem

Eingangssignal ;

gekennzeichnet durch

Multiplikation des ersten Kanals mit einem ersten Gain (50001); oder

Multiplikation des ersten Kanals mit einem ersten Gain (60001) und des zweiten Kanals mit einem zweiten Gain (60002), der sich von dem ersten Gain (60001) unterscheidet.

36. Verfahren zum Kodieren eines Audiosignals aufweisend die Schritte:

Erzeugen eines ersten Downmixkanals durch gewichtete Addition zweier Signale, die auf einem

Multikanalsignal basieren,

gekennzeichnet durch,

Bestimmen einer für ein Upmixen oder Kodieren nach Anspruch 26 geeigneten Wert für den ersten Gain (50001, 60001) und/oder den zweiten Gain (60002) .

37. Computerprogram ausgebildet, bei Ausführung auf einem Prozessor, die Schritte eines Verfahrens nach Anspruch 35 oder 36 auszuführen.

38. Upmix- oder Kodiervorrichtung zum Upmixen eines Downmixsignals mit einer ersten Anzahl von Kanälen auf ein Multikanalsignal mit einer grösseren zweiten Anzahl an Kanälen, aufweisend:

Korrelationsvergleichsvorrichtung zum Erzeugen mindestens eines Zwischenkanals aus mindestens zwei Kanälen, die auf Kanälen des Downmixsignals basieren, durch Extrahieren der korrelierten Anteile der zwei Kanäle,

Ausgabevorrichtung zum Erzeugen des

Multikanalsignal auf der Basis der Kanäle des

Downmixsignals und der Zwischenkanäle;

gekennzeichnet durch

eine Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 27 zum Erzeugen zumindest eines weiteren Kanals durch nicht lineare inverse Kodierung auf der Basis des Zwischenkanals oder eines der zwei Kanäle .

39. Upmix- oder Kodiervorrichtung nach Anspruch 38, wobei die Korrelationsvergleichsvorrichtung ausgebildet ist, das mindestens eine Zwischensignal an einen empfangenen Pegel anzupassen.

40. Upmix- oder Kodiervorrichtung nach Anspruch 38 oder 39, wobei die Korrelationsvergleichsvorrichtung ausgebildet ist, einen Kanal des Downmixsignals durch den Zwischenkanal zu korrigieren.

41. Upmix- oder Kodiervorrichtung nach einem der Ansprüche 38 bis 40, wobei das Downmixsignal vier

Kanäle einer ersten Ebene mit einem vorderen rechten, einem hinteren rechten, einem hinteren linken und einem vorderen linken Kanal aufweist, und die

Korrelationsvergleichsvorrichtung ausgebildet ist, aus den vier Kanälen des Downmixsignals einen vorderen zentralen, einen hinteren zentralen, einen linken zentralen und einen rechten zentralen Kanal zu bilden.

42. Upmix- oder Kodiervorrichtung nach Anspruch 41, wobei die Upmix- oder Kodiervorrichtung nach einem der Ansprüche 1 bis 20 ausgebildet ist, einen Kanal zwischen dem vorderen zentralen und dem vorderen linken Kanal aus dem vorderen linken Kanal zu bilden und/oder einen Kanal zwischen dem vorderen zentralen und dem vorderen rechten Kanal aus dem vorderen rechten Kanal zu bilden.