DE602004001868T2 - Verfahren zum bearbeiten komprimierter audiodaten zur räumlichen wiedergabe - Google Patents

Verfahren zum bearbeiten komprimierter audiodaten zur räumlichen wiedergabe Download PDF

Info

Publication number
DE602004001868T2
DE602004001868T2 DE602004001868T DE602004001868T DE602004001868T2 DE 602004001868 T2 DE602004001868 T2 DE 602004001868T2 DE 602004001868 T DE602004001868 T DE 602004001868T DE 602004001868 T DE602004001868 T DE 602004001868T DE 602004001868 T2 DE602004001868 T2 DE 602004001868T2
Authority
DE
Germany
Prior art keywords
matrix
signals
filter
space
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE602004001868T
Other languages
English (en)
Other versions
DE602004001868D1 (de
Inventor
Abdellatif Benjelloun Touimi
Marc Emerit
Jean-Marie Pernaux
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of DE602004001868D1 publication Critical patent/DE602004001868D1/de
Application granted granted Critical
Publication of DE602004001868T2 publication Critical patent/DE602004001868T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die Erfindung betrifft eine Verarbeitung von Tondaten für eine raumangepasste Wiedergabe akustischer Signale.
  • Das Auftreten neuer Datencodierformate in den Telekommunikationsnetzwerken ermöglicht die Übertragung von komplexen und strukturierten Tonszenen, die viele Tonquellen aufweisen. Im Allgemeinen sind diese Tonquellen raumangepasst, d.h. dass sie so verarbeitet werden, dass sie bezüglich der Position der Quellen und der Raumwirkung (Hall) eine realistische Endwiedergabe liefern. Dies ist zum Beispiel beim Codieren gemäß der Norm MPEG-4 der Fall, die es ermöglicht, komprimierte oder nicht komprimierte Töne und synthetische Töne enthaltende, komplexe Tonszenen zu übertragen, denen Raumanpassungsparameter zugeordnet sind (Position, Wirkung des umgebenden Raums). Diese Übertragung erfolgt über Netze mit Zwängen, und die Tonwiedergabe hängt vom Typ des verwendeten Endgeräts ab. Zum Beispiel verwendet man bei einem mobilen Endgerät vom Typ PDA (für "Personal Digital Assistant") vorzugsweise einen Kopfhörer. Die Zwänge dieser Art von Endgeräten (Rechenleistung, Speichergröße) erschwert die Verwendung von Techniken der Raumanpassung des Tons.
  • Die Ton-Raumanpassung deckt zwei Typen von verschiedenen Verarbeitungen ab. Ausgehend von einem monophonen Audiosignal versucht man, einem Hörer die Illusion zu verleihen, dass die Tonquelle(n) sich an ganz präzisen Positionen im Raum befinden (die man in Echtzeit verändern können möchte), und in einen Raum versenkt sind, der besondere akustische Eigenschaften hat (Hall oder andere akustische Phänomene wie die Okklusion). Bei Telekommunikations-Endgeräten vom mobilen Typ ist es zum Beispiel selbstverständlich, eine Tonwiedergabe mit einem Stereo-Kopfhörer vorzusehen. Die wirksamste Technik der Positionierung der Tonquellen ist dann die binaurale Synthese.
  • Sie besteht für jede Tonquelle darin, das monophone Signal durch akustische Übertragungsfunktionen zu filtern, die HRTFs (aus dem Englischen "Head Related Transfer Functions") genannt werden und die vom Rumpf, dem Kopf und der Ohrmuschel des Hörers erzeugten Umwandlungen auf ein Signal modellisieren, das von einer Tonquelle stammt. Für jede räumliche Position kann man ein Paar dieser Funktionen messen (eine für das rechte Ohr, eine für das linke Ohr). Die HRTFs sind also Funktionen einer räumlichen Position, genauer eines Azimutwinkels θ und eines Elevationswinkels φ, und der Tonfrequenz f. Man erhält dann für ein gegebenes Subjekt eine Datenbank akustischer Übertragungsfunktionen von N Positionen des Raums für jedes Ohr, in denen ein Ton "sich befinden" (oder gemäß der nachfolgend verwendeten Terminologie "raumangepasst werden") kann.
  • Es wird angemerkt, dass eine ähnliche Raumanpassungsverarbeitung aus einer so genannten "transauralen" Synthese besteht, bei der einfach mehr als zwei Lautsprecher in einer Wiedergabevorrichtung vorgesehen werden (die dann eine andere Form als ein Kopfhörer mit zwei Ohrenklappen, einer linken und einer rechten, hat).
  • Üblicherweise erfolgt die Anwendung dieser Technik in "Zweikanal"-Form (eine Verarbeitung, die schematisch in 1 dargestellt ist, die sich auf den Stand der Technik bezieht). Für jede gemäß dem Paar aus Azimut- und Elevationswinkel [θ,φ] zu positionierende Tonquelle wird das Signal der Quelle durch die HRTF-Funktion des linken Ohrs und durch die HRTF-Funktion des rechten Ohrs gefiltert. Die beiden Kanäle, der linke und der rechte, liefern akustische Signale, die dann mit einem Stereo-Kopfhörer an den Ohren des Hörers gesendet werden. Diese binaurale Zweikanal-Synthese ist vom nachfolgend "statisch" genannten Typ, da in diesem Fall die Positionen der Tonquellen sich nicht in der Zeit entwickeln.
  • Wenn man dagegen die Positionen der Tonquellen im Raum im Lauf der Zeit verändern möchte ("dynamische" Synthese), müssen die Filter, die zur Modellisierung der HRTFs (linkes Ohr und rechtes Ohr) verwendet werden, verändert werden. Da die meisten dieser Filter aber vom Typ mit endlicher Impulsantwort (FIR) oder mit unendlicher Impulsantwort (IIR) sind, treten Probleme von Diskontinuitäten der linken und rechten Ausgangssignale auf, die hörbare "Clicks" erzeugen. Die üblicherweise verwendete technische Lösung, um diesem Problem abzuhelfen, besteht darin, zwei Sätze von binauralen Filtern parallel drehen zu lassen. Der erste Satz simuliert eine Position [θ1,φ1] im Zeitpunkt t1, der zweite eine Position [θ2,φ2] im Zeitpunkt t2. Das Signal, das die Illusion einer Verschiebung zwischen den Positionen in den Zeitpunkten t1 und t2 erzeugt, wird dann durch eine Überblendung des linken und des rechten Signals erhalten, die aus den Filterungsprozessen für die Position [θ1,φ1] und für die Position [θ2,φ2] entsteht. So wird die Komplexität des Systems zur Positionierung der Tonquellen im Vergleich mit dem statischen Fall verdoppelt (zwei Positionen in zwei Zeitpunkten).
  • Um dieses Problem zu beheben, wurden Techniken der linearen Zerlegung der HRTFs vorgeschlagen (eine Verarbeitung, die in 2 bezüglich des Stands der Technik schematisch dargestellt ist). Einer der Vorteile dieser Techniken ist es, dass sie eine Anwendung ermöglichen, deren Komplexität wesentlich weniger von der Gesamtanzahl von im Raum zu positionierenden Quellen abhängt. Diese Techniken ermöglichen es nämlich, die HRTFs auf einer Basis von allen Positionen des Raums gemeinsamen und daher nur von der Frequenz abhängenden Funktionen zu zerlegen, was es ermöglicht, die Anzahl der notwendigen Filter zu reduzieren. So ist die Anzahl dieser Filter festgelegt, unabhängig von der Anzahl von Quellen und/oder von der Anzahl von vorzusehenden Quellenpositionen. Das Hinzufügen einer zusätzlichen Tonquelle fügt dann nur Multiplikationsoperationen mit einem Satz von Gewichtungskoeffizienten und mit einer Verzögerung τi hinzu, wobei diese Koeffizienten und diese Verzögerung nur von der Position [θ,φ] abhängen. Es ist also kein zusätzliches Filter notwendig.
  • Diese Techniken der linearen Zerlegung sind auch im Fall der dynamischen binauralen Synthese (d.h., wenn die Position der Tonquellen sich im Lauf der Zeit verändert) vorteilhaft. In dieser Konfiguration verändert man nämlich nicht mehr der Koeffizienten der Filter, sondern die Werte der Gewichtungskoeffizienten und der Verzögerungen nur in Abhängigkeit von der Position. Das oben beschriebene Prinzip der linearen Zerlegung der Tonwiedergabefilter verallgemeinert sich auf andere Vorgehensweisen, wie man nachfolgend sehen wird.
  • Außerdem werden bei den verschiedenen Gruppen-Kommunikationsdiensten (Telekonferenz, Audiokonferenz, Videokonferenz oder andere) oder der Kommunikation "im kontinuierlichen Strom" (aus dem Englischen "STREAMING") zur Anpassung eines Binärdurchsatzes an die Breite des von einem Netz bereitgestellten Durchlassbands die Audio- und/oder Sprachströme in einem komprimierten codierten Format übertragen. Nachfolgend werden nur Ströme berücksichtigt, die ursprünglich von Codierern von Frequenztyp (oder durch Frequenztransformation) komprimiert werden, wie diejenigen, die gemäß der Norm MPEG-1 (Layer I-II-III), der Norm MPEG-2/4 AAC, der Norm MPEG-4 TwinVQ, der Norm Dolby AC-2, der Norm Dolby AC-3 oder auch einer Norm UIT-T G.722.1 in Sprachcodierung, oder auch dem Codierverfahren TDAC der Anmelderin arbeiten. Die Verwendung solcher Codierer führt dazu, zunächst eine Zeit/Frequenz-Umwandlung an Blöcken des Zeitsignals durchzuführen. Die erhaltenen Parameter werden anschließend quantifiziert und codiert, um in einem Rahmen mit anderen, für die Decodierung notwendigen komplementären Informationen übertragen zu werden. Diese Zeit/Frequenz-Umwandlung kann die Form einer Filterbank in Frequenzunterbändern oder auch einer Transformation vom Typ MDCT (für "Modified Discrete Cosinus Transform") annehmen. Nachfolgend werden mit dem gleichen Begriff "Bereich der Unterbänder" ein in einem Raum von Frequenzunterbändern definierter Bereich, ein Bereich eines frequenzumgewandelten zeitlichen Raums oder ein Frequenzbereich bezeichnet.
  • Um die Ton-Raumanpassung an solchen Strömen durchzuführen, besteht die klassische Methode darin, zunächst eine Decodierung auszuführen, die Ton-Raumanpassungsverarbeitung an den Zeitsignalen durchzuführen und dann die daraus entstehenden Signale für eine Übertragung zu einem Wiedergabe-Endgerät erneut zu codieren. Diese mühsame Folge von Schritten ist häufig sehr teuer bezüglich der Rechenleistung, des für die Verarbeitung notwendigen Speichers und der eingeführten algorithmischen Verzögerung. Sie ist daher oft nicht an die von den Maschinen, in denen die Verarbeitung stattfindet, auferlegten Zwänge und an die Kommunikationszwänge angepasst.
  • Zum Beispiel beschreibt die Druckschrift US-6,470,087 eine Vorrichtung zur Wiedergabe eines komprimierten akustischen Mehrkanalsignals auf zwei Lautsprechern. Alle Berechnungen werden im ganzen Frequenzband des Eingangssignals durchgeführt, das daher vollständig decodiert werden muss.
  • Die vorliegende Erfindung verbessert die Situation.
  • Es ist eines der Ziele der vorliegenden Erfindung, ein Verfahren zur Verarbeitung von Tondaten vorzuschlagen, das die Operationen der Kompressions-Codierung/Decodierung der Audioströme und der Raumanpassung der Ströme zusammenfasst.
  • Es ist ein weiteres Ziel der vorliegenden Erfindung, ein Verfahren zur Verarbeitung von Tondaten durch Raumanpassung vorzuschlagen, das sich (dynamisch) an eine variable Anzahl von zu positionierenden Tonquellen anpasst.
  • Es ist ein allgemeines Ziel der vorliegenden Erfindung, ein Verfahren zur Verarbeitung von Tondaten durch Raumanpassung vorzuschlagen, das eine weit gestreute Aussendung von raumangepassten Tondaten ermöglicht, insbesondere eine Aussendung für die breite Öffentlichkeit, wobei die Wiedergabevorrichtungen einfach mit einem Decodierer für die empfangenen Signale und mit Wiedergabe-Lautsprechern ausgestattet sind.
  • Sie schlägt zu diesem Zweck ein Verfahren zur Verarbeitung von Tondaten für eine raumangepasste Wiedergabe von akustischen Signalen vor, bei dem:
    • a) für jedes akustische Signal mindestens ein erster Satz und ein zweiter Satz von Gewichtungstermen erhalten wird, die für eine Wahrnehmungsrichtung des akustischen Signals durch einen Hörer repräsentativ sind; und
    • b) die akustischen Signale an mindestens zwei Sätze von parallel angeordneten Filterungseinheiten angelegt werden, um mindestens ein erstes Ausgangssignal und ein zweites Ausgangssignal zu liefern, die je einer linearen Kombination der von der Gesamtheit der Gewichtungsterme des ersten Satzes bzw. des zweiten Satzes gewichteten und von den Filterungseinheiten gefilterten akustischen Signale entsprechen.
  • Jedes akustische Signal im Schritt a) des erfindungsgemäßen Verfahrens wird zumindest teilweise kompressionscodiert und in Form eines Vektors von Untersignalen ausgedrückt, die Frequenz-Unterbändern zugeordnet sind, und jede Filterungseinheit ist ausgelegt, um im Raum der Frequenzunterbänder eine Matrixfilterung durchzuführen, die an jeden Vektor angewendet wird.
  • Vorteilhafterweise wird jede Matrixfilterung durch Umsetzung, im Raum der Frequenzunterbänder, eines Filters mit (endlicher oder unendlicher) Impulsantwort erhalten, das im zeitlichen Raum definiert ist. Ein solches Filter mit Impulsantwort wird vorzugsweise durch Bestimmung einer akustischen Übertragungsfunktion erhalten, die von einer Wahrnehmungsrichtung eines Tons und der Frequenz dieses Tons abhängt.
  • Gemäß einem vorteilhaften Merkmal der Erfindung werden diese Übertragungsfunktionen durch eine lineare Kombination von Termen ausgedrückt, die von der Frequenz abhängen und von Termen gewichtet werden, die von der Richtung abhängen, was es, wie oben angegeben, einerseits ermöglicht, eine variable Anzahl von akustischen Signalen im Schritt a) zu verarbeiten, und andererseits ermöglicht, die Position jeder Quelle dynamisch in der Zeit variieren zu lassen. Außerdem "integriert" ein solcher Ausdruck der Übertragungsfunktionen die interaurale Verzögerung, die üblicherweise vor der Wiedergabe an eines der Ausgangssignale bezüglich des anderen angelegt wird, in den binauralen Verarbeitungen. Zu diesem Zweck werden Verstärkungsfiltermatrizen vorgesehen, die jedem Signal zugeordnet sind.
  • Da das erste und das zweite Ausgangssignal vorzugsweise dazu bestimmt sind, in erste und zweite Wiedergabesignalen decodiert zu werden, berücksichtigt die erwähnte lineare Kombination bereits vorteilhafterweise eine zeitliche Verzögerung zwischen diesem ersten und zweiten Wiedergabesignal.
  • Schließlich kann man zwischen dem Schritt des Empfangs/Decodierens der von einer Wiedergabevorrichtung empfangenen Signale und dem eigentlichen Schritt der Wiedergabe keinen zusätzlichen Schritt der Ton-Raumanpassung vorsehen, da diese Raumanpassungsverarbeitung vollständig vor und direkt an codierten Signalen durchgeführt wird.
  • Gemäß einem der Vorteile der vorliegenden Erfindung ermöglicht es die Verbindung der Techniken der linearen Zerlegung der HRTFs mit den Filterungstechniken auf dem Gebiet der Unterbänder, von den Vorteilen der beiden Techniken zu profitieren, um zu Ton-Raumpassungssystemen von geringer Komplexität und mit reduziertem Speicher für mehrere codierte Audiosignale zu gelangen.
  • Bei einer klassischen "Zweikanal"-Architektur hängt nämlich die Anzahl der zu verwendenden Filter von der Anzahl von zu positionierenden Quellen ab. Wie oben erwähnt, findet man dieses Problem nicht bei einer Architektur, die auf der linearen Zerlegung der HRTFs beruht. Diese Technik ist also bezüglich der Rechenleistung, aber auch bezüglich des benötigten Speicherraums zur Speicherung der binauralen Filter vorzuziehen. Schließlich ermöglicht es diese Architektur, die dynamische binaurale Synthese optimal zu verwalten, da sie es ermöglicht, das "Fading" zwischen zwei Zeitpunkten t1 und t2 an Koeffizienten durchzuführen, die nur von der Position abhängen, und erfordert also keine zwei parallel geschaltete Filtersätze.
  • Gemäß einem weiteren Vorteil der vorliegenden Erfindung ermöglicht die direkte Filterung der Signale im codierten Bereich die Einsparung einer kompletten Decodierung durch Audiostrom vor der Raumanpassung der Quellen, was einen beträchtlichen Gewinn an Komplexität bedeutet.
  • Gemäß einem weiteren Vorteil der vorliegenden Erfindung kann die Ton-Raumpassung eines Audiostroms an verschiedenen Punkten einer Übertragungskette (Server, Knoten des Netzes oder Endgeräte) erfolgen. Die Beschaffenheit der Anwendung und die Architektur der verwendeten Kommunikation können den einen oder den anderen Fall bevorzugen. In einem Telekonferenzkontext wird so die Raumanpassungsverarbeitung vorzugsweise in Höhe der Endgeräte in einer dezentralisierten Architektur durchgeführt, und dagegen in Höhe der Audiobrücke (oder MCU für "Multipoint Control Unit") in einer zentralisierten Architektur. Für "Streaming"-Audioanwendungen, insbesondere bei mobilen Endgeräten, kann die Raumanpassung entweder im Server oder im Endgerät oder auch bei der Inhaltserzeugung durchgeführt werden. In diesen verschiedenen Fällen wird eine Verringerung der Verarbeitungskomplexität und auch des für die Speicherung der HRTF-Filter notwendigen Speichers immer geschätzt. Bei mobilen Endgeräten (tragbare Telefone der zweiten und dritten Generation, PDA, oder Taschen-Mikrocomputer) mit starken Zwängen bezüglich der Rechenkapazität und der Speichergröße sieht man vorzugsweise eine Raumanpassungsverarbeitung direkt in Höhe eines Inhaltsservers vor.
  • Die vorliegende Erfindung kann auch auf dem Gebiet der Übertragung vieler Audioströme Anwendung finden, die in strukturierten Tonszenen enthalten sind, wie es die Norm MPEG-4 vorsieht.
  • Weitere Merkmale, Vorteile und Anwendungen der Erfindung gehen aus der nachfolgenden ausführlichen Beschreibung und den beiliegenden Zeichnungen hervor. Es zeigen:
  • 1 schematisch eine dem Stand der Technik entsprechende Verarbeitung einer statischen binauralen "Zweikanal"-Synthese für zeitliche audiodigitale Signale Si;
  • 2 schematisch eine dem Stand der Technik entsprechende Anwendung der binauralen Synthese basierend auf der linearen Zerlegung der HRTFs für nicht codierte zeitliche audiodigitale Signale;
  • 3 schematisch ein dem Stand der Technik entsprechendes System der binauralen Raumanpassung von N ursprünglich codierten Audioquellen, die dann für die Raumanpassungsverarbeitung im Zeitbereich vollständig decodiert und anschließend für eine Übertragung an eine oder mehrere Wiedergabevorrichtungen, hier ausgehend von einem Server, erneut codiert werden;
  • 4 schematisch ein erfindungsgemäßes System einer binauralen Raumanpassung von N teilweise decodierten Audioquellen zur Raumanpassungsverarbeitung im Bereich der Unterbänder, die anschließend zur Übertragung an eine oder mehrere Wiedergabevorrichtungen, hier ausgehend von einem Server, vollständig erneut codiert werden;
  • 5 schematisch eine erfindungsgemäße Ton-Raumanpassungsverarbeitung im Bereich der Unterbänder, basierend auf der linearen Zerlegung der HRTFs im binauralen Kontext;
  • 6 schematisch eine Codier/Decodierverarbeitung zur Raumpassung, die im Bereich der Unterbänder durchgeführt wird und auf einer linearen Zerlegung der Übertragungsfunktionen im ambisonischen Kontext beruht, in einer Ausführungsvariante der Erfindung;
  • 7 schematisch eine erfindungsgemäße binaurale Raumanpassungsverarbeitung von N codierten Audioquellen, die in einem Kommunikations-Endgerät gemäß einer Variante des Systems der 4 durchgeführt wird;
  • 8 schematisch eine Architektur eines zentralisierten Telekonferenzsystems mit einer Audiobrücke zwischen mehreren Endgeräten; und
  • 9 schematisch eine erfindungsgemäße Verarbeitung der Raumanpassung von (N – 1) codierten Audioquellen unter N Quellen am Eingang einer Audiobrücke eines Systems gemäß 8, die an dieser Audiobrücke durchgeführt wird, gemäß einer Variante des Systems der 4.
  • Zunächst wird auf 1 Bezug genommen, um eine klassische Verarbeitung der binauralen "Zweikanal"-Synthese zu beschreiben. Diese Verarbeitung besteht darin, das Signal der Quellen (Si), die man in einer gewählten Position im Raum positionieren möchte, durch die linke (HRTF l) und die rechte (HRTF r) akustische Übertragungsfunktion zu filtern, die der geeigneten Richtung (θi,φi) entsprechen. Man erhält zwei Signale, die dann zu den linken und rechten Signalen addiert werden, die aus der Raumanpassung der anderen Quellen resultieren, um die globalen Signale L und R zu ergeben, die an das linke und das rechte Ohr eines Hörers ausgesendet werden. Die Anzahl von notwendigen Filtern beträgt dann 2.N für eine statische binaurale Synthese, und 4.N für eine dynamische binaurale Synthese, wobei N die Anzahl von räumlich anzupassenden Audioströmen ist.
  • Nun wird auf 2 Bezug genommen, um eine klassische binaurale Syntheseverarbeitung zu beschreiben, die auf der linearen Zerlegung der HRTFs beruht. Hier wird jedes HRTF-Filter zunächst in ein Filter mit minimaler Phase, das durch seinen Modul gekennzeichnet ist, und in eine reine Verzögerung τi zerlegt. Die Raum- und Frequenzabhängigkeiten der Module der HRTFs werden mit Hilfe einer linearen Zerlegung getrennt. Diese Module der Übertragungsfunktionen HRTFs werden dann wie eine Summe von Raumfunktionen Cn(θ,φ) und Rekonstruktionsfiltern Ln(f) geschrieben, wie nachfolgend ausgedrückt: |HRTF(θ,φ,ƒ)| = Σpn=1 Cn(θ,φ)Ln(ƒ) Eq[1]
  • Jedes Signal einer raumanzupassenden Quelle Si (i = l, ..., N) wird durch Koeffizienten Cni(θ,φ)(n = 1, ..., P) gewichtet, die von der linearen Zerlegung der HRTFs stammen. Diese Koeffizienten haben als Besonderheit, nur von der Position [θ,φ], wo man die Quelle anordnen möchte, und nicht von der Frequenz f abzuhängen. Die Anzahl dieser Koeffizienten hängt von der Anzahl P von Basisvektoren ab, die man für die Rekonstruktion zurückbehalten hat. Die N Signale aller durch den "Richt"-Koeffizienten Cni gewichteten Quellen werden dann addiert (getrennt für den rechten Kanal und den linken Kanal), und dann durch das Filter gefiltert, das dem gleichen Basisvektor entspricht. Im Gegensatz zu der binauralen "Zweikanal"-Synthese erfordert so das Hinzufügen einer zusätzlichen Quelle nicht das Hinzufügen von zwei zusätzlichen Filtern (oft vom Typ FIR oder IIR). Die P Basisfilter werden nämlich von allen vorhandenen Quellen gemeinsam genutzt. Diese Anwendung wird "Mehrkanal" genannt. Außerdem ist es im Fall der dynamischen binauralen Synthese möglich, die Koeffizienten Cni(θ,φ) variieren zu lassen, ohne dass am Ausgang der Vorrichtung Clicks auftreten. In diesem Fall sind nur 2.P Filter notwendig, während für die Zweikanal-Synthese 4.N Filter notwendig waren.
  • In 2 entsprechen die Koeffizienten Cni den Richtkoeffizienten für die Quelle i in der Position (θi,φi) und für das Rekonstruktionsfilter n. Sie werden mit C für den linken Kanal (L) und D für den rechten Kanal (R) bezeichnet. Es wird angemerkt, dass das Verarbeitungsprinzip des rechten Kanals R das gleiche ist wie für den linken Kanal L. Die gestrichelten Pfeile für die Verarbeitung des rechten Kanals wurden aus Gründen der Klarheit der Zeichnung aber nicht dargestellt. Zwischen den beiden senkrechten gestrichelten Linien in 2 wird dann ein mit I bezeichnetes System von der in 3 gezeigten Art definiert.
  • Vor der Bezugnahme auf 3 sei aber gesagt, dass verschiedene Methoden vorgeschlagen wurden, um die räumlichen Funktionen und die Rekonstruktionsfilter zu bestimmen. Eine erste Methode beruht auf einer so genannten Karhunen-Loeve-Zerlegung und wird insbesondere in der Druckschrift WO94/10816 beschrieben. Eine andere Methode beruht auf der Analyse der HRTFs in Hauptkomponenten und ist in WO96/13962 beschrieben. Die jüngere Druckschrift FR-2782228 beschreibt auch eine solche Anwendung.
  • Wenn eine solche Raumanpassungsverarbeitung in Höhe des Kommunikationsendgeräts erfolgt, ist vor der eigentlichen Raumanpassungsverarbeitung ein Schritt der Decodierung der N Signale notwendig. Dieser Schritt erfordert beträchtliche Rechenressourcen (was bei den heutigen Kommunikationsendgeräten, insbesondere vom tragbaren Typ, problematisch ist). Außerdem zieht dieser Schritt eine Verzögerung der verarbeiteten Signale nach sich, was der Interaktivität der Kommunikation schadet. Wenn die übertragene Tonszene eine große Anzahl von Quellen (N) aufweist, kann der Decodierschritt nämlich bezüglich der Rechenressourcen teurer werden als der eigentliche Ton-Raumanpassungsschritt. Wie oben erwähnt, hängen die Rechenkosten der binauralen "Zweikanal"-Synthese nämlich nur in sehr geringem Maße von der Anzahl von raumanzupassenden Tonquellen ab.
  • Die Rechenkosten der Operation der Raumanpassung der N codierten Audioströme (in der Mehrkanalsynthese der 2) können also (für die Synthese eines der beiden Wiedergabekanäle, des linken oder des rechten) von den folgenden Schritten abgeleitet werden:
    • – Decodierung (für N Signale),
    • – Anwendung der interauralen Verzögerung τi,
    • – Multiplikation mit den Positionsverstärkungen Cni (PxN Verstärkungen für die Gesamtheit der N Signale),
    • – Summierung der N Signale für jedes Basisfilter mit dem Index n,
    • – Filterung der P Signale durch die Basisfilter,
    • – und Summierung der P Ausgangssignale der Basisfilter.
  • Wenn die Raumanpassung nicht in Höhe eines Endgeräts, sondern in Höhe eines Servers (Fall der 3), oder auch in einem Knoten eines Kommunikationsnetzes (Fall einer Audiobrücke in einer Telekonferenz) erfolgt, muss außerdem eine komplette Codieroperation des Ausgangssignals hinzugefügt werden.
  • Unter Bezugnahme auf 3 erfordert die Raumanpassung von N Tonquellen (die zum Beispiel Teil einer komplexen Tonszene vom Typ MPEG4 sind) also:
    • – eine komplette Decodierung der N codierten Audioquellen S1, ..., Si, ..., SN am Eingang des dargestellten Systems (mit "System I" bezeichnet), um N decodierte Audioströme zu erhalten, die zum Beispiel PCM-Signalen (für "Pulse Code Modulation") entsprechen,
    • – eine Raumanpassungsverarbeitung im Zeitbereich ("System I"), um zwei raumangepasste Signale L und R zu erhalten,
    • – und anschließend eine komplette Neucodierung in Form eines linken und eines rechten Kanals L und R, die im Kommunikationsnetz weitergeleitet werden, um von einer oder mehreren Wiedergabevorrichtungen empfangen zu werden.
  • So ist die Decodierung der N codierten Ströme vor dem Schritt der Raumanpassung der Tonquellen notwendig, was zu einer Erhöhung der Rechenkosten und der Hinzufügung einer Verzögerung aufgrund der Verarbeitung des Decodierers führt. Es wird darauf hingewiesen, dass die ursprünglichen Audioquellen in den heutigen Inhaltsservern im Allgemeinen direkt im codierten Format gespeichert sind.
  • Es wird außerdem darauf hingewiesen, dass für eine Wiedergabe über mehr als zwei Lautsprecher (transaurale Synthese oder im "ambisonischen" Kontext, wie nachfolgend beschrieben) die Anzahl von aus der Raumanpassungsverarbeitung resultierenden Signalen allgemein größer ist als zwei, was die Rechenkosten für die komplette Neucodierung dieser Signale vor ihrer Übertragung über das Kommunikationsnetz noch erhöht.
  • Nun wird auf 4 Bezug genommen, um eine Anwendung des erfindungsgemäßen Verfahrens zu beschreiben.
  • Sie besteht darin, die "Mehrkanal"-Implementierung der binauralen Synthese (2) den Filterungstechniken im transformierten Bereich ("Unterbänder"-Bereich genannt) zuzuordnen, um vor dem Schritt der Raumanpassung keine N kompletten Decodieroperationen durchführen zu müssen. So werden die globalen Rechenkosten der Operation reduziert. Diese "Integration" der Codier- und Raumanpassungsoperationen kann im Fall einer Verarbeitung in Höhe eines Kommunikationsendgeräts oder einer Verarbeitung in Höhe eines Servers durchgeführt werden, wie in 4 dargestellt ist.
  • Die verschiedenen Schritte der Datenverarbeitung sowie die Architektur des Systems werden nachfolgend ausführlich beschrieben.
  • Im Fall einer Raumanpassung von vielen codierten Audiosignalen in Höhe des Servers, wie im in 4 gezeigten Beispiel, ist noch eine Operation der Teildecodierung erforderlich. Diese Operation ist aber wesentlich weniger teuer als die Decodieroperation bei einem üblichen System, wie es in 3 gezeigt ist. Hier besteht diese Operation hauptsächlich darin, die Parameter der Unterbänder ausgehend vom codierten binären Audiostrom wiederzugewinnen. Diese Operation hängt vom verwendeten ursprünglichen Codierer ab. Sie kann zum Beispiel aus einer entropischen Decodierung, gefolgt von einer inversen Quantifizierung bestehen, wie bei einem Codierer MPEG-1 Layer III. Wenn diese Parameter der Unterbänder wieder gefunden wurden, wird die Verarbeitung im Bereich der Unterbänder durchgeführt, wie man nachfolgend sehen wird.
  • Die globalen Rechenkosten der Raumanpassungsoperation der codierten Audioströme werden dadurch beträchtlich reduziert. Die ursprüngliche Operation der Decodierung in einem üblichen System wird nämlich durch eine Operation der Teildecodierung von wesentlich geringerer Komplexität ersetzt. Die Rechenlast in einem erfindungsgemäßen System wird im Wesentlichen konstant in Abhängigkeit von der Anzahl von Audioströmen, die man raumanpassen möchte. Bezüglich der üblichen Systeme erhält man einen Gewinn bezüglich der Rechenkosten, die dann proportional zur Anzahl von Audioströmen werden, die man raumanpassen möchte. Außerdem führt die Operation der Teildecodierung zu einer geringeren Verarbeitungsverzögerung als die Operation der kompletten Decodierung, was in einem Kontext der interaktiven Kommunikation besonders vorteilhaft ist.
  • Das System zur Anwendung des erfindungsgemäßen Verfahrens, das die Raumanpassung im Bereich der Unterbänder durchführt, wird in 4 mit "System II" bezeichnet.
  • Nachfolgend wird der Erhalt der Parameter im Bereich der Unterbänder ausgehend von binauralen Impulsantworten beschrieben.
  • Üblicherweise sind die binauralen Übertragungsfunktionen oder HRTFs in Form von zeitlichen Impulsantworten zugänglich. Diese Funktionen bestehen im Allgemeinen aus 256 Zeittastproben mit einer Tastfrequenz von 44,1 kHz (typisch im Audio-Bereich). Diese Impulsantworten können von Messungen oder akustischen Simulationen stammen.
  • Die Schritte der Vorverarbeitung zum Erhalt der Parameter im Bereich der Unterbänder sind vorzugsweise die Folgenden:
    • – Extrahieren der interauralen Verzögerung ausgehend von binauralen Impulsantworten hl(n) und hr(n) (wenn man über D gemessene Richtungen des Raums verfügt, erhält man einen Vektor von D Werten der interauralen Verzögerung ITD (in Sekunden ausgedrückt));
    • – Modellisierung der binauralen Impulsantworten in Form von Filtern mit minimaler Phase;
    • – Wahl der Anzahl von Basisvektoren (P), die man für die lineare Zerlegung der HRTFs zurückbehalten möchte;
    • – lineare Zerlegung der Impulsantworten mit minimaler Phase gemäß der obigen Beziehung Eq[1] (man erhält so die D Richtkoeffizienten Cni und Dni, die nur von der Position der raumanzupassenden Tonquelle abhängen, und die P Basisvektoren, die nur von der Frequenz abhängen);
    • – Modellisierung der Basisfilter Ln und Rn in Form von IIR- oder FIR-Filtern;
    • – Berechnung von Verstärkungsfiltermatrizen Gi im Bereich der Unterbänder ausgehend von den D Werten von ITD (diese Verzögerungen ITD werden dann als FIR-Filter betrachtet, die dazu bestimmt sind, in den Bereich der Unterbänder umgesetzt zu werden, wie man nachfolgend sehen wird. Im allgemeinen Fall ist Gi eine Filtermatrix. Die D Richtkoeffizienten Cni, Dni, die im Bereich der Unterbänder anzuwenden sind, sind Skalare gleicher Werte wie die Cni bzw. Dni im Zeitbereich);
    • – Umsetzung der Basisfilter Ln und Rn, die ursprünglich in der Form IIR oder FIR vorliegen, in den Bereich der Unterbänder (diese Operation ergibt Filtermatrizen, nachfolgend mit Ln und Rn bezeichnet, die im Bereich der Unterbänder anzuwenden sind. Die Methode, um diese Umsetzung durchzuführen, wird nachfolgend aufgezeigt).
  • Man stellt fest, dass die unabhängig an jede Quelle angewendeten Filtermatrizen Gi eine klassische Verzögerungsberechnungsoperation für das Hinzufügen der interauralen Verzögerung zwischen einem Signal Li und einem wiederherzustellenden Signal Ri "einbeziehen". Im Zeitbereich sieht man nämlich üblicherweise Verzögerungsleitungen τi vor (2), die an ein Signal "linkes Ohr" bezüglich eines Signals "rechtes Ohr" anzuwenden sind. Im Bereich der Unterbänder sieht man eher eine solche Filtermatrix Gi vor, die es außerdem erlauben, Gewinne (zum Beispiel der Energie) bestimmter Quellen bezüglich anderer einzustellen.
  • Bei einer Übertragung ausgehend von einem Server zu Wiedergabeendgeräten werden alle diese Schritte vorteilhafterweise offline durchgeführt. Die obigen Filtermatrizen werden also einmal berechnet und dann definitiv im Speicher des Servers gespeichert. Man stellt insbesondere fest, dass der Satz von Gewichtungskoeffizienten Cni, Dni vorteilhafterweise vom Zeitbereich zum Bereich der Unterbänder unverändert bleibt.
  • Für Raumanpassungstechniken, die auf der Filterung durch HRTFs und das Hinzufügen der Verzögerung ITD (für "Interaural Time Delay"), wie die binaurale und transaurale Synthese, oder auch auf Filtern von Übertragungsfunktionen im ambisonischen Kontext beruhen, ist eine Schwierigkeit aufgetreten, äquivalente Filter zu finden, die an Tastproben im Bereich der Unterbänder anzuwenden sind. Diese von der Analysefilterbank stammenden Filter müssen vorzugsweise nämlich so konstruiert sein, dass das linke und rechte Zeitsignal, die von der Synthesefilterbank wiederhergestellt werden, die gleiche Tonwiedergabe aufweisen, und dies ohne jedes Artefakt, wie diejenige, die durch eine direkte Raumanpassung an einem Zeitsignal erhalten wird. Die Gestaltung von Filtern, die das Erlangen eines solchen Ergebnisses ermöglichen, ist nicht augenblicklich. Die Veränderung des Spektrums des Signals, das durch eine Filterung im Zeitbereich hinzugefügt wird, kann nämlich nicht direkt an den Signalen der Unterbänder durchgeführt werden, ohne das Phänomen der Spektrumsabdeckung ("aliasing") zu berücksichtigen, das von der Analysefilterbank eingeführt wird. Die Abhängigkeitsbeziehung zwischen den Aliasing-Komponenten der verschiedenen Unterbänder wird vorzugsweise bei der Filterungsoperation beibehalten, damit ihre Unterdrückung durch die Synthesefilterbank gewährleistet wird.
  • Nachfolgend wird ein Verfahren zur Umsetzung eines rationalen Filters S(z) vom Typ FIR oder IIR (dessen z-Transformation ein Quotient von zwei Polynomen ist) im Fall einer linearen Zerlegung von HRTFs oder von Übertragungsfunktionen dieses Typs im Bereich der Unterbänder für eine Filterbank mit M Unterbändern und mit kritischer Abtastung beschrieben, die durch ihre Analyse- bzw. Synthesefilter Hk(z) und Fk(z) definiert wird, wobei gilt 0 ≤ k ≤ M – 1. Unter "kritischer Abtastung" wird die Tatsache verstanden, dass die Anzahl der Gesamtheit der Ausgangstastproben der Unterbänder der Anzahl von Tastproben an den Eingängen entspricht. von dieser Filterbank wird angenommen, dass sie auch die Bedingung der perfekten Rekonstruktion erfüllt.
  • Zunächst wird eine Übertragungsmatrix S(z) in Betracht gezogen, die dem Skalarfilter S(z) entspricht und folgendermaßen ausgedrückt wird:
    Figure 00200001
    wobei Sk(z) (0 ≤ k ≤ M – 1) die mehrphasigen Komponenten des Filters S(z) sind.
  • Diese Komponenten werden für ein FIR-Filter direkt erhalten. Für die IIR-Filter wird eine Rechenmethode angegeben in:
    • [1] A Benjelloun Touimi, "Traitement du signal audio dans le domaine codé: techniques et applications" Doktorarbeit der Ecole Nationale Supérieure des Telecommunications de Paris, (Anhang A, Seite 141), Mai 2001.
  • Anschließend werden Mehrphasenmatrizen E(z) und R(z) bestimmt, die der Analysefilterbank bzw. der Synthesefilterbank entsprechen. Diese Matrizen werden für die betrachtete Filterbank endgültig bestimmt.
  • Dann wird die komplette Filtermatrix in Unterbändern durch die folgende Formel berechnet:
    Ssb(z) = zKE(z)S(z)R(z), wobei zK einem Vorschub mit K = (L/M) – 1 (was die verwendete Filterbank kennzeichnet) entspricht, wobei L die Länge der Analyse- und Synthesefilter der verwendeten Filterbanken ist.
  • Anschließend wird die Matrix S sb(z) konstruiert, deren Linien ausgehend von denjenigen von Ssb(z) wie folgt erhalten werden:
    [0 ... Ssb i1(z) ... Ssb ii(z) ... Ssb in(z) ... 0](0 ≤ n ≤ M – 1), wobei
    • – i der Index der (i + 1)ten Zeile ist und zwischen 0 und M – 1 liegt,
    • – 1 = i – δ mod[M], wobei δ einer gewählten Anzahl von benachbarten Unterdiagonalen entspricht, während die Schreibweise mod[M] einer Subtraktionsoperation modulo M entspricht,
    • – n = i + δ mod[M], wobei die Schreibweise mod[M] einer Additionsoperation modulo M entspricht.
  • Es wird angemerkt, dass die gewählte Anzahl δ der Anzahl von Bändern entspricht, die sich ausreichend auf einer Seite mit dem Durchlassband eines Filters der Filterbank überdecken. Sie hängt also vom Typ von bei der gewählten Codierung verwendeten Filterbänken ab. Zum Beispiel kann für die MDCT-Filterbank δ gleich 2 oder 3 genommen werden. Für die Pseudo-QMF-Filterbank der Codierung MPEG-1 wird δ gleich 1 genommen.
  • Man stellt fest, dass das Ergebnis dieser Umsetzung eines Filters mit endlicher oder unendlicher Impulsantwort in den Bereich der Unterbänder eine Filtermatrix der Größe MxM ist. Es werden aber nicht alle Filter dieser Matrix bei der Filterung in Unterbändern berücksichtigt. Vorteilhafterweise können nur die Filter der Hauptdiagonalen und einiger benachbarter Unterdiagonalen verwendet werden, um ein Ergebnis gleich demjenigen zu erhalten, das mit einer Filterung im Zeitbereich erhalten wird (ohne dadurch die Qualität der Wiedergabe zu verändern).
  • Die aus dieser Umsetzung resultierende und dann reduzierte Matrix S sb(z) ist diejenige, die für die Filterung in Unterbändern verwendet wird.
  • Als Beispiel werden nachfolgend die Ausdrücke der Mehrphasenmatrizen E(z) und R(z) für eine Filterbank MDCT angegeben, deren Verwendung in heutigen Transformations-Codierern weit verbreitet ist, wie diejenigen, die gemäß den Normen MPEG-2/4 AAC oder Dolby AC-2 & AC-3 oder TDAC der Anmelderin operieren. Die nachfolgende Verarbeitung kann ebenso an eine Filterbank vom Typ Pseudo-QMF des Codierers MPEG-1/2 Layer I-II angepasst werden.
  • Eine MDCT-Filterbank wird allgemein durch eine Matrix T = [tkl] der Größe Mx2M definiert, deren Elemente folgendermaßen ausgedrückt werden:
    Figure 00220001
    wobei h[l] dem Gewichtungsfenster entspricht, von dem eine mögliche Wahl das sinusförmige Fenster ist, das folgendermaßen ausgedrückt wird:
    Figure 00220002
  • Die Mehrphasen-Analyse- und Synthesematrizen werden dann durch die folgenden Formeln angegeben: E(z) = T1JM + T0JMz–1, R(z) = JMTT0 + JMTT1 z–1, Wobei
    Figure 00230001
    der Anti-Identitätsmatrix der Größe MxM entspricht und T0 und T1 Matrizen der Größe MxM sind, die aus der folgenden Teilung resultieren: T = [T0 T1]
  • Es wird angegeben, dass für diese Filterbank gilt L = 2M und K = l.
  • Für Filterbänke vom Typ Pseudo-QMF von MPEG-1/2 Layer I-II werden ein Gewichtungsfenster h[i], i = 0...L – 1 und eine Cosinus-Modulationsmatrix C ^ = [ckl] der Größe Mx2M definiert, deren Koeffizienten angegeben werden durch:
    Figure 00230002
    mit den folgenden Beziehungen: L = 2mM und K = 2m – 1, wobei m eine ganze Zahl ist. Genauer im Fall des Codierers MPEG-1/2 Layer I-II nehmen diese Parameter die folgenden Werte an: M = 32, L = 512, m = 8 und K = 15.
  • Die Mehrphasen-Analysematrix wird dann folgendermaßen ausgedrückt:
    Figure 00230003
    wobei g0(z) und g1(z) diagonale Matrizen sind, die definiert werden durch:
    Figure 00240001
  • In der Norm MPEG-1 Audio Layer I-II werden typischerweise die Werte des Fensters (–l)lh(2lM + k) mit 0 ≤ k ≤ 2M – 1, 0 ≤ l ≤ m – 1 geliefert.
  • Die Mehrphasen-Synthesematrix kann dann einfach durch die folgende Formel abgeleitet werden: R(z) = z–(2m – 1)Eτ(z–1)
  • Nun wird unter Bezugnahme auf 4 im Sinne der vorliegenden Erfindung eine Teildecodierung von N kompressionscodierten Audioquellen Sl, ..., Si, ..., SN durchgeführt, um Signale Sl, ..., Si, ..., SN zu erhalten, die vorzugsweise Signalvektoren entsprechen, deren Koeffizienten Werte sind, die je einem Unterband zugeteilt sind. Unter "Teildecodierung" wird eine Verarbeitung verstanden, die es ermöglicht, ausgehend von den kompressionscodierten Signalen solche Signalvektoren im Bereich der Unterbänder zu erhalten. Man kann außerdem Positionsinformationen erhalten, von denen Verstärkungswerte Gl, ..., Gi, ..., GN (für die binaurale Synthese) und Koeffizienten Cni (für das linke Ohr) und Dni (für das rechte Ohr) zur Raumanpassungsverarbeitung gemäß der oben angegebenen Beziehung Eq[l] abgeleitet werden, wie es 5 zeigt. Die Raumanpassungsverarbeitung wird aber direkt im Bereich der Unterbänder durchgeführt, und die 2P Matrizen Ln und Rn von Basisfiltern, die wie oben angegeben erhalten wurden, werden an die Signalvektoren Si angelegt, die von den skalaren Koeffizienten Cni bzw. Dni gewichtet werden.
  • In 5 werden die Signalvektoren L und R, die aus der Raumanpassungsverarbeitung im Bereich der Unterbänder stammen (zum Beispiel in einem mit "System II" in 4 bezeichneten Verarbeitungssystem), dann durch die folgenden Beziehungen in einer Darstellung durch ihre z-Transformation ausgedrückt:
    Figure 00250001
  • In dem in 4 gezeigten Beispiel wird die Raumanpassungsverarbeitung in einem Server durchgeführt, der mit einem Kommunikationsnetz verbunden ist. So können diese Signalvektoren L und R komplett erneut kompressionscodiert werden, um die komprimierten Signale L und R (linker und rechter Kanal) in das Kommunikationsnetz und an Wiedergabeendgeräte auszusenden.
  • So ist ein ursprünglicher Teildecodierungsschritt der codierten Signale Si vor der Raumanpassungsverarbeitung vorgesehen. Dieser Schritt ist aber wesentlich weniger teuer und schneller als die komplette Decodieroperation, die im Stand der Technik notwendig war (3). Außerdem sind die Signalvektoren L und R bereits im Bereich der Unterbänder ausgedrückt, und die Teil-Neucodierung der 4, um die kompressionscodierten Signale L und R zu erhalten, ist schneller und weniger teuer als eine komplette Codierung, wie sie in 3 gezeigt ist.
  • Es wird angemerkt, dass die beiden durchbrochenen senkrechten Striche der 5 die Raumanpassungsverarbeitung begrenzen, die im "System II" der 4 durchgeführt wird. In diesem Zusammenhang betrifft die vorliegende Erfindung auch ein System, das Mittel zur Verarbeitung der teilcodierten Signale Si zur Anwendung des erfindungsgemäßen Verfahrens aufweist.
  • Es wird angemerkt, dass das Dokument:
    • [2] "A Generic Framework for Filtering in Subband Domain" A. Benjelloun Touimi, IEEE 9th Workshop on Digital Signal Processing, Hunt, Texas, USA, Oktober 2000,
    sowie das oben erwähnte Dokument [1] eine allgemeine Rechenmethode einer Umsetzung in den Bereich der Unterbänder eines Filters mit endlicher oder unendlicher Impulsantwort betreffen.
  • Es wird weiter angemerkt, dass Ton-Raumanpassungstechniken im Bereich der Unterbänder kürzlich insbesondere in einem anderen Dokument vorgeschlagen wurden:
    • [3] "Subband-Domain Filtering of MPEG Audio Signals", C.A. Lanciani and R. W. Schafer, IEEE Int. Conf. on Acoust., Speech, Signal Proc., 1999.
  • Dieses letzte Dokument stellt eine Methode vor, die es ermöglicht, ein Filter mit endlicher Impulsantwort (FIR) in den Bereich der Unterbänder der Pseudo-QMF-Filterbänke des Codierers MPEG-1 Layer I-II und MDCT des Codierers MPEG-2/4 AAC umzusetzen. Die dementsprechende Filterungsoperation im Bereich der Unterbänder ist durch eine FIR-Filtermatrix dargestellt. Insbesondere liegt dieser Vorschlag im Kontext einer Umsetzung von HRTFs-Filtern, direkt in ihrer klassischen Form und nicht in Form einer linearen Zerlegung, wie sie durch die obige Gleichung Eq[1] ausgedrückt wird, und in einer erfindungsgemäßen Filterbasis. So besteht ein Nachteil der Methode im Sinne dieses letzteren Dokuments darin, dass die Raumanpassungsverarbeitung nicht an eine beliebige Anzahl von Quellen oder von raumanzupassenden codierten Audioströmen angepasst werden kann.
  • Es wird angemerkt, dass für eine gegebene Position jedes HRTF-Filter (der Ordnung 200 für ein FIR und der Ordnung 12 für ein IIR) zu einer Filtermatrix (quadratisch) führt, deren Abmessung gleich der Anzahl von Unterbändern der verwendeten Filterbank ist. In dem oben erwähnten Dokument [3] muss man eine ausreichende Anzahl von HRTFs vorsehen, um die verschiedenen Positionen im Raum darzustellen, was zu einem Problem der Speichergröße führt, wenn man eine Quelle an eine beliebige Position im Raum raumanpassen möchte.
  • Dagegen weist eine erfindungsgemäße Anpassung einer linearen Zerlegung der HRTFs im Bereich der Unterbänder nicht dieses Problem auf, da die Anzahl (P) von Basisfiltermatrizen Ln und Rn wesentlich kleiner ist. Diese Matrizen werden dann definitiv in einem Speicher (des Inhaltsservers oder des Wiedergabeendgeräts) gespeichert und ermöglichen eine gleichzeitige Raumanpassungsverarbeitung einer beliebigen Anzahl von Quellen, wie in 5 dargestellt ist.
  • Nachfolgend wird eine Verallgemeinerung der Raumanpassungsverarbeitung im Sinne der 5 auf andere Verarbeitungen der Tonwiedergabe beschrieben, wie eine "ambisonische Codierung" genannte Verarbeitung. Ein Tonwiedergabesystem kann nämlich allgemein in Form eines reellen oder virtuellen (für eine Simulation) Tonaufnahmesystems vorliegen, das aus einer Codierung des Tonfelds besteht. Diese Phase besteht darin, p Tonsignale real aufzuzeichnen oder solche Signale zu simulieren (virtuelle Codierung), die der Gesamtheit einer Tonszene entsprechen, die alle Töne enthält, sowie eine Raumwirkung.
  • Das oben erwähnte System kann auch in Form eines Tonwiedergabesystems vorliegen, das darin besteht, die von der Tonaufnahme stammenden Signale zu decodieren, um sie an die Tonwiedergabe-Umsetzungsvorrichtungen (wie mehrere Lautsprecher oder ein stereophoner Kopfhörer) anzupassen. Man wandelt die p Signale in n Signale um, die die n Lautsprecher speisen.
  • Zum Beispiel besteht die binaurale Synthese darin, eine reale Tonaufnahme mit Hilfe eines Paars von Mikrophonen durchzuführen, die in die Ohren eines menschlichen Kopfes (künstlich oder real) eingeführt sind. Man kann auch die Aufzeichnung simulieren, indem die Faltung eines monophonen Tons mit dem Paar von HRTFs entsprechend einer gewünschten Richtung der virtuellen Tonquelle hergestellt wird. Ausgehend von einem oder mehreren monophonen Signalen, die von vorbestimmten Quellen kommen, erhält man zwei Signale (linkes Ohr und rechtes Ohr), die einer Phase der so genannten "binauralen Codierung" entsprechen, wobei diese beiden Signale anschließend einfach an einen Kopfhörer mit zwei Ohrknöpfen (wie ein stereophoner Kopfhörer) angelegt werden.
  • Es sind aber auch andere Codierungen und Decodierungen ausgehend von der Filterzerlegung möglich, die Übertragungsfunktionen auf eine Filterbasis entsprechen. Wie oben erwähnt, sind die Raum- und Frequenz-Abhängigkeiten der Übertragungsfunktionen vom Typ HRTFs aufgrund einer linearen Zerlegung getrennt und werden als eine Summe von räumlichen Funktionen Ci(θ,φ) und Rekonstruktionsfiltern Li(ƒ) ausgedrückt, die von der Frequenz abhängen:
    Figure 00280001
  • Es wird aber angemerkt, dass dieser Ausdruck auf jeden Typ von Codierung für n Tonquellen Sj(ƒ) und ein Codierformat mit p Signalen am Ausgang verallgemeinert werden kann, mit:
    Figure 00290001
    Wobei, zum Beispiel im Fall einer binauralen Synthese, Xij in Form eines Produkts der Verstärkungsfilter Gj und der Koeffizienten Cij, Dij ausgedrückt werden kann.
  • Es wird auf 6 Bezug genommen, in der N Audioströme Sj, die im Bereich der Unterbänder nach Teildecodierung dargestellt sind, eine Raumanpassungsverarbeitung erfahren, zum Beispiel eine ambisonische Codierung, um p Signale Ei zu liefern, die im Bereich der Unterbänder codiert sind. Eine solche Raumanpassungsverarbeitung berücksichtigt also den allgemeinen Fall, der von der obigen Gleichung Eq[2] geregelt wird. Man stellt außerdem in 6 fest, dass die Anwendung der Filtermatrix Gj auf die Signale Sj (um die interaurale Verzögerung ITD zu definieren) hier im ambisonischen Kontext nicht mehr notwendig ist.
  • In gleicher Weise wird eine allgemeine Beziehung für ein Decodierformat, das p Signale Ei(ƒ) enthält, und für ein Tonwiedergabeformat, das m Signale enthält, angegeben durch:
    Figure 00290002
  • Für ein gegebenes Tonwiedergabesystem sind die Filter Kji(ƒ) festgelegt und hängen bei konstanter Frequenz nur vom Tonwiedergabesystem und seiner Anordnung bezüglich eines Hörers ab. Diese Situation ist in 6 (rechts von der gestrichelten senkrechten Linie) im Beispiel des ambisonischen Kontexts dargestellt. Zum Beispiel werden die im Bereich der Unterbänder räumlich codierten Signale Ei vollständig erneut kompressionscodiert, in ein Kommunikationsnetz übertragen, in einem Wiedergabeendgerät wiedergewonnen, teilweise kompressionsdecodiert, um eine Darstellung davon im Bereich der Unterbänder zu erhalten. Schließlich findet man nach diesen Schritten im Wesentlichen die gleichen oben beschriebenen Signale Ei im Endgerät wieder. Eine Verarbeitung im Bereich der Unterbänder von dem durch die Gleichung Eq[3] ausgedrückten Typ ermöglicht es dann, m Signale Dj wiederzugewinnen, die räumlich decodiert und zur Wiederherstellung nach Kompressionsdecodierung bereit sind.
  • Natürlich können mehrere Decodiersysteme in Reihe angeordnet werden, je nach der in Betracht gezogenen Anwendung.
  • Zum Beispiel wird im zweidimensionalen ambisonischen Kontext der Ordnung 1 ein Codierformat mit drei Signalen W, X, Y für p Tonquellen für die Codierung folgendermaßen ausgedrückt: E1 = W = Σnj=1 Sj E2 = X = Σnj=1 cos(θj)Sj E3 = Y = Σnj=1 sin(θj)Sj
  • Für die "ambisonische" Decodierung in einer Wiedergabevorrichtung mit einer Wiedergabe mit fünf Lautsprechern in zwei Frequenzbändern [0, ƒ1] und [ƒ1, ƒ2] mit ƒ1 = 400Hz und ƒ2 entsprechend einem Durchlassband der betrachteten Signale, nehmen die Filter Kji/(ƒ) die konstanten digitalen Werte in diesen zwei Frequenzbändern an, die in den nachfolgenden Tabellen I und II angegeben sind.
  • Tabelle I: Werte der Koeffizienten, die die Filter Kji(ƒ) für 0 < ƒ ≤ ƒ1 definieren
    Figure 00310001
  • Tabelle II: Werte der Koeffizienten, die die Filter Kji(ƒ) für ƒi < ƒ ≤ ƒ2 definieren
    Figure 00310002
  • Natürlich können verschiedene Raumanpassungsverfahren (ambisonischer Kontext und binaurale und/oder transaurale Synthese) in einem Server und/oder in einem Wiedergabeendgerät kombiniert werden, wobei solche Raumanpassungsverfahren den allgemeinen Ausdruck einer linearen Zerlegung von Übertragungsfunktionen im Frequenzraum berücksichtigen, wie oben angegeben.
  • Nachfolgend wird ein Einsatz des erfindungsgemäßen Verfahrens in einer mit einer Telekonferenz zwischen fernen Endgeräten verbundenen Anwendung beschrieben.
  • Erneut unter Bezugnahme auf 4 kommen codierte Signale (Si) von den N fernen Endgeräten. Sie werden in Höhe des Telekonferenzservers (zum Beispiel in Höhe einer Audiobrücke für eine sternförmige Architektur, wie sie in 8 gezeigt ist) für jeden Teilnehmer raumangepasst. Auf diesen im Bereich der Unterbänder nach einer Phase der Teildecodierung durchgeführten Schritt folgt eine Teil-Neucodierung. Die so kompressionscodierten Signale werden anschließend über das Netz übertragen und bei Empfang durch ein Wiedergabeendgerät vollständig kompressionsdecodiert und im Fall einer binauralen Raumanpassung an zwei linke und rechte Kanäle 1 bzw. r angelegt. In Höhe der Endgeräte ermöglicht die Verarbeitung der Kompressionsdecodierung das Liefern von zwei linken und rechten Zeitsignalen, die die Information von Positionen von N fernen Hörern enthalten und die zwei Lautsprecher speisen (Kopfhörer mit zwei Ohrknöpfen). Für eine allgemeine Raumanpassung, zum Beispiel im ambisonischen Kontext, können natürlich m Kanäle am Ausgang des Kommunikationsservers wiedergewonnen werden, wenn die Raumanpassungs-Codierungen/Decodierungen vom Server durchgeführt werden. Es ist in einer Variante aber vorteilhaft, die Raumanpassungs-Codierung im Server und die Raumanpassungs-Decodierung im Endgerät ausgehend von den p kompressionscodierten Signalen durchzuführen, einerseits, um die Anzahl von über das Netz weiterzuleitenden Signalen (im Allgemeinen p < m) zu begrenzen, und andererseits, um die Raum-Decodierung an die Tonwiedergabeeigenschaften jedes Endgeräts anzupassen (zum Beispiel die Anzahl von Lautsprechern, die es aufweist, oder andere).
  • Diese Raumanpassung kann statisch oder dynamisch und außerdem interaktiv sein. So ist die Position der Sprecher festgelegt oder kann im Laufe der Zeit variieren. Wenn die Raumanpassung nicht interaktiv ist, ist die Position der verschiedenen Sprecher festgelegt: Der Hörer kann sie nicht verändern. Wenn dagegen die Raumanpassung interaktiv ist, kann jeder Hörer sein Endgerät konfigurieren, um im Wesentlichen in Echtzeit die Stimme der N anderen Sprecher da zu positionieren, wo er es wünscht.
  • Nunmehr unter Bezugnahme auf 7 empfängt das Wiedergabeendgerät N kompressionscodierte (MPBG, AAC, oder andere) Audioströme (Si) von einem Kommunikationsnetz. Nach einer Teildecodierung, um die Signalvektoren (Si) zu erhalten, verarbeitet das Endgerät ("System II") diese Signalvektoren, um die Audioquellen, hier in binauraler Synthese, in zwei Signalvektoren L und R raumanzupassen, die anschließend für eine Kompressionsdecodierung an Synthesefilterbänke angelegt werden. Die linken und rechten PCM-Signale l bzw. r, die aus dieser Decodierung entstehen, sind anschließend dazu bestimmt, direkt Lautsprecher zu speisen. Diese Art von Verarbeitung ist vorteilhafterweise an ein dezentralisiertes Telekonferenzsystem anpassbar (mehrere Endgeräte im Punkt-zu-Punkt-Modus verbunden).
  • Nachfolgend wird der Fall eines "Streaming" oder eines Herunterladens einer Tonszene insbesondere im Kontext der Kompressionscodierung gemäß der Norm MPEG-4 beschrieben.
  • Diese Szene kann einfach oder auch komplex sein, wie oft im Rahmen von MPEG-4-Übertragungen, in denen die Tonszene in einem strukturierten Format übertragen wird. Im MPEG-4-Kontext empfängt das Kundenendgerät ausgehend von einem Multimediaserver einen multiplexierten Binärstrom entsprechend jedem der codierten ursprünglichen Audio-Objekte, sowie Anweisungen bezüglich ihrer Zusammensetzung, um die Tonszene zu rekonstruieren. Unter einem "Audio-Objekt" wird ein elementarer Binärstrom verstanden, der von einem MPEG-4-Audiocodierer erhalten wird. Die Norm MPEG-4 System liefert ein spezielles Format, genannt "AudioBIFS" (für "BInary Format for Scene description"), um diese Anweisungen zu übertragen. Die Aufgabe dieses Formats ist es, die raum-zeitliche Zusammensetzung der Audio-Objekte zu beschreiben. Um die Tonszene zu konstruieren und eine gewisse Wiedergabe zu gewährleisten, können diese verschiedenen decodierten Ströme eine spätere Verarbeitung erfahren. Insbesondere kann ein Verarbeitungsschritt der Ton-Raumanpassung durchgeführt werden.
  • Im Format "AudioBIFS" sind die durchzuführenden Manipulationen durch einen Graph dargestellt. Man sieht die decodierten Audiosignale am Eingang des Graphs vor. Jeder Knoten des Graphs stellt eine Verarbeitungsart dar, die an einem Audiosignal durchzuführen ist. Man sieht am Ausgang des Graphen die verschiedenen wiederzugebenden oder anderen Media-Objekten (Bilder oder anderes) zuzuordnenden Tonsignale vor.
  • Die verwendeten Algorithmen werden dynamisch aktualisiert und mit dem Graphen der Szene übertragen. Sie werden in Form von Routinen beschrieben, die in einer spezifischen Programmiersprache geschrieben sind, wie "SAOL" (für "Structured Audio Score Language"). Diese Sprache besitzt vordefinierte Funktionen, die insbesondere und besonders vorteilhaft FIR- und IIR-Filter umfassen (die dann HRTFs entsprechen können, wie oben angemerkt).
  • Außerdem findet man unter den von der Norm MPEG-4 geliefert Audiokompressionswerkzeugen Transformations-Codierer, die insbesondere für die Audioübertragung hoher Qualität (monophon und Mehrkanal) verwendet werden. Dies ist der Fall bei den Codierern AAC und TwinVQ, die auf der MDCT-Transformation basieren.
  • Im MPEG-4-Kontext sind die Werkzeuge, die die Anwendung des erfindungsgemäßen Verfahrens ermöglichen, bereits vorhanden.
  • In einem MPEG-4-Empfängerendgerät genügt es dann, die untere Decodierschicht in die Knoten der oberen Schicht zu integrieren, die besondere Verarbeitungen gewährleistet, wie die binaurale Raumanpassung durch HRTFs-Filter. Nach der Teildecodierung der demultiplexierten und von der gleichen Art Codierer (zum Beispiel MPEG-4 AAC) stammenden elementaren binären Audioströme können die Knoten des Graphen "AudioBIFS", die eine binaurale Raumanpassung verwenden, direkt im Bereich der Unterbänder (zum Beispiel MDCT) verarbeitet werden. Die Filterbank-Syntheseoperation wird erst nach diesem Schritt durchgeführt.
  • In einer zentralisierten Mehrpunkt-Telekonferenz-Architektur, wie sie in 8 gezeigt ist, im dargestellten Beispiel zwischen vier Endgeräten, kann die Verarbeitung der Signale für die Raumanpassung nur in Höhe der Audiobrücke stattfinden. Die Endgeräts TER1, TER2, TER3 und TER4 empfangen nämlich bereits gemischte Ströme, und somit kann auf ihrer Ebene keine Verarbeitung zur Raumanpassung durchgeführt werden.
  • Es ist klar, dass eine Reduzierung der Verarbeitungskomplexität in diesem Fall besonders erwünscht ist. Für eine Konferenz mit N Endgeräten (N ≥ 3) muss die Audiobrücke nämlich eine Raumanpassung der von den Endgeräten stammenden Sprecher für jede der N Untereinheiten durchführen, die aus (N – 1) unter den N an der Konferenz teilnehmenden Sprechern bestehen. Eine Verarbeitung im codierten Bereich erbringt natürlich größere Vorteile.
  • 9 zeigt schematisch das in der Audiobrücke vorgesehene Verarbeitungssystem. Diese Verarbeitung wird an einer Untereinheit von (N – 1) der N codierten Audiosignale am Eingang der Brücke durchgeführt. Der linke und der rechte codierte Audiorahmen im Fall einer binauralen Raumanpassung, oder die m codierten Audiorahmen im Fall einer allgemeinen Raumanpassung (zum Beispiel mit ambisonischer Codierung), wie in 9 gezeigt, die aus dieser Verarbeitung hervorgehen, werden so an das verbleibende Endgerät übertragen, das an der Telekonferenz teilnimmt, aber nicht zu dieser Untereinheit gehört (entsprechend einem "Hörer-Endgerät"). Insgesamt werden N Verarbeitungen der oben beschriebenen Art in der Audiobrücke durchgeführt (N Untereinheiten von (N – 1) codierten Signalen). Es wird angemerkt, dass die Teilcodierung der 9 die Operation der Konstruktion des nach der Raumanpassungsverarbeitung codierten und auf einen Kanal (links oder rechts) zu übertragenden Audiorahmens ist. Zum Beispiel kann es sich um eine Quantifizierung der Signalvektoren L und R handeln, die aus der Raumanpassungsverarbeitung hervorgehen, indem man auf einer Anzahl von Bits zurückgreift, die gemäß einem ausgewählten psychoakustischen Kriterium zugeteilt und berechnet wird. Die klassischen Verarbeitungen der Kompressionscodierung nach der Anwendung der Analysefilterbank können also mit der Raumanpassung im Bereich der Unterbänder aufrechterhalten und durchgeführt werden.
  • Wie oben angegeben, kann außerdem die Position der raumanzupassenden Tonquelle im Laufe der Zeit variieren, was darauf hinausläuft, die Richtkoeffizienten des Bereichs der Unterbänder Cni und Dni im Lauf der Zeit zu verändern. Die Veränderung des Werts dieser Koeffizienten erfolgt vorzugsweise diskret.
  • Die vorliegende Erfindung beschränkt sich natürlich nicht auf die oben als Beispiele beschriebenen Ausführungsformen, sondern erstreckt sich auf andere Varianten, die im Rahmen der nachfolgenden Ansprüche beschrieben werden.

Claims (26)

  1. Verfahren zur Verarbeitung von Tondaten für eine raumangepasste Wiedergabe von akustischen Signalen, bei dem: a) für jedes akustische Signal (Si) mindestens ein erster Satz (Cni) und ein zweiter Satz (Dni) von Gewichtungstermen erhalten wird, die für eine Wahrnehmungsrichtung des akustischen Signals durch einen Hörer repräsentativ sind; und b) die akustischen Signale an mindestens zwei Sätzen von parallel angeordneten Filterungseinheiten angelegt werden, um mindestens ein erstes Ausgangssignal (L) und ein zweites Ausgangssignal (R) zu liefern, die je einer linearen Kombination der von der Gesamtheit der Gewichtungsterme des ersten Satzes (Cni) bzw. des zweiten Satzes (Dni) gewichteten und von den Filterungseinheiten gefilterten akustischen Signale entsprechen, dadurch gekennzeichnet, dass jedes akustische Signal im Schritt a) zumindest teilweise kompressionscodiert und in Form eines Vektors von Untersignalen ausgedrückt wird, die Frequenz-Unterbändern zugeordnet sind, und dass jede Filterungseinheit ausgelegt ist, um im Raum der Frequenzunterbänder eine Matrixfilterung durchzuführen, die an jeden Vektor angewendet wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass jede Matrixfilterung durch Konversion, im Raum der Frequenzunterbänder, eines durch eine Impulsantwort im zeitlichen Raum dargestellten Filters erhalten wird.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass jedes Filter mit Impulsantwort durch Bestimmung einer akustischen Übertragungsfunktion erhalten wird, die von einer Wahrnehmungsrichtung eines Tons und der Frequenz dieses Tons abhängt.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Übertragungsfunktionen durch eine lineare Kombination von Termen ausgedrückt wird, die von der Frequenz abhängen und von Termen gewichtet werden, die von der Richtung abhängen (Eq[1]).
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Gewichtungsterme des ersten und des zweiten Satzes von der Richtung des Tons abhängen.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Richtung von einem Azimutwinkel (θ) und von einem Elevationswinkel (φ) definiert wird.
  7. Verfahren nach einem der Ansprüche 2 und 3, dadurch gekennzeichnet, dass die Matrixfilterung ausgehend von einem Matrixprodukt, das mehrphasige Matrizen (E(z), R(z)) einsetzt, die Analyse- und Synthesefilterbänken entsprechen, und von einer Übertragungsmatrix (S(z)) ausgedrückt wird, deren Elemente von dem Filter mit Impulsantwort abhängen.
  8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Matrix der Matrixfilterung von reduzierter Form ist und eine Diagonale und eine vorbestimmte Zahl (δ) von unteren und oberen benachbarten Unterdiagonalen aufweist, deren Elemente nicht alle Null sind.
  9. Verfahren nach Anspruch 8 in Kombination mit Anspruch 7, dadurch gekennzeichnet, dass die Zeilen der Matrix der Matrixfilterung ausgedrückt werden durch: [0 ... Ssb i1(z) ... Ssb ii(z) ... Ssb in(z) ... 0], wobei – i der Index der (i + 1)ten Zeile ist und zwischen 0 und M – 1 liegt, wobei M einer Gesamtzahl von Unterbändern entspricht, – 1 = i – δ mod[M], wobei δ der Anzahl von benachbarten Unterdiagonalen entspricht, während die Schreibweise mod[M] einer Subtraktionsoperation modulo M entspricht, – n = i + δ mod[M], wobei die Schreibweise mod[M] einer Additionsoperation modulo M entspricht, – und Ssb ij(z) die Koeffizienten der Produktmatrix sind, die die mehrphasigen Matrizen der Analyse- und Synthesefilterbänke und der Übertragungsmatrix verwendet.
  10. Verfahren nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass die Produktmatrix durch Ssb(z) = zKE(z)S(z)R(z) ausgedrückt wird, wobei – zK ein Vorschub ist, der durch den Term K =(L/M) – 1 definiert wird, wobei L die Länge der Impulsantwort der Analyse- und Synthesefilter der Filterbänke und M die Gesamtanzahl von Unterbändern ist, – E(z) die mehrphasige Matrix ist, die der Analysefilterbank entspricht, – R(z) die mehrphasige Matrix ist, die der Synthesefilterbank entspricht, und – S(z) der Übertragungsmatrix entspricht.
  11. Verfahren nach einem der Ansprüche 7 bis 10, dadurch gekennzeichnet, dass die Übertragungsmatrix ausgedrückt wird durch:
    Figure 00410001
    wobei Sk(z) die mehrphasigen Komponenten des Filters mit Impulsantwort S(z) sind, mit k zwischen 0 und M – 1, und wobei M einer Gesamtanzahl von Unterbändern entspricht.
  12. Verfahren nach einem der Ansprüche 7 bis 11, dadurch gekennzeichnet, dass die Filterbänke in kritischer Abtastung arbeiten.
  13. Verfahren nach einem der Ansprüche 7 bis 12, dadurch gekennzeichnet, dass die Filterbänke eine perfekte Rekonstruktionseigenschaft erfüllen.
  14. Verfahren nach einem der Ansprüche 2 bis 13, dadurch gekennzeichnet, dass das Filter mit Impulsantwort ein rationales Filter ist, das sich in Form eines Bruchteils von zwei Polynomen ausdrückt.
  15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Impulsantwort unendlich ist.
  16. Verfahren nach einem der Ansprüche 8 bis 15, dadurch gekennzeichnet, dass die vorbestimmte Anzahl (δ) von benachbarten Unterdiagonalen von einem Filterbank-Typ abhängt, der in der gewählten Kompressionscodierung verwendet wird.
  17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, dass die vorbestimmte Anzahl (δ) zwischen 1 und 5 liegt.
  18. Verfahren nach einem der Ansprüche 7 bis 17, dadurch gekennzeichnet, dass die Matrixelemente (Ln, Rn), die aus dem Matrixprodukt resultieren, in einem Speicher gespeichert und für alle teilweise codierten und an den Raum anzupassenden akustischen Signale wieder verwendet werden.
  19. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass es außerdem einen Schritt d) aufweist, der darin besteht, eine Synthesefilterbank an das erste (L) und das zweite Ausgangssignal (R) vor ihrer Wiedergabe anzuwenden.
  20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass es weiter einen Schritt c) vor dem Schritt d) aufweist, der darin besteht, das erste und das zweite Signal in einem Kommunikationsnetz ausgehend von einem fernen Server und zu einer Wiedergabevorrichtung in codierter und raumangepasster Form zu übermitteln, und dass der Schritt b) im fernen Server ausgeführt wird.
  21. Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass es außerdem einen Schritt c) vor dem Schritt d) aufweist, der darin besteht, das erste und das zweite Signal in einem Kommunikationsnetz ausgehend von einer Audiobrücke eines Mehrpunkt-Konferenzschaltungssystems mit zentralisierter Architektur und zu einer Wiedergabevorrichtung des Konferenzschaltungssystems in codierter und raumangepasster Form zu übermitteln, und dass der Schritt b) in der Audiobrücke ausgeführt wird.
  22. Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass es außerdem einen nach dem Schritt a) liegenden Schritt aufweist, der darin besteht, die akustischen Signale in kompressionscodierter Form in einem Kommunikationsnetz zu übermitteln, ausgehend von einem ferner Server und zu einem Wiedergabeendgerät, und dass die Schritte b) und d) im Wiedergabeendgerät ausgeführt werden.
  23. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass im Schritt b) eine Ton-Raumanpassung durch binaurale Synthese beruhend auf einer linearen Zersetzung von akustischen Übertragungsfunktionen angewendet wird.
  24. Verfahren nach Anspruch 23, dadurch gekennzeichnet, dass außerdem im Schritt b) eine Matrix von Verstärkungsfiltern (Gi) an jedes teilweise codierte akustische Signal (Si) angewendet wird, dass das erste und das zweite Ausgangssignal dazu bestimmt sind, in erste und zweite Wiedergabesignale (l, r) decodiert zu werden, und dass die Anwendung der Matrix von Verstärkungsfiltern darauf hinausläuft, eine gewählte Zeitverschiebung (ITD) zwischen dem ersten und dem zweiten Wiedergabesignal anzuwenden.
  25. Verfahren nach einem der Ansprüche 1 bis 22, dadurch gekennzeichnet, dass im Schritt a) mehr als zwei Sätze von Gewichtungstermen erhalten werden, und dass an die akustischen Signale im Schritt b) mehr als zwei Sätze von Filterungseinheiten angewendet werden, um mehr als zwei Ausgangssignale zu liefern, die codierte ambisonische Signale enthalten.
  26. System zur Verarbeitung von Tondaten, dadurch gekennzeichnet, dass es Mittel zur Anwendung des Verfahrens nach einem der vorhergehenden Ansprüche aufweist.
DE602004001868T 2003-02-27 2004-02-18 Verfahren zum bearbeiten komprimierter audiodaten zur räumlichen wiedergabe Expired - Lifetime DE602004001868T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0302397 2003-02-27
FR0302397A FR2851879A1 (fr) 2003-02-27 2003-02-27 Procede de traitement de donnees sonores compressees, pour spatialisation.
PCT/FR2004/000385 WO2004080124A1 (fr) 2003-02-27 2004-02-18 Procede de traitement de donnees sonores compressees, pour spatialisation

Publications (2)

Publication Number Publication Date
DE602004001868D1 DE602004001868D1 (de) 2006-09-21
DE602004001868T2 true DE602004001868T2 (de) 2007-03-08

Family

ID=32843028

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004001868T Expired - Lifetime DE602004001868T2 (de) 2003-02-27 2004-02-18 Verfahren zum bearbeiten komprimierter audiodaten zur räumlichen wiedergabe

Country Status (7)

Country Link
US (1) US20060198542A1 (de)
EP (1) EP1600042B1 (de)
AT (1) ATE336151T1 (de)
DE (1) DE602004001868T2 (de)
ES (1) ES2271847T3 (de)
FR (1) FR2851879A1 (de)
WO (1) WO2004080124A1 (de)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100606734B1 (ko) 2005-02-04 2006-08-01 엘지전자 주식회사 삼차원 입체음향 구현 방법 및 그 장치
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
KR100754220B1 (ko) * 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
US8059824B2 (en) 2006-03-13 2011-11-15 France Telecom Joint sound synthesis and spatialization
CN101401455A (zh) * 2006-03-15 2009-04-01 杜比实验室特许公司 使用子带滤波器的立体声呈现技术
FR2899423A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede et dispositif de spatialisation sonore binaurale efficace dans le domaine transforme.
EP1999847B1 (de) * 2006-03-28 2012-11-14 Telefonaktiebolaget LM Ericsson (publ) Filteradaptive frequenzauflösung
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8934641B2 (en) * 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US20080273708A1 (en) * 2007-05-03 2008-11-06 Telefonaktiebolaget L M Ericsson (Publ) Early Reflection Method for Enhanced Externalization
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
JP2009128559A (ja) * 2007-11-22 2009-06-11 Casio Comput Co Ltd 残響効果付加装置
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
KR101496760B1 (ko) * 2008-12-29 2015-02-27 삼성전자주식회사 서라운드 사운드 가상화 방법 및 장치
US8639046B2 (en) * 2009-05-04 2014-01-28 Mamigo Inc Method and system for scalable multi-user interactive visualization
CN102577441B (zh) * 2009-10-12 2015-06-03 诺基亚公司 用于音频处理的多路分析
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
US9491299B2 (en) * 2012-11-27 2016-11-08 Dolby Laboratories Licensing Corporation Teleconferencing using monophonic audio mixed with positional metadata
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
FR3009158A1 (fr) * 2013-07-24 2015-01-30 Orange Spatialisation sonore avec effet de salle
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US10249312B2 (en) * 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10598506B2 (en) * 2016-09-12 2020-03-24 Bragi GmbH Audio navigation using short range bilateral earpieces
FR3065137B1 (fr) 2017-04-07 2020-02-28 Axd Technologies, Llc Procede de spatialisation sonore

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG49883A1 (en) * 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
KR100206333B1 (ko) * 1996-10-08 1999-07-01 윤종용 두개의 스피커를 이용한 멀티채널 오디오 재생장치및 방법
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes

Also Published As

Publication number Publication date
ES2271847T3 (es) 2007-04-16
US20060198542A1 (en) 2006-09-07
EP1600042A1 (de) 2005-11-30
FR2851879A1 (fr) 2004-09-03
EP1600042B1 (de) 2006-08-09
DE602004001868D1 (de) 2006-09-21
ATE336151T1 (de) 2006-09-15
WO2004080124A1 (fr) 2004-09-16

Similar Documents

Publication Publication Date Title
DE602004001868T2 (de) Verfahren zum bearbeiten komprimierter audiodaten zur räumlichen wiedergabe
EP0750811B1 (de) Verfahren zum codieren mehrerer audiosignale
DE69933659T2 (de) Verfahren und system zur räumlichen kodierung mit niedriger bitrate
EP1854334B1 (de) Vorrichtung und verfahren zum erzeugen eines codierten stereo-signals eines audiostücks oder audiodatenstroms
EP1687809B1 (de) Vorrichtung und verfahren zur wiederherstellung eines multikanal-audiosignals und zum erzeugen eines parameterdatensatzes hierfür
DE60012860T2 (de) Verfahren zur Verarbeitung mehrerer digitaler Audiodatenströme
DE102007018032B4 (de) Erzeugung dekorrelierter Signale
DE602005006385T2 (de) Vorrichtung und verfahren zum konstruieren eines mehrkanaligen ausgangssignals oder zum erzeugen eines downmix-signals
DE60206390T2 (de) Effiziente und skalierbare parametrische stereocodierung für anwendungen mit niedriger bitrate
EP3117631B1 (de) Vorrichtung und verfahren zum verarbeiten eines signals im frequenzbereich
DE69827911T2 (de) Verfahren und einrichtung zur mehrkanaligen kompensation eines akustischen echos
DE602004008613T2 (de) Treueoptimierte kodierung mit variabler rahmenlänge
DE602004005020T2 (de) Audiosignalsynthese
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
DE602004010188T2 (de) Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal
EP1864279B1 (de) Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung
DE102013223201B3 (de) Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
DE602004005846T2 (de) Audiosignalgenerierung
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE10345995B4 (de) Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
US8880413B2 (en) Binaural spatialization of compression-encoded sound data utilizing phase shift and delay applied to each subband
EP1016319B1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
DE10236694A1 (de) Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
DE19715498A1 (de) Stereobildverbesserungsvorrichtung und -verfahren unter Verwendung von Tabellen
DE60024729T2 (de) System und verfahren zum effizienten antialiasing im zeitbereich (tdac)

Legal Events

Date Code Title Description
8364 No opposition during term of opposition