EP2357854B1

EP2357854B1 - Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale

Info

Publication number: EP2357854B1
Application number: EP10197378.2A
Authority: EP
Inventors: Alexander Lindau; Rolando Jorgos Estrella Cazuriaga
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 2010-01-07
Filing date: 2010-12-30
Publication date: 2016-03-09
Anticipated expiration: 2030-12-30
Also published as: ES2571044T3; EP2357854A1; PL2357854T3; HUE028661T2; HRP20160279T1

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale.
Die Realisierung plausibler oder gar authentischer virtueller akustischer Umgebungen ist seit längerer Zeit Ziel technischer Entwicklung im Bereich binauraler Audiosysteme und -verfahren. Diese Verfahren zielen auf die Erzeugung eines möglichst naturgetreuen räumlichen Höreindrucks beim Hörer (Nutzer, Versuchsperson, Patient usw.). Die wesentlichen Parameter bzw. sog. cues (Hinweise) für räumliches Hörens stellen -richtungs- und frequenzabhängige Laufzeit- und Pegeldifferenzen dar, die die Schallsignale einer Quelle beim Eintreffen an beiden Ohren bzw. den Trommelfellen eines Hörers aufweisen. Hierzu sei verwiesen auf die sog. Duplextheorie des Hörens nach Lord Rayleigh.
Diese Parameter müssen von einem System zur Simulation virtueller (Raum-)Akustik (auch kurz VAE bzw. virtual acoustic environment genannt) korrekt hergestellt werden können. Im Allgemeinen spricht man dabei von der interauralen Laufzeitdifferenz (auch kurz ITD bzw. interaural time delay genannt) oder von der interauralen Pegeldifferenz (auch kurz ILD bzw. interaural level difference genannt). Letztere ist im Wesentlichen auf den Kopf als Hindernis bei der Schallausbreitung zurückzuführen, feinere Unterschiede lassen sich auf die spezifische Form der Außenohren zurückführen. Die interaurale Laufzeitdifferenz ITD ergibt sich dagegen hauptsächlich aus dem geometrischen Abstand beider Ohren, welcher positionsabhängig zu unterschiedlichen Eintreffzeitpunkten des Schalls einer Quelle an den Trommelfellen führt. Die ITD lässt sich nur innerhalb eines Frequenzbereichs bis ca. 1500 Hz sinnvoll für die Lokalisation auswerten, oberhalb davon verhindern Ambiguitäten diese Auswertung und die Pegeldifferenz ILD bestimmt zunehmend die wahrgenommene Schalleinfallsrichtung. Beide Aspekte sind teilweise gegeneinander austauschbar (sog. "Laufzeit-Intensitäts-Trading"), wovon z.B. die Stereofonie profitiert, die so wahlweise als Laufzeit-, Pegel- oder gemischte Stereofonie realisierbar ist.
Eine vollständige, frequenzabhängige Beschreibung sowohl der zeitlichen als auch der spektralen Informationen des Schallfelds stellt die kopfbezogene oder Außenohr-Übertragungsfunktion dar. Sie ist definiert als das Verhältnis der folgenden Übertragungsfunktionen: Zum einen der Übertragungsfunktion gemessen am Trommelfell eines Hörers (wahlweise auch am geblockten Ohrkanaleingang eines Kunstkopfes) und zum zweiten der Übertragungsfunktion eines Kugelmikrofons in Kopfmitte bei dessen Abwesenheit. Diese sogenannte kopfbezogenen Übertragungsfunktion (auch kurz HRIR bzw. HRTF genannt, wobei HRIR für head related impulse response und HRTF für head related transfer function stehen) ist per Definition nachhallfrei. In der GB-A-2 369 976 wird beispielsweise ein Verfahren zur Synthese einer gemittelten Diffus-Feld-HRTF beschrieben. Ein Verfahren und eine Vorrichtung zur Verarbeitung von interauraler Zeitverschiebung ("Method and Apparatus for Processing Interaural Time Delay in 3D Digital Audio") wird in US 7,174,229 B1 beschrieben. In US 6,795,556 wird die Modifizierung von kopfbezogenen Übertragungsfunktion (HRTFs) beschrieben. Verfahren zur Messung von HRTFs werden in der EP 0912077 B1 oder der DE 69523643 T2 beschrieben.
Werden hingegen Kunstkopfübertragungsfunktionen einer elektro-akustischen Quelle in einem nachhallbehafteten Raumschallfeld vermessen, so spricht man unterscheidend dazu von BRIRs oder BRTFs (binaural room impulse responses bzw. transfer functions), also von kopfbezogenen Übertragungsfunktionen, die auch den nachhallenden Raum mit umfassen. Mittels einer solchen kopfbezogenen Übertragungsfunktion kann man den akustischen Eindruck sog. virtueller Schallquellen mit hoher Plausibilität erzeugen. Filtert man nämlich ein beliebiges nachhallfreien Audiosignal mit den HRTF des linken und rechten Ohres, stellt sich bei der Wiedergabe z.B. über Kopfhörer ein Schallereignis mit mehr oder minder korrektem Richtungs- und Entfernungseindruck ein. Etwas vereinfachend besagt die Theorie der Binauraltechnik, dass die auf diese Weise mögliche, perfekte Rekonstruktion des Schalldruckzeitverlaufs am Trommelfell zu einem, dem realen Hören eines identischen Hörereignisses führt.
An sich bekannt sind rechnerbezogene Verfahren und Systeme für numerische Raumakustiksimulation, die Datenbanken mit HRTF-Datensätzen eines individuell vermessenen Hörers oder eines Kunstkopfes in hoher räumlicher Winkelauflösung aufweisen und die das Berechnen der vollständigen Raumimpulsantwort an ausgewählten Hörerplätzen ermöglichen, jedoch idealerweise nur für diesen individuellen Hörer oder für einen Hörer, dessen Physiognomie bzw. Anthropometrie nur unwesentlich von der des verwendeten Kunstkopfes abweicht. Dazu werden, vereinfacht gesagt, unter Verwendung eines Strahlenmodells aus der Optik, mögliche Schallpfade von der Quelle zum Hörer nachgebildet. Jeder Schallpfad entspricht einer Raumreflexion; durch Gewichtung der Schallpfade mit der der Einfallsrichtung des Schallpfads entsprechenden HRTF des linken und rechten Ohres und nach Superpositionierung aller derart gewichteten Reflexionen der Raumimpulsantwort ergibt sich eine binaurale Raumimpulsantwort des virtuellen Raums. Dieser Raum kann nun durch Filterung nachhallfreien Audiomaterials mit dieser BRIR hörbar gemacht werden; man spricht dann auch von "Auralisation".
Alternativ dazu können auch die BRIRs direkt in-situ gemessen werden. Dazu werden die BRIRs unter Verwendung elektroakustischer Anregequellen (Lautsprecher) und eines sog. Kunstkopf-Torsosimulators bzw. Roboters (auch kurz als HATS bezeichnet; head and torso simulator) vermessen. Ein solcher Roboter (HATS) ermöglicht aufgrund einer Nachbildung der multiplen Freiheitsgrade der Kopfbewegung (z.B. 4 rotatorische, 3 translatorische) eine automatisierte und räumlich feine Vermessung der BRIRs für Kopfbewegungen eines Hörers und kann eine deutlich höhere Klangqualität und Nähe zum Original erzielen. In dem Artikel Lindau, A.; Weinzierl, S. (2007): "Fabian - Schnelle Erfassung binauraler Raumimpulsantworten in mehreren Freiheitsgraden." von A. Lindau und S. Weinzierl, erschienen in "Fortschritte der Akustik", Tagungsband der 33. DAGA Stuttgart, Deutschland, wird eine solche Technologie unter der Bezeichnung FABIAN vorgestellt. Der HATS FABIAN wird durch einen Softwaregesteuerten automatisierbaren Roboter realisiert, der aus einem mit Außenohren abgeformtem Kunstkopf und generisch nachempfundenem menschlichem Körper besteht. Der Roboter dient zum Erreichen natürlicher Schallfeldbeeinflussung (Beugung, Abschattung, Reflektion) als Resultat am Ort der eigentlichen Messung des Schallfelds, der beiden Mikrofonmembranen am geblockten Ohrkanal. Durch Verwendung eines solchen HATS kann eine verbesserte Auralisation erreicht werden.
Eine weitere Verbesserung durch Erhöhung der Plausibilität binauraler raumakustischer Simulation ergibt sich, wenn die Interaktivität des Hörers berücksichtigt wird, d.h. wenn das Reagieren der Simulation auf Kopfbewegungen des Hörers berücksichtig wird. Wünschenswert wäre es, wenn jedwede gewollte oder unbewusste Kopfbewegung kompensiert werden könnte, um somit zu einem plausiblen und fehlerfreien räumlichen Hören beizutragen. Dazu müssten jedoch für jede in einer späteren Auralisation zu berücksichtigenden Kopfstellung des Hörers (evtl. bzgl. verschiedener translatorischer und rotatorischer Freiheitsgrade) die kopfbezogenen Übertragungsfunktionen als HRTFs bzw. BRIRs vorliegen. Bekannt ist bereits, eine auf moderner Computerhardware ausgeführte Implementation echtzeitfähiger, zeitvarianter schneller Faltungsalgorithmen, die den Kopfbewegungen des Hörers (durch sog. head tracking) folgend, die HRTFs oder BRIRs unhörbar schnell austauschen, so dass sich z.B. im Falle von HRTFs relative Bewegungen zwischen Quelle und Empfänger oder im Falle von BRIRs ein Raumschallfeld, welches sich bei Kopfbewegungen nicht mehr "mitdreht" simulieren lassen. Zudem können auch typische Abbildungsartefakte der sog. statischen Kunstkopftechnik, wie "Vorne-Hinten-Vertauschungen" und "Im-Kopf-Lokalisation", wirkungsvoll eliminiert bzw. reduziert werden.
In der US 2006/045294 A1 wird ein Verfahren zur Erzeugung individuell anpassbarer Audiosignale beschrieben, bei dem ein Hörer (listener) den Klang von virtuellen Lautsprechern über Kopfhörer mit einem realitätsnahen Höreindruck erleben kann, der schwer von dem Höreindruck echter Lautsprecher zu unterscheiden ist. Dazu werden mehrere personalisierte Raumimpulsantworten (PRIRs) für die Lautsprecher-Schallquellen über eine begrenzte Anzahl von Zuhörer-Kopfpositionen ermittelt. Dann werden die PRIRs verwendet, um ein Audiosignal für die Lautsprecher in eine virtualisierte Ausgabe für den Kopfhörer zu wandeln bzw. zu transformieren. Indem die Transformation auf der Kopfposition des Hörers (listeners) basiert, kann das System die Transformation so anpassen, dass die virtuellen Lautsprecher sich nicht zu bewegen scheinen, wenn der Hörer seinen Kopf bewegt.
Der Artikel "Finding the onset of a room impulse response: Straightforward?" von G. Defrance et al., erschienen in "The Journal of the Acoustical Society of America (JASA)", Band 124(4), Seiten 248-254, Ausgabe Oct. 2008, Online publiziert am 24. Sep. 2008, befasst sich mit der genauen Bestimmung des Onset (Beginn der Audiosignale bzw. - daten) in Bezug auf die zeitliche Dimension (timing) der räumlichen Impulsantworten (room impuls responses: RIRs).
In der US 7174229 B1 werden ein Verfahren und eine Vorrichtung zur Verarbeitung interauraler Zeitverzögerung in 3D digitalen Audiosignalen bzw. -daten beschrieben. Für das Wiedereinbringen extrahierter oder modellierter ITDs in HRTF-Datensätzen (keine Räume) wird allerdings ein umständliches zweistufiges Delay aus samplegenauen FIFO-Puffern und fraktionalen Allpassfiltern (Auftrennung von sample- und subsample-delay) verwendet. Somit benötigt dieser Vorschlag eine ungenannte Anzahl von expilizit für jede fraktionale Zeiteinheit entworfener Filter, die z.B. durch Parallelschaltung realisiert werden und durch Anwahl mit einem Schalter selektierbar gemacht werden müssen.
In der US 6795556 wird ein Verfahren beschrieben, das auf eine Skalierung von empirischen "non standard" HRTF-Cues abzielt, sowohl im Zeit- als auch im Frequenzbereich ab. Auch dieses Verfahren geht nicht über das zuvor beschriebene hinaus.
Obwohl die bekannten Verfahren und Vorrichtungen bereits mittels datenbasierter, dynamischer binauraler Simulation eine hochplausible Simulation von Raumakustik ermöglichen, bestehen noch viele Herausforderungen, um zu einer perzeptiven Perfektionierung gelangen zu können. Hier sind insbesondere folgende Aufgabenbereiche zu nennen:

Die Wahrnehmbarkeit von Latenz bei der Verarbeitung der Kopfbewegung, die minimal notwendige Granularität des Gridrasters der BRIRs bzgl. Kopfbewegungen in allen rotatorischen Freiheitsgraden, die biskriminierbarkeit räumlich getrennter Quellen, beschleunigte BRIR-Messverfahren, die Simulation natürlicher Quellrichtcharakteristika (Sprecher, Instrumente) und/oder die optimale Frequenzgangsentzerrung der Wiedergabestrecke.

Im Kreise der Erfinder wurde eine Evaluation der Simulationsumgebung durch direkten A-B-Vergleich (also Vergleich unter direktem Schalten von einer Quelle zu einer anderen, um einen unbeeinflußten und möglichst objektiven. Vergleich zu ermöglichen) von simuliertem und realem Schallfeld durchgeführt, die neben einer erfreulich geringen Erkennungsrate von 52.6% leider auch eine Anzahl verbleibender perzeptiver Artefakte zeigte, von denen als besonderes prägnante Probleme das Auftreten von Klangverfärbung und Lokalisationsfehler hervortreten.
Demnach ist es Aufgabe der Erfindung, ein Verfahren der eingangs genannten Art vorzuschlagen, das die zuvor genannten Probleme in vorteilhafter Weise überwindet. Insbesondere soll das Auftreten perzeptiver Artefakte wie beispielsweise von Lokalisationsfehlern, Latenzwahrnehmung oder Überblendungsfehlern eliminiert oder zumindest deutlich reduziert werden. Außerdem soll eine Vorrichtung zur Durchführung des Verfahrens vorgeschlagen werden.
Gelöst wird die Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1 sowie durch eine Vorrichtung mit den Merkmalen des nebengeordneten Anspruchs.
Demnach wird ein Verfahren vorgeschlagen, bei dem zur Erzeugung individuell anpassbarer binauraler Audiosignale folgende Schritte ausgeführt werden:

aus kopfbezogenen Übertragungsfunktionen, die verschiedenen Kopfpositionen zugeordnet sind, werden mittels Extraktion von interauralen Laufzeiten laufzeitbefreite kopfbezogene Übertragungsfunktionen und dazu korrespondierende Laufzeit-Differenzen berechnet;
mittels einer Binauralsynthese werden laufzeitbefreite Audiosignale erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei in Abhängigkeit von Kopfpositions-Daten die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen für eine aktuelle Kopfposition verwendet werden; und
aus den laufzeitbefreiten Audiosignalen werden die individuell anpassbaren binauralen Audiosignale erzeugt, indem zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal mit einer zeitlichen Verzögerung in Abhängigkeit von der für die aktuelle Kopfposition berechneten Laufzeit-Differenz und in Abhängigkeit eines individuellen Skalierungsfaktors beaufschlagt wird,
wobei bei einer auftretenden Änderung von einer vorherigen Kopfposition in die aktuelle Kopfposition die zeitliche Verzögerung zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion verändert wird, wobei die Abtastratenkonversion einen Konversionsfaktor verwendet um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen, und wobei der für die Abtastratenkonversion verwendete Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt wird.

Ebenfalls wird eine Vorrichtung zur Durchführung des Verfahrens vorgeschlagen, wobei die Vorrichtung zur Erzeugung räumlich wahrnehmbarer binauraler Audiosignale folgende Komponenten aufweist:

eine erste Schaltung, die aus kopfbezogenen Übertragungsfunktionen, die verschiedenen Kopfpositionen zugeordnet sind, interaurale Laufzeiten extrahiert und daraus Laufzeit-Differenzen berechnet;
eine zweite Schaltung, die mittels einer Binauralsynthese laufzeitbefreite Audiosignale erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei diese Schaltung in Abhängigkeit von Kopfpositions-Daten die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen für eine aktuelle Kopfposition verwendet; und
mindestens eine dritte Schaltung, die aus den laufzeitbefreiten Audiosignalen die individuell anpassbaren binauralen Audiosignale erzeugt, indem diese Schaltung zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal mit einer zeitlichen Verzögerung in Abhängigkeit von der für die aktuelle Kopfposition berechneten Laufzeit-Differenz und in Abhängigkeit eines individuellen Skalierungsfaktors beaufschlagt wobei sie in der Lage ist, die kopfpositionsbedingten Veränderungen der Laufzeitdifferenzen im Signal auf unhörbare Weise zu vollziehen.

Demnach wird vorgeschlagen, aus kopfbezogenen Übertragungsfunktionen, wie z.B. BRIRs, die interauralen Laufzeiten zu extrahieren, um somit laufzeitbefreite Übertragungsfunktionen zu erhalten, und aus den extrahierten Laufzeiten Laufzeitdifferenzen zu berechnen, die in einem späteren Schritt zusammen mit einem individuellen Skalierungsfaktor verwendet werden, um die Audiosignale damit zu beaufschlagen, welche durch eine Binauralsynthese in Abhängigkeit der aktuellen Kopfposition mittels der laufzeitbefreiten Übertragungsfunktionen erzeugt wurden. Demzufolge wird in einem mehrstufigen Verfahren die kopfbezogene Übertragungsfunktionen von den interauralen Laufzeiten befreit, die sich auf eine bestimmte Anthropometrie (z.B. die eines Kunstkopfes) beziehen, und es werden laufzeitbefreite Audiosignale mittels einer Binauralsynthese erzeugt und anschließend durch eine zeitliche Verzögerung, die individuell gewichtet wird (Skalierungsfaktor), mit den für die jeweilige Person bzw. den Nutzer passenden Laufzeiten beaufschlagt, so dass ein deutlich verbesserter räumlicher Höreindruck erzielt werden kann. Insbesondere entspricht die zeitliche Verzögerung einem Wert, der aus der Wichtung der für die aktuelle Kopfposition berechneten Laufzeit-Differenz und dem individuellen Skalierungsfaktor berechnet wird.
Das Verfahren wird dynamisch gestaltet, indem bei einer auftretenden Änderung von einer vorherigen Kopfposition in die aktuelle Kopfposition die zeitliche Verzögerung zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion bzw. sample rate conversion (SRC) verändert wird. Dabei verwendet die Abtastratenkonversion einen Konversionsfaktor um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen, wobei der für die Abtastratenkonversion verwendete Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt wird.
Durch die Anwendung eines SRC-Verfahrens, das auf Basis zeitlich kurzer Audioblöcke - wahrgenommen latenzlos - arbeitet, ist eine nahtlose Änderung der Laufzeitdifferenz bei Kopfbewegungen möglich.
Mit dem Verfahren können die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen für eine Vielzahl von Kopfpositionen und/oder für eine Vielzahl von Audiosignal-Quellen berechnet werden. Bei der Vielzahl von Kopfpositionen kann es sich z.B. um die Auflösung der Blickrichtung in kleinen Winkeländerungen bzw. -schritten, von z.B. 1 Grad, handeln. Die Anzahl der Quellen (Schall- bzw. Audioquellen) kann sehr groß sein, wobei pro Quelle und für jeden Signalpfad (linker und rechter Ohrkanal) ein Audiosignal erzeugt wird. Diese können dann nach der individuellen Gewichtung (Laufzeit-Verzögerung) für jeden Signalpfad superpositioniert werden.
Die zu Beginn des Verfahren durchgeführte Extraktion der interauralen Laufzeiten aus den kopfbezogenen Übertragungsfunktionen kann z.B. mittels eines der folgenden Verfahren durchgeführt werden: Onset-Verfahren, interaurales Kreuzkorrelationsverfahren, frequenzabhängige Gruppenlaufzeitdifferenzbildung, Differenzbildung der frequenzabhängig linear angenäherten Phasengradienten oder Bestimmung des Exzessphasenanteils aus Division der Ü.-funktionen vor und nach Hilbertransformation. Insbesondere das Onset-Verfahren führt zu sehr guten Ergebnissen, was später noch im Detail beschrieben wird.
Die Erfindung löst in vorteilhafter Weise das Problem, dass bei Auralisationsverfahren normalerweise die kopfbezogenen Übertragungsfunktionen HRTFs oder BRIRs immer nur für die Anthropometrie eines bestimmten Individuums bzw. für einen bestimmten Kunstkopf gelten, wodurch individuellen Unterschiede, wie z.B. die des Kopfdurchmessers nicht exakt durch die in den Übertragungsfunktionen enthaltenen Laufzeitinformationen repräsentiert werden, was dazu führt, dass andere Hörer, also "fremde" Personen, eine mehr oder minder stark verzerrte Wahrnehmung von Lokalisation und - bei Kopfbewegungen - die Empfindung einer naturgemäß nicht vorhandenen, räumlichen Bewegung der Audiosignale (Lokalisationsinstabilität) erfahren.
Durch die Erfindung werden also Lokalisationsfehler aufgrund eines falschen Kopfdurchmessers (Abweichung vom Kunstkopf) vermieden. Als Nebenaspekt der gewählten Vorgehensweise (Laufzeitbefreiung und quasi-minimalphasige Überblendung) ergeben sich zudem deutliche Verbesserungen hinsichtlich der Latenzaspekte und der hörbaren Fehler bei der Überblendung bei Kopfbewegungen.
Untersuchungen der Erfinder haben gezeigt, dass die auftretenden Artefakte unterschiedlich starken Einfluss auf die Authentizität der Hörwahrnehmung haben. So können offensichtliche Klangfarbenfehler ohne direkte Referenz schnell unmerkbar werden, da beim Hörer eine Gewöhnung eintritt; das absolute Klangfarbengedächtnis ist im Allgemeinen eher schlecht. Schwerwiegender erscheint die Adaption an Abweichungen in den Kopfdimensionen und die daraus resultierenden falschen Laufzeitinformationen von Schallsignalen. So führt ein zu großer Kopfdurchmesser im generischen Datensatz zu einer wahrgenommen Bewegung frontaler Quellen in entgegengesetzte Kopfbewegungsrichtung; im ungekehrten Falle "folgen" die Quellen scheinbar in geringem Maße den Bewegungen des Hörers. Dieses Artefakt kann sehr störend sein und Adaptionsfähigkeiten sind bisher nicht untersucht. Die Erfindung reduziert auch die normalerweise auftretenden Überblendungsfehler ("Stottern"), die dadurch entstehen, dass bei einem Echtzeitaustausch der HRTFs bzw. BRIRs Filter mit Laufzeitversätzen ineinander überblendet werden. Dieses zeitliche "missalignment" führt zu typischen kammfilterartigen Überblendartefakten, die besonders bei quasistationären Inhalten (bei Sprachanwendungen z.B. bei Vokalen, bei Musik z.B. bei "Streicherteppichen") deutlich und störend zu Tage treten. Die Erfindung reduziert diese Überblendungsfehler, indem die Überblendung der Übertragungsfunktionen und das Einfügen von Laufzeitdifferenzen bei der Binauralsynthese zeitlich aufeinander folgend und nicht - wie herkömmlich üblich - zeitgleich erfolgen.
Nachfolgend wird die Erfindung und die sich daraus ergebenden Vorteile anhand von Ausführungsbeispielen und mit Bezug auf die beiliegenden Zeichnungen beschrieben, die folgende schematische Darstellungen wiedergeben:

Fig. 1: zeigt das Ablaufdiagramm für ein erfindungsgemäßes Verfahren;
Fig. 2: veranschaulicht die Extraktion von interauralen Laufzeiten und die Berechnung von individuellen Laufzeitdifferenzen;
Fig. 3: zeigt als Blockschaltbild den Teil der erfindungsgemäßen Vorrichtung, der eine individuelle skalierbare Audiosignal-Verzögerung auf der Basis der berechneten individuellen Laufzeitdifferenzen bewirkt;
Fig. 4a: zeigt als Blockschaltbild eine Schaltung zur Durchführung einer dynamischen Binauralsynthese;
Fig. 4b: zeigt das Blockschaltbild nach Fig. 4a mit erläuternder Beschriftung einzelner Schaltungs- bzw. Funktionsblöcke;
Fig. 5a: zeigt als Blockschaltbild eine erfindungsgemäß ausgestaltete Schaltung zur Durchführung einer individualisierten dynamischen Binauralsynthese und zum Einsatz in der erfindungsgemäßen Vorrichtung; und
Fig. 5b: zeigt das Blockschaltbild nach Fig. 5a mit erläuternder Beschriftung einzelner Schaltungs- bzw. Funktionsblöcke;

Die Fig. 1 zeigt das Ablaufdiagramm für ein erfindungsgemäßes Verfahren 100, das mehre Schritte aufweist, die im wesentlichen folgendes beinhalten:

In einem ersten Schritt 110 werden aus normalen kopfbezogenen Übertragungsfunktionen, wie z.B. BRIRs, laufzeitbefreite Übertragungsfunktionen gewonnen sowie interaurale Laufzeiten extrahiert und in Differenzen umgerechnet. Dies wird noch näher anhand der Fig. 2 beschrieben, die ein schematisches Blockschaltbild einer ersten Schaltung A darstellt.

In einem zweiten Schritt 120 wird mittels der laufzeitbefreite Übertragungsfunktionen eine Binauralsynthese durchgeführt, um laufzeitbefreite Audiosignale L' bzw. R' zu erzeugen. Dies wird noch eingehender anhand der Fig. 5a/b beschrieben. Die an sich bekannte Binauralsynthese wird noch anhand der Fig. 4a/b beschrieben.
In einem dritten Schritt 130 wird eine Echtzeit-Synthese durchgeführt, um die ersten Audiosignale individuell mit einer skalierbaren Zeitverzögerung zu beaufschlagen. Dies wird noch näher anhand der Fig. 3 sowie Fig. 5a/b beschrieben.
Zunächst soll hier der erste Schritt 110 beschrieben werden: Wie die Fig. 2 veranschaulicht umfasst die Schaltung A mehrere Funktionsblöcke 111 bis 117, die jeweils einen Teilschritt der Schrittfolge 110 (s. Fig. 1) repräsentieren. Die Fig. 2 veranschaulicht somit Vorverarbeitung der Impulsantwortdatensätze, wobei eine nahezu unhörbar genaue Extraktion der ITD aus empirischen HRTF-/BRIR-Datensätzen durch Onsetdetektion erzielt werden kann.
Zunächst werden in einem Teilschritt 111 normale Übertragungsfunktionen BRIR (alternativ auch HRIR) aus einer Datenbank ausgelesen. Dann folgt eine Überabtastung um einen Betrag, der eine mehr als gehörgenaue Extraktion der Laufzeiten aus den Impulsantworten erlaubt (z.B. 10-fach bzgl. einer üblichen Audioabtastrate von 44.1 oder 48kHz) im Block 112. Danach können in einem Block 113 dann die Onsets (Beginn der Audiosignale bzw. - daten) aufgefunden werden. Anschließend wird im Block 114 die die Länge der onsetbefreiten (quasi-minimalphasigen) Impulsantwort bestimmt und in einem Block 115 als Vektor angelegt. Durch anschließende, z.B. wieder 10-fache, Unterabtastung im Block 116 ergeben sich im Block 117 laufzeitfreie Übertragungsfunktionen sowie die extrahierten Laufzeiten, die als Laufzeitdifferenzen ITD berechnet und abgespeichert werden. Zusätzlich können noch beschreibende Metadatensätze DSI hinzugefügt werden. Das anhand der Fig. 2 veranschaulichte Verfahren verwendet das Onset-Verfahren zur Bestimmung der laufzeitbefreiten Impulsantworten. Hierauf wird später noch näher eingegangen.
Zunächst sei hier angemerkt, dass zwischen den an sich bekannten filtertheoretischen Aspekten von Übertragungsfunktionen, wie HRTFs oder BRIRs, und der Erfindung folgende Zusammenhänge bestehen:

Lineare, zeitinvariante und nichtrekursive Systeme, zu denen Außenohr- und binaurale Raumübertragungsfunktionen zu zählen sind, sind laut der elementaren Filtertheorie vollständig durch ihre endliche Impulsantwort beschrieben. Im digitalen Falle handelt sich damit um FIR- (finite impulse response) Filter. Diese werden in Form von mit den Filterkoeffizienten gewichteten, akkumulierenden delaylines technisch realisiert; somit stellen sie Implementierungen der diskreten Faltungsumme dar. Die zeitliche Auflösung entspricht dabei der Abtastrate des Audiosignals (z.B. 44.1 kHz). Im Falle empirischer HRTFs oder BRIRs liegen zumeist gemischtphasige Filter x_mix(n) vor. Sie lassen sich in drei Anteile zerlegen: $x_{mix} (n) = x_{linear} (n) + x_{allpass} (n) + x_{minimal} (n)$

Die interaurale Laufzeitdifferenz ergibt sich als Differenz der Laufzeiten der HRTF bzw. BRIR des linken und rechten Ohres. Diese Laufzeiten ergeben sich wiederum als Summe des linearphasigen (reiner Laufzeitanteil) und des allpasshaltigen (frequenzabhängige Phasengangsverzerrungen ohne spektrale Verzerrungen) dem sog. Exzessphasenanteil. $x_{exzess} (n) = x_{linear} (n) + x_{allpass} (n)$
Der verbleibende minimalphasige Anteil X_minimal(n) beschreibt allein die spektralen Veränderungen (ILD) und enthält keine absoluten oder relativen Laufzeitinformationen mehr.
Die interaurale Laufzeitdifferenz ITD ist frequenzabhängig. Der für eine korrekte Lokalisation wesentliche Anteil (< 1500Hz) ist jedoch relativ konstant und lässt sich mehr oder minder artefaktfrei extrahieren. Als Verfahren eignet sich insbesondere die Onset-Detektion, wie es anhand der Fig. 2 veranschaulicht wird. Als Alternative eignet sich auch die Bestimmung des Exzessphasenanteils durch Nutzung der Hilberttransformation, frequenzbereichsspezifisches Phasen-gradienten-Matching, Maximum der interauralen Kreuzkorrelation oder die frequenzbereichsspezifische Bestimmung der interauralen Gruppenlaufzeitdifferenz.
Diese genannten Methoden unterschieden sich im Wesentlichen darin, ob sie den Allpassanteil ebenfalls extrahieren können (Hilbertverfahren) oder nicht (alle anderen). Hörbare Fehler in Folge der Vernachlässigung des Allpassanteils treten jedoch nur für wenige Einfallsrichtungen des Schalls auf. Zum überwiegenden Teil sind empirische HRTFs lediglich aus Kombinationen minimalphasiger und linearphasiger Anteile gebildet. Nachweislich hörbare Fehler beim Zusammensetzen "nicht-allpassenthaltender" Laufzeiten mit analytisch perfekt minimalphasigen Spektren ergeben sich nur am contralateralen (abgewandten) Ohr bei stark lateralem Schalleinfall. Inwieweit diese Verfahren auch auf in Räumen vermessene BRIRs anwenden lassen (und nicht nur auf nachhallfreie HRTFs) wurde von den Erfindern untersucht. Dabei ergab sich, dass im Falle von BRIRs nur das Onset-Verfahren genau genug (vgl. dagegen Kreuzkorrelationsverfahren), robust genug (vgl. dagegen Phasengradientenverfahren), überhaupt anwendbar (vgl. dagegen Gruppenlaufzeitdifferenzverfahren) und klangfarbentreu (vgl. dagegen Hilbertverfahren) ist. Intrinsisch bedingt konserviert das Onsetverfahren zudem mögliche Allpassanteile der BRIRs in vorteilhafter Weise; sie gehen nicht verloren, sondern bleiben in den laufzeitfreien Spektren erhalten, die daher hier als quasi-minimalphasig bezeichnet werden. In formalen und kriterienfreien Hörversuchen wurde bestätigt, dass bei der Resynthese der extrahierten Laufzeiten und den quasi-minimalphasigen Spektren auch bei kontralateralem Schalleinfall erwartungsgemäß keine Lokalisationsfehler auftreten. Weitere formale Hörversuche zeigten, dass die aufgrund der Hilberttransformation auftretenden Veränderungen der Nachhallstruktur in jedem Falle hörbar sind.
Es sind zudem geometrisch-modellbasierte Ansätze bekannt, die aus Angaben anthropometrischer Daten des Kopfes die ITD winkelabhängig berechnen. Diese Methoden weisen subjektiv jedoch Mängel auf und haben den wesentlichen Nachteil, dass für eine modellbasiert zu generierende ITD die Schalleinfallsrichtung, d.h. die virtuellen Quellpositionen, auf denen empirische HRTF- oder BRIR-Datensätze basieren, bekannt sein müssen. Bei HRTFs ist dies ein banales Problem, da eine HRTF ja genau den Schalleinfall für eine spezifische Richtung, bzw. einen spezifischen Einfallswinkel beschreibt. Bei der Vermessung von Schallfeldern in Räumen mit beweglichen Kunstköpfen sind jedoch beliebige Quellpositionen denkbar (z.B. bei simulierte Konzertsituationen). Diese sind aus den Datensätzen nicht mehr zwingend funktional basiert extrahierbar. Die an sich bekannte modellbasierte ITD-Genese ist also eher nur für parametrische, numerisch-modellhafte Ansätze der virtuellen Akustik und weniger für in-situ vermessen BRIRs geeignet.
Gemäß der Erfindung werden die kopfbezogenen Übertragungsfunktionen von den Laufzeiten befreit. Nach der Trennung von quasi-minimalphasigem Spektrum und Laufzeit können beide dann getrennt der Resynthese zugeführt werden, wobei eine skalierbare und auf das Individuum angepasste Resynthese durchgeführt werden kann (s. Fig. 3 und Fig. 5a/b). Vorteile hierbei sind Latenzreduktion und eine Verkürzung der vorzuhaltenden HRTFs (wenn diese, wie bisher implizit angenommen als FIR-Filter ausgeführt sind) um eben die extrahierte Laufzeit. Prinzipiell lassen sich die HRTFs auch als IIR-Filter (infinite impulse response) - entweder durch Modellierung/Schätzung von gemessenen HRTFs die zwangsweise immer als FIR-Filter (finite impulse response) vorliegen, oder durch parametrische Modellierung wesentlicher Features - generieren.
Das hier beschriebene Verfahren ist prinzipiell auf in beliebiger Weise erzeugte kopfbezogene Übertragungsfunktionen anwendbar. Sie wird hier aber am Beispiel von als FIR-Filtern vorliegenden empirischen HRTF-/BRIR-Datensätzen beschrieben, wie sie z.B. mit dem eingangs genannten Roboter (HATS FABIAN, siehe Lindau et al. 2007) vermessen wurden.
In Bezug auf die in der Fig. 2 veranschaulichten Extraktion aus bestehenden Übertragungsfunktionen BRIR/HRIR ist zu sagen, dass diese mittels des besagten Roboters FABIAN gewonnen werden können:

Der von den Erfindern eingesetzte Roboter FABIAN besitzt Bewegungsmöglichkeiten in 7 Freiheitsgraden (4 rotatorische, 3 translatorische). Der durch Softwaresteuerung automatisierbare Roboter besteht aus einem mit Außenohren abgeformtem Kunstkopf und generisch nachempfundenem menschlichem Körper. Der Roboter dient zum Erreichen natürlicher Schallfeldbeeinflussung (Beugung, Abschattung, Reflektion) als Resultat am Ort der eigentlichen Messung des Schallfelds, der beiden Mikrofonmembranen am geblockten Ohrkanal.

Die im Folgenden beschriebenen Algorithmen der Erfindung beziehen sich exemplarisch auf die Verwendung von BRIR-Datensätzen, die mit einem solchen Roboter gewonnen werden können. Das Verfahren ist aber nicht auf diese Datensätze beschränkt, sondern auf jegliche Auralisationsverfahren anwendbar, die räumliche Schalllokalisation durch Filterung kopfbezogener Impulsantworten mit Audiosignalen realisieren.
Das Verfahren erreicht eine wesentliche Verbesserung der auf empirischen HRTF-/BRIR-Datensätzen basierenden dynamischen Binauralsynthese und bietet insbesondere folgende Vorteile:

i) eine nahezu unhörbar genaue Extraktion und
ii) eine ebenfalls unhörbare individuelle, echtzeitfähige Rekonstruktion und Manipulation (frequenzunabhängige Skalierung) der interauralen Laufzeitdifferenz.

Das Verfahren 100 (s. Fig. 1) umfasst dazu in einen Vorverarbeitungs-Schritt 110 (s. Fig. 1 sowie auch Teilblöcke in Fig. 2) und einen Echtzeit-Resynthese-Schritt 130 (s. Fig. 1 sowie auch Fig. 3), der einem dynamischen Binauralsynthese-Algorithmus bzw. Schritt 120 (s. Fig. 1 sowie auch Fig. 4a/b) nachgeschaltet wird (siehe Fig. 5a/b).
Zur Funktionsweise und zum Aufbau der erfindungsgemäßen Vorrichtung (s. Fig. 5a/b) sowie des von ihr ausgeführten Verfahrens (s. insbes. Fig. 1) ist zu sagen:

Zunächst erfolgt im Rahmen des Schritts 110 die Vorverarbeitung der Impulsantwortdatensätze. Das vorzuschlagende Verfahren setzt dazu bei der Extraktion der interauralen Laufzeit aus generischen HRTF-/BRIR-Datensätzen an. Die Gewinnung der BRIR-Datensätze (Block 111 in Fig. 2) erfolgt vorzugsweise mittels des zuvor beschrieben Roboters in realen Räumen für beliebige Anzahlen von elektroakustischen Quellen und unter Verwendung eines fein aufgelöster Kopfbewegungsrasters innerhalb physiologisch sinnvoller Drehbereiche.

Liegen die empirischen Datensätze vor, so werden zunächst die Laufzeiten extrahiert (insbes. Block 113) und die interauralen Laufzeitdifferenz ITD berechnet. Dabei sei die ITD definiert als: $ITD = |TL - TR|$

wobei TL = t_{lauf (linkes ohr)} und TR = t_{lauf (rechtes ohr)}
Wie bereits erwähnt, erweist sich das Onsetverfahren unter den Methoden zur Extraktion als das am besten geeignete Verfahren. Die anderen Verfahren zeigten geringere Robustheit bei empirischen Datensätzen binauraler Raumimpulsantworten. Das Hilbertverfahren erscheint zudem ungeeignet zu sein, da es aufgrund der inhärenten Energiekompaktierung in Richtung des Beginns der Impulsantwort die enthaltene Reflexionsstruktur des Raumschallfelds in evtl. hörbarem Ausmaße verändert. Dies konnten die Erfinder anhand von auditorisch-modellhaften numerischen Vorversuchen und durch einen formalen Hörversuch plausibilisieren. Das Onset-verfahren wird so eingestellt, dass das natürliche Messgrundrauschen (typ. ca. -50 bis -90 dB relativ zum Betrags-Maximalwert der Impulsantwort) bestimmt wird und dann ein Schwellwert deutlich oberhalb davon gewählt wird (z.B. um 15 dB höher, also -35dB_rel). Der Impulsantwortendatensatz wird dann maschinell und jeweils vom Beginn der Impulsantworten an durchsucht und anhand der Zeitpunkte des Überschreitens des Schwellwertkriteriums in linken und rechten Kanal der HRTF/BRIR durch Differenzbildung die ITD berechnet (siehe Formel 3). Die Laufzeiten werden entfernt und die nun laufzeitfreien Impulsantworten erneut gespeichert (Block 117). Das Onsetverfahren wird auf das 10-fach überabgetastete Zeitsignal angewandt, um somit eine Diskretisierung der ITD in 2.3µs-Schritten, zu erhalten. Diese Auflösung entspricht in etwa einem Fünftel des gerade wahrnehmbarem ITD-Schwellwerts. Die so extrahierte Laufzeit bzw. Laufzeitdifferenz ITD kann nun in einem textbasierten Listenformat (z.B. *.txt, *.csv, *.xml) maschinenlesbar dem laufzeitbefreiten Datensatz beigelegt werden.
Die anhand der Fig. 2 veranschaulichte Vorverarbeitungsprozedur umfasst somit folgende Teilschritte:

111: Impulsantwort einlesen (*.wav file)
112: Impulsantwort 10 x überabtasten
113: Finde Onset nach Pegel-Kriterium; Schreibe Matrix der Onsetindizes für linken und rechten Kanal; Berechne ITD aus Differenz der Onsetindizes; Korrigiere Berechnungsergebnis um Überabtastfaktor; Finde maximale Laufzeit im Datensatz
114: Bestimme neue Impulsantwortlänge, new_len=size_IR - max_time_of_flight (ergibt Länge der kürzestmöglichen IR im überabgetasteten Bereich, dient als Ziellänge für alle im Folgenden extrahierten IRs)
115: Extrahiere aus Impulsantwort Vektor der Länge new_len beginnend bei Onsetindizes
116: Extrahierte Impulsantwort 10 x unterabtasten
117: Speichere IR als neue *.wav Datei

Außerdem: Speichere ITDs in maschinenlesbarer Datei; schreibe auch eine datensatzbeschreibende *.xml Datei DSI (mit Informationen über Start und Endpunkte, Auflösungen, für Azimut und Elevation).
Diese Verarbeitung wird in einer ersten Schaltung A durchgeführt, die Teil der Vorrichtung ist (s. Fig. 5a/b).
Eine weitere Schaltung B mit Funktionsblöcken BA und BB (s. Fig. 4a/b) wird in einer abgewandelten Form (mit Funktionsblock BB*) ebenfalls in der Vorrichtung (s. Fig. 5a/b) eingesetzt und dient einer individuellen, adaptiven Echtzeit-Resynthese, die nachfolgend noch näher beschrieben wird:

Ausgangspunkt bzw. Vorbedingung für die individualisierte binaurale Audiowiedergabe ist das Vorhandensein eines Echzeitfaltungsalogorithmus, wie er an sich bekannt ist und anhand der Fig. 4a/b veranschaulicht wird. Dieser sollte die Faltung blockbasiert und individuell für jede einzelne zu auralisierende Schallquelle vornehmen können. Dabei unterscheidet sich der technische Vorgang der schnellen Echtzeitfaltung von laufzeitbehafteten und laufzeitlosen BRIRs nicht, allerdings ergeben sich aufgrund der Datenaufbereitung spezielle klangliche Vorteile, die weiter unten noch beschrieben werden.

Zur Abwandlung des Faltungsprozess bzw. zur Laufzeitindividualisierung wird vorzugsweise auf eine sogenannte "jack audio server"-Architektur zurückgegriffen und damit ein eigenständiges PlugIn realisiert. Funktionsgleiche Lösungen können z.B. auch aus Anordnungen spezieller DSP-Hardware oder mittels Verfahren im Rahmen der VST-PlugIn-Architektur (d.h. auf der VST-Schnittstelle basierend) realisiert werden. Nach dem Start der rechnergesteuerten Vorrichtung (z.B. PC) liest diese eine Konfigurationsdatei, eine Datensatzbeschreibungsdatei und danach die textbasierte Liste der ITDs des aktuell vom klassischen Faltungsprozess auralisierten BRIR-Datensatzes ein. Dann meldet es sich beim Audioserver an und stellt je Instanz (d.h. je individuell anpassbar zu auralisierender Audioquelle) zwei Ein- und Ausgänge zu Verfügung (für linkes und rechtes binaurales Signal des Faltungsprozesses). Die Eingänge können dann in PlugIn-Manier mit den Ausgängen des Faltungsprozesses verbunden werden (siehe auch Fig. 5a/b). Für mehrere zu auralisierende Quellen sind jeweils ein eigener Faltungsprozess und ein Prozess zur Laufzeitindividualisierung zu starten. Der Prozess zur Laufzeitindividualisierung kopiert nun blockweise das Ausgangsergebnis des Faltungsprozesses (binaurale Zeitsignale ohne Laufzeitdifferenzen, siehe L' und R' in Fig. 5a/b) in seine eigenen Eingangspuffer. Damit die Grundlatenz in dieser seriellen Kaskadierung nicht über die Gebühr ansteigt haben sich Blockgrößen von 128-512 samples für beide Prozesse bewährt.
Die fehlende Laufzeitdifferenz kann nun als kopfpositionsspezifische Verzögerungszeit VDL und ohne hörbare Artefakte in einen der beiden Audiokanäle eingefügt werden. Die geschieht hier z.B. für L' im Block VDL/SCR bzw. S, wobei der Block VDL/SCR die dynamische Anpassung der Laufzeit bei Kopfbewegung darstellt und der Block S die statische Anpassung, die sich bei fester Kopfposition dann ergibt bzw. einstellt. Für die Anpassung liest der Individualisierungsprozess die Kopfbewegungsdaten als Datenstrom des Headtrackers HTDAT (z.B. via ein IP-basiertes Transportprotokoll) mit, die dieser wie bisher auch an den Faltungsprozess sendet. Bei der Initialisierung des Individualisierungsprozesses muss dieser die, durch die initiale Kopfposition bestimmte, erste wirksame interaurale Laufzeitdifferenz durch um einen fixen Betrag zeitverzögertes oder vorgreifendes Abspielen realisieren. Der Einfachheit wg. kann die erste Zeitdifferenz zu 0, bzw. der erste Konversionsfaktor zu 1, angenommen werden. Anschließend werden kopfpositionsbedingte Veränderungen der interauralen Laufzeitdifferenz wie folgt erreicht: Je verarbeitetem Audioblock wird die aktuelle Kopfposition und damit eine Veränderung der Laufzeitdifferenzen geprüft. Wurden Veränderungen der Laufzeitdifferenzen detektiert, wird deren Ausmaß durch Differenzbildung (delta ITD = neue ITD - alte ITD) bestimmt. Aus der fraktionalen Verhältnisbildung der Audioblocklänge mit der um das Ausmaß der Veränderung der Laufzeitdifferenzen (delta-ITD) korrigierten Audioblocklänge ergibt sich ein Verhältnis, welches als Konversionsfaktor in einem Algorithmus zur Echtzeitabtastratenkonversion in höchster Audioqualität verwendet werden kann. Dieser erreicht die Anpassung der veränderten Verzögerungswerte durch ein um den Konversionsfaktor beschleunigtes oder verzögertes Abspielen, in dem es aus dem vorliegenden Signal neue Abtastwerte an anderen, einer höheren oder niedrigeren Abtastrate entsprechenden, Zeitpunkten interpoliert und diese stattdessen ausgibt.
Mit Hilfe einer Abtastratenkonversion SRC können korrekte Amplitudenwerte zu beliebigen kontinuierlichen Zeitpunkten aus den Abtastzeitpunkten digitaler Zeitsignale gefunden werden. An sich bekannt ist auch die sog. fraktionale Abtastratenkonversion (siehe Smith III, J.O. (2002): Digital Audio Resampling Home Page. Web published at http://www-ccrma.stanford.edu/-jos/resample/, Stanford: Center for Computer Research in Music and Acoustics (CCRMA), Stanford University). Nach Shannons Theorem der perfekten Rekonstruktion des Zeitverlaufs abgetasteter Signale durch ebenso perfekte Tiefpassfilter (Antialiasingfilter) nutzt das Verfahren der bandbeschränkten Interpolation hierzu eine Tabelle interpolierter quasikontinuierlicher Filterkoeffizienten, um die jeweilige Tiefpassimpulsantwort effektiv in kontinuierlicher Zeitsignalform verfügbar zu machen. Eine einzelne vorberechnete Filtertabelle genügt bereits für alle Interpolationszeiten und SRC-Verhältnisse. Je nach Abtastratenkonversionsverhältnis fs_neu/fs_alt (d.h. der Konversionsfaktor ist <1 oder >1) ist ein Filter mit niedrigerer oder höherer Eckfrequenz aus der Tabelle auszulesen. Das wiederum ist möglich, da die Filterimpulsantwort quasikontinuierlich, d.h. mit sehr hoher Abtastgenauigkeit in sehr großer Länge tabelliert ist. Für jeden aktuell zu resampelnden Block von Ausgangssamples - bei Blöcken von sehr kurzer Dauer ist variable Konversion somit annähernd in "Echtzeit" möglich - wird das Interpolationsergebnis an den neuen Abtastzeitpunkten durch Bildung der Faltungssumme der Zeitsignalsamples mit der neuen Tiefpassimpulsantwort berechnet. Je nach benötigter Güte (d.h. Bandbreite und Sperrdämpfung des Interpolators) kann die Tabellengröße des Interpolatortiefpasses durch geeignete Formeln abgeschätzt werden. Benutzt wird hier ein hochqualitativer, bandbegrenzter Fliesskomma-Interpolator auf Basis einer analytisch beschriebenen sinc-Funktion mit einem worst case Signalrauschverhältnis von 97 dB bei einer Bandbreite von 97%.
Wie bereits erwähnt, kann der je zu verarbeitendem Audioblock aktuelle Konversionsfaktor jeweils mithilfe der Differenz der zur vorherigen und zur aktuellen Kopfposition gehörenden ITD bestimmt werden. Eine jederzeit verfügbare Softwarebibliothek erlaubt eine unhörbare und kontinuierliche Änderung des Konversionsfaktors, so dass die der jeweiligen Kopfhaltung entsprechenden Laufzeitdifferenz korrekt resynthetisiert werden kann. Für die praktische Realisierung der interauralen Laufzeitdifferenz bedeutet das, dass mittels der o.g. Bibliothek zur bandbeschränkten Interpolation aus einer variablen Anzahl Eingangssamples eine immergleiche - der zu Grunde liegenden Audioblocklänge entsprechende - Anzahl neuer Ausgangssamples erzeugt wird. Je nach Abtastratenkonversionsverhältnis fs_neu/fs_alt (<1 oder >1) benötigt die Abtastratenkonversion dafür weniger oder mehr Samples als die zu Grunde liegende aktuelle Blockgröße. Aufgrund dieser Differenz erhält man als Ergebnis - außer dem Block neu interpolierter Ausgangsamples - eine feste zeitliche Verschiebung des Einlesebereichs der Abtastratenkonversion um die Anzahl im vorhergegangen Block von einer Abtastratenkonversion weniger oder zusätzlich benötigten Samples. In der Fig. 5a/b wird diese Verschiebung durch den Block S als implizite, feste und samplegenaue Verzögerung dargestellt, deren aktueller Wert sich aus allen vorhergegangenen Laufzeitdifferenzveränderungen ergibt.
Wurde während zweier Audioblöcke keine Veränderungen der interauralen Laufzeitdifferenz detektiert, bleibt dieser feste Verzögerungswert (statisches Delay S) einfach erhalten und realisiert so weiterhin die korrekte interaurale Laufzeitdifferenz.
Im Vorgriff auf die im Folgenden beschrieben individuelle Skalierung des Konversionsfaktors, ist zudem zu betonen, dass diese feste Verzögerung ebenfalls korrekt individuell skaliert ist, da sie nur aus der Akkumulation von Rückgabewerten der bereits individuell skalierten Abtastratenkonversion resultiert.
Ein bedeutender Vorteil der Erfindung besteht nun darin, dass die Laufzeitdifferenz durch einfache Skalierung des jeweils aktuellen Konversionsfaktors individuell angepasst werden kann. Dazu wird die ITD, z.B. vor der Berechnung des Konversionsfaktors, einfach mit einem festen Wert skaliert (praktische Werte liegen zw. 50-150%). Damit ergibt sich zwischen den Ausgangssignalen L* und R* eine individuell angepasste ITD*. Bereits mit einer solchen frequenzunabhängigen Skalierung der ITD konnte eine perzeptiv deutlich verbesserte Anpassung an das jeweilige Individuum erzielt werden. Zudem ist diese Skalierung der ITD, welche näherungsweise einer nachträglichen Skalierung des Kopfdurchmessers entspricht, in Echtzeit regelbar. Wie ein optimaler, individueller Skalierungsfaktor gefunden werden kann, soll anhand der folgenden zwei Beispiele verdeutlicht werden:

Der Ansatz für das erste Beispiel beruht auf der Einrichtung des Faktors durch die Versuchsperson selbst: Da der Korrekturwert in Echtzeit einregelbar ist, kann dieser zu Beginn der virtuellen akustischen Anwendung mit Hilfe einer geeigneten akustischen Szene (z.B. Darstellung einer einzelnen frontalen Schallquelle, die kurze gut lokalisierbare Rauschpulse abgibt) eingestellt werden. Dazu verstellt die Person den Korrekturwert beginnend von einem zunächst sehr hoch gewählten Startwert (z.B. 150% der ITD) in negativer Richtung, bis sich eine korrekte Lokalisationsempfindung, gekennzeichnet durch eine stabile frontale Quellenlokalisation, d.h. vor allem ohne die den Kopfbewegungen folgende Interaktionsbewegungen einstellt. Der zu Beginn hoch gewählte Startwert macht das zu minimierende Artefakt besonders gut hörbar.

Ein weiterer Ansatz, der als zweites Beispiel dienen soll, beruht auf einer Vorhersage des individuellen Korrekturwerts auf Basis eines anthropometrischen Maßes. Es wurden Voruntersuchungen mit mehreren Versuchspersonen durchgeführt. Dabei wurde ein Hörversuch entsprechend der oben genannten akustischen Szenerie durchgeführt; zusätzlich zur virtuellen Quelle konnten die Versuchspersonen jedoch auch die reale Schallquelle hören. Das Ziel war es, den Konversionsfaktor der Simulation so einzustellen, dass sich beim Umschalten zw. Simulation und Realität eine möglichst gute Übereinstimmung ergab. Dieser Versuch wurde je Versuchperson 10-mal wiederholt. Zusätzlich wurden vier als geeignete erachtete Maße des Kopfes von jeder Person erhoben. Anschließend wurde die Vorhersage der Mittelwerte des individuellen Skalierungsfaktors aus den Kopfabmessungen durch multiple lineare Regression überprüft. Diese ergab, dass allein die Intertragusdistanz als Maß des Kopfdurchmessers, gemessen mit einem Tastzirkel in Millimetern von der incisura anterior des linken zu der des rechten Ohres genügt, um den Konversionsfaktor vorherzusagen. Grafische Darstellungen der Untersuchungen zeigten die Regressionsgerade und das 95%-ige Konfidenzintervall des linearen Modells sowie die individuellen Mittelwertdaten aus der Eichstichprobe. Das 95%-KI zeigte dabei an, dass der Konversionsfaktor mit einer Genauigkeit von ±1.25% (mittlerer Modellbereich) bis ±2.5% (äußere Modellbereiche) vorhergesagt werden kann.
Die Variabilität des Skalierungsfaktors innerhalb der Stichprobe betrug dabei ±4%, d.h. dass im nichtindividualisierten Fall ein worst-case Fehler von bis zu 8% der ITD hätte auftreten können. Die individuelle Vorhersage halbiert bzw. viertelt (im günstigsten Fall) diesen Fehler. Ein Fehler von 1.25% der ITD entspricht dabei einem Lokalisationsfehler von etwas über 1° und liegt damit (wieder: im günstigsten Fall) schon nahezu im Bereich der gerade wahrnehmbaren Loksalisationsänderung. Die Regressionsformel zur Vorhersage des individuellen Korrekturfaktors lautet dabei: $Scale = 0.00304 * Intertragusdistanz [mm] + 0.5792$
Diese Regressionsgleichung liefert zwar eine Vorhersage des individuellen Korrekturfaktors, sie ist in dieser Form jedoch nur auf Datensätze anwendbar, die mit dem FABIAN HATS Roboter vermessen wurde. Eine Möglichkeit zur Verallgemeinerung auf beliebige HRTF/BRIR-Datensätze ergäbe sich durch eine Korrektur des Ergebnisses der o. g. Formel durch Multiplikation mit dem Kopfduchmesserverhältnis Intertragusdistanz Fremd/Intertragusdistanz Fabian. Diese Korrektur setzt natürlich voraus, dass die Intertragusdistanz des fremden Datensatzes bekannt ist.
Das Prinzip der erfindungsgemäßen Resyntheseprozedur wird anhand der Fig. 3 veranschaulicht:

a) Initialisierung
1. i) Lese *.xml Konfigurationsdatei
2. ii) Lese Datensatzdefinition aus *.xml Beschreibungsdatei
3. iii) Lege 1 oder 2-dimensionales Array durch Lesen der ITDs aus maschinenlesbarer Datei an
4. iv) Setze initialen Skalierungsfaktor der ITD = 1
5. v) Initialisere Ringpuffer des SRC-Prozesses
6. vi) Starte OSC-Server für Empfang der Kopfbewegungsdaten
7. vii) Initialisiere jack client.
8. viii) Starte Echtzeitbedienungsmodi (OSC, GUI, Keyboard)
b) Echtzeitprozess
1. i) Kopiere Einganssamples für Links und Rechts in Ringpuffer
  1. a. Lese ITD bzgl. Kopfposition laut head tracking
  2. b. Skaliere ITD in Echtzeit, wenn gewollt (ITDnew=ITD*scaling_factor)
  3. c. Rechne ITD fraktional in Samples um (delay_new=ITDnew/sample_size)
  4. d. Bestimme ITD-Veränderung seit letzter Berechnung (delta_delay=delay_new - delay_old)
  5. e. Bestimme fraktionalen SRC-Faktor (ratio=output_samples/(input_samples-delta_delay))
2. ii) Übergebe an SRC-Prozess: Faktor, Eingangs- und Ausgangspuffer für linken Kanal.
3. iii) Speichere ungenutzte Samples im Ringpuffer
4. iv) Berechne input_buffer_lenght des nächsten Zyklus' (input_buffer_lenght = output_samples + ungenutzte Samples)
5. v) Gebe Ergebnis aus: linker Kanal aus SRC-Prozess; rechter Kanal aus Ringpuffer

Durch die Erfindung ergeben sich u.a. folgende besondere Vorteile und Verbesserungen gegenüber dem Stand der Technik:

1) Durch das Erreichen einer deutlich genaueren Lokalisation für alle Kopfpositionen unter Verwendung generischer Datensätze sorgt die individuell skalierte ITD wesentlich für die Erhöhung der Plausibilität einer binauralen Simulation.
2) Die sich aufgrund der Extraktion der ITD ergebende quasi-minimalphasige Überblendung hat deutlich hörbare auditive Vorteile, da bei der Überblendung quasiminimalphasiger Spektren so gut wie keine Überblendungsartefakte mehr auftreten.
3) Ein weiterer wesentlicher Vorteil ergibt sich aus der Quasi-Minimalphasigkeit der Spektren. Sie bildet eine Grundlage für alle effizienten spektralen & temporalen Kompressions- und Interpolationsverfahren für HRTF-/BRIR-Datensätze und kann z.B. auch auf beschränkten Plattformen, wie z.B. Mobilfunkgeräten, eingesetzt werden.
4) Die Operationalisierung der ITD erlaubt eine getrennte Interpolation von ILD- und ITD-Features. So kann z.B. die perzeptiv wichtigere ITD durchaus mit einer sehr feinen Auflösung resynthetisiert werden, während die minimalphasigen Spektren mit relativ grober Auflösung (z.B. 5 Grad) verarbeitet werden, was wiederum auch den Einsatz in Mobilfunkgeräten erleichtert.
5) Die Entfernung der akustischen Laufzeit aus allen BRIR-Datensätzen führt zu Latenzminimierung und Speicherplatzreduktion, so dass auch hier sich insbesondere der Einsatz bei Mobilfunkgeräten anbietet.
6) Die Implementierung der ITD durch Resampling führt zu einer "physikalischeren" Modellierung des Schallfelds, da sich aufgrund des verlangsamten bzw. beschleunigten Abspielens innerhalb des SRC-Prozesses eine (zumindest für den Direktschall korrekte) Imitation des Dopplereffekts einstellt.
7) Durch die Aufspaltung der Faltung in Einzelprozesse je Quelle wird die Vorraussetzung für eine parallelisierte Berechnung (Erhöhung der Berechnungseffizienz) geschaffen.

Die Erfindung ermöglicht das Erreichen zahlreicher Verbesserungen, wie z.B. den Vorteil der fehlerfreien Überblendung, die Latenzminimierung, den Dopplereffekt. Hervorzuheben sind auch die Wahl der bandbegrenzten Interpolation zur Abtastratenkonversion bei der Generierung der variablen ITD, die Echtzeitfähigkeit der ITD-Manipulation, die unhörbare Extraktionsmethode und die PlugIn-Architektur. Ebenso sind wichtige Aspekt, wie z.B. die effektive und getrennte Reduktion und Interpolation von ITD und ILD (d.h. HRTF/BRIR-Spektren), hervorzuheben.
Die individuelle Anpassung der laufzeitbefreiten ITDs an das jeweilige Individuum kann durch Skalierung des jeweils aktuellen Konversionsfaktors im Rahmen einer Abtastratenkonversion erfolgen, die bei Änderung der Kopfposition eine dynamische Anpassung ermöglicht. Sofern ein statischer Zustand sich einstellt, d.h. die Kopfposition sich nicht ändert, stellt sich auch eine statische Anpassung der ITDs (automatisch) ein. Oder die individuelle Anpassung erfolgt durch Skalierung der ITDs, die zu der vorherigen und aktuellen Kopfposition gehören, bevor der (unskalierte) Konversionsfaktor berechnet wird.
Mit anderen Worten: Die Individualisierung und Anpassung der sich zwischen den Ausgangsignalen L* und R* ergebenden Laufzeit-Differenz ITD* kann erreicht werden durch Skalierung des jeweils aktuellen Konversionsfaktors (Anwendung des Faktors ISF auf den Block VDL/SRC; siehe Fig. 5a/b). Alternativ kann die Individualisierung und Anpassung der sich zwischen den Ausgangsignalen L* und R* ergebenden LaufzeitDifferenz ITD* erreicht werden durch Skalierung der zu den laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xBIR*) korrespondierenden Laufzeit-Differenzen (ITD).
Die Erfindung ist in vielen Anwendungen einsetzbar. Durch das vorgeschlagene Verfahren kann eine ein wesentliche Verbesserung aller bisher existierender Echtzeit-Anwendungen zur binauralen (Raum-)Akustiksimulation (3D Virtual Auditory Displays im Allgemeinen, räumliche Akustik in Computerspielen, Virtuelle Chaträume, Binaurale Guidance & Alerting Systeme, binaurale Walkthroughs z. B. durch virtuelle Architektur oder durch multimodale Mediashows) erzielt werden. Mögliche Anwendungen sind die nachträgliche Ergänzung kommerzieller 3D Audio APIs. Auch die Qualität zukünftig denkbarer rich media Anwendungen die empfängerseitig einen Mulitmedia-PC voraussetzen wie z. B. binaurales Teleconferencing via VoIP oder binaurales Streaming von Livekonzerten kann wesentlich an wahrnehmbarer Qualität gewinnen.

Claims

Verfahren (100) zur Erzeugung individuell anpassbarer binauraler Aüdiosignale (L*, R*),
mit folgenden Schritten:
aus kopfbezogenen Übertragungsfunktionen (xRIR), die verschiedenen Kopfpositionen (1...k) zugeordnet sind, werden mittels Extraktion von interauralen Laufzeiten (TL, TR) laufzeitbefreite kopfbezogene Übertragungsfunktionen (xRIR*) und dazu korrespondierende Laufzeit-Differenzen (ITD) berechnet (Schritt 110);

mittels einer Binauralsynthese werden laufzeitbefreite Audiosignale (L', R') erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei in Abhängigkeit von Kopfpositions-Daten (HTDAT) die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xRIR*) für eine aktuelle Kopfposition (1...k) verwendet werden (Schritt 120); dadurch gekennzeichnet,

dass aus den laufzeitbefreiten Audiosignalen (L', R') die individuell anpassbaren binauralen Audiosignale (L*, R*) erzeugt werden, indem zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal (L') mit einer zeitlichen Verzögerung (VDL) in Abhängigkeit von der für die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und in Abhängigkeit eines individuellen Skalierungsfaktors (ISF) beaufschlagt wird (Schritt 130),

dass bei einer auftretenden Änderung von einer vorherigen Kopfposition (k=1) in die aktuelle Kopfposition (k=2) die zeitliche Verzögerung (VDL) zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion (SRC) verändert wird, wobei die Abtastratenkonversion einen Konversionsfaktor verwendet um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen (Schritt 130), und

dass der für die Abtastratenkonversion (SRC) verwendete Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt wird (Schritt 130).
Verfahren (100) nach Anspruch 1, dadurch gekennzeichnet, dass die zeitliche Verzögerung (VDL) einem Wert entspricht, der aus der Wichtung der für die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und dem individuellen Skalierungsfaktor (ISF) berechnet wird (Schritt 130).
Verfahren (100) nach Anspruch 1, dadurch gekennzeichnet, dass eine zwischen individuell anpassbaren binauralen Audiosignalen (L*, R*) sich ergebende Laufzeit-Differenz (ITD*) durch Skalierung des aktuellen Konversionsfaktors individuell angepasst wird (Schritt 130).
Verfahren (100) nach Anspruch3, dadurch gekennzeichnet, dass sich die ergebende Laufzeit-Differenz (ITD*) durch Skalierung der zu den laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xBIR*) korrespondierenden Laufzeit-Differenzen (ITD) individuell angepasst wird.
Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xRIR*) für eine Vielzahl von Kopfpositionen (1...k) und für eine Vielzahl von Audiosignal-Quellen (1...n) berechnet werden (Schritt 110).
Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die interauralen Laufzeiten (TL, TR) aus den kopfbezogenen Übertragungsfunktionen (xRIR) mittels eines der folgenden Verfahren extrahiert werden: Onset-Verfahren, interaurales KreuzkorrelationsVerfahren, frequenzspezifische Gruppenlaufzeit-Differenzbildung, frequenzbereichsspezifisches Phasengradienten-Matching oder Exzessphasenbestimmung durch Hilbert-Transformation (Schritt 110).
Verfahren (100) nach Anspruch 6, dadurch gekennzeichnet, dass das Onset-Verfahren so eingestellt wird, dass ein natürliches Messgrundrauschen bestimmt wird und dann ein Schwellwert oberhalb davon, der niedriger als das Betrags-Maximum der durch die jeweilige kopfbezogene Übertragungsfunktion bestimmten Impulsantwort ist, bestimmt wird (Schritt 110).
Verfahren (100) nach Anspruch 7, dadurch gekennzeichnet, dass der Schwellwert um mindestens 10 dB oberhalb des natürlichen Messgrundrauschen bestimmt und/oder das der Schwellwert um mindestens 10 dB niedriger als das Betrags-Maximum der durch die jeweilige kopfbezogene Übertragungsfunktion bestimmten Impulsantwort ist (Schritt 110).
Verfahren (100) nach Anspruch 8, dadurch gekennzeichnet, dass der Schwellwert im mittleren Bereich einer Messdynamik liegt (Schritt 110).
Verfahren (100) nach Anspruch 6, dadurch gekennzeichnet, dass das Onset-Verfahren so eingestellt wird, dass ein prozentualer Wert vom Betrags-Maximum der durch die jeweilige kopfbezogene Übertragungsfunktion bestimmten Impulsantwort als Onset detektiert wird, insbesondere als ein zwischen 10% und 90% liegender Wert detektiert wird (Schritt 110).
Vorrichtung zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, wobei die Vorrichtung zur Erzeugung räumlich wahrnehmbarer binauraler Audiosignale (L*, R*) umfasst:
eine erste Schaltung (A), die aus kopfbezogenen Übertragungsfunktionen (xRIR), die verschiedenen Kopfpositionen (1...k) zugeordnet sind, interaurale Laufzeiten (TL, TR) extrahiert und daraus Laufzeit-Differenzen (ITD) berechnet;

eine zweite Schaltung (BB), die mittels einer Binauralsynthese laufzeitbefreite Audiosignale (L', R') erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei diese Schaltung in Abhängigkeit von Kopfpositions-Daten (HTDAT) die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xRIR*) für eine aktuelle Kopfposition (1...k) verwendet; gekennzeichnet durch

mindestens eine dritte Schaltung (BA*; C*), die aus den laufzeitbefreiten Audiosignalen (L', R') die individuell anpassbaren binauralen Audiosignale (L*, R*) erzeugt, indem diese Schaltung zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal (L') mit einer zeitlichen Verzögerung (VDL) in Abhängigkeit von der für die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und in Abhängigkeit eines individuellen Skalierungsfaktors (ISF) beaufschlagt,

wobei die mindestens eine dritte Schaltung (BA*; C*) bei einer auftretenden Änderung von einer vorherigen Kopfposition (k=1) in die aktuelle Kopfposition (k=2) die zeitliche Verzögerung (VDL) zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion (SRC) verändert, wobei die Abtastratenkonversion einen Konversionsfaktor verwendet um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen, und

den für die Abtastratenkonversion (SRC) verwendeten Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt.