-
Die vorliegende Erfindung bezieht
sich auf das Bestimmen einer Impulsantwort sowie auf das Vorführen eines
Audiostücks
in einer Umgebung, von der eine Impulsantwort bestimmt worden ist.
-
Es besteht ein steigender Bedarf
an neuen Technologien und innovativen Produkten im Bereich der Unterhaltungselektronik.
Dabei ist es eine wichtige Voraussetzung für den Erfolg neuer multimedialer Systeme,
optimale Funktionalitäten
bzw. Fähigkeiten anzubieten.
Erreicht wird das durch den Einsatz digitaler Technologien und insbesondere
der Computertechnik. Beispiele hierfür sind die Applikationen, die einen
verbesserten realitätsnahen
audiovisuellen Eindruck bieten. Bei bisherigen Audiosystemen liegt ein
wesentlicher Schwachpunkt in der Qualität der räumlichen Schallwiedergabe von
natürlichen,
aber auch von virtuellen Umgebungen.
-
Verfahren zur mehrkanaligen Lautsprecherwiedergabe
von Audiosignalen sind seit vielen Jahren bekannt und standardisiert.
Alle üblichen
Techniken besitzen den Nachteil, daß sowohl der Aufstellungsort
der Lautsprecher als auch die Position des Hörers dem Übertragungsformat bereits eingeprägt sind.
Bei falscher Anordnung der Lautsprecher im Bezug auf den Hörer leidet
die Audioqualität
deutlich. Ein optimaler Klang ist nur in einem kleinen Bereich des
Wiedergaberaums, dem so genannten Sweet Spot, möglich.
-
Ein besserer natürlicher Raumeindruck sowie
eine stärkere
Einhüllung
bei der Audiowiedergabe kann mit Hilfe einer neuen Technologie erreicht werden.
Die Grundlagen dieser Technologie, die so genannte Wellenfeldsynthese
(WFS; WFS = Wave-Field Synthesis), wurden an der TU Delft erforscht
und erstmals in den späten
80er-Jahren vorgestellt (Berkhout, A.J.; de Vries, D.; Vogel, P.: Acoustic
control by Wavefield Synthesis. JASA 93, 1993).
-
Infolge der enormen Anforderungen
dieser Methode an Rechnerleistung und Übertragungsraten wurde die
Wellenfeldsynthese bis jetzt nur selten in der Praxis angewendet.
Erst die Fortschritte in den Bereichen der Mikroprozessortechnik
und der Audiocodierung gestatten heute den Einsatz dieser Technologie
in konkreten Anwendungen. Erste Produkte im professionellen Bereich
werden nächstes
Jahr erwartet. In wenigen Jahren sollen auch erste Wellenfeldsynthese-Anwendungen für den Konsumerbereich
auf den Markt kommen.
-
Die Grundidee von WFS basiert auf
der Anwendung des Huygens'schen
Prinzips der Wellentheorie:
Jeder Punkt, der von einer Welle
erfaßt
wird, ist Ausgangspunkt einer Elementarwelle, die sich kugelförmig bzw.
kreisförmig
ausbreitet.
-
Angewandt auf die Akustik kann durch
eine große
Anzahl von Lautsprechern, die nebeneinander angeordnet sind (einem
so genannten Lautsprecherarray), jede beliebige Form einer einlaufenden
Wellenfront nachgebildet werden. Im einfachsten Fall, einer einzelnen
wiederzugebenden Punktquelle und einer linearen Anordnung der Lautsprecher,
müssen die
Audiosignale eines jeden Lautsprechers mit einer Zeitverzögerung und
Amplitudenskalierung so gespeist werden, daß sich die abgestrahlten Klangfelder
der einzelnen Lautsprecher richtig überlagern. Bei mehreren Schallquellen
wird für
jede Quelle der Beitrag zu jedem Lautsprecher getrennt berechnet und
die resultierenden Signale addiert. Befinden sich die wiederzugebenden
Quellen in einem Raum mit reflektierenden Wänden, dann müssen auch
Reflexionen als zusätzliche
Quellen über
das Lautsprecherarray wiedergegeben werden. Der Aufwand bei der Berechnung
hängt daher
stark von der Anzahl der Schallquellen, den Reflexionseigenschaften
des Aufnahmeraums und der Anzahl der Lautsprecher ab.
-
Der Vorteil dieser Technik liegt
im Besonderen darin, daß ein
natürlicher
räumlicher
Klangeindruck über
einen großen
Bereich des Wiedergaberaums möglich
ist. Im Gegensatz zu den bekannten Techniken werden Richtung und
Entfernung von Schallquellen sehr exakt wiedergegeben. In beschränktem Maße können virtuelle
Schallquellen sogar zwischen dem realen Lautsprecherarray und dem
Hörer positioniert
werden.
-
Obgleich die Wellenfeldsynthese für Umgebungen
gut funktioniert, deren Beschaffenheiten bekannt sind, treten doch
Unregelmäßigkeiten
auf, wenn sich die Beschaffenheit ändert bzw. wenn die Wellenfeldsynthese
auf der Basis einer Umgebungsbeschaffenheit ausgeführt wird,
die nicht mit der tatsächlichen
Beschaffenheit der Umgebung übereinstimmt.
-
Eine Umgebungsbeschaffenheit kann
durch die Impulsantwort der Umgebung beschrieben werden.
-
Dies wird anhand des nachfolgenden
Beispiels näher
dargelegt. Es wird davon ausgegangen, daß ein Lautsprecher ein Schallsignal
gegen eine Wand aussendet, deren Reflexion unerwünscht ist. Für dieses
einfache Beispiel würde
die Raumkompensation unter Verwendung der Wellenfeldsynthese darin
bestehen, daß zunächst die
Reflexion dieser Wand bestimmt wird, um zu ermitteln, wann ein Schallsignal,
das von der Wand reflektiert worden ist, wieder beim Lautsprecher
ankommt, und welche Amplitude dieses reflektierte Schallsignal hat.
Wenn die Reflexion von dieser Wand unerwünscht ist, so besteht mit der
Wellenfeldsynthese die Möglichkeit,
die Reflexion von dieser Wand zu eliminieren, indem dem Lautsprecher
ein zu dem Reflexionssignal gegenphasiges Signal mit entsprechender
Amplitude zusätzlich
zum ursprünglichen
Audiosignal eingeprägt
wird, so daß die
hinlaufende Kompensationswelle die Reflexionswelle aus löscht, derart,
daß die Reflexion
von dieser Wand in der Umgebung, die betrachtet wird, eliminiert
ist. Dies kann dadurch geschehen, daß zunächst die Impulsantwort der
Umgebung berechnet wird und auf der Basis der Impulsantwort dieser
Umgebung die Beschaffenheit und Position der Wand bestimmt wird,
wobei die Wand als Spiegelquelle interpretiert wird, also als Schallquelle,
die einen einfallenden Schall reflektiert.
-
Wird zunächst die Impulsantwort dieser
Umgebung gemessen und wird dann das Kompensationssignal berechnet,
das dem Audiosignal überlagert dem
Lautsprecher eingeprägt
werden muß,
so wird eine Aufhebung der Reflexion von dieser Wand stattfinden,
derart, daß ein
Hörer in
dieser Umgebung schallmäßig den
Eindruck hat, daß diese
Wand überhaupt
nicht existiert.
-
Entscheidend für eine optimale Kompensation
der reflektierten Welle ist jedoch, daß die Impulsantwort des Raums
genau bestimmt wird, damit keine Über- oder Unterkompensation
auftritt.
-
In einem Vorführraum besteht ein Problem dahingehend,
daß es
nahezu unmöglich
ist, die reale Impulsantwort einer Umgebung zu messen, da in einem
Vorführraum,
wie z. B. einem Kino, einem Konzertsaal, oder auch dem häuslichen
Wohnzimmer ständige
Veränderungen
der Umgebung stattfinden. Anders ausgedrückt kann in einem Kinovorführraum nicht
vorhergesagt werden, wieviel Personen zu einer bestimmten Vorführung kommen.
Würde zur
Wellenfeldsynthese eine für
einen leeren Vorführraum optimal
berechnete Impulsantwort eingesetzt werden, wobei bei der Berechnung
der Impulsantwort keine Personen in dem Raum waren, so würde aufgrund
der Dämpfung
von Personen, die der Vorführung
beiwohnen, eine Überkompensation
der reflektierten Schallwelle stattfinden, dahingehend, daß zwei Nachteile
entstehen. Einerseits wird die Reflexion an der Wand nicht mehr
optimal kompensiert. Andererseits werden aufgrund der Überkompensa tion, da
die Dämpfung
der reflektierten Welle durch die der Wellenfeldsynthese zugrundeliegende
Impulsantwort nicht mehr optimal erfaßt wird, ein zusätzliches
hörbares
Störsignal
auftreten, das den gesamten Audioeindruck beeinträchtigen
wird.
-
Eine optimale Anwendung der Wellenfeldsynthese
steht und fällt
also damit, daß immer
die Umgebung, in der vorgeführt
wird, optimal erfaßt wird,
um erwünschte
Ziele zu erreichen, wie z. B. eine spezielle Akustik, oder um keine
hörbaren
Störungen
einzuführen.
-
Eine Möglichkeit würde darin bestehen, einen Konzertsaal
beispielsweise mit Dummy-Zuschauern auszustatten, deren Reflexionseigenschaften
denen von lebenden Zuschauern entsprechen. Dann könnte eine
entsprechende Impulsantwort bestimmt werden, die der realen Situation
zumindest besser entspricht als wenn die Impulsantwort des leeren
Konzertsaals, also ohne jegliche Zuhörer, zur Wellenfeldsynthese
verwendet wird.
-
Dieses Prozedere ist dahingehend
nachteilhaft, daß bei
einer öffentlichen
Vorführung
genauso wie z. B. im häuslichen
Wohnzimmer nicht vorhergesagt werden kann, wie viele Zuschauer zur
Vorführung
kommen. Ein optimaler Klangeindruck wird dann nur erreicht, wenn
die Anzahl der Dummy-Zuschauer
und die Positionierung der Dummy-Zuschauer der tatsächlichen
Anzahl und Positionierung der lebenden Zuhörer nahezu entspricht. Darüber hinaus
ist der Aufwand zur Ausstattung eines größeren Kinos oder Konzertsaals
mit vielen Dummy-Zuschauern beträchtlich.
-
Alternativen zur Bestimmung einer
realen Impulsantwort bestehen darin, kurz vor Vorführungsbeginn,
also wenn der Vorführraum
bereits mit den Zuschauern gefüllt
ist, die tatsächlich
der Vorführung beiwohnen
werden, die Impulsantwort des Raums zu messen, um eine realistische
Umgebungsbeschreibung zu haben, die nur dann von der tatsächlichen Situation
stark abweichen würde,
wenn beispielsweise nach der Pause viele Zuschauer der Vorführung nicht
mehr beiwohnen würden
etc.
-
Diese Vorgehensweise ist jedoch unter
zwei Gesichtspunkten problematisch. Zum einen benötigt die
Berechnung der Impulsantwort eines Raums eine gewisse Zeit. Andererseits
muß die
Bestimmung unmittelbar vor Vorführungsbeginn
stattfinden, damit möglichst
alle Zuschauer bereits im Vorführraum sind.
Nachdem gerade die Anwesenheit der Zuschauer entscheidend ist, ist
es bei dieser Vorgehensweise nicht vermeidbar, daß die Zuschauer
alle darauf warten müssen,
bis die Messung beendet ist, so daß sich bei dieser Vorgehensweise
der tatsächliche
Vorführungsbeginn
immer verschieben würde. Dieses
Prozedere würde,
wenn es unter den Zuhörern
bekannt wird, dazu führen,
daß die
meisten Zuhörer
erst später
als zum eigentlichen Vorführungsbeginn
kommen würden,
so daß das
eigentliche Ziel, nämlich
eine Impulsantwort einer Umgebung im realistischen Umfeld zu erfassen,
wieder nicht erreicht werden kann.
-
Darüber hinaus ist problematisch,
daß zur Impulsantwortbestimmung
in einem Vorführraum akustische
Signale in den Raum eingespeist werden müssen, und daß diese
akustischen Signale besonders bei größeren Vorführräumen eine beträchtliche Energie
haben sollten, um eine sichere Impulsantwortbestimmung zu erreichen.
Versuche mit akustischen Chirps vor Vorführungsbeginn zur Bestimmung
der Impulsantwort, also als über
Lautsprecher ausgesendete Meßsignale,
haben gezeigt, daß dieses
Verfahren nicht besonders praktikabel ist. Zum einen haben viele
Zuhörer
die akustischen Chirps, die mit beträchtlicher Lautstärke ausgesendet
worden sind, als belästigend
empfunden. Andere Zuschauer haben damit begonnen, die Chirps aus dem
Lautsprecher selbst zu imitieren, so daß eine Messung des Reaktionssignals
auf die akustischen Chirps problematisch bis unmöglich geworden ist, da nicht
unterschieden werden konnte, ob die Chirps vom Lautsprecher kommen
oder ob es sich um von Menschen imitierte Chirps gehandelt hat.
-
Alternative Vorgehensweisen zur Bestimmung
der Impulsantwort eines Raums bestehen darin, eine Pseudorauschsequenz
mit einem weißen Spektrum
als Meßsignal
zu verwenden. Obgleich das Rauschen durch das Publikum nicht unmittelbar nachahmbar
ist, ist es doch für
viele Personen lästig und
würde,
wenn dieses Verfahren immer wieder angewendet werden würde, dazu
führen,
daß die
Personen nicht mehr zum angezeigten Vorführungsbeginn kommen, sondern
erst eine gewisse Zeit später, wenn
sie mit Sicherheit davon ausgehen können, daß die als lästig empfundene Impulsantwortbestimmung
des Vorführungsraums
bereits beendet ist.
-
Die Aufgabe der vorliegenden Erfindung
besteht darin, ein Konzept zum Bestimmen einer Impulsantwort sowie
ein Konzept zum Vorführen
eines Audiostücks
unter Verwendung einer ermittelten Impulsantwort zu schaffen, um
eine genaue Impulsantwort und damit eine Vorführung mit hoher Audioqualität zu erreichen.
-
Diese Aufgabe wird durch eine Vorrichtung zum
Bestimmen einer Impulsantwort gemäß Patentanspruch 1, eine Vorrichtung
zum Vorführen
eines Audiostücks
gemäß Patentanspruch
11, ein Verfahren zum Bestimmen einer Impulsantwort gemäß Patentanspruch
20, ein Verfahren zum Vorführen
eines Audiostücks
gemäß Patentanspruch
21 oder ein Computerprogramm gemäß Patentanspruch
22 gelöst.
-
Der vorliegenden Erfindung liegt
die Erkenntnis zugrunde, daß eine
genaue Impulsantwortbestimmung dadurch erreicht werden kann, daß ein Testsignal
zum Bestimmen der Impulsantwort in ein Audiosignal eingebracht wird,
so daß es
unhörbar
bzw. nahezu unhörbar
ist und für
einen Zuhörer
nicht zur Belästigung
werden kann. Der Zuhörer
hört nach
wie vor das Audiosignal und wird nicht beeinträchtigt durch die Impulsantwortbestimmung.
Er wird also nicht nach Wegen suchen, während der Bestimmung der Impulsantwort
außerhalb
der betrachteten Umgebung zu sein. Nachdem kein Besucher versucht,
der Impulsantwortbestimmung in einem Vorführraum zu entkommen, wird eine
genaue Impulsantwort erreicht, da eine realistische Bestimmung der
Impulsantwort ohne Belästigung
für den
Zuhörer
stattfinden kann.
-
Erfindungsgemäß wird das Testsignal, das
in das Audiosignal eingebracht werden soll, vor dem Einbringen in
das Audiosignal unter Verwendung einer psychoakustischen Maskierungsschwelle
des Audiosignals spektral gefärbt,
um ein gefärbtes
Testsignal zu erhalten. Das gefärbte
Testsignal wird dann in das Audiosignal eingebracht, indem es spektral oder
im Zeitbereich aufaddiert wird, um ein Meßsignal zu erhalten. Ein als
Reaktion auf das Meßsignal empfangenes
Reaktionssignal wird dann mit dem Testsignal einer Kreuzkorrelation
zugeführt,
um auf der Basis dieser Kreuzkorrelation die Impulsantwort eines Übertragungskanals
zwischen einem Lautsprecher einerseits und einem Mikrophon andererseits
in einer entsprechenden Umgebung zu ermitteln.
-
Das erfindungsgemäße Verstecken des Testsignals
im Audiosignal führt
dazu, daß der
Besucher nicht einmal merkt, daß gerade
eine Impulsantwort bestimmt wird. Die beschriebene mangelnde Akzeptabilität solcher
Messungen gemäß dem Stand
der Technik sind beim erfindungsgemäßen Gegenstand nicht mehr vorhanden,
was wiederum dazu führt,
daß alle
Zuschauer bei der Impulsantwortbestimmung vorhanden sind, so daß eine genaue
Impulsantwort der Umgebung erhalten wird.
-
Bei einem bevorzugten Ausführungsbeispiel ist
das Testsignal ein Pseudo-Noise-Signal, das ein weißes Spektrum
hat und somit besonders gut zur Impulsantwortbestimmung eingesetzt
werden kann. Darüber
hinaus ist die spektrale Färbung
unter Verwendung der psychoakustischen Maskierungsschwelle des Audiosignals
einfach und schnell durchführbar.
-
Die Verwendung verschiedener zueinander orthogonaler
Pseudo-Noise-Sequenzen führt
dazu, daß gleichzeitig
mehrere einzelne Impulsantworten in einer Umgebung bestimmt werden
können,
in der mehrere Lautsprecher und eines oder mehrere Mikrophone sind.
-
Alternativ können mehrere einzelne Impulsantworten
auch sequentiell bestimmt werden.
-
Bei einem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung kann auch während der Vorführung des
Audiostücks
eine aktuelle Impulsantwort der Umgebung bestimmt werden. Dieses Merkmale
ist besonders nützlich,
um während
der Vorführung
eines Audiostücks
die Impulsantwort der Umgebung ständig zu bestimmen und nachzuführen, so
daß immer
ein optimaler Klang, unabhängig
davon, ob sich die Umgebung ändert
oder nicht, erhalten wird.
-
Dies alles wird dadurch möglich, daß der Zuhörer nichts
davon merkt oder nur wenig merkt, da das Testsignal zur Bestimmung
der Impulsantwort unter Verwendung der psychoakustischen Maskierungsschwelle
des Audiosignals spektral gefärbt
worden ist, so daß das
Testsignal entweder komplett unter der Maskierungsschwelle versteckt
worden ist oder um einen vorbestimmten Betrag oberhalb der Maskierungsschwelle,
der zeitlich und spektral variieren kann, eingebracht wird, so daß der Besucher
in bestimmten Fällen
vielleicht eine Störung
wahrnimmt, wobei diese Störung
jedoch deutlich geringer ist als bei bekannten Vorgehensweisen.
-
Bevorzugte Ausführungsbeispiele der vorliegenden
Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden
Zeichnungen näher
erläutert.
Es zeigen:
-
1 ein
Blockschaltbild des erfindungsgemäßen Konzepts zum Bestimmen
einer Impulsantwort;
-
2 ein
Blockschaltbild des erfindungsgemäßen Konzepts zum Vorführen eines
Audiostücks;
-
3 eine
schematische Darstellung einer Umgebung mit mehreren Lautsprechern
und mehreren Mikrophonen;
-
4 eine
allgemeine Darstellung eines Übertragungskanals,
der durch eine Impulsantwort beschrieben wird; und
-
5 eine
kurze Herleitung der Bestimmung der Impulsantwort durch Kreuzkorrelation
mit gefärbtem
oder spektral flachem Testsignal.
-
1 zeigt
ein Blockschaltbild einer Vorrichtung zum Bestimmen einer Impulsantwort
in einer Umgebung, in der ein Lautsprecher 10 und ein Mikrophon 12 plaziert
sind. Zur Impulsantwortbestimmung wird ein Audiosignal eingesetzt,
das in einen Audiosignaleingang 14 eingespeist wird. Darüber hinaus wird
ein Testsignal verwendet, das in einen Testsignaleingang 16 eingespeist
wird. Zur Ermittlung der psychoakustischen Maskierungsschwelle des
Audiosignals 14 wird irgendein bekanntes psychoakustisches
Modell 18 eingesetzt. Unter Verwendung einer psychoakustischen
Maskierungsschwelle, die von dem psychoakustischen Modell 18 berechnet
wird, wird eine spektrale Färbung 20 des
Testsignals, das an dem Eingang 16 zugeführt wird,
erreicht. Am Ausgang der Einrichtung 20 zum spektralen
Färben
liegt somit ein spektral gefärbtes
Testsignal an, das einer Einrichtung 22 zum Einbringen
des spektral gefärbten
Testsignals in das Audiosignal 14 zugeführt wird.
-
Für
nachfolgend erläuterte
Funktionalitäten ist
ferner eine Modussteuerungseinrichtung
24 vorgesehen, um
die Einrichtung
22 zum Einbringen anzusteuern, um verschiedene
Meßmodi
durchzuführen.
An einem Ausgang der Einrichtung
22 zum Einbringen, der
in
1 mit
26 bezeichnet
ist, liegt ein Meßsignal
an, das dem Lautsprecher
10 zugeführt wird. Die einzelnen Möglichkeiten
zum Einbringen eines Signals in ein Audiosignal sind in dem europäischen Patent
EP 0 875 107 B1 offenbart.
So kann das Einbringen des spektral gefärbten Testsignals in das Audiosignal
entweder im Zeitbereich durch abtastwertweises Addieren erfolgen.
In diesem Fall muß das
spektral gefärbte
Testsignal genauso wie das Audiosignal im Zeitbereich vorliegen,
um die abtastwertweise Addition durchzuführen.
-
Alternativ kann ein bestimmter zeitlicher
Abschnitt des Audiosignals oder des Testsignals in den Frequenzbereich
transformiert werden, um dann eine spektralwertweise Addition zwischen
dem transformierten Audiosignal und dem transformierten Testsignal
durchzuführen.
Das damit entstehende Meßsignal
im Frequenzbereich muß dann
wieder in den Zeitbereich transformiert werden, um als Meßsignal
einem Lautsprecher zugeführt
zu werden. Die entsprechenden Details optionaler Vor- und Nachverarbeitungen
bezüglich
einer Digital-/Analog-Wandlung vor dem Lautsprecher 10 sind
in 1 nicht dargestellt, da
sie für
Fachleute bekannt sind.
-
Das dem Lautsprecher 10 zugeführte Meßsignal
wird durch den Lautsprecher in ein Schallsignal 28 umgewandelt,
das von dem Mikrophon 12 empfangen wird und als Reaktionssignal
bezeichnet wird. Das Reaktionssignal wird einer Kreuzkorrelationseinrichtung 30 zugeführt, die
eine Kreuzkorrelation zwischen dem Reaktionssignal und dem spektral
gefärbten
Testsignal oder alternativ dem unmittelbar vorliegenden Testsignal
vor der spektralen Färbung
durchführt.
Je nachdem, welche Signale verwendet werden, bzw. je nach Testsignal
und spektraler Färbung können nach
der Kreuzkorrelation noch Nachverarbeitungen anfallen, die durch
eine Nachverarbeitungseinrichtung 32 bewirkt werden, um
die Impulsantwort des Kanals zwischen dem Lautsprecher 10 und
dem Mikrophon 12 zu erhalten.
-
Bei einem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung wird als Testsignal ein Pseudo-Noise-Signal
eingesetzt, das ein weißes Spektrum
hat. In diesem Fall ist es möglich,
verschiedene Impulsantworten gleichzeitig zu bestimmen, indem verschiedene
Lautsprecher mit Meßsignalen versehen
werden, denen jeweils unterschiedliche zueinander im wesentlichen
orthogonale Pseudo-Noise-Sequenzen zugrunde liegen. Darüber hinaus
ist die Verwendung eines Pseudo-Noise-Signals
günstig,
da es einfach und schnell an beliebiger Stelle erzeugt werden kann,
wenn beispielsweise eine Einheit mit rückgekoppeltem Schieberegister
eingesetzt wird, die abhängig
von einem bestimmten Startwert, der in der Technik auch als Seed
bezeichnet wird, eine wiederholbare Pseudo-Noise-Sequenz erzeugt. Wenn
solche Schieberegister bei jedem Lautsprecher und bei jedem Mikrophon
zur Verfügung
gestellt werden, so muß das
Testsignal nicht von einer einem Lautsprecher zugeordneten Einheit 34 zu
einer einem Mikrophon zugeordneten Einheit 36 übertragen werden,
sondern kann an beliebiger Stelle dezentral erzeugt werden. Alternativ
besteht jedoch die Möglichkeit,
die Einheiten 34, 36 als eine einzige Einheit zu
implementieren. In diesem Fall würde
das Meßsignal
für den
Lautsprecher 10 und das Reaktionssignal von dem Mikrophon 12 durch
Kabelverbindungen, wie z. B. Glasfaserkabel, oder drahtlose Verbindungen
zu der zentralen Einheit, die aus den Einheiten 34 und 36 gebildet
ist, übermittelt
werden.
-
Die vorliegende Erfindung ist besonders
gut in Multilautsprechersystemen einsetzbar, die eine große Anzahl
von Lautsprechern verwenden, um die natürliche Akustik des Aufzeichnungsraums
oder eine künstliche
Akustik, die durch den Toningenieur entworfen worden ist, wiederzugeben.
Hierzu wird als Modul ein Wellenfeldsynthesemodul verwendet, wie
es zu Eingang dargestellt worden ist. Eine synthetisierte Akustik
oder die natürliche
Akustik des Aufzeichnungsraums können
dann gut wiedergegeben werden, wenn die Akustik des Reproduktionsraums
keinen all zu großen
Einfluß hat,
indem diese Akustik „herauskompensiert" wird. Hierzu wird
die Wellenfeldsynthese verwendet, um beispielsweise starke Reflexionen
des tatsächlichen
Wiedergaberaums durch Anwenden einer inversen Filterung mit der
erfindungsgemäß bestimmten
Raumimpulsantwort zu reduzieren. Nachdem die Raumimpulsantwort durch
die Anzahl von Leuten in dem Raum und/oder die Bewegung von Objekten,
wie Möbel,
Vorhänge
etc., beeinflußt
wird, ist die erfindungsgemäße Vorgehensweise
zur Bestimmung der Impulsantwort besonders vorteilhaft, da diese
gewissermaßen
immer durchgeführt
werden kann, also während
einer vor einer eigentlichen Aufführung eingespielten Musik oder
sogar während
der tatsächlichen Vorführung, da
das Testsignal in dem für
den Zuhörer angenehmen
Audiostück „versteckt" ist.
-
Vorzugsweise wird daher ein Pseudorauschsignal
in ein Audiosignal für
einen Lautsprecher eingebettet, das gemäß der Maskierungsschwelle des Audiosignals
spektral gefärbt
ist, das durch einen bzw. jeden der Lautsprecher wiedergegeben wird.
-
Die Messung der Impulsantwort kann
entweder für
alle Lautsprecher gleichzeitig unter Verwendung unterschiedlicher
PNS-Sequenzen für
jeden Lautsprecher oder sequentiell in einem sogenannten Round-Robin-Ansatz
durchgeführt
werden. Während die
erste Version ein besseres zeitliches Verhalten hat, ergibt die
zweite Version ein besseres Signal-/Rauschverhältnis, also eine genauere Impulsantwort.
Für beide
Messungen gilt jedoch, daß sie
von einem Zuhörer
nicht oder nur kaum wahrnehmbar sind, je nachdem, wie hart die spektrale Färbung an
der psychoakustischen Maskierungsschwelle geführt wird. Für Messungen z. B. während der
Wiedergabe des Audiostücks
selbst, wegen dem die Zuhörer
gekommen sind, wird es bevorzugt, sicherzustellen, daß die spektrale
Färbung
derart durchgeführt
wird, daß das
Testsignal immer unter der psychoakustischen Maskierungsschwelle
bleibt. Für
eine Einspielmusik beispielsweise vor der eigentlichen Vorführung bzw.
für eine
vor einem Kinofilm z. B. stattfindende Werbung ist es jedoch auch
möglich, das Testsignal
bezüglich
des Audiosignals mit mehr Energie zu versehen, da hier geringe Störungen nicht unbedingt
vom Zuhörer
als besonders negativ wahrgenommen werden. In diesem Fall sind unter
Umständen
schneller konvergierende bzw. genauere Impulsantwortmessungen erreichbar,
da das Testsignal im Mittel mit mehr Energie abgestrahlt wird, was
sich in einem besseren Signal/Rauschverhältnis bemerkbar macht.
-
Im nachfolgenden wird anhand von 2 eine erfindungsgemäße Vorrichtung
zum Vorführen eines
Audiostücks
in einer Umgebung, in der eine Mehrzahl von Lautsprechern und mehrere
Mikrophone plaziert sind, dargestellt. Hierzu ist in 2 ein Lautsprecher-/Mikrophonarray 40 skizziert.
Dem Lautsprecher-/Mikrophonarray 40 vorgeschaltet befindet
sich die in 1 dargestellte
Impulsantwortbestimmungsvorrichtung 42, die mit einem Wellenfeldsynthesemodul 44 gekoppelt
ist. Zur Impulsantwortbestimmung berechnet das Wellenfeldsynthesemodul
auf der Basis eines zugeführten
Audiostücks
und auf der Basis von vorgegebenen Einstellungen für die Akustik
der Umgebung Audiosignale für
die Lautsprecher im Lautsprecherarray 40. Diese Signale werden über einen
Ausgang 46 des Wellenfeldsynthesemoduls ausgegeben und
entweder dem Lautsprecher-/Mikrophonarray 40 direkt zugeführt, wie
es durch einen gestrichelten Pfad 48 dargestellt ist, oder,
wenn eine Impulsantwortbestimmung durchgeführt werden soll, der Impulsantwortbestimmungseinrichtung 42 zugeführt, die
eingangsseitig die Audiosignale über
die Leitung 46 empfängt
und ausgangsseitig über
eine Leitung 50 die Meßsignale
an das Lautsprecherarray 40 abgibt.
-
Die Reaktionssignale werden vom Mikrophonarray
aufgefangen und über
die Leitung 50, die eine Zwei-Wege-Leitung ist, der Impulsantwortbestimmungseinrichtung 42 wieder
zugeführt,
damit diese eine für
die Erfindung bevorzugte Kreuzkorrelationsverarbeitung und eine
möglicherweise
nötige
Nachverarbeitung durchführen
kann. Vorgegebene Einstellungen im Wellenfeldsynthesemodul für die Akustik
der Umgebung
52 können
dann durch eine aktuelle Impulsantwort, die von der Einrichtung 42 z.
B. während
der Vorführung
des Audiostücks
errechnet worden ist, aktualisiert werden, so daß die von dem Wellenfeldsynthesemodul
verwendeten Akustikeinstellungen über die Umgebung ständig aktualisiert und
besser an die tatsächliche
Umgebung 52 angepaßt
werden können.
Diese Funktionalität
ist durch einen Rückkopplungspfad 54 in 2 dargestellt.
-
Das Wellenfeldsynthesemodul 44 kann
somit mit vorgegebenen Einstellungen für die Impulsantwort gestartet
werden und unter Verwendung der aktuellen Messungen der Impulsantwortbestimmungseinrichtung 42 aktualisiert
werden. Die vorgegebenen Einstellungen einschließlich der Position der Lautsprecher
kann durch die erfindungsgemäße Impulsantwortbestimmungseinrichtung 42 außerhalb der
Vorführung
gemessen werden, indem hierzu entweder psychoakustisch gefärbte PNS-Sequenzen zusammen
mit einer Musik eingesetzt werden oder indem keine Musik verwendet
wird, sondern die reine PNS-Sequenz
verwendet wird.
-
An dieser Stelle sei darauf hingewiesen,
daß es
in der Technik bekannt ist, aus vielen verschiedenen Impulsantworten
in einer Umgebung die gesamte mehrdimensionale Impulsantwort dieser
Umgebung z. B. zu interpolieren. Darüber hinaus ist es in der Technik
bekannt, auf der Basis von einer solchermaßen gefundenen Impulsantwort
Schallausgabequellen bestimmten Positionen im dreidimensionalen Raum
zuzuordnen. Hierbei wird ferner zwischen üblichen Schallquellen, wie
beispielsweise Lautsprechern, und sogenannten Spiegelschallquellen,
wie beispielsweise reflektierenden Wänden, unterschieden. Die erfindungsgemäße Impulsantwortbestimmung
ermöglicht
es somit, ohne Belästigung
für Zuhörende eine
Umgebungsbeschreibung zu erhalten, ohne daß Positionen der Mikrophone
manuell, beispielsweise mittels Streckenmessungen, ermittelt werden
müssen.
-
Bezüglich der Plazierung der Mikrophone
für die
Impulsantwortbestimmung existieren verschiedene Möglichkeiten.
Am besten hinsichtlich der zu bestimmenden Impulsantwort ist es,
die Mikrophone in der Umgebung 42 von den Lautsprechern
entfernt zu plazieren. In einem Vorführraum mit Personen ist dies
jedoch oftmals unpraktikabel. Daher wird es in diesem Fall bevorzugt,
die Mikrophone zwischen den Lautsprechern zu plazieren, so daß sie nicht „im Weg stehen".
-
Während
die Plazierung der Mikrophone von den Lautsprechern entfernt bevorzugt
wird, um Impulsantwortmessungen durchzuführen, aus denen eine vorgegebene
Einstellung für
das Wellenfeldsynthesemodul 44 errechnet wird, wird es
bevorzugt, die Mikrophone zwischen den Lautsprechern zu plazieren,
wenn während
einer Vorführung
eine Adaption des Wellenfeldsynthesemoduls 44 durchgeführt werden
soll.
-
Die Mikrophone können fest oder beweglich in
kreisförmiger,
linearer oder kreuzförmiger
Konfiguration angeordnet werden. Bezüglich der Mikrophonbewegung
können
dieselben in einem Kreis oder unter Verwendung eines x/y-Verschiebungsgeräts im Raum
während
der Messung bewegt werden. Derartige Vorgehensweisen sind bei einer
Impulsantwortadaption während
der Vorführung
weniger praktikabel, so daß hier
feststehende Mikrophone vorzugsweise zwischen den Lautsprechern
bevorzugt werden.
-
Für
eher preisgünstigere
Anwendungen, insbesondere im Consumer-Bereich, können die Mikrophone durch Lautsprecher
ersetzt werden, um die Anzahl der Komponenten zu verringern. Jeder
Lautsprecher arbeitet aufgrund der Tatsache, daß er eine Membran und eine
Schwingspule hat, genauso als Mikrophon, wenn er entsprechend ausgelesen
wird. Zu diesem Zweck wird es bevorzugt, in einem Impulsantwortbestimmungsmodus
für entsprechende Consumer-Anwendungen
einen oder mehrere Lautsprecher des für die Wiedergabe ohnehin vorhandenen
Lautsprecherarrays als Mikrophone zu nutzen, um vor der Vorführung eines
Audiostücks
die Impulsantwort zu bestimmen, um dann, bei der Abspielung des
Audiostücks,
wieder alle Lautsprecher als Lautsprecher zu verwenden. Für eine Adaption
während
der Vorführung
könnten
beliebig ausgewählte Lautsprecher
von Zeit zu Zeit als Mikrophone eingesetzt werden, um eine Adaption
durchzuführen,
ohne daß extra
Mikrophone eingesetzt werden müssen. Wenn
eine große
Anzahl von Lautsprechern verwendet wird, wird das zeitweilige Umschalten
einiger weniger Lautsprecher unproblematisch hinsichtlich des Audioeindrucks
sein.
-
3 zeigt
eine reale Situation, bei der viele Lautsprecher und viele Mikrophone
verwendet werden. Eine Impulsantwort läßt sich für den Kanal von jedem Lautsprecher
zu jedem Mikrophon angeben. So wird der Kanal zwischen dem Lautsprecher 1 (LS1)
zum Mikrophon 1 (M1) als K11 bezeichnet. Analog hierzu
wird der Kanal vom ersten Lautsprecher (LS1) zum dritten Mikrophon
(M3) als K31 bezeichnet etc. Senden alle drei Lautsprecher LS1, LS2,
LS3 gleichzeitig, so kann das vom Mikrophon M1 empfangene Reaktionssignal
dazu verwendet werden, um drei verschiedene Impulsantworten zu berechnen.
Grundlage hierfür
ist, daß dem
ersten Lautsprecher (LS1) eine erste Pseudo-Noise-Sequenz PN1 im
Rahmen des Meßsignals
für den
ersten Lautsprecher eingeprägt
wird. Entsprechend erhält
der zweite Lautsprecher (LS2) eine zweite Pseudo-Noise-Sequenz (PN2).
Darüber
hinaus erhält
der dritte Lautsprecher (LS3) eine dritte Pseudo-Noise-Sequenz (PN3).
Der Kanal K11 zwischen dem ersten Lautsprecher LS1 und dem ersten
Mikrophon M1 wird berechnet, indem eine Kreuzkorrelation des durch
das erste Mikrophon M1 empfangenen Reaktionssignals mit der Pseudo-Noise-Sequenz 1 durchgeführt wird.
Der Kanal K21 vom zweiten Lautsprecher zum ersten Mikrophon wird
durch Korrelation mit der Pseudo-Noise-Sequenz 2 berechnet.
Der Kanal K31 vom dritten Lautsprecher LS3 zum ersten Mikrophon
M1 wird durch Korrelation mit der Pseudo-Noise-Sequenz 3 erhalten.
Wenn alle drei Lautsprecher und alle drei Mikrophone gleichzeitig
betrieben werden, können
somit alle neun Impulsantworten berechnet werden. Dieser Meßmodus liefert ein
besseres zeitliches Verhalten, da die resultierende mehrdimensionale
Impulsantwort der Umgebung, die aus den ermittelten neun einzelnen
Impulsantworten durch Interpolation bestimmt wird, auf der Basis
von gleichzeitig gesendeten Meßsignalen
bestimmt wird.
-
Alternativ kann ein besseres Signal/Rauschverhältnis und
damit eine genauere Impulsantwort erhalten werden, wenn zunächst der
Lautsprecher 1 betrieben wird und gleichzeitig alle drei
Mikrophone durch Korrelation des empfangenen Signals mit der Pseudo-Noise-Sequenz 1 die
drei Kanäle
K11, K12 und K13 berechnen. Dann, zu einem nachfolgenden Zeitpunkt,
wird dasselbe für
den Lautsprecher 2 durchgeführt und schließlich wird
dasselbe für
den Lautsprecher 3 durchgeführt. Damit werden nacheinander
die verschiedenen Impulsantworten ermittelt, wobei immer so viel
Impulsantworten gleichzeitig ermittelt werden, wie Mikrophone vorhanden
sind.
-
Nachfolgend wird zusammengefaßt, wie
die Impulsantwort h(t) eines Kanals durch Kreuzkorrelation bestimmt
wird. Hierzu wird der Kanal mit einem zeitdiskreten Testsignal p(t)
beaufschlagt. Der Kanal gibt ausgangsseitig ein Empfangssignal y(t)
aus, das, wie es bekannt ist, der Faltung des Eingangssignals und
mit der Kanalimpulsantwort entspricht. Zur nachfolgenden Erläuterung
einer Vorgehensweise zur Bestimmung der Kreuzkorrelation anhand
von 5 wird auf eine
Matrixschreibweise übergegangen.
Beispielhaft wird eine Kanalimpulsantwort mit lediglich zwei Werten
h0 und h1 ohne Einschränkung der
Allgemeinheit angenommen. Die Kanalimpulsantwort h0, h1 kann als Kanalimpulsantwortmatrix H(t)
geschrieben werden, die die in 5 gezeigte
Bandstruktur hat, wobei die restlichen Elemente der Matrix mit Nullen
aufgefüllt
werden. Darüber
hinaus wird das Anregungssignal p(t) als Vektor geschrieben, wobei
hier angenommen wird, daß das
Anregungssignal ohne Einschränkung
der Allgemeinheit lediglich drei Samples p0,
p1, p2 hat.
-
Es kann gezeigt werden, daß die in 4 dargestellte Faltung der
in 5 dargestellten Matrix-Vektor-Multiplikation entspricht,
so daß sich
ein Vektor y für
das Ausgangssignal ergibt. Die Kreuzkorrelation kann als Erwartungswert
E{...} der Multiplikation des Ausgangssignals y(t) mit dem konjugiert-komplex-transponierten
Anregungssignal p*T geschrieben werden.
Der Erwartungswert berechnet sich als Grenzwert für N gegen
unendlich über
die in 5 dargestellte
Aufsummation von einzelnen Produkten für verschiedene Anregungssignale
pi. Die Multiplikation und anschließende Aufsummation
ergibt die Kreuzkorrelationsmatrix, die in 5 links oben dargestellt ist, wobei dieselbe
gewichtet mit dem Effektivwert des Anregungssignals p ist, der mit σp
2 dargestellt ist. Zum unmittelbaren Erhalten
der Kanalimpulsantwort h(t) wird beispielsweise die erste Zeile
der Kanalimpulsantwortmatrix genommen, woraufhin die einzelnen Komponenten
durch σp
2 geteilt werden,
um unmittelbar die einzelnen Komponenten der Kanalimpulsantwort
h0, h1 zu erhalten.
-
Wird anstatt eines weißen Anregungssignals p(t)
ein spektral gefärbtes
Anregungssignal verwendet, so kann die spektrale Färbung durch
eine digitale Filterung dargestellt werden, wobei das Filter durch eine
Filterkoeffizientenmatrix Q beschrieben wird. In der in 5 in der letzten Zeile dargestellten
Gleichung ergibt sich ebenfalls ausgangsseitig die Korrelationsmatrix
H, nun jedoch noch gewichtet mit dem Erwartungswert über Q × QH. Durch Division der einzelnen Impulsantwortkoeffizienten
h0, h1 durch den Erwartungswert über Q × QH, also durch Berücksichtigung des Färbungsfilters
beispielsweise in der Nachverarbeitungseinrichtung 32 von 1 kann unmittelbar die Kanalimpulsantwort
hinsichtlich ihrer einzelnen Komponenten bestimmt werden.
-
Es sei darauf hingewiesen, daß das Kreuzkorrelationskonzept
zum Berechnen der Impulsantwort ein iteratives Konzept ist, wie
es aus dem in 5 dargestellten
Summationsansatz für den
Erwartungswert ersichtlich ist. Die erste Multiplikation des Reaktionssignals
mit dem konjugiert-komplextransponierten Anregungssignal liefert
bereits einen ersten noch sehr groben Schätzwert für die Kanalimpulsantwort, der
mit jeder weiteren Multiplikation und Aufsummation immer besser
wird. Wird die gesamte Matrix H(t) durch den iterativen Summationsansatz berechnet,
so stellt sich heraus, daß die
in 5 links oben zu Null
gesetzten Elemente der Bandmatrix H(t) nach und nach gegen Null
gehen, während
in der Mitte, also dem Band der Matrix, die Koeffizienten der Kanalimpulsantwort
h(t) verbleiben und bestimmte Werte annehmen. Noch einmal sei darauf
hingewiesen, daß es
nicht erforderlich ist, die gesamte Matrix zu berechnen. Es genügt, lediglich
z. B. eine Zeile der Matrix H(t) zu berechnen, um die gesamte Kanalimpulsantwort
zu erhalten.
-
An dieser Stelle sei darauf hingewiesen,
daß das
erfindungsgemäße Konzept
nicht auf die anhand von 5 beschriebene
Vorgehensweise zur Berechnung der Kreuzkorrelation beschränkt ist.
Sämtlichen
anderen Verfahren zum Berechnen der Kreuzkorrelation zwischen einem
Meßsignal
und einem Reaktionssignal sind ebenfalls einsetzbar. Andere Verfahren
zur Bestimmung einer Impulsantwort anstelle der Kreuzkorrelation
können
ebenfalls verwendet werden.
-
An dieser Stelle sei darauf hingewiesen,
daß die
verwendeten Pseudo-Noise-Sequenzen hinsichtlich ihrer Länge abhängig von
der zu erwartenden Impulsantwort des betrachteten Kanals dimensioniert sein
sollten. So sind für
größere akustische
Umgebungen durchaus Impulsantworten mit der Länge von einigen wenigen Sekunden
denkbar. Dieser Tatsache muß durch
Auswahl einer entsprechenden Länge
der Pseudo-Noise-Sequenzen
zur Korrelation Rechnung getragen werden.
-
Abhängig von den Gegebenheiten
kann das erfindungsgemäße Verfahren
zum Bestimmen der Impulsantwort bzw. das erfindungsgemäße Verfahren
zum Vorführen
eines Audiostücks
in Hardware oder in Software implementiert werden. Die Imple mentierung
kann auf einem digitalen Speichermedium, insbesondere einer Diskette
oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die
so mit einem programmierbaren Computersystem zusammenwirken können, daß das entsprechende
Verfahren ausgeführt
wird. Allgemein besteht die Erfindung somit auch in einem Computerprogrammprodukt
mit auf einem maschinenlesbaren Träger gespeicherten Programmcode
zur Durchführung
des erfindungsgemäßen Verfahrens,
wenn das Computerprogrammprodukt auf einem Rechner abläuft. In anderen
Worten ausgedrückt
kann die Erfindung somit als ein Computerprogramm mit einem Programmcode
zur Durchführung
des Verfahrens realisiert werden, wenn das Computerprogramm auf
einem Computer abläuft.