DE10215775B4

DE10215775B4 - Verfahren zur räumlichen Darstellung von Tonquellen

Info

Publication number: DE10215775B4
Application number: DE2002115775
Authority: DE
Inventors: Hellmut Wittek
Original assignee: Institut fuer Rundfunktechnik GmbH
Current assignee: Institut fuer Rundfunktechnik GmbH
Priority date: 2002-04-10
Filing date: 2002-04-10
Publication date: 2005-09-29
Anticipated expiration: 2022-04-11
Also published as: DE10215775A1

Abstract

Verfahren zur räumlichen Darstellung von Tonquellen unter Verwendung einer Lautsprecherzelle (Lautsprecherarray) aus nebeneinander angebrachten Lautsprechern, bei dem die Lautsprecher mit kohärenten Signalen betrieben werden und die zugehörigen Lautsprechersignale mit Hilfe geeigneter Faltungen derart gestaltet werden, daß das Schallfeld einer virtuellen Tonquelle entsteht, welche eine durch Wellenfeldsynthese durch sämtliche Lautsprecher des Lautsprecherarrays erzeugte Tonquelle ist, dadurch gekennzeichnet, daß das Signal einer wiederzugebenden Tonquelle in zwei Frequenzbänder oberhalb und unterhalb einer kritischen Frequenz gespalten wird, daß das Tonspektrum unterhalb der kritischen Frequenz als Ausgangssignal für die Wiedergabe der virtuellen Tonquelle durch sämtliche Lautsprecher des Lautsprecherarrays verwendet wird, und daß das Tonspektrum oberhalb der kritischen Frequenz als Ausgangssignal für die Wiedergabe einer stereophonen Phantomschallquelle durch einige wenige Lautsprecher des Lautsprecherarrays erzeugt wird, wobei die virtuelle Tonquelle und die Phantomschallquelle zu einem einzigen Hörereignis verschmelzen.

Description

Die Erfindung bezieht sich auf ein Verfahren zur räumlichen Darstellung von Tonquellen gemäß dem Oberbegriff des Patentanspruchs 1. Ein derartiges Verfahren ist beispielsweise aus der Zeitschrift „Journal of the Acoustical Society of America", Band 99, 1993, Seiten 2764 bis 2778 bekannt.

Die in der Zeitschrift „Journal of the Acoustical Society of America", Band 99, 1993, Seiten 2764 bis 2778 beschriebene Wellenfeldsynthese (WFS) hat zum Ziel, das Schallfeld einer beliebigen Tonquelle möglichst fehlerfrei als „virtuelle Schallquellen" in einem Wiedergaberaum nachzubilden. Dazu wird eine Lautsprecherzeile (Lautsprecherarray) aus vielen, dicht nebeneinander angebrachten Lautsprechern benutzt. Die bei endlich langen Lautsprecherarrays mit endlich kleinem Lautsprecherabstand auftretenden negativen Effekte oberhalb einer kritischen Grenzfrequenz sind physikalisch bedingt und werden in der Literatur als „spatial aliasing" oder „diffraction effects" beschrieben (Veröffentlichung von Evert Start „Direct Sound Enhancement by Wave Field Synthesis", TU Delfft, 1997, ISBN 90-9010708). Ferner ist bei endlich langen Lautsprecherarrays die Zone von möglichen Hörpositionen begrenzt.

In der Praxis ist man daher bestrebt, die Länge der Lautsprecherarrays möglichst klein und den Abstand der Array-Lautsprecher möglichst groß zu halten, um die Zahl der Array-Lautsprecher zu minimieren. Infolge der physikalisch bedingten negativen Effekte müssen entsprechende Qualitätseinschränkungen in Kauf genommen werden.

Die Aufgabe der Erfindung besteht demgegenüber darin, bei einem Verfahren der eingangs erwähnten Art die genannten Qualitätseinschränkungen zu vermeiden oder zumindest wesentlich zu verringern.

Diese Aufgabe wird erfindungsgemäß durch die kennzeichnenden Merkmale des Patentanspruchs 1 gelöst.

Vorteillhafte Weiterbildungen und Ausgestaltungen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen.

Die Erfindung beruht auf der Überlegung, das Signal einer wiederzugebenden Tonquelle in zwei Frequenzbänder oberhalb und unterhalb einer kritischen Frequenz zu spalten: Unterhalb der kritischen Frequenz entsteht ein Tiefpasssignal, das Ausgangssignal für die Wiedergabe einer „virtuellen Tonquelle" ist, worunter im folgenden eine durch Wellenfeldsynthese (WFS) durch sämtliche Lautsprecher des Lautsprecherarrays erzeugte Tonquelle ist. Zum anderen wird oberhalb der kritischen Frequenz durch die Frequenzbandspaltung ein Hochpasssignal erzeugt, das nach Pegelangleichung zur Erzeugung einer Phantomschallquelle durch einige wenige Lautsprecher des Lautsprecherarrays entsprechend den Schall-Abbildungsgesetzen der Stereophonie verwendet wird. Diese wenigen Lautsprecher zur Erzeugung der Phantomschallquelle oberhalb einer kritischen Frequenz werden im folgenden als „Stereophonie-Lautsprecher" bezeichnet. Wesentlich ist, dass die virtuelle Tonquelle und die Phantomschallquelle zu einem einzigen Hörereignis verschmelzen.

Die Erfindung wird nachstehend anhand der in den Figuren dargestellten Zeichnungen und Diagrammen näher erläutert. Es zeigt:
1 eine schematische Darstellung eines Lautsprecherarrays zur Durchführung des erfindungsgemäßen Verfahrens mit einzelnen, schwarz markierten Stereophonie-Lautsprechern innerhalb des Lautsprecherarrays;
2 ein Diagramm für die Auslenkung einer Phantomschallquelle in Abhängigkeit von der Pegeldifferenz, und
3 ein Diagramm für die Veränderung der Lokalisation einer aus virtueller Tonquelle und Phantomschallquelle zusammengesetzten erfindungsgemäßen Kombinationsquelle in Abhängigkeit von der Pegeldifferenz und für unterschiedliche kritische Frequenzen.
In 1 ist ein Lautsprecherarray aus dicht nebeneinander angebrachten Lautsprechern abgebildet, wie dies zur Erzeugung einer Wellenfeldsynthese an sich bekannt ist. Im dargestellten Beispielsfall sind insgesamt 15 Lautsprecher vorgesehen. Das Frequenzband des wiederzugebenden Tonsignals wird in einen tieffrequenten Bereich unterhalb einer kritischen Frequenz und in einen hochfrequenten Bereich oberhalb der kritischen Frequenz mit Hilfe von nicht dargestellten Tief- und Hochpässen aufgespalten.
Im Unterschied zum Stand der Technik werden nur unterhalb der kritischen Frequenz alle Lautsprecher des Lautsprecherarrays mit kohärenten Signalen betrieben, so daß durch geeignete Faltungen der zugehörigen Lautsprechersignale ein Schallfeld einer virtuellen Tonquelle entsteht. Der Ort der virtuellen Tonquelle ist in 1 mit „Virtual source position" bezeichnet. Das Schallfeld ist durch konzentrische Kreise um den Ort der virtuellen Tonquelle als Kreismittelpunkt angedeutet. Oberhalb der kritischen Frequenz werden lediglich einige wenige, als Stereophonie-Lautsprecher bezeichnete Lautsprecher des Lautsprecherarrays verwendet, um beim Hörer eine Phantomschallquelle zu erzeugen. Im dargestellten Beispielsfall werden drei Lautsprecher des Arrays als Stereophonie-Lautsprecher verwendet, die in 1 mit schwarzer Einfärbung markiert sind. Es handelt sich dabei um einen Lautsprecher in der Mitte des Arrays sowie um jeweils den vorletzten Lautsprecher an beiden Enden des Arrays. Der Lautsprecher in der Mitte des Arrays ist zur Wiedergabe des stereophonen Center-Signals, während die beiden seitlichen Lautsprecher zur Wiedergabe des stereophonen Rechts- bzw. Linkssignals vorgesehen sind. Der Schalleinfall der drei Stereophonie-Lautsprecher auf zwei verschiedene Positionen eines Hörers ist in 1 durch gestrichelte Pfeile angedeutet. Die daraus resultierende Phantomschallquelle nimmt der Hörer am Ort der virtuellen Tonquelle („Virtual source position") wahr, wie in 1 mit durchgezogenen Pfeilen vom Ort des jeweiligen Hörers zu dem Ort der virtuellen Tonquelle angedeutet ist. Die Phantomschallquelle wird durch die ihr zugeordneten Eigenschaften wie Richtung, Lokalisationsschärfe etc. beschrieben. Durch die Übereinstimmung der Wahrnehmungsorte für die virtuelle Tonquelle und die Phantomschallquelle verschmelzen beim Hörer virtuelle Tonquelle und Phantomschallquelle zu einem einzigen Hörereignis, das im folgenden als „Kombinationsquelle" bezeichnet wird.
Die Wahrnehmung der Phantomschallquelle und damit auch der Kombinationsquelle hinsichtlich Ort und Qualität hängt von einigen einstellbaren Parametern ab, die im folgenden näher betrachtet werden sollen.
Parameter #1:
Dieser Parameter ist die Übergangsfrequenz oder kritische Frequenz zwischen Hoch- und Tiefpass sowie die Eigenschaften von Hoch- und Tiefpass. Diese Frequenz wird derart gewählt, dass der Tiefpass die Erzeugung von „Spatial Aliasing" bei der virtuellen Quelle verhindert. Das bedeutet, dass diese Frequenz von mehreren Parametern wie Abstand der Lautsprecher, Quellen- und Hörposition abhängt. Dabei ist es von wesentlicher Bedeutung, dass das Verhältnis der Energien zwischen dem vom Tiefpass und dem vom Hochpass bearbeiteten Signal nie eine gewisse Schwelle unterschreitet. Bei der Verschmelzung von virtueller Tonquelle und Phantomschallquelle zur Kombinationsquelle muss die tieffrequente, virtuelle Quelle wesentlich richtungsentscheidend sein. Das heißt, dass der Absenkung der Übergangsfrequenz Grenzen gesetzt sind.
Parameter #2:
Dieser Parameter ist die Anzahl und die Positionen der Stereophonie-Lautsprecher. Die Anzahl und die Positionen der Stereophonie-Lautsprecher haben Einfluss auf die Größe der Hörzone. Das heißt, dass es z.B. durch die Einbeziehung zusätzlicher Stereophonie-Lautsprecher möglich sein kann, die Hörzone zu vergrößern bzw. positiv zu verändern. Die Position der Stereophonie-Lautsprecher ist abhängig von der Position der wiederzugebenden virtuellen Tonquelle. So könnte in Abhängigkeit von der Position der virtuellen Tonquelle absichtlich nur ein Teil der insgesamt zur Verfügung stehenden Stereophonie-Lautsprecher aktiviert werden. Das heißt, dass jede einzelne wiedergegebene Ursprungsquelle verschiedene Stereophonie-Lautsprechern benützen kann. Sind Stereophonie-Lautsprecher und Array-Lautsprecher identisch, wie in 1, ergibt sich daraus eine große Anzahl unterschiedlich einsetzbarer Stereophoniebasen.
Die Anzahl (und Position) der Stereophonie-Lautsprecher bestimmt auch den Grad der Hörbarkeit von Kammfiltereffekten durch die Existenz mehrerer kohärenter Schallquellen. Das heißt, dass die beste Lösung immer aus einem Kompromiss zwischen möglichst wenigen am Hörplatz relevanten Stereophonie-Lautsprechern und möglichst optimaler Hörzone bestehen muss.
Parameter #3:
Dieser Parameter ist gegeben durch die Pegel- und Laufzeitdifferenzen zwischen den Stereophonie-Lautsprechern und der Lautstärkeverteilung der Phantomschallquelle. Pegel- und Laufzeitdifferenzen zwischen den Stereophonie-Lautsprechern bestimmen die wahrgenommene Richtung der Phantomschallquelle. Durch geeignete Wahl dieser beiden Parameter kann der Lokalisationsfehler in einer begrenzten Zone minimiert werden. Bei der Wahl der Pegeldifferenzen ist grundsätzlich zu beachten, dass die Lautstärkeverteilung der Phantomschallquelle in der gesamten Hörzone möglichst optimal ist. Bei der Wahl der Laufzeitdifferenz ist grundsätzlich zu beachten, dass bei einer ortsnahen oder – identischen Aufstellung von Array- und Stereophonie-Lautsprechern Laufzeitunterschiede zwischen Hoch- und Tiefpasssignal besonders im Übergangsbereich der Hoch- und Tiefpassfilterung störend hörbar werden. Somit gelten für die Stereophonie-Lautsprecher die Originallaufzeiten der virtuellen Tonquelle als Referenzzeiten.
Die Abschätzung der Hörereignisrichtung einer Phantomschallquelle in Abhängigkeit von Laufzeit- und Pegeldifferenzen der Lautsprechersignale am Hörort ist Grundlage für die Optimierung der Lautsprecherparameter. So muss in Kenntnis der Theorie der Phantomschallquellenwahrnehmung für bestimmte Pegel- und Laufzeitverhältnisse zwischen den Stereophonie-Lautsprecher-Quellsignalen die Hörereignisrichtung innerhalb der gesamten gewünschten Hörzone berechnet werden. Der Lokalisationsfehler errechnet sich aus der Differenz dieser Hörereignisrichtung und der Richtung der virtuellen Quelle. Mithilfe dieser Berechnung kann die optimale Wahl der Parameter zur Minimierung des Lokalisationsfehlers getroffen werden. Die Abschätzung der Hörereignisrichtung einer Phantomschallquelle beruht z.B. auf der Anwendung eines Vektor-Lokalisationsmodells.
Dabei ist zu beachten, dass die dazu benötigte grundlegende Beziehung zwischen Pegeldifferenz der Lautsprechersignale und Auslenkung der Phantomschallquelle abhängig von der Frequenz und Bandbreite des Signals ist. 2 zeigt ein Diagramm für die Auslenkung einer Phantomschallquelle („Phantom source shift in degrees") in Abhängigkeit von der Pegeldifferenz („Level difference ΔL"). Während für breitbandige Signale (graue durchgezogene Kurve) die Beziehung von etwa 7,3 %/dB im linearen Bereich bis 50% Auslenkung gilt, verändert sich dieser Wert für Hochpasssignale (schwarze durchgezogene Kurve) bei einer Übergangsfrequenz von 2500 Hz auf etwa 11,6 %/dB (100% entspricht voller Auslenkung, das heißt Auslenkung um die halbe Basisbreite). Die untere gestrichelte Kurve entspricht der theoretischen Kurve zur Auslenkung von Breitbandsignalen. Die obere gestrichelte Kurve entspricht der theoretischen Kurve zur Auslenkung von Hochpasssignalen.
Im Unterschied zu der Abhängigkeit von der Pegeldifferenz sind die Gesetzmäßigkeiten zur Auslenkung in Abhängigkeit von der Laufzeitdifferenz der Lautsprechersignale nicht in diesem Masse frequenzabhängig.
Parameter #4:
Als weitere Parameter sind unter Umständen weitere variable Größen wie Richtwirkung und Qualität der Stereophonie-Lautsprecher in Betracht zu ziehen. Einige in der Praxis der Lautsprecherarrays auftretende Problem wie mangelnde Qualität der Array-Lautsprecher können durch eine Wiedergabe im Sinne der Erfindung wesentlich vermieden werden. Da die Stereophonie-Lautsprecher in ihrer Anzahl im Vergleich zu den Array-Lautsprechern kleiner sein können, kann auch der Anspruch steigen, der an diese Lautsprecher gestellt werden kann. So ist schon die Trennung von Hoch- und Tieftönern eine wesentliche Chance zur Verbesserung der Qualität. Außerdem kann z.B. der Einsatz von Hochtönern sinnvoll sein, die eine richtungsunabhängigere Wiedergabe auch hoher Frequenzen erlauben.
Einige der vorstehenden Parameter können zur Optimierung von wahrgenommener Eigenschaften variiert werden, nämlich:
Variation Parameter #1:
Es wird variiert die Differenz (im folgenden sogenannter „Lokalisationsfehler") zwischen den jeweils einzeln wahrgenommenen Richtungen von virtueller Tonquelle und Phantomschallquelle. Diese Differenz ist verantwortlich für die Wahrnehmung der Richtung, der Lokalisationsschärfe, der Homogenität sowie der Stabilität der Kombinationsquelle. Der Hörereignisort der Kombinationsquelle soll demjenigen der virtuellen Quelle entsprechen. Außerdem soll die Lokalisationsschärfe und Homogenität optimal sein.
3 zeigt Ergebnisse eines Experiments, mit dem ermittelt wurde, welcher Lokalisationsfehler für ein bestimmtes Signal ohne Einbussen toleriert werden kann. Das Diagramm nach 3 zeigt die Veränderung der Lokalisation einer aus virtueller Tonquelle und Phantomschallquelle zusammengesetzten Kombinationsquelle in Abhängigkeit von der Pegeldifferenz und für unterschiedliche kritische Frequenzen. Und zwar gilt die oberste, schwarze durchgezogene Kurve für ein variiertes Hochpasssignal, während die unterste, auf der horizontalen Achse zwischen den Werten –1,5 und –3 verlaufende schwarze durchgezogene Kurve für ein Tiefpasssignal mit einer Hörereignisrichtung von 0° gilt. Die resultierende Auslenkung der Kombinationsquelle ist mit gestrichelter Kurve für eine Übergangsfrequenz zwischen Hoch- und Tiefpass von 1700 Hz dargestellt. Die durchgezogene graue Kurve (horizontaler Ast auf der horizontalen Achse zwischen den Werten 0 und –1,5; linear ansteigender Ast zwischen den Werten –1,5 und –2,5; horizontaler Ast zwischen den Werten –2,5 und –3) gilt für eine resultierende Auslenkung der Kombinationsquelle bei einer Übergangsfrequenz zwischen Hoch- und Tiefpass von 2500 Hz.
Am Beispiel weibliche Sprache kann für ein durchschnittliches Signal folgende Aussage getroffen werden: Liegt ein Lokalisationsfehler von über ca. 7,5–10 Grad vor, beginnt sich die Hörereignisrichtung in Richtung der Phantomschallquelle zu bewegen. Die Veränderung der Gesamtlokalisation liegt nun bei ca. 2 Grad, das entspricht ungefähr der Lokalisationsunschärfe natürlicher Schallquellen: Es steigt auch die Unschärfe der Lokalisation der Kombinationsquelle. Die Homogenität der Lokalisation ist bei diesem Lokalisationsfehler noch nicht beeinträchtigt, das Hörereignis zerfällt also noch nicht in verschiedene Bestandteile. Es kann also für durchschnittliche Signale und eine Übergangsfrequenz von etwa 2500 Hz ein maximaler Lokalisationsfehler von 7,5–10 Grad definiert werden.
Variation Parameter #2:
Es werden variiert die Eigenschaften der Phantomschallquelle wie Lokalisationsschärfe, Stabilität, Klangfarbe, etc. Insbesondere geht es um die Auswirkung von Kammfiltereffekten durch Überlagerung mehrerer kohärenter Lautsprechersignale.
Variation Parameter #4:
Es werden variiert gewünschte Position und Größe der sogenannten „Hörzone", d.h., die Zone, in der die genannten Eigenschaften bis zu einem zu definierten Maß akzeptabel sind.

Claims

Verfahren zur räumlichen Darstellung von Tonquellen unter Verwendung einer Lautsprecherzelle (Lautsprecherarray) aus nebeneinander angebrachten Lautsprechern, bei dem die Lautsprecher mit kohärenten Signalen betrieben werden und die zugehörigen Lautsprechersignale mit Hilfe geeigneter Faltungen derart gestaltet werden, daß das Schallfeld einer virtuellen Tonquelle entsteht, welche eine durch Wellenfeldsynthese durch sämtliche Lautsprecher des Lautsprecherarrays erzeugte Tonquelle ist, dadurch gekennzeichnet, daß das Signal einer wiederzugebenden Tonquelle in zwei Frequenzbänder oberhalb und unterhalb einer kritischen Frequenz gespalten wird, daß das Tonspektrum unterhalb der kritischen Frequenz als Ausgangssignal für die Wiedergabe der virtuellen Tonquelle durch sämtliche Lautsprecher des Lautsprecherarrays verwendet wird, und daß das Tonspektrum oberhalb der kritischen Frequenz als Ausgangssignal für die Wiedergabe einer stereophonen Phantomschallquelle durch einige wenige Lautsprecher des Lautsprecherarrays erzeugt wird, wobei die virtuelle Tonquelle und die Phantomschallquelle zu einem einzigen Hörereignis verschmelzen.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die kritische Frequenz derart gewählt wird, daß bei einer Tiefpass-Filterung die Erzeugung von "Spatial Aliasing" verhindert wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß durch Verwendung unterschiedlicher Pegel und/oder Laufzeiten die Richtung der Phantomschallquelle mit der Richtung der virtuellen Tonquelle in Übereinstimmung gebracht wird.