DE60304358T2 - Verfahren zur verarbeitung von audiodateien und erfassungsvorrichtung zur anwendung davon - Google Patents

Verfahren zur verarbeitung von audiodateien und erfassungsvorrichtung zur anwendung davon Download PDF

Info

Publication number
DE60304358T2
DE60304358T2 DE60304358T DE60304358T DE60304358T2 DE 60304358 T2 DE60304358 T2 DE 60304358T2 DE 60304358 T DE60304358 T DE 60304358T DE 60304358 T DE60304358 T DE 60304358T DE 60304358 T2 DE60304358 T2 DE 60304358T2
Authority
DE
Germany
Prior art keywords
distance
sound
components
whose
listener
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60304358T
Other languages
English (en)
Other versions
DE60304358D1 (de
Inventor
Jerôme DANIEL
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=32187712&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60304358(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of DE60304358D1 publication Critical patent/DE60304358D1/de
Application granted granted Critical
Publication of DE60304358T2 publication Critical patent/DE60304358T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Die vorliegende Erfindung betrifft die Verarbeitung von Audiodateien.
  • Techniken zur Ausbreitung einer Audiowelle im dreidimensionalen Raum, die insbesondere eine spezialisierte Audiosimulation und/oder -wiedergabe voraussetzen, verwenden Verfahren zur Verarbeitung des Audiosignals, die an der Simulation von akustischen und psycho-akustischen Phänomenen angewandt werden. Solche Verarbeitungsverfahren sehen eine räumliche Codierung des akustischen Feldes, seine Übertragung und räumliche Reproduktion auf einer Einheit von Lautsprechern oder auf den Empfängern eines stereophonen Kopfhörers vor.
  • Unter den räumlichen Tontechniken sind zwei zueinander komplementäre Verarbeitungskategorien zu unterscheiden, die aber i Allgemeinen beide in einem selben System eingesetzt werden.
  • Einerseits betrifft eine erste Kategorie von Verarbeitungen die Syntheseverfahren eines Raumeffekts oder allgemeiner von Umwelteffekten. Aus einer Beschreibung von einer oder mehreren Audioquellen (entsandtes Signal, Position, Ausrichtung, Zielrichtung oder dergleichen) und auf der Grundlage eines Raumeffektmodells (das eine Raumgeometrie oder auch eine gewünschte akustische Wahrnehmung voraussetzt) wird eine Gesamtheit von elementaren akustischen Phänomenen (direkte, reflektierte oder gebrochene Wellen) oder auch ein makroskopisches akustisches Phänomen (reflektiertes und diffuses Feld) berechnet oder beschrieben, wodurch es möglich ist, den Raumeffekt im Bereich eines Zuhörers, der sich an einem gewählten auditiven Wahrnehmungspunkt im dreidimensionalen Raum befindet, zu übersetzen. Es wird nun eine Gesamtheit von Signalen berechnet, die typischerweise mit den Reflexionen („sekundäre" Quellen, die durch Reemission einer empfangenden Hauptwelle aktiv sind und ein Attribut einer Raumposition haben) und/oder einem verzögerten Nachhall (entkorrelierte Signale für ein diffuses Feld) verbunden sind.
  • Andererseits betrifft eine zweite Kategorie von Verfahren die Positions- oder Richtungswiedergabe von Audioquellen. Diese Verfahren werden für bestimmte Signale durch ein Verfahren der vorher beschriebenen ersten Kategorie (das primäre und sekundäre Quellen voraussetzt) in Abhängigkeit von der Raumbeschreibung (Position der Quelle), die ihnen zugeordnet ist, angewandt. Insbesondere ermöglichen es solche Verfahren gemäß dieser zweiten Kategorie, auf Lautsprechern oder Kopfhörern zu verbreitende Signale zu erhalten, um schließlich einem Zuhörer den auditiven Eindruck von Audioquellen zu vermitteln, die an jeweiligen bestimmten Positionen um den Zuhörer angeordnet sind. Die Verfahren nach dieser zweiten Kategorie werden als „Erzeuger von dreidimensionalen Audiobildern" auf Grund der Verteilung des Fühlens der Position der Quellen durch einen Zuhörer im dreidimensionalen Raum bezeichnet. Verfahren nach der zweiten Kategorie umfassen im Allgemeinen einen ersten Schritt der räumlichen Codierung der elementaren akustischen Ereignisse, die eine Darstellung des Audiofeldes im dreidimensionalen Raum erzeugt. In einem zweiten Schritt wird diese Darstellung übertragen oder für einen spätere Nutzung gespeichert. In einem dritten Schritt der Decodierung werden die decodierten Signale an Lautsprecher oder Empfänger einer Wiedergabevorrichtung geliefert.
  • Die vorliegende Erfindung fällt eher in die vorgenannte zweite Kategorie. Sie betrifft insbesondere die räumliche Codierung von Audioquellen und eine Spezifikation der dreidimensionalen Audiodarstellung dieser Quellen. Sie betrifft sowohl eine Codierung von „virtuellen" Audioquellen (Anwendungen, bei denen Audioquellen simuliert werden, wie beispielsweise Spiele, eine räumlich ausgetragene Konferenz oder dergleichen), als auch eine „akustische" Codierung eines natürlichen Audiofeldes bei einer Tonaufnahme durch ein oder mehrere dreidimensionale Netze von Mikrophonen. Eine ähnliche Methode der akustischen Codierung ist von J. Chen et al. beschrieben: „Synthesis of 3D virtual auditory space via a spatial feature extraction and regularisation model", Proceedings of the virtual reality annual international symposium, Seattle, Sept. 18–22, 1993, IEEE, New York, US, Seiten 188–193.
  • Unter den möglichen Techniken der räumlichen Gestaltung des Tons wird der "Ambitonansatz" bevorzugt. Die Ambitoncodierung, die später im Detail beschrieben ist, besteht darin, Signale in Bezug auf eine oder mehrere Schallwellen in einer Basis von sphärischen Harmonischen darzustellen (in sphärischen Koordinaten, die insbesondere einen Höhenwinkel und einen Seitenwinkel voraussetzen, die eine Richtung des oder der Töne kennzeichnen). Die Komponenten, die diese Signale darstellen und in dieser Basis von sphärischen Harmonischen ausgedrückt sind, hängen auch für die im Nahfeld entsandten Wellen von einem Abstand zwischen der dieses Feld entsendenden Audioquelle und einen Punkt ab, der dem Ursprung der Basis der sphärischen Harmonischen entspricht. Insbesondere drückt sich diese Abhängigkeit vom Abstand in Abhängigkeit von der Audiofrequenz aus, wie später zu sehen ist.
  • Dieser Ambitonansatz bietet eine große Anzahl von möglichen Funktionalitäten, insbesondere im Hinblick auf die Simulation von virtuellen Quellen, und bietet ganz allgemein die folgenden Vorteile:
    • – sie übersetzt auf rationale Weise die Realität der akustischen Phänomene und bringt einen realistische, überzeugende und immersive auditive Wiedergabe;
    • – die Darstellung der akustischen Phänomene ist skalierbar: sie bietet eine räumliche Auflösung, die an verschiedene Situationen angepasst werden kann. Diese Darstellung kann nämlich in Abhängigkeit von Mengenanforderungen bei der Übertragung der codierten Signale und/oder von Beschränkungen der Wiedergabevorrichtung übertragen und ausgewertet werden;
    • – die Ambitondarstellung ist flexibel, und es ist möglicht, eine Drehung des Tonfeldes zu simulieren, oder auch bei der Wiedergabe die Codierung der Ambitonsignale an jede Wiedergabevorrichtung mit diversen Geometrien anzupassen.
  • Bei dem bekannten Ambitonansatz ist die Codierung der virtuellen Quellen im Wesentlichen direktional. Die Codierungsfunktionen bedeuten das Berechnen der Verstärkungen, die vom Eintreffen der Schallwelle abhängen, ausgedrückt durch die sphärischen harmonischen Funktionen, die vom Höhenwinkel und vom Seitenwinkel in sphärischen Koordinaten abhängen. Insbesondere wird bei der Decodierung angenommen, dass die Lautsprecher bei der Wiedergabe weit entfernt sind. Daraus ergibt sich eine Verzerrung (oder eine Krümmung) der Form der rekonstruierten Wellenfronten. Wie vorher angeführt, hängen nämlich die Komponenten des Audiosignals in der Basis der sphärischen Harmonischen für ein Nahfeld tatsächlich auch vom Abstand der Quelle und von der Audiofrequenz ab. Genauer können sich diese Komponenten mathematisch in Form eines Polynoms ausdrücken, dessen Variable umgekehrt proportional zum vorgenannten Abstand und zur Audiofrequenz ist. So sind die Ambitonkomponenten im Sinne ihres theoretischen Ausdrucks in den Frequenzbasen divergierend und neigen insbesondere zum Unendlichen, wenn die Audiofrequenz gegen Null abnimmt, wenn sie einen Ton im Nahfeld darstellen, der von einer Quelle entsandt wird, die sich in einem endlichen Abstand befindet. Dieses mathematische Phänomen ist im Bereich der Ambitondarstellung bereits für die Ordnung 1 durch den Begriff „bass boost" bekannt, insbesondere von:
    • – M.A. GERZON, „General Metatheory of Auditory Localisation", preprint 3306 of the 92nd AES Convention, 1992, Seite 52.
  • Dieses Phänomen wird besonders kritisch für hohe Ordnungen von sphärischen Harmonischen, die Polynome mit hoher Potenz.
  • Aus:
    SONTACCHI und HÖLDRICH, „Further Investigations on 3D Sound Fields using Distance Coding" (Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-01), Limerick, Irland, 6–8, Dezember 2001)
    ist eine Technik zur Berücksichtigung einer Krümmung der Wellenfronten innerhalb einer Nahdarstellung einer Ambitondarstellung bekannt, deren Prinzip darin besteht:
    • – eine Ambitoncodierung (von hoher Ordnung) an die Signale anzulegen, die von einer (simulierten) virtuellen Tonaufnahme stammen, vom Typ WFS (für „Wave Field Synthesis);
    • – und das akustische Feld auf einer Zone nach seinen Werten auf einer Zonengrenze zu rekonstruieren, wobei somit als Grundlage das Prinzip von HUYGENS-FRESNEL herangezogen wird.
  • Jedoch die in diesem Dokument dargestellte Technik wirft, obwohl sie viel versprechend ist, da sie eine Ambitondarstellung in einer hohen Ordnung verwendet, eine gewisse Zahl von Problemen auf:
    • – die erforderlichen Informatikquellen für die Berechnung aller Flächen, die es ermöglichen, das Prinzip von HUYGENS-FRESNEL anzuwenden, sowie die erforderlichen Berechnungszeiten sind übermäßig;
    • – die Verarbeitungsartefakte, „aliasing spatial" genannt, ergeben sich auf Grund des Abstands zwischen den Mikrophonen, wenn nicht eine enge virtuelle Mikrophonvernetzung im Raum gewählt wird, was die Verarbeitungen erschwert;
    • – diese Technik ist schwer auf einen realen Fall von im Netz anzuordnenden Sensoren im Beisein einer realen Quelle bei der Erfassung übertragbar;
    • – bei der Wiedergabe ist die dreidimensionale Tondarstellung selbstverständlich einem feststehenden Radius der Wiedergabevorrichtung unterworfen, da die Ambitondecodierung hier auf einem Netz von Lautsprechern mit denselben Abmessungen wie das ursprüngliche Netz von Mikrophonen erfolgen muss, wobei dieses Dokument kein Mittel vorschlägt, um die Codierung oder Decodierung an weitere Größen von Wiedergabevorrichtungen anzupassen.
  • Vor allem stelle dieses Dokument ein horizontales Netz von Sensoren dar, was voraussetzt, dass sich die akustischen Phänomene, die hier berücksichtigt werden, nur in horizontale Richtungen ausbreiten, was jede andere Ausbreitungsrichtung ausschließt und somit nicht die physikalische Realität eines gewöhnlichen akustischen Feldes darstellt.
  • Ganz allgemein ermöglichen es die aktuellen Techniken nicht, jeden Typ von Audioquellen zufrieden stellend zu verarbeiten, insbesondere im Nahfeld, sondern eher entfernte Audioquellen (flache Wellen), was einer restriktiven und künstlichen Situation bei zahlreichen Anwendungen entspricht.
  • Ein Gegenstand der vorliegenden Erfindung besteht darin, ein Verfahren zu liefern, um durch Codierung, Übertragung und Wiedergabe einen beliebigen Typ eines Audiofeldes zu verarbeiten, insbesondere den Effekt einer Audioquelle im Nahfeld.
  • Ein weiterer Gegenstand der vorliegenden Erfindung besteht darin, ein Verfahren zu liefern, das die Codierung von virtuellen Quellen nicht nur hinsichtlich der Richtung, sondern auch hinsichtlich des Abstandes ermöglicht, und eine Decodierung zu definieren, die an eine beliebige Wiedergabevorrichtung angepasst werden kann.
  • Ein weiterer Gegenstand der vorliegenden Erfindung besteht darin, ein robustes Verarbeitungsverfahren für Töne aller Audiofrequenzen (inklusive der Niedrigfrequenzen) insbesondere für die Tonaufnahme von natürlichen akustischen Feldern mit Hilfe von dreidimensionalen Mikrophonnetzen zu liefern.
  • Zu diesem Zweck schlägt die Erfindung ein Verfahren zur Verarbeitung von Audiodateien vor, bei dem:
    • a) Signale codiert werden, die mindestens einen Ton darstellen, der sich im dreidimensionalen Raum ausbreitet und von einer Quelle stammt, die in einem ersten Abstand zu einem Bezugspunkt gelegen ist, um eine Darstellung des Tons durch ein einer Basis von sphärischen Harmonischen ausgedrückte Komponenten mit einem diesem Bezugspunkt entsprechenden Ursprung zu erhalten,
    • b) Und an diese Komponenten eine Kompensierung eines Nahfeldeffekts durch eine Filterung angelegt wird, die von einem zweiten Abstand abhängt, der bei einer Wiedergabe des Tons durch eine Wiedergabevorrichtung im Wesentlichen einen Abstand zwischen einem Wiedergabepunkt und einem Hörwahrnehmungspunkt definiert.
  • Bei einer ersten Ausführungsart, bei der die Quelle vom Bezugspunkt entfernt ist,
    • – werden Komponenten von aufeinander folgenden Ordnungen m bei der Darstellung des Tons in dieser Basis von sphärischen Harmonischen erhalten, und
    • – wird ein Filter angelegt, dessen jeweils an eine Komponente der Ordnung m angelegte Koeffizienten sich analytisch in der Form des Kehrwerts eines Polynoms der Potenz m ausdrückt, dessen Variable umgekehrt proportional zur Tonfrequenz und zum zweiten Abstand ist, um einen Nahfeldeffekt auf Höhe der Wiedergabevorrichtung zu kompensieren.
  • Bei einer zweiten Ausführungsart, bei die Quelle eine in diesem ersten Abstand vorgesehene virtuelle Quelle ist,
    • – werden Komponenten von aufeinander folgenden Ordnungen m bei der Darstellung des Tons in der Basis von sphärischen Harmonischen erhalten, und
    • – wird ein Globalfilter angelegt, dessen jeweils an eine Komponente der Ordnung m angelegte Koeffizienten sich analytisch in der Form eines Bruchs ausdrücken, dessen: • Zähler ein Polynom der Potenz m ist, dessen Variable umgekehrt proportional zur Tonfrequenz und zum ersten Abstand ist, um einen Nahfeldeffekt der virtuellen Quelle zu simulieren, und • Nenner ein Polynom der Potenz m ist, dessen Variable umgekehrt proportional zu der Tonfrequenz und zu dem zweiten Abstand ist, um den Nahfeldeffekt der virtuellen Quelle in den niedrigen Tonfrequenzen zu kompensieren.
  • Vorzugsweise werden die in den Schritten a) und b) codierten und gefilterten Daten mit einem diesen zweiten Abstand darstellenden Parameter zur Wiedergabevorrichtung übertragen.
  • Als Ergänzung oder als Variante werden, wenn die Wiedergabevorrichtung Mittel zum Lesen eines Speicherträgers umfasst, auf einem Speicherträger, der dazu bestimmt ist, von der Wiedergabevorrichtung gelesen zu werden, die in den Schritten a) und b) codierten und gefilterten Daten mit einem diesen zweiten Abstand darstellenden Parameter gespeichert.
  • Vorzugsweise wird vor einer Tonwiedergabe durch eine Wiedergabevorrichtung, die eine Vielzahl von Lautsprechern umfasst, die in einem dritten Abstand von diesem Höhenwahrnehmungspunkt angeordnet sind, an die codierten und gefilterten Daten ein Anpassungsfilter angelegt, dessen Koeffizienten von dem zweiten Abstand und dem dritten Abstand abhängen.
  • Bei einer besonderen Ausführung drücken sich die jeweils an eine Komponente der Ordnung m angelegten Koeffizienten des Anpassungsfilters analytisch in der Form eines Bruchs aus, dessen:
    • – Zähler ein Polynom der Potenz m ist, dessen Variable umgekehrt proportional zur Tonfrequenz und zum zweiten Abstand ist, und
    • – Nenner ein Polynom der Potenz m ist, dessen Variable umgekehrt proportional zu der Tonfrequenz und zu dem dritten Abstand ist.
  • Vorzugsweise sind für die Durchführung des Schrittes b) vorgesehen:
    • – für Komponenten gerader Ordnung m audionumerische Filter in Form einer Kaskade von Zellen der Ordnung zwei, und
    • – für Komponenten ungerader Ordnung m audionumerische Filter in Form einer Kaskade von Zellen der Ordnung zwei und eine zusätzliche Zelle der Ordnung eins.
  • Bei dieser Ausführung sind die Koeffizienten eines audionumerischen Filters bei einer Komponente der Ordnung m ausgehend von den numerischen Werten der Wurzeln dieser Polynome der Potenz m definiert.
  • Bei einer besonderen Ausführung sind die vorgenannten Polynome Bessel-Polynome.
  • Bei der Erfassung der Audiosignale wird vorzugsweise ein Mikrophon vorgesehen, das ein Netz von akustischen Wandlern aufweist, die im Wesentlichen auf der Oberfläche einer Kugel angeordnet sind, deren Mittelpunkt im Wesentlichen dem Bezugspunkt entspricht, um die Signale zu erhalten, die mindestens einen sich im dreidimensionalen Raum ausbreitenden Ton darstellen.
  • Bei dieser Ausführung wird in Schritt b) ein Globalfilter angelegt, um einerseits einen Nahfeldeffekt in Abhängigkeit von diesem zweiten Abstand zu kompensieren und andererseits die von den Wandlern kommenden Signale zu egalisieren, um eine Richtwirkungsgewichtung der Wandler zu kompensieren.
  • Vorzugsweise wird eine Anzahl von Wandlern vorgesehen, die von einer gewählten Gesamtzahl von Komponenten abhängt, um den Ton in der Basis der sphärischen Harmonischen darzustellen.
  • Nach einem vorteilhaften Merkmal wird in Schritt a) eine Gesamtzahl von Komponenten in der Basis der sphärischen Harmonischen gewählt, um bei der Wiedergabe einen Bereich des Raums um den Wahrnehmungspunkt herum zu erhalten, in dem die Wiedergabe des Tons getreu ist, und dessen Abmessungen mit der Gesamtzahl von Komponenten zunehmen.
  • Vorzugsweise ist ferner eine Wiedergabevorrichtung vorgesehen, die eine Anzahl von Lautsprechern von mindestens gleich der Gesamtzahl der Komponenten vorsieht.
  • Als Variante wird im Rahmen einer binauralen oder transauralen Wiedergabe:
    • – eine Wiedergabevorrichtung vorgesehen, die mindestens einen ersten und einen zweiten Lautsprecher vorsieht, die in einem gewählten Abstand von einem Zuhörer angeordnet sind,
    • – für diesen Zuhörer eine Information über die erwartete Empfindung der räumlichen Lage von Tonquellen, die in einem vorbestimmten Bezugsabstand vom Zuhörer gelegen sind, für die Anwendung einer so genannten Technik der „binauralen" oder „transauralen" Synthese erhalten wird, und
    • – die Kompensation des Schrittes b) mit dem Bezugsabstand im Wesentlichen als zweitem Abstand angelegt wird.
  • Bei einer Variante, bei der eine Anpassung an die Wiedergabevorrichtung mit zwei Kopfhörern vorgenommen wird,
    • – wird eine Wiedergabevorrichtung vorgesehen, die mindestens einen ersten und einen zweiten Lautsprecher umfasst, die in einem gewählten Abstand zum Zuhörer angeordnet sind,
    • – wird für diesen Zuhörer eine Information über die erwartete Empfindung der räumlichen Lage von Tonquellen, die sich in einem vorbestimmten Bezugsabstand zum Zuhörer befinden, erhalten, und
    • – werden vor einer Tonwiedergabe durch die Wiedergabevorrichtung an die in den Schritten a) und b) codierten und gefilterten Daten ein Anpassungsfilter angelegt, dessen Koeffizienten vom zweiten Abstand und im Wesentlichen vom Bezugsabstand abhängen.
  • Insbesondere im Rahmen einer Wiedergabe mit binauraler Synthese:
    • – umfasst die Wiedergabevorrichtung einen Kopfhörer mit zwei Hörern für die Ohren des Zuhörers, und
    • – werden vorzugsweise getrennt für jeden Hörer die Codierung und Filterung der Schritte a) und b) für Signale, die jeweils zur Versorgung jedes Hörers bestimmt sind, angelegt, mit als erstem Abstand jeweils einem Abstand, der jedes Ohr von einem Standort einer im Wiedergaberaum wiederzugebenden Quelle trennt.
  • Vorzugsweise wird in den Schritten a) und b) ein Matrixsystem in Form gebracht, das mindestens umfasst:
    • – eine Matrix, die die Komponenten in der Basis der sphärischen Harmonischen umfasst, und
    • – eine diagonale Matrix, deren Koeffizienten Filterkoeffizienten des Schrittes b) entsprechen.
    und werden die Matrizes multipliziert, um eine resultierende Matrix von kompensierten Komponenten zu erhalten.
  • Vorzugsweise bei der Wiedergabe:
    • – umfasst die Wiedergabevorrichtung eine Vielzahl von Lautsprechern, die im Wesentlichen in demselben Abstand vom Hörwahrnehmungspunkt angeordnet sind, und
    • – um diese in den Schritten a) und b) codierten und gefilterten Daten zu decodieren und Signale zu formen, die dafür geeignet sind, die Lautsprecher zu speisen: • wird ein Matrixsystem gebildet, das die resultierende Matrix von kompensierten Komponenten und eine vorbestimmte decodierungsmatrix, die der Wiedergabevorrichtung zugeordnet ist, umfasst, und • wird eine Matrix, die die Signale zur Versorgung der der Lautsprecher darstellende Koeffizienten aufweist, durch Multiplikation der resultierenden Matrix mit der Decodierungsmatrix erhalten.
  • Die vorliegende Erfindung betrifft auch eine Tonerfassungsvorrichtung, umfassend ein Mikrophon, das mit einem Netz von akustischen Wandlern versehen ist, die im Wesentlichen auf der Oberfläche einer Kugel angeordnet sind. Erfindungsgemäß umfasst die Vorrichtung ferner eine Verarbeitungseinheit, die dafür ausgelegt ist:
    • – jeweils von einem Wandler ausgehende Signale zu empfangen,
    • – an diese Signale eine Codierung anzulegen, um eine Darstellung des Tons durch Komponenten, die in einer Basis von sphärischen Harmonischen ausgedrückt sind, mit einem dem Mittelpunkt dieser Kugel entsprechenden Ursprung zu erhalten,
    • – und an diese Komponenten eine Filterung anzulegen, die einerseits von einem dem Radius der Kugel entsprechenden Abstand und andererseits von einem Bezugsabstand abhängt.
  • Vorzugsweise besteht die von der Verarbeitungseinheit durchgeführte Filterung darin, dass einerseits in Abhängigkeit vom Radius der Kugel die von den Wandlern kommenden Signale egalisiert werden, um eine Richtwirkungsgewichtung der Wandler zu kompensieren, und andererseits ein Nahfeldeffekt in Abhängigkeit von einem gewählten Bezugsabstand kompensiert wird.
  • Weitere Vorteile und Merkmale der Erfindung gehen aus der Studie der nachfolgenden detaillierten Beschreibung und der begleitenden Figuren hervor, wobei:
  • 1 schematisch ein System zur Erfassung und Erzeugung von Audiosignalen durch Simulation von virtuellen Quellen mit Codierung, Übertragung, Decodierung und Wiedergabe durch eine räumlich angeordnete Wiedergabevorrichtung darstellt,
  • 2 genauer eine Codierung von Signalen darstellt, die sowohl hinsichtlich der Stärke als auch in Bezug auf die Position einer Quelle, von der sie ausgehen, definiert sind,
  • 3 die bei der Ambitondarstellung eingesetzten Parameter in sphärischen Koordinaten darstellt,
  • 4 eine Darstellung durch eine dreidimensionale Metrik in einem Bezugssystem von sphärischen Koordinaten von sphärischen Harmonischen Ymn σ verschiedener Ordnungen ist;
  • 5 ein Diagramm der Variationen des Moduls von radialen Funktionen jm(kr) ist, die sphärische Bessel-Funktionen für aufeinander folgende Werte der Ordnung m sind, wobei diese radialen Funktionen bei der Ambitondarstellung eines akustischen Druckfeldes zur Geltung kommen;
  • 6 die Verstärkung auf Grund des Nahfeldeffekts für verschiedene aufeinander folgende Ordnungen m insbesondere in den Niedrigfrequenzen darstellt;
  • 7 schematisch eine Wiedergabevorrichtung darstellt, umfassend eine Vielzahl von Lautsprechern HPi mit dem vorgenannten Hörwahrnehmungspunkt (Bezugszeichen P), dem ersten vorgenannten Abstand (p) und dem zweiten vorgenannten Abstand (Bezugszeichen R);
  • 8 schematisch die bei der Ambitoncodierung eingesetzten Parameter mit einer direktionalen Codierung sowie einer Abstandscodierung gemäß der Erfindung darstellt;
  • 9 Energiespektren der Ausgleichs- und Nahfehdfilter darstellt, simuliert für einen ersten Abstand einer virtuellen Quelle p = 1 m und einen Vorausgleich von Lautsprechern, die sich in einem zweiten Abstand R = 1,5 m befinden;
  • 10 Energiespektren der Ausgleichs- und Nahfeldfilter darstellt, simuliert für einen ersten Abstand der virtuellen Quelle p = 3 m und einen Vorausgleich von Lautsprechern, die sich in einem Abstand R = 1,5 m befinden;
  • 11A eine Rekonstruktion des Nahfeldes mit Ausgleich im Sinne der vorliegenden Erfindung für eine sphärische Welle in der horizontalen Ebene darstellt;
  • 11B, die mit 11A zu vergleichen ist, die ursprüngliche Wellenfront, die von einer Quelle S stammt, darstellt;
  • 12 schematisch ein Filtermodul darstellt, um die empfangenen und vorkompensierten Ambitonkomponenten an die Codierung für einen Bezugsabstand R als zweiter Abstand, an eine Wiedergabevorrichtung, die eine Vielzahl von Lautsprechern in einem dritten Abstand R2 zu einem Hörwahrnehmungspunkt umfasst, anzupassen;
  • 13A schematisch die Anordnung einer Audioquelle M bei der Wiedergabe für einen Zuhörer darstellt, der eine Wiedergabevorrichtung verwendet, die eine binaurale Synthese mit einer im Nahfeld entsendenden Quelle anwendet;
  • 13B schematisch die Schritte der Codierung und Decodierung mit Nahfeldeffekt im Rahmen der binauralen Synthese der 13A darstellt, mit der eine Ambitoncodierung/-decodierung kombiniert ist;
  • 14 schematisch die Verarbeitung der Signale, die von einem Mikrophon stammen, das eine Vielzahl von Drucksensoren umfasst, die auf einer Kugel zum Beispiel angeordnet sind, durch Ambitoncodierung, Egalisierung und Ausgleich des Nahfeldes im Sinne der Erfindung darstellt.
  • Es wird zuerst auf 1 Bezug genommen die als Beispiel ein globales System der räumlichen Tongestaltung darstellt. Ein Modul der Simulation einer virtuellen Szene definiert ein Tonobjekt als eine virtuelle Quelle eines beispielsweise monophonen Signals mit einer gewählten Position im dreidimensionalen Raum, die eine Richtung des Tons definiert. Es können ferner Spezifikationen zur Geometrie eines virtuellen Raums vorgesehen sein, um eine Reflexion des Tons zu simulieren. Ein Verarbeitungsmodul 11 setzt eine Steuerung einer oder mehrerer dieser Quellen in Bezug zu einem Zuhörer ein (Definition einer virtuellen Position der Quellen in Bezug zu diesem Zuhörer). Es setzt einen Raumeffektprozessor ein, um Reflexionen oder dergleichen zu simulieren, wobei übliche Verzögerungen und/oder Filterungen angelegt werden. Die so erzeugten Signale werden an ein Modul 2a zur räumlichen Codierung der elementaren Beiträge der Quellen übertragen.
  • Parallel dazu kann eine natürliche Tonaufnahme im Rahmen einer Tonaufzeichnung durch ein oder mehrere Mikrophone durchgeführt werden, die auf ausgewählte Weise in Bezug zu den realen Quellen (Modul 1b) angeordnet sind. Die von den Mikrophonen erfassten Signale werden von einem Modul 2b codiert. Die erfassten und codierten Signale können nach einem Zwischendarstellungsformat (Modul 3b) umgewandelt werden, bevor sie durch das Modul 3 mit den vom Modul 1a erzeugten und von dem Modul 2a (von den virtuellen Quellen stammend) codierten Signalen gemischt werden. Die gemischten Signale werden dann übertragen oder auch auf einem Träger für eine spätere Wiedergabe (Pfeil TR) gespeichert. Sie werden dann an ein Decodierungsmodul 5 für die Wiedergabe auf einer Wiedergabevorrichtung 6, die Lautsprecher umfasst, angelegt. Gegebenenfalls kann dem Schritt der Decodierung 5 ein Schritt der Manipulation des Audiofeldes, beispielsweise durch Drehung mit Hilfe eines Verarbeitungsmoduls 4, das stromaufwärts zum Decodierungsmodul 5 angeordnet ist, vorausgehen.
  • Die Wiedergabevorrichtung kann in Form einer Vielzahl von Lautsprechern vorhanden sein, die beispielsweise auf der Oberfläche einer Kugel in einer dreidimensionalen (periphonen) Ausführung angeordnet sind, um bei der Wiedergabe insbesondere eine Empfindung einer Richtung des Tons im dreidimensionalen Raum zu gewährleisten. Zu diesem Zweck befindet sich ein Zuhörer im Allgemeinen im Mittelpunkt der Kugel, die von dem Netz von Lautsprechern gebildet ist, wobei dieser Mittelpunkt dem vorher erwähnten Hörwahrnehmungspunkt entspricht. Als Variante können die Lautsprecher der Wiedergabevorrichtung in einer Ebene angeordnet sein (zweidimensionale Panoramaausführung), wobei die Lautsprecher insbesondere auf einem Kreis angeordnet sind und sich der Zuhörer üblicherweise im Mittelpunkt dieses Kreises befindet. Bei einer weiteren Variante kann die Wiedergabevorrichtung in Form einer Vorrichtung vom Typ „surround" (5.1) vorhanden sein. Schließlich kann bei einer bevorzugten Variante die Wiedergabevorrichtung in Form eines Kopfhörers mit zwei Hörern für eine binaurale Synthese des wiedergegebenen Tons vorhanden sein, der es dem Zuhörer ermöglicht, eine Richtung der Quellen im dreidimensionalen Raum zu empfinden, wie später auf detaillierte Weise zu sehen ist. Eine solche Wiedergabevorrichtung mit zwei Lautsprechern kann für eine Empfindung im dreidimensionalen Raum auch in Form einer transauralen Wiedergabevorrichtung mit zwei Lautsprechern vorhanden sein, die sich in einem gewählten Abstand zum Zuhörer befinden.
  • Es wird nun auf die 2 Bezug genommen, um eine räumliche Codierung und eine Decodierung für eine dreidimensionale Tonwiedergabe von elementaren Audioquellen zu beschreiben. An ein Modul 2 zur räumlichen Codierung werden das Signal, das von einer Quelle 1 bis N kommt, sowie seine (reale oder virtuelle) Position übertragen. Seine Position kann sowohl im Hinblick auf Eintreffen (Richtung der Quelle, wie vom Zuhörer gesehen) als auch im Hinblick auf den Abstand zwischen dieser Quelle und einen Zuhörer definiert werden. Die Vielzahl der so codierten Signale ermöglicht es, eine Mehrkanaldarstellung eines globalen Audiofeldes zu erhalten. Die codierten Signale werden an eine Tonwiedergabevorrichtung 6 übertragen (Pfeil TR), um im dreidimensionalen Raum wiedergegeben zu werden, wie vorher unter Bezugnahme auf 1 angeführt.
  • Es wird nun auf 3 Bezug genommen, um nachstehend die Ambitondarstellung eines akustischen Feldes durch sphärische Harmonische im dreidimensionalen Raum zu beschreiben. Es wird eine Zone um einen Ursprung ∅ (Kugel mit dem Radius R) ohne akustische Quelle betrachtet. Es wird ein sphärisches Koordinatensystem angenommen, in dem jeder Vektor r → ab dem Ursprung 0 an einem Punkt der Kugel durch einen Seitenwinkel θl, einen Höhenwinkel δl und einen Radius r (entsprechend dem Abstand vom Ursprung 0) beschrieben ist.
  • Das Druckfeld p(r →) im Inneren dieser Kugel (r < R, wobei R der Radius der Kugel ist) kann im Frequenzbereich als eine Reihe geschrieben werden, deren Terme die gewichteten Produkte von Winkelfunktionen y σ / mn(θ,δ) und einer Radialfunktion jm(kr) sind, die so von einem Ausbreitungsterm abhängen, wobei k = 2 πf/c, wobei f die Tonfrequenz und c die Geschwindigkeit des Tons in der Ausbreitungsmitte ist.
  • Das Druckfeld ist beispielsweise ausgedrückt durch:
  • Figure 00190001
  • Die Gesamtheit der Gewichtungsfaktoren B σ / mn, die selbstverständlich von der Frequenz abhängen, beschreiben so das Druckfeld in der betreffenden Zone. Aus diesem Grund werden diese Faktoren „sphärische harmonische Komponenten" genannt und stellen einen Frequenzausdruck des Tons (oder des Druckfeldes) in der Basis der sphärischen Harmonischen Y σ / mn dar.
  • Die Winkelfunktionen werden „sphärische Harmonische" genannt und sind definiert durch:
    Figure 00190002
    wobei Pmn(sinδ) Legendre-Funktionen des Grades m und der Ordnung n sind;
    δp,q das Krönecker-Symbol ist (gleich 1, wenn p=q und andernfalls gleich 0).
  • Die sphärischen Harmonischen bilden eine orthonormierte Basis, in der die Skalarprodukte zwischen harmonischen Komponenten und ganz allgemein zwischen zwei Funktionen F und G jeweils definiert sind durch:
  • Figure 00190003
  • Die sphärischen Harmonischen sind reale begrenzte Funktionen, wie in 4 dargestellt, in Abhängigkeit von der Ordnung m und den Indizes n und σ. Die dunklen und hellen Teile entsprechen den positiven bzw. negativen Werten der sphärischen harmonischen Funktionen. Je höher die Ordnung m, desto höher ist die Winkelfrequenz (und somit die Diskriminierung zwischen den Funktionen). Die Radialfunktionen jm(kr) sind sphärische Bessel-Funktionen, deren Modul für einige Werte der Ordnung m in 5 dargestellt ist.
  • Es kann eine Interpretation der Ambitondarstellung durch eine Basis von sphärischen Harmonischen wie folgt gegeben werden. Die Ambitonkomponenten derselben Ordnung m drücken endgültig „Abweichungen" oder „Zeitpunkte" der Ordnung m des Druckfeldes in der Nähe des Ursprungs 0 (Mittelpunkt der in 3 dargestellten Kugel) aus.
  • Insbesondere beschreibt B +1 / 00 = W die skalare Größe des Drucks, während B +1 / 11 = X, B –1 / 11 = Y, B +1 / 10 = Z mit den Druckgradienten (oder auch der Partikelgeschwindigkeit) am Ursprung 0 verbunden sind. Diese vier ersten Komponenten W, X, Y und Z werden bei einer natürlichen Tonaufnahme mit Hilfe von Raummikrophonen (für die Komponente W der Ordnung 0) und von Zweisystem-Mikrophonen (für die drei anderen folgenden Komponenten) erhalten. Durch Verwendung einer größeren Anzahl von akustischen Wandlern ermöglicht es eine geeignete Verarbeitung, insbesondere durch Egalisierung, mehr Ambitonkomponenten zu erhalten (höhere Ordnungen m größer als 1).
  • Bei Berücksichtigung der zusätzlichen Komponenten einer höheren Ordnung (größer als 1), die somit die Winkelauflösung der Ambitonbeschreibung erhöht, ergibt sich eine Annäherung des Druckfeldes in einem weiteren benachbarten Bereich im Hinblick auf die Länge der Schallwelle um den Ursprung 0 herum. Es ist so zu verstehen, dass ein enger Zusammenhang zwischen der Winkelauflösung (Ordnung der sphärischen Harmonischen) und der radialen Reichweite (Radius r), die dargestellt werden kann, besteht. Kurz, bei einer räumlichen Entfernung vom Ursprungspunkt 0 aus 3 ist, je größer die Anzahl von Ambitonkomponenten ist (hohe Ordnung M), desto besser die Darstellung des Tons durch die Gesamtheit dieser Ambitonkomponenten. Es ist auch zu verstehen, dass die Ambitondarstellung des Tons allerdings im Zuge der Entfernung vom Ursprung 0 weniger zufrieden stellend ist. Dieser Effekt wird insbesondere bei hohen Audiofrequenzen (mit kurzer Wellenlänge) kritisch. Es besteht somit ein Interesse, eine Anzahl von Ambitonkomponenten zu erhalten, die möglichst groß ist, wodurch es möglich ist, einen Bereich des Raums um den Wahrnehmungspunkt zu schaffen, in dem die Tonwiedergabe getreu ist und dessen Abmessungen mit der Gesamtzahl von Komponenten zunehmen.
  • Nachstehend ist eine Anwendung für ein System zur Codierung/Übertragung/Wiedergabe eines räumlich dargestellten Tons beschrieben.
  • In der Praxis berücksichtigt ein Ambitonsystem eine Untereinheit von sphärischen harmonischen Komponenten, wie vorher beschrieben. Es ist von einem System der Ordnung M die Rede, wenn dieses Ambitonkomponenten mit dem Index m < M berücksichtigt. Wenn es sich um eine Wiedergabe durch eine Wiedergabevorrichtung mit Lautsprechern handelt, ist zu verstehen, dass, wenn diese Lautsprecher in einer horizontalen Ebene angeordnet sind, nur die Harmonischen mit dem Index m = n ausgewertet werden. Wenn hingegen die Wiedergabevorrichtung Lautsprecher umfasst, die an der Oberfläche einer Kugel („Periphonie") angeordnet sind, können im Prinzip ebenso viele Harmonische ausgewertet werden, wie Lautsprecher vorhanden sind.
  • Mit dem Bezugszeichen S ist das Drucksignal bezeichnet, das von einer flachen Welle getragen und am Punkt 0 entsprechend dem Mittelpunkt der Kugel aus 3 erfasst wird (Ursprung der Basis in sphärischen Koordinaten). Das Eintreffen der Welle ist durch den Seitenwinkel θ und den Höhenwinkel δ beschrieben. Der Ausdruck der Komponenten des zu dieser flachen Welle gehörigen Feldes ist gegeben durch das Verhältnis: Bσmn = S·Yσmn (θ,δ) [A3]
  • Um eine Quelle im Nahfeld in einem Abstand p zum Ursprung 0 zu codieren (simulieren) wird ein Filter F (ρ/c) / m angelegt, um die Form der Wellenfronten zu „krümmen", wobei berücksichtigt wird, dass ein Nahfeld bei erster Annäherung eine sphärische Welle entsendet. Die codierten Komponenten des Feldes werden: Bσmn = S·F(ρ/c)m (ω)·Yσmn (θ,δ) [A4]und der Ausdruck des vorgenannten Filters F (ρ/c) / m ist gegeben durch das Verhältnis:
    Figure 00220001
    wobei ώ = 2πf der Wellenimpuls, wobei f die Frequenz des Tons ist.
  • Diese beiden letztgenannten Verhältnisse [A4] und [A5] zeigen schließlich, dass sowohl für eine virtuelle (simulierte) Quelle, als auch für eine reale Quelle im Nahfeld die Komponenten des Tons in der Ambitondarstellung mathematisch (insbesondere analytisch) in Form eines Polynoms, hier eines Bessel-Polynoms, mit der Potenz m ausgedrückt werden, dessen Variable (c/2jώp) umgekehrt proportional zur Tonfrequenz ist.
  • So ist zu verstehen, dass:
    • – im Falle einer flachen Welle die Codierung Signale erzeugt, die sich vom Ursprungssignal nur durch eine reale, endliche Verstärkung unterscheiden, was einer rein direktionalen Codierung (Verhältnis [A3]) entspricht;
    • – im Falle einer sphärischen Welle (Quelle im Nahfeld) der zusätzliche Filter F (p/c) / m(ω) die Abstandsinformation codiert, wobei in den Ausdruck der Ambitonkomponenten komplexe Amplitudenverhältnisse eingeführt werden, die von der Frequenz abhängen, wie in dem Verhältnis [A5] ausgedrückt.
  • Es ist anzumerken, dass dieser zusätzliche Filter vom Typ „Integrator" mit einem steigenden und divergierenden (nicht begrenzten) Verstärkungseffekt im Zuge der Abnahme der Tonfrequenzen gegen Null ist. 6 zeigt für jede Ordnung m eine Erhöhung der Verstärkung bei Niedrigfrequenzen (hier der erste Abstand p = 1 m). Es handelt sich somit um instabile und divergierende Filter, wenn versucht wird, sie an beliebige Audiosignale anzulegen. Diese Divergenz ist umso kritischer für die Ordnungen m mit hohem Wert.
  • Es ist insbesondere aus den Verhältnissen [A3], [A4] und [A5] verständlich, dass die Modellierung einer virtuellen Quelle im Nahfeld Ambitonkomponenten aufweist, die in niedrigen Frequenzen divergierend sind, was insbesondere für hohe Ordnungen m kritisch ist, wie in 6 dargestellt. Diese Divergenz in den niedrigen Frequenzen entspricht dem vor erwähnten „bass boost"-Phänomen. Es zeigt sich auch in der Tonerfassung für reale Quellen.
  • Insbesondere aus diesem Grund hat der Ambitonansatz insbesondere für hohe Ordnungen m im Stand der Technik keine konkrete (andere als theoretische) Anwendung bei der Verarbeitung des Tons gefunden.
  • Es ist insbesondere verständlich, dass ein Ausgleich des Nahfeldes notwendig ist, um bei der Wiedergabe die Form der in der Ambitondarstellung codierten Wellenfronten zu respektieren. Unter Bezugnahme auf 7 umfasst eine Wiedergabevorrichtung eine Vielzahl von Lautsprechern HPi, die in dem beschriebenen Beispiel in einem selben Abstand R zum Hörwahrnehmungspunkt P angeordnet sind. In dieser 7:
    • – entspricht jeder Punkt, an dem sich ein Lautsprecher HPi befindet, einem vorher erwähnten Wiedergabepunkt,
    • – ist der Punkt P der vorher erwähnte Hörwahrnehmungspunkt,
    • – sind diese Punkte um den vorher erwähnten zweiten Abstand R getrennt,
    während in der vorher beschriebenen 3:
    • – der Punkt 0 dem vorher erwähnten Bezugspunkt entspricht, der den Ursprung der Basis der sphärischen Harmonischen bildet,
    • – entspricht der Punkt M der Position einer (realen oder virtuellen) Quelle, die sich in dem vorher erwähnten ersten Abstand p zum Bezugspunkt 0 befindet.
  • Erfindungsgemäß wird ein Vorausgleich des Nahfeldes im Codierungsstadium selbst eingeführt, wobei dieser Ausgleich Filter der analytischen Form
    Figure 00250001
    einsetzt, die an die vorgenannten Ambitonkomponenten B σ / mn angelegt werden.
  • Nach einem der Vorteile, den die Erfindung bietet, wird die Verstärkung F (p/c) / m(ω), deren Wirkung in 6 zu sehen ist, durch die Dämpfung des bei der Codierung
    Figure 00250002
    angelegten Filters kompensiert. Insbesondere die Koeffizienten dieses Ausgleichsfilters
    Figure 00250003
    sind mit der Frequenz des Tons steigend und neigen für die niedrigen Frequenzen insbesondere gegen Null. Vorzugsweise sichert dieser Vorausgleich, der bei der Codierung durchgeführt wird, dass die übertragenen Daten für die niedrigen Frequenzen nicht divergierend sind.
  • Um die physikalische Bedeutung des Abstands R aufzuzeigen, der im Ausgleichsfilter vorhanden ist, wird zum Beispiel eine reale flache Ausgangswelle bei der Erfassung der Audiosignale angenommen. Um einen Nahfeldeffekt dieser entfernten Quelle zu simulieren, wird der ersten Filter des Verhältnisses [A5] angewandt, wie in dem Verhältnis [A4] angegeben. Der Abstand p zeigt nun einen Abstand zwischen einer nahen virtuellen Quelle M und dem Punkt 0 an, der den Ursprung der sphärischen Basis aus 3 darstellt.
  • So wird ein erster Filter zur Simulation eines Nahfeldes angewandt, um das Vorhandensein einer virtuellen -Quelle im vorher beschriebenen Abstand p zu simulieren. Dennoch divergieren einerseits, wie vorher angeführt, die Terme des Koeffizienten dieses Filter in den niedrigen Frequenzen (6) und stellt der vorgenannte Abstand p nicht unbedingt den Abstand zwischen den Lautsprechern einer Wiedergabevorrichtung und einem Wahrnehmungspunkt P dar (7). Erfindungsgemäß wird ein Vorausgleich an die Codierung angelegt, durch Einsatz eines Filters vom Typ
    Figure 00260001
    wie vorher erwähnt, wodurch es einerseits möglich ist, begrenzte Signale zu übertragen, und andererseits den Abstand R bei der Codierung für die Wiedergabe des Tons aus den Lautsprechern HPi, wie in 7 dargestellt, zu wählen. Insbesondere ist verständlich, dass, wenn bei der Erfassung eine virtuelle Quelle simuliert wurde, die im Abstand p vom Ursprung 0 entfernt ist, bei der Wiedergabe (7) ein am Hörwahrnehmungspunkt P (in einem Abstand R zu den Lautsprechern HPi) befindlicher Zuhörer beim Zuhören die Empfindung des Vorhandenseins einer Audioquelle S haben wird, die im Abstand p zum Wahrnehmungspunkt P angeordnet ist und der bei der Erfassung simulierten virtuellen Quelle entspricht.
  • So kann er Vorausgleich des Nahfeldes der Lautsprecher (die im Abstand R angeordnet sind) im Stadium der Codierung mit einem simulierten Nahfeldeffekt einer virtuellen Quelle kombiniert werden, die in einem Abstand p angeordnet ist. Bei der Codierung wird schließlich ein Totalfilter eingesetzt, der einerseits von der Simulation des Nahfeldes und andererseits vom Ausgleich des Nahfeldes stammt, wobei die Koeffizienten dieses Filters analytisch durch folgendes Verhältnis ausgedrückt werden können:
  • Figure 00270001
  • Der Totalfilter, der durch das Verhältnis [A11] gegeben ist, ist stabil und stellt den Teil „Abstandscodierung" bei der erfindungsgemäßen räumlichen Ambitoncodierung, wie in 8 dargestellt, dar. Die Koeffizienten dieser Filter entsprechen montonen Übertragungsfunktionen der Frequenz, die zum Wert 1 bei hohen Frequenzen und zum Wert (R/p)m bei niedrigen Frequenzen neigen. Unter Bezugnahme auf 9 übersetzen die Energiespektren der Filter H NFC(ρ/c,R/c) / m(ω) die Verstärkung der codierten Komponenten auf Grund des Feldeffekts der virtuellen Quelle (die hier in einem Abstand p = 1 m angeordnet ist) mit einem Vorausgleich des Feldes der Lautsprecher (die in einem Abstand R = 1,5 m angeordnet sind). Die Verstärkung in Dezibel ist somit positiv, wenn p < R (Fall der 9), und negativ, wenn p > R (Fall der 10, wo p = 3 m und R = 1,5 m). In einer räumlich ausgeführten Wiedergabevorrichtung ist der Abstand R zwischen einem Hörwahrnehmungspunkt und den Lautsprechern HPi tatsächlich ungefähr ein oder mehrere Meter.
  • Unter neuerlicher Bezugnahme auf 8 ist zu verstehen, dass außer den üblichen Richtungsparametern θ und δ eine Information auf Distanzen übertragen wird, die bei der Codierung vorgesehen werden. So werden die Winkelfunktionen, die den sphärischen Harmonischen Y σ(θ,δ) / mn entsprechen, für die Richtungscodierung aufbewahrt.
  • Allerdings sind im Sinne der vorliegenden Erfindung ferner Totalfilter (Nahfeldausgleich und gegebenenfalls Simulation eines Nahfeldes) H NFC(ρ/c,R/c) / m(ω) vorgesehen, die an die Ambitonkomponenten in Abhängigkeit von ihrer Ordnung m angelegt werden, um die Codierung des Abstands durchzuführen, wie in 8 dargestellt. Eine Ausführungsart dieser Filter im audiodigitalen Bereich ist später im Detail beschrieben.
  • Es ist insbesondere anzumerken, dass diese Filter im audiodigitalen Bereich bereits bei der Abstandscodierung (r) und vor der Richtungscodierung (θ, δ) angewandt werden können. Es ist so zu verstehen, dass die vorgenannten Schritte a) und b) zu einem globalen Schritt zusammengefasst oder auch ausgetauscht werden können (mit einer Abstandscodierung und Ausgleichsfilterung, gefolgt von einer Richtungscodierung). Das erfindungsgemäße Verfahren ist somit nicht auf einen zeitlich aufeinander folgenden Einsatz der Schritte a) und b) beschränkt.
  • 11A stellt eine Anzeige (Draufsicht) einer Rekonstruktion eines Nahfeldes mit Ausgleich einer sphärischen Welle in der Horizontalebene (mit denselben Abstandsparametern wie jenen der 9) für ein System der totalen Ordnung M = 15 und eine Wiedergabe auf 32 Lautsprechern dar. In 11B ist die Ausbreitung der ursprünglichen Schallwelle von einer Nahfeldquelle, die sich in einem Abstand p zu einem Punkt des Erfassungsraums befindet, der im Erfassungsraum dem Punkt P der 7 der Hörwahrnehmung entspricht, dargestellt. In 11A ist zu bemerken, dass die Zuhörer (die durch schematisch dargestellte Köpfe symbolisiert sind) die virtuelle Quelle an einem selben geographischen Ort lokalisieren können, der sich im Abstand p zum Wahrnehmungspunkt P in 11B befindet.
  • Auf diese Weise wird gut überprüft, ob die Form der codierten Wellenfront nach der Decodierung und Wiedergabe eingehalten wird. Allerdings sind im Wesentlichen Interferenzen rechts vom Punkt P festzustellen, wie in 11A dargestellt, die auf die Tatsache zurückgehen, dass die Anzahl von Lautsprechern (somit von berücksichtigten Ambitonkomponenten) nicht ausreichend ist, um perfekt die auf der gesamten von den Lautsprechern begrenzten Fläche eingesetzte Wellenfront wiederzugeben.
  • Im Nachfolgenden ist als Beispiel die Herstellung eines audiodigitalen Filters für den Einsatz des Verfahrens im Sinne der Erfindung beschrieben.
  • Wie vorher angeführt, wenn ein Nahfeldeffekt simuliert werden soll, der bei der Codierung kompensiert wird, wird an die Ambitonkomponenten des Tons ein Filter folgender Form angelegt:
  • Figure 00290001
  • Aus dem Ausdruck der Simulation eines durch das Verhältnis [A5] gegebenen Nahfeldes ergibt sich, dass für entfernte Quellen (p = ∞) das Verhältnis [A11] einfach folgendes wird:
  • Figure 00290002
  • Es ergibt sich somit aus diesem letzten Verhältnis [A12], dass der Fall, in dem die zu simulierende Quelle im Fernfeld (entfernte Quelle) entsendet, nur ein Sonderfall des allgemeinen Ausdrucks des in dem Verhältnis [A11] formulierten Filters ist.
  • Im Bereich der audiodigitalen Verarbeitungen besteht ein vorteilhaftes Verfahren zur Definition eines digitalen Filters aus dem analytischen Ausdruck dieses Filters im Analogbereich mit kontinuierlicher Zeit in einer „bilinearen Transformierten".
  • Das Verhältnis [A5] wird zuerst in Form einer Laplace-Transformierten ausgedrückt, was entspricht:
    Figure 00300001
    wobei τ = p/c (wobei c die akustische Geschwindigkeit im Medium ist, typischerweise 340 m/s in der Luft).
  • Die bilineare Transformierte besteht darin, für eine Bemusterungsfrequenz fs das Verhältnis [A11] in folgender Form darzustellen:
    Figure 00300002
    wenn m ungerade ist, und
    Figure 00300003
    wenn m gerade ist,
    wobei z durch
    Figure 00300004
    in Bezug auf das vorhergehende Verhältnis [A13] definiert ist,
    und wobei:
    Figure 00300005
    und
    Figure 00310001
    wobei α = 4fs R/c für x = a
    und α = 4fs p/c für x = b
  • Xm,q sind die q aufeinander folgenden Wurzeln des Bessel-Polynoms:
    Figure 00310002
    und werden in der nachstehenden Tabelle 1 für verschiedene Ordnungen m in den jeweiligen Formen ihres realen Teils, ihres Moduls (getrennt durch einen Beistrich) und ihres Werts (real) ausgedrückt, wenn m ungerade ist.
  • Tabelle 1: Werte Re[Xm,q], IXm,qI (und Re[Xm,m], wenn m ungerade ist) für ein Bessel-Polynom, berechnet mit Hilfe der Berechnungssoftware MATLAB©
    Figure 00320001
  • Figure 00330001
  • Auf diese Weise werden die digitalen Filter aus den Werten der Tabelle 1 implementiert, wobei Kaskaden von Zellen der Ordnung 2 (für m gerade) und eine zusätzliche Zelle (für m ungerade) aus den vorher angeführten Verhältnissen [A14] vorgesehen werden.
  • So werden digitale Filter in Form einer unendlichen Impulsantwort hergestellt, die leicht parametrierbar ist, wie vorher gezeigt. Es ist anzumerken, dass eine Implementierung in Form einer endlichen Impulsantwort vorgesehen werden kann und darin besteht, das komplexe Spektrum der Übertragungsfunktion aus der analytischen Formel zu berechnen, dann davon eine endliche Impulsantwort durch umgekehrte Fourier-Transformierte abzuleiten. Dann wird ein Konvolutionsvorgang für die Filterung angewandt.
  • So wird durch Einführen dieses Vorausgleichs des Nahfeldes bei der Codierung eine modifizierte Ambitondarstellung (8) definiert, wobei als übertragbare Darstellung der im Frequenzbereich ausgedrückten Signale folgendes angenommen wird:
  • Figure 00330002
  • Wie vorher angeführt, ist R ein Bezugsabstand, mit dem ein kompensierter Nahfeldeffekt verbunden ist, und ist c die Geschwindigkeit des Tons (typischerweise 340 m/s in der Luft). Diese modifizierte Ambitondarstellung besitzt dieselben Eigenschaften der Skalierbarkeit (schematisch durch die „umgebenen" übertragenen Daten in der Nähe des Pfeils TR in 1 dargestellt) und gehorcht denselben Rotationsumwandlungen des Feldes (Modul 4 aus 1) wie die übliche Ambitondarstellung.
  • Nachstehend sind die für die Decodierung der empfangenen Ambitonsignale eingesetzten Vorgänge angeführt.
  • Zuerst wird angeführt, dass der Decodiervorgang an eine beliebige Wiedergabevorrichtung mit einem Radius R2, der sich vom vorgenannten Bezugsabstand R unterscheidet, angepasst werden kann. Zu diesem Zweck werden Filter vom Typ H NFC(ρ/c,R/c) / m(ω), wie oben beschrieben, angelegt, allerdings mit Abstandsparametern R und R2 an Stelle von p und R. Insbesondere ist anzumerken, dass nur der Parameter R/c zwischen der Codierung und der Decodierung zu speichern (und/oder zu übertragen) ist.
  • Unter Bezugnahme auf 12 ist das hier dargestellte Filtermodul beispielsweise in einer Verarbeitungseinheit einer Wiedergabevorrichtung vorgesehen. Die empfangenen Ambitonkomponenten wurden bei der Codierung für einen Bezugsabstand R1 als zweiten Abstand vorkompensiert. Allerdings umfasst die Wiedergabevorrichtung eine Vielzahl von Lautsprechern, die in einem dritten Abstand R2 zu einem Hörwahrnehmungspunkt P angeordnet sind, wobei dieser dritte Abstand R2 zu zweiten vorgenannten Abstand R1 unterschiedlich ist. Das Filtermodul der 12 in der Form
    Figure 00340001
    passt nun beim Empfang der Daten den Vorausgleich an den Abstand R1 für eine Wiedergabe im Abstand R2 an. Natürlich empfängt die Wiedergabevorrichtung, wie vorher angeführt, auch den Parameter R1/c.
  • Es ist anzumerken, dass es die Erfindung ferner ermöglicht, mehrere Ambitondarstellungen von Audiofeldern (reale und/oder virtuelle Quellen), deren Bezugsabstände R unterschiedlich sind, zu mischen (gegebenenfalls mit unendlichen Bezugsabständen, die entfernten Quellen entsprechen). Vorzugsweise wird ein Vorausgleich all dieser Quellen mit einem kleinsten Bezugsabstand gefiltert, bevor die Ambitonsignale gemischt werden, wodurch es bei der Wiedergabe möglich ist, eine richtige Definition des Tonreliefs zu erhalten.
  • Im Rahmen einer Verarbeitung der so genannten „Tonfokussierung" mit bei der Wiedergabe einem Tonanreicherungseffekt für eine ausgewählte Richtung des Raums (in der Art eines Lichtprojektors, der in eine ausgewählte optische Richtung beleuchtet) und einer Matrixverarbeitung zur Tonfokussierung (mit Gewichtung der Ambitonkomponenten) wird vorzugsweise die Abstandscodierung mit einem Vorausgleich des Nahfeldes kombiniert mit der Fokussierungsverarbeitung angewandt.
  • Im Nachfolgenden ist ein Verfahren der Ambitondecodierung mit Ausgleich des Nahfeldes der Lautsprecher bei der Wiedergabe beschrieben.
  • Um ein nach dem Ambitonformalismus codiertes akustisches Feld aus den Komponenten B σ / mn und unter Verwendung der Lautsprecher einer Wiedergabevorrichtung, die eine „ideale" Position eines Zuhörers, die dem Wiedergabepunkt P aus 7 entspricht, vorsieht, zu rekonstruieren, ist die von jedem Lautsprecher entsandte Welle durch eine vorherige Verarbeitung der „Wiedercodierung" des Ambitonfeldes in der Mitte der Wiedergabevorrichtung wie folgt definiert.
  • In diesem Zusammenhang der „Wiedercodierung" wird zuerst und zur Vereinfachung angenommen, dass die Quellen im Fernfeld entsenden.
  • Unter neuerlicher Bezugnahme auf 7 wird die von einem Lautsprecher mit dem Index i und dem einem Eintreffwinkel (θi und δi) entsandte Welle mit einem Signal Si gespeist. Dieser Lautsprecher nimmt an der Rekonstruktion der Komponente B ' / mn durch seinen Beitrag Si·Y σ / mn(θii) teil.
  • Der Vektor ci der Codierungskoeffizienten, die mit dem Lautsprecher mit dem Index i verbunden sind, wird durch folgendes Verhältnis ausgedrückt:
  • Figure 00360001
  • Der Vektor S der Signale, die von der Gesamtheit der N Lautsprecher ausgehen, ist gegeben durch den Ausdruck:
  • Figure 00360002
  • Die Codierungsmatrix der N Lautsprecher (die schließlich einer Matrix der „Wiedercodierung" entspricht) ist durch folgendes Verhältnis ausgedrückt: c = [c1 c2 ... cN] [B3]wobei jeder Term ci einen Vektor nach dem vorstehenden Verhältnis [B1] darstellt.
  • So ist die Rekonstruktion des Ambitonfeldes B' definiert durch das Verhältnis:
  • Figure 00370001
  • Das Verhältnis [B4] definiert somit einen Vorgang der Wiedercodierung vor der Wiedergabe. Schließlich besteht die Decodierung als solche darin, die ursprünglichen Ambitonsignale, die von der Wiedergabevorrichtung empfangen werden, in folgender Form:
    Figure 00370002
    mit den wiedercodierten Signalen B ~ zu vergleichen, um das allgemeine Verhältnis zu definieren: B' = B [B]
  • Es geht insbesondere darum, die Koeffizienten einer Decodierungsmatrix D zu bestimmen, die folgendes Verhältnis überprüft: S = D·B [B7]
  • Vorzugsweise ist die Anzahl von Lautsprechern größer oder gleich der Anzahl von zu decodierenden Ambitonkomponenten und wird die Decodierungsmatrix D in Abhängigkeit von der Wiedercodierungsmatrix C in folgender Form ausgedrückt: D = CT·(C·CT]–1 [B8]wobei der Begriff CT der Transformierten der Matrix C entspricht.
  • Es ist anzumerken, dass die Definition einer Decodierung, die unterschiedliche Kriterien durch Frequenzbänder überprüft, möglicht ist, was es ermöglicht, eine optimierte Wiedergabe in Abhängigkeit von den Hörbedingungen anzubieten, insbesondere was das Anfordernis der Positionierung im Mittelpunkt 0 der Kugel aus 3 bei der Wiedergabe betrifft. Zu diesem Zweck ist vorzugsweise eine einfache Filterung bei Frequenzegalisierung in Stufen für jede Ambitonkomponente vorgesehen.
  • Allerdings um eine Rekonstruktion eine ursprünglich codierten Welle zu erzielen, muss die Annahme eines Fernfeldes für die Lautsprecher korrigiert werden, d.h. der Effekt ihres Nahfeldes in der vorgenannten Wiedercodierungsmatrix C ausgedrückt und dieses neue System umgekehrt werden, um den Decoder zu definieren. Zu diesem Zweck haben bei der Annahme einer konzentrischen Anordnung der Lautsprecher (die in einem selben Abstand R vom Punkt P der 7 angeordnet sind) alle Lautsprecher einen selben Nahfeldeffekt F (R/c) / m(ω) auf jeder Ambitonkomponente des Typs B 'σ / mn. Wenn die Terme des Nahfeldes in Form einer diagonalen Matrix eingeführt werden, wird das vorstehende Verhältnis [B4]: B' = Diag([1 FR/c1 (ω) FR/c1 (ω) ... FR/cm (ω) FR/cm (ω) ...])·C·S [B9]
  • Das vorstehende Verhältnis [B7] wird:
  • Figure 00380001
  • So geht dem Vorgang der Matrixbildung ein Vorgang der Filterung voraus, der das Nahfeld auf jeder Komponente B σ / mn kompensiert, und der in digitaler Form eingesetzt werden kann, wie vorher unter Bezugnahme auf das Verhältnis [A14] beschrieben.
  • Es ist zu erwähnen, dass in der Praxis die Matrix C der „Wiedercodierung" der Wiedergabevorrichtung eigen ist. Ihre Koeffizienten können ursprünglich durch Parametrierung und Toncharakterisierung der Wiedergabevorrichtung, die auf eine vorbestimmte Erregung reagiert, bestimmt werden. Die Decodierungsmatrix D ist ebenfalls der Wiedergabevorrichtung eigen. Ihre Koeffizienten können durch das Verhältnis [B8] bestimmt werden. Bei Wiederaufnahme des vorhergehenden Begriffs, wo B ~ die Matrix der vorkompensierten Ambitonkomponenten ist, können diese letztgenannten an die Wiedergabevorrichtung in Matrixform B ~ übertragen werden, wobei:
  • Figure 00390001
  • Die Wiedergabevorrichtung decodiert dann die in Matrixform B (Vektor Spalte der übertragenen Komponenten) empfangenen Daten, wobei die Decodierungsmatrix D an die vorkompensierten Ambitonkomponenten angelegt wird, um die Signale Si zu bilden, die dazu bestimmt sind, die Lautsprecher HPi zu speisen, wobei:
  • Figure 00390002
  • Unter neuerlicher Bezugnahme auf 12, wenn ein Decodierungsvorgang an eine Wiedergabevorrichtung mit dem Radius R2, der sich vom Bezugsabstand R1 unterscheidet, anzupassen ist, ermöglicht eines Modul zur Anpassung vor der eigentlichen Decodierung, das vorher beschrieben ist, jede Ambitonkomponente B ~ σ / mn zu filtern, um sie an eine Wiedergabevorrichtung mit dem Radius R2 anzupassen. Der eigentliche Vorgang der Decodierung erfolgt dann, wie vorher unter Bezugnahme auf das Verhältnis [B11] beschrieben.
  • Nachstehend ist eine Anwendung der Erfindung für die binaurale Synthese beschrieben.
  • Es wird auf 13A Bezug genommen, in der ein Zuhörer dargestellt ist, der über einen Kopfhörer mit zwei Hörern einer binauralen Synthesevorrichtung verfügt. Die beiden Ohren des Zuhörers sind an jeweiligen Punkten OL (linkes Ohr) und OR (rechtes Ohr) des Raums angeordnet. Die Mitte des Kopfes des Zuhörers ist am Punkt O angeordnet, und der Radius des Kopfes des Zuhörers hat einen Wert a. Eine Audioquelle muss auditiv an einem Punkt M des Raums wahrgenommen werden, der sich in einem Abstand r zur Mitte des Kopfes des Zuhörers (und jeweils in Abständen rR vom rechten Ohr und rL vom linken Ohr) befindet. Überdies ist die Richtung der am Punkt M angeordneten Quelle durch die Vektoren r →, r →R und r →L definiert.
  • Ganz allgemein ist die binaurale Synthese folgendermaßen definiert.
  • Jeder Zuhörer hat eine Ohrform, die ihm eigen ist. Die Wahrnehmung eines Tons im Raum durch diesen Zuhörer erfolgt durch Lernen von Geburt an in Abhängigkeit von der Form der Ohren (insbesondere der Form der Ohrmuscheln und den Abmessungen des Kopfes), die diesem Zuhörer eigen sind. Die Wahrnehmung eines Tons im Raum zeigt sich unter anderem in der Tatsache, dass der Ton an ein Ohr vor dem anderen Ohr gelangt, was sich in einer Verzögerung τ zwischen den Signalen, die von jedem Hörer der Wiedergabevorrichtung zu entsenden sind, die die binaurale Synthese anwendet, zeigt.
  • Die Wiedergabevorrichtung wird ursprünglich für einen selben Zuhörer parametriert, wobei eine Audioquelle um seinen Kopf ein einem selben Abstand R von der Mitte seines Kopfes abgetastet wird. Es ist somit zu verstehen, dass dieser Abstand R als ein Abstand zwischen einem „Wiedergabepunkt", wie vorher erwähnt, und einem Hörwahrnehmungspunkt (hier die Mitte O des Kopfes des Zuhörers) betrachtet werden kann.
  • Im Nachfolgenden ist der Index L mit dem vom Hörer in Verbindung mit dem linken Ohr wiederzugebenden Signal verbunden, und der Index R ist mit dem vom Hörer in Verbindung mit dem rechten Ohr wiederzugebenden Signal verbunden. Unter Bezugnahme auf 13B wird an das Anfangssignal S eine Verzögerung für jeden Weg, der dazu bestimmt ist, ein Signal für einen unterschiedlichen Hörer zu erzeugen, angelegt. Diese Verzögerungen τL und τR hängen von einer maximalen Verzögerung τMAX ab, die hier dem Verhältnis a/c entspricht, wobei a, wie vorher erwähnt, dem Radius des Kopfes des Zuhörers und c der Geschwindigkeit des Tons entspricht. Insbesondere sind diese Verzögerungen in Abhängigkeit vom Abstandsunterschied des Punktes O (Mitte des Kopfes) am Punkt M (Position der Quelle, deren Ton wiederzugeben ist, in 13A) und jedes Ohrs an diesem Punkt M definiert. Vorzugsweise werden ferner jeweilige Verstärkungen gL und gR an jeden Weg angelegt, die von einem Verhältnis der Abstände des Punktes O am Punkt M und jedes Ohrs am Punkt M abhängen. Jeweilige an jeden Weg 2L und 2R angelegte Module codieren die Signale jedes Weges in einer Ambitondarstellung mit Vorausgleich des Nahfeldes NFC (für „Near Field Compensation") im Sinne der vorliegenden Erfindung. Es ist so zu verstehen, dass durch den Einsatz des Verfahrens im Sinne der vorliegenden Erfindung die von der Quelle M stammenden Signale nicht nur durch ihre Richtung (Seitenwinkel θL und θR und Höhenwinkel δL und δR), sondern auch in Abhängigkeit vom Abstand, der jedes Ohr rL und rR von der Quelle M trennt, definiert werden können. Die so codierten Signale werden an die Wiedergabevorrichtung übertragen, umfassend Ambitondecodierungsmodule für jeden Weg 5L und 5R , So wird eine Ambitoncodierung/-decodierung mit Nahfeldausgleich für jeden Weg (linker Hörer, rechter Hörer) bei der Wiedergabe mit binauraler Synthese (hier vom Typ „B-FORMAT) in zweigeteilter Form angewandt. Der Nahfeldausgleich erfolgt für jeden Weg mit als erstem Abstand p einem Abstand rL und rR zwischen jedem Ohr und der Position M der wiederzugebenden Audioquelle.
  • Nachstehend ist eine Anwendung des Ausgleichs im Sinne der Erfindung im Zusammenhang mit der Tonerfassung in Ambitondarstellung beschrieben.
  • Es wird nun auf 14 Bezug genommen, in der ein Mikrophon 141 eine Vielzahl von Wandlerkapseln umfasst, die akustische Druckwerte erfassen und elektrische Signale Si ... SN wiedergeben können. Die Kapseln CAPi sind auf einer Kugel mit vorbestimmtem Radius r angeordnet (hier eine starre Kugel, wie beispielsweise ein Tischtennisball). Die Kapseln sind in einem regelmäßigen Abstand auf der Kugel angeordnet. In der Praxis wird die Anzahl N von Kapseln in Abhängigkeit von der gewünschten Ordnung M für die Ambitondarstellung gewählt.
  • Nachstehend ist im Zusammenhang mit einem Mikrophon, umfassend auf einer starren Kugel angeordnete Kapseln, angeführt, wie der Nahfeldeffekt bei der Codierung im Ambitonkontext kompensiert werden kann. Auf diese Weise wird gezeigt, dass der Vorausgleich des Nahfeldes nicht nur für die Simulation einer virtuellen Quelle, wie vorher angeführt, sondern auch für de Erfassung und ganz allgemein durch Kombination des Nahfeldvorausgleichs mit allen Typen, die eine Ambitondarstellung erfordern, angewandt werden kann.
  • Im Beisein einer starren Kugel (die eine Brechung der empfangenden Schallwellen hervorrufen kann), wird das vorher angeführte Verhältnis [A1]:
  • Figure 00430001
  • Die Ableitungen der sphärischen Hankel-Funktionen hm gehorchen dem Rekursionsgesetz: (2m + 1)h–'m (x) = m hm–1 (x) – (m + 1)hm+1 (x) [C2]
  • Die Ambitonkomponenten B σ / mn des ursprünglichen Feldes aus dem Druckfeld an der Oberfläche der Kugel, wobei Projektions- und Egalisierungsvorgänge eingesetzt werden, die durch folgendes Verhältnis gegeben sind: Bσmn = EQm < pr|Yσmn > 4π [C3]
  • In diesem Ausdruck ist EQm ein Ausgleichsfilter, der eine Gewichtung Wm kompensiert, die mit der Richtcharakteristik der Kapseln verbunden ist und die ferner die Brechung durch die starre Kugel einschließt.
  • Der Ausdruck dieses Filters EQm ist durch folgendes Verhältnis gegeben:
  • Figure 00430002
  • Die Koeffizienten dieses Ausgleichsfilters sind nicht stabil, und es wird eine unendliche Verstärkung in den ganz niedrigen Frequenzen erzielt. Überdies ist anzumerken, dass die sphärischen harmonischen Komponenten selbst keine endliche Amplitude haben, wenn das Audiofeld nicht auf eine Ausbreitung von flachen Wellen, d.h. die von entfernten Quellen stammen, begrenzt ist, wie vorher zu sehen war.
  • Überdies wenn an Stelle von Kapseln, die in eine starre Kugel eingeschlossen sind, Kapseln herzförmigen Typs mit einer Richtcharakteristik im Fernfeld verwendet werden, ergibt sich folgender Ausdruck: G(θ) = α + (1 – α)cosθ (C5)
  • Bei Betrachtung dieser Kapseln, die auf einem „akustisch transparenten" Träger montiert sind, wird der auszugleichende Gewichtungsterm: Wm = jm(α jm(kr) – j(1 – α)jm'(kr)) [C6]
  • Es zeigt sich ferner, dass die Koeffizienten eines Ausgleichsfilters, die dem analytischen Kehrwert dieser durch das Verhältnis [C6] gegebenen Gewichtung entsprechen, für die ganz niedrigen Frequenzen divergierend sind.
  • Ganz allgemein wird angegeben, dass für jeden Typ der Richtcharakteristik der Sensoren die Verstärkung des Filters EQm zum Ausgleich der Gewichtung Wm in Verbindung mit der Richtcharakteristik der Sensoren für die niedrigen Audiofrequenzen unendlich ist. Unter Bezugnahme auf 14 wird vorzugsweise ein Nahfeldvorausgleich im Ausdruck des Ausgleichsfilters EQm selbst angewandt, gegen durch das Verhältnis:
  • Figure 00440001
  • So werden die Signale S1 bis SN vom Mikrophon 141 wiedergewonnen. Gegebenenfalls wird ein Vorausgleich dieser Signale durch ein Verarbeitungsmodul 142 angewandt. Das Modul 143 ermöglicht es, diese Signale im Ambitonkontext in Matrixform auszudrücken. Das Modul 144 wendet den Filter des Verhältnisses [C7] an den Ambitonkomponenten, ausgedrückt in Abhängigkeit vom Radius r der Kugel des Mikrophons 141 an. Der Nahfeldausgleich erfolgt für einen Bezugsabstand R als zweiten Abstand. Die codierten und so durch das Modul 144 gefilterten Signale können gegebenenfalls mit dem für den Bezugsabstand R/c repräsentativen Parameter übertragen werden.
  • So geht aus den verschiedenen Ausführungsarten, die mit der Schaffung einer virtuellen Nahfeldquelle, der Erfassung von von realen Quellen stammenden Tonsignalen oder auch mit der Wiedergabe (zum Ausgleich eines Nahfeldeffekts der Lautsprecher) verbunden sind, hervor, dass der Nahfeldausgleich im Sinne der vorliegenden Erfindung für alle Verarbeitungstypen angewandt werden kann, die eine Ambitondarstellung einsetzen. Dieser Nahfeldausgleich ermöglicht es, die Ambitondarstellung an eine Vielzahl von Audiokontexten anzulegen, bei denen die Richtung einer Quelle und vorzugsweise ihr Abstand berücksichtigt werden müssen. Ferner ist die Möglichkeit der Darstellung von Audiophänomenen aller Typen (Nah- oder Fernfelder) im Ambitonkontext durch diesen Vorausgleich auf Grund der Begrenzung auf endliche reale Werte der Ambitonkomponenten gewährleistet.
  • Natürlich ist die vorliegende Erfindung nicht auf die vorher als Beispiel beschriebene Ausführungsart beschränkt, sie ist auf andere Varianten erweiterbar.
  • So ist verständlich, dass der Nahfeldvorausgleich bei der Codierung sowohl für eine Nahquelle als auch für eine Fernquelle integriert werden kann. In diesem letztgenannten Fall (Fernquelle und Empfang von flachen Wellen) wird der vorher ausgedrückte Abstand p als unendlich angenommen, ohne den vorher angeführten Ausdruck der Filter Hm wesentlich zu verändern. So kann die Verarbeitung, die Raumeffektprozessoren verwendet, die im Allgemeinen entkorrelierte Signale liefern, die verwendet werden können, um das verzögerte diffuse Feld zu modellieren (verzögerte Reflexion), mit einem Nahfeldvorausgleich kombiniert werden. Es kann angenommen werden, dass diese Signale dieselbe Energie haben und einem Teil des diffusen Feldes entsprechen, das der Allrichtungskomponente W = B+1 00 (4) entspricht. Nun können die diversen sphärischen harmonischen Komponenten (mit einer gewählten Ordnung M) konstruiert werden, wobei eine Verstärkungskorrektur für jede Ambitonkomponente angelegt und ein Nahfeldausgleich der Lautsprecher (mit einem Bezugsabstand R, der die Lautsprecher vom Hörwahrnehmungspunkt trennt, wie in 7 dargestellt) angewandt wird.
  • Natürlich ist das Codierungsprinzip im Sinne der vorliegenden Erfindung auf andere Strahlungsmodelle als monopolare (reale oder virtuelle) Quellen und/oder Lautsprecher verallgemeinerbar. Jede Form von Strahlung (insbesondere eine im Raum ausgebreitete Quelle) kann nämlich durch Integration einer kontinuierlichen Verteilung von punktuellen elementaren Quellen ausgedrückt werden.
  • Ferner ist es im Zusammenhang mit der Wiedergabe möglicht, den Nahfeldausgleich an jeden Wiedergabekontext anzupassen. Zu diesem Zweck kann vorgesehen sein, Übertragungsfunktionen (Wiedercodierung der sphärischen harmonischen Nahfeldkomponenten für jeden Lautsprecher, unter Berücksichtigung einer realen Ausbreitung in dem Raum, in dem der Ton wiedergegeben wird), sowie eine Umkehr dieser Wiedercodierung zu berechnen, um die Codierung neu zu definieren.
  • Vorher wurde ein Decodierungsverfahren beschrieben, bei dem ein Matrixsystem angewandt wurde, das die Ambitonkomponenten einsetzt. Bei einer Variante kann eine verallgemeinerte Verarbeitung durch rasche Fourier-Transformierte (kreisförmig oder kugelförmig) vorgesehen sein, um die Berechnungszeiten und die Informatikquellen (im Hinblick auf den Speicher), die für die Verarbeitung der Decodierung erforderlich sind, zu begrenzen.
  • Wie vorher unter Bezugnahme auf die 9 und 10 erwähnt, ist festzustellen, dass die Wahl eines Bezugsabstandes R in Bezug auf den Abstand p der Nahfeldquelle zu einem Verstärkungsunterschied für verschiedene Werte der Audiofrequenz führt. Es ist angeführt, dass das Codierungsverfahren mit Vorausgleich mit einer audiodigitalen Kompression gekoppelt sein kann, die es ermöglicht, die Verstärkung für jedes Frequenzunterband zu quantifizieren und anzupassen.
  • Vorzugsweise wird die vorliegende Erfindung für alle Typen von Systemen zur räumlichen Tongestaltung, insbesondere für Anwendungen vom Typ „virtuelle Realität" (Navigieren in virtuellen Szenen im dreidimensionalen Raum, vertonte Konversationen vom Typ „Chat" im Internet), für Schnittstellenvertonungen, Tonausgabesoftware, um Musik aufzuzeichnen, zu mischen und wiederzugeben, aber auch für die Erfassung aus der Verwendung von dreidimensionalen Mikrophonen für die musikalische oder kinematographische Tonaufnahme, oder auch für die Übertragung von Tonstimmungen im Internet, beispielsweise für vertonte „Webcams".

Claims (22)

  1. Verfahren zur Verarbeitung von Audiodateien, bei dem: a) man Signale kodiert, die mindestens einen Ton darstellen, der sich im dreidimensionalen Raum ausbreitet und von einer Quelle kommt, die in einem ersten Abstand (ρ) von einem Bezugspunkt (O) gelegen ist, um eine Darstellung des Tons durch in einer Basis von sphärischen Harmonischen ausgedrückte Komponenten (Bmnσ) mit einem diesem Bezugspunkt (O) entsprechenden Ursprung zu erhalten, b) und man an diese Komponenten (Bmnσ) eine Kompensierung eines Nahfeldeffekts durch eine Filterung anlegt, die eine Funktion von einem zweiten Abstand (R) ist, der bei einer Wiedergabe des Tons durch eine Wiedergabevorrichtung im Wesentlichen einen Abstand zwischen einem Wiedergabepunkt (Hpi) und einem Hörwahrnehmungspunkt (P) definiert.
  2. Verfahren nach Anspruch 1, bei dem, wenn diese Quelle vom Bezugspunkt (O) entfernt ist, – man Komponenten von aufeinanderfolgenden Ordnungen m bei der Darstellung des Tons in dieser Basis von sphärischen Harmonischen erhält und – man ein Filter (1/Fm) anlegt, dessen jeweils an eine Komponente der Ordnung m angelegte Koeffizienten sich analytisch in der Form des Kehrwerts eines Polynoms der Potenz m ausdrückt, dessen Variable umgekehrt proportional zur Tonfrequenz und zum zweiten Abstand (R) ist, um einen Nahfeldeffekt auf Höhe der Wiedergabevorrichtung zu kompensieren.
  3. Verfahren nach Anspruch 1, bei dem, wenn diese Quelle eine in diesem ersten Abstand (ρ) vorgesehene virtuelle Quelle ist, – man Komponenten von aufeinanderfolgenden Ordnungen m bei der Darstellung des Tons in dieser Basis von sphärischen Harmonischen erhält und – man ein Globalfilter (Hm) anlegt, dessen jeweils an eine Komponente der Ordnung m angelegte Koeffizienten sich analytisch in der Form eines Bruchs ausdrücken, dessen – Zähler ein Polynom der Potenz m ist, dessen Variable umgekehrt proportional zur Tonfrequenz und zum ersten Abstand (ρ) ist, um einen Nahfeldeffekt der virtuellen Quelle zu simulieren, und – dessen Nenner ein Polynom der Potenz m ist, dessen Variable umgekehrt proportional zu der Tonfrequenz und zu dem zweiten Abstand (R) ist, um den Nahfeldeffekt der virtuellen Quelle in den niedrigen Tonfrequenzen zu kompensieren.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem man die in den Schritten a) und b) kodierten und gefilterten Daten mit einem diesen zweiten Abstand darstellenden Parameter (R/c) zur Wiedergabevorrichtung überträgt.
  5. Verfahren nach einem der Ansprüche 1 bis 3, bei dem man, wenn die Wiedergabevorrichtung Mittel zum Lesen eines Speicherträgers umfasst, auf einem Speicherträger, der dazu bestimmt ist, von der Wiedergabevorrichtung gelesen zu werden, die in den Schritten a) und b) kodierten und gefilterten Daten mit einem diesen zweiten Abstand darstellenden Parameter (R/c) speichert.
  6. Verfahren nach einem der Ansprüche 4 und 5, bei dem man vor einer Tonwiedergabe durch eine Wiedergabevorrichtung, die eine Vielzahl von Lautsprechern umfasst, die in einem dritten Abstand (R2) von diesem Hörwahrnehmungspunkt (P) angeordnet sind, an die kodierten und gefilterten Daten ein Anpassungsfilter (Hm (R1/c,R2/c)) anlegt, dessen Koeffizienten eine Funktion von dem zweiten Abstand (R1) und dem dritten Abstand (R2) sind.
  7. Verfahren nach Anspruch 6, bei dem die jeweils an eine Komponente der Ordnung m angelegten Koeffizienten des Anpassungsfilters (Hm (R1/c,R2/c)) sich analytisch in der Form eines Bruchs ausdrücken, dessen – Zähler ein Polynom der Potenz m ist, dessen Variable umgekehrt proportional zur Tonfrequenz und zum zweiten Abstand (R) ist, und – dessen Nenner ein Polynom der Potenz m ist, dessen Variable umgekehrt proportional zu der Tonfrequenz und zu dem dritten Abstand (R2) ist.
  8. Verfahren nach einem der Ansprüche 2, 3 und 7, bei dem man für die Durchführung des Schritts b) – für Komponenten geradzahliger Ordnung m audionumerische Filter in der Form einer Kaskade von Zellen der Ordnung zwei und – für Komponenten ungeradzahliger Ordnung m audionumerische Filter in der Form einer Kaskade von Zellen der Ordnung zwei und eine zusätzliche Zelle der Ordnung eins vorsieht.
  9. Verfahren nach Anspruch 8, bei dem die Koeffizienten eines audionumerischen Filters bei einer Komponente der Ordnung m ausgehend von den numerischen Werten der Wurzeln dieser Polynome der Potenz m definiert sind.
  10. Verfahren nach einem der Ansprüche 2, 3, 7, 8 und 9, bei dem diese Polynome Bessel-Polynome sind.
  11. Verfahren nach einem der Ansprüche 1, 2 und 4 bis 10, bei dem man ein Mikrophon vorsieht, das ein Netz von akustischen Wandlern aufweist, die im Wesentlichen auf der Oberfläche einer Kugel angeordnet sind, deren Mittelpunkt im Wesentlichen dem Bezugspunkt (O) entspricht, um die Signale zu erhalten, die mindestens einen sich im dreidimensionalen Raum ausbreitenden Ton darstellen.
  12. Verfahren nach Anspruch 11, bei dem man im Schritt b) ein Globalfilter anlegt, um einerseits einen Nahfeldeffekt in Abhängigkeit von diesem zweiten Abstand (R) zu kompensieren und andererseits die von den Wandlern kommenden Signale zu egalisieren, um eine Richtwirkungsgewichtung der Wandler zu kompensieren.
  13. Verfahren nach einem der Ansprüche 11 und 12, bei dem man eine Anzahl von Wandlern vorsieht, die von einer gewählten Gesamtzahl von Komponenten abhängt, um den Ton in der Basis der sphärischen Harmonischen darzustellen.
  14. Verfahren nach einem der vorhergehenden Ansprüche, bei dem man im Schritt a) eine Gesamtzahl von Komponenten in der Basis der sphärischen Harmonischen wählt, um bei der Wiedergabe einen Bereich des Raums um den Wahrnehmungspunkt (P) herum zu erhalten, in dem die Wiedergabe des Tons getreu ist und dessen Abmessungen mit der Gesamtzahl von Komponenten zunehmen.
  15. Verfahren nach Anspruch 14, bei dem man eine Wiedergabevorrichtung vorsieht, die eine Anzahl von Lautsprechern von mindestens gleich der Gesamtzahl der Komponenten vorsieht.
  16. Verfahren nach einem der Ansprüche 1 bis 5 und 8 bis 13, bei dem – man eine Wiedergabevorrichtung vorsieht, die mindestens einen ersten und einen zweiten Lautsprecher vorsieht, die in einem gewählten Abstand von einem Hörer angeordnet sind, – für diesen Hörer eine Information der Empfindung der Lage von Tonquellen, die in einem vorbestimmten Bezugsabstand (R) vom Hörer gelegen sind, im Raum erhält und – die Kompensierung des Schritts b) mit dem Bezugsabstand im Wesentlichen als zweiten Abstand anlegt.
  17. Verfahren nach einem der Ansprüche 1 bis 3 und 8 bis 13 in Kombination mit einem der Ansprüche 4 und 5, bei dem – man eine Wiedergabevorrichtung vorsieht, die mindestens einen ersten und einen zweiten Lautsprecher umfasst, die in einem gewählten Abstand von einem Hörer angeordnet sind, – man für diesen Hörer eine Information der Empfindung der Lage von Tonquellen, die in einem vorbestimmten Bezugsabstand (R2) vom Hörer gelegen sind, im Raum erhält und – man vor einer Tonwiedergabe durch die Wiedergabevorrichtung an die in den Schritten a) und b) kodierten und gefilterten Daten ein Anpassungsfilter (Hm (R/c,R2/c)) anlegt, dessen Koeffizienten eine Funktion des zweiten Abstands (R) und im Wesentlichen des Bezugsabstands (R2) sind.
  18. Verfahren nach einem der Ansprüche 16 und 17, bei dem – die Wiedergabevorrichtung einen Kopfhörer mit zwei Hörern für die Ohren des Hörers umfasst und – man getrennt für jeden Hörer die Kodierung und Filterung der Schritte a) und b) für Signale, die jeweils zur Versorgung jedes Hörers bestimmt sind, anlegt, mit als erstem Abstand (ρ) jeweils einen Abstand (rR, rL) der jedes Ohr von einem Standort (M) einer wiederzugebenden Quelle trennt.
  19. Verfahren nach einem der vorhergehenden Ansprüche, bei dem man in den Schritten a) und b) ein Matrixsystem in Form bringt, das mindestens umfasst: – eine Matrix (B), die die Komponenten in der Basis der sphärischen Harmonischen umfasst, und – eine diagonale Matrix (Diag(1/Fm)), deren Koeffizienten Filterkoeffizienten des Schritts b) entsprechen, und man die Matrizes multiplizierten, um eine resultierende Matrix von kompensierten Komponenten (B ~) zu erhalten.
  20. Verfahren nach Anspruch 19, bei dem – die Wiedergabevorrichtung eine Vielzahl von Lautsprechern umfasst, die in einem gleichen Abstand (R) vom dem Hörwahrnehmungspunkt (P) angeordnet sind, und, – um diese in den Schritten a) und b) kodierten und gefilterten Daten zu dekodieren und Signale zu formen, die dafür ausgelegt sind, die Lautsprecher zu speisen, • man ein Matrixsystem bildet, das die resultierende Matrix (B ~) und eine vorbestimmte, der Wiedergabevorrichtung zugeordnete Dekodierungsmatrix (D) umfasst, und • man eine Matrix (S), die die Signale zur Versorgung der Lautsprecher darstellende Koeffizienten aufweist, durch Multiplikation der Matrix (B ~) der kompensierten Komponenten mit der Dekodierungsmatrix (D) erhält.
  21. Tonerfassungsvorrichtung, umfassend ein Mikrophon, das mit einem Netz von akustischen Wandlern versehen ist, die im Wesentlichen auf der Oberfläche einer Kugel angeordnet sind, dadurch gekennzeichnet, dass sie außerdem eine Verarbeitungseinheit aufweist, die dafür ausgelegt ist, – jeweils von einem Wandler ausgehende Signale zu empfangen, – an diese Signale eine Kodierung anzulegen, um eine Darstellung des Tons durch Komponenten (Bmnσ), die in einer Basis von sphärischen Harmonischen ausgedrückt sind, mit einem dem Mittelpunkt dieser Kugel (O) entsprechenden Ursprung zu erhalten, – und an diese Komponenten (Bmnσ) eine Filterung anzulegen, die eine Funktion einerseits von einem dem Radius der Kugel (r) entsprechenden Abstand und andererseits von einem Bezugsabstand (R) ist.
  22. Vorrichtung nach Anspruch 21, dadurch gekennzeichnet, dass die Filterung darin besteht, dass einerseits in Abhängigkeit von dem Radius der Kugel die von den Wandlern kommenden Signale egalisiert werden, um eine Richtwirkungsgewichtung der Wandler zu kompensieren, und andererseits ein Nahfeldeffekt in Abhängigkeit von einem gewählten Bezugsabstand (R) kompensiert wird, der bei einer Wiedergabe des Tons im Wesentlichen einen Abstand zwischen einem Wiedergabepunkt (HPi) und einem Hörwahrnehmungspunkt (P) definiert.
DE60304358T 2002-11-19 2003-11-13 Verfahren zur verarbeitung von audiodateien und erfassungsvorrichtung zur anwendung davon Expired - Lifetime DE60304358T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0214444 2002-11-19
FR0214444A FR2847376B1 (fr) 2002-11-19 2002-11-19 Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
PCT/FR2003/003367 WO2004049299A1 (fr) 2002-11-19 2003-11-13 Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede

Publications (2)

Publication Number Publication Date
DE60304358D1 DE60304358D1 (de) 2006-05-18
DE60304358T2 true DE60304358T2 (de) 2006-12-07

Family

ID=32187712

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60304358T Expired - Lifetime DE60304358T2 (de) 2002-11-19 2003-11-13 Verfahren zur verarbeitung von audiodateien und erfassungsvorrichtung zur anwendung davon

Country Status (13)

Country Link
US (1) US7706543B2 (de)
EP (1) EP1563485B1 (de)
JP (1) JP4343845B2 (de)
KR (1) KR100964353B1 (de)
CN (1) CN1735922B (de)
AT (1) ATE322065T1 (de)
AU (1) AU2003290190A1 (de)
BR (1) BRPI0316718B1 (de)
DE (1) DE60304358T2 (de)
ES (1) ES2261994T3 (de)
FR (1) FR2847376B1 (de)
WO (1) WO2004049299A1 (de)
ZA (1) ZA200503969B (de)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10328335B4 (de) * 2003-06-24 2005-07-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wellenfeldsyntesevorrichtung und Verfahren zum Treiben eines Arrays von Lautsprechern
US20050271216A1 (en) * 2004-06-04 2005-12-08 Khosrow Lashkari Method and apparatus for loudspeaker equalization
US8027477B2 (en) * 2005-09-13 2011-09-27 Srs Labs, Inc. Systems and methods for audio processing
WO2007104877A1 (fr) * 2006-03-13 2007-09-20 France Telecom Synthese et spatialisation sonores conjointes
FR2899424A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede de synthese binaurale prenant en compte un effet de salle
US8180067B2 (en) * 2006-04-28 2012-05-15 Harman International Industries, Incorporated System for selectively extracting components of an audio input signal
US7876903B2 (en) * 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
ES2359752T3 (es) * 2006-09-25 2011-05-26 Dolby Laboratories Licensing Corporation Resolución espacial mejorada del campo sonoro para sistemas de reproducción de audio multicanal mediante derivación de señales con términos angulares de orden superior.
DE102006053919A1 (de) * 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
JP2008118559A (ja) * 2006-11-07 2008-05-22 Advanced Telecommunication Research Institute International 3次元音場再生装置
JP4873316B2 (ja) * 2007-03-09 2012-02-08 株式会社国際電気通信基礎技術研究所 音響空間共有装置
EP2094032A1 (de) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audiosignal, Verfahren und Vorrichtung zu dessen Kodierung oder Übertragung sowie Verfahren und Vorrichtung zu dessen Verarbeitung
WO2009109217A1 (en) * 2008-03-03 2009-09-11 Nokia Corporation Apparatus for capturing and rendering a plurality of audio channels
PL2154677T3 (pl) * 2008-08-13 2013-12-31 Fraunhofer Ges Forschung Urządzenie do wyznaczania konwertowanego przestrzennego sygnału audio
EP2154910A1 (de) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Mischen von Raumtonströmen
GB0815362D0 (en) 2008-08-22 2008-10-01 Queen Mary & Westfield College Music collection navigation
US8819554B2 (en) * 2008-12-23 2014-08-26 At&T Intellectual Property I, L.P. System and method for playing media
EP2205007B1 (de) * 2008-12-30 2019-01-09 Dolby International AB Verfahren und Vorrichtung zur Kodierung dreidimensionaler Hörbereiche und zur optimalen Rekonstruktion
GB2467534B (en) 2009-02-04 2014-12-24 Richard Furse Sound system
JP5340296B2 (ja) * 2009-03-26 2013-11-13 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
KR101387195B1 (ko) * 2009-10-05 2014-04-21 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
US9100768B2 (en) * 2010-03-26 2015-08-04 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback
JP5672741B2 (ja) * 2010-03-31 2015-02-18 ソニー株式会社 信号処理装置および方法、並びにプログラム
US20110317522A1 (en) * 2010-06-28 2011-12-29 Microsoft Corporation Sound source localization based on reflections and room estimation
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
EP2541547A1 (de) 2011-06-30 2013-01-02 Thomson Licensing Verfahren und Vorrichtung zum Ändern der relativen Standorte von Schallobjekten innerhalb einer Higher-Order-Ambisonics-Wiedergabe
WO2013068402A1 (en) * 2011-11-10 2013-05-16 Sonicemotion Ag Method for practical implementations of sound field reproduction based on surface integrals in three dimensions
KR101282673B1 (ko) 2011-12-09 2013-07-05 현대자동차주식회사 음원 위치 추정 방법
US8996296B2 (en) * 2011-12-15 2015-03-31 Qualcomm Incorporated Navigational soundscaping
KR102068186B1 (ko) 2012-02-29 2020-02-11 어플라이드 머티어리얼스, 인코포레이티드 로드 록 구성의 저감 및 스트립 프로세스 챔버
EP2645748A1 (de) 2012-03-28 2013-10-02 Thomson Licensing Verfahren und Vorrichtung zum Decodieren von Stereolautsprechersignalen aus einem Ambisonics-Audiosignal höherer Ordnung
WO2013150341A1 (en) 2012-04-05 2013-10-10 Nokia Corporation Flexible spatial audio capture apparatus
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2688066A1 (de) 2012-07-16 2014-01-22 Thomson Licensing Verfahren und Vorrichtung zur Codierung von Mehrkanal-HOA-Audiosignalen zur Rauschreduzierung sowie Verfahren und Vorrichtung zur Decodierung von Mehrkanal-HOA-Audiosignalen zur Rauschreduzierung
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP6167178B2 (ja) 2012-08-31 2017-07-19 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトに基づくオーディオのための反射音レンダリング
US9301069B2 (en) * 2012-12-27 2016-03-29 Avaya Inc. Immersive 3D sound space for searching audio
US9838824B2 (en) 2012-12-27 2017-12-05 Avaya Inc. Social media processing with three-dimensional audio
US9892743B2 (en) 2012-12-27 2018-02-13 Avaya Inc. Security surveillance via three-dimensional audio space presentation
US10203839B2 (en) * 2012-12-27 2019-02-12 Avaya Inc. Three-dimensional generalized space
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US9959875B2 (en) * 2013-03-01 2018-05-01 Qualcomm Incorporated Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams
WO2014162171A1 (en) 2013-04-04 2014-10-09 Nokia Corporation Visual audio processing apparatus
US9706324B2 (en) 2013-05-17 2017-07-11 Nokia Technologies Oy Spatial object oriented audio apparatus
US9369818B2 (en) 2013-05-29 2016-06-14 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting
US20140358565A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
EP2824661A1 (de) 2013-07-11 2015-01-14 Thomson Licensing Verfahren und Vorrichtung zur Erzeugung aus einer Koeffizientendomänenrepräsentation von HOA-Signalen eine gemischte Raum-/Koeffizientendomänenrepräsentation der besagten HOA-Signale
DE102013013378A1 (de) * 2013-08-10 2015-02-12 Advanced Acoustic Sf Gmbh Aufteilung virtueller Schallquellen
WO2015054033A2 (en) 2013-10-07 2015-04-16 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
EP2866475A1 (de) * 2013-10-23 2015-04-29 Thomson Licensing Verfahren und Vorrichtung zur Decodierung einer Audioschallfelddarstellung für Audiowiedergabe mittels 2D-Einstellungen
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
EP2930958A1 (de) * 2014-04-07 2015-10-14 Harman Becker Automotive Systems GmbH Schallwellenfelderzeugung
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
JP6388551B2 (ja) * 2015-02-27 2018-09-12 アルパイン株式会社 複数領域音場再現システムおよび方法
DE102015008000A1 (de) * 2015-06-24 2016-12-29 Saalakustik.De Gmbh Verfahren zur Schallwiedergabe in Reflexionsumgebungen, insbesondere in Hörräumen
JP6834985B2 (ja) * 2016-01-08 2021-02-24 ソニー株式会社 音声処理装置および方法、並びにプログラム
US10595148B2 (en) 2016-01-08 2020-03-17 Sony Corporation Sound processing apparatus and method, and program
WO2017119320A1 (ja) * 2016-01-08 2017-07-13 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2018026828A1 (en) 2016-08-01 2018-02-08 Magic Leap, Inc. Mixed reality system with spatialized audio
WO2018064528A1 (en) * 2016-09-29 2018-04-05 The Trustees Of Princeton University Ambisonic navigation of sound fields from an array of microphones
CN109804645A (zh) * 2016-10-31 2019-05-24 谷歌有限责任公司 基于投影的音频代码化
FR3060830A1 (fr) * 2016-12-21 2018-06-22 Orange Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
US10182303B1 (en) * 2017-07-12 2019-01-15 Google Llc Ambisonics sound field navigation using directional decomposition and path distance estimation
US10764684B1 (en) * 2017-09-29 2020-09-01 Katherine A. Franco Binaural audio using an arbitrarily shaped microphone array
US10721559B2 (en) 2018-02-09 2020-07-21 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for audio sound field capture
CA3092756A1 (en) * 2018-03-02 2019-09-06 Wilfred Edwin Booij Acoustic positioning transmitter and receiver system and method
US10771913B2 (en) 2018-05-11 2020-09-08 Dts, Inc. Determining sound locations in multi-channel audio
CN110740416B (zh) * 2019-09-27 2021-04-06 广州励丰文化科技股份有限公司 一种音频信号处理方法及装置
CN110740404B (zh) * 2019-09-27 2020-12-25 广州励丰文化科技股份有限公司 一种音频相关性的处理方法及音频处理装置
EP4085660A4 (de) 2019-12-30 2024-05-22 Comhear Inc Verfahren zum bereitstellen eines räumlichen schallfeldes
CN111537058B (zh) * 2020-04-16 2022-04-29 哈尔滨工程大学 一种基于Helmholtz方程最小二乘法的声场分离方法
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
CN113791385A (zh) * 2021-09-15 2021-12-14 张维翔 一种三维定位方法及***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53114201U (de) * 1977-02-18 1978-09-11
US4731848A (en) * 1984-10-22 1988-03-15 Northwestern University Spatial reverberator
JP2569872B2 (ja) * 1990-03-02 1997-01-08 ヤマハ株式会社 音場制御装置
JP3578783B2 (ja) * 1993-09-24 2004-10-20 ヤマハ株式会社 電子楽器の音像定位装置
US5745584A (en) * 1993-12-14 1998-04-28 Taylor Group Of Companies, Inc. Sound bubble structures for sound reproducing arrays
GB9726338D0 (en) * 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US7340062B2 (en) * 2000-03-14 2008-03-04 Revit Lawrence J Sound reproduction method and apparatus for assessing real-world performance of hearing and hearing aids
CA2406926A1 (en) * 2000-04-19 2001-11-01 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions

Also Published As

Publication number Publication date
US7706543B2 (en) 2010-04-27
DE60304358D1 (de) 2006-05-18
JP4343845B2 (ja) 2009-10-14
ZA200503969B (en) 2006-09-27
EP1563485B1 (de) 2006-03-29
BRPI0316718B1 (pt) 2021-11-23
EP1563485A1 (de) 2005-08-17
ES2261994T3 (es) 2006-11-16
US20060045275A1 (en) 2006-03-02
KR20050083928A (ko) 2005-08-26
KR100964353B1 (ko) 2010-06-17
FR2847376A1 (fr) 2004-05-21
BR0316718A (pt) 2005-10-18
CN1735922B (zh) 2010-05-12
WO2004049299A1 (fr) 2004-06-10
AU2003290190A1 (en) 2004-06-18
CN1735922A (zh) 2006-02-15
FR2847376B1 (fr) 2005-02-04
JP2006506918A (ja) 2006-02-23
ATE322065T1 (de) 2006-04-15

Similar Documents

Publication Publication Date Title
DE60304358T2 (de) Verfahren zur verarbeitung von audiodateien und erfassungsvorrichtung zur anwendung davon
DE69726262T2 (de) Tonaufnahme- und -wiedergabesysteme
EP3149969B1 (de) Ermittlung und nutzung hörraumoptimierter übertragungsfunktionen
EP2486561B1 (de) Rekonstruktion eines aufgezeichneten schallfelds
EP2080411B1 (de) Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
EP3069530B1 (de) Verfahren und vorrichtung zum komprimieren und dekomprimieren von schallfelddaten eines gebiets
EP3044972B1 (de) Vorrichtung, verfahren und computerprogramm zur dekorrelation von lautsprechersignalen
EP1972181B1 (de) Vorrichtung und verfahren zur simulation von wfs-systemen und kompensation von klangbeeinflussenden wfs-eigenschaften
DE69820623T2 (de) Verbessertes künstliches ohr und ohrkanalsystem und verfahren zu seiner herstellung
EP2891334B1 (de) Erzeugung von mehrkanalton aus stereo-audiosignalen
JP5611970B2 (ja) オーディオ信号を変換するためのコンバータ及び方法
DE102005001395B4 (de) Verfahren und Vorrichtung zur Transformation des frühen Schallfeldes
DE10254470B4 (de) Vorrichtung und Verfahren zum Bestimmen einer Impulsantwort und Vorrichtung und Verfahren zum Vorführen eines Audiostücks
Rasumow et al. Perceptual evaluation of individualized binaural reproduction using a virtual artificial head
DE112021003592T5 (de) Informationsverarbeitungsvorrichtung, Ausgabesteuerverfahren und Programm
DE112006002548T5 (de) Vorrichtung und Verfahren zur Wiedergabe von virtuellem Zweikanal-Ton
EP0156334B1 (de) Simulationsverfahren und Vorrichtung (elektronischer Kunstkopf) zur Nachbildung der Übertragungseigenschaften des menschlichen Aussenohrs bei Freifeldbeschallung
WO1991001616A2 (de) System zur vorneortung von mittels stereokopfhörern erzeugten hörereignissen
DE102011003450A1 (de) Erzeugung von benutzerangepassten Signalverarbeitungsparametern
DE3512155A1 (de) Elektroakustische anordnung fuer richtungsorientiertes, raeumliches hoeren
EP2503799B1 (de) Verfahren und System zur Berechnung synthetischer Außenohrübertragungsfunktionen durch virtuelle lokale Schallfeldsynthese
Baumgarte et al. Design and evaluation of binaural cue coding schemes
US20240056735A1 (en) Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same
Romblom Diffuse Field Modeling: The Physical and Perceptual Properties of Spatialized Reverberation
Nowak Quality assessment of spherical microphone array auralizations

Legal Events

Date Code Title Description
8364 No opposition during term of opposition