EP2357854B1 - Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale - Google Patents

Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale Download PDF

Info

Publication number
EP2357854B1
EP2357854B1 EP10197378.2A EP10197378A EP2357854B1 EP 2357854 B1 EP2357854 B1 EP 2357854B1 EP 10197378 A EP10197378 A EP 10197378A EP 2357854 B1 EP2357854 B1 EP 2357854B1
Authority
EP
European Patent Office
Prior art keywords
head
transit time
itd
freed
head position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP10197378.2A
Other languages
English (en)
French (fr)
Other versions
EP2357854A1 (de
Inventor
Alexander Lindau
Rolando Jorgos Estrella Cazuriaga
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Publication of EP2357854A1 publication Critical patent/EP2357854A1/de
Application granted granted Critical
Publication of EP2357854B1 publication Critical patent/EP2357854B1/de
Priority to HRP20160279TT priority Critical patent/HRP20160279T1/hr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the invention relates to a method and a device for generating individually adjustable binaural audio signals.
  • interaural transit time difference also referred to as ITD or interaural time delay for short
  • ILD interaural level difference
  • the ITD can only be meaningfully evaluated for the localization within a frequency range up to approx. 1500 Hz, above this ambiguities prevent this evaluation and the level difference ILD increasingly determines the perceived sound incidence direction. Both aspects are partly interchangeable with each other (so-called "runtime intensity trading"), from which, for example, benefits the stereophony, which can be implemented as either maturity, level or mixed stereophony.
  • a complete, frequency-dependent description of both the temporal and the spectral information of the sound field is the head-related or outer ear transfer function. It is defined as the ratio of the following transfer functions: On the one hand the transfer function measured on the eardrum of a listener (optionally also on the blocked ear canal input of a Artificial head) and the second of the transfer function of a ball microphone in the center of the head in his absence.
  • This so-called head-related transfer function also called HRIR or HRTF for short, where HRIR stands for head-related impulse response and HRTF for head-related transfer function
  • HRIR head-related impulse response
  • HRTF head-related transfer function
  • a method and apparatus for processing interaural time delay (“Method and Apparatus for Interaural Time Delay Processing in 3D Digital Audio") is disclosed in US Pat US 7,174,229 B1 described. In US 6,795,556 Will Modify Head-Related Transfer Function (HRTFs) described. Methods for measuring HRTFs are used in the EP 0912077 B1 or the DE 69523643 T2 described.
  • BRIRs or BRTFs binaural room impulse responses or transfer functions
  • head-related transfer functions which also include the reverberant room.
  • head-related transfer function By means of such a head-related transfer function, one can produce the acoustic impression of so-called virtual sound sources with high plausibility. Namely, if one filters any reverberant-free audio signal with the HRTF of the left and right ear, during playback, e.g. via headphones a sound event with more or less correct direction and distance impression.
  • the theory of binaural technique is somewhat simplistic in that the perfect reconstruction of the sound pressure time course on the eardrum, which is possible in this way, leads to the actual hearing of an identical auditory event.
  • Each sound path corresponds to a room reflection; by weighting the sound paths with the HRTF of the left and right ear corresponding to the direction of incidence of the sound path and after superposition of all such weighted reflections of the room impulse response results in a binaural spatial impulse response of the virtual space.
  • This room can now be made audible by filtering reverberant audio with this BRIR; then one speaks of "auralization".
  • the BRIRs can be measured directly in-situ.
  • the BRIRs are measured using electroacoustic excitation sources (loudspeakers) and a so-called artificial head torso simulator or robot (also referred to as HATS for short) and head and torso simulator.
  • HATS head torso simulator
  • Such a robot (HATS) allows an automated and spatially fine measurement of the BRIRs for head movements of a listener due to a replica of the multiple degrees of freedom of the head movement (eg 4 rotational, 3 translational) and can achieve a much higher sound quality and proximity to the original.
  • HATS head torso simulator
  • Such a robot (HATS) allows an automated and spatially fine measurement of the BRIRs for head movements of a listener due to a replica of the multiple degrees of freedom of the head movement (eg 4 rotational, 3 translational) and can achieve a much higher sound quality and proximity to the original.
  • the HATS FABIAN is realized by a software-controlled automatable robot consisting of an outer ear-shaped artificial head and a generically-modeled human body. The robot is used to achieve natural sound field influence (diffraction, shading, reflection) as a result of the actual measurement of the sound field, the two Microphone diaphragms on the blocked ear canal.
  • a HAT an improved auralization can be achieved.
  • a further improvement by increasing the plausibility of binaural room acoustic simulation arises when the interactivity of the listener is taken into account, i. when the reaction of the simulation to head movements of the listener is taken into account. It would be desirable if any intentional or unconscious head movement could be compensated for, thus contributing to a plausible and error-free spatial hearing. For this, however, the head-related transfer functions must be present as HRTFs or BRIRs for each head position of the listener to be taken into account in a later auralization (possibly with regard to different translatory and rotational degrees of freedom).
  • the object is achieved by a method having the features of claim 1 and by a device having the features of the independent claim.
  • head-related transfer functions e.g. BRIRs extract the interaural transit times to obtain transit time-free transfer functions and calculate from the extracted transit times travel time differences to be used in a later step along with an individual scaling factor to impose audio signals dependent on binaural synthesis the current head position were generated by means of the runtime-freed transfer functions.
  • the head-related transfer functions are freed from the interaural transit times related to a particular anthropometry (eg, an artificial head) and run-time-freed audio signals are generated by binaural synthesis followed by a time delay that is individually weighted ( Scaling factor), with the appropriate for the respective person or user runtimes acted upon, so that a significantly improved spatial hearing can be achieved.
  • the time delay corresponds to a value calculated from the weighting of the time difference calculated for the current head position and the individual scaling factor.
  • the method is dynamically designed by changing from a previous header position to a change occurring the current head position is adaptively changed the time delay between a first value and a second value by means of a sample rate conversion (SRC).
  • SRC sample rate conversion
  • the sampling rate conversion uses a conversion factor to accelerate or decelerate the time-lapsed audio signal by the conversion factor, and the conversion factor used for the sample rate conversion is determined according to the change from the time delay associated with the previous and current head positions.
  • the method can be used to calculate the runtime-free head-related transfer functions for a plurality of head positions and / or for a plurality of audio signal sources.
  • the plurality of head positions it may be e.g. the resolution of the viewing direction in small angle changes or steps, e.g. 1 degree, act.
  • the number of sources can be very large, generating an audio signal per source and for each signal path (left and right ear canal). These can then be superpositioned for each signal path after the individual weighting (delay delay).
  • the extraction of the interaural transit times from the head-related transfer functions carried out at the beginning of the procedure can be carried out, for example, by means of one of the following methods: onset method, interaural cross-correlation method, frequency-dependent group delay time difference formation, subtraction of the frequency-dependent linearly approximated phase gradient or determination of the excess phase component from division of the Ü functions before and after Hilbert transformation.
  • onset method interaural cross-correlation method
  • frequency-dependent group delay time difference formation subtraction of the frequency-dependent linearly approximated phase gradient or determination of the excess phase component from division of the Ü functions before and after Hilbert transformation.
  • the onset method leads to very good results, which will be described in detail later.
  • the invention advantageously solves the problem that, in auralization procedures, normally the head-related transfer functions HRTFs or BRIRs are always valid only for the anthropometry of a particular individual or for a particular artificial head, thereby eliminating individual differences, e.g. those of the head diameter are not exactly represented by the propagation time information contained in the transfer functions, which means that other listeners, ie "foreign" persons, a more or less strongly distorted perception of localization and - in head movements - the sensation of a naturally non-existent, spatial movement of the audio signals (localization instability) experience.
  • the invention avoids localization errors due to a wrong head diameter (deviation from the artificial head).
  • a side aspect of the chosen approach (runtime exemption and quasi-minimal-phase cross-fading) also result in significant improvements in terms of latency aspects and the audible errors in the cross-fading in head movements.
  • the invention also reduces the normally occurring fading errors ("stuttering"), which arise because during a real-time exchange of the HRTFs or BRIRs filters with runtime offsets are blended into one another.
  • This temporal "missalignment” leads to typical comb filter-like fading artefacts, which appear clearly and disturbingly especially in the case of quasi-stationary contents (in the case of speech applications, eg in the case of vowels, in music, for example, in "string carpets”).
  • the invention reduces these fading errors by the transition of the transfer functions and the insertion of runtime differences in the Binauralsynthese temporally successive and not - as usual - take place at the same time.
  • a second step 120 binaural synthesis is carried out by means of the propagation time-freed transfer functions in order to generate runtime-freed audio signals L 'and R', respectively. This will be explained in more detail on the basis of Fig. 5a / b described. The per se known Binauralsynthese is still based on the Fig. 4a / b described.
  • a real-time synthesis is performed to individually apply a scalable time delay to the first audio signals. This will be even closer to the Fig. 3 such as Fig. 5a / b described.
  • the circuit A comprises a plurality of functional blocks 111 to 117, each having a sub-step of the step sequence 110 (s. Fig. 1 ).
  • the Fig. 2 thus illustrates pre-processing of the impulse response data sets, wherein an almost inaudibly accurate extraction of the ITD from empirical HRTF / BRIR data sets can be achieved by onset detection.
  • normal transfer functions BRIR (alternatively also HRIR) are read from a database. Then an oversampling follows by an amount that allows a more than accurate extraction of the runtimes from the impulse responses (eg 10 times with respect to a common audio sample rate of 44.1 or 48kHz) in block 112. Thereafter, in block 113, the onsets (start the audio signals or data) are found. Subsequently, in block 114, the length of the onset-freed (quasi-minimal-phase) impulse response is determined and applied in a block 115 as a vector.
  • BRIR alternatively also HRIR
  • sub-sampling in block 116 results in block 117 in transfer-term-free transfer functions and the extracted transit times, which are calculated and stored as transit time differences ITD.
  • descriptive metadata records can be added to DSI. That on the basis of Fig. 2 illustrated method uses the onset method for determining the runtime-released impulse responses. This will be discussed later.
  • the interaural transit time difference results as the difference between the transit times of the HRTF and BRIR of the left and right ear. These transit times are again given as the sum of the linear-phase (pure delay component) and the allpass-containing (frequency-dependent phase shift distortion without spectral distortions) the so-called excess phase component.
  • x excess n x linear n + x allpass n
  • the interaural transit time difference ITD is frequency-dependent. However, the proportion that is essential for correct localization ( ⁇ 1500 Hz) is relatively constant and can be extracted more or less artifact-free. As a method is particularly suitable onset detection, as it is based on the Fig. 2 is illustrated. Alternatively, the determination of the excess phase component by using the Hilbert transformation, frequency-domain-specific phase gradient matching, maximum of the interaural cross-correlation or the frequency-domain-specific determination of the interaural group delay difference is also suitable.
  • the onset method is accurate enough (compare cross-correlation methods), robust enough (compare phase gradient methods), applicable (compare group delay time difference method) and true to tone color (compare Hilbert method). Intrinsically conditioned, the onset method also conserves possible allpass components of the BRIRs in an advantageous manner; they are not lost, but remain in the runtime-free spectra, which are therefore referred to here as quasi-minimal phase.
  • quasi-minimal phase In formal and criteria-free listening experiments it was confirmed that in the resynthesis of the extracted transit times and the quasi-minimal-phase spectra, as expected, no localization errors occur even with contralateral sound incidence. Further formal listening tests showed that the changes in the reverberation structure due to the Hilbert transformation are audible in every case.
  • the head-related transfer functions are freed from the terms.
  • both can then be fed separately to the resynthesis, with a scalable and tailored to the individual resynthesis can be performed (s. Fig. 3 and Fig. 5a / b ).
  • Advantages of this are latency reduction and a shortening of the HRTFs to be kept (if these, as previously implicitly implemented as FIR filters) are just the extracted runtime.
  • the HRTFs can also be generated as infinite impulse response (IIR) filters, either by modeling / estimating measured HRTFs, which are always compulsory as FIR (finite impulse response) filters, or by parametric modeling of essential features.
  • IIR infinite impulse response
  • the method described here is applicable in principle to any head-related transfer functions generated. However, it is described here using the example of empirical HRTF / BRIR data sets present as FIR filters, as described, for example, in US Pat. with the robot mentioned at the outset (HATS FABIAN, see Lindau et al., 2007).
  • the algorithms of the invention described below relate by way of example to the use of BRIR data sets that can be obtained with such a robot.
  • the method is not limited to these data sets, but applicable to any auralization that realize spatial sound localization by filtering head related impulse responses with audio signals.
  • the method 100 includes in a preprocessing step 110 (see FIG. Fig. 1 as well as subblocks in Fig. 2 ) and a real-time resynthesis step 130 (see FIG. Fig. 1 and also Fig. 3 ), which corresponds to a dynamic binaural synthesis algorithm or step 120 (see FIG. Fig. 1 and also Fig. 4a / b ) (see Fig. 5a / b ).
  • the onset method is the most suitable method among extraction methods.
  • the other methods showed less robustness in empirical data sets of binaural room impulse responses.
  • the Hilbert method also seems to be unsuitable, since it changes due to the inherent energy compaction in the direction of the beginning of the impulse response, the contained reflection structure of the room sound field in any audible extent.
  • the inventors were able to make this plausible on the basis of auditor model numerical preliminary tests and a formal listening test.
  • the onset method is set so that the natural measurement background noise (typically about -50 to -90 dB relative to the magnitude maximum value of the impulse response) is determined and then a threshold is chosen well above it (eg 15 dB higher, ie -35dB rel ).
  • the impulse response data set is then searched by machine and in each case from the beginning of the impulse responses and calculated on the basis of the times of crossing the threshold criterion in the left and right channels of the HRTF / BRIR by subtraction of the ITD (see formula 3).
  • the runtimes are removed and the now runtime-free impulse responses are saved again (block 117).
  • the onset method is applied to the 10-times oversampled time signal, thus obtaining a discretization of the ITD in 2.3 ⁇ s steps. This resolution is about one fifth of the ITD threshold that is just noticeable.
  • the thus extracted runtime or time difference ITD can now be in a text-based List format (eg * .txt, * .csv, * .xml) machine-readable to the run-time freed record.
  • This processing is performed in a first circuit A, which is part of the device (see FIG. Fig. 5a / b ).
  • jack audio server In order to modify the convolution process or to customize the runtime, it is preferable to use a so-called "jack audio server” architecture and thus implement an independent plug-in.
  • Functionally identical solutions can also be realized, for example, from arrangements of special DSP hardware or by means of methods in the context of the VST plug-in architecture (ie based on the VST interface).
  • the computer-controlled device eg PC
  • it After starting the computer-controlled device (eg PC), it reads in a configuration file, a record description file and then the text-based list of the ITDs of the BRIR data record that is currently auralized by the classical convolution process.
  • the missing transit time difference can now be inserted as head position-specific delay time VDL and without audible artifacts in one of the two audio channels.
  • the individualization process reads the head movement data as a data stream of the head tracker HTDAT (eg via an IP-based transport protocol), which it also sends to the folding process as before.
  • the latter During the initialization of the individualization process, the latter must realize the first effective interaural transit time difference, determined by the initial head position, by a time-delayed or anticipatory playback by a fixed amount.
  • the simplicity wg. the first time difference can be assumed to be 0, and the first conversion factor can be assumed to be 1, for example.
  • the fractional ratio formation of the audio block length with the audio block length corrected by the amount of change in the time differences results in a ratio that can be used as a conversion factor in a real-time sample rate conversion algorithm of the highest audio quality. This achieves the adaptation of the changed delay values by a conversion factor that is accelerated or delayed by the conversion factor, in which it interpolates from the present signal new samples at other times corresponding to a higher or lower sampling rate and outputs them instead.
  • the table size of the interpolator low pass can be estimated by suitable formulas. It uses a high-quality, band-limited floating-point interpolator based on an analytically described sinc function with a worst-case signal-to-noise ratio of 97 dB and a bandwidth of 97%.
  • the actual conversion factor per audio block to be processed can be determined in each case using the difference between the ITD belonging to the previous and the current head position.
  • An always available software library allows an inaudible and continuous change of the conversion factor, so that the respective head position corresponding delay difference can be resynthesized correctly.
  • sampling rate conversion ratio fs new / fs old ( ⁇ 1 or> 1)
  • sample rate conversion requires fewer or more samples than the underlying current block size.
  • Another approach is based on a prediction of the individual correction value based on an anthropometric measure. Preliminary examinations were performed with several subjects. In this case, a listening test was performed according to the above-mentioned acoustic scenery; In addition to the virtual source, however, the subjects were able to hear the real sound source. The goal was to change the conversion factor To set the simulation so that when switching between simulation and reality found the best possible match. This experiment was repeated 10 times per subject. In addition, four measures of the head considered appropriate were taken by each person. Next, the prediction of the individual scaling factor averages from the head dimensions was checked by multiple linear regression.
  • the variability of the scaling factor within the sample was ⁇ 4%, ie in the non-individualized case a worst-case error of up to 8% of the ITD could have occurred.
  • the individual forecast halves or quarters (at best) this error.
  • An error of 1.25% of the ITD corresponds to a localization error of just over 1 ° and is thus (again: in the most favorable case) already almost in the range of the currently perceivable change in the local salience.
  • the invention makes it possible to achieve numerous improvements, such as the advantage of error-free cross-fading, the latency minimization, the Doppler effect. Also worth mentioning is the choice of band-limited interpolation for sample rate conversion during generation the variable ITD, the real-time capability of the ITD manipulation, the inaudible extraction method and the plug-in architecture. Likewise, important aspects, such as the effective and separate reduction and interpolation of ITD and ILD (ie HRTF / BRIR spectra), should be emphasized.
  • the individual adaptation of the runtime-freed ITDs to the respective individual can be done by scaling the respective current conversion factor in the context of a sample rate conversion, which enables dynamic adaptation when the head position is changed. If a static condition occurs, i. If the head position does not change, a static adaptation of the ITDs (automatic) is also possible. Or customization is done by scaling the ITDs associated with the previous and current head positions before calculating the (unscaled) conversion factor.
  • the individualization and adaptation of the transit time difference ITD * resulting between the output signals L * and R * can be achieved by scaling the respective current conversion factor (application of the factor ISF to the block VDL / SRC; Fig. 5a / b ).
  • the individualization and adaptation of the transit time difference ITD * resulting between the output signals L * and R * can be achieved by scaling the transit time differences (ITD) corresponding to the travel-time-free head-related transfer functions (xBIR *).
  • the invention can be used in many applications.
  • the proposed method can be a substantial improvement of all existing real-time applications for binaural (room) acoustic simulation (3D Virtual Auditory Displays in General, Spatial Acoustics in Computer Games, Virtual Chat Rooms, Binaural Guidance & Alerting Systems, Binaural Walkthroughs Through virtual architecture or through multimodal media shows).
  • Possible applications are the subsequent addition of commercial 3D audio APIs.
  • the receiver side a multi-media PC presuppose such.
  • binaural teleconferencing via VoIP or binaural streaming of live concerts can gain significantly in perceptible quality.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale.
  • Die Realisierung plausibler oder gar authentischer virtueller akustischer Umgebungen ist seit längerer Zeit Ziel technischer Entwicklung im Bereich binauraler Audiosysteme und -verfahren. Diese Verfahren zielen auf die Erzeugung eines möglichst naturgetreuen räumlichen Höreindrucks beim Hörer (Nutzer, Versuchsperson, Patient usw.). Die wesentlichen Parameter bzw. sog. cues (Hinweise) für räumliches Hörens stellen -richtungs- und frequenzabhängige Laufzeit- und Pegeldifferenzen dar, die die Schallsignale einer Quelle beim Eintreffen an beiden Ohren bzw. den Trommelfellen eines Hörers aufweisen. Hierzu sei verwiesen auf die sog. Duplextheorie des Hörens nach Lord Rayleigh.
  • Diese Parameter müssen von einem System zur Simulation virtueller (Raum-)Akustik (auch kurz VAE bzw. virtual acoustic environment genannt) korrekt hergestellt werden können. Im Allgemeinen spricht man dabei von der interauralen Laufzeitdifferenz (auch kurz ITD bzw. interaural time delay genannt) oder von der interauralen Pegeldifferenz (auch kurz ILD bzw. interaural level difference genannt). Letztere ist im Wesentlichen auf den Kopf als Hindernis bei der Schallausbreitung zurückzuführen, feinere Unterschiede lassen sich auf die spezifische Form der Außenohren zurückführen. Die interaurale Laufzeitdifferenz ITD ergibt sich dagegen hauptsächlich aus dem geometrischen Abstand beider Ohren, welcher positionsabhängig zu unterschiedlichen Eintreffzeitpunkten des Schalls einer Quelle an den Trommelfellen führt. Die ITD lässt sich nur innerhalb eines Frequenzbereichs bis ca. 1500 Hz sinnvoll für die Lokalisation auswerten, oberhalb davon verhindern Ambiguitäten diese Auswertung und die Pegeldifferenz ILD bestimmt zunehmend die wahrgenommene Schalleinfallsrichtung. Beide Aspekte sind teilweise gegeneinander austauschbar (sog. "Laufzeit-Intensitäts-Trading"), wovon z.B. die Stereofonie profitiert, die so wahlweise als Laufzeit-, Pegel- oder gemischte Stereofonie realisierbar ist.
  • Eine vollständige, frequenzabhängige Beschreibung sowohl der zeitlichen als auch der spektralen Informationen des Schallfelds stellt die kopfbezogene oder Außenohr-Übertragungsfunktion dar. Sie ist definiert als das Verhältnis der folgenden Übertragungsfunktionen: Zum einen der Übertragungsfunktion gemessen am Trommelfell eines Hörers (wahlweise auch am geblockten Ohrkanaleingang eines Kunstkopfes) und zum zweiten der Übertragungsfunktion eines Kugelmikrofons in Kopfmitte bei dessen Abwesenheit. Diese sogenannte kopfbezogenen Übertragungsfunktion (auch kurz HRIR bzw. HRTF genannt, wobei HRIR für head related impulse response und HRTF für head related transfer function stehen) ist per Definition nachhallfrei. In der GB-A-2 369 976 wird beispielsweise ein Verfahren zur Synthese einer gemittelten Diffus-Feld-HRTF beschrieben. Ein Verfahren und eine Vorrichtung zur Verarbeitung von interauraler Zeitverschiebung ("Method and Apparatus for Processing Interaural Time Delay in 3D Digital Audio") wird in US 7,174,229 B1 beschrieben. In US 6,795,556 wird die Modifizierung von kopfbezogenen Übertragungsfunktion (HRTFs) beschrieben. Verfahren zur Messung von HRTFs werden in der EP 0912077 B1 oder der DE 69523643 T2 beschrieben.
  • Werden hingegen Kunstkopfübertragungsfunktionen einer elektro-akustischen Quelle in einem nachhallbehafteten Raumschallfeld vermessen, so spricht man unterscheidend dazu von BRIRs oder BRTFs (binaural room impulse responses bzw. transfer functions), also von kopfbezogenen Übertragungsfunktionen, die auch den nachhallenden Raum mit umfassen. Mittels einer solchen kopfbezogenen Übertragungsfunktion kann man den akustischen Eindruck sog. virtueller Schallquellen mit hoher Plausibilität erzeugen. Filtert man nämlich ein beliebiges nachhallfreien Audiosignal mit den HRTF des linken und rechten Ohres, stellt sich bei der Wiedergabe z.B. über Kopfhörer ein Schallereignis mit mehr oder minder korrektem Richtungs- und Entfernungseindruck ein. Etwas vereinfachend besagt die Theorie der Binauraltechnik, dass die auf diese Weise mögliche, perfekte Rekonstruktion des Schalldruckzeitverlaufs am Trommelfell zu einem, dem realen Hören eines identischen Hörereignisses führt.
  • An sich bekannt sind rechnerbezogene Verfahren und Systeme für numerische Raumakustiksimulation, die Datenbanken mit HRTF-Datensätzen eines individuell vermessenen Hörers oder eines Kunstkopfes in hoher räumlicher Winkelauflösung aufweisen und die das Berechnen der vollständigen Raumimpulsantwort an ausgewählten Hörerplätzen ermöglichen, jedoch idealerweise nur für diesen individuellen Hörer oder für einen Hörer, dessen Physiognomie bzw. Anthropometrie nur unwesentlich von der des verwendeten Kunstkopfes abweicht. Dazu werden, vereinfacht gesagt, unter Verwendung eines Strahlenmodells aus der Optik, mögliche Schallpfade von der Quelle zum Hörer nachgebildet. Jeder Schallpfad entspricht einer Raumreflexion; durch Gewichtung der Schallpfade mit der der Einfallsrichtung des Schallpfads entsprechenden HRTF des linken und rechten Ohres und nach Superpositionierung aller derart gewichteten Reflexionen der Raumimpulsantwort ergibt sich eine binaurale Raumimpulsantwort des virtuellen Raums. Dieser Raum kann nun durch Filterung nachhallfreien Audiomaterials mit dieser BRIR hörbar gemacht werden; man spricht dann auch von "Auralisation".
  • Alternativ dazu können auch die BRIRs direkt in-situ gemessen werden. Dazu werden die BRIRs unter Verwendung elektroakustischer Anregequellen (Lautsprecher) und eines sog. Kunstkopf-Torsosimulators bzw. Roboters (auch kurz als HATS bezeichnet; head and torso simulator) vermessen. Ein solcher Roboter (HATS) ermöglicht aufgrund einer Nachbildung der multiplen Freiheitsgrade der Kopfbewegung (z.B. 4 rotatorische, 3 translatorische) eine automatisierte und räumlich feine Vermessung der BRIRs für Kopfbewegungen eines Hörers und kann eine deutlich höhere Klangqualität und Nähe zum Original erzielen. In dem Artikel Lindau, A.; Weinzierl, S. (2007): "Fabian - Schnelle Erfassung binauraler Raumimpulsantworten in mehreren Freiheitsgraden." von A. Lindau und S. Weinzierl, erschienen in "Fortschritte der Akustik", Tagungsband der 33. DAGA Stuttgart, Deutschland, wird eine solche Technologie unter der Bezeichnung FABIAN vorgestellt. Der HATS FABIAN wird durch einen Softwaregesteuerten automatisierbaren Roboter realisiert, der aus einem mit Außenohren abgeformtem Kunstkopf und generisch nachempfundenem menschlichem Körper besteht. Der Roboter dient zum Erreichen natürlicher Schallfeldbeeinflussung (Beugung, Abschattung, Reflektion) als Resultat am Ort der eigentlichen Messung des Schallfelds, der beiden Mikrofonmembranen am geblockten Ohrkanal. Durch Verwendung eines solchen HATS kann eine verbesserte Auralisation erreicht werden.
  • Eine weitere Verbesserung durch Erhöhung der Plausibilität binauraler raumakustischer Simulation ergibt sich, wenn die Interaktivität des Hörers berücksichtigt wird, d.h. wenn das Reagieren der Simulation auf Kopfbewegungen des Hörers berücksichtig wird. Wünschenswert wäre es, wenn jedwede gewollte oder unbewusste Kopfbewegung kompensiert werden könnte, um somit zu einem plausiblen und fehlerfreien räumlichen Hören beizutragen. Dazu müssten jedoch für jede in einer späteren Auralisation zu berücksichtigenden Kopfstellung des Hörers (evtl. bzgl. verschiedener translatorischer und rotatorischer Freiheitsgrade) die kopfbezogenen Übertragungsfunktionen als HRTFs bzw. BRIRs vorliegen. Bekannt ist bereits, eine auf moderner Computerhardware ausgeführte Implementation echtzeitfähiger, zeitvarianter schneller Faltungsalgorithmen, die den Kopfbewegungen des Hörers (durch sog. head tracking) folgend, die HRTFs oder BRIRs unhörbar schnell austauschen, so dass sich z.B. im Falle von HRTFs relative Bewegungen zwischen Quelle und Empfänger oder im Falle von BRIRs ein Raumschallfeld, welches sich bei Kopfbewegungen nicht mehr "mitdreht" simulieren lassen. Zudem können auch typische Abbildungsartefakte der sog. statischen Kunstkopftechnik, wie "Vorne-Hinten-Vertauschungen" und "Im-Kopf-Lokalisation", wirkungsvoll eliminiert bzw. reduziert werden.
  • In der US 2006/045294 A1 wird ein Verfahren zur Erzeugung individuell anpassbarer Audiosignale beschrieben, bei dem ein Hörer (listener) den Klang von virtuellen Lautsprechern über Kopfhörer mit einem realitätsnahen Höreindruck erleben kann, der schwer von dem Höreindruck echter Lautsprecher zu unterscheiden ist. Dazu werden mehrere personalisierte Raumimpulsantworten (PRIRs) für die Lautsprecher-Schallquellen über eine begrenzte Anzahl von Zuhörer-Kopfpositionen ermittelt. Dann werden die PRIRs verwendet, um ein Audiosignal für die Lautsprecher in eine virtualisierte Ausgabe für den Kopfhörer zu wandeln bzw. zu transformieren. Indem die Transformation auf der Kopfposition des Hörers (listeners) basiert, kann das System die Transformation so anpassen, dass die virtuellen Lautsprecher sich nicht zu bewegen scheinen, wenn der Hörer seinen Kopf bewegt.
  • Der Artikel "Finding the onset of a room impulse response: Straightforward?" von G. Defrance et al., erschienen in "The Journal of the Acoustical Society of America (JASA)", Band 124(4), Seiten 248-254, Ausgabe Oct. 2008, Online publiziert am 24. Sep. 2008, befasst sich mit der genauen Bestimmung des Onset (Beginn der Audiosignale bzw. - daten) in Bezug auf die zeitliche Dimension (timing) der räumlichen Impulsantworten (room impuls responses: RIRs).
  • In der US 7174229 B1 werden ein Verfahren und eine Vorrichtung zur Verarbeitung interauraler Zeitverzögerung in 3D digitalen Audiosignalen bzw. -daten beschrieben. Für das Wiedereinbringen extrahierter oder modellierter ITDs in HRTF-Datensätzen (keine Räume) wird allerdings ein umständliches zweistufiges Delay aus samplegenauen FIFO-Puffern und fraktionalen Allpassfiltern (Auftrennung von sample- und subsample-delay) verwendet. Somit benötigt dieser Vorschlag eine ungenannte Anzahl von expilizit für jede fraktionale Zeiteinheit entworfener Filter, die z.B. durch Parallelschaltung realisiert werden und durch Anwahl mit einem Schalter selektierbar gemacht werden müssen.
  • In der US 6795556 wird ein Verfahren beschrieben, das auf eine Skalierung von empirischen "non standard" HRTF-Cues abzielt, sowohl im Zeit- als auch im Frequenzbereich ab. Auch dieses Verfahren geht nicht über das zuvor beschriebene hinaus.
  • Obwohl die bekannten Verfahren und Vorrichtungen bereits mittels datenbasierter, dynamischer binauraler Simulation eine hochplausible Simulation von Raumakustik ermöglichen, bestehen noch viele Herausforderungen, um zu einer perzeptiven Perfektionierung gelangen zu können. Hier sind insbesondere folgende Aufgabenbereiche zu nennen:
    • Die Wahrnehmbarkeit von Latenz bei der Verarbeitung der Kopfbewegung, die minimal notwendige Granularität des Gridrasters der BRIRs bzgl. Kopfbewegungen in allen rotatorischen Freiheitsgraden, die biskriminierbarkeit räumlich getrennter Quellen, beschleunigte BRIR-Messverfahren, die Simulation natürlicher Quellrichtcharakteristika (Sprecher, Instrumente) und/oder die optimale Frequenzgangsentzerrung der Wiedergabestrecke.
  • Im Kreise der Erfinder wurde eine Evaluation der Simulationsumgebung durch direkten A-B-Vergleich (also Vergleich unter direktem Schalten von einer Quelle zu einer anderen, um einen unbeeinflußten und möglichst objektiven. Vergleich zu ermöglichen) von simuliertem und realem Schallfeld durchgeführt, die neben einer erfreulich geringen Erkennungsrate von 52.6% leider auch eine Anzahl verbleibender perzeptiver Artefakte zeigte, von denen als besonderes prägnante Probleme das Auftreten von Klangverfärbung und Lokalisationsfehler hervortreten.
  • Demnach ist es Aufgabe der Erfindung, ein Verfahren der eingangs genannten Art vorzuschlagen, das die zuvor genannten Probleme in vorteilhafter Weise überwindet. Insbesondere soll das Auftreten perzeptiver Artefakte wie beispielsweise von Lokalisationsfehlern, Latenzwahrnehmung oder Überblendungsfehlern eliminiert oder zumindest deutlich reduziert werden. Außerdem soll eine Vorrichtung zur Durchführung des Verfahrens vorgeschlagen werden.
  • Gelöst wird die Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1 sowie durch eine Vorrichtung mit den Merkmalen des nebengeordneten Anspruchs.
  • Demnach wird ein Verfahren vorgeschlagen, bei dem zur Erzeugung individuell anpassbarer binauraler Audiosignale folgende Schritte ausgeführt werden:
    • aus kopfbezogenen Übertragungsfunktionen, die verschiedenen Kopfpositionen zugeordnet sind, werden mittels Extraktion von interauralen Laufzeiten laufzeitbefreite kopfbezogene Übertragungsfunktionen und dazu korrespondierende Laufzeit-Differenzen berechnet;
    • mittels einer Binauralsynthese werden laufzeitbefreite Audiosignale erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei in Abhängigkeit von Kopfpositions-Daten die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen für eine aktuelle Kopfposition verwendet werden; und
    • aus den laufzeitbefreiten Audiosignalen werden die individuell anpassbaren binauralen Audiosignale erzeugt, indem zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal mit einer zeitlichen Verzögerung in Abhängigkeit von der für die aktuelle Kopfposition berechneten Laufzeit-Differenz und in Abhängigkeit eines individuellen Skalierungsfaktors beaufschlagt wird,
    • wobei bei einer auftretenden Änderung von einer vorherigen Kopfposition in die aktuelle Kopfposition die zeitliche Verzögerung zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion verändert wird, wobei die Abtastratenkonversion einen Konversionsfaktor verwendet um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen, und wobei der für die Abtastratenkonversion verwendete Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt wird.
  • Ebenfalls wird eine Vorrichtung zur Durchführung des Verfahrens vorgeschlagen, wobei die Vorrichtung zur Erzeugung räumlich wahrnehmbarer binauraler Audiosignale folgende Komponenten aufweist:
    • eine erste Schaltung, die aus kopfbezogenen Übertragungsfunktionen, die verschiedenen Kopfpositionen zugeordnet sind, interaurale Laufzeiten extrahiert und daraus Laufzeit-Differenzen berechnet;
    • eine zweite Schaltung, die mittels einer Binauralsynthese laufzeitbefreite Audiosignale erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei diese Schaltung in Abhängigkeit von Kopfpositions-Daten die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen für eine aktuelle Kopfposition verwendet; und
    • mindestens eine dritte Schaltung, die aus den laufzeitbefreiten Audiosignalen die individuell anpassbaren binauralen Audiosignale erzeugt, indem diese Schaltung zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal mit einer zeitlichen Verzögerung in Abhängigkeit von der für die aktuelle Kopfposition berechneten Laufzeit-Differenz und in Abhängigkeit eines individuellen Skalierungsfaktors beaufschlagt wobei sie in der Lage ist, die kopfpositionsbedingten Veränderungen der Laufzeitdifferenzen im Signal auf unhörbare Weise zu vollziehen.
  • Demnach wird vorgeschlagen, aus kopfbezogenen Übertragungsfunktionen, wie z.B. BRIRs, die interauralen Laufzeiten zu extrahieren, um somit laufzeitbefreite Übertragungsfunktionen zu erhalten, und aus den extrahierten Laufzeiten Laufzeitdifferenzen zu berechnen, die in einem späteren Schritt zusammen mit einem individuellen Skalierungsfaktor verwendet werden, um die Audiosignale damit zu beaufschlagen, welche durch eine Binauralsynthese in Abhängigkeit der aktuellen Kopfposition mittels der laufzeitbefreiten Übertragungsfunktionen erzeugt wurden. Demzufolge wird in einem mehrstufigen Verfahren die kopfbezogene Übertragungsfunktionen von den interauralen Laufzeiten befreit, die sich auf eine bestimmte Anthropometrie (z.B. die eines Kunstkopfes) beziehen, und es werden laufzeitbefreite Audiosignale mittels einer Binauralsynthese erzeugt und anschließend durch eine zeitliche Verzögerung, die individuell gewichtet wird (Skalierungsfaktor), mit den für die jeweilige Person bzw. den Nutzer passenden Laufzeiten beaufschlagt, so dass ein deutlich verbesserter räumlicher Höreindruck erzielt werden kann. Insbesondere entspricht die zeitliche Verzögerung einem Wert, der aus der Wichtung der für die aktuelle Kopfposition berechneten Laufzeit-Differenz und dem individuellen Skalierungsfaktor berechnet wird.
  • Das Verfahren wird dynamisch gestaltet, indem bei einer auftretenden Änderung von einer vorherigen Kopfposition in die aktuelle Kopfposition die zeitliche Verzögerung zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion bzw. sample rate conversion (SRC) verändert wird. Dabei verwendet die Abtastratenkonversion einen Konversionsfaktor um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen, wobei der für die Abtastratenkonversion verwendete Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt wird.
  • Durch die Anwendung eines SRC-Verfahrens, das auf Basis zeitlich kurzer Audioblöcke - wahrgenommen latenzlos - arbeitet, ist eine nahtlose Änderung der Laufzeitdifferenz bei Kopfbewegungen möglich.
  • Mit dem Verfahren können die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen für eine Vielzahl von Kopfpositionen und/oder für eine Vielzahl von Audiosignal-Quellen berechnet werden. Bei der Vielzahl von Kopfpositionen kann es sich z.B. um die Auflösung der Blickrichtung in kleinen Winkeländerungen bzw. -schritten, von z.B. 1 Grad, handeln. Die Anzahl der Quellen (Schall- bzw. Audioquellen) kann sehr groß sein, wobei pro Quelle und für jeden Signalpfad (linker und rechter Ohrkanal) ein Audiosignal erzeugt wird. Diese können dann nach der individuellen Gewichtung (Laufzeit-Verzögerung) für jeden Signalpfad superpositioniert werden.
  • Die zu Beginn des Verfahren durchgeführte Extraktion der interauralen Laufzeiten aus den kopfbezogenen Übertragungsfunktionen kann z.B. mittels eines der folgenden Verfahren durchgeführt werden: Onset-Verfahren, interaurales Kreuzkorrelationsverfahren, frequenzabhängige Gruppenlaufzeitdifferenzbildung, Differenzbildung der frequenzabhängig linear angenäherten Phasengradienten oder Bestimmung des Exzessphasenanteils aus Division der Ü.-funktionen vor und nach Hilbertransformation. Insbesondere das Onset-Verfahren führt zu sehr guten Ergebnissen, was später noch im Detail beschrieben wird.
  • Die Erfindung löst in vorteilhafter Weise das Problem, dass bei Auralisationsverfahren normalerweise die kopfbezogenen Übertragungsfunktionen HRTFs oder BRIRs immer nur für die Anthropometrie eines bestimmten Individuums bzw. für einen bestimmten Kunstkopf gelten, wodurch individuellen Unterschiede, wie z.B. die des Kopfdurchmessers nicht exakt durch die in den Übertragungsfunktionen enthaltenen Laufzeitinformationen repräsentiert werden, was dazu führt, dass andere Hörer, also "fremde" Personen, eine mehr oder minder stark verzerrte Wahrnehmung von Lokalisation und - bei Kopfbewegungen - die Empfindung einer naturgemäß nicht vorhandenen, räumlichen Bewegung der Audiosignale (Lokalisationsinstabilität) erfahren.
  • Durch die Erfindung werden also Lokalisationsfehler aufgrund eines falschen Kopfdurchmessers (Abweichung vom Kunstkopf) vermieden. Als Nebenaspekt der gewählten Vorgehensweise (Laufzeitbefreiung und quasi-minimalphasige Überblendung) ergeben sich zudem deutliche Verbesserungen hinsichtlich der Latenzaspekte und der hörbaren Fehler bei der Überblendung bei Kopfbewegungen.
  • Untersuchungen der Erfinder haben gezeigt, dass die auftretenden Artefakte unterschiedlich starken Einfluss auf die Authentizität der Hörwahrnehmung haben. So können offensichtliche Klangfarbenfehler ohne direkte Referenz schnell unmerkbar werden, da beim Hörer eine Gewöhnung eintritt; das absolute Klangfarbengedächtnis ist im Allgemeinen eher schlecht. Schwerwiegender erscheint die Adaption an Abweichungen in den Kopfdimensionen und die daraus resultierenden falschen Laufzeitinformationen von Schallsignalen. So führt ein zu großer Kopfdurchmesser im generischen Datensatz zu einer wahrgenommen Bewegung frontaler Quellen in entgegengesetzte Kopfbewegungsrichtung; im ungekehrten Falle "folgen" die Quellen scheinbar in geringem Maße den Bewegungen des Hörers. Dieses Artefakt kann sehr störend sein und Adaptionsfähigkeiten sind bisher nicht untersucht. Die Erfindung reduziert auch die normalerweise auftretenden Überblendungsfehler ("Stottern"), die dadurch entstehen, dass bei einem Echtzeitaustausch der HRTFs bzw. BRIRs Filter mit Laufzeitversätzen ineinander überblendet werden. Dieses zeitliche "missalignment" führt zu typischen kammfilterartigen Überblendartefakten, die besonders bei quasistationären Inhalten (bei Sprachanwendungen z.B. bei Vokalen, bei Musik z.B. bei "Streicherteppichen") deutlich und störend zu Tage treten. Die Erfindung reduziert diese Überblendungsfehler, indem die Überblendung der Übertragungsfunktionen und das Einfügen von Laufzeitdifferenzen bei der Binauralsynthese zeitlich aufeinander folgend und nicht - wie herkömmlich üblich - zeitgleich erfolgen.
  • Nachfolgend wird die Erfindung und die sich daraus ergebenden Vorteile anhand von Ausführungsbeispielen und mit Bezug auf die beiliegenden Zeichnungen beschrieben, die folgende schematische Darstellungen wiedergeben:
  • Fig. 1
    zeigt das Ablaufdiagramm für ein erfindungsgemäßes Verfahren;
    Fig. 2
    veranschaulicht die Extraktion von interauralen Laufzeiten und die Berechnung von individuellen Laufzeitdifferenzen;
    Fig. 3
    zeigt als Blockschaltbild den Teil der erfindungsgemäßen Vorrichtung, der eine individuelle skalierbare Audiosignal-Verzögerung auf der Basis der berechneten individuellen Laufzeitdifferenzen bewirkt;
    Fig. 4a
    zeigt als Blockschaltbild eine Schaltung zur Durchführung einer dynamischen Binauralsynthese;
    Fig. 4b
    zeigt das Blockschaltbild nach Fig. 4a mit erläuternder Beschriftung einzelner Schaltungs- bzw. Funktionsblöcke;
    Fig. 5a
    zeigt als Blockschaltbild eine erfindungsgemäß ausgestaltete Schaltung zur Durchführung einer individualisierten dynamischen Binauralsynthese und zum Einsatz in der erfindungsgemäßen Vorrichtung; und
    Fig. 5b
    zeigt das Blockschaltbild nach Fig. 5a mit erläuternder Beschriftung einzelner Schaltungs- bzw. Funktionsblöcke;
  • Die Fig. 1 zeigt das Ablaufdiagramm für ein erfindungsgemäßes Verfahren 100, das mehre Schritte aufweist, die im wesentlichen folgendes beinhalten:
    • In einem ersten Schritt 110 werden aus normalen kopfbezogenen Übertragungsfunktionen, wie z.B. BRIRs, laufzeitbefreite Übertragungsfunktionen gewonnen sowie interaurale Laufzeiten extrahiert und in Differenzen umgerechnet. Dies wird noch näher anhand der Fig. 2 beschrieben, die ein schematisches Blockschaltbild einer ersten Schaltung A darstellt.
  • In einem zweiten Schritt 120 wird mittels der laufzeitbefreite Übertragungsfunktionen eine Binauralsynthese durchgeführt, um laufzeitbefreite Audiosignale L' bzw. R' zu erzeugen. Dies wird noch eingehender anhand der Fig. 5a/b beschrieben. Die an sich bekannte Binauralsynthese wird noch anhand der Fig. 4a/b beschrieben.
  • In einem dritten Schritt 130 wird eine Echtzeit-Synthese durchgeführt, um die ersten Audiosignale individuell mit einer skalierbaren Zeitverzögerung zu beaufschlagen. Dies wird noch näher anhand der Fig. 3 sowie Fig. 5a/b beschrieben.
  • Zunächst soll hier der erste Schritt 110 beschrieben werden: Wie die Fig. 2 veranschaulicht umfasst die Schaltung A mehrere Funktionsblöcke 111 bis 117, die jeweils einen Teilschritt der Schrittfolge 110 (s. Fig. 1) repräsentieren. Die Fig. 2 veranschaulicht somit Vorverarbeitung der Impulsantwortdatensätze, wobei eine nahezu unhörbar genaue Extraktion der ITD aus empirischen HRTF-/BRIR-Datensätzen durch Onsetdetektion erzielt werden kann.
  • Zunächst werden in einem Teilschritt 111 normale Übertragungsfunktionen BRIR (alternativ auch HRIR) aus einer Datenbank ausgelesen. Dann folgt eine Überabtastung um einen Betrag, der eine mehr als gehörgenaue Extraktion der Laufzeiten aus den Impulsantworten erlaubt (z.B. 10-fach bzgl. einer üblichen Audioabtastrate von 44.1 oder 48kHz) im Block 112. Danach können in einem Block 113 dann die Onsets (Beginn der Audiosignale bzw. - daten) aufgefunden werden. Anschließend wird im Block 114 die die Länge der onsetbefreiten (quasi-minimalphasigen) Impulsantwort bestimmt und in einem Block 115 als Vektor angelegt. Durch anschließende, z.B. wieder 10-fache, Unterabtastung im Block 116 ergeben sich im Block 117 laufzeitfreie Übertragungsfunktionen sowie die extrahierten Laufzeiten, die als Laufzeitdifferenzen ITD berechnet und abgespeichert werden. Zusätzlich können noch beschreibende Metadatensätze DSI hinzugefügt werden. Das anhand der Fig. 2 veranschaulichte Verfahren verwendet das Onset-Verfahren zur Bestimmung der laufzeitbefreiten Impulsantworten. Hierauf wird später noch näher eingegangen.
  • Zunächst sei hier angemerkt, dass zwischen den an sich bekannten filtertheoretischen Aspekten von Übertragungsfunktionen, wie HRTFs oder BRIRs, und der Erfindung folgende Zusammenhänge bestehen:
    • Lineare, zeitinvariante und nichtrekursive Systeme, zu denen Außenohr- und binaurale Raumübertragungsfunktionen zu zählen sind, sind laut der elementaren Filtertheorie vollständig durch ihre endliche Impulsantwort beschrieben. Im digitalen Falle handelt sich damit um FIR- (finite impulse response) Filter. Diese werden in Form von mit den Filterkoeffizienten gewichteten, akkumulierenden delaylines technisch realisiert; somit stellen sie Implementierungen der diskreten Faltungsumme dar. Die zeitliche Auflösung entspricht dabei der Abtastrate des Audiosignals (z.B. 44.1 kHz). Im Falle empirischer HRTFs oder BRIRs liegen zumeist gemischtphasige Filter xmix(n) vor. Sie lassen sich in drei Anteile zerlegen: x mix n = x linear n + x allpass n + x minimal n
      Figure imgb0001
  • Die interaurale Laufzeitdifferenz ergibt sich als Differenz der Laufzeiten der HRTF bzw. BRIR des linken und rechten Ohres. Diese Laufzeiten ergeben sich wiederum als Summe des linearphasigen (reiner Laufzeitanteil) und des allpasshaltigen (frequenzabhängige Phasengangsverzerrungen ohne spektrale Verzerrungen) dem sog. Exzessphasenanteil. x exzess n = x linear n + x allpass n
    Figure imgb0002
  • Der verbleibende minimalphasige Anteil Xminimal(n) beschreibt allein die spektralen Veränderungen (ILD) und enthält keine absoluten oder relativen Laufzeitinformationen mehr.
  • Die interaurale Laufzeitdifferenz ITD ist frequenzabhängig. Der für eine korrekte Lokalisation wesentliche Anteil (< 1500Hz) ist jedoch relativ konstant und lässt sich mehr oder minder artefaktfrei extrahieren. Als Verfahren eignet sich insbesondere die Onset-Detektion, wie es anhand der Fig. 2 veranschaulicht wird. Als Alternative eignet sich auch die Bestimmung des Exzessphasenanteils durch Nutzung der Hilberttransformation, frequenzbereichsspezifisches Phasen-gradienten-Matching, Maximum der interauralen Kreuzkorrelation oder die frequenzbereichsspezifische Bestimmung der interauralen Gruppenlaufzeitdifferenz.
  • Diese genannten Methoden unterschieden sich im Wesentlichen darin, ob sie den Allpassanteil ebenfalls extrahieren können (Hilbertverfahren) oder nicht (alle anderen). Hörbare Fehler in Folge der Vernachlässigung des Allpassanteils treten jedoch nur für wenige Einfallsrichtungen des Schalls auf. Zum überwiegenden Teil sind empirische HRTFs lediglich aus Kombinationen minimalphasiger und linearphasiger Anteile gebildet. Nachweislich hörbare Fehler beim Zusammensetzen "nicht-allpassenthaltender" Laufzeiten mit analytisch perfekt minimalphasigen Spektren ergeben sich nur am contralateralen (abgewandten) Ohr bei stark lateralem Schalleinfall. Inwieweit diese Verfahren auch auf in Räumen vermessene BRIRs anwenden lassen (und nicht nur auf nachhallfreie HRTFs) wurde von den Erfindern untersucht. Dabei ergab sich, dass im Falle von BRIRs nur das Onset-Verfahren genau genug (vgl. dagegen Kreuzkorrelationsverfahren), robust genug (vgl. dagegen Phasengradientenverfahren), überhaupt anwendbar (vgl. dagegen Gruppenlaufzeitdifferenzverfahren) und klangfarbentreu (vgl. dagegen Hilbertverfahren) ist. Intrinsisch bedingt konserviert das Onsetverfahren zudem mögliche Allpassanteile der BRIRs in vorteilhafter Weise; sie gehen nicht verloren, sondern bleiben in den laufzeitfreien Spektren erhalten, die daher hier als quasi-minimalphasig bezeichnet werden. In formalen und kriterienfreien Hörversuchen wurde bestätigt, dass bei der Resynthese der extrahierten Laufzeiten und den quasi-minimalphasigen Spektren auch bei kontralateralem Schalleinfall erwartungsgemäß keine Lokalisationsfehler auftreten. Weitere formale Hörversuche zeigten, dass die aufgrund der Hilberttransformation auftretenden Veränderungen der Nachhallstruktur in jedem Falle hörbar sind.
  • Es sind zudem geometrisch-modellbasierte Ansätze bekannt, die aus Angaben anthropometrischer Daten des Kopfes die ITD winkelabhängig berechnen. Diese Methoden weisen subjektiv jedoch Mängel auf und haben den wesentlichen Nachteil, dass für eine modellbasiert zu generierende ITD die Schalleinfallsrichtung, d.h. die virtuellen Quellpositionen, auf denen empirische HRTF- oder BRIR-Datensätze basieren, bekannt sein müssen. Bei HRTFs ist dies ein banales Problem, da eine HRTF ja genau den Schalleinfall für eine spezifische Richtung, bzw. einen spezifischen Einfallswinkel beschreibt. Bei der Vermessung von Schallfeldern in Räumen mit beweglichen Kunstköpfen sind jedoch beliebige Quellpositionen denkbar (z.B. bei simulierte Konzertsituationen). Diese sind aus den Datensätzen nicht mehr zwingend funktional basiert extrahierbar. Die an sich bekannte modellbasierte ITD-Genese ist also eher nur für parametrische, numerisch-modellhafte Ansätze der virtuellen Akustik und weniger für in-situ vermessen BRIRs geeignet.
  • Gemäß der Erfindung werden die kopfbezogenen Übertragungsfunktionen von den Laufzeiten befreit. Nach der Trennung von quasi-minimalphasigem Spektrum und Laufzeit können beide dann getrennt der Resynthese zugeführt werden, wobei eine skalierbare und auf das Individuum angepasste Resynthese durchgeführt werden kann (s. Fig. 3 und Fig. 5a/b). Vorteile hierbei sind Latenzreduktion und eine Verkürzung der vorzuhaltenden HRTFs (wenn diese, wie bisher implizit angenommen als FIR-Filter ausgeführt sind) um eben die extrahierte Laufzeit. Prinzipiell lassen sich die HRTFs auch als IIR-Filter (infinite impulse response) - entweder durch Modellierung/Schätzung von gemessenen HRTFs die zwangsweise immer als FIR-Filter (finite impulse response) vorliegen, oder durch parametrische Modellierung wesentlicher Features - generieren.
  • Das hier beschriebene Verfahren ist prinzipiell auf in beliebiger Weise erzeugte kopfbezogene Übertragungsfunktionen anwendbar. Sie wird hier aber am Beispiel von als FIR-Filtern vorliegenden empirischen HRTF-/BRIR-Datensätzen beschrieben, wie sie z.B. mit dem eingangs genannten Roboter (HATS FABIAN, siehe Lindau et al. 2007) vermessen wurden.
  • In Bezug auf die in der Fig. 2 veranschaulichten Extraktion aus bestehenden Übertragungsfunktionen BRIR/HRIR ist zu sagen, dass diese mittels des besagten Roboters FABIAN gewonnen werden können:
    • Der von den Erfindern eingesetzte Roboter FABIAN besitzt Bewegungsmöglichkeiten in 7 Freiheitsgraden (4 rotatorische, 3 translatorische). Der durch Softwaresteuerung automatisierbare Roboter besteht aus einem mit Außenohren abgeformtem Kunstkopf und generisch nachempfundenem menschlichem Körper. Der Roboter dient zum Erreichen natürlicher Schallfeldbeeinflussung (Beugung, Abschattung, Reflektion) als Resultat am Ort der eigentlichen Messung des Schallfelds, der beiden Mikrofonmembranen am geblockten Ohrkanal.
  • Die im Folgenden beschriebenen Algorithmen der Erfindung beziehen sich exemplarisch auf die Verwendung von BRIR-Datensätzen, die mit einem solchen Roboter gewonnen werden können. Das Verfahren ist aber nicht auf diese Datensätze beschränkt, sondern auf jegliche Auralisationsverfahren anwendbar, die räumliche Schalllokalisation durch Filterung kopfbezogener Impulsantworten mit Audiosignalen realisieren.
  • Das Verfahren erreicht eine wesentliche Verbesserung der auf empirischen HRTF-/BRIR-Datensätzen basierenden dynamischen Binauralsynthese und bietet insbesondere folgende Vorteile:
    1. i) eine nahezu unhörbar genaue Extraktion und
    2. ii) eine ebenfalls unhörbare individuelle, echtzeitfähige Rekonstruktion und Manipulation (frequenzunabhängige Skalierung) der interauralen Laufzeitdifferenz.
  • Das Verfahren 100 (s. Fig. 1) umfasst dazu in einen Vorverarbeitungs-Schritt 110 (s. Fig. 1 sowie auch Teilblöcke in Fig. 2) und einen Echtzeit-Resynthese-Schritt 130 (s. Fig. 1 sowie auch Fig. 3), der einem dynamischen Binauralsynthese-Algorithmus bzw. Schritt 120 (s. Fig. 1 sowie auch Fig. 4a/b) nachgeschaltet wird (siehe Fig. 5a/b).
  • Zur Funktionsweise und zum Aufbau der erfindungsgemäßen Vorrichtung (s. Fig. 5a/b) sowie des von ihr ausgeführten Verfahrens (s. insbes. Fig. 1) ist zu sagen:
    • Zunächst erfolgt im Rahmen des Schritts 110 die Vorverarbeitung der Impulsantwortdatensätze. Das vorzuschlagende Verfahren setzt dazu bei der Extraktion der interauralen Laufzeit aus generischen HRTF-/BRIR-Datensätzen an. Die Gewinnung der BRIR-Datensätze (Block 111 in Fig. 2) erfolgt vorzugsweise mittels des zuvor beschrieben Roboters in realen Räumen für beliebige Anzahlen von elektroakustischen Quellen und unter Verwendung eines fein aufgelöster Kopfbewegungsrasters innerhalb physiologisch sinnvoller Drehbereiche.
  • Liegen die empirischen Datensätze vor, so werden zunächst die Laufzeiten extrahiert (insbes. Block 113) und die interauralen Laufzeitdifferenz ITD berechnet. Dabei sei die ITD definiert als: ITD = TL - TR
    Figure imgb0003

    wobei TL = tlauf (linkes ohr) und TR = tlauf (rechtes ohr)
  • Wie bereits erwähnt, erweist sich das Onsetverfahren unter den Methoden zur Extraktion als das am besten geeignete Verfahren. Die anderen Verfahren zeigten geringere Robustheit bei empirischen Datensätzen binauraler Raumimpulsantworten. Das Hilbertverfahren erscheint zudem ungeeignet zu sein, da es aufgrund der inhärenten Energiekompaktierung in Richtung des Beginns der Impulsantwort die enthaltene Reflexionsstruktur des Raumschallfelds in evtl. hörbarem Ausmaße verändert. Dies konnten die Erfinder anhand von auditorisch-modellhaften numerischen Vorversuchen und durch einen formalen Hörversuch plausibilisieren. Das Onset-verfahren wird so eingestellt, dass das natürliche Messgrundrauschen (typ. ca. -50 bis -90 dB relativ zum Betrags-Maximalwert der Impulsantwort) bestimmt wird und dann ein Schwellwert deutlich oberhalb davon gewählt wird (z.B. um 15 dB höher, also -35dBrel). Der Impulsantwortendatensatz wird dann maschinell und jeweils vom Beginn der Impulsantworten an durchsucht und anhand der Zeitpunkte des Überschreitens des Schwellwertkriteriums in linken und rechten Kanal der HRTF/BRIR durch Differenzbildung die ITD berechnet (siehe Formel 3). Die Laufzeiten werden entfernt und die nun laufzeitfreien Impulsantworten erneut gespeichert (Block 117). Das Onsetverfahren wird auf das 10-fach überabgetastete Zeitsignal angewandt, um somit eine Diskretisierung der ITD in 2.3µs-Schritten, zu erhalten. Diese Auflösung entspricht in etwa einem Fünftel des gerade wahrnehmbarem ITD-Schwellwerts. Die so extrahierte Laufzeit bzw. Laufzeitdifferenz ITD kann nun in einem textbasierten Listenformat (z.B. *.txt, *.csv, *.xml) maschinenlesbar dem laufzeitbefreiten Datensatz beigelegt werden.
  • Die anhand der Fig. 2 veranschaulichte Vorverarbeitungsprozedur umfasst somit folgende Teilschritte:
    • 111: Impulsantwort einlesen (*.wav file)
    • 112: Impulsantwort 10 x überabtasten
    • 113: Finde Onset nach Pegel-Kriterium; Schreibe Matrix der Onsetindizes für linken und rechten Kanal; Berechne ITD aus Differenz der Onsetindizes; Korrigiere Berechnungsergebnis um Überabtastfaktor; Finde maximale Laufzeit im Datensatz
    • 114: Bestimme neue Impulsantwortlänge, new_len=size_IR - max_time_of_flight (ergibt Länge der kürzestmöglichen IR im überabgetasteten Bereich, dient als Ziellänge für alle im Folgenden extrahierten IRs)
    • 115: Extrahiere aus Impulsantwort Vektor der Länge new_len beginnend bei Onsetindizes
    • 116: Extrahierte Impulsantwort 10 x unterabtasten
    • 117: Speichere IR als neue *.wav Datei
  • Außerdem: Speichere ITDs in maschinenlesbarer Datei; schreibe auch eine datensatzbeschreibende *.xml Datei DSI (mit Informationen über Start und Endpunkte, Auflösungen, für Azimut und Elevation).
  • Diese Verarbeitung wird in einer ersten Schaltung A durchgeführt, die Teil der Vorrichtung ist (s. Fig. 5a/b).
  • Eine weitere Schaltung B mit Funktionsblöcken BA und BB (s. Fig. 4a/b) wird in einer abgewandelten Form (mit Funktionsblock BB*) ebenfalls in der Vorrichtung (s. Fig. 5a/b) eingesetzt und dient einer individuellen, adaptiven Echtzeit-Resynthese, die nachfolgend noch näher beschrieben wird:
    • Ausgangspunkt bzw. Vorbedingung für die individualisierte binaurale Audiowiedergabe ist das Vorhandensein eines Echzeitfaltungsalogorithmus, wie er an sich bekannt ist und anhand der Fig. 4a/b veranschaulicht wird. Dieser sollte die Faltung blockbasiert und individuell für jede einzelne zu auralisierende Schallquelle vornehmen können. Dabei unterscheidet sich der technische Vorgang der schnellen Echtzeitfaltung von laufzeitbehafteten und laufzeitlosen BRIRs nicht, allerdings ergeben sich aufgrund der Datenaufbereitung spezielle klangliche Vorteile, die weiter unten noch beschrieben werden.
  • Zur Abwandlung des Faltungsprozess bzw. zur Laufzeitindividualisierung wird vorzugsweise auf eine sogenannte "jack audio server"-Architektur zurückgegriffen und damit ein eigenständiges PlugIn realisiert. Funktionsgleiche Lösungen können z.B. auch aus Anordnungen spezieller DSP-Hardware oder mittels Verfahren im Rahmen der VST-PlugIn-Architektur (d.h. auf der VST-Schnittstelle basierend) realisiert werden. Nach dem Start der rechnergesteuerten Vorrichtung (z.B. PC) liest diese eine Konfigurationsdatei, eine Datensatzbeschreibungsdatei und danach die textbasierte Liste der ITDs des aktuell vom klassischen Faltungsprozess auralisierten BRIR-Datensatzes ein. Dann meldet es sich beim Audioserver an und stellt je Instanz (d.h. je individuell anpassbar zu auralisierender Audioquelle) zwei Ein- und Ausgänge zu Verfügung (für linkes und rechtes binaurales Signal des Faltungsprozesses). Die Eingänge können dann in PlugIn-Manier mit den Ausgängen des Faltungsprozesses verbunden werden (siehe auch Fig. 5a/b). Für mehrere zu auralisierende Quellen sind jeweils ein eigener Faltungsprozess und ein Prozess zur Laufzeitindividualisierung zu starten. Der Prozess zur Laufzeitindividualisierung kopiert nun blockweise das Ausgangsergebnis des Faltungsprozesses (binaurale Zeitsignale ohne Laufzeitdifferenzen, siehe L' und R' in Fig. 5a/b) in seine eigenen Eingangspuffer. Damit die Grundlatenz in dieser seriellen Kaskadierung nicht über die Gebühr ansteigt haben sich Blockgrößen von 128-512 samples für beide Prozesse bewährt.
  • Die fehlende Laufzeitdifferenz kann nun als kopfpositionsspezifische Verzögerungszeit VDL und ohne hörbare Artefakte in einen der beiden Audiokanäle eingefügt werden. Die geschieht hier z.B. für L' im Block VDL/SCR bzw. S, wobei der Block VDL/SCR die dynamische Anpassung der Laufzeit bei Kopfbewegung darstellt und der Block S die statische Anpassung, die sich bei fester Kopfposition dann ergibt bzw. einstellt. Für die Anpassung liest der Individualisierungsprozess die Kopfbewegungsdaten als Datenstrom des Headtrackers HTDAT (z.B. via ein IP-basiertes Transportprotokoll) mit, die dieser wie bisher auch an den Faltungsprozess sendet. Bei der Initialisierung des Individualisierungsprozesses muss dieser die, durch die initiale Kopfposition bestimmte, erste wirksame interaurale Laufzeitdifferenz durch um einen fixen Betrag zeitverzögertes oder vorgreifendes Abspielen realisieren. Der Einfachheit wg. kann die erste Zeitdifferenz zu 0, bzw. der erste Konversionsfaktor zu 1, angenommen werden. Anschließend werden kopfpositionsbedingte Veränderungen der interauralen Laufzeitdifferenz wie folgt erreicht: Je verarbeitetem Audioblock wird die aktuelle Kopfposition und damit eine Veränderung der Laufzeitdifferenzen geprüft. Wurden Veränderungen der Laufzeitdifferenzen detektiert, wird deren Ausmaß durch Differenzbildung (delta ITD = neue ITD - alte ITD) bestimmt. Aus der fraktionalen Verhältnisbildung der Audioblocklänge mit der um das Ausmaß der Veränderung der Laufzeitdifferenzen (delta-ITD) korrigierten Audioblocklänge ergibt sich ein Verhältnis, welches als Konversionsfaktor in einem Algorithmus zur Echtzeitabtastratenkonversion in höchster Audioqualität verwendet werden kann. Dieser erreicht die Anpassung der veränderten Verzögerungswerte durch ein um den Konversionsfaktor beschleunigtes oder verzögertes Abspielen, in dem es aus dem vorliegenden Signal neue Abtastwerte an anderen, einer höheren oder niedrigeren Abtastrate entsprechenden, Zeitpunkten interpoliert und diese stattdessen ausgibt.
  • Mit Hilfe einer Abtastratenkonversion SRC können korrekte Amplitudenwerte zu beliebigen kontinuierlichen Zeitpunkten aus den Abtastzeitpunkten digitaler Zeitsignale gefunden werden. An sich bekannt ist auch die sog. fraktionale Abtastratenkonversion (siehe Smith III, J.O. (2002): Digital Audio Resampling Home Page. Web published at http://www-ccrma.stanford.edu/-jos/resample/, Stanford: Center for Computer Research in Music and Acoustics (CCRMA), Stanford University). Nach Shannons Theorem der perfekten Rekonstruktion des Zeitverlaufs abgetasteter Signale durch ebenso perfekte Tiefpassfilter (Antialiasingfilter) nutzt das Verfahren der bandbeschränkten Interpolation hierzu eine Tabelle interpolierter quasikontinuierlicher Filterkoeffizienten, um die jeweilige Tiefpassimpulsantwort effektiv in kontinuierlicher Zeitsignalform verfügbar zu machen. Eine einzelne vorberechnete Filtertabelle genügt bereits für alle Interpolationszeiten und SRC-Verhältnisse. Je nach Abtastratenkonversionsverhältnis fsneu/fsalt (d.h. der Konversionsfaktor ist <1 oder >1) ist ein Filter mit niedrigerer oder höherer Eckfrequenz aus der Tabelle auszulesen. Das wiederum ist möglich, da die Filterimpulsantwort quasikontinuierlich, d.h. mit sehr hoher Abtastgenauigkeit in sehr großer Länge tabelliert ist. Für jeden aktuell zu resampelnden Block von Ausgangssamples - bei Blöcken von sehr kurzer Dauer ist variable Konversion somit annähernd in "Echtzeit" möglich - wird das Interpolationsergebnis an den neuen Abtastzeitpunkten durch Bildung der Faltungssumme der Zeitsignalsamples mit der neuen Tiefpassimpulsantwort berechnet. Je nach benötigter Güte (d.h. Bandbreite und Sperrdämpfung des Interpolators) kann die Tabellengröße des Interpolatortiefpasses durch geeignete Formeln abgeschätzt werden. Benutzt wird hier ein hochqualitativer, bandbegrenzter Fliesskomma-Interpolator auf Basis einer analytisch beschriebenen sinc-Funktion mit einem worst case Signalrauschverhältnis von 97 dB bei einer Bandbreite von 97%.
  • Wie bereits erwähnt, kann der je zu verarbeitendem Audioblock aktuelle Konversionsfaktor jeweils mithilfe der Differenz der zur vorherigen und zur aktuellen Kopfposition gehörenden ITD bestimmt werden. Eine jederzeit verfügbare Softwarebibliothek erlaubt eine unhörbare und kontinuierliche Änderung des Konversionsfaktors, so dass die der jeweiligen Kopfhaltung entsprechenden Laufzeitdifferenz korrekt resynthetisiert werden kann. Für die praktische Realisierung der interauralen Laufzeitdifferenz bedeutet das, dass mittels der o.g. Bibliothek zur bandbeschränkten Interpolation aus einer variablen Anzahl Eingangssamples eine immergleiche - der zu Grunde liegenden Audioblocklänge entsprechende - Anzahl neuer Ausgangssamples erzeugt wird. Je nach Abtastratenkonversionsverhältnis fsneu/fsalt (<1 oder >1) benötigt die Abtastratenkonversion dafür weniger oder mehr Samples als die zu Grunde liegende aktuelle Blockgröße. Aufgrund dieser Differenz erhält man als Ergebnis - außer dem Block neu interpolierter Ausgangsamples - eine feste zeitliche Verschiebung des Einlesebereichs der Abtastratenkonversion um die Anzahl im vorhergegangen Block von einer Abtastratenkonversion weniger oder zusätzlich benötigten Samples. In der Fig. 5a/b wird diese Verschiebung durch den Block S als implizite, feste und samplegenaue Verzögerung dargestellt, deren aktueller Wert sich aus allen vorhergegangenen Laufzeitdifferenzveränderungen ergibt.
  • Wurde während zweier Audioblöcke keine Veränderungen der interauralen Laufzeitdifferenz detektiert, bleibt dieser feste Verzögerungswert (statisches Delay S) einfach erhalten und realisiert so weiterhin die korrekte interaurale Laufzeitdifferenz.
  • Im Vorgriff auf die im Folgenden beschrieben individuelle Skalierung des Konversionsfaktors, ist zudem zu betonen, dass diese feste Verzögerung ebenfalls korrekt individuell skaliert ist, da sie nur aus der Akkumulation von Rückgabewerten der bereits individuell skalierten Abtastratenkonversion resultiert.
  • Ein bedeutender Vorteil der Erfindung besteht nun darin, dass die Laufzeitdifferenz durch einfache Skalierung des jeweils aktuellen Konversionsfaktors individuell angepasst werden kann. Dazu wird die ITD, z.B. vor der Berechnung des Konversionsfaktors, einfach mit einem festen Wert skaliert (praktische Werte liegen zw. 50-150%). Damit ergibt sich zwischen den Ausgangssignalen L* und R* eine individuell angepasste ITD*. Bereits mit einer solchen frequenzunabhängigen Skalierung der ITD konnte eine perzeptiv deutlich verbesserte Anpassung an das jeweilige Individuum erzielt werden. Zudem ist diese Skalierung der ITD, welche näherungsweise einer nachträglichen Skalierung des Kopfdurchmessers entspricht, in Echtzeit regelbar. Wie ein optimaler, individueller Skalierungsfaktor gefunden werden kann, soll anhand der folgenden zwei Beispiele verdeutlicht werden:
    • Der Ansatz für das erste Beispiel beruht auf der Einrichtung des Faktors durch die Versuchsperson selbst: Da der Korrekturwert in Echtzeit einregelbar ist, kann dieser zu Beginn der virtuellen akustischen Anwendung mit Hilfe einer geeigneten akustischen Szene (z.B. Darstellung einer einzelnen frontalen Schallquelle, die kurze gut lokalisierbare Rauschpulse abgibt) eingestellt werden. Dazu verstellt die Person den Korrekturwert beginnend von einem zunächst sehr hoch gewählten Startwert (z.B. 150% der ITD) in negativer Richtung, bis sich eine korrekte Lokalisationsempfindung, gekennzeichnet durch eine stabile frontale Quellenlokalisation, d.h. vor allem ohne die den Kopfbewegungen folgende Interaktionsbewegungen einstellt. Der zu Beginn hoch gewählte Startwert macht das zu minimierende Artefakt besonders gut hörbar.
  • Ein weiterer Ansatz, der als zweites Beispiel dienen soll, beruht auf einer Vorhersage des individuellen Korrekturwerts auf Basis eines anthropometrischen Maßes. Es wurden Voruntersuchungen mit mehreren Versuchspersonen durchgeführt. Dabei wurde ein Hörversuch entsprechend der oben genannten akustischen Szenerie durchgeführt; zusätzlich zur virtuellen Quelle konnten die Versuchspersonen jedoch auch die reale Schallquelle hören. Das Ziel war es, den Konversionsfaktor der Simulation so einzustellen, dass sich beim Umschalten zw. Simulation und Realität eine möglichst gute Übereinstimmung ergab. Dieser Versuch wurde je Versuchperson 10-mal wiederholt. Zusätzlich wurden vier als geeignete erachtete Maße des Kopfes von jeder Person erhoben. Anschließend wurde die Vorhersage der Mittelwerte des individuellen Skalierungsfaktors aus den Kopfabmessungen durch multiple lineare Regression überprüft. Diese ergab, dass allein die Intertragusdistanz als Maß des Kopfdurchmessers, gemessen mit einem Tastzirkel in Millimetern von der incisura anterior des linken zu der des rechten Ohres genügt, um den Konversionsfaktor vorherzusagen. Grafische Darstellungen der Untersuchungen zeigten die Regressionsgerade und das 95%-ige Konfidenzintervall des linearen Modells sowie die individuellen Mittelwertdaten aus der Eichstichprobe. Das 95%-KI zeigte dabei an, dass der Konversionsfaktor mit einer Genauigkeit von ±1.25% (mittlerer Modellbereich) bis ±2.5% (äußere Modellbereiche) vorhergesagt werden kann.
  • Die Variabilität des Skalierungsfaktors innerhalb der Stichprobe betrug dabei ±4%, d.h. dass im nichtindividualisierten Fall ein worst-case Fehler von bis zu 8% der ITD hätte auftreten können. Die individuelle Vorhersage halbiert bzw. viertelt (im günstigsten Fall) diesen Fehler. Ein Fehler von 1.25% der ITD entspricht dabei einem Lokalisationsfehler von etwas über 1° und liegt damit (wieder: im günstigsten Fall) schon nahezu im Bereich der gerade wahrnehmbaren Loksalisationsänderung. Die Regressionsformel zur Vorhersage des individuellen Korrekturfaktors lautet dabei: Scale = 0.00304 * Intertragusdistanz mm + 0.5792
    Figure imgb0004
  • Diese Regressionsgleichung liefert zwar eine Vorhersage des individuellen Korrekturfaktors, sie ist in dieser Form jedoch nur auf Datensätze anwendbar, die mit dem FABIAN HATS Roboter vermessen wurde. Eine Möglichkeit zur Verallgemeinerung auf beliebige HRTF/BRIR-Datensätze ergäbe sich durch eine Korrektur des Ergebnisses der o. g. Formel durch Multiplikation mit dem Kopfduchmesserverhältnis Intertragusdistanz Fremd/Intertragusdistanz Fabian. Diese Korrektur setzt natürlich voraus, dass die Intertragusdistanz des fremden Datensatzes bekannt ist.
  • Das Prinzip der erfindungsgemäßen Resyntheseprozedur wird anhand der Fig. 3 veranschaulicht:
    1. a) Initialisierung
      1. i) Lese *.xml Konfigurationsdatei
      2. ii) Lese Datensatzdefinition aus *.xml Beschreibungsdatei
      3. iii) Lege 1 oder 2-dimensionales Array durch Lesen der ITDs aus maschinenlesbarer Datei an
      4. iv) Setze initialen Skalierungsfaktor der ITD = 1
      5. v) Initialisere Ringpuffer des SRC-Prozesses
      6. vi) Starte OSC-Server für Empfang der Kopfbewegungsdaten
      7. vii) Initialisiere jack client.
      8. viii) Starte Echtzeitbedienungsmodi (OSC, GUI, Keyboard)
    2. b) Echtzeitprozess
      1. i) Kopiere Einganssamples für Links und Rechts in Ringpuffer
        1. a. Lese ITD bzgl. Kopfposition laut head tracking
        2. b. Skaliere ITD in Echtzeit, wenn gewollt (ITDnew=ITD*scaling_factor)
        3. c. Rechne ITD fraktional in Samples um (delay_new=ITDnew/sample_size)
        4. d. Bestimme ITD-Veränderung seit letzter Berechnung (delta_delay=delay_new - delay_old)
        5. e. Bestimme fraktionalen SRC-Faktor (ratio=output_samples/(input_samples-delta_delay))
      2. ii) Übergebe an SRC-Prozess: Faktor, Eingangs- und Ausgangspuffer für linken Kanal.
      3. iii) Speichere ungenutzte Samples im Ringpuffer
      4. iv) Berechne input_buffer_lenght des nächsten Zyklus' (input_buffer_lenght = output_samples + ungenutzte Samples)
      5. v) Gebe Ergebnis aus: linker Kanal aus SRC-Prozess; rechter Kanal aus Ringpuffer
  • Durch die Erfindung ergeben sich u.a. folgende besondere Vorteile und Verbesserungen gegenüber dem Stand der Technik:
    1. 1) Durch das Erreichen einer deutlich genaueren Lokalisation für alle Kopfpositionen unter Verwendung generischer Datensätze sorgt die individuell skalierte ITD wesentlich für die Erhöhung der Plausibilität einer binauralen Simulation.
    2. 2) Die sich aufgrund der Extraktion der ITD ergebende quasi-minimalphasige Überblendung hat deutlich hörbare auditive Vorteile, da bei der Überblendung quasiminimalphasiger Spektren so gut wie keine Überblendungsartefakte mehr auftreten.
    3. 3) Ein weiterer wesentlicher Vorteil ergibt sich aus der Quasi-Minimalphasigkeit der Spektren. Sie bildet eine Grundlage für alle effizienten spektralen & temporalen Kompressions- und Interpolationsverfahren für HRTF-/BRIR-Datensätze und kann z.B. auch auf beschränkten Plattformen, wie z.B. Mobilfunkgeräten, eingesetzt werden.
    4. 4) Die Operationalisierung der ITD erlaubt eine getrennte Interpolation von ILD- und ITD-Features. So kann z.B. die perzeptiv wichtigere ITD durchaus mit einer sehr feinen Auflösung resynthetisiert werden, während die minimalphasigen Spektren mit relativ grober Auflösung (z.B. 5 Grad) verarbeitet werden, was wiederum auch den Einsatz in Mobilfunkgeräten erleichtert.
    5. 5) Die Entfernung der akustischen Laufzeit aus allen BRIR-Datensätzen führt zu Latenzminimierung und Speicherplatzreduktion, so dass auch hier sich insbesondere der Einsatz bei Mobilfunkgeräten anbietet.
    6. 6) Die Implementierung der ITD durch Resampling führt zu einer "physikalischeren" Modellierung des Schallfelds, da sich aufgrund des verlangsamten bzw. beschleunigten Abspielens innerhalb des SRC-Prozesses eine (zumindest für den Direktschall korrekte) Imitation des Dopplereffekts einstellt.
    7. 7) Durch die Aufspaltung der Faltung in Einzelprozesse je Quelle wird die Vorraussetzung für eine parallelisierte Berechnung (Erhöhung der Berechnungseffizienz) geschaffen.
  • Die Erfindung ermöglicht das Erreichen zahlreicher Verbesserungen, wie z.B. den Vorteil der fehlerfreien Überblendung, die Latenzminimierung, den Dopplereffekt. Hervorzuheben sind auch die Wahl der bandbegrenzten Interpolation zur Abtastratenkonversion bei der Generierung der variablen ITD, die Echtzeitfähigkeit der ITD-Manipulation, die unhörbare Extraktionsmethode und die PlugIn-Architektur. Ebenso sind wichtige Aspekt, wie z.B. die effektive und getrennte Reduktion und Interpolation von ITD und ILD (d.h. HRTF/BRIR-Spektren), hervorzuheben.
  • Die individuelle Anpassung der laufzeitbefreiten ITDs an das jeweilige Individuum kann durch Skalierung des jeweils aktuellen Konversionsfaktors im Rahmen einer Abtastratenkonversion erfolgen, die bei Änderung der Kopfposition eine dynamische Anpassung ermöglicht. Sofern ein statischer Zustand sich einstellt, d.h. die Kopfposition sich nicht ändert, stellt sich auch eine statische Anpassung der ITDs (automatisch) ein. Oder die individuelle Anpassung erfolgt durch Skalierung der ITDs, die zu der vorherigen und aktuellen Kopfposition gehören, bevor der (unskalierte) Konversionsfaktor berechnet wird.
  • Mit anderen Worten: Die Individualisierung und Anpassung der sich zwischen den Ausgangsignalen L* und R* ergebenden Laufzeit-Differenz ITD* kann erreicht werden durch Skalierung des jeweils aktuellen Konversionsfaktors (Anwendung des Faktors ISF auf den Block VDL/SRC; siehe Fig. 5a/b). Alternativ kann die Individualisierung und Anpassung der sich zwischen den Ausgangsignalen L* und R* ergebenden LaufzeitDifferenz ITD* erreicht werden durch Skalierung der zu den laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xBIR*) korrespondierenden Laufzeit-Differenzen (ITD).
  • Die Erfindung ist in vielen Anwendungen einsetzbar. Durch das vorgeschlagene Verfahren kann eine ein wesentliche Verbesserung aller bisher existierender Echtzeit-Anwendungen zur binauralen (Raum-)Akustiksimulation (3D Virtual Auditory Displays im Allgemeinen, räumliche Akustik in Computerspielen, Virtuelle Chaträume, Binaurale Guidance & Alerting Systeme, binaurale Walkthroughs z. B. durch virtuelle Architektur oder durch multimodale Mediashows) erzielt werden. Mögliche Anwendungen sind die nachträgliche Ergänzung kommerzieller 3D Audio APIs. Auch die Qualität zukünftig denkbarer rich media Anwendungen die empfängerseitig einen Mulitmedia-PC voraussetzen wie z. B. binaurales Teleconferencing via VoIP oder binaurales Streaming von Livekonzerten kann wesentlich an wahrnehmbarer Qualität gewinnen.

Claims (11)

  1. Verfahren (100) zur Erzeugung individuell anpassbarer binauraler Aüdiosignale (L*, R*),
    mit folgenden Schritten:
    aus kopfbezogenen Übertragungsfunktionen (xRIR), die verschiedenen Kopfpositionen (1...k) zugeordnet sind, werden mittels Extraktion von interauralen Laufzeiten (TL, TR) laufzeitbefreite kopfbezogene Übertragungsfunktionen (xRIR*) und dazu korrespondierende Laufzeit-Differenzen (ITD) berechnet (Schritt 110);
    mittels einer Binauralsynthese werden laufzeitbefreite Audiosignale (L', R') erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei in Abhängigkeit von Kopfpositions-Daten (HTDAT) die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xRIR*) für eine aktuelle Kopfposition (1...k) verwendet werden (Schritt 120); dadurch gekennzeichnet,
    dass aus den laufzeitbefreiten Audiosignalen (L', R') die individuell anpassbaren binauralen Audiosignale (L*, R*) erzeugt werden, indem zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal (L') mit einer zeitlichen Verzögerung (VDL) in Abhängigkeit von der für die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und in Abhängigkeit eines individuellen Skalierungsfaktors (ISF) beaufschlagt wird (Schritt 130),
    dass bei einer auftretenden Änderung von einer vorherigen Kopfposition (k=1) in die aktuelle Kopfposition (k=2) die zeitliche Verzögerung (VDL) zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion (SRC) verändert wird, wobei die Abtastratenkonversion einen Konversionsfaktor verwendet um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen (Schritt 130), und
    dass der für die Abtastratenkonversion (SRC) verwendete Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt wird (Schritt 130).
  2. Verfahren (100) nach Anspruch 1, dadurch gekennzeichnet, dass die zeitliche Verzögerung (VDL) einem Wert entspricht, der aus der Wichtung der für die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und dem individuellen Skalierungsfaktor (ISF) berechnet wird (Schritt 130).
  3. Verfahren (100) nach Anspruch 1, dadurch gekennzeichnet, dass eine zwischen individuell anpassbaren binauralen Audiosignalen (L*, R*) sich ergebende Laufzeit-Differenz (ITD*) durch Skalierung des aktuellen Konversionsfaktors individuell angepasst wird (Schritt 130).
  4. Verfahren (100) nach Anspruch3, dadurch gekennzeichnet, dass sich die ergebende Laufzeit-Differenz (ITD*) durch Skalierung der zu den laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xBIR*) korrespondierenden Laufzeit-Differenzen (ITD) individuell angepasst wird.
  5. Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xRIR*) für eine Vielzahl von Kopfpositionen (1...k) und für eine Vielzahl von Audiosignal-Quellen (1...n) berechnet werden (Schritt 110).
  6. Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die interauralen Laufzeiten (TL, TR) aus den kopfbezogenen Übertragungsfunktionen (xRIR) mittels eines der folgenden Verfahren extrahiert werden: Onset-Verfahren, interaurales KreuzkorrelationsVerfahren, frequenzspezifische Gruppenlaufzeit-Differenzbildung, frequenzbereichsspezifisches Phasengradienten-Matching oder Exzessphasenbestimmung durch Hilbert-Transformation (Schritt 110).
  7. Verfahren (100) nach Anspruch 6, dadurch gekennzeichnet, dass das Onset-Verfahren so eingestellt wird, dass ein natürliches Messgrundrauschen bestimmt wird und dann ein Schwellwert oberhalb davon, der niedriger als das Betrags-Maximum der durch die jeweilige kopfbezogene Übertragungsfunktion bestimmten Impulsantwort ist, bestimmt wird (Schritt 110).
  8. Verfahren (100) nach Anspruch 7, dadurch gekennzeichnet, dass der Schwellwert um mindestens 10 dB oberhalb des natürlichen Messgrundrauschen bestimmt und/oder das der Schwellwert um mindestens 10 dB niedriger als das Betrags-Maximum der durch die jeweilige kopfbezogene Übertragungsfunktion bestimmten Impulsantwort ist (Schritt 110).
  9. Verfahren (100) nach Anspruch 8, dadurch gekennzeichnet, dass der Schwellwert im mittleren Bereich einer Messdynamik liegt (Schritt 110).
  10. Verfahren (100) nach Anspruch 6, dadurch gekennzeichnet, dass das Onset-Verfahren so eingestellt wird, dass ein prozentualer Wert vom Betrags-Maximum der durch die jeweilige kopfbezogene Übertragungsfunktion bestimmten Impulsantwort als Onset detektiert wird, insbesondere als ein zwischen 10% und 90% liegender Wert detektiert wird (Schritt 110).
  11. Vorrichtung zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, wobei die Vorrichtung zur Erzeugung räumlich wahrnehmbarer binauraler Audiosignale (L*, R*) umfasst:
    eine erste Schaltung (A), die aus kopfbezogenen Übertragungsfunktionen (xRIR), die verschiedenen Kopfpositionen (1...k) zugeordnet sind, interaurale Laufzeiten (TL, TR) extrahiert und daraus Laufzeit-Differenzen (ITD) berechnet;
    eine zweite Schaltung (BB), die mittels einer Binauralsynthese laufzeitbefreite Audiosignale (L', R') erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei diese Schaltung in Abhängigkeit von Kopfpositions-Daten (HTDAT) die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xRIR*) für eine aktuelle Kopfposition (1...k) verwendet; gekennzeichnet durch
    mindestens eine dritte Schaltung (BA*; C*), die aus den laufzeitbefreiten Audiosignalen (L', R') die individuell anpassbaren binauralen Audiosignale (L*, R*) erzeugt, indem diese Schaltung zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal (L') mit einer zeitlichen Verzögerung (VDL) in Abhängigkeit von der für die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und in Abhängigkeit eines individuellen Skalierungsfaktors (ISF) beaufschlagt,
    wobei die mindestens eine dritte Schaltung (BA*; C*) bei einer auftretenden Änderung von einer vorherigen Kopfposition (k=1) in die aktuelle Kopfposition (k=2) die zeitliche Verzögerung (VDL) zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion (SRC) verändert, wobei die Abtastratenkonversion einen Konversionsfaktor verwendet um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen, und
    den für die Abtastratenkonversion (SRC) verwendeten Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt.
EP10197378.2A 2010-01-07 2010-12-30 Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale Active EP2357854B1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
HRP20160279TT HRP20160279T1 (hr) 2010-01-07 2016-03-18 Postupak i uređaj za generiranje individualno prilagodljivog binauralnog audio signala

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102010004171 2010-01-07

Publications (2)

Publication Number Publication Date
EP2357854A1 EP2357854A1 (de) 2011-08-17
EP2357854B1 true EP2357854B1 (de) 2016-03-09

Family

ID=43759806

Family Applications (1)

Application Number Title Priority Date Filing Date
EP10197378.2A Active EP2357854B1 (de) 2010-01-07 2010-12-30 Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale

Country Status (5)

Country Link
EP (1) EP2357854B1 (de)
ES (1) ES2571044T3 (de)
HR (1) HRP20160279T1 (de)
HU (1) HUE028661T2 (de)
PL (1) PL2357854T3 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12028701B2 (en) 2023-02-06 2024-07-02 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3090576B1 (de) 2014-01-03 2017-10-18 Dolby Laboratories Licensing Corporation Verfahren und vorrichtung für die erstellung und die anwendung numerisch optimierter binauraler raumimpulsantworten
CN112954582A (zh) 2016-06-21 2021-06-11 杜比实验室特许公司 用于预渲染的双耳音频的头部跟踪
US9848273B1 (en) 2016-10-21 2017-12-19 Starkey Laboratories, Inc. Head related transfer function individualization for hearing device
GB2601805A (en) * 2020-12-11 2022-06-15 Nokia Technologies Oy Apparatus, Methods and Computer Programs for Providing Spatial Audio
CN113821190B (zh) * 2021-11-25 2022-03-15 广州酷狗计算机科技有限公司 音频播放方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6118875A (en) 1994-02-25 2000-09-12 Moeller; Henrik Binaural synthesis, head-related transfer functions, and uses thereof
US7174229B1 (en) 1998-11-13 2007-02-06 Agere Systems Inc. Method and apparatus for processing interaural time delay in 3D digital audio
GB2351213B (en) 1999-05-29 2003-08-27 Central Research Lab Ltd A method of modifying one or more original head related transfer functions
GB2369976A (en) 2000-12-06 2002-06-12 Central Research Lab Ltd A method of synthesising an averaged diffuse-field head-related transfer function
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12028701B2 (en) 2023-02-06 2024-07-02 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses

Also Published As

Publication number Publication date
ES2571044T3 (es) 2016-05-23
EP2357854A1 (de) 2011-08-17
PL2357854T3 (pl) 2016-09-30
HUE028661T2 (en) 2016-12-28
HRP20160279T1 (hr) 2016-04-22

Similar Documents

Publication Publication Date Title
EP3069530B1 (de) Verfahren und vorrichtung zum komprimieren und dekomprimieren von schallfelddaten eines gebiets
DE4328620C1 (de) Verfahren zur Simulation eines Raum- und/oder Klangeindrucks
DE102006050068B4 (de) Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
EP1977626B1 (de) Verfahren zur aufnahme einer tonquelle mit zeitlich variabler richtcharakteristik und zur wiedergabe
EP1520447B1 (de) Verfahren und vorrichtung zur erzeugung von daten über die gegenseitige lage von mindestens drei schallwandlern
EP1671516B1 (de) Vorrichtung und verfahren zum erzeugen eines tieftonkanals
DE602005005186T2 (de) Verfahren und system zur schallquellen-trennung
EP1576847B1 (de) Audiowiedergabesystem und verfahren zum wiedergeben eines audiosignals
EP2357854B1 (de) Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale
Lindau et al. Individualization of dynamic binaural synthesis by real time manipulation of ITD
WO2014187877A2 (de) Mischpult, tonsignalerzeuger, verfahren und computerprogramm zum bereitstellen eines tonsignals
EP1637012A1 (de) Wellenfeldsynthesevorrichtung und verfahren zum treiben eines arrays von lautsprechern
AT394650B (de) Elektroakustische anordnung zur wiedergabe stereophoner binauraler audiosignale ueber kopfhoerer
EP1972181B1 (de) Vorrichtung und verfahren zur simulation von wfs-systemen und kompensation von klangbeeinflussenden wfs-eigenschaften
EP2891334B1 (de) Erzeugung von mehrkanalton aus stereo-audiosignalen
EP3044972B1 (de) Vorrichtung, verfahren und computerprogramm zur dekorrelation von lautsprechersignalen
DE10321980B4 (de) Vorrichtung und Verfahren zum Berechnen eines diskreten Werts einer Komponente in einem Lautsprechersignal
DE10254470B4 (de) Vorrichtung und Verfahren zum Bestimmen einer Impulsantwort und Vorrichtung und Verfahren zum Vorführen eines Audiostücks
EP1471770B1 (de) Verfahren zur Erzeugung einer angenäherten Teilübertragungsfunktion
DE112006002548T5 (de) Vorrichtung und Verfahren zur Wiedergabe von virtuellem Zweikanal-Ton
EP1123638B1 (de) Vorrichtung und verfahren zur qualitätsbeurteilung von mehrkanaligen audiosignalen
DE102011003450A1 (de) Erzeugung von benutzerangepassten Signalverarbeitungsparametern
DE102019217189A1 (de) Wellenfeldverarbeitungsverfahren
EP2503799B1 (de) Verfahren und System zur Berechnung synthetischer Außenohrübertragungsfunktionen durch virtuelle lokale Schallfeldsynthese
AT413010B (de) Vorrichtung zur herleitung von räumlichen schallsignalen

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

17P Request for examination filed

Effective date: 20120216

17Q First examination report despatched

Effective date: 20140103

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20150922

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: DEUTSCHE TELEKOM AG

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 780258

Country of ref document: AT

Kind code of ref document: T

Effective date: 20160315

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: HR

Ref legal event code: TUEP

Ref document number: P20160279

Country of ref document: HR

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502010011179

Country of ref document: DE

REG Reference to a national code

Ref country code: HR

Ref legal event code: T1PR

Ref document number: P20160279

Country of ref document: HR

REG Reference to a national code

Ref country code: SE

Ref legal event code: TRGR

REG Reference to a national code

Ref country code: NO

Ref legal event code: T2

Effective date: 20160309

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2571044

Country of ref document: ES

Kind code of ref document: T3

Effective date: 20160523

REG Reference to a national code

Ref country code: NL

Ref legal event code: FP

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160610

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

REG Reference to a national code

Ref country code: SK

Ref legal event code: T3

Ref document number: E 21058

Country of ref document: SK

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160709

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160711

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502010011179

Country of ref document: DE

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 7

REG Reference to a national code

Ref country code: HU

Ref legal event code: AG4A

Ref document number: E028661

Country of ref document: HU

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

26N No opposition filed

Effective date: 20161212

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20161230

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20161230

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 8

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160309

REG Reference to a national code

Ref country code: HR

Ref legal event code: ODRP

Ref document number: P20160279

Country of ref document: HR

Payment date: 20181220

Year of fee payment: 9

REG Reference to a national code

Ref country code: HR

Ref legal event code: ODRP

Ref document number: P20160279

Country of ref document: HR

Payment date: 20191220

Year of fee payment: 10

REG Reference to a national code

Ref country code: HR

Ref legal event code: ODRP

Ref document number: P20160279

Country of ref document: HR

Payment date: 20201221

Year of fee payment: 11

REG Reference to a national code

Ref country code: HR

Ref legal event code: ODRP

Ref document number: P20160279

Country of ref document: HR

Payment date: 20211223

Year of fee payment: 12

REG Reference to a national code

Ref country code: HR

Ref legal event code: ODRP

Ref document number: P20160279

Country of ref document: HR

Payment date: 20221227

Year of fee payment: 13

REG Reference to a national code

Ref country code: HR

Ref legal event code: ODRP

Ref document number: P20160279

Country of ref document: HR

Payment date: 20231227

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: SK

Payment date: 20231213

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20231212

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: SE

Payment date: 20231212

Year of fee payment: 14

Ref country code: NO

Payment date: 20231218

Year of fee payment: 14

Ref country code: NL

Payment date: 20231219

Year of fee payment: 14

Ref country code: HU

Payment date: 20231231

Year of fee payment: 14

Ref country code: HR

Payment date: 20231227

Year of fee payment: 14

Ref country code: FR

Payment date: 20231212

Year of fee payment: 14

Ref country code: DE

Payment date: 20231212

Year of fee payment: 14

Ref country code: CZ

Payment date: 20231213

Year of fee payment: 14

Ref country code: BG

Payment date: 20231212

Year of fee payment: 14

Ref country code: AT

Payment date: 20231213

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: PL

Payment date: 20231213

Year of fee payment: 14

Ref country code: BE

Payment date: 20231218

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20240118

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: CH

Payment date: 20240110

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: TR

Payment date: 20231221

Year of fee payment: 14

Ref country code: IT

Payment date: 20231229

Year of fee payment: 14