EP2357854B1 - Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale - Google Patents
Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale Download PDFInfo
- Publication number
- EP2357854B1 EP2357854B1 EP10197378.2A EP10197378A EP2357854B1 EP 2357854 B1 EP2357854 B1 EP 2357854B1 EP 10197378 A EP10197378 A EP 10197378A EP 2357854 B1 EP2357854 B1 EP 2357854B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- head
- transit time
- itd
- freed
- head position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 103
- 230000005236 sound signal Effects 0.000 title claims description 50
- 230000006870 function Effects 0.000 claims description 54
- 238000012546 transfer Methods 0.000 claims description 50
- 230000004044 response Effects 0.000 claims description 37
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 230000008859 change Effects 0.000 claims description 18
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 4
- 210000003128 head Anatomy 0.000 description 83
- 230000008569 process Effects 0.000 description 20
- 230000004886 head movement Effects 0.000 description 17
- 230000004807 localization Effects 0.000 description 14
- 238000004088 simulation Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 10
- 238000005562 fading Methods 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 8
- XVOKUMIPKHGGTN-UHFFFAOYSA-N Imazethapyr Chemical compound OC(=O)C1=CC(CC)=CN=C1C1=NC(C)(C(C)C)C(=O)N1 XVOKUMIPKHGGTN-UHFFFAOYSA-N 0.000 description 7
- 239000000872 buffer Substances 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- RXKGHZCQFXXWFQ-UHFFFAOYSA-N 4-ho-mipt Chemical compound C1=CC(O)=C2C(CCN(C)C(C)C)=CNC2=C1 RXKGHZCQFXXWFQ-UHFFFAOYSA-N 0.000 description 5
- 240000006829 Ficus sundaica Species 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 210000000613 ear canal Anatomy 0.000 description 4
- 210000000883 ear external Anatomy 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 210000003454 tympanic membrane Anatomy 0.000 description 4
- 241001136792 Alle Species 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000011065 in-situ storage Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 241000534414 Anotopterus nikparini Species 0.000 description 1
- 241000316887 Saissetia oleae Species 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000000454 anti-cipatory effect Effects 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002845 discoloration Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 210000002023 somite Anatomy 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Definitions
- the invention relates to a method and a device for generating individually adjustable binaural audio signals.
- interaural transit time difference also referred to as ITD or interaural time delay for short
- ILD interaural level difference
- the ITD can only be meaningfully evaluated for the localization within a frequency range up to approx. 1500 Hz, above this ambiguities prevent this evaluation and the level difference ILD increasingly determines the perceived sound incidence direction. Both aspects are partly interchangeable with each other (so-called "runtime intensity trading"), from which, for example, benefits the stereophony, which can be implemented as either maturity, level or mixed stereophony.
- a complete, frequency-dependent description of both the temporal and the spectral information of the sound field is the head-related or outer ear transfer function. It is defined as the ratio of the following transfer functions: On the one hand the transfer function measured on the eardrum of a listener (optionally also on the blocked ear canal input of a Artificial head) and the second of the transfer function of a ball microphone in the center of the head in his absence.
- This so-called head-related transfer function also called HRIR or HRTF for short, where HRIR stands for head-related impulse response and HRTF for head-related transfer function
- HRIR head-related impulse response
- HRTF head-related transfer function
- a method and apparatus for processing interaural time delay (“Method and Apparatus for Interaural Time Delay Processing in 3D Digital Audio") is disclosed in US Pat US 7,174,229 B1 described. In US 6,795,556 Will Modify Head-Related Transfer Function (HRTFs) described. Methods for measuring HRTFs are used in the EP 0912077 B1 or the DE 69523643 T2 described.
- BRIRs or BRTFs binaural room impulse responses or transfer functions
- head-related transfer functions which also include the reverberant room.
- head-related transfer function By means of such a head-related transfer function, one can produce the acoustic impression of so-called virtual sound sources with high plausibility. Namely, if one filters any reverberant-free audio signal with the HRTF of the left and right ear, during playback, e.g. via headphones a sound event with more or less correct direction and distance impression.
- the theory of binaural technique is somewhat simplistic in that the perfect reconstruction of the sound pressure time course on the eardrum, which is possible in this way, leads to the actual hearing of an identical auditory event.
- Each sound path corresponds to a room reflection; by weighting the sound paths with the HRTF of the left and right ear corresponding to the direction of incidence of the sound path and after superposition of all such weighted reflections of the room impulse response results in a binaural spatial impulse response of the virtual space.
- This room can now be made audible by filtering reverberant audio with this BRIR; then one speaks of "auralization".
- the BRIRs can be measured directly in-situ.
- the BRIRs are measured using electroacoustic excitation sources (loudspeakers) and a so-called artificial head torso simulator or robot (also referred to as HATS for short) and head and torso simulator.
- HATS head torso simulator
- Such a robot (HATS) allows an automated and spatially fine measurement of the BRIRs for head movements of a listener due to a replica of the multiple degrees of freedom of the head movement (eg 4 rotational, 3 translational) and can achieve a much higher sound quality and proximity to the original.
- HATS head torso simulator
- Such a robot (HATS) allows an automated and spatially fine measurement of the BRIRs for head movements of a listener due to a replica of the multiple degrees of freedom of the head movement (eg 4 rotational, 3 translational) and can achieve a much higher sound quality and proximity to the original.
- the HATS FABIAN is realized by a software-controlled automatable robot consisting of an outer ear-shaped artificial head and a generically-modeled human body. The robot is used to achieve natural sound field influence (diffraction, shading, reflection) as a result of the actual measurement of the sound field, the two Microphone diaphragms on the blocked ear canal.
- a HAT an improved auralization can be achieved.
- a further improvement by increasing the plausibility of binaural room acoustic simulation arises when the interactivity of the listener is taken into account, i. when the reaction of the simulation to head movements of the listener is taken into account. It would be desirable if any intentional or unconscious head movement could be compensated for, thus contributing to a plausible and error-free spatial hearing. For this, however, the head-related transfer functions must be present as HRTFs or BRIRs for each head position of the listener to be taken into account in a later auralization (possibly with regard to different translatory and rotational degrees of freedom).
- the object is achieved by a method having the features of claim 1 and by a device having the features of the independent claim.
- head-related transfer functions e.g. BRIRs extract the interaural transit times to obtain transit time-free transfer functions and calculate from the extracted transit times travel time differences to be used in a later step along with an individual scaling factor to impose audio signals dependent on binaural synthesis the current head position were generated by means of the runtime-freed transfer functions.
- the head-related transfer functions are freed from the interaural transit times related to a particular anthropometry (eg, an artificial head) and run-time-freed audio signals are generated by binaural synthesis followed by a time delay that is individually weighted ( Scaling factor), with the appropriate for the respective person or user runtimes acted upon, so that a significantly improved spatial hearing can be achieved.
- the time delay corresponds to a value calculated from the weighting of the time difference calculated for the current head position and the individual scaling factor.
- the method is dynamically designed by changing from a previous header position to a change occurring the current head position is adaptively changed the time delay between a first value and a second value by means of a sample rate conversion (SRC).
- SRC sample rate conversion
- the sampling rate conversion uses a conversion factor to accelerate or decelerate the time-lapsed audio signal by the conversion factor, and the conversion factor used for the sample rate conversion is determined according to the change from the time delay associated with the previous and current head positions.
- the method can be used to calculate the runtime-free head-related transfer functions for a plurality of head positions and / or for a plurality of audio signal sources.
- the plurality of head positions it may be e.g. the resolution of the viewing direction in small angle changes or steps, e.g. 1 degree, act.
- the number of sources can be very large, generating an audio signal per source and for each signal path (left and right ear canal). These can then be superpositioned for each signal path after the individual weighting (delay delay).
- the extraction of the interaural transit times from the head-related transfer functions carried out at the beginning of the procedure can be carried out, for example, by means of one of the following methods: onset method, interaural cross-correlation method, frequency-dependent group delay time difference formation, subtraction of the frequency-dependent linearly approximated phase gradient or determination of the excess phase component from division of the Ü functions before and after Hilbert transformation.
- onset method interaural cross-correlation method
- frequency-dependent group delay time difference formation subtraction of the frequency-dependent linearly approximated phase gradient or determination of the excess phase component from division of the Ü functions before and after Hilbert transformation.
- the onset method leads to very good results, which will be described in detail later.
- the invention advantageously solves the problem that, in auralization procedures, normally the head-related transfer functions HRTFs or BRIRs are always valid only for the anthropometry of a particular individual or for a particular artificial head, thereby eliminating individual differences, e.g. those of the head diameter are not exactly represented by the propagation time information contained in the transfer functions, which means that other listeners, ie "foreign" persons, a more or less strongly distorted perception of localization and - in head movements - the sensation of a naturally non-existent, spatial movement of the audio signals (localization instability) experience.
- the invention avoids localization errors due to a wrong head diameter (deviation from the artificial head).
- a side aspect of the chosen approach (runtime exemption and quasi-minimal-phase cross-fading) also result in significant improvements in terms of latency aspects and the audible errors in the cross-fading in head movements.
- the invention also reduces the normally occurring fading errors ("stuttering"), which arise because during a real-time exchange of the HRTFs or BRIRs filters with runtime offsets are blended into one another.
- This temporal "missalignment” leads to typical comb filter-like fading artefacts, which appear clearly and disturbingly especially in the case of quasi-stationary contents (in the case of speech applications, eg in the case of vowels, in music, for example, in "string carpets”).
- the invention reduces these fading errors by the transition of the transfer functions and the insertion of runtime differences in the Binauralsynthese temporally successive and not - as usual - take place at the same time.
- a second step 120 binaural synthesis is carried out by means of the propagation time-freed transfer functions in order to generate runtime-freed audio signals L 'and R', respectively. This will be explained in more detail on the basis of Fig. 5a / b described. The per se known Binauralsynthese is still based on the Fig. 4a / b described.
- a real-time synthesis is performed to individually apply a scalable time delay to the first audio signals. This will be even closer to the Fig. 3 such as Fig. 5a / b described.
- the circuit A comprises a plurality of functional blocks 111 to 117, each having a sub-step of the step sequence 110 (s. Fig. 1 ).
- the Fig. 2 thus illustrates pre-processing of the impulse response data sets, wherein an almost inaudibly accurate extraction of the ITD from empirical HRTF / BRIR data sets can be achieved by onset detection.
- normal transfer functions BRIR (alternatively also HRIR) are read from a database. Then an oversampling follows by an amount that allows a more than accurate extraction of the runtimes from the impulse responses (eg 10 times with respect to a common audio sample rate of 44.1 or 48kHz) in block 112. Thereafter, in block 113, the onsets (start the audio signals or data) are found. Subsequently, in block 114, the length of the onset-freed (quasi-minimal-phase) impulse response is determined and applied in a block 115 as a vector.
- BRIR alternatively also HRIR
- sub-sampling in block 116 results in block 117 in transfer-term-free transfer functions and the extracted transit times, which are calculated and stored as transit time differences ITD.
- descriptive metadata records can be added to DSI. That on the basis of Fig. 2 illustrated method uses the onset method for determining the runtime-released impulse responses. This will be discussed later.
- the interaural transit time difference results as the difference between the transit times of the HRTF and BRIR of the left and right ear. These transit times are again given as the sum of the linear-phase (pure delay component) and the allpass-containing (frequency-dependent phase shift distortion without spectral distortions) the so-called excess phase component.
- x excess n x linear n + x allpass n
- the interaural transit time difference ITD is frequency-dependent. However, the proportion that is essential for correct localization ( ⁇ 1500 Hz) is relatively constant and can be extracted more or less artifact-free. As a method is particularly suitable onset detection, as it is based on the Fig. 2 is illustrated. Alternatively, the determination of the excess phase component by using the Hilbert transformation, frequency-domain-specific phase gradient matching, maximum of the interaural cross-correlation or the frequency-domain-specific determination of the interaural group delay difference is also suitable.
- the onset method is accurate enough (compare cross-correlation methods), robust enough (compare phase gradient methods), applicable (compare group delay time difference method) and true to tone color (compare Hilbert method). Intrinsically conditioned, the onset method also conserves possible allpass components of the BRIRs in an advantageous manner; they are not lost, but remain in the runtime-free spectra, which are therefore referred to here as quasi-minimal phase.
- quasi-minimal phase In formal and criteria-free listening experiments it was confirmed that in the resynthesis of the extracted transit times and the quasi-minimal-phase spectra, as expected, no localization errors occur even with contralateral sound incidence. Further formal listening tests showed that the changes in the reverberation structure due to the Hilbert transformation are audible in every case.
- the head-related transfer functions are freed from the terms.
- both can then be fed separately to the resynthesis, with a scalable and tailored to the individual resynthesis can be performed (s. Fig. 3 and Fig. 5a / b ).
- Advantages of this are latency reduction and a shortening of the HRTFs to be kept (if these, as previously implicitly implemented as FIR filters) are just the extracted runtime.
- the HRTFs can also be generated as infinite impulse response (IIR) filters, either by modeling / estimating measured HRTFs, which are always compulsory as FIR (finite impulse response) filters, or by parametric modeling of essential features.
- IIR infinite impulse response
- the method described here is applicable in principle to any head-related transfer functions generated. However, it is described here using the example of empirical HRTF / BRIR data sets present as FIR filters, as described, for example, in US Pat. with the robot mentioned at the outset (HATS FABIAN, see Lindau et al., 2007).
- the algorithms of the invention described below relate by way of example to the use of BRIR data sets that can be obtained with such a robot.
- the method is not limited to these data sets, but applicable to any auralization that realize spatial sound localization by filtering head related impulse responses with audio signals.
- the method 100 includes in a preprocessing step 110 (see FIG. Fig. 1 as well as subblocks in Fig. 2 ) and a real-time resynthesis step 130 (see FIG. Fig. 1 and also Fig. 3 ), which corresponds to a dynamic binaural synthesis algorithm or step 120 (see FIG. Fig. 1 and also Fig. 4a / b ) (see Fig. 5a / b ).
- the onset method is the most suitable method among extraction methods.
- the other methods showed less robustness in empirical data sets of binaural room impulse responses.
- the Hilbert method also seems to be unsuitable, since it changes due to the inherent energy compaction in the direction of the beginning of the impulse response, the contained reflection structure of the room sound field in any audible extent.
- the inventors were able to make this plausible on the basis of auditor model numerical preliminary tests and a formal listening test.
- the onset method is set so that the natural measurement background noise (typically about -50 to -90 dB relative to the magnitude maximum value of the impulse response) is determined and then a threshold is chosen well above it (eg 15 dB higher, ie -35dB rel ).
- the impulse response data set is then searched by machine and in each case from the beginning of the impulse responses and calculated on the basis of the times of crossing the threshold criterion in the left and right channels of the HRTF / BRIR by subtraction of the ITD (see formula 3).
- the runtimes are removed and the now runtime-free impulse responses are saved again (block 117).
- the onset method is applied to the 10-times oversampled time signal, thus obtaining a discretization of the ITD in 2.3 ⁇ s steps. This resolution is about one fifth of the ITD threshold that is just noticeable.
- the thus extracted runtime or time difference ITD can now be in a text-based List format (eg * .txt, * .csv, * .xml) machine-readable to the run-time freed record.
- This processing is performed in a first circuit A, which is part of the device (see FIG. Fig. 5a / b ).
- jack audio server In order to modify the convolution process or to customize the runtime, it is preferable to use a so-called "jack audio server” architecture and thus implement an independent plug-in.
- Functionally identical solutions can also be realized, for example, from arrangements of special DSP hardware or by means of methods in the context of the VST plug-in architecture (ie based on the VST interface).
- the computer-controlled device eg PC
- it After starting the computer-controlled device (eg PC), it reads in a configuration file, a record description file and then the text-based list of the ITDs of the BRIR data record that is currently auralized by the classical convolution process.
- the missing transit time difference can now be inserted as head position-specific delay time VDL and without audible artifacts in one of the two audio channels.
- the individualization process reads the head movement data as a data stream of the head tracker HTDAT (eg via an IP-based transport protocol), which it also sends to the folding process as before.
- the latter During the initialization of the individualization process, the latter must realize the first effective interaural transit time difference, determined by the initial head position, by a time-delayed or anticipatory playback by a fixed amount.
- the simplicity wg. the first time difference can be assumed to be 0, and the first conversion factor can be assumed to be 1, for example.
- the fractional ratio formation of the audio block length with the audio block length corrected by the amount of change in the time differences results in a ratio that can be used as a conversion factor in a real-time sample rate conversion algorithm of the highest audio quality. This achieves the adaptation of the changed delay values by a conversion factor that is accelerated or delayed by the conversion factor, in which it interpolates from the present signal new samples at other times corresponding to a higher or lower sampling rate and outputs them instead.
- the table size of the interpolator low pass can be estimated by suitable formulas. It uses a high-quality, band-limited floating-point interpolator based on an analytically described sinc function with a worst-case signal-to-noise ratio of 97 dB and a bandwidth of 97%.
- the actual conversion factor per audio block to be processed can be determined in each case using the difference between the ITD belonging to the previous and the current head position.
- An always available software library allows an inaudible and continuous change of the conversion factor, so that the respective head position corresponding delay difference can be resynthesized correctly.
- sampling rate conversion ratio fs new / fs old ( ⁇ 1 or> 1)
- sample rate conversion requires fewer or more samples than the underlying current block size.
- Another approach is based on a prediction of the individual correction value based on an anthropometric measure. Preliminary examinations were performed with several subjects. In this case, a listening test was performed according to the above-mentioned acoustic scenery; In addition to the virtual source, however, the subjects were able to hear the real sound source. The goal was to change the conversion factor To set the simulation so that when switching between simulation and reality found the best possible match. This experiment was repeated 10 times per subject. In addition, four measures of the head considered appropriate were taken by each person. Next, the prediction of the individual scaling factor averages from the head dimensions was checked by multiple linear regression.
- the variability of the scaling factor within the sample was ⁇ 4%, ie in the non-individualized case a worst-case error of up to 8% of the ITD could have occurred.
- the individual forecast halves or quarters (at best) this error.
- An error of 1.25% of the ITD corresponds to a localization error of just over 1 ° and is thus (again: in the most favorable case) already almost in the range of the currently perceivable change in the local salience.
- the invention makes it possible to achieve numerous improvements, such as the advantage of error-free cross-fading, the latency minimization, the Doppler effect. Also worth mentioning is the choice of band-limited interpolation for sample rate conversion during generation the variable ITD, the real-time capability of the ITD manipulation, the inaudible extraction method and the plug-in architecture. Likewise, important aspects, such as the effective and separate reduction and interpolation of ITD and ILD (ie HRTF / BRIR spectra), should be emphasized.
- the individual adaptation of the runtime-freed ITDs to the respective individual can be done by scaling the respective current conversion factor in the context of a sample rate conversion, which enables dynamic adaptation when the head position is changed. If a static condition occurs, i. If the head position does not change, a static adaptation of the ITDs (automatic) is also possible. Or customization is done by scaling the ITDs associated with the previous and current head positions before calculating the (unscaled) conversion factor.
- the individualization and adaptation of the transit time difference ITD * resulting between the output signals L * and R * can be achieved by scaling the respective current conversion factor (application of the factor ISF to the block VDL / SRC; Fig. 5a / b ).
- the individualization and adaptation of the transit time difference ITD * resulting between the output signals L * and R * can be achieved by scaling the transit time differences (ITD) corresponding to the travel-time-free head-related transfer functions (xBIR *).
- the invention can be used in many applications.
- the proposed method can be a substantial improvement of all existing real-time applications for binaural (room) acoustic simulation (3D Virtual Auditory Displays in General, Spatial Acoustics in Computer Games, Virtual Chat Rooms, Binaural Guidance & Alerting Systems, Binaural Walkthroughs Through virtual architecture or through multimodal media shows).
- Possible applications are the subsequent addition of commercial 3D audio APIs.
- the receiver side a multi-media PC presuppose such.
- binaural teleconferencing via VoIP or binaural streaming of live concerts can gain significantly in perceptible quality.
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Description
- Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale.
- Die Realisierung plausibler oder gar authentischer virtueller akustischer Umgebungen ist seit längerer Zeit Ziel technischer Entwicklung im Bereich binauraler Audiosysteme und -verfahren. Diese Verfahren zielen auf die Erzeugung eines möglichst naturgetreuen räumlichen Höreindrucks beim Hörer (Nutzer, Versuchsperson, Patient usw.). Die wesentlichen Parameter bzw. sog. cues (Hinweise) für räumliches Hörens stellen -richtungs- und frequenzabhängige Laufzeit- und Pegeldifferenzen dar, die die Schallsignale einer Quelle beim Eintreffen an beiden Ohren bzw. den Trommelfellen eines Hörers aufweisen. Hierzu sei verwiesen auf die sog. Duplextheorie des Hörens nach Lord Rayleigh.
- Diese Parameter müssen von einem System zur Simulation virtueller (Raum-)Akustik (auch kurz VAE bzw. virtual acoustic environment genannt) korrekt hergestellt werden können. Im Allgemeinen spricht man dabei von der interauralen Laufzeitdifferenz (auch kurz ITD bzw. interaural time delay genannt) oder von der interauralen Pegeldifferenz (auch kurz ILD bzw. interaural level difference genannt). Letztere ist im Wesentlichen auf den Kopf als Hindernis bei der Schallausbreitung zurückzuführen, feinere Unterschiede lassen sich auf die spezifische Form der Außenohren zurückführen. Die interaurale Laufzeitdifferenz ITD ergibt sich dagegen hauptsächlich aus dem geometrischen Abstand beider Ohren, welcher positionsabhängig zu unterschiedlichen Eintreffzeitpunkten des Schalls einer Quelle an den Trommelfellen führt. Die ITD lässt sich nur innerhalb eines Frequenzbereichs bis ca. 1500 Hz sinnvoll für die Lokalisation auswerten, oberhalb davon verhindern Ambiguitäten diese Auswertung und die Pegeldifferenz ILD bestimmt zunehmend die wahrgenommene Schalleinfallsrichtung. Beide Aspekte sind teilweise gegeneinander austauschbar (sog. "Laufzeit-Intensitäts-Trading"), wovon z.B. die Stereofonie profitiert, die so wahlweise als Laufzeit-, Pegel- oder gemischte Stereofonie realisierbar ist.
- Eine vollständige, frequenzabhängige Beschreibung sowohl der zeitlichen als auch der spektralen Informationen des Schallfelds stellt die kopfbezogene oder Außenohr-Übertragungsfunktion dar. Sie ist definiert als das Verhältnis der folgenden Übertragungsfunktionen: Zum einen der Übertragungsfunktion gemessen am Trommelfell eines Hörers (wahlweise auch am geblockten Ohrkanaleingang eines Kunstkopfes) und zum zweiten der Übertragungsfunktion eines Kugelmikrofons in Kopfmitte bei dessen Abwesenheit. Diese sogenannte kopfbezogenen Übertragungsfunktion (auch kurz HRIR bzw. HRTF genannt, wobei HRIR für head related impulse response und HRTF für head related transfer function stehen) ist per Definition nachhallfrei. In der
GB-A-2 369 976 US 7,174,229 B1 beschrieben. InUS 6,795,556 wird die Modifizierung von kopfbezogenen Übertragungsfunktion (HRTFs) beschrieben. Verfahren zur Messung von HRTFs werden in derEP 0912077 B1 oder derDE 69523643 T2 beschrieben. - Werden hingegen Kunstkopfübertragungsfunktionen einer elektro-akustischen Quelle in einem nachhallbehafteten Raumschallfeld vermessen, so spricht man unterscheidend dazu von BRIRs oder BRTFs (binaural room impulse responses bzw. transfer functions), also von kopfbezogenen Übertragungsfunktionen, die auch den nachhallenden Raum mit umfassen. Mittels einer solchen kopfbezogenen Übertragungsfunktion kann man den akustischen Eindruck sog. virtueller Schallquellen mit hoher Plausibilität erzeugen. Filtert man nämlich ein beliebiges nachhallfreien Audiosignal mit den HRTF des linken und rechten Ohres, stellt sich bei der Wiedergabe z.B. über Kopfhörer ein Schallereignis mit mehr oder minder korrektem Richtungs- und Entfernungseindruck ein. Etwas vereinfachend besagt die Theorie der Binauraltechnik, dass die auf diese Weise mögliche, perfekte Rekonstruktion des Schalldruckzeitverlaufs am Trommelfell zu einem, dem realen Hören eines identischen Hörereignisses führt.
- An sich bekannt sind rechnerbezogene Verfahren und Systeme für numerische Raumakustiksimulation, die Datenbanken mit HRTF-Datensätzen eines individuell vermessenen Hörers oder eines Kunstkopfes in hoher räumlicher Winkelauflösung aufweisen und die das Berechnen der vollständigen Raumimpulsantwort an ausgewählten Hörerplätzen ermöglichen, jedoch idealerweise nur für diesen individuellen Hörer oder für einen Hörer, dessen Physiognomie bzw. Anthropometrie nur unwesentlich von der des verwendeten Kunstkopfes abweicht. Dazu werden, vereinfacht gesagt, unter Verwendung eines Strahlenmodells aus der Optik, mögliche Schallpfade von der Quelle zum Hörer nachgebildet. Jeder Schallpfad entspricht einer Raumreflexion; durch Gewichtung der Schallpfade mit der der Einfallsrichtung des Schallpfads entsprechenden HRTF des linken und rechten Ohres und nach Superpositionierung aller derart gewichteten Reflexionen der Raumimpulsantwort ergibt sich eine binaurale Raumimpulsantwort des virtuellen Raums. Dieser Raum kann nun durch Filterung nachhallfreien Audiomaterials mit dieser BRIR hörbar gemacht werden; man spricht dann auch von "Auralisation".
- Alternativ dazu können auch die BRIRs direkt in-situ gemessen werden. Dazu werden die BRIRs unter Verwendung elektroakustischer Anregequellen (Lautsprecher) und eines sog. Kunstkopf-Torsosimulators bzw. Roboters (auch kurz als HATS bezeichnet; head and torso simulator) vermessen. Ein solcher Roboter (HATS) ermöglicht aufgrund einer Nachbildung der multiplen Freiheitsgrade der Kopfbewegung (z.B. 4 rotatorische, 3 translatorische) eine automatisierte und räumlich feine Vermessung der BRIRs für Kopfbewegungen eines Hörers und kann eine deutlich höhere Klangqualität und Nähe zum Original erzielen. In dem Artikel Lindau, A.; Weinzierl, S. (2007): "Fabian - Schnelle Erfassung binauraler Raumimpulsantworten in mehreren Freiheitsgraden." von A. Lindau und S. Weinzierl, erschienen in "Fortschritte der Akustik", Tagungsband der 33. DAGA Stuttgart, Deutschland, wird eine solche Technologie unter der Bezeichnung FABIAN vorgestellt. Der HATS FABIAN wird durch einen Softwaregesteuerten automatisierbaren Roboter realisiert, der aus einem mit Außenohren abgeformtem Kunstkopf und generisch nachempfundenem menschlichem Körper besteht. Der Roboter dient zum Erreichen natürlicher Schallfeldbeeinflussung (Beugung, Abschattung, Reflektion) als Resultat am Ort der eigentlichen Messung des Schallfelds, der beiden Mikrofonmembranen am geblockten Ohrkanal. Durch Verwendung eines solchen HATS kann eine verbesserte Auralisation erreicht werden.
- Eine weitere Verbesserung durch Erhöhung der Plausibilität binauraler raumakustischer Simulation ergibt sich, wenn die Interaktivität des Hörers berücksichtigt wird, d.h. wenn das Reagieren der Simulation auf Kopfbewegungen des Hörers berücksichtig wird. Wünschenswert wäre es, wenn jedwede gewollte oder unbewusste Kopfbewegung kompensiert werden könnte, um somit zu einem plausiblen und fehlerfreien räumlichen Hören beizutragen. Dazu müssten jedoch für jede in einer späteren Auralisation zu berücksichtigenden Kopfstellung des Hörers (evtl. bzgl. verschiedener translatorischer und rotatorischer Freiheitsgrade) die kopfbezogenen Übertragungsfunktionen als HRTFs bzw. BRIRs vorliegen. Bekannt ist bereits, eine auf moderner Computerhardware ausgeführte Implementation echtzeitfähiger, zeitvarianter schneller Faltungsalgorithmen, die den Kopfbewegungen des Hörers (durch sog. head tracking) folgend, die HRTFs oder BRIRs unhörbar schnell austauschen, so dass sich z.B. im Falle von HRTFs relative Bewegungen zwischen Quelle und Empfänger oder im Falle von BRIRs ein Raumschallfeld, welches sich bei Kopfbewegungen nicht mehr "mitdreht" simulieren lassen. Zudem können auch typische Abbildungsartefakte der sog. statischen Kunstkopftechnik, wie "Vorne-Hinten-Vertauschungen" und "Im-Kopf-Lokalisation", wirkungsvoll eliminiert bzw. reduziert werden.
- In der
US 2006/045294 A1 wird ein Verfahren zur Erzeugung individuell anpassbarer Audiosignale beschrieben, bei dem ein Hörer (listener) den Klang von virtuellen Lautsprechern über Kopfhörer mit einem realitätsnahen Höreindruck erleben kann, der schwer von dem Höreindruck echter Lautsprecher zu unterscheiden ist. Dazu werden mehrere personalisierte Raumimpulsantworten (PRIRs) für die Lautsprecher-Schallquellen über eine begrenzte Anzahl von Zuhörer-Kopfpositionen ermittelt. Dann werden die PRIRs verwendet, um ein Audiosignal für die Lautsprecher in eine virtualisierte Ausgabe für den Kopfhörer zu wandeln bzw. zu transformieren. Indem die Transformation auf der Kopfposition des Hörers (listeners) basiert, kann das System die Transformation so anpassen, dass die virtuellen Lautsprecher sich nicht zu bewegen scheinen, wenn der Hörer seinen Kopf bewegt. - Der Artikel "Finding the onset of a room impulse response: Straightforward?" von G. Defrance et al., erschienen in "The Journal of the Acoustical Society of America (JASA)", Band 124(4), Seiten 248-254, Ausgabe Oct. 2008, Online publiziert am 24. Sep. 2008, befasst sich mit der genauen Bestimmung des Onset (Beginn der Audiosignale bzw. - daten) in Bezug auf die zeitliche Dimension (timing) der räumlichen Impulsantworten (room impuls responses: RIRs).
- In der
US 7174229 B1 werden ein Verfahren und eine Vorrichtung zur Verarbeitung interauraler Zeitverzögerung in 3D digitalen Audiosignalen bzw. -daten beschrieben. Für das Wiedereinbringen extrahierter oder modellierter ITDs in HRTF-Datensätzen (keine Räume) wird allerdings ein umständliches zweistufiges Delay aus samplegenauen FIFO-Puffern und fraktionalen Allpassfiltern (Auftrennung von sample- und subsample-delay) verwendet. Somit benötigt dieser Vorschlag eine ungenannte Anzahl von expilizit für jede fraktionale Zeiteinheit entworfener Filter, die z.B. durch Parallelschaltung realisiert werden und durch Anwahl mit einem Schalter selektierbar gemacht werden müssen. - In der
US 6795556 wird ein Verfahren beschrieben, das auf eine Skalierung von empirischen "non standard" HRTF-Cues abzielt, sowohl im Zeit- als auch im Frequenzbereich ab. Auch dieses Verfahren geht nicht über das zuvor beschriebene hinaus. - Obwohl die bekannten Verfahren und Vorrichtungen bereits mittels datenbasierter, dynamischer binauraler Simulation eine hochplausible Simulation von Raumakustik ermöglichen, bestehen noch viele Herausforderungen, um zu einer perzeptiven Perfektionierung gelangen zu können. Hier sind insbesondere folgende Aufgabenbereiche zu nennen:
- Die Wahrnehmbarkeit von Latenz bei der Verarbeitung der Kopfbewegung, die minimal notwendige Granularität des Gridrasters der BRIRs bzgl. Kopfbewegungen in allen rotatorischen Freiheitsgraden, die biskriminierbarkeit räumlich getrennter Quellen, beschleunigte BRIR-Messverfahren, die Simulation natürlicher Quellrichtcharakteristika (Sprecher, Instrumente) und/oder die optimale Frequenzgangsentzerrung der Wiedergabestrecke.
- Im Kreise der Erfinder wurde eine Evaluation der Simulationsumgebung durch direkten A-B-Vergleich (also Vergleich unter direktem Schalten von einer Quelle zu einer anderen, um einen unbeeinflußten und möglichst objektiven. Vergleich zu ermöglichen) von simuliertem und realem Schallfeld durchgeführt, die neben einer erfreulich geringen Erkennungsrate von 52.6% leider auch eine Anzahl verbleibender perzeptiver Artefakte zeigte, von denen als besonderes prägnante Probleme das Auftreten von Klangverfärbung und Lokalisationsfehler hervortreten.
- Demnach ist es Aufgabe der Erfindung, ein Verfahren der eingangs genannten Art vorzuschlagen, das die zuvor genannten Probleme in vorteilhafter Weise überwindet. Insbesondere soll das Auftreten perzeptiver Artefakte wie beispielsweise von Lokalisationsfehlern, Latenzwahrnehmung oder Überblendungsfehlern eliminiert oder zumindest deutlich reduziert werden. Außerdem soll eine Vorrichtung zur Durchführung des Verfahrens vorgeschlagen werden.
- Gelöst wird die Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1 sowie durch eine Vorrichtung mit den Merkmalen des nebengeordneten Anspruchs.
- Demnach wird ein Verfahren vorgeschlagen, bei dem zur Erzeugung individuell anpassbarer binauraler Audiosignale folgende Schritte ausgeführt werden:
- aus kopfbezogenen Übertragungsfunktionen, die verschiedenen Kopfpositionen zugeordnet sind, werden mittels Extraktion von interauralen Laufzeiten laufzeitbefreite kopfbezogene Übertragungsfunktionen und dazu korrespondierende Laufzeit-Differenzen berechnet;
- mittels einer Binauralsynthese werden laufzeitbefreite Audiosignale erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei in Abhängigkeit von Kopfpositions-Daten die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen für eine aktuelle Kopfposition verwendet werden; und
- aus den laufzeitbefreiten Audiosignalen werden die individuell anpassbaren binauralen Audiosignale erzeugt, indem zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal mit einer zeitlichen Verzögerung in Abhängigkeit von der für die aktuelle Kopfposition berechneten Laufzeit-Differenz und in Abhängigkeit eines individuellen Skalierungsfaktors beaufschlagt wird,
- wobei bei einer auftretenden Änderung von einer vorherigen Kopfposition in die aktuelle Kopfposition die zeitliche Verzögerung zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion verändert wird, wobei die Abtastratenkonversion einen Konversionsfaktor verwendet um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen, und wobei der für die Abtastratenkonversion verwendete Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt wird.
- Ebenfalls wird eine Vorrichtung zur Durchführung des Verfahrens vorgeschlagen, wobei die Vorrichtung zur Erzeugung räumlich wahrnehmbarer binauraler Audiosignale folgende Komponenten aufweist:
- eine erste Schaltung, die aus kopfbezogenen Übertragungsfunktionen, die verschiedenen Kopfpositionen zugeordnet sind, interaurale Laufzeiten extrahiert und daraus Laufzeit-Differenzen berechnet;
- eine zweite Schaltung, die mittels einer Binauralsynthese laufzeitbefreite Audiosignale erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei diese Schaltung in Abhängigkeit von Kopfpositions-Daten die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen für eine aktuelle Kopfposition verwendet; und
- mindestens eine dritte Schaltung, die aus den laufzeitbefreiten Audiosignalen die individuell anpassbaren binauralen Audiosignale erzeugt, indem diese Schaltung zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal mit einer zeitlichen Verzögerung in Abhängigkeit von der für die aktuelle Kopfposition berechneten Laufzeit-Differenz und in Abhängigkeit eines individuellen Skalierungsfaktors beaufschlagt wobei sie in der Lage ist, die kopfpositionsbedingten Veränderungen der Laufzeitdifferenzen im Signal auf unhörbare Weise zu vollziehen.
- Demnach wird vorgeschlagen, aus kopfbezogenen Übertragungsfunktionen, wie z.B. BRIRs, die interauralen Laufzeiten zu extrahieren, um somit laufzeitbefreite Übertragungsfunktionen zu erhalten, und aus den extrahierten Laufzeiten Laufzeitdifferenzen zu berechnen, die in einem späteren Schritt zusammen mit einem individuellen Skalierungsfaktor verwendet werden, um die Audiosignale damit zu beaufschlagen, welche durch eine Binauralsynthese in Abhängigkeit der aktuellen Kopfposition mittels der laufzeitbefreiten Übertragungsfunktionen erzeugt wurden. Demzufolge wird in einem mehrstufigen Verfahren die kopfbezogene Übertragungsfunktionen von den interauralen Laufzeiten befreit, die sich auf eine bestimmte Anthropometrie (z.B. die eines Kunstkopfes) beziehen, und es werden laufzeitbefreite Audiosignale mittels einer Binauralsynthese erzeugt und anschließend durch eine zeitliche Verzögerung, die individuell gewichtet wird (Skalierungsfaktor), mit den für die jeweilige Person bzw. den Nutzer passenden Laufzeiten beaufschlagt, so dass ein deutlich verbesserter räumlicher Höreindruck erzielt werden kann. Insbesondere entspricht die zeitliche Verzögerung einem Wert, der aus der Wichtung der für die aktuelle Kopfposition berechneten Laufzeit-Differenz und dem individuellen Skalierungsfaktor berechnet wird.
- Das Verfahren wird dynamisch gestaltet, indem bei einer auftretenden Änderung von einer vorherigen Kopfposition in die aktuelle Kopfposition die zeitliche Verzögerung zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion bzw. sample rate conversion (SRC) verändert wird. Dabei verwendet die Abtastratenkonversion einen Konversionsfaktor um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen, wobei der für die Abtastratenkonversion verwendete Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt wird.
- Durch die Anwendung eines SRC-Verfahrens, das auf Basis zeitlich kurzer Audioblöcke - wahrgenommen latenzlos - arbeitet, ist eine nahtlose Änderung der Laufzeitdifferenz bei Kopfbewegungen möglich.
- Mit dem Verfahren können die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen für eine Vielzahl von Kopfpositionen und/oder für eine Vielzahl von Audiosignal-Quellen berechnet werden. Bei der Vielzahl von Kopfpositionen kann es sich z.B. um die Auflösung der Blickrichtung in kleinen Winkeländerungen bzw. -schritten, von z.B. 1 Grad, handeln. Die Anzahl der Quellen (Schall- bzw. Audioquellen) kann sehr groß sein, wobei pro Quelle und für jeden Signalpfad (linker und rechter Ohrkanal) ein Audiosignal erzeugt wird. Diese können dann nach der individuellen Gewichtung (Laufzeit-Verzögerung) für jeden Signalpfad superpositioniert werden.
- Die zu Beginn des Verfahren durchgeführte Extraktion der interauralen Laufzeiten aus den kopfbezogenen Übertragungsfunktionen kann z.B. mittels eines der folgenden Verfahren durchgeführt werden: Onset-Verfahren, interaurales Kreuzkorrelationsverfahren, frequenzabhängige Gruppenlaufzeitdifferenzbildung, Differenzbildung der frequenzabhängig linear angenäherten Phasengradienten oder Bestimmung des Exzessphasenanteils aus Division der Ü.-funktionen vor und nach Hilbertransformation. Insbesondere das Onset-Verfahren führt zu sehr guten Ergebnissen, was später noch im Detail beschrieben wird.
- Die Erfindung löst in vorteilhafter Weise das Problem, dass bei Auralisationsverfahren normalerweise die kopfbezogenen Übertragungsfunktionen HRTFs oder BRIRs immer nur für die Anthropometrie eines bestimmten Individuums bzw. für einen bestimmten Kunstkopf gelten, wodurch individuellen Unterschiede, wie z.B. die des Kopfdurchmessers nicht exakt durch die in den Übertragungsfunktionen enthaltenen Laufzeitinformationen repräsentiert werden, was dazu führt, dass andere Hörer, also "fremde" Personen, eine mehr oder minder stark verzerrte Wahrnehmung von Lokalisation und - bei Kopfbewegungen - die Empfindung einer naturgemäß nicht vorhandenen, räumlichen Bewegung der Audiosignale (Lokalisationsinstabilität) erfahren.
- Durch die Erfindung werden also Lokalisationsfehler aufgrund eines falschen Kopfdurchmessers (Abweichung vom Kunstkopf) vermieden. Als Nebenaspekt der gewählten Vorgehensweise (Laufzeitbefreiung und quasi-minimalphasige Überblendung) ergeben sich zudem deutliche Verbesserungen hinsichtlich der Latenzaspekte und der hörbaren Fehler bei der Überblendung bei Kopfbewegungen.
- Untersuchungen der Erfinder haben gezeigt, dass die auftretenden Artefakte unterschiedlich starken Einfluss auf die Authentizität der Hörwahrnehmung haben. So können offensichtliche Klangfarbenfehler ohne direkte Referenz schnell unmerkbar werden, da beim Hörer eine Gewöhnung eintritt; das absolute Klangfarbengedächtnis ist im Allgemeinen eher schlecht. Schwerwiegender erscheint die Adaption an Abweichungen in den Kopfdimensionen und die daraus resultierenden falschen Laufzeitinformationen von Schallsignalen. So führt ein zu großer Kopfdurchmesser im generischen Datensatz zu einer wahrgenommen Bewegung frontaler Quellen in entgegengesetzte Kopfbewegungsrichtung; im ungekehrten Falle "folgen" die Quellen scheinbar in geringem Maße den Bewegungen des Hörers. Dieses Artefakt kann sehr störend sein und Adaptionsfähigkeiten sind bisher nicht untersucht. Die Erfindung reduziert auch die normalerweise auftretenden Überblendungsfehler ("Stottern"), die dadurch entstehen, dass bei einem Echtzeitaustausch der HRTFs bzw. BRIRs Filter mit Laufzeitversätzen ineinander überblendet werden. Dieses zeitliche "missalignment" führt zu typischen kammfilterartigen Überblendartefakten, die besonders bei quasistationären Inhalten (bei Sprachanwendungen z.B. bei Vokalen, bei Musik z.B. bei "Streicherteppichen") deutlich und störend zu Tage treten. Die Erfindung reduziert diese Überblendungsfehler, indem die Überblendung der Übertragungsfunktionen und das Einfügen von Laufzeitdifferenzen bei der Binauralsynthese zeitlich aufeinander folgend und nicht - wie herkömmlich üblich - zeitgleich erfolgen.
- Nachfolgend wird die Erfindung und die sich daraus ergebenden Vorteile anhand von Ausführungsbeispielen und mit Bezug auf die beiliegenden Zeichnungen beschrieben, die folgende schematische Darstellungen wiedergeben:
- Fig. 1
- zeigt das Ablaufdiagramm für ein erfindungsgemäßes Verfahren;
- Fig. 2
- veranschaulicht die Extraktion von interauralen Laufzeiten und die Berechnung von individuellen Laufzeitdifferenzen;
- Fig. 3
- zeigt als Blockschaltbild den Teil der erfindungsgemäßen Vorrichtung, der eine individuelle skalierbare Audiosignal-Verzögerung auf der Basis der berechneten individuellen Laufzeitdifferenzen bewirkt;
- Fig. 4a
- zeigt als Blockschaltbild eine Schaltung zur Durchführung einer dynamischen Binauralsynthese;
- Fig. 4b
- zeigt das Blockschaltbild nach
Fig. 4a mit erläuternder Beschriftung einzelner Schaltungs- bzw. Funktionsblöcke; - Fig. 5a
- zeigt als Blockschaltbild eine erfindungsgemäß ausgestaltete Schaltung zur Durchführung einer individualisierten dynamischen Binauralsynthese und zum Einsatz in der erfindungsgemäßen Vorrichtung; und
- Fig. 5b
- zeigt das Blockschaltbild nach
Fig. 5a mit erläuternder Beschriftung einzelner Schaltungs- bzw. Funktionsblöcke; - Die
Fig. 1 zeigt das Ablaufdiagramm für ein erfindungsgemäßes Verfahren 100, das mehre Schritte aufweist, die im wesentlichen folgendes beinhalten: - In einem ersten Schritt 110 werden aus normalen kopfbezogenen Übertragungsfunktionen, wie z.B. BRIRs, laufzeitbefreite Übertragungsfunktionen gewonnen sowie interaurale Laufzeiten extrahiert und in Differenzen umgerechnet. Dies wird noch näher anhand der
Fig. 2 beschrieben, die ein schematisches Blockschaltbild einer ersten Schaltung A darstellt. - In einem zweiten Schritt 120 wird mittels der laufzeitbefreite Übertragungsfunktionen eine Binauralsynthese durchgeführt, um laufzeitbefreite Audiosignale L' bzw. R' zu erzeugen. Dies wird noch eingehender anhand der
Fig. 5a /b beschrieben. Die an sich bekannte Binauralsynthese wird noch anhand derFig. 4a /b beschrieben. - In einem dritten Schritt 130 wird eine Echtzeit-Synthese durchgeführt, um die ersten Audiosignale individuell mit einer skalierbaren Zeitverzögerung zu beaufschlagen. Dies wird noch näher anhand der
Fig. 3 sowieFig. 5a /b beschrieben. - Zunächst soll hier der erste Schritt 110 beschrieben werden: Wie die
Fig. 2 veranschaulicht umfasst die Schaltung A mehrere Funktionsblöcke 111 bis 117, die jeweils einen Teilschritt der Schrittfolge 110 (s.Fig. 1 ) repräsentieren. DieFig. 2 veranschaulicht somit Vorverarbeitung der Impulsantwortdatensätze, wobei eine nahezu unhörbar genaue Extraktion der ITD aus empirischen HRTF-/BRIR-Datensätzen durch Onsetdetektion erzielt werden kann. - Zunächst werden in einem Teilschritt 111 normale Übertragungsfunktionen BRIR (alternativ auch HRIR) aus einer Datenbank ausgelesen. Dann folgt eine Überabtastung um einen Betrag, der eine mehr als gehörgenaue Extraktion der Laufzeiten aus den Impulsantworten erlaubt (z.B. 10-fach bzgl. einer üblichen Audioabtastrate von 44.1 oder 48kHz) im Block 112. Danach können in einem Block 113 dann die Onsets (Beginn der Audiosignale bzw. - daten) aufgefunden werden. Anschließend wird im Block 114 die die Länge der onsetbefreiten (quasi-minimalphasigen) Impulsantwort bestimmt und in einem Block 115 als Vektor angelegt. Durch anschließende, z.B. wieder 10-fache, Unterabtastung im Block 116 ergeben sich im Block 117 laufzeitfreie Übertragungsfunktionen sowie die extrahierten Laufzeiten, die als Laufzeitdifferenzen ITD berechnet und abgespeichert werden. Zusätzlich können noch beschreibende Metadatensätze DSI hinzugefügt werden. Das anhand der
Fig. 2 veranschaulichte Verfahren verwendet das Onset-Verfahren zur Bestimmung der laufzeitbefreiten Impulsantworten. Hierauf wird später noch näher eingegangen. - Zunächst sei hier angemerkt, dass zwischen den an sich bekannten filtertheoretischen Aspekten von Übertragungsfunktionen, wie HRTFs oder BRIRs, und der Erfindung folgende Zusammenhänge bestehen:
- Lineare, zeitinvariante und nichtrekursive Systeme, zu denen Außenohr- und binaurale Raumübertragungsfunktionen zu zählen sind, sind laut der elementaren Filtertheorie vollständig durch ihre endliche Impulsantwort beschrieben. Im digitalen Falle handelt sich damit um FIR- (finite impulse response) Filter. Diese werden in Form von mit den Filterkoeffizienten gewichteten, akkumulierenden delaylines technisch realisiert; somit stellen sie Implementierungen der diskreten Faltungsumme dar. Die zeitliche Auflösung entspricht dabei der Abtastrate des Audiosignals (z.B. 44.1 kHz). Im Falle empirischer HRTFs oder BRIRs liegen zumeist gemischtphasige Filter xmix(n) vor. Sie lassen sich in drei Anteile zerlegen:
- Die interaurale Laufzeitdifferenz ergibt sich als Differenz der Laufzeiten der HRTF bzw. BRIR des linken und rechten Ohres. Diese Laufzeiten ergeben sich wiederum als Summe des linearphasigen (reiner Laufzeitanteil) und des allpasshaltigen (frequenzabhängige Phasengangsverzerrungen ohne spektrale Verzerrungen) dem sog. Exzessphasenanteil.
- Der verbleibende minimalphasige Anteil Xminimal(n) beschreibt allein die spektralen Veränderungen (ILD) und enthält keine absoluten oder relativen Laufzeitinformationen mehr.
- Die interaurale Laufzeitdifferenz ITD ist frequenzabhängig. Der für eine korrekte Lokalisation wesentliche Anteil (< 1500Hz) ist jedoch relativ konstant und lässt sich mehr oder minder artefaktfrei extrahieren. Als Verfahren eignet sich insbesondere die Onset-Detektion, wie es anhand der
Fig. 2 veranschaulicht wird. Als Alternative eignet sich auch die Bestimmung des Exzessphasenanteils durch Nutzung der Hilberttransformation, frequenzbereichsspezifisches Phasen-gradienten-Matching, Maximum der interauralen Kreuzkorrelation oder die frequenzbereichsspezifische Bestimmung der interauralen Gruppenlaufzeitdifferenz. - Diese genannten Methoden unterschieden sich im Wesentlichen darin, ob sie den Allpassanteil ebenfalls extrahieren können (Hilbertverfahren) oder nicht (alle anderen). Hörbare Fehler in Folge der Vernachlässigung des Allpassanteils treten jedoch nur für wenige Einfallsrichtungen des Schalls auf. Zum überwiegenden Teil sind empirische HRTFs lediglich aus Kombinationen minimalphasiger und linearphasiger Anteile gebildet. Nachweislich hörbare Fehler beim Zusammensetzen "nicht-allpassenthaltender" Laufzeiten mit analytisch perfekt minimalphasigen Spektren ergeben sich nur am contralateralen (abgewandten) Ohr bei stark lateralem Schalleinfall. Inwieweit diese Verfahren auch auf in Räumen vermessene BRIRs anwenden lassen (und nicht nur auf nachhallfreie HRTFs) wurde von den Erfindern untersucht. Dabei ergab sich, dass im Falle von BRIRs nur das Onset-Verfahren genau genug (vgl. dagegen Kreuzkorrelationsverfahren), robust genug (vgl. dagegen Phasengradientenverfahren), überhaupt anwendbar (vgl. dagegen Gruppenlaufzeitdifferenzverfahren) und klangfarbentreu (vgl. dagegen Hilbertverfahren) ist. Intrinsisch bedingt konserviert das Onsetverfahren zudem mögliche Allpassanteile der BRIRs in vorteilhafter Weise; sie gehen nicht verloren, sondern bleiben in den laufzeitfreien Spektren erhalten, die daher hier als quasi-minimalphasig bezeichnet werden. In formalen und kriterienfreien Hörversuchen wurde bestätigt, dass bei der Resynthese der extrahierten Laufzeiten und den quasi-minimalphasigen Spektren auch bei kontralateralem Schalleinfall erwartungsgemäß keine Lokalisationsfehler auftreten. Weitere formale Hörversuche zeigten, dass die aufgrund der Hilberttransformation auftretenden Veränderungen der Nachhallstruktur in jedem Falle hörbar sind.
- Es sind zudem geometrisch-modellbasierte Ansätze bekannt, die aus Angaben anthropometrischer Daten des Kopfes die ITD winkelabhängig berechnen. Diese Methoden weisen subjektiv jedoch Mängel auf und haben den wesentlichen Nachteil, dass für eine modellbasiert zu generierende ITD die Schalleinfallsrichtung, d.h. die virtuellen Quellpositionen, auf denen empirische HRTF- oder BRIR-Datensätze basieren, bekannt sein müssen. Bei HRTFs ist dies ein banales Problem, da eine HRTF ja genau den Schalleinfall für eine spezifische Richtung, bzw. einen spezifischen Einfallswinkel beschreibt. Bei der Vermessung von Schallfeldern in Räumen mit beweglichen Kunstköpfen sind jedoch beliebige Quellpositionen denkbar (z.B. bei simulierte Konzertsituationen). Diese sind aus den Datensätzen nicht mehr zwingend funktional basiert extrahierbar. Die an sich bekannte modellbasierte ITD-Genese ist also eher nur für parametrische, numerisch-modellhafte Ansätze der virtuellen Akustik und weniger für in-situ vermessen BRIRs geeignet.
- Gemäß der Erfindung werden die kopfbezogenen Übertragungsfunktionen von den Laufzeiten befreit. Nach der Trennung von quasi-minimalphasigem Spektrum und Laufzeit können beide dann getrennt der Resynthese zugeführt werden, wobei eine skalierbare und auf das Individuum angepasste Resynthese durchgeführt werden kann (s.
Fig. 3 undFig. 5a /b ). Vorteile hierbei sind Latenzreduktion und eine Verkürzung der vorzuhaltenden HRTFs (wenn diese, wie bisher implizit angenommen als FIR-Filter ausgeführt sind) um eben die extrahierte Laufzeit. Prinzipiell lassen sich die HRTFs auch als IIR-Filter (infinite impulse response) - entweder durch Modellierung/Schätzung von gemessenen HRTFs die zwangsweise immer als FIR-Filter (finite impulse response) vorliegen, oder durch parametrische Modellierung wesentlicher Features - generieren. - Das hier beschriebene Verfahren ist prinzipiell auf in beliebiger Weise erzeugte kopfbezogene Übertragungsfunktionen anwendbar. Sie wird hier aber am Beispiel von als FIR-Filtern vorliegenden empirischen HRTF-/BRIR-Datensätzen beschrieben, wie sie z.B. mit dem eingangs genannten Roboter (HATS FABIAN, siehe Lindau et al. 2007) vermessen wurden.
- In Bezug auf die in der
Fig. 2 veranschaulichten Extraktion aus bestehenden Übertragungsfunktionen BRIR/HRIR ist zu sagen, dass diese mittels des besagten Roboters FABIAN gewonnen werden können: - Der von den Erfindern eingesetzte Roboter FABIAN besitzt Bewegungsmöglichkeiten in 7 Freiheitsgraden (4 rotatorische, 3 translatorische). Der durch Softwaresteuerung automatisierbare Roboter besteht aus einem mit Außenohren abgeformtem Kunstkopf und generisch nachempfundenem menschlichem Körper. Der Roboter dient zum Erreichen natürlicher Schallfeldbeeinflussung (Beugung, Abschattung, Reflektion) als Resultat am Ort der eigentlichen Messung des Schallfelds, der beiden Mikrofonmembranen am geblockten Ohrkanal.
- Die im Folgenden beschriebenen Algorithmen der Erfindung beziehen sich exemplarisch auf die Verwendung von BRIR-Datensätzen, die mit einem solchen Roboter gewonnen werden können. Das Verfahren ist aber nicht auf diese Datensätze beschränkt, sondern auf jegliche Auralisationsverfahren anwendbar, die räumliche Schalllokalisation durch Filterung kopfbezogener Impulsantworten mit Audiosignalen realisieren.
- Das Verfahren erreicht eine wesentliche Verbesserung der auf empirischen HRTF-/BRIR-Datensätzen basierenden dynamischen Binauralsynthese und bietet insbesondere folgende Vorteile:
- i) eine nahezu unhörbar genaue Extraktion und
- ii) eine ebenfalls unhörbare individuelle, echtzeitfähige Rekonstruktion und Manipulation (frequenzunabhängige Skalierung) der interauralen Laufzeitdifferenz.
- Das Verfahren 100 (s.
Fig. 1 ) umfasst dazu in einen Vorverarbeitungs-Schritt 110 (s.Fig. 1 sowie auch Teilblöcke inFig. 2 ) und einen Echtzeit-Resynthese-Schritt 130 (s.Fig. 1 sowie auchFig. 3 ), der einem dynamischen Binauralsynthese-Algorithmus bzw. Schritt 120 (s.Fig. 1 sowie auchFig. 4a /b ) nachgeschaltet wird (sieheFig. 5a /b ). - Zur Funktionsweise und zum Aufbau der erfindungsgemäßen Vorrichtung (s.
Fig. 5a /b ) sowie des von ihr ausgeführten Verfahrens (s. insbes.Fig. 1 ) ist zu sagen: - Zunächst erfolgt im Rahmen des Schritts 110 die Vorverarbeitung der Impulsantwortdatensätze. Das vorzuschlagende Verfahren setzt dazu bei der Extraktion der interauralen Laufzeit aus generischen HRTF-/BRIR-Datensätzen an. Die Gewinnung der BRIR-Datensätze (Block 111 in
Fig. 2 ) erfolgt vorzugsweise mittels des zuvor beschrieben Roboters in realen Räumen für beliebige Anzahlen von elektroakustischen Quellen und unter Verwendung eines fein aufgelöster Kopfbewegungsrasters innerhalb physiologisch sinnvoller Drehbereiche. -
- Wie bereits erwähnt, erweist sich das Onsetverfahren unter den Methoden zur Extraktion als das am besten geeignete Verfahren. Die anderen Verfahren zeigten geringere Robustheit bei empirischen Datensätzen binauraler Raumimpulsantworten. Das Hilbertverfahren erscheint zudem ungeeignet zu sein, da es aufgrund der inhärenten Energiekompaktierung in Richtung des Beginns der Impulsantwort die enthaltene Reflexionsstruktur des Raumschallfelds in evtl. hörbarem Ausmaße verändert. Dies konnten die Erfinder anhand von auditorisch-modellhaften numerischen Vorversuchen und durch einen formalen Hörversuch plausibilisieren. Das Onset-verfahren wird so eingestellt, dass das natürliche Messgrundrauschen (typ. ca. -50 bis -90 dB relativ zum Betrags-Maximalwert der Impulsantwort) bestimmt wird und dann ein Schwellwert deutlich oberhalb davon gewählt wird (z.B. um 15 dB höher, also -35dBrel). Der Impulsantwortendatensatz wird dann maschinell und jeweils vom Beginn der Impulsantworten an durchsucht und anhand der Zeitpunkte des Überschreitens des Schwellwertkriteriums in linken und rechten Kanal der HRTF/BRIR durch Differenzbildung die ITD berechnet (siehe Formel 3). Die Laufzeiten werden entfernt und die nun laufzeitfreien Impulsantworten erneut gespeichert (Block 117). Das Onsetverfahren wird auf das 10-fach überabgetastete Zeitsignal angewandt, um somit eine Diskretisierung der ITD in 2.3µs-Schritten, zu erhalten. Diese Auflösung entspricht in etwa einem Fünftel des gerade wahrnehmbarem ITD-Schwellwerts. Die so extrahierte Laufzeit bzw. Laufzeitdifferenz ITD kann nun in einem textbasierten Listenformat (z.B. *.txt, *.csv, *.xml) maschinenlesbar dem laufzeitbefreiten Datensatz beigelegt werden.
- Die anhand der
Fig. 2 veranschaulichte Vorverarbeitungsprozedur umfasst somit folgende Teilschritte: - 111: Impulsantwort einlesen (*.wav file)
- 112: Impulsantwort 10 x überabtasten
- 113: Finde Onset nach Pegel-Kriterium; Schreibe Matrix der Onsetindizes für linken und rechten Kanal; Berechne ITD aus Differenz der Onsetindizes; Korrigiere Berechnungsergebnis um Überabtastfaktor; Finde maximale Laufzeit im Datensatz
- 114: Bestimme neue Impulsantwortlänge, new_len=size_IR - max_time_of_flight (ergibt Länge der kürzestmöglichen IR im überabgetasteten Bereich, dient als Ziellänge für alle im Folgenden extrahierten IRs)
- 115: Extrahiere aus Impulsantwort Vektor der Länge new_len beginnend bei Onsetindizes
- 116: Extrahierte Impulsantwort 10 x unterabtasten
- 117: Speichere IR als neue *.wav Datei
- Außerdem: Speichere ITDs in maschinenlesbarer Datei; schreibe auch eine datensatzbeschreibende *.xml Datei DSI (mit Informationen über Start und Endpunkte, Auflösungen, für Azimut und Elevation).
- Diese Verarbeitung wird in einer ersten Schaltung A durchgeführt, die Teil der Vorrichtung ist (s.
Fig. 5a /b ). - Eine weitere Schaltung B mit Funktionsblöcken BA und BB (s.
Fig. 4a /b ) wird in einer abgewandelten Form (mit Funktionsblock BB*) ebenfalls in der Vorrichtung (s.Fig. 5a /b ) eingesetzt und dient einer individuellen, adaptiven Echtzeit-Resynthese, die nachfolgend noch näher beschrieben wird: - Ausgangspunkt bzw. Vorbedingung für die individualisierte binaurale Audiowiedergabe ist das Vorhandensein eines Echzeitfaltungsalogorithmus, wie er an sich bekannt ist und anhand der
Fig. 4a /b veranschaulicht wird. Dieser sollte die Faltung blockbasiert und individuell für jede einzelne zu auralisierende Schallquelle vornehmen können. Dabei unterscheidet sich der technische Vorgang der schnellen Echtzeitfaltung von laufzeitbehafteten und laufzeitlosen BRIRs nicht, allerdings ergeben sich aufgrund der Datenaufbereitung spezielle klangliche Vorteile, die weiter unten noch beschrieben werden. - Zur Abwandlung des Faltungsprozess bzw. zur Laufzeitindividualisierung wird vorzugsweise auf eine sogenannte "jack audio server"-Architektur zurückgegriffen und damit ein eigenständiges PlugIn realisiert. Funktionsgleiche Lösungen können z.B. auch aus Anordnungen spezieller DSP-Hardware oder mittels Verfahren im Rahmen der VST-PlugIn-Architektur (d.h. auf der VST-Schnittstelle basierend) realisiert werden. Nach dem Start der rechnergesteuerten Vorrichtung (z.B. PC) liest diese eine Konfigurationsdatei, eine Datensatzbeschreibungsdatei und danach die textbasierte Liste der ITDs des aktuell vom klassischen Faltungsprozess auralisierten BRIR-Datensatzes ein. Dann meldet es sich beim Audioserver an und stellt je Instanz (d.h. je individuell anpassbar zu auralisierender Audioquelle) zwei Ein- und Ausgänge zu Verfügung (für linkes und rechtes binaurales Signal des Faltungsprozesses). Die Eingänge können dann in PlugIn-Manier mit den Ausgängen des Faltungsprozesses verbunden werden (siehe auch
Fig. 5a /b ). Für mehrere zu auralisierende Quellen sind jeweils ein eigener Faltungsprozess und ein Prozess zur Laufzeitindividualisierung zu starten. Der Prozess zur Laufzeitindividualisierung kopiert nun blockweise das Ausgangsergebnis des Faltungsprozesses (binaurale Zeitsignale ohne Laufzeitdifferenzen, siehe L' und R' inFig. 5a /b ) in seine eigenen Eingangspuffer. Damit die Grundlatenz in dieser seriellen Kaskadierung nicht über die Gebühr ansteigt haben sich Blockgrößen von 128-512 samples für beide Prozesse bewährt. - Die fehlende Laufzeitdifferenz kann nun als kopfpositionsspezifische Verzögerungszeit VDL und ohne hörbare Artefakte in einen der beiden Audiokanäle eingefügt werden. Die geschieht hier z.B. für L' im Block VDL/SCR bzw. S, wobei der Block VDL/SCR die dynamische Anpassung der Laufzeit bei Kopfbewegung darstellt und der Block S die statische Anpassung, die sich bei fester Kopfposition dann ergibt bzw. einstellt. Für die Anpassung liest der Individualisierungsprozess die Kopfbewegungsdaten als Datenstrom des Headtrackers HTDAT (z.B. via ein IP-basiertes Transportprotokoll) mit, die dieser wie bisher auch an den Faltungsprozess sendet. Bei der Initialisierung des Individualisierungsprozesses muss dieser die, durch die initiale Kopfposition bestimmte, erste wirksame interaurale Laufzeitdifferenz durch um einen fixen Betrag zeitverzögertes oder vorgreifendes Abspielen realisieren. Der Einfachheit wg. kann die erste Zeitdifferenz zu 0, bzw. der erste Konversionsfaktor zu 1, angenommen werden. Anschließend werden kopfpositionsbedingte Veränderungen der interauralen Laufzeitdifferenz wie folgt erreicht: Je verarbeitetem Audioblock wird die aktuelle Kopfposition und damit eine Veränderung der Laufzeitdifferenzen geprüft. Wurden Veränderungen der Laufzeitdifferenzen detektiert, wird deren Ausmaß durch Differenzbildung (delta ITD = neue ITD - alte ITD) bestimmt. Aus der fraktionalen Verhältnisbildung der Audioblocklänge mit der um das Ausmaß der Veränderung der Laufzeitdifferenzen (delta-ITD) korrigierten Audioblocklänge ergibt sich ein Verhältnis, welches als Konversionsfaktor in einem Algorithmus zur Echtzeitabtastratenkonversion in höchster Audioqualität verwendet werden kann. Dieser erreicht die Anpassung der veränderten Verzögerungswerte durch ein um den Konversionsfaktor beschleunigtes oder verzögertes Abspielen, in dem es aus dem vorliegenden Signal neue Abtastwerte an anderen, einer höheren oder niedrigeren Abtastrate entsprechenden, Zeitpunkten interpoliert und diese stattdessen ausgibt.
- Mit Hilfe einer Abtastratenkonversion SRC können korrekte Amplitudenwerte zu beliebigen kontinuierlichen Zeitpunkten aus den Abtastzeitpunkten digitaler Zeitsignale gefunden werden. An sich bekannt ist auch die sog. fraktionale Abtastratenkonversion (siehe Smith III, J.O. (2002): Digital Audio Resampling Home Page. Web published at http://www-ccrma.stanford.edu/-jos/resample/, Stanford: Center for Computer Research in Music and Acoustics (CCRMA), Stanford University). Nach Shannons Theorem der perfekten Rekonstruktion des Zeitverlaufs abgetasteter Signale durch ebenso perfekte Tiefpassfilter (Antialiasingfilter) nutzt das Verfahren der bandbeschränkten Interpolation hierzu eine Tabelle interpolierter quasikontinuierlicher Filterkoeffizienten, um die jeweilige Tiefpassimpulsantwort effektiv in kontinuierlicher Zeitsignalform verfügbar zu machen. Eine einzelne vorberechnete Filtertabelle genügt bereits für alle Interpolationszeiten und SRC-Verhältnisse. Je nach Abtastratenkonversionsverhältnis fsneu/fsalt (d.h. der Konversionsfaktor ist <1 oder >1) ist ein Filter mit niedrigerer oder höherer Eckfrequenz aus der Tabelle auszulesen. Das wiederum ist möglich, da die Filterimpulsantwort quasikontinuierlich, d.h. mit sehr hoher Abtastgenauigkeit in sehr großer Länge tabelliert ist. Für jeden aktuell zu resampelnden Block von Ausgangssamples - bei Blöcken von sehr kurzer Dauer ist variable Konversion somit annähernd in "Echtzeit" möglich - wird das Interpolationsergebnis an den neuen Abtastzeitpunkten durch Bildung der Faltungssumme der Zeitsignalsamples mit der neuen Tiefpassimpulsantwort berechnet. Je nach benötigter Güte (d.h. Bandbreite und Sperrdämpfung des Interpolators) kann die Tabellengröße des Interpolatortiefpasses durch geeignete Formeln abgeschätzt werden. Benutzt wird hier ein hochqualitativer, bandbegrenzter Fliesskomma-Interpolator auf Basis einer analytisch beschriebenen sinc-Funktion mit einem worst case Signalrauschverhältnis von 97 dB bei einer Bandbreite von 97%.
- Wie bereits erwähnt, kann der je zu verarbeitendem Audioblock aktuelle Konversionsfaktor jeweils mithilfe der Differenz der zur vorherigen und zur aktuellen Kopfposition gehörenden ITD bestimmt werden. Eine jederzeit verfügbare Softwarebibliothek erlaubt eine unhörbare und kontinuierliche Änderung des Konversionsfaktors, so dass die der jeweiligen Kopfhaltung entsprechenden Laufzeitdifferenz korrekt resynthetisiert werden kann. Für die praktische Realisierung der interauralen Laufzeitdifferenz bedeutet das, dass mittels der o.g. Bibliothek zur bandbeschränkten Interpolation aus einer variablen Anzahl Eingangssamples eine immergleiche - der zu Grunde liegenden Audioblocklänge entsprechende - Anzahl neuer Ausgangssamples erzeugt wird. Je nach Abtastratenkonversionsverhältnis fsneu/fsalt (<1 oder >1) benötigt die Abtastratenkonversion dafür weniger oder mehr Samples als die zu Grunde liegende aktuelle Blockgröße. Aufgrund dieser Differenz erhält man als Ergebnis - außer dem Block neu interpolierter Ausgangsamples - eine feste zeitliche Verschiebung des Einlesebereichs der Abtastratenkonversion um die Anzahl im vorhergegangen Block von einer Abtastratenkonversion weniger oder zusätzlich benötigten Samples. In der
Fig. 5a /b wird diese Verschiebung durch den Block S als implizite, feste und samplegenaue Verzögerung dargestellt, deren aktueller Wert sich aus allen vorhergegangenen Laufzeitdifferenzveränderungen ergibt. - Wurde während zweier Audioblöcke keine Veränderungen der interauralen Laufzeitdifferenz detektiert, bleibt dieser feste Verzögerungswert (statisches Delay S) einfach erhalten und realisiert so weiterhin die korrekte interaurale Laufzeitdifferenz.
- Im Vorgriff auf die im Folgenden beschrieben individuelle Skalierung des Konversionsfaktors, ist zudem zu betonen, dass diese feste Verzögerung ebenfalls korrekt individuell skaliert ist, da sie nur aus der Akkumulation von Rückgabewerten der bereits individuell skalierten Abtastratenkonversion resultiert.
- Ein bedeutender Vorteil der Erfindung besteht nun darin, dass die Laufzeitdifferenz durch einfache Skalierung des jeweils aktuellen Konversionsfaktors individuell angepasst werden kann. Dazu wird die ITD, z.B. vor der Berechnung des Konversionsfaktors, einfach mit einem festen Wert skaliert (praktische Werte liegen zw. 50-150%). Damit ergibt sich zwischen den Ausgangssignalen L* und R* eine individuell angepasste ITD*. Bereits mit einer solchen frequenzunabhängigen Skalierung der ITD konnte eine perzeptiv deutlich verbesserte Anpassung an das jeweilige Individuum erzielt werden. Zudem ist diese Skalierung der ITD, welche näherungsweise einer nachträglichen Skalierung des Kopfdurchmessers entspricht, in Echtzeit regelbar. Wie ein optimaler, individueller Skalierungsfaktor gefunden werden kann, soll anhand der folgenden zwei Beispiele verdeutlicht werden:
- Der Ansatz für das erste Beispiel beruht auf der Einrichtung des Faktors durch die Versuchsperson selbst: Da der Korrekturwert in Echtzeit einregelbar ist, kann dieser zu Beginn der virtuellen akustischen Anwendung mit Hilfe einer geeigneten akustischen Szene (z.B. Darstellung einer einzelnen frontalen Schallquelle, die kurze gut lokalisierbare Rauschpulse abgibt) eingestellt werden. Dazu verstellt die Person den Korrekturwert beginnend von einem zunächst sehr hoch gewählten Startwert (z.B. 150% der ITD) in negativer Richtung, bis sich eine korrekte Lokalisationsempfindung, gekennzeichnet durch eine stabile frontale Quellenlokalisation, d.h. vor allem ohne die den Kopfbewegungen folgende Interaktionsbewegungen einstellt. Der zu Beginn hoch gewählte Startwert macht das zu minimierende Artefakt besonders gut hörbar.
- Ein weiterer Ansatz, der als zweites Beispiel dienen soll, beruht auf einer Vorhersage des individuellen Korrekturwerts auf Basis eines anthropometrischen Maßes. Es wurden Voruntersuchungen mit mehreren Versuchspersonen durchgeführt. Dabei wurde ein Hörversuch entsprechend der oben genannten akustischen Szenerie durchgeführt; zusätzlich zur virtuellen Quelle konnten die Versuchspersonen jedoch auch die reale Schallquelle hören. Das Ziel war es, den Konversionsfaktor der Simulation so einzustellen, dass sich beim Umschalten zw. Simulation und Realität eine möglichst gute Übereinstimmung ergab. Dieser Versuch wurde je Versuchperson 10-mal wiederholt. Zusätzlich wurden vier als geeignete erachtete Maße des Kopfes von jeder Person erhoben. Anschließend wurde die Vorhersage der Mittelwerte des individuellen Skalierungsfaktors aus den Kopfabmessungen durch multiple lineare Regression überprüft. Diese ergab, dass allein die Intertragusdistanz als Maß des Kopfdurchmessers, gemessen mit einem Tastzirkel in Millimetern von der incisura anterior des linken zu der des rechten Ohres genügt, um den Konversionsfaktor vorherzusagen. Grafische Darstellungen der Untersuchungen zeigten die Regressionsgerade und das 95%-ige Konfidenzintervall des linearen Modells sowie die individuellen Mittelwertdaten aus der Eichstichprobe. Das 95%-KI zeigte dabei an, dass der Konversionsfaktor mit einer Genauigkeit von ±1.25% (mittlerer Modellbereich) bis ±2.5% (äußere Modellbereiche) vorhergesagt werden kann.
- Die Variabilität des Skalierungsfaktors innerhalb der Stichprobe betrug dabei ±4%, d.h. dass im nichtindividualisierten Fall ein worst-case Fehler von bis zu 8% der ITD hätte auftreten können. Die individuelle Vorhersage halbiert bzw. viertelt (im günstigsten Fall) diesen Fehler. Ein Fehler von 1.25% der ITD entspricht dabei einem Lokalisationsfehler von etwas über 1° und liegt damit (wieder: im günstigsten Fall) schon nahezu im Bereich der gerade wahrnehmbaren Loksalisationsänderung. Die Regressionsformel zur Vorhersage des individuellen Korrekturfaktors lautet dabei:
- Diese Regressionsgleichung liefert zwar eine Vorhersage des individuellen Korrekturfaktors, sie ist in dieser Form jedoch nur auf Datensätze anwendbar, die mit dem FABIAN HATS Roboter vermessen wurde. Eine Möglichkeit zur Verallgemeinerung auf beliebige HRTF/BRIR-Datensätze ergäbe sich durch eine Korrektur des Ergebnisses der o. g. Formel durch Multiplikation mit dem Kopfduchmesserverhältnis Intertragusdistanz Fremd/Intertragusdistanz Fabian. Diese Korrektur setzt natürlich voraus, dass die Intertragusdistanz des fremden Datensatzes bekannt ist.
- Das Prinzip der erfindungsgemäßen Resyntheseprozedur wird anhand der
Fig. 3 veranschaulicht: - a) Initialisierung
- i) Lese *.xml Konfigurationsdatei
- ii) Lese Datensatzdefinition aus *.xml Beschreibungsdatei
- iii) Lege 1 oder 2-dimensionales Array durch Lesen der ITDs aus maschinenlesbarer Datei an
- iv) Setze initialen Skalierungsfaktor der ITD = 1
- v) Initialisere Ringpuffer des SRC-Prozesses
- vi) Starte OSC-Server für Empfang der Kopfbewegungsdaten
- vii) Initialisiere jack client.
- viii) Starte Echtzeitbedienungsmodi (OSC, GUI, Keyboard)
- b) Echtzeitprozess
- i) Kopiere Einganssamples für Links und Rechts in Ringpuffer
- a. Lese ITD bzgl. Kopfposition laut head tracking
- b. Skaliere ITD in Echtzeit, wenn gewollt (ITDnew=ITD*scaling_factor)
- c. Rechne ITD fraktional in Samples um (delay_new=ITDnew/sample_size)
- d. Bestimme ITD-Veränderung seit letzter Berechnung (delta_delay=delay_new - delay_old)
- e. Bestimme fraktionalen SRC-Faktor (ratio=output_samples/(input_samples-delta_delay))
- ii) Übergebe an SRC-Prozess: Faktor, Eingangs- und Ausgangspuffer für linken Kanal.
- iii) Speichere ungenutzte Samples im Ringpuffer
- iv) Berechne input_buffer_lenght des nächsten Zyklus' (input_buffer_lenght = output_samples + ungenutzte Samples)
- v) Gebe Ergebnis aus: linker Kanal aus SRC-Prozess; rechter Kanal aus Ringpuffer
- i) Kopiere Einganssamples für Links und Rechts in Ringpuffer
- Durch die Erfindung ergeben sich u.a. folgende besondere Vorteile und Verbesserungen gegenüber dem Stand der Technik:
- 1) Durch das Erreichen einer deutlich genaueren Lokalisation für alle Kopfpositionen unter Verwendung generischer Datensätze sorgt die individuell skalierte ITD wesentlich für die Erhöhung der Plausibilität einer binauralen Simulation.
- 2) Die sich aufgrund der Extraktion der ITD ergebende quasi-minimalphasige Überblendung hat deutlich hörbare auditive Vorteile, da bei der Überblendung quasiminimalphasiger Spektren so gut wie keine Überblendungsartefakte mehr auftreten.
- 3) Ein weiterer wesentlicher Vorteil ergibt sich aus der Quasi-Minimalphasigkeit der Spektren. Sie bildet eine Grundlage für alle effizienten spektralen & temporalen Kompressions- und Interpolationsverfahren für HRTF-/BRIR-Datensätze und kann z.B. auch auf beschränkten Plattformen, wie z.B. Mobilfunkgeräten, eingesetzt werden.
- 4) Die Operationalisierung der ITD erlaubt eine getrennte Interpolation von ILD- und ITD-Features. So kann z.B. die perzeptiv wichtigere ITD durchaus mit einer sehr feinen Auflösung resynthetisiert werden, während die minimalphasigen Spektren mit relativ grober Auflösung (z.B. 5 Grad) verarbeitet werden, was wiederum auch den Einsatz in Mobilfunkgeräten erleichtert.
- 5) Die Entfernung der akustischen Laufzeit aus allen BRIR-Datensätzen führt zu Latenzminimierung und Speicherplatzreduktion, so dass auch hier sich insbesondere der Einsatz bei Mobilfunkgeräten anbietet.
- 6) Die Implementierung der ITD durch Resampling führt zu einer "physikalischeren" Modellierung des Schallfelds, da sich aufgrund des verlangsamten bzw. beschleunigten Abspielens innerhalb des SRC-Prozesses eine (zumindest für den Direktschall korrekte) Imitation des Dopplereffekts einstellt.
- 7) Durch die Aufspaltung der Faltung in Einzelprozesse je Quelle wird die Vorraussetzung für eine parallelisierte Berechnung (Erhöhung der Berechnungseffizienz) geschaffen.
- Die Erfindung ermöglicht das Erreichen zahlreicher Verbesserungen, wie z.B. den Vorteil der fehlerfreien Überblendung, die Latenzminimierung, den Dopplereffekt. Hervorzuheben sind auch die Wahl der bandbegrenzten Interpolation zur Abtastratenkonversion bei der Generierung der variablen ITD, die Echtzeitfähigkeit der ITD-Manipulation, die unhörbare Extraktionsmethode und die PlugIn-Architektur. Ebenso sind wichtige Aspekt, wie z.B. die effektive und getrennte Reduktion und Interpolation von ITD und ILD (d.h. HRTF/BRIR-Spektren), hervorzuheben.
- Die individuelle Anpassung der laufzeitbefreiten ITDs an das jeweilige Individuum kann durch Skalierung des jeweils aktuellen Konversionsfaktors im Rahmen einer Abtastratenkonversion erfolgen, die bei Änderung der Kopfposition eine dynamische Anpassung ermöglicht. Sofern ein statischer Zustand sich einstellt, d.h. die Kopfposition sich nicht ändert, stellt sich auch eine statische Anpassung der ITDs (automatisch) ein. Oder die individuelle Anpassung erfolgt durch Skalierung der ITDs, die zu der vorherigen und aktuellen Kopfposition gehören, bevor der (unskalierte) Konversionsfaktor berechnet wird.
- Mit anderen Worten: Die Individualisierung und Anpassung der sich zwischen den Ausgangsignalen L* und R* ergebenden Laufzeit-Differenz ITD* kann erreicht werden durch Skalierung des jeweils aktuellen Konversionsfaktors (Anwendung des Faktors ISF auf den Block VDL/SRC; siehe
Fig. 5a /b ). Alternativ kann die Individualisierung und Anpassung der sich zwischen den Ausgangsignalen L* und R* ergebenden LaufzeitDifferenz ITD* erreicht werden durch Skalierung der zu den laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xBIR*) korrespondierenden Laufzeit-Differenzen (ITD). - Die Erfindung ist in vielen Anwendungen einsetzbar. Durch das vorgeschlagene Verfahren kann eine ein wesentliche Verbesserung aller bisher existierender Echtzeit-Anwendungen zur binauralen (Raum-)Akustiksimulation (3D Virtual Auditory Displays im Allgemeinen, räumliche Akustik in Computerspielen, Virtuelle Chaträume, Binaurale Guidance & Alerting Systeme, binaurale Walkthroughs z. B. durch virtuelle Architektur oder durch multimodale Mediashows) erzielt werden. Mögliche Anwendungen sind die nachträgliche Ergänzung kommerzieller 3D Audio APIs. Auch die Qualität zukünftig denkbarer rich media Anwendungen die empfängerseitig einen Mulitmedia-PC voraussetzen wie z. B. binaurales Teleconferencing via VoIP oder binaurales Streaming von Livekonzerten kann wesentlich an wahrnehmbarer Qualität gewinnen.
Claims (11)
- Verfahren (100) zur Erzeugung individuell anpassbarer binauraler Aüdiosignale (L*, R*),
mit folgenden Schritten:aus kopfbezogenen Übertragungsfunktionen (xRIR), die verschiedenen Kopfpositionen (1...k) zugeordnet sind, werden mittels Extraktion von interauralen Laufzeiten (TL, TR) laufzeitbefreite kopfbezogene Übertragungsfunktionen (xRIR*) und dazu korrespondierende Laufzeit-Differenzen (ITD) berechnet (Schritt 110);mittels einer Binauralsynthese werden laufzeitbefreite Audiosignale (L', R') erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei in Abhängigkeit von Kopfpositions-Daten (HTDAT) die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xRIR*) für eine aktuelle Kopfposition (1...k) verwendet werden (Schritt 120); dadurch gekennzeichnet,dass aus den laufzeitbefreiten Audiosignalen (L', R') die individuell anpassbaren binauralen Audiosignale (L*, R*) erzeugt werden, indem zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal (L') mit einer zeitlichen Verzögerung (VDL) in Abhängigkeit von der für die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und in Abhängigkeit eines individuellen Skalierungsfaktors (ISF) beaufschlagt wird (Schritt 130),dass bei einer auftretenden Änderung von einer vorherigen Kopfposition (k=1) in die aktuelle Kopfposition (k=2) die zeitliche Verzögerung (VDL) zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion (SRC) verändert wird, wobei die Abtastratenkonversion einen Konversionsfaktor verwendet um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen (Schritt 130), unddass der für die Abtastratenkonversion (SRC) verwendete Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt wird (Schritt 130). - Verfahren (100) nach Anspruch 1, dadurch gekennzeichnet, dass die zeitliche Verzögerung (VDL) einem Wert entspricht, der aus der Wichtung der für die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und dem individuellen Skalierungsfaktor (ISF) berechnet wird (Schritt 130).
- Verfahren (100) nach Anspruch 1, dadurch gekennzeichnet, dass eine zwischen individuell anpassbaren binauralen Audiosignalen (L*, R*) sich ergebende Laufzeit-Differenz (ITD*) durch Skalierung des aktuellen Konversionsfaktors individuell angepasst wird (Schritt 130).
- Verfahren (100) nach Anspruch3, dadurch gekennzeichnet, dass sich die ergebende Laufzeit-Differenz (ITD*) durch Skalierung der zu den laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xBIR*) korrespondierenden Laufzeit-Differenzen (ITD) individuell angepasst wird.
- Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xRIR*) für eine Vielzahl von Kopfpositionen (1...k) und für eine Vielzahl von Audiosignal-Quellen (1...n) berechnet werden (Schritt 110).
- Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die interauralen Laufzeiten (TL, TR) aus den kopfbezogenen Übertragungsfunktionen (xRIR) mittels eines der folgenden Verfahren extrahiert werden: Onset-Verfahren, interaurales KreuzkorrelationsVerfahren, frequenzspezifische Gruppenlaufzeit-Differenzbildung, frequenzbereichsspezifisches Phasengradienten-Matching oder Exzessphasenbestimmung durch Hilbert-Transformation (Schritt 110).
- Verfahren (100) nach Anspruch 6, dadurch gekennzeichnet, dass das Onset-Verfahren so eingestellt wird, dass ein natürliches Messgrundrauschen bestimmt wird und dann ein Schwellwert oberhalb davon, der niedriger als das Betrags-Maximum der durch die jeweilige kopfbezogene Übertragungsfunktion bestimmten Impulsantwort ist, bestimmt wird (Schritt 110).
- Verfahren (100) nach Anspruch 7, dadurch gekennzeichnet, dass der Schwellwert um mindestens 10 dB oberhalb des natürlichen Messgrundrauschen bestimmt und/oder das der Schwellwert um mindestens 10 dB niedriger als das Betrags-Maximum der durch die jeweilige kopfbezogene Übertragungsfunktion bestimmten Impulsantwort ist (Schritt 110).
- Verfahren (100) nach Anspruch 8, dadurch gekennzeichnet, dass der Schwellwert im mittleren Bereich einer Messdynamik liegt (Schritt 110).
- Verfahren (100) nach Anspruch 6, dadurch gekennzeichnet, dass das Onset-Verfahren so eingestellt wird, dass ein prozentualer Wert vom Betrags-Maximum der durch die jeweilige kopfbezogene Übertragungsfunktion bestimmten Impulsantwort als Onset detektiert wird, insbesondere als ein zwischen 10% und 90% liegender Wert detektiert wird (Schritt 110).
- Vorrichtung zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, wobei die Vorrichtung zur Erzeugung räumlich wahrnehmbarer binauraler Audiosignale (L*, R*) umfasst:eine erste Schaltung (A), die aus kopfbezogenen Übertragungsfunktionen (xRIR), die verschiedenen Kopfpositionen (1...k) zugeordnet sind, interaurale Laufzeiten (TL, TR) extrahiert und daraus Laufzeit-Differenzen (ITD) berechnet;eine zweite Schaltung (BB), die mittels einer Binauralsynthese laufzeitbefreite Audiosignale (L', R') erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei diese Schaltung in Abhängigkeit von Kopfpositions-Daten (HTDAT) die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xRIR*) für eine aktuelle Kopfposition (1...k) verwendet; gekennzeichnet durchmindestens eine dritte Schaltung (BA*; C*), die aus den laufzeitbefreiten Audiosignalen (L', R') die individuell anpassbaren binauralen Audiosignale (L*, R*) erzeugt, indem diese Schaltung zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal (L') mit einer zeitlichen Verzögerung (VDL) in Abhängigkeit von der für die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und in Abhängigkeit eines individuellen Skalierungsfaktors (ISF) beaufschlagt,wobei die mindestens eine dritte Schaltung (BA*; C*) bei einer auftretenden Änderung von einer vorherigen Kopfposition (k=1) in die aktuelle Kopfposition (k=2) die zeitliche Verzögerung (VDL) zwischen einem ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion (SRC) verändert, wobei die Abtastratenkonversion einen Konversionsfaktor verwendet um das laufzeitbefreite Audiosignal um den Konversionsfaktor beschleunigt oder verzögert abzuspielen, undden für die Abtastratenkonversion (SRC) verwendeten Konversionsfaktor entsprechend der Änderung von der zu der vorherigen und zu der aktuellen Kopfposition gehörenden zeitlichen Verzögerung ermittelt.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
HRP20160279TT HRP20160279T1 (hr) | 2010-01-07 | 2016-03-18 | Postupak i uređaj za generiranje individualno prilagodljivog binauralnog audio signala |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102010004171 | 2010-01-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
EP2357854A1 EP2357854A1 (de) | 2011-08-17 |
EP2357854B1 true EP2357854B1 (de) | 2016-03-09 |
Family
ID=43759806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP10197378.2A Active EP2357854B1 (de) | 2010-01-07 | 2010-12-30 | Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP2357854B1 (de) |
ES (1) | ES2571044T3 (de) |
HR (1) | HRP20160279T1 (de) |
HU (1) | HUE028661T2 (de) |
PL (1) | PL2357854T3 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12028701B2 (en) | 2023-02-06 | 2024-07-02 | Dolby Laboratories Licensing Corporation | Methods and systems for designing and applying numerically optimized binaural room impulse responses |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3090576B1 (de) | 2014-01-03 | 2017-10-18 | Dolby Laboratories Licensing Corporation | Verfahren und vorrichtung für die erstellung und die anwendung numerisch optimierter binauraler raumimpulsantworten |
CN112954582A (zh) | 2016-06-21 | 2021-06-11 | 杜比实验室特许公司 | 用于预渲染的双耳音频的头部跟踪 |
US9848273B1 (en) | 2016-10-21 | 2017-12-19 | Starkey Laboratories, Inc. | Head related transfer function individualization for hearing device |
GB2601805A (en) * | 2020-12-11 | 2022-06-15 | Nokia Technologies Oy | Apparatus, Methods and Computer Programs for Providing Spatial Audio |
CN113821190B (zh) * | 2021-11-25 | 2022-03-15 | 广州酷狗计算机科技有限公司 | 音频播放方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6118875A (en) | 1994-02-25 | 2000-09-12 | Moeller; Henrik | Binaural synthesis, head-related transfer functions, and uses thereof |
US7174229B1 (en) | 1998-11-13 | 2007-02-06 | Agere Systems Inc. | Method and apparatus for processing interaural time delay in 3D digital audio |
GB2351213B (en) | 1999-05-29 | 2003-08-27 | Central Research Lab Ltd | A method of modifying one or more original head related transfer functions |
GB2369976A (en) | 2000-12-06 | 2002-06-12 | Central Research Lab Ltd | A method of synthesising an averaged diffuse-field head-related transfer function |
GB0419346D0 (en) * | 2004-09-01 | 2004-09-29 | Smyth Stephen M F | Method and apparatus for improved headphone virtualisation |
-
2010
- 2010-12-30 ES ES10197378T patent/ES2571044T3/es active Active
- 2010-12-30 HU HUE10197378A patent/HUE028661T2/en unknown
- 2010-12-30 PL PL10197378.2T patent/PL2357854T3/pl unknown
- 2010-12-30 EP EP10197378.2A patent/EP2357854B1/de active Active
-
2016
- 2016-03-18 HR HRP20160279TT patent/HRP20160279T1/hr unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12028701B2 (en) | 2023-02-06 | 2024-07-02 | Dolby Laboratories Licensing Corporation | Methods and systems for designing and applying numerically optimized binaural room impulse responses |
Also Published As
Publication number | Publication date |
---|---|
ES2571044T3 (es) | 2016-05-23 |
EP2357854A1 (de) | 2011-08-17 |
PL2357854T3 (pl) | 2016-09-30 |
HUE028661T2 (en) | 2016-12-28 |
HRP20160279T1 (hr) | 2016-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3069530B1 (de) | Verfahren und vorrichtung zum komprimieren und dekomprimieren von schallfelddaten eines gebiets | |
DE4328620C1 (de) | Verfahren zur Simulation eines Raum- und/oder Klangeindrucks | |
DE102006050068B4 (de) | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm | |
EP1977626B1 (de) | Verfahren zur aufnahme einer tonquelle mit zeitlich variabler richtcharakteristik und zur wiedergabe | |
EP1520447B1 (de) | Verfahren und vorrichtung zur erzeugung von daten über die gegenseitige lage von mindestens drei schallwandlern | |
EP1671516B1 (de) | Vorrichtung und verfahren zum erzeugen eines tieftonkanals | |
DE602005005186T2 (de) | Verfahren und system zur schallquellen-trennung | |
EP1576847B1 (de) | Audiowiedergabesystem und verfahren zum wiedergeben eines audiosignals | |
EP2357854B1 (de) | Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale | |
Lindau et al. | Individualization of dynamic binaural synthesis by real time manipulation of ITD | |
WO2014187877A2 (de) | Mischpult, tonsignalerzeuger, verfahren und computerprogramm zum bereitstellen eines tonsignals | |
EP1637012A1 (de) | Wellenfeldsynthesevorrichtung und verfahren zum treiben eines arrays von lautsprechern | |
AT394650B (de) | Elektroakustische anordnung zur wiedergabe stereophoner binauraler audiosignale ueber kopfhoerer | |
EP1972181B1 (de) | Vorrichtung und verfahren zur simulation von wfs-systemen und kompensation von klangbeeinflussenden wfs-eigenschaften | |
EP2891334B1 (de) | Erzeugung von mehrkanalton aus stereo-audiosignalen | |
EP3044972B1 (de) | Vorrichtung, verfahren und computerprogramm zur dekorrelation von lautsprechersignalen | |
DE10321980B4 (de) | Vorrichtung und Verfahren zum Berechnen eines diskreten Werts einer Komponente in einem Lautsprechersignal | |
DE10254470B4 (de) | Vorrichtung und Verfahren zum Bestimmen einer Impulsantwort und Vorrichtung und Verfahren zum Vorführen eines Audiostücks | |
EP1471770B1 (de) | Verfahren zur Erzeugung einer angenäherten Teilübertragungsfunktion | |
DE112006002548T5 (de) | Vorrichtung und Verfahren zur Wiedergabe von virtuellem Zweikanal-Ton | |
EP1123638B1 (de) | Vorrichtung und verfahren zur qualitätsbeurteilung von mehrkanaligen audiosignalen | |
DE102011003450A1 (de) | Erzeugung von benutzerangepassten Signalverarbeitungsparametern | |
DE102019217189A1 (de) | Wellenfeldverarbeitungsverfahren | |
EP2503799B1 (de) | Verfahren und System zur Berechnung synthetischer Außenohrübertragungsfunktionen durch virtuelle lokale Schallfeldsynthese | |
AT413010B (de) | Vorrichtung zur herleitung von räumlichen schallsignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
AX | Request for extension of the european patent |
Extension state: BA ME |
|
17P | Request for examination filed |
Effective date: 20120216 |
|
17Q | First examination report despatched |
Effective date: 20140103 |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
INTG | Intention to grant announced |
Effective date: 20150922 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: DEUTSCHE TELEKOM AG |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: REF Ref document number: 780258 Country of ref document: AT Kind code of ref document: T Effective date: 20160315 Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: TUEP Ref document number: P20160279 Country of ref document: HR |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: GERMAN |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 502010011179 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: T1PR Ref document number: P20160279 Country of ref document: HR |
|
REG | Reference to a national code |
Ref country code: SE Ref legal event code: TRGR |
|
REG | Reference to a national code |
Ref country code: NO Ref legal event code: T2 Effective date: 20160309 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FG2A Ref document number: 2571044 Country of ref document: ES Kind code of ref document: T3 Effective date: 20160523 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: FP |
|
REG | Reference to a national code |
Ref country code: LT Ref legal event code: MG4D |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160610 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: RS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 Ref country code: LT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 Ref country code: LV Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 |
|
REG | Reference to a national code |
Ref country code: SK Ref legal event code: T3 Ref document number: E 21058 Country of ref document: SK |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: EE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160709 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160711 Ref country code: SM Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 Ref country code: RO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R097 Ref document number: 502010011179 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 7 |
|
REG | Reference to a national code |
Ref country code: HU Ref legal event code: AG4A Ref document number: E028661 Country of ref document: HU |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 |
|
26N | No opposition filed |
Effective date: 20161212 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: MM4A |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20161230 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20161230 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 8 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160309 |
|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: ODRP Ref document number: P20160279 Country of ref document: HR Payment date: 20181220 Year of fee payment: 9 |
|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: ODRP Ref document number: P20160279 Country of ref document: HR Payment date: 20191220 Year of fee payment: 10 |
|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: ODRP Ref document number: P20160279 Country of ref document: HR Payment date: 20201221 Year of fee payment: 11 |
|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: ODRP Ref document number: P20160279 Country of ref document: HR Payment date: 20211223 Year of fee payment: 12 |
|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: ODRP Ref document number: P20160279 Country of ref document: HR Payment date: 20221227 Year of fee payment: 13 |
|
REG | Reference to a national code |
Ref country code: HR Ref legal event code: ODRP Ref document number: P20160279 Country of ref document: HR Payment date: 20231227 Year of fee payment: 14 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: SK Payment date: 20231213 Year of fee payment: 14 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20231212 Year of fee payment: 14 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: SE Payment date: 20231212 Year of fee payment: 14 Ref country code: NO Payment date: 20231218 Year of fee payment: 14 Ref country code: NL Payment date: 20231219 Year of fee payment: 14 Ref country code: HU Payment date: 20231231 Year of fee payment: 14 Ref country code: HR Payment date: 20231227 Year of fee payment: 14 Ref country code: FR Payment date: 20231212 Year of fee payment: 14 Ref country code: DE Payment date: 20231212 Year of fee payment: 14 Ref country code: CZ Payment date: 20231213 Year of fee payment: 14 Ref country code: BG Payment date: 20231212 Year of fee payment: 14 Ref country code: AT Payment date: 20231213 Year of fee payment: 14 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: PL Payment date: 20231213 Year of fee payment: 14 Ref country code: BE Payment date: 20231218 Year of fee payment: 14 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: ES Payment date: 20240118 Year of fee payment: 14 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: CH Payment date: 20240110 Year of fee payment: 14 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: TR Payment date: 20231221 Year of fee payment: 14 Ref country code: IT Payment date: 20231229 Year of fee payment: 14 |