EP4078993A1 - Verfahren und system zur übermittlung und wiedergabe akustischer informationen - Google Patents

Verfahren und system zur übermittlung und wiedergabe akustischer informationen

Info

Publication number
EP4078993A1
EP4078993A1 EP20821040.1A EP20821040A EP4078993A1 EP 4078993 A1 EP4078993 A1 EP 4078993A1 EP 20821040 A EP20821040 A EP 20821040A EP 4078993 A1 EP4078993 A1 EP 4078993A1
Authority
EP
European Patent Office
Prior art keywords
data part
audio reproduction
reproduction means
information
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP20821040.1A
Other languages
English (en)
French (fr)
Inventor
Albert-Tobias Hammerstingl
Carmen Sommer
Robert Wolf
Michael Romanov
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MU Movie United GmbH
Original Assignee
MU Movie United GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MU Movie United GmbH filed Critical MU Movie United GmbH
Publication of EP4078993A1 publication Critical patent/EP4078993A1/de
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/43615Interfacing a Home Network, e.g. for connecting the client to a plurality of peripherals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/003Digital PA systems using, e.g. LAN or internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention relates to a method and a system for transmitting and reproducing acoustic information.
  • the invention relates to a method and a system which is used in the context of a multimedia application, for example when playing back a movie.
  • the playback of films in the context of cinema screenings usually takes place in larger rooms or possibly also outdoors in such a way that the video image is displayed on a screen, an LED wall, via virtual reality or similar, and the sound is displayed on a screen that is visible to all viewers , that is to say the acoustic information belonging to the video image is reproduced via a central loudspeaker system that can be heard jointly by all viewers.
  • the first problem in this respect is that the spatial perception of the acoustic information that is present in a conventional cinema presentation can only be achieved inadequately with the aid of the headphones.
  • each viewer perceives the acoustic information completely isolated from other viewers, which contradicts the goal usually pursued with a visit to the cinema, namely to see a film together.
  • EP 1 427253 A2 describes a multi-channel audio system which provides for a listening area to be subdivided into several so-called listening rooms, for example a cinema hall with several cinema seats being described as the listening area and the individual listening rooms being formed at the respective cinema seats. Specifically, it is proposed to equip the cinema seats with a plurality of speakers, which in the
  • Head region of the seated user are arranged.
  • the system described provides that two categories of loudspeaker groups are used, with a central loudspeaker group supplying the entire listening area with audio signals and other loudspeaker groups each supplying audio signals individually in the respective listening room output.
  • EP 1 427253 A2 strives for each individual user to have exactly the same audio experience regardless of their position in the listening area, that is to say, for example, regardless of the seating position in the cinema hall.
  • the signals emitted via the individual loudspeaker groups differ from listening room to listening room, since the audio signals emitted via the central loudspeaker group would be perceived differently at the different listening room positions, which is compensated accordingly with the aid of the audio signals emitted via the respective individual loudspeaker group.
  • the audio information output via the central loudspeaker group is therefore also output by the individual loudspeaker groups, but is adapted in each case in such a way that an overall identical perception experience results.
  • all users of the system perceive the incoming audio signals as if they were all, for example, sitting centrally in front of the cinema screen.
  • EP 1 427253 A2 thus describes a multi-channel audio system in which several users at different positions in a listening area should always experience the same audio experience, so that, for example, the seating position in a cinema is no longer relevant for the audio experience, since the perception of the audio signals during individual user is identical anyway. In particular, always
  • Audio signals that are emitted via the central loudspeaker group are also emitted in an individually influenced manner via all loudspeakers of the individual loudspeaker groups, with the spatial and positional dependency of the acoustic perception being eliminated by means of destructive superimpositions of the various audio signals.
  • a method for transmitting and reproducing acoustic information - preferably in a multimedia application - which has the following steps: a) Providing acoustic data in digital form which comprise a first data part and a second data part, the the first data part contains no language information and the second data part s contains language information; b) transmitting the first data part to the first audio reproduction means and outputting acoustic signals corresponding to the first data part by the first audio reproduction means; c) transmitting the second data part to second audio reproduction means and outputting acoustic signals corresponding to the second data part by the second audio reproduction means; wherein the second audio reproduction means are positioned differently in relation to a user assigned to them than the first audio reproduction means - which are not directly assigned to a user -,
  • the user can hear the acoustic signals emitted by the first audio reproduction means, and
  • the acoustic signals emitted by the second audio reproduction means can essentially only be heard by this user who is assigned to the respective second audio reproduction means.
  • Language information is referred to here as language information, which is generally required for the respective user to understand the listening experience, so that the second data part primarily contains so-called comprehension language.
  • the first data part could possibly also contain audio signals of spoken words, which are then irrelevant for understanding or which do not represent speech signals that the user can understand, so that no data of an understanding language is transmitted in this way. It would therefore be conceivable, for example, that the first data part contains a language that is not understandable for the user or users, while the translation that is understandable for a user, which then represents the understanding language, is transmitted with the aid of the second data part.
  • the acoustic signals emitted by the first audio reproduction means and the acoustic signals emitted by the second audio reproduction means therefore have no common intersection.
  • the acoustic signals emitted by the first audio reproduction means, which are not directly assigned to any of the users can then be heard jointly by all users and the acoustic signals emitted by the second audio reproduction means, which are each assigned directly to the users, can essentially each be heard individually and exclusively by the associated user.
  • the acoustic audio information output by the first audio reproduction means and the acoustic audio information output by the second audio reproduction means do not have any overlap.
  • the first acoustic signals emitted by the first audio reproduction means are therefore not emitted by the second audio reproduction means, not even in a modulated manner.
  • a communal listening experience is achieved for the users, with all audio information of the non-understanding language being reproduced by the general first audio reproduction means, and the respective audio information of the understanding language being transmitted individually to each user via the second audio reproduction means. In this way, an improved sound experience is achieved, with joint listening with individual data of the understanding language being made possible.
  • the advantages of the method according to the invention are clearly evident.
  • the invention there is then the possibility of selecting the second part of the acoustic data that is transmitted to the second audio reproduction means depending on a selection made by the user, in particular such that the speech information contained in the second data part is in a The language selected by the user is available.
  • This particularly preferred further development of the invention now makes it possible, for example, to actually play back a movie in such a way that different users can see and hear it at the same time, but in each case in the language they want.
  • the invention opens up the possibility of switching between the different languages at any time - including while the film is running.
  • Developments of the concept according to the invention relate to measures by which, in particular, the reproduction of the acoustic information relating to the second data part, that is to say the speech information, is additionally optimized. It must be taken into account here, for example, that the perception of the acoustic information corresponding to the first data part, which is reproduced by the central first audio reproduction means, is naturally given by the environment being affected.
  • the acoustic properties e.g. of a room in which the film is played, play a role here, since the corresponding acoustic information is ultimately provided by the viewer in a special way, depending on the size and shape of the room and the positioning of the first audio playback device therein be perceived.
  • the acoustic information corresponding to the two data parts should be perceived by the user / viewer / listener in a manner that matches as closely as possible, provision is made according to an advantageous development to modify the second data part in such a way that the room or the location where the playback the acoustic information is taken into account.
  • This can be done in particular through the use of a so-called bi-naural filter, with parameters of the filter preferably being determined on the basis of previously performed test measurements.
  • the way in which sound propagates within the space of reproduction must be determined, for example, once within the framework of acoustic measurements, with the information obtained in this case then flowing into the bi-naural filter so that the
  • Speech information or the acoustic information of the second data part is reproduced in the immediate vicinity of the user, but in such a way that the impression arises that the reproduction would take place in a room that corresponds to the room in which the user is staying . Since this corresponding modification of the second data part should be carried out in the same way for all users regardless of the language selected, it is preferably provided that the second data part is modified centrally and thus in the same way for all users, even if it would be fundamentally conceivable to modify or modify the data accordingly To implement the use of the bi-aural filter directly in the second audio reproduction means.
  • Another development of the concept according to the invention takes into account that not only the space or location of the reproduction itself influences the perception of the acoustic information for the user, but also the position of the user with regard to the first audio reproduction means. Since the acoustic information corresponding to the two data parts is transmitted in different ways, there are runtime differences, in particular the point in time at which the acoustic information corresponding to the first data part is perceived by a user depends on the position of the user in relation to the first acoustic reproduction means depends.
  • the transmission of the acoustic information essentially takes place via sound, which thus leads to a position-dependent transit time delay in relation to the distance to the respective first audio reproduction means, while the second data part is in electronic form almost over the entire route, is transmitted via cable or radio, for example, so that there will also be a delay due to the corresponding processing of the data, but this will be essentially the same for all users, regardless of position.
  • the second data part is therefore additionally modified by the second audio reproduction means before the corresponding acoustic signals are output, in order to be able to take into account the position of the second audio reproduction means in relation to the first audio reproduction means. This essentially involves taking into account a time delay in the reproduction of the acoustic information corresponding to the second data part, this modification then being individual for each
  • a system for transmitting and reproducing acoustic information is also proposed - preferably in a multimedia application - which has: a) a memory device for providing acoustic data in digital form which comprise a first data part and a second data part wherein the first data part contains no language information and the second data part contains language information; b) means for transmitting the first data part to first audio reproduction means; c) first audio reproduction means for outputting acoustic signals which correspond to the first data part; d) means for transmitting the second data part to second audio reproduction means; e) second audio reproduction means for outputting acoustic signals which correspond to the second data part; wherein the second audio reproduction means are positioned differently with respect to a user assigned to them than the first audio reproduction means - which are not directly assigned to a user -, in particular in the immediate vicinity of the user, and are designed such that
  • the user can hear the acoustic signals emitted by the first audio reproduction means, and The acoustic signals emitted by the second audio reproduction means can essentially only be heard by this user assigned to the respective second audio reproduction means.
  • the second audio reproduction means can be, for example, one
  • the second audio reproduction means can preferably be located at a distance of up to one meter from the ear of the user. It can therefore be, for example, headphones on the ear or also playback means built into a headrest or the like, whereas the first audio playback means are preferably an arrangement consisting of one or more loudspeakers.
  • Headphones each have the second audio reproduction means, which are designed such that the second audio signal output by the second audio reproduction means is perceived by the user simultaneously with the audio signal of the first audio reproduction means.
  • FIG. 1 shows a schematic representation of the method of transmitting and reproducing audio information according to the present invention
  • FIG. 2 shows the basic structure of a system according to the invention for carrying out the method for transmitting and reproducing audio information
  • FIG. 3 shows a first example of a user interface for selecting language information desired by a listener
  • FIG. 4 shows a preferred second exemplary embodiment of a possibility for selecting language information desired by a user / viewer / listener directly on the second audio reproduction means assigned to the user / viewer / listener;
  • FIGS. 5 and 6 are views of an exemplary embodiment of a headphone used in the method according to the invention.
  • the procedure according to the invention is to be explained below using the example of a film showing in a closed space, that is to say, for example, a cinema hall.
  • the concept is not limited to closed rooms or halls, but can also be used, for example, for the reproduction of acoustic information in the open air.
  • the transmission and reproduction of acoustic information according to the invention could also take place completely without a simultaneous display of image information.
  • FIG. 1 now schematically shows the method according to the invention for transmitting and reproducing acoustic information in the event that several users or viewers 101 and 102 want to watch a film reproduced in a cinema hall together, but each want to follow the film in a different language.
  • How many users participate in a playback and how many of them choose which of any number of language versions and listen for how long (if, for example, a language change is selected by a user during playback of the film), is the present for the system or the method Invention irrelevant.
  • the system is able to recognize how many users have which language version over what period of time chose or heard during a performance, which may be advantageous with regard to billing with different rights holders of different dubbed versions.
  • an arrangement of loudspeakers 30 is also provided which, depending on the design of the sound system, can be positioned at different points in the cinema and emit sound into the room in such a way that it can be perceived by all viewers located therein.
  • the loudspeakers 30 are located in the area of the screen 50 or the screen, whereby - as already mentioned - significantly more loudspeakers can be present and these can be positioned distributed over the room. It is essential, however, that these loudspeakers 30 are designed to reproduce acoustic information in such a way that they can be perceived by all viewers at the same time.
  • the invention is based on the idea of splitting or subdividing the acoustic information into two content-related non-overlapping parts and then transmitting these different parts in a special way to the listener so that the two parts are then perceived homogeneously as a natural sound image .
  • a corresponding division of the acoustic data is usually relatively easy to carry out or is usually already available from the factory, since the sound information of a film is usually made available in digitized form in several files.
  • Mastering - are stored in specific, uniquely identifiable files. Ideally, the initial splitting of the entire acoustic information is not necessary at all for carrying out the present invention, but rather the acoustic information 15 that has already been made available can be used.
  • the second data part which corresponds to the second sub-area of the divided acoustic information and is intended to contain the speech information, then in principle consists of the corresponding files.
  • the first data portion which corresponds to the first sub-area of the divided acoustic information and does not contain any synchronizable or synchronized speech information, can be made available to all viewers 101 or 102 in the same way, regardless of the language preference, which is why the procedure according to the invention is provided to output the acoustic signals corresponding to this first data part in a centralized manner via the loudspeaker system 30, in such a way that - as in a conventional
  • Cinema presentation - all viewers 101, 102 can in principle hear the corresponding acoustic information together and at the same time.
  • the screen 50 and the loudspeaker system 30 reproduce the film in a form that can be perceived in the same way for all viewers 101, 102, but which initially does not contain any dialogues or any language information.
  • the transmission of this portion of the acoustic information is shown schematically in FIG. 1 by the arrows A, with the viewers 101, 102 naturally hearing the acoustic signal from all loudspeakers 30 of the system.
  • the synchronizable or synchronized voice information of the film forms the second data part of the acoustic information, which according to the invention is made available to viewers 101, 102 in an alternative way. For this purpose it is provided that each viewer 101,
  • These second audio reproduction means 40 do not necessarily have to be headphones, but rather loudspeakers, for example, could also be provided for this purpose, which are individually assigned to a viewer 101 or 102 and are for this purpose in the immediate vicinity (for example at a distance of max. Im) of the audience 101 or 102.
  • the acoustic signals emitted by headphones 40 or by the second audio playback means can only be perceived by the viewer 101 or 102 assigned to them, i.e. only these viewers 101 or 102 receive the corresponding acoustic signals can hear.
  • the language information to be reproduced by the individually assigned headphones 40 are now transmitted to the headphones 40 in such a way that the respective viewer 101 or 102 is provided with the language information in the language desired by him.
  • This is shown schematically in FIG. 1 by the arrows B. That is, the viewer 101 shown in FIG. 1 hears the language information associated with the film in a first language, for example in German, with the aid of the headphones 40, while the second user, however
  • the language information reproduced by the headphones 40 can be made available in a second language, for example in English. Both viewers 101 and 102 can therefore now receive the language information according to their individual choice. It should be pointed out here that users 0 will usually select the version of the language information they want at the beginning or before the presentation, but there may be the possibility at any time to switch to a different version even during the ongoing presentation. Every second audio reproduction means provides the user assigned to this with all available language information, from which this user The user can then select or change the desired language version at any time - for example directly on the second audio playback device itself (FIG. 4) or via an additional device built in or loose (FIG. 3).
  • the headphones 40 of the system according to the invention are designed in such a way that the respective associated viewer 101, 102 not only hears the acoustic information reproduced by the headphones 40, but also the acoustic information provided centrally via the loudspeaker system 30 at the same time.
  • Both viewers 101, 102 thus receive acoustic signals on two different routes A, B, on the one hand the signals outputted via the loudspeaker system 30 that do not contain any speech information and on the other hand the speech information played individually via the headphones 40 in the form requested by the respective viewer / listener / user Language.
  • the hearing of the viewers 101, 102 then in turn combines or supplements the received s or information heard, so that in combination therefrom one - in the case of the
  • Audio information refers to the language information that is generally understandable for the user - so-called comprehension language -, primarily - preferably exclusively - audio information with comprehension language being transmitted via the loudspeakers assigned to the users individually or via the headphones 40 , whereas the audio signals output via the loudspeaker system 25 30 do not contain any audio information with comprehension language.
  • the audio signals output via the loudspeaker system 30 and the audio signals output via the individually assigned loudspeakers or headphones 40 therefore do not overlap.
  • Documentation films or reports represent an application example for language information that does not represent a language of understanding and is thus transmitted via the first data part.
  • the language selected by the user or viewer 101, 102 is used as the language of understanding via the individually assigned loudspeakers, or via the headphones 40, are transmitted, whereas an original sound with the original speech and background noise is output as a non-understanding speech through the general speaker system 30.
  • the acoustic information output via the headphones 40 may also contain, to a certain extent, additional audio information such as background noises or the like.
  • this second data part of the audio signals consists exclusively of language information, more precisely from the language of understanding explained above.
  • One advantage of the solution according to the invention is that at least part of the acoustic information, in particular the part that does not contain any speech information, is reproduced centrally by the loudspeaker 30 and thus heard jointly by all viewers.
  • this communal listening is also characterized by the fact that the user is informed that he is experiencing the audio experience as part of the room - for example the cinema hall.
  • the aim of the present invention is that the user receives a listening experience individualized by the respective understanding language without noticing it, since the complementary interplay of understanding language audio information and non-understanding language audio information is given to him gives a communal feeling of hearing. Ultimately, the viewer is given the impression that he and all other viewers perceive the film in the same way, although the reproduction of the acoustic information is individually adapted, particularly with regard to the language.
  • the listening experience is further improved in that the user has a natural spatial perception.
  • a user located in a back corner will therefore perceive the audio information altogether differently than a user who for example sitting right in front of the screen.
  • the retention of this spatially natural, acoustically plausible perception is achieved by the fact that the audio information of the second data part represents a content addition that is matched to the audio information of the first data part, but does not change the audio information of the first data part - perceived jointly by all users 5 .
  • MUSIC and EFFECTS are output to all listeners via the central loudspeaker, but the local loudspeakers are used to output the MUSIC and EFFECTS components in addition to the DIALOG part, in order to provide the desired position-independent listening experience for the entire listening area or for all participants achieve.
  • EP 1 427253 A2 provides that the audio information reproduced from the second audio reproduction means is superimposed on the audio information reproduced from the first audio reproduction means, this superimposition in terms of content and with regard to the second audio information with frequency modulation takes place.
  • another advantage of the present invention is that the amount of data that corresponds to the audio information via the second audio reproduction means is less than is the case in the prior art. The amount of data that is to be transmitted to the listener on the second path can thus be reduced, so that ultimately the method can also be carried out with less technical effort.
  • Combining or complementing each other of the acoustic signals transmitted on the different paths is improved by the hearing of a viewer.
  • the acoustic signals emitted by the central loudspeaker system 30, i.e. the sound waves, are usually naturally influenced or modified by the characteristics of the room before they reach the audience 101 and 102 and are heard by them become.
  • the room or the location of the playback is particularly influenced by the fact that the sound emitted by the loudspeakers is reflected on walls or other surfaces within the room and is additionally modified in a way that characterizes the room, e.g. partially attenuated in certain frequency ranges before it arrives at the viewers 101, 102 and is heard and perceived by them.
  • a classic example of this is that the shape and size of a room, for example, the reverberation in a influenced in a certain way. Damping surface, wall or ceiling areas can also dampen or particularly influence certain frequencies of the acoustic signal, this also being different depending on the location or room of the reproduction.
  • the auricles play an important role here. They act as mechanical-acoustic filters and ensure that the sound has a typical frequency response profile on the eardrum, depending on the direction it hits, which is known as the outer ear transfer function or Head Related Transfer Function (HRTF).
  • HRTF Head Related Transfer Function
  • acoustic measurements are used to investigate how a sound signal is influenced by a corresponding room or location, and the measurements can be used to determine certain parameters that qualitatively describe the way in which the room or location modifies the sound signal.
  • bi-naural filters are used to influence or modify the acoustic signal before it is emitted through headphones in such a way that it gives the impression that it was emitted as a whole in one room and from one direction which corresponds to the parameters of the associated bi-naural filter.
  • the quality of the listening experience is significantly increased as a result, since both parts of the acoustic information can be perceived by the viewer in the same way and thus easily combined by their hearing as an overall perception. For the individual viewer, the impression is again reinforced that he is hearing all the acoustic information together with all the other viewers.
  • the parameter values used for the bi-naural filter are determined experimentally on the basis of measurements. This means that, for example, for each room in which a reproduction is to be carried out in accordance with the method according to the invention, a corresponding measurement is carried out once, by means of which the sound behavior of the room is characterized. The information obtained in this way can then, however, be used permanently for the implementation of the Method according to the invention can be used, provided that the acoustic properties of the room do not change significantly.
  • a bi-naural room-acoustic measurement of the loudspeakers 30 in the playback room is carried out and extracted into so-called “Binaural Room Impulse Responses”.
  • a so-called artificial head i.e. a head replica in which a microphone with omnidirectional characteristics is attached to the entrance of the auditory canals with the replica of the auricles
  • the room acoustic properties of each loudspeaker 30 of the system in the ideal sitting position so measured at the same distance from all speakers 30 in the middle of the room with respect to the artificial head.
  • Measurements are made with a logarithmic sweep over the frequency range from 20Hz to 20,000Hz, which covers the human hearing range.
  • the aim is to virtualize the playback behavior of the loudspeakers 30 in the respective room in the headphones 40 of a user during the subsequent use of the system by means of convolution of the audio signal with the “binaural room impulse responses”.
  • sound tracks or the acoustic information are separated into two parts, a first part for playback on the real loudspeakers 30 in the room (in the example of the cinema scenario the acoustic information relating to the music and effects), and a second part of acoustic information which are provided by means of folding with "Binaural Room Impulse Responses" for playback via the loudspeakers virtualized in the headphones 40 (in the example of the cinema scenario that is the language of understanding).
  • the measurements then lead to a pair of impulse responses per loudspeaker, i.e. for the left and right ear.
  • impulse response pairs are loaded into a convolver (convolution algorithm) in the playback system.
  • the loudspeaker signal intended for the virtual reproduction in the headphones 40 is then folded with the two impulse responses for the right and left ear per loudspeaker.
  • the playback system folds the 5.1 5 playback signals with the measured bi-naural impulse responses of the real listening room.
  • the speech signal is thereby processed in such a way that it sounds and feels in the headphones 40 as if the speech signal came from the real loudspeakers 30 ro in the playback room.
  • the exemplary headphones 30 are designed as open headphones, which means that all noises outside of the headphones 30, as well as the signals coming directly from the headphones, can be perceived jointly by the user and thus result in an overall listening experience in the brain be merged.
  • a spatial filter is added to the audio information reproduced by the second audio reproduction means, which artificially enhances the natural spatial manner of the acoustic perception of the human ear of the audio information reproduced by the first audio reproduction means Reproduction of the audio information from the second audio reproduction means and its acoustic transmission from loudspeakers over the area of the performance, as well as over the head and the auricles of the listener to the ear canal. This results in a holistic sound image and a natural-spatial listening experience or a natural-location-related spatial perception for the listener.
  • the user's head posture corresponds to that of the artificial head. If, on the other hand, the user turns his head, the spatial image in the headphones would rotate with it, while it would remain fixed at the loudspeaker positions in the real listening room. Further measures will therefore be taken at a later date described, by means of which the reproduction of the acoustic information via the headphones 40 can be optimized again in order to be able to achieve a further improved coordination with the reproduction via the loudspeakers 30. On the basis of a single or only a few bi-naural measurement (s), the reproduction of the acoustic information via the headphones 40 can then be adapted to the actual position of the user and his / her head posture.
  • the second audio playback means e.g. the headphones
  • they have the ability to automatically carry out such a measurement - independently or after activation - and in turn automatically convert the result into a corresponding one Filters for precisely these second audio reproduction means themselves - or in the master-slave mode also for coupled, any number of other second audio reproduction means - to convert.
  • This procedure is particularly useful when a corresponding adaptation of the filter has to be carried out flexibly or individually, which is the case, for example, when used in the home theater area or for private purposes in the living room or the like.
  • the headphones 40 themselves, however, a further modification of the data or the reproduction of the acoustic information can then be carried out in order to - as already mentioned above - the position and possibly the head posture of the user must also be taken into account. It is taken into account here that the viewers 101, 102 or listeners are located in different areas within the room and accordingly have different distances from the different loudspeakers of the central loudspeaker system 30.
  • the transmission of the second data part to the headphones 40 takes place electronically, e.g. via cable, radio, WLAN, Bluetooth ... that it can be assumed that there is essentially simultaneous transmission to all viewers at the speed of light. If it is also assumed that the processing of the signal required in the headphones 40 and the reproduction of the associated information takes place with an identical delay, this means that this part of the acoustic information corresponding to the second data part is in principle heard by all viewers 101, 102 at the same time would be. In the example shown, this would lead to a noticeable time delay in the arrival of the centrally output non-speech information compared to the speech information, particularly in the rear rows of seats in the cinema.
  • the point in time of the reproduction of the second acoustic information is adapted in accordance with the position of the viewer.
  • the headphones 40 initially receive the second data part essentially at the same time, but take into account a certain time delay when reproducing the corresponding acoustic information in order to ensure that this information is heard synchronously with the hearing of the acoustic non-speech information output via the central loudspeaker 30 become.
  • the listening experience for viewers 101 and 102 is significantly increased as a result.
  • the absolute impact angle of the sound source or the direction from which the acoustic non-speech information emitted via the central loudspeaker 30 arrives at the viewer can also be taken into account.
  • the angle of impact can be simulated psychoacoustically in the headphones using the so-called ITD (Interaural Time Difference). If a sound source emits a signal directly from the front, there are no temporal differences between the arrival of the sound at the left and right ear. In this way, the listener in the headphones has the feeling that a sound source is positioned centrally in front of him when the corresponding sound signals are reproduced in both ears at the same time. If, on the other hand, the sound source is positioned on the right, for example, the sound would first arrive at the right ear and only - at a distance of 16 cm from the ear - with a delay of about 0.65 milliseconds at the left ear. This ITD can give the listener the feeling that the sound is arriving from the right, although both levels can be identical.
  • ITD Interaural Time Difference
  • the distance and the viewing and therefore “listening” angle for each seat is stored in a so-called look-up table. It must then be determined which seat the viewer actually occupies, whereby this can be achieved, for example, using the following procedures:
  • I) Indoor GPS Using 4 synchronized transmitter modules and one receiver module each, which is integrated into the headphones, for example, the position in space can be determined using the 4 transit time differences of the corresponding signals (e.g. from ultrasonic signals used for this purpose) and by solving a non-linear fourth-order equation non-linear optimization can be calculated and used as a basis for the delay of the signal reproduction.
  • Each seat is equipped with an RFID tag and each headphone with an RFID reader. As soon as the viewer is in his seat, the headphones recognize which seat the viewer is in. The seating position for each RFID tag is in turn stored in a look-up table so that the position of the viewer can be determined in a simple manner.
  • the second audio data can also be transmitted in a wired manner, with the headphones then each having a corresponding connection, for example at the associated place in the cinema hall get connected. Since the position of the headphone connection is known in this case, the position of the headphone can be determined directly, so that it can either calculate a suitable time delay independently or it is informed of this accordingly.
  • the headphones or an operating unit assigned to the headphones have means for inputting the position or the location and a corresponding transit time delay is then calculated and / or communicated on the basis of this position.
  • beacon technology based on BLE (Bluetooth Low Energy) would also be an option to determine the position of the viewer.
  • the seat of the receiver device can then be localized. With a signal range of up to 50m, this technology offers a good relationship between distance and accuracy, and thus a sensible alternative to RFID, NFC or WLAN technology.
  • the distance and the absolute angle to the central loudspeaker can be calculated and two individual “static” delays can be set accordingly for the right and left ears.
  • the distance results in a general transit time delay, which is then modified individually for both ears as a function of the angle.
  • the correction just explained relates to an individual loudspeaker of the loudspeaker system provided for reproducing the first audio data. If the system consists of several loudspeakers and these are arranged in a distributed manner, the distance between the audience and the angle of impact of the associated sound can ideally be taken into account individually for each individual loudspeaker. This would lead to the corresponding second audio data then each corresponding to the individual loudspeaker Runtime modifications received, which are additionally modified for the two ears depending on the angle.
  • the viewer's relative viewing angle can continue to change with his head movements.
  • This angle can be determined, for example, with the help of a gyro sensor which is built into the headphones.
  • this sensor first requires calibration, which could be carried out as follows. At the moment when the viewer takes his place, leans back and reads the RFID tag, it can be assumed that the viewer is looking forward and thus the relative viewing angle is equal to zero, but the absolute angle of the calculation of the sitting position to the middle of the screen, i.e. corresponds to the value stored in the lookup table. Once the gyro sensor has been calibrated in this way, it will then recognize any deviation from the angle stored in the lookup table.
  • the headphone system delays the signal for the signal reproduction at the right or left ear, depending on the head rotation, relatively and dynamically in real time.
  • the ITD can be adjusted for any head movement, with the result that the linguistic information - although not fixed in space by the first audio reproduction means / loudspeakers, but rather through the “movable” second audio reproduction means / headphones (or the like) - remains “spatially fixed” for the user at all times.
  • the procedure according to the invention as well as the additional optimizations with regard to the adaptation of the signal reproduction on the headphones lead to an extremely high-quality listening experience for the viewers, although they can hear acoustic signals in a modified way they want - especially with regard to speech
  • FIG. 2 shows schematically the configuration of a corresponding system 1, with the aid of which the method explained above can be carried out.
  • a central storage unit 5 e.g. in the form of a server, is first required, which provides the video and audio data of the film.
  • the audio data is divided into a first part containing no synchronizable or synchronized voice information and a second part containing synchronizable or synchronized voice information, the second part being able to be present several times, in particular in n different variants, where n is the Corresponds to the number of differently synchronized language versions of the film available.
  • the video data are then first made available to a unit 10, which initiates the reproduction, e.g. on the canvas, the screen or via virtual reality 50 of the system 1.
  • the unit 10 can be a corresponding projector or a driver for a corresponding display, as is known from conventional systems for film or video display.
  • the first part of the audio data should in turn be reproduced centrally for all viewers and is accordingly transmitted to a loudspeaker system 30 via a unit 15.
  • these are the already known components that are used for film playback, so that no changes to the system are required here compared to a classic film or video presentation are.
  • the second part which contains the speech, is namely made available to a distribution unit 20 which is ultimately responsible for transmitting the corresponding second data to the loudspeakers or headphones 40 individually assigned to the viewers.
  • the second part containing the speech - that is to say the understanding speech part - has no overlap of audio data with the first part of the audio data, the first part of the audio data only containing audio data with incomprehensible speech.
  • the transmission of the data from the distribution unit 20 to the headphones 40 can take place both wired and wirelessly. It is essential that each loudspeaker or headphone 40 must be able to receive at least the version of the second data corresponding to the desired language. This can take place, for example, in that individual communication is established between the unit 20 and the corresponding headphones 40 and thus only the data is transmitted to the respective headphones 40 in the version corresponding to the desired language.
  • all different language versions could also be transmitted simultaneously by the unit 20 and thus to all headphones 40, the headphones 40 then receiving all the data, but only using the portions of the data corresponding to the desired language version and ultimately reproducing them.
  • the bi-naural filter corresponding to the sound propagation in the room is, as already mentioned, preferably applied in the same way to all second data parts. Accordingly, it is preferably provided that this filter 21 is implemented in the distribution unit 20, so that the data output by this unit 20 has already been modified in a suitable manner. In this case, the audio data stored in the central storage unit 5 are initially available in a form that is independent of the playback space.
  • the headphones 40 themselves should carry out at least the above-mentioned second modification in the reproduction of the speech information by applying an appropriate time delay filter. For this, it is necessary that the headphones 40 recognize their position within the room or know which time delay is to be used, the different procedures I) to IV) mentioned above in particular being conceivable for determining the position.
  • the affected track Although this would be perceptible to the listener for a short time, in extreme cases it would be necessary as a correction as part of a back-up mechanism.
  • the headphones 40 that - as mentioned above - they must be designed in such a way that, in addition to reproducing the signals corresponding to the second audio data, they must also enable the sound signals corresponding to the first audio data to be heard at the same time. This means that the headphones 40 are not allowed to block or suppress external sound signals, but rather for such signals must be transparent. In this sense, one can also speak of “transparent headphones”.
  • the corresponding loudspeakers of the headphones 40 do not close around the ears of a user in a sound-reducing manner, but are designed in such a way that external sound waves can also enter the ear canal of the listener unhindered and unchanged.
  • an arrangement of the loudspeakers at a distance of up to 1 m would be conceivable, with the loudspeakers then being able to be integrated, for example, into a headrest or built in a comparable manner.
  • the second reproduction means do not necessarily have to be headphones.
  • FIG. 3 shows a corresponding system, which consists of the headphones 40 themselves and a communication device 45 connected to them and assigned to the user.
  • this communication device 45 can be a mobile phone of the user, which communicates wirelessly or wired with the distribution unit 20 shown in FIG. 2 and on the other hand is connected wirelessly - e.g. via Bluetooth - or wired to the headphones 40.
  • application software is installed on the mobile radio device 45, which enables the user to participate in the transmission method according to the invention, the application software initially being used to establish wireless or wired communication with the distribution unit 20 - for example in the context of a WLAN Network or by means of Bluetooth - and then, for example, using a graphical user interface 46, the user can enter the language he wants on the one hand and, on the other hand, his place in the cinema, for example.
  • a manual entry of the seat is of course not necessary if - as explained in the above examples - the system itself is able to recognize the position of the user.
  • the second data is then transmitted wirelessly or by wire, which data is then played back on the headphones 40.
  • the data is preferably transmitted directly from the distribution unit 20 to the headphones 40, so that the mobile radio device 45 primarily in this case is used as a remote control.
  • the mobile radio device 45 forwards the data received from the distribution unit 20 to the headphones 40.
  • the position information can also be used to adjust the duration of the time delay for the reproduction of the second audio data accordingly.
  • FIG. 4 shows an exemplary side view of a corresponding headphone 40.
  • a display 48 which shows the selected voice channel, which can be changed with the aid of simple control buttons 49 or a digital or sensory control panel.
  • the headphones 40 are coupled to the central distribution unit 20 via appropriate communication means (e.g. radio, Bluetooth, WLAN or wired).
  • FIGS. 5 and 6 show a conceivable exemplary embodiment of a
  • Headphone 40 which is designed in such a way that, within the meaning of the present invention, it enables the acoustic signals emitted by the headphones 40 to be perceived as well as the centrally emitted acoustic signals at the same time.
  • the embodiment shown in FIGS. 5 and 6 also has an approximately U-shaped bracket 50, on the two opposite ends of which corresponding loudspeakers 51 for emitting the acoustic signals are arranged.
  • the additional perception of external acoustic signals, in particular the acoustic signals emitted by the central loudspeakers 30, is made possible by providing a conically widening support element 55 starting from the respective approximately cylinder-like loudspeaker housing 52, which is arranged on the head of a listener to enclose the respective ear is, however, the wall 56 of this Ab support element 55 is made sound-permeable.
  • the Sound permeability is achieved in that the wall area 56 is designed in the manner of a grid and accordingly has a large number of openings which enable the essentially unimpeded passage of sound.
  • the headphones 40 enable the two parts of acoustic signals to be perceived, with the arrangement of the actual loudspeakers 51 in the immediate vicinity of the user ensuring that essentially only the user of the headphones 40 can hear the acoustic signals reproduced by the headphones 40 Hears signals. It is true that these can possibly also be perceived very weakly by a neighboring listener, but the listening experience according to the present invention is not decisively influenced by this.
  • second audio reproduction means configured differently as an alternative to the headphones shown. If these are arranged in a suitable manner, in particular in the vicinity of the listener, the natural-spatial sound experience desired according to the invention can also be achieved with such reproduction means.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

Bei einem Verfahren zur Übermittlung und Wiedergabe akustischer Informationen, werden akustische Daten, bereitgestellt, welche einen ersten Datenteil und einen zweiten Datenteil umfassen, wobei der erste Datenteil keine Sprachinformationen enthält und der zweite Datenteil Sprachinformationen enthält. Die Daten werden jeweils durch erste und zweite Audio-Wiedergabemittel (30, 40) wiedergegeben, derart, dass alle Benutzer (101, 102) die von den ersten Audio-Wiedergabemitteln (30) abgegebenen akustischen Signale gemeinsam hören können und die von den zweiten Audio-Wiedergabemitteln (40) abgegebenen akustischen Signale im Wesentlichen ausschließlich durch den zugehörigen Benutzer (101, 102) gehört werden können.

Description

Verfahren und System zur Übermittlung und Wiedergabe akustischer
Informationen Die vorliegende Erfindung betrifft ein Verfahren sowie ein System zur Übermittlung und Wiedergabe akustischer Informationen. Insbesondere betrifft die Erfindung ein Verfahren und ein System, welches im Rahmen einer Multimedia- Anwendung, bspw. bei der Wiedergabe eines Kinofilms zum Einsatz kommt. Die Wiedergabe von Filmen im Rahmen von Kinovorführungen findet üblicherweise in größeren Räumen oder ggf. auch im Freien derart statt, dass das Videobild auf einer für alle Zuschauer sichtbaren Leinwand, einer LED-Wall, per Virtual Reality o.ä. dargestellt wird und der Ton, also die zu dem Videobild gehörenden akustischen Informationen über ein zentrales, d.h. durch alle Zuschauer gemeinsam hörbares Lautsprechersystem wiedergegeben wird. Alle Zuschauer hören in diesem Fall also die identischen akustischen Informationen, was insbesondere bedeutet, dass im Falle von Dialogen oder allgemein von Sprachinformationen diese grundsätzlich in der identischen Sprache durch alle Beobachter wahrgenommen werden. Es besteht allerdings zunehmend der Wunsch oder das Bedürfnis, im Rahmen einer Filmvorführung den Zuschauern die Möglichkeit zu eröffnen, den Film flexibel in einer gewünschten Sprache individuell zur Verfügung zu stellen. D.h., idealerweise sollten verschiedene Zuschauer in der Lage sein, gleichzeitig den Film zu sehen, ihn allerdings trotz allem jeweils in einer von Ihnen gewünschten Sprache zu verfolgen. Dies erfordert es, den Zuschauern jeweils individuell angepasste akustische Informationen zu übermitteln.
Eine naheliegende und bereits bekannte Lösung für dieses Problem besteht darin, dass jeder Zuschauer Kopfhörer trägt, wobei dann das akustische Signal entsprechend dem Wunsch des Zuschauers die darin enthaltenen Sprachinformationen in der von ihm gewünschten Sprache enthält und durch die Kopfhörer wiedergegeben wird. Da in der Regel in unterschiedlichen Sprachen synchronisierte Fassungen eines Films vorliegen, wird in diesem Fall dann dem Zuhörer - zumeist über Mobilfunkgeräte mit entsprechenden Apps (z.B. myLINGO, Native Waves, SoundFi...) - diejenige Fassung übermittelt, die seiner gewünschten Sprache entspricht, wobei er diese dann unmittelbar über seinen Kopfhörer wahrnehmen kann. Auf eine zentrale Wiedergabe der akustischen Informationen mit Hilfe eines zentralen Lautsprechersystems könnte dann verzichtet werden, da jeder Zuschauer ohnehin ausschließlich über den Kopfhörer die akustischen Informationen hört bzw. wahrnimmt. In Realität wird allerdings meistens der Film mit einer Sprache zentral wiedergegeben, wobei Zuschauer, die den Film in einer davon abweichenden Sprache verfolgen möchten, dann diese mit allen weiteren zugehörigen Toninformationen individuell über o.g. Apps o.ä. zusätzliche Devices übermittelt bekommen
Es hat sich allerdings herausgestellt, dass die oben geschilderte Variante zu einem nicht befriedigenden Ergebnis führt. Problematisch ist in dieser Hinsicht zunächst, dass die bei einer üblichen Kinovorstellung vorliegende räumliche Wahrnehmung der akustischen Informationen mit Hilfe des Kopfhörers nur unzureichend erzielt werden kann. Insbesondere besteht allerdings das Problem, dass jeder Zuschauer vollkommen isoliert von anderen Zuschauern die akustischen Informationen wahmimmt, was dem mit einem Kinobesuch üblicherweise angestrebten Ziel, nämlich gemeinschaftlich einen Film zu sehen, widerspricht. Bei der ebenfalls beschriebenen Variante, bei der der Film mit einer Sprache zentral wiedergegeben wird und davon abweichende Sprachen individuell per App o.ä. zur Verfügung gestellt werden, können ferner Echos oder das Problem einer sog. Doppelbeschallung auftreten, weil die - mit Ausnahme der unterschiedlichen Sprachen - identischen Audioinformationen eines Films durch Lautsprecher und Kopfhörer wiedergegeben werden, was sich wiederum störend auf das Hörerlebnis auswirkt.
In der EP 1 427253 A2 wird ein Mehrkanalaudiosystem beschrieben, welches vorsieht einen Hörbereich in mehrere sog. Hörräume zu unterteilen, wobei beispielsweise ein Kinosaal mit mehreren Kinositzen als Hörbereich beschrieben ist und die einzelnen Hörräume an den jeweiligen Kinositzen ausgebildet sind. Konkret wird vorgeschlagen, die Kinositze mit einer Mehrzahl von Lautsprechern auszustatten, welche in der
Kopfregion des sitzenden Benutzers angeordnet sind. Das beschriebene System sieht vor, dass zwei Kategorien von Lautsprechergruppen verwendet werden, wobei eine zentrale Lautsprechergruppe den gesamten Hörbereich mit Audiosignalen versorgt und andere Lautsprechergruppen jeweils individuell im jeweiligen Hörraum Audiosignale ausgeben. Hierbei ist entscheidend, dass in der EP 1 427253 A2 angestrebt wird, dass jeder einzelne Benutzer unabhängig von seiner Position im Hörbereich, also beispielsweise unabhängig von der Sitzposition im Kinosaal, exakt das selbe Audioerlebnis hat. Die über die individuellen Lautsprechergruppen abgegebenen Signale sind von Hörraum zu Hörraum unterschiedlich, da die über die zentrale Lautsprechergruppe abgegebenen Audiosignale an den unterschiedlichen Hörraumpositionen verschieden wahrgenommen werden würden, was mit Hilfe der über die jeweilige individuelle Lautsprechergruppe abgegebenen Audiosignale dementsprechend kompensiert wird. Die über die zentrale Lautsprechergruppe ausgegebenen Audioinformationen werden also zusätzlich auch durch die individuellen Lautsprechergruppen ausgegeben, allerdings jeweils derart angepasst, dass sich insgesamt ein identisches Wahmehmungserlebnis ergibt. Alle Benutzer des Systems nehmen also unabhängig von ihrer Sitzposition die eintreffenden Audiosignale insgesamt derart wahr, als würden sie alle beispielweise zentral vor der Leinwand des Kinosaals sitzen. In der EP 1 427253 A2 ist somit ein Mehrkanalaudiosystem beschrieben, in welchem mehrere Benutzer an unterschiedlichen Positionen in einem Hörbereich stets das selbe Audioerlebnis erfahren sollen, sodass beispielsweise die Sitzposition in einem Kinosaal nicht mehr relevant für das Audioerlebnis ist, da die Wahrnehmung der Audiosignale beim einzelnen Benutzer ohnehin identisch ist. Hierbei werden insbesondere stets
Audiosignale welche über die zentrale Lautsprechergruppe abgegeben werden in individuell beeinflusster Weise auch über alle Lautsprecher der individuellen Lautsprechergruppen abgegeben, wobei mittels destruktiver Überlagerungen der verschiedenen Audiosignale die Raum- und Positionsabhängigkeit der akustischen Wahrnehmung eliminiert wird.
Ein solches Audiosystem erlaubt dem Benutzer allerdings kein optimales, insbesondere kein akustisch-plausibles Hörerlebnis, da die durch den Benutzer wahrgenommenen Audiosignale die räumliche Audiocharakteristik aufgrund der individuellen Ausgleichsbeschallung durch die jeweiligen Lautsprecher der individuellen Lautsprechergruppe nicht wiedergeben. Abhängig von der tatsächlichen Position des Zuschauers kann sich hier also ein Hörerlebnis ergeben, welches nicht mit der visuellen Wahrnehmung des Zuschauers übereinstimmt. Ferner stellt das im Stand der Technik beschriebene Verfahren eine sehr komplexe Form der Übermittlung der Audiosignale dar, da die über die zentrale Lautsprechergruppe abgegebenen Audioinformationen zusätzlich auch über die lokalen Lautsprechergruppen abgegeben werden müssen. Der vorliegenden Erfindung liegt deshalb die Aufgabenstellung zugrunde, eine Möglichkeit anzugeben, die Wiedergabe akustischer Informationen derart zu optimieren, dass die Wahrnehmung durch einen Benutzer weiter verbessert wird. Insbesondere soll ein gemeinschaftliches, räumlich-natürliches und akustisch plausibles Raumklangerlebnis ermöglicht werden
Die Aufgabe wird durch ein Verfahren zur Übermittlung und Wiedergabe akustischer Informationen gemäß Anspruch 1 sowie durch ein System gemäß Anspruch 11 gelöst. Vorteilhafte Weiterbildungen der Erfindung sind Gegenstand der abhängigen Ansprüche.
Im Gegensatz zu der aus dem Stand der Technik bekannten, oben geschilderten Lösung, bei der die akustischen Informationen immer auf einem einzelnen bestimmten Weg an einen Zuschauer übermittelt werden, wird erfmdungsgemäß vorgeschlagen, für die Übermittlung zwei getrennte Übertragungswege derart zu nutzen, dass die akustischen Informationen aufgeteilt auf beide Wege übermittelt werden, allerdings derart, dass sie letztendlich dann durch einen Benutzer, also einen Zuschauer oder einen Hörer, kombiniert also wie aus einer gemeinsamen Audioquelle wahrgenommen werden können. Die Ermöglichung eines gemeinschaftlichen Hörerlebnisses ist hierbei ein zentraler Bestandteil. Insbesondere ist vorgesehen, die in digitaler Form vorliegenden akustischen Daten in einen ersten Datenteil und einen zweiten Datenteil zu trennen, wobei der zweite Datenteil Sprachinformationen enthält und der erste Teil keine Sprachinformationen enthält, so dass bei Datenteile keine inhaltliche Schnittmenge aufweisen. Während der erste Datenteil, der keine Sprachinformationen enthält, dann mit Hilfe erster Audio-Wiedergabemittel wiedergegeben wird, die keinem Benutzer direkt zugewiesen sind, erfolgt die Wiedergabe des zweiten
Datenteils mit Hilfe zusätzlicher zweiter Audio-Wiedergabemittel, welche allerdings in Bezug auf einen Benutzer derart angeordnet und ausgebildet sind, dass der Benutzer letztendlich die den beiden Datenteilen entsprechenden akustischen Informationen kombiniert wahmehmen kann. Unter „kombiniert“ wird hierbei verstanden, dass der Benutzer letztendlich alle akustischen Informationen derart wahmimmt, als ob sie aus einer gemeinsamen Quelle stammen würden. Hierbei ist essentiell, dass wie bereits erwähnt die Audiodaten des ersten Datenteils und die Audiodaten des zweiten Datenteils keine Überschneidung aufweisen, sondern sich stattdessen inhaltlich 5 ergänzen. Die Audioinformationen des zweiten Datenteils werden ausschließlich über die zweiten Audio-Wiedergabemittel abgegebenen, wohingegen die ersten Audio- Wiedergabemittel keine Audiodaten des zweiten Datenteils wiedergeben.
Erfmdungsgemäß wird also ein Verfahren zur Übermittlung und Wiedergabe ro akustischer Informationen - vorzugsweise in einer Multimedia-Anwendung - vorgeschlagen, welches folgende Schritte aufweist: a) Bereitstellen von in digitaler Form vorliegenden akustischen Daten, welche einen ersten Datenteil und einen zweiten Datenteil umfassen, wobei der erste Datenteil keine Sprachinformationen enthält und der zweite Datenteil s Sprachinformationen enthält; b) Übermitteln des ersten Datenteils an erste Audio-Wiedergabemittel und Ausgabe akustischer Signale, die dem ersten Datenteil entsprechen, durch die ersten Audio-Wiedergabemittel; c) Übermitteln des zweiten Datenteils an zweite Audio-Wiedergabemittel und 0 Ausgabe akustischer Signale, die dem zweiten Datenteil entsprechen, durch die zweiten Audio-Wiedergabemittel; wobei die zweiten Audio-Wiedergabemittel in Bezug auf einen ihnen zugewiesenen Benutzer anders positioniert sind als die ersten Audio- Wiedergabemittel - die keinem Benutzer direkt zugewiesen sind - ,
25 insbesondere in unmittelbarer Nähe des Benutzers, und derart ausgebildet sind, dass
• der Benutzer die von den ersten Audio-Wiedergabemitteln abgegebenen akustischen Signale hören kann und
• die von den zweiten Audio-Wiedergabemitteln abgegebenen 0 akustischen Signale im Wesentlichen ausschließlich durch diesen - den jeweiligen zweiten Audio-Wiedergabemitteln zugewiesenen - Benutzer gehört werden können. Als Sprachinformationen werden hierbei Sprachinformationen bezeichnet, welche im Allgemeinen für den jeweiligen Benutzer zum Verständnis des Hörerlebnisses erforderlich sind, sodass der zweite Datenteil primär sogenannte Verständnis- Sprache enthält. Der erste Datenteil könnte ggf. ebenfalls Audiosignale von gesprochenen Wörtern enthalten, die dann allerdings für das Verständnis unerheblich sind bzw. die keine für den Benutzer verständliche Sprachsignale darstellen, sodass auf diesem Weg keine Daten einer Verständnis- Sprache übermittelt werden. Denkbar wäre also z.B., dass der erste Datenteil eine für den oder die Benutzer nicht verständliche Sprache enthält, während hingegen die für einen Benutzer verständliche Übersetzung, die dann die Verständnis- Sprache darstellt, mit Hilfe des zweiten Datenteils übermittelt wird. Die von den ersten Audio-Wiedergabemitteln abgegebenen akustischen Signale und die von den zweiten Audio-Wiedergabemitteln abgegebenen akustischen Signale haben somit keine gemeinsame Schnittmenge. Insbesondere kann vorgesehen sein, dass mehrere Benutzer vorhanden sind, denen jeweils individuell zweite Audio-Wiedergabemittel zugeordnet sind, wobei die von den ersten Audio-Wiedergabemitteln, die keinem der Benutzer direkt zugewiesen sind, abgegebenen akustischen Signale dann durch alle Benutzer gemeinsam gehört werden können und die von den zweiten Audio-Wiedergabemitteln, die jeweils den Benutzern direkt zugewiesen sind, abgegebenen akustischen Signale im Wesentlichen jeweils individuell ausschließlich durch den zugehörigen Benutzer gehört werden können.
Weiterhin weisen die durch die ersten Audio-Wiedergabemittel abgegebenen akustischen Audioinformation und die durch die zweiten Audio-Wiedergabemittel abgegebenen akustischen Audioinformation keine Überschneidungen auf. Die durch die ersten Audio-Wiedergabemitteln abgegebenen ersten akustischen Signale werden somit nicht, auch nicht in einer modulierten Weise, durch die zweiten Audio- Wiedergabemittel abgegeben. Somit wird ein gemeinschaftliches Hörerlebnis für die Benutzer erreicht, wobei sämtliche Audioinformationen der Nicht-Verständnis- Sprache durch die allgemeinen ersten Audio-Wiedergabemittel wiedergegeben werden, und jedem Benutzer individuell die jeweiligen Audioinformationen der Verständnis-Sprache über die zweiten Audio-Wiedergabemittel übermittelt werden. Somit wird ein verbessertes Klangerlebnis erzielt, wobei ein gemeinschaftliches Hören mit individuellen Daten der Verständnis-Sprache ermöglicht ist. Insbesondere im Falle mehrerer Benutzer kommen die Vorteile des erfindungsgemäßen Verfahrens deutlich zum Tragen. Während nämlich bei den im Stand der Technik bekannten Lösungen entweder alle Benutzer gemeinsam ein zentral wiedergegebenes akustisches Signal wahrnehmen oder jeder Benutzer vollkommen getrennt von anderen Benutzern akustische Signale wahmimmt, liegt bei der erfindungsgemäßen Lösung eine Kombination aus akustischen Signalen vor, die zu einem Teil durch alle Benutzer gemeinsam wahrnehmbar sind und zum anderen Teil jedem Benutzer individuell übermittelt werden. Die Isolation bzw. vollständige Trennung zwischen den verschiedenen Benutzern bei der Wahrnehmung akustischer Informationen ist somit aufgehoben und es liegt wiederum ein gemeinschaftliches Hörerlebnis vor, wobei trotz allem gewisse Bestandteile der akustischen Informationen individuell an die Benutzer angepasst werden können. Ferner können die im derzeitigen oben beschriebenen Stand der Technik auftretenden Probleme wie Echos oder eine Doppelbeschallung vermieden werden.
Insbesondere besteht dann gemäß einer vorteilhaften Weiterbildung der Erfindung die Möglichkeit, den zweiten Teil der akustischen Daten, der den zweiten Audio- Wiedergabemitteln übermittelt wird, abhängig von einer Wahl des Benutzers zu wählen, insbesondere derart, dass die in dem zweiten Datenteil enthaltenen Sprachinformationen in einer durch den Benutzer gewählten Sprache vorliegen. Diese besonders bevorzugte Weiterbildung der Erfindung gestattet es also nunmehr, tatsächlich bspw. einen Kinofilm derart wiederzugeben, dass verschiedene Benutzer ihn gleichzeitig sehen und hören können, allerdings jeweils in der von ihnen gewünschten Sprache. Weiterhin eröffnet die Erfindung die Möglichkeit, jederzeit - also auch während des laufenden Films - zwischen den verschiedenen Sprachen zu wechseln.
Weiterbildungen des erfindungsgemäßen Konzepts betreffen Maßnahmen, durch welche insbesondere die Wiedergabe der den zweiten Datenteil betreffenden akustischen Informationen, also der Sprachinformationen zusätzlich optimiert wird. Hierbei ist bspw. zu berücksichtigen, dass die Wahrnehmung der dem ersten Datenteil entsprechenden akustischen Informationen, die durch die zentralen ersten Audio- Wiedergabemittel wiedergegeben werden, naturgegeben durch die Umgebung beeinflusst wird. Hierbei spielen insbesondere die akustischen Eigenschaften bspw. eines Raums, in dem der Film wiedergegeben wird, eine Rolle, da abhängig von der Größe und Form des Raums sowie der Positionierung der ersten Audio- Wiedergabemittel darin die entsprechenden akustischen Informationen letztendlich durch die Zuschauer in besonderer Weise wahrgenommen werden. Hierbei spielt insbesondere eine Rolle, wie sich der entsprechende Schall innerhalb des Raums ausbreiten kann und inwiefern dies beispielsweise zu Halleffekten oder Dämpfungseffekten führt. Da letztendlich idealerweise die den beiden Datenteilen entsprechenden akustischen Informationen in möglichst übereinstimmender Weise vom Benutzer / Zuschauer / Hörer wahrgenommen werden sollen, ist gemäß einer vorteilhaften Weiterbildung vorgesehen, den zweiten Datenteil derart zu modifizieren, dass der Raum bzw. der Ort, an dem die Wiedergabe der akustischen Informationen erfolgt, berücksichtigt wird. Dies kann insbesondere durch den Einsatz eines sog. bi-nauralen Filters erfolgen, wobei Parameter des Filters vorzugsweise anhand zuvor durchgeführter Testmessungen ermittelt werden. D.h., vor Inbetriebnahme des Systems muss bspw. einmalig im Rahmen von akustischen Messungen die Art und Weise, wie sich Schall innerhalb des Raums der Wiedergabe ausbreitet, bestimmt werden, wobei dann die hierbei erhaltenen Informationen in den bi-nauralen Filter einfließen, sodass die
Sprachinformationen bzw. die akustischen Informationen des zweiten Datenteils zwar unmittelbar in der Nähe des Benutzers wiedergegeben werden, allerdings in einer Art und Weise, dass der Eindruck entsteht, die Wiedergabe würde in einem Raum erfolgen, der dem Raum entspricht, in dem sich der Benutzer aufhält. Da dieses entsprechende Modifizieren des zweiten Datenteils unabhängig von der gewählten Sprache für alle Benutzer in gleicherweise erfolgen sollte, ist vorzugsweise vorgesehen, dass der zweite Datenteil zentral und damit für alle Benutzer in gleicher Weise modifiziert wird, auch wenn grundsätzlich denkbar wäre, das entsprechende Modifizieren bzw. Einsetzen des bi-nauralen Filters unmittelbar in den zweiten Audio- Wiedergabemitteln zu implementieren.
Eine andere Weiterbildung des erfindungsgemäßen Konzepts berücksichtigt, dass nicht nur der Raum bzw. Ort der Wiedergabe an sich die Wahrnehmung der akustischen Informationen für den Benutzer beeinflusst, sondern auch die Position des Benutzers im Hinblick auf die ersten Audio-Wiedergabemittel. Da die den beiden Datenteilen entsprechenden akustischen Informationen auf verschiedenen Wegen übermittelt werden, ergeben sich Laufzeitunterschiede, wobei insbesondere der Zeitpunkt, zu dem die dem ersten Datenteil entsprechenden akustischen Informationen durch einen Benutzer wahrgenommen werden, von der Position des Benutzers in Bezug auf die ersten akustischen Wiedergabemittel abhängt. Dies deshalb, da hier die Übermittlung der akustischen Informationen im Wesentlichen über Schall erfolgt, was somit in Bezug auf die Entfernung zu den jeweiligen ersten Audio-Wiedergabemitteln zu einer positionsabhängigen Laufzeitverzögerung führt, während hingegen der zweite Datenteil nahezu über die gesamte Strecke in elektronischer Form, z.B. über Kabel oder Funk übermittelt wird, sodass hier zwar durch die entsprechende Verarbeitung der Daten ebenfalls eine Verzögerung vorliegen wird, welche allerdings im Wesentlichen positionsunabhängig für alle Benutzer gleich sein wird. Um diesen Effekt berücksichtigen zu können, ist deshalb vorgesehen, den zweiten Datenteil vor Ausgabe der entsprechenden akustischen Signale zusätzlich durch die zweiten Audio- Wiedergabemittel zu modifizieren, um die Position der zweiten Audio- Wiedergabemittel in Relation zu den ersten Audio-Wiedergabemitteln berücksichtigen zu können. Es handelt sich hierbei im Wesentlichen um das Berücksichtigen einer zeitlichen Verzögerung der Wiedergabe der dem zweiten Datenteil entsprechenden akustischen Informationen, wobei dieses Modifizieren dann individuell für jeden
Benutzer derart durchgeführt wird, dass eine möglichst synchrone Wahrnehmung der den beiden Datenteilen entsprechenden akustischen Informationen erzielt wird. Damit ist sichergestellt, dass letztendlich die akustischen Informationen aus beiden Wiedergabemitteln vom Benutzer insgesamt einheitlich und homogen wahrgenommen werden können.
Diese erfindungsgemäßen Maßnahmen sorgen beispielsweise in dem oben beschriebenen Beispiel einer Filmvorführung dafür, dass Bild und Ton ideal aufeinander abgestimmt durch den Zuschauer wahrgenommen werden können. Dies gilt dabei für den zentral ausgegebenen Ton ohne Sprachinformationen, insbesondere jedoch auch für den erfindungsgemäß individuell ausgegebenen Tonanteil, der die Verständnis-Sprachinformationen beinhaltet, und der akustisch so aufbereitet wird, dass er über die Kopfhörer so wahrgenommen wird, als käme er zusammen mit dem ersten Datenteil auf natürlichem Wege aus den ersten Audio-Wiedergabemitteln. Die Übermittlung sowohl des ersten als auch des zweiten Datenteils kann jeweils sowohl drahtgebunden als auch drahtlos erfolgen. Ein bevorzugtes Anwendungsbeispiel für das erfindungsgemäße Konzept stellt wie bereits erwähnt die Wiedergabe eines Kinofilms dar, weshalb gemäß einem besonders bevorzugten Ausführungsbeispiel vorgesehen ist, dass zeitgleich mit der Übermittlung und Wiedergabe der akustischen Informationen optische Informationen insbesondere Videoinformationen wiedergegeben werden. Grundsätzlich wäre allerdings die Durchführung des Verfahrens auch unabhängig von der Wiedergabe von Videoinformationen denkbar.
Gemäß der vorliegenden Erfindung wird weiterhin ein System zur Übermittlung und Wiedergabe akustischer Informationen - vorzugsweise in einer Multimedia- Anwendung - vorgeschlagen, welches aufweist: a) eine Speichereinrichtung zum Bereitstellen von in digitaler Form vorliegenden akustischen Daten, welche einen ersten Datenteil und einen zweiten Datenteil umfassen, wobei der erste Datenteil keine Sprachinformationen enthält und der zweite Datenteil Sprachinformationen enthält; b) Mittel zur Übermittlung des ersten Datenteils an erste Audio- Wiedergabemittel; c) erste Audio-Wiedergabemittel zur Ausgabe akustischer Signale, die dem ersten Datenteil entsprechen; d) Mittel zur Übermittlung des zweiten Datenteils an zweite Audio- Wiedergabemittel; e) zweite Audio-Wiedergabemittel zur Ausgabe akustischer Signale, die dem zweiten Datenteil entsprechen; wobei die zweiten Audio-Wiedergabemittel in Bezug auf einen ihnen zugewiesenen Benutzer anders positioniert sind als die ersten Audio-Wiedergabemittel - die keinem Benutzer direkt zugewiesen sind -, insbesondere in unmittelbarer Nähe des Benutzers, und derart ausgebildet sind, dass
• der Benutzer die von den ersten Audio-Wiedergabemitteln abgegebenen akustischen Signale hören kann und • die von den zweiten Audio-Wiedergabemitteln abgegebenen akustischen Signale im Wesentlichen ausschließlich durch diesen dem jeweiligen zweiten Audio-Wiedergabemittel zugewiesenen Benutzer gehört werden können. Bei den zweiten Audio-Wiedergabemitteln kann es sich beispielsweise um einen
Kopfhörer handeln. Vorzugsweise können sich die zweiten Audio-Wiedergabemittel in einem Abstand von bis zu einem Meter vom Ohr des Benutzers entfernt befinden. Es kann sich also z.B. um Kopfhörer am Ohr oder aber auch um in eine Kopfstütze o.ä. verbaute Wiedergabemittel handeln, während hingegen die ersten Audio- Wiedergabemittel vorzugsweise eine Anordnung bestehend aus einem oder mehreren Lautsprechern sind.
Insbesondere kann es sich hierbei um sogenannte „offene Kopfhörer“ handeln, welche dazu ausgebildet sind, einem Benutzer das ungestörte Hören der Audiosignale der ersten Audio-Wiedergabemittel zu ermöglichen. Weiterhin weisen diese offenen
Kopfhörer jeweils die zweiten Audio-Wiedergabemittel auf, die derart ausgeführt sind, dass das durch die zweiten Audio-Wiedergabemittel abgegebene zweite Audiosignal durch den Benutzer simultan mit dem Audiosignal der ersten Audio-Wiedergabemittel wahrgenommen wird.
Nachfolgend soll die Erfindung anhand der beiliegenden Zeichnung näher erläutert werden. Es zeigen:
Figur 1 eine schematische Darstellung des Verfahrens der Übermittlung und Wiedergabe von Audioinformationen gemäß der vorliegenden Erfindung;
Figur 2 den grundsätzlichen Aufbau eines erfindungsgemäßen Systems zur Durchführung des Verfahrens zur Übermittlung und Wiedergabe von Audioinformationen;
Figur 3 ein erstes Beispiel eines Benutzerinterfaces zur Auswahl einer durch einen Hörer gewünschten Sprachinformation; Figur 4 ein bevorzugtes zweites Ausführungsbeispiel einer Möglichkeit zum Auswählen einer durch einen Benutzer / Zuschauer / Hörer gewünschten Sprachinformation direkt am dem Benutzer / Zuschauer / Hörer zugewiesenen zweiten Audio-Wiedergabemittel; und
Figuren 5 und 6 Ansichten eines Ausführungsbeispiels eines bei dem erfindungsgemäßen Verfahren verwendeten Kopfhörers.
Die erfindungsgemäße Vorgehensweise soll nachfolgend anhand des Beispiels einer Filmvorführung in einem geschlossenen Raum, also beispielsweise einem Kinosaal erläutert werden. Wie bereits erwähnt, ist das Konzept allerdings nicht auf geschlossene Räume oder Säle beschränkt, sondern kann auch bspw. bei der Wiedergabe von akustischen Informationen im Freien eingesetzt werden. Auch der Einsatz im Privatbereich beispielsweise in Form eines Heimkinos im Wohnzimmer wäre denkbar, da auch hier oftmals das Bedürfnis besteht, dass mehrere, gleichzeitig ein Video betrachtende Personen die Sprachinformationen in verschiedenen Sprachen hören möchten. Schließlich ist daraufhinzuweisen, dass die erfindungsgemäße Übermittlung und Wiedergabe von akustischen Informationen auch vollkommen ohne eine gleichzeitige Darstellung von Bildinformationen erfolgen könnte.
Ferner ist daraufhinzuweisen, dass im Folgenden die Begriffe „Benutzer“ oder „Zuschauer“ verwendet werden, diese allerdings geschlechtsneutral zu verstehen sind. Die vorliegende Erfindung bezieht sich auf Anwender jeglichen Geschlechts.
Figur 1 zeigt also nunmehr schematisch das erfindungsgemäße Verfahren zum Übermitteln und Wiedergeben akustischer Informationen für den Fall, dass mehrere Benutzer bzw. Zuschauer 101 und 102 gemeinsam einen in einem Kinosaal wiedergegebenen Film betrachten möchten, allerdings jeweils den Film in unterschiedlicher Sprache verfolgen möchten. Wie viele Benutzer an einer Wiedergabe teilnehmen und wie viele hiervon jeweils welche der beliebig vielen Sprachfassung wählen und für wie lang hören (falls beispielsweise während der Wiedergabe des Films ein Sprachwechsel durch einen Benutzer gewählt wird), ist für das System bzw. das Verfahren der vorliegenden Erfindung unerheblich. Jedoch ist das System in der Lage, zu erkennen, wie viele Benutzer welche Sprachfassung über welchen Zeitraum während einer Vorstellung wählten bzw. hörten, was ggf. im Hinblick auf die Abrechnung mit unterschiedlichen Rechteinhabem unterschiedlicher Synchronfassungen von Vorteil sein kann.
Hierbei ist zunächst vorgesehen, dass die Bildinformationen auf einer Leinwand oder einem Bildschirm 50 dargestellt werden, sodass sie also einheitlich von allen Zuschauern 101 und 102 wahrgenommen werden können. Zur Wiedergabe der zugehörigen akustischen Informationen ist ferner eine Anordnung von Lautsprechern 30 vorgesehen, die je nach Ausgestaltung des Soundsystems an verschiedenen Stellen des Kinosaals positioniert sein können und Schall derart in den Raum abgeben, dass er durch alle darin befindlichen Zuschauer wahrnehmbar ist. Im dargestellten Ausführungsbeispiel wird davon ausgegangen, dass die Lautsprecher 30 sich im Bereich der Leinwand 50 bzw. des Bildschirms befinden, wobei - wie bereits erwähnt - auch deutlich mehr Lautsprecher vorhanden sein können und diese über den Raum verteilt positioniert sein können. Wesentlich ist allerdings, dass diese Lautsprecher 30 derart für die Wiedergabe akustischer Informationen ausgebildet sind, dass diese durch sämtliche Zuschauer gleichzeitig wahrnehmbar sind.
Bei bisherigen Systemen war vorgesehen, dass sämtliche Audioinformationen über das von allen Zuschauer wahrnehmbare Lautsprecher- System 30 wiedergegeben wurden. Dies bedeutet allerdings, dass die Zuschauer 101 und 102 den Film lediglich in einer einzigen Sprache verfolgen können.
Erfmdungsgemäß ist deshalb vorgesehen, die zu dem Videobild zugehörigen akustischen Informationen in einer modifizierten Weise wiederzugeben, sodass die Möglichkeit besteht, für die Zuschauer 101 und 102 eine individuelle, angepasste, insbesondere im Hinblick auf die Sprache angepasste Wiedergabe vorzunehmen.
Die Erfindung beruht hierbei auf der Idee, die akustischen Informationen in zwei inhaltlich überschneidungsfreie Anteile aufzuspalten bzw. zu unterteilen und diese verschiedenen Anteile dann auf unterschiedlichen Wegen in spezieller Weise an die Zuhörer zu übermitteln, sodass die beiden Anteile dann homogen als ein natürliches Klangbild wahrgenommen werden. Für den beispielhaften Fall einer Kinovorführung bedeutet dies, dass die ursprünglich zur Verfügung stehenden gesamten akustischen Informationen geteilt bzw. separiert werden, einerseits in einen ersten Anteil, der keine synchronisierbaren bzw. synchronisierten Sprachinformationen enthält (dies wären dann z.B. bei einer in die Bestandteile DIALOG, MUSIK & EFFEKTE unterteilten Film-Audiodatei die Bestandteile MUSIK und EFFEKTE), und andererseits in einen 5 zweiten Anteil (im obigen Beispiel der Bestanteil DIALOG), der - idealerweise ausschließlich - synchronisierbare bzw. synchronisierte Sprachinformationen enthält. Eine entsprechende Aufteilung der akustischen Daten ist üblicherweise verhältnismäßig einfach durchzuführen bzw. liegt in der Regel ohnehin bereits von Haus aus vor, da die Toninformationen eines Films in der Regel digitalisiert in ro mehreren Dateien zur Verfügung gestellt werden, wobei die Sprachinformationen - vor dem sog. Mastering - in bestimmten, eindeutig identifizierbaren Dateien gespeichert sind. Idealerweise ist also zur Durchführung der vorliegenden Erfindung das anfängliche Teilen der gesamten akustischen Informationen gar nicht erforderlich, sondern es kann auf die bereits unterteilt bereitgestellten akustischen Informationen 15 zurückgegriffen werden. Der zweite Datenteil, der dem zweiten Teilbereich der aufgeteilten akustischen Informationen entspricht und die Sprachinformationen enthalten soll, besteht dann also im Prinzip aus den entsprechenden Dateien.
Der erste Datenanteil hingegen, der dem ersten Teilbereich der aufgeteilten 0 akustischen Informationen entspricht und keine synchronisierbaren bzw. synchronisierten Sprachinformationen enthält, kann allen Zuschauern 101 bzw. 102 unabhängig von der Sprachpräferenz in gleicher Weise zur Verfügung gestellt werden, weshalb bei der erfindungsgemäßen Vorgehensweise vorgesehen ist, die diesem ersten Datenteil entsprechenden akustischen Signale zentralisiert über das 25 Lautsprechersystem 30 abzugeben, derart, dass - wie bei einer üblichen
Kinovorführung - alle Zuschauer 101, 102 im Prinzip gemeinsam und gleichzeitig die entsprechenden akustischen Informationen hören können. Letztendlich geben also die Leinwand 50 und das Lautsprechersystem 30 den Film in einer für alle Zuschauer 101, 102 in gleicher Weise wahrnehmbaren Form wieder, die allerdings vorerst noch keine 0 Dialoge bzw. keinerlei Sprachinformationen beinhaltet. Die Übermittlung dieses Anteils der akustischen Informationen ist in Figur 1 schematisch durch die Pfeile A dargestellt, wobei selbstverständlich die Zuschauer 101, 102 das akustische Signal aller Lautsprecher 30 des Systems hören werden. Die synchronisierbaren bzw. synchronisierten Sprachinformationen des Films hingegen bilden wie bereits erwähnt den zweiten Datenteil der akustischen Informationen, der erfindungsgemäß den Zuschauern 101, 102 auf einem alternativen Weg zur Verfügung gestellt wird. Hierzu ist vorgesehen, dass jedem Zuschauer 101,
5 102 individuell weitere Audio-Wiedergabemittel 40 zugeordnet sind. Diese sind im vorliegenden Fall in Form von Kopfhörern 40 dargestellt, wobei zunächst wesentlich ist, dass diese weiteren Audio-Wiedergabemittel 40 im Vergleich zu dem Lautsprechersystem 30 in unmittelbarer Nähe des jeweils zugeordneten Zuschauers
101 bzw. 102 angeordnet sind. Es muss sich also bei diesen zweiten Audio- ro Wiedergabemittel 40 nicht zwingend um Kopfhörer handeln, sondern es könnten auch hierfür z.B. Lautsprecher vorgesehen sein, die einem Zuschauer 101 bzw. 102 individuell zugeordnet sind und sich hierfür in unmittelbarer Nähe (z.B. in einem Abstand von max. Im) des Zuschauers 101 bzw. 102 befinden. Insbesondere ist vorgesehen, dass die von einem Kopfhörer 40 bzw. von den zweiten Audio- 15 Wiedergabemitteln abgegebenen akustischen Signale ausschließlich durch den ihm bzw. ihnen zugeordneten Zuschauer 101 oder 102 wahrnehmbar sind, dass also nur dieser Zuschauer 101 bzw. 102 die entsprechenden akustischen Signale hören kann.
Die durch die individuell zugeordneten Kopfhörer 40 wiederzugebenden 0 Sprachinformationen werden nunmehr an die Kopfhörer 40 derart übermittelt, dass dem jeweiligen Zuschauer 101 bzw. 102 die Sprachinformationen in der von ihm gewünschten Sprache zur Verfügung gestellt werden. Dargestellt ist dies schematisch in Figur 1 durch die Pfeile B. D.h., der in Figur 1 dargestellte Zuschauer 101 hört also mit Hilfe der Kopfhörer 40 die dem Film zugehörigen Sprachinformationen in einer 25 ersten Sprache, beispielsweise in Deutsch, während hingegen dem zweiten Benutzer
102 die durch die Kopfhörer 40 wiedergegebenen Sprachinformationen in einer zweiten Sprache, beispielsweise in Englisch, zur Verfügung gestellt werden. Beide Zuschauer 101 und 102 können also nunmehr die Sprachinformationen entsprechend ihrer individuellen Wahl erhalten. Hierbei ist daraufhinzuweisen, dass die Benutzer 0 üblicherweise zu Beginn bzw. vor der Vorführung die von ihnen gewünschte Fassung der Sprachinformationen auswählen werden, allerdings jederzeit die Möglichkeit bestehen kann, auch während der laufenden Vorführung auf eine andere Version zu wechseln. Jedes zweite Audio-Wiedergabemittel stellt dem diesem zugewiesenen Benutzer alle verfügbaren Sprachinformationen zur Verfügung, aus welchen dieser Benutzer dann jederzeit - z.B. direkt am zweiten Audio-Wiedergabemittel selbst (Figur 4) oder per am Platz verbautem oder losem Zusatz -Device (Figur 3) - die gewünschte Sprachfassung wählen bzw. ändern kann.
5 Wesentlich ist, dass die Kopfhörer 40 des erfmdungsgemäßen Systems derart ausgebildet sind, dass der jeweils zugehörige Zuschauer 101, 102 nicht ausschließlich die von den Kopfhörern 40 wiedergegebenen akustischen Informationen hört, sondern gleichzeitig auch die zentral über das Lautsprechersystem 30 abgegebenen akustischen Informationen. Beide Zuschauer 101, 102 empfangen also auf zwei unterschiedlichen ro Wegen A, B akustische Signale, einerseits die über das Lautsprechersystem 30 ausgegebenen, keine Sprachinformationen enthaltenden Signale und andererseits die über die Kopfhörer 40 individuell zugespielten Sprachinformationen in der vom jeweiligen Zuschauer / Hörer / Benutzer gewünschten Sprache. Das Gehör der Zuschauer 101, 102 kombiniert bzw. ergänzt dann wiederum jeweils die empfangenen s bzw. gehörten Informationen, sodass in Kombination daraus eine - im Falle der
Kinoverführung zusätzlich auch dem Videobild entsprechende - akustisch-homogene Gesamtinformation gehört wird, die allerdings jeweils an den entsprechenden - sprachlichen - Wunsch des Zuschauers angepasst ist. 0 Als Sprachinformationen werden diejenigen Sprachinformationen bezeichnet, welche im Allgemeinen für den Benutzer verständlich sind - sogenannte Verständnis-Sprache -, wobei über die den Benutzern individuell zugeordneten Lautsprecher, respektive über die Kopfhörer 40, primär - vorzugsweise ausschließlich - Audioinformationen mit Verständnis-Sprache übermittelt werden, wohingegen die über das Lautsprechersystem 25 30 ausgegebenen Audiosignale keine Audioinformationen mit Verständnis-Sprache enthalten. Die über das Lautsprechersystem 30 ausgegebenen Audiosignale und die über die individuell zugeordneten Lautsprecher, respektive der Kopfhörer 40, ausgegebenen Audiosignale weisen somit keine Überschneidungen auf. 0 Ein Anwendungsbeispiel für Sprachinformation, die keine Verständnis-Sprache darstellen und somit über den ersten Datenteil übermittelt werden, stellen Dokumentationsfilme oder Reportagen dar. Hier wird die jeweils vom Benutzer, bzw. Zuschauer 101, 102, gewählte Sprache als Verständnis-Sprache über die individuell zugeordneten Lautsprecher, respektive über die Kopfhörer 40, übertragen werden, wohingegen ein Originalton mit der originalen Sprache und Hintergrundgeräuschen als Nicht-Verständnis-Sprache über das allgemeine Lautsprechersystem 30 abgegeben wird. Zur Klarstellung sei hier hervorgehoben, dass die über die Kopfhörer 40 abgegebenen akustischen Informationen produktions- bzw. aufnahmebedingt ggf. zu einem gewissen Teil auch zusätzliche Audioinformation wie Hintergrundgeräusche oder dgl. beinhalten können. Vorzugsweise allerdings besteht dieser zweite Datenteil der Audiosignale ausschließlich aus Sprachinformationen, genauer gesagt aus der oben erläuterten Verständnissprache.
Ein Vorteil der erfindungsgemäßen Lösung besteht dabei darin, dass zumindest ein Teil der akustischen Informationen, insbesondere also der keine Sprachinformationen enthaltende Teil zentral durch die Lautsprecher 30 wiedergegeben und damit durch sämtliche Zuschauer gemeinsam gehört wird. Dies resultiert zum einen in einem gemeinschaftlichen Wahmehmungserlebnis, was im Vergleich zu einer Variante, bei der die verschiedenen Teilnehmer ausschließlich über ihnen zugeordnete Kopfhörer sämtliche akustischen Informationen enthalten, deutlich angenehmer ist. Zum anderen zeichnet sich dieses gemeinschaftliche Hören auch dadurch aus, dass der Benutzer vermittelt bekommt, dass er als Bestandteil des Raums - beispielsweise des Kinosaals - das Audioerlebnis erfährt. Hierbei wird in der vorliegenden Erfindung darauf abgezielt, dass der Benutzer ein durch die jeweilige Verständnis-Sprache individualisiertes Hörerlebnis erhält, ohne es zu merken, da das einander ergänzende Zusammenspiel aus Verständnis-Sprache-Audioinformationen und Nicht-Verständnis- Sprache- Audi oinformationen ihm ein gemeinschaftliches Hörgefühl gibt. Letztendlich wird dem Zuschauer der Eindruck vermittelt, dass er gemeinsam mit allen anderen Zuschauern den Film in gleicher Weise wahrnimmt, wobei trotz allem die Wiedergabe der akustischen Informationen insbesondere im Hinblick auf die Sprache individuell angepasst ist.
Das Hörerlebnis wird hierbei im Verglich zur Lösung der EP 1 427253 A2 nochmals dadurch verbessert, dass für den Benutzer eine natürlich-räumliche Wahrnehmung vorliegt. Ein in einer hinteren Ecke befindlicher Benutzer wird also die Audioinformationen insgesamt anders wahrnehmen als ein Benutzer, der beispielsweise unmittelbar vor der Leinwand sitzt. Die Beibehaltung dieser räumlich natürlichen, akustisch-plausiblen Wahrnehmung wird dabei dadurch erzielt, dass die Audioinformationen des zweiten Datenteils eine auf die Audioinformationen des ersten Datenteil abgestimmte inhaltliche Ergänzung darstellen, diese - von allen Benutzern 5 gemeinsam wahrgenommen - Audioinformationen des ersten Datenteils j edoch nicht verändern.
Dies stellt den entscheidenden Unterschied zum eingangs beschriebenen System der EP 1 427253 A2 dar. Beim Stand der Technik nämlich soll dieser räumliche ro Wahmehmungseffekt eliminiert werden (da hier alle Benutzer unabhängig von Ihrer Position ein identisches Hörerlebnis haben sollen), was dadurch erzielt wird, dass die über die individuellen Lautsprecher ausgegebenen Audiosignale die gemeinschaftlich ausgegebenen Audiosignale derart verändern bzw. destruktiv überlagern, dass ein positions-unabhängiges Hörerlebnis erzielt wird. Entsprechend dem obigen Beispiel s werden also bei der Lösung des Standes der Technik wiederum die Bestandteile
MUSIK und EFFEKTE über die zentralen Lautsprecher für alle Zuhörer ausgegeben, allerdings die lokalen Lautsprecher dazu verwendet, zusätzlich zum Bestanteil DIALOG nochmals auch die Bestandteile MUSIK und EFFEKTE auszugeben, um für den gesamten Hörbereich bzw. für alle Teilnehmer das angestrebte positions- 0 unabhängige Hörerlebnis zu erzielen.
Dies kann dann allerdings im Extremfall dazu führen, dass das im Stand der Technik erzielte Hörerlebnis von einer visuellen Wahrnehmung abweicht, was als unangenehm empfunden wird und z.B. der Fall ist, wenn die Wiedergabe der akustischen 25 Informationen auf eine Position ausgelegt ist, die sich zentral vor der Leinwand befindet, der Zuschauer sich tatsächlich aber an einer Seite der Leinwand befindet. Während also im Stand der Technik die gemeinschaftlich ausgegebenen Audioinformationen zusätzlich auch durch die individuellen Lautsprecher ausgegeben und entsprechend modifiziert werden, liegt bei der Vorgehensweise der vorliegenden 0 Erfindung bewusst eine inhaltliche Trennung zwischen den zentral und den lokal ausgegebenen Audioinformationen vor, um den räumlich-natürlichen Wahmehmungseffekt beibehalten zu können. Mit anderen Worten, während bei der Lösung gemäß der vorliegenden Erfindung die aus den zweiten Audio-Wiedergabemitteln wiedergegebenen Audio-Informationen die aus den ersten Audio-Wiedergabemitteln wiedergegebenen Audio-Informationen ergänzen, wobei diese Ergänzung inhaltlich und - wie im Folgenden erläutert - hinsichtlich der zweiten Audio-Informationen raum-akustisch gefiltert stattfindet, ist bei der EP 1 427253 A2 vorgesehen, dass die aus den zweiten Audio- Wiedergabemitteln wiedergegebenen Audio-Informationen die aus den ersten Audio- Wiedergabemitteln wiedergegebenen Audio-Informationen überlagern, wobei diese Überlagerung inhaltlich und hinsichtlich der zweiten Audio-Informationen mit Frequenz-Modulation stattfindet. Neben einem verbesserten Hörerlebnis besteht dabei ein weiterer Vorteil der vorliegenden Erfindung auch darin, dass die Menge der Daten, die den über die zweiten Audio-Wiedergabemitteln Audio-Informationen entsprechen, geringer ist, als dies im Stand der Technik der Fall ist. Damit kann die Datenmenge, die auf dem zweiten Weg an den Zuhörer zu übermitteln ist, reduziert werden, so dass letztendlich das Verfahren auch mit einem geringeren technischen Aufwand durchführbar ist.
Dabei bestehen die nachfolgend beschriebenen Möglichkeiten, die Wiedergabe insbesondere der dem zweiten Datenteil entsprechenden akustischen Informationen zusätzlich zu optimieren, wobei diese Maßnahmen dazu beitragen, dass das
Kombinieren bzw. gegenseitige Ergänzen der auf den unterschiedlichen Wegen übertragenen akustischen Signale durch das Gehör eines Zuschauers verbessert wird.
Hierbei ist zunächst zu berücksichtigen, dass die durch das zentrale Lautsprechersystem 30 abgegebenen akustischen Signale, also die Schallwellen in der Regel naturgegeben durch die Raum-Charakteristik/Beschaffenheit beeinflusst bzw. modifiziert werden, bevor sie bei den Zuschauern 101 und 102 eintreffen und durch diese gehört werden. Eine Beeinflussung findet hierbei insbesondere durch den Raum bzw. den Ort der Wiedergabe statt, da der von den Lautsprechern ausgegebene Schall an Wänden oder anderen Oberflächen innerhalb des Raums reflektiert und in einer den Raum charakterisierenden Weise zusätzlich modifiziert -z.B. in bestimmten Frequenzbereichen teilweise gedämpft - wird, bevor er bei den Zuschauern 101, 102 eintrifft und durch diese gehört und wahrgenommen wird. Ein klassisches Beispiel hierfür ist, dass die Form und Größe eines Raums z.B. den Nachhall in einer bestimmten Weise beeinflusst. Dämmende Oberflächen-, Wand- oder Deckenbereiche können ferner bestimmte Frequenzen des akustischen Signals dämpfen bzw. besonders beeinflussen, wobei auch dies abhängig von dem Ort bzw. Raum der Wiedergabe jeweils unterschiedlich ist.
Weiterhin ist von Bedeutung, in welchem Abstand sich der Zuschauer bzw. Zuhörer von dem zentralen Lautsprechersystem befindet und aus welcher Richtung die Schallsignale bei dem Zuschauer bzw. Zuhörer eintreffen, da das menschliche Gehör in Zusammenarbeit mit dem Gehirn in der Lage ist, seine wahrgenommenen Hörereignisse bestimmten Richtungen zuzuweisen. Sobald nämlich eine Schallquelle nicht mehr mittig vor einem Hörer angeordnet ist, erreichen identische sog. Schwingungsphasen das linke und das rechte Ohr des Hörers nach unterschiedlichen Laufzeiten und in unterschiedlichen Pegeln (sog. interaurale Laufzeitdifferenzen, ITD und interaurale Pegeldifferenzen, ILD), und veranlassen das Gehör zu einer Raumlokalisation im virtuellen Schallfeld. Es handelt sich hierum winzige Differenzen, da Laufzeitdifferenzen bzw. Laufzeitunterschiede durch das menschliche Gehör bereits ab einer Größe von 10 ps zur Richtungslokalisation ausgewertet werden können. Eine wichtige Rolle kommt hierbei den Ohrmuscheln zu. Sie wirken als mechanisch-akustische Filter und sorgen dafür, dass der Schall abhängig von der eintreffenden Richtung ein jeweils typisches Frequenzgangprofil am Trommelfell aufweist, was als Außenohr-Übertragungsfunktion oder Head Related Transfer Function (HRTF) bezeichnet wird.
Eine aus dem Stand der Technik bekannte Vorgehensweise, um insbesondere den zuerst beschriebenen Effekt der Schallwahrnehmung zu charakterisieren, ist das Durchführen sog. bi-nauraler Messungen. In diesem Fall wird mit Hilfe akustischer Messungen untersucht, wie ein Schallsignal durch einen entsprechenden Raum oder Ort beeinflusst wird, wobei anhand der Messungen bestimmte Parameter bestimmt werden können, die qualitativ beschreiben, in welcher Weise der Raum bzw. Ort das Schallsignal modifiziert.
Weiterhin ist bekannt, bei der Wiedergabe akustischer Signale - insbesondere über Kopfhörer - diese Signale mit Hilfe sog. bi-nauraler Filter auf Basis der zuvor erklärten, per akustischer Raum- Vermessung gewonnenen Informationen zu modifizieren, bevor die Signale durch einen Kopfhörer abgegeben werden. Diese bi nauralen Filter dienen im beispielhaften Fall einer Kinovorstellung dazu, das akustische Signal, bevor es durch einen Kopfhörer abgegeben wird, derart zu beeinflussen bzw. zu modifizieren, dass es den Eindruck erweckt, es wäre insgesamt in einem Raum und aus einer Richtung abgegeben worden, der bzw. die den Parametern des zugehörigen bi-nauralen Filters entspricht.
Diese Vorgehensweise erfolgt nunmehr vorzugsweise auch bei der Übermittlung und Wiedergabe der über die Kopfhörer 40 ausgegebenen Sprachinformationen. D.h., der den Kopfhörern 40 übermittelte zweite Datenteil wird gemäß einer vorteilhaften
Weiterbildung der Erfindung derart modifiziert, insbesondere raum-akustisch gefiltert, dass die entsprechenden akustischen Informationen zwar unmittelbar dem jeweiligen Zuschauer 101, 102 an die Kopfhörer 40 übermittelt und durch diese wiedergegeben werden, wobei allerdings diese Informationen aufgrund der Filterung derart modifiziert wiedergegeben werden, dass der Eindruck erweckt wird, die Wiedergabe würde nicht lokal über die Kopfhörer 40, sondern stattdessen zentral über die Lautsprecher 30 in den Raum insgesamt erfolgen. Damit nimmt der entsprechende Zuschauer die über den transparenten Kopfhörer 40 abgegebenen Sprachinformationen in gleicher Weise wahr, wie auch die zentral über die raumfüllenden Lautsprecher 30 abgegebenen, keine Sprachinformationen enthaltenen akustischen Informationen. Die Qualität des Hörerlebnisses wird hierdurch deutlich gesteigert, da beide Teile der akustischen Informationen durch den Zuschauer in gleicher Weise und damit ohne Weiteres durch sein Gehör kombiniert als eine Gesamtwahmehmung wahrgenommen werden können. Für den einzelnen Zuschauer ergibt sich damit nochmals verstärkt der Eindruck, er würde sämtliche akustischen Informationen gemeinsam mit allen anderen Zuschauern hören.
Idealerweise werden die für den bi-nauralen Filter verwendeten Parameterwerte anhand von Messungen experimentell bestimmt. Dies bedeutet, dass bspw. für jeden Raum, in dem eine Wiedergabe entsprechend dem erfmdungsgemäßen Verfahren durchgeführt werden soll, einmalig eine entsprechende Messung durchgeführt wird, durch die das Schallverhalten des Raums charakterisiert wird. Die hierbei gewonnenen Informationen können dann allerdings dauerhaft für die Realisierung des erfindungsgemäßen Verfahrens genutzt werden, sofern sich die akustischen Eigenschaften des Raums nicht gravierend ändern.
Eine beispielhafte Vorgehensweise zur Implementierung der bi-nauralen Filter ist hierbei wie folgt.
Als erster Schritt wird dabei zunächst eine bi-naurale raum-akustische Vermessung der Lautsprecher 30 im Wiedergaberaum vorgenommen und in sog. „Binaural Room Impulse Responses“ extrahiert. Hierfür werden mit Hilfe eines sog. Kunstkopfes, also einer Kopfnachbildung, in der an Stelle der Ohren je ein Mikrofon mit Kugelcharakteristik am Eingang der Gehörgänge mit der Nachbildung der Ohrmuscheln angebracht ist, die raumakustischen Eigenschaften von jedem Lautsprecher 30 des Systems in der idealen Sitzposition, also in gleichem Abstand zu allen Lautsprechern 30 in der Mitte des Raumes in Bezug auf den Kunstkopf vermessen. Gemessen wird hierbei mit einem logarithmi sehen Sweep über den Frequenzbereich von 20Hz bis 20.000Hz, was den menschlichen Hörbereich abdeckt.
Ziel ist es, während der späteren Nutzung des Systems das Wiedergabeverhalten der Lautsprecher 30 im jeweiligen Raum im Kopfhörer 40 eines Benutzers mittels Faltung des Audiosignals mit den „Binaural Room Impulse Responses“ zu virtualisieren. In dieser Anwendung werden Tonspuren bzw. die akustischen Informationen in zwei Teile getrennt, einen ersten Teil für die Wiedergabe auf den realen Lautsprechern 30 im Raum (im beispielhaften Kinoszenario also die die Musik und Effekte betreffenden akustischen Informationen), und einen zweiten Teil von akustischen Informationen, welche mittels Faltung mit „Binaural Room Impulse Responses“ für die Wiedergabe über die im Kopfhörer 40 virtualisierten Lautsprecher (im beispielhaften Kinoszenario also die Verständnis- Sprache) vorgesehen sind.
Bei einem Film im 5.1 Surround-Format - also mit Lautsprechern in den Positionen Links, Rechts, Mitte, Hinten-Links, Hinten-Rechts und Subwoofer - führen die Messungen dann pro Lautsprecher zu einem Paar Impulsantworten, also für linkes und rechtes Ohr. Diese Impulantworten -Paare werden in einen Convolver (Faltungs- Algorithmus) im Wiedergabesystem geladen. Dort wird dann das jeweils für die virtuelle Wiedergabe im Kopfhörer 40 bestimmte Lautsprechersignal mit den beiden Impulsantworten für rechtes und linkes Ohr pro Lautsprecher gefaltet. Das Wiedergabesystem faltet die 5.1 5 Wiedergabesignale so mit den gemessenen bi-nauralen Impulsantworten des realen Abhörraumes.
Insgesamt wird hierdurch das Sprachsignal so aufbereitet, dass es sich im Kopfhörer 40 so anhört und anfühlt, als käme das Sprachsignal aus den realen Lautsprechern 30 ro im Wiedergaberaum. Somit wird eine „Außer-Kopf-Wahrnehmung“ des
Sprachsignales erwirkt. Der beispielhafte Kopfhörer 30 ist wie bereits erwähnt als offener Kopfhörer ausgelegt, was bedeutet, dass alle Geräusche außerhalb des Kopfhörers 30, sowie die direkt aus dem Kopfhörer kommenden Signale, gemeinsam durch den Benutzer wahrgenommen werden können und so im Gehirn zu einem s Gesamt-Hörerlebnis zusammengeführt werden.
Durch die beschriebene Vorgehensweise wird also den durch die zweiten Audio- Wiedergabemittel wiedergegebenen Audio-Informationen ein Raumfilter beigemischt, der die natürlich-räumliche Art und Weise der akustischen Wahrnehmung des 0 menschlichen Ohrs der durch die ersten Audio-Wiedergabemittel wiedergegebenen Audio-Informationen künstlich für die Wiedergabe der Audio-Informationen aus den zweiten Audio-Wiedergabemitteln und deren akustische Übertragung von Lautsprechern über den Raum der Darbietung, sowie über den Kopf und die Ohrmuscheln des Zuhörers bis in dessen Gehörgang nachahmt. Hierdurch ergibt sich 25 für den Zuhörer ein ganzheitliches Klangbild und ein natürlich-räumliches Hörerlebnis bzw. eine natürlich-ortsbezogene Raum-Wahrnehmung.
Die in der oben beschriebenen Weise genutzten, bi-naural aufbereiteten Signale funktionieren zunächst lediglich an der Stelle, an der mit Hilfe des Kunstkopfes 0 gemessen wurde, zu 100% korrekt und auch in erster Linie dann, wenn die
Kopfhaltung des Benutzers derjenigen des Kunstkopfs entspricht. Dreht der Benutzer hingegen den Kopf, dann würde sich das räumliche Abbild im Kopfhörer mit drehen, während es jedoch im realen Abhörraum an den Lautsprecherpositionen fixiert bliebe. Zu einem späteren Zeitpunkt werden deshalb noch weitergehende Maßnahmen beschrieben, durch welche die Wiedergabe der akustischen Informationen über die Kopfhörer 40 nochmal zusätzlich optimiert werden kann, um eine weiter verbesserte Abstimmung auf die Wiedergabe über die Lautsprecher 30 erzielen zu können. Auf Basis einer einzigen oder nur wenigen bi-nauralen Messung(en) kann dann die Wiedergabe der akustischen Informationen über die Kopfhörer 40 an die tatsächliche Position des Benutzers sowie dessen Kopfhaltung angepasst werden.
Anstelle einer individuellen bi-nauralen Vermessung des zur Wiedergabe vorgesehenen Raums wäre es im Übrigen auch denkbar, anhand verschiedener Messungen Parameterwerte zu bestimmen, die verschiedenen Kategorien von Räumen zugeordnet werden können. Dies würde die Möglichkeit eröffnen, Parameterwerte für den bi-nauralen Filter zu nutzen, die nicht zuvor individuell für einen bestimmten Raum ermittelt werden müssen, wodurch der Aufwand insgesamt ein wenig reduziert wird.
Daraufhinzuweisen ist, dass das soeben beschriebene Modifizieren des zweiten Datenteils für alle Hörer zunächst in gleicher Weise erfolgen wird, da diese sich ja auch alle im gleichen Raum befinden. Dementsprechend ist idealerweise vorgesehen, den bi-nauralen Filter zentral einzusetzen, sodass die an die Kopfhörer 40 übermittelten Daten bereits entsprechend modifiziert übertragen werden.
Alternativ zu den obigen Erläuterungen wäre es allerdings auch denkbar, die zweiten Audio-Wiedergabemittel, also z.B. den Kopfhörer derart auszugestalten, dass diese die Fähigkeit besitzen, eine solche Messung - selbstständig bzw. nach Aktivierung - automatisiert durchzuführen und das Ergebnis wiederum automatisch in einen entsprechenden Filter für eben diese zweiten Audio-Wiedergabemittel selbst - bzw. im Master-Slave Modus ebenso für gekoppelte, beliebig viele weitere zweite Audio- Wiedergabemittel - umzuwandeln. Diese Vorgehensweise bietet sich insbesondere dann an, wenn eine entsprechende Anpassung des Filters flexibel oder individuell durchgeführt werden muss, was beispielsweise bei der Anwendung im Heimkino- Bereich bzw. zu privaten Zwecken im Wohnzimmer oder dgl. der Fall ist.
In den Kopfhörern 40 selbst kann dann allerdings eine weitere Modifizierung der Daten bzw. der Wiedergabe der akustischen Informationen vorgenommen werden, um - wie bereits oben angesprochen - die Position und ggf. die Kopfhaltung des Benutzers zusätzlich zu berücksichtigen. Hierbei wird berücksichtigt, dass sich die Zuschauer 101, 102 bzw. Hörer an unterschiedlichen Bereichen innerhalb des Raums befinden und dementsprechend unterschiedliche Abstände zu den unterschiedlichen Lautsprechern des zentralen Lautsprechersystems 30 aufweisen.
Bekanntlicherweise breitet sich Schall und damit die durch die Lautsprecher 30 wiedergegebene akustische Information A mit einer Schallgeschwindigkeit von 343 m/s aus, sodass im darstellten Ausführungsbeispiel, in dem die beiden Lautsprecher 30 neben der Leinwand 50 und somit im vorderen Bereich des Raums angeordnet sind, der Benutzer 102 die durch die beiden Lautsprecher 30 abgegebenen akustischen Informationen zu einem geringfügig späteren Zeitpunkt empfangen, also hören wird, als der sich näher an dem Lautsprechersystem 30 befindende Zuschauer 101. Noch allgemeiner ist davon auszugehen, dass die Lautsprecher 30 verteilt in einem Raum angeordnet sein werden, wobei sich dann für jeden Zuschauer in Bezug auf jeden einzelnen Lautsprecher individuelle Laufzeiten für die Übertragung der akustischen Informationen ergeben.
Die Übermittlung des zweiten Datenteils an die Kopfhörer 40 erfolgt allerdings derart auf elektronischem Weg, z.B. via Kabel, Funk, WLAN, Bluetooth... , dass davon ausgegangen werden kann, dass hier eine im Wesentlichen zeitgleiche Übermittlung mit Lichtgeschwindigkeit an alle Zuschauer erfolgt. Wird ferner davon ausgegangen, dass auch die in den Kopfhörern 40 erforderliche Verarbeitung des Signals und die Wiedergabe der zugehörigen Informationen mit identischer Verzögerung erfolgt, bedeutet dies, dass dieser, dem zweiten Datenteil entsprechende Teil der akustischen Informationen prinzipiell durch alle Zuschauer 101, 102 zeitgleich gehört werden würde. Im dargestellten Beispiel würde dies insbesondere in den hinteren Sitzreihen des Kinosaals zu einer merkbaren Zeitverzögerung des Eintreffens der zentral ausgegebenen Nichtsprach-Informationen gegenüber den Sprachinformationen führen.
Auch wenn die Laufzeitunterschiede für die Nichtsprach-Informationen A verhältnismäßig gering sind, können diese also doch zu einem wahrnehmbaren Effekt führen, dahingehend, dass das eigentliche Hören der keine Sprachinformationen enthaltenden akustischen Signale einerseits und der die Sprachinformationen enthaltenden akustischen Signale andererseits nicht exakt zum gleichen Zeitpunkt erfolgt.
Da dies wiederum das Hörerlebnis negativ beeinträchtigen kann, ist vorzugsweise vorgesehen, eine der Position des Zuschauers entsprechende Anpassung des Zeitpunkts der Wiedergabe der zweiten akustischen Informationen vorzunehmen. Dies bedeutet, die Kopfhörer 40 empfangen zunächst im Wesentlichen zeitgleich den zweiten Datenteil, berücksichtigen bei der Wiedergabe der entsprechenden akustischen Informationen allerdings eine bestimmte Zeitverzögerung, um sicherzustellen, dass diese Informationen synchron mit dem Hören der über die zentralen Lautsprecher 30 abgegebenen akustischen Nichtsprach-Informationen gehört werden. Wiederum wird hierdurch das Hörerlebnis für die Zuschauer 101 und 102 deutlich gesteigert.
Zusätzlich zur Distanz zu den Lautsprechern 30 kann ferner auch der absolute Aufprallwinkel der Schallquelle bzw. die Richtung, aus der die über die zentralen Lautsprecher 30 abgegebenen akustischen Nichtsprach-Informationen bei dem Zuschauer eintreffen, berücksichtigt werden.
Der Aufprallwinkel kann psychoakustisch im Kopfhörer simuliert werden unter Ausnutzung der sog. ITD (Interaural Time Difference). Gibt nämlich eine Schallquelle direkt von vorne ein Signal ab, so gibt es keine zeitlichen Unterschiede zwischen dem Eintreffen des Schalls am linken und rechten Ohr. Somit hat der Zuhörer im Kopfhörer das Gefühl, eine Schallquelle ist zentral mittig vor ihm positioniert, wenn die entsprechenden Schallsignale an beiden Ohren gleichzeitig wiedergegeben werden. Ist hingegen die Schallquelle beispielsweise rechts positioniert, so würde der Schall zunächst am rechten Ohr eintreffen und erst - bei einem 16cm Ohr- Abstand - mit etwa 0,65 Millisekunden Verzögerung am linken Ohr. Durch diese ITD kann dem Zuhörer also das Gefühl vermittelt werden, der Schall würde von rechts eintreffen, obwohl beide Pegel identisch sein können.
Da in einem Kinosaal angenommen werden kann, dass jeder Zuschauer direkt nach vorne schaut, ergibt sich absolut zur Mitte der Leinwand immer ein Winkel, der je nach Sitzposition des Zuschauers / Hörers variabel ist. Diese „statische“ Situation kann auch psychoakustisch simuliert werden, indem zwischen rechtem und linken Ohr eine (weitere) Zeitverzögerung der Signalwiedergabe eingeführt wird. Hierfür wird zwischen der Wiedergabe des Signals an beiden Ohren eine Zeitverzögerung zwischen 0ms und 0,65ms abhängig von einem Winkel im Bereich von 0-90 Grad eingeführt. Ist also die Sitzposition des Zuschauers und ferner die Position des zentralen Lautsprechers bekannt, kann über trigonometrische Beziehungen der absolute Winkel des Zuschauers zum zentralen Lautsprecher und damit die Höhe der erforderlichen Zeitverzögerung errechnet werden.
Für jeden Zuschauer sollte also idealerweise dessen Position und Kopfhaltung bekannt sein, um die oben erläuterte Optimierung der Wiedergabe der Sprachinformationen durchführen zu können. Die Ermittlung dieser Informationen kann beispielsweise wie nachfolgend beschrieben erfolgen.
Zunächst werden die Distanz und der Blick- und somit „Hör“ -Winkel für jeden Sitz ist in einem sog. Lookup-Table hinterlegt. Es muss dann festgestellt werden, welchen Sitz der Zuschauer tatsächlich belegt, wobei dies beispielsweise über die nachfolgend genannten Verfahren realisiert werden kann:
I) Indoor GPS: Mittels 4 synchronisierter Sendemodule und je einem Empfangsmodul, welches z.B. in den Kopfhörer integriert ist, kann über die 4 Laufzeitdifferenzen entsprechender Signale (z.B. von hierfür genutzten Ultraschallsignalen) und das Lösen einer nicht linearen Gleichung vierter Ordnung die Position im Raum über nichtlineare Optimierung errechnet und als Grundlage für die Verzögerung der Signalwiedergabe genutzt werden.
II) RFID TAG: Jeder Sitz ist mit einem RFID-Tag ausgestattet und jeder Kopfhörer mit einem RFID-Lesegerät. Sobald sich der Zuschauer in seinem Sitz befindet erkennt der Kopfhörer, in welchem Sitz sich der Zuschauer befindet. Die Sitzposition zu jedem RFID-Tag ist wiederum in einem Lookup-Table abgelegt, so dass in einfacher Weise die Position des Zuschauers ermittelt werden kann.
III) In einer einfachen Form kann ferner die Übermittlung der zweiten Audiodaten auch drahtgebunden erfolgen, wobei dann die Kopfhörer jeweils mit einem entsprechenden Anschluss bspw. an dem zugehörigen Platz in dem Kinosaal verbunden werden. Da in diesem Fall die Position des Kopfhörer-Anschlusses bekannt ist, kann hierdurch unmittelbar die Position des Kopfhörers festgestellt werden, sodass dieser entweder selbstständig eine geeignete Zeitverzögerung berechnen kann oder ihm diese entsprechend mitgeteilt wird.
IV) Ferner könnte auch vorgesehen sein, dass der Kopfhörer oder eine dem Kopfhörer zugeordnete Bedieneinheit Mittel zur Eingabe der Position bzw. des Platzes aufweist und anhand dieser Position dann eine entsprechende Laufzeitverzögerung berechnet und/oder mitgeteilt wird.
V) Zuletzt wäre auch eine auf BLE (Bluetooth Low Energy) basierte Beacon-Technik eine Option, um die Position des Zuschauers zu ermitteln. Dabei sendet ein BLE- fähiges Gerät in einem regelmäßigen Intervall immer die gleiche, das Sendegerät (=Beacon) eindeutig identifizierende UUID Standard Advertisement Nachricht. Über die Auswertung der entsprechenden UUIDs und der zugehörigen Signalstärken kann dann eine Sitzplatzlokalisation des Empfängergeräts stattfinden. Mit einer Signal- Reichweite bis zu 50m bietet diese Technologie ein gutes Verhältnis zwischen Entfernung und Genauigkeit, und somit eine sinnvolle Alternative zu RFID, NFC oder WLAN Technologie.
Sobald die Position eines Zuschauers bekannt ist, können dann die Distanz und der absolute Winkel zum zentralen Lautsprecher berechnet und dementsprechend zwei individuelle „statische“ Delays für das rechte und linke Ohr eingestellt werden. Zunächst ergibt sich also aufgrund des Abstands eine generelle Laufzeitverzögerung, wobei diese dann noch für beide Ohren individuell abhängig vom Winkel modifiziert wird.
Hierbei ist daraufhinzuweisen, dass sich die soeben erläuterte Korrektur auf einen einzelnen Lautsprecher des für die Wiedergabe der ersten Audiodaten vorgesehenen Lautsprechersystems bezieht. Besteht das System aus mehreren Lautsprechern und sind diese verteilt angeordnet, so kann idealerweise individuell für jeden einzelnen Lautsprecher der Abstand des Zuschauers sowie der Aufprallwinkel des zugehörigen Schalls berücksichtigt werden. Dies würde dazu führen, dass die entsprechenden zweiten Audiodaten dann jeweils dem einzelnen Lautsprecher entsprechende Laufzeitmodifikationen erhalten, die für die beiden Ohren zusätzlich noch winkelabhängig modifiziert werden.
Da allerdings eine derartige Vorgehensweise eine Multikanalübertragung mit mehr als zwei Kanälen erfordern würde und somit mit einem beträchtlichen Aufwand verbunden ist, kann ggf. auch auf eine technisch weniger aufwändige Lösung zurückgegriffen werden. Hierbei werden die sog. bi-naural-Impulsantworten für jeden Lautsprecher aufgenommen und es erfolgt ein Falten des Signals aller Lautsprecher des zentralen Lautsprechersystems mit diesen Signalen, was dann insgesamt in einem bi-naural -Mittelwert oder Mix resultiert, der übertragen wird. In diesem Fall werden wiederum die beiden Signale für das rechte und linke Ohr verzögert, allerding nur in Relation zu einem zentral platzierten „Haupt“- bzw. Center-Lautsprecher des Systems, was zur Folge hat, das eigentlich nur in Bezug auf diesen Centerlautsprecher ein exakt synchronisiertes Zumischen der Sprachinformationen erfolgt. In Bezug auf die weiteren Lautsprecher würden sich bei dieser beispielhaft beschriebenen
Ausführungsweise geringfügig Abweichungen bzw. Fehler ergeben, die jedoch für den erfindungsgemäß gewünschten Gesamteffekt vernachlässigbar sind.
Darüber hinaus wäre ferner denkbar, zu berücksichtigen, dass sich der relative Betrachtungswinkel des Zuschauers mit seinen Kopfbewegungen weiter ändern kann. Dieser Winkel kann z.B. mit Hilfe eines Gyro-Sensors ermittelt werden, welcher im Kopfhörer verbaut ist. Dieser Sensor bedarf jedoch zunächst einer Kalibrierung, die wie folgt durchgeführt werden könnte. In dem Moment, in dem der Zuschauer seinen Platz einnimmt, sich zurücklehnt und der RFID-Tag gelesen wird, kann davon ausgegangen werden, dass der Zuschauer nach vorne schaut und somit der relative Betrachtungswinkel gleich null ist, jedoch der absolute Winkel der Berechnung von Sitzposition zur Leinwandmitte, also dem in dem Lookup-Table hinterlegten Wert entspricht. Ist auf diese Weise der Gyro-Sensor kalibriert, erkennt er nachfolgend jede Abweichung von dem im Lookup-Table hinterlegten Winkel. Zusätzlich zur Verzögerung für die Distanz und den absoluten Betrachtungswinkel verzögert dann das Kopfhörersystem das Signal für die Signalwiedergabe am rechten bzw. linken Ohr abhängig von der Kopfrotation relativ und dynamisch in Echtzeit. Somit kann für jegliche Kopfbewegung eine Anpassung der ITD vorgenommen werden, mit dem Ergebnis, dass die sprachliche Information - obwohl nicht durch die im Raum fixierten ersten Audio-Wiedergabemittel / Lautsprecher, sondern durch die “beweglichen” zweiten Audio-Wiedergabemittel / Kopfhörer (o.ä.) wiedergegeben - für den Benutzer jederzeit “räumlich fixiert” bleibt. Letztendlich führen also die erfindungsgemäße Vorgehensweise sowie die zusätzlichen Optimierungen hinsichtlich der Anpassung der Signalwiedergabe an den Kopfhörern zu einem äußerst hochwertigen Hörerlebnis für die Zuschauer, wobei diese trotz allem akustische Signale in einer von ihnen gewünschten - insbesondere hinsichtlich der Sprache - modifizierten Weise hören können
Figur 2 zeigt schematisch die Ausgestaltung eines entsprechenden Systems 1, mit dessen Hilfe das zuvor erläuterte Verfahren durchgeführt werden kann.
Hierbei ist zunächst eine zentrale Speichereinheit 5 z.B. in Form eines Servers erforderlich, welche die Video- und Audiodaten des Films bereitstellt. Die Audiodaten sind dabei wie schematisch dargestellt in einen ersten, keine synchronisierbaren bzw. synchronisierten Sprachinformationen enthaltenden Anteil und einen zweiten, synchronisierbare bzw. synchronisierte Sprachinformationen enthaltenden Anteil aufgeteilt, wobei der zweite Teil mehrfach vorhanden sein kann, insbesondere in n verschiedenen Varianten, wobei n der Anzahl der zur Verfügung stehenden unterschiedlich-synchronisierten Sprachversionen des Films entspricht.
Die Videodaten werden hierbei dann zunächst einer Einheit 10 zur Verfügung gestellt, welche die Wiedergabe z.B. auf der Leinwand, dem Bildschirm oder per Virtual Reality 50 des Systems 1 veranlasst. Bei der Einheit 10 kann es sich um einen entsprechenden Projektor oder einen Treiber für ein entsprechendes Display handeln, wie dies von üblichen Systemen zur Film- bzw. Videodarstellung bekannt ist.
Der erste Teil der Audiodaten, also derjenige Teil, der keine Sprachinformationen enthält, soll wiederum zentral für alle Zuschauer gemeinsam wiedergegeben werden und wird dementsprechend über eine Einheit 15 an ein Lautsprechersystem 30 übermittelt. Auch hierbei handelt es sich um die bereits bekannten Komponenten, die für eine Filmwiedergabe genutzt werden, sodass hier keine Veränderungen des Systems im Vergleich zu einer klassischen Film- oder Videovorführung erforderlich sind. Wesentlich ist hier lediglich, dass ausschließlich der erste Datenanteil, also der Nichtsprach- Anteil - an die Einheit 15 gegeben und durch diese weitergeleitet wird, nicht jedoch - wie bislang - die vollständigen Audiodaten. Der zweite, die Sprache enthaltende Anteil, wird nämlich einer Verteilereinheit 20 zur Verfügung gestellt, welche letztendlich für die Übermittlung der entsprechenden zweiten Daten an die den Zuschauern individuell zugeordneten Lautsprecher bzw. Kopfhörer 40 verantwortlich ist. Der zweite, die Sprache enthaltende Anteil - also der Verständnis-Sprachanteil - hat hierbei keine Überschneidung an Audiodaten mit dem ersten Teil der Audiodaten, wobei der erste Teil der Audiodaten lediglich Audiodaten mit Nicht-Verständnis-Sprache enthält. Die Übermittlung der Daten von der Verteilereinheit 20 an die Kopfhörer 40 kann dabei sowohl drahtgebunden als auch drahtlos erfolgen. Wesentlich ist, dass jeder Lautsprecher bzw. Kopfhörer 40 in der Lage sein muss, zumindest die der gewünschten Sprache entsprechende Fassung der zweiten Daten zu erhalten. Dies kann beispielsweise dadurch erfolgen, dass eine individuelle Kommunikation zwischen der Einheit 20 und dem entsprechenden Kopfhörer 40 aufgebaut wird und somit ausschließlich die Daten in der der gewünschten Sprache entsprechenden Fassung an die jeweiligen Kopfhörer 40 übermittelt werden. Alternativ hierzu könnten auch alle verschiedenen Sprachversionen gleichzeitig durch die Einheit 20 und damit an alle Kopfhörer 40 übermittelt werden, wobei dann die Kopfhörer 40 zwar sämtliche Daten empfangen, allerdings nur die der gewünschten Sprachversion entsprechenden Anteile der Daten nutzen und diese letztendlich wiedergeben. Der der Schallausbreitung in dem Raum entsprechende bi-naurale Filter findet wie bereits erwähnt vorzugsweise auf sämtliche zweite Datenteile in gleicher Weise Anwendung. Dementsprechend ist vorzugsweise vorgesehen, dass dieser Filter 21 in der Verteilereinheit 20 implementiert wird, sodass die von dieser Einheit 20 ausgegebenen Daten bereits in geeigneter Weise modifiziert wurden. Die in der zentralen Speichereinheit 5 gespeicherten Audiodaten liegen in diesem Fall zunächst in einer von dem Raum der Wiedergabe unabhängigen Form vor. Denkbar wäre allerdings auch, dass die Daten bereits durch die Speichereinheit 5 mit Hilfe eines bi nauralen Filters modifiziert werden, bevor sie an die Einheit 20 weitergeleitet werden, oder dass die Daten bereits in einer durch den bi-nauralen Filter modifizierten Fassung in der Speichereinheit 5 gespeichert sind. Schließlich wäre es auch denkbar, dass sich in jedem Kopfhörer 40 bzw. jedem zweiten Audio-Wiedergabemittel ein eigener Filter befindet, der die Wiedergabe eben dieses Kopfhörers 40 bzw. zweiten Audio- Wiedergabemittels modifiziert.
Die Kopfhörer 40 selbst sollten zumindest die oben erwähnte zweite Modifikation bei der Wiedergabe der Sprachinformationen durch Anwenden eines entsprechenden Zeitverzögerungs-Filters durchführen. Hierfür ist erforderlich, dass die Kopfhörer 40 ihre Position innerhalb des Raums erkennen bzw. wissen, welche Zeitverzögerung anzuwenden ist, wobei zur Positionsermittlung insbesondere die oben genannten unterschiedlichen Vorgehensweisen I) bis IV) denkbar wären.
Um sicherzustellen, dass alle Zuschauer unabhängig von der von Ihnen gewählten Sprache die akustischen Informationen synchron wahrnehmen, ist vorgesehen, dass die den verschiedenen Sprachen entsprechenden Audio- Versionen synchron gestartet werden und sich hierbei an dem Master, z.B. an den ersten Audiodaten ohne Sprache („Nicht- Sprache“, bzw. „Nicht-Verständnis-Sprache“) orientieren. Mit einer Rückkoppelung, welche die Timestamps (aktuelle Position) der jeweiligen Sprachversionsfiles (Sprache 1, Sprache 2, Sprache n ...) kommuniziert, kann während des Abspielens identifiziert werden ob die Wiedergaben auseinanderlaufen bzw. asynchron werden. Hierbei existiert ein Schwellenwert, ab dem ein Zuhörer das Auseinanderlaufen bemerken würde. Bevor dieser erreicht wird, wird das System eingreifen und die Abspielposition der Sprachinformationen entsprechend korrigieren, ohne dass der Zuhörer eine Beeinträchtigung merkt. Sollte der Drift der Spuren hingegen einen zu hohen Schwellenwert einnehmen, korrigiert ein härterer
Mechanismus (Jump) die betroffene Spur. Dies wäre zwar für den Zuhörer kurzfristig wahrnehmbar, allerdings im Extremfall als Korrektur im Rahmen eines Back-Up- Mechanismus notwendig. Zu den Kopfhörern 40 ist anzumerken, dass diese - wie oben erwähnt - derart ausgestaltet sein müssen, dass sie neben einer Wiedergabe der den zweiten Audiodaten entsprechenden Signale gleichzeitig auch das Hören der den ersten Audiodaten entsprechenden Schallsignale ermöglichen müssen. Dies bedeutet, dass die Kopfhörer 40 externe Schallsignale nicht abblocken bzw. unterdrücken dürfen, sondern für derartige Signale durchlässig sein müssen. In diesem Sinne kann auch von „transparenten Kopfhörer“ gesprochen werden. Erreicht werden kann dies beispielsweise dadurch, dass die entsprechenden Lautsprecher des Kopfhörers 40 nicht schallreduzierend um die Ohren eines Benutzers herum abschließen, sondern derart ausgebildet sind, dass externe Schallwellen ebenfalls ungehindert und unverändert in den Gehörgang des Hörers eintreten können. Beispielsweise wäre eine Anordnung der Lautsprecher in einem Abstand von bis zu lm denkbar, wobei dann die Lautsprecher beispielsweise in eine Kopfstütze integriert oder vergleichbar verbaut sein können. Es muss sich also bei den zweiten Wiedergabemitteln nicht zwingend um Kopfhörer handeln.
Abschließend sollen zwei beispielhafte Varianten zur Auswahl und Übermittlung des zweiten Datenteils an einen Kopfhörer 40 eines Zuschauers erläutert werden. Figur 3 zeigt hierzu ein entsprechendes System, welches aus dem Kopfhörer 40 selbst sowie einem mit diesem verbundenen, dem Benutzer zugeordneten Kommunikationsgerät 45 besteht. Zum Beispiel kann es sich bei diesem Kommunikationsgerät 45 um ein Mobiltelefon des Nutzers handeln, welches drahtlos oder drahtgebunden mit der in Figur 2 gezeigten Verteilereinheit 20 kommuniziert und andererseits drahtlos - z.B. über Bluetooth - oder drahtgebunden mit dem Kopfhörer 40 verbunden ist.
Im dargestellten Fall ist bspw. auf dem Mobilfunkgerät 45 eine An wendungs Software installiert, welche dem Benutzer eine Teilnahme an dem erfindungsgemäßen Übertragungsverfahren ermöglicht, wobei mit Hilfe der An wendungs Software zunächst ein drahtloser oder drahtgebundener Kommunikationsaufbau mit der Verteilereinheit 20 - beispielsweise im Rahmen eines WLAN-Netz werks oder mittels Bluetooth - erfolgt und dann bspw. anhand einer graphischen Benutzeroberfläche 46 der Benutzer einerseits die von ihm gewünschte Sprache sowie andererseits bspw. seinen Platz in dem Kinosaal eingeben kann. Eine manuelle Eingabe des Sitzplatzes ist selbstverständlich nicht erforderlich, wenn - wie in den obigen Beispielen erläutert - das System selbst in der Lages ist, die Position des Benutzers zu erkennen. Während der Filmwiedergabe wird dann drahtlos oder drahtgebunden die Übermittlung der zweiten Daten vorgenommen, die dann an den Kopfhörern 40 wiedergegeben werden. Bevorzugt erfolgt hierbei die Datenübermittlung unmittelbar von der Verteilereinheit 20 an die Kopfhörer 40, so dass das Mobilfunkgerät 45 in diesem Fall in erster Linie als Fernbedienung genutzt wird. Alternativ wäre es auch denkbar, unter Zwischenschaltung des Mobilfunkgeräts 45 die Datenübermittlung vorzunehmen. Das Mobilfunkgerät 45 leitet in diesem -weniger bevorzugten - Fall die von der Verteilereinheit 20 erhaltenen Daten an die Kopfhörer 40 weiter. Gleichzeitig kann die Positionsinformation auch dazu genutzt werden, die Dauer der Zeitverzögerung für die Wiedergabe der zweiten Audiodaten entsprechend anzupassen.
Bevorzugt zu der zunächst dargestellten Variante wäre auch denkbar, dass die Kopfhörer 40 selbst entsprechende Mittel zum Aufbau einer Kommunikationsverbindung mit der Verteilereinheit sowie zum Auswählen einer von dem Zuschauer gewünschten Sprache aufweisen. Diese Ausführungsform ist in Figur 4 dargestellt, welche eine beispielhafte seitliche Ansicht eines entsprechenden Kopfhörers 40 zeigt. An dessen Seite befindet sich in diesem Fall eine Anzeige 48, welche den ausgewählten Sprachkanal anzeigt, wobei dieser mit Hilfe einfacher Bedientasten 49 oder einem digitalen oder sensorischen Bedienfeld gewechselt werden kann. Der Kopfhörer 40 ist hierbei über entsprechende Kommunikationsmittel (z.B. Funk, Bluetooth, wLAN oder drahtgebunden) mit der zentralen Verteilereinheit 20 gekoppelt. Die Figuren 5 und 6 zeigen schließlich ein denkbares Ausführungsbeispiel eines
Kopfhörers 40, der derart ausgestaltet ist, dass er im Sinne der vorliegenden Erfindung das Wahmehmen der durch den Kopfhörer 40 abgegebenen akustischen Signale sowie gleichzeitig auch der zentral ausgegebenen akustischen Signale ermöglicht. Entsprechend einem klassischen Kopfhörer weist auch das in den Figuren 5 und 6 dargestellte Ausführungsbeispiel einen etwa U-förmigen Bügel 50 auf, an dessen beiden einander gegenüberliegenden Enden entsprechende Lautsprecher 51 zur Abgabe der akustischen Signale angeordnet sind. Das zusätzliche Wahrnehmen externer akustischer Signale, insbesondere also der von den zentralen Lautsprechern 30 abgegebenen akustischen Signale wird dadurch ermöglicht, dass ausgehend von dem jeweiligen etwa zylinderartigen Lautsprechergehäuse 52 ein sich konisch erweiterndes Abstützelement 55 vorgesehen ist, welches am Kopf eines Zuhörers das jeweilige Ohr umschließend angeordnet ist, wobei allerdings die Wand 56 dieses Ab Stützelements 55 schalldurchlässig ausgeführt ist. Im dargestellten Ausführungsbeispiel wird die Schalldurchlässigkeit dadurch erzielt, dass der Wandbereich 56 gitterartig ausgeführt ist und dementsprechend eine Vielzahl von Öffnungen aufweist, welche den im Wesentlichen ungehinderten Schalldurchtritt ermöglichen. Alternativ hierzu wäre es selbstverständlich auch denkbar, den Wandbereich 56 des Abstützelements 55 geschlossen auszuführen, hierfür allerdings dann ein Material zu verwenden, welches schalldurchlässig ist. Zu denken wäre hierbei beispielsweise Schaumgummi oder ein vergleichbares Material.
In der dargestellten Form ermöglicht also der Kopfhörer 40 das Wahmehmen der beiden Anteile an akustischen Signalen, wobei aufgrund der Anordnung der eigentlichen Lautsprecher 51 in unmittelbarer Nähe des Benutzers sichergestellt ist, dass im Wesentlichen ausschließlich der Benutzer des Kopfhörers 40 die durch den Kopfhörer 40 wiedergegebenen akustischen Signale hört. Zwar werden diese möglicherweise sehr schwach auch von einem benachbarten Zuhörer wahrgenommen werden können, allerdings wird das Hörerlebnis gemäß der vorliegenden Erfindung hierdurch nicht entscheidend beeinflusst.
Wie bereits erwähnt, wäre grundsätzlich allerdings auch denkbar, alternativ zu dem dargestellten Kopfhörer anderweitig ausgestaltete zweite Audio-Wiedergabemittel zu verwenden. Sofern diese in geeigneter Weise, insbesondere in Nähe des Zuhörers angeordnet werden, kann auch mit derartigen Wiedergabemitteln das erfindungsgemäß angestrebte natürlich-räumliche Klangerlebnis erzielt werden.
Letztendlich wird somit ein äußerst komfortables, benutzerfreundliches und verlässliches System zur Wiedergabe von Audioinformationen geschaffen, welches eine sehr hohe Flexibilität hinsichtlich der Möglichkeiten zur Anpassung der wiedergegebenen Informationen aufweist, andererseits ein qualitativ extrem hochwertiges Hörerlebnis gewährleistet. Dabei soll abschließend nochmals daraufhingewiesen werden, dass das Verfahren nicht auf den Anwendungsfall der gleichzeitigen Wiedergabe von Audio- und Bild- /Videoinformationen beschränkt ist. Tatsächlich wäre es denkbar, das erfindungsgemäße Konzept auch bei der Wiedergabe ausschließlich von Audiodaten zu nutzen. Ferner könnte das Verfahren auch von lediglich einem einzigen Benutzer in einem beliebigen Raum oder im Freien genutzt werden.

Claims

Ansprüche 1. Verfahren zur Übermittlung und Wiedergabe akustischer Informationen, vorzugsweise in einer Multimedia-Anwendung, welches folgende Schritte aufweist: a) Bereitstellen von in digitaler Form vorliegenden akustischen Daten, welche einen ersten Datenteil und einen zweiten Datenteil umfassen, wobei der erste Datenteil keine Sprachinformationen enthält und der zweite Datenteil Sprachinformationen enthält; b) Übermitteln des ersten Datenteils an erste Audio-Wiedergabemittel (30) und Ausgabe akustischer Signale, die dem ersten Datenteil entsprechen, durch die ersten Audio-Wiedergabemittel (30); c) Übermitteln des zweiten Datenteils an zweite Audio-Wiedergabemittel (40) und Ausgabe akustischer Signale, die dem zweiten Datenteil entsprechen durch die zweiten Audio-Wiedergabemittel (40); wobei die zweiten Audio-Wiedergabemittel (40) in Bezug auf einen ihnen zugewiesenen Benutzer (101, 102) anders positioniert sind als die ersten Audio-Wiedergabemittel (30), insbesondere in unmittelbarer Nähe des Benutzers (101, 102), und derart ausgebildet sind, dass
• der Benutzer (101, 102) die von den ersten Audio-Wiedergabemitteln (30) abgegebenen akustischen Signale hören kann und
• die von den zweiten Audio-Wiedergabemitteln (40) abgegebenen akustischen Signale im Wesentlichen ausschließlich durch den Benutzer (101, 102) gehört werden können.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass mehrere Benutzer (101, 102) vorhanden sind, denen jeweils individuell zweite Audio-Wiedergabemittel (40) zugeordnet sind, wobei die von den ersten Audio-Wiedergabemitteln (30) abgegebenen akustischen Signale durch alle Benutzer (101, 102) gemeinsam gehört werden können und die von den zweiten Audio-Wiedergabemittel (40) abgegebenen akustischen Signale im Wesentlichen ausschließlich durch den jeweiligen Benutzer (101, 102) dieses zweiten Audio-Wiedergabemittels (40) gehört werden können.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der den zweiten Audio-Wiedergabemitteln (40) übermittelte zweite Datenteil individuell von dem Benutzer (101, 102) gewählt wird, insbesondere derart, dass die in dem zweiten Datenteil enthaltenen Sprachinformationen in einer durch den Benutzer (101, 102) gewählten Sprache vorliegen.
4. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass der zweite Datenteil modifiziert wird, um den Raum bzw. den Ort der Wiedergabe der akustischen Informationen zu berücksichtigen, wobei für den Fall, dass mehrere Benutzer (101, 102) vorhanden sind, der zweite Datenteil vorzugsweise für alle Benutzer (101, 102) in gleicher Weise modifiziert wird.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass das Modifizieren des zweiten Datenteils durch Verwendung eines bi-nauralen Filters erfolgt, wobei Parameter des Filters vorzugsweise anhand zuvor durchgeführter Testmessungen ermittelt werden.
6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass das Modifizieren des zweiten Datenteils vor der Übermittlung des zweiten Datenteils zentral erfolgt.
7. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass der zweite Datenteil vor der Wiedergabe der akustischen Signale durch die zweiten Audio-Wiedergabemittel (40) individuell modifiziert wird, um die Position der zweiten Audio-Wiedergabemittel (40) in Relation zu den ersten Audio- Wiedergabemitteln (30) sowie die Ausrichtung der zweiten Audio-Wiedergabemittel (40) zu berücksichtigen.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass das Modifizieren durch die zweiten Audio-Wiedergabemittel (40) erfolgt, wobei das Modifizieren insbesondere das Berücksichtigen einer zeitlichen Verzögerung der Wiedergabe betrifft.
9. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass zeitgleich mit der Übermittlung und Wiedergabe der akustischen Informationen optische Informationen, insbesondere Videoinformationen wiedergegeben werden.
10. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Übermitteln des zweiten Datenteils drahtlos, optional mit Hilfe eines mit den zweiten Audio-Wiedergabemitteln (40) gekoppelten Mobilfunkgeräts erfolgt.
11. System zur Übermittlung und Wiedergabe akustischer Informationen, vorzugsweise in einer Multimedia-Anwendung, welches aufweist: a) eine Speichereinrichtung (5) zum Bereitstellen von in digitaler Form vorliegenden akustischen Daten, welche einen ersten Datenteil und einen zweiten Datenteil umfassen, wobei der erste Datenteil keine Sprachinformationen enthält und der zweite Datenteil Sprachinformationen enthält; b) Mittel zur Übermittlung (15) des ersten Datenteils an erste Audio- Wiedergabemittel (30); c) erste Audio-Wiedergabemittel (30) zur Ausgabe akustischer Signale, die dem ersten Datenteil entsprechen; d) Mittel zur Übermittlung (20) des zweiten Datenteils an zweite Audio- Wiedergabemittel (40); e) zweite Audio-Wiedergabemittel (40) zur Ausgabe akustischer Signale, die dem zweiten Datenteil entsprechen; wobei die zweiten Audio-Wiedergabemittel (40) in Bezug auf einen ihnen zugewiesenen Benutzer (101, 102) anders positioniert sind als die ersten Audio- Wiedergabemittel (30), insbesondere in unmittelbarer Nähe des Benutzers (101, 102), und derart ausgebildet sind, dass · der Benutzer (101, 102) die von den ersten Audio-Wiedergabemitteln (30) abgegebenen akustischen Signale hören kann und • die von den zweiten Audio-Wiedergabemitteln (40) abgegebenen akustischen Signale im Wesentlichen ausschließlich durch den Benutzer (101, 102) gehört werden können
12. System nach Anspruch 11, dadurch gekennzeichnet, dass es sich bei den ersten Audio-Wiedergabemitteln (30) um eine Anordnung aus einem oder mehreren Lautsprechern handelt und dass es sich bei den zweiten Audio-Wiedergabemitteln (40) um einen Kopfhörer handelt.
13. System nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass dieses mehrere zweite Audio-Wiedergabemittel (40) aufweist.
14. System nach einem der Ansprüche 11 bis 13, dadurch gekennzeichnet, dass der den zweiten Audio-Wiedergabemitteln (40) übermittelte zweite Datenteil individuell von dem Benutzer (101, 102) gewählt wird, insbesondere derart, dass die in dem zweiten Datenteil enthaltenen Sprachinformationen in einer durch den Benutzer (101, 102) gewählten Sprache vorliegen.
15. System nach einem der Ansprüche 11 bis 14, dadurch gekennzeichnet, dass dieses zusätzliche Mittel (10, 50) zur synchronen Wiedergabe von Videodaten aufweist.
EP20821040.1A 2019-12-16 2020-12-15 Verfahren und system zur übermittlung und wiedergabe akustischer informationen Pending EP4078993A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP19216412.7A EP3840405A1 (de) 2019-12-16 2019-12-16 Verfahren und system zur übermittlung und wiedergabe akustischer informationen
PCT/EP2020/086137 WO2021122540A1 (de) 2019-12-16 2020-12-15 Verfahren und system zur übermittlung und wiedergabe akustischer informationen

Publications (1)

Publication Number Publication Date
EP4078993A1 true EP4078993A1 (de) 2022-10-26

Family

ID=68917526

Family Applications (2)

Application Number Title Priority Date Filing Date
EP19216412.7A Withdrawn EP3840405A1 (de) 2019-12-16 2019-12-16 Verfahren und system zur übermittlung und wiedergabe akustischer informationen
EP20821040.1A Pending EP4078993A1 (de) 2019-12-16 2020-12-15 Verfahren und system zur übermittlung und wiedergabe akustischer informationen

Family Applications Before (1)

Application Number Title Priority Date Filing Date
EP19216412.7A Withdrawn EP3840405A1 (de) 2019-12-16 2019-12-16 Verfahren und system zur übermittlung und wiedergabe akustischer informationen

Country Status (3)

Country Link
US (1) US20230046511A1 (de)
EP (2) EP3840405A1 (de)
WO (1) WO2021122540A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115623123A (zh) * 2021-07-13 2023-01-17 北京荣耀终端有限公司 一种音频处理方法及设备
US11895472B2 (en) * 2022-06-08 2024-02-06 Bose Corporation Audio system with mixed rendering audio enhancement

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5577295A (en) * 1978-12-06 1980-06-10 Matsushita Electric Ind Co Ltd Acoustic reproducing device
JP3134254B2 (ja) * 1992-07-30 2001-02-13 クレイアー ブラザーズ オーディオ エンタープライゼス インコーポレイテッド コンサートオーディオシステム
US8139797B2 (en) * 2002-12-03 2012-03-20 Bose Corporation Directional electroacoustical transducing
TWI475896B (zh) * 2008-09-25 2015-03-01 Dolby Lab Licensing Corp 單音相容性及揚聲器相容性之立體聲濾波器
NL2006997C2 (en) * 2011-06-24 2013-01-02 Bright Minds Holding B V Method and device for processing sound data.
US9584871B2 (en) * 2013-12-19 2017-02-28 Echostar Technologies L.L.C. Smartphone bluetooth headset receiver
EP3437342B1 (de) * 2016-05-06 2020-12-02 Klante, Wolfgang Michael Verfahren mit audiokommunikationssystemen mit programmierung eines optischen lesers für geführte touren
US11461072B1 (en) * 2020-09-10 2022-10-04 Stacey Castillo Movie theater audio distribution system and method of use

Also Published As

Publication number Publication date
US20230046511A1 (en) 2023-02-16
EP3840405A1 (de) 2021-06-23
WO2021122540A1 (de) 2021-06-24

Similar Documents

Publication Publication Date Title
EP3149969B1 (de) Ermittlung und nutzung hörraumoptimierter übertragungsfunktionen
DE10328335B4 (de) Wellenfeldsyntesevorrichtung und Verfahren zum Treiben eines Arrays von Lautsprechern
EP1800517B1 (de) Vorrichtung und verfahren zur ansteuerung einer beschallungsanlage und beschallungsanlage
AU2019200907B2 (en) Method and device for rendering acoustic signal, and computer-readable recording medium
DE19634155B4 (de) Verfahren zur Simulation der akustischen Qualität eines Raumes und damit verbundener Audio-Digitaler Prozessor
DE2244162C3 (de) «system
DE19950319A1 (de) Verfahren zum Synthetisieren eines dreidimensionalen Schallfeldes
AT394650B (de) Elektroakustische anordnung zur wiedergabe stereophoner binauraler audiosignale ueber kopfhoerer
DE102004035046A1 (de) Hörhilfe-oder Kommunikationssystem mit virtuellen Signalquellen
EP4078993A1 (de) Verfahren und system zur übermittlung und wiedergabe akustischer informationen
EP3044972B1 (de) Vorrichtung, verfahren und computerprogramm zur dekorrelation von lautsprechersignalen
DE102006017791A1 (de) Wiedergabegerät und Wiedergabeverfahren
US20060083383A1 (en) Dynamically controlled digital audio signal processor
DE102005001395B4 (de) Verfahren und Vorrichtung zur Transformation des frühen Schallfeldes
DE112021003592T5 (de) Informationsverarbeitungsvorrichtung, Ausgabesteuerverfahren und Programm
WO2015101413A2 (de) Verfahren zur audiowiedergabe in einem mehrkanaltonsystem
EP3314915A1 (de) Verfahren zur schallwiedergabe in reflexionsumgebungen, insbesondere in hörräumen
DE102004025533A1 (de) Verfahren und System zur Wiedergabe von Audio-Surroundsignalen
DE112021004887T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungssystem
DE2126677B1 (de) Kopfhörer zur Wiedergabe stereophoner Darbietungen
DE102018210053A1 (de) Verfahren zur Audio-Wiedergabe in einem Hörgerät
EP2503799B1 (de) Verfahren und System zur Berechnung synthetischer Außenohrübertragungsfunktionen durch virtuelle lokale Schallfeldsynthese
AT413010B (de) Vorrichtung zur herleitung von räumlichen schallsignalen
EP3267621B1 (de) Verfahren zur erzeugung eines an einen realen endpunkt zu übermittelnden gesamtraumklangs, verwendung des verfahrens sowie telekonferenzsystem
EP3937515A1 (de) Invarianzgesteuerter elektroakustischer übertrager

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20220629

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)